CN110458059B - 一种基于计算机视觉的手势识别方法及识别装置 - Google Patents
一种基于计算机视觉的手势识别方法及识别装置 Download PDFInfo
- Publication number
- CN110458059B CN110458059B CN201910693252.XA CN201910693252A CN110458059B CN 110458059 B CN110458059 B CN 110458059B CN 201910693252 A CN201910693252 A CN 201910693252A CN 110458059 B CN110458059 B CN 110458059B
- Authority
- CN
- China
- Prior art keywords
- frame
- hand
- gesture
- image
- fingertip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 85
- 239000011159 matrix material Substances 0.000 claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 230000000306 recurrent effect Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 27
- 230000033001 locomotion Effects 0.000 claims description 16
- 230000009191 jumping Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 2
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000004898 kneading Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于计算机视觉的手势识别方法及识别装置,能够提高手势定位、手势识别的准确率,解决了在自然条件下,手势识别过程不能充分的利用图像信息,且忽视时序特征的问题。所述方法包括:实时采集用户的手部视频;通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。本发明涉及人机交互领域。
Description
技术领域
本发明涉及人机交互领域,特别是指一种基于计算机视觉的手势识别方法及识别装置。
背景技术
在基于计算机视觉的手势识别领域中,有着非常多的难点,主要原因是手部的形状是多变的,而且手部动作具有时序性并非仅仅涉及到空间问题。在仅依赖图像数据的前提下,能够达到实时手势识别非常具有挑战性,所以实时手势识别向来是人机交互领域研究的热点问题。
自然条件下的手势识别主要涉及定位、识别和分类等多个过程。在以往的解决方案中很多研究者借助深度摄像机完成定位,或者通过运动帧差法结合肤色检测技术尝试找到手部位置,然而在深度摄像机普及率很低的情况下,第二种方法又因光照等因素导致稳定性和准确率都很差。同时手势识别阶段也非常依赖定位的准确性。手势是一个连续的过程,具有时序特征。由于技术发展的限制,之前的研究通常是将每一帧的特征做成一个集合,使用传统的机器学习手段如SVM(最大间隔分类器)进行分类,但这样会丢失了时序信息,导致手势识别准确率降低。
发明内容
本发明要解决的技术问题是提供一种基于计算机视觉的手势识别方法及识别装置,以解决现有技术所存在的手势定位、识别准确率低的问题。
为解决上述技术问题,本发明实施例提供一种基于计算机视觉的手势识别方法,包括:
实时采集用户的手部视频;
通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。
进一步地,在通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势之前,所述方法还包括:
获取用于手部目标检测的训练集;
构建用于手部目标检测的神经网络;
通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
进一步地,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态。
进一步地,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
进一步地,所述特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度;
所述根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵包括:
根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点,在分界点前后按顺序各选取m帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和均值处理,n表示对每帧图像提取了n维的手势特征向量。
本发明实施例还提供一种基于计算机视觉的手势识别装置,包括:
采集模块,用于实时采集用户的手部视频;
检测模块,用于通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
提取模块,用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
识别模块,用于通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。
进一步地,所述装置还包括:
获取模块,用于获取用于手部目标检测的训练集;
构建模块,用于构建用于手部目标检测的神经网络;
训练模块,用于通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
进一步地,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态。
进一步地,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
进一步地,所述特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度;
所述提取模块,具体用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点,在分界点前后按顺序各选取m帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和均值处理,n表示对每帧图像提取了n维的手势特征向量。
本发明的上述技术方案的有益效果如下:
上述方案中,实时采集用户的手部视频;通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。这样,通过目标检测算法确定每帧图像中手部的位置和手势状态,简单可靠、计算量小,能够提高手部定位的准确性和抗干扰性;且将手势运动的时序特征引入到手势识别过程中对手势进行识别,能够提高手势识别的准确率。
附图说明
图1为本发明实施例提供的基于计算机视觉的手势识别方法的流程示意图;
图2为本发明实施例提供的某视频样本的部分帧示意图;
图3为本发明实施例提供的捏取、张开状态下的标注示意图;
图4为本发明实施例提供的通过手部目标检测模型检测输出的手势状态和框选效果示意图;
图5为本发明实施例提供的特征矩阵提取流程示意图;
图6为本发明实施例提供的错误视频帧序列示意图;
图7为本发明实施例提供的基于计算机视觉的手势识别装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的手势定位、识别准确率低的问题,提供一种基于计算机视觉的手势识别方法及识别装置。
实施例一
如图1所示,本发明实施例提供的基于计算机视觉的手势识别方法
S101,实时采集用户的手部视频;
S102,通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
S103,根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
S104,通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。
本发明实施例所述的基于计算机视觉的手势识别方法,实时采集用户的手部视频;通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。这样,通过目标检测算法确定每帧图像中手部的位置和手势状态,简单可靠、计算量小,能够提高手部定位的准确性和抗干扰性;且将手势运动的时序特征引入到手势识别过程中对手势进行识别,能够提高手势识别的准确率。
本实施例所述的基于计算机视觉的手势识别方法,能够摆脱对于深度摄像机的依赖,适用场景更加广泛,且能同时完成静态手势和动态手势识别。动态手势是持续的运动过程,该过程每个时间点的手势状态顺序是不可逆的,此特征被称为时序特征。
为了更好地理解本实施例所述的基于计算机视觉的手势识别方法,对其进行详细说明,所述方法可以包括以下步骤:
S101,实时采集用户的手部视频。
本实施例中,可以直接通过普通摄像头实时采集用户的手部视频,然后利用S102中的目标检测算法完成手部定位,无需借助深度摄像机或手部传感器,且鲁棒性也更好。
S102,通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势。
本实施例所述的基于计算机视觉的手势识别方法目的是处理包含动态手势在内的完整手势识别方法,识别的数据都是视频,要求较高的实时性,所以本实施例中引用了YOLOv3目标检测算法,此算法的单帧图像检测速度能在30ms以内,能够满足实时性需求,识别准确率在目前所有的目标检测算法中也处于较高水平。
为了使用所述YOLOv3目标检测算法进行单帧图像检测,首先需要获得手部目标检测模型,最终目的是通过此手部目标检测模型来使用YOLOv3目标检测算法检测每帧图像。所述手部目标检测模型是通过对神经网络(目标检测算法属于神经网络的一种)训练得到的,具体可以包括以下步骤:
A1,获取用于手部目标检测的训练集,其中,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态;
本实施例中,由于视频样本中有很多图像是冗余或者噪音数据,如图2所示,图2是一个视频样本的部分帧,其中,手部出现的帧只集中在177-216帧,并且开始和末尾的手部是存在残缺的,所以需要通过数据清洗选出清晰、完整的图像作为训练集。
在得到训练集之后,需要对训练集中的图像进行标注。标注即对手部在图像中位置信息和手势状态进行提前记录,以便在训练神经网络的时候,会以此标注对神经网络的参数进行调节。如图3两个手势状态下的手部都被框选,左边为对捏取(pinch)状态的标注,右边为对张开(handstretch)和指尖(fingerstip)的标注。
A2,构建用于手部目标检测的神经网络;
A3,通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
本实施例中,将标注完毕的训练集数据分批次送入构建的神经网络进行训练,调节学习速率和动量参数来控制训练的速度,并通过调节权重衰减率调节神经网络的正则化程度,直至损失与迭代次数曲线不再下降,损失值接近于0,此时的神经网络为手部目标检测模型。所述手部目标检测模型可以使用YOLOv3目标检测算法对单帧图像进行目标检测,图4为通过手部目标检测模型检测输出的手势状态和框选效果。
本实施例中,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
S103,根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵,如图5所示,具体可以包括以下步骤:
根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点(alpha),在alpha前后按顺序各选取m(例如,m=10)帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n(20*n)维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和均值处理,n表示对每帧图像提取了n维的手势特征向量。本实施例中,特征矩阵是承上启下的部分,通过提取的特征矩阵原有的视频样本转为特征矩阵的形式,然后才能送入到循环神经网络中进行分析。特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度,其中,
1)单帧图像中的手势状态(简称:单帧手势状态)
本实施例中,单帧手势状态属于类别特征,无法用数值表示作为量化特征。但是它又是非常重要的信息,所以一定要使用。所以本方法将所有要分类的单帧手势状态并列写成独热形式,即由对应位置是否为1,其他位置为0表示是哪一种状态,组成的向量只包含0、1的向量,如表(1)为部分手势类别的独热编码。
表(1)部分手势类别的独热编码
捏取 | 1 | 0 | 0 | 0 | 0 | 0 |
张开 | 0 | 1 | 0 | 0 | 0 | 0 |
字母a | 0 | 0 | 1 | 0 | 0 | 0 |
字母b | 0 | 0 | 0 | 1 | 0 | 0 |
字母c | 0 | 0 | 0 | 0 | 1 | 0 |
字母d | 0 | 0 | 0 | 0 | 0 | 1 |
2)手部框选面积:由YOLOv3目标检测算法检测出的手部定位框的宽度、高度直接计算得到。由于直接计算出来的面积数值一般都很大,太大的数值会影响到后面的循环神经网络的训练效果,所以在得到一个视频样本的所有帧的检测结果后,统计计算出手部框选面积的均值,对所有帧数据进行中心化和缩放处理,将数值缩小至0-20之间。
3)指尖距离:由YOLOv3目标检测算法的检测结果(手部中心点的坐标、指尖中心点的坐标)计算出相邻指尖间的距离,并做中心化和缩放处理。
4)指尖运动梯度:借助每个指尖的中心点坐标,计算相邻两帧图像间,同一指尖在不同位置时的△y(相邻两帧图像在y轴上的位置差的绝对值)与△x(相邻两帧图像在x轴上的位置差的绝对值)比值。
S104,通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。
本实施例中,步骤S103从视频中提取的特征矩阵保持了原有的手势特征在时间维度上的先后顺序,可以使用循环神经网络来分析特征矩阵。长短期记忆网络(Long Short-Term Memory,LSTM)是一种时间循环神经网络,由于长短期记忆网络具有长时记忆特性,因此,本实施例选用LSTM来处理特征矩阵。
本实施例中,由于得到的特征矩阵是一个20*n矩阵,并不符合LSTM的序列数据的输入要求,但是可以将每一行作为一条单独的向量数据输入到每个时间步的细胞(cell)中,由于特征矩阵每一行由一帧图像提取而来,所以这实际上就是对视频部分帧的按序处理,这样就可以使用20个时间步长的LSTM网络来分析特征矩阵,并采用LSTM最后一个cell的输出,作为手势的识别结果。
本实施例将手势运动的时序特征引入到手势识别过程中对手势进行识别,能够提高手势识别的准确率,例如,如图6所示的视频帧序列,这是一个乱序的手势状态集合,如果采用传统的机器学习识别方法,只通过所有帧包含的状态信息,而没有时间顺序特征的话,很容易被误判为一种正常手势,而实际上此视频帧序列是错误样本,如果利用时序特征则不会误判。
实施例二
本发明还提供一种基于计算机视觉的手势识别装置的具体实施方式,由于本发明提供的基于计算机视觉的手势识别装置与前述基于计算机视觉的手势识别方法的具体实施方式相对应,该基于计算机视觉的手势识别装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述基于计算机视觉的手势识别方法具体实施方式中的解释说明,也适用于本发明提供的基于计算机视觉的手势识别装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图7所示,本发明实施例还提供一种基于计算机视觉的手势识别装置,包括:
采集模块11,用于实时采集用户的手部视频;
检测模块12,用于通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
提取模块13,用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
识别模块14,用于通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。
本发明实施例所述的基于计算机视觉的手势识别装置,实时采集用户的手部视频;通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势。这样,通过目标检测算法确定每帧图像中手部的位置和手势状态,简单可靠、计算量小,能够提高手部定位的准确性和抗干扰性;且将手势运动的时序特征引入到手势识别过程中对手势进行识别,能够提高手势识别的准确率。
在前述基于计算机视觉的手势识别装置的具体实施方式中,进一步地,所述装置还包括:
获取模块,用于获取用于手部目标检测的训练集;
构建模块,用于构建用于手部目标检测的神经网络;
训练模块,用于通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
在前述基于计算机视觉的手势识别装置的具体实施方式中,进一步地,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态。
在前述基于计算机视觉的手势识别装置的具体实施方式中,进一步地,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
在前述基于计算机视觉的手势识别装置的具体实施方式中,进一步地,所述特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度;
所述提取模块,具体用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点,在分界点前后按顺序各选取m帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和均值处理,n表示对每帧图像提取了n维的手势特征向量。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于计算机视觉的手势识别方法,其特征在于,包括:
实时采集用户的手部视频;
通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势;
其中,所述特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度;
所述根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵包括:
根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点,在分界点前后按顺序各选取m帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和均值处理,n表示对每帧图像提取了n维的手势特征向量;
其中,所述初始特征矩阵包括:单帧图像中的手势状态、手部中心点的坐标、指尖中心点的坐标以及手部定位框的宽度和高度;其中,
将单帧图像中的手势状态并列写成独热形式,即由对应位置是否为1,其他位置为0表示是哪一种手势状态,实现独热编码;
由手部定位框的宽度和高度确定手部框选面积,对手部框选面积进行均值和中心化处理;
由手部中心点的坐标、指尖中心点的坐标确定指尖距离,对指尖距离进行中心化处理;
由每个指尖的中心点坐标,计算相邻两帧图像间同一指尖在不同位置时的△y与△x比值,得到指尖运动梯度,其中,△y表示相邻两帧图像在y轴上的位置差的绝对值,△x表示相邻两帧图像在x轴上的位置差的绝对值。
2.根据权利要求1所述的基于计算机视觉的手势识别方法,其特征在于,在通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势之前,所述方法还包括:
获取用于手部目标检测的训练集;
构建用于手部目标检测的神经网络;
通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
3.根据权利要求2所述的基于计算机视觉的手势识别方法,其特征在于,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态。
4.根据权利要求1所述的基于计算机视觉的手势识别方法,其特征在于,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
5.一种基于计算机视觉的手势识别装置,其特征在于,包括:
采集模块,用于实时采集用户的手部视频;
检测模块,用于通过目标检测算法对采集的手部视频中的每帧图像进行目标检测,得到每帧图像中手部的位置和手势状态;
提取模块,用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧手势特征,保持手势特征在时间维度上的先后顺序,得到具有时序特征的特征矩阵;
识别模块,用于通过循环神经网络对得到的特征矩阵进行分析,识别出用户的手势;
其中,所述特征矩阵包括:单帧图像中的手势状态、手部框选面积、指尖距离和指尖运动梯度;
所述提取模块,具体用于根据检测得到的每帧图像中手部的位置和手势状态,提取每帧图像的手势特征,选出所有手势状态发生跳变的帧作为跳变节点帧,并选用最靠近该视频的帧集合中间位置的跳变节点帧为分界点,在分界点前后按顺序各选取m帧,如果前后帧不满m帧,则只在后m帧进行复制最后帧的补帧处理,组成2m*n维的初始特征矩阵,对初始特征矩阵进行处理,得到一个视频具有时序特征的特征矩阵,其中,所述处理包括:独热编码、中心化和均值处理,n表示对每帧图像提取了n维的手势特征向量;
其中,所述初始特征矩阵包括:单帧图像中的手势状态、手部中心点的坐标、指尖中心点的坐标以及手部定位框的宽度和高度;其中,
将单帧图像中的手势状态并列写成独热形式,即由对应位置是否为1,其他位置为0表示是哪一种手势状态,实现独热编码;
由手部定位框的宽度和高度确定手部框选面积,对手部框选面积进行均值和中心化处理;
由手部中心点的坐标、指尖中心点的坐标确定指尖距离,对指尖距离进行中心化处理;
由每个指尖的中心点坐标,计算相邻两帧图像间同一指尖在不同位置时的△y与△x比值,得到指尖运动梯度,其中,△y表示相邻两帧图像在y轴上的位置差的绝对值,△x表示相邻两帧图像在x轴上的位置差的绝对值。
6.根据权利要求5所述的基于计算机视觉的手势识别装置,其特征在于,所述装置还包括:
获取模块,用于获取用于手部目标检测的训练集;
构建模块,用于构建用于手部目标检测的神经网络;
训练模块,用于通过获取的训练集对构建的神经网络进行训练,得到手部目标检测模型,其中,所述手部目标检测模型,用于对采集的手部视频中的每帧图像进行目标检测。
7.根据权利要求6所述的基于计算机视觉的手势识别装置,其特征在于,所述训练集中的每帧图像是经过数据清洗和数据标注的,标注的信息包括:手部在图像中位置信息和手势状态。
8.根据权利要求5所述的基于计算机视觉的手势识别装置,其特征在于,通过目标检测算法检测得到的手部的位置包括:手部中心点的坐标、手部定位框的宽度和高度,以及指尖中心点的坐标、指尖定位框的宽度和高度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910693252.XA CN110458059B (zh) | 2019-07-30 | 2019-07-30 | 一种基于计算机视觉的手势识别方法及识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910693252.XA CN110458059B (zh) | 2019-07-30 | 2019-07-30 | 一种基于计算机视觉的手势识别方法及识别装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458059A CN110458059A (zh) | 2019-11-15 |
CN110458059B true CN110458059B (zh) | 2022-02-08 |
Family
ID=68484006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910693252.XA Expired - Fee Related CN110458059B (zh) | 2019-07-30 | 2019-07-30 | 一种基于计算机视觉的手势识别方法及识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458059B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889387A (zh) * | 2019-12-02 | 2020-03-17 | 浙江工业大学 | 一种基于多轨迹匹配的实时动态手势识别方法 |
CN111158467A (zh) * | 2019-12-12 | 2020-05-15 | 青岛小鸟看看科技有限公司 | 一种手势交互方法和终端 |
CN113071438B (zh) * | 2020-01-06 | 2023-03-24 | 北京地平线机器人技术研发有限公司 | 控制指令的生成方法和装置、存储介质、电子设备 |
CN111444771B (zh) * | 2020-02-27 | 2022-06-21 | 浙江大学 | 一种基于循环神经网络的手势前置实时识别方法 |
CN111598081A (zh) * | 2020-04-09 | 2020-08-28 | 浙江工业大学 | 一种七步洗手法操作规范性自动检测方法 |
TWI777153B (zh) * | 2020-04-21 | 2022-09-11 | 和碩聯合科技股份有限公司 | 影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置 |
CN112149540A (zh) * | 2020-09-14 | 2020-12-29 | 东北大学 | 基于yolov3端到端手语识别技术 |
CN112257845A (zh) * | 2020-10-12 | 2021-01-22 | 萱闱(北京)生物科技有限公司 | 一种基于改进lstm模型的按压动作识别方法 |
CN112580577B (zh) * | 2020-12-28 | 2023-06-30 | 出门问问(苏州)信息科技有限公司 | 一种基于面部关键点生成说话人图像的训练方法及装置 |
CN115643485B (zh) * | 2021-11-25 | 2023-10-24 | 荣耀终端有限公司 | 拍摄的方法和电子设备 |
CN115061574B (zh) * | 2022-07-06 | 2023-03-31 | 大连厚仁科技有限公司 | 一种基于视觉核心算法的人机交互系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038424A (zh) * | 2017-04-20 | 2017-08-11 | 华中师范大学 | 一种手势识别方法 |
CN107679512A (zh) * | 2017-10-20 | 2018-02-09 | 济南大学 | 一种基于手势关键点的动态手势识别方法 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN109961005A (zh) * | 2019-01-28 | 2019-07-02 | 山东大学 | 一种基于二维卷积网络的动态手势识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9857881B2 (en) * | 2015-12-31 | 2018-01-02 | Microsoft Technology Licensing, Llc | Electrical device for hand gestures detection |
-
2019
- 2019-07-30 CN CN201910693252.XA patent/CN110458059B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038424A (zh) * | 2017-04-20 | 2017-08-11 | 华中师范大学 | 一种手势识别方法 |
CN107679512A (zh) * | 2017-10-20 | 2018-02-09 | 济南大学 | 一种基于手势关键点的动态手势识别方法 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN109961005A (zh) * | 2019-01-28 | 2019-07-02 | 山东大学 | 一种基于二维卷积网络的动态手势识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
Real-Time Sign Language Gesture (Word) Recognition from Video Sequences Using CNN and RNN;Sarfaraz Masood等;《Intelligent Engineering Informatics》;20180411;623-632 * |
基于改进型多维卷积神经网络的微动手势识别方法;李玲霞等;《计算机工程》;20171013(第09期);249-255 * |
Also Published As
Publication number | Publication date |
---|---|
CN110458059A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458059B (zh) | 一种基于计算机视觉的手势识别方法及识别装置 | |
CN109919977B (zh) | 一种基于时间特征的视频运动人物跟踪与身份识别方法 | |
CN110321833B (zh) | 基于卷积神经网络和循环神经网络的人体行为识别方法 | |
Naguri et al. | Recognition of dynamic hand gestures from 3D motion data using LSTM and CNN architectures | |
CN107103326A (zh) | 基于超像素聚类的协同显著性检测方法 | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及系统 | |
CN111652017B (zh) | 一种动态手势识别方法及系统 | |
CN102073870A (zh) | 一种触摸屏汉字笔迹识别方法 | |
CN110458235B (zh) | 一种视频中运动姿势相似度比对方法 | |
CN109558855B (zh) | 一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法 | |
CN111985333B (zh) | 一种基于图结构信息交互增强的行为检测方法及电子装置 | |
Zhou et al. | Multi-type self-attention guided degraded saliency detection | |
Min et al. | FlickerNet: Adaptive 3D Gesture Recognition from Sparse Point Clouds. | |
WO2018076484A1 (zh) | 一种基于视频的捏合指尖跟踪方法 | |
CN111105443A (zh) | 一种基于特征关联的视频群体人物运动轨迹跟踪方法 | |
Ren et al. | Image set classification using candidate sets selection and improved reverse training | |
CN111291713B (zh) | 一种基于骨架的手势识别方法及系统 | |
Beg et al. | Text writing in the air | |
CN110232337B (zh) | 基于全卷积神经网络的中文字符图像笔划提取方法、系统 | |
Xiao et al. | Trajectories-based motion neighborhood feature for human action recognition | |
Zerrouki et al. | Deep Learning for Hand Gesture Recognition in Virtual Museum Using Wearable Vision Sensors | |
CN111651038A (zh) | 基于ToF的手势识别控制方法及其控制系统 | |
Bai et al. | Dynamic hand gesture recognition based on depth information | |
Zerrouki et al. | Exploiting deep learning-based LSTM classification for improving hand gesture recognition to enhance visitors’ museum experiences | |
CN112232217B (zh) | 手势识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220208 |