CN112861808B - 动态手势识别方法、装置、计算机设备及可读存储介质 - Google Patents
动态手势识别方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN112861808B CN112861808B CN202110294180.9A CN202110294180A CN112861808B CN 112861808 B CN112861808 B CN 112861808B CN 202110294180 A CN202110294180 A CN 202110294180A CN 112861808 B CN112861808 B CN 112861808B
- Authority
- CN
- China
- Prior art keywords
- skeleton
- hand
- sequence
- combinations
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008859 change Effects 0.000 claims abstract description 51
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 48
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000033001 locomotion Effects 0.000 claims description 78
- 210000000988 bone and bone Anatomy 0.000 claims description 50
- 210000002411 hand bone Anatomy 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000000712 assembly Effects 0.000 claims description 4
- 238000000429 assembly Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 20
- 210000004247 hand Anatomy 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 210000000707 wrist Anatomy 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 210000000245 forearm Anatomy 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 210000002832 shoulder Anatomy 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000002478 hand joint Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例提供了一种动态手势识别方法、装置、计算机设备及可读存储介质,其中,该方法包括:从视频流中提取人体骨骼序列和手部骨骼序列,人体骨骼序列包括多组人体骨骼组合,手部骨骼序列包括多组手部骨骼组合;针对每组人体骨骼组合和每组手部骨骼组合分别提取骨骼变化特征;将每组人体骨骼组合对应的骨骼变化特征标注在人体骨骼序列中,将标注后的人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在手部骨骼序列中,将标注后的手部骨骼序列输入双流网络预测模型的另一个卷积神经网络中,双流网络预测模型输出手势识别结果,双流网络预测模型是训练双流卷积神经网络得到的。
Description
技术领域
本发明涉及动态识别技术领域,特别涉及一种动态手势识别方法、装置、计算机设备及可读存储介质。
背景技术
手势识别这个术语指的是识别人类手势和转换为语义上有意义的命令的整个过程。一般而言,从手势交互信息采集的途径是接触式还是非接触式的,可将手势交互系统划分为基于接触式的传感器和基于非接触类的传感器的两类。基于非接触式传感器的手势识别通常基于使用光学传感、深度传感、雷达探测、红外探测等技术。
基于接触式传感器的手势识别通常基于使用多个传感器的数据手套、加速度计、多点触摸屏等技术。此类技术虽然准确率较高,但是,仍需要特殊的硬件支持,应用方面受到极大的限制。
非接触式传感手势识别中,基于光学摄像头或深度摄像头的方法最为普及与常见,其中:
基于手势和特点,分为静态手势识别和动态手势识别;
基于数据信息的维度,分为2D和3D的手势识别(3D比2D多了深度信息);
基于数据采集形式,分为基于RGB(RGBD)和基于骨骼点的手势识别。
本申请涉及的是基于骨骼点的动态手势识别(不限于2D或3D数据)。
在这一类方法里面,近几年比较有代表性的方法包括但不限于:骨骼点+卷积神经网络、骨骼点+循环神经网络和骨骼点+时空图卷积网络等方法。由于手势识别对于实时性以及轻量化的要求,基于骨骼点+卷积神经网络(Double-feature Double-motionNetwork,简称为DD-Net)的方法在众多方法中因为模型十分轻量化,运行速度很快,同时保证较好的精确度,可以用于边缘设备上的姿态识别和手势识别,而具备较强的的实用性。
但是DD-Net在进行手势识别的过程中,仅仅使用手部骨骼的特征,限制了DD-Net在实践中准确率的进一步提升。
发明内容
本发明实施例提供了一种动态手势识别方法,以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。该方法包括:
从视频流中提取人体骨骼序列和手部骨骼序列,其中,所述人体骨骼序列包括多组人体骨骼组合,所述手部骨骼序列包括多组手部骨骼组合;
针对每组人体骨骼组合提取骨骼变化特征,针对每组手部骨骼组合提取骨骼变化特征;
将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型输出手势识别结果,其中,所述双流网络预测模型是训练双流卷积神经网络得到的。
本发明实施例还提供了一种动态手势识别装置,以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。该装置包括:
骨骼序列提取模块,用于从视频流中提取人体骨骼序列和手部骨骼序列,其中,所述人体骨骼序列包括多组人体骨骼组合,所述手部骨骼序列包括多组手部骨骼组合;
特征提取模块,用于针对每组人体骨骼组合提取骨骼变化特征,针对每组手部骨骼组合提取骨骼变化特征;
识别手势模块,用于将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型输出手势识别结果,其中,所述双流网络预测模型是训练双流卷积神经网络得到的。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的动态手势识别方法,以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的动态手势识别方法的计算机程序,以解决现有技术中基于手部骨骼的特征进行手势识别存在的准确率低的技术问题。
在本发明实施例中,提出了提取人体骨骼序列和手部骨骼序列,进而基于人体骨骼序列提取每组人体骨骼组合对应的骨骼变化特征,基于手部骨骼序列提取每组手部骨骼组合的骨骼变化特征,最后,将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型即可输出手势识别结果。即提出了结合人体骨骼序列和手部骨骼序列来实现动态手势识别,由于人体骨骼序列包括手腕、前臂、肩部等人体的多部位或多关节,同时提取每组人体骨骼组合提取骨骼变化特征,使得标注后的人体骨骼序列可以从宏观、整体上体现手部运动变化,由于手部骨骼序列包括了手部的多关节,同时提取每组手部骨骼组合提取骨骼变化特征,使得标注后的手部骨骼序列可以从手部的局部、细节上体现手部运动变化,进而实现了综合手部的宏观变化和细节变化来识别动态手势,与现有技术中仅基于手部骨骼特征识别手势的技术方案相比,可以增强和补充更多的手部运动信息,有利于提高动态手势识别的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例提供的一种动态手势识别方法的流程图;
图2是本发明实施例提供的一种双流网络预测模型的训练和预测的流程图;
图3是本发明实施例提供的一种人体骨骼组合的示意图;
图4是本发明实施例提供的一种手部骨骼组合的示意图;
图5是本发明实施例提供的一种关节点联合收集距离特征的示意图;
图6是本发明实施例提供的一种双流网络预测模型的网络结构示意图;
图7是本发明实施例提供的一种计算机设备的结构框图;
图8是本发明实施例提供的一种动态手势识别装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
本申请发明人发现,在实际的手势操作过程种,除了手部骨骼点有变化以外,人体的手腕、前臂、肩部等部位或关节也贡献了很强的位置以及运动变化的特征,尤其是在向左向右滑动等幅度稍大的动作中;且在拍摄条件以及硬件设备受限制导致手部骨骼点提取缺失的情况下,引入人体骨骼特征还能够对手部骨骼点缺陷提供很好的互补,即人体骨骼特征的使用,既可以增强和补充手部骨骼点的相关信息,又可以综合人体骨骼特征体现的运动变化信息和手部骨骼特征体现的运动变化信息来提高识别准确率,因此,提出了基于人体骨骼序列和手部骨骼序列进行动态手势识别的上述动态手势识别方法。
在本发明实施例中,提供了一种动态手势识别方法,如图1所示,该方法包括:
步骤102:从视频流中提取人体骨骼序列和手部骨骼序列,其中,所述人体骨骼序列包括多组人体骨骼组合,所述手部骨骼序列包括多组手部骨骼组合;
步骤104:针对每组人体骨骼组合提取骨骼变化特征,针对每组手部骨骼组合提取骨骼变化特征;
步骤106:将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型输出手势识别结果,其中,所述双流网络预测模型是训练双流卷积神经网络得到的。
由图1所示的流程可知,在本发明实施例中,提出了提取人体骨骼序列和手部骨骼序列,进而基于人体骨骼序列提取每组人体骨骼组合对应的骨骼变化特征,基于手部骨骼序列提取每组手部骨骼组合的骨骼变化特征,最后,将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型即可输出手势识别结果。即提出了结合人体骨骼序列和手部骨骼序列来实现动态手势识别,由于人体骨骼序列包括手腕、前臂、肩部等人体的多部位或多关节,同时提取每组人体骨骼组合提取骨骼变化特征,使得标注后的人体骨骼序列可以从宏观、整体上体现手部运动变化,由于手部骨骼序列包括了手部的多关节,同时提取每组手部骨骼组合提取骨骼变化特征,使得标注后的手部骨骼序列可以从手部的局部、细节上体现手部运动变化,进而实现了综合手部的宏观变化和细节变化来识别动态手势,与现有技术中仅基于手部骨骼特征识别手势的技术方案相比,可以增强和补充更多的手部运动信息,有利于提高动态手势识别的准确率。
具体实施时,如图2所示,在训练双流网络预测模型的过程中,基于自采视频数据进行视频解码和分段,视频数据标注,进而对每段视频提取人体和手部骨骼坐标得到人体骨骼序列和手部骨骼序列,对人体骨骼序列和手部骨骼序列数据增强后分别进行骨骼变化特征提取,最后,将骨骼变化特征分别标注在人体骨骼序列和手部骨骼序列中,再将标注后的人体骨骼序列和手部骨骼序列并行输入双流卷积神经网络进行训练,得到双流网络预测模型,之后可以采用双流网络预测模型进行预测,预测的过程与双流网络预测模型的训练过程大致相似,基于实时视频流进行视频解码和分段,进而对每段视频提取人体和手部骨骼坐标得到人体骨骼序列和手部骨骼序列,再对人体骨骼序列和手部骨骼序列分别提取骨骼变化特征,最后,将骨骼变化特征分别标注在人体骨骼序列和手部骨骼序列中,再将标注后的人体骨骼序列和手部骨骼序列并行输入双流网络预测模型,双流网络预测模型即可输出手势识别结果。
具体实施时,在提取人体骨骼序列和手部骨骼序列的过程中,可以通过以下步骤实现:
将视频流按照帧转换为多个连续的图像序列,每个所述图像序列包括多帧图像;具体的,可以对视频流按照指定的帧率FPS进行解码抽帧,再按照T帧为一个分段,将视频流转换为连续的分段的图像序列,即每个图像序列中包含T帧图像。
针对每个图像序列的每帧图像,计算骨骼点的坐标,提取一个人体骨骼组合和一个手部骨骼组合,按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列,按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列。
具体的,可以针对图像序列的每帧图像提取骨骼点的坐标,例如,可以采用OpenPose方法提取每一帧图像中骨骼点的笛卡尔坐标,如图3所示,每帧图像中目标人体(当图像中存在多个人,可按照位置中心或置信度筛选最合适的一个人为目标人体)的骨骼点组成一组人体骨骼组合,一组人体骨骼组合可以体现出整个人体的骨骼架构,一组人体骨骼组合可以包含18个骨骼点,骨骼点可以为人体关节点,图像序列中各帧图像对应的人体骨骼组合组成人体骨骼序列,如果用jbti表示分段图像序列中第t帧第i个身体骨骼节点,则该图像序列(可视为一个视频分段)对应的人体骨骼序列可以表示为Jb={jbti|t=1,...,T,i=1,...,N},其中,N=18。
具体的,针对图像序列的每帧图像提取骨骼点的坐标后,每帧图像中目标人体的手部的骨骼点组成一组手部骨骼组合,对于手部骨骼点,每个人体骨骼中提取不超过两只手的手部骨骼,即一组手部骨骼组合最多包括两只手的手部骨骼点(具体的,每个目标人体一般可以对应提取两只手的手部骨骼点,由于拍摄角度等原因可能只能拍摄到一只手或拍不到手部),一组手部骨骼组合最多可以体现出两只手的骨骼架构,如图4所示,一组手部骨骼组合中每只手可以包含21个骨骼点,骨骼点可以为手部关节点,图像序列中各帧图像对应的手部骨骼组合组成手部骨骼序列,如果用jrti表示分段图像序列中第t帧第i个右手部的骨骼点,则该图像序列(可视为一个视频分段)对应的一个右手的手部骨骼序列可以表示为Jr={jrti|t=1,...,T,i=1,...,M},其中,M=21;同理,该图像序列(可视为一个视频分段)对应的一个左手的手部骨骼序列与右手的手部骨骼序列相似,可以表示为Jl={jlti|t=1,...,T,i=1,...,M}。
具体实施时,每帧图像中,如果存在手部骨骼被遮挡或因拍摄角度等问题无法提取时,则可以用人体骨骼中与缺失的手部骨骼最邻近的关节或对应手腕的坐标代替所有缺失的手部骨骼点数据。
具体实施时,提取出人体骨骼序列和手部骨骼序列之后,则可以对人体骨骼组合和手部骨骼组合分别提取骨骼变化特征,为了体现出更多、更准确的动态手势中手部的变化信息,在本实施例中,提取骨骼变化特征的过程为提取关节点联合收集距离特征和/或多尺度运动特征。
具体实施时,笛卡尔坐标特征随位置和视点的变化而变化,当骨骼旋转或移动时,笛卡尔坐标特征会发生显著变化;另一方面,几何特征(例如角度/距离)是位置-视点不变的,它可被用于基于骨架的动作识别,因此,引入了关节点联合收集距离特征。针对每组所述人体骨骼组合提取关节点联合收集距离(Joint Collection Distances,JCD)特征的过程与对每组所述手部骨骼组合提取关节点联合收集距离特征的过程相似,在此统一介绍提取关节点联合收集距离特征的过程,例如,针对每组所述人体骨骼组合或所述手部骨骼组合,计算每两个骨骼点之间的欧几里得距离,各欧几里得距离组成一个对称矩阵,为了减少冗余,将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征,如图5所示,该关节点联合收集距离特征可以显示出帧图像中每两个骨骼点之间的位置关系,综合图像序列中各帧图像的骨骼组合(人体骨骼组合或手部骨骼组合)对应的关节点联合收集距离特征,则可以显示出每两个骨骼点之间位置的动态变化情况。
具体的,针对每组所述人体骨骼组合提取关节点联合收集距离(JointCollection Distances,JCD)特征的过程与对每组所述手部骨骼组合提取关节点联合收集距离特征的过程存在的细微区别是,针对每组所述人体骨骼组合提取一个关节点联合收集距离特征,针对每组所述手部骨骼组合,则是针对每组所述手部骨骼组合中的每只手的骨骼组合对应提取一个关节点联合收集距离特征。
具体实施时,在提取关节点联合收集距离特征的过程中,以人体骨骼组合提取一个关节点联合收集距离特征为例(同理,对手部骨骼组合提取一个关节点联合收集距离特征时将公式中的N替换为M即可),可以通过以下公式计算关节点联合收集距离特征:
具体实施时,利用笛卡尔坐标特征在时间上的差异信息可以获得全局运动,并且具有位置不变性。然而,对于同样的运动,运动的规模可能并不完全相同,有些可能更快,有些可能更慢,要学习鲁棒的运动特征,需要同时考虑慢运动和快运动,因此,提出提取多尺度运动特征,针对每组所述人体骨骼组合提取多尺度运动特征的过程与对每组所述手部骨骼组合提取多尺度运动特征的过程相似,在此统一介绍提取多尺度运动特征的过程,例如,针对每组所述人体骨骼组合或所述手部骨骼组合中的每个骨骼点,计算该骨骼点在不同时间窗口下的运动幅度,各时间窗口下的运动幅度组成该骨骼点的多尺度运动特征,该多尺度运动特征可以表示出单个骨骼点在时间上的空间变化,即针对骨骼组合(人体骨骼组合或手部骨骼组合)的单个骨骼点,综合图像序列中各帧图像中该骨骼点对应的多尺度运动特征,则可以表示出该骨骼点的空间变化随着时间变价而动态变化的情况。
具体实施时,该多尺度运动特征是单个骨骼点在多个时间窗口下的运动幅度,例如,这里以单个骨骼点在两个时间窗口(一个表示缓慢运动(Slow Motion)的时间窗口,另一个表示快速运动(Fast Motion)的时间窗口)下的运动幅度为例,则多尺度运动特征简化为双尺度运动特征,则可以通过以下公式计算双尺度运动特征:
其中,代表缓慢运动的特征,/>代表快速运动的特征,Jt代表t时刻的骨骼点集合的坐标,Jt+1代表t+1时刻的骨骼点集合的坐标,Jt+2代表t+2时刻的骨骼点集合的坐标。具体的,在计算多尺度运动特征时,对应通过多个公式2所示的方程式计算不同时间窗口下的运动幅度即可。
具体实施时,得到每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征、每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,即可将每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征标注在人体骨骼序列中,进而将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中,如图6所示,多尺度运动特征以双尺度运动特征为例,多尺度运动特征为两路数据,加上关节点联合收集距离特征,则三路数据并行输入双流网络预测模型的一个卷积神经网络中,同理,将每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征标注在手部骨骼序列中,进而将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中,如图6所示,多尺度运动特征以双尺度运动特征为例,多尺度运动特征为两路数据,加上关节点联合收集距离特征,则三路数据并行输入双流网络预测模型的另一个卷积神经网络中,最后两个卷积神经网络的输出通过加权平均后经过一个Softmax层输出,从而得到最终的行为识别预测结果,如下公式(3)所示:
zbh=softmax(wbzb+whzh) 3)
其中,zbh代表识别预测结果;wb代表人体骨骼序列的权重;zb代表以人体骨骼为输入的网络输出;wh代表手部骨骼序列的权重;zh代表以手部骨骼为输入的网络输出。
可见,双流网络预测模型中对标注后的所述人体骨骼序列和标注后的所述手部骨骼序列是采用两个并行的卷积神经网络分别进行处理运算的,这样可以分别基于标注后的所述人体骨骼序列从宏观骨骼特征上识别动态手势的有关运动信息,基于标注后的所述手部骨骼序列从手部的细节、局部骨骼特征上识别动态手势的有关运动信息,最后,两个卷积神经网络的输出进行融合形成双流架构,可以增强和补充单流架构的识别能力,综合基于标注后的所述人体骨骼序列得到的宏观的动态手势的有关运动信息和基于标注后的所述手部骨骼序列得到的细节、局部的动态手势的有关运动信息,使得可以提高双流网络预测模型的识别能力,进一步提高动态手势识别的准确率。
以下结合示例来描述实施上述动态手势识别方法的过程,以该方法应用于大屏手势识别为例。
首先,以智能大屏采集的视频流作为数据,获取视频流,并对视频流按照指定的帧率(如FPS=20)进行解码抽帧,按照32帧(即1.6秒)为一个分段,将视频流转换为连续的分段图像序列,每个图像序列中包含32帧图像。
在每一个分段图像序列中,用OpenPose方法提取每一帧图像中的人体和手部的骨骼点坐标,每一个分段提取1个人体骨骼序列,每一帧图像中一个目标人体包含18个骨骼点,该18个骨骼点组成一组人体骨骼组合,图像序列中每一帧图像对应的人体骨骼组合按照帧的顺序组成一个人体骨骼序列;每一帧图像每个目标人提取不超过2个手部的骨骼点,一个手部包括21个骨骼点,该21个骨骼点组成一只手的手部骨骼,一组手部骨骼组合包括最多两只手的手部骨骼。如果存在手部骨骼被遮挡或因拍摄角度等问题无法提取时,则用人体骨骼中与缺少手部骨骼最邻近的关节或对应手腕的坐标代替所有缺失的手部骨骼数据。
对每组所述人体骨骼组合或所述手部骨骼组合分别完成关节点联合收集距离特征和多尺度运动特征特征的抽取之后,将标注后的人体骨骼序列和标注后的手部骨骼序列并行分别输入所述双流网络预测模型的一个DD-Net网络中,两个DD-Net网络的输出通过加权平均后经过一个Softmax层,得到最终的行为识别预测结果,类别为向右。
具体实施时,收集1000+训练样例,200+评估测试集合,用手势类别的识别准确率(Accuracy)作为技术评估指标,如下表1所示,卷积神经网络仅基于手部骨骼识别手势的准确率为91.07%,卷积神经网络仅基于人体骨骼识别手势的准确率为93.93%,而本申请提出的动态手势识别方法通过双流卷积神经网络基于人体和手部骨骼识别手势的准确率为94.64%,可见,本申请的动态手势识别方法可有效提高识别准确率。
表1
具体实施时,上述动态手势识别方法可以应用于任何需要手势识别的人机交互的应用场景,例如,智能大屏、智能平板、机器人等与人的交互场景。
在本实施例中,提供了一种计算机设备,如图7所示,包括存储器702、处理器704及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的动态手势识别方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的动态手势识别方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
基于同一发明构思,本发明实施例中还提供了一种动态手势识别装置,如下面的实施例所述。由于动态手势识别装置解决问题的原理与动态手势识别方法相似,因此动态手势识别装置的实施可以参见动态手势识别方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是本发明实施例的动态手势识别装置的一种结构框图,如图8所示,包括:
骨骼序列提取模块802,用于从视频流中提取人体骨骼序列和手部骨骼序列,其中,所述人体骨骼序列包括多组人体骨骼组合,所述手部骨骼序列包括多组手部骨骼组合;
特征提取模块804,用于针对每组人体骨骼组合提取骨骼变化特征,针对每组手部骨骼组合提取骨骼变化特征;
识别手势模块806,用于将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型输出手势识别结果,其中,所述双流网络预测模型是训练双流卷积神经网络得到的。
在一个实施例中,骨骼序列提取模块,具体用于将视频流按照帧转换为多个连续的图像序列,每个所述图像序列包括多帧图像;针对每个图像序列的每帧图像,计算骨骼点的坐标,提取一组人体骨骼组合和一组手部骨骼组合,按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列,按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列。
在一个实施例中,每组人体骨骼组合包括18个骨骼点,每组手部骨骼组合最多包括两只手的手部骨骼,每只手的手部骨骼包括21个骨骼点。
在一个实施例中,特征提取模块,具体用于提取关节点联合收集距离特征和/或多尺度运动特征。
在一个实施例中,特征提取模块,包括:
关节点联合收集距离特征提取单元,用于针对每组所述人体骨骼组合或所述手部骨骼组合,计算每两个骨骼点之间的欧几里得距离,各欧几里得距离组成一个对称矩阵,将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征。
在一个实施例中,特征提取模块,包括:
多尺度运动特征提取单元,用于针对每组所述人体骨骼组合或所述手部骨骼组合中的每个骨骼点,计算该骨骼点在不同时间窗口下的运动幅度,各时间窗口下的运动幅度组成该骨骼点的多尺度运动特征。
在一个实施例中,识别手势模块,包括:
数据输入单元,用于将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中,将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中。
本发明实施例实现了如下技术效果:提出了提取人体骨骼序列和手部骨骼序列,进而基于人体骨骼序列提取每组人体骨骼组合对应的骨骼变化特征,基于手部骨骼序列提取每组手部骨骼组合的骨骼变化特征,最后,将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型即可输出手势识别结果。即提出了结合人体骨骼序列和手部骨骼序列来实现动态手势识别,由于人体骨骼序列包括手腕、前臂、肩部等人体的多部位或多关节,同时提取每组人体骨骼组合提取骨骼变化特征,使得标注后的人体骨骼序列可以从宏观、整体上体现手部运动变化,由于手部骨骼序列包括了手部的多关节,同时提取每组手部骨骼组合提取骨骼变化特征,使得标注后的手部骨骼序列可以从手部的局部、细节上体现手部运动变化,进而实现了综合手部的宏观变化和细节变化来识别动态手势,与现有技术中仅基于手部骨骼特征识别手势的技术方案相比,可以增强和补充更多的手部运动信息,有利于提高动态手势识别的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种动态手势识别方法,其特征在于,包括:
从视频流中提取人体骨骼序列和手部骨骼序列,其中,所述人体骨骼序列包括多组人体骨骼组合,所述手部骨骼序列包括多组手部骨骼组合;
针对每组人体骨骼组合提取骨骼变化特征,针对每组手部骨骼组合提取骨骼变化特征;
将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型输出手势识别结果,其中,所述双流网络预测模型是训练双流卷积神经网络得到的;所述卷积神经网络为DD-Net网络;
提取所述骨骼变化特征,包括:
提取关节点联合收集距离特征和/或多尺度运动特征;
将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,包括:
将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中,将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中;
其中,从视频流中提取人体骨骼序列和手部骨骼序列,包括:
将视频流按照帧转换为多个连续的图像序列,每个所述图像序列包括多帧图像;
针对每个图像序列的每帧图像,计算骨骼点的坐标,提取一组人体骨骼组合和一组手部骨骼组合,按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列,按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列;
提取关节点联合收集距离特征,包括:
针对每组所述人体骨骼组合或所述手部骨骼组合,计算每两个骨骼点之间的欧几里得距离,各欧几里得距离组成一个对称矩阵,将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征;
提取多尺度运动特征,包括:
针对每组所述人体骨骼组合或所述手部骨骼组合中的每个骨骼点,计算该骨骼点在不同时间窗口下的运动幅度,各时间窗口下的运动幅度组成该骨骼点的多尺度运动特征。
2.如权利要求1所述的动态手势识别方法,其特征在于,每组人体骨骼组合包括18个骨骼点,每组手部骨骼组合最多包括两只手的手部骨骼,每只手的手部骨骼包括21个骨骼点。
3.一种动态手势识别装置,其特征在于,包括:
骨骼序列提取模块,用于从视频流中提取人体骨骼序列和手部骨骼序列,其中,所述人体骨骼序列包括多组人体骨骼组合,所述手部骨骼序列包括多组手部骨骼组合;
特征提取模块,用于针对每组人体骨骼组合提取骨骼变化特征,针对每组手部骨骼组合提取骨骼变化特征;
识别手势模块,用于将每组人体骨骼组合对应的骨骼变化特征标注在所述人体骨骼序列中,将标注后的所述人体骨骼序列输入双流网络预测模型的一个卷积神经网络中,将每组手部骨骼组合对应的骨骼变化特征标注在所述手部骨骼序列中,将标注后的所述手部骨骼序列输入所述双流网络预测模型的另一个卷积神经网络中,所述双流网络预测模型输出手势识别结果,其中,所述双流网络预测模型是训练双流卷积神经网络得到的;所述卷积神经网络为DD-Net网络;
特征提取模块,具体用于提取关节点联合收集距离特征和/或多尺度运动特征;
识别手势模块,包括:
数据输入单元,用于将所述人体骨骼序列中批注的每组人体骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的一个卷积神经网络嵌入到每帧的潜向量中,将所述手部骨骼序列中批注的每组手部骨骼组合对应的关节点联合收集距离特征和多尺度运动特征,并行分路输入双流网络预测模型的另一个卷积神经网络嵌入到每帧的潜向量中;
其中,骨骼序列提取模块,具体用于将视频流按照帧转换为多个连续的图像序列,每个所述图像序列包括多帧图像;针对每个图像序列的每帧图像,计算骨骼点的坐标,提取一组人体骨骼组合和一组手部骨骼组合,按照帧的顺序各帧图像对应的人体骨骼组合组成所述人体骨骼序列,按照帧的顺序各帧图像对应的手部骨骼组合组成所述人体骨骼序列;
特征提取模块,包括:
关节点联合收集距离特征提取单元,用于针对每组所述人体骨骼组合或所述手部骨骼组合,计算每两个骨骼点之间的欧几里得距离,各欧几里得距离组成一个对称矩阵,将所述对称矩阵的无对角部分的下三角矩阵作为关节点联合收集距离特征;
多尺度运动特征提取单元,用于针对每组所述人体骨骼组合或所述手部骨骼组合中的每个骨骼点,计算该骨骼点在不同时间窗口下的运动幅度,各时间窗口下的运动幅度组成该骨骼点的多尺度运动特征。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的动态手势识别方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的动态手势识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294180.9A CN112861808B (zh) | 2021-03-19 | 2021-03-19 | 动态手势识别方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294180.9A CN112861808B (zh) | 2021-03-19 | 2021-03-19 | 动态手势识别方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861808A CN112861808A (zh) | 2021-05-28 |
CN112861808B true CN112861808B (zh) | 2024-01-23 |
Family
ID=75993545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110294180.9A Active CN112861808B (zh) | 2021-03-19 | 2021-03-19 | 动态手势识别方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861808B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221834A (zh) * | 2021-06-01 | 2021-08-06 | 北京字节跳动网络技术有限公司 | 终端的控制方法、装置、终端和存储介质 |
CN113792595A (zh) * | 2021-08-10 | 2021-12-14 | 北京爱笔科技有限公司 | 目标行为检测方法、装置、计算机设备和存储介质 |
CN114580525B (zh) * | 2022-02-25 | 2024-10-15 | 华南理工大学 | 一种面向含缺失数据的手势动作分类方法 |
CN114998804B (zh) * | 2022-06-14 | 2024-06-18 | 湖南大学 | 一种基于两阶段的体势-手势整体姿态捕获方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109800659A (zh) * | 2018-12-26 | 2019-05-24 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种动作识别方法及装置 |
CN111695523A (zh) * | 2020-06-15 | 2020-09-22 | 浙江理工大学 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
CN112446253A (zh) * | 2019-08-30 | 2021-03-05 | 中国移动通信有限公司研究院 | 一种骨架行为识别方法及装置 |
-
2021
- 2021-03-19 CN CN202110294180.9A patent/CN112861808B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109800659A (zh) * | 2018-12-26 | 2019-05-24 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种动作识别方法及装置 |
CN112446253A (zh) * | 2019-08-30 | 2021-03-05 | 中国移动通信有限公司研究院 | 一种骨架行为识别方法及装置 |
CN111695523A (zh) * | 2020-06-15 | 2020-09-22 | 浙江理工大学 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112861808A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
Ramesh et al. | Dart: distribution aware retinal transform for event-based cameras | |
CN112861808B (zh) | 动态手势识别方法、装置、计算机设备及可读存储介质 | |
CN111311666A (zh) | 一种融合边缘特征和深度学习的单目视觉里程计方法 | |
Lin et al. | Hdnet: Human depth estimation for multi-person camera-space localization | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
Chen et al. | Using FTOC to track shuttlecock for the badminton robot | |
Xia et al. | Human motion recovery jointly utilizing statistical and kinematic information | |
Chen et al. | TriViews: A general framework to use 3D depth data effectively for action recognition | |
Lovanshi et al. | Human pose estimation: benchmarking deep learning-based methods | |
Núnez et al. | Real-time human body tracking based on data fusion from multiple RGB-D sensors | |
Hao et al. | Recognition of basketball players’ action detection based on visual image and Harris corner extraction algorithm | |
Kumar et al. | Human pose estimation using deep learning: review, methodologies, progress and future research directions | |
Zhou et al. | A study on attention-based LSTM for abnormal behavior recognition with variable pooling | |
Baisware et al. | Review on recent advances in human action recognition in video data | |
CN112651294A (zh) | 基于多尺度融合的遮挡人体姿势识别方法 | |
Ali et al. | Deep Learning Algorithms for Human Fighting Action Recognition. | |
Malik et al. | Human action interpretation using convolutional neural network: a survey | |
Dhore et al. | Human Pose Estimation And Classification: A Review | |
Chao et al. | Adversarial refinement network for human motion prediction | |
Yu et al. | Detecting line segments in motion-blurred images with events | |
Jia et al. | PV-YOLO: An Object Detection Model for Panoramic Video based on YOLOv4 | |
Puchała et al. | Feature engineering techniques for skeleton-based two-person interaction classification in video | |
Jiang | [Retracted] Application of Rotationally Symmetrical Triangulation Stereo Vision Sensor in National Dance Movement Detection and Recognition | |
Li et al. | A Novel Method for Distinguishing Indoor Dynamic and Static Semantic Objects Based on Deep Learning and Space Constraints in Visual-inertial SLAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |