CN113312973B - 一种手势识别关键点特征提取方法及系统 - Google Patents
一种手势识别关键点特征提取方法及系统 Download PDFInfo
- Publication number
- CN113312973B CN113312973B CN202110463695.7A CN202110463695A CN113312973B CN 113312973 B CN113312973 B CN 113312973B CN 202110463695 A CN202110463695 A CN 202110463695A CN 113312973 B CN113312973 B CN 113312973B
- Authority
- CN
- China
- Prior art keywords
- segmentation
- image
- hand
- key point
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种手势识别关键点特征提取方法及系统,其包括:对输入的RGB三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码;对手部的实例分割与掩码进行目标匹配,标记出关键点;将标记出的关键点进行数据平滑处理,并对骨骼点进行重新标定,从而得到稳定的手势提取特征。本发明能够最大程度摒除环境干扰,精准提取关键点,与传统方法及单一Mask R‑CNN提取相比,在精度与鲁棒性上都明显提高;本发明可以广泛在特征提取技术领域中应用。
Description
技术领域
本发明涉及一种特征提取技术领域,特别是关于一种基于Mask R-CNN Mask R-CNN(Mask Region-based Convolutional Neural Network,基于蒙版区域的卷积神经网络)与SG(Savitzky-Golay Smoothing Filters,最小二乘原理多项式平滑算法)滤波的手势识别关键点特征提取方法及系统。
背景技术
手势作为人类的基本特征,在人机交互、机械控制、虚拟现实等领域具有重要意义。利用视觉技术,计算机已可以实现手势取代传统输入对机器进行控制,虚拟交互,手语认知等复杂任务,而完成这些任务的基础则是精准提取手部关键点并进行手势识别。传统的使用数据手套、借助加速度传感器、使用特殊标记等方法都无法摆脱繁复外设的束缚,基于视觉的依靠手势区域分割与轮廓提取的方法则在精度与鲁棒性上还存在一些不足。
近年来深度学习与神经网络技术快速发展,将它与传统视觉技术相结合成为了一种新的研究方向。Simonyan等提出采用双stream,静态单张图片与多张图分类,初步实现多帧图像的同步手势处理,但容易出现过拟合的问题。Christian Zimmermann等提出利用正则化对手势进行坐标标定,精度上进行了优化,但实时性较差。Pavlo Molchanov等提出的一种端到端的多模态手势识别模型,在color+depth+optical flow三种数据的测试条件下,平均精度较其他模型大大提高。但对于大数据处理,部分识别结果抖动剧烈,且有较大时间损耗。Tianping Hu等提出了一种新型的注意力与序列网络(ASNet)用于准确判定手部关节序列机制,一定程度解决了识别抖动剧烈的问题,但识别速度依旧无法达到理想预期。手势识别综合效果较优的为Siyuan Yang等提出的一种用于联合手势识别和3D手势估计的新型协作学习网络。基于网络的联合感知功能将手势识别与3D手势估计结合起来,精度远超于20BN-jester基准测试的最新水平。但该算法会产生不必要的资源浪费。
发明内容
为了精确识别手势并摒除光照等环境干扰,同时减除由于手部高维运动造成的关键点剧烈抖动的问题,本发明的目的是提供一种基于Mask R-CNN与SG滤波的手势识别关键点特征提取方法及系统,其能得到更精确的实例分割与标定结果。并减弱了视频数据流中由于高维运动造成的骨骼点抖动,令手势骨骼点标定算法得以进一步优化。
为实现上述目的,本发明采取以下技术方案:一种手势识别关键点特征提取方法,其包括以下步骤:步骤1、对输入的RGB三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码;步骤2、对手部的实例分割与掩码进行目标匹配,标记出关键点;步骤3、将标记出的关键点进行数据平滑处理,并对骨骼点进行重新标定,从而得到稳定的手势提取特征。
进一步,采用Mask R-CNN作前向计算,提取图像中的手部信息,获得对手部不同部位进行分割后的特征图;并对预设的关键点信息以及处理图像进行匹配,取曼哈顿距离最小的对应点作为识别到的关键点,初步获得标定结果。
进一步,所述步骤1中,将Mask R-CNN结构划分为特征提取与特征组合两部分,并引入区域提交网络、ROIAlign和由分类、二段修正、分割构成的功能性网络,实现针对手部区域的精确分割与识别。
进一步,所述特征提取与特征组合为:设置若干个不同的特征提取网络,针对手势关键点标定,选择22个残差网络,对输入图像进行处理,以获得22个特征图;Mask R-CNN利用FPN特征组合网络将不同深度的特征图进行重组,经过卷积、对位求和、上采样、池化操作进行图像的重新生成,其中包含不同深度的特征信息。
进一步,所述提交网络采用Anchor来完成区域提交功能,通过图像特征值大小,计算出能表示物体在图像中位置的多个候选框,并对结果进行修正,得到精确的候选框。
进一步,所述候选框的计算方法为:
对X个特征图中的每一个特征向量,进行回归计算,将计算结果进行整合获得一个n维的向量,用以描述n个Anchor的修正值;每个修正值包括Δx、Δy、Δh、Δw、p五个量,Δx、Δy分别代表新生成的box与原始box的横纵坐标,box为候选框;Δh、Δw分别代表新生成的box与原始box的长宽修正值,p代表新生成的box与原始box的前后景置信度;修正计算公式为:
其中,x,y,w,h分别代表Anchor的中心横纵坐标,宽和高;利用前后景置信度p,通过非极大值抑制得到精确的box。
进一步,所述ROIAlign和功能性网络:利用ROIAlign直接裁剪出候选框对应的特征,并进行双线性插值和池化处理,将特征图变换为统一的尺寸;采用Softmax层和全连接层,实现每个候选框与区域同一尺寸的特征的一一对应,并将结果作为头部功能性网络的输入进行后续计算;其中,在将结果输入头部功能性网络之前进行二次修正,获得用以描述n个Anchor的修正值向量;最后,用置信度阈值获取物体形状掩码,并经过一次全连接,获得目标的实例分割。
进一步,所述步骤2中,还需要进一步强化分割与标定;所述强化分割与标定方法包括以下步骤:
步骤21、预设手部关键点检测器,并根据已有数据对该检测器进行预训练,得到手部关键点检测器;
步骤22、获得检测器后,通过DNN提取手势骨骼点识别权重,将图像转为blob,forward函数实现网络推断;
步骤23、利用已训练得到的手部关键点检测器获得手势关键点;
步骤24、通过网络推断计算获得手部21个关键点矩阵,分别代表预设定特定关键点的最大概率位置热图;调用minmaxLoc函数找到精确位置,实现对原始图像的标定。
进一步,所述步骤3中,采用SG滤波器进行优化处理;所述SG滤波器的处理方法为:
将捕捉到的单帧图像存入数组,窗口长度设置为p,每一个长度中的数据xn-m作为一个区间,记为X图像集合;
对滤波窗口p,采用k-1次多项式对窗口内的数据点进行拟合,通过最小二乘法拟合确定参数σ;
对X·(XT·X)-1·XT进行求解,通过输入二位数组,并且每行采取最近邻补齐,对每一行进行SG滤波,得到平滑后的新的骨骼点坐标数据,实现对关键点的精确绘制。
一种手势识别关键点特征提取系统,其包括:提取分割模块、标记模块和特征提取模块;所述提取分割模块,用于对输入的RGB三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码;所述标记模块,用于对手部的实例分割与掩码进行目标匹配,标记出关键点;所述特征提取模块,将标记出的关键点进行数据平滑处理,并对骨骼点进行重新标定,从而得到稳定的手势提取特征。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明将Mask R-CNN(Mask Region-based Convolutional Neural Network,基于蒙版区域的卷积神经网络)神经网络模型和SG滤波(Savitzky-Golay SmoothingFilters,最小二乘原理多项式平滑算法)相结合的方式来实现手部骨骼点的识别标注与平滑。Mask R-CNN是针对单张图像进行物体分割与识别的,通过在Faster-RCNN的基础上添加一个分支网络,在实现目标检测的同时,把目标像素分割出来。结合图像金字塔网络,对尺度不同物体的识别效果进行优化,并引入全卷积网络来实现精确的实例分割。
2、本发明为了更精确地识别到特定骨骼点,利用Mask R-CNN进行位置估计,取代了传统的利用HOG+SVM,CNN或SIFT局部特征描述子的方法,得到更精确的实例分割与标定结果。并利用SG滤波器进行了数据平滑。减弱了视频数据流中由于高维运动造成的骨骼点抖动,令手势骨骼点标定算法得以进一步优化。
附图说明
图1是本发明实施例中的手势关键点提取方法流程示意图;
图2是本发明实施例中的Mask R-CNN模型结构示意图;
图3是本发明实施例中的Mask R-CNN骨骼点分割与识别流程示意图;
图4a是本发明实施例中的骨骼点识别标定评估折线图;
图4b是本发明实施例中的骨骼点识别标定评估散点图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于Mask R-CNN(Mask Region-based Convolutional NeuralNetwork,基于蒙版区域的卷积神经网络)与SG滤波(Savitzky-Golay Smoothing Filters,最小二乘原理多项式平滑算法)的手势关键点提取方法。该方法首先对输入的RGB(RGBcolor mode,红(R)、绿(G)、蓝(B))三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码。然后利用ROIAling及功能性网络进行目标匹配,标记出22个关键点(21个骨骼点+1个背景点)。将标记后结果送入SG滤波器进行数据平滑,并进行骨骼点的重新标定,从而得到稳定的手势提取特征。对模型进行对比实验,结果表明,该方法能够最大程度摒除环境干扰,并精准提取关键点。与传统基于轮廓分割的手势关键点提取相比,模型的鲁棒性大大提高,识别精度达到93.48%。
在本发明的第一实施方式中,如图1所示,提供一种基于Mask R-CNN与SG滤波的手势识别关键点特征提取方法,其包括以下步骤:
步骤1、对输入的RGB三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码;
步骤2、对手部的实例分割与掩码进行目标匹配,标记出关键点;
步骤3、将标记出的关键点进行数据平滑处理,并对骨骼点进行重新标定,从而得到稳定的手势提取特征。
上述步骤1中,RGB三通道图像为单目相机实时捕捉的图像。
上述步骤1、步骤2中,采用Mask R-CNN作前向计算,提取图像中的手部信息,获得对手部不同部位进行分割后的特征图;并利用中间层特征,对预设的关键点信息以及处理图像进行匹配,取曼哈顿距离最小的对应点作为识别到的关键点,初步获得标定结果。
其中,如图2所示,Mask R-CNN为深度神经网络模型,该模型在识别和分割单张图片中的物体的任务中有具有较好的分割效果。
在本实施例中,如图3所示,将Mask R-CNN结构划分为特征提取与特征组合两部分。并在此基础上,引入区域提交网络、ROIAlign和功能性网络(包括分类、二段修正、分割)3层,实现了针对小面积(手部)区域的精确分割与识别。具体的:
对图像进行特征提取与特征组合:根据具体目标需求与特点,设置若干个不同的特征提取网络;针对手势关键点标定,选择22个残差网络,对输入图像进行处理,以获得22个特征图,分别包含图像的不同深度信息。Mask R-CNN利用FPN特征组合网络将不同深度的特征图进行重组,经过卷积、对位求和、上采样、池化等基本操作进行图像的重新生成,其中包含不同深度的特征信息。
采用Anchor来完成区域提交功能,即区域提交网络。通过图像特征值大小,计算出能表示物体在图像中位置的多个候选框,并对结果进行修正,得到精确的候选框;
候选框的计算方法为:
对X个特征图中的每一个特征向量,进行回归计算。并将计算结果进行整合获得一个n维的向量,用以描述n个Anchor的修正值。每个修正值包括Δx、Δy、Δh、Δw、p五个量,Δx、Δy分别代表新生成的box(候选框)与原始box的横纵坐标,Δh、Δw分别代表新生成的box(候选框)与原始box的长宽修正值,p代表新生成的box(候选框)与原始box的前后景置信度。具体修正计算如公式(1)所示:
其中,x,y,w,h分别代表Anchor的中心横纵坐标,宽和高。经过Anchor修正后会产生大量的候选框,此时利用前后景置信度p,通过非极大值抑制可得到较为精确的box。
ROIAlign和功能性网络:区别于现有技术中从原图裁剪出相应区域并进行分割,本发明采用ROIAlign和功能性网络直接从特征图。利用ROIAlign算法直接裁剪出候选框对应的特征,并进行双线性插值和池化处理,从而将特征图变换为统一的尺寸。采用Softmax层和全连接层,实现每个候选框与区域同一尺寸的特征的一一对应,并将结果作为头部功能性网络的输入进行后续计算。为了防止出现重复框选或选框过大造成的目标不明确问题,需要在将结果输入头部功能性网络之前,进行二次修正,即利用公式(1)对当前结果进行计算,获得用以描述n个Anchor的修正值向量,其中,候选框各类别的形状的前后景置信度由28×28输出中的各点表示。最后,用0.5作为置信度阈值获取物体形状掩码,并经过一次全连接;最终可以获得目标的实例分割。
上述步骤2中,关键点包括21个骨骼点和1个背景点,共22个关键点。21个骨骼点为预先设定的手部关键点,分别为:5根手指每根手指具有3个关键点,分别为指尖、手指中间的关节,以及指缝;其余6个关键点分别是5根手指与手掌的连接位置,以及手掌与手腕的连接部分。
上述步骤2中,由于人手作为一个小范围目标,很容易出现误识别问题。因此还需要进一步强化分割与标定。Tomas Simon等人提出一种2D/3D手部关键点检测方法,通过利用立体几何信息,以多视图作为监督信号源,生成一致的手部关键点标签,引导训练手部关键点检测器。该方法通过弱监督训练,在训练数据上,只有少量标注数据,大量未标注的多视图数据,可以实时运行在单RGB图像上,其精度可与深度传感器方法媲美,并能够支持复杂对象3D无标记动作捕捉。本发明选择基于该方法以及现有31视角手势骨骼点标定数据,对目标进行匹配与标注。
单视角图像容易由于遮挡等一系列原因,而导致部分点无法识别或错误识别。因在此多视角图像条件下,只需提取目标的部分未遮挡图像,即可根据视角的各自的位姿构建三角,得到具体3D位置信息。将所得到的点位置重投影到每一幅不同视角的2D图像,再使用这些2D图像和关键点标注训练检测模型网络。
强化分割与标定方法包括以下步骤:
步骤21、预设手部关键点检测器,并根据已有数据对该检测器进行预训练,得到较为精确的手部关键点检测器dn。
d(X)={(xi,ci)for i∈[1...I] (2)
式中,d表示检测器,X为输入图像,xi与ci分别代表预测关键点坐标以及置信度,I表示预测点个数。
根据真实数据对检测器进行训练后得到检测器d0,此时可以用该预训练检测器对未标注或误标数据进行训练。
t0,i={F(t0,in,t0,im)n,m∈[0...31],i∈[0...22]} (3)
T0=t0,1+t0,2+…+t0,22 (4)
式中,t0,i代表第一组第i个骨骼点的真实数据,t0,in与t0,im表示31个视角图像中目标清晰的两组。T0代表第一组22个关键点的真实数据集。
train(T0)→d0
d0→train(T1)
train(T0∪T1)→d1 (5)
式中,d0代表用第一组数据训练的检测器,对未标定数据进行预测标记,即T1。为避免新预测标定数据集存在与原始真实数据集的重复,需要进行额外监督处理,即进行二轮检测器训练。经过n次迭代,得到较为精确的手部关键点检测器dn。
步骤22、获得检测器后,通过DNN提取手势骨骼点识别权重,将图像转为blob,forward函数实现网络推断。
步骤23、利用已训练得到的手部关键点检测器获得手势关键点。
步骤24、通过网络推断计算可以获得手部21个关键点矩阵,分别代表预设定特定关键点的最大概率位置热图。调用minmaxLoc函数找到精确位置,即可实现对原始图像的标定。
上述步骤3中,由于手部处在高维运动空间,且待识别关键点间的曼哈顿距离较小,骨骼点标注经常出现失真与跳变,造成了识别错误。为了避免以上情况的出现,且降低时间损耗与计算成本,本发明采用SG滤波器进行数据平滑处理。通过对关键点的平滑处理与重新标定,大大提高准确性与稳定性。
其中,SG滤波器是一种在时域内基于局域多项式最小二乘法拟合的滤波方法,能够在滤除噪声的同时可以确保信号的形状、宽度不变。由于手部运动所带来的骨骼点坐标变化是没有规律的,因此为能最大程度达到保证原骨骼点标定正确,并达到防抖动与跳变的效果,本发明采用SG滤波器进行优化处理。SG滤波器的处理方法为:
将捕捉到的单帧图像存入数组,窗口长度设置为p(正奇整数,p=2m+1,本模型中取19),每一个长度中的数据xp-m作为一个区间,记为X图像集合。
X={xp-m+xp-m+1+xp-m+2+…+xp+…+xp+m-1+xp+m} (6)
公式(6)实现了将X从数据点的拟合转化为多项式拟合值的集合。对滤波窗口p(p=2m+1),采用k-1次多项式对窗口内的数据点进行拟合:
y=a0+a1x+a2x+a3x2+…+ak-1xk-1 (7)
式中,a0、a1、…、ak-1为常数。
此后利用p个方程组成的k元线性方程组,通过最小二乘法拟合确定参数σ:
式中,em表示偏置,y表示坐标值,Y表示拟合后图像坐标集合。
上述矩阵可表示为:
Y(2m+1)×1=X(2m+1)×k·Ak×1+E(2m+1)×1 (9)
进而对X·(XT·X)-1·XT进行求解,通过输入二位数组,并且每行采取最近邻补齐,对每一行进行SG滤波,即可得到平滑后的新的骨骼点坐标数据,实现对关键点的精确绘制。
在本发明的第二实施方式中,提供一种手势识别关键点特征提取系统,其包括:提取分割模块、标记模块和特征提取模块;
提取分割模块,用于对输入的RGB三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码;
标记模块,用于对手部的实例分割与掩码进行目标匹配,标记出关键点;
特征提取模块,将标记出的关键点进行数据平滑处理,并对骨骼点进行重新标定,从而得到稳定的手势提取特征。
实施例1:
骨骼点检测与标定实验:为精确标定手语手势骨骼点,采集了18组手势动作,共90组视频序列作为数据集进行了训练。每组包含5种场景,三种光源条件(正常光,强光,弱光),两种状态(手部特写及全景,全景即图像中手部非最大连通区域)。此外,引入DEVISIGN手语数据集,扩充样本集合。经过873次迭代后获得测试模型。
针对模型在四卡服务器上进行了关键点标定实验,共设定识别组,运算速度,精度三个评估指标。随机抽取50组动作视频序列组成集合Y,作为实验数据并逐帧进行处理。首先人工标定关键点位置区间,作为关键点运动范围。模型计算获得标定点坐标序列后,与人工标定结果进行比对,若在人工设定范围内,则为标定成功。计算识别正确标定点占总数的百分比。百分比平均值即为该算法精度值。并将50组中含有识别失败点的视频序列归为集合W。针对识别组指标,随机抽取集合Y中的30组数据结果。若某序列标定精度值大于80%,则表示该组识别成功。此外,在模型算法中引入time评价,用以计算程序运行平均消耗。
相比于传统的手部关键点提取算法,以及未进行骨骼点进一步分类细化与SG滤波的模型,本模型大大提高了骨骼点识别精度。针对上述三种模型,在集合Y上分别进行了评估,结果如表1。
表1模型性能评估
可识别组 | 平均用时/ms | AP | |
传统算法 | 12/30 | 867 | 49.63 |
Mask R-CNN(caffe 2) | 25/30 | 203 | 82.97 |
本发明算法 | 28/30 | 142 | 93.48 |
通过结果可明显得到本发明模型与Mask R-CNN(Caffe2)不论是在计算速度或平均精度,又或者是可识别组别上,都远远强于传统算法(如轮廓提取计算等)。且本发明模型在Mask R-CNN的基础上加入Savgol滤波与骨骼点重处理等环节,在精度等上述三个指标都实现了一定程度的优化。
此外,实验判断环境对结果的影响。对50组中三种光照条件的不同结果进行统计,每组的错误标定点占总数的百分比及为误差。结果表明该方法的平均误差(两种状态下),正常光条件下小于5%,强光与弱光条件下误差最大分别为4.73%与9.51%。关节点标注误差控制在单动作2-3个关键点以内。
实施例2:
数据平滑滤波实验:手部骨骼点识别由于存在高维失真以及关键点跳变抖动的问题,选用滤波的方法对模型进行了优化,并针对不同滤波器的进行了效果对比试验。常用数据平滑滤波器有滑动平均法(简单移动平均法、加权移动平均法)、指数滑动(一次、二次、三次)等等,本发明针对三大类6种常用数据平滑滤波进行了对比测试。
该实验选用20组手势动作(8组识别正确,以及骨骼点检测匹配与标定实验的集合W中的12组误识别或未识别手势数据集)进行平滑测试。参考光流法中稠密光流与稀疏光流对目标像素点移动的捕捉,在实验中,对每组手势数据集进行原始数据的轨迹,以及利用不同滤波器进行的平滑防抖处理后的关键点轨迹,进行了绘制。从而可以得到关键点原始抖动范围与面积,基于该指标可实现防抖动。融合误识别以及未识别点指标权重,对不同滤波器在模型中的优化效果进行评估。评估结果如图4a、图4b所示。
从图中可以看出,与原始数据相比,SG滤波器对于手势关键点的防抖平滑优化效果相对较好;滑动平均两种方法简单平均权重一致,精度无法达到基本要求;加权滑动平均则由于是平均值,预测值总是停留在过去的水平上而无法预计会导致将来更高或更低的波动,优化效果不明显;指数滑动法虽然相对滑动平均效果较优,但由于手势运动无规律,该方法所预测的处理后最优解,将导致指数预测滞后于实际需求从而出现较多失真。SG滤波器对手部骨骼点的防跳变效果以及稳定性,包括普适性明显优于前两者,总体使骨骼点识别匹配模型精度与鲁棒性,得到了较大提升。
综上,本发明的手势关键点提取方法基于Mask R-CNN模型处理RGB三通道图像,对每张图进行物体识别和分割,并利用神经网络特征对视频流进行目标匹配,得到手部21个关键点。进而利用SG滤波对数据进行平滑防跳变处理,得到精确稳定的手势关键点提取重建结果。本发明在不同光照条件下平均精度最高可达93.48%;在RTX2060下运行识别速度达到142ms。能够最大程度摒除环境干扰,精准提取关键点,与传统方法及单一Mask R-CNN提取相比,在精度与鲁棒性上都明显提高。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (2)
1.一种手势识别关键点特征提取方法,其特征在于,包括以下步骤:
步骤1、对输入的RGB三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码;
步骤2、对手部的实例分割与掩码进行目标匹配,标记出关键点;
步骤3、将标记出的关键点进行数据平滑处理,并对骨骼点进行重新标定,从而得到稳定的手势提取特征;
采用Mask R-CNN作前向计算,提取图像中的手部信息,获得对手部不同部位进行分割后的特征图;并对预设的关键点信息以及处理图像进行匹配,取曼哈顿距离最小的对应点作为识别到的关键点,初步获得标定结果;
所述步骤1中,将Mask R-CNN结构划分为特征提取与特征组合两部分,并引入区域提交网络、ROIAlign和由分类、二段修正、分割构成的功能性网络,实现针对手部区域的精确分割与识别;
所述特征提取与特征组合为:设置若干个不同的特征提取网络,针对手势关键点标定,选择22个残差网络,对输入图像进行处理,以获得22个特征图;Mask R-CNN利用FPN特征组合网络将不同深度的特征图进行重组,经过卷积、对位求和、上采样、池化操作进行图像的重新生成,其中包含不同深度的特征信息;
所述提交网络采用Anchor来完成区域提交功能,通过图像特征值大小,计算出能表示物体在图像中位置的多个候选框,并对结果进行修正,得到精确的候选框;
所述候选框的计算方法为:
对X个特征图中的每一个特征向量,进行回归计算,将计算结果进行整合获得一个n维的向量,用以描述n个Anchor的修正值;每个修正值包括Δx、Δy、Δh、Δw、p五个量,Δx、Δy分别代表新生成的box与原始box的横纵坐标,box为候选框;Δh、Δw分别代表新生成的box与原始box的长宽修正值,p代表新生成的box与原始box的前后景置信度;修正计算公式为:
其中,x,y,w,h分别代表Anchor的中心横纵坐标,宽和高;利用前后景置信度p,通过非极大值抑制得到精确的box;
所述ROIAlign和功能性网络:利用ROIAlign直接裁剪出候选框对应的特征,并进行双线性插值和池化处理,将特征图变换为统一的尺寸;采用Softmax层和全连接层,实现每个候选框与区域同一尺寸的特征的一一对应,并将结果作为头部功能性网络的输入进行后续计算;其中,在将结果输入头部功能性网络之前进行二次修正,获得用以描述n个Anchor的修正值向量;最后,用置信度阈值获取物体形状掩码,并经过一次全连接,获得目标的实例分割;
所述步骤2中,还需要进一步强化分割与标定;所述强化分割与标定方法包括以下步骤:
步骤21、预设手部关键点检测器,并根据已有数据对该检测器进行预训练,得到手部关键点检测器;
步骤22、获得检测器后,通过DNN提取手势骨骼点识别权重,将图像转为blob,forward函数实现网络推断;
步骤23、利用已训练得到的手部关键点检测器获得手势关键点;
步骤24、通过网络推断计算获得手部21个关键点矩阵,分别代表预设定特定关键点的最大概率位置热图;调用minmaxLoc函数找到精确位置,实现对原始图像的标定;
所述步骤3中,采用SG滤波器进行优化处理;所述SG滤波器的处理方法为:
将捕捉到的单帧图像存入数组,窗口长度设置为p,每一个长度中的数据xn-m作为一个区间,记为X图像集合;
对滤波窗口p,采用k-1次多项式对窗口内的数据点进行拟合,通过最小二乘法拟合确定参数σ;
σ=(XT·X)-1·XT·Y
对X·(XT·X)-1·XT进行求解,通过输入二位数组,并且每行采取最近邻补齐,对每一行进行SG滤波,得到平滑后的新的骨骼点坐标数据,实现对关键点的精确绘制。
2.一种手势识别关键点特征提取系统,其特征在于,包括:提取分割模块、标记模块和特征提取模块;
所述提取分割模块,用于对输入的RGB三通道图像进行特征提取与区域分割,获得手部的实例分割与掩码;
所述标记模块,用于对手部的实例分割与掩码进行目标匹配,标记出关键点;
所述特征提取模块,将标记出的关键点进行数据平滑处理,并对骨骼点进行重新标定,从而得到稳定的手势提取特征;
采用Mask R-CNN作前向计算,提取图像中的手部信息,获得对手部不同部位进行分割后的特征图;并对预设的关键点信息以及处理图像进行匹配,取曼哈顿距离最小的对应点作为识别到的关键点,初步获得标定结果;
所述提取分割模块中,将Mask R-CNN结构划分为特征提取与特征组合两部分,并引入区域提交网络、ROIAlign和由分类、二段修正、分割构成的功能性网络,实现针对手部区域的精确分割与识别;
所述特征提取与特征组合为:设置若干个不同的特征提取网络,针对手势关键点标定,选择22个残差网络,对输入图像进行处理,以获得22个特征图;Mask R-CNN利用FPN特征组合网络将不同深度的特征图进行重组,经过卷积、对位求和、上采样、池化操作进行图像的重新生成,其中包含不同深度的特征信息;
所述提交网络采用Anchor来完成区域提交功能,通过图像特征值大小,计算出能表示物体在图像中位置的多个候选框,并对结果进行修正,得到精确的候选框;
所述候选框的计算方法为:
对X个特征图中的每一个特征向量,进行回归计算,将计算结果进行整合获得一个n维的向量,用以描述n个Anchor的修正值;每个修正值包括Δx、Δy、Δh、Δw、p五个量,Δx、Δy分别代表新生成的box与原始box的横纵坐标,box为候选框;Δh、Δw分别代表新生成的box与原始box的长宽修正值,p代表新生成的box与原始box的前后景置信度;修正计算公式为:
其中,x,y,w,h分别代表Anchor的中心横纵坐标,宽和高;利用前后景置信度p,通过非极大值抑制得到精确的box;
所述ROIAlign和功能性网络:利用ROIAlign直接裁剪出候选框对应的特征,并进行双线性插值和池化处理,将特征图变换为统一的尺寸;采用Softmax层和全连接层,实现每个候选框与区域同一尺寸的特征的一一对应,并将结果作为头部功能性网络的输入进行后续计算;其中,在将结果输入头部功能性网络之前进行二次修正,获得用以描述n个Anchor的修正值向量;最后,用置信度阈值获取物体形状掩码,并经过一次全连接,获得目标的实例分割;
所述标记模块中,还需要进一步强化分割与标定;所述强化分割与标定方法包括:
预设手部关键点检测器,并根据已有数据对该检测器进行预训练,得到手部关键点检测器;
获得检测器后,通过DNN提取手势骨骼点识别权重,将图像转为blob,forward函数实现网络推断;
利用已训练得到的手部关键点检测器获得手势关键点;
通过网络推断计算获得手部21个关键点矩阵,分别代表预设定特定关键点的最大概率位置热图;调用minmaxLoc函数找到精确位置,实现对原始图像的标定;
所述特征提取模块中,采用SG滤波器进行优化处理;所述SG滤波器的处理方法为:
将捕捉到的单帧图像存入数组,窗口长度设置为p,每一个长度中的数据xn-m作为一个区间,记为X图像集合;
对滤波窗口p,采用k-1次多项式对窗口内的数据点进行拟合,通过最小二乘法拟合确定参数σ;
σ=(XT·X)-1·XT·Y
对X·(XT·X)-1·XT进行求解,通过输入二位数组,并且每行采取最近邻补齐,对每一行进行SG滤波,得到平滑后的新的骨骼点坐标数据,实现对关键点的精确绘制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110463695.7A CN113312973B (zh) | 2021-04-25 | 2021-04-25 | 一种手势识别关键点特征提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110463695.7A CN113312973B (zh) | 2021-04-25 | 2021-04-25 | 一种手势识别关键点特征提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312973A CN113312973A (zh) | 2021-08-27 |
CN113312973B true CN113312973B (zh) | 2023-06-02 |
Family
ID=77371040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110463695.7A Active CN113312973B (zh) | 2021-04-25 | 2021-04-25 | 一种手势识别关键点特征提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312973B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113784046A (zh) * | 2021-08-31 | 2021-12-10 | 北京安博盛赢教育科技有限责任公司 | 一种随动拍摄方法、装置、介质和电子设备 |
CN113792651B (zh) * | 2021-09-13 | 2024-04-05 | 广州广电运通金融电子股份有限公司 | 一种融合手势识别和指尖定位的手势交互方法、设备及介质 |
CN114973403B (zh) * | 2022-05-06 | 2023-11-03 | 广州紫为云科技有限公司 | 一种基于时空双重维度特征深度网络的行为预测方法 |
CN117420917B (zh) * | 2023-12-19 | 2024-03-08 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、系统、设备及介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8837839B1 (en) * | 2010-11-03 | 2014-09-16 | Hrl Laboratories, Llc | Method for recognition and pose estimation of multiple occurrences of multiple objects in visual images |
CN105718879A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法 |
JP2017207949A (ja) * | 2016-05-19 | 2017-11-24 | 株式会社リコー | ジェスチャコマンド入力装置、ジェスチャコマンド入力方法及びジェスチャコマンド入力プログラム並びに画像表示システム |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN109308459A (zh) * | 2018-09-05 | 2019-02-05 | 南京大学 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
CN110443205A (zh) * | 2019-08-07 | 2019-11-12 | 北京华捷艾米科技有限公司 | 一种手部图像分割方法及装置 |
CN110472554A (zh) * | 2019-08-12 | 2019-11-19 | 南京邮电大学 | 基于姿态分割和关键点特征的乒乓球动作识别方法及系统 |
CN110569817A (zh) * | 2019-09-12 | 2019-12-13 | 北京邮电大学 | 基于视觉实现手势识别的系统和方法 |
CN110751097A (zh) * | 2019-10-22 | 2020-02-04 | 中山大学 | 一种半监督的三维点云手势关键点检测方法 |
CN111401293A (zh) * | 2020-03-25 | 2020-07-10 | 东华大学 | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 |
CN111444764A (zh) * | 2020-02-21 | 2020-07-24 | 广东工业大学 | 一种基于深度残差网络的手势识别方法 |
CN111507334A (zh) * | 2019-01-30 | 2020-08-07 | 中国科学院宁波材料技术与工程研究所 | 一种基于关键点的实例分割方法 |
US10846552B1 (en) * | 2018-09-06 | 2020-11-24 | A9.Com, Inc. | Universal object recognition |
CN112336342A (zh) * | 2020-10-29 | 2021-02-09 | 深圳市优必选科技股份有限公司 | 手部关键点检测方法、装置及终端设备 |
-
2021
- 2021-04-25 CN CN202110463695.7A patent/CN113312973B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8837839B1 (en) * | 2010-11-03 | 2014-09-16 | Hrl Laboratories, Llc | Method for recognition and pose estimation of multiple occurrences of multiple objects in visual images |
CN105718879A (zh) * | 2016-01-19 | 2016-06-29 | 华南理工大学 | 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法 |
JP2017207949A (ja) * | 2016-05-19 | 2017-11-24 | 株式会社リコー | ジェスチャコマンド入力装置、ジェスチャコマンド入力方法及びジェスチャコマンド入力プログラム並びに画像表示システム |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN109308459A (zh) * | 2018-09-05 | 2019-02-05 | 南京大学 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
US10846552B1 (en) * | 2018-09-06 | 2020-11-24 | A9.Com, Inc. | Universal object recognition |
CN111507334A (zh) * | 2019-01-30 | 2020-08-07 | 中国科学院宁波材料技术与工程研究所 | 一种基于关键点的实例分割方法 |
CN110443205A (zh) * | 2019-08-07 | 2019-11-12 | 北京华捷艾米科技有限公司 | 一种手部图像分割方法及装置 |
CN110472554A (zh) * | 2019-08-12 | 2019-11-19 | 南京邮电大学 | 基于姿态分割和关键点特征的乒乓球动作识别方法及系统 |
CN110569817A (zh) * | 2019-09-12 | 2019-12-13 | 北京邮电大学 | 基于视觉实现手势识别的系统和方法 |
CN110751097A (zh) * | 2019-10-22 | 2020-02-04 | 中山大学 | 一种半监督的三维点云手势关键点检测方法 |
CN111444764A (zh) * | 2020-02-21 | 2020-07-24 | 广东工业大学 | 一种基于深度残差网络的手势识别方法 |
CN111401293A (zh) * | 2020-03-25 | 2020-07-10 | 东华大学 | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 |
CN112336342A (zh) * | 2020-10-29 | 2021-02-09 | 深圳市优必选科技股份有限公司 | 手部关键点检测方法、装置及终端设备 |
Non-Patent Citations (8)
Title |
---|
LE Vanbang ; 朱煜 ; NGUYEN Anhtu ; .深度图像手势分割及HOG-SVM手势识别方法研究.计算机应用与软件.2016,(第12期),全文. * |
严利民 ; 李跃 ; 杜斌 ; 潘浩 ; .基于关键特征点运动轨迹的动态手势识别.光电子技术.2015,(第03期),全文. * |
包兆华 ; 高瑜翔 ; 夏朝禹 ; 郭春妮 ; .基于神经网络的静态手势识别算法实现.成都信息工程大学学报.2019,(第06期),全文. * |
吴晓凤 ; 张江鑫 ; 徐欣晨 ; .基于Faster R-CNN的手势识别算法.计算机辅助设计与图形学学报.2018,(第03期),全文. * |
李逸琳 ; 陶静 ; 霍艺文 ; 徐武 ; .手势特征提取与图像分割的优化研究.计算机应用与软件.2020,(第02期),全文. * |
杨丽梅 ; 李致豪 ; .面向人机交互的手势识别系统设计.工业控制计算机.2020,(第03期),全文. * |
石杰 ; 周亚丽 ; 张奇志 ; .基于改进Mask RCNN和Kinect的服务机器人物品识别系统.仪器仪表学报.2019,(第04期),全文. * |
郭闯世 ; 孟朝晖 ; .基于改进霍夫变换算法的手势识别.计算机系统应用.2018,(第04期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113312973A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113312973B (zh) | 一种手势识别关键点特征提取方法及系统 | |
Melekhov et al. | Dgc-net: Dense geometric correspondence network | |
US11763485B1 (en) | Deep learning based robot target recognition and motion detection method, storage medium and apparatus | |
CN110599537A (zh) | 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统 | |
Li et al. | Automatic crack detection and measurement of concrete structure using convolutional encoder-decoder network | |
Wan et al. | Unmanned aerial vehicle video-based target tracking algorithm using sparse representation | |
JP2018022360A (ja) | 画像解析装置、画像解析方法およびプログラム | |
Chen et al. | Mvhm: A large-scale multi-view hand mesh benchmark for accurate 3d hand pose estimation | |
CN113052873B (zh) | 一种在线自监督学习场景适应的单目标跟踪方法 | |
JP2009230703A (ja) | オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム | |
CN111881731A (zh) | 基于人体骨架的行为识别方法、系统、装置及介质 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN111127519A (zh) | 一种双模型融合的目标跟踪控制系统及其方法 | |
CN110310305A (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
US11367206B2 (en) | Edge-guided ranking loss for monocular depth prediction | |
Li et al. | Self-supervised coarse-to-fine monocular depth estimation using a lightweight attention module | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education | |
Lee et al. | Background subtraction using the factored 3-way restricted Boltzmann machines | |
CN113092807A (zh) | 基于多目标跟踪算法的城市高架道路车辆测速方法 | |
Lee et al. | Instance-wise depth and motion learning from monocular videos | |
CN110570450A (zh) | 一种基于级联的上下文感知框架的目标跟踪方法 | |
Fatima et al. | Object recognition, tracking and trajectory generation in real-time video sequence | |
CN106886791A (zh) | 一种基于条件随机场的二维ct图片中脂肪位置识别方法 | |
Liu et al. | Learning task-aligned local features for visual localization | |
Wang et al. | 3D-2D spatiotemporal registration for sports motion analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |