CN110414402B - 一种手势数据标注方法、装置、电子设备及存储介质 - Google Patents
一种手势数据标注方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110414402B CN110414402B CN201910661429.8A CN201910661429A CN110414402B CN 110414402 B CN110414402 B CN 110414402B CN 201910661429 A CN201910661429 A CN 201910661429A CN 110414402 B CN110414402 B CN 110414402B
- Authority
- CN
- China
- Prior art keywords
- angle key
- key point
- gesture
- distance
- internal angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公开关于一种手势数据标注方法、装置、电子设备及存储介质,解决了手势数据标注准确度低的问题,该方法包括:采用手势检测模型对基于切割同一样本手势图像获得的切割手势图像集合进行检测,得到相应的手势包围框,以及各个手势包围框包含的各个内角关键点,针对表征同一相对位置的各个第一内角关键点集合,将离心距离最远的N个内角关键点删除,基于各个第二内角关键点集合中各个内角关键点的距离集合,确定各个第二内角关键点集合在样本手势图像中新的坐标位置,并基于各个新的坐标位置,重新标注样本手势图像中的手势数据。基于各个第二内角关键点集合新的坐标位置,重新标注样本手势图像中的手势数据,降低人工标注手势数据的不稳定性。
Description
技术领域
本公开涉及计算机技术,特别涉及一种手势数据标注方法、装置、电子设备及存储介质。
背景技术
众所周知,人类的肢体语言直观易懂,不受地域、语言等因素的限制,简单的几个姿势就能将基本的意图表达清楚,且不易产生歧义,而人类的双手更是肢体语言表达时最重要的一部分,因此,随着科学技术的迅猛发展,采用手势识别技术,使得计算机可以对人类摆出的不同手势进行识别,进而获取手势信息中传达的丰富信息。
相关技术中,主要采用卷积神经网络(Convolutional Neural Network,CNN)模型,完成对原始手势图像中的手势检测。
具体的,在训练卷积神经网络模型对手势进行检测时,首先,将待检测手势图像作为输入层输入到卷积神经网络模型中,通过隐藏层中的矩阵信息,提取待识别手势图像中的特征向量;其次,采用循环迭代的方式,重复上述步骤,直到模型收敛,将最后一轮迭代中的当前特征向量作为最终特征向量输出;再次,基于最终特征向量,确定手势包围框目标检测点的位置;最后,基于手势包围框目标检测点的位置,确定待检测手势图像的手势包围框。
然而,目前卷积神经网络模型也存在其应用的局限性。
具体的,相关技术下,在训练卷积神经网络模型时,需要使用海量的人工标注的样本手势图像,但目前对人工标注的手势包围框目标检测点的定位没有统一的标准,尤其是手势包围框靠近手腕的部分,这样,可能出现同一人对不同的样本手势图像中的手势包围框目标检测点的定位不同,或者不同人对同一幅样本手势图像中的手势包围框目标检测点的定位不同的情况,进而导致基于定位标准不一致的样本手势图像训练出的卷积神经网络模型,对待检测手势图像中的手势包围框目标检测点的定位也不准确,使得最终输出的手势包围框并没有呈现出完整的手部姿态,从而降低了手势姿态检测的准确率。
发明内容:
本公开提供一种手势数据标注方法、装置、电子设备及存储介质,以至少解决相关技术中人工标注手腕关键点的不稳定性的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种手势数据标注方法,包括:
对样本手势图像进行多次切割,获得多张切割手势图像,并且各张切割手势图像中均包含有处于不同位置的同一手势;
采用预设的手势检测模型,检测各张切割手势图像中对应的手势包围框,以及将各个手势包围框的顶点确定为相应的内角关键点,并将具有同一相对位置的内角关键点归属为一类,获得各个第一内角关键点集合;
删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,生成各个第二内角关键点集合,其中所述离心距离表征一个内角关键点与各个当前中心点的距离平均值,N为预设参数,所述当前中心点表征一个第一内角关键点集合的中心位置的假想中心点;
基于所述各个第二内角关键点集合中各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置;
基于所述各个第二内角关键点集合新的坐标位置,重新标注所述样本手势图像中的手势数据。
可选的,删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,包括:
其中,针对一个第一内角关键点集合执行以下操作:
基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合;
基于所述距离集合,对每一个内角关键点执行以下操作:获取一个内角关键点的距离集合中记录的,所述一个内角关键点到所述各个当前中心点的距离;计算获得的各个距离的距离平均值,并将所述距离平均值确定为所述一个内角关键点的平均相对距离;
并将平均相对距离取值最大的N个内角关键点删除。
可选的,基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合,包括:
针对一个第一内角关键点集合循环执行以下操作,直到达到设定的循环次数为止,获得一个第一内角关键点集合的距离集合:
按照设定的划分规则,将一个第一内角关键点集合中的各个内角关键点划分为非离群点或者离群点,并生成非离群点集合以及离群点集合;
基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,以及分别计算并记录所述离群点集合中各个内角关键点到所述当前中心点的距离;
判断是否达到所述循环次数。
可选的,所述设定的划分规则,包括:
将一个内角关键点划分为非离群点与离群点的次数分别为所述循环次数的一半。
可选的,基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,包括:
获取所述非离群点集合中包含的各个内角关键点的坐标位置;
对各个内角关键点的坐标位置进行平均值运算,得到第一平均坐标位置;
将所述第一平均坐标位置,作为所述当前中心点的坐标位置输出。
可选的,基于各个第二内角关键点集合中剩余的各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置,其中,针对一个第二内角关键点集合执行以下操作,包括:
将所述一个第二内角关键集合中剩余的内角关键点的坐标位置进行平均值运算,得到相应的第二平均坐标位置;
基于预设的映射关系,将所述第二平均坐标位置,确定为所述一个第二内角关键点集合在所述样本手势图像中的坐标位置。
根据本公开实施例的第二方面,提供一种手势数据标注装置,包括:
获取单元,被配置为对样本手势图像进行多次切割,获得多张切割手势图像,并且各张切割手势图像中均包含有处于不同位置的同一手势;
处理单元,被配置为采用预设的手势检测模型,检测各张切割手势图像中对应的手势包围框,以及将各个手势包围框的顶点确定为相应的内角关键点,并将具有同一相对位置的内角关键点归属为一类,获得各个第一内角关键点集合;
删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,生成各个第二内角关键点集合,其中所述离心距离表征一个内角关键点与各个当前中心点的距离平均值,N为预设参数,所述当前中心点表征一个第一内角关键点集合的中心位置的假想中心点;
基于所述各个第二内角关键点集合中各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置;
标注单元,被配置为基于所述各个第二内角关键点集合新的坐标位置,重新标注所述样本手势图像中的手势数据。
可选的,删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,所述处理单元被配置为:
其中,针对一个第一内角关键点集合执行以下操作:
基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合;
基于所述距离集合,对每一个内角关键点执行以下操作:获取一个内角关键点的距离集合中记录的,所述一个内角关键点到所述各个当前中心点的距离;计算获得的各个距离的距离平均值,并将所述距离平均值确定为所述一个内角关键点的平均相对距离;
并将平均相对距离取值最大的N个内角关键点删除。
可选的,基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合,所述处理单元被配置为:
针对一个第一内角关键点集合循环执行以下操作,直到达到设定的循环次数为止,获得一个第一内角关键点集合的距离集合:
按照设定的划分规则,将一个第一内角关键点集合中的各个内角关键点划分为非离群点或者离群点,并生成非离群点集合以及离群点集合;
基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,以及分别计算并记录所述离群点集合中各个内角关键点到所述当前中心点的距离;
判断是否达到所述循环次数。
可选的,所述设定的划分规则,所述处理单元被配置为:
将一个内角关键点划分为非离群点与离群点的次数分别为所述循环次数的一半。
可选的,基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,所述处理单元被配置为:
获取所述非离群点集合中包含的各个内角关键点的坐标位置;
对各个内角关键点的坐标位置进行平均值运算,得到第一平均坐标位置;
将所述第一平均坐标位置,作为所述当前中心点的坐标位置输出。
可选的,基于各个第二内角关键点集合中剩余的各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置,其中,针对一个第二内角关键点集合执行以下操作,所述处理单元被配置为:
将所述一个第二内角关键集合中剩余的内角关键点的坐标位置进行平均值运算,得到相应的第二平均坐标位置;
基于预设的映射关系,将所述第二平均坐标位置,确定为所述一个第二内角关键点集合在所述样本手势图像中的坐标位置。
根据本公开实施例的第三方面,提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述可执行指令,以实现上述任一项方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述任一项方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开实施例中,采用预设的手势检测模型,对基于切割同一样本手势图像获得的切割手势图像集合进行检测,得到相应的手势包围框,以及各个手势包围框包含的各个内角关键点,针对表征同一相对位置的各个第一内角关键点集合,将离心距离最远的N个内角关键点删除,基于各个第二内角关键点集合中各个内角关键点的距离集合,重新确定各个第二内角关键点集合在样本手势图像中新的坐标位置,并基于各个第二内角关键点集合新的坐标位置,重新标注样本手势图像中的手势数据。这样,基于各个第二内角关键点集合在样本手势图像中新的坐标位置,重新标注样本手势图像中的手势数据,降低人工标注手腕关键点的不稳定性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明:
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种对样本手势图像中的手势数据进行标注的流程示意图。
图2a是根据一示例性实施例示出的一张原始样本手势图像。
图2b是根据一示例性实施例示出的一张目标手势位于切割手势图像中心点左侧的切割手势图像。
图2c是根据一示例性实施例示出的一张目标手势位于切割手势图像中心点上方的切割手势图像。
图2d是根据一示例性实施例示出的一张目标手势位于切割手势图像中心点右侧的切割手势图像。
图3是根据一示例性实施例示出的样本手势图像中的目标手势包围框示意图。图4是根据一示例性实施例示出的一种手势包围框目标检测点的定位装置的框图。
图5是根据一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式:
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
参阅图1所示,本公开实施例中,针对样本手势图像中的手势数据进行标注的详细过程如下:
S101,对样本手势图像进行多次切割,获得多张切割手势图像,并且各张切割手势图像中均包含有处于不同位置的同一手势。
获取海量的包含有目标手势的样本手势图像,在本公开实施例中的目标手势是指由手指、手掌、手腕组成的手部姿态,经由人工对每一张样本手势图像进行多次随机切割,获得各张样本手势图像的切割手势图像集合,在切割过程中需要保证每张切割图像中均包含有完整的目标手势,以及每张切割手势图像中该目标手势所处的位置都不同。
同时,以图像左下角为原点,分别在样本手势切割图像及其对应的各张切割手势图像中建立平面直角坐标系,分别确定所述样本手势切割图像及其对应的所述各张切割手势图像上各个像素点的坐标位置,并分别记录各张切割手势图像的像素点的坐标位置与对应的样本手势图像的像素点的坐标位置之间的映射关系。
例如,对图2a所示的样本手势图像进行切割,得到如图2b-图2d所示的切割手势图像,具体包括:以切割手势图像的中心点为参考点,如图2b所示的切割手势图像,该目标手势位于切割手势图像中心点的左侧;如图2c所示的切割手势图像,该目标手势位于切割手势图像中心点的上方;如图2d所示的切割手势图像,该目标手势位于切割手势图像中心点的右侧。
S102,采用预设的手势检测模型,检测各张切割手势图像中对应的手势包围框,以及将各个手势包围框的顶点确定为相应的内角关键点,并将具有同一相对位置的内角关键点归属为一类,获得各个第一内角关键点集合。
本公开实施例中,在执行步骤101之前,需要预先基于海量的样本手势图像对构建的手势检测模型进行训练,得到大型手势检测模型,所述大型手势检测模型用于确定样本手势图像中的手势包围框,可选的,采用循环迭代的方式,对输入到大型手势检测模型中的各个样本手势图像分别执行以下操作,具体包括:
A、基于隐藏层中的矩阵信息,提取一张样本手势图像的当前特征向量。
B、基于当前特征向量,确定手势数据的当前坐标位置。
手势数据是用于描述目标手势整体轮廓的关键点,例如,指尖关键点、虎口关键点、手腕关键点、手掌外轮廓关键点等等。
C、判断手势数据的当前坐标位置,与样本手势图像中人工标注的手势数据的目标坐标位置是否一致,若是,则执行步骤D;否则,调整大型手势检测模型中矩阵信息的参数,并返回步骤A继续读取下一个样本手势图像进行训练。
D、确定在样本手势图像中定位到手势数据的目标坐标位置后,结束对大型手势检测模型的训练,并将最后一轮迭代中的手势数据的当前坐标位置,作为手势数据的最终坐标位置输出,以及执行步骤E。
E、基于各个重新标注的手势数据绘制的多边形,确定一张样本手势图像中的手势包围框。
进一步的,在大型手势检测模型训练完毕后,本公开实施例中在执行S102时,为了确定该大型手势检测模型的稳定性,需要将样本手势图像对应的切割手势图像集合输入到该大型手势检测模型中,检测出各个切割手势图像集合中包含的各张切割手势图像的预测手势包围框。针对包含同一目标手势的样本手势图像及其对应的切割手势图像集合,对每一张切割手势图像中执行以下操作:基于一张切割手势图像的预测手势包围框与样本手势图像中人工标注的目标手势包围框之间的重叠区域,以及预测手势包围框与目标手势包围框的全部区域,计算所述一张切割手势图像的预测手势包围框与目标手势包围框的重叠度;若所述重叠度超过设定阈值,确定所述重叠度高。当所述切割手势图像集合中的M张切割手势图像被判定为重叠度高,其中M为正整数,则确定该大型手势检测模型的稳定性高。
同时,将各个手势包围框的顶点确定为相应的内角关键点,并将具有同一相对位置的内角关键点归属为一类,获得至少两个第一内角关键点集合,例如,将各个手势包围框中表征左上角的内角关键点,划分为同一类,生成左上角集合。在本公开后续实施例中,以手势包围框的左上角与右下角为内角关键点进行说明,之后不再赘述。
S103,删除各个第一内角关键点集合中离心距离最远的N个内角关键点,生成各个第二内角关键点集合。
其中,离心距离表征一个内角关键点与各个当前中心点的距离平均值,N为预设参数,当前中心点表征一个第一内角关键点集合的中心位置的假想中心点。
对各个第一内角关键点集合分别执行以下操作,具体地,删除一个第一内角关键点集合中离心距离最远的N个关键点的过程如下:
A、确定出该第一内角关键点集合中的当前中心点。
首先,按照设定的划分规则,将该第一内角关键点集合中的各个内角关键点划分为非离群点或者离群点,并生成相应的非离群点集合以及离群点集合。
其中,设定的划分规则可为,按照数学期望,将一个内角关键点划分为非离群点与离群点的次数分别为循环次数的一半。例如,设定的循环次数为20次,则将一个内角关键点划分为非离群点的次数为10次,将该内角关键点划分为离群点的次数为10次。
将一个第一内角关键点集合中的至少一个内角关键点确定为非离群点,并构成非离群点集合;以及将一个第一内角关键点集合中的剩余内角关键点确定为离群点,并构成所述离群点集合。
以左上角的内角关键点集合为例,假设左上角集合中包含有4个左上角,采用a~d的索引值表示各个左上角,设定的循环次数为4次,则针对左上角集合的划分结果如表1所示:
表1
循环次数 | 非离群点集合 | 离群点集合 |
1 | (a,b) | (c,d) |
2 | (a,d) | (b,c) |
3 | (b,c) | (a,d) |
4 | (c,d) | (a,b) |
当然,上述表1中所示的是循环次数为4次时,所有循环过程中获得的划分结果的合集,在一次循环过程中,只会获得其中一个划分结果,如,在第1次循环过程中,获得的划分结果为:非离群点集合(a,b)和离群点集合(c,d),后续表2和表3中记录的也是循环过程中获得的全部计算结果,一次循环过程中,只获得其中一个计算结果,将不再赘述。
再次,基于非离群点集合中包含的各个内角关键点的坐标位置,计算出当前中心点的坐标位置。
先获取非离群点集合中包含的各个内角关键点的坐标位置;再对各个内角关键点的坐标位置进行平均值运算,得到第一平均坐标位置;最后,将第一平均坐标位置作为当前中心点的坐标位置输出。
例如,假设4个左上角的坐标位置具体为:a(3,4),b(1,2),c(5,6),d(5,2),则各个非离群点集合的当前中心点的坐标位置如表2所示:
表2
非离群点集合 | 当前中心点的坐标位置 |
(a,b) | v1(2,3) |
(a,d) | v2(4,3) |
(b,c) | v3(3,4) |
(c,d) | v4(5,4) |
B、基于当前中心点,分别计算并记录离群点集合中的各个内角关键点到当前中心点的距离。
采用坐标距离公式,计算各个内角关键点到当前中心点的距离。例如,计算上述实施例中的离群点集合中各个内角关键点到当前中心点的距离,如表3所示:
表3
C、判断是否达到循环次数,若是,执行步骤D;否则,执行步骤A。
D、获得第一内角关键点集合中包含的各个内角关键点的距离集合。
E、获取一个内角关键点的距离集合中记录的,该内角关键点到各个当前中心点的距离;
F、计算获得的各个距离的距离平均值,并将该距离平均值确定为一个内角关键点的平均相对距离。
G、判断各个内角关键点是否均处理完毕,若是,执行步骤H;否则,执行步骤E。
H、将平均相对距离取值最大的N个内角关键点删除。
本公开实施例中,一个内角关键点会对应一个距离集合,这是因为按照设定的划分规则,每个内角关键点至少被划分为一次非离群点和一次离群点,当一个内角关键点被划分为离群点时,会计算并记录所述一个内角关键点与当前中心点的距离。
例如,上述实施例中各个内角关键点的平均相对距离如表4所示:
表4
显然,上述表4中的距离集合,是指所有循环过程中,一个内角关键点获得的距离合集,在例次循环过程中,只会获得一个内角关键点和当前中心点之间的一个距离结果,如,在第1次循环过程中,获得内角关键点c的距离为内角关键点d的距离为表4中的平均相对距离按照从小到大的顺序排列,删除平均相对距离取值最大的N个内角关键点,其中N为预设参数,如,表4中内角关键点b、c对应的平均相对距离最大,因此将内角关键点b、c删除。
S104,基于各个第二内角关键点集合中剩余的各个内角关键点,重新确定各个第二内角关键点集合在样本手势图像中的坐标位置。
对各个第二内角关键点集合分别执行以下操作,其中,在样本手势图像中重新确定一个第二内角关键点集合的坐标位置的过程如下:
先将该第二内角关键集合中剩余的内角关键点的坐标位置进行平均值运算,得到相应的第二平均坐标位置;
再基于预设的映射关系,将第二平均坐标位置,确定为该第二内角关键点集合在样本手势图像中的坐标位置。
S105,基于各个第二内角关键点集合新的坐标位置,重新标注样本手势图像中的手势数据。
先根据样本手势图像中各个第二内角关键点集合新的坐标位置绘制多边形,并将该多边形确定为样本手势图像的目标手势包围框;再获取该目标手势包围框中的各个手势数据新的坐标位置,将各个手势数据新的坐标位置作为手势标注数据输出。
例如,依据切割手势图像集合最终确定的手势数据的坐标位置为(4,3)和(10,1),基于映射关系,在样本手势图像中确定与(4,3)对应的像素点坐标位置是(20,15),与(10,1)对应的像素点坐标位置是(50,5),以(20,15)和(50,5)为顶点绘制一个矩形区域,并将该矩形区域确定为样本手势图像的目标手势包围框,所述目标手势包围框如图4所示。
大型手势检测模型相较于小型手势检测模型,针对手势图像中手势包围框检测点的定位准确性和稳定性上更好,但在实际应用中,大型手势检测模型为了得到准确的手势包围框,需要耗费大量时间运算,会增加模型作业时间,降低模型工作效率,以及降低用户使用感。因此,使用大型手势检测模型对样本手势图像中的手势数据进行重新标注,并将上述样本手势图像作为训练数据,对小型手势检测模型进行训练,既可以提高小型手势检测模型对手腕关键点的定位准确度,又可以减少模型计算量,同时,小型卷手势检测模型在一轮轮的训练过程也会建立针对手势数据的定位标准,基于该定位标准,在使用小型手势检测模型确定手势图像中的目标手势时,可以准确定位目标手势上的各个手势数据的坐标位置,尤其是手腕关键点的坐标位置,进而更好地确定出该张手势图像中的手势包围框,以保证最终生成的手势包围框能呈现该手势图像中完整的手势姿态。
可选的,本公开实施例中,在执行步骤105之后,可以采用包含有新标注的手势数据的样本手势图像,对小型卷积神经网络进行训练,得到小型手势检测模型,具体包括:
首先,获取所述样本手势图像,记录所述样本手势图像中各个标注的手势数据的坐标位置,以及记录所述样本手势图像与所述坐标位置之间的对应关系;
其次,基于所述对应关系,训练所述小型手势检测模型,所述小型手势检测模型用于确定所述样本手势图像中的目标手势包围框。
基于上述实施例,参阅图4所示,本公开实施例中,提供一种基于手势数据标注装置,至少包括获取单元401、处理单元402和标注单元403,其中,
获取单元401,被配置为对样本手势图像进行多次切割,获得多张切割手势图像,并且各张切割手势图像中均包含有处于不同位置的同一手势;
处理单元402,被配置为采用预设的手势检测模型,检测各张切割手势图像中对应的手势包围框,以及将各个手势包围框的顶点确定为相应的内角关键点,并将具有同一相对位置的内角关键点归属为一类,获得各个第一内角关键点集合;
删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,生成各个第二内角关键点集合,其中所述离心距离表征一个内角关键点与各个当前中心点的距离平均值,N为预设参数,所述当前中心点表征一个第一内角关键点集合的中心位置的假想中心点;
基于所述各个第二内角关键点集合中各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置;
定位单元403,被配置为基于所述各个第二内角关键点集合新的坐标位置,重新标注所述样本手势图像中的手势数据。
可选的,删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,所述处理单元402被配置为:
其中,针对一个第一内角关键点集合执行以下操作:
基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合;
基于所述距离集合,对每一个内角关键点执行以下操作:获取一个内角关键点的距离集合中记录的,所述一个内角关键点到所述各个当前中心点的距离;计算获得的各个距离的距离平均值,并将所述距离平均值确定为所述一个内角关键点的平均相对距离;
并将平均相对距离取值最大的N个内角关键点删除。
可选的,基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合,所述处理单元402被配置为:
针对一个第一内角关键点集合循环执行以下操作,直到达到设定的循环次数为止,获得一个第一内角关键点集合的距离集合:
按照设定的划分规则,将一个第一内角关键点集合中的各个内角关键点划分为非离群点或者离群点,并生成非离群点集合以及离群点集合;
基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,以及分别计算并记录所述离群点集合中各个内角关键点到所述当前中心点的距离;
判断是否达到所述循环次数。
可选的,所述设定的划分规则,所述处理单元402被配置为:
将一个内角关键点划分为非离群点与离群点的次数分别为所述循环次数的一半。
可选的,基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,所述处理单元402被配置为:
获取所述非离群点集合中包含的各个内角关键点的坐标位置;
对各个内角关键点的坐标位置进行平均值运算,得到第一平均坐标位置;
将所述第一平均坐标位置,作为所述当前中心点的坐标位置输出。
可选的,基于各个第二内角关键点集合中剩余的各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置,其中,针对一个第二内角关键点集合执行以下操作,所述处理单元402被配置为:
将所述一个第二内角关键集合中剩余的内角关键点的坐标位置进行平均值运算,得到相应的第二平均坐标位置;
基于预设的映射关系,将所述第二平均坐标位置,确定为所述一个第二内角关键点集合在所述样本手势图像中的坐标位置。
基于上述实施例,参阅图5所示,本公开实施例中,提供一种电子设备,至少包括存储器501和处理器502,其中,
存储器501,用于存储可执行指令;
处理器502,用于读取并执行所述存储器中存储的可执行指令,以实现上述任一项方法。
基于上述实施例,提供一种存储介质,至少包括:当所述存储介质中的指令由的处理器执行时,使得能够执行上述任一项方法的步骤。
综上所述,本公开实施例中,采用预设的手势检测模型,对基于切割同一样本手势图像获得的切割手势图像集合进行检测,得到相应的手势包围框,以及各个手势包围框包含的各个内角关键点,针对表征同一相对位置的各个第一内角关键点集合,将离心距离最远的N个内角关键点删除,基于各个第二内角关键点集合中各个内角关键点的距离集合,重新确定各个第二内角关键点集合在样本手势图像中新的坐标位置,并基于各个第二内角关键点集合新的坐标位置,重新标注样本手势图像中的手势数据。
其中样本手势图像中的手势数据是由人工标注的坐标位置,通常一个手势包围框需要完整呈现图像中的目标手势,即完整呈现由手指、手掌、手腕共同组成的手部姿态,但是相关技术中没有统一的手腕检测点定位标准,因此,可能出现同一人对不同的样本手势图像中的手腕检测点的定位不同,或者不同人对于同一幅样本手势图像中的手腕检测点的定位不同,导致基于海量的样本手势图像训练的大型手势检测模型在使用过程中,针对手势图像输出对应的手腕关键点的坐标位置,与实际手腕关键点的坐标位置有所偏移,进而影响到基于多个手势数据的坐标位置绘制的手势包围框,并没有呈现出目标手势的手腕部分,从而降低上述模型对手势包围框检测点的定位准确性。
本公开实施例中,首先,对包含有目标手势的样本手势图像进行多次切割,获得相应的切割手势图像集合,基于预设的大型手势检测模型,检测切割手势图像集合中的各个手势包围框,以及各个手势包围框包含的各个内角关键点;
其次,针对表征同一相对位置的各个第一内角关键点集合,将离心距离最远的N各内角关键点删除。理想情况下,大型手势检测模型针对包含同一目标手势的切割手势图像集合,所生成的手势包围框应该大小一致,即处于同一相对位置的各个手势数据的坐标位置应该对应到样本手势图像中的同一像素点,若一个内角关键点的离心距离较远,意味着该内角关键点的坐标位置,相较于其他切割手势图像中的位于同一相对位置的内角关键点的坐标位置来说存在很大的偏移,进一步说明基于该内角关键点所确定的手势包围框不准。因此,离心距离的远近可以反映出各个内角关键点,相较于同一第一内角关键点集合中的其他内角关键点的偏移程度。
最终,基于各个第二内角关键点集合中各个内角关键点的距离集合,重新确定各个第二内角关键点集合在样本手势图像中的坐标位置,并基于各个第二内角关键点集合新的坐标位置,重新标注样本手势图像中的手势数据。基于大型手势检测模型,与包含同一目标手势的多张切割手势图像,对相应的样本手势图像中的手势数据进行重新标注,相比于仅凭人的主观感受标注的手腕关键点位置,上述模型标注的手腕关键点不仅位置精确,还会建立针对手势数据的定位标准,从而提高大型手势检测模型对手势包围框目标检测点的定位准确率,使得手势包围框可以呈现完整的目标手势。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种手势数据标注方法,其特征在于,包括:
对样本手势图像进行多次切割,获得多张切割手势图像,并且各张切割手势图像中均包含有处于不同位置的同一手势;
采用预设的手势检测模型,检测各张切割手势图像中对应的手势包围框,以及将各个手势包围框的顶点确定为相应的内角关键点,并将具有同一相对位置的内角关键点归属为一类,获得各个第一内角关键点集合;
删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,生成各个第二内角关键点集合,所述离心距离表征一个内角关键点与各个当前中心点的距离平均值,N为预设参数,所述当前中心点表征一个第一内角关键点集合的中心位置的假想中心点;其中,针对一个第一内角关键点集合执行以下操作:
基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合;
基于所述距离集合,对每一个内角关键点执行以下操作:获取一个内角关键点的距离集合中记录的,所述一个内角关键点到所述各个当前中心点的距离;计算获得的各个距离的距离平均值,并将所述距离平均值确定为所述一个内角关键点的平均相对距离;
并将平均相对距离取值最大的N个内角关键点删除;
基于所述各个第二内角关键点集合中各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置;
基于所述各个第二内角关键点集合新的坐标位置,重新标注所述样本手势图像中的手势数据。
2.如权利要求1所述的方法,其特征在于,基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合,包括:
针对一个第一内角关键点集合循环执行以下操作,直到达到设定的循环次数为止,获得一个第一内角关键点集合的距离集合:
按照设定的划分规则,将一个第一内角关键点集合中的各个内角关键点划分为非离群点或者离群点,并生成非离群点集合以及离群点集合;
基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,以及分别计算并记录所述离群点集合中各个内角关键点到所述当前中心点的距离;
判断是否达到所述循环次数。
3.如权利要求2所述的方法,其特征在于,所述设定的划分规则,包括:
将一个内角关键点划分为非离群点与离群点的次数分别为所述循环次数的一半。
4.如权利要求2或3所述的方法,其特征在于,基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,包括:
获取所述非离群点集合中包含的各个内角关键点的坐标位置;
对各个内角关键点的坐标位置进行平均值运算,得到第一平均坐标位置;
将所述第一平均坐标位置,作为所述当前中心点的坐标位置输出。
5.如权利要求1所述的方法,其特征在于,基于各个第二内角关键点集合中剩余的各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置,其中,针对一个第二内角关键点集合执行以下操作,包括:
将所述一个第二内角关键集合中剩余的内角关键点的坐标位置进行平均值运算,得到相应的第二平均坐标位置;
基于预设的映射关系,将所述第二平均坐标位置,确定为所述一个第二内角关键点集合在所述样本手势图像中的坐标位置。
6.一种手势数据标注装置,其特征在于,包括:
获取单元,被配置为对样本手势图像进行多次切割,获得多张切割手势图像,并且各张切割手势图像中均包含有处于不同位置的同一手势;
处理单元,被配置为采用预设的手势检测模型,检测各张切割手势图像中对应的手势包围框,以及将各个手势包围框的顶点确定为相应的内角关键点,并将具有同一相对位置的内角关键点归属为一类,获得各个第一内角关键点集合;
删除所述各个第一内角关键点集合中离心距离最远的N个内角关键点,生成各个第二内角关键点集合,所述离心距离表征一个内角关键点与各个当前中心点的距离平均值,N为预设参数,所述当前中心点表征一个第一内角关键点集合的中心位置的假想中心点;其中,针对一个第一内角关键点集合执行以下操作:
基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合;
基于所述距离集合,对每一个内角关键点执行以下操作:获取一个内角关键点的距离集合中记录的,所述一个内角关键点到所述各个当前中心点的距离;计算获得的各个距离的距离平均值,并将所述距离平均值确定为所述一个内角关键点的平均相对距离;
并将平均相对距离取值最大的N个内角关键点删除;
基于所述各个第二内角关键点集合中各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置;
标注单元,被配置为基于所述各个第二内角关键点集合新的坐标位置,重新标注所述样本手势图像中的手势数据。
7.如权利要求6所述的装置,其特征在于,基于所述各个当前中心点,计算一个第一内角关键点集合中包含的各个内角关键点的距离集合,所述处理单元被配置为:
针对一个第一内角关键点集合循环执行以下操作,直到达到设定的循环次数为止,获得一个第一内角关键点集合的距离集合:
按照设定的划分规则,将一个第一内角关键点集合中的各个内角关键点划分为非离群点或者离群点,并生成非离群点集合以及离群点集合;
基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,以及分别计算并记录所述离群点集合中各个内角关键点到所述当前中心点的距离;
判断是否达到所述循环次数。
8.如权利要求7所述的装置,其特征在于,所述设定的划分规则,所述处理单元被配置为:
将一个内角关键点划分为非离群点与离群点的次数分别为所述循环次数的一半。
9.如权利要求7或8所述的装置,其特征在于,基于所述非离群点集合中包含的各个内角关键点的坐标位置,计算出所述当前中心点的坐标位置,所述处理单元被配置为:
获取所述非离群点集合中包含的各个内角关键点的坐标位置;
对各个内角关键点的坐标位置进行平均值运算,得到第一平均坐标位置;
将所述第一平均坐标位置,作为所述当前中心点的坐标位置输出。
10.如权利要求6所述的装置,其特征在于,基于各个第二内角关键点集合中剩余的各个内角关键点,重新确定所述各个第二内角关键点集合在所述样本手势图像中的坐标位置,其中,针对一个第二内角关键点集合执行以下操作,所述处理单元被配置为:
将所述一个第二内角关键集合中剩余的内角关键点的坐标位置进行平均值运算,得到相应的第二平均坐标位置;
基于预设的映射关系,将所述第二平均坐标位置,确定为所述一个第二内角关键点集合在所述样本手势图像中的坐标位置。
11.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述可执行指令,以实现如权利要求1至5中任一项所述的方法。
12.一种存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910661429.8A CN110414402B (zh) | 2019-07-22 | 2019-07-22 | 一种手势数据标注方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910661429.8A CN110414402B (zh) | 2019-07-22 | 2019-07-22 | 一种手势数据标注方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414402A CN110414402A (zh) | 2019-11-05 |
CN110414402B true CN110414402B (zh) | 2022-03-25 |
Family
ID=68362363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910661429.8A Active CN110414402B (zh) | 2019-07-22 | 2019-07-22 | 一种手势数据标注方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414402B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783535B (zh) * | 2020-05-28 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 关键点数据增强方法和装置、以及关键点检测方法和装置 |
CN113052148B (zh) * | 2021-05-10 | 2023-09-29 | 读书郎教育科技有限公司 | 一种改善平板指尖定位抖动的方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8493344B2 (en) * | 2009-06-07 | 2013-07-23 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface |
CN104252715A (zh) * | 2014-09-05 | 2014-12-31 | 北京大学 | 一种基于单幅线条图像的三维立体重建方法 |
US8957865B2 (en) * | 2009-01-05 | 2015-02-17 | Apple Inc. | Device, method, and graphical user interface for manipulating a user interface object |
CN105739673A (zh) * | 2014-12-10 | 2016-07-06 | 鸿富锦精密工业(深圳)有限公司 | 手势创建系统及方法 |
CN105955473A (zh) * | 2016-04-27 | 2016-09-21 | 周凯 | 一种基于计算机的静态手势图像识别交互系统 |
CN105975906A (zh) * | 2016-04-27 | 2016-09-28 | 济南大学 | 一种基于面积特征的pca静态手势识别方法 |
CN107103613A (zh) * | 2017-03-28 | 2017-08-29 | 深圳市未来媒体技术研究院 | 一种三维手势姿态估计方法 |
CN107563494A (zh) * | 2017-08-01 | 2018-01-09 | 华南理工大学 | 一种基于卷积神经网络和热图的第一视角指尖检测方法 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN108229324A (zh) * | 2017-11-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 手势追踪方法和装置、电子设备、计算机存储介质 |
CN109272020A (zh) * | 2018-08-20 | 2019-01-25 | 中国科学院计算技术研究所 | 一种肌电数据中离群点的处理方法和系统 |
CN109308459A (zh) * | 2018-09-05 | 2019-02-05 | 南京大学 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
CN109635750A (zh) * | 2018-12-14 | 2019-04-16 | 广西师范大学 | 一种复杂背景下的复合卷积神经网络手势图像识别方法 |
CN110032925A (zh) * | 2019-02-22 | 2019-07-19 | 广西师范大学 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9389777B2 (en) * | 2013-11-08 | 2016-07-12 | Business Objects Software Ltd. | Gestures for manipulating tables, charts, and graphs |
US10157309B2 (en) * | 2016-01-14 | 2018-12-18 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
-
2019
- 2019-07-22 CN CN201910661429.8A patent/CN110414402B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8957865B2 (en) * | 2009-01-05 | 2015-02-17 | Apple Inc. | Device, method, and graphical user interface for manipulating a user interface object |
US8493344B2 (en) * | 2009-06-07 | 2013-07-23 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface |
CN104252715A (zh) * | 2014-09-05 | 2014-12-31 | 北京大学 | 一种基于单幅线条图像的三维立体重建方法 |
CN105739673A (zh) * | 2014-12-10 | 2016-07-06 | 鸿富锦精密工业(深圳)有限公司 | 手势创建系统及方法 |
CN105955473A (zh) * | 2016-04-27 | 2016-09-21 | 周凯 | 一种基于计算机的静态手势图像识别交互系统 |
CN105975906A (zh) * | 2016-04-27 | 2016-09-28 | 济南大学 | 一种基于面积特征的pca静态手势识别方法 |
CN107103613A (zh) * | 2017-03-28 | 2017-08-29 | 深圳市未来媒体技术研究院 | 一种三维手势姿态估计方法 |
CN107563494A (zh) * | 2017-08-01 | 2018-01-09 | 华南理工大学 | 一种基于卷积神经网络和热图的第一视角指尖检测方法 |
CN107808143A (zh) * | 2017-11-10 | 2018-03-16 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN108229324A (zh) * | 2017-11-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 手势追踪方法和装置、电子设备、计算机存储介质 |
CN109272020A (zh) * | 2018-08-20 | 2019-01-25 | 中国科学院计算技术研究所 | 一种肌电数据中离群点的处理方法和系统 |
CN109308459A (zh) * | 2018-09-05 | 2019-02-05 | 南京大学 | 基于手指注意力模型和关键点拓扑模型的手势估计方法 |
CN109635750A (zh) * | 2018-12-14 | 2019-04-16 | 广西师范大学 | 一种复杂背景下的复合卷积神经网络手势图像识别方法 |
CN110032925A (zh) * | 2019-02-22 | 2019-07-19 | 广西师范大学 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
Non-Patent Citations (3)
Title |
---|
Application of Volume Bounding Box Decomposition for Surgeon’s Hand Gestures Recognition;Sven Nomm等;《 IECON 2010 - 36th Annual Conference on IEEE Industrial Electronics Society》;20101031;第1076-1080页 * |
Real-time Hand Gestures System for Mobile Robots Control;Ahmad Athif Mohd Faudzi等;《Engineering Procedia》;20121231;第798-804页 * |
基于深度图像的人手关节点识别;张艳;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20150315;第1076-1080页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110414402A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232311B (zh) | 手部图像的分割方法、装置及计算机设备 | |
WO2021120834A1 (zh) | 基于生物识别的手势识别方法、装置、计算机设备及介质 | |
CN110532984B (zh) | 关键点检测方法、手势识别方法、装置及系统 | |
CN105493078B (zh) | 彩色草图图像搜索 | |
WO2018036146A1 (zh) | 基于卷积神经网络的目标匹配方法、装置及存储介质 | |
CN110705478A (zh) | 人脸跟踪方法、装置、设备及存储介质 | |
US20140169683A1 (en) | Image retrieval method, real-time drawing prompting method, and devices thereof | |
CN111401318B (zh) | 动作识别方法及装置 | |
US11282257B2 (en) | Pose selection and animation of characters using video data and training techniques | |
CN111783882B (zh) | 关键点检测方法、装置、电子设备及存储介质 | |
US9213897B2 (en) | Image processing device and method | |
CN110414402B (zh) | 一种手势数据标注方法、装置、电子设备及存储介质 | |
WO2021223738A1 (zh) | 模型参数的更新方法、装置、设备及存储介质 | |
WO2017070923A1 (zh) | 一种人脸识别方法和装置 | |
CN107832736A (zh) | 实时人体动作的识别方法和实时人体动作的识别装置 | |
WO2021105279A1 (en) | Gesture stroke recognition in touch-based user interface input | |
Jia et al. | Real‐time hand gestures system based on leap motion | |
JP2006285627A (ja) | 3次元モデルの類似検索装置及び方法 | |
JP4570995B2 (ja) | マッチング方法およびマッチング装置ならびにプログラム | |
JP5560925B2 (ja) | 3次元形状検索装置、3次元形状検索方法、及びプログラム | |
US11361467B2 (en) | Pose selection and animation of characters using video data and training techniques | |
CN109635798A (zh) | 一种信息提取方法及装置 | |
CN112348069B (zh) | 数据增强方法、装置、计算机可读存储介质及终端设备 | |
CN113392820A (zh) | 动态手势识别方法、装置、电子设备及可读存储介质 | |
CN110413819A (zh) | 一种图片描述信息的获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |