CN113792651B - 一种融合手势识别和指尖定位的手势交互方法、设备及介质 - Google Patents

一种融合手势识别和指尖定位的手势交互方法、设备及介质 Download PDF

Info

Publication number
CN113792651B
CN113792651B CN202111070817.2A CN202111070817A CN113792651B CN 113792651 B CN113792651 B CN 113792651B CN 202111070817 A CN202111070817 A CN 202111070817A CN 113792651 B CN113792651 B CN 113792651B
Authority
CN
China
Prior art keywords
finger
gesture
fingertip
probability
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111070817.2A
Other languages
English (en)
Other versions
CN113792651A (zh
Inventor
梁英男
刘光禄
李文锋
张守龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking Equipment Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN202111070817.2A priority Critical patent/CN113792651B/zh
Publication of CN113792651A publication Critical patent/CN113792651A/zh
Application granted granted Critical
Publication of CN113792651B publication Critical patent/CN113792651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合手势识别和指尖定位的手势交互方法、设备及存储介质,其交互方法包括获取视频信息,对视频信息进行手部检测以获得手部位置以及手势类别;对视频信息进行预处理后获得手部图像,利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置,并对手指概率以及手指位置进行优化以获得手势的指尖位置;根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。本发明可统一对不同手势类别的手指指尖进行定位,避免不同的手势采用不同的指尖定位模型,减少模型数量,提高模型的速度,同时提高指尖定位的精度。

Description

一种融合手势识别和指尖定位的手势交互方法、设备及介质
技术领域
本发明涉及计算机图形处理领域,尤其涉及一种融合手势识别和指尖定位的手势交互方法、设备及存储介质。
背景技术
目前,手势交互是将手势信息转化为用户指令的一种交互方式,主要是利用计算机视觉和计算机图形学等技术对人的肢体语言进行识别,随着虚拟现实技术(VirtualReality,VR)和增强现实技术(Augmenting Reality,AR)的兴起,尤其是智能眼镜等头戴式设备的出现,急需新的手势交互方法来帮助设备理解人的交互需要。
而现有的手势交互方法,但只能检测单指指尖的情况,当使用多个手指进行空中交互的时候,比如抓取、放大缩小等手势时,这种方法需要针对不同的手势类别采用不同的模型进行指尖定位,因为可见的手指数量不同,因此需要采用不同的模型进行检测,使用多个模型比较复杂,且速度较慢。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种融合手势识别和指尖定位的手势交互方法,可统一对不同手势类别的手指指尖进行定位,同时提高指尖定位的精度。
本发明的目的之二在于提供一种电子设备。
本发明的目的之三在于提供一种存储介质。
本发明的目的之一采用如下技术方案实现:
一种融合手势识别和指尖定位的手势交互方法,包括:
获取视频信息,对视频信息进行手部检测以获得手部位置以及手势类别;
对视频信息进行预处理后获得手部图像,利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置,并对手指概率以及手指位置进行优化以获得手势的指尖位置;
根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。
进一步地,利用二进制序列输出手部位置以及手势类别;其中,每个手指所对应的二进制序列为,指尖位置序列为,二进制指尖序列和对应的位置相乘,则输出为;若坐标为则认为手指隐藏并忽略。
进一步地,利用全卷积网络对手指概率进行预测的方法为:
将手部图像输入MobileNetV3网络后经过至少两个FC层以对手指概率进行特征提取以完成手指概率的预测。
进一步地,利用全卷积网络对手指位置进行预测的方法为:
将手部图像输入MobileNetV3网络后经过至少三个上采样转置卷积进行特征抽取以完成手指位置的预测。
进一步地,对手指概率进行优化的方法为:
使用二值交叉熵损失函数优化输出概率以获得概率损失函数;其中N为概率输出的长度,M为一次输入的图片张数,表示样本预测为N类的概率,是样本标签,是模型预测样本标签。
进一步地,对手指位置进行优化的方法为:
采用均方误差损失函数对手指位置进行优化以获得位置损失函数;其中,表示手指是否可见,是0和1组成的序列,若为0则不对该手指进行计算,,表示手指的坐标序列,是样本坐标,是模型预测样本坐标。
进一步地,获得手势的指尖位置的方法为:
将概率损失函数以及位置损失函数进行叠加以获得总损失函数;
使用总损失函数对当前手势类别进行指尖定位。
进一步地,对视频信息进行预处理的方法为:
根据手部位置对视频信息进行剪切矫正以获得剪切后的手部图像。
本发明的目的之二采用如下技术方案实现:
一种电子设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的融合手势识别和指尖定位的手势交互方法。
本发明的目的之三采用如下技术方案实现:
一种存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述的融合手势识别和指尖定位的手势交互方法。
相比现有技术,本发明的有益效果在于:
将手势类别和指尖定位进行融合,使用单一的全卷积网络对不同手势进行指尖定位,避免针对不同手势类别采用不同的指尖检测,减少了模型的数量,提高模型的速度;并在卷积网络后添加多个采样转置卷积,可提高指尖定位的精度。
附图说明
图1为本发明融合手势识别和指尖定位的手势交互方法的流程框图;
图2为本发明特征识别的流程框图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一
本实施例提供一种融合手势识别和指尖定位的手势交互方法,可将手势类别和指尖定位两个子任务进行统一,避免针对不同手势类别采用不同的指尖检测,减少了模型的数量,提高模型的速度。
如图1所示,本实施例的手势交互的方法具体包括如下步骤:
步骤S1:获取视频信息,对视频信息进行手部检测以获得手部位置以及手势类别。
本实施例通过摄像设备拍摄获得视频信息后,将视频信息导入预设的手部检测模型中,手部检测模型输出手部位置及其手势类别。其手部检测模型可以通过手部关键点的方式进行手部位置以及手势识别检测,即使用标注有人手关键点的数据集训练神经网络,使用多个不同视角的摄像头拍摄人手的图像导入神经网络中以检测关键点,将这些关键点根据摄像机的位姿构建三角,得到关键点的3D位置,再将计算得到的3D点位置重投影到每一幅不同视角的2D图像,再使用这些2D图像和关键点标注训练检测模型网络,经过几次迭代,即可以得到较为精确的手部关键点检测模型。而该手部检测模块的构建方法在现有技术中已经公开,在此不做详细说明。
本实施例中将视频图像导入上述手部检测模块中获得手部关键点,从而即可获得图像中的手部位置以及手势类别。
本实施例为了让手势类别和指尖定位进行融合,将手势类别和指尖定位两个子任务进行统一,即通过二进制序列方式来表示每个手指的输出,具体为:手势类别则是不同数量可见手指的组合,一只手手指数目是固定为N(N=5),可在特定手势中手指的数量i(i∈1,2,3,...,N)是可变的,指尖坐标的数量对应为2i,而手部检测模型中卷积神经网络的输出数量必须是固定的。为了解决这个矛盾,本实施例采用长度为N的二进制序列(p1,p2,p3,...,pN)表示每个手指的输出,对于可见的手指给出较高的置信度,对于隐藏的手指给出较低的置信度,由于手指可见和隐藏的概率相同,取阈值为0.5,大于阈值输出为1,表示手指可见,反则为0表示手指隐藏。因此,对应的指尖位置序列为((x1,y1),(x2,y2),(x3,y3),...,(xN,yN)),二进制指尖序列和对应的位置相乘,则输出为(p1×(x1,y1),p2×(x2,y2),p3×(x3,y3),...,pN×(xN,yN)),若坐标为(0,0)则认为手指隐藏并忽略。
步骤S2:对视频信息进行预处理后获得手部图像,利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置,并对手指概率以及手指位置进行优化以获得手势的指尖位置。
本实施例在确定手部位置以及手势类别后,根据手部位置对视频信息进行剪切处理以获得手部位置所对应的手部图像,在视频剪切过程中,还需要对图像进行图片矫正,例如对图片中存在的变形或倾斜等问题进行矫正,以进一步提高图像中指尖识别准确度。
如图2所示,本实施例的采用对剪切后的手部图像使用轻量级的卷积神经网络MobileNetV3网络进行特征提取以获得手指概率和手指位置,其中手指概率的预测方法为:在MobileNetV3网络的输出端添加至少两个FC层(Fully Connected layer,全连接层),利用FC层对经过多次卷积后高度抽象化的特征进行整合并进行归一化处理后输出一个概率,将该概率作为手指概率,以完成手指概率的预测。
而手指位置的预测方法为在在MobileNetV3网络的输出端添加至少三个上采样转置卷积,手部图像经过MobileNetV3网络后在经过至少三个上采样转置卷积可获得手部图像中还原度更高的指尖位置和语义信息,即手指位置预测分支添加至少三个上采样转置卷积进行特征抽取,可提高指尖定位的精度。
在对手指概率和手指位置进行预测后,还需对手指概率以及手指位置进行优化,具体为:由于手指概率为0或1,因此使用二值交叉熵损失函数L1优化输出概率,损失函数L1
其中,N为概率输出的长度,M为一次输入的图片张数,Ρ=[p1,p2,p3,...pN]表示样本预测为N类的概率,是样本标签,而是则模型预测样本标签。
本实施例中手指位置采用均方误差(MSE)损失函数进行优化;如L2所示,1finger表示手指是否可见,是0和1组成的序列,若为0则不对该手指进行计算,X=[x1,x2,...xN,y1,y2,...yN],表示手指的坐标序列,是样本坐标,/>是模型预测样本坐标。
而总的损失函数L为概率损失函数L1和位置损失函数L2之和,即L=L1+L2,使用该总的损失函数来表现预测与实际数据的差距程度,从而获得准确的指尖位置。
本实施例将手势类别和指尖定位两个子任务进行统一,避免针对不同手势类别采用不同的指尖定位模型的技术问题,减少了模型的数量,提高模型的速度;同时在主干网络后添加多个上采样转置卷积,提高了指尖定位的精度。
步骤S3:根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。
本实施例在获得准确的手部位置、手势类别以及指尖位置等手部姿态信息后,将手势信息转化为用户指令对系统进行控制,从而实现手势交互的功能。
实施例二
本实施例提供一种电子设备,包括存储器、处理器以及存储在存储器中的程序,所述程序被配置成由处理器执行,处理器执行所述程序时实现实施例一所述的融合手势识别和指尖定位的手势交互方法。
另外,本发明还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述的融合手势识别和指尖定位的手势交互方法。本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本实施例中的设备及存储介质与前述实施例中的方法是基于同一发明构思下的两个方面,在前面已经对方法实施过程作了详细的描述,所以本领域技术人员可根据前述描述清楚地了解本实施例中的系统的结构及实施过程,为了说明书的简洁,在此就不再赘述。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (9)

1.一种融合手势识别和指尖定位的手势交互方法,其特征在于,包括:获取视频信息,对视频信息进行手部检测以获得手部位置以及手势类别;利用二进制序列输出手部位置以及手势类别;其中,每个手指所对应的二进制序列为(p1,p2,p3,...,pN),指尖位置序列为((x1,y1),(x2,y2),(x3,y3),...,(xN,yN)),二进制指尖序列和对应的位置相乘,则输出为(p1×(x1,y1),p2×(x2,y2),p3×(x3,y3),...,pN×(xN,yN));若坐标为(0,0)则认为手指隐藏并忽略;
对视频信息进行预处理后获得手部图像,利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置,并对手指概率以及手指位置进行优化以获得手势的指尖位置;其中,使用二值交叉熵损失函数对手指概率进行优化,采用均方误差损失函数对手指位置进行优化;根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。
2.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法,其特征在于,利用全卷积网络对手指概率进行预测的方法为:将手部图像输入MobileNetV3网络后经过至少两个FC层以对手指概率进行特征提取以完成手指概率的预测。
3.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法,其特征在于,利用全卷积网络对手指位置进行预测的方法为:将手部图像输入MobileNetV3网络后经过至少三个上采样转置卷积进行特征抽取以完成手指位置的预测。
4.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法,其特征在于,对手指概率进行优化的方法为:使用二值交叉熵损失函数优化输出概率以获得概率损失函数
其中N为概率输出的长度,M为一次输入的图片张数,Ρ=
[p1,p2,p3,...pN]表示样本预测为N类的概率,P是样本标签,是模型预测样本标签。
5.根据权利要求4所述的融合手势识别和指尖定位的手势交互方法,其特征在于,对手指位置进行优化的方法为:采用均方误差损失函数对手指位置进行优化以获得位置损失函数
其中,1finger表示手指是否可见,是0和1组成的序列,若为0则不对该手指进行计算,X=[x1,x2,....xN,y1,y2,...yN],表示手指的坐标序列,X是样本坐标,是模型预测样本坐标。
6.根据权利要求5所述的融合手势识别和指尖定位的手势交互方法,其特征在于,获得手势的指尖位置的方法为:将概率损失函数以及位置损失函数进行叠加以获得总损失函数L=L1+L2;
使用总损失函数对当前手势类别进行指尖定位。
7.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法,其特征在于,对视频信息进行预处理的方法为:根据手部位置对视频信息进行剪切矫正以获得剪切后的手部图像。
8.一种电子设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~7任一所述的融合手势识别和指尖定位的手势交互方法。
9.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~7任一所述的融合手势识别和指尖定位的手势交互方法。
CN202111070817.2A 2021-09-13 2021-09-13 一种融合手势识别和指尖定位的手势交互方法、设备及介质 Active CN113792651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111070817.2A CN113792651B (zh) 2021-09-13 2021-09-13 一种融合手势识别和指尖定位的手势交互方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070817.2A CN113792651B (zh) 2021-09-13 2021-09-13 一种融合手势识别和指尖定位的手势交互方法、设备及介质

Publications (2)

Publication Number Publication Date
CN113792651A CN113792651A (zh) 2021-12-14
CN113792651B true CN113792651B (zh) 2024-04-05

Family

ID=79183048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070817.2A Active CN113792651B (zh) 2021-09-13 2021-09-13 一种融合手势识别和指尖定位的手势交互方法、设备及介质

Country Status (1)

Country Link
CN (1) CN113792651B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936233A (zh) * 2021-12-16 2022-01-14 北京亮亮视野科技有限公司 一种手指指定目标的识别方法及装置
CN115079818B (zh) * 2022-05-07 2024-07-16 北京聚力维度科技有限公司 一种手部捕捉方法和系统
CN114663920A (zh) * 2022-05-23 2022-06-24 云账户技术(天津)有限公司 手势识别的方法、装置、服务器和计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018177379A1 (zh) * 2017-03-31 2018-10-04 北京市商汤科技开发有限公司 手势识别、控制及神经网络训练方法、装置及电子设备
CN109063653A (zh) * 2018-08-07 2018-12-21 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109697407A (zh) * 2018-11-13 2019-04-30 北京物灵智能科技有限公司 一种图像处理方法及装置
CN110232311A (zh) * 2019-04-26 2019-09-13 平安科技(深圳)有限公司 手部图像的分割方法、装置及计算机设备
EP3686772A1 (en) * 2019-01-25 2020-07-29 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time
CN111625157A (zh) * 2020-05-20 2020-09-04 北京百度网讯科技有限公司 指尖关键点检测方法、装置、设备和可读存储介质
CN112947755A (zh) * 2021-02-24 2021-06-11 Oppo广东移动通信有限公司 手势控制方法与装置、电子设备及存储介质
CN113312973A (zh) * 2021-04-25 2021-08-27 北京信息科技大学 一种手势识别关键点特征提取方法及系统
CN113343812A (zh) * 2021-05-28 2021-09-03 北京智通东方软件科技有限公司 手势识别方法、装置、存储介质及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018177379A1 (zh) * 2017-03-31 2018-10-04 北京市商汤科技开发有限公司 手势识别、控制及神经网络训练方法、装置及电子设备
CN109063653A (zh) * 2018-08-07 2018-12-21 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109697407A (zh) * 2018-11-13 2019-04-30 北京物灵智能科技有限公司 一种图像处理方法及装置
EP3686772A1 (en) * 2019-01-25 2020-07-29 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time
CN110232311A (zh) * 2019-04-26 2019-09-13 平安科技(深圳)有限公司 手部图像的分割方法、装置及计算机设备
CN111625157A (zh) * 2020-05-20 2020-09-04 北京百度网讯科技有限公司 指尖关键点检测方法、装置、设备和可读存储介质
CN112947755A (zh) * 2021-02-24 2021-06-11 Oppo广东移动通信有限公司 手势控制方法与装置、电子设备及存储介质
CN113312973A (zh) * 2021-04-25 2021-08-27 北京信息科技大学 一种手势识别关键点特征提取方法及系统
CN113343812A (zh) * 2021-05-28 2021-09-03 北京智通东方软件科技有限公司 手势识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN113792651A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN113792651B (zh) 一种融合手势识别和指尖定位的手势交互方法、设备及介质
US11783496B2 (en) Scalable real-time hand tracking
CN112528850B (zh) 人体识别方法、装置、设备和存储介质
CN106951484B (zh) 图片检索方法及装置、计算机设备及计算机可读介质
EP3811337A1 (en) System for predicting articulated object feature location
CN111401318B (zh) 动作识别方法及装置
CN111783621A (zh) 人脸表情识别及模型训练的方法、装置、设备及存储介质
CN110986969A (zh) 地图融合方法及装置、设备、存储介质
CN111860362A (zh) 生成人脸图像校正模型及校正人脸图像的方法和装置
CN113378770A (zh) 手势识别方法、装置、设备、存储介质以及程序产品
CN111950272B (zh) 文本相似度的生成方法、装置及电子设备
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
CN110850982A (zh) 基于ar的人机交互学习方法、系统、设备及存储介质
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN113297973A (zh) 关键点检测方法、装置、设备和计算机可读介质
CN112488126A (zh) 特征图处理方法、装置、设备以及存储介质
CN111611941A (zh) 特效处理方法及相关设备
CN111782041A (zh) 打字方法及装置、设备、存储介质
CN114461078B (zh) 一种基于人工智能的人机交互方法
CN114489341B (zh) 手势的确定方法和装置、电子设备和存储介质
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
JP7269979B2 (ja) 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112558810B (zh) 检测指尖位置的方法、装置、设备和存储介质
CN110263743B (zh) 用于识别图像的方法和装置
CN114429631A (zh) 三维对象检测方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant