CN111027403A - 手势估计方法、装置、设备及计算机可读存储介质 - Google Patents

手势估计方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111027403A
CN111027403A CN201911119559.5A CN201911119559A CN111027403A CN 111027403 A CN111027403 A CN 111027403A CN 201911119559 A CN201911119559 A CN 201911119559A CN 111027403 A CN111027403 A CN 111027403A
Authority
CN
China
Prior art keywords
gesture
model
target
knowledge distillation
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911119559.5A
Other languages
English (en)
Other versions
CN111027403B (zh
Inventor
黄少光
许秋子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Realis Multimedia Technology Co Ltd
Original Assignee
Shenzhen Realis Multimedia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Realis Multimedia Technology Co Ltd filed Critical Shenzhen Realis Multimedia Technology Co Ltd
Priority to CN201911119559.5A priority Critical patent/CN111027403B/zh
Publication of CN111027403A publication Critical patent/CN111027403A/zh
Application granted granted Critical
Publication of CN111027403B publication Critical patent/CN111027403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种手势估计方法,包括:获取多张带有骨骼特征点标记的手势图像;根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;当接收到基于新的手势图像的手势估计指令时,将所述新的手势图像输入至所述目标学生模型,将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。本发明还公开了一种手势估计装置、设备和一种存储介质。本发明实现了在保证手势估计精确度的前提下,降低手势估计的计算资源消耗,并提高手势估计速度。

Description

手势估计方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及人机交互技术领域,尤其涉及手势估计方法、装置、设备及计算机可读存储介质。
背景技术
近年来,随着人机交互需求的不断提高,各种无接触式人机交互技术(如语音识别、人脸识别、手势识别等)研究领域变得日趋活跃,其中,由于人手势信息量丰富并且交互运动具有自然舒适无约束的特点,所以手势交互技术是未来人机交互领域的重要研究方向。由于人手体积较小,移动速度和方向变化快,手指的自由度非常高,各个手指之间具有极强的外观相似性并且非常容易相互遮挡,因此如何进行手势估计,即基于视觉快速精确地估计出人手关键点的位置是一个非常具有挑战性的研究课题。
目前较为先进的手势估计技术是基于深度学习的手势估计技术,即通过训练好的手势估计模型来估计手势,其中手势估计模型包括卷积姿态机网络(convolutional posemachine,CPM)、沙漏堆叠网络(staked hourglass)、高分辨率网络(high resolution net,HRnet)等,这些模型虽然有着较高的手势估计精确度,但存在着体积大和计算量大等缺点,且手势估计速度也比较慢。
发明内容
本发明的主要目的在于提出一种手势估计方法、装置、设备及计算机可读存储介质,旨在实现在保证手势估计精确度的前提下,降低手势估计的计算资源消耗,并提高手势估计速度。
为实现上述目的,本发明提供一种手势估计方法,所述方法包括如下步骤:
获取多张带有骨骼特征点标记的手势图像;
根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;
根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;
当接收到基于新的手势图像的手势估计指令时,将所述新的手势图像输入至所述目标学生模型,将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。
可选的,所述获取多张带有骨骼特征点标记的手势图像的步骤之前,还包括:
通过预设的教师网络,建立知识蒸馏教师模型,并通过预设的学生网络,建立知识蒸馏学生模型。
可选的,所述根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型的步骤包括:
将获取到的所述手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中,并将骨骼特征点的位置作为所述知识蒸馏教师模型的目标输出进行模型训练;
在所述模型训练过程中,获取所述知识蒸馏教师模型的实际输出;
将所述知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算,得到所述教师模型损失函数的值;
将所述教师模型损失函数的值与预设阈值进行比较;
当所述教师模型损失函数的值小于或等于预设阈值时,判定模型训练完成并得到目标教师模型。
可选的,当所述教师网络为卷积姿态机网络时,所述教师模型损失函数为:
Figure BDA0002275067660000021
其中,
Figure BDA0002275067660000022
表示教师模型损失函数,T表示所述卷积姿态机网络的阶段,P表示手势图像训练样本中的骨骼特征点标记,j表示每个骨骼特征点标记对应的高斯响应,J表示与所有骨骼特征点标记对应的高斯响应图集,
Figure BDA0002275067660000023
表示所述知识蒸馏教师模型的实际输出,
Figure BDA0002275067660000024
表示所述知识蒸馏教师模型的目标输出。
可选的,所述根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型的步骤包括:
根据所述目标教师模型和预设的知识蒸馏损失函数,训练预先建立的知识蒸馏学生模型,直至所述知识蒸馏学生模型收敛时,将收敛的所述知识蒸馏学生模型作为目标学生模型;
所述知识蒸馏损失函数为:
Figure BDA0002275067660000031
其中,
Figure BDA0002275067660000032
表示知识蒸馏损失函数,
Figure BDA0002275067660000033
表示预设的学生模型损失函数,且
Figure BDA0002275067660000034
此外,为实现上述目的,本发明还提供一种手势估计装置,所述手势估计装置包括:
获取模块,用于获取多张带有骨骼特征点标记的手势图像;
训练模块,用于根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;
知识蒸馏模块,用于根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;
手势估计模块,用于当接收到基于新的手势图像的手势估计指令时,将所述新的手势图像输入至所述目标学生模型,将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。
可选的,所述手势估计装置还包括:
建立模块,用于通过预设的教师网络,建立知识蒸馏教师模型,并通过预设的学生网络,建立知识蒸馏学生模型。
可选的,所述训练模块还用于:
将获取到的所述手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中,并将骨骼特征点的位置作为所述知识蒸馏教师模型的目标输出进行模型训练;
在所述模型训练过程中,获取所述知识蒸馏教师模型的实际输出;
将所述知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算,得到所述教师模型损失函数的值;
将所述教师模型损失函数的值与预设阈值进行比较;
当所述教师模型损失函数的值小于或等于预设阈值时,判定模型训练完成并得到目标教师模型。
可选的,当所述教师网络为卷积姿态机网络时,所述教师模型损失函数为:
Figure BDA0002275067660000041
其中,
Figure BDA0002275067660000042
表示教师模型损失函数,T表示所述卷积姿态机网络的阶段,P表示手势图像训练样本中的骨骼特征点标记,j表示每个骨骼特征点标记对应的高斯响应,J表示与所有骨骼特征点标记对应的高斯响应图集,
Figure BDA0002275067660000043
表示所述知识蒸馏教师模型的实际输出,
Figure BDA0002275067660000044
表示所述知识蒸馏教师模型的目标输出。
可选的,所述知识蒸馏模块还用于:
根据所述目标教师模型和预设的知识蒸馏损失函数,训练预先建立的知识蒸馏学生模型,直至所述知识蒸馏学生模型收敛时,将收敛的所述知识蒸馏学生模型作为目标学生模型;
所述知识蒸馏损失函数为:
Figure BDA0002275067660000045
其中,
Figure BDA0002275067660000046
表示知识蒸馏损失函数,
Figure BDA0002275067660000047
表示预设的学生模型损失函数,且
Figure BDA0002275067660000048
此外,为实现上述目的,本发明还提供一种手势估计设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势估计程序,所述手势估计程序被所述处理器执行时实现如上所述的手势估计方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有手势估计程序,所述手势估计程序被处理器执行时实现如上所述的手势估计方法的步骤。
本发明获取多张带有骨骼特征点标记的手势图像;根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;当接收到基于新的手势图像的手势估计指令时,将所述新的手势图像输入至所述目标学生模型,将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。由于基于知识蒸馏得到的目标学生模型能够模仿目标教师模型的手势估计能力,且模型体积更小、计算量更小、计算速度更快,从而本发明通过目标学生模型进行手势估计,实现了在保证手势估计精确度的前提下,降低手势估计的计算资源消耗,并提高手势估计速度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明手势估计方法一实施例的流程示意图;
图3为本发明实施例中带有骨骼特征点标记的手势图像的示意图;
图4为本发明手势估计装置一实施例的模块示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例手势估计设备可以是计算机或服务器。
如图1所示,该手势估计设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及手势估计程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的手势估计程序,并执行下述手势估计方法实施例中的操作。
基于上述硬件结构,提出本发明手势估计方法实施例。
参照图2,图2为本发明手势估计方法一实施例的流程示意图,该方法包括:
步骤S10,获取多张带有骨骼特征点标记的手势图像;
在本实施例中,以执行手势估计方法的设备为服务器为例进行说明。首先,服务器获取多张带有骨骼特征点标记的手势图像,其中,骨骼特征点标记的位置和数量可以灵活设置,比如可以将手势图像中的手部关节点(手腕,手指关节等)标记为骨骼特征点。
参照图3,图3为本发明实施例中带有骨骼特征点标记的手势图像的示意图,图中共标记了21个骨骼特征点,数字0~20分别表示骨骼特征点的标号,手势图像在进行模型训练后,该手势图像中的每个骨骼特征点都会得到一个对应的热度图,通过这些热度图可以对每个骨骼特征点的位置进行预测,从而得到模型的实际输出。
进一步地,上述步骤S10之前,还可以包括:通过预设的教师网络,建立知识蒸馏教师模型,并通过预设的学生网络,建立知识蒸馏学生模型。
知识蒸馏是一种模型压缩方法,模型压缩指的是在教师-学生框架中,将复杂、学习能力强的教师网络学到的特征表示“知识”蒸馏出来,传递给参数量小、泛化能力强的学生网络,即用一个更加紧凑的模型去拟合一个复杂的模型。
本实施例中,服务器可以通过预设的教师网络,建立知识蒸馏教师模型,通过预设的学生网络,建立知识蒸馏学生模型,其中,教师网络可以是卷积姿态机网络(convolutional pose machine,CPM)、沙漏堆叠网络(staked hourglass)或高分辨率网络(high resolution net),学生网络可以是卷积姿态机网络或用于移动视觉应用的高效卷积神经网络(mobile net),具体实施时可灵活设置。
步骤S20,根据获取到的手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;
该步骤中,服务器根据获取到的手势图像,训练预先建立的知识蒸馏教师模型,以得到目标教师模型。
具体地,该步骤S20可以包括:将获取到的手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中,并将骨骼特征点的位置作为知识蒸馏教师模型的目标输出进行模型训练;在模型训练过程中,获取知识蒸馏教师模型的实际输出;将知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算,得到教师模型损失函数的值;将教师模型损失函数的值与预设阈值进行比较;当教师模型损失函数的值小于或等于预设阈值时,判定模型训练完成并得到目标教师模型。
在本实施例中,服务器需首先训练一个表现良好的教师网络,具体是将多张手势图像作为训练样本输入预先建立的知识蒸馏教师模型中,并将骨骼特征点的位置,如三维坐标作为知识蒸馏教师模型的目标输出进行模型训练,在模型训练过程中,获取知识蒸馏教师模型的实际输出,代入预设的教师模型损失函数中进行计算,得到教师模型损失函数的值,直至教师模型损失函数的值小于或等于预设阈值时,模型训练完成,得到目标教师模型。
进一步地,当教师网络选用卷积姿态机网络CPM时,教师模型损失函数可以设置为:
Figure BDA0002275067660000071
其中,
Figure BDA0002275067660000072
表示教师模型损失函数,T表示卷积姿态机网络的阶段,P表示手势图像训练样本中的骨骼特征点标记,j表示每个骨骼特征点标记对应的高斯响应,J表示与所有骨骼特征点标记对应的高斯响应图集,
Figure BDA0002275067660000073
表示知识蒸馏教师模型的实际输出,
Figure BDA0002275067660000074
表示知识蒸馏教师模型的目标输出。
步骤S30,根据目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;
在训练得到目标教师模型后,服务器根据该目标教师模型训练预先建立的知识蒸馏学生模型,以得到目标学生模型。
具体地,该步骤S30可以包括:根据目标教师模型和预设的知识蒸馏损失函数,训练预先建立的知识蒸馏学生模型,直至知识蒸馏学生模型收敛时,将收敛的知识蒸馏学生模型作为目标学生模型;其中,知识蒸馏损失函数为:
Figure BDA0002275067660000081
其中,
Figure BDA0002275067660000082
表示知识蒸馏损失函数,
Figure BDA0002275067660000083
表示预设的学生模型损失函数,且
Figure BDA0002275067660000084
通过采用上述知识蒸馏损失函数,能够从教师模型中蒸馏出最有用的信息,从而保证目标学生模型手势估计的精确度。
步骤S40,当接收到基于新的手势图像的手势估计指令时,将新的手势图像输入至目标学生模型,将目标学生模型的输出作为新的手势图像的手势估计结果。
在通过知识蒸馏得到目标学生模型后,当服务器接收到基于新的手势图像的手势估计指令时,将该新的手势图像输入至目标学生模型,即可得到手势估计结果。
由于基于知识蒸馏得到的目标学生模型能够模仿目标教师模型的手势估计能力,且模型体积更小、计算量更小、计算速度更快,从而本实施例通过目标学生模型进行手势估计,实现了在保证手势估计精确度的前提下,降低手势估计的计算资源消耗,并提高手势估计速度。
本发明还提供一种手势估计装置。参照图4,图4为本发明手势估计装置一实施例的模块示意图。本实施例中,手势估计装置包括:
获取模块10,用于获取多张带有骨骼特征点标记的手势图像;
训练模块20,用于根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;
知识蒸馏模块30,用于根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;
手势估计模块40,用于当接收到基于新的手势图像的手势估计指令时,将所述新的手势图像输入至所述目标学生模型,将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。
进一步地,所述手势估计装置还包括:
建立模块,用于通过预设的教师网络,建立知识蒸馏教师模型,并通过预设的学生网络,建立知识蒸馏学生模型。
进一步地,所述训练模块20还用于:
将获取到的所述手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中,并将骨骼特征点的位置作为所述知识蒸馏教师模型的目标输出进行模型训练;
在所述模型训练过程中,获取所述知识蒸馏教师模型的实际输出;
将所述知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算,得到所述教师模型损失函数的值;
将所述教师模型损失函数的值与预设阈值进行比较;
当所述教师模型损失函数的值小于或等于预设阈值时,判定模型训练完成并得到目标教师模型。
进一步地,当所述教师网络为卷积姿态机网络时,所述教师模型损失函数为:
Figure BDA0002275067660000091
其中,
Figure BDA0002275067660000092
表示教师模型损失函数,T表示所述卷积姿态机网络的阶段,P表示手势图像训练样本中的骨骼特征点标记,j表示每个骨骼特征点标记对应的高斯响应,J表示与所有骨骼特征点标记对应的高斯响应图集,
Figure BDA0002275067660000093
表示所述知识蒸馏教师模型的实际输出,
Figure BDA0002275067660000094
表示所述知识蒸馏教师模型的目标输出。
进一步地,所述知识蒸馏模块30还用于:
根据所述目标教师模型和预设的知识蒸馏损失函数,训练预先建立的知识蒸馏学生模型,直至所述知识蒸馏学生模型收敛时,将收敛的所述知识蒸馏学生模型作为目标学生模型;
所述知识蒸馏损失函数为:
Figure BDA0002275067660000095
其中,
Figure BDA0002275067660000096
表示知识蒸馏损失函数,
Figure BDA0002275067660000097
表示预设的学生模型损失函数,且
Figure BDA0002275067660000098
上述各程序模块实现的方法及有益效果可参照本发明手势估计方法实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有手势估计程序,所述手势估计程序被处理器执行时实现如上所述的手势估计方法的步骤。
其中,在所述处理器上运行的手势估计程序被执行时所实现的方法可参照本发明手势估计方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种手势估计方法,其特征在于,所述手势估计方法包括如下步骤:
获取多张带有骨骼特征点标记的手势图像;
根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;
根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;
当接收到基于新的手势图像的手势估计指令时,将所述新的手势图像输入至所述目标学生模型,将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。
2.如权利要求1所述的手势估计方法,其特征在于,所述获取多张带有骨骼特征点标记的手势图像的步骤之前,还包括:
通过预设的教师网络,建立知识蒸馏教师模型,并通过预设的学生网络,建立知识蒸馏学生模型。
3.如权利要求2所述的手势估计方法,其特征在于,所述根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型的步骤包括:
将获取到的所述手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中,并将骨骼特征点的位置作为所述知识蒸馏教师模型的目标输出进行模型训练;
在所述模型训练过程中,获取所述知识蒸馏教师模型的实际输出;
将所述知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算,得到所述教师模型损失函数的值;
将所述教师模型损失函数的值与预设阈值进行比较;
当所述教师模型损失函数的值小于或等于预设阈值时,判定模型训练完成并得到目标教师模型。
4.如权利要求3所述的手势估计方法,其特征在于,当所述教师网络为卷积姿态机网络时,所述教师模型损失函数为:
Figure FDA0002275067650000021
其中,
Figure FDA0002275067650000022
表示教师模型损失函数,T表示所述卷积姿态机网络的阶段,P表示手势图像训练样本中的骨骼特征点标记,j表示每个骨骼特征点标记对应的高斯响应,J表示与所有骨骼特征点标记对应的高斯响应图集,
Figure FDA0002275067650000023
表示所述知识蒸馏教师模型的实际输出,
Figure FDA0002275067650000024
表示所述知识蒸馏教师模型的目标输出。
5.如权利要求4所述的手势估计方法,其特征在于,所述根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型的步骤包括:
根据所述目标教师模型和预设的知识蒸馏损失函数,训练预先建立的知识蒸馏学生模型,直至所述知识蒸馏学生模型收敛时,将收敛的所述知识蒸馏学生模型作为目标学生模型;
所述知识蒸馏损失函数为:
Figure FDA0002275067650000025
其中,
Figure FDA0002275067650000026
表示知识蒸馏损失函数,
Figure FDA0002275067650000027
表示预设的学生模型损失函数,且
Figure FDA0002275067650000028
6.一种手势估计装置,其特征在于,所述手势估计装置包括:
获取模块,用于获取多张带有骨骼特征点标记的手势图像;
训练模块,用于根据获取到的所述手势图像,训练预先建立的知识蒸馏教师模型,得到目标教师模型;
知识蒸馏模块,用于根据所述目标教师模型,训练预先建立的知识蒸馏学生模型,得到目标学生模型;
手势估计模块,用于当接收到基于新的手势图像的手势估计指令时,将所述新的手势图像输入至所述目标学生模型,将所述目标学生模型的输出作为所述新的手势图像的手势估计结果。
7.如权利要求6所述的手势估计装置,其特征在于,所述手势估计装置还包括:
建立模块,用于通过预设的教师网络,建立知识蒸馏教师模型,并通过预设的学生网络,建立知识蒸馏学生模型。
8.如权利要求7所述的手势估计装置,其特征在于,所述训练模块还用于:
将获取到的所述手势图像作为训练样本输入至预先建立的知识蒸馏教师模型中,并将骨骼特征点的位置作为所述知识蒸馏教师模型的目标输出进行模型训练;
在所述模型训练过程中,获取所述知识蒸馏教师模型的实际输出;
将所述知识蒸馏教师模型的目标输出和实际输出代入预设的教师模型损失函数中进行计算,得到所述教师模型损失函数的值;
将所述教师模型损失函数的值与预设阈值进行比较;
当所述教师模型损失函数的值小于或等于预设阈值时,判定模型训练完成并得到目标教师模型。
9.一种手势估计设备,其特征在于,所述手势估计设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势估计程序,所述手势估计程序被所述处理器执行时实现如权利要求1至5中任一项所述的手势估计方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有手势估计程序,所述手势估计程序被处理器执行时实现如权利要求1至5中任一项所述的手势估计方法的步骤。
CN201911119559.5A 2019-11-15 2019-11-15 手势估计方法、装置、设备及计算机可读存储介质 Active CN111027403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911119559.5A CN111027403B (zh) 2019-11-15 2019-11-15 手势估计方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911119559.5A CN111027403B (zh) 2019-11-15 2019-11-15 手势估计方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111027403A true CN111027403A (zh) 2020-04-17
CN111027403B CN111027403B (zh) 2023-06-06

Family

ID=70201524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911119559.5A Active CN111027403B (zh) 2019-11-15 2019-11-15 手势估计方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111027403B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112206525A (zh) * 2020-09-30 2021-01-12 深圳市瑞立视多媒体科技有限公司 Ue4引擎中手拧虚拟物品的信息处理方法和装置
CN112464760A (zh) * 2020-11-16 2021-03-09 北京明略软件系统有限公司 一种目标识别模型的训练方法和装置
CN113378786A (zh) * 2021-07-05 2021-09-10 广东工业大学 一种超轻量目标检测网络和方法
CN113449610A (zh) * 2021-06-08 2021-09-28 杭州格像科技有限公司 一种基于知识蒸馏和注意力机制的手势识别方法和系统
CN113656644A (zh) * 2021-07-26 2021-11-16 北京达佳互联信息技术有限公司 手势语识别方法、装置、电子设备及存储介质
CN114093024A (zh) * 2021-09-24 2022-02-25 张哲为 人体动作的识别方法、装置、设备及存储介质
WO2022141859A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 图像检测方法、装置、电子设备及存储介质
CN114970640A (zh) * 2022-06-21 2022-08-30 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365564A1 (en) * 2017-06-15 2018-12-20 TuSimple Method and device for training neural network
CN110175628A (zh) * 2019-04-25 2019-08-27 北京大学 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110209273A (zh) * 2019-05-23 2019-09-06 Oppo广东移动通信有限公司 手势识别方法、交互控制方法、装置、介质与电子设备
CN110378854A (zh) * 2019-07-17 2019-10-25 上海商汤智能科技有限公司 机器人图像增强方法及装置
CN110443784A (zh) * 2019-07-11 2019-11-12 中国科学院大学 一种有效的显著性预测模型方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365564A1 (en) * 2017-06-15 2018-12-20 TuSimple Method and device for training neural network
CN110175628A (zh) * 2019-04-25 2019-08-27 北京大学 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110209273A (zh) * 2019-05-23 2019-09-06 Oppo广东移动通信有限公司 手势识别方法、交互控制方法、装置、介质与电子设备
CN110443784A (zh) * 2019-07-11 2019-11-12 中国科学院大学 一种有效的显著性预测模型方法
CN110378854A (zh) * 2019-07-17 2019-10-25 上海商汤智能科技有限公司 机器人图像增强方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112206525A (zh) * 2020-09-30 2021-01-12 深圳市瑞立视多媒体科技有限公司 Ue4引擎中手拧虚拟物品的信息处理方法和装置
CN112206525B (zh) * 2020-09-30 2022-04-29 深圳市瑞立视多媒体科技有限公司 Ue4引擎中手拧虚拟物品的信息处理方法和装置
CN112464760A (zh) * 2020-11-16 2021-03-09 北京明略软件系统有限公司 一种目标识别模型的训练方法和装置
WO2022141859A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 图像检测方法、装置、电子设备及存储介质
CN113449610A (zh) * 2021-06-08 2021-09-28 杭州格像科技有限公司 一种基于知识蒸馏和注意力机制的手势识别方法和系统
CN113378786A (zh) * 2021-07-05 2021-09-10 广东工业大学 一种超轻量目标检测网络和方法
CN113378786B (zh) * 2021-07-05 2023-09-19 广东省机场集团物流有限公司 一种超轻量目标检测网络和方法
CN113656644A (zh) * 2021-07-26 2021-11-16 北京达佳互联信息技术有限公司 手势语识别方法、装置、电子设备及存储介质
CN113656644B (zh) * 2021-07-26 2024-03-15 北京达佳互联信息技术有限公司 手势语识别方法、装置、电子设备及存储介质
CN114093024A (zh) * 2021-09-24 2022-02-25 张哲为 人体动作的识别方法、装置、设备及存储介质
CN114970640A (zh) * 2022-06-21 2022-08-30 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统
CN114970640B (zh) * 2022-06-21 2023-10-27 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统

Also Published As

Publication number Publication date
CN111027403B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN111027403B (zh) 手势估计方法、装置、设备及计算机可读存储介质
CN111191599B (zh) 姿态识别方法、装置、设备及存储介质
CN111626218B (zh) 基于人工智能的图像生成方法、装置、设备及存储介质
JP2019535055A (ja) ジェスチャに基づく操作の実施
CN109815776B (zh) 动作提示方法和装置、存储介质及电子装置
CN111401318B (zh) 动作识别方法及装置
EP2940551A1 (en) Method and device for implementing voice input
CN109035415B (zh) 虚拟模型的处理方法、装置、设备和计算机可读存储介质
CN112486691A (zh) 显示设备的控制方法、系统及计算机可读存储介质
CN105976395A (zh) 一种基于稀疏表示的视频目标跟踪方法
CN113939791A (zh) 图像标注方法、装置、设备及介质
CN112561973A (zh) 训练图像配准模型的方法、装置和电子设备
CN111160308B (zh) 手势动作识别方法、装置、设备及可读存储介质
CN110533106A (zh) 图像分类处理方法、装置及存储介质
CN112381118B (zh) 一种大学舞蹈考试测评方法及装置
CN112257645B (zh) 人脸的关键点定位方法和装置、存储介质及电子装置
CN110516153B (zh) 视频的智能推送方法和装置、存储介质及电子装置
US11205066B2 (en) Pose recognition method and device
CN112712450A (zh) 基于云课堂的实时交互方法、装置、设备及存储介质
Hou et al. Mobile augmented reality system for preschool education
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
CN109407839A (zh) 图像调整方法、装置、电子设备和计算机可读存储介质
CN117786242B (zh) 一种基于位置的搜索方法及相关装置
CN113610064B (zh) 笔迹识别方法和装置
CN111144427B (zh) 图像特征提取方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant