CN115565253A - 一种动态手势实时识别方法、装置、电子设备和存储介质 - Google Patents

一种动态手势实时识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115565253A
CN115565253A CN202211571946.4A CN202211571946A CN115565253A CN 115565253 A CN115565253 A CN 115565253A CN 202211571946 A CN202211571946 A CN 202211571946A CN 115565253 A CN115565253 A CN 115565253A
Authority
CN
China
Prior art keywords
gesture
key point
time
sequence
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211571946.4A
Other languages
English (en)
Other versions
CN115565253B (zh
Inventor
杨旭韵
吕小戈
温志庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ji Hua Laboratory
Original Assignee
Ji Hua Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ji Hua Laboratory filed Critical Ji Hua Laboratory
Priority to CN202211571946.4A priority Critical patent/CN115565253B/zh
Publication of CN115565253A publication Critical patent/CN115565253A/zh
Application granted granted Critical
Publication of CN115565253B publication Critical patent/CN115565253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及手势识别领域,具体为一种动态手势实时识别方法、装置、电子设备和存储介质。该动态手势实时识别方法包括步骤:获取视频片段,视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;根据视频片段确定手势动作是否开始;确定手势动作开始时,获取各帧第一图像的关键点集合;关键点集合包括多个手部骨骼关键点的节点坐标;将各个关键点集合按时间顺序整合为关键点序列;基于预设的多个手势类别,根据关键点序列,针对每一个手势类别获取对应的置信度;根据置信度确定手势动作所属的手势类别,本发明能够融合多种模态数据进行手势分析,有效提高识别动态手势时的准确度。

Description

一种动态手势实时识别方法、装置、电子设备和存储介质
技术领域
本发明涉及手势识别领域,具体涉及一种动态手势实时识别方法、装置、电子设备和存储介质。
背景技术
现实生活中,手势识别技术中广泛应用于人机交互领域,现有的手势识别技术一般分为两类:静态手势识别和动态手势识别,前者实现方法简单但可识别的手势数量有限,因此为了实现人机交互的多样化,往往会选择后者,而现有的动态手势识别方法一般只使用单一的模态数据,例如RGB图像,深度图像,3D关键点等其中一种,单一的模态数据难以充分地提取有效的特征信息,以致其识别准确度不高。
因此,现有技术有待改进和发展。
发明内容
本发明的目的在于提供一种动态手势实时识别方法、装置、电子设备和存储介质,融合多种模态数据进行手势分析,有效提高其识别准确度。
第一方面,本申请提供一种动态手势实时识别方法,应用于视觉识别系统,包括以下步骤:
S1.获取视频片段,所述视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;
S2.根据所述视频片段确定手势动作是否开始;
S3.确定所述手势动作开始时,获取各帧所述第一图像的关键点集合;所述关键点集合包括多个手部骨骼关键点的节点坐标;
S4.将各个所述关键点集合按时间顺序整合为关键点序列;
S5.基于预设的多个手势类别,根据所述关键点序列,针对每一个所述手势类别获取对应的置信度;
S6.根据所述置信度确定所述手势动作所属的手势类别。
基于多种模态数据进行手势特征识别,相比于只考虑单一模态数据,大大提高了动态手势识别时的识别准确度。
进一步的,步骤S3中的具体步骤包括:
S31.利用mediapipe库程序从各帧所述第一图像中提取所述关键点集合。
进一步的,步骤S5中的具体步骤包括:
S51.根据所述关键点序列依次获取各个关键点集合对应的空间特征图;所述空间特征图包括各个所述手部骨骼关键点的空间特征;
S52.利用所述空间特征图基于时间维度进行二维卷积计算获得对应的局部时空特征;所述局部时空特征包括各个所述手部骨骼关键点的第一时空特征;
S53.将所有所述局部时空特征输入到递归神经网络中,获得全局时空特征;所述全局时空特征包括各个所述手部骨骼关键点的第二时空特征;
S54.各个所述手势类别分别与所述全局时空特征进行对比,针对每一个所述手势类别获取对应的所述置信度。
充分提取空间特征,并与时间耦合为时空特征,获得更加完备和有效的数据,有利于提高识别动态手势时的准确度。
进一步的,步骤S51中的具体步骤包括:
所述空间特征图根据以下公式计算:
Figure 100002_DEST_PATH_IMAGE001
Figure 773174DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为所述关键点序列中第
Figure 142845DEST_PATH_IMAGE004
个关键点集合对应的所述空间特征图,
Figure 860265DEST_PATH_IMAGE005
为对角矩阵,
Figure 943890DEST_PATH_IMAGE006
为所述手部骨骼关键点的邻接矩阵,
Figure 289421DEST_PATH_IMAGE007
为所述手部骨骼关键点的自连接矩阵,
Figure 783987DEST_PATH_IMAGE008
为所述关键点序列中第
Figure 972392DEST_PATH_IMAGE004
个关键点集合,
Figure 843396DEST_PATH_IMAGE009
为图卷积核参数,
Figure 200690DEST_PATH_IMAGE010
为所述对角矩阵中横向第
Figure 990791DEST_PATH_IMAGE011
个且纵向第
Figure 151645DEST_PATH_IMAGE011
个的元素,
Figure 419816DEST_PATH_IMAGE012
为所述邻接矩阵中横向第
Figure 130152DEST_PATH_IMAGE011
个且纵向第
Figure 966521DEST_PATH_IMAGE013
个的元素,
Figure 739305DEST_PATH_IMAGE014
为所述自连接矩阵中横向第
Figure 702844DEST_PATH_IMAGE011
个且纵向第
Figure 283998DEST_PATH_IMAGE013
个的元素。
计算简单快捷,有利于快速获取准确的空间特征。
进一步的,步骤S53中的具体步骤包括:
根据以下公式获取各个所述手部骨骼关键点的第二时空特征:
Figure 274956DEST_PATH_IMAGE015
其中,
Figure 675982DEST_PATH_IMAGE016
为第
Figure DEST_PATH_IMAGE017
个所述关键点集合中第
Figure 459523DEST_PATH_IMAGE018
个所述手部骨骼关键点的第二时空特征,
Figure 629605DEST_PATH_IMAGE019
为所述递归神经网络的计算函数,
Figure 932410DEST_PATH_IMAGE020
为第
Figure 538841DEST_PATH_IMAGE017
个所述关键点集合中第
Figure 952505DEST_PATH_IMAGE018
个所述手部骨骼关键点的第一时空特征,
Figure 977092DEST_PATH_IMAGE021
为第
Figure 450799DEST_PATH_IMAGE022
个所述关键点集合中第
Figure 45991DEST_PATH_IMAGE018
个所述手部骨骼关键点的第二时空特征。
计算简单快捷,有利于快速获取准确的时空特征。
进一步的,所述递归神经网络为基于GRU算法的神经网络,或基于LSTM算法的神经网络。
进一步的,步骤S4中的具体步骤包括:S41.将各个所述关键点集合按时间顺序整合为多个所述关键点序列;
步骤S5中的具体步骤包括:
S55.依次以各个所述关键点序列作为目标序列,根据目标序列,针对每一个所述手势类别获取对应的所述置信度后,针对每一个所述手势类别计算出对应的加权平均置信度;
步骤S6中的具体步骤包括:
S61.选取数值第一大的所述加权平均置信度作为第一值,以及选取数值第二大的所述加权平均置信度作为第二值;
S62.当所述第一值与所述第二值的差值大于预设的第一阈值时,或所述第一值大于预设的第二阈值时,以所述第一值对应的所述手势类别作为所述手势动作所属的手势类别。
第二方面,本发明还提供了一种动态手势实时识别装置,应用于视觉识别系统,所述动态手势实时识别装置包括:
第一获取模块,用于获取视频片段,所述视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;
第一判断模块,用于根据所述视频片段确定手势动作是否开始;
第二获取模块,用于确定所述手势动作开始时,获取各帧所述第一图像的关键点集合;所述关键点集合包括多个手部骨骼关键点的节点坐标;
序列生成模块,用于将各个所述关键点集合按时间顺序整合为关键点序列;
第三获取模块,用于基于预设的多个手势类别,根据所述关键点序列,针对每一个所述手势类别获取对应的置信度;
第二判断模块,用于根据所述置信度确定所述手势动作所属的手势类别。
相比于单一模态数据,本申请融合多种模态数据,能够充分地提取有效的特征信息,从而大大提高动态手势识别过程的识别准确度。
第三方面,本发明提供了一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述动态手势实时识别方法中的步骤。
第四方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述动态手势实时识别方法中的步骤。
由上可知,本申请使用多种模态数据(包括视频图像、手部骨骼关键点和置信度)能够提供更多有效的特征信息用于描述动作特征,在对动态手势进行分析识别时有效提高识别准确度,同时本申请从实时获取的视频片段中抽取图像以判断手势开始,更加符合实际应用时的实时识别需求。
附图说明
图1为本申请实施例提供的动态手势实时识别方法的一种流程图。
图2为本申请实施例提供的动态手势实时识别装置的一种结构示意图。
图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施例中的一种动态手势实时识别方法,应用于视觉识别系统,包括步骤:
S1.获取视频片段,视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;
S2.根据视频片段确定手势动作是否开始;
S3.确定手势动作开始时,获取各帧第一图像的关键点集合;关键点集合包括多个手部骨骼关键点的节点坐标;
S4.将各个关键点集合按时间顺序整合为关键点序列;
S5.基于预设的多个手势类别(例如,预设的手势类别包括开合手掌3次、握拳5秒、摆出OK手势等,但不仅限于此),根据关键点序列,针对每一个手势类别获取对应的置信度;
S6.根据置信度确定手势动作所属的手势类别。
在人机交互的实际应用过程中,利用摄像头实时拍摄手势动作且记录为视频,通过分析当前时刻及当前时刻之前连续的多个时刻的第一图像,以确定手势动作是否开始(可以将连续多帧的RGB图像输入到3D卷积网络中以此判断手势动作是否开始,3D卷积网络为现有技术,在此不再赘述);具体的,动态手势并不同于静态手势,动态手势指的是一段连续变化的手势动作,整套手势动作是持续一段时间的,因此需要确定单套手势动作的起始时刻和结束时刻,然后再识别该手势动作对应的手势类别,最后根据手势类别执行预设的命令(基于上述手势类别例子,例如,开合手掌3次对应执行前进命令、握拳5秒对应执行停止移动命令、摆出OK手势对应执行允许通讯命令等,但不仅限于此),至此完成一次人机交互。
需要说明的是,人机交互往往都是实时进行的,而现有技术中部分动态手势识别方法是需要预先拍摄视频后再输入到机器人中实现控制,而录制视频和输入视频之间存在较长的时间间隔,无法有效做到实时识别;而本实施例中,因为视频为实时拍摄,当前时刻的第一图像也是实时提取,因此能够进行实时识别,满足实时识别的需求。
本实施例中,当判断到手势动作开始时,则从对应的各帧第一图像中分别提取关键点集合,具体的,例如在获取当前时刻前2分钟的视频片段后,经判断确定手势动作开始,则从该2分钟的视频片段中提取出各帧的第一图像,并从每帧第一图像中提取出所有手部骨骼关键点的节点坐标作为关键点集合,然后将所有关键点集合按时间顺序(基于视频片段的时序)排列成关键点序列,以此与预设的多个手势类别分别进行对比,获得各个手势类别对应的置信度,最后根据置信度确定该时段做出的手势动作所对应的手势类别。
需要说明的是,在当前时刻下,整套手势动作可能并未结束,例如手势动作在当前时刻前2分钟开始,但整套手势动作持续4分钟,此时计算得到的各个手势类别对应的置信度并未达到要求,从而还无法确定该时段做出的手势动作所对应的手势类别,只有在整套手势动作完整执行后,且该手势动作符合其中一种手势类别(置信度最高)时,手势类别才会被确定,机器人才能够准确执行用户所想要执行的命令。
在某些实施例中,步骤S3中的具体步骤包括:
S31.利用mediapipe库程序从各帧第一图像中提取关键点集合。
本实施例中,mediapipe具体为一种数据流处理机器学习应用开发框架,此为现有技术,在此不再赘述。通过该mediapipe库程序即能够获取第一图像中所有手部骨骼关键点的节点坐标,进而得到关键点集合。
在某些实施例中,步骤S5中的具体步骤包括:
S51.根据关键点序列依次获取各个关键点集合对应的空间特征图;空间特征图包括各个手部骨骼关键点的空间特征;
S52.利用空间特征图基于时间维度进行二维卷积计算获得对应的局部时空特征;局部时空特征包括各个手部骨骼关键点的第一时空特征;
S53.将所有局部时空特征输入到递归神经网络中,获得全局时空特征;全局时空特征包括各个手部骨骼关键点的第二时空特征;
S54.各个手势类别分别与全局时空特征进行对比,针对每一个手势类别获取对应的置信度。
本实施例中,关键点序列中包含了各个时刻下对应的第一图像中的各个手部骨骼关键点的节点坐标,关键点序列经过多个设计好的图卷积计算层计算后即能够获得各个时刻下对应的第一图像中的各个手部骨骼关键点的空间特征(空间特征可以理解为各个手部骨骼关键点的空间位置坐标),将各个时刻下对应的第一图像中的各个手部骨骼关键点的空间特征整合即得到各个关键点集合对应的空间特征图(空间特征图可以理解为一个可视化矩阵)。
需要说明的是,各个关键点集合都是基于某个具体时刻对应的第一图像得到的,因此关键点集合与时间有一一对应关系,基于此,所有空间特征图分别经过多个设计好的时间维度卷积计算层,执行基于时间维度的二维卷积计算后获得对应的局部时空特征(局部时空特征可以理解为各个关键点集合中的各个手部骨骼关键点在时序上对应的具体时间,即第一时空特征;局部时空特征针对的是单个关键点集合而言的,例如关键点集合对应在视频片段的时序上对应的具体时间为7:10,则为该关键点集合中的各个手部骨骼关键点附上7:10的时间标签)。
获得所有局部时空特征后,所有局部时空特征经过设计好的递归神经网络层计算后获得全局时空特征(全局时空特征可以理解为所有关键点集合中相同的手部骨骼关键点在时序上的变化特征,即第二时空特征;全局时空特征针对的是整个关键点序列(即整个时段)中所有关键点集合而言的)。
获得关键点序列对应的全局时空特征后,与各个手势类别一一对比,进而针对每一个手势类别获得对应的置信度,最后根据置信度即可判断整个时段内执行的手势动作(即关键点序列)所属的手势类别。
在某些实施例中,步骤S51中的具体步骤包括:
空间特征图根据以下公式计算:
Figure 997766DEST_PATH_IMAGE023
Figure 876861DEST_PATH_IMAGE002
其中,
Figure 911682DEST_PATH_IMAGE003
为关键点序列中第
Figure 368071DEST_PATH_IMAGE004
个关键点集合对应的空间特征图,
Figure 857958DEST_PATH_IMAGE005
为对角矩阵,
Figure 325979DEST_PATH_IMAGE006
为手部骨骼关键点的邻接矩阵,
Figure 141489DEST_PATH_IMAGE007
为手部骨骼关键点的自连接矩阵,
Figure 711273DEST_PATH_IMAGE008
为关键点序列中第
Figure 270430DEST_PATH_IMAGE004
个关键点集合,
Figure 124116DEST_PATH_IMAGE009
为图卷积核参数,
Figure 579368DEST_PATH_IMAGE010
为对角矩阵中横向第
Figure 134984DEST_PATH_IMAGE011
个且纵向第
Figure 232253DEST_PATH_IMAGE011
个的元素,
Figure 940446DEST_PATH_IMAGE012
为邻接矩阵中横向第
Figure 832178DEST_PATH_IMAGE011
个且纵向第
Figure 376554DEST_PATH_IMAGE013
个的元素,
Figure 277514DEST_PATH_IMAGE014
为自连接矩阵中横向第
Figure 574634DEST_PATH_IMAGE011
个且纵向第
Figure 902848DEST_PATH_IMAGE013
个的元素。
具体的,上述实施例中的图卷积计算层、时间维度卷积计算层和递归神经网络层可以整合为一个神经网络模型,其中,图卷积核参数可以是预设,也可以是神经网络模型在迭代训练过程更新数据后确定。
需要说明的是,神经网络模型还包括全连接层和softmax层,得到全局时空特征后,全局时空特征经过全连接层和softmax层即可输出每一个手势类别对应的置信度,该过程为现有技术,在此不再赘述。
在某些实施例中,步骤S53中的具体步骤包括:
根据以下公式获取各个手部骨骼关键点的第二时空特征:
Figure 167476DEST_PATH_IMAGE024
其中,
Figure 13072DEST_PATH_IMAGE016
为第
Figure 289333DEST_PATH_IMAGE017
个关键点集合中第
Figure 788447DEST_PATH_IMAGE018
个手部骨骼关键点的第二时空特征,
Figure 41836DEST_PATH_IMAGE019
为递归神经网络的计算函数,
Figure 284599DEST_PATH_IMAGE020
为第
Figure 556311DEST_PATH_IMAGE017
个关键点集合中第
Figure 226327DEST_PATH_IMAGE018
个手部骨骼关键点的第一时空特征,
Figure 465547DEST_PATH_IMAGE021
为第
Figure 246421DEST_PATH_IMAGE022
个关键点集合中第
Figure 638220DEST_PATH_IMAGE018
个手部骨骼关键点的第二时空特征。
进一步的,递归神经网络为基于GRU算法的神经网络,或基于LSTM算法的神经网络。
递归神经网络视实际情况选择为基于GRU算法的神经网络或基于LSTM算法的神经网络,能够使得到的全局时空特征包含更多有效且完备的动作变化特征。
在某些实施例中,步骤S4中的具体步骤包括:
S41.将各个关键点集合按时间顺序整合为多个关键点序列;
步骤S5中的具体步骤包括:
S55.依次以各个关键点序列作为目标序列,根据目标序列,针对每一个手势类别获取对应的置信度后,针对每一个手势类别计算出对应的加权平均置信度;
步骤S6中的具体步骤包括:
S61.选取数值第一大的加权平均置信度作为第一值,以及选取数值第二大的加权平均置信度作为第二值;
S62.当第一值与第二值的差值大于预设的第一阈值时,或第一值大于预设的第二阈值时,以第一值对应的手势类别作为手势动作所属的手势类别。
在实际应用时,视频片段中可能存在多个时段都能够被判断出手势动作开始,例如10分钟时长的视频片段中,依次执行了3套完整的手势动作:手势动作A、手势动作B和手势动作C,其中手势动作A占3分钟,手势动作B占5分钟,手势动作C占2分钟;当前时刻之前的2分钟时段内确定手势动作C开始,当前时刻之前的7分钟时段内确定手势动作B和手势动作C开始,当前时刻之前的10分钟时段内确定手势动作A、手势动作B和手势动作C开始;而实际上,用户当前时刻与机器人交互的目的是需要机器人执行手势动作C对应的命令,手势动作A和手势动作B仅仅是以往的历史记录,然而上述3个时段均能够确定手势动作开始,因此能够获得了3个关键点序列(下文将“10分钟时段对应的关键点序列”简称为序列a,“7分钟时段对应的关键点序列”简称为序列b,“2分钟时段对应的关键点序列”简称为序列c),此时则需要进一步确定哪个关键点序列才是对应当前时刻用户做出的手势动作。
本实施例中,计算出每一个关键点序列对应的置信度后,根据各个关键点序列的起始时刻的大小赋予不同的权值,例如10分钟时长的视频片段中,起始时刻为7:10,当前时刻为7:20,手势动作A的起始时刻为7:10,手势动作B的起始时刻为7:13,手势动作C的起始时刻为7:18,起始时刻越大,赋予各个手势类别的权值则越大,计算所有关键点序列中各个手势类别加权后的平均置信度,得到各个手势类别对应的加权平均置信度。
具体的,基于上述例子,假设序列a权值为0.1,序列b权值为0.2,序列c权值为0.7,预设有2个手势类别:手势类别D和手势类别E,且计算得到:
对于手势类别D,序列a的置信度为1,序列b的置信度为2,序列c的置信度为5;
对于手势类别E,序列a的置信度为2,序列b的置信度为3,序列c的置信度为7;
则手势类别D的加权平均置信度=(0.1*1+0.2*2+0.7*5)/3;手势类别E的加权平均置信度=(0.1*2+0.2*3+0.7*7)/3。
得到各个手势类别对应的加权平均置信度后,根据第一值和第二值即可判断出用户当前时刻做出的手势动作所属的手势类别,具体的,基于上述例子,手势类别D的加权平均置信度为第二值,手势类别E的加权平均置信度为第一值,在第一值和第二值的差值大于预设的第一阈值时,或第一值大于预设的第二阈值时,则可以认为第一值对应的手势类别即为用户当前时刻做出的手势动作的所属手势类别;在不满足第一值和第二值的差值大于预设的第一阈值,或第一值大于预设的第二阈值的条件时,则表示用户当前时刻做出的手势动作并不属于预设的手势类别中的任意一种手势类别,或用户当前时刻并未做出一套完整的手势动作,以致无法成功识别。
请参照图2,图2是本申请一些实施例中的一种动态手势实时识别装置,应用于视觉识别系统,该动态手势实时识别装置以计算机程序的形式集成在该动态手势实时识别装置的后端控制设备中,该动态手势实时识别装置包括:
第一获取模块100,用于获取视频片段,视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;
第一判断模块200,用于根据视频片段确定手势动作是否开始;
第二获取模块300,用于确定手势动作开始时,获取各帧第一图像的关键点集合;关键点集合包括多个手部骨骼关键点的节点坐标;
序列生成模块400,用于将各个关键点集合按时间顺序整合为关键点序列;
第三获取模块500,用于基于预设的多个手势类别,根据关键点序列,针对每一个手势类别获取对应的置信度;
第二判断模块600,用于根据置信度确定手势动作所属的手势类别。
在某些实施例中,在第二获取模块300用于确定手势动作开始时,获取各帧第一图像的关键点集合;关键点集合包括多个手部骨骼关键点的节点坐标的时候执行:
S31.利用mediapipe库程序从各帧第一图像中提取关键点集合。
在某些实施例中,在第三获取模块500用于基于预设的多个手势类别,根据关键点序列,针对每一个手势类别获取对应的置信度的时候执行:
S51.根据关键点序列依次获取各个关键点集合对应的空间特征图;空间特征图包括各个手部骨骼关键点的空间特征;
S52.利用空间特征图基于时间维度进行二维卷积计算获得对应的局部时空特征;局部时空特征包括各个手部骨骼关键点的第一时空特征;
S53.将所有局部时空特征输入到递归神经网络中,获得全局时空特征;全局时空特征包括各个手部骨骼关键点的第二时空特征;
S54.各个手势类别分别与全局时空特征进行对比,针对每一个手势类别获取对应的置信度。
在某些实施例中,在第三获取模块500用于根据关键点序列依次获取各个关键点集合对应的空间特征图;空间特征图包括各个手部骨骼关键点的空间特征的时候执行:
空间特征图根据以下公式计算:
Figure 479137DEST_PATH_IMAGE025
Figure 683680DEST_PATH_IMAGE026
其中,
Figure 268245DEST_PATH_IMAGE003
为关键点序列中第
Figure 514550DEST_PATH_IMAGE004
个关键点集合对应的空间特征图,
Figure 526368DEST_PATH_IMAGE005
为对角矩阵,
Figure 474602DEST_PATH_IMAGE006
为手部骨骼关键点的邻接矩阵,
Figure 862858DEST_PATH_IMAGE007
为手部骨骼关键点的自连接矩阵,
Figure 963669DEST_PATH_IMAGE008
为关键点序列中第
Figure 146389DEST_PATH_IMAGE004
个关键点集合,
Figure 348962DEST_PATH_IMAGE009
为图卷积核参数,
Figure 275330DEST_PATH_IMAGE010
为对角矩阵中横向第
Figure 230648DEST_PATH_IMAGE011
个且纵向第
Figure 849848DEST_PATH_IMAGE011
个的元素,
Figure 772673DEST_PATH_IMAGE012
为邻接矩阵中横向第
Figure 502732DEST_PATH_IMAGE011
个且纵向第
Figure 312556DEST_PATH_IMAGE013
个的元素,
Figure 102657DEST_PATH_IMAGE014
为自连接矩阵中横向第
Figure 14244DEST_PATH_IMAGE011
个且纵向第
Figure 282414DEST_PATH_IMAGE013
个的元素。
在某些实施例中,在第三获取模块500用于将所有局部时空特征输入到递归神经网络中,获得全局时空特征;全局时空特征包括各个手部骨骼关键点的第二时空特征的时候执行:
根据以下公式获取各个手部骨骼关键点的第二时空特征:
Figure 212324DEST_PATH_IMAGE024
其中,
Figure 173327DEST_PATH_IMAGE016
为第
Figure 539586DEST_PATH_IMAGE017
个关键点集合中第
Figure 611447DEST_PATH_IMAGE018
个手部骨骼关键点的第二时空特征,
Figure 927022DEST_PATH_IMAGE019
为递归神经网络的计算函数,
Figure 793347DEST_PATH_IMAGE020
为第
Figure 679526DEST_PATH_IMAGE017
个关键点集合中第
Figure 289499DEST_PATH_IMAGE018
个手部骨骼关键点的第一时空特征,
Figure 928421DEST_PATH_IMAGE021
为第
Figure 965648DEST_PATH_IMAGE022
个关键点集合中第
Figure 837658DEST_PATH_IMAGE018
个手部骨骼关键点的第二时空特征。
在某些实施例中,第三获取模块500中所使用的递归神经网络为基于GRU算法的神经网络,或基于LSTM算法的神经网络。
在某些实施例中,在序列生成模块400用于将各个关键点集合按时间顺序整合为关键点序列的时候执行:
S41.将各个关键点集合按时间顺序整合为多个关键点序列;
在第三获取模块500用于基于预设的多个手势类别,根据关键点序列,针对每一个手势类别获取对应的置信度的时候执行:
S55.依次以各个关键点序列作为目标序列,根据目标序列,针对每一个手势类别获取对应的置信度后,针对每一个手势类别计算出对应的加权平均置信度;
在第二判断模块600用于根据置信度确定手势动作所属的手势类别的时候执行:
S61.选取数值第一大的加权平均置信度作为第一值,以及选取数值第二大的加权平均置信度作为第二值;
S62.当第一值与第二值的差值大于预设的第一阈值时,或第一值大于预设的第二阈值时,以第一值对应的手势类别作为手势动作所属的手势类别。
请参照图3,图3为本申请实施例提供的一种电子设备的结构示意图,本申请提供一种电子设备,包括:处理器1301和存储器1302,处理器1301和存储器1302通过通信总线1303和/或其他形式的连接机构(未标出)互连并相互通讯,存储器1302存储有处理器1301可执行的计算机可读取指令,当电子设备运行时,处理器1301执行该计算机可读取指令,以执行上述第一方面的实施例的任一可选的实现方式中的动态手势实时识别方法,以实现以下功能:获取视频片段,视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;根据视频片段确定手势动作是否开始;确定手势动作开始时,获取各帧第一图像的关键点集合;关键点集合包括多个手部骨骼关键点的节点坐标;将各个关键点集合按时间顺序整合为关键点序列;基于预设的多个手势类别,根据关键点序列,针对每一个手势类别获取对应的置信度;根据置信度确定手势动作所属的手势类别。
本申请实施例提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,执行上述第一方面的实施例的任一可选的实现方式中的动态手势实时识别方法,以实现以下功能:获取视频片段,视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;根据视频片段确定手势动作是否开始;确定手势动作开始时,获取各帧第一图像的关键点集合;关键点集合包括多个手部骨骼关键点的节点坐标;将各个关键点集合按时间顺序整合为关键点序列;基于预设的多个手势类别,根据关键点序列,针对每一个手势类别获取对应的置信度;根据置信度确定手势动作所属的手势类别。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory, 简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory, 简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory, 简称EPROM),可编程只读存储器(Programmable Red-Only Memory, 简称PROM),只读存储器(Read-OnlyMemory, 简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种动态手势实时识别方法,应用于视觉识别系统,其特征在于,包括步骤:
S1.获取视频片段,所述视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;
S2.根据所述视频片段确定手势动作是否开始;
S3.确定所述手势动作开始时,获取各帧所述第一图像的关键点集合;所述关键点集合包括多个手部骨骼关键点的节点坐标;
S4.将各个所述关键点集合按时间顺序整合为关键点序列;
S5.基于预设的多个手势类别,根据所述关键点序列,针对每一个所述手势类别获取对应的置信度;
S6.根据所述置信度确定所述手势动作所属的手势类别。
2.根据权利要求1所述的动态手势实时识别方法,其特征在于,步骤S3中的具体步骤包括:
S31.利用mediapipe库程序从各帧所述第一图像中提取所述关键点集合。
3.根据权利要求1所述的动态手势实时识别方法,其特征在于,步骤S5中的具体步骤包括:
S51.根据所述关键点序列依次获取各个关键点集合对应的空间特征图;所述空间特征图包括各个所述手部骨骼关键点的空间特征;
S52.利用所述空间特征图基于时间维度进行二维卷积计算获得对应的局部时空特征;所述局部时空特征包括各个所述手部骨骼关键点的第一时空特征;
S53.将所有所述局部时空特征输入到递归神经网络中,获得全局时空特征;所述全局时空特征包括各个所述手部骨骼关键点的第二时空特征;
S54.各个所述手势类别分别与所述全局时空特征进行对比,针对每一个所述手势类别获取对应的所述置信度。
4.根据权利要求3所述的动态手势实时识别方法,其特征在于,步骤S51中的具体步骤包括:
所述空间特征图根据以下公式计算:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
为所述关键点序列中第
Figure DEST_PATH_IMAGE006
个关键点集合对应的所述空间特征图,
Figure DEST_PATH_IMAGE008
为对角矩阵,
Figure DEST_PATH_IMAGE010
为所述手部骨骼关键点的邻接矩阵,
Figure DEST_PATH_IMAGE012
为所述手部骨骼关键点的自连接矩阵,
Figure DEST_PATH_IMAGE014
为所述关键点序列中第
Figure 312588DEST_PATH_IMAGE006
个关键点集合,
Figure DEST_PATH_IMAGE016
为图卷积核参数,
Figure DEST_PATH_IMAGE018
为所述对角矩阵中横向第
Figure DEST_PATH_IMAGE020
个且纵向第
Figure 619941DEST_PATH_IMAGE020
个的元素,
Figure DEST_PATH_IMAGE022
为所述邻接矩阵中横向第
Figure 464925DEST_PATH_IMAGE020
个且纵向第
Figure DEST_PATH_IMAGE024
个的元素,
Figure DEST_PATH_IMAGE026
为所述自连接矩阵中横向第
Figure 47085DEST_PATH_IMAGE020
个且纵向第
Figure 392616DEST_PATH_IMAGE024
个的元素。
5.根据权利要求3所述的动态手势实时识别方法,其特征在于,步骤S53中的具体步骤包括:
根据以下公式获取各个所述手部骨骼关键点的第二时空特征:
Figure DEST_PATH_IMAGE027
其中,
Figure DEST_PATH_IMAGE029
为第
Figure DEST_PATH_IMAGE031
个所述关键点集合中第
Figure DEST_PATH_IMAGE033
个所述手部骨骼关键点的第二时空特征,
Figure DEST_PATH_IMAGE035
为所述递归神经网络的计算函数,
Figure DEST_PATH_IMAGE037
为第
Figure 464346DEST_PATH_IMAGE031
个所述关键点集合中第
Figure 253748DEST_PATH_IMAGE033
个所述手部骨骼关键点的第一时空特征,
Figure DEST_PATH_IMAGE039
为第
Figure DEST_PATH_IMAGE041
个所述关键点集合中第
Figure 577282DEST_PATH_IMAGE033
个所述手部骨骼关键点的第二时空特征。
6.根据权利要求3所述的动态手势实时识别方法,其特征在于,所述递归神经网络为基于GRU算法的神经网络,或基于LSTM算法的神经网络。
7.根据权利要求1所述的动态手势实时识别方法,其特征在于,步骤S4中的具体步骤包括:
S41.将各个所述关键点集合按时间顺序整合为多个所述关键点序列;
步骤S5中的具体步骤包括:
S55.依次以各个所述关键点序列作为目标序列,根据目标序列,针对每一个所述手势类别获取对应的所述置信度后,针对每一个所述手势类别计算出对应的加权平均置信度;
步骤S6中的具体步骤包括:
S61.选取数值第一大的所述加权平均置信度作为第一值,以及选取数值第二大的所述加权平均置信度作为第二值;
S62.当所述第一值与所述第二值的差值大于预设的第一阈值时,或所述第一值大于预设的第二阈值时,以所述第一值对应的所述手势类别作为所述手势动作所属的手势类别。
8.一种动态手势实时识别装置,应用于视觉识别系统,其特征在于,所述动态手势实时识别装置包括:
第一获取模块,用于获取视频片段,所述视频片段包括当前时刻以及当前时刻之前连续的多个历史时刻对应的多帧第一图像;
第一判断模块,用于根据所述视频片段确定手势动作是否开始;
第二获取模块,用于确定所述手势动作开始时,获取各帧所述第一图像的关键点集合;所述关键点集合包括多个手部骨骼关键点的节点坐标;
序列生成模块,用于将各个所述关键点集合按时间顺序整合为关键点序列;
第三获取模块,用于基于预设的多个手势类别,根据所述关键点序列,针对每一个所述手势类别获取对应的置信度;
第二判断模块,用于根据所述置信度确定所述手势动作所属的手势类别。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7中的任一项所述动态手势实时识别方法中的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7中的任一项所述动态手势实时识别方法中的步骤。
CN202211571946.4A 2022-12-08 2022-12-08 一种动态手势实时识别方法、装置、电子设备和存储介质 Active CN115565253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211571946.4A CN115565253B (zh) 2022-12-08 2022-12-08 一种动态手势实时识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211571946.4A CN115565253B (zh) 2022-12-08 2022-12-08 一种动态手势实时识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115565253A true CN115565253A (zh) 2023-01-03
CN115565253B CN115565253B (zh) 2023-04-18

Family

ID=84770274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211571946.4A Active CN115565253B (zh) 2022-12-08 2022-12-08 一种动态手势实时识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115565253B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287844A (zh) * 2019-06-19 2019-09-27 北京工业大学 基于卷积姿势机和长短时记忆网络的交警手势识别方法
WO2021082045A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 微笑表情检测方法、装置、计算机设备及存储介质
WO2021115181A1 (zh) * 2019-12-13 2021-06-17 RealMe重庆移动通信有限公司 手势识别方法、手势控制方法、装置、介质与终端设备
CN113343812A (zh) * 2021-05-28 2021-09-03 北京智通东方软件科技有限公司 手势识别方法、装置、存储介质及电子设备
CN113378770A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 手势识别方法、装置、设备、存储介质以及程序产品
US20220080260A1 (en) * 2020-09-16 2022-03-17 NEX Team Inc. Pose comparison systems and methods using mobile computing devices
CN114973425A (zh) * 2022-08-01 2022-08-30 乐山师范学院 一种交警手势识别方法及装置
WO2022241583A1 (zh) * 2021-05-15 2022-11-24 电子科技大学 一种基于多目视频的家庭场景动作捕捉方法
CN115410274A (zh) * 2022-08-30 2022-11-29 上海高德威智能交通系统有限公司 一种手势识别方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287844A (zh) * 2019-06-19 2019-09-27 北京工业大学 基于卷积姿势机和长短时记忆网络的交警手势识别方法
WO2021082045A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 微笑表情检测方法、装置、计算机设备及存储介质
WO2021115181A1 (zh) * 2019-12-13 2021-06-17 RealMe重庆移动通信有限公司 手势识别方法、手势控制方法、装置、介质与终端设备
US20220080260A1 (en) * 2020-09-16 2022-03-17 NEX Team Inc. Pose comparison systems and methods using mobile computing devices
WO2022241583A1 (zh) * 2021-05-15 2022-11-24 电子科技大学 一种基于多目视频的家庭场景动作捕捉方法
CN113343812A (zh) * 2021-05-28 2021-09-03 北京智通东方软件科技有限公司 手势识别方法、装置、存储介质及电子设备
CN113378770A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 手势识别方法、装置、设备、存储介质以及程序产品
CN114973425A (zh) * 2022-08-01 2022-08-30 乐山师范学院 一种交警手势识别方法及装置
CN115410274A (zh) * 2022-08-30 2022-11-29 上海高德威智能交通系统有限公司 一种手势识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN115565253B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN108537136B (zh) 基于姿态归一化图像生成的行人重识别方法
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN105518744A (zh) 行人再识别方法及设备
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN108182695B (zh) 目标跟踪模型训练方法及装置、电子设备和存储介质
CN108229347A (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
CN111985385A (zh) 一种行为检测方法、装置及设备
CN110096938A (zh) 一种视频中的动作行为的处理方法和装置
Kosmopoulos et al. A system for multicamera task recognition and summarization for structured environments
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN102314591B (zh) 静止前景物体的检测方法和设备
CN113065460A (zh) 基于多任务级联的猪脸面部表情识别框架的建立方法
CN114332911A (zh) 一种头部姿态检测方法、装置及计算机设备
CN115761905A (zh) 一种基于骨骼关节点的潜水员动作识别方法
CN111680183A (zh) 对象检索方法及装置、存储介质及电子设备
CN109740527B (zh) 一种视频帧中图像处理方法
CN112633100B (zh) 行为识别方法、装置、电子设备和存储介质
CN114387304A (zh) 目标跟踪方法、计算机程序产品、存储介质及电子设备
CN112199994B (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN110348395B (zh) 一种基于时空关系的骨架行为识别方法
CN115565253B (zh) 一种动态手势实时识别方法、装置、电子设备和存储介质
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant