CN113158912A - 手势识别方法及装置、存储介质及电子设备 - Google Patents
手势识别方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113158912A CN113158912A CN202110448082.6A CN202110448082A CN113158912A CN 113158912 A CN113158912 A CN 113158912A CN 202110448082 A CN202110448082 A CN 202110448082A CN 113158912 A CN113158912 A CN 113158912A
- Authority
- CN
- China
- Prior art keywords
- hand
- palm
- video frame
- depth video
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000009471 action Effects 0.000 claims abstract description 47
- 230000004044 response Effects 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 20
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种手势识别方法及装置、存储介质及电子设备,该方法包括:获取目标深度视频帧,确定目标深度视频帧的目标掌心位置;依据目标掌心位置在目标深度视频帧中确定出手部图像区域;应用手部关键点识别模型对手部图像区域进行识别,获得手部识别结果,手部识别结果包括手部关键点坐标和关节自由度;将手部识别结果存放至深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合;响应于更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将更新后的手部识别结果集合与手部动作模板进行匹配,以识别出手势动作类型。本发明提供的方法,能够基于深度视频帧进行手势识别,提高了手势识别的准确率。
Description
技术领域
本发明涉及动作识别技术领域,特别涉及一种手势识别方法及装置、存储介质及电子设备。
背景技术
随着科学技术的发展,车载电子产品的操控方式日新月异,出现了各式各样的操作控制技术,例如手势识别控制技术,通过手势识别技术,用户可以通过执行相应的手势动作,实现对汽车系统的控制,为用户提供了极大的便利。
现有的车载控制技术中,通常是通过彩色相机进行车载手势图像捕捉,然而,通过彩色相机进行手势图像捕捉过程中,彩色相机受光照等外部环境变化影响很大,容易造成识别结果不准确。
发明内容
本发明所要解决的技术问题是提供一种手势识别方法,能够提高手势识别的准确率。
本发明还提供了一种手势识别装置,用以保证上述方法在实际中的实现及应用。
一种手势识别方法,包括:
获取目标深度视频帧,所述目标深度视频帧为深度视频流中当前待处理的深度视频帧;所述深度视频流由预设的深度相机对该深度相机的视野范围进行深度图采集得到;
在检测出所述目标深度视频帧包含手部图像信息的情况下,确定所述目标深度视频帧对应的目标掌心位置;
依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域;
应用预先设置的手部关键点识别模型对所述手部图像区域进行识别,获得所述目标深度视频帧对应的手部识别结果,所述手部识别结果包括手部关键点坐标和关节自由度;
将所述手部识别结果存放至所述深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合;
响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述更新后的手部识别结果集合对应的手势动作类型。
上述的方法,可选的,检测目标深度视频帧包含手部图像信息的过程,包括:
依据预设的深度范围对所述目标深度视频帧进行预处理,获得预处理后的目标深度视频帧;所述预处理后的目标深度视频帧中除所述深度范围以外的图像区域的深度值为零;
应用预先设置的矩形选取框按预设的步长在所述预处理后的目标深度视频帧上进行滑动,获得每个矩形图像区域;
应用预先设置的掌心位置识别模型对每个所述矩形图像区域进行识别,获得每个所述矩形图像区域的掌心识别结果,所述掌心识别结果包括掌心置信度;
在至少一个所述掌心位置识别结果中的掌心置信度大于预先设置的置信度阈值的情况下,确定所述目标深度视频帧包含手部图像信息。
上述的方法,可选的,所述掌心识别结果还包含所述掌心置信度对应的掌心位置,所述确定所述目标深度视频帧对应的目标掌心位置,包括:
在各个所述掌心识别结果的掌心位置中选取出第一掌心位置和第二掌心位置;其中,所述第一掌心位置对应的掌心置信度大于所述第二掌心位置的掌心置信度;所述第二掌心位置对应的掌心置信度大于各个所述掌心位置识别结果中除所述第一掌心位置对应的掌心置信度以外的各个所述掌心置信度;
判断所述第一掌心位置和所述第二掌心位置之间的欧氏距离是否大于预先设置的距离阈值;
若所述欧氏距离大于所述距离阈值,则将所述第一掌心位置和所述第二掌心位置均确定为所述目标深度视频帧对应的目标掌心位置;
若所述欧氏距离未大于所述距离阈值,则将所述第一掌心位置确定为所述目标深度视频帧对应的目标掌心位置。
上述的方法,可选的,还包括:
在各个所述掌心位置识别结果中的掌心置信度均小于预先设置的置信度阈值的情况下,确定所述目标深度视频帧未包含手部图像信息;
在所述目标深度视频帧不为所述深度视频流的首个视频帧的情况下,若该目标深度视频帧的前一深度视频帧存在有效掌心位置,则将所述有效掌心位置作为所述目标深度视频帧对应的目标掌心位置。
上述的方法,可选的,所述依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域,包括:
以所述目标掌心位置为基准,应用预先设置的手部图像框在所述预处理后的目标深度视频帧中确定出手部图像区域。
上述的方法,可选的,还包括:
响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量未满足预先设置的数量阈值,则返回执行获取目标深度视频帧的步骤,直至所述手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值。
上述的方法,可选的,所述将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述目标手部识别结果集合对应的手势动作类型,包括:
将所述手部识别结果集合中的每个手部识别结果与预先设置的手部动作模板进行匹配,获得所述手部识别结果集合与每个预设的手势动作类型的匹配置信度;
将所述匹配置信度度最高的手势动作类型作为所述目标手部识别结果集合对应的手势动作类型。
一种存储介质,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的手势识别方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的手势识别方法。
与现有技术相比,本发明包括以下优点:
本发明提供了一种手势识别方法及装置、存储介质及电子设备,该方法包括:获取目标深度视频帧,所述目标深度视频帧为深度视频流中当前待处理的深度视频帧;所述深度视频流由预设的深度相机对该深度相机的视野范围进行深度图采集得到;在检测出所述目标深度视频帧包含手部图像信息的情况下,确定所述目标深度视频帧对应的目标掌心位置;依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域;应用预先设置的手部关键点识别模型对所述手部图像区域进行识别,获得所述目标深度视频帧对应的手部识别结果,所述手部识别结果包括手部关键点坐标和关节自由度;将所述手部识别结果存放至所述深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合;响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述更新后的手部识别结果集合对应的手势动作类型。应用本发明提供的手势识别方法,能够通过基于深度视频帧进行手势识别,从而可以避免光照等外界因素对识别结果的干扰,提高了手势识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种手势识别方法的方法流程图;
图2为本发明提供的一种检测目标深度视频帧包含手部图像信息的过程的流程图;
图3为本发明实施例提供的一种手势识别方法的流程示例图;
图4为本发明提供的一种手势识别装置的结构示意图;
图5为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种手势识别方法,该方法可以应用于电子设备,所述方法的方法流程图如图1所示,具体包括:
S101:获取目标深度视频帧,所述目标深度视频帧为深度视频流中当前待处理的深度视频帧;所述深度视频流由预设的深度相机对该深度相机的视野范围进行深度图采集得到。
本发明实施例提供的方法中,深度视频流包含多个深度视频帧,可以对深度视频流中的各个深度视频帧逐帧进行处理,也可以同时对多个深度视频帧进行处理,目标深度视频帧即为当前待处理的深度视频帧。
可选的,该深度相机可以设置于用户的前方,该深度相机可以为各种3D相机。
S102:在检测出所述目标深度视频帧包含手部图像信息的情况下,确定所述目标深度视频帧对应的目标掌心位置。
本发明实施例提供的方法中,可以应用预先设置的掌心位置识别模型对目标深度视频帧进行检测,以确定目标深度视频帧是否包含手部图像信息。
其中,目标掌心位置可以为一个或两个,在目标掌心位置为一个的情况下,该目标掌心位置可以为左手的掌心位置、右手的掌心位置或两只手交叉重叠的掌心位置(左、右手的掌心位置相同),在目标掌心位置为两个的情况下,该目标掌心位置可以为左手的掌心位置和右手的掌心位置。
S103:依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域。
本发明实施例提供的方法中,该手部图像区域包含所述目标掌心位置。
S104:应用预先设置的手部关键点识别模型对所述手部图像区域进行识别,获得所述目标深度视频帧对应的手部识别结果,所述手部识别结果包括手部关键点坐标和关节自由度。
本发明实施例提供的方法中,每个手部识别结果的手部关键点坐标可以为多个,该关节自由度可以包括各个手指关节的自由度。
其中,该手部关键点坐标可以为三维坐标。
S105:将所述手部识别结果存放至所述深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合。
本发明实施例提供的方法中,该手部识别结果集合可以为手部识别结果序列,可以用于存放深度视频帧的手部识别结果,具体可以存放该目标深度视频帧的N个深度视频帧的手部识别结果。
S106:响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述更新后的手部识别结果集合对应的手势动作类型。
本发明实施例提供的方法中,该手部动作模板可以为多个,每个手部动作模板可以对应一个备选手势动作类型;或者,手部动作模板可以包含多个备选手势动作类型的手势模板参数。
其中,该数量阈值可以为任意的正整数。
可选的,在识别出手势动作类型后,可以执行该识别出的手势动作类对应的动作指令。
应用本发明提供的手势识别方法,能够通过基于深度视频帧进行手势识别,从而可以避免光照等外界因素对识别结果的干扰,提高了手势识别的准确率。
本发明实施例提供的方法中,基于上述的实施过程,具体的,检测目标深度视频帧包含手部图像信息的过程,如图2所示,具体包括:
S201:依据预设的深度范围对所述目标深度视频帧进行预处理,获得预处理后的目标深度视频帧;所述预处理后的目标深度视频帧中除所述深度范围以外的图像区域的深度值为零。
本发明实施例提供的方法,该深度范围可以与手部图像信息相对应,通过对目标深度视频帧进行预处理,可以将不处于该深度范围的深度值置零,从而可以减少目标深度视频帧中除手部图像信息以外的环境图像信息对模型识别结果的干扰,即,目标深度视频帧中可以包含手部图像信息以及周围的环境图像信息,该环境图像信息可以包括车座椅、人除手部以外的其他部分以及车顶等等。
S202:应用预先设置的矩形选取框按预设的步长在所述预处理后的目标深度视频帧上进行滑动,获得每个矩形图像区域。
本发明实施例提供的方法中,该矩形选取框可以是边长为128个像素的正方形,该步长可以为68个像素点。
其中,通过应用矩形选取框,可以在目标深度视频帧上选取出与该矩形图像选取框尺寸一致的矩形图像区域。
S203:应用预先设置的掌心位置识别模型对每个所述矩形图像区域进行识别,获得每个所述矩形图像区域的掌心识别结果,所述掌心识别结果包括掌心置信度。
可选的,该掌心识别结果还可以包含掌心位置,该掌心置信度可以表征该掌心位置的可能性,即,掌心置信度越高,该掌心位置越可信,该掌心置信度也可以表征其所属的矩形图像区域包含手部图像信息的可能性。
S204:在至少一个所述掌心位置识别结果中的掌心置信度大于预先设置的置信度阈值的情况下,确定所述目标深度视频帧包含手部图像信息。
本发明实施例提供的方法中,可以将所有的掌心位置识别结果的掌心置信度与置信度阈值进行比较,若掌心位置识别结果的掌心置信度大于该置信度阈值,则可以确定该大于置信度阈值的掌心置信度所属的矩形图像区域包含手部图像信息,也即,该目标深度视频帧包含手部图像信息。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述掌心识别结果还包含所述掌心置信度对应的掌心位置,所述确定所述目标深度视频帧对应的目标掌心位置,包括:
在各个所述掌心识别结果的掌心位置中选取出第一掌心位置和第二掌心位置;其中,所述第一掌心位置对应的掌心置信度大于所述第二掌心位置的掌心置信度;所述第二掌心位置对应的掌心置信度大于各个所述掌心位置识别结果中除所述第一掌心位置对应的掌心置信度以外的各个所述掌心置信度;
判断所述第一掌心位置和所述第二掌心位置之间的欧氏距离是否大于预先设置的距离阈值;
若所述欧氏距离大于所述距离阈值,则将所述第一掌心位置和所述第二掌心位置均确定为所述目标深度视频帧对应的目标掌心位置;
若所述欧氏距离未大于所述距离阈值,则将所述第一掌心位置确定为所述目标深度视频帧对应的目标掌心位置。
本发明实施例提供的方法中,根据每个掌心识别结果中的掌心置信度由大至小的顺序,对每个掌心识别结果的掌心位置进行排序,在已排序的各个掌心位置中选取出第一掌心位置和第二掌心位置,第一掌心位置的掌心置信度大于该第二掌心位置的掌心置信度。
其中,计算该第一掌心位置和第二掌心位置之间的欧氏距离,将该欧氏距离与预先设置的欧氏距离阈值进行比较,若该欧氏距离小于预先设置的距离阈值,可以把第一掌心位置和第二掌心位置看成同一只手的掌心位置或者两只手的存在交叉重叠,在此情况下,可以将第一掌心位置作为目标掌心位置,若该欧氏距离大于预先设置的距离阈值,可以把第一掌心位置和第二掌心位置看成两只手的掌心位置,在此情况下,可以把第一掌心位置和第二掌心位置均确定为目标掌心位置。
本发明实施例提供的方法中,基于上述的实施过程,具体的,还包括:
在各个所述掌心位置识别结果中的掌心置信度均小于预先设置的置信度阈值的情况下,确定所述目标深度视频帧未包含手部图像信息;
在所述目标深度视频帧不为所述深度视频流的首个视频帧的情况下,若该目标深度视频帧的前一深度视频帧存在有效掌心位置,则将所述有效掌心位置作为所述目标深度视频帧对应的目标掌心位置。
本发明实施例提供的方法中,该有效掌心位置可以为该目标深度视频帧的前一深度视频帧的掌心识别结果中的目标掌心位置,若该前一深度视频帧不存在掌心识别结果,则可以确定该前一深度视频帧不存在有效掌心位置,则可以返回执行S101的获取目标深度视频帧。
具体的,通过将前一深度视频帧的有效掌心位置作为目标深度视频帧的目标掌心位置,可以实现对掌心位置的跟踪,能够避免掌心识别模型失效。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域,包括:
以所述目标掌心位置为基准,应用预先设置的手部图像框在所述预处理后的目标深度视频帧中确定出手部图像区域。
本发明实施例提供的方法中,可以将该目标掌心位置作为该手部图像选取框的中心点,从而在目标深度视频帧中框选出与该手部图像选取框尺寸一致的图像区域作为手部图像区域。
本发明实施例提供的方法中,基于上述的实施过程,具体的,还包括:
响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量未满足预先设置的数量阈值,则返回执行获取目标深度视频帧的步骤,直至所述手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述目标手部识别结果集合对应的手势动作类型,包括:
将所述手部识别结果集合中的每个手部识别结果与预先设置的手部动作模板进行匹配,获得所述手部识别结果集合与每个预设的手势动作类型的匹配置信度;
将所述匹配置信度度最高的手势动作类型作为所述目标手部识别结果集合对应的手势动作类型。
本发明实施例提供的方法中,该手部识别结果集合中存放目标深度视频帧的前N个连续的深度视频帧的手部识别结果。
可选的,手部动作模板的数量可以为多个,则将更新后的手部识别结果集合与预先设置的手部动作模板进行匹配的一种可行的方式为:将手部识别结果集合与每个手部动作模板进行匹配,获得手部识别结果集合与每个手部动作模板的匹配置信度,将与该手部识别结果集合匹配置信度最高的手部动作模板对应的手势动作类型作为目标手部识别结果对应的手势动作类型。
在本发明实施例提供的手势识别方法,可以应用于多种领域之中,例如,可以应用于车载手势交互领域,参见图3,为本发明实施例提供的一种手势识别方法的流程示例图,其中,预先设置的手势类型可以包括“拍一拍”、“画圈”、“左右挥手”、“OK”以及“往后抓”等等,车载手势交互中的手势识别过程如下:
步骤A、可以将深度相机放置在前方面对人体前面,调整好角度,通过已调整好角度的深度相机获取深度视频帧。
步骤B、对获取到的深度视频帧进行预处理,具体可以依据已设定好的深度范围,将深度视频帧中不在该深度范围的深度值置为0。
步骤C、手部检测及跟踪,人的手在三维空间中是被一个立方体空间包围,映射到图像上是一个矩形区域,该立方体和矩形区域的大小可以是一个经验值,可以设置该矩形区域为边长是128个像素的正方形,在手部检测的过程中,从深度视频帧的左上角开始,64个像素为步长,依次选取图像中的128*128的方形区域;对于每一个选定的区域,将其送入到一个回归掌心位置和手部分类结果的深度学习网络中,得到该区域的掌心位置和置信度,其中,置信度越高,证明该区域有手的概率越大;在方形区域依次滑动的过程中会得到多个掌心位置以及对应的手掌置信度,最后对所有置信度做一个排序,可以取最大的两个置信度对应的掌心位置作为手部检测结果,即目标掌心位置;手部跟踪部分是将上一帧的有效掌心位置作为手部检测的结果,手部检测失效或者不启用时调用手部跟踪结果。
步骤D、获得掌心位置后,类似地框出手部在图像上的区域,再进行去中心化归一化数据处理,然后输入到估计手部关键点坐标的深度网络模型中,得到手部识别结果,该手部识别结果包括3D手部关键点坐标和关节自由度。
步骤E、将连续多帧计算得到的手部识别结果与之前设定好的手部动作模板进行匹配,将与该连续多帧的手部关键点数据匹配成功的手部动作模板所对应的手势动作类型作为识别结果。
与图1所述的方法相对应,本发明实施例还提供了一种手势识别装置,用于对图1中方法的具体实现,本发明实施例提供的手势识别装置可以应用于服务器中,其结构示意图如图4所示,具体包括:
获取单元401,用于获取目标深度视频帧,所述目标深度视频帧为深度视频流中当前待处理的深度视频帧;所述深度视频流由预设的深度相机对该深度相机的视野范围进行深度图采集得到;
第一确定单元402,用于在检测出所述目标深度视频帧包含手部图像信息的情况下,确定所述目标深度视频帧对应的目标掌心位置;
第二确定单元403,用于依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域;
识别单元404,用于应用预先设置的手部关键点识别模型对所述手部图像区域进行识别,获得所述目标深度视频帧对应的手部识别结果,所述手部识别结果包括手部关键点坐标和关节自由度;
更新单元405,用于将所述手部识别结果添加至所述深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合;
匹配单元406,用于响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述更新后的手部识别结果集合对应的手势动作类型。
在本发明提供的一实施例中,基于上述的方案,可选的,所述手势识别装置还包括检测单元,该检测单元被配置为:
依据预设的深度范围对所述目标深度视频帧进行预处理,获得预处理后的目标深度视频帧;所述预处理后的目标深度视频帧中除所述深度范围以外的图像区域的深度值为零;
应用预先设置的矩形选取框按预设的步长在所述预处理后的目标深度视频帧上进行滑动,获得多个矩形图像区域;
应用预先设置的掌心位置识别模型对每个所述矩形图像区域进行识别,获得每个所述矩形图像区域的掌心识别结果,所述掌心识别结果包括掌心置信度;
在至少一个所述掌心位置识别结果中的掌心置信度大于预先设置的置信度阈值的情况下,确定所述目标深度视频帧包含手部图像信息。
在本发明提供的一实施例中,基于上述的方案,可选的,所述掌心识别结果还包含所述掌心置信度对应的掌心位置,所述第一确定单元402,包括:
选取子单元,用于在各个所述掌心识别结果的掌心位置中选取出第一掌心位置和第二掌心位置;其中,所述第一掌心位置对应的掌心置信度大于所述第二掌心位置的掌心置信度;所述第二掌心位置对应的掌心置信度大于各个所述掌心位置识别结果中除所述第一掌心位置对应的掌心置信度以外的各个所述掌心置信度;
判断子单元,用于判断所述第一掌心位置和所述第二掌心位置之间的欧氏距离是否大于预先设置的距离阈值;
第一确定子单元,用于若所述欧氏距离大于所述距离阈值,则将所述第一掌心位置和所述第二掌心位置均确定为所述目标深度视频帧对应的目标掌心位置;
第二确定子单元,用于若所述欧氏距离未大于所述距离阈值,则将所述第一掌心位置确定为所述目标深度视频帧对应的目标掌心位置。
在本发明提供的一实施例中,基于上述的方案,可选的,该手势识别装置还包括第三确定单元,该第三确定单元,被配置为:
在各个所述掌心位置识别结果中的掌心置信度均小于预先设置的置信度阈值的情况下,确定所述目标深度视频帧未包含手部图像信息;
在所述目标深度视频帧不为所述深度视频流的首个视频帧的情况下,若该目标深度视频帧的前一深度视频帧存在有效掌心位置,则将所述有效掌心位置作为所述目标深度视频帧对应的目标掌心位置。
在本发明提供的一实施例中,基于上述的方案,可选的,所述第二确定单元,包括:
第三确定子单元,用于以所述目标掌心位置为基准,应用预先设置的手部图像框在所述预处理后的目标深度视频帧中确定出手部图像区域。
在本发明提供的一实施例中,基于上述的方案,可选的,所述手势识别装置还包括迭代单元,该迭代单元被配置为:
响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量未满足预先设置的数量阈值,则返回执行获取目标深度视频帧的步骤,直至所述手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值。
在本发明提供的一实施例中,基于上述的方案,可选的,所述匹配单元406,包括:
第一匹配子单元,用于将所述手部识别结果集合中的每个手部识别结果与预先设置的手部动作模板进行匹配,获得所述手部识别结果集合与每个预设的手势动作类型的匹配置信度;
执行子单元,用于将所述匹配置信度度最高的手势动作类型作为所述目标手部识别结果集合对应的手势动作类型。
上述本发明实施例公开的手势识别装置中的各个单元和模块具体的原理和执行过程,与上述本发明实施例公开的手势识别方法相同,可参见上述本发明实施例提供的手势识别方法中相应的部分,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述手势识别方法。
本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501,以及一个或者一个以上的指令502,其中一个或者一个以上指令502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作:
获取目标深度视频帧,所述目标深度视频帧为深度视频流中当前待处理的深度视频帧;所述深度视频流由预设的深度相机对该深度相机的视野范围进行深度图采集得到;
在检测出所述目标深度视频帧包含手部图像信息的情况下,确定所述目标深度视频帧对应的目标掌心位置;
依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域;
应用预先设置的手部关键点识别模型对所述手部图像区域进行识别,获得所述目标深度视频帧对应的手部识别结果,所述手部识别结果包括手部关键点坐标和关节自由度;
将所述手部识别结果存放至所述深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合;
响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述更新后的手部识别结果集合对应的手势动作类型。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种手势识别方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种手势识别方法,其特征在于,包括:
获取目标深度视频帧,所述目标深度视频帧为深度视频流中当前待处理的深度视频帧;所述深度视频流由预设的深度相机对该深度相机的视野范围进行深度图采集得到;
在检测出所述目标深度视频帧包含手部图像信息的情况下,确定所述目标深度视频帧对应的目标掌心位置;
依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域;
应用预先设置的手部关键点识别模型对所述手部图像区域进行识别,获得所述目标深度视频帧对应的手部识别结果,所述手部识别结果包括手部关键点坐标和关节自由度;
将所述手部识别结果存放至所述深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合;
响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述更新后的手部识别结果集合对应的手势动作类型。
2.根据权利要求1所述的方法,其特征在于,检测目标深度视频帧包含手部图像信息的过程,包括:
依据预设的深度范围对所述目标深度视频帧进行预处理,获得预处理后的目标深度视频帧;所述预处理后的目标深度视频帧中除所述深度范围以外的图像区域的深度值为零;
应用预先设置的矩形选取框按预设的步长在所述预处理后的目标深度视频帧上进行滑动,获得每个矩形图像区域;
应用预先设置的掌心位置识别模型对每个所述矩形图像区域进行识别,获得每个所述矩形图像区域的掌心识别结果,所述掌心识别结果包括掌心置信度;
在至少一个所述掌心位置识别结果中的掌心置信度大于预先设置的置信度阈值的情况下,确定所述目标深度视频帧包含手部图像信息。
3.根据权利要求2所述的方法,其特征在于,所述掌心识别结果还包含所述掌心置信度对应的掌心位置,所述确定所述目标深度视频帧对应的目标掌心位置,包括:
在各个所述掌心识别结果的掌心位置中选取出第一掌心位置和第二掌心位置;其中,所述第一掌心位置对应的掌心置信度大于所述第二掌心位置的掌心置信度;所述第二掌心位置对应的掌心置信度大于各个所述掌心位置识别结果中除所述第一掌心位置对应的掌心置信度以外的各个所述掌心置信度;
判断所述第一掌心位置和所述第二掌心位置之间的欧氏距离是否大于预先设置的距离阈值;
若所述欧氏距离大于所述距离阈值,则将所述第一掌心位置和所述第二掌心位置均确定为所述目标深度视频帧对应的目标掌心位置;
若所述欧氏距离未大于所述距离阈值,则将所述第一掌心位置确定为所述目标深度视频帧对应的目标掌心位置。
4.根据权利要求2所述的方法,其特征在于,还包括:
在各个所述掌心位置识别结果中的掌心置信度均小于预先设置的置信度阈值的情况下,确定所述目标深度视频帧未包含手部图像信息;
在所述目标深度视频帧不为所述深度视频流的首个视频帧的情况下,若该目标深度视频帧的前一深度视频帧存在有效掌心位置,则将所述有效掌心位置作为所述目标深度视频帧对应的目标掌心位置。
5.根据权利要求2所述的方法,其特征在于,所述依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域,包括:
以所述目标掌心位置为基准,应用预先设置的手部图像框在所述预处理后的目标深度视频帧中确定出手部图像区域。
6.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量未满足预先设置的数量阈值,则返回执行获取目标深度视频帧的步骤,直至所述手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值。
7.根据权利要求1所述的方法,其特征在于,所述将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述目标手部识别结果集合对应的手势动作类型,包括:
将所述手部识别结果集合中的每个手部识别结果与预先设置的手部动作模板进行匹配,获得所述手部识别结果集合与每个预设的手势动作类型的匹配置信度;
将所述匹配置信度度最高的手势动作类型作为所述目标手部识别结果集合对应的手势动作类型。
8.一种手势识别装置,其特征在于,包括:
获取单元,用于获取目标深度视频帧,所述目标深度视频帧为深度视频流中当前待处理的深度视频帧;所述深度视频流由预设的深度相机对该深度相机的视野范围进行深度图采集得到;
第一确定单元,用于在检测出所述目标深度视频帧包含手部图像信息的情况下,确定所述目标深度视频帧对应的目标掌心位置;
第二确定单元,用于依据所述目标掌心位置在所述目标深度视频帧中确定出手部图像区域;
识别单元,用于应用预先设置的手部关键点识别模型对所述手部图像区域进行识别,获得所述目标深度视频帧对应的手部识别结果,所述手部识别结果包括手部关键点坐标和关节自由度;
更新单元,用于将所述手部识别结果添加至所述深度视频流对应的手部识别结果集合,获得更新后的手部识别结果集合;
匹配单元,用于响应于所述更新后的手部识别结果集合中当前存放的手部识别结果的数量满足预先设置的数量阈值,将所述更新后的手部识别结果集合与预先设置的手部动作模板进行匹配,以识别出所述更新后的手部识别结果集合对应的手势动作类型。
9.一种存储介质,其特征在于,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的手势识别方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~7任意一项所述的手势识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110448082.6A CN113158912B (zh) | 2021-04-25 | 2021-04-25 | 手势识别方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110448082.6A CN113158912B (zh) | 2021-04-25 | 2021-04-25 | 手势识别方法及装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158912A true CN113158912A (zh) | 2021-07-23 |
CN113158912B CN113158912B (zh) | 2023-12-26 |
Family
ID=76870236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110448082.6A Active CN113158912B (zh) | 2021-04-25 | 2021-04-25 | 手势识别方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158912B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120069168A1 (en) * | 2010-09-17 | 2012-03-22 | Sony Corporation | Gesture recognition system for tv control |
US20120327089A1 (en) * | 2011-06-22 | 2012-12-27 | Microsoft Corporation | Fully Automatic Dynamic Articulated Model Calibration |
CN102938060A (zh) * | 2012-12-07 | 2013-02-20 | 上海电机学院 | 动态手势识别系统及方法 |
CN103839040A (zh) * | 2012-11-27 | 2014-06-04 | 株式会社理光 | 基于深度图像的手势识别方法和装置 |
CN104346816A (zh) * | 2014-10-11 | 2015-02-11 | 京东方科技集团股份有限公司 | 一种深度确定方法、装置及电子设备 |
US20160124513A1 (en) * | 2014-01-07 | 2016-05-05 | Softkinetic Software | Human-to-Computer Natural Three-Dimensional Hand Gesture Based Navigation Method |
US20160209927A1 (en) * | 2013-09-12 | 2016-07-21 | Mitsubishi Electric Corporation | Gesture manipulation device and method, program, and recording medium |
CN106503626A (zh) * | 2016-09-29 | 2017-03-15 | 南京信息工程大学 | 基于深度图像与手指轮廓匹配的并指手势识别方法 |
CN107038424A (zh) * | 2017-04-20 | 2017-08-11 | 华中师范大学 | 一种手势识别方法 |
US20170315615A1 (en) * | 2014-12-19 | 2017-11-02 | Hewlett-Packard Development Company, L.P. | Gesture library |
CN110232311A (zh) * | 2019-04-26 | 2019-09-13 | 平安科技(深圳)有限公司 | 手部图像的分割方法、装置及计算机设备 |
CN110414363A (zh) * | 2019-07-02 | 2019-11-05 | 中国科学院合肥物质科学研究院 | 一种基于高速图像处理的特征识别系统 |
CN111563401A (zh) * | 2019-02-14 | 2020-08-21 | 上海汽车集团股份有限公司 | 一种车载手势识别方法、系统、存储介质及电子设备 |
CN111626168A (zh) * | 2020-05-20 | 2020-09-04 | 中移雄安信息通信科技有限公司 | 手势识别方法、装置、设备和介质 |
CN111966320A (zh) * | 2020-08-05 | 2020-11-20 | 湖北亿咖通科技有限公司 | 用于车辆的多模态交互方法、存储介质以及电子设备 |
-
2021
- 2021-04-25 CN CN202110448082.6A patent/CN113158912B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120069168A1 (en) * | 2010-09-17 | 2012-03-22 | Sony Corporation | Gesture recognition system for tv control |
US20120327089A1 (en) * | 2011-06-22 | 2012-12-27 | Microsoft Corporation | Fully Automatic Dynamic Articulated Model Calibration |
CN103839040A (zh) * | 2012-11-27 | 2014-06-04 | 株式会社理光 | 基于深度图像的手势识别方法和装置 |
CN102938060A (zh) * | 2012-12-07 | 2013-02-20 | 上海电机学院 | 动态手势识别系统及方法 |
US20160209927A1 (en) * | 2013-09-12 | 2016-07-21 | Mitsubishi Electric Corporation | Gesture manipulation device and method, program, and recording medium |
US20160124513A1 (en) * | 2014-01-07 | 2016-05-05 | Softkinetic Software | Human-to-Computer Natural Three-Dimensional Hand Gesture Based Navigation Method |
CN104346816A (zh) * | 2014-10-11 | 2015-02-11 | 京东方科技集团股份有限公司 | 一种深度确定方法、装置及电子设备 |
US20170315615A1 (en) * | 2014-12-19 | 2017-11-02 | Hewlett-Packard Development Company, L.P. | Gesture library |
CN106503626A (zh) * | 2016-09-29 | 2017-03-15 | 南京信息工程大学 | 基于深度图像与手指轮廓匹配的并指手势识别方法 |
CN107038424A (zh) * | 2017-04-20 | 2017-08-11 | 华中师范大学 | 一种手势识别方法 |
CN111563401A (zh) * | 2019-02-14 | 2020-08-21 | 上海汽车集团股份有限公司 | 一种车载手势识别方法、系统、存储介质及电子设备 |
CN110232311A (zh) * | 2019-04-26 | 2019-09-13 | 平安科技(深圳)有限公司 | 手部图像的分割方法、装置及计算机设备 |
WO2020215565A1 (zh) * | 2019-04-26 | 2020-10-29 | 平安科技(深圳)有限公司 | 手部图像的分割方法、装置及计算机设备 |
CN110414363A (zh) * | 2019-07-02 | 2019-11-05 | 中国科学院合肥物质科学研究院 | 一种基于高速图像处理的特征识别系统 |
CN111626168A (zh) * | 2020-05-20 | 2020-09-04 | 中移雄安信息通信科技有限公司 | 手势识别方法、装置、设备和介质 |
CN111966320A (zh) * | 2020-08-05 | 2020-11-20 | 湖北亿咖通科技有限公司 | 用于车辆的多模态交互方法、存储介质以及电子设备 |
Non-Patent Citations (2)
Title |
---|
MURATOV, Y.等: "Hand Gesture Recognition for Non-Contact Control of a Technical System", 2020 INTERNATIONAL RUSSIAN AUTOMATION CONFERENCE (RUSAUTOCON), pages 1107 - 11 * |
王西颖;张习文;戴国忠;: "一种面向实时交互的变形手势跟踪方法", 软件学报, no. 10, pages 61 - 71 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158912B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8005263B2 (en) | Hand sign recognition using label assignment | |
US11393103B2 (en) | Target tracking method, device, system and non-transitory computer readable medium | |
CN107808111B (zh) | 用于行人检测和姿态估计的方法和装置 | |
CN106462242B (zh) | 使用视线跟踪的用户界面控制 | |
JP6571108B2 (ja) | モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム | |
US20190371134A1 (en) | Self-checkout system, method thereof and device therefor | |
CN110688929B (zh) | 一种人体骨架关节点定位方法及装置 | |
CN111401318B (zh) | 动作识别方法及装置 | |
JP5598751B2 (ja) | 動作認識装置 | |
CN114138121B (zh) | 用户手势识别方法、装置、系统、存储介质及计算设备 | |
CN114402369A (zh) | 人体姿态的识别方法、装置、存储介质及电子设备 | |
CN111444850A (zh) | 一种图片检测的方法和相关装置 | |
CN112926462A (zh) | 训练方法、装置、动作识别方法、装置及电子设备 | |
CN116263622A (zh) | 手势识别方法、装置、电子设备、介质及程序产品 | |
CN110728172B (zh) | 基于点云的人脸关键点检测方法、装置、系统及存储介质 | |
CN113282164A (zh) | 一种处理方法和装置 | |
CN113158912B (zh) | 手势识别方法及装置、存储介质及电子设备 | |
CN114694257A (zh) | 多人实时三维动作识别评估方法、装置、设备及介质 | |
CN114821777A (zh) | 一种手势检测方法、装置、设备及存储介质 | |
CN111722710A (zh) | 开启增强现实ar互动学习模式的方法及电子设备 | |
CN114419451B (zh) | 电梯内外识别方法、装置、电子设备及存储介质 | |
CN116092110A (zh) | 手势语义识别方法、电子设备、存储介质及程序产品 | |
CN116189237A (zh) | 一种目标跟踪识别方法、装置、计算机设备及存储介质 | |
CN118037295A (zh) | 生物支付处理方法、装置、电子设备及存储介质 | |
CN118097521A (zh) | 对象识别方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |