CN114067424A

CN114067424A - 一种人体交互行为识别方法、装置、设备及可读存储介质

Info

Publication number: CN114067424A
Application number: CN202010748455.7A
Authority: CN
Inventors: 刘俊萍
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-02-18

Abstract

本发明提供一种人体交互行为识别方法、装置、设备及可读存储介质，涉及行为识别检测技术领域，其中，人体交互行为识别方法，包括：获取至少两路待处理图像数据；基于至少两路待处理图像数据获取满足预设条件的关键帧；基于预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为；交互行为目标人体与其他物体的交互行为，其他物体包括除目标人体以外的其他人或物。本发明实施例中基于至少两路待处理图像数据获取满足预设条件的关键帧，采用预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为，这样，可以识别目标人体与其他物体的交互行为，且通过多源数据可以使识别结果更加准确。

Description

一种人体交互行为识别方法、装置、设备及可读存储介质

技术领域

本发明涉及行为识别检测技术领域，尤其涉及一种人体交互行为识别方法、装置、设备及可读存储介质。

背景技术

目前，在进行人体的行为识别时，通常基于穿戴式设备获取人体的姿态信息，从而对人体行为进行识别。但是，这种识别方式只能对人体动作进行识别，无法对人体行为动作的交互对象进行识别，当需要识别人体与其他物体的交互行为时，识别的准确度较低。

发明内容

本发明实施例提供一种人体交互行为识别方法、装置、设备及可读存储介质，以解决现有无法对人体行为动作的交互对象进行识别，当需要识别人体与其他物体的交互行为时，识别的准确度较低的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种人体交互行为识别方法，包括：

获取至少两路待处理图像数据；

基于所述至少两路待处理图像数据获取满足预设条件的关键帧；

基于预设的人体交互行为识别模型对所述关键帧进行识别以生成目标人体的交互行为；所述交互行为目标人体与其他物体的交互行为，所述其他物体包括除所述目标人体以外的其他人或物。

可选地，所述获取至少两路待处理图像数据包括：

基于第一摄像头获取第一待处理图像数据，基于第二摄像头获取第二待处理图像数据；

对所述第一待处理图像数据和所述第二待处理图像数据进行数据融合处理生成所述待处理图像数据。

可选地，所述第一待处理图像数据用于指示骨骼节点信息，所述第二待处理图像数据用于指示行为速度信息；

所述对所述第一待处理图像数据和所述第二待处理图像数据进行融合处理生成所述待处理图像数据包括：

基于所述骨骼节点信息获取人体的人体结构特征向量；

基于所述行为速度信息获取人体的行为速度特征向量，所述行为速度特征向量包括加速度向量和角速度向量；

对所述人体结构特征向量、所述加速度向量和所述角速度向量进行数据融合处理生成所述待处理图像数据的第一特征向量。

可选地，所述骨骼节点信息包括关节角度信息和关节向量模值；

所述基于所述骨骼节点信息获取人体的人体结构特征向量包括：

获取使用频率超过第一设定频率阈值的第一关节角度信息和使用频率超过第二设定频率阈值的第一关节向量模值；

基于所述第一关节角度信息和所述第一关节向量模值生成所述人体结构特征向量。

可选地，所述基于所述至少两路待处理图像数据获取满足预设条件的关键帧包括：

基于所述第一特征向量获取满足预设条件的所述关键帧。

可选地，预设的人体交互行为识别模型的获取方式为：

获取历史图像数据和对应所述历史图像帧数据的人体交互行为作为样本集，基于所述样本集进行迭代训练生成所述预设的人体交互行为识别模型。

可选地，所述基于预设的人体交互行为识别模型对所述关键帧进行识别以生成目标人体的交互行为包括：

获取所述关键帧中的至少一个第一区域；

对所述第一区域进行对象分类处理以获取目标人体的第一信息和其他物体的第二信息；

采用预设的人体交互行为识别模型对所述第一信息和所述第二信息生成若干个人体交互行为；

计算各个人体交互行为的置信度；

选取所述置信度最高的人体交互行为作为所述目标人体的交互行为。

第二方面，本发明实施例提供了一种人体交互行为识别装置，包括：

第一获取模块，用于获取至少两路待处理图像数据；

第二获取模块，用于基于所述至少两路待处理图像数据获取满足预设条件的关键帧；

识别模块，用于基于预设的人体交互行为识别模型对所述关键帧进行识别以生成目标人体的交互行为；所述交互行为目标人体与其他物体的交互行为，所述其他物体包括除所述目标人体以外的其他人或物。

第三方面，本发明实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的人体交互行为识别方法的步骤。

第四方面，本发明实施例提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的人体交互行为识别方法的步骤。

本发明实施例中，基于至少两路待处理图像数据获取满足预设条件的关键帧，采用预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为，这样，可以识别目标人体与其他物体的交互行为，且通过多源数据可以使识别结果更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种人体交互行为识别方法的流程图；

图2是本发明实施例提供的人体25个骨骼节点的示意图；

图3是本发明实施例提供的挥手动作涉及的骨骼关节示意图。

图4是本发明实施例提供的基于预设的人体交互行为识别模型对关键帧进行识别的方法流程图；

图5是本发明实施例提供的人体交互行为识别装置的模块图；

图6是本发明实施例提供的一种电子设备的模块结构示意图；

图7是本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，提出了一种人体交互行为识别方法、装置、设备及可读存储介质，以解决现有无法对人体行为动作的交互对象进行识别，当需要识别人体与其他物体的交互行为时，识别的准确度较低的问题。

参见图1，图1是本发明实施例提供的一种人体交互行为识别方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101、获取至少两路待处理图像数据。

在该实施方式中，通过部署至少两路传感器获取了至少两路待处理图像数据，使获取的数据多源化，避免数据单一而影响识别精度。本实施方式中，以两路图像数据为例进行说明，其中，一路图像数据为人体和人体所处环境的图像数据，另一路图像数据为人体的图像数据。可变换地，在其他可行的实施例中，还可以获取三路或者更多源的数据，此处，仅作示例说明，不做限定。

步骤102、基于至少两路待处理图像数据获取满足预设条件的关键帧。

其中，通过获取关键帧，可以去除图像数据中的冗余数据，减小了计算量，进一步提升了识别速度。

步骤103、基于预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为；交互行为目标人体与其他物体的交互行为，其他物体包括除目标人体以外的其他人或物。

上述步骤，基于至少两路待处理图像数据获取满足预设条件的关键帧，采用预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为，这样，可以识别目标人体与其他物体的交互行为，且通过多源数据可以使识别结果更加准确。

在此，应当理解的是，本发明具体实施例的方法中，上述步骤101具体包括如下。

对第一待处理图像数据和第二待处理图像数据进行数据融合处理生成待处理图像数据。

在该实施方式中，第一传感器为kinect传感器，第二传感器为可穿戴设备，其中，在部署上述传感器时，将kinect传感器部署在人体所处的环境场所中，例如房间或者其他的室内或者室外场所。需要说明的是，由于kinect传感器的采集范围有限，因此，本实施例中所指的环境场所都为具有一定范围的环境场所。此外，由于人体的行为动作主要基于人体的例如腰部或者手臂等主要躯干，因此在部署可穿戴设备时，将其部署在该主要躯干上，例如，可以在人的手腕和腰部穿戴6轴姿态传感器，其中包括3轴加速度传感器及3轴角速度传感器。可选地，上述的传感器的部署方式仅作示例而不做限定，其具体部署方式可根据具体环境进行调整。

进一步地，对kinect传感器采集的第一图像数据和可佩戴设备采集的第二图像数据进行数据融合，可以得到融合更多特征的图像数据，能多方面体现图像数据的特征。

可选地，第一待处理图像数据用于指示骨骼节点信息，第二待处理图像数据用于指示行为速度信息；

上述的对第一待处理图像数据和第二待处理图像数据进行融合处理生成待处理图像数据包括：

基于骨骼节点信息获取目标人体的人体结构特征向量；

基于行为速度信息获取目标人体的行为速度特征向量，行为速度特征向量包括加速度向量和角速度向量；

对人体结构特征向量、加速度向量和角速度向量进行数据融合处理生成待处理图像数据的第一特征向量。

具体而言，kinect传感器采集人体的骨骼节点信息和视频流数据信息作为第一待处理图像数据，可穿戴设备采集人体姿态相应的行为速度信息作为第二待处理图像数据。

其中，如图2所示，人体的骨骼节点有若干个，本实施例中，以25个主要的关节点为例进行说明，从kinect传感器采集的每一帧图像中提取人体的25个骨骼节点，其中，该25个骨骼节点分别为头节点A，脖子节点B，肩脊节点M，左肩节点C，右肩节点D，左肘节点E，右肘节点F，脊柱中心点N，脊柱节点O，左腕节点G，右腕节点H，左手节点I，右手节点J，左手尖节点K，右手尖节点L，左拇指节点P，右拇指节点Q，左臀节点R，右臀节点S，左膝节点T，右膝节点U，左踝节点V，右踝节点W，左脚节点X，右脚节点Y。

选取人体的脊柱基节点0为坐标系的原点建立三维坐标。则，每一个骨骼节点在三维坐标系中都有一个对应的坐标(X，Y，Z)。例如，骨骼关节点A的坐标为(X_A，Y_A，Z_A)，则每一个骨骼关节点的向量为﹛(X_A，Y_A，Z_A),(X_B,Y_B,Z_B)…(X_O,Y_O,Z_O)﹜。通过获取人体的每一个骨骼节点的三维坐标可以获取人体的人体结构特征向量。

此外，本实施例中以在人的手腕和腰部穿戴6轴姿态传感器，其中包括3轴加速度传感器及3轴角速度传感器为例说明获取人体的行为速度特征向量的方式。需要说明的是，由于人体在做动作时，与动作关联的骨骼节点会产生相应的变化，动作相关肢体间的角度，关节点间的相对位置会发生改变。因此，人体在做动作时，佩戴的3轴加速度传感器及3轴角速度传感器会产生相应的加速度和角速度，其中，将3轴加速度传感器采集的加速度表示如下。

式中，

表示3轴加速度，a_x表示X轴的加速度，a_y表示Y轴的加速度，a_z表示Z轴的加速度。

3轴角速度传感器采集的角速度表示如下。

式中，

表示3轴角速度，ω_x表示X轴的角速度，ω_y表示Y轴的角速度，ω_z表示Z轴的角速度。

为更好地对采集的加速度和角速度进行分析，本实施例中，计算总加速度和总角速度的平均值构建6轴姿态传感器的特征向量作为人体的行为速度特征向量。其中，总加速度的平均值

的计算公式如下。

总角速度的平均值

的计算公式如下。

6轴姿态传感器的特征向量W的计算公式如下。

其中，对人体结构特征向量、加速度向量和角速度向量进行数据融合处理生成待处理图像数据的第一特征向量，可以从多方面体现待处理图像的特征，便于后续更多方面地对人体行为进行分析。

可选地，骨骼节点信息包括关节角度信息和关节向量模值；

基于骨骼节点信息获取人体的人体结构特征向量包括：

基于第一关节角度信息和第一关节向量模值生成人体结构特征向量。

需要说明的是，人体在进行行为动作时，实际上大部分都跟日常的习惯有关，且人体的日常动作涉及的骨骼关节点大多相同，因此，在该实施方式中，选取跟日常动作关联性较大的16个关节角度组成第一关节角度信息，并选取跟日常动作关联性较大的6个向量模值作为第一关节向量模值。例如，可以设定某一个关节角度日常使用频率为20次，则将使用频率超过20次的关节角度的信息作为第一关节角度信息。此处，对于某一个关节角度的使用频率的此处仅作示例，不做限定。可变换地，在其他可行的实施例中，还可以使用其他的频率阈值。

在该实施方式中，提取出跟日常动作关联性较大的16个关节角度，组成关节角度特征向量P，表示如下。

P＝(P_{Neck_ShoulderRight_ElbowRight}，P_{ShoulderRight_ElbowRight_WristRight}，P_{Neck_ShoulderLeft_ElbowLeft}，P_{ShoulderLeft_ElbowLeft_WristLeft},P_{Neck_ShoulderLeft_Spine,}P_{Neck_ShoulderLeft_Spine},P_{ShoulderRight_ElbowRight_Spine},P_{ShoulderLeft_ElbowLeft_Spine},P_{ElbowRight_WristRight_Spine},P_{ElbowLeft_WristLeft_Spine},P_{ShoulderRight_Spine_HipRight},P_{ShoulderLeft_Spine_HipLeft},P_{Spine_HipRight_KneeRight},P_{Spine_HipLeft_KneeLeft},P_{HipRight_KneeRight_FootRight},P_{HipLeft_KneeLeft_FootLeft})。

式中，P_{Neck_ShoulderRight_ElbowRight}表示脖子、肩膀右、肘右之间的关节角度，P_{ShoulderRight_ElbowRight_WristRight}表示肩右肘、肘右腕之间的关节角度，P_{Neck_ShoulderLeft_ElbowLeft}表示脖子、肩膀左、肘左之间的关节角度，P_{ShoulderLeft_ElbowLeft_WristLeft}表示左肩肘关节左腕腕之间的关节角度，P_{Neck_ShoulderLeft_Spine}表示颈肩左脊柱之间的关节角度，P_{Neck_ShoulderLeft_Spine}表示颈肩右脊柱之间的关节角度，P_{ShoulderRight_ElbowRight_Spine}表示右肩肘部脊柱之间的关节角度，P_{ShoulderLeft_ElbowLeft_Spine}表示左肩肘部脊柱之间的关节角度，P_{ElbowRight_WristRight_Spine}表示肘部右腕部脊柱之间的关节角度，P_{ElbowLeft_WristLeft_Spine}表示肘部左腕部脊柱之间的关节角度，P_{ShoulderRight_Spine_HipRight}表示右肩脊柱之间的关节角度，P_{ShoulderLeft_Spine_HipLeft}表示左肩脊柱之间的关节角度，P_{Spine_HipRight_KneeRight}表示脊柱、臀部左、膝盖右之间的关节角度，P_{Spine_HipLeft_KneeLeft}表示脊柱、臀部左、膝盖左之间的关节角度，P_{HipRight_KneeRight_FootRight}表示右脚脊柱之间的关节角度，P_{HipLeft_KneeLeft_FootLeft}表示左脚脊柱之间的关节角度。

在该实施方式中，以人体挥手为例说明获取关节角度特征向量的计算方式如下。

例如，图3中，挥手动作涉及骨骼关节点骨骼关节点D、骨骼关节点F和骨骼关节点H，涉及肢体向量

和肢体向量

其中，肢体向量

记为B_{ShoulderRight_ElbowRight}，肢体向量

记为B_{ElbowRight_WristRight}，该二者之间的夹角为α，对应的关节角度特征向量为P_{ShoulderRight_ElbowRight_WristRight}。则，其计算公式如下。

式中，a₁表示向量

的起始点F的X轴坐标与终点D的x轴坐标差值，b₁表示向量

的起始点F的Y轴坐标与终点D的x轴坐标差值，c₁表示向量

的起始点F的x轴坐标与终点D的Z轴坐标差值。

其中，设F点坐标为(x1,y1,z1),D点坐标为(x2,y2,z2),则向量

可表示为(x1-x2,y1-y2,z1-z2),这里a1＝x1-x2,b1＝y1-y2,c1＝z1-z2。

式中，a₂表示向量

的起始点F的X轴坐标与终点D的x轴坐标差值，b₂表示向量

的起始点F的Y轴坐标与终点D的x轴坐标差值，c₂表示向量

的起始点F的x轴坐标与终点D的Z轴坐标差值。

式中，

表示向量

的模值，

表示向量

的模值。

其中，该关节角度特征向量P_{ShoulderRight_ElbowRight_WristRight}为人体挥手时的关节角度特征向量。

此外，结合人体动作行为分析，提取出跟日常动作关联性较大的6个向量模值做为关节向量模值，其中，分别选取头部到双手、脊椎到双手、脊椎到双脚的人体结构向量。其中，头到右手的模值为例进行计算说明，其中，头到右手的向量模值计算公式如下。

式中，M_{Head＿HandRight}表示头到右手的向量模值。

进一步地，综合上述关节角度特征向量和关节向量模值组成人体结构特征向量，其表示公式如下。

V＝(P，M)。

式中，V表示22维人体关节角度特征向量，P表示节角度特征向量，M表示不同关节点模向量组成的特征向量。

具体而言，本实施方式中，选取了16个关节角度特征向量和6个关节向量模值组成22维的人体结构特征向量。可变换地，在其他可行的实施例中，还可以采用其他个数的关节角度特征向量和关节向量模值组成其他维度的人体结构特征向量。此处，仅作示例，不做限定，但不论其作何变换，都在本实施例保护的范围之内。

本实施方式中，将骨骼节点和传感器的特征向量组成融合数据特征向量F，则F可表示为F＝(V,W),24维向量，每个特征向量均有时间戳t，用来标记特征向量F时序如下：

F＝(P_{Neck_ShoulderRight_ElbowRight}，P_{ShoulderRight_ElbowRight_WristRight}，P_{Neck_ShoulderLeft_ElbowLeft}，P_{ShoulderLeft_ElbowLeft_WristLeft}，P_{Neck_ShoulderLeft_Spine}，P_{Neck_ShoulderLeft_Spine}，P_{ShoulderRight_ElbowRight_Spine}，P_{ShoulderLeft_ElbowLeft_Spine}，P_{ElbowRight_WristRight_Spine}，P_{ElbowLeft_WristLeft_Spine}，P_{ShoulderRight_Spine_HipRight}，P_{ShoulderLeft_Spine_HipLeft}P_{Spine_HipRight_KneeRight}，P_{Spine_HipLeft_KneeLeft}，P_{HipRight_KneeRight_FootRight}，P_{HipLeft_KneeLeft_FootLeft},M_{Head_HandRight}，M_{Head_HandLeft},M_{spine_HandRight},M_{Spine_HandLeft}，M_{Spine_FootLeft}，M_{Spine_FootRight}，

)。

可选地，基于至少两路待处理图像数据获取满足预设条件的关键帧包括：

基于第一特征向量获取满足预设条件的关键帧。

在该实施方式中，基于融合人体结构特征向量和人体的行为速度特征向量的第一特征向量获取关键帧，可以使得获取的关键帧更多维地体现人体的行为特征。

在该实施方式中，采用K-means提取待处理图像数据对应的图像的关键帧。具体而言，一段动作序列由N个帧组成，则可将N个帧S_N表示如下。

S_N＝{S₁,S₂,S₃，...，S_N},

Si为N帧图像中的第i帧，则第i帧的特征向量为F_i，其中，i取值为1…N。计算公式如下。

F_N＝{F₁,F₂,F₃,...,F_N}。

将向量F_N聚类划分成K个类别，由C_i(i＝1,2,...,K)表示，则产生聚类中心为C₁，C₂，…，C_K。基于每一个聚类中心进行聚类划分，其中，聚类划分的步骤如下。

对于每个人体行为特征样本i，计算其应该属于的状态类(时间戳不参与计算)：

式中，F表示24维融合特征向量。

对于每一个人体状态类j，重新计算该类的质心C_j：

式中，N表示帧数，d_i表示对于每一个样例i应该属于的类，j表示聚类后的一个类。

重复迭代上述两步，直到质心不变或者变化很小为止，此时获得K个类别视频关键帧,I＝{I₁，I₂，I₃，...，I_K}，提取该K个类别视频关键帧，并将提取的关键帧按照时间戳的先后顺序进行排序，以便后续基于该关键帧进行行为识别。在该实施方式中，基于关键帧进行人体行为交互识别，可以避免冗余的数据带来的复杂度，减小计算工作量，提高识别效率。

可选地，预设的人体交互行为识别模型的获取方式为：

获取历史图像数据和对应历史图像帧数据的人体交互行为作为样本集，基于样本集进行迭代训练生成预设的人体交互行为识别模型。

需要说明的是，人体交互行为识别模型的训练可以线下进行，也可以线上进行。为更好地进行说明，在该实施方式中，采用线下预先训练人体交互行为识别模型的方式。

例如，获取至少两路历史图像数据，对获取的两路历史图像数据按照上述方式进行数据融合处理，得到融合多源数据特征的图像数据，将该图像数据作为模型的输入，将该图像数据对应的人体交互行为作为输出，进行反复迭代训练至模型符合预设的收敛性。将符合预设收敛性的人体交互行为识别模型作为最终训练得到的预设人体交互行为识别模型。

如图4所示，可选地，基于预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为包括：

获取关键帧中的至少一个第一区域；

对第一区域进行对象分类处理以获取目标人体的第一信息和其他物体的第二信息；

采用预设的人体交互行为识别模型对第一信息和第二信息生成若干个人体交互行为；

计算各个人体交互行为的置信度；

选取置信度最高的人体交互行为作为目标人体的交互行为。

进一步地，基于上述提取的关键帧进行图像中的人和其他物体的关系检测和交互行为的识别。其中，其他物体可以是除目标人体以外的其他人或者其他物，即，与目标人体产生交互行为的一切对象。在该实施方式中，以物为例进行示例说明。其中，用一个以人为中心的三元组描述人与物的交互动作的关系。该三元组的表示形式可以为<人，动作，物体>。作为可变换的实施方式，还可以用其他形式的三元组描述人与物的关系，此处，仅作示例说明，不做限定。但不论其作何变换，都在本实施例保护的范围之内。

进一步地，在该实施方式中，采用Faster R-CNN(Towards Real-Time ObjectDetection with Region Proposal Networks，卷积神经网络)检测框架对上述提取的关键帧进行检测，得到若干个包括检测对象的第一区域，其中，该检测对象是指人和物。然后使用RoiAlign方法对第一区域进行特征提取，根据提取的特征对第一区域进行对象分类处理，得到若干个关于人体的边框信息和若干个关于物的边框，其中，将关于人体的边框信息作为第一信息，将关于物的信息作为第二信息。本实施方式中，将人记为b_h，将物记为b_o。且对于b_h和b_o都有对应类别的置信度s_h(b_h的类别置信度),s_o(b_o的类别置信度)。其中，置信度s_h指人体动作的置信度，置信度s_o指物的置信度。

例如，对第一信息中的每一个人b_h的动作a进行检测。对b_h使用RoiAlign方法进行提取特征，获取动作a的置信度s^a _h的计算公式如下。

s^a _h,a∈{a₁,a₂,...a_H}；

式中，a_H表示第H个动作。

进一步地，以人为中心进行交互对象的定位。本实施方式中，交互对象的确定依赖于人的位置，例如，从b_h提取特征，预测目标物体可能位置的分布。以高斯函数进行建模，目标物体可能位置的置信度g^a _h,o可表示为4-D高斯分布，该分布对目标物体相对于人的可能相对位置进行计算，计算公式如下所示。

式中，b_o|h表示bo相对于bh的编码坐标，

表示预测的目标物体位置，σ表示超参值。

式中，x_o和y_o分别表示人和物的X轴与Y轴的坐标，h表示第一区域的框高，w表示框宽。

根据人的特征向量，预测可能与之关联的目标物体位置。将预测得到的位置与上述获取的关于物的信息的第二信息进行匹配，获取到实际与人产生交互的物。

值得说明的是，与人产生交互的物可能有多个，在该实施方式中，将人、动作、每一个实际与人产生关联的物组成一个三元组，可以组成多个三元组。然后基于预设人体交互行为识别模型为每一个三元组分配一个三元组得分，即，计算每一个人与物交互行为的置信度，其中，每一个人与物交互行为的置信度的计算公式如下。

S^a _h,o＝s_h*s_o*s^a _h*g^a _h,o；

式中，S^a _h,o表示人与物交互行为的置信度，s^a _h表示动作a的置信度，g^a _h,o表示与动作a可能关联的物的置信度。

选择其中置信度最高的三元组作为最终的识别得到的人与物的交互行为。

本实施例中的人体交互行为识别方法，基于两路待处理图像数据获取满足预设条件的关键帧，采用预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为，这样，可以识别目标人体与其他物体的交互行为，且通过多源数据可以使识别结果更加准确。

参见图5。图5是本实施例提供的一种人体交互行为识别装置500，包括：

第一获取模块501，用于获取至少两路待处理图像数据；

第二获取模块502，用于基于所述至少两路待处理图像数据获取满足预设条件的关键帧；

识别模块503，用于基于预设的人体交互行为识别模型对所述关键帧进行识别以生成目标人体的交互行为；所述交互行为目标人体与其他物体的交互行为，所述其他物体包括除所述目标人体以外的其他人或物。

可选地，上述第一获取模块501包括：

第三获取模块，用于基于第一摄像头获取第一待处理图像数据，基于第二摄像头获取第二待处理图像数据；

第一融合模块，用于对所述第一待处理图像数据和所述第二待处理图像数据进行数据融合处理生成所述待处理图像数据。

所述第一融合模块包括：

第四获取模块，用于基于所述骨骼节点信息获取人体的人体结构特征向量；

第五获取模块，用于基于所述行为速度信息获取人体的行为速度特征向量，所述行为速度特征向量包括加速度向量和角速度向量；

第二融合模块，用于对所述人体结构特征向量、所述加速度向量和所述角速度向量进行数据融合处理生成所述待处理图像数据的第一特征向量。

所述第四获取模块包括：

第六获取模块，用于获取使用频率超过第一设定频率阈值的第一关节角度信息和使用频率超过第二设定频率阈值的第一关节向量模值；

第一生成模块，用于基于所述第一关节角度信息和所述第一关节向量模值生成所述人体结构特征向量。

可选地，所述第一获取模块501在获取时，基于所述第一特征向量获取满足预设条件的所述关键帧。

可选地，预设的人体交互行为识别模型的获取方式为：

可选地，所述识别模块503包括：

第七获取模块，用于获取所述关键帧中的至少一个第一区域；

处理模块，用于对所述第一区域进行对象分类处理以获取目标人体的第一信息和其他物体的第二信息；

第二生成模块，用于采用预设的人体交互行为识别模型对所述第一信息和所述第二信息生成若干个人体交互行为；

计算模块，用于计算各个人体交互行为的置信度；

选取模块，用于选取所述置信度最高的人体交互行为作为所述目标人体的交互行为。

本申请实施例中的人体交互行为识别装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的人体交互行为识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的人体交互行为识别装置能够实现图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601，存储器602，存储在存储器602上并可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器710用于：获取至少两路待处理图像数据；

可选地，所述获取至少两路待处理图像数据包括：

基于所述骨骼节点信息获取人体的人体结构特征向量；

基于所述第一特征向量获取满足预设条件的所述关键帧。

可选地，预设的人体交互行为识别模型的获取方式为：

获取所述关键帧中的至少一个第一区域；

计算各个人体交互行为的置信度；

选取所述置信度最高的人体交互行为作为所述目标人体的交互行为

在本申请实施例中，电子设备700，基于至少两路待处理图像数据获取满足预设条件的关键帧，采用预设的人体交互行为识别模型对关键帧进行识别以生成目标人体的交互行为，这样，可以识别目标人体与其他物体的交互行为，且通过多源数据可以使识别结果更加准确。

应理解的是，本申请实施例中，输入单元704可以包括图形处理器(GraphicsProcessing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板7061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板10071，也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器709可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图1至图4的人体交互行为识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种人体交互行为识别方法，其特征在于，包括：

获取至少两路待处理图像数据；

2.根据权利要求1所述的人体交互行为识别方法，其特征在于，所述获取至少两路待处理图像数据包括：

3.根据权利要求2所述的人体交互行为识别方法，其特征在于，所述第一待处理图像数据用于指示骨骼节点信息，所述第二待处理图像数据用于指示行为速度信息；

基于所述骨骼节点信息获取人体的人体结构特征向量；

4.根据权利要求3所述的人体交互行为识别方法，其特征在于，所述骨骼节点信息包括关节角度信息和关节向量模值；

5.根据权利要求3所述的人体交互行为识别方法，其特征在于，所述基于所述至少两路待处理图像数据获取满足预设条件的关键帧包括：

基于所述第一特征向量获取满足预设条件的所述关键帧。

6.根据权利要求1所述的人体交互行为识别方法，其特征在于，预设的人体交互行为识别模型的获取方式为：

7.根据权利要求1所述的人体交互行为识别方法，其特征在于，所述基于预设的人体交互行为识别模型对所述关键帧进行识别以生成目标人体的交互行为包括：

获取所述关键帧中的至少一个第一区域；

计算各个人体交互行为的置信度；

8.一种人体交互行为识别装置，其特征在于，包括：

第一获取模块，用于获取至少两路待处理图像数据；

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7中任一项所述的人体交互行为识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7中任一项所述的人体交互行为识别方法的步骤。