CN110633004B

CN110633004B - 基于人体姿态估计的交互方法、装置和系统

Info

Publication number: CN110633004B
Application number: CN201810646491.5A
Authority: CN
Inventors: 马良; 钟巧勇; 谢迪
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2023-05-26
Anticipated expiration: 2038-06-21
Also published as: CN110633004A

Abstract

本申请提供一种基于人体姿态估计的交互方法、装置和系统。本申请提供的基于人体姿态估计的交互方法，包括：对获取到的视频图像进行人体姿态估计，得到每帧图像中的各个人体目标和人体目标的人体关键点；对人体目标进行跟踪，得到人体目标的运动轨迹；将所述人体目标的运动轨迹输入到动作识别神经网络中，由所述动作识别神经网络对所述人体目标的运动轨迹进行识别；依据所述动作识别神经网络的输出结果做出交互回应动作。本申请提供的基于人体姿态估计的交互方法、装置和系统，可提供一种用户体验较高的交互方法。

Description

基于人体姿态估计的交互方法、装置和系统

技术领域

本申请涉及计算机技术，尤其涉及一种人体姿态估计的交互方法、装置和系统。

背景技术

随着计算机技术的飞速发展，各类电子设备应运而生。如何提供一种用户体验度高的人机交互方法成为目前关注的重点。

人体姿态估计，可从图像中检测出人体各部位位置、方向以及尺度信息。近年来，随着机器学习算法和硬件计算能力的不断提升，人体姿态估计可以实现实时的在线评估。目前，基于人体姿态估计，提出了一种交互方法，以代替传统的鼠标交互、键盘交互，为某些应用提供更为自然的交互方式，以提高用户体验。

相关的交互方法，常采用模板匹配法识别人体的动作行为，进而在识别出人体的动作行为时，对识别出的动作行为进行响应。这样，只能基于预设的模板进行动作行为的识别，识别准确率低，交互体验较低。

发明内容

有鉴于此，本申请提供一种基于人体姿态估计的交互方法、装置和系统，以提供一种交互体验较高的交互方法。

本申请第一方面提供一种基于人体姿态估计的交互方法，所述方法包括：

对获取到的视频图像进行人体姿态估计，得到每帧图像中的各个人体目标和所述人体目标的人体关键点；

对所述人体目标进行跟踪，得到所述人体目标的运动轨迹；其中，所述人体目标的运动轨迹包括所述人体目标的各个人体关键点的移动轨迹；

将所述人体目标的运动轨迹输入到动作识别神经网络中，由所述动作识别神经网络对所述人体目标的运动轨迹进行识别；

依据所述动作识别神经网络的输出结果做出交互回应动作。

本申请第二方面提供一种基于人体姿态估计的交互装置，所述装置包括：人体姿态估计模块、跟踪模块、动作识别模块和处理模块，其中，

所述人体姿态估计模块，用于对获取到的视频图像进行人体姿态估计，得到每帧图像中的各个人体目标和所述人体目标的人体关键点；

所述跟踪模块，用于对所述人体目标进行跟踪，得到所述人体目标的运动轨迹；其中，所述人体目标的运动轨迹包括所述人体目标的各个人体关键点的移动轨迹；

所述动作识别模块，用于将所述人体目标的运动轨迹输入到动作识别神经网络中，由所述动作识别神经网络对所述人体目标的运动轨迹进行识别；

所述处理模块，用于依据所述动作识别神经网络的输出结果做出交互回应动作。

本申请第三方面提供一种基于人体姿态估计的交互系统，所述系统包括图像采集设备和交互设备，其中，

所述图像采集设备，用于采集视频图像，并将采集到的视频图像传输给所述交互设备；

所述交互设备，用于：

依据所述动作识别神经网络的输出结果做出交互回应动作。

本申请提供的基于人体姿态估计的交互方法、装置和系统，通过对获取到的视频图像进行人体姿态估计，得到每帧图像中的各个人体目标和上述人体目标的人体关键点；进而对上述人体目标进行跟踪，得到上述人体目标的运动轨迹，并将上述人体目标的运动轨迹输入到动作识别神经网络中，由上述动作识别神经网络对所述人体目标的运动轨迹进行识别，进而依据上述动作识别神经网络的输出结果做出交互回应动作。这样，在做出交互回应动作时，依据动作识别神经网络的输出结果做出交互回应动作，由于动作识别神经网络的输出结果较准备，因此，做出的交互回应动作也较准确，用户体验较高。

附图说明

图1为本申请提供的基于人体姿态估计的交互方法实施例一的流程图；

图2为本申请一示例性实施例示出的人体关键点的定义方法的示意图；

图3为本申请一示例性实施例示出的确定出的人体目标的运动轨迹的示意图；

图4为本申请提供的基于人体姿态识别的交互方法实施例二的流程图；

图5为本申请一示例性实施例示出的基于人体姿态估计的交互装置所在交互设备的硬件结构图；

图6为本申请提供的基于人体姿态估计的交互装置实施例一的结构示意图；

图7为本申请一示例性实施例示出的基于人体姿态估计的交互系统的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提供一种基于人体姿态估计的交互方法、装置和系统，以提供一种用户体验较高的交互方法。

下面给出几个具体的实施例，用于详细介绍本申请的技术方案。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请提供的基于人体姿态估计的交互方法实施例一的流程图。请参照图1，本实施例提供的基于人体姿态估计的交互方法，可以包括：

S101、对获取到的视频图像进行人体姿态估计，得到每帧图像中的各个人体目标和上述人体目标的人体关键点。

可选地，在本申请一可能的实现方式中，上述视频图像可以通过单目摄像机采集获得。

需要说明的是，人体目标的人体关键点指预先定义的一组用于表述人体姿态的关键点。

具体实现时，对于视频图像中的每帧图像，可采用人体姿态识别网络进行人体姿态估计，以得到每帧图像中的各个人体目标和各个人体目标的人体关键点。即可将视频图像中的每帧图像输入到人体姿态识别网络中，由上述人体姿态识别网络输出各个人体目标的矩形框和各个人体目标的关键点位置。

需要说明的是，人体目标的关键点的位置可以用二维位置信息表示，也可以用三维位置信息表示，本实施例中，不对此做出限定。

进一步的，可采用相关方法来预先训练该人体姿态识别网络，例如，在一可能的实现方式中，可按照如下方法来预先训练该人体姿态识别网络：

(1)构建神经网络，该神经网络的输入为一帧图像，输出为该帧图像中的各个人体目标和上述人体目标的人体关键点。

例如，在一实施例中，构建的神经网络为Mask R-CNN网络，有关Mask R-CNN网络的网络结构可以参见现有技术中的描述，此处不再赘述。

(2)获取包含人体目标的样本图像，上述样本图像上还标记有包含人体目标的矩形框和每个人体目标的人体关键点。

具体的，例如，可采集大量的在不同视角下拍摄的交互场景的图片，并将这些图片保持宽高比缩放至同样高度(例如，600个像素)，进而人工标注包含人体目标的矩形框，并对每个人体目标标注出预先定义的人体关键点。

需要说明的是，人体关键点的定义方法与交互应用有关，本实施中，不对人体关键点的定义方法进行限定。例如，图2为本申请一示例性实施例示出的人体关键点的定义方法的示意图，请参照图2，在图2所示的定义方法中，手部包括21个人体关键点，躯干包括18个人体关键点，人体目标共有60个人体关键点，其中60＝18+2*21＝60。

(3)利用上述训练集训练上述神经网络，得到上述人体姿态识别网络。

具体的，本实施中，网络训练采用反向传播算法，网络参数梯度的计算采用随机梯度下降法，特征提取采用在Imagenet上预训练的模型，例如，特征提取采用在Imagenet上预训练的ResNet模型。此外，采用Softmaxloss计算分类误差(人体目标、非人体目标的二分类)，采用SmoothL1loss计算矩形框回归误差，采用Softmaxloss计算每个人体关键点的位置误差，迭代进行这一过程直到满足平均误差不再下降为止。

S102、对上述人体目标进行跟踪，得到上述人体目标的运动轨迹；其中，上述人体目标的运动轨迹包括上述人体目标的各个人体关键点的移动轨迹。

具体的，在本申请一可能的实现方式中，可将多帧视频图像叠加在一起，以提取上述人体目标的各个人体关键点的移动轨迹，进而得到该人体目标的运动轨迹。

可选地，在本申请一可能的实现方式中，本步骤的具体实现过程，可以包括：

(1)依据每帧图像中的人体目标的人体关键点和预设的人体骨骼确定规则，确定每帧图像中的人体目标的人体骨骼，并将每帧图像中的人体目标、该人体目标的人体关键点以及该人体目标的人体骨骼作为人体骨架存储。

具体的，预设的人体骨骼确定规则是根据实际需要设定的，本实施例中，不对预设的人体骨骼确定规则进行限定。例如，图2还示出了一种人体骨骼确定规则，请参照图2，在图2所示示例中，将人体关键点1和2连接在一起，确定为一段人体骨骼，……，将人体关键点19和20连接在一起，确定为一段人体骨骼。此外，本步骤中，当确定了每帧图像中的人体目标的人体骨骼后，将每帧图像中的人体目标、该人体目标的人体关键点以及该人体目标的人体骨骼作为人体骨架存储。

(2)将当前帧中的人体目标的人体骨架与已存储的人体骨架进行匹配，确定与当前帧的人体骨架匹配的目标人体骨架。

具体的，该步骤的具体实现过程，可以包括：

1、按照预设的公式计算当前帧的人体骨架和已存储的人体骨架的相似度。

具体的，预设的公式为：

C_ij＝αC_kpt+βC_limb+γC_bbox

其中，C_ij为当前帧中的第i个人体骨架和已存储的第j个人体骨架的相似度；C_kpt为当前帧的人体骨架和预存的人体骨架的每个对应的人体关键点的欧式距离的平均值；C_limb为当前帧的人体骨架和预存的人体骨架的每个对应的人体骨骼的长度的平均值；C_bbox为当前帧的人体骨架和预存的人体骨架的人体目标(即矩形框)的重叠率；α,β,γ为常数。其中，C_bbox＝a/(b-a)，其中，a为当前帧的人体骨架和预存的人体骨架的人体目标的重叠部分的面积；b为当前帧的人体骨架的人体目标的面积和预存的人体骨架的人体目标的面积的和。

2、依据当前帧的人体骨架与各个预存的人体骨架的相似度，采用Munkres算法，确定与当前帧的人体骨架匹配的目标人体骨架。

有关Munkres算法的具体实现原理可以参见现有技术中的描述，此处不再赘述。需要说明的是，通过Munkres算法，可从多个预存的人体骨架中，找出与当前帧的人体骨架匹配的目标人体骨架。例如，在一实施例中，共有m个预存的人体骨架，当前帧中有n个人体骨架，此时，经计算，得到相似度矩阵Ck(m行n列)，其中，

此时，采用Munkres算法计算最优匹配，即可得到当前帧中的人体骨架与已存储的人体骨架的匹配关系，得到与当前帧的人体骨架匹配的目标人体骨架。/>

(3)根据当前帧中的人体目标的人体骨架和上述目标人体骨架，得到该人体目标的运动轨迹。

具体的，可根据当前帧中的人体目标的人体关键点和目标人体骨架的人体关键点，得到各个人体关键点的移动轨迹，进而得到该人体目标的运动轨迹。例如，图3为本申请一示例性实施例示出的确定出的人体目标的运动轨迹的示意图。请参照图3，人体目标的运动轨迹包括该人体目标的各个人体关键点的移动轨迹。

可选地，在一种可能的实现方式中，所述确定与当前帧的人体骨架匹配的目标人体骨之后，所述方法还包括：

对所述目标人体骨架进行滤波处理。

例如，可采用Kalman算法对目标人体骨架进行滤波处理。

本实施例提供的方法，通过对目标人体骨架进行滤波处理，这样，在后续的匹配过程中，可提高匹配的准确性。

S103、将上述人体目标的运动轨迹输入到动作识别神经网络中，由上述动作识别神经网络对上述人体目标的运动轨迹进行识别。

S104、依据上述动作识别神经网络的输出结果做出交互回应动作。

具体的，例如，一实施例中，动作识别神经网络的输出结果为人体目标的运动轨迹所属的动作类别。此时，经过步骤S103，可得到人体目标的运动轨迹所属的动作类别。进一步的，本步骤中，可依据预设的回应策略做出交互回应动作。例如，依据预设的动作类别与回应动作的对应关系，以及得到的人体目标的运动轨迹所属的动作类别，做出与得到的人体目标的运动轨迹所属的动作类别对应的回应动作。

本实施例提供的基于人体姿态估计的交互方法，通过对获取到的视频图像进行人体姿态估计，得到每帧图像中的各个人体目标和上述人体目标的人体关键点；进而对上述人体目标进行跟踪，得到上述人体目标的运动轨迹，并将上述人体目标的运动轨迹输入到动作识别神经网络中，由上述动作识别神经网络对所述人体目标的运动轨迹进行识别，进而依据上述动作识别神经网络的输出结果做出交互回应动作。这样，在做出交互回应动作时，依据动作识别神经网络的输出结果做出交互回应动作，由于动作识别神经网络的输出结果较准备，因此，做出的交互回应动作也较准确，用户体验较高。

可选地，在本申请一可能的实现方式中，所述动作识别神经网络的输出结果包括所述人体目标的动作行为属于各动作类别的概率，以及当前帧图像为所述人体目标的动作开始帧的概率和当前帧图像为所述人体目标的动作结束帧的概率。

下面先简单介绍一下该动作识别神经网络的获得方法。具体的，该动作识别神经网络通过以下方式训练得到：

(1)构建神经网络，上述神经网络的输入为人体目标的运动轨迹，输出为该人体目标的动作行为属于各动作类别的概率，以及当前帧图像为该人体目标的动作开始帧的概率和当前帧图像为该人体目标的动作结束帧的概率；

具体的，一实施例中，构建的神经网络可以为Faster R-CNN网络，有关Mask R-CNN网络的网络结构可以参见现有技术中的描述，此处不再赘述。需要说明的是，本实施例中，构建的Faster R-CNN网络中，RPN为时间RPN，即从T帧运动轨迹中选择连续的w帧生成建议窗口，并利用该建议窗口w内的运动轨迹，采用RCNN进行动作识别。其中，时间RPN可以理解为是对T帧运动轨迹的密集采样，采样窗尺寸为w。

(2)获取训练样本集；每个训练样本包括人体目标的运动轨迹、该人体目标的运动轨迹对应的动作行为所属的动作类别、以及该人体目标的运动轨迹对应的各帧视频图像为动作开始帧的概率和该人体目标的运动轨迹对应的各帧视频图像为动作结束帧的概率。

具体的，例如，可采集大量的在不同视角下拍摄的单人进行交互场景的视频，并利用如步骤S101和S102中所述的方法获取该视频内的运动轨迹，以及人工标注该视频内的各个动作行为的动作类别，以及各个动作行为对应的各帧图像为动作开始帧的概率和各个动作行为对应的各帧图像为动作结束帧的概率，进而得到人体目标的运动轨迹，该人体目标的运动轨迹对应的动作行为所属的动作类别、以及该人体目标的运动轨迹对应的各帧视频图像为动作开始帧的概率和该人体目标的运动轨迹对应的各帧视频图像为动作结束帧的概率，并将其作为一个训练样本。

(3)利用上述训练样本集训练上述神经网络，得到上述神经网络。

具体的，网络训练采用反向传播算法，网络参数梯度的计算采用随机梯度下降法，特征提取采用简单的神经网络。进一步地，针对建议窗口w内的每一帧，采用Softmaxloss计算该帧为动作开始帧和动作结束帧的分类误差(例如，三种动作状态分类：起始、结束和其他)，采用Softmaxloss计算动作类别误差(例如，C+1分类：共有C个预先定义的动作类别和1个“其他”动作类别，其中，“其他”动作类别代表没有预先定义的动作类别)，迭代进行这一过程直到满足平均误差不再下降为止。

进一步的，当将一个人体目标的运动轨迹输入到动作识别神经网络中时，该神经网络会输出该人体目标的动作行为属于各动作类别的概率、以及当前帧图像为该人体目标的动作开始帧的概率和当前帧图像为该人体目标的动作结束帧的概率。例如，在一实施例中，该动作识别神经网络共有5个预先定义的动作类别和1个“其他”动作类别，这5个预先定义的动作类别分别为挥手，抱拳，敬礼，双手合十，双手比心。进一步的，例如，在一实施例中，当向该动作识别神经网络输入一个人体目标的运动轨迹时，该动作识别神经网络输出的概率向量为[0.1，0.0，0.0，0.8，0.1，0.0]，分别代表[其他,挥手，抱拳，敬礼，双手合十，双手比心]对应的概率，且该神经网络输出的当前帧为该人体目标的动作开始帧的概率为0.7，当前帧图像为该人体目标的动作结束帧的概率为0.1。

进一步地，本实施例中，可按照如下方式做出交互回应动作：

例如，在一实施例中，可比较所有的人体目标的动作行为属于各动作类别的概率，将最大概率对应的第一人体目标确定为待响应的人体目标，并将最大概率对应的第一动作类别确定为待响应的动作类别，进而在当前帧图像为上述第一人体目标的动作结束帧的概率大于第二预设阈值时，作出与上述第一动作类别对应的第一交互回应动作。

需要说明的是，各动作类别对应的交互回应动作是预先设定好的，本实施例中，不对此做出限定。此外，第二预设阈值是根据实际需要设定时，例如，将第二预设阈值设定为0.8，即在当前帧图像为上述第一人体目标的动作结束帧的概率大于0.8时，认为当前帧图像为第一人体目标的动作结束帧，此时，做出与第一动作类别对应的第一交互回应动作。

结合上面的例子，即动作识别神经网络共有5个预先定义的动作类别，这5个预先定义的动作类别分别为挥手，抱拳，敬礼，双手合十，双手比心。例如，在一实施例中，视频图像中仅有一个人体目标(记为人体目标A)，动作识别神经网络输出的概率向量为[0.1，0.0，0.0，0.8，0.1，0.0]，且该动作识别神经网络输出的当前帧图像为该人体目标的动作开始帧的概率为0.7，当前帧图像为该人体目标的动作结束帧的概率为0.1。此时，经比较，确定待响应的人体目标为人体目标A，待响应的动作类别为敬礼(0.8对应的动作类别为敬礼)，此时，当前帧图像为该人体目标的动作结束帧的概率小于第二预设阈值，不作出交互回应动作，而是等待，等当前帧图像为该人体目标的动作结束帧的概率大于第二预设阈值时，作出与敬礼对应的交互回应动作。

再例如，在另一实施例中，视频图像中有两个人体目标，分别记为人体目标A和人体目标B，对于人体目标A，动作神经网络输出的概率向量为[0.0，0.9，0.1，0.0，0.0，0.0]，且该动作识别神经网络输出的当前帧图像为人体目标的动作开始帧的概率为0.1，当前帧图像为人体目标A的动作结束帧的概率为0.9。进一步地，对于人体目标B，动作神经网络输出的概率向量为[0.1，0.7，0.1，0.0，0.1，0.0]，且该动作识别神经网络输出的当前帧图像为人体目标的动作开始帧的概率为0.1，当前帧图像为人体目标A的动作结束帧的概率为0.3。此时，经比较，确定人体目标A为待响应的人体目标，并确定挥手为待响应的动作类别，进一步地，本例中，当前帧图像为人体目标A的动作结束帧的概率(0.9)大于第二预设阈值，此时，做出与挥手对应的交互回应动作。

本实施例提供的基于人体姿态估计的交互方法，动作识别神经网络的输出结果包括人体目标的动作行为属于各动作类别的概率，以及当前帧图像为所述人体目标的动作开始帧的概率和当前帧图像为所述人体目标的动作结束帧的概率。这样，在做出交互回应动作时，依据这些做出交互回应动作，灵敏度较高，用户体验较高。

图4为本申请提供的基于人体姿态识别的交互方法实施例二的流程图。在上述实施例的基础上，本实施例提供的方法，步骤S104，可以包括：

S401、比较所有人体目标的动作行为属于各动作类别的概率，将最大概率对应的第一人体目标确定为待响应的人体目标，并将最大概率对应的第一动作类别确定为待响应的动作类别。

有关该步骤的具体实现过程及实现原理可以参见前面实施例中的介绍，此处不再赘述。

S402、在上述第一动作类别表征人体目标的动作行为为持续性动作时，在当前帧图像为上述第一人体目标的动作开始帧的概率大于第一预设阈值时，作出与上述第一动作类别对应的第一交互回应动作，并在当前帧图像为上述第一人体目标的动作结束帧的概率大于第二预设阈值时，停止作出上述第一交互回应动作。

S403、当上述第一动作类别表征人体目标的动作行为为短暂性动作时，在当前帧图像为上述第一人体目标的动作开始帧的概率大于上述第一预设阈值之后，等待当前帧图像为所述第一人体目标的动作结束帧的概率大于上述第二预设阈值时，作出上述第一交互回应动作。

本实施例中，动作类别可表征人体目标的动作行为为持续性动作还是短暂性动作。例如，本例中，挥手和敬礼表征人体目标的动作行为为持续性动作，抱拳、双手合十、双手比心表征人体目标的动作行为为短暂性动作。

需要说明的是，第一预设阈值和第二预设阈值是根据实际需要设定，第一预设阈值和第二预设阈值可以相同，也可以不同。本例中，以第一预设阈值和第二预设阈值均为0.8为例进行说明。

进一步的，本实施例提供的方法，在对第一动作类别进行响应时，依据第一动作类别表征人体目标的动作行为为持续性动作还是短暂性动作，在不同的时刻做出响应，当第一动作类别表征人体目标的动作行为为持续性动作时，在当前帧图像为第一人体目标的动作开始帧的概率大于第一预设阈值时，即确定当前帧图像为第一人体目标的动作开始帧时，作出与上述第一动作类别对应的第一交互回应动作，并在当前帧图像为第一人体目标的动作结束帧的概率大于第二预设阈值时，即当前帧图像为第一人体目标的动作结束帧时，停止作出上述第一交互回应动作。而在第一动作类别表征人体目标的动作行为为短暂性动作时，在当前帧图像为上述第一人体目标的动作开始帧的概率大于上述第一预设阈值时，不作出第一交互回应动作，而是等待当前帧图像为上述第一人体目标的动作结束帧的概率大于上述第二预设阈值时，作出第一交互回应动作。这样，可提高交互的灵敏度和灵活性。

本实施例提供基于人体姿态估计的交互方法，通过上述方法作出交互回应动作，这样，能够进一步提高交互的灵敏度和灵活性，为多种交互场景提供良好的基础，可进一步提高用户体验。

与前述基于人体姿态估计的交互方法的实施例相对应，本申请还提供了基于人体姿态估计的交互装置的实施例。

本申请基于人体姿态估计的交互装置的实施例可以应用在交互设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本申请一示例性实施例示出的基于人体姿态估计的交互装置所在交互设备的硬件结构图，除了图5所示的存储器510、处理器520，内存530之外，实施例中装置所在的交互设备通常根据该基于人体姿态估计的交互装置的实际功能，还可以包括其他硬件，对此不再赘述。

图6为本申请提供的基于人体姿态估计的交互装置实施例一的结构示意图。请参照图6，本实施例提供的装置，包括：人体姿态估计模块610、跟踪模块620、动作识别模块630和处理模块640，其中，

所述人体姿态估计模块610，用于对获取到的视频图像进行人体姿态估计，得到每帧图像中的各个人体目标和所述人体目标的人体关键点；

所述跟踪模块620，用于对所述人体目标进行跟踪，得到所述人体目标的运动轨迹；其中，所述人体目标的运动轨迹包括所述人体目标的各个人体关键点的移动轨迹；

所述动作识别模块630，用于将所述人体目标的运动轨迹输入到动作识别神经网络中，由所述动作识别神经网络对所述人体目标的运动轨迹进行识别；

所述处理模块640，用于依据所述动作识别神经网络的输出结果做出交互回应动作。

本实施例提供的装置，可用于执行图1所示的技术方案，其实现原理和技术效果类似，此处不再赘述。

进一步地，所述动作识别神经网络的输出结果包括所述人体目标的动作行为属于各动作类别的概率，以及当前帧图像为所述人体目标的动作开始帧的概率和当前帧图像为所述人体目标的动作结束帧的概率。

进一步地，所述处理模块640，具体用于：

比较所有人体目标的动作行为属于各动作类别的概率，将最大概率对应的第一人体目标确定为待响应的人体目标，并将最大概率对应的第一动作类别确定为待响应的动作类别；

在所述第一动作类别表征人体目标的动作行为为持续性动作时，在当前帧图像为所述第一人体目标的动作开始帧的概率大于第一预设阈值时，作出与所述第一动作类别对应的第一交互回应动作，并在当前帧图像为所述第一人体目标的动作结束帧的概率大于第二预设阈值时，停止作出所述第一交互回应动作；

当所述第一动作类别表征人体目标的动作行为为短暂性动作时，在当前帧图像为所述第一人体目标的动作开始帧的概率大于所述第一预设阈值之后，等待当前帧图像为所述第一人体目标的动作结束帧的概率大于所述第二预设阈值时，作出所述第一交互回应动作。

进一步地，所述跟踪模块620，具体用于：

依据每帧图像中的人体目标的人体关键点和预设的人体骨骼确定规则，确定每帧图像中的人体目标的人体骨骼，并将每帧图像中的人体目标、该人体目标的人体关键点以及该人体目标的人体骨骼作为人体骨架存储；

将当前帧中的人体目标的人体骨架与已存储的人体骨架进行匹配，确定与当前帧的人体骨架匹配的目标人体骨架；

根据当前帧中的人体目标的人体骨架和所述目标人体骨架，得到该人体目标的运动轨迹。

进一步地，所述跟踪模块620，具体用于：

按照预设的公式计算当前帧的人体骨架和已存储的人体骨架的相似度；

依据当前帧的人体骨架与各个预存的人体骨架的相似度，采用Munkres算法，确定与当前帧的人体骨架匹配的目标人体骨架。

进一步的，所述动作识别神经网络通过以下方法训练得到：

构建神经网络；所述神经网络的输入为人体目标的运动轨迹，输出为该人体目标的动作行为属于各动作类别的概率，以及当前帧图像为该人体目标的动作开始帧的概率和当前帧图像为该人体目标的动作结束帧的概率；

获取训练样本集；每个训练样本包括人体目标的运动轨迹、该人体目标的运动轨迹对应的动作行为所属的动作类别、以及该人体目标的运动轨迹对应的各帧视频图像为动作开始帧的概率和该人体目标的运动轨迹对应的各帧视频图像为动作结束帧的概率；

利用所述训练样本集训练所述神经网络，得到所述动作识别神经网络。

进一步地，所述视频图像通过单目摄像机采集获得。

进一步地，所述处理模块640，还用于对所述目标人体骨架进行滤波处理。

图7为本申请一示例性实施例示出的基于人体姿态估计的交互系统的示意图。请参照图7，本实施例提供的基于人体姿态估计的交互系统，包括图像采集设备1和交互设备2，其中，

所述图像采集设备1，用于采集视频图像，并将采集到的视频图像传输给所述交互设备；

所述交互设备2，用于：

依据所述动作识别神经网络的输出结果做出交互回应动作。

具体的，图像采集设备和交互设备可以为相互独立的设备，也可以集成在一个设备中，本实施例中，不对此做出限定。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于人体姿态估计的交互方法，其特征在于，所述方法包括：

将所述人体目标的运动轨迹输入到动作识别神经网络中，由所述动作识别神经网络对所述人体目标的运动轨迹进行识别；所述动作识别神经网络的输出结果包括所述人体目标的动作行为属于各动作类别的概率，以及当前帧图像为所述人体目标的动作开始帧的概率和当前帧图像为所述人体目标的动作结束帧的概率；

比较所有的人体目标的动作行为属于各动作类别的概率，将最大概率对应的第一人体目标确定为待响应的人体目标，并将最大概率对应的第一动作类别确定为待响应的动作类别；

当所述第一动作类别表征人体目标的动作行为为持续性动作时，在当前帧图像为所述第一人体目标的动作开始帧的概率大于第一预设阈值时，作出与所述第一动作类别对应的第一交互回应动作，并在当前帧图像为所述第一人体目标的动作结束帧的概率大于第二预设阈值时，停止作出所述第一交互回应动作；

2.根据权利要求1所述的方法，其特征在于，所述对所述人体目标进行跟踪，得到所述人体目标的运动轨迹，包括：

3.根据权利要求2所述的方法，其特征在于，所述将当前帧的人体骨架与已存储的人体骨架进行匹配，确定与当前帧的人体骨架匹配的目标人体骨架，包括：

4.根据权利要求1所述的方法，其特征在于，所述动作识别神经网络通过以下方法训练得到：

5.根据权利要求1所述的方法，其特征在于，所述视频图像通过单目摄像机采集获得。

6.一种基于人体姿态估计的交互装置，其特征在于，所述装置包括：人体姿态估计模块、跟踪模块、动作识别模块和处理模块，其中，

所述动作识别模块，用于将所述人体目标的运动轨迹输入到动作识别神经网络中，由所述动作识别神经网络对所述人体目标的运动轨迹进行识别；所述动作识别神经网络的输出结果包括所述人体目标的动作行为属于各动作类别的概率，以及当前帧图像为所述人体目标的动作开始帧的概率和当前帧图像为所述人体目标的动作结束帧的概率；

所述处理模块，用于比较所有人体目标的动作行为属于各动作类别的概率，将最大概率对应的第一人体目标确定为待响应的人体目标，并将最大概率对应的第一动作类别确定为待响应的动作类别；

7.根据权利要求6所述的装置，其特征在于，所述跟踪模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述跟踪模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述动作识别神经网络通过以下方法训练得到：

10.根据权利要求6所述的装置，其特征在于，所述视频图像通过单目摄像机采集获得。

11.一种基于人体姿态估计的交互系统，其特征在于，所述系统包括图像采集设备和交互设备，其中，

所述交互设备，用于：