CN110163046B

CN110163046B - 人体姿态识别方法、装置、服务器及存储介质

Info

Publication number: CN110163046B
Application number: CN201810627611.7A
Authority: CN
Inventors: 卢策吾
Original assignee: Shanghai Jiaotong University; Tencent Technology Shenzhen Co Ltd
Current assignee: Shanghai Jiaotong University; Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2023-09-19
Anticipated expiration: 2038-06-19
Also published as: CN110163046A

Abstract

本发明公开了一种人体姿态识别方法、装置、服务器及存储介质，属于图像处理技术领域。所述方法包括：从待识别图像中，获取至少一张单人体图像；将每张单人体图像输入到策略网络中，输出每张单人体图像上的可见人体区域和无效区域；根据每张单人体图像上的可见人体区域，对每张单人体图像中的人体姿态进行识别。本发明从待识别图像上获取每个人的单人体图像后，基于策略网络区分出每张单人体图像上的可见人体区域和无效区域，进而基于可见人体区域进行人体姿态识别。由于可区分出单人体图像中的可见人体区域和无效区域，因而在存在遮挡物和复杂背景情况下，也能够识别出单人体图像中的人体姿态。

Description

人体姿态识别方法、装置、服务器及存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种人体姿态识别方法、装置、服务器及存储介质。

背景技术

一般来说，人体姿态是指人体外在形态的基本表现形式，包括走路、跑步、跳跃、坐立、下蹲等。人体姿态识别的主要目的在于，通过对图像中人的关节点进行检测，识别出图像中人的人体姿态，从而根据所识别出的人体姿态，对图像中人的动作行为进行监控。人体姿态识别在现实生活中具有广泛的应用场景，包括智能监控、人机交互、动作分析、虚拟现实等场景。例如，通过视频监控系统对视频中人的人体姿态进行识别，能够及时发现可疑行人，从而确保公共场所安全。

相关技术提供的人体姿态识别方法为：从待识别图像中，获取至少一张单人体图像，并确定出单人体图像中每个人所在的位置区域，然后从每个位置区域内检测出人体的关节点，进而根据检测出的人体的关节点，对每张单人体图像中的人体姿态进行识别。

然而，上述方法仅应用于单人体图像不被遮挡物遮挡且背景较为简单的场景，对于存在遮挡物遮挡或背景复杂的场景，目前还无法识别出单人体图像中的人体姿态，因此，亟需提供一种新的人体姿态识别方法。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种人体姿态识别方法、装置、服务器及存储介质。所述技术方案如下：

一方面，提供了一种人体姿态识别方法，所述方法包括：

从待识别图像中，获取至少一张单人体图像；

将每张单人体图像输入到策略网络中，输出每张单人体图像上的可见人体区域和无效区域，所述无效区域包括遮挡物区域和背景区域；

根据每张单人体图像上的可见人体区域，对每张单人体图像中的人体姿态进行识别；

其中，所述策略网络用于确定单人体图像上的无效区域，并根据所确定的无效区域确定可见人体区域。

另一方面，提供了一种人体姿态识别装置，所述装置包括：

获取模块，用于从待识别图像中，获取至少一张单人体图像；

处理模块，用于将每张单人体图像输入到策略网络中，输出每张单人体图像上的可见人体区域和无效区域，所述无效区域包括遮挡物区域和背景区域；

识别模块，用于根据每张单人体图像上的可见人体区域，对每张单人体图像中的人体姿态进行识别；

另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现人体姿态识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现人体姿态识别方法。

本发明实施例提供的技术方案带来的有益效果是至少包括：

从待识别图像上获取每个人的单人体图像后，基于策略网络区分出每张单人体图像上的可见人体区域和无效区域，进而基于可见人体区域进行人体姿态识别。由于可区分出单人体图像中的可见人体区域和无效区域，因而在存在遮挡物和复杂背景情况下，也能够识别出单人体图像中的人体姿态。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的人体姿态识别方法所涉及的实施环境；

图2是本发明实施例提供的一种策略网络的训练方法的流程图；

图3是本发明实施例提供的一种超像素区间的示意图；

图4是本发明实施例提供的一种第二训练样本图像的示意图；

图5是本发明实施例提供的一种第二训练样本图像的示意图；

图6是本发明实施例提供的一种第二训练样本图像的示意图；

图7是本发明实施例提供的一种第二训练样本图像的示意图；

图8是本发明实施例提供的人体姿态识别方法的流程图；

图9是本发明实施例提供的一种人体姿态识别装置的示意图；

图10是根据一示例性实施例示出的一种用于人体姿态识别的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

人体姿态是人类生存和生活的基本组成形态，人体姿态中包括丰富的信息，基于人体姿态能够有效辨析人体的动态变化过程，为其他智能化应用提供依据，从而提高和改善人们的生活质量。随着人工智能技术和图像处理技术的发展，人体姿态识别广泛应用于生活中方方面面，包括人机交互、动作分析、虚拟现实等方面。下面将针对于上述几个应用领域进行简单介绍。

人机交互方面

随着人工智能技术的发展，基于人体姿态的人机交互方式逐渐受到越来越多用户的青睐。该种交互形式无需键盘、鼠标或遥控器的设备，通过捕捉用户的人体姿态，并将捕捉的人体姿态转换为相应的操作指令，即可进行人机交互，相对现有的接触式交互，操作起来更便捷，用户体验效果更佳。

动作分析方面

在动作分析方面，通过对人体姿态进行识别，一方面可实现对用户动作行为的预判，从而对用户的危险动作提前进行预警，例如，通过对老人、儿童的人体姿态进行识别，可预防老人、儿童摔倒；另一方面，可提高用户的人体性能，例如，在竞技体育中，通过对运动员的人体姿态进行识别，可对运动员的动作进行校正，提升运动员的竞技能力。

虚拟现实方面

以各种电脑游戏为例，通过对人体姿态进行分析，使得游戏中人体更加真实化，所发生动作更加自然流畅。且通过人体姿态进行识别，可获取实际中的各种人体姿态数据，从而应用于游戏的开发及设计过程中。除了应用于游戏中，人体姿态识别在视频会议、人物动画、虚拟工作室等等方面也有很好的应用。

当前在进行人体姿态识别时，主要采用两类识别方式，一种是自底向上的识别方式，另一种是自顶向下的识别方式。

其中，自底向上的识别方式是指首先检测出图像中的所有关节点，然后将这些关节点组合成整体的识别方式。

自顶向下的识别方式是指首先检测出图像中每张单人体图像，然后识别出每张单人体图像的人体姿态的识别方式。

采用自底向上的识别方式进行人体姿态识别时，虽然可以检测出图像中的各个关节点，但在对关节点进行整合时，存在较大的误差，特别是在图像上各个人相互遮挡较大时误差更大，影响了识别结果的准确性。采用自顶向下的方式进行人体姿态识别时，主要基于传统的非深度学习方法，该种方式虽然不需要对关节点进行整合，但对遮挡物遮挡及背景的抗性较差，在存在遮挡物遮挡或者复杂背景的情况下，无法识别出人体姿态。

为了解决相关技术中存在的问题，本发明实施例提供了一种人体姿态识别方法，该方法创新性地将深度学习方法应用于自顶下向下的识别方式中，并设计了一种回报函数，基于该回报函数对初始策略网络进行训练，得到训练好的策略网络，该策略网络可用于识别出单人体图像中的可见人体区域和无效区域（包括遮挡物区域和背景区域），进而根据可见人体区域中，检测出各个关节点，从而识别出人体姿态。

图1示出了本发明实施例提供的人体姿态识别方法所涉及的实施环境，参见图1，该实施环境包括终端101和服务器102。其中，终端101可以为摄像头、智能手机、平板电脑等具有图像采集功能的设备。当采集到包括至少一个人的图像后，终端101将采集的图像发送至服务器102，由服务器102对终端发送的图像中每个人的人体姿态进行识别，并向终端返回人体姿态识别结果。服务器102安装有包括策略网络、单人姿态检测模型在内的多个模型，下面将通过图2对策略网络的训练过程进行介绍。

本发明实施例提供了一种策略网络的训练方法，参见图2，本发明实施例提供的方法流程包括：

201、服务器获取至少一张第一训练样本图像。

其中，每张第一训练样本图像包括一张单人体图像。服务器获取至少一张第一训练样本图像的方式，包括但不限于如下两种：第一种方式、终端对不同背景下的一个用户进行拍摄，得到至少一张第一训练样本图像，并将该至少一张第一训练样本图像发送至服务器，服务器接收终端发送的至少一张第一训练样本图像，并将所接收的至少一张第一训练样本图像作为获取到的至少一张第一训练样本图像。

第二种方式、服务器从网络上获取至少一张图像，并将所获取的图像作为至少一张第一训练样本图像。

当然，除了采用上述两种方式外，还可以采用其他方式获取第一训练样本图像，本发明实施例不再一一说明。

202、服务器确定每张第一训练样本图像上的无效样本训练区域，通过调整所确定的无效样本训练区域在每张第一训练样本图像上的大小及位置，获取至少一组第二训练样本图像。

其中，无效样本区域为预先设定的在人体姿态识别过程中第二训练样本图像上无需识别的区域，该无效样本区域实际上可以包括部分或全部的背景区域、部分或全部的遮挡物区域、部分人体区域等。本发明实施例所述的遮挡物是指影响对人体姿态识别的所有物体，包括建筑物、车辆、桌子、凳子等，还包括其他人的部分组织等。

服务器在确定每张第一训练样本图像上的无效样本训练区域时，可采用如下方法：

2021、服务器确定每张第二训练样本图像上的超像素区间。

其中，超像素区间是指第二训练样本图像上特定像素点组成的像素区间，该特定像素点具有相同特性，该相同特性包括颜色、纹理等。例如，服务器可将RGB三个颜色通道相同或者误差在预设范围内的像素点组成超像素区间。又例如，服务器可将具有相同纹理或者误差在预设范围内的像素点组成超像素区间。其中，该预设范围可根据服务器的识别精度确定。具体地，服务器可采用meanshift算法，从每张第二训练样本图像上，确定出至少一个超像素区间。其中，meanshift算法是指一个迭代的步骤，即先算出当前点的偏移均值，然后以此为新的起始点，继续移动，直到满足一定的结束条件，该meanshift算法在聚类、图像平滑、分割、跟踪等方面有着广泛的应用。参见图3，对于任一张图像，服务器采用meanshift算法对该图像进行处理，可确定出8个超像素区间，8个超像素区间分别对应于图3中数字1所组成的区间、数字2所组成的区间、数字3所组成的区间、数字4所组成的区间、数字4所组成的区间、数字6所组成的区间、数字7所组成的区间、数字8所组成的区间。

2022、服务器获取至少一个超像素区间，并将所获取的至少一个超像素区间设置为初始无效样本训练区域。

服务器从得到的超像素区间中，随机获取至少一个超像素区间，并将所获取的至少一个超像素区间设置为无初始无效样本训练区域。

2023、服务器以初始无效样本训练区域中每个超像素区间为起点，对初始无效样本训练区域及与其相邻的超像素区间进行合并。

服务器以所设置的初始无效样本训练区域中每个超像素区间为起点，在第二训练样本图像上进行扩张，将与该初始样本训练区域中每个超像素区间相邻的超像素区间进行合并。

2024、以每次合并的超像素区间为起点，对合并后的超像素区间及与其相邻的超像素区间进行合并，直至合并的超像素区间满足截止条件，服务器并将满足截止条件时合并的所有超像素区间组成无效样本训练区域。

服务器采用上述步骤2023的方式不断进行扩张，直至合并得到超像素区间满足截止条件。该截止条件可以为合并的超像素数量达到预设数量，还可以为合并次数达到预设次数等等。该预设数量和预设次数可根据服务器的处理能力确定。然后，服务器将满足截止条件时合并的所有超像素区间组成无效样本训练区域。

例如，服务器采用meanshift算法对该图像进行处理，得到60个超像素区间，然后随机选取5个超像素区间为初始无效样本训练区域，并以该5个超像素区间为起点进行扩张，在扩张过程中将与其及合并后的区域相邻的其他超像素区间进行合并，直至合并的超像素区间的数量达到20个，即1/3的超像素区间均作为无效样本训练区域。

上述步骤2021~步骤2024以在一个第二训练样本图像上设置一个无效样本训练区域为例，对于在其他第二训练样本图像上设置无效样本训练区域及对该第二训练样本图像设置的无效样本训练区域进行调整时，可再次采用上述方法，本发明实施例不再赘述。

另外，为了便于对无效样本训练区域进行区分，本发明实施例可将无效样本区域中所包括的各个像素点的像素值设置为相同值，如0或255等。

203、对于每组第二训练样本图像，服务器获取包括的每张第二训练样本图像中每张单人体图像的关节点数量。

服务器可预先设计一个回报函数，并基于该回报函数，获取每组第二训练样本图像包括的每张第二训练样本图像中每张单人体图像的关节数量。其中，回报函数是一个以VGG为基础的网络，其输入出一张RGB图像，输出为背景和遮挡物被去除的概率，该概率可以用输出的关节点数量进行表征。

具体地，对于任一张第二训练样本图像，服务器将第二训练样本图像输入到回报函数中，并根据第二训练样本图像上的遮挡物区域和背景区域与所设置的无效样本训练区域之间的位置关系，获取第二训练样本图像中每张单人体图像的关节点数量。

服务器根据第二训练样本图像上的遮挡物区域和背景区域与所设置的无效样本训练区域之间的位置关系，获取第二训练样本图像中每张单人体图像的关节点数量时，可包括如下几种情况：

第一种情况、如果第二训练样本图像上的遮挡物区域和背景区域未全部位于所设置的无效样本训练区域内，服务器获取第二训练样本图像中每张单人体图像的关节点数量为零。

针对该种情况，当第二训练样本图像上的遮挡物区域和背景区域未全部位于所设置的无效样本训练区域内时，服务器因无法识别出位于无效样本训练区域之外的遮挡物区域和背景区域，而无法获取到第二训练样本图像中人的关节点数量，此时服务器输出第二训练样本图像中每张单人体图像的关节点数量为零。

第二种情况、如果第二训练样本图像上的遮挡物区域和背景区域全部位于所设置的无效样本训练区域内，且遮挡物区域和背景区域小于所设置的无效样本训练区域，服务器获取第二训练样本图像中每张单人体图像的关节点数量为第一数量。

针对该种情况，当第二训练样本图像上的遮挡物区域和背景区域全部位于所设置的无效样本训练区域内时，服务器可对第二样本训练图像上位于无效样本训练区域之外的人体可见区域进行识别，从而获取到第二训练样本图像中每张单人体图像的关节点数量为第一数量。然而，由于碍物区域和背景区域小于所设置的无效样本训练区域，也即是存在部分可见人体区域位于无效样本训练区域内的情况，此时服务器从第二训练样本图像中获取的关节点数量并不是该第二训练样本图像上真实的关节数量。

第三种情况、如果第二训练样本图像上的遮挡物区域和背景区域与所设置的无效样本训练区域重合，服务器获取第二训练样本图像中每张单人体图像的关节点数量为第二数量。

针对该种情况，当第二训练样本图像上的遮挡物区域和背景区域与所设置的无效样本训练区域重合时，服务器可对第二样本训练图像上位于无效样本训练区域之外的可见人体区域进行识别，从而获取到第二训练样本图像中每张单人体图像的关节点数量为第二数量。由于碍物区域和背景区域等于所设置的无效样本训练区域，也即是不存在部分可见人体区域位于无效样本训练区域内的情况，此时服务器从第二训练样本图像中获取的关节点数量等于该第二训练样本图像上真实的关节数量。

结合上述分析可知，第一数量小于第二数量。该第一数量和第二数量为自然数，本发明实施例不对第一数量和第二数量作具体的限定。

对于服务器获取第二训练样本图像中每张单人体图像的关节点数量的过程，下面以图4、图5、图6、图7为例进行说明。

图4为一张原始的图像，由图4可知，该图像中存在遮挡物（桌子）区域和背景区域。在图4所示的图像上设置不同的无效样本训练区域，得到图5、图6及图7所示的图像，分别将图5、图6、图7输入到回报函数中，图5因存在遮挡物区域和背景区域，输出0个关节点；图6中的无效样本区域大于遮挡物区域和背景区域，输出9个关节点；图7中的无效样本区域恰好等于遮挡物区域和背景区域，输出11个关节点。

204、服务器将各组第二训练样本图像输入到初始策略网络中。

其中，初始策略网络为本发明中需要训练的网络，可以为一个以ResNet50为基础的网络。

205、服务器根据各组包括的每张第二训练样本图像上的无效样本训练区域和关节点数量，对初始策略网络进行训练，得到策略网络。

服务器将每组第二训练样本图像包括的每张第二训练样本图像输入到初始策略网络中，根据每张第二训练样本图像上的无效样本训练区域和关节点数量，对初始策略网络的网络参数进行调整，最后得到策略网络。其中，策略网络用于确定单人图像上的可见人体区域和无效区域。

本发明实施例提供了一种人体体态识别方法，参见图8，本发明实施例提供的方法流程包括：

801、服务器从待识别图像中，获取至少一张单人体图像。

其中，待识别图像是通过对至少一个用户拍摄得到的，该待识别图像的方法，与上述步骤201获取第一训练样本图像的方法相同，具体参见上述步骤201，此处不再赘述。

基于所获取待识别图像，服务器通过对待识别图像中每个用户图像所在的位置区域进行识别，可获取至少一张单人体图像。具体地，服务器可采用器SSD（single shotmultibox detector，单镜头多盒检测）算法确定待识别图像中每个用户图像所在的位置区域，然后根据每个用户图像所在的位置区域，将待识别图像上位于该位置区域上的图像，作为每个用户的单人体图像。其中，SSD算法是一种直接预测bounding box的坐标和类别的object detection算法，该SSD算法没有生成proposal的过程。针对不同大小的物体检测，传统的做法是将图像转换成不同的大小，然后分别处理，最后将结果综合起来，而SSD算法利用不同卷积层的feature map进行综合也能达到同样的效果。

802、服务器将每张单人体图像输入到策略网络中，输出每张单人体图像上的可见人体区域和无效区域。

其中，可见人体区域是指单人体图像上直接可见的人体区域。无效区域是指单人体图像上除可见人体区域以外的遮挡物区域和背景区域。由于本发明实施例所训练的策略网络能够基于单人体图像识别出可见人体区域和无效区域，因而当从待识别图像中获取到每张单人体图像后，服务器通过将单人体图像输入到策略网络中，可输出每张单人体图像上可见人体区域和无效区域。

803、服务器根据每张单人体图像上的可见人体区域，对每张单人体图像中的人体姿态进行识别。

服务器根据每张单人体图像上的可见人体区域，对待识别图像中每张单人体图像中的人体姿态进行识别时，可采用如下方法：

8031、服务器从每张单人体图像上的可见人体区域内，获取各个关节点的属性信息。

其中，关节点的属性信息包括关节点类型及与其他关节点的位置关系。关节点类型包括头部关节点、肩膀中心关节点、左肩关节点、左手肘关节点、左手关节点、右肩关节点、右手肘关节点、右手关节点、脊柱关节点、臀部中心关节点、左臀关节点、右臀关节点、左膝关节点、右膝关节点、左脚踝关节点、右脚踝关节点、左脚关节点、右脚关节点等。

服务器采用SSD算法对每张单人体图像上的可见人体区域进行处理，可从每张单人体图像上的可见人体区域内，获取每张单人体图像的各个节点及节点的属性信息。

8032、服务器将每张单人体图像的各个关节点的属性信息输入到人体姿态识别模型中，输出每张单人体图像的人体姿态识别结果。

其中，人体姿态识别模型用于根据关节点的属性信息，识别出人体姿态。服务器通过将每张单人体图像的各个关节点的属性信息输入到人体姿态识别模型中，可得到每个人的人体姿态。

本发明实施例提供的方法，从待识别图像上获取每个人的单人体图像后，基于策略网络区分出每张单人体图像上的可见人体区域和无效区域，进而基于可见人体区域进行人体姿态识别。由于可区分出单人体图像中的可见人体区域和无效区域，因而在存在遮挡物和复杂背景情况下，也能够识别出单人体图像中的人体姿态。

参见图9，本发明实施例提供了一种人体姿态的识别装置，该装置包括：

获取模块901，用于从待识别图像中，获取至少一张单人体图像；

处理模块902，用于将每张单人体图像输入到策略网络中，输出每张单人体图像上的可见人体区域和无效区域，无效区域包括遮挡物区域和背景区域；

识别模块903，用于根据每张单人体图像上的可见人体区域，对每张单人体图像中的人体姿态进行识别；

其中，策略网络用于确定单人体图像上的无效区域，并根据所确定的无效区域确定可见人体区域。

在本发明的另一个实施例中，该装置还包括：获取模块901，用于获取至少一张第一训练样本图像；

确定模块，用于确定每张第一训练样本图像上的无效样本训练区域；

获取模块，用于通过调整无效样本训练区域在每张第一训练样本图像上的大小及位置，获取至少一组第二训练样本图像，无效样本训练区域为在人体姿态识别过程中第二训练样本图像上无需识别的区域；

获取模块901，用于对于每组第二训练样本图像，获取包括的每张第二训练样本图像中每张单人图像的关节点数量；

处理模块902，用于将各组第二训练样本图像输入到初始策略网络中；

训练模块，用于根据各组包括的每张第二训练样本图像上的无效样本训练区域和关节点数量，对初始策略网络进行训练，得到策略网络。

在本发明的另一个实施例中，确定模块，用于确定每张第二训练样本图像上的超像素区间，超像素区间是指第二训练样本图像上特定像素点组成的像素区间；获取至少一个超像素区间，并将所获取的至少一个超像素区间设置为初始无效样本训练区域；以初始无效样本训练区域中每个超像素区间为起点，对初始无效样本训练区域及与其相邻的超像素区间进行合并；以每次合并的超像素区间为起点，对合并后的超像素区间及与其相邻的超像素区间进行合并，直至合并的超像素区间满足截止条件，并将满足截止条件时合并的所有超像素区间组成无效样本训练区域。

在本发明的另一个实施例中，获取模块901，用于对于任一张第二训练样本图像，根据第二训练样本图像上的遮挡物区域和背景区域与所确定的无效样本区域之间的位置关系，获取第二训练样本图像中每张单人体图像的关节点数量。

在本发明的另一个实施例中，获取模块901，用于如果第二训练样本图像上的遮挡物区域和背景区域未全部位于所确定的无效样本区域内，获取第二训练样本图像中每张单人体图像的关节点数量为零；如果第二训练样本图像上的遮挡物区域和背景区域全部位于所确定的无效样本训练区域内，且遮挡物区域和背景区域小于所确定的无效样本训练区域，获取第二训练样本图像中每张单人体图像的关节点数量为第一数量；如果第二训练样本图像上的遮挡物区域和背景区域与所设置的无效区域重合，获取第二训练样本图像中每张单人体图像的关节点数量为第二数量；

其中，第一数量小于第二数量。

在本发明的另一个实施例中，获取模块901，用于采用单镜头多盒检测器SSD算法确定待识别图像中每个单人体图像所在的位置区域；根据每个单人体图像所在的位置区域，从待识别图像上获取至少一张单人体图像。

在本发明的另一个实施例中，识别模块903，用于从每张单人体图像上的可见人体区域内，获取各个关节点的属性信息，关节点的属性信息包括关节点类型及与其他关节点的位置关系；将每张单人体图像的各个关节点的属性信息输入到人体姿态识别模型中，输出每张单人体图像的人体姿态识别结果；

其中，所述人体姿态识别模型用于根据关节点的属性信息，识别出人体姿态。

综上所述，本发明实施例提供的服务器，从待识别图像上获取每个人的单人体图像后，基于策略网络区分出每张单人体图像上的可见人体区域和无效区域，进而基于可见人体区域进行人体姿态识别。由于可区分出单人体图像中的可见人体区域和无效区域，因而在存在遮挡物和复杂背景情况下，也能够识别出单人体图像中的人体姿态。

图10是根据一示例性实施例示出的一种用于人体姿态识别的服务器。参照图10，服务器1000包括处理组件1022，其进一步包括一个或多个处理器，以及由存储器1032所代表的存储器资源，用于存储可由处理组件1022的执行的指令，例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1022被配置为执行指令，以执行上述人体姿态识别中服务器所执行的功能。

服务器1000还可以包括一个电源组件1026被配置为执行服务器1000的电源管理，一个有线或无线网络接口1050被配置为将服务器1000连接到网络，和一个输入输出（I/O）接口1058。服务器1000可以操作基于存储在存储器1032的操作系统，例如WindowsServer^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM或类似。

本发明实施例提供的服务器，从待识别图像上获取每个人的单人体图像后，基于策略网络区分出每张单人体图像上的可见人体区域和无效区域，进而基于可见人体区域进行人体姿态识别。由于可区分出单人体图像中的可见人体区域和无效区域，因而在存在遮挡物和复杂背景情况下，也能够识别出单人体图像中的人体姿态。

本发明实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图8所述的人体姿态识别方法。

本发明实施例提供的计算机可读存储介质，从待识别图像上获取每个人的单人体图像后，基于策略网络区分出每张单人体图像上的可见人体区域和无效区域，进而基于可见人体区域进行人体姿态识别。由于可区分出单人体图像中的可见人体区域和无效区域，因而在存在遮挡物和复杂背景情况下，也能够识别出单人体图像中的人体姿态。

需要说明的是：上述实施例提供的人体姿态识别装置、服务器在识别人体姿态时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将人体姿态识别装置、服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人体姿态识别装置、服务器与人体姿态识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人体姿态识别方法，其特征在于，所述方法包括：

从待识别图像中，获取至少一张单人体图像；

其中，所述策略网络用于确定单人体图像上的无效区域，并根据所确定的无效区域确定可见人体区域，所述策略网络的训练包括：获取至少一张第一训练样本图像；确定每张第一训练样本图像上的无效样本训练区域，通过调整所确定的无效样本训练区域在每张第一训练样本图像上的大小及位置，获取至少一组第二训练样本图像，所述无效样本训练区域为在人体姿态识别过程中第二训练样本图像上无需识别的区域；对于每组第二训练样本图像，获取包括的每张第二训练样本图像中每张单人体图像的关节点数量；将各组第二训练样本图像输入到初始策略网络中；根据各组包括的每张第二训练样本图像上的无效样本训练区域和关节点数量，对所述初始策略网络进行训练，得到所述策略网络。

2.根据权利要求1所述的方法，其特征在于，所述确定每张第一训练样本图像上的无效样本训练区域，包括：

确定每张第二训练样本图像上的超像素区间，所述超像素区间是指第二训练样本图像上特定像素点组成的像素区间；

获取至少一个超像素区间，并将所获取的至少一个超像素区间设置为初始无效样本训练区域；

以所述初始无效样本训练区域中每个超像素区间为起点，对所述初始无效样本训练区域及与其相邻的超像素区间进行合并；

以每次合并的超像素区间为起点，对合并后的超像素区间及与其相邻的超像素区间进行合并，直至合并的超像素区间满足截止条件，并将满足截止条件时合并的所有超像素区间组成无效样本训练区域。

3.根据权利要求1所述的方法，其特征在于，所述对于每组第二训练样本图像，获取包括的每张第二训练样本图像中每张单人体图像的关节点数量，包括：

对于任一张第二训练样本图像，根据所述第二训练样本图像上的遮挡物区域和背景区域与所确定的无效样本训练区域之间的位置关系，获取所述第二训练样本图像中每张单人体图像的关节点数量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二训练样本图像上的遮挡物区域和背景区域与所确定的无效样本训练区域之间的位置关系，获取所述第二训练样本图像中每张单人体图像的关节点数量，包括：

如果所述第二训练样本图像上的遮挡物区域和背景区域未全部位于所确定的无效样本训练区域内，获取所述第二训练样本图像中每张单人体图像的关节点数量为零；

如果所述第二训练样本图像上的遮挡物区域和背景区域全部位于所确定的无效样本训练区域内，且所述遮挡物区域和背景区域小于所确定的无效样本训练区域，获取所述第二训练样本图像中每张单人体图像的关节点数量为第一数量；

如果所述第二训练样本图像上的遮挡物区域和背景区域与所确定的无效样本训练区域重合，获取所述第二训练样本图像中每张单人体图像的关节点数量为第二数量；

其中，所述第一数量小于所述第二数量。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述从待识别图像中，获取至少一张单人体图像，包括：

采用单镜头多盒检测器SSD算法确定所述待识别图像中每个单人体图像所在的位置区域；

根据每个单人体图像所在的位置区域，从所述待识别图像上获取至少一张单人体图像。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据每张单人体图像上的可见人体区域，对每张单人体图像中的人体姿态进行识别，包括：

从每张单人体图像上的可见人体区域内，获取各个关节点的属性信息，所述关节点的属性信息包括关节点类型及与其他关节点的位置关系；

将每张单人体图像的各个关节点的属性信息输入到人体姿态识别模型中，输出每张单人体图像的人体姿态识别结果；

7.一种人体姿态识别装置，其特征在于，所述装置包括：

获取模块，用于获取至少一张第一训练样本图像；

所述获取模块，还用于通过调整所确定的无效样本训练区域在每张第一训练样本图像上的大小及位置，获取至少一组第二训练样本图像，所述无效样本训练区域为在人体姿态识别过程中第二训练样本图像上无需识别的区域；

所述获取模块，还用于对于每组第二训练样本图像，获取包括的每张第二训练样本图像中每张单人体图像的关节点数量；

处理模块，用于将各组第二训练样本图像输入到初始策略网络中；

训练模块，用于根据各组包括的每张第二训练样本图像上的无效样本训练区域和关节点数量，对所述初始策略网络进行训练，得到策略网络；

所述获取模块，还用于从待识别图像中，获取至少一张单人体图像；

所述处理模块，还用于将每张单人体图像输入到所述策略网络中，输出每张单人体图像上的可见人体区域和无效区域，所述无效区域包括遮挡物区域和背景区域；

8.根据权利要求7所述的装置，其特征在于，所述确定模块，用于确定每张第二训练样本图像上的超像素区间，所述超像素区间是指第二训练样本图像上特定像素点组成的像素区间；获取至少一个超像素区间，并将所获取的至少一个超像素区间设置为初始无效样本训练区域；以所述初始无效样本训练区域中每个超像素区间为起点，对所述初始无效样本训练区域及与其相邻的超像素区间进行合并；以每次合并的超像素区间为起点，对合并后的超像素区间及与其相邻的超像素区间进行合并，直至合并的超像素区间满足截止条件，并将满足截止条件时合并的所有超像素区间组成无效样本训练区域。

9.根据权利要求7所述的装置，其特征在于，所述获取模块，用于对于任一张第二训练样本图像，根据所述第二训练样本图像上的遮挡物区域和背景区域与所确定的无效样本训练区域之间的位置关系，获取所述第二训练样本图像中每张单人体图像的关节点数量。

10.根据权利要求9所述的装置，其特征在于，所述获取模块，用于如果所述第二训练样本图像上的遮挡物区域和背景区域未全部位于所确定的无效样本训练区域内，获取所述第二训练样本图像中每张单人体图像的关节点数量为零；如果所述第二训练样本图像上的遮挡物区域和背景区域全部位于所确定的无效样本训练区域内，且所述遮挡物区域和背景区域小于所确定的无效样本训练区域，获取所述第二训练样本图像中每张单人体图像的关节点数量为第一数量；如果所述第二训练样本图像上的遮挡物区域和背景区域与所确定的无效区域重合，获取所述第二训练样本图像中每张单人体图像的关节点数量为第二数量；

其中，所述第一数量小于所述第二数量。

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述获取模块，用于采用单镜头多盒检测器SSD算法确定所述待识别图像中每个单人体图像所在的位置区域；根据每个单人体图像所在的位置区域，从所述待识别图像上获取至少一张单人体图像。

12.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6中任一项所述的人体姿态识别方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至6中任一项所述的人体姿态识别方法。