CN108596098A

CN108596098A - 人体部件的解析方法、系统、设备和存储介质

Info

Publication number: CN108596098A
Application number: CN201810375168.9A
Authority: CN
Inventors: 林嘉; 刘偲; 翁志; 陈宇
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-09-28
Anticipated expiration: 2038-04-24
Also published as: CN108596098B

Abstract

本发明公开了一种人体部件解析方法、系统、设备和存储介质，该人体部件解析方法包括：从多人图像中提取具有高层语义信息的第一特征图；根据第一特征图获取多个第一人体感兴趣区域；对于每个第一人体感兴趣区域，均从第一人体感兴趣区域中选取一目标人体对象，并将第一人体感兴趣区域扩展为第二人体感兴趣区域；对第二人体感兴趣区域进行下采样操作，获取第二特征图；采用全卷积网络对第二特征图中的目标人体对象进行人体部件解析处理，获取每个目标人体对象的第一人体部件解析结果。本发明实现减少了人体位置的随机性，降低了对人体部件进行解析的难度，同时也提高了对多人图像中的每个人体对象的人体部件的解析准确度。

Description

人体部件的解析方法、系统、设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于多人图像的人体部件解析方法、系统、设备和存储介质。

背景技术

在日常生活中，多人场景无处不在，比如家庭聚会、生日聚会、婚礼现场、开学典礼等等。多人场景语义大都比较复杂，而解析这些多人场景中的具体每个人体对象以及他们的具体身体部件的应用越来越广泛。例如，在安防领域，多人部件解析方法可以辅助行人再识别技术，对监控视频进行自动化和精细化的分析。在智能家居领域，多人部件解析方法属于音视频技术，结合自动控制技术，网络通信技术等，集成家居生活有关的设施。在自动驾驶领域，多人部件解析方法可以辅助自动驾驶系统，对路况和行人情况进行精准的分析，从而提升自动驾驶的安全系数。在时尚服装领域，多人部件解析方法可以帮助人体属性预测，进行服饰搭配和虚拟试装。因此，多人场景下的多人部件解析方法在人工智能高速发展的今天，是一个非常重要的发展方向。

现有的基于多人图像的人体部件解析方法主要包括单人部件解析和多人解析两种方法。

其中，单人部件解析，是通过解析出一张单人图像中的人体的具体部件。

多人解析，旨在将多人图像中的具体每个人体对象解析出来。但是不能进一步分析得到每个人体对象的具体身体部件，比如脸、头发、胳膊等等。

具体地，现有的单人部件解析和多人解析方法涉及到物体检测技术和图像分割技术。

可采用物体检测技术和单人部件解析相结合的方法，对包括多人的图像中的每个人体对象及其人体部件进行解析。但是，将该方法存在如下两个缺点：第一，由于多人场景当中复杂的遮挡情况，检测框很难准确定位到每个人体对象；第二，检测框只包含了图像部分信息，却忽略了图像整体信息，这将导致网络很容易地错误判断人体部件究竟属于哪一个具体的人体对象。因此，针对多人图像的特点，设计出准确的多人部件解析方法存在很大的挑战。

采用多人解析对包括多人的每个人体对象及其人体部件进行解析也存在如下两个缺点，第一，只是将图像中的具体每个人体对象解析出来，并不能进一步解析每个人体对象的具体身体部件；第二，偏向于解析位于图像中心的人体对象，具有一定的局限性。

发明内容

本发明要解决的技术问题是为了克服现有技术中对包含多人的图像进行人体对象解析以及获取每个人体对象的人体部件时，存在解析准确度低等缺陷，目的在于提供一种基于多人图像的人体部件解析方法、系统、设备和存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种基于多人图像的人体部件解析方法，人体部件解析方法包括：

从多人图像中提取具有高层语义信息的第一特征图；

根据所述第一特征图获取多个第一人体感兴趣区域；

对于每个所述第一人体感兴趣区域，均从所述第一人体感兴趣区域中选取一目标人体对象，并将所述第一人体感兴趣区域扩展为第二人体感兴趣区域；

其中，每个所述目标人体对象在对应的所述第二人体感兴趣区域内的相对固定位置；

根据所述第二人体感兴趣区域进行下采样操作，获取具有固定空间大小的第二特征图；

采用全卷积网络对所述第二特征图中的所述目标人体对象进行人体部件解析处理，获取所述多人图像中的每个所述目标人体对象的第一人体部件解析结果。

可选地，获取所述多人图像中的每个所述目标人体对象的第一人体部件解析结果的步骤之后还包括：

对所述第一人体部件解析结果对应的第一人体部件解析图进行上采样操作，获取第二人体部件解析图；

其中，所述第二人体部件解析图与所述第一人体感兴趣区域的大小相同。

可选地，所述人体部件解析方法还包括：

采用全局解析网络对所述第一特征图进行解析处理，获取所述多人图像中的所有人体对象的第三人体部件解析图；

采用所述第一人体感兴趣区域截取所述第三人体部件解析图中的对应区域，获取所述多人图像中的每个所述目标人体对象的第四人体部件解析图；

采用融合网络将所述第二人体部件解析图对应的第二人体部件解析结果和所述第四人体部件解析图对应的第四人体部件解析结果进行融合处理，获取所述多人图像中的每个所述目标人体对象的目标人体部件解析结果。

可选地，从多人图像中提取具有高层语义信息的第一特征图的步骤具体包括：

采用深度卷积网络获取所述多人图像中的具有高层语义信息的所述第一特征图；

其中，所述高层语义信息包括图像中的颜色特征、纹理特征、形状特征和空间关系特征中的至少一种。

可选地，根据所述第一特征图获取所述第一人体感兴趣区域的步骤具体包括：

根据所述第一特征图，采用区域建议网络获取所述第一人体感兴趣区域。

可选地，将所述第一人体感兴趣区域扩展为第二人体感兴趣区域的步骤具体包括：

获取所述第一人体感兴趣区域中的目标人脸感兴趣区域，并根据所述目标人脸感兴趣区域计算目标人脸的中心位置；

根据所述目标人脸的中心位置将所述第一人体感兴趣区域扩展为所述第二人体感兴趣区域。

可选地，获取所述第一人体感兴趣区域中的目标人脸感兴趣区域的步骤具体包括：

获取所述第一人体感兴趣区域中的每个人脸感兴趣区域，选取具有最大面积的所述人脸感兴趣区域作为所述目标人脸感兴趣区域。

可选地，根据所述目标人脸的中心位置将所述第一人体感兴趣区域扩展为所述第二人体感兴趣区域的步骤具体包括：

根据所述目标人脸的中心位置，将所述第一人体感兴趣区域进行扩展处理，使得所述目标人脸对应的人体对象位于所述第二人体感兴趣区域的中间位置；

其中，扩展处理后多出的感兴趣区域对应的像素点均采用0值进行填充处理。

可选地，所述根据所述第二人体感兴趣区域进行下采样操作，获取具有固定空间大小的第二特征图的步骤具体包括：

将所述第二人体感兴趣区域映射到所述第一特征图上，获取深度相同、宽度和高度均不同的第三特征图；

对所述第三特征图进行下采样操作，获取具有固定空间大小的第二特征图。

本发明还提供一种基于多人图像的人体部件解析系统，人体部件解析系统包括第一特征图获取模块、第一区域获取模块、第二区域获取模块、第二特征图获取模块和第一解析模块；

所述第一特征图获取模块用于从多人图像中提取具有高层语义信息的第一特征图；

所述第一区域获取模块用于根据所述第一特征图获取多个第一人体感兴趣区域；

所述第二区域获取模块用于对于每个所述第一人体感兴趣区域，均从所述第一人体感兴趣区域中选取一目标人体对象，并将所述第一人体感兴趣区域扩展为第二人体感兴趣区域；

所述第二特征图获取模块用于根据所述第二人体感兴趣区域进行下采样操作，获取具有固定空间大小的第二特征图；

所述第一解析模块用于采用全卷积网络对所述第二特征图中的所述目标人体对象进行人体部件解析处理，获取所述多人图像中的每个所述目标人体对象的第一人体部件解析结果。

可选地，所述人体部件解析系统还包括上采样模块；

所述上采样模块用于对所述第一人体部件解析结果对应的第一人体部件解析图进行上采样操作，获取第二人体部件解析图；

可选地，所述人体部件解析系统还包括第二解析模块、截取模块和融合模块；

所述第二解析模块用于采用全局解析网络对所述第一特征图进行解析处理，获取所述多人图像中的所有人体对象的第三人体部件解析图；

所述截取模块用于采用所述第一人体感兴趣区域截取所述第三人体部件解析图中的对应区域，获取所述多人图像中的每个所述目标人体对象的第四人体部件解析图；

所述融合模块用于采用融合网络将所述第二人体部件解析图对应的第二人体部件解析结果和所述第四人体部件解析图对应的第四人体部件解析结果进行融合处理，获取所述多人图像中的每个所述目标人体对象的目标人体部件解析结果。

可选地，所述第一特征图获取模块用于采用深度卷积网络获取多人图像中的具有高层语义信息的第一特征图；

可选地，所述第一区域获取模块用于根据所述第一特征图，采用区域建议网络获取所述第一人体感兴趣区域。

可选地，所述第二区域获取模块包括人脸区域获取单元、人脸中心位置获取单元和扩展单元；

所述人脸区域获取单元用于获取所述第一人体感兴趣区域中的目标人脸感兴趣区域；

所述人脸中心位置获取单元用于根据所述目标人脸感兴趣区域计算目标人脸的中心位置；

所述扩展单元用于根据所述目标人脸的中心位置将所述第一人体感兴趣区域扩展为第二人体感兴趣区域。

可选地，所述人脸区域获取单元用于获取所述第一人体感兴趣区域中的每个所述人脸感兴趣区域，选取具有最大面积的所述人脸感兴趣区域作为目标人脸感兴趣区域。

可选地，所述扩展单元用于根据所述目标人脸的中心位置，将所述第一人体感兴趣区域进行扩展处理，使得所述目标人脸对应的人体对象位于所述第二人体感兴趣区域的中间位置；

可选地，所述第二特征图获取模块包括映射单元和下采样单元；

所述映射单元用于将所述第二人体感兴趣区域映射到所述第一特征图上，获取深度相同、宽度和高度均不同的第三特征图；

所述下采样单元用于对所述第三特征图进行下采样操作，获取具有固定空间大小的第二特征图。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述的基于多人图像的人体部件解析方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于多人图像的人体部件解析方法的步骤。

本发明的积极进步效果在于：

本发明通过获取图像的特征图，根据特征图获取人体感兴趣区域，进而获取目标人脸的中心位置，再根据目标人脸的中心位置调整人体感兴趣区域，使得人体对象位于人体感兴趣区域的中间位置，然后依次采用下采样操作、全卷积网络和上采样操作，获取多人图像中的每个目标人体对象的人体部件解析结果；同时，采用全局解析网络获取多人图像中的每个目标人体对象的人体部件解析结果；最后将二者相融合，获取每个目标人体对象的人体部件解析结果，减少了人体位置的随机性，降低了对人体部件进行解析的难度，同时也提高了对多人图像中的每个人体对象的人体部件的解析准确度。

附图说明

图1为本发明实施例1的基于人体部件的解析方法的流程图；

图2为本发明实施例2的基于人体部件的解析方法的流程图；

图3为本发明实施例2的基于人体部件的解析方法的原理示意图；

图4为本发明实施例3的基于人体部件的解析系统的模块示意图；

图5为本发明实施例4的基于人体部件的解析系统的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在的实施例范围之中。

实施例1

如图1所示，本实施的基于多人图像的人体部件解析方法包括：

S101、从多人图像中提取具有高层语义信息的第一特征图；

其中，高层语义信息用于表征多人图像中的整体信息，如该图像中存在的对象、对象正在进行的动作以及整体的场景信息等。

S102、根据第一特征图获取多个第一人体感兴趣区域；

S103、对于每个第一人体感兴趣区域，均从第一人体感兴趣区域中选取一目标人体对象，并将第一人体感兴趣区域扩展为第二人体感兴趣区域；

其中，每个目标人体对象在对应的第二人体感兴趣区域内的相对固定位置，使得每个第二人体感兴趣区域中的目标人体对象几乎均出现在每个第二人体感兴趣区域相同的位置上，这样不仅减小了对多人图像中的人体解析的难度，同时也能够辅助找到第一感兴趣区域中的目标人物。

S104、根据第二人体感兴趣区域进行下采样操作，获取具有固定空间大小的第二特征图。

其中，下采样操作是基于Fast Rcnn算法(一种基于深度学习的目标检测技术)的图像处理技术。

在实际处理过程中，在下采样操作时需要适应性地对选点插值和梯度回传的方式进行修改。

S105、采用全卷积网络对第二特征图中的目标人体对象进行人体部件解析处理，获取多人图像中的每个目标人体对象的第一人体部件解析结果。

本实施例通过获取多人图像的第一特征图，根据第一特征图获取多个人体感兴趣区域，并将每个人体感兴趣区域中的目标人体对象调整至相对固定位置，然后对调整后的人体感兴趣区域进行下采样操作，得到具有固定空间大小的第二特征图，最后采用全卷积网络获取多人图像中的每个目标人体对象的第一人体部件解析结果，从而减少了人体位置的随机性，降低了对人体部件进行解析的难度，同时也提高了对多人图像中的每个人体对象的人体部件的解析准确度。

实施例2

如图2和图3所示，本实施例在实施例1的基础上作进一步改进，具体地：

步骤S101具体包括：

S1011、采用Deeplab v2(利用深度卷积网络构成的一种用于图像语义分割的模型)获取多人图像中的具有高层语义信息的第一特征图。具体地，基于深度卷积网络的前五层卷积层搭建获取第一特征图；

高层语义信息包括图像中的颜色特征、纹理特征、形状特征和空间关系特征中的至少一种。

步骤S102具体包括：

S1021、根据第一特征图，采用RPN(Region Proposal Network，区域建议网络)获取第一人体感兴趣区域。

具体地，采用区域建议网络获取感兴趣区域的原理是：根据图像生成若干个长宽比不同的矩形框，计算得到这些矩形框和标注数据集中包括人体的真实矩形框的重叠程度，进而获得一定数量的主要包含前景和主要包含背景的感兴趣区域。

其中，标注数据集包括对图像中人体对象的人体部件标注的数据。例如，标注数据集包括20种人体部件标注，分别为帽子、头发、太阳眼镜、上身衣服、裙子、裤子、连衣裙、腰带、左脚鞋、右脚鞋、脸、左腿、右腿、左臂、右臂、包、围巾、袜子和领带。

步骤S103具体包括：

S1031、获取第一人体感兴趣区域中的每个人脸感兴趣区域，选取具有最大面积的人脸感兴趣区域作为目标人脸感兴趣区域；

S1032、根据目标人脸感兴趣区域计算目标人脸的中心位置；

S1033、根据目标人脸的中心位置将第一人体感兴趣区域扩展为第二人体感兴趣区域。

其中，根据目标人脸的中心位置，将第一人体感兴趣区域进行扩展处理，使得目标人脸对应的人体对象位于第二人体感兴趣区域的中间位置；扩展处理后多出的感兴趣区域对应的像素点均采用0值进行填充处理。

第一人脸感兴趣区域和第二人脸感兴趣区域均为矩形区域。扩展处理过程具体如下：

在第一人脸感兴趣区域中选取一目标人体对象，并以其脸部中心为该目标人体对象的人体中心点，然后计算出脸部中心到第一感兴趣区域的四条边的距离，对距离较短的边进行扩展，得到第二人脸感兴趣区域，最终使得脸部中心距离第二感兴趣区域左右两边的比例大致为1:1，距离第二感兴趣区域上下两边的比例大致为1:3，此时整个目标人体对象大致处于第二感兴趣区域的中间位置。举例说明，如果目标人体对象位于在第一人体感兴趣区域的左下角，则将第一人体感兴趣区域分别向左和向下进行扩展，并将扩展多出的感兴趣区域对应的像素点以0值填充，最终使人脸中心距离到第二感兴趣区域的左右两边的距离比例为1:1，到第二感兴趣区域的上下两边的距离比例为1:3，间接使得整个目标人体对象处于第二感兴趣区域的中间位置。

步骤104具体包括：

S1041、将第二人体感兴趣区域映射到第一特征图上，获取宽高不同但深度相同的第三特征图；

S1042、对第三特征图进行下采样操作，获取具有固定空间大小的第二特征图。

步骤S105之后还包括：

S106、对第一人体部件解析结果对应的第一人体部件解析图进行上采样操作，获取第二人体部件解析图；

其中，第二人体部件解析图与第一人体感兴趣区域的大小相同，即将第二人体部件解析图调整回与第一人体感兴趣区域的尺寸大小一致。

步骤101之后还包括：

S107、采用全局解析网络(Global Parsing Network)对第一特征图进行解析处理，获取多人图像中的所有人体对象的第三人体部件解析图；

其中，全局解析网络是对整张图像进行语义分割的网络，与只对感兴趣区域进行语义分割的局部解析网络相区别。

具体地，全局解析网络先对第一特征图进行全局特征提取，再根据全局特征采用多尺度视野域的卷积网络解析出人体部件，从而获取多人图像中的所有人体对象的第三人体部件解析图；

此时，全局解析网络解析后获取各个人体部件，但是无法确定具体哪些人体部件对应哪个人体对象。

S108、采用第一人体感兴趣区域截取第三人体部件解析图中的对应区域，获取多人图像中的每个目标人体对象的第四人体部件解析图；

此时，将第三人体部件解析结果与第一人体感兴趣区域进行对齐操作，裁剪出与第一人体感兴趣区域的尺寸大小相同的第四人体部件解析结果对应的第四人体部件解析图，以确保第二人体部件解析结果和第四人体部件解析结果能够进行融合网络。

S109、采用融合网络(Fusion Network)将第二人体部件解析结果对应的第二人体部件解析结果和第四人体部件解析结果对应的第四人体部件解析结果进行融合处理，获取多人图像中的每个目标人体对象的目标人体部件解析结果。根据目标人体部件解析结果可以获取对应的可视化目标人体部件解析图。

其中，融合网络即为将全卷积网络输出的语义分割结果(即解析结果)和全局解析网络输出的语义分割结果进行融合，以提高最终多人部件解析精度的网络。具体地，将两种语义分割结果中对应区域在通道维度上进行连接操作，再经过一个卷积层输出最终的融合解析结果。

本实施例不仅能够自动将多人图像中的具体每个人体对象解析出来，还能更进一步准确地分析得到每个人体对象的具体人体部件，比如1号目标对象的脸、头发、胳膊等人体部件，2号目标对象的脸、头发、胳膊等人体部件。

举例说明：将一张大小为512*512*3的RGB 3通道彩色多人图像输入到深度卷积网络中，该特征深度卷积网络通过多个卷积层输出大小为40*40*1024的第一特征图(高度*宽度为40*40，通道数或深度为1024)，该第一特征图包含了深度卷积网络所提取出的多人图像的高层语义信息。然后，基于第一特征图采用区域建议网络，生成若干大小不同的矩形框，即人体感兴趣区域，将人体感兴趣区域映射到第一特征图上后，框出深度相同、宽度和高度均不同的第三特征图；由于宽度和高度不同，这些第三特征图不能直接输入之后的全卷积网络中进行解析处理，因此需要对第三特征图进行Pool(下采样)操作，得到固定宽高的第二特征图，进而进一步对这些第二特征图进行人体部件的解析。其中，经过下采样操作可以将例如，输入的大小为100*100*3特征图处理输出为大小50*50*3的特征图，即下采样操作可以提取出原特征图中最重要的部分信息，从而降低了后续的计算复杂度。

本实施例中，考虑到多人场景中每个人会受到不同程度的遮挡的影响，通过自调整的感兴趣区域，使得网络对于检测出的单个人体部件解析更加精确，同时利用全局解析网络对图像中所有人体部件进行解析，并利用此结果与单人部件解析结果进行融合，弥补了单人部件解析因为遮挡而损失的精度。

下面通过具体实验数据来验证本实施例的对多人图像中的每个人体对象及其人体部件的解析结果的准确度。

首先建立人体部件的标注数据集，该标注数据集具体可以分为室内标注数据集和室外标注数据集。

其中，对于室内标注数据集，收集并标注了7500张图像，包括各种室内场景，比如咖啡馆、卧室等，且每张图像包含了至少2个人，本实施例中的室内标注数据库的每张图像中平均包含了5.23个人。

对于室外标注数据集，收集并标注了6500张图像，室外数据集包括各种室外场景，比如操场、海滩等，且每张图像包含了至少2个人，本实施例中的室外数据库每张图像平均包含了3.54个人。

本实施例的测试环境、实验数据、评估方法及实验对比结果的情况具体如下：

1)测试环境

系统环境：Ubuntu 16.04(一种操作系统)；

硬件环境：内存：64GB(吉字节)，GPU(一种图形处理器)：20*1080TI(同等级加强卡)，硬盘：2TB(太字节)。

2)实验数据

训练数据：将室内标注数据集中的4500张图像和室外标注数据集中的3900张图像作为训练数据集合。

验证数据：将室内标注数据集中的1500张图像和室外标注数据集中的1300张图像作为验证数据集合。

测试数据：将室内标注数据集中的1500张图像和室外标注数据集中的1300张图像作为测试数据集合。

3)评估方法

采用AP_δ评估方法。其中，AP_δ(Average Precision)，即平均精度，由Recall(召回率)和Precision(准确率)计算获得，本实施例中利用AP_δ值来评价最终的解析结果的准确度。AP_δ值越大，则解析结果的准确度越高。

具体地，通过在标注的正确人体对象和预测得到的所有人体对象之间，计算像素级别的平均IoU值(mean IoU，IoU即为两个区域的交集除以并集)，这里的平均IoU值是指对所有的人体部件的IoU取平均值。拥有最高IoU值的预测人体对象被认为是和标注的正确人体对象相匹配；若该最高平均IoU值高于设定阈值δ，则这个预测人体对象就被认为是预测正确的，即多人图像中的人体对象被正确解析出来，相应地，准确率和召回率就会有所增加，进而AP_δ也会有所增加。δ为一设定阈值，用来判断和正确实例匹配上的预测实例两者之间的区域重叠程度是否足够大，超过δ则认为该人体对象正确解析出来，否则该解析结果错误，解析结果正确或错误的人体对象的数目都会用来计算准确率和召回率，进而得到对应的AP_δ。

4)实验对比结果

为了将本实施例的解析结果准确度，与现有技术中一些解析技术获取多人图像中的每个人体对象及其人体部件的解析结果的准确度进行对比，设计了两组基准实验(实验A和实验B)。其中，实验A为物体检测技术与单人部件解析相结合的解析技术，和实验B为对象实例解析网络与全局解析网络相结合的解析技术。本实施例和两种基准实验中涉及到的解析网络结构都是基于deeplab v2来实现。

在实验A中，这个基准实验首先训练了一个Faster Rcnn网络(一种深度学习算法)，用Faster Rcnn预测得到的检测框，裁减得到图像上每个人体对象。将得到的这些人体对象来训练得到一个单人部件解析网络，得到最终结果。测试的时候，则用训练阶段得到的Faster Rcnn网络先将每个人体对象检测出来，然后再利用训练得到的单人部件解析网络，在检测出来的每个人体对象上进行人体部件解析，得到最终每个人体对象的人体部件的解析结果。

在实验B中，这个基准实验先采用全局解析网络对整体图像进行解析，得到图像中的人体部件信息，但是不考虑人体部件与具体人体对象之间的对应关系。然后，训练一个Mask-Rcnn网络(一种深度学习算法)进行人体实例解析,得到最终每个人体对象的人体部件的解析结果。

具体实验对比结果情况见下表，其中，表1是对于室内标注数据库的实验对比结果、表2是对于室外标注数据库实验对比结果。δ分别取0.5、0.6、0.7和0.8。avg.AP表示平均精度值。

表1

表2

由表1和表2可知，在获取多人图像中的每个人体对象及其人体部件的解析结果的准确度方面，本实施例在室内数据库和室外数据库上的解析结果对应的AP_δ均大于其他两组基准实验，由AP_δ越大，解析结果准确度越高；所以，本实施例获取多人图像中的每个人体对象及其人体部件的解析结果的准确度均优于其他两组基准实验。

本实施例中，通过获取图像的特征图，根据特征图获取人体感兴趣区域，进而获取目标人脸的中心位置，再根据目标人脸的中心位置调整人体感兴趣区域，使得人体对象位于人体感兴趣区域的中间位置，然后依次采用下采样操作、全卷积网络和上采样操作，获取多人图像中的每个目标人体对象的人体部件解析结果；同时，采用全局解析网络获取多人图像中的每个目标人体对象的人体部件解析结果；最后将二者相融合，获取每个目标人体对象的人体部件解析结果，减少了人体位置的随机性，降低了对人体部件进行解析的难度，同时也提高了对多人图像中的每个人体对象的人体部件的解析准确度。

实施例3

如图4所示，本实施例的基于多人图像的人体部件解析的系统包括第一特征图获取模块1、第一区域获取模块2、第二区域获取模块3、第二特征图获取模块4和第一解析模块5。

第一特征图获取模块1用于从多人图像中提取具有高层语义信息的第一特征图；

其中，高层语义信息用于表征多人图像中的整体信息，如该图像中存在的对象、对象正在进行的动作以及整体的场景信息等。第一区域获取模块2用于根据第一特征图获取多个第一人体感兴趣区域；

第二区域获取模块3用于对于每个第一人体感兴趣区域，均从第一人体感兴趣区域中选取一目标人体对象，并将第一人体感兴趣区域扩展为第二人体感兴趣区域；

其中，每个目标人体对象在对应的第二人体感兴趣区域内的相对固定位置；使得每个第二人体感兴趣区域中的目标人体对象几乎均出现在每个第二人体感兴趣区域相同的位置上，这样不仅减小了对多人图像中的人体解析的难度，同时也能够辅助找到第一感兴趣区域中的目标人物。

第二特征图获取模块4用于根据第二人体感兴趣区域进行下采样操作，获取具有固定空间大小的第二特征图；

其中，下采样操作是基于Fast Rcnn算法的图像处理技术。

在实际处理过程中，在下采样操作时也需要适应性地对选点插值和梯度回传的方式进行修改。

第一解析模块5用于采用全卷积网络对第二特征图中的目标人体对象进行人体部件解析处理，获取多人图像中的每个目标人体对象的第一人体部件解析结果。

实施例4

如图5所示，本实施例在实施例3的基础上作进一步改进，具体地：

第一特征图获取模块1用于采用深度卷积网络获取多人图像中的具有高层语义信息的第一特征图，具体地，基于深度卷积网络的前五层卷积层搭建获取第一特征图；

第一区域获取模块2用于根据第一特征图，采用区域建议网络获取第一人体感兴趣区域。

其中，标注数据集包括对图像中人体对象的人体部件标注的数据。例如，标注数据集包括20种人体部件标注，分别为帽子、头发、太阳眼镜、上身衣服、裙子、裤子、连衣裙、腰带、左脚鞋、右脚鞋、脸、左腿、右腿、左臂、右臂、包、围巾、袜子和领带。第二区域获取模块3包括人脸区域获取单元31、人脸中心位置获取单元32和扩展单元33。

人脸区域获取单元31用于获取第一人体感兴趣区域中的目标人脸感兴趣区域；

具体地，人脸区域获取单元31用于获取第一人体感兴趣区域中的每个人脸感兴趣区域，选取具有最大面积的人脸感兴趣区域作为目标人脸感兴趣区域。

人脸中心位置获取单元32用于根据目标人脸感兴趣区域计算目标人脸的中心位置；

扩展单元33用于根据目标人脸的中心位置将第一人体感兴趣区域扩展为第二人体感兴趣区域。

具体地，扩展单元用于根据目标人脸的中心位置，将第一人体感兴趣区域进行扩展处理，使得目标人脸对应的人体对象位于第二人体感兴趣区域的中间位置；

在第一人脸感兴趣区域中选取一目标人体对象，并以其脸部中心为该目标人体对象的人体中心点，然后计算出脸部中心到第一感兴趣区域的四条边的距离，对距离较短的边进行扩展，得到第二人脸感兴趣区域，最终使得脸部中心距离第二感兴趣区域左右两边的比例大致为1:1，距离第二感兴趣区域上下两边的比例大致为1:3，此时整个目标人体对象大致处于第二感兴趣区域的中间位置。举例说明，如果目标人体对象位于在第一人体感兴趣区域的左下角，则将第一人体感兴趣区域分别向左和向下进行扩展，并将扩展多出的感兴趣区域对应的像素点以0值填充，最终使人脸中心距离到第二感兴趣区域的左右两边的距离比例为1:1，到第二感兴趣区域的上下两边的距离比例为1:3，间接使得整个目标人体对象处于第二感兴趣区域的中间位置。第二特征图获取模块4包括映射单元41和下采样单元42。

映射单元41用于将第二人体感兴趣区域映射到第一特征图上，获取宽高不同但深度相同的第三特征图；

下采样单元42用于对第三特征图进行下采样操作，获取具有固定空间大小的第二特征图。

人体部件解析系统还包括上采样模块6、第二解析模块7、截取模块8和融合模块9。

具体地，上采样模块6用于对第一人体部件解析结果对应的第一人体部件解析图进行上采样操作，获取第二人体部件解析图；

第二解析模块7用于采用全局解析网络对第一特征图进行解析处理，获取多人图像中的所有人体对象的第三人体部件解析图；

其中，全局解析网络是对整张图像进行语义分割的网络，与只对感兴趣区域进行语义分割的局部解析网络相区别。具体地，全局解析网络先对第一特征图进行全局特征提取，再根据全局特征采用多尺度视野域的卷积网络解析出人体部件，从而获取多人图像中的所有人体对象的第三人体部件解析图；

此时，全局解析网络解析后获取各个人体部件，但是无法确定具体哪些人体部件对应哪个人体对象。截取模块8用于采用第一人体感兴趣区域截取第三人体部件解析图中的对应区域，获取多人图像中的每个目标人体对象的第四人体部件解析图；

此时，将第三人体部件解析图与第一人体感兴趣区域进行对齐操作，裁剪出与第一人体感兴趣区域的尺寸大小相同的第四人体部件解析图，以确保第二人体部件解析图和第四人体部件解析图能够进行融合网络。

融合模块9用于采用融合网络将第二人体部件解析图对应的第二人体部件解析结果和第四人体部件解析图对应的第四人体部件解析结果进行融合处理，获取多人图像中的每个目标人体对象的目标人体部件解析结果。根据目标人体部件解析结果可以获取对应的可视化目标人体部件解析图。

1)测试环境

系统环境：Ubuntu 16.04(一种操作系统)；

2)实验数据

3)评估方法

采用AP_δ评估方法。其中，AP_δ(Average Precision)，即平均精度，由Recall(召回率)和Precision(准确率)计算获得，本实施例中利用AP_δ值来评价最终的解析结果的准确度。AP_δ值越大，则解析结果准确度越高。

4)实验对比结果

在实验A中，这个基准实验首先训练了一个Faster Rcnn网络，用Faster Rcnn预测得到的检测框，裁减得到图像上每个人体对象。将得到的这些人体对象来训练得到一个单人部件解析网络，得到最终结果。测试的时候，则用训练阶段得到的Faster Rcnn网络先将每个人体对象检测出来，然后再利用训练得到的单人部件解析网络，在检测出来的每个人体对象上进行人体部件解析，得到最终每个人体对象的人体部件的解析结果。

在实验B中，这个基准实验先采用全局解析网络对整体图像进行解析，得到图像中的人体部件信息，但是不考虑人体部件与具体人体对象之间的对应关系。然后，训练一个Mask-Rcnn网络进行人体实例解析,得到最终每个人体对象的人体部件的解析结果。具体实验对比结果情况见下表，其中，表1是对于室内标注数据库的实验对比结果、表2是对于室外标注数据库实验对比结果。δ分别取0.5、0.6、0.7和0.8。avg.AP表示平均精度值。

表1

表2

本实施例中，通过获取图像的特征图，根据特征图获取人体感兴趣区域，进而获取目标人脸的中心位置，再根据目标人脸的中心位置调整人体感兴趣区域，使得人体对象位于人体感兴趣区域的中间位置，然后依次采用下采样操作、全卷积网络和上采样操作，获取多人图像中的每个目标人体对象的第一人体部件解析结果；同时，采用全局解析网络获取多人图像中的每个目标人体对象的人体部件解析结果；最后将二者相融合，获取每个目标人体对象的人体部件解析结果，减少了人体位置的随机性，降低了对人体部件进行解析的难度，同时也提高了对多人图像中的每个人体对象的人体部件的解析准确度。

实施例5

本实施例的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现实施例1和2中的任意一个实施例中的基于多人图像的人体部件解析方法。

实施例6

本实施例的计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1和2中的任意一个实施例中的基于多人图像的人体部件解析方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1和2中的任意一个实施例中的基于多人图像的人体部件解析方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式作出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于多人图像的人体部件解析方法，其特征在于，人体部件解析方法包括：

从多人图像中提取具有高层语义信息的第一特征图；

根据所述第一特征图获取多个第一人体感兴趣区域；

2.如权利要求1所述的基于多人图像的人体部件解析方法，其特征在于，获取所述多人图像中的每个所述目标人体对象的第一人体部件解析结果的步骤之后还包括：

3.如权利要求2所述的基于多人图像的人体部件解析方法，其特征在于，所述人体部件解析方法还包括：

4.如权利要求1所述的基于多人图像的人体部件解析方法，其特征在于，从多人图像中提取具有高层语义信息的第一特征图的步骤具体包括：

5.如权利要求1所述的基于多人图像的人体部件解析方法，其特征在于，根据所述第一特征图获取所述第一人体感兴趣区域的步骤具体包括：

6.如权利要求1所述的基于多人图像的人体部件解析方法，其特征在于，将所述第一人体感兴趣区域扩展为第二人体感兴趣区域的步骤具体包括：

7.如权利要求6所述的基于多人图像的人体部件解析方法，其特征在于，获取所述第一人体感兴趣区域中的目标人脸感兴趣区域的步骤具体包括：

8.如权利要求6所述的基于多人图像的人体部件解析方法，其特征在于，根据所述目标人脸的中心位置将所述第一人体感兴趣区域扩展为所述第二人体感兴趣区域的步骤具体包括：

9.如权利要求1所述的基于多人图像的人体部件解析方法，其特征在于，所述根据所述第二人体感兴趣区域进行下采样操作，获取具有固定空间大小的第二特征图的步骤具体包括：

10.一种基于多人图像的人体部件解析系统，其特征在于，人体部件解析系统包括第一特征图获取模块、第一区域获取模块、第二区域获取模块、第二特征图获取模块和第一解析模块；

11.如权利要求10所述的基于多人图像的人体部件解析系统，其特征在于，所述人体部件解析系统还包括上采样模块；

12.如权利要求11所述的基于多人图像的人体部件解析系统，其特征在于，所述人体部件解析系统还包括第二解析模块、截取模块和融合模块；

13.如权利要求10所述的基于多人图像的人体部件解析系统，其特征在于，所述第一特征图获取模块用于采用深度卷积网络获取多人图像中的具有高层语义信息的第一特征图；

14.如权利要求10所述的基于多人图像的人体部件解析系统，其特征在于，所述第一区域获取模块用于根据所述第一特征图，采用区域建议网络获取所述第一人体感兴趣区域。

15.如权利要求10所述的基于多人图像的人体部件解析系统，其特征在于，所述第二区域获取模块包括人脸区域获取单元、人脸中心位置获取单元和扩展单元；

16.如权利要求15所述的基于多人图像的人体部件解析系统，其特征在于，所述人脸区域获取单元用于获取所述第一人体感兴趣区域中的每个所述人脸感兴趣区域，选取具有最大面积的所述人脸感兴趣区域作为目标人脸感兴趣区域。

17.如权利要求15所述的基于多人图像的人体部件解析系统，其特征在于，所述扩展单元用于根据所述目标人脸的中心位置，将所述第一人体感兴趣区域进行扩展处理，使得所述目标人脸对应的人体对象位于所述第二人体感兴趣区域的中间位置；

18.如权利要求10所述的基于多人图像的人体部件解析系统，其特征在于，所述第二特征图获取模块包括映射单元和下采样单元；

19.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-9中任一项所述的基于多人图像的人体部件解析方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的基于多人图像的人体部件解析方法的步骤。