CN110633608A

CN110633608A - 一种姿态图像的人体肢体相似度评估方法

Info

Publication number: CN110633608A
Application number: CN201910219321.3A
Authority: CN
Inventors: 李家兴; 吴军; 李腾; 韦东豪; 涂小芳
Original assignee: Guangzhou Institute Of Intelligent Software Industry; Guangzhou Zhongke Kaize Technology Co Ltd
Current assignee: Guangzhou Institute Of Intelligent Software Industry; Guangzhou Zhongke Kaize Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-12-31

Abstract

本发明公开一种姿态图像的人体肢体相似度评估方法，涉及图像处理技术领域，包括采集大批量人体姿态图像并对图像中人体关键点进行标注；构建深度神经网络架构；利用图像对所构建的深度神经网络进行训练；将待检测图像输入训练完成的深度神经网络，预测图像中人体关键点并连接完成人体骨架；根据所获的图像中的人体骨架确定多个肢干夹角，通过确定两图像中各肢干夹角的相似度完成评估；该方法利用深度卷积神经网络进行人体姿态估计，采用bottom‑up的方式有效完成特征点回归和人体姿态回归，基于深度学习算法，使其在高准确率下实时完成人体姿态估计，采用自定义的夹角相似度评判方法，有效得到两者姿态的相似度，准确完成相似度的估计功能。

Description

一种姿态图像的人体肢体相似度评估方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种姿态图像的人体肢体相似度评估方法。

背景技术

随着互联网的普及，人类生产和生活方式日新月异。人们可以通过互联网工作、学习，在网络上与别人交流和从事娱乐活动等。在人们享受互联网带来诸多便利的同时，人们还未满足，希望进一步挖掘互联网的潜能，为人类社会的生产和生活带来更多的便利。而图像处理领域是其中一个重要的方向，人体肢体动作识别则是图像处理领域的一个重要的分支。通常的肢体动作识别，是通过视频或图片的形式获取进而识别的。随着科学技术的进步和深度学习的发展，传统的视频或图像识别技术虽然在一定程度上满足要求，但是存在视线限制和光线限制的缺陷。

肢体动作评估主要存在以下难点：人体的肢体动作比较灵活、视角的变化、衣着的变化等。

现有技术中存在以下技术问题：

1)采集何种低级视觉特征、选择分类器均根据经验，很难保证很好的评估效果；

2)仅仅适用于图像中存在单人的情况，现场实际的多人情况无法使用，并且存在一定程度的遮挡问题；

3)Top-down运算时间会随着图像中人的个数而显著增加，bottom-up所需计算时间基本不变，但top-down的方法总体效果好于bottom—up的方法；

4)评估效果较好时速度较慢，必须要提速；

5)设计姿态相似度估计评分标准，如何有效完成肢体动作之间的相似度判断。

发明内容

本发明针对背景技术的问题提供一种姿态图像的人体肢体相似度评估方法，以解决或者至少部分地缓解现有技术中存在的上述问题。

为了实现上述目的，本发明提出一种姿态图像的人体肢体相似度评估方法，包括以下步骤：

S10、采集大批量人体姿态图像，并对图像中人体关键点进行标注；

S20、构建深度神经网络架构；

所述的深度神经网络架构基础架构为VGG16，输出任务数固定在4层；包括：前端网络和后端网络，所述的前端网络用于提取图像特征并完成特征图像的传递；所述的后端网络用于完成人体特征点的定位及完成人体骨架的连接；

S30、利用标注有人体关键点的人体姿态图像对所构建的深度神经网络进行训练；

S40、将待检测图像输入训练完成的深度神经网络，预测图像中人体关键点并连接完成人体骨架；

S50、根据所获的图像中的人体骨架，确定多个肢干夹角，通过确定两图像中各肢干夹角的相似度完成评估。

优选地，步骤S20所述的前端网络，具体为：

卷积层conv1_1，采用3x3卷积核，输出特征图通道为64；卷积层conv1_2，采用3x3卷积核，输出特征图通道为64；池化层pool1，采用2x2核，最大池化法；卷积层conv2_1，采用3x3卷积核，输出特征图通道为128；卷积层conv2_2，采用3x3卷积核，输出特征图通道为128；池化层pool2，采用2x2核，最大池化法；卷积层conv3_1，采用3x3卷积核，输出特征图通道为256；卷积层conv3_2，采用3x3卷积核，输出特征图通道为256；卷积层conv3_3，采用3x3卷积核，输出特征图通道为256；池化层pool3，采用2x2核，最大池化法；卷积层conv4_1，采用3x3卷积核，输出特征图通道为512；卷积层conv4_2，采用3x3卷积核，输出特征图通道为512。

优选地，步骤S20所述的后端网络，包括：

分支1：用于完成人体特征点定位任务；具体为：卷积层conv5_1，采用3x3卷积核，输出特征图通道为512；卷积层conv52，采用3x3卷积核，输出特征图通道为512；卷积层conv5_3，采用3x3卷积核，输出特征图通道为256；卷积层conv5_4，采用1x1卷积核，输出特征图通道为256；卷积层conv5_5，采用1x1卷积核，输出特征图通道为38；

分支2：用于完成人体骨架链接任务；具体为：卷积层conv6_1，采用3x3卷积核，输出特征图通道为512；卷积层conv6_2，采用3x3卷积核，输出特征图通道为512；卷积层conv6_3，采用3x3卷积核，输出特征图通道为256；卷积层conv6_4，采用1x1卷积核，输出特征图通道为256；卷积层conv6_5，采用1x1卷积核，输出特征图通道为19。

优选地，步骤S10与步骤S20之间，还包括：

S60、将标注后的图像进行归一化处理。

优选地，步骤S20所述的完成人体骨架的连接，具体为：

根据关节区域和点的位置获得每个像素的小法向，生成一个法向图；

根据法向图，确定连线概率最大的两个点；

获取一条线后采用最小生成树算法获取下一条线，最终完成人体骨架连接。

优选地，步骤S50所述的确定多个肢干夹角，包括但不限于：左脖颈肩夹角、左颈肩肘夹角、左肩肘腕夹角、左颈胯膝夹角、左胯膝脚夹角、右脖颈肩夹角、右颈肩肘夹角、右肩肘腕夹角、右颈胯膝夹角、右胯膝脚夹角。

优选地，所述的肢干夹角，当夹角大于180°时，利用补角进行计算。

本发明还提出一种姿态图像的人体肢体相似度评估装置，包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现所述的姿态图像的人体肢体相似度评估方法的步骤。

本发明还提出一种计算机可读取存储介质，所述计算机可读取存储介质存储有姿态图像的人体肢体相似度评估方法的应用程序，所述应用程序实现如所述的姿态图像的人体肢体相似度评估方法的步骤。

本发明提出一种姿态图像的人体肢体相似度评估方法，该方法利用深度卷积神经网络进行人体姿态估计，采用bottom-up的方式有效完成特征点回归和人体姿态回归，基于深度学习算法，使其在高准确率下实时完成人体姿态估计，采用自定义的夹角相似度评判方法，有效得到两者姿态的相似度，准确完成相似度的估计功能；本发明人体姿态估计技术在体育健身、动作采集、3D试衣、肢体相似度判断等领域具有广阔的应用前景，为未来研究者们提供了很好的研究思路，为人工智能在生活中的应用做出了相应的贡献。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一种实施例中姿态图像的人体肢体相似度评估方法流程图；

图2为本发明一种实施例中姿态图像的人体肢体相似度评估过程示意图；

图3为本发明一种实施例中优化深度神经网络架构示意图；

图4为本发明一种实施例中VGG16网络前端架构示意图；

图5为本发明一种实施例中具体实施架构示意图；

图6为本发明一种实施例中姿态图像的人体肢体相似度评估装置示意图；

图7为本发明一种实施例中计算机存储介质示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种姿态图像的人体肢体相似度评估方法；

本发明第一优选实施例中个，如图1和图2所示，包括以下步骤：

本发明实施例中，基于深度学习的人体姿态估计自然要求大量的数据集作为深度学习网络训练的基础。本发明采用COCO2016和自标注两种数据集完成人体姿态估计任务，其中COCO2016是开源的竞赛数据集，Keypoint Evaluation主要完成人体关键点评估竞赛任务，自标注的数据集本发明主要通过采集大批量人体舞蹈等姿态图像，并采用LabelMe等软件完成人体关键点的标注。自标注数据集的目的主要是为了更加精准地完成人体舞蹈等姿态动作的估计，和COCO2016数据集共同作为人体关键点评估的数据集。

关键点任务需要同时检测对象并将其关键点定位(对象位置不在测试时间给出)。由于同时检测和关键点估计的任务是相对较新的，本发明选择采用受物体检测度量启发的新颖度量。为了简单起见，将这个任务称为关键点检测，将预测算法称为关键点检测器。建议在继续之前查看对象检测的评估指标。

评估关键点检测的核心思想是模拟用于目标检测的评估指标，即平均精确度(AP，average precision)和平均召回率(AR，average recall)及其变体。这些度量的核心是实际真实对象和预测对象之间的相似性度量。在对象检测的情况下，IoU(intersection-over-union，叫做交并比)作为这种相似性度量(对于框和片段)。IoU隐含定义了实际真实对象与预测对象之间的匹配，并允许计算精度召回曲线。为了采用AP/AR进行关键点检测，本发明只需要定义一个类似的相似性度量。通过定义与IoU具有相同作用的对象关键点相似度(OKS，object keypoint similarity)来实现这一点。

S60、将标注后的图像进行归一化处理；

本发明实施例中，数据预处理在深度学习网络训练中有着不可替代的作用，在训练网络时，若直接将原始数据输入到深度网络中训练，因为激活函数的存在，在训练时往往会丢失大量特征信息，所以一般在网络训练前，需要将输入图像经过归一化处理，这就是数据的预处理过程。本发明采用裁剪和均值相减法得到归一化后的图像，首先将原始图像统一裁剪至368x368，然后利用三通道的图像均值做各通道的减法处理，图像均值是{104，117，123}，得到归一化后的图像送入网络进行训练；

S20、构建深度神经网络架构；

本发明实施例中，如图3所示，所述的深度神经网络架构基础架构为VGG16(如图4所示)，输出任务数固定在4层；这么做的目的自然是在满足姿态估计准确率的前提下进行人体姿态估计的提速；包括：前端网络和后端网络，所述的前端网络用于提取图像特征并完成特征图像的传递；所述的后端网络用于完成人体特征点的定位及完成人体骨架的连接；

所述的前端网络，具体为：

卷积层convl_1，采用3x3卷积核，输出特征图通道为64；卷积层convl_2，采用3x3卷积核，输出特征图通道为64；池化层pooll，采用2x2核，最大池化法；卷积层conv2_1，采用3x3卷积核，输出特征图通道为128；卷积层conv2_2，采用3x3卷积核，输出特征图通道为128；池化层pool2，采用2x2核，最大池化法；卷积层conv3_1，采用3x3卷积核，输出特征图通道为256；卷积层conv3_2，采用3x3卷积核，输出特征图通道为256；卷积层conv3_3，采用3x3卷积核，输出特征图通道为256；池化层pool3，采用2x2核，最大池化法；卷积层conv4_1，采用3x3卷积核，输出特征图通道为512；卷积层conv4_2，采用3x3卷积核，输出特征图通道为512。

所述的后端网络，包括：

分支1：用于完成人体特征点定位任务；具体为：卷积层conv5_1，采用3x3卷积核，输出特征图通道为512；卷积层conv5_2，采用3x3卷积核，输出特征图通道为512；卷积层conv5_3，采用3x3卷积核，输出特征图通道为256；卷积层conv5_4，采用1x1卷积核，输出特征图通道为256；卷积层conv5_5，采用1x1卷积核，输出特征图通道为38；

分支2：用于完成人体骨架链接任务；具体为：卷积层conv6_1，采用3x3卷积核，输出特征图通道为512；卷积层conv6_2，采用3x3卷积核，输出特征图通道为512；卷积层conv6_3，采用3x3卷积核，输出特征图通道为256；卷积层conv6_4，采用1x1卷积核，输出特征图通道为256；卷积层conv6_5，采用1x1卷积核，输出特征图通道为19；

本发明实施例中，损失函数：

其中，W是权重，当位置p没有标注，则W＝0，避免训练期间true positive预测错误。

指Branch1在第t个网络中输出的第j个部位置信图上p点的置信值。

是指ground truth的第j个身体部位图上p点的置信值。

是Branch2在第t个网络中输出的第j个部位亲和向量场上p点的向量。

是指ground truth的第j个身体部位亲和向量场上p点的向量。，

本发明实施例中，采用VGG16的预训练模型，对整个深度神经网络进行微调，在有一定滤波作用的VGG16预训练模型的作用下，使得网络训练的初始点在一个相对极小值点更接近的地方，所以网络可以快速收敛，并能取得最佳的训练效果，最终能准确完成人体姿态的估计；

本发明实施例中，在完成网络训练任务后，通过测试数据集完成网络准确率的测试，利用cocoApi等相关代码对COCO2016-test-challenge数据集进行了准确率评估，本发明深度神经网络AP取得了60.5的优秀结果，相比较VGG19原始网络的58.0虽然有2.5个百分点的差距，但是在人体姿态评分系统中显得绰绰有余，且其速度得到了质的飞跃，接近一倍的提速。表1阐述了网络优化前和优化后的对比结果。

表1网络优化前和优化后的对比结果

本发明实施例中，关键点预测出来了，如何把检测出的身体关键点组合成未知数目人的整体动作成为了关键。

现有技术中采用的是取中点连接法，即预测每个关键点之间的中点的热点图谱，假设有这个预测结果和两个关键点的位置，连接的中点在热点图谱对应的像素点的响应值作为这个连接的确信值。那么这个点是两个关键点之间的中点的可能性越高，这个连接是正确的可靠性就越高。但此方法存在致命的缺点，当关键点之间距离较近时，就很难确定各关键点分别是谁的肢干部分。

因此本发明采用的是另一种方法，根据前边两个阶段得到的两个热图，计算两个点最优连接。根据关节区域和点的位置来计算每个像素的小法向，生成一个法向图，根据前边生成的法向图，确定哪两个点的连线的概率最大，找到所有这样的线。找到一个线就可以开始用最小生成树算法来找下一条线，最终得到一个人的骨架，然后得到所有的骨架，如果有连接不完整的，那就残缺的存在。

本发明实施例中，肢体之间的角度很容易计算，即在得到人体的特征点之后，取肢干相连部分的三个点，计算三点之间的夹角。如图5所示，即计算的是肩膀处肢干夹角，可以得到两个人分别的夹角α和β。这只是其中一对肢干夹角，我们可以通过以上方法，得到人体肢干的10个夹角，分别是左脖颈肩夹角、左颈肩肘夹角、左肩肘腕夹角、左颈胯膝夹角、左胯膝脚夹角、右脖颈肩夹角、右颈肩肘夹角、右肩肘腕夹角、右颈胯膝夹角、右胯膝脚夹角。夹角的计算方式可通过三角函数计算，当夹角大于180°时，可利用补角进行计算统计。

当得到两个人的各自肢干夹角后，可通过欧氏距离计算两者之间的相似度，其中需要注意的是左脖颈肩夹角和右脖颈肩夹角，因为其变化不明显，可将其权重设置为0.01进行计算，其他夹角可以利用平均权重进行计算，计算方式如公式(1)：

其中欧氏距离的解释如下：

其中，x1、x2则表示两人之间的夹角，得到的最终结果则为两肢体之间的相似度，进行相似度打分操作。

本发明还提出一种姿态图像的人体肢体相似度评估装置；

本发明第二优选实施例中，如图6所示，包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现所述的姿态图像的人体肢体相似度评估方法的步骤，例如：

S20、构建深度神经网络架构；

本发明实施例中，各步骤的具体细节在上文中已经详细阐述，此处不再复述；

本发明实施例中，所述的姿态图像的人体肢体相似度评估装置内置处理器，可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processingunit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件，通过运行或执行存储在存储器内的程序或者单元，以及调用存储在存储器内的数据，以执行姿态图像的人体肢体相似度评估的各种功能和处理数据；

存储器用于存储程序代码和各种数据，安装在执行姿态图像的人体肢体相似度评估装置中，并在运行过程中实现高速、自动地完成程序或数据的存取。所述存储器包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

本发明还提出一种计算机可读取存储介质；

本发明第三优选实施例中，如图7所示，所述计算机可读取存储介质存储有姿态图像的人体肢体相似度评估方法的应用程序，所述应用程序实现如所述的姿态图像的人体肢体相似度评估方法的步骤，例如：

S20、构建深度神经网络架构；

本发明利用深度卷积神经网络进行人体姿态估计，并采用bottom-up的方式有效完成特征点回归和人体姿态回归；利用深度神经网络优化算法，使其在高准确率下实时完成人体姿态估计；采用自定义的夹角相似度评判方法，有效得到两者姿态的相似度，准确完成相似度的估计功能。

在本发明的实施方式的描述中，需要说明的是，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种姿态图像的人体肢体相似度评估方法，其特征在于，包括以下步骤：

S20、构建深度神经网络架构；

2.根据权利要求1所述的姿态图像的人体肢体相似度评估方法，其特征在于，步骤S20所述的前端网络，具体为：

3.根据权利要求1所述的姿态图像的人体肢体相似度评估方法，其特征在于，步骤S20所述的后端网络，包括：

4.根据权利要求1所述的姿态图像的人体肢体相似度评估方法，其特征在于，步骤S10与步骤S20之间，还包括：

S60、将标注后的图像进行归一化处理。

5.根据权利要求1所述的姿态图像的人体肢体相似度评估方法，其特征在于，步骤S20所述的完成人体骨架的连接，具体为：

根据法向图，确定连线概率最大的两个点；

6.根据权利要求1所述的姿态图像的人体肢体相似度评估方法，其特征在于，步骤S50所述的确定多个肢干夹角，包括但不限于：左脖颈肩夹角、左颈肩肘夹角、左肩肘腕夹角、左颈胯膝夹角、左胯膝脚夹角、右脖颈肩夹角、右颈肩肘夹角、右肩肘腕夹角、右颈胯膝夹角、右胯膝脚夹角。

7.根据权利要求6所述的姿态图像的人体肢体相似度评估方法，其特征在于，所述的肢干夹角，当夹角大于180°时，利用补角进行计算。

8.一种姿态图像的人体肢体相似度评估装置，其特征在于，包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现权利要求1至7中任一项所述的姿态图像的人体肢体相似度评估方法的步骤。

9.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质存储有姿态图像的人体肢体相似度评估方法的应用程序，所述应用程序实现如权利要求1至7中任一项所述的姿态图像的人体肢体相似度评估方法的步骤。