CN111553324B

CN111553324B - 人体姿态预测值校正方法、装置，服务器及存储介质

Info

Publication number: CN111553324B
Application number: CN202010443966.8A
Authority: CN
Inventors: 喻冬东; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-05-23
Anticipated expiration: 2040-05-22
Also published as: CN111553324A

Abstract

本公开实施例公开了一种人体姿态预测值校正方法、装置，服务器及存储介质，属于图像处理技术领域，本公开实施例在得到人体姿态预测值之后，继续通过第一神经网络和第二神经网络对人体姿态预测值进行校正，使第一预测值和第二预测值的相似度处于第一预设区间内，相比于现有技术缺少人体姿态预测值的校正过程，通过第一神经网络和第二神经网络相互监督学习的方式，使得到的人体姿态校正值更准确。

Description

人体姿态预测值校正方法、装置，服务器及存储介质

技术领域

本公开实施例涉及图像处理技术领域，尤其涉及一种人体姿态预测值校正方法、装置，服务器及存储介质。

背景技术

目前，对人体姿态进行预测采用的方法一般都是先获取人体图像，然后通过例如VGG、RestNet，以及Inception网络对人体图像进行特征图提取，再将提取的特征图输入一个神经网络对人体姿态进行预测，将预测的结果直接作为最终的人体姿态预测值，而未对预测的结果进行校正，从而使预测的精确度并不理想。

发明内容

本公开实施例提供一种人体姿态预测值校正方法、装置，服务器及存储介质，以解决现有技术中对人体姿态预测不准确的问题。

第一方面，本公开实施例提供了一种人体姿态预测值校正方法，包括如下步骤：

获取人体姿态图像，与人体姿态图像对应的人体姿态预测值，以及与人体姿态图像对应的人体姿态图像标注值；

将人体姿态图像和人体姿态图像标注值输入第一神经网络以获得第一预测值；

将人体姿态图像和人体姿态预测值输入第二神经网络，以获得第二预测值；

在第一神经网络和第二神经网络的权重参数进行迭代的过程中，监测第一预测值与第二预测值的相似度是否在第一预设区间内，并根据监测结果确定第二预测值作为人体姿态校正值。

可选的，将人体姿态图像和人体姿态图像标注值输入第一神经网络，以获得第一预测值具体包括：

将人体姿态图像和人体姿态图像标注值输入第一神经网络，得到第一热力图；

对第一热力图进行积分，以获得第一预测值；

将人体姿态图像和人体姿态预测值输入第二神经网络，以获得第二预测值具体包括：

将人体姿态图像和人体姿态预测值输入第二神经网络，得到第二热力图；

对第二热力图进行积分，以获得第二预测值。

可选的，上述方法还包括：

将第一热力图和第二热力图输入第三神经网络，得到第三预测值；

监测第一预测值和第二预测值的相似度在第一预设区间内，第一预测值和第三预测值的相似度是否在第二预设区间内，以及监测第二预测值和第三预测值的相似度是否在第三预测区间内；

若监测到第一预测值和第二预测值的相似度在第一预设区间内，第一预测值和第三预测值的相似度在第二预设区间内，以及第二预测值和第三预测值的相似度在第三预测区间内时，确定第二预测值作为人体姿态校正值。

可选的，第一预设区间、第二预设区间和第三预设区间均相同。

可选的，在将人体姿态图像和人体姿态图像标注值输入第一神经网络之前，还包括：

将人体姿态图像标注值进行高斯分布化处理；

将人体姿态图像和人体姿态图像标注值输入第一神经网络包括：

将人体姿态图像和高斯分布化处理后的人体姿态图像标注值输入第一神经网络。

可选的，第一神经网络与第二神经网络为孪生神经网络，并且第一神经网络和第二神经网络的结构，以及权重参数相同。

可选的，第一神经网络、第二神经网络和第三神经网络为卷积神经网络，卷积神经网络包括至少一个输入层、隐藏层和输出层。

可选的，隐藏层包括至少一个卷积层和池化层，至少一个卷积层和池化层组成至少一个卷积组，用于逐层对特征进行提取。

可选的，隐藏层还包括激活层、全连接层和BN层中的至少一种。

可选的，孪生神经网络为ResNet网络、Hourglass网络和Pyramid Network网络中的至少一种。

可选的，第三神经网络为生成对抗网络GAN。

第二方面，本公开实施例提供了一种人体姿态预测值校正装置，包括：

数据获取单元，用于获取人体姿态图像，与人体姿态图像对应的人体姿态预测值，以及与人体姿态图像对应的人体姿态图像标注值；

第一预测单元，用于将人体姿态图像和人体姿态图像标注值输入第一神经网络以获得第一预测值；

第二预测单元，用于将人体姿态图像和人体姿态预测值输入第二神经网络，以获得第二预测值；

第一监测单元，用于在第一神经网络和第二神经网络的权重参数进行迭代的过程中，监测第一预测值与第二预测值的相似度是否在第一预设区间内，并根据监测结果确定第二预测值作为人体姿态校正值。

第三方面，本公开实施例提供了一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如本公开实施例第一方面任一的人体姿态预测值校正方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本公开实施例第一方面任一的人体姿态预测值校正方法。

本公开实施例提供的一种人体姿态预测值校正方法及装置，在得到人体姿态预测值之后，继续通过第一神经网络和第二神经网络对人体姿态预测值进行校正，使第一预测值和第二预测值的相似度处于第一预设区间内，相比于现有技术缺少人体姿态预测值的校正过程，通过第一神经网络和第二神经网络相互监督学习的方式，使得到的人体姿态校正值更准确。

附图说明

图1为本公开实施例提供的一种人体姿态预测值校正方法流程示意图；

图2为本公开实施例提供的第一预测值获取流程示意图；

图3为本公开实施例提供的第二预测值获取流程示意图；

图4为本公开实施例提供的一种人体姿态校正值获取流程示意图；

图5为本公开实施例提供的人体姿态校正值获取流程示意图；

图6为本公开实施例提供的5层全连接的神经网络的结构框图；

图7为本公开实施例提供的一种人体姿态预测值校正装置结构框图；

图8为本公开实施例提供的再一种人体姿态预测值校正装置结构框图；

图9为本公开实施例提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

需要说明的是，本公开中术语“系统”和“网络”在本文中常被可互换使用。本公开实施例中提到的“和/或”是指”包括一个或更多个相关所列项目的任何和所有组合。本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于限定特定顺序。

还需要说明是，本公开下述各个实施例可以单独执行，各个实施例之间也可以相互结合执行，本公开实施例对此不作具体限制。

针对现有技术中对人体姿态进行预测采用的方法一般都是先获取人体图像，然后对人体图像进行特征图提取，再将提取的特征图输入一个神经网络对人体姿态进行预测，将预测的结果直接作为最终的人体姿态预测值，而未对预测的结果进行校正，从而使预测的精确度并不理想的问题，本公开实施例提供的人体姿态预测值校正的技术方案，在得到人体姿态预测值之后，继续通过第一神经网络和第二神经网络对人体姿态预测值进行校正，使第一预测值和第二预测值的相似度处于第一预设区间内，相比于现有技术缺少人体姿态预测值的校正过程，通过第一神经网络和第二神经网络相互监督学习的方式，使得到的人体姿态校正值更准确。

具体的，第一方面，图1为本公开实施例提供的一种人体姿态预测值校正方法流程示意图，包括如下步骤：

S101、获取人体姿态图像，与人体姿态图像对应的人体姿态预测值，以及与人体姿态图像对应的人体姿态图像标注值；

在本步骤中，人体姿态图像为未进行人工标注的原始图像，可从现有的ImageNet数据库中获取，也可以从其它数据库中获取，本发明实施例不做具体限制。

在获取了人体姿态图像后，人工对人体姿态图像进行标注即可得到人体姿态图像标注值。需要注意的是，人工标注的特征值与实际的特征值需要存在一定的误差，通过这种增加人为扰动的方式，可以提高神经网络的预测精确度。人体姿态图像输入人体姿态预测神经网络即可得到人体姿态预测值，人体姿态预测神经网络可采用现有的神经网络，本发明实施例不做具体限制。

S102、将人体姿态图像和人体姿态图像标注值输入第一神经网络以获得第一预测值；

在本步骤中，输入第一神经网络的数据为两组，其中一组为人体姿态图像，另一组为人体姿态图像标注值。由于人工标注的特征值与实际的特征值存在一定的误差，而通过增加人为扰动的方式可以使第一神经网络不断地更新权重参数，从而得到更准确的第一预测值。

S103、将人体姿态图像和人体姿态预测值输入第二神经网络，以获得第二预测值；

在本步骤中，输入第二神经网络的数据为两组，其中一组为人体姿态图像，另一组为人体姿态预测值。由于输入第二神经网络的数据中已经包含了人体姿态预测值，因此第二神经网络可以根据输入的人体姿态预测值不断地更新权重参数，从而得到更准确的第二预测值。

S104、在第一神经网络和第二神经网络的权重参数进行迭代的过程中，监测第一预测值与第二预测值的相似度是否在第一预设区间内，并根据监测结果确定第二预测值作为人体姿态校正值。

在本步骤中，为了得到理想的人体姿态校正值，需要对第一神经网络和第二神经网络的权重参数进行迭代，使第一预测值和第二预测值尽可能地相似，最终在两者的相似度处于第一预设区间内时，将迭代后的第二预测值作为最终的人体姿态校正值。

本公开实施例提供的人体姿态预测值校正方法，在得到人体姿态预测值之后，继续通过第一神经网络和第二神经网络对人体姿态预测值进行校正，使第一预测值和第二预测值的相似度处于第一预设区间内，相比于现有技术缺少人体姿态预测值的校正过程，通过第一神经网络和第二神经网络相互监督学习的方式，使得到的人体姿态校正值更准确。

在一些实施例中，如图2所示，图1所示方法的步骤S102具体包括：

S201、将人体姿态图像和人体姿态图像标注值输入第一神经网络，得到第一热力图；

在本步骤中，本公开实施例中的第一神经网络可以根据输入的人体姿态图像和人体姿态图像标注值生成相应的热图(HeatMap)，即第一热力图。通过热图可以聚合大量数据，并使用渐进的色带来表现，最终效果要优于离散点的直接显示，可以很直观地展现空间数据的疏密程度或频率高低。

S202、对第一热力图进行积分，以获得第一预测值；

在本步骤中，由于第一热力图依然表现为离散值，而离散值由于不能求梯度，因此需要将第一热力图进行积分处理，得到连续的值，而连续的值可以求梯度，从而可以对第一神经网络进行误差反向传播，更新权重参数。

如图3所示，图1所示方法的步骤S103具体包括：

S301、将人体姿态图像和人体姿态预测值输入第二神经网络，得到第二热力图；

在本步骤中，与第一神经网络相同，本公开实施例中的第二神经网络可以根据输入的人体姿态图像和人体姿态预测值生成相应的热图(HeatMap)，即第二热力图。通过热图可以聚合大量数据，并使用渐进的色带来表现，最终效果要优于离散点的直接显示，可以很直观地展现空间数据的疏密程度或频率高低。

S302、对第二热力图进行积分，以获得第二预测值。

在本步骤中，与第一热力图相同，由于第二热力图也依然表现为离散值，而离散值由于不能求梯度，因此需要将第二热力图进行积分处理，得到连续的值，而连续的值可以求梯度，从而可以对第二神经网络进行误差反向传播，更新权重参数。

在一些实施例中，如图4所示，在图2和图3所示方法的基础上，还包括：

S401、将第一热力图和第二热力图输入第三神经网络，得到第三预测值；

在本步骤中，为了进一步提高对人体姿态预测的精确度，本公开实施例中的第三神经网络可以根据输入的第一热力图和第二热力图，得到第三预测值，以用于后续对人体姿态预测值的校正。

S402、监测第一预测值和第二预测值的相似度在第一预设区间内，第一预测值和第三预测值的相似度是否在第二预设区间内，以及监测第二预测值和第三预测值的相似度是否在第三预测区间内；

在本步骤中，本公开实施例不仅要比较第一预测值和第二预测值的相似度是否在第一预设区间内，还要比较第一预测值和第三预测值的相似度是否在第二预设区间内，以及第二预测值和第三预测值的相似度是否在第三预测区间内。

S403、若监测到第一预测值和第二预测值的相似度在第一预设区间内，第一预测值和第三预测值的相似度在第二预设区间内，以及第二预测值和第三预测值的相似度在第三预测区间内时，确定第二预测值作为人体姿态校正值。

在本步骤中，相对于只比较第一预测值和第二预测值的相似度，本公开实施例由于需要比较第一预测值、第二预测值，以及第三预测值每两种之间的相似度，只有三个比较结果均在相应的预测区间内时，才将第二预测值作为人体姿态校正值。由于将三个预测值每两种之间进行比较，因此可以提供更强的约束，从而使最终得到的人体姿态校正值更精确。

在一些实施例中，第一预设区间、第二预设区间和第三预设区间均相同。

在本公开实施例中，为了简化参数的设置，将第一预设区间、第二预设区间和第三预设区间设置为相同的区间，但本领域技术人员应当理解的是，第一预设区间、第二预设区间和第三预设区间也可以根据实际需求和对人体姿态校正值的精确度的要求，设置为不同的区间，本公开实施例不做具体限制。

在一些实施例中，如图5所示，在图1所示方法的步骤S102之前，还包括：

S501、将人体姿态图像标注值进行高斯分布化处理；

在本步骤中，由于人体姿态图像标注值是由人工标注人体姿态图像得到的，因此得到的数据比较混乱和随机。为了使数据数据线性可分，以便将数据投影到更高维的空间，同时降低方差对数据进行线性分界时的影响，需要对人体姿态图像标注值进行高斯分布化处理，使其符合正态分布，从而降低异常点、影响点，以及杠杆点的影响，进而提高后续人体姿态校正值的精确度。

图1所示方法的步骤S102包括：

S502、将人体姿态图像和高斯分布化处理后的人体姿态图像标注值输入第一神经网络。

在本步骤中，由于人体姿态图像标注值在输入第一神经网络进行了高斯分布化处理，因此使其符合正态分布，从而降低异常点、影响点，以及杠杆点的影响，进而提高了后续人体姿态校正值的精确度。

在一些实施例中，第一神经网络与第二神经网络为孪生神经网络，并且第一神经网络和第二神经网络的结构，以及权重参数相同。

由于第一神经网络与第二神经网络的输入数据中均包含有人体姿态图像，为了使通过第一神经网络得到的第一预测值和通过第二神经网络得到的第二预测值具有可比性，需要对其它变量进行控制，因此需要保证第一神经网络和第二神经网络的结构，以及权重参数均相同。

需要说明的是，在将数据输入第一神经网络和第二神经网络之前，还要对第一神经网络和第二神经网络的权重参数做初始化处理，而初始化所用到的权重参数可以直接从现有的数据库中导入，也可以通过训练第一神经网络和第二神经网络得到，本公开实施例不做具体限制。

在一些实施例中，第一神经网络、第二神经网络和第三神经网络为卷积神经网络，卷积神经网络包括至少一个输入层、隐藏层和输出层。

在本公开实施例中，第一神经网络、第二神经网络和第三神经网络均为卷积神经网络(Convolutional Neural Network，CNN)。卷积神经网络被广泛应用于图像识别、语音识别等各种场合，而本公开实施例中的人体姿态预测作为图像识别的一种应用，也是采用卷积神经网络实现的。本公开实施例中的卷积神经网络包含三部分，即输入层(Inputlayer)、隐藏层(Hidden layer)和输出层(Output layer)。

其中输入层由众多神经元(Neuron)组成，用于接受大量非线形输入信息，例如本公开实施例中人体部位的姿态特征信息。

输出层也包含有多个神经元，信息在输出层的神经元链接中传输、分析、权衡，形成输出结果。

隐藏层是输入层和输出层之间众多神经元和链接组成的各个层面，隐藏层可以有多层，也可以只用一层。隐藏层的神经元数目不定，但数目越多卷积神经网络的非线性越显著，从而使卷积神经网络的强健性(控制系统在一定结构、大小等的参数摄动下，维持某些性能的特性)更显著。

需要说明的是，本公开实施例给出的只是一种实例性结构，而不对使用到的卷积神经网络的结构进行限定，卷积神经网络的结构可根据实际需求进行设置，也可以不包括输入层、隐藏层和输出层中的一种或多种，本公开实施例不做具体限制。

在一些实施例中，隐藏层包括至少一个卷积层和池化层，至少一个卷积层和池化层组成至少一个卷积组，用于逐层对特征进行提取。

在本公开实施例中，卷积神经网络可以包含多个卷积层，也可以包含一个卷积层。在每个卷积层中，使用该层的卷积核对该层的输入特征图(也称为输入特征数据或输入特征值)执行该层的卷积运算，以获得该层的输出特征图(也称为输出特征数据或输出特征值)。在卷积神经网络的各层中，输入特征图可以具有一定的宽度和高度，并且可以具有一定的通道数(也称为深度)。各个卷积核可以具有相同(或不同)的宽度和高度，其小于(或等于)输入特征图的宽度和高度，并且可以具有相同的通道数，其等于输入特征图的通道数。

每个卷积层的后面连接一层池化层，一个卷积层和池化层形成一个卷积组。设置池化层的目的是降低到下一个卷积组的待处理的数据量。例如，当卷积层的输出大小是32×32时，如果池化层过滤器的大小为2×2时，那么经过池化层处理后，输出数据的大小为16×16，也就是说现有的数据量减少到池化前的1/4。由于采用池化层减少了待处理的数据量，因此减少了参数的数量，从而可以预防卷积神经网络对数据的过拟合。

在一些实施例中，隐藏层还包括激活层、全连接层和BN层中的至少一种。

相邻层的所有神经元之间都有连接，即全连接(fully-connected)。在本公开实施例中，可以采用用Affine层实现了全连接层，当使用Affine层时，例如一个5层的全连接的神经网络就可以通过如图6所示的网络结构来实现。而在Affine层后面通常会连接有激活层，例如激活函数ReLU层或者Sigmoid层，如图2所示，在本公开实施例中堆叠了4层“Affine-ReLU”组合，然后第5层是Affine层，最后由Softmax层输出最终结果。

通常情况下，训练神经网络时会采用梯度下降法来更新参数。尽管梯度下降法训练神经网络简单高效，但是仍需要人为地去选择参数，比如学习率，参数初始化，权重衰减系数，Dropout比例等，而且这些参数的选择对于训练结果至关重要，从而导致对神经网络的训练时间很多都浪费到调参上。而采用BN(Batch Normalization)算法可以选择较大的学习率，使得神经网络的训练速度增长很快，具有快速收敛性。此外，采用BN算法可以不需要关系Dropout比例和L2正则项参数的选择，或者可以去掉这两项参数，从而有效地减少了调参的时间。

另一方面，神经网络在开始训练前，通常需要对数据做归一化处理，归一化处理的原因是神经网络的训练过程也是学习数据分布的过程，而如果训练数据和测试数据的分布不同，那么神经网络的泛化能力就会大大降低。此外，每一批次的数据分布如果不相同的话，那么神经网络就要在每次迭代的时都需要去适应不同的数据分布，从而大大降低网络的训练速度，因此需要要对数据做归一化预处理。

此外，神经网络在训练过程中参数要进行更新，除了神经网络的输入层的数据外，其它层的数据分布均一直发生变化。也就是说，神经网络在训练过程中，网络参数的变化会导致后面输入数据的分布变化，例如第二层输入，是由输入数据和第一层参数得到的，而第一层的参数随着训练一直变化，就会引起第二层输入分布的改变。

因此，本公开实施例通过采用BN层，可以有效地解决上述问题，提高神经网络的训练速度。

需要说明的是，本公开实施例给出的只是一种实例性结构，而不对使用到的卷积神经网络的结构进行限定，卷积神经网络的结构可根据实际需求进行设置，也可以不包括激活层、全连接层和BN层中的一种或多种，本公开实施例不做具体限制。

在一些实施例中，孪生神经网络为ResNet网络、Hourglass网络和PyramidNetwork网络中的至少一种。

在本公开实施例中，第一神经网络和第二神经网络为孪生神经网络，可直接采用现有的ResNet网络、Hourglass网络和Pyramid Network网络等，从而减少通过额外搭建神经网络模型，以及训练神经网络模型的时间。

在一些实施例中，第三神经网络为生成对抗网络GAN。

在本公开实施例中，第三神经网络采用生成对抗网络GAN，生成对抗网络GAN包含一个G网络和D网络，通过通过G网络和D网络的互相监督和不断博弈，进而使G网络学习到数据的分布，训练完成后，G网络可以从一段随机数中生成精确度较高的第三预测值。

需要说明的是，本公开实施例中的第三神经网络还可以采用与生成对抗网络GAN具有相同功能的现有神经网咯，本公开实施例不做具体限制。

第二方面，图7为本公开实施例提供的一种人体姿态预测值校正装置，包括：

数据获取单元100，用于获取人体姿态图像，与人体姿态图像对应的人体姿态预测值，以及与人体姿态图像对应的人体姿态图像标注值；

第一预测单元200，用于将人体姿态图像和人体姿态图像标注值输入第一神经网络以获得第一预测值；

第二预测单元300，用于将人体姿态图像和人体姿态预测值输入第二神经网络，以获得第二预测值；

第一监测单元400，用于在第一神经网络和第二神经网络的权重参数进行迭代的过程中，监测第一预测值与第二预测值的相似度是否在第一预设区间内，并根据监测结果确定第二预测值作为人体姿态校正值。

本公开实施例提供的人体姿态预测值校正装置，在得到人体姿态预测值之后，继续通过第一神经网络和第二神经网络对人体姿态预测值进行校正，使第一预测值和第二预测值的相似度处于第一预设区间内，相比于现有技术缺少人体姿态预测值的校正过程，通过第一神经网络和第二神经网络相互监督学习的方式，使得到的人体姿态校正值更准确。

在一些实施例中，第一预测单元200具体用于：

对第一热力图进行积分，以获得第一预测值；

第二预测单元300具体用于：

对第二热力图进行积分，以获得第二预测值。

在一些实施例中，如图8所示，在图7所示的装置的基础上，还包括：

第三预测单元500，用于将第一热力图和第二热力图输入第三神经网络，得到第三预测值；

第二监测单元600，用于监测第一预测值和第二预测值的相似度在第一预设区间内，第一预测值和第三预测值的相似度是否在第二预设区间内，以及监测第二预测值和第三预测值的相似度是否在第三预测区间内；

数据预处理单元700，用于将人体姿态图像标注值进行高斯分布化处理；

第一预测单元200还用于：

在一些实施例中，第三神经网络为生成对抗网络GAN。

第三方面，图9为本公开实施例提供了的一种服务器的结构示意图，如图9所示，其示出了适于用来实现本公开实施例的服务器的结构示意图。以电子设备为例，本公开实施例中的服务器可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，服务器800可以包括处理器(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理，例如实现本公开实施例所提供的人体姿态预测值校正方法，其中该人体姿态预测值校正方法包括：

将人体姿态图像和人体姿态预测值输入第二神经网络，以获得第二预测值；其中，第一神经网络与第二神经网络为孪生神经网络；

在RAM 803中，还存储有服务器备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许服务器800与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的服务器800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理器801执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述服务器中所包含的；也可以是单独存在，而未装配入该服务器中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该服务器执行本实施例提供的人体姿态预测值校正方法包括：获取人体姿态图像，与人体姿态图像对应的人体姿态预测值，以及与人体姿态图像对应的人体姿态图像标注值；将人体姿态图像和人体姿态图像标注值输入第一神经网络以获得第一预测值；将人体姿态图像和人体姿态预测值输入第二神经网络，以获得第二预测值；其中，第一神经网络与第二神经网络为孪生神经网络；在第一神经网络和第二神经网络的权重参数进行迭代的过程中，监测第一预测值与第二预测值的相似度是否在第一预设区间内，并根据监测结果确定第二预测值作为人体姿态校正值。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该模块本身的限定，例如，数据获取单元还可以被描述为“用于获取人体姿态图像，与人体姿态图像对应的人体姿态预测值，以及与人体姿态图像对应的人体姿态图像标注值的单元”；第一预测单元还可以被描述为“用于将人体姿态图像和人体姿态图像标注值输入第一神经网络以获得第一预测值的单元”。以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种人体姿态预测值校正方法，其特征在于，包括如下步骤：

获取人体姿态图像，与所述人体姿态图像对应的人体姿态预测值，以及与所述人体姿态图像对应的人体姿态图像标注值；

将所述人体姿态图像和所述人体姿态图像标注值输入第一神经网络以获得第一预测值；

将所述人体姿态图像和所述人体姿态预测值输入第二神经网络，以获得第二预测值；其中，所述第一神经网络和所述第二神经网络的结构，以及权重参数相同；

在所述第一神经网络和所述第二神经网络的权重参数进行迭代的过程中，监测所述第一预测值与所述第二预测值的相似度是否在第一预设区间内，并根据监测结果确定所述第二预测值作为人体姿态校正值。

2.如权利要求1所述的方法，其特征在于，所述将所述人体姿态图像和所述人体姿态图像标注值输入第一神经网络，以获得第一预测值具体包括：

将所述人体姿态图像和所述人体姿态图像标注值输入第一神经网络，得到第一热力图；

对所述第一热力图进行积分，以获得第一预测值；

所述将所述人体姿态图像和所述人体姿态预测值输入第二神经网络，以获得第二预测值具体包括：

将所述人体姿态图像和所述人体姿态预测值输入第二神经网络，得到第二热力图；

对所述第二热力图进行积分，以获得第二预测值。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

将所述第一热力图和所述第二热力图输入第三神经网络，得到第三预测值；

监测所述第一预测值和所述第二预测值的相似度在所述第一预设区间内，所述第一预测值和所述第三预测值的相似度是否在第二预设区间内，以及监测所述第二预测值和所述第三预测值的相似度是否在第三预设区间内；

若监测到所述第一预测值和所述第二预测值的相似度在第一预设区间内，所述第一预测值和所述第三预测值的相似度在第二预设区间内，以及所述第二预测值和所述第三预测值的相似度在第三预设区间内时，确定第二预测值作为人体姿态校正值。

4.如权利要求3所述的方法，其特征在于，所述第一预设区间、所述第二预设区间和所述第三预设区间均相同。

5.如权利要求1所述的方法，其特征在于，在所述将所述人体姿态图像和所述人体姿态图像标注值输入第一神经网络之前，还包括：

将所述人体姿态图像标注值进行高斯分布化处理；

所述将所述人体姿态图像和所述人体姿态图像标注值输入第一神经网络包括：

将所述人体姿态图像和高斯分布化处理后的人体姿态图像标注值输入第一神经网络。

6.如权利要求1所述的方法，其特征在于，所述第一神经网络与所述第二神经网络为孪生神经网络，并且所述第一神经网络和所述第二神经网络的结构，以及权重参数相同。

7.如权利要求3所述的方法，其特征在于，所述第一神经网络、第二神经网络和第三神经网络为卷积神经网络，所述卷积神经网络包括至少一个输入层、隐藏层和输出层。

8.如权利要求7所述的方法，其特征在于，所述隐藏层包括至少一个卷积层和池化层，所述至少一个卷积层和池化层组成至少一个卷积组，用于逐层对特征进行提取。

9.如权利要求8所述的方法，其特征在于，所述隐藏层还包括激活层、全连接层和BN层中的至少一种。

10.如权利要求6所述的方法，其特征在于，所述孪生神经网络为ResNet网络、Hourglass网络和Pyramid Network网络中的至少一种。

11.如权利要求3所述的方法，其特征在于，所述第三神经网络为生成对抗网络GAN。

12.一种人体姿态预测值校正装置，其特征在于，包括：

数据获取单元，用于获取人体姿态图像，与所述人体姿态图像对应的人体姿态预测值，以及与所述人体姿态图像对应的人体姿态图像标注值；

第一预测单元，用于将所述人体姿态图像和所述人体姿态图像标注值输入第一神经网络以获得第一预测值；

第二预测单元，用于将所述人体姿态图像和所述人体姿态预测值输入第二神经网络，以获得第二预测值；其中，所述第一神经网络和所述第二神经网络的结构，以及权重参数相同；

第一监测单元，用于在所述第一神经网络和所述第二神经网络的权重参数进行迭代的过程中，监测所述第一预测值与所述第二预测值的相似度是否在第一预设区间内，并根据监测结果确定所述第二预测值作为人体姿态校正值。

13.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的人体姿态预测值校正方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-11中任一所述的人体姿态预测值校正方法。