CN108960212A

CN108960212A - 基于端到端的人体关节点检测与分类方法

Info

Publication number: CN108960212A
Application number: CN201810915453.5A
Authority: CN
Inventors: 程建; 林莉; 王艳旗; 苏炎洲; 白海伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2018-12-07

Abstract

本发明公开了基于端到端的人体关节点检测与分类方法，其实现方法具体包括：构造深度学习网络、对输入图片数据进行训练及测试。深度学习网络包含基础网络层结构、金字塔池化残差模块、堆栈式沙漏型模块。在训练阶段：对输入图像进行预处理操作以及网络参数的初始化，将处理后的图像输入到基于堆栈式沙漏型以及条件随机场理论的深度学习网络中进行训练，根据Softmax损失函数对网络权值参数进行更新；测试阶段：使用学习得到的深度学习网络模型参数对测试图片进行前向传播，得到测试关节点的概率分布情况，利用已知准则将各个关节点依次连接起来，得到结果图像。

Description

基于端到端的人体关节点检测与分类方法

技术领域

本发明涉及图像分割、模式识别及计算机视觉领域，尤其是涉及了一种基于端到端的人体关节点检测与分类方法。

背景技术

计算机视觉的核心任务就是解决检测与分类两个问题，而人体姿态估计，作为现代智能识别领域中热门研究之一，其不仅对学术研究领域有着深远的研究意义，也对我们日常生活中的安全检测，例如在人流量较多的街道、各类公共产生危险动作的检测都有着深刻的现实意义。人体姿态估计其首要目标就在于从一幅图片中估计出身体关键节点的具体位置，并从多人场景中将归属于同一人的节点分类出来。

自神经网络发展以来，传统神经网络被广泛地应用到人体姿态估计中。相对于传统神经网络而言卷积神经网络学习能力更强。对于单人场景下的人体姿态估计，目前已有非常多基于卷积神经网络的分割与分类方法，在现有公开的数据集中都有着较高的正确率。但对于多人场景，无论是从特征提取还是关节点分类，其表现结果都还有较大的发展空间。

传统的姿态估计方法一般是输入一张原始RGB图片，在像素级别利用神经网络提取诸如纹理特征、空间信息等，最终回归出关节点的坐标。该种输出方式具有较弱的鲁棒性，且在训练过程中对于结果的显示并不直观。

发明内容

本发明的目的在于：提供了基于端到端的人体关节点检测与分类方法，解决了现有的输出方式具有较弱的鲁棒性，且在训练过程中对于结果的显示并不直观的问题。

本发明采用的技术方案如下：

基于端到端的人体关节点检测与分类方法，包括依次进行的以下步骤：

S1、构建基于堆栈式沙漏型以及条件随机场理论的深度学习网络，并对该网络进行初始化操作；

S2、对网络参数进行训练，通过前向传播得到适应于人体姿态估计的网络权值参数；

S3、将预处理得到的图片输入到已经训练好的沙漏型神经网络中，通过前向传播得到相应关节点的热力图分布，再利用条件随机场模型强化各个节点之间的空间位置关系，最终得到每个节点出现的概率统计分布，将输出的预测结果利用预先设定的规则将关节点连接起来，就可以实现端到端的人体姿态估计。

考虑到适应多环境下的关节点回归，研究人员引入了热力图作为姿态估计中新的输出方式。由于热力图实际上就是用概率表达的形式来反映一个节点在该位置处出现的可能性，再经过高斯函数后就能得到相应的坐标信息，相对于传统直接回归出坐标的方法而言，其鲁棒性更高。基于端到端的人体姿态估计主要有以下几个特征：构建了基于金字塔残差模块堆栈而成的沙漏型主体模块以及条件随机场概率统计模型的深度学习网络。该网络除了融合多个尺度的特征信息外，还增强了人体各节点的空间相关性。本发明采用基于金字塔残差模块的堆栈式沙漏型网络对特征进行提取，通过不断的上下采样，提取多个尺度下的特征信息。再利用条件随机场该种概率图模型对空间信息提取的显著优势，对该网络输出的关节点热力图进行相应节点的概率分布统计，得到每个节点在该位置出现的情况。

进一步的，所述步骤S1中构建的深度学习网络包括堆栈模块以及条件随机场模型，整个网络结构包括依次连接的：图像输入端口、与图像输入端口连接的卷积层、一个金字塔残差池化模块和一个金字塔残差层，紧接着是由残差网络堆栈形成的沙漏型堆栈模块以及利用条件随机场判别模型实现的卷积层和一个全连接层。

进一步的，所述金字塔残差模块由两个部分并联组成：一个恒等映射模块，一个卷积模块；恒等映射层不改变原尺度信息，卷积模块由两个非线性卷积层、五种不同比例的下采样层以及一个上采样层构成。该部分在原始图片的尺度上又扩展出了5个不同的尺度信息，该种池化方式更为精细而且能够获得更多尺度的特征内容。

进一步的，所述堆栈式沙漏型模块由所述的基础沙漏型模块单元堆栈形成，所述基础沙漏型模块单元由两个部分并联构成：一个跳跃层，该层只由一个金字塔残差模块构成，另一部分由一个池化层、一个金字塔残差模块、一个上采样部分串接形成。该堆栈式沙漏型模块使用了4阶基础模块进行级联形成，4阶堆栈形成的模块结构能够得到不同分辨率下的特征图。

进一步的，所述步骤S3中利用条件随机场模型强化各个节点之间的空间位置关系，最终得到每个节点出现的概率统计分布，将输出的预测结果利用预先设定的规则将关节点连接起来，就可以实现端到端的人体姿态估计的方法包括：

S301、在网络后端利用条件随机场模型能够加强相邻人体节点空间位置的相关性；

S302、对堆栈式沙漏型模块产生的特征图进行概率统计分析，从而得到人体各节点的概率分布情况；

S303、将该概率分布经过Sigmoid函数，即可得到对应节点的在该位置出现的概率情况。

进一步的，所述预先设定的规则包括以下方法：

S304、将输出结果标签化，每一个输出对应一个标签，所述标签为人体各个部位；

S305、根据人体各个部位的实际连接关系得到各个标签之间的连接方式；

S306、标签之间按照步骤S302得到的连接方式就可以得到一个人体的骨骼连接结构。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

人体姿态估计过程最重要的就在于确认需要的人体关节点的位置信息。本发明提出的基于堆栈式沙漏型以及条件随机场理论的深度学习网络，解决了传统堆栈沙漏网络输出方差过大而难以优化的问题，能够利用网络得到的多尺度特征信息，以及通过条件随机场理论对相邻像素点之间空间位置相关性的加强，从而能够获得更高精度的估计效果。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明提出的基于堆栈式沙漏型以及条件随机场的深度学习网络对人体姿态估计实现的基本流程图；

图2是本发明中提出的基于堆栈式沙漏型以及条件随机场的深度学习网络结构模型图；

图3是本发明中提出的基于堆栈式沙漏型以及条件随机场的深度学习网络中金字塔残差模块示意图；

图4是本发明中提出的基于堆栈式沙漏型以及条件随机场的深度学习网络中堆栈式沙漏型模块的堆栈形式的示意图；

图5是本发明中提出的基于堆栈式沙漏型以及条件随机场的深度学习网络中用于计算各个人体节点概率分布的条件随机场模型的示意图；

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1至图5对本发明作详细说明。

实施例1

进一步的，所述步骤S3中利用条件随机场模型强化各个节点之间的空间位置关系，最终得到每个节点出现的概率统计分布，将输出的预测结果将关节点连接起来，就可以实现端到端的人体姿态估计的方法包括：

进一步的，所述预先设定的规则包括以下方法：

S304、将输出结果标签化，每一个输出对应一个标签，所述标签为人体各个部位，如标签一、二、三分别对应膑骨、腓骨和胫骨；

S305、根据人体各个部位的实际连接关系得到各个标签之间的连接方式，如膑骨、胫骨和腓骨依次连接；

S306、标签之间按照步骤S302得到的连接方式就可以得到一个人体的骨骼连接结构，即标签一、标签三和标签二依次连接。

本发明的工作原理/工作过程为：

根据本发明，基于金字塔残差模块以及条件随机场融合的堆栈沙漏网络，主要通过以下几个步骤来实现：

步骤1，构建基于堆栈式沙漏型以及条件随机场理论的网络模型，在输入层输入一个256x256的图像数据，即样本为待估计的图片。对网络参数进行初始化操作；

步骤2，对网络参数进行训练，初始学习速率设置为0.0007，在第150次时降低10％。通过前向传播训练得到各个网络层中的权值，从而得到适应人体姿态估计的网络权值参数，损失函数使用的是均方误差准则。利用误差信息进行反向传播更新网络权值；

步骤3，将预处理得到的图片，尺寸为256x256输入到已经训练好的“沙漏”型神经网络中，通过前向传播在得到相应节点的热力图分布，再利用条件随机场模型强化各个节点之间的空间位置关系，最终得到每个节点出现的概率统计分布，将输出的预测结果按照实现规定的法则，也就是按照逻辑顺序将关节点连接起来，就可以实现端到端的人体姿态估计。

具体地，基于堆栈式沙漏型以及条件随机场理论的网络模型主要由两个主体模块构成：堆栈模块以及条件随机场模型。整个网络结构为：一个卷积核为7x7的卷积层，一个输出分辨率为128x128的金字塔残差池化模块和一个将分辨率降低到64x64的金字塔残差模块。堆栈式“沙漏”型模块是由4阶基础堆栈模块级联产生并通过沙漏型的方式串接形成的一个完整模块。条件随机场判别模型用于对堆栈式沙漏型模块产生的热力图中对应的人体节点进行概率统计，从而获得任意一个节点的概率分布。,

具体地，金字塔残差模块由两个部分并联组成：一个恒等映射模块，一个卷积模块。恒等映射层不改变尺度信息，卷积模块由两个非线性卷积层、5种不同比例的下采样层以及一个上采样层构成。该部分在原始图片的尺度上又扩展出了5个不同的尺度信息，下采样比率为D_d＝2^(-d/4),其中d为第d级卷积模块，d＝0,..,4。卷积模块通过不断的上下采样从而结合了不同尺度下人体目标的特征信息，获得不同尺度下的语义信息。

具体地，堆栈式沙漏型模块由基础沙漏型模块单元堆栈形成，该基础模块由两个部分并联构成：一个恒等映射部分，该层只由一个金字塔残差模块构成。另一部分由一个池化层，一个金字塔残差模块，一个上采样部分串接形成。该堆栈式沙漏型模块使用了4阶基础模块进行级联形成，4阶堆栈形成的模块结构能够得到不同分辨率下的特征图。

具体地，在网络后端利用条件随机场理论模型对堆栈式沙漏型模块产生的特征图进行概率统计分析，从而得到人体各节点的概率分布情况。将该概率分布经过一个Sigmoid函数，即可得到一个0-1之间的数，其代表着任意一个节点在该位置出现的概率情况。

实施例2

本发明以MPII Human Pose Dataset中25000张图片作为训练和测试样本，将每张图片的中心位置作为身体估计位置。且对训练图片进行简单的尺度缩放、旋转、增加噪声等数据增广的预处理工作。

图1显示了本发明提出的基于堆栈式沙漏型以及条件随机场理论的深度学习网络训练及测试过程的基本流程图。如图1所示，在网络的训练阶段，首先要对图像进行预处理，将每个视频帧或者图像裁剪成256x256大小然后输入到网络中。对于训练阶段，首先初始化网络参数，设置初始学习率为0.0007，人体节点个数根据需要进行调整，此处设置的为16个。在正向传播过程中根据Softmax函数返回的损失函数值利用反向传播对参数进行修正。对于测试阶段，输入到在训练阶段得到的权值参数网络模型，得到16个关节点概率分布情况，再根据先前设定的准则，将各个关节点连接起来，得到结果图像。

图2显示了本发明提出的基于堆栈式沙漏型以及条件随机场理论的深度学习网络结构图。输入经过预处理的图片后进入第一个卷积层，该卷积层的卷积核为7x7，卷积核在图片上移动的步长为2，输出通道数为64。第二层为Batch Normalization层，对图片进行归一化处理。第三层为金字塔残差以及池化层，该层输入图片尺寸为128x128。第四层为金字塔残差层，通过这两层降低图片分辨率至64x64。紧接着级联2个堆栈式沙漏型网络，堆栈式沙漏网络的具体实施内容见图4说明，该部分输出为输入图片多尺度下的特征图。将特征图输入到最后一个卷积层中，根据条件随机场理论可以得到每个像素点位置出现关节点的概率分布。

图3显示了本发明提出的基于堆栈式沙漏型以及条件随机场理论的深度学习网络中金字塔残差模块结构示意图。网络分为两个主体：第一部分为恒等变换层，输出为输入数据；第二部分为卷积部分，该部分分为5个分支，每个分支除了下采样比率不同外，其他部分都相同，包括：两个批正则化层，两个Relu层，一个卷积核为1x1的卷积层，一个卷积核为3x3的卷积层以及一个上采样层(本发明使用的上采样方法为：最近邻方法)。在每一个分支中的下采样层对应的下采样比率为D_d＝2^(-d/4),其中d表示第d条分支。包括恒等映射层在内的六个分支通过线性组合在一起，可以表示为：

其中D表示金字塔级数D＝4；xⁱ和Wⁱ分别表示金字塔的输入特征、第i层的分类器，且Wⁱ满足:

由此可以得到下一层输入特征xⁱ⁺¹为：

xⁱ⁺¹＝xⁱ+F(xⁱ；Wⁱ)

图4显示了本发明提出的基于堆栈式沙漏型以及条件随机场理论的深度学习网络中堆栈式沙漏型模块的堆栈形式的示意图。一个完整的堆栈式沙漏型网络是由4阶基础模块堆栈形成。每一个基础模块包含两条分支：第一条分支负责将尺度变为原来的1/n,其中n为堆栈网络的阶数；第二条是保持原始尺度不变。以此类推，每一个堆栈式沙漏型网络可以得到四个尺度下的特征信息。在堆栈式沙漏型网络的基础模块中，降采样和上采样本发明中分别使用的是：Max pooling以及最近邻插值的方法。

图5显示了本发明提出的基于堆栈式沙漏型以及条件随机场理论的深度学习网络中条件随机场模型理论示意图。设特征图为f，隐含变量为b，需要得到任意一个节点z在该像素点出现的概率分布p(z|f，Θ)，该求解式子为：

其中且满足:

得到节点位置的概率分布输入到Sigmoid函数中：

其中Sigm函数为sigm(x)＝1/(1+e^-x)。即可得到任意位置(x,y)处为节点的概率。

以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.基于端到端的人体关节点检测与分类方法，其特征在于：包括依次进行的以下步骤：

2.根据权利要求1所述的基于端到端的人体关节点检测与分类方法，其特征在于：所述步骤S1中构建的深度学习网络包括堆栈模块以及条件随机场模型，整个网络结构包括依次连接的：图像输入端口、与图像输入端口连接的卷积层、一个金字塔残差池化模块和一个金字塔残差层，紧接着是由残差网络堆栈形成的沙漏型堆栈模块以及利用条件随机场判别模型实现的卷积层和一个全连接层。

3.根据权利要求2所述的基于端到端的人体关节点检测与分类方法，其特征在于：所述金字塔残差模块由两个部分并联组成：一个恒等映射模块，一个卷积模块；恒等映射层不改变原尺度信息，卷积模块由两个非线性卷积层、五种不同比例的下采样层以及一个上采样层构成。

4.根据权利要求3所述的基于端到端的人体关节点检测与分类方法，其特征在于：所述堆栈式沙漏型模块由基础沙漏型模块单元堆栈形成，所述基础沙漏型模块单元由两个部分并联构成：一个跳跃层，该层只由一个金字塔残差模块构成，另一部分由一个池化层、一个金字塔残差模块、一个上采样部分串接形成。

5.根据权利要求1所述的基于端到端的人体关节点检测与分类方法，其特征在于：所述步骤S3中利用条件随机场模型强化各个节点之间的空间位置关系，最终得到每个节点出现的概率统计分布，将输出的预测结果利用预先设定的规则将关节点连接起来，就可以实现端到端的人体姿态估计的方法包括：

6.根据权利要求1所述的基于端到端的人体关节点检测与分类方法，其特征在于：所述预先设定的规则包括以下方法：