CN107886089A

CN107886089A - 一种基于骨架图回归的三维人体姿态估计的方法

Info

Publication number: CN107886089A
Application number: CN201711310090.4A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-04-06

Abstract

本发明中提出的一种基于骨架图回归的三维人体姿态估计的方法，其主要内容包括：分割、回归和匹配，其过程为，先给定一个人的RGB图像，对于具有裁剪缩放和宽度尺的每个配置，采用编码器‑解码器架构解卷积生成前景骨架图和背景骨架图，接着骨架映射分别馈入单独的回归网络，采用骨架图作为输入并且输出三维姿势的假设，从而产生多个三维假设，最后为了匹配二维观测值，选择对二维联合检测具有最小投影误差的假设作为最终输出。本发明从骨架图单独训练回归网络，当与多个假设相结合时，能够在室内和野外数据集上实现较好的估计效果，大大减少了由于照明、遮挡等对结果造成的影响，在很大程度上提高了姿态估计的性能。

Description

一种基于骨架图回归的三维人体姿态估计的方法

技术领域

本发明涉及姿态估计领域，尤其是涉及了一种基于骨架图回归的三维人体姿态估计的方法。

背景技术

根据人体的图像或视频序列自动提取其中的人体姿态信息，是机器视觉领域的研究热点之一。利用人体姿态估计的方法，可以使得计算机系统根据摄像机系统拍摄的视频信息，提取出人体的姿态，然后根据姿态的变化对人体的行为进行分析和判断。这种方法如果能应用到传统的视频监控设备中，将帮助机器实现分析视频内容的功能，通过识别视频中人物的异常行为或危险行为而提示监管人员及时制止可疑或危险行为的发生，这将大大提高视频监控设备的使用效率，减少大量的人力、物力和财力。三维人体姿态估计还可以应用于开发肢体控制游戏，用运动感应手柄代替传统的机械手柄，使用户体验到更真实生动的游戏效果，这在人体动画、游戏、人机交互、虚拟现实和增强现实等领域均有着广阔的应用前景。除此之外，它可以通过捕捉人体运动，从而用于动画制作、医疗分析和工业测量与控制等行业，或者帮助运动员分析自身运动特征，有效制定训练计划；记录肢体损伤的病人肢体恢复情况，帮助医生制定治疗方法和康复计划等。然而，传统的三维人体姿态估计面临着训练数据不足的难题，同时，由于受到照明、遮挡等的影响，姿态估计效果往往不太理想。

本发明提出了一种基于骨架图回归的三维人体姿态估计的方法，先给定一个人的RGB图像，对于具有裁剪缩放和宽度尺的每个配置，采用编码器-解码器架构解卷积生成前景骨架图和背景骨架图，接着骨架映射分别馈入单独的回归网络，采用骨架图作为输入并且输出三维姿势的假设，从而产生多个三维假设，最后为了匹配二维观测值，选择对二维联合检测具有最小投影误差的假设作为最终输出。本发明从骨架图单独训练回归网络，当与多个假设相结合时，能够在室内和野外数据集上实现较好的估计效果，大大减少了由于照明、遮挡等对结果造成的影响，在很大程度上提高了姿态估计的性能。

发明内容

针对训练数据不足和遮挡等问题，本发明的目的在于提供一种基于骨架图回归的三维人体姿态估计的方法，先给定一个人的RGB图像，对于具有裁剪缩放和宽度尺的每个配置，采用编码器-解码器架构解卷积生成前景骨架图和背景骨架图，接着骨架映射分别馈入单独的回归网络，采用骨架图作为输入并且输出三维姿势的假设，从而产生多个三维假设，最后为了匹配二维观测值，选择对二维联合检测具有最小投影误差的假设作为最终输出。

为解决上述问题，本发明提供一种基于骨架图回归的三维人体姿态估计的方法，其主要内容包括：

(一)分割；

(二)回归；

(三)匹配。

其中，所述的基于骨架图回归的三维人体姿态估计的方法，给定一个人的RGB图像目标是输出关节数为K＝16的3D关节位置将问题分解为分割、回归和匹配三个步骤。

进一步地，所述的分割、回归和匹配，对于具有裁剪缩放c_i和宽度尺l_i的每个配置p_i＝{c_i,l_i}，通过解卷积网络Deconv_i(i＝1,…,n)生成前景骨架图和背景骨架图骨架映射分别馈入单独的回归网络R＝{Regression_i|i＝1,…,n}，其中，Regression_i采用骨架图作为输入并且输出3D姿势的假设Xⁱ，从而产生多个3D假设为了匹配二维观测值选择对二维联合检测具有最小投影误差的假设作为最终输出。

进一步地，所述的骨架图，骨架图在人体骨骼中的相邻关节之间画出一条宽度为l_i的线，并指定不同的颜色来区分身体部位；将胸部定义为根，再定义其它15个身体部位；骨架图是身体局部分割图，它可以根据身体各个部位中的关系对各个身体部位进行编码。

其中，所述的分割，采用编码器-解码器架构解卷积，从而生成骨架图；使用解卷积层替换第5池层之后的完全连接层；网络结构以224×224图像开始，并提取下采样过程中的特征；在这里只描述了res2c，res3d，res4f和res5c(残差网络的层)；最后去掉完全连接层；建立在第5池层上的传递模块处理特征映射，产生最终输出：一个三通道56×56的骨架图由重复的上采样块组成(初始权重设置为双线性上采样)，然后是残差模块；分割包括截断处理、宽度处理和遮挡处理。

进一步地，所述的截断处理，截断是由图像边界引起的人体关节的局部可见性，尤其对于野外三维人体姿态估计来说是一个挑战；由于缺乏图像证据，解卷积网络不确定是否绘制与裁剪的端点关节(即手腕或脚踝)相关联的片断；解决这个问题的一个标准方法是使用多重图像裁剪，将提供的数据集中的粗略人物尺度乘以重新缩放因子(即c_i∈{1.0,1.25,1.5})；二维联合标定好的真实数据在相应的裁剪窗口中被重新缩放；室内数据集不会被截断，并且裁剪尺寸c_i始终设置为1.0。

进一步地，所述的宽度处理，多尺度骨架图中，每个卷积层的比例尺小于感受域的骨架像素；只有感受野尺寸大于线宽度的卷积层才能捕捉身体部位的特征；因此，粗略分割(粗线宽度)和精细分割(细线宽度)以低级和高级特征的不同组合为特征。

进一步地，所述的遮挡处理，遮挡会阻碍准确的人体姿势估计；前景骨架图显示遮挡他人的身体部位，而背景骨架图显示被他人遮挡的部位；也就是说，骨架图模拟了两个重叠身体部位的遮挡关系；骨骼上的每个2D端点关节导致其朝向照相机光学中心的光线；假设3D点{X_u,Y_u,Z_u}对骨B_u、{X_v,Y_v,Z_v}对骨B_v产生相同的二维投影{x,y}；用id表示深度较小(Z方向靠近摄像机)的点，另一个为前景骨架图将B_id的颜色赋予像素{x,y}上；相比之下，背景骨架图指定骨骼的假设骨骼遮挡骨骼B_id；骨架图的这种固有的遮挡感知属性对于回归非常重要。

其中，所述的回归，受到RGB图像杂乱背景的干扰，3D人体姿态估计中一个长期的研究方向是从原始的RGB输入开始利用更好的特征；采用最先进的ResNet-50网络作为骨干网络；由于解卷积网络Deconv_i生成的骨架图为56×56，因此先将其重新缩放到224×224，然后连接在一起，作为Deconv_i的输入，并沿着下采样路径进行处理；最后完全连接层重新用于输出所有K关节的3D位置欧几里得距离损失适用于后向传播；多个三维预测是通过训练独立的回归网络为不同的骨架图输入。

其中，所述的匹配，现有多个三维姿态假设问题归结为选择最优假设作为最终的3D输出；最简单的方法是选择其投影与2D姿态检测结果最匹配的候选者；把Proj写成相机投影矩阵，把x写成二维姿态检测，找到最佳的三维姿态通过最小化再投影的误差：

使用预先训练的最先进的2D检测器堆叠沙漏网络来生成x。

附图说明

图1是本发明一种基于骨架图回归的三维人体姿态估计的方法的系统框架图。

图2是本发明一种基于骨架图回归的三维人体姿态估计的方法的骨架图。

图3是本发明一种基于骨架图回归的三维人体姿态估计的方法的分割。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于骨架图回归的三维人体姿态估计的方法的系统框架图。主要包括分割，回归和匹配。

基于骨架图回归的三维人体姿态估计的方法，给定一个人的RGB图像目标是输出关节数为K＝16的3D关节位置将问题分解为分割、回归和匹配三个步骤。

对于具有裁剪缩放c_i和宽度尺l_i的每个配置p_i＝{c_i,l_i}，通过解卷积网络Deconv_i(i＝1,…,n)生成前景骨架图和背景骨架图骨架映射分别馈入单独的回归网络R＝{Regression_i|i＝1,…,n}，其中，Regression_i采用骨架图作为输入并且输出3D姿势的假设Xⁱ，从而产生多个3D假设为了匹配二维观测值选择对二维联合检测具有最小投影误差的假设作为最终输出。

回归，受到RGB图像杂乱背景的干扰，3D人体姿态估计中一个长期的研究方向是从原始的RGB输入开始利用更好的特征；采用最先进的ResNet-50网络作为骨干网络；由于解卷积网络Deconv_i生成的骨架图为56×56，因此先将其重新缩放到224×224，然后连接在一起，作为Deconv_i的输入，并沿着下采样路径进行处理；最后完全连接层重新用于输出所有K关节的3D位置欧几里得距离损失适用于后向传播；多个三维预测是通过训练独立的回归网络为不同的骨架图输入。

匹配，现有多个三维姿态假设问题归结为选择最优假设作为最终的3D输出；最简单的方法是选择其投影与2D姿态检测结果最匹配的候选者；把Proj写成相机投影矩阵，把x写成二维姿态检测，找到最佳的三维姿态通过最小化再投影的误差：

使用预先训练的最先进的2D检测器堆叠沙漏网络来生成x。

图2是本发明一种基于骨架图回归的三维人体姿态估计的方法的骨架图。骨架图在人体骨骼中的相邻关节之间画出一条宽度为l_i的线，并指定不同的颜色来区分身体部位；将胸部定义为根，再定义其它15个身体部位；骨架图是身体局部分割图，它可以根据身体各个部位中的关系对各个身体部位进行编码。

图3是本发明一种基于骨架图回归的三维人体姿态估计的方法的分割。采用编码器-解码器架构解卷积，从而生成骨架图；使用解卷积层替换第5池层之后的完全连接层；网络结构以224×224图像开始，并提取下采样过程中的特征；在这里只描述了res2c，res3d，res4f和res5c(残差网络的层)；最后去掉完全连接层；建立在第5池层上的传递模块处理特征映射，产生最终输出：一个三通道56×56的骨架图由重复的上采样块组成(初始权重设置为双线性上采样)，然后是残差模块；分割包括截断处理、宽度处理和遮挡处理。

截断处理，截断是由图像边界引起的人体关节的局部可见性，尤其对于野外三维人体姿态估计来说是一个挑战；由于缺乏图像证据，解卷积网络不确定是否绘制与裁剪的端点关节(即手腕或脚踝)相关联的片断；解决这个问题的一个标准方法是使用多重图像裁剪，将提供的数据集中的粗略人物尺度乘以重新缩放因子(即c_i∈{1.0,1.25,1.5})；二维联合标定好的真实数据在相应的裁剪窗口中被重新缩放；室内数据集不会被截断，并且裁剪尺寸c_i始终设置为1.0。

宽度处理，多尺度骨架图中，每个卷积层的比例尺小于感受域的骨架像素；只有感受野尺寸大于线宽度的卷积层才能捕捉身体部位的特征；因此，粗略分割(粗线宽度)和精细分割(细线宽度)以低级和高级特征的不同组合为特征。

遮挡处理，遮挡会阻碍准确的人体姿势估计；前景骨架图显示遮挡他人的身体部位，而背景骨架图显示被他人遮挡的部位；也就是说，骨架图模拟了两个重叠身体部位的遮挡关系；骨骼上的每个2D端点关节导致其朝向照相机光学中心的光线；假设3D点{X_u,Y_u,Z_u}对骨B_u、{X_v,Y_v,Z_v}对骨B_v产生相同的二维投影{x,y}；用id表示深度较小(Z方向靠近摄像机)的点，另一个为前景骨架图将B_id的颜色赋予像素{x,y}上；相比之下，背景骨架图指定骨骼的假设骨骼遮挡骨骼B_id；骨架图的这种固有的遮挡感知属性对于回归非常重要。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于骨架图回归的三维人体姿态估计的方法，其特征在于，主要包括分割(一)；回归(二)；匹配(三)。

2.基于权利要求书1所述的基于骨架图回归的三维人体姿态估计的方法，其特征在于，给定一个人的RGB图像目标是输出关节数为K＝16的3D关节位置将问题分解为分割、回归和匹配三个步骤。

3.基于权利要求书2所述的分割、回归和匹配，其特征在于，对于具有裁剪缩放c_i和宽度尺l_i的每个配置p_i＝{c_i,l_i}，通过解卷积网络Deconv_i(i＝1,…,n)生成前景骨架图和背景骨架图骨架映射分别馈入单独的回归网络R＝{Regression_i|i＝1,…,n}，其中，Regression_i采用骨架图作为输入并且输出3D姿势的假设Xⁱ，从而产生多个3D假设为了匹配二维观测值选择对二维联合检测具有最小投影误差的假设作为最终输出。

4.基于权利要求书3所述的骨架图，其特征在于，骨架图在人体骨骼中的相邻关节之间画出一条宽度为l_i的线，并指定不同的颜色来区分身体部位；将胸部定义为根，再定义其它15个身体部位；骨架图是身体局部分割图，它可以根据身体各个部位中的关系对各个身体部位进行编码。

5.基于权利要求书1所述的分割(一)，其特征在于，采用编码器-解码器架构解卷积，从而生成骨架图；使用解卷积层替换第5池层之后的完全连接层；网络结构以224×224图像开始，并提取下采样过程中的特征；在这里只描述了res2c，res3d，res4f和res5c(残差网络的层)；最后去掉完全连接层；建立在第5池层上的传递模块处理特征映射，产生最终输出：一个三通道56×56的骨架图由重复的上采样块组成(初始权重设置为双线性上采样)，然后是残差模块；分割包括截断处理、宽度处理和遮挡处理。

6.基于权利要求书5所述的截断处理，其特征在于，截断是由图像边界引起的人体关节的局部可见性，尤其对于野外三维人体姿态估计来说是一个挑战；由于缺乏图像证据，解卷积网络不确定是否绘制与裁剪的端点关节(即手腕或脚踝)相关联的片断；解决这个问题的一个标准方法是使用多重图像裁剪，将提供的数据集中的粗略人物尺度乘以重新缩放因子(即c_i∈{1.0,1.25,1.5})；二维联合标定好的真实数据在相应的裁剪窗口中被重新缩放；室内数据集不会被截断，并且裁剪尺寸c_i始终设置为1.0。

7.基于权利要求书5所述的宽度处理，其特征在于，多尺度骨架图中，每个卷积层的比例尺小于感受域的骨架像素；只有感受野尺寸大于线宽度的卷积层才能捕捉身体部位的特征；因此，粗略分割(粗线宽度)和精细分割(细线宽度)以低级和高级特征的不同组合为特征。

8.基于权利要求书5所述的遮挡处理，其特征在于，遮挡会阻碍准确的人体姿势估计；前景骨架图显示遮挡他人的身体部位，而背景骨架图显示被他人遮挡的部位；也就是说，骨架图模拟了两个重叠身体部位的遮挡关系；骨骼上的每个2D端点关节导致其朝向照相机光学中心的光线；假设3D点{X_u,Y_u,Z_u}对骨B_u、{X_v,Y_v,Z_v}对骨B_v产生相同的二维投影{x,y}；用id表示深度较小(Z方向靠近摄像机)的点，另一个为前景骨架图将B_id的颜色赋予像素{x,y}上；相比之下，背景骨架图指定骨骼的假设骨骼遮挡骨骼B_id；骨架图的这种固有的遮挡感知属性对于回归非常重要。

9.基于权利要求书1所述的回归(二)，其特征在于，受到RGB图像杂乱背景的干扰，3D人体姿态估计中一个长期的研究方向是从原始的RGB输入开始利用更好的特征；采用最先进的ResNet-50网络作为骨干网络；由于解卷积网络Deconv_i生成的骨架图为56×56，因此先将其重新缩放到224×224，然后连接在一起，作为Deconv_i的输入，并沿着下采样路径进行处理；最后完全连接层重新用于输出所有K关节的3D位置欧几里得距离损失适用于后向传播；多个三维预测是通过训练独立的回归网络为不同的骨架图输入。

10.基于权利要求书1所述的匹配(三)，其特征在于，现有多个三维姿态假设问题归结为选择最优假设作为最终的3D输出；最简单的方法是选择其投影与2D姿态检测结果最匹配的候选者；把Proj写成相机投影矩阵，把x写成二维姿态检测，找到最佳的三维姿态通过最小化再投影的误差：

使用预先训练的最先进的2D检测器堆叠沙漏网络来生成x。