CN108564022A

CN108564022A - 一种基于定位分类回归网络的多人物姿势检测方法

Info

Publication number: CN108564022A
Application number: CN201810313810.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-21

Abstract

本发明中提出的一种基于定位分类回归网络的多人物姿势检测方法，其主要内容包括：定位、分类、回归和迭代估计，其过程为，先通过在候选框中定位K个假设姿势类别的集合(表示为锚点姿势)来获得姿势建议，然后使用分类器对每个姿势建议进行评分，并针对每个定位单独地进行回归，通过计算锚点姿势特定回归，估计真实人体姿势和姿势建议之间的差异，最后通过对相邻姿态假设进行积分获得姿态估计。本发明通过对相邻的姿势假设进行积分来获得最终的姿势估计，提高了二维和三维姿势估计的性能，使检测结果更加准确可靠。

Description

一种基于定位分类回归网络的多人物姿势检测方法

技术领域

本发明涉及姿势检测领域，尤其是涉及了一种基于定位分类回归网络的多人物姿势检测方法。

背景技术

人类姿势的识别和检测是机器视觉领域的一大研究热点，被广泛应用在人机交互、行为分析、多媒体应用和运动科学等领域。近年来，随着数码相机、智能手机、监控摄像头等的普及，数字相片和视频数据急剧增长，其中人类活动是这些数据中获得的最主要内容。有效处理和理解数据中的人类活动，将对人们的研究和记录等带来极大的方便。人类姿势的识别和检测可以通过结合语音输入和麦克风输入实现人机交互，增强玩家的游戏体验。通过对监控视频中的人物画面进行姿势检测，可以协助安保人员检测人员密集的公共场所中出现的危险行为、盗窃行为等，有效维护公共场所的安全和秩序。对于运动员和舞者，可以通过姿势检测技术记录相应姿势，通过大量数据记录和分析，总结出更具有针对性训练方法。然而现有方法仍然存在由于人物被图像边界部分遮挡、人与人之间互相遮挡而不能准确识别和检测的问题。

本发明提出了一种基于定位分类回归网络的多人物姿势检测方法，先通过在候选框中定位K个假设姿势类别的集合(表示为锚点姿势)来获得姿势建议，然后使用分类器对每个姿势建议进行评分，并针对每个定位单独地进行回归，通过计算锚点姿势特定回归，估计真实人体姿势和姿势建议之间的差异，最后通过对相邻姿态假设进行积分获得姿态估计。本发明通过对相邻的姿势假设进行积分来获得最终的姿势估计，提高了二维和三维姿势估计的性能，使检测结果更加准确可靠。

发明内容

针对由于人物被图像边界部分遮挡、人与人之间互相遮挡而不能准确识别和检测的问题，本发明的目的在于提供一种基于定位分类回归网络的多人物姿势检测方法，先通过在候选框中定位K个假设姿势类别的集合(表示为锚点姿势)来获得姿势建议，然后使用分类器对每个姿势建议进行评分，并针对每个定位单独地进行回归，通过计算锚点姿势特定回归，估计真实人体姿势和姿势建议之间的差异，最后通过对相邻姿态假设进行积分获得姿态估计。

为解决上述问题，本发明提供一种基于定位分类回归网络的多人物姿势检测方法，其主要内容包括：

(一)定位；

(二)分类；

(三)回归；

(四)迭代估计。

其中，所述的定位分类回归网络，人的姿势(p,P)被定义为2D姿势p(即图像中每个关节的像素坐标)和3D姿势P(即每个关节相对于身体中心的3D位置，以米为单位)；考虑13个关节的姿势，假设给定一组固定的K个2D-3D锚点姿势，用{(a_k,A_k)}_k＝1..K表示；在本方法中，它们是通过对大量姿态进行聚类，并将每个聚类的中心用作锚点姿态获得的。

进一步地，所述的定位分类回归，给定一幅图像，首先计算卷积特征；定位组件，在姿势检测的上下文中也称为姿态建议网络，输出姿势建议的列表；姿态建议由一组假设的锚点姿势候选位置组成；接下来，感兴趣区域(RoI)汇聚层聚合每个候选区域内的特征；在两个全连接层之后，网络被分成两个部分；分类分支估计每个位置的锚点姿势正确的概率；回归分支计算锚点姿势特定回归，估计真实人体姿势和姿势建议之间的差异；损失为以下三项损失的总和：

卷积特征在三个组件之间共享，并且分类和回归分支也共享来自两个全连接层的特征；该体系结构允许进行端点到端点的训练，以便对人类进行定位并估计其2D-3D姿态。

其中，所述的定位，姿势建议网络输出一组N×K姿势建议，即通过将K个定位放置在由姿势建议网络产生的N个边界框中获得的2D-3D姿势假设；这些姿态建议将分别由分类和回归分支进行评分和提炼；定位组件的损失是姿势建议网络的损失：在训练过程中，每个边界框B都标有一个标定好的真实数据分类c_B∈{0…K}和一个姿态回归目标姿势建议网络包括姿势建议整合和姿态建议集成。

进一步地，所述的边界框，如果边界框的联合交叉点(IoU)低于0.5且具有所有真实姿势，则标定真值类别c_B被设置为0(对应于背景)；使用姿势的所有关节的边界框计算框和姿势之间的IoU，具有10％的固定附加边界；如果B与几个姿势有很高的重叠，则令(p,P)为具有最高IoU的标定真实姿势；标签c_B＝argmin_kD_3D(A_k,P)，其中D_3D(·,·)是以躯干为中心的定向3D姿势之间的距离；这个标签将被分类分支使用；如果标签cB不为零，则定义回归分支中使用的姿态回归目标，边界框B的其中和表示根据框坐标在[0..1]范围内归一化的2D姿态和锚点姿势；归一化使得回归独立于图像中人物和边界框的比例和位置。

进一步地，所述的姿势建议整合，定位分类回归网络输出一组精确的姿势建议和相关的分类得分s(p,P)＝u(c_B)；边界框B外的一个或多个关节的姿势建议完全在框内，因此更可能准确估计，建议使用以下方法重新提交建议：

在边界框B内函数f(p_i,B)＝1，并且在之外逐渐减小，这是关节j_i到边界框B的欧几里得距离；实际中，σ_b被设置为25个像素；如果所有关节都B内，则s′＝s。

进一步地，所述的姿态建议集成，首先将二维图像中具有足够空间重叠的姿势建议进行分组，即对于2D关节周围的边界框高于特定阈值的IoU；在图像中选出最高得分建议，并确定所有与这个最高得分建议充分重叠的建议；重复这一步与剩下的姿势建议及其得分最高的元素，直到没有姿势建议；所得到的组在空间重叠方面是一致的，但可以由不同的3D姿态组成，因此需要识别3D姿势空间中的模式；设为一组中的姿势建议，每个姿势建议的分类评分为s(p,P)；首先选择得分最高的建议，即然后，选择组中的姿势建议的值，其中P^*的3D距离D_3D低于阈值T_3D：

姿态建议集成由2D和3D阈值分别参数化，即IoU和T_3D；然后，通过对模式中的二维姿态进行平均，从而得到最终二维姿态p(以及类似的三维姿态)：

其中，S是各个分数的总和，即这个姿势p的分数被设置为S，这导致具有多个姿势建议的姿势得分更高；重复这个过程，从未被模式覆盖的最高得分姿态开始。

其中，所述的分类，分类组件旨在为每个边界框B预测最接近的锚点姿态，即正确的标签；为每个锚点姿态(和背景类)分配每个边界框的概率；令u为网络估计的概率分布，由RoI池之后的三个全连接层获得，其次是Softmax；

分类损失使用真实类的标准对数损失定义。

其中，所述的回归，回归组件旨在提炼位于该区域建议中的粗定位点；本方法的特异性在于回归是锚点姿态特定的，并且针对每个锚点姿态独立地学习回归器；在与分类分支共享的两个全连接层之后，通过使用全连接层来获得回归输出v；v的维数等于(K+1)×5×#joints，其中5反映2D和3D坐标的分量；用表示v的子矢量，对应于锚点姿态c_B的回归；回归损失定义为：

其中，‖·‖_s是平滑L1损失；

异常值较不敏感的L2损失的稳定版本如上所示。

其中，所述的迭代估计，提出一个回归和分类被迭代估计和改进的架构变体；在定位分类回归网络的末端添加多个层，使用两个全连接层来获得分类和回归的第一估计，这两个层在两个任务之间共享，然后是每个任务的连接层；首次估算的结果与汇集到RoI的特征相结合，以改进估算；更详细地说，将这些第一分类和回归的输出连接起来并馈送到全连接层，以获得独立于K的2048维固定表示；然后，将该特征向量与集中在RoI上的卷积特征相连接，将其馈送到与初始估计相似的网络体系结构：两个全连接层，接着是用于分类的另一层，另一层用于回归；在训练期间的每次估计都会使用损失，而最后的估计是在测试时间进行的。

附图说明

图1是本发明一种基于定位分类回归网络的多人物姿势检测方法的系统框架图。

图2是本发明一种基于定位分类回归网络的多人物姿势检测方法的姿势建议集成。

图3是本发明一种基于定位分类回归网络的多人物姿势检测方法的回归。

图4是本发明一种基于定位分类回归网络的多人物姿势检测方法的迭代估计。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于定位分类回归网络的多人物姿势检测方法的系统框架图。主要包括定位，分类，回归，迭代估计。

定位分类回归网络，人的姿势(p,P)被定义为2D姿势p(即图像中每个关节的像素坐标)和3D姿势P(即每个关节相对于身体中心的3D位置，以米为单位)；考虑13个关节的姿势，假设给定一组固定的K个2D-3D锚点姿势，用{(a_k,A_k)}_k＝1..K表示；在本方法中，它们是通过对大量姿态进行聚类，并将每个聚类的中心用作锚点姿态获得的。

给定一幅图像，首先计算卷积特征；定位组件，在姿势检测的上下文中也称为姿态建议网络，输出姿势建议的列表；姿态建议由一组假设的锚点姿势候选位置组成；接下来，感兴趣区域(RoI)汇聚层聚合每个候选区域内的特征；在两个全连接层之后，网络被分成两个部分；分类分支估计每个位置的锚点姿势正确的概率；回归分支计算锚点姿势特定回归，估计真实人体姿势和姿势建议之间的差异；损失为以下三项损失的总和：

定位，姿势建议网络输出一组N×K姿势建议，即通过将K个定位放置在由姿势建议网络产生的N个边界框中获得的2D-3D姿势假设；这些姿态建议将分别由分类和回归分支进行评分和提炼；定位组件的损失是姿势建议网络的损失：在训练过程中，每个边界框B都标有一个标定好的真实数据分类c_B∈{0…K}和一个姿态回归目标姿势建议网络包括姿势建议整合和姿态建议集成。

如果边界框的联合交叉点(IoU)低于0.5且具有所有真实姿势，则标定真值类别c_B被设置为0(对应于背景)；使用姿势的所有关节的边界框计算框和姿势之间的IoU，具有10％的固定附加边界；如果B与几个姿势有很高的重叠，则令(p,P)为具有最高IoU的标定真实姿势；标签c_B＝argmin_kD_3D(A_k,P)，其中D_3D(·,·)是以躯干为中心的定向3D姿势之间的距离；这个标签将被分类分支使用；如果标签c_B不为零，则定义回归分支中使用的姿态回归目标，边界框B的其中和表示根据框坐标在[0..1]范围内归一化的2D姿态和锚点姿势；归一化使得回归独立于图像中人物和边界框的比例和位置。

定位分类回归网络输出一组精确的姿势建议和相关的分类得分s(p,P)＝u(c_B)；边界框B外的一个或多个关节的姿势建议完全在框内，因此更可能准确估计，建议使用以下方法重新提交建议：

分类组件旨在为每个边界框B预测最接近的锚点姿态，即正确的标签；为每个锚点姿态(和背景类)分配每个边界框的概率；令u为网络估计的概率分布，由RoI池之后的三个全连接层获得，其次是Softmax；

分类损失使用真实类的标准对数损失定义。

图2是本发明一种基于定位分类回归网络的多人物姿势检测方法的姿势建议集成。首先将二维图像中具有足够空间重叠的姿势建议进行分组，即对于2D关节周围的边界框高于特定阈值的IoU；在图像中选出最高得分建议，并确定所有与这个最高得分建议充分重叠的建议；重复这一步与剩下的姿势建议及其得分最高的元素，直到没有姿势建议；所得到的组在空间重叠方面是一致的，但可以由不同的3D姿态组成，因此需要识别3D姿势空间中的模式；设为一组中的姿势建议，每个姿势建议的分类评分为s(p,P)；首先选择得分最高的建议，即然后，选择组中的姿势建议的值，其中P^*的3D距离D_3D低于阈值T_3D：

图3是本发明一种基于定位分类回归网络的多人物姿势检测方法的回归。回归组件旨在提炼位于该区域建议中的粗定位点；本方法的特异性在于回归是锚点姿态特定的，并且针对每个锚点姿态独立地学习回归器；在与分类分支共享的两个全连接层之后，通过使用全连接层来获得回归输出v；v的维数等于(K+1)×5×#joints，其中5反映2D和3D坐标的分量；用表示v的子矢量，对应于锚点姿态c_B的回归；回归损失定义为：

其中，‖·‖_S是平滑L1损失；

异常值较不敏感的L2损失的稳定版本如上所示。

图4是本发明一种基于定位分类回归网络的多人物姿势检测方法的迭代估计。提出一个回归和分类被迭代估计和改进的架构变体；在定位分类回归网络的末端添加多个层，使用两个全连接层来获得分类和回归的第一估计，这两个层在两个任务之间共享，然后是每个任务的连接层；首次估算的结果与汇集到RoI的特征相结合，以改进估算；更详细地说，将这些第一分类和回归的输出连接起来并馈送到全连接层，以获得独立于K的2048维固定表示；然后，将该特征向量与集中在RoI上的卷积特征相连接，将其馈送到与初始估计相似的网络体系结构：两个全连接层，接着是用于分类的另一层，另一层用于回归；在训练期间的每次估计都会使用损失，而最后的估计是在测试时间进行的。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于定位分类回归网络的多人物姿势检测方法，其特征在于，主要包括定位(一)；分类(二)；回归(三)；迭代估计(四)。

2.基于权利要求1所述的定位分类回归网络，其特征在于，人的姿势(p,P)被定义为2D姿势p(即图像中每个关节的像素坐标)和3D姿势P(即每个关节相对于身体中心的3D位置，以米为单位)；考虑13个关节的姿势，假设给定一组固定的K个2D-3D锚点姿势，用{(a_k,A_k)}_k＝1..K表示；在本方法中，它们是通过对大量姿态进行聚类，并将每个聚类的中心用作锚点姿态获得的。

3.基于权利要求2所述的定位分类回归，其特征在于，给定一幅图像，首先计算卷积特征；定位组件，在姿势检测的上下文中也称为姿态建议网络，输出姿势建议的列表；姿态建议由一组假设的锚点姿势候选位置组成；接下来，感兴趣区域(RoI)汇聚层聚合每个候选区域内的特征；在两个全连接层之后，网络被分成两个部分；分类分支估计每个位置的锚点姿势正确的概率；回归分支计算锚点姿势特定回归，估计真实人体姿势和姿势建议之间的差异；损失为以下三项损失的总和：

4.基于权利要求1所述的定位(一)，其特征在于，姿势建议网络输出一组N×K姿势建议，即通过将K个定位放置在由姿势建议网络产生的N个边界框中获得的2D-3D姿势假设；这些姿态建议将分别由分类和回归分支进行评分和提炼；定位组件的损失是姿势建议网络的损失：在训练过程中，每个边界框B都标有一个标定好的真实数据分类c_B∈{0…K}和一个姿态回归目标姿势建议网络包括姿势建议整合和姿态建议集成。

5.基于权利要求4所述的边界框，其特征在于，如果边界框的联合交叉点(IoU)低于0.5且具有所有真实姿势，则标定真值类别c_B被设置为0(对应于背景)；使用姿势的所有关节的边界框来计算边界框和姿势之间的IoU，其中有10％的固定附加边界；如果B与几个姿势有很高的重叠，则令(p,P)为具有最高IoU的标定真实姿势；标签c_B＝argmin_k D_3D(A_k,P)，其中D_3D(·,·)是以躯干为中心的定向3D姿势之间的距离；这个标签将被分类分支使用；如果标签c_B不为零，则定义回归分支中使用的姿态回归目标，边界框B的其中和表示根据框坐标在[0..1]范围内归一化的2D姿态和锚点姿势；归一化使得回归独立于图像中人物和边界框的比例和位置。

6.基于权利要求4所述的姿势建议整合，其特征在于，定位分类回归网络输出一组精确的姿势建议和相关的分类得分s(p,P)＝u(c_B)；边界框B外的一个或多个关节的姿势建议完全在框内，因此更可能准确估计，建议使用以下方法重新提交建议：

7.基于权利要求4所述的姿态建议集成，其特征在于，首先将二维图像中具有足够空间重叠的姿势建议进行分组，即对于2D关节周围的边界框高于特定阈值的IoU；在图像中选出最高得分建议，并确定所有与这个最高得分建议充分重叠的建议；重复这一步与剩下的姿势建议及其得分最高的元素，直到没有姿势建议；所得到的组在空间重叠方面是一致的，但可以由不同的3D姿态组成，因此需要识别3D姿势空间中的模式；设为一组中的姿势建议，每个姿势建议的分类评分为s(p,P)；首先选择得分最高的建议，即然后，选择组中的姿势建议的值，其中P*的3D距离D_3D低于阈值T_3D：

8.基于权利要求1所述的分类(二)，其特征在于，分类组件旨在为每个边界框B预测最接近的锚点姿态，即正确的标签；为每个锚点姿态(和背景类)分配每个边界框的概率；令u为网络估计的概率分布，由RoI池之后的三个全连接层获得，其次是Softmax；

分类损失使用真实类的标准对数损失定义。

9.基于权利要求1所述的回归(三)，其特征在于，回归组件旨在提炼位于该区域建议中的粗定位点；本方法的特异性在于回归是锚点姿态特定的，并且针对每个锚点姿态独立地学习回归器；在与分类分支共享的两个全连接层之后，通过使用全连接层来获得回归输出v；v的维数等于(K+1)×5×#joints，其中5反映2D和3D坐标的分量；用表示v的子矢量，对应于锚点姿态c_B的回归；回归损失定义为：

其中，‖·‖_S是平滑L1损失；

异常值较不敏感的L2损失的稳定版本如上所示。

10.基于权利要求1所述的迭代估计(四)，其特征在于，提出一个回归和分类被迭代估计和改进的架构变体；在定位分类回归网络的末端添加多个层，使用两个全连接层来获得分类和回归的第一估计，这两个层在两个任务之间共享，然后是每个任务的连接层；首次估算的结果与汇集到RoI的特征相结合，以改进估算；更详细地说，将这些第一分类和回归的输出连接起来并馈送到全连接层，以获得独立于K的2048维固定表示；然后，将该特征向量与集中在RoI上的卷积特征相连接，将其馈送到与初始估计相似的网络体系结构：两个全连接层，接着是用于分类的另一层，另一层用于回归；在训练期间的每次估计都会使用损失，而最后的估计是在测试时间进行的。