CN112329723A

CN112329723A - 一种基于双目相机的多人人体3d骨骼关键点定位方法

Info

Publication number: CN112329723A
Application number: CN202011353130.5A
Authority: CN
Inventors: 叶平; 王树义
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-05

Abstract

本发明提供一种基于双目相机的多人人体3D骨骼关键点定位方法，该方法主要由双目相机图像极线矫正，多人人体2D骨骼关键点检测，人体头部区域特征描述及匹配，使用双目测距的方法对匹配的2D人体骨骼关键点对进行3D定位等几个步骤构成。本发明采用双目相机来进行多人人体骨骼关键点的3D定位，有效地降低了多人人体3D骨骼关键点定位系统的复杂度。根据双目立体匹配的原理，使用卷积神经网络设计了一个像素邻域特征映射匹配算法，有效地降低了人体特征描述算法的复杂度且保证了双目相机下人体匹配的鲁棒性，使得多人人体3D骨骼关键点定位更加精准高效。

Description

一种基于双目相机的多人人体3D骨骼关键点定位方法

技术领域

本发明涉及智能安防领域，特别涉及一种基于双目相机的多人人体3D骨骼关键点定位方法。

背景技术

人体骨骼关键点检测一直是计算机视觉、人工智能和模式识别等热门研究方向，在人机交互，人体动作行为分析，虚拟现实，安防监控等领域有着十分广泛的应用。基于计算机视觉的人体骨骼关键点检测技术可以分为2D人体骨骼关键点检测和3D人体骨骼关键点定位，其中3D的骨骼关键点定位一直是计算机视觉领域的难点。现有的基于计算机视觉3D骨骼关键点定位技术主要分为基于可分为多视角和基于单目预测的方法。基于多视角的3D骨骼关键点定位方法由于其检测系统复杂，搭建成本较高，不适用于广泛的商业应用；基于单目预测的3D骨骼关键点定位方法精度较差且由于缺少尺度信息，无法很好地泛化到新的场景中。

随着双目相机行业的发展，双目相机成本越来越低，且通过双目相机可以得到场景中较精准的3D信息。针对现有多视角的3D人体关键点定位系统搭建复杂，成本较高的问题，本文提出了一种基于双目相机的人体骨骼关键点定位的方法，可以在不使用深度图的情况下低成本地获取相机视野内鲁棒的多人人体3D关键点信息，为后续人体跟踪，人体动作识别打好基础，有良好的商业前景。

发明内容

本发明的目的是提供一种基于双目相机的多人人体3D骨骼关键点定位方法，通过双目相机采集场景的左右目图像，通过2D多人人体骨骼关键点检测技术检测出场景内的人体的2D关键点，并通过自主设计的关键点匹配算法对人体进行匹配，得到左右目图像中各个人体关键点的匹配点对，最后通过双目测距的方式定位场景内所有人体骨骼关键点的3D信息，实现多人人体3D骨骼关键点定位功能

为了达到上述目的，一种基于双目相机的多人人体3D骨骼关键点定位方法，包含步骤：

步骤S1、使用双目相机获取符合平行极线假设的双目RGB左右图像；

步骤S2、使用2D多人人体骨骼关键点检测算法检测出双目相机左右图中的2D人体骨骼关键点；

步骤S3、将人体特征定义为人体头部关键点区域的邻域特征，使用像素邻域特征映射算法将检测到的人体头部区域进行特征映射；

步骤S4、度量双目相机左右图像中每个人的人头区域特征的相似度并进行人体匹配；

步骤S5、根据匹配到的人体2D关键点对，使用双目测距的方法定位人体骨骼关键点3D坐标。

步骤S1中通过使用双目相机获取双目图像，根据双目相机的相机内外参数对双目图像进行平行极线矫正，使其符合平行极线假设，最终获取符合平行极线假设的双目图像。

步骤S2具体过程为：使用基于CenterNet多人人体2D骨骼关键点检测框架和HR-Net多分辨特征提取网络的融合算法对双目相机左右目图像进行2D人体骨骼关键点检测，得到左右图像中每个人的人体关键点在图像中的坐标[u_i，v_i]。

步骤S3中具体包含：

S31、根据步骤S2中检测到的每个人的2D骨骼关键点，选取头部关键点区域作为人体特征的描述区域，保证人体特征的唯一性；根据每个人的2D人体骨骼关键点的分布范围，构造出粗略的人体包围框，根据左右图中人体包围框的宽度均值W作为头部关键点特征区域大小。

S32、基于卷积神经网络，训练一个像素邻域特征映射及特征匹配的算法。该算法的训练流程为：

S321、训练数据选择KITTI-Stereo数据集作为训练源数据，还需要选择特征相似度度量方法，定义正负样本对选取方式及正负样本对相似度标签的定义。

选用以点积为表现形式的相关性距离作为特征的相似度度量方法：

a·b＝|a||b|cosθ

正负样本及相似度标签定义的方法如下：

以左图中某点为源像素块，在右图中根据KITTI数据集的Groundtruth视差值定义目标像素块与源像素块是否为正样本，具体的定义方法为：将在源像素块视差真值的3像素误差内的目标像素块定义为正样本，其他的定义为负样本，根据点积距离的特性，特征越相似，值越趋近于1，特征越不相似，值越趋近于0，故将正样本标签定义为1，负样本标签定义为0。

S322、特征提取网络部分，选择关键点25＊25的邻域和13＊13的邻域作为输入，通过多分辨率输入提高像素点邻域的特征丰富度，13＊13的像素邻域分支使用6层无padding的3＊3卷积，最终得到1＊64维的特征；25＊25邻域分支使用6层膨胀度为2的无padding的3＊3膨胀卷积，最终得到1＊64维的特征，对两个分支得到的特征进行相加，得到最终的特征。

S323、在网络的监督部分，直接监督输入样本对经过网络生成的特征的点积距离，使用L2损失函数最小化相似度预测量

和lable的误差：

S33、最后将每个人体头部关键点周围W＊W的邻域像素块resize到25＊25，将头部关键点W/2大小的邻域resize到13＊13送入特征映射网络，得到双目相机左右图中每个人头部关键点区域的特征映射。

步骤S4中具体包括：

经过步骤S3后，得到双目相机左右图中所有人体头部区域特征映射。将左图中检测到的k个人的头部关键点区域的特征和右图中检测到的k个人的头部关键点使用点积距离计算公式进行相似度度量，最后使用二分匹配的方法求得k对匹配的人体，根据头部关键点相关联的人体骨骼关键点坐标，可以求得k对人体骨骼关键点匹配点对。

步骤S5具体包括：

经过步骤S4后，得到双目相机左右图中k对人体骨骼关键点对，以第i个关键点为例，计算对应关键点对的视差值d_i，根据双目相机的基线

b和相机内参中的焦距f，可根据下式计算出左图中某关键点对应的深度值Z_i:

最终可得到相机视野内检测到的所有人的2D人体关键点在像素坐标系下每个关键点对应的坐标[u_i，v_i，Z_i]，完成多人人体3D骨骼关键点的定位。

本发明的优点有：

本发明采用双目相机对多人人体骨骼关键点进行3D定位，相较于单目预测的方案的场景泛化能力不足，使用双目相机能稳定的获得不同场景下的3D信息，所得的3D人体骨骼关键点精度更高。相较于多视角的方案，本方案在定位精度一致的情况下，定位系统搭建复杂度大大降低，在商用场景下成本更低。使用本发明可以以较低的成本在不同场景下获得准确的多人人体3D骨骼关键点，在安防，人机交互，虚拟现实领域有极大的应用价值。

附图说明

为了更清楚地说明本发明技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图：

图1为本发明的基于双目相机的多人人体3D骨骼关键点定位方法流程示意图；

图2为本发明的实施例中中对双目相机中左右目图像进行平行极线矫正的效果对比图；

图3为本发明的实施例中，通过多人人体2D骨骼关键点检测算法从输入图片中检测出的2D人体骨骼关键点及骨骼关键点连接示意图；

图4为像素点邻域特征映射及像素点匹配示意图；

图5为本发明的实施例中，通过完成匹配的2D骨骼关键点检测结果得到的3D人体骨骼关键点及关键点连接可视化样例。

具体实施方式

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

根据本发明的具体实施步骤，具体实施如下：

步骤S1、首先使用双目极线平行矫正算法对从双目相机中获取的左右目图像进行双目极线矫正，使其符合平行极线假设，矫正前后对比效果如图2所示，图2上半部分为矫正前的双目图像，下半部分为矫正后的双目图像。

步骤S2、使用基于CenterNet多人人体2D骨骼关键点检测框架和HR-Net多分辨特征提取网络的融合算法对双目相机左右目图像进行2D人体骨骼关键点检测，得到左右图像中每个人的人体关键点在图像中的坐标[u_i，v_i]，该步骤效果展示样例如图3所示。

步骤S4、度量双目相机左右图像中每个人的人头区域特征的相似度并进行人体匹配，相似度计算示意图如图4所示；

步骤S5、根据匹配到的人体2D关键点对，使用双目测距的方法定位人体骨骼关键点3D坐标，最终的效果展示样例如图5所示。

Claims

1.一种基于双目相机的多人人体3D骨骼关键点定位方法，其特征在于，具体按照以下步骤实施：

步骤S2、使用多人人体2D骨骼关键点检测算法检测出双目相机左右图中的多人2D人体骨骼关键点；

2.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法，其特征在于，所述步骤S1具体过程为：使用双目相机获取双目RGB图像，根据双目相机的相机内外参数对双目RGB图像进行平行极线矫正，使其符合平行极线假设。

3.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法，其特征在于，所述步骤S2具体过程为：基于CenterNet多人人体2D骨骼关键点检测框架和HR-Net多分辨特征提取网络的融合算法对双目相机左右目图像进行2D人体骨骼关键点检测，得到左右图像中每个人的人体关键点在图像中的坐标。

4.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法，其特征在于，所述步骤S3具体过程为：

S32、基于卷积神经网络，训练一个以像素匹配为目的的像素邻域特征映射网络模型。该网络模型的训练流程为：

a·b＝|a||b|cosθ

正负样本及相似度标签定义的方法如下：

S322、特征提取网络部分，选择关键点25*25的邻域和13*13的邻域作为输入，通过多分辨率输入提高像素点邻域的特征丰富度，13*13的像素邻域分支使用6层无padding的3*3卷积，最终得到1*64维的特征；25*25邻域分支使用6层膨胀度为2的无padding的3*3膨胀卷积，最终得到1*64维的特征，对两个分支得到的特征进行相加，得到最终的特征。

和lable的误差：

S33、最后将每个人体头部关键点周围W*W的邻域像素块resize到25*25，将头部关键点W/2大小的邻域resize到13*13送入特征映射网络，得到双目相机左右图中每个人头部关键点区域的特征映射。

5.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法，其特征在于，所述步骤S4具体过程为：经过步骤S3后，得到双目相机左右图中所有人体头部区域特征映射。将左图中检测到的k个人的头部关键点区域的特征和右图中检测到的k个人的头部关键点使用点积距离计算公式进行相似度度量，最后使用二分匹配的方法求得k对匹配的人体，根据头部关键点相关联的人体骨骼关键点坐标，可以求得k对人体骨骼关键点匹配点对。

6.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法，其特征在于，所述步骤S5具体过程为：

经过步骤S4后，得到双目相机左右图中k对人体骨骼关键点对，以第i个关键点为例，计算对应关键点对的视差值d_i，根据双目相机的基线b和相机内参中的焦距f，可根据下式计算出左图中某关键点对应的深度值Z_i: