CN111881773B

CN111881773B - 一种基于位置偏移的事件相机人体姿态估计方法及系统

Info

Publication number: CN111881773B
Application number: CN202010642133.4A
Authority: CN
Inventors: 杨文�; 贺钰洁; 余磊; 徐芳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-08-25
Anticipated expiration: 2040-07-06
Also published as: CN111881773A

Abstract

本发明公开了一种基于位置偏移的事件相机人体姿态估计方法及系统，该方法包括：将事件相机获取的人体姿态事件流建立图像帧，在每帧事件图像的时间窗内，求取所有关节点的平均位置，并创建每个关节点的热图；基于堆叠沙漏网络建立人体姿态估计模型，基于高分辨率网络建立人体姿态修正模型，利用事件图像和热图进行训练；将待检测事件图像输入到人体姿态估计模型，得到初始人体姿态；将初始人体姿态和待检测事件图像串联输入到人体姿态修正模型，得到关节点的位置偏移特征图；将位置偏移特征图上采样并与初始人体姿态相加，得到最终的人体姿态。本发明引入事件相机来获取人体姿态图像，利用基于位置偏移的人体姿态修正网络进行修正，提高精度。

Description

一种基于位置偏移的事件相机人体姿态估计方法及系统

技术领域

本发明属于计算机视觉目标检测技术领域，具体涉及一种基于位置偏移的事件相机人体姿态估计方法及系统。

背景技术

人体姿态估计，是利用图像特征来估计人体各个部位在图像中的具体位置，对描述人体姿态、预测人体行为等起着至关重要的作用，且在动作识别、人机交互、增强现实等领域获得了广泛应用。然而，传统相机拍摄的图像是基于固定帧率捕获的一系列静态帧，存在着大量数据冗余、运动模糊以及受光照变化影响较大等缺点，会影响人体姿态估计的精度。

发明内容

本发明解决的技术问题是提供一种基于位置偏移的事件相机人体姿态估计方法及系统，解决传统相机拍摄的图像存在数据冗余、运动模糊以及受光照变化影响较大等缺点，而影响人体姿态估计精度的问题。

本发明采用的技术方案为：一种基于位置偏移的事件相机人体姿态估计方法，包括以下步骤：

S1、将事件相机获取的人体姿态事件流建立图像帧，得到多帧事件图像；在每帧事件图像的时间窗内，求取所有关节点的平均位置，并创建每个关节点的热图；

S2、基于堆叠沙漏网络建立人体姿态估计模型，利用事件图像和对应的关节点热图对人体姿态估计模型进行训练；

S3、基于高分辨率网络建立人体姿态修正模型，将所有关节点的热图和对应的事件图像串联输入到人体姿态修正模型进行训练；

S4、将待检测事件图像输入到训练好的人体姿态估计模型，得到初始人体姿态；将初始人体姿态和待检测事件图像串联输入到训练好的人体姿态修正模型，得到关节点的位置偏移特征图；将位置偏移特征图上采样并与初始人体姿态相加，得到最终的2D人体姿态。

进一步地，在每帧事件图像的时间窗内，求取所有关节点的平均位置具体包括：

S101、将每帧事件图像时间窗内的事件流建立图像帧，得到多张子事件图像；

S102、计算每张子事件图像中所有关节点的位置；

S103、分别求取每个关节点的平均位置，作为该帧事件图像中关节点的位置。

进一步地，建立图像帧具体为：将一段时间里相应的事件进行累积，并以二进制图像进行表达。

进一步地，利用2D人体姿态得到所有关节点的二维坐标，利用投影矩阵将关节点二维坐标转换为三维坐标，得到3D人体姿态。

进一步地，利用事件相机获取多视角的人体姿态事件流，进而得到多视角的2D人体姿态，通过多视角的2D人体姿态得到3D人体姿态。

进一步地，通过多视角的2D人体姿态得到3D人体姿态具体包括：

S501、利用多视角的2D人体姿态得到所有关节点的二维坐标；

S502、利用投影矩阵将每个视角的关节点二维坐标转换为三维坐标，利用投影矩阵得到每个视角下该事件相机的3D位置；

S503、对每个类别的关节点，每个视角下该事件相机的3D位置和该视角下该类别关节点的三维坐标形成一条射线，多个视角得到多条射线；

S504、利用最小二乘法，从该类别关节点的三维坐标中，找出距离该类别关节点的多条射线最近的点，即为该类别关节点的3D位置，进而得到3D人体姿态。

进一步地，利用投影矩阵将关节点二维坐标转换为三维坐标具体如下：

式中，(u，v)为关节点二维坐标，(X，Y，Z)为关节点三维坐标，p为投影矩阵。

进一步地，利用投影矩阵得到每个视角下该事件相机的3D位置具体如下：

P＝(Q|c₄)

C＝Q^-1c₄

式中，Q为3×3的矩阵，c₄为P矩阵的第四列，C为相机位置。

进一步地，创建每个关节点的热图具体包括：为每个关节点创建一个标签图像，将关节点位置的像素设置为1，其余像素点设置为0，使用高斯模糊对每个标签图像进行平滑处理，得到对应的热图。

本发明还提供一种用于实现上述权利要求的基于位置偏移的事件相机人体姿态估计方法的基于位置偏移的事件相机人体姿态估计系统，包括：

关节点热图模块，用于将事件相机获取的人体姿态事件流建立图像帧，得到多帧事件图像；在每帧事件图像的时间窗内，求取所有关节点的平均位置，并创建每个关节点的热图；

人体姿态估计模块，用于基于堆叠沙漏网络建立人体姿态估计模型，利用事件图像和对应的关节点热图对人体姿态估计模型进行训练；

人体姿态修正模块，用于基于高分辨率网络建立人体姿态修正模型，将所有关节点的热图和对应的事件图像串联输入到人体姿态修正模型进行训练；

人体姿态检测模块，用于将待检测事件图像输入到训练好的人体姿态估计模型，得到初始人体姿态；将初始人体姿态和待检测事件图像串联输入到训练好的人体姿态修正模型，得到关节点的位置偏移特征图；将位置偏移特征图上采样并与初始人体姿态相加，得到最终的人体姿态。

本发明的有益效果是：本发明引入具有低延时、动态范围高等优点的动态视觉传感器DVS-事件相机来获取人体姿态图像，能够解决传统相机拍摄的图像存在数据冗余、运动模糊以及受光照变化影响较大等缺点而影响人体姿态估计精度的问题；本发明由人体姿态估计网络得到初始的人体姿态，为了减小人体姿态估计网络下采样带来的偏差，减少错估漏估的情况，将基于位置偏移的人体姿态修正网络作为后端处理措施，由初始人体姿态加上偏移值得到最终的人体姿态，能够得到较高的精度。

进一步地，本发明可以利用事件相机获取多视角的人体姿态事件流，进而得到多视角的2D人体姿态，利用多视角的2D人体姿态得到所有关节点的二维坐标，利用投影矩阵将每个视角的关节点二维坐标转换为三维坐标，并利用最小二乘法从该类别关节点的三维坐标中找出距离该类别射线最近的点，作为该类别关节点的3D位置，提高了估计的准确度。

附图说明

图1为本发明基于位置偏移的事件相机人体姿态估计方法流程图。

图2为本发明事件相机的事件流和建帧示意图。

图3为本发明提出的基于位置偏移的人体姿态估计网络结构图。

图4为本发明实施例的人体姿态修正网络的结构图。

图5为本发明实施例的人体姿态修正网络参数变化示意图。

图6为本发明可视化实验结果图。

具体实施方式

下面将结合附图对本发明的基于位置偏移的事件相机人体姿态估计方法及系统作进一步的说明：

本发明实施例的基于位置偏移的事件相机人体姿态估计方法，如图1所示，包括：

S1、将事件相机获取的人体姿态事件流建立图像帧，得到多帧事件图像；在每帧事件图像的时间窗内，求取所有关节点的平均位置，并创建每个关节点的热图。

将事件相机产生的事件流建立图像帧，如图2所示，建帧的方法一般是通过将一段时间内的事件累积起来，最终以二进制图像进行表达。为了拥有用于训练的输入-输出数据对，用于训练的关节标签需要在时间上与事件图像对齐。将每帧事件图像的初始和最终事件的时间戳之间视为一时间窗，在每帧事件图像的时间窗内，求取所有关节点的平均位置，具体包括：

S102、计算每张子事件图像中所有关节点的位置；

根据关节点的个数，创建J个标签图像(每个关节一个，初始化为零)，对于每个2D关节，将标签位置的像素设置为1。最后，使用2个像素半径的高斯模糊对每个标签图像进行平滑处理。对于每个事件图像和每个关节都重复此过程，则得到所有关节的热图标签。

S2、基于堆叠沙漏网络建立人体姿态估计模型，利用事件图像和对应的关节点热图对人体姿态估计模型进行训练。

将生成的事件图像和对应的热图标签送入堆叠沙漏网络里进行监督训练。卷积层和最大池化层用于将特征降到很小的分辨率。在每个最大池化阶段，网络产生分支，一路作为当前的“副本”，一路对池化前的分辨率特征进行卷积。在特征图降低到最小分辨率后，网络开始进行上采样，并通过将“副本”与上采样后的特征相加，得到不同层的信息。这样层层叠加之后，最后一个特征图既保留了所有层的信息，又与输入的原图大小相同。本发明共堆叠了2个沙漏结构，采用中继监督策略，每个沙漏结构都会输出预测热图，并参与最终的loss计算。通过均方差损失函数来使得网络的输出和标签的分布尽可能一致。

S3、基于高分辨率网络建立人体姿态修正模型，将所有关节点的热图和对应的事件图像串联输入到人体姿态修正模型进行训练。

本发明的网络的整体框架如图3所示，利用训练完成的权重进行网络的前向传播可以得到结构化网络的输出，这就是初始的人体姿态。将初始人体姿态以及事件图像串联输入到人体姿态修正网络进行监督训练，此时的标签为每个关节点与真实关节点位置的x、y偏移。人体姿态修正网络基于高分辨率网络(High-Resolution Net)构建，网络结构如图4所示。Start模块负责初步特征提取与降尺度，每到transition模块，网络分支出更低分辨率的子网络，在stage模块进行特征提取，并将所有子网的特征融合，最后的final layer层进行通道转换。网络假设输入的尺寸为(H，W，C)，其中W和H分别为图像的宽和高，C＝k+1为通道数，k为关节点个数，1为事件图像的通道数。经过多个并行子网模块、特征提取模块以及特征融合模块，最终得到(H/4，W/4，2k)的输出。网络的特征图参数变化如图5所示。

S4、将待检测事件图像输入到训练好的人体姿态估计模型，得到初始人体姿态；将初始人体姿态和待检测事件图像串联输入到训练好的人体姿态修正模型，得到关节点的位置偏移特征图；将位置偏移特征图上采样并与初始人体姿态相加，得到最终的人体姿态。

利用堆叠沙漏网络预测出的初始人体姿态，以及人体姿态修正网络预测的x，y偏移，将其上采样到原来的尺寸并相加，得到最终的关节点位置。将各个关节点按照人体骨架连接，可以得到2D的人体姿态。

进一步地，可以利用2D人体姿态得到所有关节点的二维坐标，进而利用投影矩阵将关节点二维坐标转换为三维坐标，得到3D人体姿态。对于每一台事件相机，在其对应视角拍摄到的关节点坐标是二维坐标(u，v)，则二维与三维坐标之间存在着转换关系，利用投影矩阵将关节点二维坐标转换为三维坐标具体如下：

为了提高3D人体姿态的估计精度，可以利用事件相机获取多视角的人体姿态事件流，进而得到多视角的2D人体姿态，通过多视角的2D人体姿态得到3D人体姿态。通过多视角的2D人体姿态得到3D人体姿态具体包括：

S501、利用多视角的2D人体姿态得到所有关节点的二维坐标；

S503、对每个类别的关节点，每个视角下该事件相机的3D位置和该视角下该类别关节点的三维坐标能够形成一条射线，假设有n个视角，每个类别的三维关节点坐标的总个数也为n，每个相机的位置和该相机得到的该类别三维关节点就可以确定一条射线，n个视角就可以得到n条射线；

S504、利用最小二乘法，从该类别关节点的三维坐标中，找出距离该类别关节点的n条射线最近的点，即为该类别关节点的3D位置，进而得到3D人体姿态。

其中，利用投影矩阵得到每个视角下该事件相机的3D位置具体如下：

P＝(Q|c₄)

C＝Q^-1c₄

式中，Q为3×3的矩阵，c₄为P矩阵的第四列，C为相机位置。

本发明还提供一种用于实现上述基于位置偏移的事件相机人体姿态估计方法的基于位置偏移的事件相机人体姿态估计系统，包括：

本发明最后提供一个人体姿态估计实验，用于证明本发明基于位置偏移的事件相机人体姿态估计方法及系统的优越性。在实验过程中，选用事件相机人体姿态数据集DHP19进行实验，共包括4个视角的事件数据。实验结果如图6所示，第一列代表相机2视角的2D人体姿态估计结果，第二列代表相机3视角的2D人体姿态估计结果，第三列代表3D人体姿态估计结果。对人体姿态估计精度的测量，本方法采用的分析指标为：每个关节位置平均误差(MPJPE，Mean Per Joint Position Error)，即2D MPJPE(pixel)与3D MPJPE(mm)。实验结果如表1所示。由预测精度的定量分析和定性分析可知，本方法在人体姿态估计上具有较高的精度。

表1 DHP19数据集上人体姿态估计算法的实验结果

Method	Camera 2	Δ	Camera 3	Δ	MPJPE 3D	Δ
							DHP19 Net	7.55	-	6.95	-	82.97	-
Pose ResNet	6.15	-1.40	5.80	-1.15	68.06	-14.91
							HRNet	5.49	-2.06	5.17	-1.78	61.10	-21.87
SHN	5.19	-2.36	4.82	-2.13	56.58	-26.39
							SHN+PoseRefiner	4.90	-2.65	4.65	-2.30	56.02	-26.95

说明书中未阐述的部分均为现有技术或公知常识。本实施例仅用于说明该发明，而不用于限制本发明的范围，本领域技术人员对于本发明所做的等价置换等修改均认为是落入该发明权利要求书所保护范围内。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于位置偏移的事件相机人体姿态估计方法，其特征在于，包括以下步骤：

S4、将待检测事件图像输入到训练好的人体姿态估计模型，得到初始人体姿态；将初始人体姿态和待检测事件图像串联输入到训练好的人体姿态修正模型，得到关节点的位置偏移特征图；将位置偏移特征图上采样并与初始人体姿态相加，得到最终的2D人体姿态；

利用事件相机获取多视角的人体姿态事件流，进而得到多视角的2D人体姿态，通过多视角的2D人体姿态得到3D人体姿态，具体包括：

S501、利用多视角的2D人体姿态得到所有关节点的二维坐标；

S503、对每个类别的关节点，每个视角下该事件相机的3D位置和该视角下该类别关节点的三维坐标形成一条射线，多个视角得到该类别关节点的多条射线；

2.根据权利要求1所述的基于位置偏移的事件相机人体姿态估计方法，其特征在于，在每帧事件图像的时间窗内，求取所有关节点的平均位置具体包括：

S102、计算每张子事件图像中所有关节点的位置；

3.根据权利要求1或2所述的基于位置偏移的事件相机人体姿态估计方法，其特征在于，建立图像帧具体为：将一段时间里相应的事件进行累积，并以二进制图像进行表达。

4.根据权利要求1所述的基于位置偏移的事件相机人体姿态估计方法，其特征在于，利用2D人体姿态得到所有关节点的二维坐标，利用投影矩阵将关节点二维坐标转换为三维坐标，得到3D人体姿态。

5.根据权利要求1或4所述的基于位置偏移的事件相机人体姿态估计方法，其特征在于，利用投影矩阵将关节点二维坐标转换为三维坐标具体如下：

6.根据权利要求5所述的基于位置偏移的事件相机人体姿态估计方法，其特征在于，利用投影矩阵得到每个视角下该事件相机的3D位置具体如下：

P＝(Q|c₄)

C＝Q^-1c₄

式中，Q为3×3的矩阵，c₄为P矩阵的第四列，C为相机位置。

7.根据权利要求1所述的基于位置偏移的事件相机人体姿态估计方法，其特征在于，创建每个关节点的热图具体包括：为每个关节点创建一个标签图像，将关节点位置的像素设置为1，其余像素点设置为0，使用高斯模糊对每个标签图像进行平滑处理，得到对应的热图。

8.一种用于实现权利要求1所述的基于位置偏移的事件相机人体姿态估计方法的基于位置偏移的事件相机人体姿态估计系统，其特征在于，包括：

人体姿态检测模块，用于将待检测事件图像输入到训练好的人体姿态估计模型，得到初始人体姿态；将初始人体姿态和待检测事件图像串联输入到训练好的人体姿态修正模型，得到关节点的位置偏移特征图；将位置偏移特征图上采样并与初始人体姿态相加，得到最终的2D人体姿态；

S501、利用多视角的2D人体姿态得到所有关节点的二维坐标；