CN114973407B

CN114973407B - 一种基于rgb-d的视频三维人体姿态估计方法

Info

Publication number: CN114973407B
Application number: CN202210504347.4A
Authority: CN
Inventors: 伍韬; 康文雄; 田森平; 王明晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2024-04-02
Anticipated expiration: 2042-05-10
Also published as: CN114973407A

Abstract

本发明公开了一种基于RGB‑D的视频三维人体姿态估计方法，包括以下步骤：使用RGB摄像头获取RGB视频，对于RGB摄像头拍摄的同一场景，使用深度相机获取对应的深度视频；获取RGB视频中每帧人体二维姿态，根据二维姿态从深度图像中获取关键点深度值，从而得到对应帧的二维人体姿态的深度向量；使用深度信息编码模块学习深度信息特征；将获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息，输出融合时间维度信息的特征，将该特征作为三维姿态假设生成模块的输入，生成出不同的三维姿态假设；使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合，将融合后的特征预测三维人体姿态结果。

Description

一种基于RGB-D的视频三维人体姿态估计方法

技术领域

本发明属于三维人体姿态估计领域，具体涉及一种基于RGB-D的视频三维人体姿态估计方法。

背景技术

基于深度学习的人体姿态估计领域在近年来引起了越来越多的关注和研究。作为计算机视觉的重要研究方向，人体姿态估计算法通过图像或视频数据，估计出人体的关键点坐标。人体姿态估计取得的关键点提供的人体骨骼以及运动信息可以应用于人机交互、运动分析、增强现实、虚拟现实等大量领域。人体姿态估计领域可以进一步分为二维人体姿态估计和三维人体姿态估计。二维人体姿态估计从图像或视频中估计人体关键点的像素坐标，而三维人体姿态估计需要估计出人体关键点在相机坐标系下的坐标。相比于前者，三维人体姿态提供了额外的深度信息，因此有更广泛的应用。随着元宇宙的兴起，三维人体姿态估计领域的重要性更上一层台阶。近年来随着硬件成本的下降，深度相机越来越普及，使用深度相机获取的深度图可以帮助三维人体姿态算法更准确地估计人体关键点的深度信息

基于RGB视频的三维人体姿态估计中，单目摄像头下的三维人体姿态估计方法使用神经网络模型从视频和图像中预测人体关节在相机坐标系的三维坐标。当前主流的视频三维人体姿态估计方法可以分为采用直接估计的方法和基于二维姿态提升到三维姿态的方法。前者直接从视频中估计某帧或某几帧的三维姿态信息，后者采用一个离线的二维人体姿态模型来估计出每一视频帧的二维关键点坐标，再将二维人体关键点序列作为三维姿态估计模型的输入最终预测出三维姿态信息。由于当前二维人体姿态算法得到的结果较为可靠，基于提升的方法在二维姿态估计任务中效果要好于直接估计的方法。基于提升的方法面临的最大挑战是深度歧义问题。由于图像和视频完全丢失了深度维度的信息，而从单帧的二维姿态到三维姿态可能存在多个可能的映射，因此三维人体姿态估计存在许多不确定性。当输入数据是视频时，可用通过学习时间维度的信息来减少这种不确定性。尽管多视角下的三维人体姿态估计可以有效解决深度歧义，然而这种方案对设备和场景的要求较高，在现实世界中的应用受限。

基于深度图的三维人体姿态估计中，深度歧义一直是三维人体姿态估计领域中的关键问题。随着深度相机的成本的不断降低，一些方法开始利用深度相机获得的深度信息来缓解深度歧义问题。在一幅室内的深度图像中，人体往往是整个深度图的前景，因此深度图能够一定程度上反映人体的位置和形状，并且深度相机获取的深度图像仅仅包含深度信息而不包含RGB信息，因此很好地保护了图像中人的身份信息。然而由于深度相机获得的是物体表面的深度信息，因此当人体处于某些特定姿势时，人体的部分关键部位会被遮挡，因而无法获取到准确的深度值。这造成了当人体处于某些姿态下，深度相机获取的深度信息不可靠，从而严重限制了基于深度图的方法可以应用的场景。

现有的基于提升的三维人体姿态估计算法无法有效解决深度歧义问题，因此估计的三维关键点坐标深度误差较大。视频三维人体姿态估计方法处理的视频帧数有限，对于较长的视频无法有效地对视频帧间进行关系建模。基于深度图的三维人体姿态估计算法只能处理特定视角下的人体姿态。对于关节遮挡的情况估计效果较差。

当前主流的基于RGB-D的三维人体姿态估计方法如3D Human Pose Estimationin RGBD Images for Robotic Task Learning使用接受RGB图片和深度图的输入，预测对应的三维姿态。然而，他们仅仅依靠单帧的输入，没有充分时序信息，因此对于长视频的整体效果较差；并且，他们将整个深度图直接作为网络的输入，无法解决关节遮挡情况下深度值不准确的问题，使得网络性能在复杂场景下较差。

发明内容

为解决上述技术问题，本发明提出一种基于RGB-D的视频三维人体姿态估计方法，首先用二维人体姿态估计算法估计出视频帧中每个人体关键点的像素坐标，然后根据像素坐标获取对应深度图上的深度值，然后将获取到的一组深度值用于辅助神经网络生成更准确的三维人体姿态，使用深度传感器获取视频每帧的深度图，结合视频的RGB信息和深度信息使用基于提升的方法联合估计人体的三维姿态，提高了三维人体姿态估计算法的准确度。使用了基于Transformer的编码器结构作为主干网络来学习视频三维人体姿态序列的时序信息，该网络结构可以处理任意长度的视频帧序列，拥有对长视频进行时序信息建模的能力。

本发明至少通过如下技术方案之一实现。

一种基于RGB-D的视频三维人体姿态估计方法，包括以下步骤：

1)使用RGB摄像头获取RGB视频；

2)对于RGB摄像头拍摄的同一场景，使用深度相机获取对应的深度视频；

3)使用离线二维人体姿态估计模型获取RGB视频中每帧人体二维姿态；

4)根据二维姿态从深度图像中获取关键点深度值，从而得到对应帧的二维人体姿态的深度向量；

5)使用深度信息编码模块学习深度信息特征；

6)将经过步骤3)获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息，输出融合时间维度信息的特征；

7)将步骤6)输出的特征作为三维姿态假设生成模块的输入，生成出不同的三维姿态假设；

8)使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合；

9)使用线性网络模型利用步骤8)融合后的特征预测三维人体姿态结果。

进一步地，所述深度信息编码模块使用Resnet18网络结构作为主干网络来对深度向量进行编码，得到对应的深度信息特征。

进一步地，所述时序信息编码模块使用Transformer的编码器结构作为主干网络，将人体二维姿态序列作为输入，经过由全连接层组成的姿态编码层获取二维人体姿态特征，然后将二维人体姿态特征输入到Transformer编码器，输出融合了时间维度信息的特征。

进一步地，所述三维姿态假设生成模块包括若干个编码模块，所述编码模块包括全连接层；将步骤6)获取的时间维度信息的特征作为若干个编码模块的输入，得到不同的特征编码，这些特征编码即为不同的三维人体姿态特征编码。

进一步地，所述使用注意力机制为基于Key-Query-Value的注意力机制。

进一步地，步骤8)包括以下步骤：

首先使用三个可学习的特征变换矩阵分别将深度信息特征X_d、三维人体姿态特征编码X_h、X_h进行投影得到从而获得然后使用式(1)计算注意力结果：

其中Attention为注意力计算结果，Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征；D_q、D_k、D_v分别表示Q、K、V在各自特征空间上的特征维度，T表示输出视频的长度，C表示获取的深度信息特征和获取人体姿态特征编码的维度，G表示三维姿态假设生成模块中的编码模块的数量。

进一步地，在计算Q和K的每行的内积结果后使用softmax函数来得到每个深度新特征关于G个假设的权重，在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。

进一步地，步骤8)使用多头注意力机制丰富的特征信息，具体计算方式如式(2)、式(3)：

MultiHeadAttn(Q,K,V)＝Concat(head₁,…,head_M)W^o (2)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^v) (3)

其中MultiHeadAttn(Q,K,V)为多头注意力计算的结果，Concat表示沿特征维度进行拼接操作，head_i表示第i个头的注意力计算结果；

上式展示了M个头的多头自注意力计算过程。在计算第i个头时，首先由可学习的参数矩阵W_i ^Q、W_i ^k、W_i ^v将Q、K、V投影成D_k、D_k、D_v维度，然后利用式(1)的注意力计算公式算出该头的注意力结果，算出M个头的自注意力结果后，将所有结果沿特征维度进行拼接操作，最后使用参数矩阵W^o投影到原来的维度。

进一步地，所述线性网络模型的结构由全连接层组成的线性网络结构作为预测头，将特征投影到三维空间，从而得到每一帧的三维人体姿态。

进一步地，所述深度信息编码模块使用MobileNet网络结构作为主干网络来对深度向量进行编码。

与现有的技术相比，本发明的有益效果为：

1、本方法通过基于Transformer的编码器来处理视频的三维人体姿态问题，对于长视频有较强的时序建模能力，使得预测的三维人体姿态更加平滑且准确。

2、本方法在在RGB视频的基础上引入了深度摄像头获取的深度图信息，弥补了RGB视频丢失了深度信息的缺陷，从而能够有效缓解深度歧义问题。

3、本方法使用多假设生成和深度编码自注意力融合的方法来解决深度图像在关节遮挡情况下无法获得准确深度值的问题，有效提升了算法在复杂姿态下的泛化能力。

附图说明

图1为实施例三维人体姿态预测流程图；

图2为实施例Resnet18网络结构图；

图3为实施例多重假设生成模块示意图。

具体实施方式

下面结合附图和实施例对本发明的具体实施做进一步的说明。

如图1所示，基于RGB-D的视频三维人体姿态估计方法，包括以下步骤：

1)使用单目RGB摄像头获取视频；通过最常用的RGB摄像头来捕捉需要预测三维人体姿态的场景。拍摄的视频中应尽可能保证画面包含完整的人体，且避免出现多人在同一画面中的情况。视频的帧率不低于每秒25帧即可。

2)使用深度相机获取每帧深度图；对于步骤1)拍摄的同一场景，使用深度相机获取对应的深度视频。深度摄像头和RGB摄像头应该在拍摄前进行标定以保证像素对齐，同时深度视频和RGB视频的应该有相同的帧数。

3)使用离线二维人体姿态估计模型获取每帧人体二维姿态；

经过步骤1)获取RGB视频后，通过离线的二维人体姿态估计模型(离线二维人体姿态估计模型指可以直接使用的任意二维人体姿态估计模型，可以为使用级联金字塔网络)估计出RGB视频每帧的二维人体姿态，即所有关键点在视频帧上的像素坐标。在本实施例中，二维人体姿态和三维人体姿态的关键点都用人体的17个重要关节来表示。

4)根据二维姿态从深度图像中获取关键点深度值；经过步骤3)获取每帧的关键点像素坐标后，在对应深度图上获取每个关键点的深度值，从而得到该帧二维人体姿态的深度向量。

5)使用深度信息编码模块学习深度信息特征；经过步骤4)获取到视频每帧人体姿态的深度向量后，使用Resnet18网络结构作为主干网络来对深度向量进行编码。Resnet18网络结构如图2所示。网络结构由三个结构相同的子模块堆叠而成，每个子模块包括全连接层、ReLU激活函数层、批归一化层和随机失活层。将深度向量输入到Resnet18网络学习后可以获得人体姿态的整体深度信息特征。

具体来说，给定一段视频帧的深度向量经过编码后会得到该视频的深度信息特征/>其中T代表视频的帧数，J代表关键点数量，在实施例中是17，C代表输出特征的维度。

6)使用时序信息编码模块学习时序信息特征；

将经过步骤3)获取的二维人体姿态序列作为输入送入到时序信息编码模块来学习视频时间维度上的局部和全局信息。时序信息编码模块使用Transformer的编码器结构作为主干网络。该结构通过多头自注意力来学习视频帧间的相关信息。该模块接受人体二维姿态序列作为输入，随后经过由全连接层组成的姿态编码层获取二维人体姿态特征/>然后将该特征输入到Transformer编码器输出融合了时间维度信息的特征/>

7)使用三维姿态假设生成模块生成出不同的三维姿态假设；

本实施例引入了多重三维姿态假设生成模块来获取不同的三维姿态。该模块结构如图3所示。具体来说，为了获取G个不同的三维人体姿态特征，本实施例在时序信息编码模块之后添加了G个编码模块，所述编码模块包括全连接层，这些编码模块之间参数(全连接层的网络权重参数)是独立的。将步骤6)获取的融合了时间维度信息的特征X_t作为这G个编码模块的输入，可以得到G个同的特征编码，这些特征编码即为不同的三维人体姿态特征编码本实施例将这些特征作为初始的三维人体姿态假设的特征表示，然后再利用它们与深度信息特征编码进行进一步融合，图3中/>表示的是第i个全连接层生成的假设特征，i∈G，下标h意为hypothesis，上标1..G表示全连接层序号。

8)将三维姿态假设特征与深度信息特征进行注意力融合；

经过步骤5)～步骤7)处理之后，使用注意力机制来学习每一帧的深度信息特征与每个假设对应的相关性，然后计算出每个假设的可信度作为该假设的权重，最后通过将所有假设进行加权求和即可从多个假设三维姿态合成单个更准确的人体三维姿态。

本实施例使用基于Key-Query-Value的注意力机制。为了挖掘深度信息特征X_d和三维姿态假设特征X_h的关系，将X_d作为Query，将X_h作为Key和Value，因此注意力机制会计算X_d和X_h之间的相关性，并且根据该相关权重对X_h的所有假设进行加权求和。

具体来说，首先使用三个可学习的特征变换矩阵分别将X_d、X_h、X_h进行投影得到从而获得/> 然后使用式(1)计算注意力结果：

其中Attention为注意力计算结果，Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征；表示Q的维度为T×1×D_q，一般不需要特别说明。其他的/>同理。D_q、D_k、D_v分别表示Q、K、V在各自特征空间上的特征维度，T表示输出视频的长度(视频帧数)，C表示步骤5)获取的深度信息特征和步骤7)获取人体姿态特征编码的维度(二者维度都为C)，H表示步骤7)中三维姿态假设生成模块中的编码模块的数量；

在上式中首先计算Q和K的每行的内积结果，然后使用softmax函数来得到每个深度新特征关于G个假设的权重。在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。

为了使本发明方法学习到更丰富的特征信息，本方法进一步使用多头注意力机制，具体计算方式如式(2)、式(3)：

MultiHeadAttn(Q,K,V)＝Concat(head₁,…,head_M)W^o (2)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^v) (3)

上式展示了M个头的多头自注意力计算过程。在计算第i个头时，首先由可学习的参数矩阵W_i ^Q、W_i ^k、W_i ^v将Q、K、V投影成D_k、D_k、D_v维度。然后利用式(1)的注意力计算公式算出该头的注意力结果。算出M个头的自注意力结果后，将所有结果沿特征维度进行拼接操作，最后使用一个参数矩阵W^o投影到原来的维度。

9)将融合后的特征用来预测出三维人体姿态结果

经过步骤8)得到经过自注意力融合后的三维人体姿态特征后，使用一个由全连接层组成的线性网络结构作为预测头，将该特征投影到R^J×3空间，从而得到每一帧的三维人体姿态。

实施例2

基于RGB-D的视频三维人体姿态估计方法，包括以下步骤：

3)使用离线二维人体姿态估计模型获取每帧人体二维姿态；

5)使用深度信息编码模块学习深度信息特征；经过步骤4)获取到视频每帧人体姿态的深度向量后，使用MobileNet网络结构作为主干网络来对深度向量进行编码。

6)使用时序信息编码模块学习时序信息特征；

7)使用三维姿态假设生成模块生成出不同的三维姿态假设；

8)将三维姿态假设特征与深度信息特征进行注意力融合；

实施例3

基于RGB-D的视频三维人体姿态估计方法，包括以下步骤：

3)使用离线二维人体姿态估计模型获取每帧人体二维姿态；

5)使用深度信息编码模块学习深度信息特征；经过步骤4)获取到视频每帧人体姿态的深度向量后，使用MobileNet网络结构或者Resnet18网络结构作为主干网络来对深度向量进行编码。

6)使用时序信息编码模块学习时序信息特征；

7)使用三维姿态假设生成模块生成出不同的三维姿态假设；

8)将三维姿态假设特征与深度信息特征进行注意力融合；

在上式中首先计算Q和K的每行的内积结果，然后使用softmax函数来得到每个深度新特征关于H个假设的权重。在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，包括以下步骤：

1)使用RGB摄像头获取RGB视频；

5)使用深度信息编码模块学习深度信息特征；

8)使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合；包括以下步骤：

其中Attention为注意力计算结果，Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征；D_q、D_k、D_v分别表示Q、K、V在各自特征空间上的特征维度，T表示输出视频的长度，C表示获取的深度信息特征和获取人体姿态特征编码的维度，G表示三维姿态假设生成模块中的编码模块的数量；

使用多头注意力机制丰富的特征信息，具体计算方式如式(2)、式(3)：

MultiHeadAttn(Q,K,V)＝Concat(head₁,…,head_M)W^o (2)

上式展示了M个头的多头自注意力计算过程；在计算第i个头时，首先由可学习的参数矩阵将Q、K、V投影成D_k、D_k、D_v维度，然后利用式(1)的注意力计算公式算出该头的注意力结果，算出M个头的自注意力结果后，将所有结果沿特征维度进行拼接操作，最后使用参数矩阵W^o投影到原来的维度；9)使用线性网络模型利用步骤8)融合后的特征预测三维人体姿态结果。

2.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，所述深度信息编码模块使用Resnet18网络结构作为主干网络来对深度向量进行编码，得到对应的深度信息特征。

3.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，所述时序信息编码模块使用Transformer的编码器结构作为主干网络，将人体二维姿态序列作为输入，经过由全连接层组成的姿态编码层获取二维人体姿态特征，然后将二维人体姿态特征输入到Transformer编码器，输出融合了时间维度信息的特征。

4.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，所述三维姿态假设生成模块包括若干个编码模块，所述编码模块包括全连接层；将步骤6)获取的时间维度信息的特征作为若干个编码模块的输入，得到不同的特征编码，这些特征编码即为不同的三维人体姿态特征编码。

5.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，所述使用注意力机制为基于Key-Query-Value的注意力机制。

6.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，在计算Q和K的每行的内积结果后使用softmax函数来得到每个深度新特征关于G个假设的权重，在使用softmax函数之前使用缩放内积结果以避免梯度消失问题。

7.根据权利要求1～6任一项所述的一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，所述线性网络模型的结构由全连接层组成的线性网络结构作为预测头，将特征投影到三维空间，从而得到每一帧的三维人体姿态。

8.根据权利要求1所述的一种基于RGB-D的视频三维人体姿态估计方法，其特征在于，所述深度信息编码模块使用MobileNet网络结构作为主干网络来对深度向量进行编码。