CN116682140A

CN116682140A - 基于注意力机制多模态融合的三维人体姿态估计算法

Info

Publication number: CN116682140A
Application number: CN202310616861.1A
Authority: CN
Inventors: 蔡通; 钱骁; 尹子鳗; 余杭; 林赟; 陈风云; 梁成龙; 陈蒋毅; 文磊; 袁昊
Original assignee: Beijing Xinqing Tech Co ltd
Current assignee: Beijing Xinqing Tech Co ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-01

Abstract

本发明公开了基于注意力机制多模态融合的三维人体姿态估计算法，包括步骤：S1、采集数据；S2、搭建网络结构并引入动态交叉注意力机制；S3、进行网络训练。与现有技术相比的优点在于：1、本发明通过对主流人体姿态估计数据采集系统的优劣性分析，设计并搭建了一套由激光雷达、相机及动捕设备组成的可用于个体采集及单场景下多人采集的三维人体姿态数据采集系统。2、本发明使多模态数据得以融合，同时将传统的用于三维人体姿态检测的深度神经网络中用于特征提取的主干网络更换为复杂度更高、特征提取更为充分的resnet50，并引入动态交叉注意力机制减少网络过程中所需的计算量，形成了一个完整的、性能高的三维人体姿态估计算法。

Description

基于注意力机制多模态融合的三维人体姿态估计算法

技术领域

本发明涉及人工智能技术领域，具体是指基于注意力机制多模态融合的三维人体姿态估计算法。

背景技术

随着人工智能领域的发展，计算机视觉——使计算机和系统能够从图像、视频或其他视觉输入中获取有意义的信息，并通过观察该信息得到下一步的行动或建议提供，赋予计算机发现、观察和理解的能力，已逐渐成为人工智能领域中越来越受欢迎的一个重要课题。人体姿态估计又是计算机视觉这个课题中的一个重要任务，也是计算机理解人类动作、行为必不可少的一步。人体姿态估计问题根据空间维度的不同可分为二维人体姿态估计和三维人体姿态估计两大类。如今，随着深度学习方法的普遍应用，大量基于深度学习的算法不断提出，众多基于深度学习的、用于二维人体姿态识别的算法也不断被优化，使得二维人体姿态估计模型的精度和泛化能力都得到了显著的提升。相较于二维人体姿态估计，三维人体姿态估计有着更为现实的意义。三维人体姿态估计的目标是在三维空间中估计人体关键点的位置，从而重绘出人体在三维世界中的真实姿态。三维人体姿态估计的应用非常广泛，如应用于实景游戏进行人机交互以提供给用户更加良好的体验、用于运动监测进行运动分析以方便专业运动领域的研究、用于医疗机构进行人体的康复训练以获得更为准确的康复评估，同时还可以为行为识别等计算机视觉任务提供骨架等方面的信息。

然而，三维人体姿态估计在拥有高应用自由度的同时也面临着更多的挑战。一方面，受数据采集难度的限制，目前大多数方法都是基于单目图像、多目成像和视频的。对于基于单目成像的方法而言，从采集到的二维的图像到真实世界中人体的三维姿态的映射是一个多解问题，使得基于单目成像进行姿态估计的方法可靠度较低。另一方面，基于深度学习的算法依赖于大量的训练数据，但由于三维人体姿态标注的难度、成本较高，目前的大型开源数据集基本上都是在实验室环境下采集的，使得算法在户外数据上的泛化性能很差。另外，二维人体姿态估计面临的自遮挡等难题同样也是3D人体姿态估计亟待解决的问题。

因单目图像易于获取且不受场景限制，基于单目图像的方法已成为当前主流的3D人体姿态主流算法。但正如前面提到的，根据二维图像估计三维姿态是一个多解问题，即可能存在多个不同的三维姿态，它们的二维投影是同一个二维姿态。并且，由于基于单目图像的方法也面临着自遮挡、物体遮挡、深度的不确定性等问题。加之缺少3D信息，目前的方法大多只能预测以根关节为坐标原点的三维姿态。

为解决遮挡问题，提出融合多视角信息，从多目图像中重建三维人体姿势的方案。该方案的关键在两点，一是如何确定场景中同一个点在不同视角下的位置关系，如同时输入两个视角的图像，对于其中某一个视角的二维姿势输入，根据两个视角间的转换关系，预测另一个视角的三维姿势输出；二是如何进行多台图像捕捉设备之间的时间同步，使得多设备在某一时刻捕捉到的图像信息能够准确对应起来。基于多目图像的方法可以帮助解决遮挡问题，并且能够在一定程度上解决深度不确定问题。但此方案对于数据采集的要求较高，搭建采集场景的成本较大，且模型结构相对复杂，数据采集后需做的处理较多，在实际场景的应用仍具有一定的局限性。

基于视频的方法就是在以上两类方法的基础上引入时间维度上的信息。相邻帧提供的上下文信息可以帮助我们更好地预测当前帧的姿态。对于遮挡情况，也可以根据前后几帧的姿态做一些合理推测。另外，由于在一段视频中同一个人的骨骼长度是不变的，因此这类方法通常会引入骨骼长度一致性的约束限制，有助于输出更加稳定的3Dpose。但基于视频的方法模型需引入时间维度上的信息，增加模型复杂度的同时增加了数据处理的复杂度。

注意力机制是上世纪九十年代，一些科学家在研究人类视觉使发现的一种信号处理机制，人工智能领域的从业者把这种机制引入到一些模型里，并取得了成功。目前，注意力机制已经成为深度学习领域，尤其是NLP(自然语言处理)领域，应用最广泛的“组件”之一。这两年曝光度极高的BERT、GPT、Transformer等等模型或结构，都采用了注意力机制。注意力机制是我们用深度卷积网络模型识别图像时，通过卷积核提取图像的局部信息之后使模型知道每个局部信息对图像能否正确识别的影响力的一种方法，可将其理解成人类看到一幅图像时，首先快速扫过图片，然后锁定需要重点关注的目标区域，以此来简化模型、加速计算的一种方法。

Transformer是针对NLP(自然语言处理)领域提出的一种利用注意力机制来提高模型训练速度的模型，它是一个完全基于自注意力机制的深度学习模型，因其适用于并行化计算，本身模型的复杂程度较高，故在精度和性能上都高于RNN循环神经网络。因NLP领域的网络输入对象为一维的序列，CV领域的网络输入一般为二维或三维的图像或视频等视觉对象，Transfromer在NLP(自然语言处理)领域大放异彩，但在CV(计算机视觉)领域踌躇不前。Transformer在NLP领域的极大成功使得CV领域对于Transformer的探索出现了热潮，并在接下来的几年内出现了许多CV领域的注意力机制。2020年，Transformer在分类、检测、分割中都取得了不错的效果。其中较受关注的为将Transformer应用到图像识别中，提出VisionTransformer，即ViT。VisionTransformer主要由线性投影、Transformer编码、MLPhead分类层组成。计算机视觉领域常用的CNN(卷积神经网络)作用于图像进行特征提取时，越靠边缘的像素，因被卷积的次数少，对梯度更新的贡献越少，导致CNN对边缘的响应很弱。而ViT中TransformerEncoder读入切分成小块的图像，并将其视为NLP中的一个字或词，即CV中的token，计算每个token之间的相关性。但ViT用图像块替换Transformer中的wordtokens所需的计算量很大，会成为模型训练和推理的瓶颈。

发明内容

本发明要解决的技术问题是克服以上技术困难，提供基于注意力机制多模态融合的三维人体姿态估计算法，本发明将激光雷达、相机采集到的数据进行多模态数据融合，得到更全面的周围真实世界的三维环境信息，进而得到三维人体姿态数据；且搭建数据采集场景，得到准确可靠的三维人体姿态数据集；并在不大幅增加模型复杂度的同时，引入交叉注意力机制以降低网络计算量。

为解决上述技术问题，本发明提供的技术方案为：

基于注意力机制多模态融合的三维人体姿态估计算法，包括步骤：

S1、采集数据

搭建采集场景设置激光雷达、摄像头及动捕设备进行点云的获取、彩色图像的获取及人体关键点在真实世界中的三维坐标获取；

S2、搭建网络结构并引入动态交叉注意力机制

因深度学习的方法在计算机视觉领域表现出的极好性能，选用深度神经网络来进行三维人体姿态的估计，因需进行多模态数据融合，故在整个训练网络之前搭建激光雷达-相机融合深度网络，以更充分地利用两种模态的信息，给定若干个LiDAR点、LiDAR到世界坐标系的变换矩阵和相机到世界坐标系的变换矩阵，将LiDAR点或提案(proposal)转换至相机世界并将其用作查询，以提取相应的图像特征，从而进行多模态融合；

在LiDAR分支，点云具有多种表达形式，如反射图、体素化张量、前视图/距离视图/BEV视图以及伪点云等等。虽然这些数据结合不同主干网络都有不同的内在特征，但是除了伪点云之外，大多数数据都是通过一定的规则处理生成。此外，相比于特征空间嵌入，LiDAR的这些数据都有很强的可解释性，均可以直接可视化；

在图像分支，严格意义上的数据级定义应该是RGB图或灰度图，但是这种定义缺乏通用性和合理性。因此扩展了前融合阶段的图像数据的数据级定义，包含数据级和特征级数据。将语义分割预测结果也作为前融合的一种以使有利于三维目标检测。

训练阶段，目前常用的方法是搭建含有主干网络来进行特征提取的深度神经网络，但面临着主干网络层数不够导致的特征提取不够充分的问题。因此选用resnet50作为主干网络进行特征提取。ResNet是针对深度神经网络中随着网络层数的加深出现的性能退化问题提出的，采用跳跃连接的方式解决了上述问题。使用pytorch搭建深度神经网络并加入如下图所示的网络结构构成完整的、可用于特征提取的网络。

搭建好基本网络之后，引入动态交叉注意力模块。输入的图片经过resnet50特征提取器之后，将二维的信息重新编码为一维并进入交叉注意力模块(CAT模块)。

S3、进行网络训练

将进行数据增强之后的数据集中的图像数据及标签数据分别输入搭建好的以ResNet50作为主干网络进行特征提取并引入交叉注意力机制的网络中，进行网络训练，在训练过程中改用交叉熵损失函数进行预测与实际值之间的损失衡量并返回更新调节参数。使用mAP评价指标分别基于Human3.6M数据集和自有数据集训练未引入交叉注意力机制的深度神经网络验证自有数据集中数据的可靠性。使用PCK评价指标设定阈值，分别基于Human3.6M数据集和自有数据集训练引入动态交叉注意力机制的网络，分别测试模型的泛化能力及验证网络模型性能的提升。

本发明与现有技术相比的优点在于：

1、本发明通过对主流人体姿态估计数据采集系统的优劣性分析，设计并搭建了一套由激光雷达、相机及动捕设备组成的可用于个体采集及单场景下多人采集的三维人体姿态数据采集系统。

2、本发明增加激光雷达-相机深度融合网络，使多模态数据得以融合，同时将传统的用于三维人体姿态检测的深度神经网络中用于特征提取的主干网络更换为复杂度更高、特征提取更为充分的resnet50，并引入动态交叉注意力机制减少网络过程中所需的计算量，形成了一个完整的、性能高的三维人体姿态估计算法。

附图说明

图1是本发明的通过空间对齐和投影直接融合每种数据的方法示意图。

图2是本发明的resnet50的具体结构示意图。

图3是本发明的CAT结构图。

图4是本发明的交叉注意力模块图。

具体实施方式

下面结合实施方式和说明书附图对本发明做进一步的详细说明。

S1、采集数据

S2、搭建网络结构并引入动态交叉注意力机制

通过空间对齐和投影直接融合每种数据的方法如图1表示。

训练阶段，目前常用的方法是搭建含有主干网络来进行特征提取的深度神经网络，但面临着主干网络层数不够导致的特征提取不够充分的问题。因此选用resnet50作为主干网络进行特征提取。ResNet是针对深度神经网络中随着网络层数的加深出现的性能退化问题提出的，采用跳跃连接的方式解决了上述问题。使用pytorch搭建深度神经网络并加入如下图所示的网络结构构成完整的、可用于特征提取的网络。resnet50的具体结构如图2所示。

搭建好基本网络之后，引入动态交叉注意力模块。输入的图片经过resnet50特征提取器之后，将二维的信息重新编码为一维并进入交叉注意力模块(CAT模块)。如图3和4所示，图3为CAT结构图，图4为交叉注意力模块图。

S3、进行网络训练

为得到更为可靠的三维人体姿态数据集，考虑采用激光雷达进行三维人体姿态数据集的获取。激光雷达也称光学雷达，是激光探测和测距系统的简称，它通过测定传感器发射器与目标物体之间的传播距离，分析目标物体目标物体表面的反射能量大小、反射波谱的幅度、频率和相位等信息，从而呈现出目标物精确的三维结构信息，即扫描得到的空间点的数据集，每一个点云都包含了三维坐标和激光反射强度。对比人体姿态估计领域最主流的信息获取硬件——摄像头，摄像头的采用类似于使用人的双眼观察、获取周围的视觉信息，之后通过算法中特定的特征提取主干网络进行特征提取，获取到图像中各种特征并将其融合，进而达到自动分析图像并找出其中的各种事物的表层作用。多目图像融合虽可解决自遮挡的问题，但采集数据时所需摄像头数目较多，场景搭建代价较大，同时，数据采集完成之后为将多视角下不同的图像数据进行坐标系及时间上的统一，数据处理所需代价较大。激光雷达采用TOF法，不同于摄像头易受光线等影响，激光雷达通过发射激光来测量周围事物的距离，可通过发射多束激光线束，感知更多的区域和细节，通过让反射的激光转动扫描，进而得到一片区域的三维形态。激光雷达采集到的点云信息与毫米波雷达、摄像头等采集到的信息进行数据融合，得到更全面的周围环境数据信息，因此，激光雷达不仅可用于进行单人的三维人体姿态的估计，更可以用来进行单场景多人的三维人体姿态估计，在增大可适用范围的同时降低了数据处理的复杂性。

基于视觉的感知任务，如检测三维空间中的边界框，对于自动驾驶、三维人体姿态估计等应用都至关重要。在传统视觉车载感知系统的所有传感器中，激光雷达(LiDAR)和摄像头通常是提供准确点云和周围世界图像特征的两个最关键的传感器。在感知系统的早期阶段，通过后处理融合每个传感器单独的深度模型检测结果是常用的融合方法。现在，鸟瞰图(bird’seye-view,BEV)已成为自动驾驶下的常用的周围场景表示方法,它能清晰地呈现物体的位置和规模，适用于各种三维世界中的视觉图像项目应用。传统的方法是将每个模态提取出的信息输入进各自的特征提取网络之后再进行特征融合，然而，当只有图像输入时，由于缺乏深度信息，通常难以准确回归三维边界框。当只有点云输入时，由于LiDAR没有接收到足够的点，难以准确进行目标识别。

因此，使用激光雷达及相机获取到点云信息及彩色图之后，设计激光雷达-相机融合深度网络，以更充分地利用两种模态的信息。给定若干个LiDAR点、LiDAR到世界坐标系的变换矩阵和相机到世界坐标系的变换矩阵。将LiDAR点或提案(proposal)转换至相机世界并将其用作查询，以提取相应的图像特征。

Transformer在NLP中得到的广泛应用使得其在计算机视觉领域的作用被不断的探索。如今，Transformer在计算机视觉领域中的潜力已经被实现并衍生出了许多新的方法。然而，在注意力机制中，对图像进行tokenization之后，用图像块替换Transformer的wordtokens所需的计算量很大(例如ViT)，这会成为模型训练和推理的瓶颈。为解决注意力机制中图像块替换之后所需计算量较大的问题，选用在Transformer中提出的一种新注意力机制——CrossAttention，即交叉注意力机制，它在图像块内而不是整个图像中交替注意以捕获局部信息，并在从单通道特征图划分的图像块之间应用注意力捕获全局信息，由此降低操作的计算量，通过在内部patch和patch之间交替应用注意力，实现交叉注意力以较低的计算成本保持性能，并为其他视觉任务构建一个成为交叉注意力Transformer的分层网络。故在网络中引入CAT(crossattentiontransformer)进行特征的提取融合。

以上对本发明及其实施方式进行了描述，这种描述没有限制性。如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似实施例，均应属于本发明的保护范围。

Claims

1.基于注意力机制多模态融合的三维人体姿态估计算法，其特征在于，包括步骤：

S1、采集数据

搭建采集场景，设置激光雷达、摄像头及动捕设备进行点云的获取、彩色图像的获取及人体关键点在真实世界中的三维坐标获取。

S2、搭建网络结构并引入动态交叉注意力机制

在LiDAR分支，点云具有多种表达形式，如反射图、体素化张量、前视图/距离视图/BEV视图以及伪点云等等，虽然这些数据结合不同主干网络都有不同的内在特征，但是除了伪点云之外，大多数数据都是通过一定的规则处理生成；

在图像分支，严格意义上的数据级定义应该是RGB图或灰度图，但是这种定义缺乏通用性和合理性，因此扩展了前融合阶段的图像数据的数据级定义，将语义分割预测结果也作为前融合的一种以使有利于三维目标检测；

训练阶段，目前常用的方法是搭建含有主干网络来进行特征提取的深度神经网络，但面临着主干网络层数不够导致的特征提取不够充分的问题，因此选用resnet50作为主干网络进行特征提取，ResNet是针对深度神经网络中随着网络层数的加深出现的性能退化问题提出的，采用跳跃连接的方式解决了上述问题，使用pytorch搭建深度神经网络并加入网络结构构成完整的、可用于特征提取的网络；

搭建好基本网络之后，引入动态交叉注意力模块，输入的图片经过resnet50特征提取器之后，将二维的信息重新编码为一维并进入交叉注意力模块(CAT模块)。

S3、进行网络训练

将进行数据增强之后的数据集中的图像数据及标签数据分别输入搭建好的以ResNet50作为主干网络进行特征提取，并引入交叉注意力机制的网络中，进行网络训练，在训练过程中改用交叉熵损失函数进行预测与实际值之间的损失衡量并返回更新调节参数，使用mAP评价指标分别基于Human3.6M数据集和自有数据集训练未引入交叉注意力机制的深度神经网络验证自有数据集中数据的可靠性，使用PCK评价指标设定阈值，分别基于Human3.6M数据集和自有数据集训练引入动态交叉注意力机制的网络，分别测试模型的泛化能力及验证网络模型性能的提升。

2.根据权利要求1所述的基于注意力机制多模态融合的三维人体姿态估计算法，其特征在于：在LiDAR分支，相比于特征空间嵌入，LiDAR的这些数据都有很强的可解释性，均可以直接可视化。

3.根据权利要求1所述的基于注意力机制多模态融合的三维人体姿态估计算法，其特征在于：所述前融合阶段的图像数据的数据级定义包含数据级和特征级数据。