CN117576786B

CN117576786B - 基于视觉语言模型的三维人体行为识别网络训练方法

Info

Publication number: CN117576786B
Application number: CN202410059351.3A
Authority: CN
Inventors: 刘梦源; 邓智超; 刘洋; 丁润伟; 孟凡阳
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-04-16
Anticipated expiration: 2044-01-16
Also published as: CN117576786A

Abstract

本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法，方法包括将点云视频输入四维点云编码器确定点云特征嵌入；将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入；基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项，基于点云特征嵌入确定第一分类损失项，基于视频特征嵌入确定第二分类损失项；基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练，以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐，来从大规模图像－文本对的训练中学习共享的视觉和文本空间，提高了三维人体行为识别网络的模型性能。

Description

基于视觉语言模型的三维人体行为识别网络训练方法

技术领域

本申请涉及行为感知技术领域，具体是涉及一种基于视觉语言模型的三维人体行为识别网络训练方法。

背景技术

机器人和自动驾驶系统使用实时深度传感器（如激光雷达）来实现三维感知，例如，激光雷达的点云可以提供丰富的几何信息，帮助机器理解环境感知。然而，对于动作识别等需要高精度和细节判断的任务，由于激光雷达的分辨率低，使得获得的点云数据因缺少部分细节信息而导致细粒度信息丢失，基于点云视频实现的三维感知出现错误和误判。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本申请提供了一种基于视觉语言模型的三维人体行为识别网络训练方法。

为实现上述目的，本申请采用了以下技术方案：

第一方面，本申请提供了一种基于视觉语言模型的三维人体行为识别网络训练方法，其中，所述的基于视觉语言模型的三维人体行为识别网络训练方法具体包括：

获取训练样本集，其中，所述训练样本集包括若干训练数据，每个训练数据均包括训练文本数据、训练RGB视频以及训练点云视频；

将训练数据中的训练点云视频输入初始三维人体行为识别网络的四维点云编码器，通过所述四维点云编码器确定点云特征嵌入；将训练数据中的训练RGB视频和训练文本数据输入初始三维人体行为识别网络中的视觉语言模型，通过所述视觉语言模型确定视频特征嵌入和文本特征嵌入；

基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项，基于训练数据对应的点云特征嵌入确定第一分类损失项，以及基于训练数据对应的视频特征嵌入确定第二分类损失项；

基于所述对齐损失项、所述第一分类损失项和所述第二分类损失项对所述初始三维人体行为识别网络进行训练，以得到三维人体行为识别网络。

在一种实现方式中，所述初始三维人体行为识别网络中的四维点云编码器经过预训练，其中，在所述四维点云编码器的预训练过程中，采用对齐损失项作为损失项，并冻结所述视觉语言模型。

在一种实现方式中，在所述四维点云编码器的预训练过程以及所述三维人体行为识别网络的训练过程中，所述视觉语言模型均为预先训练的。

在一种实现方式中，所述基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项具体包括：

对于训练数据对应的每个动作类别，计算点云特征嵌入和文本特征嵌入在所述动作类别下的第一相似度，以及视频特征嵌入和点云特征嵌入在所述动作类别下的第二相似度；

基于计算得到的所有第一相似度确定第一对齐损失项，并基于计算得到的所有第二相似度确定第二对齐损失项；

将所述第一对齐损失项和所述第二对齐损失项加权，得到对齐损失项。

在一种实现方式中，所述四维点云编码器包括空间提取器和至少一个点时空卷积模块，其中，所述空间提取器包括依次连接的第一点采样层、分组层、第一MLP层和第一最大池化层，所述点时空卷积模块包括第二点采样层、交叉分组层、第二MLP层以及第二最大池化层，所述交叉分组层对时空点进行分组过程为：

，

其中，表示时空点，/>表示时空点/>的时空邻域，/>表示时空邻域内的时空邻域点，/>表示空邻域点/>的特征，/>表示时空点/>的特征，/>表示空邻域点/>的坐标，/>表示时空点/>的坐标，/>表示空邻域点的搜索半径，/>表示MLP层。

在一种实现方式中，所述将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器具体包括：

将训练数据中的训练点云视频等分为若干训练点云视频段，并在每个训练点云视频段中随机选取一训练点云视频帧；

将选取到的所有训练点云视频帧作为输入项输入至初始三维人体行为识别网络中的四维点云编码器。

第二方面，本申请提供了一种三维人体行为识别方法，应用采用所述的基于视觉语言模型的三维人体行为识别网络训练方法训练得到的三维人体行为识别网络，所述三维人体行为识别方法具体包括：

获取待识别的行为数据，其中，所述行为数据包括文本数据、RGB视频和四维点云视频

将所述行为数据输入所述三维人体行为识别网络，通过三维人体行为识别网络基于所述文本数据和所述RGB视频确定第一logit分数，基于所述文本数据和所述四维点云视频确定第二logit分数，基于所述行为数据确定第三logit分数，以及基于所述RGB视频确定第四logit分数；

基于所述第一logit分数、所述第二logit分数、所述第三logit分数以及所述第三logit分数，确定所述待识别的行为数据对应的识别结果。

在一个实现方式中，所述将所述行为数据输入所述三维人体行为识别网络之前所述方法还包括：

将所述四维点云视频等分为若干点云视频段，并分别选取位于各点云视频段中间位置的点云视频帧；

将选取到的所有点云数据帧作为四维点云视频。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的基于视觉语言模型的三维人体行为识别网络训练方法中的步骤，和/或以实现如上所述的三维人体行为识别方法中的步骤。

第四方面，本申请提供了一种终端设备，包括：处理器和存储器；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上所述的基于视觉语言模型的三维人体行为识别网络训练方法中的步骤，和/或实现如上所述的三维人体行为识别方法中的步骤。

有益效果

1、本申请通过集成了文本数据、RGB视频以及点云视频的多模态训练样本集，为初始三维人体行为识别网络提供多模态训练数据，并将基于点云视频确定的点云特征嵌入与通过语言视觉模型学习到的文本特征嵌入和视频特征嵌入相匹配，以将语言视觉模型学到的知识转移到四维点云编码器上，使得三维人体行为识别网络可以学习到更多的知识信息，从而提高训练得到的三维人体行为识别网络的模型性能。

2、本申请采用点云特征嵌入、文本特征嵌入和视频特征嵌入确定对齐损失项，使用点云特征嵌入确定第一分类损失项，使用视频特征嵌入确定第二分类损失项，通过定义对齐损失项和分类损失项，使得初始思维视觉语言模型在训练过程中在特征对齐和分类精确度之间找到最佳平衡，融合多模态特征进而优化动作分类的表现。

附图说明

图1为本申请提供的一种基于视觉语言模型的三维人体行为识别网络训练方法的流程图。

图2为本申请提供的一种基于视觉语言模型的三维人体行为识别网络训练方法中三维人体行为识别网络的架构图。

图3为本申请提供的一种基于视觉语言模型的三维人体行为识别网络训练方法中四维点云编码器的架构图。

图4为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种基于视觉语言模型的三维人体行为识别网络训练方法，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

经研究发现，机器人和自动驾驶系统使用实时深度传感器（如激光雷达）来实现三维感知。激光雷达的点云可以提供丰富的几何信息，帮助机器理解环境感知。早期的方法专注于从静态点云中解析真实世界，忽略了时间变化。为了更好地理解时间变化的世界，最近的研究更侧重于理解点云视频，包括三个空间维度和一个时间维度。在4D点云建模方面现有方法普遍是旨在设计改进的4D点云建模网络或采用自监督方法来提高4D点云表示的效率。

然而，对于动作识别等需要高精度和细节判断的任务，由于激光雷达的分辨率低，使得获得的点云数据因缺少部分细节信息而导致细粒度信息丢失，基于点云视频实现的三维感知出现错误和误判。

为了解决上述问题，在本申请实施例中获取包括若干训练数据的训练样本集，每个训练数据均包括训练文本数据、训练RGB视频以及训练点云视频；将训练点云视频输入初始三维人体行为识别网络中的四维点云编码器确定点云特征嵌入；将训练RGB视频和训练文本数据输入初始三维人体行为识别网络中的视觉语言模型确定视频特征嵌入和文本特征嵌入；基于点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项，基于点云特征嵌入确定第一分类损失项，基于视频特征嵌入确定第二分类损失项；基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练，以得到三维人体行为识别网络。

本申请实施例通过集成了文本数据、RGB视频以及点云视频的多模态训练样本集，为初始三维人体行为识别网络提供多模态训练数据，并将基于点云视频确定的点云特征嵌入与通过语言视觉模型学习到的文本特征嵌入和视频特征嵌入相匹配，以将语言视觉模型学到的知识转移到四维点云编码器上，使得三维人体行为识别网络可以学习到更多的知识信息，从而可以提高训练得到的三维人体行为识别网络的模型性能。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种基于视觉语言模型的三维人体行为识别网络训练方法，训练得到的三维人体行为识别网络可以应用适用于动作识别场景（通过分析四维点云视频，三维人体行为识别网络识别特定的人体动作或手势）、环境监测场景（三维人体行为识别网络通过分析行为数据以监测环境中的时间变化，提升城市规划、建筑结构监测、灾害管理的能力）和机器人交互场景（机器人通过使用三维人体行为识别网络理解人类的动作和手势，从而提高人机交互的效率和自然性）。

为了更好地说明本申请实施例提供的基于视觉语言模型的三维人体行为识别网络训练方法，现对三维人体行为识别网络的模型结构进行说明。在本申请实施例中，如图2所示，三维人体行为识别网络包括四维点云编码器、视觉语言模型以及分类模型，四维点云编码器、视觉语言模型均与分类模型。

进一步，如图3所示，四维点云编码器用于对四维点云视频进行特征提取，其中，四维点云编码器的输入项为点云视频，输出项为点云特征嵌入。此外，为了使得点云特征嵌入与后续获取的视频特征嵌入和文本特征嵌入的特征维度一致，在获取到点云特征嵌入后，可以通过一个投影层将点云特征嵌入投影至预设公共嵌入空间，并将投影后的点云特征嵌入作为点云视频对应的点云特征嵌入。

举例说明：给定4D点云视频，4D点云视频/>的点云特征嵌入的过程可以表示为：

，

其中，表示点云特征嵌入，/>表示四维点云编码器，/>表示投影层。

在一些实现方式中，如图3所示，四维点云编码器包括空间提取器和至少一个点时空卷积模块，其中，所述空间提取器包括依次连接的第一点采样层、分组层、第一MLP层和第一最大池化层，所述点时空卷积模块包括第二点采样层、交叉分组层、第二MLP层以及第二最大池化层，所述交叉分组层对时空点进行分组过程为：

，

视觉语言模型包括视频编码器和文本编码器，接受相应的点云视频所对应的RGB视频和文本数据，通过视频和文本编码器的协作训练，学会将视频表示与相应的文本对应物同步。其中，视频编码器用于处理的二维RGB视频内容从而提取空间视觉信息，得到视频特征嵌入；文本编码器用于理解与二维RGB视频内容相关的文本数据描述，从文本数据描述中提取文本特征嵌入，从而使三维人体行为识别网络能够用语言概括和理解它所“看到”的内容。此外，为了使得文本特征嵌入和视频特征嵌入与四维点云编码提取得到的点云特征嵌入保持一致的特征维度，在获取到文本特征嵌入和视频特征嵌入后，可以通过一个投影层将文本特征嵌入和视频特征嵌入投影至预设的公共嵌入空间中，并将投影后的文本嵌入特征和视频特征嵌入分别作为文本数据和RGB视频对应的特征嵌入。

举例来说，给定一个RGB视频和一个文本数据/>，将视频/>输入视频编码器，文本/>输入文本编码器，以在一个公共嵌入空间中获得视频和文本的特征表示，通过将编码的特征投射到一个公共的维度的过程可以表示为：

，/>

其中，和/>分别代表在经过投影层/>和/>处理后的RGB视频和文本特征嵌入，/>和/>分别代表视觉编码器和文本编码器。

需要注意的是，经过投影层后，和/>的维度是相同的，随后即可使用余弦相似性函数/>来计算视觉和文本表征之间的相似性。

在本申请的具体实现中，采用X-CLIP作为三维人体行为识别网络中的视觉语言模型，X-CLIP在CLIP的基础上加入了跨帧注意力机制和针对视频的提示技术，具备了更高的准确性。

现在结合上述对于三维人体行为识别网络的模型结构对所述基于视觉语言模型的三维人体行为识别网络训练方法进行说明，如图1所示，所述基于视觉语言模型的三维人体行为识别网络训练方法具体包括步骤S10-S40，在进行所述三维人体行为识别网络的训练之前，所述三维人体行为识别网络为初始三维人体行为识别网络。

S10、获取训练样本集。

具体地，所述训练样本集包括若干训练数据，每个训练数据均包括训练文本数据、训练RGB视频以及训练点云视频，其中，训练RGB视频可以通过RGB视频采集传感器（例如，RGB摄像头等）采集得到的，训练点云视频可以通过点云视频采集传感器（例如，激光雷达LiDAR）采集得到的，训练RGB视频和训练点云视频对应的采集场景相同，文本数据为训练RGB视频以及训练点云视频对应的描述文本。

在一些实现方式中，所述训练样本集的获取过程可以包括如下过程：

通过配备RGB摄像头和LiDAR的采集设备同步对给定场景进行采集，以得到记录有色彩信息的RGB视频和记录有深度信息的点云视频；对采集到的RGB视频和点云视频进行预处理，以得到训练RGB视频和训练点云视频，其中，预处理可以包括标准化和同步处理；训练RGB视频和训练点云视频在时间上对齐，即训练RGB视频中的各RGB图像帧与训练点云视频中的各点云帧一一对应，使得训练RGB视频和训练点云视频在随后的训练过程中能够相互对应；根据RGB视频和点云视频中的每个事件或者动作生成文本数据，以得到训练文本数据，例如，RGB视频和点云视频中包括一段人在挥手的动作时，训练文本数据中包括“挥手”，以得到训练样本集。

当然，在实际应用中，在获取到训练样本集还可以对训练点云视频进行旋转和/或平移，以及对训练RGB视频应用光照变化和/或翻转以实现数据增强，从而提高模型的泛化能力，避免过拟合；

本申请实施例使用上述步骤获取到训练文本数据、训练RGB视频以及训练点云视频，将训练文本数据、训练RGB视频以及训练点云视频作为训练数据三组，使得训练数据三元组中的三种数据都描述了从不同的模态表达相同的动作或事件，丰富了训练数据。此外，在本申请实施例中，为了便于后续说明，将训练样本集中的训练数据三元组表示为：

，

其中，表示第/>个训练文本数据，/>表示第/>个训练RGB视频，/>表示第/>个训练点云视频。

S20、将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器，通过所述四维点云编码器确定点云特征嵌入；将训练数据中的训练RGB视频和训练文本数据输入初始三维人体行为识别网络中的视觉语言模型，通过所述视觉语言模型确定视频特征嵌入和文本特征嵌入。

具体地，所述将训练点云数据输入到四维点云编码器确定点云特征嵌入、训练RGB视频和训练文本数据输入到视觉语言模型确定视频特征嵌入和文本特征嵌入的过程可以参照上述关于三维人体行为识别网络的说明，这里不再赘述。

在本申请的一个实现方式中，所述将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器具体包括：

S201、将训练数据中的训练点云视频等分为若干训练点云视频段，并在每个训练点云视频段中随机选取一训练点云视频帧；

S202、将选取到的所有训练点云视频帧作为输入项输入至初始三维人体行为识别网络中的四维点云编码器。

在本申请的具体实现中，针对初始三维人体行为识别网络中的四维点云编码器的训练过程采用了数据增强的策略进行帧采样，从而减少训练的持续时间，优化训练效率。具体来说，首先将训练点云视频分割成等时长的片段，片段数量为T，并从每个片段中随机采样一帧进行训练；其次再将训练点云视频表示为T个点云视频帧集合的集合，所述集合可以表示为：

，

其中，表示点云视频帧集合，/>表示点云视频帧集合中的第/>个点云视频帧。

本申请实施例中通过从每个时间段随机选择帧进行训练，可以增加四维点云编码器训练数据的多样性，减少四维点云编码器对特定帧序列的依赖，提高对未知数据的泛化能力。当四维点云编码器始终在相同的帧上训练时，四维点云编码器可能会学会记住特定帧的特定特质，而不是学习泛化到整个动作类别的特征。随机采样帧可以缓解这种过拟合风险，进而提高泛化能力。

在步骤S20中，使用初始三维人体行为识别网络中的四维点云编码器处理由步骤S202中得到的连续的训练点云视频帧，从而识别和提取四维动作的空间和时间特征，所述处理步骤包括点采样、分组、多层感知机MLP和时空卷积处理得到初始特征映射，再将初始特征映射投影到一个公共维度空间，形成特征向量，亦即点云特征嵌入，用于后续的训练。

将对应的训练RGB视频和训练文本输入到初始三维人体行为识别网络中的视觉语言模型（在本申请的具体实现中是X-CLIP模型），训练RGB视频提供视觉内容，训练文本提供动作类别的语义信息，视觉语言模型通过其视频编码器和文本编码器分别处理训练RGB视频和训练文本：视频编码器从训练RGB视频中提取视觉特征，文本编码器处理训练文本以提取文本特征。这两种特征再经由投影层投射到公共嵌入空间内，形成视频特征嵌入和文本特征嵌入。

需要注意的是，在本申请的一个实现方式中，对于四维点云编码器的训练过程采用了余弦学习率衰减方法；在网络结构方面，使用了搜索邻域点的半径r来标准化，其中/>和/>均代表时空邻域内的点的特征和坐标，使相对坐标的值不至于过小，有利于网络优化的速度；此外，为了更好地聚合时空邻域特征，增加了中心点自身的特征匹配来更新每个中心点的特征。

S30、基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项，基于训练数据对应的点云特征嵌入确定第一分类损失项，以及基于训练数据对应的视频特征嵌入确定第二分类损失项。

在本申请的一个实现方式中，所述基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项具体包括：

S31、对于训练数据对应的每个动作类别，计算点云特征嵌入和文本特征嵌入在所述动作类别下的第一相似度，以及视频特征嵌入和点云特征嵌入在所述动作类别下的第二相似度；

S32、基于计算得到的所有第一相似度确定第一对齐损失项，并基于计算得到的所有第二相似度确定第二对齐损失项；

S33、将所述第一对齐损失项和所述第二对齐损失项加权，得到对齐损失项。

具体地，基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项的过程使用跨模态对比学习的思路，实现对文本特征嵌入、视频特征嵌入和点云特征嵌入之间的关联对齐。

所述跨模态对比学习的思路是分别将点云特征嵌入和文本特征嵌入进行对齐，视频特征嵌入和点云特征嵌入进行对齐，从而共通优化点云特征嵌入、视频特征嵌入和文本特征嵌入之间关联对齐。

在本申请的具体实现中，如附图2中所示，基于步骤S20中的到点云特征嵌入、视频特征嵌入和文本特征嵌入（已进行过标准化处理（投影操作），将三种特征嵌入投影在同一个公共嵌入空间内）。

在步骤S31中，使用内积的方式来计算经过标准化处理特征嵌入之间的相似度。其中，点云特征嵌入和文本特征嵌入在所述动作类别下的相似度为第一相似度，视频特征嵌入和点云特征嵌入在所述动作类别下的相似度为第二相似度。

在步骤S32中，基于第一相似度确定文本特征嵌入与点云特征嵌入之间的第一对齐损失项的过程可以表示为：

，

其中，表示第一对齐损失项，/>为训练批次的数量，/>为动作类别的数量，/>表示第/>个动作类别的文本特征嵌入，/>表示第/>个点云特征嵌入，/>第/>个动作类别的文本特征嵌入。

基于第二相似度确定视频特征嵌入与点云特征嵌入之间的第二对齐损失项的过程可以表示为：

，

其中，表示第二对齐损失项，/>为训练批次的数量，/>表示第/>个点云特征嵌入，/>表示第/>个视频特征嵌入，/>表示第/>个视频特征嵌入。

在步骤S33中，在得到第一对齐损失项和第二对齐损失项后，可以使用预设的可训练的加权系数，最小化所有模态对的对比损失得到对齐损失项，其中，在跨模态学习期间，使用作为监督来微调已经预训练了的四维点云编码器。在一些实现方式中，所述得到对齐损失项的表达式可以为：

，

其中，表示对齐损失项，/>表示第二对齐损失项，/>为第二对齐损失项的加权系数，/>表示第一对齐损失项，/>为第一对齐损失项的加权系数。

需要注意的是，在这一阶段的训练过程中初始三维人体行为识别网络中的视觉语言模型冻结的，换句话来说，视觉语言模型的参数不会这个训练阶段修改。

第一分类损失项为基于训练数据对应的点云特征嵌入的预测分类类别确定的，也就是说，在获取到点云特征嵌入后，会将点云特征嵌入输入到一个分类头，通过分类头预测点云特征嵌入对应的预测分类类别，并根据预测得到的预测分类类别和标注类别确定第一分类损失项。在本申请实施例的一个实现方式中，第一分类损失项可以是通过一个全连接层计算点云特征嵌入对应的相应动作类别的概率分布（即预测分类类别），再通过交叉熵损失函数计算得到由动作类别的概率分布与真实动作类别的标签（即标注类别）之间的差异，从而得到第一分类损失项。如果初始三维人体行为识别网络的预测分类类别接近标注类别，那么损失值小；如果预测分类类别与标注类别相差较远，损失值就大。在训练过程中，四维点云编码器的参数会通过反向传播和优化器不断更新，从而最小化第一分类损失项，以便四维点云编码器在解码点云特征时更准确地识别动作。此外，第二分类损失项为基于训练数据对应的视频特征嵌入的预测分类类别确定的，其中，第二分类损失项的确定过程与第一分类损失的确定过程相同，这里就不再具体说明。

本申请实施例通过采用第一分类损失项和所述第二分类损失项来对初始三维人体行为识别网络仅训练，可以使得初始三维人体行为识别网络能够从各自模态中学习到泛化性更强的特征表示，并且可以更好地对动作进行分类，最终提升整体的识别性能。

S40、基于所述对齐损失项、所述第一分类损失项和所述第二分类损失项对所述初始三维人体行为识别网络进行训练，以得到三维人体行为识别网络。

具体地，基于对齐损失项、第一分类损失项和第二分类损失项得到初始三维人体行为识别网络的总损失项的过程可以表示为：

，

其中，为初始三维人体行为识别网络的总损失项，/>为第一分类损失项，/>为第一分类损失项，/>为第一分类损失项的权重系数，/>为第一分类损失项的权重系数，/>和均为可训练的预设参数。

基于初始三维人体行为识别网络的总损失项，使用反向传播算法和优化器（例如随机梯度下降或Adam）来更新模型参数，使得更新后的初始三维人体行为识别网络的总损失项逐步降低直至达到预设阈值或在预设步骤内不再降低为止，冻结所述初始三维人体行为识别网络的参数，得到三维人体行为识别网络。

通过引入对齐损失项、第一分类损失项和第二分类损失三者共同对初始三维人体行为识别网络进行训练，综合参考了点云视频和文本数据的关联，点云视频和RGB视频的关联，进而使得点云视频的特征嵌入与思维视觉语言模型中的视觉语言模型更加协调，弥补了点云特征嵌入中关于细粒度细节不足的问题，最终提高初始三维人体行为识别网络的准确度和泛化性。

此外，所述初始三维人体行为识别网络中的四维点云编码器经过预训练操作，具体地，在所述四维点云编码器的预训练过程中，采用如S30中所述的对齐损失项作为损失项，并且冻结所述初始三维人体行为识别网络中的视觉语言模型。

四维点云编码器在实际用于初始三维人体行为识别网络训练之前，可以通过预训练来提前捕获点云数据中的时空模式和特征。预训练过程使用了预设的四维点云视频训练数据集进行训练，使得四维点云编码器自主学习如何有效地提取点云视频中的动作相关特征。

在预训练过程中，使用对齐损失项（点云与文本的对齐和点云与视频的对齐之间的损失）作为优化目标。对齐损失项专门设计来指导四维点云编码器，使其生成的点云特征表示与对应的文本数据和RGB视频特征表示在特征空间中尽可能地接近，利用对齐损失项作为优化引导，四维点云编码器可以更精确地对齐多模态数据，生成更具辨识力的特征嵌入表示。

为了专注于点云特征的提取，预训练期间还会将视觉语言模型冻结，确保在四维点云编码器学习的同时，视觉语言模型的参数保持不变，利用视觉语言模型预训练的先验知识来辅助四维点云编码器提取信息量更多的特征，加快学习过程并提高模型收敛速度。

值得注意的是，在所述四维点云编码器的预训练过程以及所述初始三维人体行为识别网络的训练过程中，所述视觉语言模型均为预先训练的。所述视觉语言模型使用预设的文本数据和RGB视频进行预训练操作。视觉语言模型通过所述预训练操作得到抽象和理解图像内容以及文本描述的能力，使得初始三维人体行为识别网络可以高效地从多模态输入中学习和融合信息，并且在训练开始前就拥有强大的语义理解和视觉处理能力，无需从零开始学习所有知识，进而提高了模型针对具体任务的学习效率。

同时，在使用所述的基于视觉语言模型的三维人体行为识别网络训练方法训练得到三维人体行为识别网络之后，所述三维人体行为识别网络包括经过训练的三维人体行为识别方法，所述经过训练的三维人体行为识别方法具体包括：

H100、获取待识别的行为数据，其中，所述行为数据包括文本数据、RGB视频和四维点云视频；

H200、将所述行为数据输入所述三维人体行为识别网络，通过三维人体行为识别网络基于所述文本数据和所述RGB视频确定第一logit分数，基于所述文本数据和所述四维点云视频确定第二logit分数，基于所述行为数据确定第三logit分数，以及基于所述RGB视频确定第四logit分数；

H300、基于所述第一logit分数、所述第二logit分数、所述第三logit分数以及所述第四logit分数，确定所述待识别的行为数据对应的识别结果。

在本申请的具体实现中，所述将所述行为数据输入所述三维人体行为识别网络之前所述方法还包括：

H101、将所述四维点云视频等分为若干点云视频段，并分别选取位于各点云视频段中间位置的点云视频帧；

H101、将选取到的所有点云数据帧作为四维点云视频。

在步骤H100中，收集包含文本数据、RGB视频以及四维点云视频的数据集。文本数据提供有关所执行动作的描述，RGB视频提供视觉细节和外观信息，而四维点云视频则提供了空间和时间信息，从而能够捕获动作的三维结构和动态变化。

在本申请的具体实现中，针对三维人体行为识别网络中的四维点云编码器的推理过程之前，对行为数据采用了数据增强的策略进行帧采样，从而减少推理的持续时间，优化推理效率。具体来说，首先将四维点云视频分割成等时长的片段，片段数量为T，并从每个片段的中间位置抽取一帧进行推理；抽取出来的点云视频帧构成一个包括T个点云视频帧的集合作为四维点云视频，所述点云视频帧的集合可以表示为：

，

在推理阶段选取每个片段中间位置的帧可以为四维点云编码器提供一致的推理基准，选择中间帧作为一个片段的代表，可以平衡信息覆盖和计算效率，因为中间帧更能代表该时间段内的平均行为，为后续的特征提取过程提供更均衡的信息。

在步骤H200中，输入的数据包括文本描述、RGB视频和点云视频，三种数据被送入已经训练好的三维人体行为识别网络。模型的三个不同组件文本编码器、RGB视频编码器和点云视频编码器各自处理输入的数据。

首先，将文本数据和RGB视频输入所述经过训练的四维点云识别模型中的文本编码器和视频编码器，分别得到对应的临时文本特征嵌入和临时视频特征嵌入，再使用经过训练的公共嵌入空间对所述临时文本特征嵌入和临时视频特征嵌入进行投影得到文本特征嵌入和视频特征嵌入；再将四维点云视频输入经过训练的四维点云识别模型中的四维点云编码器，得到对应的临时点云特征嵌入，使用经过训练的公共嵌入空间对所述临时点云特征嵌入进行投影得到点云特征嵌入，从而确保点云特征嵌入、文本特征嵌入和视频特征嵌入具备相同的特征维度；

随后将文本特征嵌入和视频特征嵌入进行结合计算第一logit分数，体现了基于视觉和语言的动作识别信号的强度，

其次，将文本特征嵌入和点云特征嵌入进行结合计算第二logit分数，体现了基于三维结构和动态变化以及语言描述的动作识别信号的强度。

再次，使用点云特征嵌入计算第三logit分数，这个分数直接反映了四维点云中动作的特征。

最终，使用视频特征嵌入计算第四logit分数，这个分数反映了传统二维视频中动作的视觉特征。

在步骤H300中，通过结合四个logit分数，三维人体行为识别网络基于上述四个logit分数输出最终的分类预测，代表了待识别行为数据对应的识别结果。通过整合这四个logit分数，三维人体行为识别网络利用了跨模态信息实现了提高动作分类准确性的目的。

在本申请的一个实现方式中，还对所述基于视觉语言模型的三维人体行为识别网络训练方法进行了消融实验，以证实三维人体行为识别网络和四维点云编码器的有效性，以及三维人体行为识别网络的普适性，所述消融实验的具体步骤如下：

使用数据集NTU RGB+D作为消融实验的训练样本集，其中NTU RGB+D是一个大规模的人体动作识别基准数据集，包含了由40名参与者在80个摄像机视角下执行60种不同动作的56,880个视频。所述视频是使用Kinect V2摄像机捕获的，以收集四种数据模态：RGB帧、深度图、三维关节点信息以及红外序列。采用交叉主体和交叉视角的评估方法。

NTU RGB+D 120数据集是NTU60数据集的扩展，拥有120个动作类别和114,480个视频。所述动作类别包括日常行为（比如站起、阅读、叉臂等）、健康相关行为（比如跌倒、背痛、擤鼻子等）以及相互作用的行为（比如拥抱、推搡、用物体击打等）。NTU RGB+D 120数据集也是使用Kinect V2收集的，具有与NTU RGB+D 60数据集相同的模态。在NTU RGB+D 120数据集上采用交叉主体和交叉设置的评估协议。

消融实验中，首先进行训练点云视频的准备工作，遵循原始四维点云编码器的原则将深度图转换为点云序列，在每一帧中采样2048个点。使用SGD优化器，并采取余弦学习率衰减策略进行优化。在NTU RGB+D 60和NTU RGB+D 120数据集上，初始学习率、权重衰减和批大小分别经验性地设置为0.01、0.1和32。

在NTU RGB+D 60和NTU RGB+D 120上预训练了120个周期。分组模块的邻近点数K和空间搜索半径r分别设置为9和0.1。遵循原始四维点云编码器的原则，将剪辑长度和帧采样步幅分别设定为23和2。网络结构包括一个空间提取层和五个点时空卷积模块，用于提取点云视频特征。在第1、2、4和6层中，空间子采样率设置为2，以减半空间分辨率。随着网络向更深层次发展，空间半径逐渐增大以增加空间接收域。在第2和第4层中，时间步长设为2，以减半时间分辨率。在第2到第4层之间，时间半径设为1，以捕捉时间相关性。值得注意的是，在空间提取层中，时间半径设置为0，在该层中只对空间结构建模。在点时空卷积模块之后，分别使用平均池化和最大池化进行空间池化和时间池化。

对于RGB模态，将输入帧的数量设置为8，帧采样方法与点云视频的相同。对Kinetics600上的预训练X-CLIP-B/16模型在NTU RGB+D数据集上精调了30个训练周期。

在对比学习中，消融实验训练了30个周期，学习率从0.001衰减到0.0001，其他设置与预训练的四维点云编码器相同。

所有的消融实验都是在两张NVIDIA 12G 3080Ti GPU上进行的。

经过上述消融实验，得到如下结论，

通过比较不同的损失，消融实验展示了在微调四维点云编码器时，使用不同损失项对动作识别性能的影响。由四维点云编码器编码的点云视频特征通过全连接层后的交叉熵损失进行计算的模型准确率为96%。由四维点云编码器编码的点云特征嵌入与输入三维人体行为识别网络中的视觉语言模型的视频编码器编码的视频特征嵌入之间的对比损失进行计算的模型准确率为95.4%。由点云视频特征与输入三维人体行为识别网络中的视觉语言模型的文本编码器编码的文本特征嵌入之间的比较损失进行计算的模型准确率为95%。由此可得，本申请提出的对比学习方法对于将点云特征与训练过的视觉语言模型对齐是有效的。

通过比较不同改进的方法，消融实验展示了与对比的四维点云编码器相比，采用不同模块时提出的四维点云编码器的结果。四维点云编码器在人类动作识别上比原始的四维点云编码器的改进有更大的提升，其中，原始的对比四维点云编码器得到了88.6%的准确率，增加随机帧采样后，准确率提升至89%，将按步衰减调整为cosine 衰减后提升至89.2%，采用标准化处理后提升至89.9%，采用特征聚合和后（本申请中的点云四维编码器）得到了90.3%的准确率。

通过比较不同视觉语言模型，消融实验尝试了不同的视觉语言模型来辅助点云动作识别。实验报告了X-CLIP模型和Vita-CLIP模型辅助四维点云编码器的结果及其单独使用RGB模态的性能。X-CLIP对辅助点云视频动作识别的效果最佳，而使用Vita-CLIP辅助四维点云编码器也取得了更好的结果。这表明本申请提出的三维人体行为识别网络具有通用性，可以将表现出色的视觉语言模型整合到三维人体行为识别网络中。随着未来视觉语言模型的发展，三维人体行为识别网络在4D识别上的效果可以持续提升。

综上所述，本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法，通过获取训练样本集，其中，所述训练样本集包括若干训练数据，每个训练数据均包括训练文本数据、训练RGB视频以及训练点云视频；将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器，通过所述四维点云编码器确定点云特征嵌入；将训练数据中的训练RGB视频和训练文本数据输入初始三维人体行为识别网络中的视觉语言模型，通过所述视觉语言模型确定视频特征嵌入和文本特征嵌入；基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项，基于训练数据对应的点云特征嵌入确定第一分类损失项，以及基于训练数据对应的视频特征嵌入确定第二分类损失项；基于所述对齐损失项、所述第一分类损失项和所述第二分类损失项对所述初始三维人体行为识别网络进行训练，以得到三维人体行为识别网络。

本申请首先通过集成了文本数据、RGB视频以及点云视频的多模态训练样本集，为初始三维人体行为识别网络提供了一个丰富的学习环境，所述多模态训练样本集不仅提升了初始三维人体行为识别网络对空间和时间信息的捕捉能力，也为之后的特征提取和模式识别奠定了基础；随后，初始三维人体行为识别网络通过四维点云编码器强化了对点云视频的空间－时间特征提取得到点云特征嵌入，使得初始三维人体行为识别网络在空间维度上不受传感器分辨率限制的约束，同时保证了时间维度上的动态信息被有效编码；同时，使用初始思维视觉语言模型中的视觉语言模型对RGB视频和文本数据的进行特征提取得到视频特征嵌入和文本特征嵌入，从而从视觉和语义层面理解内容，增加初始思维视觉语言模型的理解能力；在此基础上，使用点云特征嵌入、文本特征嵌入和视频特征嵌入确定对齐损失项，使用点云特征嵌入确定第一分类损失项，使用视频特征嵌入确定第二分类损失项，通过定义对齐损失项和分类损失项，使得初始思维视觉语言模型在训练过程中在特征对齐和分类精确度之间找到最佳平衡，融合多模态特征进而优化动作分类的表现；最终，通过综合上述步骤来训练和优化三维人体行为识别网络，不仅提高了模型对复杂动态场景的识别能力，还优化了对于动作识别等涉及精细差别的场景的性能和泛化能力。

基于上述基于视觉语言模型的三维人体行为识别网络训练方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述基于视觉语言模型的三维人体行为识别网络训练方法中的步骤和三维人体行为识别方法中的步骤。

基于上述基于视觉语言模型的三维人体行为识别网络训练方法，本申请还提供了一种终端设备，如图4所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于视觉语言模型的三维人体行为识别网络训练方法，其特征在于，所述的基于视觉语言模型的三维人体行为识别网络训练方法具体包括：

将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器，通过所述四维点云编码器确定点云特征嵌入；将训练数据中的训练RGB视频和训练文本数据输入初始三维人体行为识别网络中的视觉语言模型，通过所述视觉语言模型确定视频特征嵌入和文本特征嵌入；

2.根据权利要求1所述的基于视觉语言模型的三维人体行为识别网络训练方法，其特征在于，所述初始三维人体行为识别网络中的四维点云编码器经过预训练，其中，在所述四维点云编码器的预训练过程中，采用对齐损失项作为损失项，并冻结所述视觉语言模型。

3.根据权利要求2所述的基于视觉语言模型的三维人体行为识别网络训练方法，其特征在于，在所述四维点云编码器的预训练过程以及所述三维人体行为识别网络的训练过程中，所述视觉语言模型均为预先训练的。

4.根据权利要求1或2所述的基于视觉语言模型的三维人体行为识别网络训练方法，其特征在于，所述基于训练数据对应的点云特征嵌入、文本特征嵌入以及视频特征嵌入确定对齐损失项具体包括：

5.根据权利要求1所述的基于视觉语言模型的三维人体行为识别网络训练方法，其特征在于，所述四维点云编码器包括空间提取器和至少一个点时空卷积模块，其中，所述空间提取器包括依次连接的第一点采样层、分组层、第一MLP层和第一最大池化层，所述点时空卷积模块包括第二点采样层、交叉分组层、第二MLP层以及第二最大池化层，所述交叉分组层对时空点进行分组过程为：

，

其中，表示时空点，/>表示时空点/>的时空邻域，/>表示时空邻域内的时空邻域点，表示空邻域点/>的特征，/>表示时空点/>的特征，/>表示空邻域点/>的坐标，/>表示时空点/>的坐标，/>表示空邻域点的搜索半径，/>表示MLP层。

6.根据权利要求1所述的基于视觉语言模型的三维人体行为识别网络训练方法，其特征在于，所述将训练数据中的训练点云视频输入初始三维人体行为识别网络中的四维点云编码器具体包括：

7.一种三维人体行为识别方法，其特征在于，应用采用如权利要求1-6任意一项所述的基于视觉语言模型的三维人体行为识别网络训练方法训练得到的三维人体行为识别网络，所述三维人体行为识别方法具体包括：

获取待识别的行为数据，其中，所述行为数据包括文本数据、RGB视频和四维点云视频；

基于所述第一logit分数、所述第二logit分数、所述第三logit分数以及所述第四logit分数，确定所述待识别的行为数据对应的识别结果。

8.根据权利要求7所述的三维人体行为识别方法，其特征在于，所述将所述行为数据输入所述三维人体行为识别网络之前所述方法还包括：

将选取到的所有点云数据帧作为四维点云视频。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-6任意一项所述的基于视觉语言模型的三维人体行为识别网络训练方法中的步骤，和/或以实现如权利要求7-8任意一项所述的三维人体行为识别方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器和存储器；

所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的基于视觉语言模型的三维人体行为识别网络训练方法中的步骤，和/或实现如权利要求7-8任意一项所述的三维人体行为识别方法中的步骤。