CN117690190A

CN117690190A - 基于超图文本对比的水下动作识别方法、系统及存储介质

Info

Publication number: CN117690190A
Application number: CN202410130129.8A
Authority: CN
Inventors: 姜宇; 魏枫林; 王凯; 齐红; 赵明浩; 张永霁; 夏雨桐
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-03-12

Abstract

本发明属于水下动作识别技术领域，本发明公开了基于超图文本对比的水下动作识别方法、系统及存储介质，包括以下步骤：获取水下动作基准数据集；基于姿态估计法提取水下各种动作指令下的水下人体骨骼数据；对基本人体骨骼进行分区设计，建立关于骨骼关节点的超边，进而获得超图；将所述超图和所述水下人体骨骼数据进行结合，输出水下骨骼的超边特征；基于Transformer模型，输出骨骼特征，将所述骨骼特征和所述文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果。本发明，将超图与输入特征结合推到超边特征，采用文本编码器生成文本特征，实现骨骼‑文本的对比学习，有效地利用多模态信息进一步提升潜水员动作识别的效能。

Description

基于超图文本对比的水下动作识别方法、系统及存储介质

技术领域

本发明涉及水下动作识别技术领域，尤其涉及基于超图文本对比的水下动作识别方法、系统及存储介质。

背景技术

动作识别是一种计算机视觉技术，旨在通过分析人体骨骼关节的运动模式和姿势来实现对人类动作的识别理解。此类任务有着广泛地实际应用价值以及经济潜力，当潜水员在水下进行各种作业时，往往需要使用摄像机进行水下拍摄。不同潜水员进行水下沟通交流时，由于水下环境的限制，潜水员只能通过相关动作进行交流，且视野受限。另外对于不同水域的相关作业时，由于不知道目标陌生水域的水质水温等未知情况，贸然前往会有不可预知的风险。因此，出现了用于辅助沟通交流的水下机器人；但是如何利用水下机器人对潜水员的相关指令动作进行识别，以便更好的实现水下作业人机交互是本领域技术人员要解决的问题。

发明内容

有鉴于此，本发明提供了基于超图文本对比的水下动作识别方法、系统及存储介质，传统图卷积神经网络GCN大多使用人体骨骼的图结构，这就会忽略非自然连接的关节组在运动中的联系，导致动作识别的准确率降低，基于此本发明采用超边将任意关节点连接起来，形成超图，超图进一步考虑了数据中隐含的高阶信息；同时GCN存在拓扑结构在训练后是固定的限制，而注意力机制可以很好地放宽这种限制，提高模型性能。

为了达到上述目的，本发明采用如下技术方案：

基于超图文本对比的水下动作识别方法，包括以下步骤：

获取潜水员水下动作彩色图像，作为水下动作基准数据集。

基于姿态估计法对所述水下动作基准数据集进行处理，提取水下各种动作指令下的水下人体骨骼数据；

对基本人体骨骼基于人体动力学进行分区设计，建立关于骨骼关节点的超边，进而获得超图；将所述超图和所述水下人体骨骼数据进行结合，输出水下骨骼的超边特征；

预设计超图自注意力机制模块和多尺度时间卷积模块，基于包含所述超图自注意力机制模块和所述多尺度时间卷积模块的Transformer模型，输出骨骼特征，其中所述Transformer模型以所述超边特征为输入；

基于VIT-B模型加载文本模型，并将所述骨骼特征和所述文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果。

优选的，对基本人体骨骼基于人体动力学进行分区设计，建立关于骨骼关节点的超边，进而获得超图；将所述超图和所述水下人体骨骼数据进行结合，输出水下骨骼的超边特征；其中，所得人体骨骼数据中关节点共有25个，骨骼分区表达式为：

；

所述骨骼关节点的超边表达式为：

；

其中，表示关节点v不属于超边e，/>表示该关节点v属于该超边，由此获得超图/>；其中，R表示一个25行，5列的矩阵；

所述超边特征表达式为：

；

其中，是超边逆度矩阵；/>是输入特征；/>是权重矩阵；/>是推导出的所述超边特征。

优选的，所述Transformer模型，包括：超图自注意力机制模块、多尺度时间卷积模块以及全连接模块；

所述超边特征输入至所述超图自注意力机制模块中提取空间维度骨骼特征；

将所述空间维度特征输入至所述多尺度时间卷积模块中提取时间维度骨骼特征；

将所述时间维度骨骼特征输入至所述全连接层中输出最终的所述骨骼特征。

优选的，所述超图自注意力机制模块的表达式为：

；

其中，q表示查询；k表示键；R表示相对位置嵌入；h表示超边嵌入向量；是通过人体骨骼结构生成的邻接矩阵；x是超图自注意力机制模块的输出特征；A是超图自注意力分数；T是矩阵转置符号；α是超参数。

优选的，所述多尺度时间卷积模块的表达式为：

；

其中，是多尺度时间卷积函数；Z是输出特征；sk表示激活函数。

优选的，基于VIT-B模型加载文本模型，并将所述骨骼特征和所述文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果，具体包括：

S1.加载VIT-B/32模型，并删除所述VIT-B/32模型的视觉部分；

S2.根据所述水下动作基准数据集的动作标签使用大规模语言模型生成水下动作的文本描述，利用所述VIT-B/32模型的文本编码器生成水下动作的文本特征；

S3.采用KL散度作为骨骼-文本对比损失，优化对比过程，输出所述潜水员动作指令识别结果。

优选的，骨骼-文本对比损失表达式为：

；

其中，和/>是真实的相似度评分，t和s分别表示文本特征和骨骼特征，KL表示KL散度计算函数，P和y是概率表示输入和目标之间的关联度，/>是对比损失，参与到反向传播中进行参数的更新。

优选的，在步骤1中加载VIT-B/32模型，并删除所述VIT-B/32模型的视觉部分，剩余部分为：Transformer Encoder模块；其中，所述Transformer Encoder模块包括：位置编码、多头注意力机制以及前馈神经网络。

一种基于超图文本对比的水下动作识别系统，包括：

获取模块，用于获取潜水员水下动作彩色图像，作为水下动作基准数据集；

数据提取模块，用于基于姿态估计法对所述水下动作基准数据集进行处理，提取水下各种动作指令下的水下人体骨骼数据；

超边特征提取模块，用于对基本人体骨骼基于人体动力学进行分区设计，建立关于骨骼关节点的超边，进而获得超图；将所述超图和所述水下人体骨骼数据进行结合，输出水下骨骼的超边特征；

骨骼特征提取模块，用于基于包含超图自注意力机制模块和所述多尺度时间卷积模块的Transformer模型获取骨骼特征，其中所述Transformer模型以所述超边特征为输入；

骨骼-文本对比模块，用于基于VIT-B模型加载文本模型，并将所述骨骼特征和所述文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果。

一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行任一项所述基于超图文本对比的水下动作识别方法的步骤。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了基于超图文本对比的水下动作识别方法，(1) 本发明的方法能够依据人体动力学设计人体骨骼分区，建立超图，充分挖掘数据中的高阶依赖信息，将超图与输入特征结合推到超边特征，实现更有效地信息提取。

(2) 本发明能够使用大规模语言模型GPT-4作为知识引擎生成动作的文本提示，采用文本编码器生成文本特征，实现骨骼-文本的对比学习，有效地利用多模态信息进一步提升潜水员动作识别的效能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1 附图为本发明的方法流程示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例公开了一种基于超图文本对比的水下动作识别方法，包括：

获取潜水员水下动作彩色图像，作为水下动作基准数据集。

基于姿态估计法对水下动作基准数据集进行处理，提取水下各种动作指令下的水下人体骨骼数据；

对基本人体骨骼基于人体动力学进行分区设计，建立关于骨骼关节点的超边，进而获得超图；将超图和水下人体骨骼数据进行结合，输出水下骨骼的超边特征；

预设计超图自注意力机制模块和多尺度时间卷积模块，基于包含超图自注意力机制模块和多尺度时间卷积模块的Transformer模型，输出骨骼特征，其中Transformer模型以超边特征为输入；

基于VIT-B模型加载文本模型，并将骨骼特征和文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果。

具体地：

在本实施例中，首先基于水下图像采集设备采集水下作业的潜水员彩色工作视频，并进一步基于图像处理手段截取潜水员在水下发出动作指令的水下动作彩色图像；其中，在本实施例中基于搭建好的RGB相机系统，拍摄自8个不同水下场景的不同角度的潜水员作业图像，总计获取10k+张图片，作为水下动作基准数据集，经过相关姿态估计方法提取出骨骼数据的一部分作为我们的模型方法训练的标签，另一部分作为测试集，通过这样模拟水下作业人机交互情况。而我们要做的就是利用训练集进行训练，然后将测试集进行测试以提高动作识别精度更好的进行人机交互。最终在本实施例中取80%为训练集，20%为测试集来实现潜水员动作识别。

由于潜水员的动作存在三维空间的特点，因此在本实施例中利用姿态估计法检测水下动作彩色图像中的人体，并进一步对同一水下动作彩色图像中的每一个人体单独进行骨骼关键点检测得到骨骼点数据；对于经过姿态估计法获取的骨骼点数据，经过数据转换方法，最终得到潜水员动作数据的最终形式：（N，C，F，V，M），其中N是样本数据表示动作指令，C是水下数据通道表示空间坐标以及置信度，F代表本次实验数据在时间维度的帧数，M为潜水员的数量。每一组数据都对应着一个潜水员具体的指令。具体地，在本实施例可使用姿态估计法包括但不限于MMpose。

需要说明的是，对于骨骼数据这种欧几里得数据，仅靠传统的图结构很难翻译出潜水员复杂的动作，传统的图结构很难挖掘数据中的高阶信息。所以在本实施例中为了更好地表示潜水员的动作信息，依据人体动力学设计人体骨骼分区，从而建立非自然依赖的关节点超边，获得超图，将内在的高阶信息纳入模型中，在问题上作为骨骼拓扑，这具有更好的解释性。在本实施例中，所得人体骨骼数据中关节点共有25个，骨骼分区表达式为：

；

骨骼关节点的超边表达式为：

；

给定超图H，获取与超边连接的关节子集的特征表示，将超连接信息引入水下人体骨骼数据中，推导出超边特征，超边特征表达式为：

；

其中，是超边逆度矩阵；/>是输入特征；/>是权重矩阵；/>是推导出的超边特征。

其中，在本实施例中Transformer模型，包括：超图自注意力机制模块、多尺度时间卷积模块以及全连接模块；

超边特征输入至超图自注意力机制模块中提取空间维度骨骼特征；

将空间维度特征输入至多尺度时间卷积模块中提取时间维度骨骼特征；

将时间维度骨骼特征输入至全连接层中输出最终的骨骼特征。

超图自注意力机制模块的表达式为：

；

多尺度时间卷积模块的表达式为：

；

基于VIT-B模型加载文本模型，并将骨骼特征和文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果，具体包括：

S1.加载VIT-B/32模型，并删除VIT-B/32模型的视觉部分；另外，在步骤S1中加载VIT-B/32模型，并删除VIT-B/32模型的视觉部分，剩余部分为：Transformer Encoder模块；其中，VIT-B/32模型包括：输入处理模块、Transformer Encoder模块、以及输出处理模块；具体地：在本实施例中删除视觉部分指删除输入处理模块和输出处理模块；

输入处理模块：

输入图像分割为固定数量的图块。每个图块通过一个可学习的线性变换映射到嵌入向量。

Transformer Encoder模块：

将嵌入向量输入到Transformer Encoder中。Transformer Encoder是由多层Transformer组成的模块。每个Transformer层包含位置编码、多头自注意力机制和前馈神经网络。

位置编码：

位置编码用于为模型提供输入的嵌入向量的位置信息，这种编码通过在输入嵌入向量中添加位置信息的方式，使得VIT-B/32模型能够区分嵌入向量中不同位置的元素。

多头自注意力机制：

位置编码后，将嵌入向量输入到多头自注意力机制中，多头自注意力机制允许输入向量之间进行交互，使得每个向量可以考虑其他所有向量的信息。在多头自注意力机制中，模型同时关注来自不同表示子空间的多个注意力权重。

前馈神经网络：

经过自注意力机制处理的嵌入向量进入前馈神经网络。前馈神经网络通常包含全连接层和激活函数，用于捕获和处理嵌入向量中的特征。

输出处理：

将Transformer Encoder的输出通过汇总进行分类或回归。

S2.根据水下动作基准数据集的动作标签使用大规模语言模型生成水下动作的文本描述，利用VIT-B/32模型的文本编码器生成水下动作的文本特征；

S3.根据Transformer模型输出的骨骼特征，使用KL散度作为骨骼-文本对比损失，优化对比过程，输出潜水员动作指令识别结果。其中，使用KL散度作为骨骼-文本对比损失，优化对比过程，骨骼-文本对比损失表达式为：

；

最后经过优化对比过程的骨骼特征经过一个全连接层输出一个大小为classes*1的矩阵，其中classes代表着潜水员动作的个数，每个数据都会有一个指令动作概率，取最大指令动作概率为最终动作指令，然后机器根据识别的指令进行相关操作，完成水下作业人机交互。

将模型的架构搭建好之后使用SGD优化器作为本次模型编译的调优loss方法，对模型训练110个epoch，batch_size设为90，将初始的学习率设置为0.1，warm_up_epoch设置为5，lr_decay_rate设置为0.1。本次实验基于2080Ti实现。

本实施例采用的是Cross Entropy Loss作为损失函数计算骨骼特征的分类损失，同对比损失一起参与反向传播进行参数更新，其公式表示：

；

其中，b表示真实标签，表示模型的预测输出，/>表示分类损失函数。

引入交叉熵代价函数，是为了弥补 sigmoid 型函数的导数形式易发生饱和，saturate，梯度更新的较慢的缺陷。梯度更新较慢表现为sigmoid的斜率较小。其次，交叉熵代价函数作为损失函数在进行梯度下降计算的时候可以避免出现梯度弥散，导致学习速率下降，相关推导可以证明交叉熵损失函数与sigmoid导数无关，从而避免了梯度弥散。

需要说明的是，在实际使用时，本实施例中共使用了两个损失函数，一个是文本特征与骨骼特征对比学习时使用的对比损失函数，另一个是优化阶段对Transformer神经网络输出的骨骼特征进行分类的损失计算的分类损失函数，在实际使用时这两个损失函数是一起参与反向传播进行参数更新的。并且在本实施例中关于文本特征的生成，首先是根据获得的水下动作基准数据集中的动作种类确定一系列标签，例如：挥手、上浮、下潜，然后使用这些标签让大规模语言模型GPT-4生成具体的动作描述，最后将这些动作描述输入到VIT-B/32的文本编码器中，输出用于对比学习的文本特征。

如下表所示，表中包含两种数据集划分方式：一、跨被试者，在这个划分方式下，数据集按照被试者来划分训练集和测试集。也就是说，用于训练的数据来自于一个集合的被试者，而测试的数据来自于不同集合的被试者。二、跨视角，在这个划分方式下，数据集按照不同的视角或摄像机来划分训练集和测试集。也就是说，训练数据来自于一个视角，而测试数据来自于另一个视角。超图文本对比学习方法Hyper-SA代表这个方法在92.6和97.0就是这两种数据集下的准确率。

表1 实施例1方法准确率示意表

实施例2

在实施例1的基础上本实施例进一步公开了一种k-hop相对位置嵌入方法，在实施例1中建立了超图自注意力机制模块和多尺度时间卷积模块，以提取潜水员骨骼特征，其中，超图自注意力机制模块：首先需要获取位置嵌入，而人体关节与骨骼自然连接，在运动中有着紧密的联系，因此需要考虑骨骼的结构信息，因此，本实施例进一步提供了一种k-hop相对位置嵌入方法，通过不同关节间的最短距离进行索引，以获得相对位置。

具体地：

给定超边表示和相对位置嵌入，本方法提出的超图自注意力机制表达式如实施例1所示，其中，超边嵌入向量h通过平均其成员节点的嵌入向量获得，然后计算每个超边对其他所有超边的注意力分数，并通过注意力分数更新超边嵌入向量h，然后将更新的超边嵌入向量加入最终的注意力分数计算，过程如下所示：

；

式中和/>分别是超边大小和超边度。

实施例3

本实施例公开了一种基于超图文本对比的水下动作识别系统，包括：

数据提取模块，用于基于姿态估计法对水下动作基准数据集进行处理，提取水下各种动作指令下的水下人体骨骼数据；

超边特征提取模块，用于对基本人体骨骼基于人体动力学进行分区设计，建立关于骨骼关节点的超边，进而获得超图；将超图和水下人体骨骼数据进行结合，输出水下骨骼的超边特征；

骨骼特征提取模块，用于基于包含超图自注意力机制模块和多尺度时间卷积模块的Transformer模型获取骨骼特征，其中Transformer模型以超边特征为输入；

骨骼-文本对比模块，用于基于VIT-B模型加载文本模型，并将骨骼特征和文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果。

实施例4

一种计算机可读存储介质，其上存储计算机可读指令，当计算机可读指令由计算机执行时，计算机执行任一项实施例1基于超图文本对比的水下动作识别方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于超图文本对比的水下动作识别方法，其特征在于，包括以下步骤：

获取潜水员水下动作彩色图像，作为水下动作基准数据集；

基于VIT-B模型加载文本模型，并将所述骨骼特征和所述文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果；其中，所得人体骨骼数据中关节点共有25个，骨骼分区表达式为：

；

所述骨骼关节点的超边表达式为：

；

所述超边特征表达式为：

；

2.根据权利要求1所述的基于超图文本对比的水下动作识别方法，其特征在于，所述Transformer模型，包括：超图自注意力机制模块、多尺度时间卷积模块以及全连接模块；

3.根据权利要求2所述的基于超图文本对比的水下动作识别方法，其特征在于，所述超图自注意力机制模块的表达式为：

；

4.根据权利要求2所述的基于超图文本对比的水下动作识别方法，其特征在于，所述多尺度时间卷积模块的表达式为：

；

5.根据权利要求1所述的基于超图文本对比的水下动作识别方法，其特征在于，基于VIT-B模型加载文本模型，并将所述骨骼特征和所述文本模型中的文本特征进行对比学习，最终输出精确的潜水员动作指令识别结果，具体包括：

S1.加载VIT-B/32模型，并删除所述VIT-B/32模型的视觉部分；

6.根据权利要求1所述的基于超图文本对比的水下动作识别方法，其特征在于，骨骼-文本对比损失表达式为：

；

7.根据权利要求5所述的基于超图文本对比的水下动作识别方法，其特征在于，在步骤1中加载VIT-B/32模型，并删除所述VIT-B/32模型的视觉部分，剩余部分为：TransformerEncoder模块；其中，所述Transformer Encoder模块包括：位置编码、多头注意力机制以及前馈神经网络。

8.一种基于超图文本对比的水下动作识别系统，其特征在于，包括：

骨骼特征提取模块，用于基于包含超图自注意力机制模块和多尺度时间卷积模块的Transformer模型获取骨骼特征，其中所述Transformer模型以所述超边特征为输入；

9.一种计算机可读存储介质，其特征在于，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如权利要求1-7任一项所述基于超图文本对比的水下动作识别方法的步骤。