CN115953832A

CN115953832A - 一种基于语义解耦的自注意力模型的组合动作识别方法

Info

Publication number: CN115953832A
Application number: CN202211606003.0A
Authority: CN
Inventors: 舒祥波; 涂哲维; 黄捧; 严锐
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-04-11

Abstract

本发明公开了一种基于语义解耦的自注意力模型的组合动作识别方法，在STH‑ELSE数据集三种划分上均取得了最先进的效果。该方法通过物体‑动词解耦模块(OMD)和语义解耦约束模块(SDC)，实现了对动词和物体组合的高级语义特征的解耦，缓解了组合动作识别中的由于分布偏差带来模型性能下降的问题。在OMD中设置若干初始化的可学习标记以捕捉与物体相关的时空特征，并在高层视觉空间中将学习到的时空特征进行初步解耦。在SDC中引入文本信息对OMD中构建的解耦特征进行更严格的语义层面的一致性约束，最终学习到完全解耦后的外观和运动特征。

Description

一种基于语义解耦的自注意力模型的组合动作识别方法

技术领域

本发明涉及一种计算机视觉领域中的组合动作识别方法。

背景技术

动作识别因其在人机交互、虚拟现实、社会公共安全等领域的广泛应用，已然成为计算机视觉领域的研究热点。近年来，随着大规模数据集和强劲骨干网络的不断提出，动作识别经历了快速发展，但当遇到类别未知或者分布未知的样本时，传统的动作识别基准模型表现得差强人意。这表明模型学习到的仅是很强的外观偏差，并不能真正理解动作本身的语义信息，泛化能力远不足以达到在现实世界应用的标准。

人类行为具有天然的组合性，而人类视觉感知系统理解复杂人体行为时，通常不会聚焦到物体本身，而只关心人对物体执行了何种操作，因而人类很容易从已知的行为组合来推理未见的行为组合。为进一步挑战模型的泛化能力，组合动作识别任务应运而生。该任务将每个动作都分解成一个动词和一个或多个物体的组合，并设置测试集中动词和物体的组合与训练集中的组合不重叠，这使得训练集和测试集中“动词-物体”组合分布不一。这种分布偏移期望模型加强对动作本身的语义理解，极大挑战了模型的泛化能力。

如何克服“动作-物体”组合在训练和测试集合上的偏移是组合行为识别的关键挑战。过往研究尝试从额外的监督信息中提取特征，如物体的坐标框和标签，以干扰外观特征的原始分布。但这类工作均无法直接破坏动作和物体的组合，动作和物体的特征仍交织在一起，阻碍了模型对动作本身语义的理解。

发明内容

发明目的：针对上述现有技术，提出一种基于语义解耦的自注意力模型(DeFormer)的组合动作识别方法，解决组合动作识别中因分布偏差带来模型性能下降的问题，实现对动词和物体组合的拆分，加强模型理解动作语义能力和泛化能力。

技术方案：一种基于语义解耦的自注意力模型的组合动作识别方法，包括如下步骤：

步骤1：从输入视频随机采样一定数量的帧图像，同时获得每张帧图像的物体坐标；将帧图像进行分块嵌入得到视频标记，根据物体坐标对帧图像进行特征提取获得区域标记，利用时序聚合编码获得帧序列上物体轨迹标记；

步骤2：将区域标记和轨迹标记相加后的标记与视频标记进行拼接，将拼接后的标记输入至物体-动词解耦模块，得到分类标记以及初步解耦后的外观和运动特征；

步骤3：使用文本编码器对视频真实标签中动词和物体分别进行编码得到相应文本嵌入，将步骤2得到的外观和运动特征输入至语义解耦约束模块中，分别经过特征融合单元后与相应文本嵌入计算对比损失；

步骤4：将步骤2得到的特征进行融合后与视频真实标签计算分类损失，与步骤3得到的外观对比损失和运动对比损失按权重进行相加，得到最终模型损失以优化网络；

步骤5：采用优化后的网络进行组合动作识别。

进一步的，所述步骤1包括如下具体步骤：

将输入视频随机采样T张分辨率为H×W的帧图像作为输入

获取每张帧图像的O个物体坐标

将采样的T张帧图像进行分块嵌入得到视频标记X_vid，分块嵌入使用一层3D卷积实现；

根据物体坐标对帧图像进行特征提取获得区域标记X_obj，即：

X_obj＝MLP(MaxPool(RoIAlign(X_vid,B)))+P_obj

其中，RoIAlign(·,·)为感兴趣区域对齐操作，MaxPool(·)为最大池化层，MLP(·为多层感知机，P_obj为物体位置编码；

利用时序聚合编码获得帧序列上物体轨迹标记X_traj，即：

X_traj＝ReLU(Conv1d(MLP(B)))+P_traj

其中，Conv1d为1D卷积，ReLU为激活函数，P_traj为轨迹位置编码。

进一步的，所述步骤2包括如下具体步骤：

将得到的区域标记X_obj和轨迹标记X_traj相加后与视频标记X_vid、初始化后的分类标记

进行拼接得到视频总标记

并输入至物体-动词解耦模块；其中，C为特征通道数；

在物体-动词解耦模块中，经过多层自注意力得到信息交互并特征提炼后的特征

即：

其中，W_q、W_k、

为投影权重，Attn为若干个时空注意力层构成，层数设置为8；

将得到的特征

在第一维度上依序拆解为特征提炼后的分类标记

视频标记

区域轨迹混合标记

将

赋值为分类特征

将

分别赋值为外观特征

和运动特征

分别再与

进入跨注意力层进行特征增强，得到增强后的外观特征

和增强后的运动特征

即：

其中，CA_o为外观特征的跨注意力层，CA_m为运动特征的跨注意力层，层数均设置为1。

进一步的，所述步骤3包括如下具体步骤：

使用冻结参数的文本编码器对视频标签中物体进行编码得到物体文本嵌入

对视频标签中动词进行编码得到动词文本嵌入

将增强后的外观特征

和增强后的运动特征

输入至语义解耦约束模块中，分别经过特征融合单元进行特征融合得到最终外观特征

最终运动特征

其中

为时序融合单元，

为空间融合单元，二者均由两层线性层组成；

利用得到的f_tag、f_label对f_o、f_m进行语义约束，

表示语义信息对视觉信息的限制关系；在一个训练批次内，同一视频对应的

和

视为正样本对，不同视频视为负样本对，单个视频的损失为该视频和同一训练批次内其余视频的相似度的相反数，即：

其中，

分别为同一个训练批次中第i个视频的最终外观特征和物体文本嵌入，

为同一个训练批次中第j个视频的物体文本嵌入，

分别为同一个训练批次中第k个视频的最终运动特征和动词文本嵌入，

为同一个训练批次中第s个视频的动词文本嵌入，

为一个训练批次中第i个视频的外观对比损失，

为一个训练批次中第k个视频的运动对比损失，sim(·)是相似度计算函数，τ为温度参数，1_[j≠i]∈{0,1}表示当j≠i时该函数值为1，O为一个视频的物体数量，N为批数量大小。

进一步的，所述步骤4包括如下具体步骤：

根据单个视频的损失计算同一训练批次内完整的外观对比损失

和运动对比损失

即：

将特征

和

进行融合后与真实标签计算分类损失

即：

其中，CE为交叉熵损失函数，y为视频对应的真实标签；fusion(·)为特征融合函数，即将三个输入在第一维度上进行维度拼接；

将得到的外观对比损失

运动对比损失

与分类损失

按权重进行相加，得到最终模型损失以优化网络，即：

其中，α，β，γ是用来平衡三个损失的超参数，分别设置为0.7，0.2和0.1。

有益效果：本发明提出了一种基于语义解耦的自注意力模型的组合动作识别方法，在STH-ELSE数据集三种划分上均取得了最先进的效果。该方法通过物体-动词解耦模块(OMD)和语义解耦约束模块(SDC)，实现了对动词和物体组合的高级语义特征的解耦，缓解了组合动作识别中的由于分布偏差带来模型性能下降的问题。在OMD中设置若干初始化的可学习标记以捕捉与物体相关的时空特征，并在高层视觉空间中将学习到的时空特征进行初步解耦。在SDC中引入文本信息对OMD中构建的解耦特征进行更严格的语义层面的一致性约束，最终学习到完全解耦后的外观和运动特征。

附图说明

图1为本发明提供的流程图；

图2为本发明提供的模型框架图；

图3、图4为本发明的实验结果。

具体实施方式

下面结合附图对本发明做更进一步的解释。

为解决组合动作识别中因分布偏差带来模型性能下降的问题，本发明在高层特征空间中主动将物体特征和运动特征进行解耦，并引入文本信息进行更严格的语义层面的一致性约束，实现对动词和物体组合的拆分，加强模型理解动作语义能力和泛化能力。

如图1、图2所示，一种基于语义解耦的自注意力模型的组合动作识别方法，包括特征标记获取、动词物体解耦、语义解耦约束和损失计算四个过程。

特征标记获取包括以下步骤：

步骤1：将输入视频随机采样T张分辨率为H×W的帧图像作为输入

获取每张帧图像的O个物体坐标

将采样的T张帧图像进行分块嵌入得到视频标记X_vid，分块嵌入使用一层3D卷积实现。

步骤2：根据物体坐标对帧图像进行特征提取获得区域标记X_obj，即：

X_obj＝MLP(MaxPool(RoIAlign(X_vid,B)))+P_obj

其中，RoIAlign(·,·)为感兴趣区域对齐操作，MapPool(·)为最大池化层，MLP(·为多层感知机，P_obj为物体位置编码。

步骤3：利用时序聚合编码获得帧序列上物体轨迹标记X_traj，即：

X_traj＝ReLU(Conv1d(MLP(B)))+P_traj

动词物体解耦包括以下步骤：

步骤4：将步骤2得到的区域标记X_obj和步骤3得到的轨迹标记X_traj相加后与视频标记X_vid、初始化后的分类标记

进行拼接得到视频总标记

并输入至物体-动词解耦模块；其中，C为特征通道数。

即：

其中，W_q、W_k、

为投影权重，Attn为若干个时空注意力层构成，层数设置为8。其中，多层自注意力网络中，投影权重分别对应单一线性层，在网络训练完成后得到具体的权重值。

步骤5：将步骤4得到的特征

在第一维度上依序拆解为特征提炼后的分类标记

视频标记

区域轨迹混合标记

将

赋值为分类特征

将

分别赋值为外观特征

和运动特征

分别再与

进入跨注意力层进行特征增强，得到增强后的外观特征

和增强后的运动特征

即：

语义解耦约束包括以下步骤：

步骤6：使用冻结参数的文本编码器对视频标签中物体进行编码得到物体文本嵌入

对视频标签中动词进行编码得到动词文本嵌入

步骤7：将步骤5增强后的外观特征

和增强后的运动特征

最终运动特征

其中

为时序融合单元，

为空间融合单元，二者均由两层线性层组成.

步骤8：利用步骤6得到的f_tag、f_label对f_o、f_m进行语义约束，

和

其中，

为同一个训练批次中第j个视频的物体文本嵌入，

为同一个训练批次中第s个视频的动词文本嵌入，

为一个训练批次中第i个视频的外观对比损失，

损失计算包括以下步骤：

步骤9：根据步骤8的单个视频的损失计算同一训练批次内完整的外观对比损失

和运动对比损失

即：

步骤10：将步骤5得到的特征

和

进行融合后与真实标签计算分类损失

即：

其中，CE为交叉熵损失函数，y为视频对应的真实标签；fusion(·)为特征融合函数，即将三个输入在第一维度上进行维度拼接。

步骤11：将步骤9得到的外观对比损失

运动对比损失

与步骤10得到的分类损失

按权重进行相加，得到最终模型损失以优化网络，即：

图3是本方法在STH-ELSE不同划分上与其他方法的结果比较，以TOP-1准确率作为评价指标，括号内代表同一方法在不同划分下的准确率下降比例。

图4是在使用真实物体坐标框的情况下，本方法与其他方法的结果比较，以TOP-1和TOP-5准确率作为评价指标。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于语义解耦的自注意力模型的组合动作识别方法，其特征在于，包括如下步骤：

步骤5：采用优化后的网络进行组合动作识别。

2.根据权利要求1所述的基于语义解耦的自注意力模型的组合动作识别方法，其特征在于，所述步骤1包括如下具体步骤：

将输入视频随机采样T张分辨率为H×W的帧图像作为输入

获取每张帧图像的O个物体坐标

根据物体坐标对帧图像进行特征提取获得区域标记Xo_bj，即：

X_obj＝MLP(MaxPool(RoIAlign(X_vid，B)))+P_obj

其中，RoIAlign(·,·)为感兴趣区域对齐操作，MaxPool(·)为最大池化层，MLP(·)为多层感知机，P_obj为物体位置编码；

利用时序聚合编码获得帧序列上物体轨迹标记X_traj，即：

X_traj＝ReLU(Conv1d(MLP(B)))+P_traj

3.根据权利要求2所述的基于语义解耦的自注意力模型的组合动作识别方法，其特征在于，所述步骤2包括如下具体步骤：

进行拼接得到视频总标记

并输入至物体-动词解耦模块；其中，C为特征通道数；

即：

其中，

将得到的特征

在第一维度上依序拆解为特征提炼后的分类标记

视频标记

区域轨迹混合标记

将

赋值为分类特征

将

分别赋值为外观特征

和运动特征

分别再与

进入跨注意力层进行特征增强，得到增强后的外观特征

和增强后的运动特征

即：

4.根据权利要求3所述的基于语义解耦的自注意力模型的组合动作识别方法，其特征在于，所述步骤3包括如下具体步骤：

对视频标签中动词进行编码得到动词文本嵌入

将增强后的外观特征

和增强后的运动特征

最终运动特征

其中

为时序融合单元，

为空间融合单元，二者均由两层线性层组成；

利用得到的f_tag、f_label对f_o、f_m进行语义约束，

和

其中，

为同一个训练批次中第j个视频的物体文本嵌入，

为同一个训练批次中第s个视频的动词文本嵌入，

为一个训练批次中第i个视频的外观对比损失，

5.根据权利要求4所述的基于语义解耦的自注意力模型的组合动作识别方法，其特征在于，所述步骤4包括如下具体步骤：

和运动对比损失

即：

将特征

和

进行融合后与真实标签计算分类损失

即：

将得到的外观对比损失

运动对比损失

与分类损失

按权重进行相加，得到最终模型损失以优化网络，即：