CN114758285B

CN114758285B - 基于锚自由和长时注意力感知的视频交互动作检测方法

Info

Publication number: CN114758285B
Application number: CN202210663949.4A
Authority: CN
Inventors: 高赞; 吴天奇; 马述杰; 谭文; 陶瑞涛; 张蕊; 聂礼强
Original assignee: Shandong University; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Shandong University; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-10-14
Anticipated expiration: 2042-06-14
Also published as: CN114758285A

Abstract

本发明方法公开了基于锚自由和长时注意力感知的视频交互动作检测方法，属于计算机视觉和模式识别技术领域，实现了对长视频中动作部分的高效定位以及动作识别。方法的具体步骤如下：视频特征提取；搭建基于锚自由和长时注意力感知的视频交互双流网络模型；构建基于锚自由和长时注意力感知的视频交互动作检测方法的目标函数；基于锚自由和长时注意力感知的视频交互动作检测方法。本发明基于已知数据集训练后可对长视频的动作进行有效定位并进行动作识别，有效地解决了传统动作分类方法无法在长视频中进行有效分类的问题，并且提升收敛速度，提升了工作效率。

Description

基于锚自由和长时注意力感知的视频交互动作检测方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及基于锚自由和长时注意力感知的视频交互动作检测方法。

背景技术

在视频理解中，时序动作检测是一项重要而又具有挑战性的任务；随着深度学习技术的发展，时序动作检测任务取得了很大的进步，其根本目标是识别视频中各段动作实例的时序边界并判定动作的类别，这一过程可以分为视频特征提取、动作时域候选生成和动作识别三个步骤。其中，动作时域候选的生成是决定时序动作检测算法性能的关键；动作时域候选生成的任务目标是在一维时序帧序列中判定各段动作实例的时域边界。目前的动作时域候选生成方法可大致分为三类，一类基于多种尺度的观察窗生成时域候选，称为锚点机制；另一类动作得分方法基于动作概率曲线以界定动作时域候选的时域边界。最后是每一时序点生成一个动作提案的锚自由方法；锚点机制通过人为设定的大量预定义候选框以达到覆盖正确实例的目的，动作得分方法则通过穷举排列组合方式找到最优拟合实例，二者均取得了一定效果但二者均存在着模型参数或超参数过量导致效率低下的问题，锚自由方法有效地解决了这一问题。

然而传统的锚自由方法同锚点方法、动作得分方法都面临着时序语义信息捕获不完全，利用不充分的现象；这是由于时序动作检测运用到的方法大多受启发于二维目标检测，二维关系决定其不涉及前后文语义关系信息，这就意味着传统的目标检测方法无法简单地直接应用在时序动作检测方法中，因此第三维度的延展是时序动作检测方向突破的关键。

注意力机制是计算机视觉方向领域中热门方法之一，其优势在于能够捕获关键信息同时压缩相关信息，基于此方法各领域均取得了不错的成果，但在时序动作检测方向，基于注意力机制的研究还有较大提升空间，尤其在时序维度上的注意力机制研究者们还没有比较成熟的技术手段。

发明内容

本发明提供基于锚自由和长时注意力感知的视频交互动作检测方法。有效地解决了传统动作分类方法无法在长视频中进行有效分类的问题，并且提升收敛速度，提升了工作效率。

基于锚自由和长时注意力感知的视频交互动作检测方法具体包括以下步骤：

步骤1：对原始视频进行特征编码提取。

步骤1-1：使用在Kinetics数据集训练好的I3D模型提取3D双流特征，即RGB流和光流特征；提取视频的RGB特征序列为

，其中T表示特征时间维度，C表示特征通道维度，H表示特征宽，W表示特征高。

步骤1-2：通过卷积操作将双流特征的H和W维度压缩形成二维特征

，将其作为金字塔特征的基本单元。

步骤2：搭建金字塔模块，将双流视频特征编码分别输入到金字塔结构中，手动为不同粒度特征进行位置编码，获得多层级的特征表示。

步骤2-1：构建金字塔模块，将

特征

作为金字塔底部特征，利用多个时间维度卷积核合并时间维度，并浓缩通道维度信息，得到

多级金字塔特征，l表示最底层，n代表除去金字塔底层的层数。

步骤2-2：通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息，为金字塔特征每一层级嵌入位置信息。

步骤3：构建长时动态过去未来注意力模块，将带有位置信息的双流多级金字塔特征作为输入，动态强化重要信息，弱化无关信息。

步骤4：构建粗粒度预测与优化模块，融合双流输出并消除冗余得到最终结果。

优选的，所述步骤3具体步骤如下：

步骤3-1：将带有位置信息的任意一层RGB或光流金字塔特征

每个时间片段的内容映射成一个

维度向量，使

具有形状

；利用注意力模块捕获

中任意两个时间位置之间的相关性

，计算特征的任意两个位置之间的关系，动态注意力模块定义如下：

其中

为三个映射函数，i和j代表任意两位置，

与

为金字塔同级特征中任意两个时间点的特征，其中

对

进行映射并保持其原有维度

，

对

进行映射并保留其原有维度

，

表示对特征进行转置，使特征序列中任意两点之间建立关系，

为控制两位置点之间是否有关的指示函数，其被初始化为两部分：

。

步骤3-2：将更新后的

分为两部分

和

，并分别与初始特征

加权

，然后按通道维度拼接；再将前后文关系映射到通道维度得到特征

，经过池化和卷积得到与初始特征形状相同的

，与输入初始特征

相加形成最后的输出特征

。

优选的，所述构建粗粒度预测与优化模块，融合双流输出并消除冗余得到最终结果具体步骤如下：

步骤4-1：将步骤3处理后的双流特征分别输入粗粒度预测模块，对每一层级特征

的每一时间点位进行动作定位和分类，得到分类结果

以及回归结果

，其中

为数据集动作类别数，对于每一时间点有粗粒度预测结果

，将初步预测结果输送到细粒度优化模块输出得到分类结果

以及回归结果

，cls表示分类结果，reg表示回归结果；通过如下公式进行更新得到每一时间点有优化偏移量，并得到更新后结果

；

。

步骤4-2：将双流结果相加融合，最后利用Soft-NMS方法消除冗余片段得到最终结果。

优选的，所述为金字塔特征每一层级嵌入位置信息具体步骤如下：

金字塔任意一层特征为

，其对应嵌入的位置信息为

，其维度与对应层级特征维度相同，表示为

；

具体表示如下：

其中

表示时间维度上的位置，e表示编码的维度，e的取值范围为[0~c），c表示通道维度大小；每个时间位置都对应唯一的位置编码，将位置编码嵌入到金字塔结构中的每一层特征

中。具体地，同一层级的位置编码与对应特征维度相同，则将位置编码与特征对应相加；更新得到新的

即

，两位置间差异

表示为：

i与i+n表示任意两时间点位置，更新后的

任意两位置间差异不仅包含运动差异

还包含了时间位置距离

。

由于位置函数均由正弦、余弦函数组成，其具体数值通过简单的三角函数公式得出：

。

优选的，得到粗粒度预测结果

和细粒度优化结果

后通过损失函数FocalLoss和L1Loss分别对粗粒度预测和细粒度优化的分类和定位目标函数优化，具体损失函数如下：

其中

为超参数，

与

分别为粗粒度预测和细粒度优化的损失函数均采用FocalLoss，

为粗粒度预测起止片段与标签起止片段的IoULoss，

为预测偏置和标签偏置的L1Loss。

本发明的优点和有益效果：

本发明通过对金字塔特征人为地嵌入位置信息，解决了传统卷积操作捕获顺序信息困难的问题，提升了模型的性能以及泛化能力；利用动态学习的动态过去未来注意力机制发掘特征包含的潜在顺序信息，进一步提升了模型定位识别效果。模型经过训练，其定位识别效果得到了提升，并且收敛速度较快，具有良好的工作效率；对时序信息的开发利用也进一步提升了模型的泛化能力，在THUMOS14数据集上取得了优秀的成绩。

附图说明

图1为本发明的结构示意图。

图2为长时动态过去未来注意力模块示意图。

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例1：

如图1所示，为本发明一种基于锚自由和长时注意力感知的视频交互动作检测方法的操作流程图，该方法的操作步骤包括：选择一段带有动作片段的视频，提取其特征编码F，对F进行五次时间维度压缩，形成六级金字塔特征，之后人为地为金字塔每一层嵌入位置信息

，再将整个金字塔特征模块输入到长时动态过去未来注意力模块捕获前后文关系，并利用粗、细预测模块对金字塔每一层每一时间节点进行预测，得到预测结果

，最后利用Soft-NMS消除冗余结果得到最后的定位和分类结果即动作开始结束时间以及动作分类。

具体步骤如下：

步骤1视频特征提取

将数据集中的视频标注为

，每一个视频实例

包含一段视频

，N表示视频帧数，视频对应的标签

可以表示为

，

表示视频包含的动作实例，

表示动作实例的起止时间，

表示动作的类别。

由于原始视频数据量过大，无法直接作为模型的输入，因此首先需要对原始视频进行特征编码提取。本发明采用在Kinetics数据集训练好的I3D模型来提取3D双流特征，具体地，以RGB流为例，给定一个视频

，提取其特征序列为

，其中T，C，H，W分别表示特征时间维度，通道维度，宽和高；这样的特征序列包含了时间空间信息，但直接运用四维特征将影响处理效率。

所以形如

的特征仍然不是模型最优输入形态，通过卷积操作将H 和W维度压缩形成最终的二维特征

作为金字塔特征的基本单元。

步骤2搭建金字塔模块将双流视频特征编码分别输送到金字塔结构中，手动地为不同粒度特征进行位置编码获得多层级的特征表示。

金字塔模块构建，在步骤10的基础上将生成的形如

特征

作为金字塔底部特征，随后利用多个时间维度卷积核合并时间维度，并浓缩其他维度信息，以此得到高效的输入特征，得到

等多级金字塔特征。但同时因为卷积操作的特性，在特征下采样的过程中无法避免的损失部分信息，其中时间位置信息首当其冲。传统处理时序序列的方法多借鉴于自然语言处理方向的RNN、LSTM等循环结构，但由于循环网络结构的特异性与视频序列的连贯性不同，经过实验验证循环网络并不适用于视频特征序列。因此本发明提出通过设计位置嵌入函数来手动地为时间序列中的每个节点嵌入带有前后顺序的位置信息，使得后续的操作过程中无需利用复杂的网络结构来捕获位置关系，而是在每一次映射过程中的特征自带顺序关系，即将传统模式杂的网络参数中的位置信息转移至输入特征中，减轻了网络模型的体量，使得训练过程变得更简单。因此需要手动地为金字塔特征每一层级嵌入位置信息，将金字塔某一层特征称为

，于是其对应嵌入的位置信息则为

，其维度与对应层级特征序列维度相同，表示为

；

可以表示为：

其中PO表示时间维度上的位置，e表示编码的维度，e的取值范围为[0~c），c表示通道维度大小。每个时间位置都有唯一的位置编码，将位置编码嵌入到金字塔结构中的每一层特征

中，更新得到新的

即

，于是任意两时间点间的差异不仅表示了运动关系，还附加了时间位置关系：

D表示两位置间差异，i与i+n表示任意两时间点位置，可以看出经过简单的交换运算，更新后的

任意两位置间差异不仅包含运动差异

还包含了时间位置差异

。由于位置函数均由正弦、余弦函数组成，因此其具体数值可通过简单的三角函数公式得出：

。

步骤3构建长时动态过去未来注意力模块将带有位置信息的双流多级金字塔特征作为输入，动态强化重要信息，弱化无关信息。

长时动态过去未来注意力模块类比人类观察动作的模式，在观察一段长视频时，由于视频长度较长，简单的通过某一较短时间段无法全面判断整体动作的类别。因此会根据视频的前段背景、动作、后段背景之间的关系，来分析动作的成分，因此模型会通过长时间动态注意力的方式捕获任意两个时间位置之间的双向关系。不同于传统的注意力模块，本模型将注意力部分拆分为时间顺序上靠前的节点对时序靠后的节点的影响以及时序靠后的节点对时序靠前的节点的影响，并且将注意力权重嵌入模型中参与训练，动态地更新参数，使模型能够有侧重地关注重要信息，忽略无关信息，该过程称为长时动态过去未来注意力操作。特征

经过长时动态过去未来注意力模块后，其将丰富的语义信息压缩至通道维度，之后，引入全连接的层用于自适应特征响应重新校准。其具体步骤如下，将带有位置信息的任意一层金字塔特征

每个时间片段的内容映射成一个

维度向量，使得

具有形状

；注意力模块可以捕获

中任意两个时间位置之间的相关性

，计算特征的任意两个位置之间的关系是捕捉视觉场景的全局理解的高效、通用和直接的方式；遵循这一原则，动态注意力模块定义如下：

其中

为三个映射函数，

和

代表任意两位置，

与

为金字塔同级特征中任意两个时间点的特征，其中

对

进行映射并保持其原有维度

，

对

进行映射并保留其原有维度

，

值得注意的是，本申请提出的长时动态过去未来注意力不同于以往的固定注意力模式，其初始化过程是人为固定的，但随后会跟随模型一起进行梯度更新，动态地学习、强化重要信息，忽略、弱化无关信息。更新后的

分为两部分

和

，并分别与初始特征

加权

，然后按通道维度拼接，将丰富的前后文关系映射到通道维度得到特征形如

，随后经过池化和卷积得到并与初始特征形状相同的

，之后与输入初始特征

相加形成最后的输出特征

，r表示特征经过该模块，得到了改善。区别于传统的注意力机制，

特有的动态学习能力，使得模型在学习过程中更与有针对性的关注过去对未来的影响和未来对过去的影响。

步骤4构建粗粒度预测与优化模块，融合双流输出并消除冗余得到最终结果。

初始预测与优化，原始视频经过特征提取以及压缩之后保存在金字塔特征结构中，经过位置嵌入以及动态注意力学习后，对每一层级特征

的每一时间点位进行动作定位和分类，对于第l层第i时间位置上的特征点，其初步预测结果为

；随后将初步预测结果输送到细粒度优化模输出得到优化偏移量

，通过如下方式进行更新：

于是得到结果

；最后利用Soft-NMS方法消除冗余片段得到最终结果。

网络模型的任务主要分为动作定位和动作分类两个部分，而针对两部分都分为粗粒度预测和细粒度优化两部分；粗粒度预测部分，对于每一个特征的时间位置

，若其在标签范围内，则将其设为正样本，对于细粒度优化部分，计算粗粒度预测起止片段与标签范围的IoU(tIoU)，若IoU>0.5则将其标记为正样本；模型的总体损失函数为：

其中

为超参数，用于平衡定位任务对模型整体的影响程度。

与

为FocalLoss：

其中

表示粗细预测正样本数，

分别表示粗细粒度正样本数量，

为粗（细）预测分类，

为粗（细）分类标签，

为金字塔特征任意层的时间长度。

为粗预测起止片段与标签起止片段的IoULoss：

其中

为预测实例范围，

为真实动作范围。

为预测偏置和标签偏置的L1Loss：

其中

为预测偏置，

为真实偏置。

为了验证本发明的有效性，在数据集THUMOS14数据集上进行了评测，具体实验设置为：光流和RGB流采样率均为10帧每秒，采样片段长度设置为256帧，训练时相邻片段重叠设置为30帧，训练时设置为128帧，空间采样大小为98×98，训练时加入随机剪裁、水平翻转等方法来增强训练数据；模型采用在Kinetics数据集上预训练的I3D模型提取特征。

下表1展示了经典时序动作检测算法与本发明性能的比较。

表1

下表2展示了在不同mAP且其他实验条件保持一致的情况下光流、RGB流以及双流融合受动态过去未来注意力模块的影响情况，动态过去未来注意力模块是否跟随模型参与动态调节是模型性能的影响因素之一。

表2

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制；尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。