CN114998799B

CN114998799B - 基于全局知识挖掘和前景注意力的交互视频动作检测方法

Info

Publication number: CN114998799B
Application number: CN202210636564.9A
Authority: CN
Inventors: 高赞; 崔兴磊; 陶俊伟; 宋健明; 王水跟; 朱文印; 张蕊
Original assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Qingdao Haier Smart Technology R&D Co Ltd; Iray Technology Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Qingdao Haier Smart Technology R&D Co Ltd; Iray Technology Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2023-01-13
Anticipated expiration: 2042-06-07
Also published as: CN114998799A

Abstract

本发明公开了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法，准确地实现了对视频中动作实例的定位和分类；方法的具体步骤如下：对视频进行预处理，通过I3D网络将生成的视频帧获得时空特征序列

，将特征序列

输入到上下文信息提取模块提取不同层次的特征序列F，通过时间信息提取模块挖掘视频的全局信息，将特征序列F和特征序列

连接起来，得到粗时间边界和粗分类，根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征；本发明基于已知数据集对视频中的动作实例进行高效定位和分类，并且方法收敛速度快。

Description

基于全局知识挖掘和前景注意力的交互视频动作检测方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种基于全局知识挖掘和前景注意力的交互视频动作检测方法，可以用少量的提案对视频中的动作实例进行定位和分类，在在两个常用的时序动作检测数据集上，验证了该模型的有效性；

背景技术

近几年来，随着互联网视频的大量涌现，对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支，已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位，并预测人的动作类别。时序动作检测与动作检测相比，在对视频中的每个动作实例分类的基础上，还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段，然后对这些视频片段进行分类和定位，以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果，就必须将窗口之间的重叠度变高，这样就会产生巨大的计算量，影响模型的计算的速度，并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案，造成较多的冗余，浪费计算资源。并且，这些方法对于边界的预测不够灵活，动作实例的时间跨度相差很大，其中大部分较短，还有一部分很长，这样预定义的Anchor并不能够预测所有的动作实例。

然而，时序动作检测采用Anchor-free的方法开始涌现，它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影响较小，只需要在每个时间位置生成一个提案，表示当前位置到开始位置和结束位置的距离的总和。由于这种方法不会有大量的提案，降低了计算量。

现有技术还存在以下弊端：一是无法有效地解决视频中的时间信息，二是在处理视频特征的过程中很少考虑前景信息，所以当前急需一种高效的基于全局信息挖掘和前景注意的时序动作检测方法。

发明内容

本发明提供了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法，本发明弥补上下文信息捕获模型因为下采样丢失的时序信息，同时增强每个视频帧的前景特征，可用于精细化动作实例的分类和边界。

该方法具体包含以下步骤：

1)对视频进行预处理，将未修剪的视频抽取成帧，表示为

在训练集中包含T帧；

2)通过I3D网络将生成的视频帧获得时空特征序列，将获得的时空特征经过3D卷积变成1D特征序列F′，使特征包含整个视频的时间和空间信息，把特征序列F′作为整个视频的特征表示；

3)将特征序列F′输入到上下文信息提取模块提取不同层次的特征，采用线性插值将高层特征的信息递归加到低层特征中，获得具有充足的语义信息和局部细节的特征

T_n∈{2,4,8,…,64}代表不同的时间尺度，C代表的是特征的通道，同时该模块还会产生用于边界池化的帧级特征；

4)通过时间信息提取模块将视频帧作为输入，利用编码层从整个视频中获取时间信息，用于补偿不同层次的特征在下采样过程中丢失的时间信息；

5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列F_l连接起来，获得具有丰富上下文信息的特征序列

6)基于以上特征，得到粗时间边界

和粗分类c^C，

代表位置i到开始时间的距离，

代表位置i到结束时间的距离，i∈{0,1,…,t-1}，t代表的是金字塔特征的时间长度；

7)获取第i个位置开始时间和结束时间：

其中

表示特征中相应第i个位置的粗开始时间，

表示特征中相应第i个位置的粗结束时间；

8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征，利用精细化特征，得到精细化边界偏移和精细化分类，并将边界偏移加到粗边界上得到精细化边界，所述损失函数具体如下：

其中

和

分别是粗分类和细分类的损失函数用来约束视频预测的分类结果，

和

分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果，L_bce是二元交叉熵的损失函数，α和β是超参数。

优选的，所述通过时间信息提取模块获取时间信息的具体步骤如下：

利用空间编码器对同一时间索引中提取的块之间建立关系，然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息，获取具有时间信息的多个时间尺度的特征

式中T_n代表不同的时间尺度，C为特征的通道，具体公式如下：

式中SpatialT代表的是空间编码器，TemporalT代表的是时间编码器，Linear代表的是全连接层，embeding是将时间加入空间特征并进行嵌入；

优选的，所述利用前景信息增强模块得到精细化特征，具体过程如下：

1)将粗边界和粗分类的结果输入到边界池化层，

2)将整个视频帧输入到前景信息增强模块，该模块将每个视频帧x_i∈R^H×W×C进行图像分块处理，将H×W×C的图片用P×P大小的块将每一个视频帧分成D＝HW/P²个块；

将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征，实现过程为：

F_frame＝Linear(FSA(x_i)) i＝1,…,T， (5)

式中FSA是前景信息注意编码器，在自注意力的基础上增加了下采样操作，采用1D线性插值实现下采样；

3)将F_frame与上下文信息提取模块输出的帧级特征进行融合，得到特征F′_frame作为边界池化的另一个输入，用于精细预测；

4)把粗预测过程中的特征

和F，以及精细预测过程中的帧级特征F′_frame经过边界池化得到细粒度的特征

和

5)

和

分别经过两个不同的1D卷积进行精细化预测，其中一个卷积被用来预测边界回归的偏移量

和

分别表示开始时间和结束时间的偏移，另一个卷积用来预测精细化的分类c^R，最后将得到的偏移量

加到粗边界获得精细化边界

和

分别表示精细化的开始和结束的时间；

优选的，所述粗分类中使用focal损失函数作为约束，调整正负样本的权重和控制困难和容易分类的样本，由于正负样本本身比例不均匀，并且负样本易分，因此我们引入一个参数γ，平衡比列并且调节为0.75，防止过拟合，具体公式如下：

其中N^C是粗略过程中正样本的数量，

是粗粒度过程预测的粗分类结果，c_i是真实标签。

所述精细化分类中使用focal损失函数作为约束条件，具体公式如下：

其中N^R是当粗糙提议与真实样本的tIoU大于0.5时精化过程中正样本的数量，

是预测的精化分类结果通过细化过程，c_i是基本事实标签，

优选的，所述二元交叉熵的损失函数定义如下：

其中

是带有超参数的二元交叉熵损失，由于原始的二元交叉熵损失函数收敛速度较慢，因此我们引入

来加快函数的收敛速度并且设置为0.3，

为细化的边界，ψ_i为真实样例，ε_i是从精细化过程生成的位置标签。

本发明的优点和有益效果：

1)通过对时间信息的挖掘和前景信息的注意，对特征增加了时间信息，并且增强了前景信息，对视频中动作实例的定位与分类起到了良好的作用，并且提升了效率；

2)样本经过模型训练，可以得到拟合效果良好的权重；并且这些权重作用于模型后，对视频中动作实例的定位和分类获得了较为显著的效果。

附图说明

图1为本发明的结构示意图；

图2为本发明的流程结构示意图；

图3为本发明与原始二分类交叉熵损失函数的收敛速度的比较示意图；

图4位本发明效果对比示意图。

具体实施方式

下面结合附图对本发明作进一步的描述；

实施例1：

如图1所示，为本发明的一种基于全局知识挖掘和前景注意力的交互视频动作检测方法的操作流程图，该方法的操作步骤包括：

1)对视频进行预处理，将未修剪的视频抽取成帧，表示为

在训练集中包含T帧；

2)通过I3D网络将生成的视频帧获得时空特征序列，对于一个视频V∈R^C×T×H×W，C，T，H和W分别代表通道，时间，高度和宽度。本发明通过I3D网络获得时空特征。然后，获得的时空特征经过3D卷积变成1D特征序列F′.这样的特征包含整个视频的时间和空间信息，把这样的一维特征序列作为整个视频的特征表示。

3)利用上下文信息提取模块提取不同层次的特征，具体的，将特征序列F′输入到上下文信息提取模块提取不同层次的特征，采用线性插值将高层特征的信息递归加到低层特征中，获得具有充足的语义信息和局部细节的特征

T_n∈{2,4,8,…,64}代表不同的时间尺度，同时该模块还会产生用于边界池化的帧级特征。

4)通过时间信息提取模块挖掘视频的全局信息，将视频帧作为输入，利用编码层从整个视频中获取时间信息，用于补偿不同层次的特征在下采样过程中丢失的时间信息；所述通过时间信息提取模块获取时间信息的具体步骤如下：

式中T_n代表不同的时间尺度，C代表的是通道，具体公式如下：

6)基于以上特征，得到粗时间边界

和粗分类c^C，

代表位置i到开始时间的距离，

7)获取第i个位置开始时间和结束时间：

其中

表示特征中相应第i个位置的粗开始时间，

表示特征中相应第i个位置的粗结束时间；

8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征，利用精细化特征，得到精细化边界偏移和精细化分类，并将边界偏移加到粗边界上得到精细化边界，所述利用前景信息增强模块得到精细化特征，具体过程如下：

8-1)将粗边界和粗分类的结果输入到边界池化层，

8-2)将整个视频帧输入到前景信息增强模块，该模块将每个视频帧x_i∈R^H×W×C进行图像分块处理，将H×W×C的图片用P×P大小的块将每一个视频帧分成D＝HW/P²个块；

F_frame＝Linear(FSA(x_i)) i＝1,…,T, (4)

8-3)将F_frame与上下文信息提取模块输出的帧级特征进行融合，得到特征F′_frame作为边界池化的另一个输入，用于精细预测；

8-4)把粗预测过程中的特征

和

8-5)

和

和

加到粗边界获得精细化边界

和

分别表示精细化的开始和结束的时间；

以上粗略预测和精细预测预测在其生成过程中都需要损失函数来进行约束，防止预测过拟合。本发明在粗略过程中对动作实例的粗略边界回归和分类使用不同的损失函数。并且在细化过程中，对动作实例的精细边界的回归和分类使用了不同的损失函数，同时对预测的概率也使用了二元交叉熵损失。总损失函数的计算可以定义为：

其中

和

和

所述粗分类中使用focal损失函数作为约束，调整正负样本的权重和控制困难和容易分类的样本，由于正负样本本身比例不均匀，并且负样本易分，因此我们引入一个参数γ，平衡比列并且调节为0.75，防止过拟合，具体公式如下：

其中N^C是粗略过程中正样本的数量，

是粗粒度过程预测的粗分类结果，c_i是真实标签。

采用IoU loss作为粗边界回归的约束。预测结果

是粗粒度过程预测的粗略边界，

是对应的真实边界并且拉近与预测的结果距离。

其中N^R是当粗糙提议与真实样本的tIoU大于0.5时精化过程中正样本的数量，认为它们是正样本，

是预测的精化分类结果通过细化过程，c_i是基本事实标签。

采用GIoU loss作为粗边界回归的约束。在细化边界回归中，

使用SmoothL1作为损失函数，预测出

是粗边界和对应的真实边界之间的偏移量，通过

来细化回归的目标边界。

所述二元交叉熵的损失函数定义如下：

其中

是一个带有超参数的二元交叉熵损失。有了超参数的辅助，使得模型的收敛速度更快。其在正样本(上)和负样本(下)数据收敛情况如图3所示。

和ψ_i分别是细化的边界和相应的真实样例。ε_i是从精细化过程生成的位置标签。在推理中，使用粗边界

粗分类结果c^C和来自细化过程的偏移

细化分类结果c^R和置信度得分ε。最后，采用Soft-NMS来处理所有预测以抑制冗余提议；最后就实现了对视频中动作的检测；

为了验证本发明的有效性，在时序动作检测数据集THUMOS14和ActivityNet1.3上进行了评测。

THUMOS14数据集：包含101个视频类别，由四个部分组成:训练、验证、测试和背景集。每各部分包括13320,1010,1574和2500段未剪辑的视频。其中验证集中的200个视频用于训练，测试集中的213个视频用于测试；

ActivityNet1.3数据集：是一个大规模的动作数据集，包含200个活动类和大约20000个超过600小时的视频。数据集被分为三个子集:10024个用于训练的视频，4926个用于验证，5044个用于测试；

具体实验设置为：在数据集THUMOS14中，验证集中的200个视频用于训练，测试集中的213个视频用于测试；在数据集ActivityNet1.3中，以2:1:1的比例将数据集分为训练、测试和验证。本发明提出的基于全局知识挖掘和前景注意力的交互视频动作检测方法具有较好的检测性能。下表为经典动作识别算法与本发明在THUMOS14和ActivityNet1.3数据集上性能的比较；

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制；尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，该方法具体包含以下步骤：

1)对视频进行预处理，将未修剪的视频抽取成帧，表示为

在训练集中包含T帧；

T_n∈{2，4，8，…，64}代表不同的时间尺度，C代表的是特征的通道，同时该模块还会产生用于边界池化的帧级特征；

6)基于以上特征，得到粗时间边界

和粗分类c^C，

代表位置i到开始时间的距离，

代表位置i到结束时间的距离，i∈{0，1，…，t-1}，t代表的是金字塔特征的时间长度；

7)获取第i个位置开始时间和结束时间：

其中

表示特征中相应第i个位置的粗开始时间，

表示特征中相应第i个位置的粗结束时间；

其中

和

和

分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果，L_bce是二元交叉熵的损失函数，α和β是超参数；

所述利用前景信息增强模块得到精细化特征，具体过程如下：

1)将粗边界和粗分类的结果输入到边界池化层，

F_frame＝Linear(FSA(x_i)) i＝1，…，T， (5)

4)把粗预测过程中的特征

和

5)

和

和

分别表示开始时间和结束时间的偏移，另一个卷积用来预测精细化的分类cR，最后将得到的偏移量

加到粗边界获得精细化边界

和

分别表示精细化的开始和结束的时间。

2.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，所述通过时间信息提取模块获取时间信息的具体步骤如下：

式中SpatialT代表的是空间编码器，TemporalT代表的是时间编码器，Linear代表的是全连接层，embeding是将时间加入空间特征并进行嵌入。

3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，所述粗分类中使用focal损失函数作为约束，调整正负样本的权重和控制困难和容易分类的样本，由于正负样本本身比例不均匀，并且负样本易分，因此我们引入一个参数γ，平衡比列并且调节为0.75，防止过拟合，具体公式如下：

其中N^C是粗略过程中正样本的数量，

是粗粒度过程预测的粗分类结果，c_i是真实标签：

其中N^R是当粗糙提议与真实样本的tloU大于0.5时精化过程中正样本的数量，

是预测的精化分类结果通过细化过程，c_i是真实标签。

4.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，所述二元交叉熵的损失函数定义如下：

其中

来加快函数的收敛速度并且设置为0.3，

为细化的边界，ψ_i为训练过程中真实标签，ε_i是从精细化过程生成的位置标签。