CN111914644B

CN111914644B - 一种基于双模态协同的弱监督时序动作定位方法及系统

Info

Publication number: CN111914644B
Application number: CN202010614973.XA
Authority: CN
Inventors: 王乐; 翟元浩; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-12-09
Anticipated expiration: 2040-06-30
Also published as: CN111914644A

Abstract

本发明公开了一种基于双模态协同的弱监督时序动作定位方法及系统，所述方法包括以下步骤：对未剪辑视频中的视频片段进行特征提取；基于双流基础网络对未剪辑视频进行动作分类，获得视频片段注意力权重序列和动作分类结果；基于获得的视频片段注意力权重序列，获得伪时序标签；将伪时序标签作为时序监督，训练两个单模态子网络，迭代直至最终拟合；基于迭代训练获得的两个单模态子网络，对未剪辑视频进行时序动作定位。本发明在只有视频的类别标签下进行训练，可得到视频中所有动作实例开始与结束时间及其类别。

Description

一种基于双模态协同的弱监督时序动作定位方法及系统

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于双模态协同的弱监督时序动作定位方法及系统。

背景技术

随着互联网的发展，视频在人们生活中占有越来越重要的作用。时序动作定位是视频理解领域的一项重要技术，它旨在定位未剪辑视频中主要动作的开始与结束时间，并对动作进行正确分类。

目前，现有大部分时序动作定位方法需要精确的时序标注进行训练，即需要每个动作实例的类别及其开始与结束时间；这种精确的时序标注需要耗费大量人力物力，并且可能由于不同标注员进行标注产生偏差。与之相对的，弱监督时序动作定位只需要视频级别的类别标签进行训练，而且这种数据可以轻易地在关键词检索的视频网站中获得。因此，弱监督时序动作定位可以极大地减轻数据标注的压力，是一个更为实际的方法。

目前，弱监督时序动作定位方法有两个缺陷：首先，由于缺少时序标注，弱监督的方法容易产生大量的假阳性动作提议；其次，现有方法使用固定的阈值对激活序列进行划分以产生动作提议，而在训练过程中没有对该阈值进行建模。

综上，亟需一种新的基于双模态协同的弱监督时序动作定位方法及系统。

发明内容

本发明的目的在于提供一种基于双模态协同的弱监督时序动作定位方法及系统，以解决上述存在的一个或多个技术问题。本发明首先使用伪时序标签进行训练以显著降低假阳性率，然后在训练阶段对产生动作提议的阈值进行建模；本发明在只有视频的类别标签下进行训练，可得到视频中所有动作实例开始与结束时间及其类别。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于双模态协同的弱监督时序动作定位方法，包括以下步骤：

步骤1，未剪辑视频中的视频片段特征提取，包括：将未剪辑视频分为多个不重合视频片段；对每个视频片段的帧进行平均取样，获得每个视频片段的样本帧；使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示；所述片段特征包括：RGB特征和光流特征；

步骤2，搭建双流基础网络；基于所述双流基础网络对未剪辑视频进行动作分类，获得视频片段注意力权重序列和动作分类结果；其中，所述双流基础网络包括：两个结构相同的单模态子网络，分别用于输入RGB特征和光流特征并进行处理；

步骤3，基于步骤2获得的视频片段注意力权重序列，获得伪时序标签；将伪时序标签作为时序监督，训练两个单模态子网络，迭代直至最终拟合；

步骤4，基于步骤3迭代训练获得的两个单模态子网络，对未剪辑视频进行时序动作定位，包括：在步骤2获得的动作分类结果上进行遍历；其中，对于每一个动作分类，进行的步骤包括：对视频片段注意力权重序列进行阈值划分；将高于阈值的相邻视频片段进行连接，产生动作提议；其中，所述动作提议的置信度分数由分类层对每个片段特征的映射得到。

本发明的进一步改进在于，步骤2中，每个单模态子网络均包括：

时序卷积层，用于输入每个视频片段的片段特征，将片段特征映射到用于分类的特征空间，输出用于分类的片段特征；

注意力预测层，包括：一层卷积层；用于输入时序卷积层输出的用于分类的片段特征，对每个片段特征输出一个注意力权重，用于衡量该视频片段包含动作的可能性；

按照时间顺序，将所有片段特征的注意力权重组成视频片段注意力权重序列；

分类层，包括：一层卷积层；用于根据注意力预测层输出的注意力权重对所有用于分类的片段特征进行加权平均，得到未剪辑视频的特征表示；将特征表示送入分类层，得到视频类别预测

获得动作分类结果。

本发明的进一步改进在于，步骤2中，注意力预测层输出的第i个视频片段的注意力值A_i的表达式为：

A_i＝σ(w_A·x_i+b_A)；

式中，w_A、b_A为卷积层的权重的偏置；x_i是第i个视频片段的特征；σ(·)是Sigmoid函数。

使用注意力值A_i对用于分类的片段特征加权平均得到视频特征表示x_fg的表达式为：

以x_fg为输入，训练一层全连接层，得到动作分类结果；

分类预测

的表达式为：

式中，w_i和b_i为分类卷积层对类别i的权重和偏置，C为所有动作类别数；Wc和bc是分类卷积层对于类别c的权重和偏置。

本发明的进一步改进在于，步骤2中，双流基础网络的损失函数表达式为：

L_base＝L_cls+αL_att；

式中，α为控制L_att相对重要性的超参数；

交叉熵损失函数L_cls表达式为：

式中，y_c为真实类别标签；

注意力正则化损失函数的表达式为：

式中，

T是视频片段总个数，s是控制片段选择片段的超参数。

本发明的进一步改进在于，步骤3具体包括：

整个训练过程分为多个改进迭代；

在第n+1个改进迭代中，由从第n个改进迭代产生的伪时序标签提供时序监督；

第n个改进迭代产生的融合注意力权重序列为

其中，

β∈[0,1]；

和

分别是RGB子网络与光流子网络在第n个改进迭代中产生的注意力权重序列在第i个位置的值；第n+1个改进迭代所使用的伪时序标签

由对融合注意力权重序列划分阈值得到，表达式为：

式中，θ是阈值超参数；

使用均方差损失函数让注意力值逼近伪时序标签，表达式为：

第n+1个改进迭代的总损失函数表达式为：

本发明的进一步改进在于，步骤4具体包括：

将分类层映射到所有视频片段，获得时序类别激活序列

表达式为：

式中，s_i,c是时序类别激活s_i对于动作类别c的激活值；

其中，获得时序类别激活序列的步骤对于RGB子网络与光流子网络分别进行，用s_RGB,i和s_flow,i分别表示RGB子网络与光流子网络的时序类别激活序列；

加权RGB子网络与光流子网络的时序类别激活序列，得到融合时序类别激活序列

其中，s_fuse,i＝βs_RGB,i+(1-β)s_flow,i；

对获得的融合注意力权重序列和融合时序类别激活序列进行线性插值，得到时序边界；

对后融合注意力序列以0.5为阈值划分，并连接相邻的片段以得到动作提议(t_s,t_e)；

每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到，表达式为：

式中T_e＝t_e-L/4，T_s＝t_s+L/4，L＝t_e-t_s；s_fuse,i,c是融合时序类别激活在第i个片段对动作类别c的激活值，A_fuse,i是融合注意力权重在第i个片段的激活值。

过滤掉置信度分数低于0的动作提议，得到最终的定位结果。

本发明的一种基于双模态协同的弱监督时序动作定位系统，包括：

特征提取模块，用于未剪辑视频中的视频片段特征提取，包括：将未剪辑视频分为多个不重合视频片段；对每个视频片段的帧进行平均取样，获得每个视频片段的样本帧；使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示；所述片段特征包括：RGB特征和光流特征；

视频片段注意力权重序列和动作分类结果获取模块，用于搭建双流基础网络；基于所述双流基础网络对未剪辑视频进行动作分类，获得视频片段注意力权重序列和动作分类结果；其中，所述双流基础网络包括：两个结构相同的单模态子网络，分别用于输入RGB特征和光流特征并进行处理；基于获得的视频片段注意力权重序列，获得伪时序标签；将伪时序标签作为时序监督，训练两个单模态子网络，迭代直至最终拟合；

时序动作定位模块，用于基于迭代训练后获得的两个单模态子网络，对未剪辑视频进行时序动作定位，包括：在获得的动作分类结果上进行遍历；其中，对于每一个动作分类，进行的步骤包括：对视频片段注意力权重序列进行阈值划分；将高于阈值的相邻视频片段进行连接，产生动作提议；其中，所述动作提议的置信度分数由分类层对每个片段特征的映射得到。

与现有技术相比，本发明具有以下有益效果：

本发明提出了一种基于双模态协同的弱监督时序动作定位方法，即在只有视频的类别标签下进行训练，以得到视频中所有动作实例开始与结束时间及其类别的方法。具体的，本发明的方法，基于RGB帧的光流两种动作模态的注意力值序列的后融合方法，提出了一种基于双模态协同的伪时序标签，以这种标签向两个子网络提供时序监督，迭代地改进双流基础网络。本发明中，步骤2中使用了一个注意力正则化损失函数，以显式地让注意力值接近二元选择，可提高通过阈值划分产生的动作提议时序边界的准确性。本发明中，步骤3中的伪时序标签可以融合两种模态对相同时序位置的不同激活值，通过迭代优化地方式不断改进双流基础网络，最终达到提高定位准确率及降低动作提议假阳性率的效果。

本发明中，使用两个具有相同结构的神经网络分别对上述RGB特征和光流特征进行动作识别。其中，由于一个视频可能包含背景片段；本发明首先，使用一个注意力模块学习每个视频片段包含动作的可能性；然后，以注意力为权重对所有片段做加权平均，以得到视频动作的表示x_fg。

本发明中，使用正则化损失函数的意义是为了最大化前l大的片段注意力的平均值和前l小的片段注意力的平均值，并以此让注意力接近二分类。

本发明中，θ是阈值超参数；设定大的阈值可以降低假阳性率，而设定小的阈值可以提高召回率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于双模态协同的弱监督时序动作定位方法的流程示意框图；

图2是本发明与历史实验结果在THUMOS14测试集上，在IoU 0.3～0.7下的mAP(平均精度均值)对比示意图；

图3是本发明与历史实验结果在ActivityNet验证集上，在IoU 0.5～0.95下的mAP与平均mAP的对比示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种基于双模态协同的弱监督时序动作定位方法，包括以下步骤：

步骤1，未剪辑视频中的视频片段特征提取，包括：首先，将未剪辑视频分为多个不重合视频片段；然后，对每个视频片段的帧进行平均取样，获得每个视频片段的样本帧；使用预训练的卷积神经网络提取所述样本帧的片段特征作为样本帧对应视频片段的表示，并作为步骤2的输入；所述片段特征包括：RGB特征和光流特征；

步骤2，搭建双流基础网络，基于所述双流基础网络对未剪辑视频进行动作分类，获得视频片段注意力权重序列和动作分类结果；

其中，所述双流基础网络，包括：两个结构相同的单模态子网络，将RGB特征和光流特征分别放入两个单模态子网络进行处理；其中，每个单模态子网络均包括：

时序卷积层，用于输入每个视频片段的片段特征，把片段特征映射到用于分类的特征空间；输出用于分类的片段特征；

注意力预测层，包括：一层卷积层；用于输入时序卷积层输出的用于分类的片段特征，对每个片段特征输出一个注意力权重A_i，用于衡量第i个视频片段包含动作的可能性；按照时间顺序，将所有片段特征的注意力权重组成视频片段注意力权重序列；

分类层，包括：一层卷积层；根据注意力预测层输出的注意力权重对所有用于分类的片段特征

进行加权平均，得到未剪辑视频的特征表示x_fg，将特征表示x_fg送入分类层，得到视频类别预测

获得动作分类结果；

步骤3，基于步骤2获得的视频片段注意力权重序列，获得伪时序标签；其中包括：对双流基础网络训练而得的视频片段注意力权重序列进行加权平均，获得一组伪时序标签；

这组伪时序标签作为时序监督，训练两个单模态子网络，迭代直至最终拟合；

步骤4，对未剪辑视频进行时序动作定位，包括：对视频片段注意力权重序列进行阈值划分；

将高于阈值的相邻视频片段进行连接，产生动作提议；所述动作提议的置信度分数由分类层对每个片段特征的映射得到。

本发明实施例中，在步骤2中，还包括：使用两个具有相同结构的神经网络分别对上述RGB特征和光流特征进行动作识别。其中，由于一个视频可能包含背景片段；本发明首先，使用一个注意力模块学习每个视频片段包含动作的可能性；然后，以注意力为权重对所有片段做加权平均，以得到视频动作的表示x_fg：

使用注意力预测层输出片段的注意力值A_i：

A_i＝σ(w_A·x_i+b_A)；

其中，w_A和b_A为该卷积层的权重的偏置。

然后使用该注意力值对用于分类的片段特征加权平均得到视频特征表示x_fg；

式中，x_i是第i个片段的特征，A_i为该片段的注意力值。

以x_fg为输入，训练一层全连接层以得到最终的分类结果。

使用另一个分类层对视频特征进行分类，得到分类预测

其中，w_i和b_i为分类卷积层对类别i的权重的偏置，C为动作类别数。

此外，在进行分类预测时，使用一个注意力正则化损失函数让注意力值接近二分类：

其中，

其中s是一个控制选择片段的超参数。

这个正则化损失函数的意义是为了最大化前l大的片段注意力的平均值和前l小的片段注意力的平均值，并以此让注意力接近二分类。

本发明实施例中，在步骤3中，还包括：

整个训练过程分为多个改进迭代，在第n+1个改进迭代中，由从第n个改进迭代产生的伪时序标签提供时序监督。

设在第n个改进迭代产生的融合注意力序列为

其中

β∈[0,1]。

第n+1个改进迭代所使用的伪时序标签

由对融合注意力序列划分阈值而得：

其中，θ是阈值超参数。设定大的阈值可以降低假阳性率，而设定小的阈值可以提高召回率。

最后使用均方差损失函数让注意力值逼近伪时序标签：

本发明实施例中，步骤2中使用了一个注意力正则化损失函数，以显式地让注意力值接近二元选择，以此提高通过阈值划分产生的动作提议时序边界的准确性。

本发明实施例中，步骤3中的伪时序标签可以融合两种模态对相同时序位置的不同激活值，并且通过迭代优化地方式不断改进双流基础网络，最终达到提高定位准确率及降低动作提议假阳性率的效果。

请参阅图1，本发明实施例的一种基于双模态协同的弱监督时序动作定位方法，步骤如下：

步骤1：视频片段特征提取。将视频分为多个不重合的15帧RGB及光流片段，使用预训练的卷积神经网络(UntrimmedNet或者I3D网络)分别提取片段特征序列，并将此序列作为视频的表示进行下列步骤。

步骤2：双流基础网络。本发明分别将RGB帧片段特征及光流片段特征送入两个具有相同结构的基础网络。

此网络首先使用一层时序卷积层将输入特征映射为一组新的特征，然后对每个视频片段学习一个注意力权重A_i，以衡量第i个片段包含动作的可能性。然后使用注意力权重对所有片段特征

加权平均，得到视频的特征表示x_fg，并将其送入一个全连接层以得到视频类别预测

注意力层和分类层使用交叉熵损失函数优化：

式中，y_c为真实动作类别标签。

在这一过程中，使用一个注意力正则化损失函数以降低注意力值的模糊性，并强迫注意力值趋向于二分类：

该损失函数的目的是最大化前l个具有最大注意力值的片段的平均注意力值及前l个具有最小注意力值的片段的平均注意力值之差。因此，双流基础网络的损失函数为这两个损失函数的加权和：

L_base＝L_cls+αL_att；

此外，将分类层映射到所有片段上，以得到时序类别激活序列

步骤3：伪时序标签。将整个训练过程分为多个改进迭代，在第n+1个改进迭代中，由从第n个改进迭代产生的伪时序标签提供时序监督，以不断优化双流基础网络。

设在第n个改进迭代产生的融合注意力序列为

其中

β∈[0,1]。

第n+1个改进迭代所使用的伪时序标签

由对融合注意力序列划分阈值而得：

最后使用均方差损失函数让两个基础网络的注意力序列逼近伪时序标签：

因此，在第n+1个改进迭代的总损失函数为

步骤4：首先对后融合注意力序列和时序类别激活序列进行线性插值，以得到更精确的时序边界。与后融合注意力序列类似，加权RGB和光流的时序类别激活序列，得到后融合时序类别激活序列

其中s_fuse,i＝βs_RGB,i+(1-β)s_flow,i。

对后融合注意力序列以0.5为阈值划分，并连接相邻的片段以得到动作提议(t_s,t_e)。每个动作提议的置信度分数ψ由Outer-Inner-Constrasive置信度的变种得到：

最终，过滤掉置信度分数低于0的动作提议，得到最终的定位结果。

本发明实施例中，通过实验对比本发明与历史实验数据的改善效果。

参见图2，为本发明与历史实验数据在THUMOS14测试集上的实验结果。可以看到在所有IoU下，本发明所测得mAP都超过了历史实验数据。

参见图3，为本发明与历史实验数据在ActivityNet v1.2验证集上的实验结果。可以看到在3个主要的所有IoU下，以及平均情况下，本发明所测得mAP都超过了历史实验数据。

本发明实施例的一种基于双模态协同的弱监督时序动作定位系统，包括：

本发明实施例中，视频片段注意力权重序列和动作分类结果获取模块中的每个单模态子网络均包括：

获得动作分类结果。

本发明实施例中，视频片段注意力权重序列和动作分类结果获取模块中的注意力预测层输出的第i个视频片段的注意力值A_i的表达式为：

A_i＝σ(w_A·x_i+b_A)；

以x_fg为输入，训练一层全连接层，得到动作分类结果；

分类预测

的表达式为：

本发明实施例中，视频片段注意力权重序列和动作分类结果获取模块中的双流基础网络的损失函数表达式为：

L_base＝L_cls+αL_att；

式中，α为控制L_att相对重要性的超参数；

交叉熵损失函数L_cls表达式为：

式中，y_c为真实类别标签；

注意力正则化损失函数的表达式为：

式中，

T是视频片段总个数，s是控制片段选择片段的超参数。

本发明实施例最终，视频片段注意力权重序列和动作分类结果获取模块中，整个训练过程分为多个改进迭代；

第n个改进迭代产生的融合注意力权重序列为

其中，

β∈[0,1]；

和

由对融合注意力权重序列划分阈值得到，表达式为：

式中，θ是阈值超参数；

第n+1个改进迭代的总损失函数表达式为：

本发明实施例中，时序动作定位模块：

将分类层映射到所有视频片段，获得时序类别激活序列

表达式为：

式中，s_i,c是时序类别激活s_i对于动作类别c的激活值；

其中，s_fuse,i＝βs_RGB,i+(1-β)s_flow,i；

过滤掉置信度分数低于0的动作提议，得到最终的定位结果。

综上所述，本发明公开了一种基于双模态协同的弱监督时序动作定位方法，属于计算机视觉领域。本发明首先利用RGB帧和光流两种不同的动作模态，使用神经网络分别学习不同模态视频片段的类别和相对重要性。然后，根据双模态的传统后融合方法，我们使用后融合后的注意力序列作为伪时序标签重新对单模态子网络重新训练，并迭代这一过程直到最终收敛。这种伪时序标签可以提高子网络的定位性能，并最终提高整体的定位表现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。