CN112364852B

CN112364852B - 融合全局信息的动作视频段提取方法

Info

Publication number: CN112364852B
Application number: CN202110042635.8A
Authority: CN
Inventors: 徐行; 任燚梵; 沈复民; 邵杰; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-20
Anticipated expiration: 2041-01-13
Also published as: CN112364852A

Abstract

本发明公开了一种融合全局信息的动作视频段提取方法，属于视频处理领域。本发明包括：选择训练数据集；提取数据集中的原始视频的视频帧，并利用TSN网络模型来提取的原始视频中包含的视频段的视觉特征并组成视觉特征序列；利用时序卷积对提取的视觉特征序列进行卷积操作，扩大视觉特征序中视觉特征的感受视野；基于扩大感受视野后的视觉特征生成视频段的二维视频段特征，并进行视频段的动作预测；基于扩大感受视野后的视觉特征预测视频段的开始时间节点和结束时间节点；将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合，产生最终的预测结果。通过上述方法，本发明能够从长视频中提取出有效的视频段。

Description

融合全局信息的动作视频段提取方法

技术领域

本发明涉及视频处理领域，尤其涉及一种融合全局信息的动作视频段提取方法。

背景技术

随着各种拍摄设备和网络的普及，视频在人们日常的生活中占据着越来越重要的地位，对于视频内容的分析也受到了越来越多的人的关注。但是对于目前视频的来源来说，其主要是用户所上传的未经剪辑的长视频亦或者由政府所安装的摄像头所捕获的视频，对于这些少平来说，其中包含着大量的无关的、冗余的信息，比如：用户上传视频中的背景信息，因为对于大多数的人来说，人们更加关注视频中的事件而不是其背景。如果要采用人工的方法来对这样的视频进行处理，这无疑将会浪费大量的人力物力。

因此，我们有必要对视频进行恰当的处理，剔除掉无关的背景信息，尽可能的保留事件信息。此外，随着深度学习在视频处理领域的广泛应用，这一任务也受到了各个公司、高校的关注，出现了很多基于深度学习的不同的处理方法。

目前对于提取包含动作的视频段来说，有两类基于深度学习的方法，可以大致分为anchor-base和anchor-free：

1）anchor-base：该类处理方法主要是从目标检测领域所借鉴过来的，将原先目标检测中对空间信息的建模，替换成对该任务中的时序信息的建模。利用卷积神经网络，在每一层提取的特征图中，再其对应的位置定义不同尺度的anchor，然后负责特定长度视频段的预测。但是这类方法由于预先定义了anchor的大小，可能很难灵活的覆盖不同长度的视频段，导致最后的预测结果较差。

2）anchor-free：该类处理方法抛弃了anchor的使用，而是直接预测视频中不同时间点的类别：主要包含开始、结束、动作三类。然后利用配对的方法来将三类节点进行配对，来生成可能包含动作的视频段，最后再进行评判，剔除掉多余的视频段，产生最后的结果。

现有的这两类方法中，虽然可以产生比较好的预测结果，但是在预测的过程中并没有充分的利用全局信息，这可能缺乏对于视频整体的理解。

发明内容

本发明的目的是提供一种融合全局信息的动作视频段提取方法，能够在使用模型预测包含动作的视频段的过程中，通过引入全局信息来对指导有效视频段的产生。

本发明解决其技术问题，采用的技术方案是：

融合全局信息的动作视频段提取方法，包括如下步骤：

步骤1、选择数据集；

步骤2、在选择的数据集中，提取原始视频中的视频段对应的视频帧，并利用TSN网络模型提取原始视频中包含的视频段的视觉特征，并将视觉特征组成视觉特征序列；

步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作；

步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征，并进行视频段的动作预测；

步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点；

步骤6、将视频段的动作预测结果以及开始时间节点和结束时间节点预测结果进行融合，产生最终的预测结果。

进一步的是，步骤1中，所述数据集为ActivityNet-1.3，该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。

进一步的是，步骤2中，提取原始视频中的视频段对应的视频帧，表示为

，其中

表示总的视频帧数，

表示在视频中的第n帧；对于该视频的数据集，表示为

，其中

表示某个视频中含有动作视频段的数目，

和

分别表示第

个标签的开始时间节点和结束时间节点。

进一步的是，步骤2中，利用TSN网络模型提取原始视频中包含的视频段的视觉特征，并将视觉特征组成视觉特征序列，具体包括如下步骤：

步骤201、将原始视频按照时间间隔

，生成视频段

，其中，

表示所提取的视频段数，

表示总的视频帧数，

，

表示原始视频中的第

个RGB图像，

表示

的光流图；

步骤202、将

输入至TSN网络模型，

分别通过TSN网络模型中的空间网络和时间网络，分别获取空间网络及时间网络的输出结果；

步骤203、融合空间网络及时间网络的输出结果，得到融合后的输出结果，表示为

，其中，

表示利用空间网络所提取的视觉特征，

表示利用时间网络所提取的视觉特征；

步骤204、将融合后的输出结果组成视觉特征序列，表示为

，其中

表示所提取的视频段数，

表示视频段所对应的视觉特征。

进一步的是，步骤3具体为：

利用时序卷积对提取的视觉特征序列F进行卷积操作，并扩大视觉特征序中视觉特征的感受视野，扩大感受视野后的视觉特征表示为

，且

，C表示特征通道数，R表示实数，T表示视频长度。

进一步的是，步骤4中，所述基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征，具体包括如下步骤：

步骤401、定义一个视频段的开始时间节点为

，结束时间节点为

；

步骤402、计算该视频段的掩膜Mask；

步骤403、将掩膜Mask和扩大感受视野后的视觉特征

进行矩阵乘积运算得到视频段的二维视频段特征

，在

中，

表示从时间

到时间

的视频段的特征。

进一步的是，步骤402中，所述掩膜

，对于Mask中的每一项

，表示从时间

到时间

中选取出N个点的特征，作为该视频段的特征，其中N表示所提取的特征点个数，R表示实数，T表示时间维度，对于非整数位置点利用如下公式来计算：

；

其中，

表示选取小数部分，

表示选取整数部分，

表示每次计算时第n个位置。

进一步的是，步骤403中，所述将掩膜Mask和扩大感受视野后的视觉特征

进行矩阵乘积运算得到视频段的二维视频段特征

，具体包括如下步骤：

步骤4031、对于一个视频段

，得到其对应的掩膜

，并利用矩阵乘积运算生成与该视频段对应的特征，即如下公式：

；

其中c表示第几个通道，n表示所提取的特征维数，T表示时间维度，f表示关于视觉特征的特征；

步骤4032、对原始视频中所有视频段都进行矩阵乘积运算，即

和

在时间维度上进行矩阵乘法，得到

。

进一步的是，步骤5中，通过开始时间节点和结束时间节点预测模块基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点；

所述开始时间节点和结束时间节点预测模块包括堆叠的多个相同的基本模块StartEndBlock。

进一步的是，步骤6之后，还包括如下步骤：

步骤7、利用Soft-NMS方法对原始视频中重复的视频段进行剔除；

步骤8、使用损失函数训练融合全局信息的动作视频段提取模型；

步骤9、通过数据集验证所述融合全局信息的动作视频段提取模型的有效性

本发明的有益效果是，通过上述融合全局信息的动作视频段提取方法，能够引入全局特征的，将全局信息引入到了两个分支当中，在预测的过程中，可以在一定程度上考虑到特征的整体分布结构，使预测结果更加准确。

附图说明

图1为本发明融合全局信息的动作视频段提取方法的流程图；

图2为基于本发明整体的一个网络结构框架；

图3为本发明实施例中中开始和结束节点预测模块的结构；

图4为本发明实施例中视频段预测模块的基本结构。

具体实施方式

下面结合附图，详细描述本发明的技术方案。

本发明提出一种融合全局信息的动作视频段提取方法，其流程图见图1，其中，该方法包括如下步骤：

步骤1、选择数据集。

步骤2、在选择的数据集中，提取原始视频中的视频段对应的视频帧，并利用TSN网络模型提取原始视频中包含的视频段的视觉特征，并将视觉特征组成视觉特征序列。

步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作。

步骤4、基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征，并进行视频段的动作预测。

步骤5、基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点。

这里，能够引入全局信息，在预测开始和结束节点时，使用多个相同模块的级联结构，并且使用空洞卷积，使卷积的感受野逐渐增大，并且覆盖整个原始视频。此外，在产生视频段评分的过程中，也将全局信息引入到其中，使模型能够考虑到不同视频段之间的包含关系。

对于视频开始节点和结束节点的预测来说，仅仅利用局部信息，这会忽略整体视频的结构，而没有考虑到视频节点之间的相互关系，引入全局信息，是对视频整体结构的理解的一个增强。同样，对于所有视频段构成的二维矩阵来说，每一个位置都对应着一个可能的视频段，这些视频段并不是不相关的，相反，这些视频之间包含着各种各样的关系，比如：包含、相邻等。利用全局信息，可以使得最终的预测结果充分考虑各个视频之间的关系，不会出现一些违反常识的预测结果，从而提高预测结果。

本发明在应用时，基于本发明整体的一个网络结构框架见图2，其主要涉及以下两个模块：

1、开始节点和结束节点预测模块：

在该模块中，我们的首先构建一个基本模块M，该模块是由膨胀率逐渐增大的空洞卷积构成的。设一个空洞卷积操作可以表示为

（其中卷积核都为3，膨胀率d，输入为x，此外上述公式中还包括激活函数Relu()，为了简化忽略不写）。因此，对于该模块的输入视频特征，其模块的计算可以表示为：

在该模块中，由于卷积操作的感受野是逐层扩大的，其最终会对整个原始视频进行卷积操作，这样在预测过程中会关注到视频的全局信息。此外，为了增强开始节点和结束节点的预测结果，我们将堆叠多个相同的模块M，并对每一个M的输出都进行监督，这样可以利用全局信息层层对预测结果进行修正，因此，开始节点和结束节点预测模块可以表示为：

Output即为开始节点和结束节点预测模块最终的预测结果。

2、动作预测模块：

在该模块中，在提取出所有可能的视频段的特征后，将会生成基于视频段特征的二维特征图

，

的维度是

，其中T表示时间维度，C表示特征维度。

就表示以i节点作为开始，j节点作为结束的视频段的特征。可以看出，

是一个上三角矩阵，此外，各个位置之间是存在制约关系的，比如：

被预测为一个非动作视频段，那么

也将是一个非视频段。因此，我们将引入

的全局整体信息来制约最后的预测结果。对于输入

来说，我们将利用二维卷积不断缩小其特征图的大小，然后利用反卷积扩大其感受野，恢复到原始尺度，并利用残差结构来保留原始信息，最后进行预测，这样可以充分考虑到

的整体信息。与开始节点和结束节点预测模块相似，我们也堆叠多个相同的模块，并进行中间层的监督，以不断进行修正最后的预测结果。

实施例

本实施例提出一种融合全局信息的动作视频段提取方法，其具体应用时，包括如下步骤：

步骤1：选择合适的数据集。

本实施例主要是在公开的数据集ActivityNet-1.3上进行训练和测试。

ActivityNet-1.3数据集是一个用于生成视频段和检测的公开的数据集，其主要包含19994个视频并且包含200个动作类别，这些视频主要是从youtube网站上所爬取下来的，其分辨率和时间都各不相同。它曾经是ActivityNet Challenge 2016 and 2017的比赛数据集。该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。

步骤2：对视频进行预处理。

首先我们对于一个未处理的长视频，提取出其对应的视频帧表示为

，其中

表示总的视频帧数，

表示在视频中的第n帧。对于该视频的标签集，其可以表示为

，其中

表示某个视频中含有动作视频段的数目，

和

分别表示第

个标签的开始时间和结束时间。虽然，在原始的数据集标签当中含有每一个视频段的类别信息，但是由于在视频段提取的任务中，该类别信息被忽略掉了。

所代表的标签集仅仅在训练的过程中使用。

上述将视频段的视频帧提取好后，我们利用TSN网络模型来提取的他的视觉特征。首先，我们将视频按照一定的时间间隔

，来生成视频段

，其中

，表示所提取的视频段数，

表示总的视频帧数。对于一个

来说，其中

表示第

个RGB图像，而

表示在

周围的光流图，我们将其输入到TSN网络模型当中，使其分别通过空间网络和时间网络，并将两个网络最后的输出连接起来，表示为

，其中，

表示利用空间网络所提取的特征，

则表示利用时序网络所提取的特征。那么对于S来说，其对应的特征序列可以表示为

，其中

表示所提取的视频段数，

表示视频段所对应的特征。

步骤3:利用时序卷积来做前述特征进行基本的处理。

我们使用简单的时序卷积来对F来进行基本的卷积操作，来扩大其感受野。其计算过程如下：

，这样我们便可以得到基本处理模块的输出

，其中，F表示前述步骤所提取到的特征，

表示经过基本处理后的特征，该模块的输出是作为被后续的两个特征所共享。

步骤4:生成二维视频段特征

，并进行预测。

对于一个视频段定义其开始时间节点为

和结束节点为

，利用模板Mask和

的乘积得到结果

，其中，Mask是预先定义的模板，

是前述步骤所提取到的视频特征，

是通过运算得到的结果，

表示从开始时间

到结束时间

的视频段的特征。

步骤402、对于前述步骤中生成的特征

，而模板

，对于Mask中的每一项

表示从时间

到

中选取出某N个点的特征，作为该视频段的特征，其中T表示视频长度，N表示所提取的特征点个数，C表示特征通道数，

示视频某一开始时间，

表示视频某一结束时间；对于非整数位置点利用如下公式来计算：

其中，

表示选取小数部分，

表示选取整数部分，

表示每次计算时第n个位置。

这样对于一个视频段

来说，我们可以得到其对应的

，接着我们利用矩阵乘法来生成对应的特征，即如下公式，其中T表示视频长度，N表示所提取的特征点个数：

其中c表示第几个通道，n表示所提取的特征维数，T表示时间维度，f表示关于视觉特征的特征。

我们对所有可能的视频段都进行上述操作，便可以利用高维矩阵乘法来实现，即

和

在时间维度上进行矩阵乘法，得到

，其中，T表示视频长度，N表示所提取的特征点个数，C表示特征通道数，Mask是预先定义的模板，

是前述步骤所提取到的视频特征，

是通过运算得到的结果；

得到上述特征

后，我们将利用视频段预测模块来产生最后的预测结果

，首先我们构建残差模块ResidualBlock作为基本操作单元，其基本的操作过程可以简化为

，其中x表示输入变量，Conv()表示卷积操作。然后构建功能模块ScoreBlock，该模块是视频段预测模块的基本组成部分，如图4所示。其前半部分是由ResidualBlock单元和池化操作交替组成的，使特征图的大小逐渐减小，这样可以得到更小的特征图，而后半部分则是由ResidualBlock单元和反卷积操作交替组成，这样在恢复原始大小的过程中就会将全局信息引入到其中，最后包含两个输出，即输入到下一部分的特征和基于该模块所产生的预测结果。

步骤5:利用卷积操作预测开始和结束节点。

对于开始节点和结束节点预测模块来说，其也是由多个相同的模块堆叠而成的。其基本模块是StartEndBlock，如图3所示，为了保持时间上的维度，该模块仅仅包含时序卷积，而不含有池化操作。我们依次使用一个膨胀率翻倍（1,2,4,...）的空洞卷积来对输入特征进行卷积操作，这样可以在保持参数一定的情况下同时扩大卷积的感受野，有利于对全局信息的把握。其具体表示如下：

其中

表示第

层的输出，*表示卷积操作，

都表示卷积核的参数，Relu()表示激活函数。在，每一个StartEndBlock中，我们同样也包含两类输出，初步的预测结果和输入到下一层的特征。

同样，和前述类似，我们也堆叠多个这样的模块，其运算结果可以表示为：

其中，

表示初始输入，

表示第S层输出，

表示卷积运算。

最终，在每一个模块都对其输出进行监督，将最后一个模块的输出作为该模块的输出结果，最终产生

和

序列，其中

表示预测的开始节点序列，

表示预测的结束节点序列。

步骤6:主要是利用上述两个分支的结果来产生最终的预测结果。

首先，我们先选取出可能是视频段开始和结束的节点，其方法为：对于步骤5中预测的开始节点结果

和结束节点预测结果

，我们选取其中的两类节点（1）值大于

（2）是一个极大值或者极小值，其中

分别表示

和

中的最大值，*表示乘法运算。这样我们就可以获取可能的开始节点集

和结束节点集

，其中

表示可能的开始节点数目，

表示可能的结束节点数目。

接着，我们将开始节点集和结束节点集进行配对作为一个候选框，同时，如果其持续时间大于该数据集中最大的持续时间，将其剔除。那么生成的视频段

可以表示为

，其中

和

分别表示开始的可能性和结束的可能性，

表示该视频段的可能性，

表示开始时间，

表示结束时间。那么，我们就可以获取所有的候选框

，其中

表示候选框的数量。

步骤7:利用Soft-NMS来对重复的候选视频段进行剔除。

获取到所有可能的候选框后，由于这其中大多数会有很大的重叠，所以我们利用Soft-NMS再一次进行剔除，首先我们计算所有候选框的分数

，然后按照分数对其进行排序，其中，

和

分别表示开始的可能性和结束的可能性，

表示该视频段的可能性。选取最大分数的候选框，然后计算与其他候选框的IoU，高度重叠的候选框将会按照下述公式来进行衰减。

其中

表示高斯函数的参数，

表示率先定义的阈值，

和

表示任意两个不同的候选框，iou()表示计算两个候选框的交并比。这样，我们可以得到最终的预测结果

，其中，

表示开始时间，

表示结束时间，

表示某一个候选框最终的得分，

表示最终得到的候选框的数量。

步骤8:使用损失函数来训练网络模型。

基于上述模型，我们要进行整个网络的训练，其整体的损失函数可以表示为：

其中

是动作二分类交叉熵损失，

是开始二分类交叉熵损失，

是结束二分类交叉熵损失，

表示视频段预测模块的数目，

表示开始和结束节点预测模块的个数，

表示平衡因子。

步骤9:在选取的数据集上来验证模型的有效性。

在选取数据集上验证模型。为了很好地评价本发明的有效性，我们使用AverageRecall(AR)和Average Number of proposals(AN)来评价本方法的有效性，这可以表示为AR@AN。此外，在AR和AN关系图中的曲线下面积(AUC)也被作为评判本发明好坏的一个批判标准。

本发明在当前主流的视频段生成数据集ActivityNet-1.3上进行验证，其最后的验证结果如表1所示。

表 1 是“ActivityNet-1.3数据集上模型性能对比”

从上述结果中可以看出，我们模型所提出的方法是均优于表中所列方法的，从一定程度上证明了本发明的有效性。

Claims

1.融合全局信息的动作视频段提取方法，其特征在于，包括如下步骤：

步骤1、选择数据集；

步骤3、利用时序卷积对提取的视觉特征序列进行卷积操作；

步骤5中，通过开始时间节点和结束时间节点预测模块基于进行卷积操作后的视觉特征序列预测视频段的开始时间节点和结束时间节点；

所述开始时间节点和结束时间节点预测模块包括堆叠的多个相同的基本模块StartEndBlock；

2.根据权利要求1所述的融合全局信息的动作视频段提取方法，其特征在于，步骤1中，所述数据集为ActivityNet-1.3，该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。

3.根据权利要求1所述的融合全局信息的动作视频段提取方法，其特征在于，步骤2中，提取原始视频中的视频段对应的视频帧，表示为

，其中

表示总的视频帧数，

表示在视频中的第n帧；对于该视频的数据集，表示为

，其中

表示某个视频中含有动作视频段的数目，

和

分别表示第

个标签的开始时间节点和结束时间节点。

4.根据权利要求3所述的融合全局信息的动作视频段提取方法，其特征在于，步骤2中，利用TSN网络模型提取原始视频中包含的视频段的视觉特征，并将视觉特征组成视觉特征序列，具体包括如下步骤：

步骤201、将原始视频按照时间间隔

，生成视频段

，其中，

表示所提取的视频段数，

表示总的视频帧数，

，

表示原始视频中的第

个RGB图像，

表示

的光流图；

步骤202、将

输入至TSN网络模型，

，其中，

表示利用空间网络所提取的视觉特征，

表示利用时间网络所提取的视觉特征；

步骤204、将融合后的输出结果组成视觉特征序列，表示为

，其中

表示所提取的视频段数，

表示视频段所对应的视觉特征。

5.根据权利要求4所述的融合全局信息的动作视频段提取方法，其特征在于，步骤3具体为：

，且

，C表示特征通道数，R表示实数，T表示视频长度。

6.根据权利要求5所述的融合全局信息的动作视频段提取方法，其特征在于，步骤4中，所述基于进行卷积操作后的视觉特征序列生成视频段的二维视频段特征，具体包括如下步骤：

步骤401、定义一个视频段的开始时间节点为

，结束时间节点为

；

步骤402、计算该视频段的掩膜Mask；

步骤403、将掩膜Mask和扩大感受视野后的视觉特征

进行矩阵乘积运算得到视频段的二维视频段特征

，在

中，

表示从时间

到时间

的视频段的特征。

7.根据权利要求6所述的融合全局信息的动作视频段提取方法，其特征在于，步骤402中，所述掩膜

，对于Mask中的每一项

，表示从时间

到时间

；

其中，

表示选取小数部分，

表示选取整数部分，

表示每次计算时第n个位置。

8.根据权利要求7所述的融合全局信息的动作视频段提取方法，其特征在于，步骤403中，所述将掩膜Mask和扩大感受视野后的视觉特征

进行矩阵乘积运算得到视频段的二维视频段特征

，具体包括如下步骤：

步骤4031、对于一个视频段

，得到其对应的掩膜

；

步骤4032、对原始视频中所有视频段都进行矩阵乘积运算，即

和

在时间维度上进行矩阵乘法，得到

。

9.根据权利要求1所述的融合全局信息的动作视频段提取方法，其特征在于，步骤6之后，还包括如下步骤：

步骤9、通过数据集验证所述融合全局信息的动作视频段提取模型的有效性。