CN109711380B

CN109711380B - 一种基于全局上下文信息的时序行为片段生成系统及方法

Info

Publication number: CN109711380B
Application number: CN201910004792.2A
Authority: CN
Inventors: 宋井宽; 李涛; 高联丽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2022-09-16
Anticipated expiration: 2039-01-03
Also published as: CN109711380A

Abstract

本发明涉及视频分析技术领域，其公开了一种基于全局上下文信息的时序行为片段生成系统及方法，解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。该系统包括：视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络；通过时序行为片段生成网络中的双向并行的LSTM模块有效利用了视频的全局上下文信息，弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性，从而高效的融合了时序行为片段的特征。本发明适用于视频中的行为分析和定位。

Description

一种基于全局上下文信息的时序行为片段生成系统及方法

技术领域

本发明涉及视频分析技术领域，具体涉及一种基于全局上下文信息的时序行为片段生成系统及方法。

背景技术

时序行为片段生成是指给定一段未分割的长视频，算法需要检测视频中的行为片段，包括其开始时间和结束时间，从而达到准确定位长视频中行为发生的时间段和过滤掉不相关信息的效果。

现有的时序行为片段生成方法可以分为两类：

第一类是采用时序滑动窗口生成行为片段。

第二类是首先将视频分为视频单元(视频单元由数帧图片所组成)的集合，然后通过编码器得到每个视频单元包含行为的概率，最后将超过阈值的视频单元聚集起来作为候选时序行为片段。

其中，基于时序滑动窗口的方法虽然覆盖了整个视频，但是随之而来是计算量的巨幅增加和时序行为片段的冗余。

尽管基于行为概率的方法在一定程度上解决了上述问题，但是现有方法通常使用时序卷积和单向的LSTM来生成概率时序。这样的方法存在以下问题：1)时序卷积只能捕获有限的时序信息，而不能捕获到整段视频的全局信息；2)单向的LSTM在输出一个视频单元的作为行为的概率时，只对过往的信息进行了编码，并没有考虑到未来的信息。

另外，需要指出的是现有方法直接使用平均池化对行为片段的特征进行编码，这样并没有考虑到不同视频单元的重要性，会导致得出的时序行为片段不准确。

发明内容

本发明所要解决的技术问题是：提出一种基于全局上下文信息的时序行为片段生成系统及方法，解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。

本发明解决上述技术问题所采用的技术方案是：

基于全局上下文信息的时序行为片段生成系统，包括：视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络；

所述视频单元编码网络，用于将视频划分为视频单元的集合，将各个视频单元输入至双流网络进行编码，提取对应视频单元的时空特征，从而获得视频的时空特征集合；

所述时序行为片段生成网络，用于对每一个视频单元的时空特征进行编码，从而预测这个视频单元作为行为开始、行为进行和行为结束的概率；利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段；

所述基于行为进行概率的时序行为片段重新排序网络，利用视频单元作为行为进行的概率对初始时序行为片段进行排序，生成时序行为片段集合。

作为进一步优化，所述时序行为片段生成网络包括残差卷积层模块和双向并行的LSTM模块；

所述残差卷积层模块，用于对视频单元的时空特征进行处理从而编码高层语义信息，获得残差特征；

所述双向并行的LSTM模块，用于对输入的残差特征进行循环编码，从而获取视频的双向LSTM特征；

所述双向并行的LSTM模块后连接一个时序卷积层和S函数，用于对双向LSTM特征进行编码，计算视频单元作为行为开始、行为进行和行为结束的概率，利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段。

作为进一步优化，所述残差卷积层模块由两层时序卷积层组成，其中两层时序卷积层后均设置ReLU(线性整流函数)激活函数，时序卷积层的卷积核的大小为3；

其中，第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接，再经过第二层ReLU激活函数获得残差卷积层模块输出的残差特征。

作为进一步优化，所述双向并行的LSTM模块包括前向LSTM模块和后向LSTM模块，所述前向LSTM模块对残差特征进行正向处理，所述后向LSTM模块对残差特征进行后向处理，前向处理和后向处理过程是并行同时进行的。

此外，本发明还提供了一种基于全局上下文信息的时序行为片段生成方法，其包括以下步骤：

a.数据预处理：

将给定的视频转换为图片，并且对图片的大小进行缩放处理，然后采用全变分光流算法提取光流特征；

b.视频单元编码：

将视频划分为视频单元的集合，将各个视频单元输入至双流网络进行编码，提取对应视频单元的时空特征，从而获得视频的时空特征集合；

c.生成初始时序行为片段：

对每一个视频单元的时空特征进行编码，从而预测这个视频单元作为行为开始、行为进行和行为结束的概率；利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段；

d.基于行为进行概率对初始时序行为片段重新排序：

基于视频单元作为行为进行的概率对初始时序行为片段进行排序，生成时序行为片段集合。

作为进一步优化，步骤c中，所述利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段，具体包括：

选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点：

(1)该视频单元的概率高于概率序列中最大值的0.5倍；

(2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率；

然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段，保留时长符合要求的初始时序行为片段。

作为进一步优化，所述步骤d具体包括：

d1.对初始时序行为片段进行扩充，获得扩充后的时序行为片段；

d2.将扩充的时序行为片段分为三部分：时序行为开始部分、时序行为片段和时序行为结束部分；

d3.对于每一部分，提取双向并行的LSTM模块的输出作为它的特征；

d4.应用时序行为片段生成网络获取扩充的时序行为片段的三部分对应的概率序列；

d5.对概率序列进行数据标准化操作，获得时序行为片段的注意力特征；

d6.将时序行为片段对应的注意力特征输入到三个全连接层和S函数，获得此时序行为片段的置信度得分，根据各个时序行为片段的置信度得分进行排序。

作为进一步优化，步骤d中还包括：对时序行为片段集合进行非极大值抑制操作，过滤掉重叠率高的时序行为片段。

本发明的有益效果是：

1)通过双向并行的LSTM模块有效利用了视频的全局上下文信息，弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。

2)基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性，从而高效的融合了时序行为片段的特征。

附图说明

图1为视频单元编码网络和时序行为片段生成网络的原理示意图；

图2为基于行为进行概率的时序行为片段重新排序网络原理示意图；

图3为残差卷积层模块原理示意图；

图4为双向并行的LSTM模块原理示意图。

具体实施方式

本发明旨在提出一种基于全局上下文信息的时序行为片段生成系统及方法，解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。在本发明中，通过双向并行的LSTM模块解决了现有方法不能获取全局上下文信息以及只能编码过往信息的缺点；此外，还基于行为概率的时序行为片段重新排序网络对不同视频单元的行为重要性进行权衡，解决了现有方法没有考虑不同单元的行为重要性从而直接采取平均池化的缺陷。

本发明中的基于全局上下文信息的时序行为片段生成系统，包括：视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络；

在具体实现上，对于给定的视频，首先我们需要将其转换为图片，并且将图片的大小缩放为宽度为340像素，高度为256像素。然后采用全变分光流算法(TVL1)提取光流特征。以上便完成了数据的预处理过程。将经过预处理后的视频数据依次经过本发明中的视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络的处理后，我们会得到若干时序行为片段集合，接下来，我们对此时序行为片段集合进行Soft-NMS(非极大值抑制)操作，过滤掉重叠率高的时序行为片段，从而保证使用尽可能少的时序行为片段覆盖视频中的行为发生区域，于是我们得到了最终结果。

下面对本发明中系统的各个部分进行具体介绍：

视频单元编码网络：给定一段视频

其中T表示视频中帧数的总和，v_t表示视频中第t帧。首先将视频分为视频单元的集合，于是可以得到视频单元集合

其中视频单元集合的数目

n_u表示一个视频单元含有的帧数的数量，u_t表示视频中第t个视频单元。

对于每一个视频单元而言，它都会通过双流网络进行编码，从而提取视频单元的时空特征。我们将视频单元集合输入到双流网络可以得到视频的时空特征集合

其中d_f表示一个视频单元的时空特征的维度。

时序行为片段生成网络：给定一段视频的时空特征集合F_U＝{f_u,1,…,f_u,N}，时序行为片段生成网络的目标是通过对每一个视频单元的时空特征进行编码，从而可以预测这个视频单元作为行为开始，行为进行和行为结束的概率。

在本发明中，我们利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段，利用视频单元作为行为进行的概率对初始时序行为片段排序。

我们的时序行为片段生成网络如图1所示，它包含有两个模块：残差卷积层模块和双向并行的LSTM模块。

残差卷积层模块：残差卷积层模块是ResNet的一种变体，如图3所示，它由两层时序卷积层组成，其中两层时序卷积层后都要经过ReLU(线性整流函数)激活函数，时序卷积层的卷积核的大小为3。通过残差卷积层模块，我们可以对视频时空特征进行处理从而编码高层语义信息。我们将视频的时空特征集合输入到残差卷积层，然后将第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接，之后经过第二层ReLU激活函数得到了残差卷积网络的输出，记为残差特征F_UR＝RConv(F_U)。

双向并行的LSTM模块：双向并行的LSTM模块由两个LSTM模块组成，分别是前向LSTM和后向LSTM，如图4所示。前向LSTM对残差特征进行正向处理(例如从左至右)，后向LSTM对残差特征进行后向处理(例如从右至左)，这两个处理过程是并行同时进行的。双向并行的LSTM对输入的残差特征进行循环编码，从而获取视频的双向LSTM特征信息。具体来说，前向LSTM的计算过程如下所示：

其中t表示第t步计算过程，f_ur,t表示第t个视频单元的残差特征，σ表示S函数，φ表示正弦函数，i_t，ζ_t，o_t，c_t，

分别表示输入门，遗忘门，输出门，记忆单元和第t步的隐藏状态。为了简化公式，我们定义前向LSTM的处理过程为

其中

是前向LSTM的输出。对于后向LSTM，我们将视频单元的残差特征反向输入其中，得到后向LSTM的输出

视频的残差特征集合在经过双向并行的LSTM模块后，每一个视频单元的特征被定义为前向LSTM和后向LSTM的隐藏状态的拼接。于是，我们得到新的视频单元集合的特征有

接下来，我们将此特征输入一层时序卷积层和S函数进行编码，从而得到了每一个视频单元作为行为开始，行为进行和行为结束的概率集合

其中

分别表示行为开始，行为进行和行为结束的概率。

初始时序行为片段的生成：通过计算出的视频单元作为行为开始和行为结束概率

我们生成初始时序行为片段。我们选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点：

1)该视频单元的概率高于概率序列中最大值的0.5倍。

2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率。

然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段，保留时长符合要求的时序行为片段得到此网络最终结果。在此阶段，我们定义

为对应时序行为片段的置信度得分。

基于行为进行概率的时序行为片段重新排序网络：

时序行为片段重新排序网络的目标是为了降低不合适的时序行为片段的置信度得分，提高合适的行为时序片段的置信度得分。

如图2所示，考虑一个初始时序行为片段γ＝[u_s,u_e]，其中u_s，u_e分别表示此时序行为片段的开始视频单元和结束视频单元，我们首先对时序行为片段进行扩充，用于捕获丰富的上下文信息，从而得到扩充后的时序行为片段γ＝[u_s-u_c,u_e+u_c]，其中u_c表示扩充的视频单元的数量。然后，我们将扩充的时序行为片段分为三部分：γ_s＝[u_s-u_c,u_s+u_c]表示时序行为开始部分，γ_a＝[u_s,u_e]表示时序行为片段，γ_e＝[u_e-u_c,u_e+u_c]表示时序行为结束部分。

对于每一部分，我们提取双向并行的LSTM模块的输出作为它的特征，因此我们可以分别得到三部分的特征如下：

此外，对于每一个视频单元，我们可以应用时序行为片段生成网络从而得到此视频单元作为行为进行的概率p^a，因此我们可以分别得到三部分对应的概率序列如下：

然后我们对概率序列分别进行数据的标准化操作。比如给定概率序列

我们进行如下计算：

其中

对应时序行为开始部分γ_s中第j个视频单元的行为注意力得分。对γ_s，γ_a，γ_e分别进行如下操作，我们可以得到注意力得分序列

接下来，我们使用下面的函数对三部分分别进行计算，然后将计算后的三部分特征拼接起来得到对应时序行为片段γ的注意力特征。

最终，我们将时序行为片段对应的特征输入到三个全连接层(全连接层的隐藏结点数分为别1024，512和1)和S函数得到了此时序行为片段的置信度得分p_γ。我们计算

作为此时序行为片段重新排序之后的置信度得分。