CN113505266B

CN113505266B - 两阶段的anchor-based动态视频摘要方法

Info

Publication number: CN113505266B
Application number: CN202110779734.4A
Authority: CN
Inventors: 刘峰; 徐达; 赵峥涞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-09-26
Anticipated expiration: 2041-07-09
Also published as: CN113505266A

Abstract

本发明是一种两阶段的anchor‑based动态视频摘要方法。该方法包括(1)构建anchor‑based神经网络，神经网络包括提取网络、自注意力机制网络、两阶段网络即区域推荐网络和回归分类网络；(2)确定区域推荐网络和回归分类网络中anchor的种类和长度，完成正负样本的分类，对步骤(1)构建的anchor‑based神经网络进行训练，固定训练好的参数，得到两阶段的anchor‑based神经网络模型，用得到的神经网络模型进行动态视频摘要。本发明提出的全新网络结构可以并行处理所有的视频帧，从而减少了训练的时间，有效提升了最终输出的精确度，并且本网络结构相对简单，对于计算能力的要求不高。

Description

两阶段的anchor-based动态视频摘要方法

技术领域

本发明涉及一种视频摘要方法，具体的说是涉及一种两阶段的anchor-based动态视频摘要方法。

背景技术

随着科学技术的发展，摄像设备变得普及，上传、下载视频的网络变得流畅，随之而来的是视频资源日益增多。因此，现实生活出现了这一技术需求——大幅缩短视频时长同时可以表达原来视频的主要含义。视频摘要方法的出现成功应对了这一需求，目前，视频摘要技术已经成功应用在众多领域，如监控视频分析、电影预告片的生成、运动识别等等。

目前，研究视频摘要的方法主要有两类方法：1)静态视频摘要方法，也称关键帧选择方法。该方法通过提取或选择具有代表性的帧来精简视频。2)动态视频摘要。该方法通过保留连续的小视频段来实现对视频内容的精简。

在视频摘要领域最主流的方法是使用长短期记忆网络,Long Short-TermMemory，简称LSTM，是一种特殊的循环神经网络，具有长期记忆功能。它利用“输入门限层”来决定需要丢弃或更新的值，保证各个信息实时存在且为最新的状态，同时能够一定程度上解决梯度爆炸，梯度消失问题。但该网络不能并行运行，所以其性能很大程度受到限制。后来，又提出了双向长短期记忆网络，Bi-directional Long Short-Term Memory，简称BiLSTM，是由前向LSTM与后向LSTM组合而成，成功解决LSTM不能并行运行的这一弊端，但是随之带来的问题是网络实现变得相当复杂而且对于计算要求较高。

发明内容

为了解决上述技术问题，本发明了一种两阶段的anchor-based动态视频摘要方法，该方法用过anchor机制和两阶段网络，提高视频摘要的准确性和鲁棒性。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种两阶段的anchor-based动态视频摘要方法，包括如下步骤：

(1)构建两阶段的anchor-based神经网络，所述的两阶段的anchor-based神经网络包括特征提取网络、自注意力机制网络、两阶段网络；

具体包括如下步骤：

(1.1)将视频下采样至2fps，然后逐帧输入到特征提取网络(GoogLeNet)，获取每帧图像1*1024维特征向量，用w_i表示第i帧图像的1*1024维特征向量，所有帧图像的特征向量构成N*1024维特征矩阵，用W₁表示：

W₁＝[w₁，w₂...w_i...w_N]

其中，N代表帧的数量；

(1.2)将获得的N*1024维特征矩阵W₁输入到自注意力机制网络，获得特征矩阵W₁的注意力权值矩阵，用A表示：

A＝[a₁，a₂...a_i...a_N]

其中，a_i表示所有特征向量关于第i帧特征向量的注意力向量

a_i＝[a_i1，a_i2...a_ij...a_iN]；

(1.3)将注意力权值矩阵A与特征矩阵W₁加权求和，从而获得注意力强化特征矩，用W₂表示：

W₂＝[a₁*W₁，a₂*W₁...a_i*W₁...a_N*W₁]；

(1.4)将注意力强化特征矩阵W₂输入至两阶段网络中的区域推荐网络，从而获得所有区域的得分；

包括如下步骤：

(1.4.1)通过LayerNorm归一化层，将步骤(1.3)的输出归一化；

(1.4.2)选取kernel_size＝3的1D卷积核对上一层N*1024维特征矩阵进行卷积运算，输出通道数为1024，然后经过归一化层和非线性激活函数层，输出N*1024维矩阵，实现特征提取；

(1.4.3)选取kernel_size＝3的1D卷积核对上一层的N*1024维特征矩阵进行卷积运算，输出通道数为1，输出N*1维矩阵，矩阵值为各个区域的得分；

(1.5)对步骤(1.4)的输出，采用非极大值抑制算法(NMS)去除重叠率高的区域，再从中筛选出得分前M个区域作为候选区域，其中，M表示最终输入到分类回归网络的候选区域的数量，将这M个区域所对应的位置映射到注意力强化特征矩阵W₂上，提取与之位置对应的特征向量，构成候选区域特征矩阵，用W₃表示；

包括如下步骤：

(1.5.1)使用非极大值抑制算法(NMS)去除高重叠率的区域；

(1.5.2)将其值按从大到小的顺序进行排列，从中筛选出前M个的候选区域，并将这些候选区域位置映射到特征矩阵W₂上；

(1.5.3)提取对应位置上的特征向量，重新组合为M*L*1024维的候选区域特征矩阵，将其作为分类回归网络的输入，其中，L表示区域推荐网络中所采用anchor的长度。

(1.6)将候选区域特征矩阵W₃输入到两阶段网络中的回归分类网络，从而分别获得更加精确的目标区域位置和目标区域得分。

包括如下步骤：

(1.6.1)通过全连接层，将步骤(1.5)的输出全连接至本层的128个输出神经元，输出M*L*128维的特征矩阵，然后再经过激活层、归一化层，从而实现特征的融合；

(1.6.2)通过全连接层，将步骤(1.6.1)的输出全连接至本层的4个输出神经元，输出M*4维的矩阵，用来判断候选区域的最终分类，其值代表的是每一个anchor所表示的区域的最终得分；

(1.6.3)通过全连接层，将步骤(1.6.1)的输出全连接至本层的8个输出神经元，输出M*8维的矩阵，然后对其进行重构，得到M*4*2维矩阵，用来判断候选区域的最终位置。

(2)训练时，对训练集中的数据进行分析，确定所述区域推荐网络和回归分类网络中anchor的种类和长度，完成正负样本的分类，对步骤(1)构建的anchor-based神经网络进行训练，固定训练好的参数，得到两阶段的anchor-based神经网络模型，用步骤(2)得到的神经网络模型提取动态视频摘要。

本发明的进一步改进在于：所述步骤(2)神经网络模型构建包括如下步骤：

(2.1)分析训练集中标签片段的长度，通过K-means算法得出anchor的长度，用[L₁，L₂，L₃，L₄]分别表示这四种anchor的长度，其中，L₁至L₄依次递增；

(2.2)区域推荐网络采用的是单尺度的anchor机制，所以anchor的种类为1，将步骤(2.1)结果的最大值L₄确定为此网络anchor的长度，保证此网络anchor的长度大于数据集中大多数标签片段的长度；

(2.3)对于从视频中抽取的N帧，依次以每一帧为中心，以L₄为长度，进行片段的截取，共产生N个片段，用S₁表示这N个片段：

S₁＝{s₁，s₂...s_i...s_N}

其中，s_i表示截取产生的以第i帧为中心、L₄为长度的片段，然后计算这些片段与标签片段的交集IOU的大小，若片段的IOU＞＝α，则将其标记为正样本，若片段的IOU＜α，则将其标记为负样本，保证正负样本的数量比例为3∶1；

(2.4)回归分类网络采用的是多尺度的anchor机制，anchor的种类为4，长度分别为[L₁，L₂，L₃，L₄]；

(2.5)对于从视频中抽取的N帧，依次以每一帧为中心，分别以L₁，L₂，L₃，L₄为长度，进行片段的截取，共产生4*N个片段，用S₂表示这4*N个片段：

S₂＝{s₁₁，s₁₂...s_ij...s_N4}

其中，s_ij表示截取产生的以第i帧为中心，L_j为长度的片段，0＜i＜N+1，0＜j＜5，然后计算这些片段与标签片段的交集IOU的大小，若片段的IOU＞＝β，则将其标记为正样本，若片段的IOU＜β，则将其标记为负样本，保证正负样本的数量比例为3∶1；

(2.6)利用步骤(2.1)至步骤(2.5)得到的正负样本，对步骤(1)构建的网络进行训练，固定训练好的参数，得到两阶段的anchor-based神经网络模型。

本发明的有益效果是：

(1)本发明率先提出了两阶段的动态视频摘要方法。首先第一阶段输出候选区域，筛除无关区域，从而减轻了第二阶段的运算量；第二阶段将候选区域输入到分类回归网络中去，对一阶段的结果进行更加细致的回归与分类，输出更加准确的区域位置和区域得分，有效提升了最终输出的精确度。

(2)本发明率先在两个阶段中同时使用anchor机制。第一阶段使用的是单一尺度的anchor，目的是筛选出与真实片段有较大交集的区域作为候选区域；第二阶段使用的是多尺度的anchor，多尺度的anchor对于不同尺度的区域位置有更好的预测能力；候选区域和最终目标区域的定位都是通过anchor的回归来实现，仅仅计算区域偏移量而不是直接计算区域的位置，大大降低了优化难度。

(3)本发明提出的全新网络结构可以并行处理所有的视频帧，从而减少了训练的时间，并且本网络结构相对简单，对于计算能力的要求不高。

附图说明

图1是本发明步骤(1)构建anchor-based神经网络的流程图。

图2是本发明anchor-based神经网络的结构图。

图3是本发明两阶段网络具体的神经网络结构图。

图4是本发明第一阶段区域推荐网络的单尺度anchor机制示意图。

图5是本发明第二阶段分类回归网络中的多尺度anchor机制示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明是一种两阶段的anchor-based动态视频摘要方法，该方法通过anchor机制和两阶段网络，提高视频摘要的准确性和鲁棒性，所述的两阶段的anchor-based神经网络包括特征提取网络、自注意力机制网络、两阶段网络即区域推荐网络和回归分类网络，具体包括如下步骤：

步骤1：获取tvsum和summe数据集并进行预处理。tvsum和summe是进行视频摘要研究最重要的数据集，其中，tvsum数据集包含了50个短视频，summe数据集包含了25个短视频；将数据集中的视频下采样至2fps，然后将该视频逐帧输入到特征提取网络(GoogLeNet)，获取每帧图像1*1024维特征向量，用w_i表示第i帧图像的1*1024维特征向量，该下采样视频所有帧的特征向量构成N*1024维特征矩阵，用W₁表示这N*1024维特征矩阵：

W₁＝[w₁，w₂...w_i...w_N]

其中，N代表帧的数量。

步骤2：为每一帧的特征向量添加全局特征信息。将获得的N*1024维特征矩阵W₁输入到自注意力机制网络，获得特征矩阵W₁的注意力权值矩阵，用A表示注意力权值矩阵：

A＝[a₁，a₂...a_i...a_N]

其中，a_i表示所有特征向量关于第i帧特征向量的注意力权值向量：

a_i＝[a_i1，a_i2...a_ij...a_iN]

将注意力权值矩阵A与特征矩阵W₁加权求和，从而获得注意力强化特征矩阵，用W₂表示此注意力强化特征矩阵：

W₂＝[a₁*W₁，a₂*W₁...a_i*W₁...a_N*W₁]。

步骤3：对训练集中的数据进行分析，确定区域推荐网络和回归分类网络中anchor的种类和长度，完成正负样本的分类：

1)分析训练集中标签片段的长度，将anchor的长度设置为[4，8，16，32]；

2)区域推荐网络采用的是单尺度的anchor机制，所以anchor的种类为1，将此网络的anchor的长度设置为32，保证此网络anchor的长度大于数据集中大多数标签片段的长度；

3)对于从视频中抽取的N帧，依次以每一帧为中心，以32帧为长度，进行截取，共产生N个片段，然后计算这些片段与标签片段的交集IOU的大小，若片段的IOU＞＝0.3，则将其标记为正样本，若片段的IOU＜0.3，则将其标记为负样本，保证正负样本的数量比例为3∶1；

4)回归分类网络采用的是多尺度的anchor机制，将anchor的种类设置为4，长度设置为[4，8，16，32]；

5)对于从视频中抽取的N帧，依次以每一帧为中心，分别以4帧，8帧，16帧，32帧为长度，进行截取，共产生4*N个片段，然后计算这些片段与标签片段的交集IOU的大小，若片段的IOU＞＝0.6，则将其标记为正样本，若片段的IOU＜0.6，则将其标记为负样本，保证正负样本的数量比例为3∶1；

步骤4：将新的特征矩阵W₂输入至两阶段网络中的区域推荐网络，从而获得候选区域的得分，包括如下步骤：

1)通过LayerNorm归一化层，将步骤2的输出归一化；

2)选取kernel_size＝3的1D卷积核对上一层N*1024维特征矩阵进行卷积运算，输出通道数为1024，然后经过归一化层和非线性激活函数层，输出N*1024维矩阵，实现特征提取；

3)选取kernel_size＝3的1D卷积核对上一层的N*1024维特征矩阵进行卷积运算，输出通道数为1，输出N*1维矩阵，矩阵值为各个区域的得分；

(1.5)对步骤4的输出，采用非极大值抑制算法(NMS)去除重叠率高的区域，再从中筛选出得分前M个区域作为候选区域，其中，M表示最终输入到分类回归网络的候选区域的数量，将这M个区域所对应的位置映射到注意力强化特征矩阵W₂上，提取与之位置对应的特征向量，构成候选区域特征矩阵，用W₃表示；

具体为：

(1.5.1)使用非极大值抑制算法(NMS)去除高重叠率的区域；

(1.5.2)将其值按从大到小的顺序进行排列，从中筛选出前128个的区域作为候选区域，并将这些候选区域位置映射到注意力强化特征矩阵W₂上；

(1.5.3)提取对应位置上的特征向量，重新组合为128*32*1024维的候选区域特征矩阵，用W₃表示此候选区域特征矩阵，将其作为分类回归网络的输入，其中，L表示区域推荐网络中所采用anchor的长度。

步骤6：将候选区域特征矩阵W₃输入到两阶段网络中的回归分类网络，从而分别获得更加精确的目标区域位置和目标区域得分，完成神经网络的构建。

具体包括如下步骤：

1)通过全连接层，将步骤5的输出全连接至本层的128个输出神经元，输出128*32*128维的特征矩阵，然后再经过激活层和归一化层；

2)通过全连接层，将1)的输出全连接至本层的4个输出神经元，输出128*4维矩阵，其值代表的是每一个anchor所表示的区域的最终得分，用来判断候选区域的最终分类；

3)通过全连接层，将1)的输出全连接至本层的8个输出神经元，输出128*8维的矩阵，然后对其进行重构，得到128*4*2维矩阵，用来判断候选区域的最终位置。

步骤7：通过误差反向传播算法调整网络模型的参数至最优，固定训练好的参数，得到两阶段的anchor-based神经网络模型，用得到的神经网络模型进行动态视频摘要。

本发明利用两阶段的anchor-based能够更加准确地预测区域位置和区域得分。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种两阶段的anchor-based动态视频摘要方法，其特征在于：所述方法包括如下步骤：

(1)构建anchor-based神经网络，所述神经网络包括提取网络、自注意力机制网络、两阶段网络即区域推荐网络和回归分类网络；

(2)确定所述区域推荐网络和回归分类网络中anchor的种类和长度，完成正负样本的分类，对步骤(1)构建的anchor-based神经网络进行训练，固定训练好的参数，得到两阶段的anchor-based神经网络模型；

(3)用步骤(2)得到的神经网络模型进行动态视频摘要，

其中：所述步骤(2)神经网络模型构建包括如下步骤：

(2.2)将步骤(2.1)结果的最大值L₄确定为此网络anchor的长度，保证此网络anchor的长度大于数据集中大多数标签片段的长度；

S₁＝{s₁，s₂...s_i...s_N}

S₂＝{s₁₁，s₁₂...s_ij...s_N4}

2.根据权利要求1所述两阶段的anchor-based动态视频摘要方法，其特征在于：所述步骤(1)构建anchor-based神经网络具体包括如下步骤：

(1.1)将视频下采样至2fps，然后逐帧输入到特征提取网络，获取每帧图像1*1024维特征向量，用w_i表示第i帧图像的1*1024维特征向量，所有帧图像的特征向量构成N*1024维特征矩阵，用W₁表示：

W₁＝[w₁，w₂...w_i...w_N]

其中，N代表帧的数量；

A＝[a₁，a₂...a_i...a_N]

其中，a_i表示所有特征向量关于第i帧特征向量的注意力向量

a_i＝[a_i1，a_i2...a_ij...a_iN]；

W₂＝[a₁*W₁，a₂*W₁...a_i*W₁...a_N*W₁]；

(1.5)对步骤(1.4)的输出，对所有区域进行筛选，将筛选后区域的位置映射到注意力强化特征矩阵上，提取该位置上的特征向量，构成候选区域特征矩阵，用W₃表示；

3.根据权利要求2所述两阶段的anchor-based动态视频摘要方法，其特征在于：所述步骤(1.4)包括如下步骤：

(1.4.1)通过LayerNorm归一化层，将步骤(1.3)的输出归一化；

(1.4.3)选取kernel_size＝3的1D卷积核对上一层的N*1024维特征矩阵进行卷积运算，输出通道数为1，输出N*1维矩阵，矩阵值为各个区域的得分。

4.根据权利要求2所述两阶段的anchor-based动态视频摘要方法，其特征在于：所述步骤(1.5)包括如下步骤：

(1.5.1)使用非极大值抑制算法去除高重叠率的区域；

5.根据权利要求2所述两阶段的anchor-based动态视频摘要方法，其特征在于：所述步骤(1.6)包括如下步骤：