CN110287374B

CN110287374B - 一种基于分布一致性的自注意力视频摘要方法

Info

Publication number: CN110287374B
Application number: CN201910514548.0A
Authority: CN
Inventors: 冀中; 赵玉晓; 李晟嘉; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2023-01-03
Anticipated expiration: 2039-06-14
Also published as: CN110287374A

Abstract

一种基于分布一致性的自注意力视频摘要方法：将视频以帧的形式输入到卷积神经网络中提取视频帧的特征向量；将视频帧的特征向量输入到双向长短期记忆网络中进行编码训练，得到初始的编码特征序列；将初始的编码特征序列中的编码向量输入到自注意力机制中，得到编码特征序列；将编码特征序列中加权后的编码特征向量依次输入到长短期记忆网络中进行训练解码，生成对应的重要性分数向量；将重要性分数向量输入到用于衡量编解码器网络模型的MK损失函数中，在标签向量的约束和监督下，不断地反馈并调整个网络的参数，得到最终的帧级重要性分数，选取相应视频的关键镜头和关键帧集合并输出视频摘要的结果。本发明得到的重要性分数与标签具有分布一致性。

Description

一种基于分布一致性的自注意力视频摘要方法

技术领域

本发明涉及一种自注意力视频摘要方法。特别是涉及一种基于分布一致性的自注意力视频摘要方法。

背景技术

随着深度学习和硬件设备的不断发展，人工智能技术的应用在越来越多的领域取得了很好的结果，例如计算机视觉。特别的，深度学习在视频摘要的领域中运用的越来越广泛。在基于深度学习的视频摘要领域中，将该任务看作是处理序列对序列的问题。而在深度学习的模型中，卷积神经网络常用于视频帧特征的提取，以及循环神经网络可以有效的处理关于序列的问题，并解决相关任务中存在的问题。而在卷积神经网络中，GoogLeNet，Vgg-16和ResNet-50等较为常用。而在循环神经网络中，长短时记忆网络(LSTM)和双向长短时记忆网络(Bi-LSTM)等相关变体最为主流。

发明内容

本发明所要解决的技术问题是，提供一种能够实现生成的重要性分数向量与标签向量的分布一致的基于分布一致性的自注意力视频摘要方法。

本发明所采用的技术方案是：一种基于分布一致性的自注意力视频摘要方法，包括如下步骤：

1)将视频以帧的形式输入到卷积神经网络中提取视频帧的特征向量；

2)将提取的视频帧的特征向量以n个为一组，即X＝{x₁,x₂,x₃…x_n}，输入到双向长短期记忆网络之中进行编码训练，得到初始的编码特征序列H＝{h₁,h₂,h₃…h_n}；

3)将初始的编码特征序列H中的n个编码向量h₁,h₂,h₃…h_n输入到自注意力机制中，得到由n个加权后的编码特征向量构成的自注意力机制加权后的编码特征序列P：

其中，Softmax(·)为Softmax函数；σ(·)为Sigmoid激活函数；conv(·)为一维卷积函数；

为矩阵元素对应相乘；P为自注意力机制加权后的编码特征序列。

4)将自注意力机制加权后的编码特征序列P中n个加权后的编码特征向量依次输入到长短期记忆网络中进行训练解码，其中，每n个加权后的编码特征向量生成一个相对应的重要性分数向量y'；

5)将生成的重要性分数向量y'输入到用于衡量编解码器网络模型的MK损失函数中，在标签向量y的约束和监督下，不断地反馈并调整个网络的参数，并得到最终的帧级重要性分数，根据最终的帧级重要性分数，选取相应视频的关键镜头和关键帧集合并输出视频摘要的结果。

步骤1)是将输入的视频每15帧进行初步的采样，再将采样的视频帧输入到卷积神经网络中得到视频帧的特征向量。

步骤3)所述的自注意力机制，是将n个编码向量h₁,h₂,h₃…h_n依次经过一维卷积计算、Sigmoid激活函数计算和Softmax函数计算分别获取权重，并先后通过元素对应相乘和相加的计算过程进行权重的分配，从而得到n个加权后的编码特征向量，构成自注意力机制加权后的编码特征序列P。

步骤5)包括：

(1)将生成的重要性分数向量y'和标签向量y输入到如下Softmax函数中分别进行归一化处理，

sy'＝softmax(y') (2)

sy＝softmax(y) (3)

其中，Softmax(·)为Softmax函数；

从而，得到重要性分数向量y'和标签向量y中每一个元素的重要程度，即重要性分数向量y'和标签向量y的分布概率；

(2)利用重要性分数向量y'和标签向量y的分布概率，通过如下MK损失函数对重要性分数向量y'和标签向量y进行分布的度量：

其中，m是元素个数；log(·)为log函数；sy'和sy分别为经Softmax函数处理的重要性分数向量y'和标签向量y的分布概率；L_mk为MK损失函数；λ为调节距离度量

和分布度量

的比重的参数；

(3)通过MK损失函数衡量重要性分数向量y'和标签向量y之间的误差，从而指导训练，最终得到帧级重要性分数，使用基于核的时域分割算法将输入视频分割成互不相交的镜头，结合得到的镜头和帧级重要性分数，将视频摘要的生成看作0-1背包问题，采用动态规划求解，生成最终的自注意力视频摘要。

本发明的一种基于分布一致性的自注意力视频摘要方法，通过提出的自注意力机制对特征信息进行充分利用，并使用提出的MK损失函数使深度模型训练得到的重要性分数与标签具有分布一致性。本发明具有如下效果：

1、新颖性：首次提出了适用于帧间的自注意力机制，解决了对于视频帧短时信息利用不充分的问题。并首次提出了MK损失函数规范视频摘要训练过程，从而实现了生成的重要性分数向量与标签向量的分布一致。

2、有效性：本发明提出的自注意力机制可以使视频帧在没有外部信息干扰的情况下，仅利用当前短时的自身信息而实现自身的权重分配，从而放大特征之间信息的差异，使每一个帧的特征都具备判别性，充分利用每一个帧的信息。与此同时，MK损失函数可以使生成的重要性分数向量和标签向量分布更加一致，使训练结果更加唯一，有较高的鲁棒性，避免进入到局部最优解。

3、实用性：本发明可以使视频摘要任务在深度学习训练的过程中得到更加具有代表性，多样性，更加简洁凝练且可靠的视频关键帧。从而进一步有效的改善了视频摘要技术，使视频存储数据量太大，视频查找费时费力带来的诸多问题可以得到解决。

附图说明

图1是本发明一种基于分布一致性的自注意力视频摘要方法的流程；

图2是本发明中自注意力结构示意图。

具体实施方式

下面结合实施例和附图对本发明的一种基于分布一致性的自注意力视频摘要方法做出详细说明。

本发明的一种基于分布一致性的自注意力视频摘要方法，涉及计算机视觉，机器学习，人工智能领域，特别是涉及深度学习中视频摘要的领域。具体的，在视频摘要的领域中，视频摘要技术是对视频进行多样性和代表性的提取关键帧，从而达到压缩视频，提高存储效率以及方便查询的目的。为了可以充分利用每一个视频帧的信息从而使视频帧的特征更具有判别性，本发明构建了一种自注意力的机制。在该机制中，本发明仅使用当前短时的视频帧信息去引导并关注视频帧原本的特征，从而达到优化特征的目的。

本发明的一种基于分布一致性的自注意力视频摘要方法，包括如下步骤：

1)将视频以帧的形式输入到卷积神经网络(例如GoogLeNet、Vgg-16和ResNet-50等)中提取视频帧的特征向量；是将输入的视频每15帧进行初步的采样，再将采样的视频帧输入到卷积神经网络中得到视频帧的特征向量。

2)将提取的视频帧的特征向量以n个为一组，即X＝{x₁,x₂,x₃…x_n}，输入到双向长短期记忆网络(Bi-LSTM)之中进行编码训练，得到初始的编码特征序列H＝{h₁,h₂,h₃…h_n}；

所述的自注意力机制，如公式(1)，是将n个编码向量h₁,h₂,h₃…h_n依次经过一维卷积计算、Sigmoid激活函数计算和Softmax函数计算分别获取权重，并先后通过元素对应相乘和相加的计算过程进行权重的分配，从而得到n个加权后的编码特征向量，构成自注意力机制加权后的编码特征序列P。

4)将自注意力机制加权后的编码特征序列P中n个加权后的编码特征向量依次输入到长短期记忆网络(LSTM)中进行训练解码，其中，每n个加权后的编码特征向量生成一个相对应的重要性分数向量y'；

5)由于重要性分数高的视频帧被选为关键帧，并且关键帧可以有效的对视频进行摘要，所以可以认为关键帧比其他帧包含更多的信息量。因此，基于相对熵的思想，将生成的重要性分数向量y'输入到用于衡量编解码器网络的MK损失函数中，如公式(2)—(4)，在标签向量y的约束和监督下，不断地反馈并调整个网络的参数，并得到最终的帧级重要性分数，根据最终的帧级重要性分数，选取相应视频的关键镜头和关键帧集合并输出视频摘要的结果。具体包括：

sy'＝softmax(y') (2)

sy＝softmax(y) (3)

其中，Softmax(·)为Softmax函数；

其中，m是元素个数；log(·)为log函数；sy'和sy分别为Softmax函数提取的重要性分数向量y'和标签向量y的分布概率；L_mk为MK损失函数；λ为调节距离度量

和分布度量

的比重参数，其中的分布度量的公式

即为KL散度(Kullback-Leibler Divergence)；

(3)通过MK损失函数衡量重要性分数向量y'和标签向量y之间的误差，从而指导训练，最终得到帧级重要性分数。使用基于核的时域分割(Kernel Temporal Segmentation)算法将输入视频分割成互不相交的镜头。结合得到的镜头和帧级重要性分数，将视频摘要的生成看作0-1背包问题，采用动态规划求解，生成最终的自注意力视频摘要。

本发明的一种基于分布一致性的自注意力视频摘要方法中提出的MK损失函数根据标签向量y对生成的重要性分数向量y'进行约束和监督，结合距离度量和分布度量而达到二者分布一致性的目的。最终通过不断地反馈与训练得到视频摘要的最终重要性分数向量，并根据该向量选取视频中的关键帧从而形成视频摘要。

Claims

1.一种基于分布一致性的自注意力视频摘要方法，其特征在于，包括如下步骤：

2)将提取的视频帧的特征向量以n个为一组，即X＝{x₁,x₂,x₃L x_n}，输入到双向长短期记忆网络之中进行编码训练，得到初始的编码特征序列H＝{h₁,h₂,h₃L h_n}；

3)将初始的编码特征序列H中的n个编码向量h₁,h₂,h₃L h_n输入到自注意力机制中，得到由n个加权后的编码特征向量构成的自注意力机制加权后的编码特征序列P：

为矩阵元素对应相乘；P为自注意力机制加权后的编码特征序列；

5)将生成的重要性分数向量y'输入到用于衡量编解码器网络模型的MK损失函数中，在标签向量y的约束和监督下，不断地反馈并调整个网络的参数，并得到最终的帧级重要性分数，根据最终的帧级重要性分数，选取相应视频的关键镜头和关键帧集合并输出视频摘要的结果；包括：

sy'＝softmax(y') (2)

sy＝softmax(y) (3)

其中，Softmax(·)为Softmax函数；

和分布度量

的比重的参数；

2.根据权利要求1所述的一种基于分布一致性的自注意力视频摘要方法，其特征在于，步骤1)是将输入的视频每15帧进行初步的采样，再将采样的视频帧输入到卷积神经网络中得到视频帧的特征向量。

3.根据权利要求1所述的一种基于分布一致性的自注意力视频摘要方法，其特征在于，步骤3)所述的自注意力机制，是将n个编码向量h₁,h₂,h₃L h_n依次经过一维卷积计算、Sigmoid激活函数计算和Softmax函数计算分别获取权重，并先后通过元素对应相乘和相加的计算过程进行权重的分配，从而得到n个加权后的编码特征向量，构成自注意力机制加权后的编码特征序列P。