CN115002559B

CN115002559B - 基于门控多头位置注意力机制的视频摘要算法及系统

Info

Publication number: CN115002559B
Application number: CN202210504825.1A
Authority: CN
Inventors: 滕国伟; 王坤阳; 李仲秋
Original assignee: Shanghai Orange Display Electronic Technology Co ltd; University of Shanghai for Science and Technology
Current assignee: Shanghai Orange Display Electronic Technology Co ltd; University of Shanghai for Science and Technology
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2024-01-05
Anticipated expiration: 2042-05-10
Also published as: CN115002559A

Abstract

本发明提供了一种基于门控多头位置注意力机制的视频摘要算法及系统，包括如下步骤：通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征，获得视频深度语义信息；通过序列到序列的转换网络解析视频深度语义信息；按照场景不同将视频分割成不同的镜头，获得不重叠的镜头集合；预测视频每帧的重要性评分，通过均方误差与数据集的Ground‑Truth建立损失函数，训练优化；通过帧级重要性分数和背包算法选取性价比高的一组镜头，按照时间顺序将选取的所述视频镜头组合成视频摘要。本发明提出了端到端的视频摘要网络，采用基于位置的注意力机制，高效地学习视频序列的高级语义信息获得关键的视频内容。

Description

基于门控多头位置注意力机制的视频摘要算法及系统

技术领域

本发明涉及视频处理技术领域，具体地，涉及一种基于门控多头位置注意力机制的视频摘要算法及系统。

背景技术

近年来，随着互联网和自媒体的快速发展，网络上视频数量呈指数式增长。根据视频网站YouTube统计，目前每分钟约有500小时的视频被上传到YouTube，这也意味着，每天会产生总时长约为82年的新视频。海量视频在丰富人们娱乐生活的同时也带来了新的挑战，例如，视频存储压力和浏览视频时间等。因此，如何高效地浏览、检索和存储视频是亟待解决的问题。

在此背景之下，视频摘要技术通过从原始视频中提取有意义的关键帧或片段，将较长视频压缩为结构紧凑的静态关键帧或较短的视频，提供了一个高效管理大量视频数据的方法。视频摘要技术极大的节省了视频存储空间，同时保留了原始视频中最相关和最重要的信息，提升了用户浏览视频的体验。

公开号为CN105357594B的专利文献公开了一种基于集群及H264的视频浓缩算法的海量视频摘要生成方法，包括如下步骤：选取原始视频，并对其进行切割，得到n个长度近似相等的片段，编码格式为H264，其中n为自然数；对切割后的各片段进行视频解码，根据运动估计以及背景图来获取前景目标，并通过基于稀疏光流的误报删除及漏检修复算法，对各片段的检测率进行完善，并更新背景图；将单个包含运动信息的片段视作浓缩单元，进行压缩，压缩完成后进行拼接，生成一段完整的视频摘要。但是该专利文献与本申请的技术方案不同。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于门控多头位置注意力机制的视频摘要算法及系统。

根据本发明提供的一种基于门控多头位置注意力机制的视频摘要算法，包括如下步骤：

步骤1：提取深度特征，通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征，获得视频深度语义信息；

步骤2：对视频深度语义特征解码，通过序列到序列的转换网络解析视频深度语义信息；

步骤3：对视频镜头进行分割，通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头，获得不重叠的镜头集合；

步骤4：训练帧级重要性分数，通过回归网络预测视频每帧的重要性评分，通过均方误差与数据集的Ground-Truth建立损失函数，并训练优化；

步骤5：生成视频摘要，通过帧级重要性分数和背包算法选取性价比高的一组镜头，按照时间顺序将选取的所述视频镜头组合成视频摘要。

优选的，所述步骤2中，所述序列到序列的转换网络包括多头位置自注意力网络、多头局部自注意力网络以及门控网络；

所述多头位置自注意网络学习视频帧之间的全局依赖关系，所述多头局部自注意网络学习视频帧之间的局部依赖关系，所述门控网络结合视频帧之间的全局依赖关系和局部依赖关系。

优选的，所述多头位置自注意网络包括相对位置编码模块、多头自注意力模块以及第一残差模块；

所述视频帧通过所述相对位置编码模块捕获长时间的依赖关系，最大相对位置长度为l，所述多头注意力模块采用h个头并行计算所述视频帧之间的权重系数，每个时刻的输出向量为所述视频帧特征向量的加权和，通过所述第一残差模块处理。

优选的，所述步骤2中，对所述视频帧的相对位置进行编码具体为：

将所述视频帧建模为一个有向的全连通图，输入的所述视频的第i帧的特征x_i与第j帧的特征x_j之间的边表示相对位置，其中d_a为每个位置表示的维数，将最大相对位置长度设置为l，并考虑2l+1个边标签，/>和/>定义如下：

clip(j-i,l)＝max(-l,min(l,j-i))，

表示为视频第i帧与j帧相对位置的key分量，其中K为key分量，/>表示视频第i帧和第j帧相对位置的value分量，其中V为value分量，clip(k-i,l)表示截断函数，为了限制相对位置的长度，相对位置表示为/>和/>其中/>表示d_a维的特征向量，/>表示相对距离为clip(j-i,l)函数值的key分量的特征向量，表示相对距离为clip(j-i,l)函数值的value分量的特征向量，R表示特征空间，/>表示相对距离i时key分量的特征向量，/>表示相对距离i时value分量的特征向量。

优选的，基于相对位置编码的多头注意层，使用h个注意力头，并利用线性变换合并每个注意头的输出结果，每个注意力头输入为序列x＝(x₁,...,x_n)，其中n为帧数、输出为长度相同的序列y＝(y₁,...,y_n)，其中/>每个输出元素y_i被计算为：

其中，W^V为输入特征变量的线性变换矩阵，为相对位置信息的value分量，α_ij为视频第i帧与第j帧的权重系数。

优选的，使用softmax函数计算每个权重系数α_ij：

其中，e_ij为非标准化自我注意力权重，e_ij的计算公式为：

其中，W^Q和W^K为参数矩阵，d_y为输出元素的特征尺寸，x_i为视频第i帧的特征，x_j为视频第j帧的特征，表示为视频第i帧与j帧相对位置的key分量。

优选的，所述位置编码与多头局部自注意网络包括绝对位置编码模块、多头局部自注意力模块以及第二残差模块；

所述视频帧通过所述绝对位置编码模块将顺序信息加入到特征数据中，所述多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数，每个时刻的输出向量为所述视频帧特征向量的加权和，再通过所述第二残差模块处理。

优选的，采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码：

其中，PE_(pos,2i)为视频第pos帧在偶数特征维度2i上的位置编码，PE_(pos,2i+1)为视频第pos帧在偶数特征维度2i+1上的位置编码，pos是所述视频帧的位置，i是所述视频帧特征的维度，d_mod表示位置编码的维度。

优选的，局部多头局部注意力学习所述视频帧之间的短期的依赖关系，局部相邻视频帧之间的非标准化权重e_ij为：

其中，W^Q和W^K为参数矩阵，d_s为输入特征的维度，x_i与x_j为视频的第i帧和第j帧的特征，M_local为关系矩阵控制视频帧局部范围；

使用softmax函数计算每个局部权重系数α_ij：

局部多头注意力层每个输出元素s_i被计算为线性变换后的输出元素的加权和：

门控网络通过一个系数控制信息通过的权重，所述系数为0和1之间的实数，所述信息为视频帧之间的长期和短期的依赖关系，其中0表示“只让长期依赖关系通过”，1表示“只让短期依赖关系通过”；

门控网络层的输出元素为T_i：

T_i＝σ(λ)y_i+(1-σ(λ))s_i，

其中，y_i为位置多头注意力层的输出向量，s_i为局部多头注意力层的输出向量，σ(λ)为0到1之间的实数。

本发明还提供一种基于门控多头位置注意力机制的视频摘要系统，包括如下步骤：

模块M1：提取深度特征，通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征，获得视频深度语义信息；

模块M2：对视频深度语义特征解码，通过序列到序列的转换网络解析视频深度语义信息；

模块M3：对视频镜头进行分割，通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头，获得不重叠的镜头集合；

模块M4：训练帧级重要性分数，通过回归网络预测视频每帧的重要性评分，通过均方误差与数据集的Ground-Truth建立损失函数，并训练优化；

模块M5：生成视频摘要，通过帧级重要性分数和背包算法选取性价比高的一组镜头，按照时间顺序将选取的所述视频镜头组合成视频摘要。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提出了一种新颖的端到端的视频摘要网络(GMPAVS)，采用基于位置的注意力机制，高效地学习视频序列的高级语义信息获得关键的视频内容；

2、本发明通过基于位置的全局和局部的多头注意力更加精确地捕获视频帧之间的长距离和短距离依赖关系；

3、本发明引入门控机制，调节视频帧之间的局部和全局通过的信息量，提高运算精度；

4、本发明在两个广泛使用的视频摘要数据集(SumMe和TVSum)上进行了大量实验，结果表明本发明与VASNet相比F-score在SumMe和TVSum数据集上分别提高了0.5％-0.9％和0.6％-1％。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的基于门控多头位置注意力机制的视频摘要算法的流程图；

图2为本发明的神经网络算法的结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

如图1和图2所示，根据本发明提供的一种基于门控多头位置注意力机制的视频摘要算法，包括如下步骤：

步骤1：提取深度特征，通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征，获得视频深度语义信息。

步骤2：对视频深度语义特征解码，通过序列到序列的转换网络解析视频深度语义信息；序列到序列的转换网络包括多头位置自注意力网络、多头局部自注意力网络以及门控网络；

多头位置自注意网络学习视频帧之间的全局依赖关系，多头局部自注意网络学习视频帧之间的局部依赖关系，门控网络结合视频帧之间的全局依赖关系和局部依赖关系；

多头位置自注意网络包括相对位置编码模块、多头自注意力模块以及第一残差模块，视频帧通过相对位置编码模块捕获长时间的依赖关系，最大相对位置长度为l，多头注意力模块采用h个头并行计算视频帧之间的权重系数，每个时刻的输出向量为视频帧特征向量的加权和，通过第一残差模块处理；

对视频帧的相对位置进行编码具体为：将视频帧建模为一个有向的全连通图，输入的视频的第i帧的特征x_i与第j帧的特征x_j之间的边表示相对位置，其中d_a为每个位置表示的维数，将最大相对位置长度设置为l，并考虑2l+1个边标签，/>和/>定义如下：

clip(j-i,l)＝max(-l,min(l,j-i))，

表示为视频第i帧与j帧相对位置的key分量，其中K为key分量，/>表示视频第i帧和第j帧相对位置的value分量，其中V为value分量，clip(j-i,l)表示截断函数，为了限制相对位置的长度，相对位置表示为/>和/>其中/>表示d_a维的特征向量，/>表示相对距离为clip(j-i,l)函数值的key分量的特征向量，/>表示相对距离为clip(j-i,l)函数值的value分量的特征向量，R表示特征空间，/>表示相对距离i时key分量的特征向量，/>表示相对距离i时value分量的特征向量。

基于相对位置编码的多头注意层，使用h个注意力头，并利用线性变换合并每个注意头的输出结果，每个注意力头输入为序列x＝(x₁,...,x_n)，其中n为帧数、输出为长度相同的序列y＝(y₁,...,y_n)，其中/>每个输出元素y_i被计算为：

其中，W^V为输入特征变量的线性变换矩阵，为相对位置信息的value分量，α_ij为视频第i帧与第j帧的权重系数；

使用softmax函数计算每个权重系数α_ij：

其中，e_ij为非标准化自我注意力权重，e_ij的计算公式为：

其中，W^Q和W^K为参数矩阵，d_y为输出元素的特征尺寸，x_i为视频第i帧的特征，x_j为视频第j帧的特征，表示为视频第i帧与j帧相对位置的key分量；

位置编码与多头局部自注意网络包括绝对位置编码模块、多头局部自注意力模块以及第二残差模块，视频帧通过绝对位置编码模块将顺序信息加入到特征数据中，多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数，每个时刻的输出向量为视频帧特征向量的加权和，再通过第二残差模块处理；

采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码：

其中，PE_(pos,2i)为视频第pos帧在偶数特征维度2i上的位置编码，PE_(pos,2i+1)为视频第pos帧在偶数特征维度2i+1上的位置编码，pos是视频帧的位置，i是视频帧特征的维度，d_mod表示位置编码的维度；

局部多头局部注意力学习视频帧之间的短期的依赖关系，局部相邻视频帧之间的非标准化权重e_ij为：

使用softmax函数计算每个局部权重系数α_ij：

门控网络通过一个系数控制信息通过的权重，系数为0和1之间的实数，信息为视频帧之间的长期和短期的依赖关系，其中0表示“只让长期依赖关系通过”，1表示“只让短期依赖关系通过”；

门控网络层的输出元素为T_i：

T_i＝σ(λ)y_i+(1-σ(λ))s_i，

步骤3：对视频镜头进行分割，通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头，获得不重叠的镜头集合。

步骤4：训练帧级重要性分数，通过回归网络预测视频每帧的重要性评分，通过均方误差与数据集的Ground-Truth建立损失函数，并训练优化。

步骤5：生成视频摘要，通过帧级重要性分数和背包算法选取性价比高的一组镜头，按照时间顺序将选取的视频镜头组合成视频摘要。

实施例2：

本实施例提供一种基于门控多头位置注意力机制的视频摘要系统，包括如下步骤：

模块M5：生成视频摘要，通过帧级重要性分数和背包算法选取性价比高的一组镜头，按照时间顺序将选取的视频镜头组合成视频摘要。

实施例3：

本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。

本实施例提供一种基于门控多头注意力机制的视频摘要算法，具体操作步骤如下：

步骤S1，提取深度特征，使用Image数据集上训练好的GoogleNet卷积神经网络(CNN)提取视频每帧的深度特征，获得视频深度语义信息；

步骤S2，深度特征序列的转换，通过序列到序列的转换网络(Sequence toSequence Network)解析视频深度语义信息；

步骤S3，视频镜头分割，使用核函数时间分割(KTS)中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头，获得不重叠的镜头集合(shot sets)；

步骤S4，训练帧级重要性分数，通过回归网络预测视频每帧的重要性评分，通过(均方误差)MSE与数据集的Ground-Truth建立损失函数，并训练优化；

步骤S5，生成视频摘要，通过帧级重要性分数和背包算法选取性价比高的一组镜头，按照时间顺序将镜头组合成视频摘要。

序列到序列的转换网络(Sequence to Sequence Network)由三部分组成：多头位置自注意力网络(Multi-Head Position Self-Attention)、多头局部自注意力网络(Position Encoding and Multi-Head Local Self-Attention)、门控网络。

具体步骤如下：多头位置自注意网络主要由相对位置编码、多头自注意力、残差等模块组成。视频帧通过相对位置编码模块捕获长时间的依赖关系，最大相对位置长度为l，多头注意力模块采用h个头并行计算视频帧之间的权重系数，每个时刻的输出向量为视频帧特征向量的加权和，再通过残差模块处理防止梯度消失，本实例中的视频帧的数据(1*1024)，Multi-Head Position Self-Attention模型输出(1*N*1024)的特征数据，其中N为视频的总帧数。

对于相对位置编码，将视频帧建模为一个有向的全连通图，输入的帧x_i与x_j之间的边表示相对位置，其中d_a为每个位置表示的维数。我们将最大相对位置长度设置为l,并考虑2l+1个边标签。/>和/>定义如下：

clip(j-i,l)＝max(-l,min(l,j-i)) (3)

学习的相对位置表示是和/>其中/>

基于相对位置编码的多头注意层，使用h个注意力头，并利用线性变换合并每个注意头的输出结果。每个注意力头输入为序列x＝(x₁,...,x_n)，其中n为帧数、输出为长度相同的序列y＝(y₁,...,y_n)，其中/>每个输出元素y_i被计算为：

其中，W^V为输入特征变量的线性变换矩阵，为相对位置信息。

使用softmax函数计算每个权重系数α_ij：

其中，e_ij为非标准化自我注意力权重。e_ij的计算公式为：

其中，W^Q和W^K为参数矩阵，d_y为输出元素的特征尺寸。

位置编码与多头局部自注意网络主要由绝对位置编码、多头局部自注意力、残差等模块组成。视频帧通过绝对位置编码模块将顺序信息加入到特征数据(1*1024)，多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数，每个时刻的输出向量为视频帧特征向量的加权和，再通过残差模块处理防止梯度消失。

其中，pos是视频帧的位置，i是视频帧特征的维度。

局部多头注意力学习视频帧之间的短期的依赖关系，局部相邻视频帧之间的非标准化权重e_ij为：

其中，d_s为输入特征的维度，M_local为关系矩阵控制视频帧局部范围。

使用softmax函数计算每个局部权重系数α_ij：

门控网络主要通过一个系数(在0和1之间的实数)控制信息(视频帧之间的长期和短期的依赖关系)通过的权重，其中0表示“只让长期依赖关系通过”，1表示“只让短期依赖关系通过”。

门控网络层的输出元素为T_i：

T_i＝σ(λ)y_i+(1-σ(λ))s_i (12)

其中，σ(λ)为0到1之间的实数。

实施例4：

本实施例提供一种基于门控多头位置注意力机制的视频摘要算法，具体操作步骤如下：

步骤S1，提取深度特征，使用Image数据集上训练好的GoogleNet卷积神经网络(CNN)提取每帧的深度特征，获得视频深度语义信息；

步骤S4，训练帧级重要性分数，输出的特征序列通过回归网络预测视频的重要性评分，使用(均方误差)MSE与数据集的Ground-Truth建立损失函数，并训练优化；

KTS镜头分割，具体步骤如下：

核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头。首先将视频分为一组描述符z_p∈Z,(p＝0,...,n-1)序列，让K:为描述符间的核函数；让/>为核函数K(.,.)的特征空间；记/>为相关映射图，/>为特征空间/>的正则化，最小化下面的目标：

其中s为变化点的个数，m(s,n)为误差项，F_s,n为段内核方差之和：

其中μ_p为段内均值；

在式(1)中目标分为两项，F_s,n为段内总体方差，m(s,n)为多段的误差项；使用带注释视频的验证集交叉验证B参数，因此得到了基于核函数的时态分割算法，该算法根据数据自动设置时态分割的分段数，t_s-1表示第s-1段的时间间隔，n表示描述符总个数，表示描述符z_t在特征空间/>中的映射。

首先，计算序列中每对描述符的相似度，然后计算每个可能的起点t和段持续时间d的段方差；然后采用动态规划算法对目标进行最小化式(2)，迭代计算前i个描述符和j个变化点的最优目标值；最后，利用回溯法重建最优分割，由于动态规划算法已经为所有可能的段计数计算，因此惩罚引入了最小的计算量。

本实施例针对快速获取视频关键信息的能力，提出了一种基于门控多头位置注意力机制的视频摘要算法，该算法为了学习视频序列之间的高级语义信息，采用了序列到序列的策略，将视频摘要任务分成视频帧深度特征提取、深度特征序列的转换、视频镜头分割、训练帧级重要性分数、生成视频摘要五个部分。序列到序列的建模具有较高的性能和效率，利用全局和局部的多头位置注意力机制能较好的学习视频帧之间的全局和局部信息。

实施例5：

本实施例提供一种基于多头位置注意力机制的视频摘要算法，算法流程如图1所示，首先对视频帧进行处理，通过GoogelNet深度卷积神经网络提取每一帧的特征；然后两个分支分别处理深度特征，第一个分支通过多头位置注意力机制实现视频特征序列到帧间相互依赖关系序列的转化，第二分支通过核函数时间分割算法(KTS)将视频分割为不同场景的镜头；最后通过损失函数优化网络参数，以预测的帧级重要性分数选择关键镜头。

如图2所示，本实施例的一种基于多头位置注意力机制的视频摘要算法，具体操作步骤如下：

步骤S1，深度卷积网络(GoogleNet)提取待处理视频帧v_t(v₁,v₂,...,v_n)的语义信息，获得原视频的深度特征(1024维度的特征向量)表示x_t(x₁,x₂,...,x_n)；

步骤S2，头位置注意力机制将原始视频的深度特征序列x_t(x₁,x₂,...,x_n)转换为具有长距离依赖关系的序列y_t(y₁,y₂,...,y_n)，同时利用局部多头位置注意力机制将原视频的深度特征序列x_t(x₁,x₂,...,x_n)转换为具有短距离依赖关系的序列s_t(s₁,s₂,...,s_n)，最后使用门控网络输出具有全局和局部依赖关系的序列T_t(T₁,T₂,...,T_n)；

步骤S3，使用核函数时间分割(KTS)方法按照场景不同将视频分割成不同的镜头S_i(S₁,S₂,...S_m)；

步骤S4，将序列T_t(T₁,T₂,...,T_n)通过回归网络计算每帧的帧级重要性分数p_t(p₁,p₂,...,p_n)，再通过训练损失函数，学习优化网络参数；

步骤S5，通过帧级重要性分数计算每个镜头的重要性分数，采用背包算法将高性价比的镜头以时间顺序组合成视频摘要。

本实施例中多头位置自注意网络主要由相对位置编码、多头自注意力、残差等模块组成。视频帧通过相对位置编码模块捕获长时间的依赖关系，最大相对位置长度为l，多头注意力模块采用h个头并行计算视频帧之间的权重系数，每个时刻的输出向量为视频帧特征向量的加权和，再通过残差模块处理防止梯度消失，本实例中的视频帧的数据(1*1024)，Multi-Head Position Self-Attention模型输出(1*N*1024)的特征数据，其中N为视频的总帧数。

clip(j-i,l)＝max(-l,min(l,j-i)) (15)

学习的相对位置表示是和/>其中/>

使用softmax函数计算每个权重系数α_ij：

其中，e_ij为非标准化自我注意力权重。e_ij的计算公式为：

其中，W^Q和W^K为参数矩阵，d_y为输出元素的特征尺寸。

其中，pos是视频帧的位置，i是视频帧特征的维度。

使用softmax函数计算每个局部权重系数α_ij：

门控网络层的输出元素为T_i：

T_i＝σ(λ)y_i+(1-σ(λ))s_i (24)

其中，σ(λ)为0到1之间的实数。

本发明提出了一种新颖的端到端的视频摘要网络，采用基于位置的注意力机制，高效地学习视频序列的高级语义信息获得关键的视频内容。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于门控多头位置注意力机制的视频摘要算法，其特征在于，包括如下步骤：

步骤5：生成视频摘要，通过帧级重要性分数和背包算法选取性价比高的一组镜头，按照时间顺序将选取的所述视频镜头组合成视频摘要；

所述步骤3中的对视屏镜头进行分割的步骤如下：

将视频分为一组描述符z_p∈Z,(p＝0,...,n-1)序列，让K:为描述符间的核函数；让/>为核函数K(.,.)的特征空间；记/> 为相关映射图，/>为特征空间/>的正则化，最小化下面的目标：

其中s为变化点的个数；

m(s,n)为误差项；

F_s,n为段内核方差之和：

其中μ_p为段内均值；

使用带注释视频的验证集交叉验证B参数，得到基于核函数的时态分割算法，所述基于核函数的时态分割算法算法根据数据自动设置时态分割的分段数，t_s-1表示第s-1段的时间间隔，n表示描述符总个数，表示描述符z_t在特征空间/>中的映射；

计算序列中每对描述符的相似度，然后计算每个可能的起点t和段持续时间d的段方差；然后采用动态规划算法对目标进行最小化式(2)，迭代计算前i个描述符和j个变化点的最优目标值；最后，利用回溯法重建最优分割，由于动态规划算法已经为所有可能的段计数计算，因此惩罚引入了最小的计算量；

所述步骤2中，所述序列到序列的转换网络包括多头位置自注意力网络、多头局部自注意力网络以及门控网络；

2.根据权利要求1所述的基于门控多头位置注意力机制的视频摘要算法，其特征在于，所述多头位置自注意网络包括相对位置编码模块、多头自注意力模块以及第一残差模块；

3.根据权利要求2所述的基于门控多头位置注意力机制的视频摘要算法，其特征在于，所述步骤2中，对所述视频帧的相对位置进行编码具体为：

clip(j-i,l)＝max(-l,min(l,j-i))，

表示为视频第i帧与j帧相对位置的key分量，其中K为key分量，/>表示视频第i帧和第j帧相对位置的value分量，其中V为value分量，clip(j-i,l)表示截断函数，为了限制相对位置的长度，相对位置表示为/>和/>其中/> 表示d_a维的特征向量，/>表示相对距离为clip(j-i,l)函数值的key分量的特征向量，表示相对距离为clip(j-i,l)函数值的value分量的特征向量，R表示特征空间，/>表示相对距离i时key分量的特征向量，/>表示相对距离i时value分量的特征向量。

4.根据权利要求3所述的基于门控多头位置注意力机制的视频摘要算法，其特征在于，基于相对位置编码的多头注意层，使用h个注意力头，并利用线性变换合并每个注意头的输出结果，每个注意力头输入为序列x＝(x₁,...,x_n)，其中n为帧数、输出为长度相同的序列y＝(y₁,...,y_n)，其中/>每个输出元素y_i被计算为：

5.根据权利要求4所述的基于门控多头位置注意力机制的视频摘要算法，其特征在于，使用softmax函数计算每个权重系数α_ij：

其中，e_ij为非标准化自我注意力权重，e_ij的计算公式为：

6.根据权利要求1所述的基于门控多头位置注意力机制的视频摘要算法，其特征在于，所述位置编码与多头局部自注意网络包括绝对位置编码模块、多头局部自注意力模块以及第二残差模块；

7.根据权利要求6所述的基于门控多头位置注意力机制的视频摘要算法，其特征在于，采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码：

8.根据权利要求7所述的基于门控多头位置注意力机制的视频摘要算法，其特征在于，局部多头局部注意力学习所述视频帧之间的短期的依赖关系，局部相邻视频帧之间的非标准化权重e_ij为：

使用softmax函数计算每个局部权重系数α_ij：

门控网络层的输出元素为T_i：

T_i＝σ(λ)y_i+(1-σ(λ))s_i，

9.一种基于门控多头位置注意力机制的视频摘要系统，其特征在于，用于实现权利要求1-8所述的基于门控多头位置注意力机制的视频摘要算法，包括如下模块：