CN112418012B

CN112418012B - 一种基于时空注意力模型的视频摘要生成方法

Info

Publication number: CN112418012B
Application number: CN202011238229.0A
Authority: CN
Inventors: 胡瑞敏; 胡敏; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-06-07
Anticipated expiration: 2040-11-09
Also published as: CN112418012A

Abstract

本发明公开了一种基于时空注意力模型的视频摘要生成方法，该方法基于“随手拍”视频的两个特点：“空间显著物体的吸引力”和“时间语义信息相关”，提出将时间语义信息和空间视觉信息融合，并以联合概率的形式以确定是关键帧的概率。首先将视频文件分解成帧序列，按照帧的时间顺序依次使用深度神经网络分别提取显著域特征和语义特征；显著域特征用于确定图像画面中，能够引起观众注意的区域；语义特征用于匹配当前视频帧与前后连续多张视频帧信息的关联程度，确定时序上的关键信息；通过对空间和时间上视频帧重要性的评估，确定时空上均有重要信息的关键帧；将重要性得分高的关键帧组成视频摘要。

Description

一种基于时空注意力模型的视频摘要生成方法

技术领域

本发明属于视频摘要技术领域，尤其涉及一种针对用户的“随手拍”视频，基于时空注意力模型的视频摘要生成方法。

背景技术

视频摘要的目的是通过一个简短的视频来表示一个原始的视频内容，该技术能够方便视频的预览、存储、检索和管理。自从YouTube、Instagram等自媒体平台快速发展以来，普通用户创建并上传了大量的视频数据。然而，传统的基于人工浏览视频，挑选出关键片段的模式需要耗费大量的人力和时间、效率低下，无法高效及时的处理海量视频。自动视频摘要技术能够自动分析原始视频中的内容，并提炼出关键的片段组成时长更短的视频。便于自媒体平台快速的检索，浏览，存储，传播视频信息，对信息的流通具有重要的意义。

现有的视频摘要方法主要解决特定类别的视频，如运动视频，监控视频，关注的是在背景不变，或者有额外辅助信息的条件下度量视频帧的关键程度。然而，“随手拍”视频，场景在短时间内频繁变化，大大增加了语义信息复杂度，同时干扰信息也更多。因此，传统的方法并不能很好的解决“随手拍”视频的摘要问题。

发明内容

针对现有技术存在的不足，本发明提供了一种基于时空注意力模型的视频摘要生成方法。该方法基于“随手拍”视频的两个特点：“空间显著物体的吸引力”和“语义信息的时序相关性”。提出将时间语义信息和空间视觉信息融合，并以联合概率的形式以确定是关键帧的概率。具体包括：将视频文件分解成帧序列，按照帧的时间顺序依次使用深度神经网络分别提取视频帧的显著域特征和语义特征；显著域特征用于确定图像画面中，能够引起观众注意的区域；语义特征用于匹配当前视频帧与前后连续多张视频帧之间信息的关联程度，确定时序上的关键信息；通过对空间和时间上视频帧重要性的评估，确定时空上均有重要信息的关键帧。将多个重要性得分较高的关键帧组成视频摘要。

本发明系统框架图见图1。在两大视频摘要数据集上的测试结果证明概率模型的有效性，同时利用时空约束，能大大提升视频摘要生成效果，见附图2。其具体实现包括以下步骤：

步骤一：

1.几个定义

①视频摘要：在给定的一段长视频序列

中，提取出重要的视频帧序列组成一段短视频。其中

w,h,c是视频帧的长，宽，图像通道数；t为视频帧的索引，T为视频帧的总数。

y_t∈[0,1]表示第t帧是否被选为关键帧，“1”表示为是，“0”表示否，生成的摘要表示为X_sub＝{x_t|t∈E},E＝{t∈[1,T]|y_t＝1}。

②视频帧视觉显著性特征的获取方法：视觉信息z_t，z_t∈R^w*h采用双流深度网络提取，如图4所示。

静态显著网络和动态显著网络的网络结构相似，详细网络结构如图5所示。该网络采用多层卷积网络处理输入图像，得到多维度的特征表达，随后，叠加一个反向卷积网络上采样卷积网络输出的特征图。最后，通过一个核为1*1的卷积和sigmoid激活函数，输出与原始图像大小一致的特征图，来预测显著图谱。

静态显著网络提取静态显著性特征的过程如图6所示。静态显著网络的输入是单帧图像数据x_t，每一层的卷积网络的输入输出为一组数组，称为特征图，大小为w,h,c，分别表示图层的长，宽和通道数。每层卷积的计算为f_s(x；W,b)＝W*_sx+b，*_s表示步长为s的卷积操作；W,b表示卷积核的权重和偏置。卷积网络输出的是粗粒度，低分辨率的特征图，因此在卷积网络后叠加多层反卷积网络，上采样处理特征图，输出像素级的显著性预测结果I＝D_S(F_S(x；Θ_F)；Θ_D)。x表示输入图像；F_S(·)表示卷积层输出的特征图；D_S(·)表示反卷积层上采样的输出结果；Θ_F,Θ_D分别表示卷积层与反卷积层的参数；I为整个静态显著网络的输出。

动态显著网络提取运动显著性视觉特征的过程如图7所示。动态显著网络的输入为相邻两帧图像x_t,x_t+1和静态显著图I_t。因此，动态显著网络的输入是h×w×7的张量，相应的动态显著网络的第一层的卷积层改为

其他计算与静态显著网络相同。动态显著网络能够确保动态网络捕捉动态显著性的同时也考虑了静态显著性，最后输出一组数组，表示视觉显著性特征z_t。

③视频帧语义特征的获取方法：语义特征v_t，v_t∈R¹⁰²⁴采用了一个深度为22层的深度卷积神经网络GoogleNet。GoogleNet的核心组件为Inception Architecture，如图8，它能够在保证深层数的情况下，不发生梯度消失的问题。我们使用千万级的ImageNet图像数据库预训练GoogleNet，使得GoogleNet学习分类1000项语义数据。其次，使用训练好的GoogleNet检测视频图像中的语义特征，并输出GoogleNet的倒数第二层的数据即为语义向量，该向量维度为1024维。

③关键帧的确定：本发明使用概率理论来表示视频帧的空间重要性和时间重要性。当时间重要性和空间重要性都具有较高分数值时，视频帧被选择为关键帧的概率更高。

步骤二：

基于时空注意力模型的重要性分数预测模型

1.给定视频帧图像的视觉显著特征表达和语义特征表达分别为

2.空间注意力模型：如果图像的显著域面积大于预设的阈值

则该图像的显著域为有效显著域，是能够吸引观众的注意力，则该图像的空间注意力分数记作l_t，此处引入显著域直方图中的离散函数bins(·)计算概率。

步骤二-2中空间注意力分数计算为

当

时该视频帧中含有效显著域，并且有效显著域面积越大，当前帧的空间重要程度越高。

3.时间注意力模型：基于经典的注意力模型，则当前帧与其前后帧的语义关联为条件概率事件，其时间注意力分数可描述为m_t＝p(p_t|p₁,p₂,...,p_t-1,V)。

步骤二-3中时间注意力分数计算为m_t＝p{p_t|p₁,p₂,...,p_t-1,V}＝G(p_t-1,s_t,c_t)，其中，时间注意力分数m_t计算可看作记作条件概率事件p(p_t|p₁,p₂,...,p_t-1,V)，即已知t时刻前每帧的时间重要性值p₁,...,p_t-1和语义向量集合V，求当前t时刻的时间注意力概率p_t，

表示视频帧语义特征的集合，G(·)表示经典的注意模型解码器的计算，s_t是解码器(长短时记忆网络)隐含层向量，c_t为注意模型的编码器的输出向量。

4.联合概率模型：基于时间和空间的重要性预测能够显著的提升关键帧检测的精度，联合概率模型用P(l_t,m_t)表示。

步骤二-4中的联合概率模型为β_t＝P(l_t,m_t)＝W_l·l_t+W_m·m_t，其中，β_t为空间注意力分数l_t和时间注意力分数m_t的联合概率值，W_l和W_m分别表示权重，P(l_t,m_t)为联合概率模型，同时考虑了时间重要性和空间重要性。

步骤三：

关键帧序列的选择，将时间注意力分数m_t视为时序上每帧重要的概率；空间注意力分数l_t视为空间上每帧重要的概率。“每帧是否被选为关键帧”这一事件服从伯努力分布Bernounil(·)，即y_t～Bernounil(β_t)，y_t为0或1，0表示非关键帧，1表示关键帧。

本发明方法发现两个现象：“空间显著物体的吸引力”和“时间语义信息相关”。“空间显著物体的吸引力”指视频图像中出现的面积大且发生持续运动的物体会引起观众的更多关注。“时间语义相关”指视频帧与上下文语境具有相关性，对情节连贯性起作用，也具有关键性的特征。

本发明解决的是用户“随手拍”视频下的视频摘要问题，充分利用视频帧的空域重要性与时域重要性。另外，本发明提出一种全新的基于时空注意力模型的视频摘要框架，在该模型下，视频帧的重要性分数以概率的方式计算，且同时利用图像的视觉特征信息、语义信息以及时空重要性分数的关联来选择关键帧。

与现有视频摘要技术与系统相比，本发明具有以下优点和有益效果：

1)与现有技术相比，本发明解决了一个新问题，即用户“随手拍”视频下的视频摘要问题。

2)与现有技术相比，本发明提出了一个全新的基于时空注意力模型的视频摘要框架。

3)与现有技术相比，本发明利用视频帧的视觉信息和语义信息，计算视频帧的时间重要性和空间重要性，及其相关性来展开随手拍视频下的视频摘要工作。

附图说明

图1：为本发明方法的整体框架图；

图2：为本发明中时空约束的有效性证明示意图；

图3：为本发明方法的流程图；

图4：为本发明的视觉显著性信息提取模型的整体结构图；

图5：为本发明的视觉显著性信息提取模型的核心组件图；

图6：为本发明的视觉显著性信息提取模型的静态显著网络结构图；

图7：为本发明的视觉显著性信息提取模型的动态显著网络结构图；

图8：为本发明的语义信息提取模型的核心组件图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种针对手持设备拍摄的视频，自动生成视频摘要的技术，属于视频摘要技术领域。该方法基于手持设备拍摄视频的两个现象：“空间显著物体的吸引力”和“语义信息的时序相关性”。提出将时间语义信息和空间视觉显著性信息融合，并以联合概率的形式来辅助视觉特征以确定是关键帧的概率。首先，将视频文件按照帧的时间顺序依次使用深度识别网络分别提取语义特征序列和显著域特征序列。第二，根据每帧视频帧的显著域特征构建显著特征直方图，确定每帧的空间重要分数。第三，基于注意力机制模型，根据语义特征匹配当前视频帧，与连续前后20张视频帧信息的关联程度，计算得到时间域上的帧的关键性分值。最后，通过对空间和时间上重要性分数，确定时空上均重要信息的关键帧，将多个关键帧组成视频摘要。

流程图请见图3、本实施例采用vs2013作为仿真实验平台，在公共的数据集SumMe和TVSum上进行测试。SumMe数据集包含25个由普通用户拍摄的原始视频，每段视频时长在1-10min不等。TVSum数据集含有50段时长在1-10min的长视频，包含了纪录片，采访等形式的视频。以下针对上述实例对本发明做进一步的阐述，本发明的流程包括：

步骤一：

2.几个定义

①视频摘要：在给定的一段长视频序列中，提取出重要的视频帧序列组成一段短视频。其中

w,h,c是视频的尺寸，t为视频帧序号，

y_t∈[0,1]表示t_th帧是否被选为关键帧，“1”表示为真“0”为假，生成的摘要表示为X_sub＝{x_t|t∈E},E＝{t∈[1,T]|y_t＝1}

静态显著网络提取静态显著性特征的过程如图6所示。静态显著网络的输入是单帧图像数据x_t，每一层的卷积网络的输入输出为一组数组，称为特征图，大小为w,h,c，分别表示图层的长，宽和通道数；每层卷积的计算为f_s(x；W,b)＝W*_sx+b，*_s表示步长为s的卷积操作；W,b表示卷积核的权重和偏置。卷积网络输出的是粗粒度，低分辨率的特征图，因此在卷积网络后叠加多层反卷积网络，上采样处理特征图，输出像素级的显著性预测结果I＝D_S(F_S(x；Θ_F)；Θ_D)。x表示输入图像；F_S(·)表示卷积层输出的特征图；D_S(·)表示反卷积层上采样的输出结果；Θ_F,Θ_D分别表示卷积层与反卷积层的参数；I为整个静态显著网络的输出。

③视频帧语义特征的获取方法：语义特征v_t，v_t∈R¹⁰²⁴采用了一个深度为22层的深度卷积神经网络GoogleNet。GoogleNet的核心组件为Inception Architecture，如图8，它能够在保证深层数的情况下，不发生梯度消失的问题。我们使用千万级的ImageNet图像数据库预训练GoogleNet，使得GoogleNet学习分类1000项的语义数据。其次，使用训练好的GoogleNet检测视频图像中的语义特征，并输出GoogleNet的倒数第二层的数据即为语义向量，该向量维度为1024维。

③关键帧的确定：本发明使用概率理论来表示视频帧的空间重要性和时间重要性。当时间重要性和空间重要性都具有较高值时，视频帧被选择的概率更高。此外，为了进一步增强关键帧的重要性，我们将经典的注意力模块的基础上堆叠了解码器端的注意力模型，以便进一步滤除无用帧，优化关键帧的选择。

步骤二：

基于时空注意力的重要性分数预测模型

1.给定视频帧图像的视觉特征表达和语义特征表达分别为

2.空间注意力模型：如果图像的显著域大小大于预设的阈值

则该图像的显著域为有效显著域，能够吸引观众的注意力，则该图像的空间重要性分数为

此处引入显著域直方图中的离散函数bins(·)计算概率。

3.时间注意力模型：基于经典的注意力模型，则当前视频帧与其前后向视频帧的语义关联是条件概率事件，记作p(p_t|p₁,p₂,...,p_t-1,V)，该事件的概率值计算可描述为m_t＝p(p_t|p₁,p₂,...,p_t-1,V)＝G(p_t-1,s_t,c_t)

4.联合概率模型：基于时间和空间的重要性预测能够显著的提升关键帧检测的精度，联合概率用P(l_t,m_t)＝W_l·l_t+W_m·m_t表示

步骤三：

关键帧序列的选择

1.选择关键帧函数：联合时间和空间注意力模型预测的重要性分数，确定时空均重要的关键帧y_t＝Bernounil(P(l_t,m_t))。

视频摘要效果评价

F-score评价指标：为了和其他的方法公平比较，我们采用目前最为通用的测评标准F-score作为我们方法的测试指标。A表示自动生成摘要的长度，B表示真值摘要长度。P为精确度，R为召回率。

F-score计算自动生成摘要与真值摘要间的相似度：

本方法与其他前沿方法在TVSum和SumMe上的F-SCORE结果见表1。从表1中可以发现，本发明的视频摘要方法性能由明显的提高，也证明引入时空概率模型对视频效果有很大提升。

表1与其他前沿方法比较

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于时空注意力模型的视频摘要生成方法，其特征在于：首先给出如下定义，

①视频摘要：在给定的一段长视频序列

中，提取出重要的视频帧序列组成一段短视频，其中

w,h,c是视频帧的长，宽，通道数，t为视频帧序号，T为视频帧的总数，

y_t∈[0,1]表示t_th帧是否被选为关键帧，“1”表示为真“0”为假，生成的摘要表示为X_sub＝{x_t|t∈E},E＝{t∈[1,T]|y_t＝1}；

②视频帧描述信息：由视觉显著特征z_t、语义特征v_t两种信息进行描述；

具体实现包括如下步骤；

步骤1，获取给定视频帧图像的视觉显著特征和语义特征表达分别为

步骤2，构建空间注意力模型：如果图像的显著域大小大于预设的阈值

则该图像的显著域为有效显著域，能够吸引观众的注意力，则该图像的空间注意力分数记作

bins(·)表示显著域直方图中的离散函数，bins(·)计算概率，当

时该视频帧中含有效显著域，并且有效显著域面积越大，当前帧的空间重要程度越高；

步骤3，构建时间注意力模型：基于经典的注意力模型，当前视频帧与其前后向视频帧的语义关联使用条件概率计算，其时间注意力分数描述为m_t＝p(p_t|p₁,p₂,...,p_t-1,V)＝G(p_t-1,s_t,c_t)，其中，时间注意力分数m_t计算可看作记作条件概率事件p(p_t|p₁,p₂,...,p_t-1,V)，即已知t时刻前每帧的时间重要性值p₁,...,p_t-1和语义向量集合V，求当前t时刻的时间注意力概率p_t，

表示视频帧语义特征的集合，G(·)表示经典的注意模型解码器的计算，s_t是解码器隐含层向量，c_t为注意模型的编码器的输出向量；

步骤4，构建联合概率模型：联合概率模型为β_t＝P(l_t,m_t)＝W_l·l_t+W_m·m_t，其中，β_t为空间注意力分数l_t和时间注意力分数m_t的联合概率值，P(l_t,m_t)为联合概率函数；

步骤5，通过联合概率模型确定时空均重要的关键帧。

2.如权利要求1所述的一种基于时空注意力模型的视频摘要生成方法，其特征在于：步骤5中关键帧的选择服从伯努力分布Bernounil(·)，即通过y_t～Bernounil(β_t)确定关键帧，输出0或1，其中0表示非关键帧，1表示关键帧。

3.如权利要求1所述的一种基于时空注意力模型的视频摘要生成方法，其特征在于：采用双流深度网络提取视觉显著特征z_t，包括静态显著网络和动态显著网络，网络结构均采用多层卷积层处理输入图像，得到多维度的特征表达，随后，叠加多个反向卷积上采样卷积层输出的特征图，最后，通过一个核为1*1的卷积和sigmoid激活函数，输出与原始图像大小一致的特征图，来预测显著图谱；

其中，静态显著网络的输入是单帧图像数据x_t，每一层的卷积的输入输出为一组数组，称为特征图，大小为w,h,c，分别表示图层的长，宽和通道数；每层卷积的计算为f_s(x；W,b)＝W*_sx+b，其中x表示输入，*_s表示步长为s的卷积操作；W,b表示卷积核的权重和偏置，卷积输出的是粗粒度，低分辨率的特征图，因此在卷积操作后叠加多层反卷积，上采样处理特征图，输出像素级的显著性预测结果I＝D_S(F_S(x；Θ_F)；Θ_D)，x表示输入图像；F_S(·)表示卷积层输出的特征图；D_S(·)表示反卷积层上采样的输出结果；Θ_F,Θ_D分别表示卷积层与反卷积层的参数；I为整个静态显著网络的输出；

动态显著网络的输入为相邻两帧图像x_t,x_t+1和静态显著图I_t，其第一层的卷积层为

表示图像x_t,x_t+1和静态显著图I_t对应的权重，b表示偏置；其他卷积层和反卷积层的计算与静态显著网络相同，动态显著网络能够确保动态网络捕捉动态显著性的同时也考虑了静态显著性，最后输出一组数组，表示视觉信息z_t。

4.如权利要求1所述的一种基于时空注意力模型的视频摘要生成方法，其特征在于：采用一个深度为22层的深度卷积神经网络GoogleNet提取语义特征。