CN115731498A

CN115731498A - 一种联合强化学习和对比学习的视频摘要生成方法

Info

Publication number: CN115731498A
Application number: CN202211529350.8A
Authority: CN
Inventors: 张云佐; 刘亚猛; 武存宇; 张天; 朱鹏飞; 郑宇鑫; 康伟丽; 王正友; 霍磊
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-03
Anticipated expiration: 2042-12-01
Also published as: CN115731498B

Abstract

本发明公开了一种联合强化学习和对比学习的视频摘要生成方法。该方法包括：根据视觉特征将完整的视频序列分割成互不相交的子序列集合；构建以镜头级特征为输入，以镜头级重要性分数为输出的视频摘要模型；构建训练损失函数，对网络参数进行迭代优化；选择包含最多关键信息的镜头，输出动态视频摘要。在基准数据集SumMe和TVSum上得到的实验结果证明了该方法的有效性。本发明所提出的视频摘要生成方法采用无监督的方式进行训练，可以有效地从判别性的特征表示中挖掘视频中的上下文依赖关系，从而准确地提取视频中的关键片段。

Description

一种联合强化学习和对比学习的视频摘要生成方法

技术领域

本发明涉及一种联合强化学习和对比学习的视频摘要生成方法，属于计算机视觉技术领域。

背景技术

随着大数据时代的到来，互联网上的在线视频数量爆炸式增长。根据最新统计，每分钟有超过500小时的视频数据上传到YouTube网站。经换算，相当于每天上传的视频时长约为82.2年。由于缺乏有效的管理手段，这些视频当中存在着大量无意义的信息，这使人类难以快速地从海量视频中获取有价值的信息，这种情况促使了自动视频分析技术的出现。

视频摘要由于其在浏览冗长视频时表现出的高效性在近些年来收到了广泛的关注。视频摘要的目的是自动地从原始视频当中挑选若干关键帧或者关键镜头，以一种简洁的概要来完整且快速地传达视频当中的重要信息。目前视频摘要方法主要分为关键帧提取和关键镜头提取。相比于前者，关键镜头可以保留视频当中的部分运动和视听信息，方便用户通过摘要理解视频内容。因此本发明将研究重点放在基于关键镜头提取的方法上。

近年来，视频摘要方法已经取得了前所未有的进步。一些基于监督学习的方法试图从人工标注中学习语义指导信息。然而，获取足够的标注数据通常面临着昂贵的成本，这产生了对无监督方法的迫切需求。目前有许多框架已经被提出，以达到通过摘要重建原始视频内容的目的。例如，Mahasseni B,Lam M,Todorovic S.Unsupervised videosummarization with adversarial lstm networks[C]//Proceedings of the IEEEconference on Computer Vision and Pattern Recognition.2017:202-211.设计了一种基于生成对抗网络(GAN)的方法，可以在完全无监督的环境下创建摘要。然而，基于GAN的模型通常面临复杂且不稳定的训练过程。为了克服这一问题，Zhou K,Qiao Y,Xiang T.Deepreinforcement learning for unsupervised video summarization with diversity-representativeness reward[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2018,32(1).提出了一种基于强化学习的架构，以使摘要满足多样性和代表性。Liu T,Meng Q,Huang J J,et al.Video summarization throughreinforcement learning with a 3D spatio-temporal u-net[J].IEEE Transactionson Image Processing,2022,31:1573-1586.引入了基于3D时空U-Net的网络，以弥补现有方法在探索时空特征中存在的缺陷。这些方法都属于帧级摘要方法，他们的目的是为每一帧预测重要性分数，但视频内的时间相似性尚未得到充分利用，这可能会给准确地为每帧打分带来困难。因此，一些方法通过直接预测镜头级别重要性得分来生成摘要，称为镜头级摘要方法。例如，Zhao B,Li X,Lu X.Property-constrained dual learning for videosummarization[J].IEEE transactions on neural networks and learning systems,2019,31(10):3989-4000.开发了一个双重学习框架，旨在通过让视频重构器奖励摘要生成器来保存有价值的内容。然而，现有的镜头级方法通常仅使用单个递归神经网络(RNN)将镜头内容简单地编码为潜在表示，以用于下游工作，这可能会由于较差的特征表示而面临摘要性能提升的瓶颈。此外，尽管许多旨在对长距离时间依赖性进行建模的架构被提出，但它们只考虑了镜头之间的全局依赖性，而局部依赖性被忽略，这可能会对理解视频内容带来困难。因此亟须一种新的视频摘要生成方法以解决上述问题。

发明内容

针对现有方法中存在的问题，本发明的目的在于提供一种联合强化学习和对比学习的视频摘要生成方法。

根据本发明的一个方面，提供一种联合强化学习和对比学习的视频摘要生成方法，包括：

步骤1：根据视觉特征将完整的视频序列分割成互不相交的子序列集合；

步骤2：构建以镜头级特征为输入，以镜头级重要性分数为输出的视频摘要模型；

步骤3：构建训练损失函数，对网络参数进行迭代优化；

步骤4：选择包含最多关键信息的镜头，输出动态视频摘要。

优选地，所述根据视觉特征将完整的视频序列分割成互不相交的子序列集合，包括：

利用深度卷积神经网络提取视频帧的空间特征；

利用镜头分割算法检测视觉变化点，得到视频镜头序列。

优选地，所述构建以镜头级特征为输入，以镜头级重要性分数为输出的视频摘要模型，包括：

优化编码模块，所述优化编码模块以每个镜头内帧级特征序列作为输入，将视频镜头编码成为简洁的特征表示，以表征镜头内的语义信息；

差异引导注意力图，所述差异引导注意力图以所述优化编码模块的输出作为输入，用于聚合不同镜头之间的上下文依赖关系，理解视频内容；

分数预测模块，所述分数预测模块将所述差异引导注意力图的输出作为输入，用于回归所述镜头级重要性分数。

优选地，构建所述优化编码模块，包括：

使用门控循环单元处理每个镜头内的帧序列，用于捕获镜头内的语义信息；

使用特征传递层处理语义特征，将高维向量映射为低维向量，得到镜头级特征表示。

优选地，所述使用门控循环单元包括前向门控循环单元和后向门控循环单元，分别用于捕获每个镜头内未来和历史方向的依赖信息。

优选地，构建所述特征传递层，包括：

两个全连接层在传递深层特征的同时降低特征维度；

Dropout层用于在特征中添加噪声信息。

优选地，构建所述差异引导注意力图，包括：

计算镜头特征{s₁,s₂,...,s_M}之间的成对余弦距离作为镜头间的语义差异性分数，其中s_i表示第i个镜头特征，M表示镜头总数；

对于第i个镜头，选择与其语义差异分数最大的γ个镜头建立通信路径，得到镜头稀疏图；

计算具有通信路径的节点间的相关性分数，自适应地执行特征聚合操作，输出镜头的上下文特征{g₁,g₂,...,g_M}，其中g_i表示第i个镜头的上下文特征。

优选地，所述分数预测模块采用图卷积操作为每个镜头回归重要性分数。

优选地，构建所述训练损失函数，包括：

奖励函数，所述奖励函数用于使模型选择具有多样性和代表性的摘要结果，记为R＝R_d+R_r，计算公式如下：

其中R_d表示多样性奖励，R_r表示代表性奖励，B表示网络挑选的候选摘要结果，d(·,·)表示余弦距离。

正则项，所述正则项用于限制预测的重要性分数的分布，防止模型选取过多镜头，记为L_s，其计算公式为：

其中，p_i表示第i个镜头的重要性分数，ε为超参数。

对比损失项，所述对比损失项用于使优化编码器将视频镜头编码成更具判别性和信息性的特征表示，记为L_c，计算公式如下：

其中sim(·，·)表示余弦相似性，τ是温度超参数，用于控制相似性分数的尺度，m¹和m²为不同的Dropout掩模。

所述训练损失函数由奖励函数、正则项和对比损失项共同构成，表示为:

L(θ)＝αL_s+βL_c-R

其中，θ表示模型中的参数，α和β为超参数。

优选地，所述选择包含最多关键信息的镜头，输出动态视频摘要，包括：

规定摘要最大时长，采用动态规划算法获取最优解；

将选择的子序列按照时间顺序进行重新组合，输出所述动态摘要。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的一种联合强化学习和对比学习的视频摘要生成方法流程图；

图2为本发明的一种联合强化学习和对比学习的视频摘要生成方法整体框架图；

图3为本发明提供的一个优选实施例的优化编码器的结构示意图；

图4为本发明提供的一个优选实施例的差异引导注意力图的结构示意图。

具体实施方式

为了使本领域的技术人员可以更清楚地对本发明进行了解，下面结合具体实施例进行说明。此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示，为本发明提供的一个实施例的联合强化学习和对比学习的视频摘要生成方法流程图，包括：

S1，根据视觉特征将完整的视频序列分割成互不相交的子序列集合；

S2，构建以镜头级特征为输入，以镜头级重要性分数为输出的视频摘要模型；

S3，构建训练损失函数，对网络参数进行迭代优化；

S4，选择包含最多关键信息的镜头，输出动态视频摘要。

本发明提供了一个优选实施例执行S1，将完整的视频序列分割成互不相交的子序列集合，具体分为两步：

第一步，首先以2FPS的速率对原始视频进行预先下采样操作，得到视频帧序列{v₁,v₂,...,v_n}，其中vi表示第i个视频帧，n表示视频帧数量。然后利用在ImageNet数据集上预训练的GoogLeNet网络作为特征提取器为每一帧提取空间特征，取GoogLeNet网络的pool5层输出的1024维向量作为每一帧的特征表示，记为{f₁,f₂,...,f_n}。其中f_i表示第i个视频帧的特征表示。

第二步，采用Kernel Temporal Segmentation镜头分割算法检测视觉变化点，并将两点之间的帧序列视为一个镜头。此处假设分割得到的镜头数量为M，镜头序列集合记为{E₁,E₂,...,E_M}，E_i表示第i个子序列。

本发明提供了一个优选实施例执行S2。本实施例旨在根据所设计的视频摘要生成网络对视频镜头进行编码，然后捕获镜头之间的上下文依赖关系，进而预测镜头级重要性分数。如图2所示，为本实施例网络模型的整体框架图。该网络包含三个部分：优化编码器、差异引导注意力图和分数预测模块。3个部分的具体构建步骤如下：

S21，构建优化编码器，如图3所示，为优化编码器的结构示意图。优化编码器的作用是将视频中的镜头编码成简洁的特征表示。

将第i个镜头E_i送入双向门控循环单元中捕获未来和历史方向的上下文依赖信息，该计算过程定义为：

其中

和

分别表示前向和后向的隐藏状态，h_i为拼接得到的隐藏状态。

接着，采用两个全连接层将隐藏状态映射为低维向量，并在它们之间加入一个Dropout层以添加噪声。计算过程可以表示为：

其中si表示第i个镜头的最终表示。W₁,W₂,b₁和b₂都是需要学习的参数。

表示Dropout函数，用于为一个样本产生相似的特征表示。

S22，构建差异引导注意力图。如图4所示，为差异引导注意力图的结构示意图。差异引导注意力图将镜头特征{s₁,s₂,...,s_M}作为输入，经过特征聚合，输出上下文特征{g₁,g₂,...,g_M}，使网络理解视频内容。

首先计算镜头之间的成对差异性，计算方式如下所示：

其中d(·,·)表示计算差异性的函数。对于第i个镜头，选择与其语义差异分数最大的γ个镜头建立通信路径，得到镜头稀疏图，目的是从不同的语义内容中理解视频故事线。经过实验验证,设置γ＝0.6×M。接着，第j个镜头与第i个镜头的相关性e_ij计算如下：

e_ij＝σ(c^T[W_gs_i||W_gs_j])

其中σ(·)表示LeakyReLU非线性激活函数。W_g是可训练参数，c用于将矢量映射为权重。然后，与自注意力机制一样，通过softmax函数计算注意力得分a_ij。第i个镜头的上下文特征g_i可以通过对邻居节点进行加权求和来计算：

其中N_i表示第i个镜头的邻居节点，W_o表示需要训练的参数。

S23，构建分数预测模块。分数预测模块的作用是根据上下文特征预测每个镜头的重要性分数。该模块将上下文特征{g₁,g₂,...,g_M}作为输入，输出各个镜头的重要性分数{p₁,p₂,...,p_M}。它包含一个图卷积层和一个Sigmoid函数。图卷积的目的是将高维的特征映射为一个标量，Sigmoid函数则是将该标量限制在0-1之间，表示每个镜头的重要性程度。

本发明提供一个实施例执行S3，构建训练损失函数。在本实施例中，训练损失函数包含3个部分：

S31，构建奖励函数。奖励函数的目的是用来使网络挑选具有多样性和代表性的摘要结果。具体来说，网络首先根据预测得到的重要性分数得到候选摘要

其中

表示第i个镜头是否被选择。然后根据这些候选摘要计算多样性奖励R_d和代表性奖励R_r，计算公式如下所示：

S32，构建正则项。正则项的目的是防止网络为了在最大化奖励值时挑选过多镜头到摘要当中，该正则项记为L_s，其计算公式如下所示：

其中，p_i表示第i个镜头的重要性分数，ε为超参数，用来控制重要性分数的分布情况。

S33，构建对比损失项。该损失项用于使优化编码器将视频镜头编码成更具判别性和信息性的特征表示。具体来说，第i个镜头内的帧序列被馈送到优化编码器中，并通过不同Dropout掩码获得正样本对，负样本由其他镜头表示组成。定义对比损失函数L_c如下所示：

L(θ)＝αL_s+βL_c-R

其中，θ表示模型中的参数，α和β为超参数。

在本实施例当中，设置批大小为1，学习率为5×10^-5，使用Adam优化器优化网络参数，训练过程持续60轮。

基于上述实施例，本发明提供了一个优选实施例执行S4，选择包含最多关键信息的镜头，输出动态视频摘要。具体来说，规定摘要的最大长度不能超过输入视频总长度的15％。然后创建背包问题，根据动态规划算法进行求解，得到最佳摘要结果。该问题可以用数学表示为：

其中u_i∈{1,0}表示是否选择第i个镜头，l_i表示第i个镜头的长度，L为视频的总长度。然后根据选择得到的镜头按照时间顺序进行重组，输出最终的动态视频摘要。

为了验证以上实施例的有效性，将本发明应用于实际，通过计算F分数(％)与模型参数量(M)来与其他先进方法进行对比，F分数越高则说明模型性能越好。具体来说，本发明使用基准数据集SumMe和TVSum来评估该网络。SumMe由25个视频组成，视频时长从1到6分钟不等，每个视频由15-18个用户手动注释。TVSum包含50个视频，持续时间为2到10分钟。每个视频都有20个用户注释的帧级重要度分数。每个数据集被分割成两个不相交的部分：80％的视频用于训练，其余的用于测试，最终报告5次实验结果的平均值。

与无监督先进方法的对比实验结果如表1所示。从表中可以观察到本发明取得了最佳的F分数表现。最后一列展示了一些方法的网络模型参数量，可以观察到，本发明具有最少的参数，这表明了该方法的有效性。

表1与基于无监督学习的方法的对比结果

此外，本发明还被扩展成监督学习的方法，并与其他方法进行了实验结果对比。实验结果如表2所示。从报告的数据中可以看到，本方法仍然有着优秀的性能表现。

表2与基于监督学习的方法的对比结果

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。