CN116233569B

CN116233569B - 一种基于运动信息协助的视频摘要生成方法

Info

Publication number: CN116233569B
Application number: CN202310504159.6A
Authority: CN
Inventors: 张云佐; 刘亚猛; 郑宇鑫; 康伟丽; 张天; 武存宇; 朱鹏飞; 杨月辉; 王双双
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-11
Anticipated expiration: 2043-05-06
Also published as: CN116233569A

Abstract

本发明公开了一种基于运动信息协助的视频摘要生成方法，用于自动地从视频中挑选最重要的片段，从而提升视频浏览效率。所提方法首先根据输入视频获取外观帧序列和运动帧序列，并采用神经网络模型分别提取外观特征和运动特征，然后根据镜头分割算法检测视觉变化点，得到子镜头集合，接着利用构建的视频摘要生成模型预测镜头级重要性得分，最后根据预测得分生成动态视频摘要。所提方法在使用静态的外观信息的基础上进一步引入了运动信息，通过实现有效的单模态特征编码以及跨模态特征交互提升了对视频内容的理解能力。在SumMe和TVSum两个基准数据集上的实验结果充分证明了所提方法的有效性和先进性。

Description

一种基于运动信息协助的视频摘要生成方法

技术领域

本发明涉及一种基于运动信息协助的视频摘要生成方法，属于计算机视觉技术领域。

背景技术

视频摘要是计算机视觉领域中一个极具研究价值的课题，其目的是从视频序列中自动挑选出最重要的视频片段，从而提升视频浏览效率。随着越来越多的研究成果被提出，视频摘要在视频浏览和视频检索中发挥着越来越重要的作用。

目前，视频摘要方法可分为帧级方法和镜头级方法两种类型。帧级方法通常是在提取每帧的外观特征后，利用时间特征聚合方法（例如递归神经网络）来建模视频中的上下文信息。例如，Zhou等人通过将帧级外观特征输入到长短期记忆网络中来聚合全局上下文依赖。Liu等人利用3D卷积网络直接编码视频中的时空信息。尽管现有方法取得了显著的进步，但是这些帧级方法忽略了相邻帧之间的视觉相似性和连续性。

镜头级方法首先将整个视频序列分割为若干不重叠的子镜头，然后为它们标记镜头级重要性分数。例如，Zhao等人采用了一个图模型来捕捉镜头间的上下文依赖关系。Zhang等人提出了一个联合强化学习和对比学习的视频摘要方法。但是，这些方法仅考虑了视频中静态的外观特征而忽略了运动特征，导致模型不能全面、准确地理解视频内容。因此，亟待一种有效的视频摘要生成方法来解决上述问题。

发明内容

本发明的目的在于提供一种基于运动信息协助的视频摘要生成方法，旨在解决现有技术仅考虑了视频中静态的外观特征而忽略了运动特征，导致模型不能全面、准确地理解视频内容的问题。

本发明提供了一种基于运动信息协助的视频摘要生成方法，所述方法包括下述步骤：

S1，读取输入视频，获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列；

S2，利用神经网络模型对外观帧序列和运动帧序列进行特征提取，获得帧级外观特征和帧级运动特征；

S3，利用镜头分割算法检测所述帧级外观特征中的视觉变化点，获取子镜头集合；

S4，构建视频摘要生成模型预测镜头级重要性得分，所述模型包括：

序列编码器：所述序列编码器分别将所述帧级外观特征或所述帧级运动特征作为输入，用来将每个镜头内的特征聚合为镜头级特征向量以表征语义信息，最后输出镜头级外观特征和镜头级运动特征；

双向模态编码器：所述双向模态编码器将所述镜头级外观特征和所述镜头级运动特征作为输入，首先通过单模态特征编码挖掘镜头间的上下文依赖关系，再通过跨模态特征交互在外观流和运动流中进行消息传递，得到融合外观信息和运动信息的跨模态上下文特征；

视频语义引导器：所述视频语义引导器将所述帧级外观特征和所述跨模态上下文特征作为输入计算语义一致性损失，用来缓解运动流中的噪声影响，提升视频摘要性能；

分数预测器：所述分数预测器以所述跨模态上下文特征作为输入，用来将高维特征映射为重要性分数向量以表征每个镜头的重要性程度；

S5，构建目标函数，以无监督或者监督学习的方式训练所述视频摘要生成模型；

S6，使用 S5训练得到的视频摘要生成模型对新视频进行预测，根据得到的重要性得分向量生成动态视频摘要。

优选地，所述序列编码器在外观流和运动流中共享权重。

优选地，构建所述序列编码器，包括：

利用正向门控循环单元和反向门控循环单元分别聚合每个镜头内短距离特征序列的正向和反向时序特征；

将所述正向门控循环单元和反向门控循环单元最终单元输出的隐藏层特征向量沿维度方向进行拼接，输出镜头级特征向量。

优选地，构建所述双向模态编码器，包括：

首先在外观流和运动流中进行单模态特征编码，通过注意力层动态地考虑镜头间的语义相关性挖掘镜头级特征间的上下文依赖关系，输出外观流编码特征和运动流编码特征；

将所述外观流编码特征作为查询特征，所述运动流编码特征作为键、值特征，使外观特征关注运动特征，通过注意力层得到外观-运动跨模态上下文特征；

将所述运动流编码特征作为查询特征，所述外观流编码特征作为键、值特征，使运动特征关注外观特征，通过注意力层得到运动-外观跨模态上下文特征；

将得到的外观-运动以及运动-外观跨模态上下文特征送入前馈神经网络学习深层特征，再经过相加得到所述跨模态上下文特征。

优选地，所述双向模态编码器在单模态特征编码、跨模态特征交互以及深层特征传递阶段都包含残差连接，可以有效地避免网络退化的问题。

优选地，构建所述视频语义引导器，包括：

将所述跨模态上下文特征沿时间维度进行全局平均池化得到跨模态上下文特征向量

；

利用注意力层聚合所述帧级外观特征中的长距离帧间上下文信息，再沿时间维度进行全局平均池化并经过归一化得到外观特征向量

；

计算所述跨模态上下文特征向量和所述外观特征向量间的欧几里得距离作为所述语义一致性损失

，公式表述为：

，

其中，

表示L2范式。

优选地，所述目标函数包括奖励函数项

、正则项/>

和语义一致性损失项/>

，奖励函数项/>

可以由下式计算得到：

，

其中，

表示候选摘要，/>

表示余弦距离，/>

为镜头数量，/>

表示第o个镜头级外观特征；

正则项

计算如下：

，

其中，

表示第i个镜头的预测得分。

优选地，当以监督学习的学习范式进行网络训练时，所述目标函数还应当包含均方误差损失

用于提升预测分数与标注分数之间的一致性，计算公式如下：

，

其中，

表示第i个镜头的标注得分。

与现有技术相比，本发明至少具备以下有益效果：

1、本发明提供了一种基于运动信息协助的视频摘要生成方法，通过深入探索视频中静态的外观信息和动态的运动信息间的交互关系提升了模型对视频内容的理解能力；

2、本发明提出了一个双向模态编码器，通过双向建模结构在模态内和模态间进行特征聚合，可以获取更加全面的跨模态上下文信息；

3、本发明设计了一个视频上下文引导器用来提升跨模态上下文特征和输入视频间的语义一致性，缓解运动流中噪声影响，进而提升视频摘要性能；

4、本发明在两个基准数据集SumMe和TVSum上进行了实验验证。实验结果表明，与最先进的方法相比，本发明中所提方法的摘要性能有了显著提高。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于运动信息协助的视频摘要生成方法的实现流程图；

图2为本发明实施例提供的基于运动信息协助的视频摘要生成方法的网络框架图；

图3为本发明实施例提供的双向模态编码器的结构示意图；

图4为本发明实施例提供的视频语义引导器的结构示意图；

图5为本发明提供的一个视频摘要结果示例。

实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，为本发明提供的基于运动信息协助的视频摘要生成方法的实现流程图，包括如下步骤：

S4，构建视频摘要生成模型预测镜头级重要性得分；

实施例一：

本发明提供了一个优选实施例执行S1，读取输入视频，获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列。本发明可以对任何类型和任何时长的视频进行处理，例如电影、监控和体育视频等。具体的操作步骤如下：

对于一个新输入的视频，首先将视频下采样至2FPS，得到采样后的外观帧序列，每张图像可以反映静态的外观信息。为了获取视频中的运动信息，本发明采用了RAFT模型来处理连续的RGB图像，得到运动帧序列，该序列中的每张图像可以用来反映事物的瞬时运动状态。

实施例二：

本发明提供了一个优选实施例执行S2，利用神经网络模型对外观帧序列和运动帧序列进行特征提取，获得帧级外观特征和帧级运动特征。具体步骤如下：

为了公平地与其他先进方法进行性能对比，本发明采用在ImageNet数据集上预训练的GoogLeNet作为特征编码器分别为外观帧序列和运动帧序列提取特征。应当注意的是，本发明采用GoogLeNet的pool-5层输出的1024维向量作为特征表示，分别记编码得到的外观特征序列和运动特征序列为

和/>

，其中/>

和

分别表示第i个外观特征向量和运动特征向量，t为帧总数量。

实施例三：

本发明提供了一个优选实施例执行S3，利用镜头分割算法检测所述帧级外观特征中的视觉变化点，获取子镜头集合。

本发明所提视频摘要方法属于镜头级方法，可以有效地利用相邻帧间的视觉相似性和连续性。相应地，需要预先根据外观特征进行视频镜头分割。核时序分割算法是一个表现优秀的镜头分割算法，具有操作简单、计算快速等特点。故使用其作为本发明中的镜头分割算法来检测帧序列中的视觉变化点。具体来说，本发明将所得外观特征序列经过核时序分割算法输出变化点集合

，其中/>

和/>

分别表示第i个镜头的起始和结束帧索引，N为检测到的镜头数量。

实施例四：

本发明提供了一个优选实施例执行S4，构建视频摘要生成模型预测镜头级重要性得分。

视频摘要生成模型目的是通过对输入特征进行前向传播，最终预测每个镜头的重要性得分。如图2所示，为本发明实施例提供的基于运动信息协助的视频摘要生成方法的网络框架图。该网络主要包含四个部分：序列编码器、双向模态编码器、视频语义引导器以及分数预测器。下面将分别阐述各个模块的具体构建步骤。

S41，构建序列编码器。序列编码器用于对局部帧序列进行建模，将每个镜头内的帧级特征聚合为镜头级特征向量以表征每个镜头内的语义信息，从而充分利用相邻帧之间的视觉相似性和连续性。门控循环单元（GRU）和长短时记忆网络（LSTM）是递归神经网络的两种经典变体形式，但由于门控循环单元具有更简洁的网络结构，并且与长短时记忆网络性能相当，故本发明采用了门控循环单元实现序列编码的目的。具体来讲，该序列编码器包含一个正向GRU和一个反正GRU，分别用于聚合未来和历史方向的时序特征。该过程可以用公式表述为：

，

，

，

其中，

和/>

分别表示正向和反向门控循环单元，/>

为第i个镜头，

和/>

分别表示正向和反向聚合得到的隐藏特征，/>

为最终的镜头级特征表示，/>

表示拼接操作，/>

表示不同的模态。由于每个镜头内的特征序列距离较短，因此，本发明在一定程度上可以缓解递归神经网络随着序列长度增加而出现历史信息丢失的情况。

S42，构建双向模态编码器。如3图所示，为本发明实施例提供的双向模态编码器的结构示意图。该编码器包含了两种结构：单模态编码器和跨模态编码器。单模态编码器通过捕获镜头级外观特征和运动特征的全局上下文信息来挖掘特征中的语义信息。而跨模态编码器用于促进跨模态信息之间充分的特征交互，从而自适应地学习到融合视频中外观信息和运动信息的特征表示。从技术上来讲，为了保留特征的位置信息，首先将镜头级特征序列

与位置嵌入/>

结合获得位置敏感的特征表示/>

，该过程表示为：

，

然后，通过下式对特征序列进行全局上下文归一化：

，

其中，

为归一化函数。/>

为计算关于查询、键和值特征的多头注意力层，其计算过程可以描述为：

，

，

其中，

为第i个注意力头计算得到的特征；/>

表示注意力头数量；/>

，/>

和/>

为经过线性变换得到的特征矩阵；/>

为特征维度；/>

为经过多头注意力层得到的细化特征；/>

为可训练的权重。

在对单模态数据的上下文信息进行编码后，本发明通过交换查询特征使用跨模态编码器来联合建模视频中的外观和运动信息，使两种模态的信息进行充分融合。该编码器采用双向建模结构，可以使外观特征关注运动特征（表示为

），也可以使运动特征关注外观特征（表示为/>

）。双向交互特征/>

和/>

的计算方式定义如下:

，

，

通过这种建模方式，可以使模型学习到更加全面的跨模态上下文特征。然后，利用前馈神经网络

传递深层特征，该过程用公式可以描述为：

，

，

最后，再经过求和输出跨模态上下文特征

，该过程可以被描述为：

，

值得注意的是，在单模态编码器、跨模态编码器以及前馈神经网络部分都包含了跳跃连接用于避免网络退化。

S43，构建视频语义引导器。如图4所示，为本发明实施例提供的视频语义引导器的结构示意图。本发明采用RAFT模型通过处理连续的RGB图像来提取视频中的运动信息。但是，由于各种干扰因素，例如目标大小的变化以及数据集的差异等，提取到的运动特征很可能存在噪声信息，造成跨模态上下文特征与输入视频间语义不一致。

因此，本发明进一步设计了视频语义引导器来解决上述问题。具体来说，考虑到一个视频通常具有较长的时长，本发明仍采用一个多头注意力层来将帧级外观特征序列作为输入挖掘帧级全局上下文信息，然后通过全局平均池化和归一化获得外观特征向量，记为

。同时，对跨模态上下文特征也执行相同的池化操作，得到跨模态上下文特征向量

。该过程可以用公式表述如下：

，

，

其中，

表示全局平均池化操作。

接着，本发明定义了一个语义一致性损失

：

其中，

表示L₂范式。

S44，构建分数预测器。分数预测器将维度为1024的跨模态上下文特征作为输入，经过一个全连接层将特征映射为1维，并利用Sigmoid函数将每个值限制在0和1之间来表征每个镜头的重要性程度。

实施例五：

本发明提供了一个优选实施例执行S5，构建目标函数，以无监督或者监督学习的方式训练所述视频摘要生成模型。

在训练过程中，总体目标函数共有四个损失项，包括奖励函数项

、正则项/>

、语义一致性损失项/>

和均方误差损失项/>

。除语义一致性损失项以外的各项的计算方式如下：

，

，

，

其中，

表示候选摘要，/>

表示余弦距离，/>

和/>

分别表示第i个镜头的预测得分和标注得分。

故总体目标函数

可以表示为：

，

其中，

为超参数，用于控制损失项的相对重要性，在本发明中设置为0.01。当采用无监督学习的学习范式训练视频摘要生成模型时则移除均方误差损失项/>

。

实施例六：

本发明提供了一个优选实施例执行S6，使用 S5训练得到的视频摘要生成模型对新视频进行预测，根据得到的重要性得分向量生成动态视频摘要。该过程可以分为两步：

步骤一：根据上述实施例中得到的训练好的视频摘要生成模型对新输入的视频进行预测，得到重要性得分向量；

步骤二：规定摘要的最大长度不能超过输入视频总长度的15%，创建背包问题，根据动态规划算法进行求解。该过程可以表述如下：

，/>

，

其中

表示是否选择第i个镜头，/>

分别表示第i个镜头的长度，/>

为视频的总长度。最后将选择得到的视频镜头按时间顺序进行重组，输出视频摘要结果。

为了证明所提方法的有效性，将本发明在SumMe和TVSum两个基准数据集上进行了实验。每个数据集被划分为两个不相交的部分，即80%的视频用于训练，其余用于测试。为了对比结果的公平性，使用标准的5折交叉验证进行测试，并报告平均F分数。

表1展示了本发明所提的无监督学习模型与其他先进方法的实验对比结果。可以看到，在SumMe和TVSum数据集上所提方法均表现出最好的摘要性能。RCL是一种出色的镜头级视频摘要算法，然而在完全公平的实验设置下，所提方法在两个数据集上的F分数都比它高，这可以归因于将外观和运动信息结合在一起可以进一步提高模型的视频理解能力。

表1 与无监督方法的F-score对比结果

此外，表2展示了所提监督学习模型的实验结果。从表中的数据可以看到，与其他先进方法相比，本发明仍然十分具有竞争力，这表明所提方法可以有效地从标注数据中学习更多的语义信息。

表2 与监督方法的F-score对比结果

此外，为了全面验证所提方法的优越性，表3展示了不同方法在TVSum数据集上的相关性系数。所提方法的无监督模型在Kendall’s τ和Spearman’s ρ两个指标上均表现良好。而监督学习模型表现最佳，甚至可以与人类摘要结果相当，这进一步证明了本发明的有效性和优越性。

表3 与先进方法的相关性系数对比结果

可视化结果如图5所示。可以看到，所提方法能够从视频中识别和提取重要的片段，从中可以很容易地推断出这些视频正在进行什么活动，极大地提升了视频浏览的效率。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。