CN116662604A

CN116662604A - 一种基于分层Transformer的视频摘要方法

Info

Publication number: CN116662604A
Application number: CN202310759767.1A
Authority: CN
Inventors: 张宝川; 毛辉杰; 葛棋棋; 陈赟; 张子川; 肖昌震; 陈胜利
Original assignee: Zhejiang Qiancong Technology Co ltd
Current assignee: Zhejiang Qiancong Technology Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-08-29

Abstract

本发明涉及一种基于分层Transformer的视频摘要方法，基于获得的视频，将长视频建模为“帧‑镜头”的双层结构，构建分别对应帧和镜头的分层Transformer网络，使用两层Transformer分别对帧和镜头编码，通过分层表征生成基于关键镜头的视频摘要。本发明考虑视频固有的语义结构，将视频分割为多个镜头，分别捕获镜头内和镜头间的时序依赖，通过分层表征生成视频摘要；考虑RNN的局限性，对视频的双层结构使用Transformer对帧和镜头先后建模，通过多头注意机制捕获序列中的全局依赖性，并行编码所有时间步，具有更有效的表征能力和更快的计算速度；适用于提取关键镜头和关键帧作为视频摘要的应用场景。

Description

一种基于分层Transformer的视频摘要方法

技术领域

本发明涉及电数字数据处理的技术领域，特别涉及一种计算机视觉领域的基于分层Transformer的视频摘要方法。

背景技术

随着在线视频平台的普及，视频数据量呈指数级增长。2019年某视频平台的统计结果表明，该平台所有用户每分钟上传的视频量总和超过500小时，也就是说单个用户需要82年才能观看完一小时内上传至此平台的所有视频。因此，用户难以有效地浏览和检索视频数据中的有用信息。

为了解决这个问题，研究人员近年来对于视频摘要技术进行了大量开发。视频摘要旨在自动生成视频的简短版本，其中包含原始视频中重要的人物、物体和事件。常见的视频摘要包括两种形式，即基于关键帧的视频摘要和基于关键镜头的视频摘要，前者选择重要的帧来形成静态摘要(即故事板)，而后者首先将视频分割成镜头，然后选择信息丰富的镜头来形成动态摘要(即视频概览)，但往往基于关键镜头的视频摘要具备更有好的观看体验。

当前主流的视频摘要方法基于循环神经网络(RNN)建模视频中的时序结构，然而RNN具备以下缺陷：

1)RNNs很难捕捉到长序列中的长程依赖，这极大地限制了它们的表示能力；

2)当前步骤的编码依赖于RNN中上一步的输出，这显着增加了训练和测试的时间消耗。

同时，视频中存在固有的层次结构(帧-镜头-视频)，而现有技术中，大多数视频摘要将整个视频建模为一个包含所有帧的序列，这种建模方法不能精确地反映视频出的语义结构，表示能力较弱。

发明内容

本发明解决了现有技术中存在的问题，提供了一种基于分层Transformer的视频摘要方法。

本发明所采用的技术方案是，一种基于分层Transformer的视频摘要方法，所述方法基于获得的视频，将长视频建模为“帧-镜头”的双层结构，构建分别对应帧和镜头的分层Transformer网络，使用两层Transformer分别对帧和镜头进行编码，通过分层表征生成基于关键镜头的视频摘要；一般来说，关键镜头是指包含整个视频中重要人物、目标、时间的镜头。

优选地，所述方法包括以下步骤：

步骤1：收集视频，处理并获取真实(ground truth)视频摘要；

步骤2：提取视频对应的特征，输入分层Transformer网络；

步骤3：对于视频中的每个镜头，以一Transformer进行镜头内时序建模，得到每个镜头的特征；

步骤4：基于步骤3，获得镜头的特征序列，使用另一Transformer对视频中镜头的特征序列进行时序建模，得到每个镜头的最终表征；

步骤5：将每个镜头的最终表征映射为该镜头的重要性，得到所有镜头的重要性序列；

步骤6：以镜头的真实重要性对网络输出的重要性进行监督，优化直至分层Transformer网络收敛；

步骤7：将待处理视频以步骤1的方式进行处理，提取视频对应的特征后输入至步骤6完成训练的分层Transformer网络，得到所有镜头的重要性得分，基于重要性得分获得视频摘要。

优选地，步骤1中，处理包括对收集的视频进行镜头分割，获取真实视频摘要包括每个镜头进行标注并基于标注内容得到对应每个镜头的重要性得分，选取重要性得分大于阈值的所有镜头得到真实视频摘要；此处镜头分割的标准为，计算每相邻两帧的灰度直方图的距离，然后选出所有距离的0.95分位数T，如距离大于T，则认为该两帧之间需要镜头分割。

优选地，步骤2中，对所有视频基于时序进行降采样处理，并进行空间特征提取，以每个视频的帧特征序列作为对应的视频特征。

优选地，步骤3中，在每个镜头的若干帧的特征前加入可学习的类标记，输入第一层Transformer进行编码，获得对应镜头的表征。

优选地，步骤5中，将所有镜头的最终表征分别输入多层感知机，预测每个镜头的重要性得分，得到预测的镜头重要性分数序列，为所有镜头的重要性序列。

优选地，步骤6中，以步骤1的镜头的真实重要性作为监督，计算其与步骤5得到的镜头的重要性间的均方误差，以均方误差作为损失函数，以批随机梯度下降优化分层Transformer网络直至收敛。

优选地，步骤7中，选出使得总分数最大的镜头作为视频摘要，同时满足选出的镜头时长总和不超过原始视频总长度的预设比例a，0＜a＜1；在实施过程中一般为15％。

优选地，最大化所述总分数满足

其中，p_t为镜头重要性分数，p_t∈[0,1]，C为视频的总长，q_t为视频中第t个镜头的长度，n为镜头总数；以动态规划求解，得到最优解若/>则第t个镜头被选入视频摘要。

本发明涉及一种基于分层Transformer的视频摘要方法，基于获得的视频，将长视频建模为“帧-镜头”的双层结构，构建分别对应帧和镜头的分层Transformer网络，使用两层Transformer分别对帧和镜头进行编码，通过分层表征生成基于关键镜头的视频摘要。

本发明的有益效果在于：

(1)考虑到视频固有的语义结构，将视频分割为多个镜头，然后分别捕获镜头内和镜头间的时序依赖，最终通过分层表征生成视频摘要；

(2)考虑到RNN的局限性，对于视频的双层结构，使用Transformer对帧和镜头先后进行建模，通过多头注意机制捕获序列中的全局依赖性，由于并行编码所有时间步，具有更有效的表征能力和更快的计算速度；

(3)适用于提取关键镜头和关键帧作为视频摘要的应用场景。

附图说明

图1为本发明的方法流程图；

图2为本发明的分层Transformer网络的应用流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1～2所示，本发明涉及一种基于分层Transformer的视频摘要方法，所述方法基于获得的视频，将长视频建模为“帧-镜头”的双层结构，构建分别对应帧和镜头的分层Transformer网络，使用两层Transformer分别对帧和镜头进行编码，通过分层表征生成基于关键镜头的视频摘要。

以下结合实施例进行方法的说明。

步骤1：收集长度适中的视频，视频主题应尽可能多样化，可包括生活类、体育运动、新闻等；处理并获取真实视频摘要；

步骤1中，处理包括对收集的视频进行镜头分割，获取真实视频摘要包括每个镜头进行标注并基于标注内容得到对应每个镜头的重要性得分，选取重要性得分大于阈值的所有镜头得到真实视频摘要。

本实施例中，标注过程为，每个视频由多个标注人员进行标注，对于每个视频，标注人员在观看完毕后需要选出若干镜头作为视频摘要，而且选出镜头的时长总和不得超过视频总时长的15％；标注完毕后，每个镜头有若干组标注，然后计算出该镜头被选入视频摘要的百分比作为该镜头的真实重要性得分。

步骤2：提取视频对应的特征，输入分层Transformer网络；

步骤2中，对所有视频基于时序，如每秒一帧进行降采样处理，并使用在Image预训练的VGGNet对视频中的每一帧进行空间特征提取，对提取的特征图进行空间池化操作，因此每帧的特征表示为1024维的向量，以每个视频的帧特征序列作为对应的视频特征。

本实施例中，对于一个降采样后包含T帧的视频，通过特征提取得到帧特征序列其中/>

步骤3中，在每个镜头的若干帧，设其包含m帧，该镜头中的所有帧的特征表示为在特征前加入可学习的类标记/>构成整体特征{f,f₁,f₂,…,f_m}，输入第一层Transformer进行编码，得到{s_t,f₁′,f₂′,…,f_m′}，其中/>获得对应镜头的表征s_t。

应用于视频中的所有镜头。

本实施例中，对于一个包含n个镜头的视频，得到镜头表征序列其中将该视频的镜头表征序列输入第二层Transformer网络，然后输出编码之后的镜头序列/>其中/>

步骤5中，将所有镜头的最终表征s_t′分别输入多层感知机，预测每个镜头的重要性得分，得到预测的镜头重要性分数序列为所有镜头的重要性序列，其中p_t∈[0,1]。

步骤6中，以步骤1的镜头的真实重要性作为监督，计算其与步骤5得到的镜头的重要性间的均方误差，以均方误差作为损失函数，以批随机梯度下降优化分层Transformer网络直至收敛。

损失函数其中，y_t为视频中第t个镜头的真实重要性得分。

步骤7：将待处理视频以步骤1的方式进行处理，包括降采样、空间特征提取和镜头分割，提取视频对应的特征后输入至步骤6完成训练的分层Transformer网络，得到所有镜头的重要性得分基于重要性得分获得视频摘要。

步骤7中，选出使得总分数最大的镜头作为视频摘要，同时满足选出的镜头时长总和不超过原始视频总长度的预设比例a，0＜a＜1，如取10％或15％。

将上述最大化总分数的过程建模为0/1背包问题，满足

其中，p_t为镜头重要性分数，p_t∈[0,1]，C为视频的总长，q_t为视频中第t个镜头的长度，n为镜头总数；以动态规划求解，得到最优解若/>则第t个镜头被选入视频摘要。将所有被选入视频摘要的镜头拼接在一起，形成最后的视频摘要。

本实施例中，分层Transformer网络中的两个Transformer都包含三个TransformerLayer；multi-head attention中head的数量为4；positional-wise feed-forward network中的隐层单元数量为1024。此外，在帧序列送入第一层Transformer之前，融和了基于正余弦函数的位置编码。镜头序列送入第二层Transformer之前，同样融和了基于正余弦函数的位置编码。

为了实现上述内容，本发明还涉及一种计算机可读存储介质，其上存储有基于分层Transformer的视频摘要的程序，该程序被处理器执行时实现上述基于分层Transformer的视频摘要的方法。

为了实现上述内容，本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述基于分层Transformer的视频摘要的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于分层Transformer的视频摘要方法，其特征在于：所述方法基于获得的视频，构建分别对应帧和镜头的分层Transformer网络，使用两层Transformer分别对帧和镜头进行编码，通过分层表征生成基于关键镜头的视频摘要。

2.根据权利要求1所述的一种基于分层Transformer的视频摘要方法，其特征在于：所述方法包括以下步骤：

步骤1：收集视频，处理并获取真实视频摘要；

步骤2：提取视频对应的特征，输入分层Transformer网络；

3.根据权利要求2所述的一种基于分层Transformer的视频摘要方法，其特征在于：步骤1中，处理包括对收集的视频进行镜头分割，获取真实视频摘要包括每个镜头进行标注并基于标注内容得到对应每个镜头的重要性得分，选取重要性得分大于阈值的所有镜头得到真实视频摘要。

4.根据权利要求2所述的一种基于分层Transformer的视频摘要方法，其特征在于：步骤2中，对所有视频基于时序进行降采样处理，并进行空间特征提取，以每个视频的帧特征序列作为对应的视频特征。

5.根据权利要求2所述的一种基于分层Transformer的视频摘要方法，其特征在于：步骤3中，在每个镜头的若干帧的特征前加入可学习的类标记，输入第一层Transformer进行编码，获得对应镜头的表征。

6.根据权利要求2所述的一种基于分层Transformer的视频摘要方法，其特征在于：步骤5中，将所有镜头的最终表征分别输入多层感知机，预测每个镜头的重要性得分，得到预测的镜头重要性分数序列，为所有镜头的重要性序列。

7.根据权利要求2所述的一种基于分层Transformer的视频摘要方法，其特征在于：步骤6中，以步骤1的镜头的真实重要性作为监督，计算其与步骤5得到的镜头的重要性间的均方误差，以均方误差作为损失函数，以批随机梯度下降优化分层Transformer网络直至收敛。

8.根据权利要求1所述的一种基于分层Transformer的视频摘要方法，其特征在于：步骤7中，选出使得总分数最大的镜头作为视频摘要，同时满足选出的镜头时长总和不超过原始视频总长度的预设比例a，0＜a＜1。

9.根据权利要求8所述的一种基于分层Transformer的视频摘要方法，其特征在于：最大化所述总分数满足