CN112052841A

CN112052841A - 一种视频摘要的生成方法以及相关装置

Info

Publication number: CN112052841A
Application number: CN202011085432.9A
Authority: CN
Inventors: 闫桂霞; 王晓利; 王瑞琛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2020-12-08
Anticipated expiration: 2040-10-12
Also published as: CN112052841B

Abstract

本申请公开了一种视频摘要的生成方法以及相关装置，应用于人工智能的机器学习技术。通过获取目标视频；然后提取每个视频帧的图像特征，以生成图像特征序列；并将视频帧序列划分为多个目标分段序列，以生成段落特征序列；将图像特征序列和段落特征序列进行融合，以得到融合特征；进而基于融合特征进行强化学习训练，以生成视频摘要。从而实现无监督的视频摘要生成过程，由于结合了图片级别的图像特征和深度级别的段落特征，保证了视频摘要生成的质量，且无监督的视频摘要生成过程无需人工标注，从而提高了视频摘要生成的效率以及准确性。

Description

一种视频摘要的生成方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频摘要的生成方法以及相关装置。

背景技术

随着互联网技术的迅速发展，人们对娱乐形式的要求越来越高。例如在视频观看过程中，可以进行基于视频摘要的快速跳转过程，从而提高视频观看体验。

一般，可以采用有监督的视频摘要生成过程进行摘要生成，该过程需要人工标注好的视频序列做为训练样本。首先进行图片特征提取，然后进行特征编码，结合标签训练出一个提取模型，以确定视频序列中的每幅图片属于摘要的概率，然后对视频进行重组，从而获得视频摘要。

但是，有监督的视频摘要生成的准确性过程受人工标注的影响，且人工标注的过程耗时耗力，容易出现标注错误的情况，影响视频摘要生成的效率及准确性。

发明内容

有鉴于此，本申请提供一种视频摘要的生成方法，可以有效提高视频摘要生成的效率及准确性。

本申请第一方面提供一种视频摘要的生成方法，可以应用于终端设备中包含视频摘要的生成功能的系统或程序中，具体包括：

获取目标视频，所述目标视频包含视频帧序列，所述视频帧序列包含多个视频帧；

提取每个所述视频帧的图像特征，以生成图像特征序列；

将所述视频帧序列划分为多个目标分段序列，以生成段落特征序列；

将所述图像特征序列和所述段落特征序列进行融合，以得到融合特征；

基于所述融合特征进行强化学习训练，以生成视频摘要。

可选的，在本申请一些可能的实现方式中，所述将所述视频帧序列划分为多个目标分段序列，以生成段落特征序列，包括：

基于预设算法对所述视频帧序列进行划分，以得到多个所述目标分段序列；

将所述目标分段序列打包为分段图像特征序列；

对所述分段图像特征序列进行编码，以得到分段特征集合；

基于所述分段特征集合进行特征提取，以生成所述段落特征序列。

可选的，在本申请一些可能的实现方式中，所述对所述分段图像特征序列进行编码，以得到分段特征集合，包括：

获取目标分段序列的段数；

基于所述目标分段序列的段数将所述分段图像特征序列编码为等长的特征，以得到所述分段特征集合。

可选的，在本申请一些可能的实现方式中，所述将所述图像特征序列和所述段落特征序列进行融合，以得到融合特征，包括：

基于所述视频帧序列的帧数和所述目标分段序列的段数确定投影矩阵；

根据所述投影矩阵对所述图像特征序列进行映射，以得到图像映射矩阵；

根据所述投影矩阵对所述段落特征序列进行映射，以得到段落映射矩阵；

将所述图像映射矩阵和所述段落映射矩阵进行融合，以得到所述融合矩阵；

将所述融合矩阵输入双向长短记忆网络，以得到所述融合特征。

可选的，在本申请一些可能的实现方式中，所述基于所述融合特征进行强化学习训练，以生成视频摘要，包括：

将所述融合特征输入奖励方程，以得到反馈值，所述反馈值用于指示所述强化学习训练过程中所述融合特征对应的视频帧属于所述视频摘要的概率；

若所述反馈值达到预设值，则确定对应的概率分布；

基于所述概率分布生成所述视频摘要。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

将所述视频摘要划分为多个后处理分段序列；

提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新。

可选的，在本申请一些可能的实现方式中，所述提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新，包括：

提取所述后处理分段序列中包含的每个视频帧对应的反馈值；

基于所述后处理分段序列中包含的每个视频帧对应的反馈值进行加和，以得到分段序列得分；

根据所述后处理分段序列中包含的视频帧的数量对所述分段序列得分进行加权，以得到关键得分；

基于所述关键得分提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新。

对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整；

统计不同分段数配置下生成的所述视频摘要，以得到性能参数。

可选的，在本申请一些可能的实现方式中，所述对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整，包括：

调用预设公式，所述预设公式基于所述目标视频中视频帧的数量设定；

基于所述预设公式对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

可选的，在本申请一些可能的实现方式中，所述基于所述预设公式对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整，包括：

基于所述预设公式确定基准值；

根据所述基准值进行加权，以得到加权值；

根据所述加权值对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

基于所述预设公式确定基准值；

根据所述基准值划分细粒度参数和粗粒度参数；

将所述细粒度参数和粗粒度参数进行组合，以对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

响应于目标操作确定所述视频摘要中的跳转图像；

基于所述跳转图像将所述目标视频跳转到对应的播放位置，以进行视频播放。

本申请第二方面提供一种视频摘要的生成装置，包括：获取单元，用于获取目标视频，所述目标视频包含视频帧序列，所述视频帧序列包含多个视频帧；

提取单元，用于提取每个所述视频帧的图像特征，以生成图像特征序列；

所述提取单元，还用于将所述视频帧序列划分为多个目标分段序列，以生成段落特征序列；

融合单元，用于将所述图像特征序列和所述段落特征序列进行融合，以得到融合特征；

生成单元，用于基于所述融合特征进行强化学习训练，以生成视频摘要。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于基于预设算法对所述视频帧序列进行划分，以得到多个所述目标分段序列；

所述提取单元，具体用于将所述目标分段序列打包为分段图像特征序列；

所述提取单元，具体用于对所述分段图像特征序列进行编码，以得到分段特征集合；

所述提取单元，具体用于基于所述分段特征集合进行特征提取，以生成所述段落特征序列。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于获取目标分段序列的段数；

所述提取单元，具体用于基于所述目标分段序列的段数将所述分段图像特征序列编码为等长的特征，以得到所述分段特征集合。

可选的，在本申请一些可能的实现方式中，所述融合单元，具体用于基于所述视频帧序列的帧数和所述目标分段序列的段数确定投影矩阵；

所述融合单元，具体用于根据所述投影矩阵对所述图像特征序列进行映射，以得到图像映射矩阵；

所述融合单元，具体用于根据所述投影矩阵对所述段落特征序列进行映射，以得到段落映射矩阵；

所述融合单元，具体用于将所述图像映射矩阵和所述段落映射矩阵进行融合，以得到所述融合矩阵；

所述融合单元，具体用于将所述融合矩阵输入双向长短记忆网络，以得到所述融合特征。

可选的，在本申请一些可能的实现方式中，所述生成单元，具体用于将所述融合特征输入奖励方程，以得到反馈值，所述反馈值用于指示所述强化学习训练过程中所述融合特征对应的视频帧属于所述视频摘要的概率；

所述生成单元，具体用于若所述反馈值达到预设值，则确定对应的概率分布；

所述生成单元，具体用于基于所述概率分布生成所述视频摘要。

可选的，在本申请一些可能的实现方式中，所述生成单元，具体用于将所述视频摘要划分为多个后处理分段序列；

所述生成单元，具体用于提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于提取所述后处理分段序列中包含的每个视频帧对应的反馈值；

所述提取单元，具体用于基于所述后处理分段序列中包含的每个视频帧对应的反馈值进行加和，以得到分段序列得分；

所述提取单元，具体用于根据所述后处理分段序列中包含的视频帧的数量对所述分段序列得分进行加权，以得到关键得分；

所述提取单元，具体用于基于所述关键得分提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新。

可选的，在本申请一些可能的实现方式中，所述生成单元，具体用于对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整；

所述生成单元，具体用于统计不同分段数配置下生成的所述视频摘要，以得到性能参数。

可选的，在本申请一些可能的实现方式中，所述生成单元，具体用于调用预设公式，所述预设公式基于所述目标视频中视频帧的数量设定；

所述生成单元，具体用于基于所述预设公式对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

可选的，在本申请一些可能的实现方式中，所述生成单元，具体用于基于所述预设公式确定基准值；

所述生成单元，具体用于根据所述基准值进行加权，以得到加权值；

所述生成单元，具体用于根据所述加权值对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

所述生成单元，具体用于根据所述基准值划分细粒度参数和粗粒度参数；

所述生成单元，具体用于将所述细粒度参数和粗粒度参数进行组合，以对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

可选的，在本申请一些可能的实现方式中，所述生成单元，具体用于响应于目标操作确定所述视频摘要中的跳转图像；

所述生成单元，具体用于基于所述跳转图像将所述目标视频跳转到对应的播放位置，以进行视频播放。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的视频摘要的生成方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的视频摘要的生成方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的视频摘要的生成方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取目标视频，其中目标视频包含视频帧序列，视频帧序列包含多个视频帧；然后提取每个视频帧的图像特征，以生成图像特征序列；并将视频帧序列划分为多个目标分段序列，以生成段落特征序列；进一步的将图像特征序列和段落特征序列进行融合，以得到融合特征；进而基于融合特征进行强化学习训练，以生成视频摘要。从而实现无监督的视频摘要生成过程，由于结合了图片级别的图像特征和深度级别的段落特征，保证了视频摘要生成的质量，且无监督的视频摘要生成过程无需人工标注，从而提高了视频摘要生成的效率以及准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为视频摘要的生成系统运行的网络架构图；

图2为本申请实施例提供的一种视频摘要的生成的流程架构图；

图3为本申请实施例提供的一种视频摘要的生成方法的流程图；

图4为本申请实施例提供的一种视频摘要的生成方法的场景示意图；

图5为本申请实施例提供的另一种视频摘要的生成方法的场景示意图；

图6为本申请实施例提供的另一种视频摘要的生成方法的场景示意图；

图7为本申请实施例提供的另一种视频摘要的生成方法的流程图；

图8为本申请实施例提供的一种视频摘要的生成装置的结构示意图；

图9为本申请实施例提供的一种终端设备的结构示意图；

图10为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种视频摘要的生成方法以及相关装置，可以应用于终端设备中包含视频摘要的生成功能的系统或程序中，通过获取目标视频，其中，目标视频包含视频帧序列，视频帧序列包含多个视频帧；然后提取每个视频帧的图像特征，以生成图像特征序列；并将视频帧序列划分为多个目标分段序列，以生成段落特征序列；进一步的将图像特征序列和段落特征序列进行融合，以得到融合特征；进而基于融合特征进行强化学习训练，以生成视频摘要。从而实现无监督的视频摘要生成过程，由于结合了图片级别的图像特征和深度级别的段落特征，保证了视频摘要生成的质量，且无监督的视频摘要生成过程无需人工标注，从而提高了视频摘要生成的效率以及准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

视频摘要：通过分析视频的结构和内容存在的时空冗余，从原始视频中提取有意义的片段/帧的过程。

内核时间分段算法(Kernel Temporal Segmentation，KTS)：检测帧之间具有相似性的视频变化点。视频帧由一些描述符表示，然后通过惩罚策略将所有段内方差的总和最小化，同时将段的合计保持最小的算法。

特征融合：同时提取多种特征进行分类器的训练，实现特征互补，降低单一特征固有缺陷的影响。

强化学习：强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统如何去产生正确的动作。

应理解，本申请提供的视频摘要的生成方法可以应用于终端设备中包含视频摘要的生成功能的系统或程序中，例如视频播放器，具体的，视频摘要的生成系统可以运行于如图1所示的网络架构中，如图1所示，是视频摘要的生成系统运行的网络架构图，如图可知，视频摘要的生成系统可以提供与多个信息源的视频摘要的生成过程，即通过终端侧指示目标视频，使得服务器对目标视频进行视频摘要的生成并标注，然后将标注后的视频返回至终端设备，从而使得终端设备可以根据视频摘要进行快速的跳转操作；可以理解的是，图1中示出了多种终端设备，终端设备可以为计算机设备，在实际场景中可以有更多或更少种类的终端设备参与到视频摘要的生成的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端以及服务器可以连接组成区块链网络，本申请在此不做限制。

可以理解的是，上述视频摘要的生成系统可以运行于个人移动终端，例如：作为视频播放器这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供视频摘要的生成，以得到信息源的视频摘要的生成处理结果；具体的视频摘要的生成系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

一般，可以采用机器学习中的有监督的视频摘要生成过程进行摘要生成，该过程需要人工标注好的视频序列做为训练样本。首先进行图片特征提取，然后进行特征编码，结合标签训练出一个提取模型，以确定视频序列中的每幅图片属于摘要的概率，然后对视频进行重组，从而获得视频摘要。

为了解决上述问题，本申请提出了一种视频摘要的生成方法，该方法应用于图2所示的视频摘要的生成的流程框架中，如图2所示，为本申请实施例提供的一种视频摘要的生成的流程架构图，通过提取目标视频中的图像特征和段落特征，并将图像特征和段落特征融合得到融合特征，从不同的维度描述了摘要的特征，进而通过奖励函数进行强化学习，以得到合适的视频摘要，并基于该视频摘要对目标视频进行标注。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种视频摘要的生成装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该视频摘要的生成装置通过获取目标视频，其中目标视频包含视频帧序列，视频帧序列包含多个视频帧；然后提取每个视频帧的图像特征，以生成图像特征序列；并将视频帧序列划分为多个目标分段序列，以生成段落特征序列；进一步的将图像特征序列和段落特征序列进行融合，以得到融合特征；进而基于融合特征进行强化学习训练，以生成视频摘要。从而实现无监督的视频摘要生成过程，由于结合了图片级别的图像特征和深度级别的段落特征，保证了视频摘要生成的质量，且无监督的视频摘要生成过程无需人工标注，从而提高了视频摘要生成的效率以及准确性。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

结合上述流程架构，下面将对本申请中视频摘要的生成方法进行介绍，请参阅图3，图3为本申请实施例提供的一种视频摘要的生成方法的流程图，该管理方法可以是由终端设备执行的，也可以有服务器执行的，还可以是由终端设备和服务器共同执行的，下面以终端设备执行为例进行说明。本申请实施例至少包括以下步骤：

301、获取目标视频。

本实施例中，目标视频包含视频帧序列，视频帧序列包含多个视频帧；具体的，目标视频可以是服务器数据库中未进行视频摘要标注的视频，即服务自动维护的过程；目标视频还可以是用户即将观看的视频，从而进行视频摘要的标注，以使得用户可以便捷的进行视频跳转。

302、提取每个视频帧的图像特征，以生成图像特征序列。

本实施例中，提取视频帧的图像特征可以是使用卷积神经网络的主干网络(CNNbackbone)提取的，由于每个视频帧都对应了一副图像，故通过对视频帧的图像特征的提取，并将图像特征进行排列，即可以生成图像特征序列。

可以理解的是，在生成图像特征序列之后，即可以将图像特征序列输入本申请提供的图像段落融合结构网络(frame and shot fusion structure，FSF)中，即步骤303-304的处理过程为FSF的处理逻辑，下面对该过程进行说明。

303、将视频帧序列划分为多个目标分段序列，以生成段落特征序列。

本实施例中，由于在图像工程中，需要提取特征进行识别操作。通常一种特征通常只对图像部分特性的变化较为敏感，而对其他特性的变化不敏感，导致后面的识别过程有片面化的问题。故在本申请中提取了包括图像特征和段落特征两个维度，其中，图像特征即用于指示目标视频中图像的变化关系，为一种细节特征，可以将包含同一类图像特征的视频帧归为一类；而段落特征则用于指示目标视频中各段落的特征集合，为一种结构特征，相较于图像特征，段落特征整合了多个图像特征以及其中的上下文关系，不会受到少数图像变化对于摘要判定的影响。

具体的，对于生成段落特征序列的过程可以首先采用预设算法(例如KTS算法)对视频帧序列进行划分，以得到多个目标分段序列(shot)；然后将目标分段序列打包为分段图像特征序列(G＝{g1，g2，...,gN})；接下来对分段图像特征序列进行编码(例如将分段图像特征序列输入长短期记忆神经网络)，以得到分段特征集合(Vec)；进而基于分段特征集合进行特征提取(例如将分段特征集合输入双向长短记忆神经网络)，以生成段落特征序列。从而实现了由目标视频的结构划分，并提取各个结构节点的特征(段落特征)。

进一步的，考虑到段落特征中包含元素的对应性，可以为每个分段特征集合分配相同的特征元素，即首先获取目标分段序列的段数N；然后基于目标分段序列的段数将分段图像特征序列编码为等长的特征，以得到分段特征集合。

304、将图像特征序列和段落特征序列进行融合，以得到融合特征。

本实施例中，特征融合的过程需要将图像特征序列和段落特征序列进行投影矩阵的扩展；具体的，首先基于视频帧序列的帧数T和目标分段序列的段数N确定投影矩阵T*N；根据投影矩阵对图像特征序列进行映射，以得到图像映射矩阵Linear_F；根据投影矩阵对段落特征序列进行映射，以得到段落映射矩阵Linear_S；将图像映射矩阵和段落映射矩阵进行融合，以得到融合矩阵F_fusion；将融合矩阵输入双向长短记忆网络，以得到融合特征F_fusion。具体的，融合矩阵可以表示为：

F_fusion＝FLinear_F+S^PLinear_S

其中，投影矩阵的尺寸为(T*N)，其中T是帧数，N是分段数，F为图像特征序列，S^P为扩展后的段落特征序列。

在一种可能的场景中，融合矩阵的生成过程如图4所示，图4为本申请实施例提供的一种视频摘要的生成方法的场景示意图。通过对图像特征进行投影矩阵的转换，并与经过投影矩阵转换后的目标分段序列进行乘积，使得特征相互关联，从而达到特征融合的目的。

305、基于融合特征进行强化学习训练，以生成视频摘要。

本实施例中，强化学习训练的过程如图5所示，图5为本申请实施例提供的一种基于强化学习的模型训练的流程架构图，即智能体(Agent)选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个奖励值反馈给Agent，Agent根据奖励值和环境当前状态再选择下一个动作，选择的原则是使受到正向奖励值的概率增大。选择的动作不仅影响立即奖励值，而且影响环境下一时刻的状态及最终的强化值，从而实现循环的响应过程。

在本申请中，环境即为奖励函数，而状态信息即为奖励函数的参数，反馈值基于奖励函数的输出，动作信息即为视频帧为视频摘要的概率，通过奖励函数不断都进行自监督的参数调整，使得智能体基于融合特征输出的概率达到预设值，即完成强化学习训练过程。

基于强化学习的场景，对于生成视频摘要的过程，即将融合特征输入奖励方程，以得到反馈值；若反馈值达到预设值，则确定对应的概率分布；然后基于概率分布生成视频摘要。其中，反馈值用于指示强化学习训练过程中融合特征对应的视频帧属于视频摘要的概率，然后将概率指示较高的视频帧作为视频摘要。

在一种可能的场景汇总，奖励函数如下所示：

其中p_θ(a_1:T)表示可能的动作序列上的概率分布，J(θ)为奖励函数，R(S)为反馈值。

结合上述实施例可知，本申请的视频摘要生成过程可以采用图6所示的模型架构，图6为本申请实施例提供的一种模型架构图。即首先使用卷积神经网络(CNNbackbone)提取视频V中每一幅图像的特征，设视频中包含t个图，得到图片级别的特征序列；然后将图像使用KTS算法分成若干分段(shot)，即视频被分成小段，设分为N段，形成一个序列。然后通过将每个shot打包成图片特征的序列，形成分段图像特征序列G＝{g1，g2，...,gN}，进一步的，对于G中的每个元素，通过一个长短期记忆网络(lstm)结构，编码成等长的特征，组成分段特征集合Vec，即Vec含有N个元素，然后将Vec输入一个双向长短记忆神经网络(BiLSTM)结构，编码成段落特征；接下来通过段落级别的特征与图像极的特征进行融合，形成Ffusion；最后将融合后的特征输入一个BiLSTM结构，然后经过一个Reward方程，基于反馈值进行视频摘要的生成。

表1不同方法的性能参数

在一种可能的场景中，采用上述架构可以得到如表1的性能参数，如表1所示，为不同方法的性能参数列表。

可见本申请中的U-VSSF算法较其他算法具有更好的相关性，即性能更佳，且还可以进行数据的增强。

结合上述实施例可知，通过获取目标视频，其中目标视频包含视频帧序列，视频帧序列包含多个视频帧；然后提取每个视频帧的图像特征，以生成图像特征序列；并将视频帧序列划分为多个目标分段序列，以生成段落特征序列；进一步的将图像特征序列和段落特征序列进行融合，以得到融合特征；进而基于融合特征进行强化学习训练，以生成视频摘要。从而实现无监督的视频摘要生成过程，由于结合了图片级别的图像特征和深度级别的段落特征，保证了视频摘要生成的质量，且无监督的视频摘要生成过程无需人工标注，从而提高了视频摘要生成的效率以及准确性。

上述实施例介绍了本申请提供的算法进行数据增强后的性能，下面对该场景进行说明。请参阅图7，图7为本申请实施例提供的另一种视频摘要的生成方法的流程图，本申请实施例至少包括以下步骤：

701、获取目标视频。

702、提取每个视频帧的图像特征，以生成图像特征序列。

703、将视频帧序列划分为多个目标分段序列，以生成段落特征序列。

704、将图像特征序列和段落特征序列进行融合，以得到融合特征。

705、基于融合特征进行强化学习训练，以生成视频摘要。

本实施例中，步骤701-705与图3所示实施例的步骤301-305相似，相关特征描述可以进行参考，此处不做赘述。

706、基于后处理进程对视频摘要进行更新。

本实施例中，后处理进程即将视频摘要划分为多个后处理分段序列；然后提取后处理分段序列中的关键段落，以对视频摘要进行更新。相当于对于视频摘要的二次筛选，保证了视频摘要的准确性。

具体的，对于关键段落的确定，可以是首先提取后处理分段序列中包含的每个视频帧对应的反馈值；然后基于后处理分段序列中包含的每个视频帧对应的反馈值进行加和，以得到分段序列得分；并根据后处理分段序列中包含的视频帧的数量对分段序列得分进行加权，以得到关键得分；从而基于关键得分提取后处理分段序列中的关键段落，以对视频摘要进行更新。即对于每个分段，将分段中的帧得分总和作为其分段序列得分，并将帧数作为权重，从而得到关键得分，关键得分较高的即为关键段落，从而提高了关键段落筛选的准确性。

707、调整目标分段序列的分段数和后处理分段序列的分段数。

本实施例中，目标分段序列的分段数和后处理分段序列的分段数的调整过程可以是基于不同的维度进行的。通过对目标分段序列的分段数和后处理分段序列的分段数进行调整；从而统计不同分段数配置下生成的视频摘要，以得到性能参数最佳的组合。

首先，可以通过预设公式调整，例如分段数base-count＝n_frames/150，其中，n_frames是视频中含有帧数量；即首先调用预设公式，其中预设公式基于目标视频中视频帧的数量设定；然后基于预设公式对目标分段序列的分段数和后处理分段序列的分段数进行调整。

进一步的，在预设公式的基础上，可以进行加权，即首先基于预设公式确定基准值；然后根据基准值进行加权，以得到加权值；进而根据加权值对目标分段序列的分段数和后处理分段序列的分段数进行调整。从而提高了调整的差异度。

另外，调整过程还可以是基于不同调整粒度的分配，例如将shot数量设置为2*base-count和0.5*base-count，分别称为细粒度参数fine-grained和粗粒度参数coarse-grained。具体的，即基于预设公式确定基准值；然后根据基准值划分细粒度参数和粗粒度参数；并将细粒度参数和粗粒度参数进行组合，以对目标分段序列的分段数和后处理分段序列的分段数进行调整。

通过上述调整的方法进行目标分段数与后处理分段数的组合，可以得到不同的性能结果。

708、统计不同分段数组合对应的性能结果。

本实施例中，性能记过可以采用非模型评价打分(F-Score)，是一种衡量特征在两类之间分辨能力的方法，通过此方法可以实现最有效的特征选择。

具体的，采用SumMe和TVSum作为基准数据集。其中SumMe包含25个视频，每个视频至少由15个人进行注释(总共390个)，并且关键镜头(分段)被主观地标记出来，这意味着在注释过程中必须估计视频的正确镜头边界。TVSum包含50个不同类型的视频(例如新闻，操作方法，纪录片，vlog，以自我为中心)，并且通过众包获得了1000个镜头级重要性分数的注释(每个视频20个)。

表2不同调整方式对应的性能参数

具体的组合过程以及性能结果参见表2，可见，对不同粒度下的目标分段数与后处理分段数的组合可以得到不同的性能，从而筛选出性能最佳的组合方式，以提高视频摘要提取的准确性。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图8，图8为本申请实施例提供的一种视频摘要的生成装置的结构示意图，生成装置800包括：

获取单元801，用于获取目标视频，所述目标视频包含视频帧序列，所述视频帧序列包含多个视频帧；

提取单元802，用于提取每个所述视频帧的图像特征，以生成图像特征序列；

所述提取单元802，还用于将所述视频帧序列划分为多个目标分段序列，以生成段落特征序列；

融合单元803，用于将所述图像特征序列和所述段落特征序列进行融合，以得到融合特征；

生成单元804，用于基于所述融合特征进行强化学习训练，以生成视频摘要。

可选的，在本申请一些可能的实现方式中，所述提取单元802，具体用于基于预设算法对所述视频帧序列进行划分，以得到多个所述目标分段序列；

所述提取单元802，具体用于将所述目标分段序列打包为分段图像特征序列；

所述提取单元802，具体用于对所述分段图像特征序列进行编码，以得到分段特征集合；

所述提取单元802，具体用于基于所述分段特征集合进行特征提取，以生成所述段落特征序列。

可选的，在本申请一些可能的实现方式中，所述提取单元802，具体用于获取目标分段序列的段数；

所述提取单元802，具体用于基于所述目标分段序列的段数将所述分段图像特征序列编码为等长的特征，以得到所述分段特征集合。

可选的，在本申请一些可能的实现方式中，所述融合单元803，具体用于基于所述视频帧序列的帧数和所述目标分段序列的段数确定投影矩阵；

所述融合单元803，具体用于根据所述投影矩阵对所述图像特征序列进行映射，以得到图像映射矩阵；

所述融合单元803，具体用于根据所述投影矩阵对所述段落特征序列进行映射，以得到段落映射矩阵；

所述融合单元803，具体用于将所述图像映射矩阵和所述段落映射矩阵进行融合，以得到所述融合矩阵；

所述融合单元803，具体用于将所述融合矩阵输入双向长短记忆网络，以得到所述融合特征。

可选的，在本申请一些可能的实现方式中，所述生成单元804，具体用于将所述融合特征输入奖励方程，以得到反馈值，所述反馈值用于指示所述强化学习训练过程中所述融合特征对应的视频帧属于所述视频摘要的概率；

所述生成单元804，具体用于若所述反馈值达到预设值，则确定对应的概率分布；

所述生成单元804，具体用于基于所述概率分布生成所述视频摘要。

可选的，在本申请一些可能的实现方式中，所述生成单元804，具体用于将所述视频摘要划分为多个后处理分段序列；

所述生成单元804，具体用于提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新。

可选的，在本申请一些可能的实现方式中，所述提取单元802，具体用于提取所述后处理分段序列中包含的每个视频帧对应的反馈值；

所述提取单元802，具体用于基于所述后处理分段序列中包含的每个视频帧对应的反馈值进行加和，以得到分段序列得分；

所述提取单元802，具体用于根据所述后处理分段序列中包含的视频帧的数量对所述分段序列得分进行加权，以得到关键得分；

所述提取单元802，具体用于基于所述关键得分提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新。

可选的，在本申请一些可能的实现方式中，所述生成单元804，具体用于对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整；

所述生成单元804，具体用于统计不同分段数配置下生成的所述视频摘要，以得到性能参数。

可选的，在本申请一些可能的实现方式中，所述生成单元804，具体用于调用预设公式，所述预设公式基于所述目标视频中视频帧的数量设定；

所述生成单元804，具体用于基于所述预设公式对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

可选的，在本申请一些可能的实现方式中，所述生成单元804，具体用于基于所述预设公式确定基准值；

所述生成单元804，具体用于根据所述基准值进行加权，以得到加权值；

所述生成单元804，具体用于根据所述加权值对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

所述生成单元804，具体用于根据所述基准值划分细粒度参数和粗粒度参数；

所述生成单元804，具体用于将所述细粒度参数和粗粒度参数进行组合，以对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整。

可选的，在本申请一些可能的实现方式中，所述生成单元804，具体用于响应于目标操作确定所述视频摘要中的跳转图像；

所述生成单元804，具体用于基于所述跳转图像将所述目标视频跳转到对应的播放位置，以进行视频播放。

本申请实施例还提供了一种终端设备，如图9所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图9示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图9，手机包括：射频(radio frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作，以及在触控面板931上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；可选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，可选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器980还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图10，图10是本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由管理装置所执行的步骤可以基于该图10所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有视频摘要的生成指令，当其在计算机上运行时，使得计算机执行如前述图2至图7所示实施例描述的方法中视频摘要的生成装置所执行的步骤。

本申请实施例中还提供一种包括视频摘要的生成指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2至图7所示实施例描述的方法中视频摘要的生成装置所执行的步骤。

本申请实施例还提供了一种视频摘要的生成系统，所述视频摘要的生成系统可以包含图8所描述实施例中的视频摘要的生成装置，或图9所描述实施例中的终端设备，或者图10所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，视频摘要的生成装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频摘要的生成方法，其特征在于，包括：

提取每个所述视频帧的图像特征，以生成图像特征序列；

基于所述融合特征进行强化学习训练，以生成视频摘要。

2.根据权利要求1所述的方法，其特征在于，所述将所述视频帧序列划分为多个目标分段序列，以生成段落特征序列，包括：

将所述目标分段序列打包为分段图像特征序列；

对所述分段图像特征序列进行编码，以得到分段特征集合；

3.根据权利要求2所述的方法，其特征在于，所述对所述分段图像特征序列进行编码，以得到分段特征集合，包括：

获取目标分段序列的段数；

4.根据权利要求1所述的方法，其特征在于，所述将所述图像特征序列和所述段落特征序列进行融合，以得到融合特征，包括：

将所述图像映射矩阵和所述段落映射矩阵进行融合，以得到融合矩阵；

5.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征进行强化学习训练，以生成视频摘要，包括：

若所述反馈值达到预设值，则确定对应的概率分布；

基于所述概率分布生成所述视频摘要。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

将所述视频摘要划分为多个后处理分段序列；

7.根据权利要求6所述的方法，其特征在于，所述提取所述后处理分段序列中的关键段落，以对所述视频摘要进行更新，包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述预设公式对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整，包括：

基于所述预设公式确定基准值；

根据所述基准值进行加权，以得到加权值；

11.根据权利要求9所述的方法，其特征在于，所述基于所述预设公式对所述目标分段序列的分段数和所述后处理分段序列的分段数进行调整，包括：

基于所述预设公式确定基准值；

根据所述基准值划分细粒度参数和粗粒度参数；

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于目标操作确定所述视频摘要中的跳转图像；

13.一种视频摘要的生成装置，其特征在于，包括：

获取单元，用于获取目标视频，所述目标视频包含视频帧序列，所述视频帧序列包含多个视频帧；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的视频摘要的生成方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至12任一项所述的视频摘要的生成方法。