CN111026914B

CN111026914B - 视频摘要模型的训练方法、视频摘要生成方法及装置

Info

Publication number: CN111026914B
Application number: CN201911221126.0A
Authority: CN
Inventors: 闫桂霞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2024-05-28
Anticipated expiration: 2039-12-03
Also published as: CN111026914A

Abstract

本发明提供了一种视频摘要模型的训练方法、装置及存储介质；视频摘要模型的训练方法包括：分别对目标视频的视频帧序列中各视频帧进行特征提取，得到各视频帧的第一图像特征；结合各视频帧的第一图像特征，确定目标视频的特征复杂度；当特征复杂度满足特征复杂度条件时，将视频帧序列输入至视频摘要模型，得到对应目标视频的视频摘要，视频摘要包括由多个关键帧构成的关键帧序列；基于得到的目标视频的视频摘要，确定深度强化学习的奖励函数的值；基于奖励函数的值，更新视频摘要模型的模型参数。如此，能够自动识别视频的特征复杂度，并在特征复杂度满足特征复杂度条件的情况下采用无监督的方式训练视频摘要模型，提高输出视频摘要的准确度。

Description

视频摘要模型的训练方法、视频摘要生成方法及装置

技术领域

本发明涉及人工智能(AI，Artificial Intelligence)技术领域，尤其涉及一种视频摘要模型的训练方法、基于人工智能的视频摘要生成方法、装置、电子设备及存储介质。

背景技术

机器学习(ML，machine Learning)是人工智能的一个分支，其目的是让机器根据先验的知识进行学习，从而具有分类和判断的逻辑能力。以神经网络为代表的机器学习模型不断发展，被逐渐应用到视频摘要生成中，从而实现基于视频摘要生成的各种智能化应用。

相关技术中，可通过有监督方式或无监督方式训练视频摘要模型，通过有监督的方式训练所采用的训练数据需要标注，而视频的标注困难、迁移效率低；通过无监督方式无需进行标注，然此方式训练得到的视频摘要模型相较于有监督方式的摘要准确度低；由于不同视频所包含的内容不同，致使有些视频适合采用有监督方式进行训练，有些视频适合采用无监督方式训练，然对于某特定视频，相关技术中无法智能的识别相应的训练方式。

发明内容

本发明实施例提供一种视频摘要模型的训练方法、基于人工智能的视频摘要生成方法、装置、电子设备及存储介质，能够自动识别视频的特征复杂度，并在特征复杂度满足特征复杂度条件的情况下采用无监督的方式训练视频摘要模型，提高输出视频摘要的准确度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种视频摘要模型的训练方法，包括：

分别对目标视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征；

结合各所述视频帧的所述第一图像特征，确定所述目标视频的特征复杂度，所述特征复杂度用于表征所述目标视频的内容复杂程度；

当所述目标视频的特征复杂度满足特征复杂度条件时，将所述视频帧序列输入至视频摘要模型，得到对应所述目标视频的视频摘要，所述视频摘要包括由多个关键帧构成的关键帧序列；

基于得到的所述目标视频的视频摘要，确定深度强化学习的奖励函数的值；

基于所述奖励函数的值，更新所述视频摘要模型的模型参数。

本发明实施例还提供一种视频摘要模型的训练装置，所述装置包括：

特征提取模块，用于分别对目标视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征；

第一确定模块，用于结合各所述视频帧的所述第一图像特征，确定所述目标视频的特征复杂度，所述特征复杂度用于表征所述目标视频的内容复杂程度；

第一视频摘要模块，用于当所述目标视频的特征复杂度满足特征复杂度条件时，将所述视频帧序列输入至视频摘要模型，得到对应所述目标视频的视频摘要，所述视频摘要包括由多个关键帧构成的关键帧序列；

第二确定模块，用于基于得到的所述目标视频的视频摘要，确定深度强化学习的奖励函数的值；

参数更新模块，用于基于所述奖励函数的值，更新所述视频摘要模型的模型参数。

上述方案中，所述装置还包括：

序列获取模块，用于解码所述目标视频，得到所述目标视频的多个视频帧；

基于固定视频帧间隔，顺序的从所述多个视频帧中提取多个视频帧，形成所述目标视频的视频帧序列。

上述方案中，所述特征提取模块，还用于分别提取各所述视频帧的颜色特征及纹理特征；

融合所述颜色特征及纹理特征，得到各所述视频帧的第一图像特征。

上述方案中，所述特征提取模块，还用于获取所述视频帧中各像素点的色调-饱和度-明度HSV值；

对所述视频帧对应的HSV值进行模糊过滤，得到对应所述视频帧的颜色特征。

上述方案中，所述特征提取模块，还用于分别获取各所述视频帧的YIQ彩色空间值；

对所述视频帧的YIQ彩色空间值进行数字滤波，得到所述视频帧的纹理特征。

上述方案中，所述第一确定模块，还用于获取所述视频帧序列中视频帧的数量；

当所述视频帧序列中视频帧的数量为N，N为正整数时，确定N个所述视频帧的第一图像特征的均方差，将得到的均方差结果作为所述目标视频的特征复杂度。

上述方案中，所述第一视频摘要模块，还用于通过所述视频摘要模型包括的特征提取网络，分别对所述视频帧序列的各视频帧进行特征提取，得到各所述视频帧的第二图像特征；

基于各所述视频帧的第二图像特征，通过所述视频摘要模型包括的软注意力网络，对所述视频帧序列的视频帧进行分类，得到对应所述目标视频的视频摘要。

上述方案中，所述第二确定模块，还用于基于得到的所述目标视频的视频摘要，确定所述视频摘要的多样性奖励及代表性奖励；

其中，所述多样性奖励用于表征所述视频摘要中视频帧的多样性，所述代表性奖励用于表征所述视频摘要能够代表所述目标视频的程度；

结合所述多样性奖励及代表性奖励，确定深度强化学习的奖励函数的值。

上述方案中，所述第二确定模块，还用于确定所述目标视频的视频摘要在特征空间中的帧间差异性；

基于所述帧间差异性，确定所述视频摘要的多样性奖励。

上述方案中，所述第二确定模块，还用于确定所述视频摘要中各视频帧在特征空间中与聚类中心的距离；

基于确定的所述聚类，确定所述视频摘要的代表性奖励。

上述方案中，所述参数更新模块，还用于基于所述奖励函数的值，确定所述视频摘要模型的目标函数的值；

当所述目标函数的值超出预设阈值时，采用梯度下降方法更新所述视频摘要模型的模型参数。

上述方案中，所述装置还包括：

第二视频摘要模块，用于获取待处理视频的视频帧序列；

通过所述视频摘要模型包括的特征提取网络，对所述待处理视频的视频帧序列进行特征提取，得到所述视频帧序列中各视频帧的第三图像特征；

基于各所述视频帧的第三图像特征，通过所述视频摘要模型包括的软注意力网络，对所述待处理视频的视频帧进行分类，得到对应所述待处理视频的视频摘要。

本发明实施例还提供一种基于人工智能的视频摘要生成方法，所述方法包括：

分别对待处理视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征；

结合各所述视频帧的所述第一图像特征，确定所述待处理视频的特征复杂度，所述特征复杂度用于表征所述待处理视频的内容复杂程度；

当所述待处理视频的特征复杂度满足特征复杂度条件时，通过视频摘要模型包括的特征提取网络，对所述待处理视频的视频帧序列进行特征提取，得到所述视频帧序列中各视频帧的第二图像特征；

基于各所述视频帧的第二图像特征，通过所述视频摘要模型包括的软注意力网络，对所述待处理视频的视频帧进行分类，得到对应所述待处理视频的视频摘要；

其中，所述视频摘要模型通过权利要求1至权利要求12任一项所述的视频摘要模型的训练方法训练得到。

本发明实施例还提供一种基于人工智能的视频摘要生成装置，所述装置包括：

第一提取模块，用于分别对待处理视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征；

复杂度确定模块，用于结合各所述视频帧的所述第一图像特征，确定所述待处理视频的特征复杂度，所述特征复杂度用于表征所述待处理视频的内容复杂程度；

第二提取模块，用于当所述待处理视频的特征复杂度满足特征复杂度条件时，通过视频摘要模型包括的特征提取网络，对所述待处理视频的视频帧序列进行特征提取，得到所述视频帧序列中各视频帧的第二图像特征；

分类模块，用于基于各所述视频帧的第二图像特征，通过所述视频摘要模型包括的软注意力网络，对所述待处理视频的视频帧进行分类，得到对应所述待处理视频的视频摘要；

本发明实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频摘要模型的训练方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频摘要模型的训练方法。

本发明实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的视频摘要生成方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的视频摘要生成方法。

本发明实施例具有以下有益技术效果：

应用本发明上述实施例，结合目标视频的视频帧的图像特征，确定目标视频的特征复杂度，进而依据特征复杂度确定相应的训练方式，当目标视频的特征复杂度满足特征复杂度条件时，采用无监督的方式对视频摘要模型进行训练，基于深度强化学习对视频摘要模型的训练，提高训练得到的视频摘要模型输出视频摘要的准确度。

附图说明

图1为相关技术提供的视频摘要的提取流程示意图；

图2为相关技术中采用有监督方式进行视频摘要模型训练的示意图；

图3为相关技术中采用无监督方式进行视频摘要模型训练的示意图；

图4为本发明实施例提供的视频摘要模型的训练系统的一个可选的架构示意图；

图5为本发明实施例提供的电子设备的结构示意图；

图6为本发明实施例提供的视频摘要模型的训练方法的流程示意图；

图7为本发明实施例提供的CEED特征提取的流程示意图；

图8为本发明实施例提供的视频摘要模型的结构示意图；

图9为本发明实施例提供的视频摘要模型的结构示意图；

图10为有监督方式的视频摘要模型的结构示意图；

图11及图12为本发明实施例提供的视频摘要模型的训练方法的流程示意图；

图13为本发明实施例提供的视频摘要模型的训练装置的组成结构示意图；

图14为本发明实施例提供的基于人工智能的视频摘要生成装置的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)视频摘要，对视频内容的一个简单概括，又称为视频概要，用一系列从原始视频流中抽取出来的静态语义单元表示视频内容，即在一段视频中提取一些关键帧，通过多个关键帧组合成视频摘要，使得用户可以通过少量的关键帧快速浏览原始视频内容；

图1为相关技术提供的视频摘要的提取流程示意图，参见图1，对于一个特定的视频文件，首先提取视频中帧图像的图像特征，然后基于提取的图像特征从多个视频帧中抽取关键帧，对抽取得到的多个关键帧进行组合，得到该视频的视频摘要。

2)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

相关技术中，可通过有监督方式或无监督方式训练视频摘要模型，图2为相关技术中采用有监督方式进行视频摘要模型训练的示意图，参见图2，结合了长短期记忆网络(LSTM，Long Short-Term Memory)及行列式点过程(DPP，Determinantal Point Process)，首先，利用GoogleNet网络获取视频每帧的特征信息，即为图2中的x1至xT，然后将特征信息输入网络中，经过双层LSTM之后，获得y1至yT，即视频帧的关键性分值，以及ф1至фT，即帧间的相似性，然后进行DPP过程，也即，利用获得的帧间相似性对整体视频进行时间分割，以避免提取的关键帧重复。得到每个视频帧的关键性分值之后，根据分值大小以及视频摘要所需要的关键帧数目，进行关键帧提取，最后，可以将获得的关键帧处理为关键图集或对其进行聚类后重新组合，获得概括有视频内容的视频摘要(短视频)。

相关技术中采用无监督方式获取视频摘要的方法流程可以包括：1)通过一些图像处理算子对视频帧进行特征提取；2)基于提取的图像特征去除视频帧中相似度较大的帧；3)对去除相似度较大的帧后剩余的视频帧做聚类处理，提取关键帧；4)对提取的关键帧进行重组，形成视频摘要。

图3为相关技术中采用无监督方式进行视频摘要模型训练的示意图，参见图3，结合卷积神经网络(CNN，Convolutional Neural Networks)、LSTM及深度强化学习方法，通过训练深度摘要网络(DSN，Deep Summarization Network)实现视频摘要的生成，DSN为编码-解码结构，其中，编码器是一个能够提取视频帧特征的卷积神经网络，解码器是一个双向LSTM网络，能够基于被选中的动作生成概率，在训练过程中，通过CNN及LSTM提取帧图像特征及帧相关性，进而生成视频摘要，即关键帧序列，然后通过设计的多样性-代表性奖励(diversity-representativeness reward)函数，可以直接判断生成的视频摘要的多样性和代表性，进而计算奖励，采用多样性及代表性共同指导DSN的学习，通过产生高质量的视频摘要最大化预期的奖励。

基于此，提出本发明实施例的视频摘要模型的训练方法、基于人工智能的视频摘要生成方法、装置、电子设备及存储介质，接下来分别进行说明。

图4为本发明实施例提供的视频摘要模型的训练系统的一个可选的架构示意图，参见图4，为实现支撑一个示例性应用，终端包括终端400-1和终端400-2，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端(如终端400-1)，用于发送视频摘要模型的训练请求给服务器200，训练请求中携带用于模型训练的目标视频；

在实际应用中，终端可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

服务器200，用于分别对目标视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征；

以及，结合各所述视频帧的所述第一图像特征，确定所述目标视频的特征复杂度，所述特征复杂度用于表征所述目标视频的内容复杂程度；

以及，当所述目标视频的特征复杂度满足特征复杂度条件时，将所述视频帧序列输入至视频摘要模型，得到对应所述目标视频的视频摘要，所述视频摘要包括由多个关键帧构成的关键帧序列；

以及，基于得到的所述目标视频的视频摘要，确定深度强化学习的奖励函数的值；

以及，基于所述奖励函数的值，更新所述视频摘要模型的模型参数；

在实际实施时，服务器200既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群；

终端(如终端400-1)，还用于发送视频摘要生成请求给服务器200；视频摘要生成请求中携带待处理视频的视频帧序列；

服务器200，还用于解析接收到的视频摘要生成请求，得到待处理视频的视频帧序列，将得到的视频帧序列输入至训练得到的视频摘要模型，得到对应待处理视频的视频摘要，并返回得到的视频摘要给终端。

在一些实施例中，终端(如终端400-1)上设置有视频摘要客户端，用户通过视频摘要客户端发送待处理视频的视频帧序列给服务器，服务器利用训练得到的视频摘要模型生成对应待处理视频的视频摘要，并返回得到的视频摘要给视频摘要客户端，以使视频摘要客户端呈现对应待处理视频的视频摘要。

接下来下面对实施本发明实施例的视频摘要模型的训练方法的电子设备进行说明。在一些实施例中，电子设备可以为智能手机、平板电脑、笔记本电脑等各种类型的终端，还可以为服务器。参见图5，图5是本发明实施例提供的电子设备的结构示意图，图5所示的电子设备包括：处理器210、存储器250、网络接口220和用户接口230。电子设备中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的视频摘要模型的训练装置可以采用软件方式实现，图5示出了存储在存储器250中的视频摘要模型的训练装置255，其可以是程序和插件等形式的软件，包括以下软件模块：特征提取模块2551、第一确定模块2552、第一视频摘要模块2553、第二确定模块2554及参数更新模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的视频摘要模型的训练装置可以采用硬件方式实现，作为示例，本发明实施例提供的视频摘要模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频摘要模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

基于上述对本发明实施例的视频摘要模型的训练系统及电子设备的说明，接下来对本发明实施例提供的视频摘要模型的训练方法进行说明，图6为本发明实施例提供的视频摘要模型的训练方法的流程示意图，在一些实施例中，该视频摘要模型的训练方法可由服务器或终端实施，或由服务器及终端协同实施，以服务器实施为例，如通过图4中的服务器200实施，结合图4及图6，对本发明实施例提供的视频摘要模型的训练方法进行说明。

步骤301：服务器分别对目标视频的视频帧序列中各视频帧进行特征提取，得到各视频帧的第一图像特征。

这里，目标视频为用于进行视频摘要模型训练的视频，在实际实施时，服务器对视频帧进行特征提取之前，需要获取对应目标视频的视频帧序列，在一些实施例中，服务器可通过如下方式获得视频帧序列：

解码目标视频，得到目标视频的多个视频帧；基于固定视频帧间隔，顺序的从多个视频帧中提取多个视频帧，形成目标视频的视频帧序列；其中，视频帧间隔的大小可以依据实际情况进行设定，例如，固定视频帧间隔为10帧，则在解码目标视频后，得到多个视频帧，然后，每10帧抽取一帧，顺序的从多个视频帧中抽取N个视频帧，N为正整数，N值的大小可依据实际需要进行设定。

在一些实施例中，第一图像特征可以为颜色和边缘方向特征描述符(CEED，Colorand Edge Directivity Descriptor)，相应的，服务器可通过如下方式对视频帧进行特征提取，得到相应的CEED特征：

分别提取各视频帧的颜色特征及纹理特征；融合颜色特征及纹理特征，得到各视频帧的CEED特征。

在实际实施时，服务器可通过如下方式提取各视频帧的颜色特征：

服务器获取视频帧中各像素点的色调-饱和度-明度HSV值；对视频帧对应的HSV值进行模糊过滤，得到对应视频帧的颜色特征。

这里，在实际应用中，服务器首先获取视频帧中各像素点的红-绿-蓝RGB值，然后通过RGB与HSV间的关联关系，进行RGB-HSV转换，得到视频帧中各像素点的HSV值。

在得到视频帧的HSV值后，对HSV值先后进行10-bins模糊过滤及24-bins模糊过滤，在实际实施时，首先通过三个通道将视频帧的HSV值输入10-bins模糊过滤器，然后输出一个10维直方图，即输出10个模糊的直方图信息值。

在实际实施时，服务器可通过如下方式提取各视频帧的纹理特征：

服务器分别获取各视频帧的YIQ彩色空间值；对视频帧的YIQ彩色空间值进行数字滤波，得到视频帧的纹理特征。

这里，YIQ色彩空间属于NTSC(国际电视标准委员会)系统；Y代表了颜色的明视度，即图像的灰度值；I和Q代表了色调信息，它们分别描述图像色彩以及饱和度的属性；在YIQ色彩空间模型中，Y分量表示图像的亮度信息，I和Q分量表示颜色信息，I分量是指从橙色到青色，Q分量则是指从紫色到黄绿色；提取纹理特征时，最常用的就是图像的灰度值，这里引出YIQ空间也只为求出Y值，以便后面进行纹理信息的提取。

在实际实施时，可通过5个数字滤波器对视频帧的YIQ彩色空间值进行数字滤波，以提取纹理边缘信息；5个数字滤波器能够将其所作用的区域分为垂直方向、水平方向、45度方向、135度方向和无方向五个类别。CEDD中纹理信息提取的是一个6维直方图，直方图中各维信息的含义分别是：(0)无边缘信息，(1)无方向的边缘信息，(2)水平方向的边缘信息，(3)垂直方向的边缘信息，(4)45度方向的边缘信息，(5)135度方向的边缘信息；在对图像进行纹理信息提取时会将图像分为若干小区，判断每个小区纹理信息所属的直方图区域，通过设定阈值，判断纹理方向，生成一个6维向量。

在提取视频帧的颜色特征及纹理特征后，对这两部分进行融合，生成一个144(24*6)维向量，作为图像(视频帧)的量化表达。

图7为本发明实施例提供的CEED特征提取的流程示意图，参见图7，先将视频帧分成若干小区，小区的数量是根据图像具体情况和计算机能力综合决定的，每一个图像小区都会经过颜色特征提取及纹理特征提取；小区在纹理特征提取过程中会先分为4个子小区，然后确定每个像素的灰度值，求出每个子小区的平均灰度值，再经过5个数字滤波器过滤后，判断该子小区属于哪些纹理信息类别；在颜色特征提取中，每个图像小区都会转换为HSV色彩空间，将小区内HSV各通道的平均值通过10-bins模糊过滤器输出10维向量后，再通过24-bins模糊过滤器，通过10-bins模糊过滤器后根据H值得出了10个色彩类别，当通过24-bins模糊过滤器时会根据S和V的区域判定对H进行再分类输出24维的直方图。图像的每一个小区都会经过颜色特征的提取，处理后将24个数据分别加入到该小区所属的各纹理类别中，最后对直方图进行归一化处理，然后对其进行量化，量化后的整数值既方便存储，又可以让人们直观的读取特征值。

步骤302：结合各视频帧的第一图像特征，确定目标视频的特征复杂度，特征复杂度用于表征目标视频的内容复杂程度。

在一些实施例中，服务器可通过如下方式确定目标视频的特征复杂度：

服务器获取视频帧序列中视频帧的数量；当视频帧序列中视频帧的数量为N，N为正整数时，确定N个视频帧的第一图像特征的均方差，将得到的均方差结果作为目标视频的特征复杂度。

这里，在实际实施时，服务器对视频帧进行图像特征提取，得到对应各个视频帧的特征向量后，对视频帧序列中各视频帧的特征向量求其均方差，作为目标视频的特征复杂度。

步骤303：当目标视频的特征复杂度满足特征复杂度条件时，将视频帧序列输入至视频摘要模型，得到对应目标视频的视频摘要。

这里，在实际实施时，设置特征复杂度阈值，当目标视频的特征复杂度满足特征复杂度条件时，表明目标视频的内容复杂程度较小，适合采用无监督方式训练视频摘要模型，而当目标视频的特征复杂度不满足特征复杂度条件时，表明目标视频的内容较复杂，若采用无监督方式进行模型训练，训练得到的模型的摘要生成准确度低，更适合采用有监督方式进行模型训练。

在一些实施例中，可以设置特征复杂度阈值，当目标视频的特征复杂度小于特征复杂度阈值时，确定目标视频的特征复杂度满足特征复杂度条件；当目标视频的特征复杂度不小于特征复杂度阈值时，确定目标视频的特征复杂度不满足特征复杂度条件。

由于用于进行视频摘要模型训练的视频为多个，因此，在得到各个视频的特征复杂度之后，可对各个视频的特征复杂度进行从小到大排序，得到视频序列，确定视频序列中位于前面目标比例的视频满足特征复杂度条件，目标比例的大小可依据实际需要进行设定，例如，视频的数量为10个，依据特征复杂度对10个视频进行排序，目标比例为0.5，如此可得排序位于序列中前面的5个视频满足特征复杂度条件。

图8为本发明实施例提供的视频摘要模型的结构示意图，参见图8，本发明实施例提供的视频摘要模型包括：特征提取网络及软注意力网络；其中，特征提取网络用于对输入的视频帧进行第二图像特征提取，在一些实施例中，特征提取网络可以为CNN网络；软注意力网络用于对视频帧序列的视频帧进行分类，从视频帧序列中选出用于形成视频摘要的关键帧，视频摘要包括由多个关键帧构成的关键帧序列。

基于图8所示的视频摘要模型，服务器在得到视频帧序列后，通过视频摘要模型包括的特征提取网络，分别对视频帧序列的各视频帧进行特征提取，得到各视频帧的第二图像特征；基于各视频帧的第二图像特征，通过视频摘要模型包括的软注意力网络，对视频帧序列的视频帧进行分类，得到对应目标视频的视频摘要，即得到由提取的多个关键帧构成的关键帧序列。

步骤304：基于得到的目标视频的视频摘要，确定深度强化学习的奖励函数的值。

在本发明实施例中，采用深度强化学习的方法对视频摘要进行训练，深度强化学习是在训练的过程中，不断的去尝试，错了就扣分，对了就奖励，由此训练得到在各个状态环境当中最好的决策；深度强化学习将直接处理像素级的超高维度raw image stateinput，而非事先人为的抽象将状态抽象为低维度state，更加贴近现实的状况。

在实际应用中，一般来说，一个高质量的视频摘要需要兼具原始视频的多样性及代表性，以便整个视频的关键信息能最大化的保留，因此，可通过奖励来评估所生成的视频摘要的多样性及代表性的程度。

在一些实施例中，服务器可通过如下方式确定深度强化学习的奖励函数的值：服务器基于得到的目标视频的视频摘要，确定视频摘要的多样性奖励及代表性奖励；其中，多样性奖励用于表征视频摘要中视频帧的多样性，代表性奖励用于表征视频摘要能够代表目标视频的程度；结合多样性奖励及代表性奖励，确定深度强化学习的奖励函数的值。

在一些实施例中，服务器可通过如下方式确定视频摘要的多样性奖励：确定目标视频的视频摘要在特征空间中的帧间差异性；基于帧间差异性，确定视频摘要的多样性奖励。

具体地，假设视频摘要对应的关键帧序列为：

其中，y表示关键帧序列，y_i表示关键帧序列中第i个关键帧，表示关键帧y_i对应的二分类取值，1表示被选取为关键帧，0表示该视频帧不被选取；多样性奖励为R_div；

其中，x_t表示第t个关键帧的图像特征(特征向量)，d(x_t,x_t')表示第t个关键帧的图像特征与第t’个关键帧的图像特征的差异，即第t个关键帧与第t’个关键帧之间的帧间差异性；

公式3将视频帧作为随机可交换的条目，而忽视关键帧序列中的内在结构；事实上，两个时间上距离较远的关键帧的相似性可以被忽略，因为它们是故事情节结构所必须的，为了解决这个问题，设置如下：

d(x_t,x_t')＝1,if|t-t'|＞λ， (4)

其中，λ用于控制时间距离长度的程度。

在一些实施例中，服务器可通过如下方式确定视频摘要的代表性奖励：

确定视频摘要中各视频帧在特征空间中与聚类中心的距离；基于确定的聚类，确定视频摘要的代表性奖励。

这里，代表性奖励是测量所生成的视频摘要能够代表原始视频的程度，为了达到这个目的，将视频摘要所代表的程度作为K中心点问题来对待，想要agent选择一系列中心点，这些中心点使得视频帧间的平均平方差与它们最近的中心点是最小的。

代表性奖励为R_rep，

深度强化学习的奖励为R(S)，相应的奖励函数如下：

R(S)＝R_div+R_rep， (6)

采用多样性及代表性共同指导视频摘要模型的学习，在训练过程中二者(多样性及代表性)的重要性相同。

图9为本发明实施例提供的视频摘要模型的结构示意图，结合图9对视频摘要模型的训练进行说明，目标视频Video经解码后得到M个视频帧图像，固定间隔的进行视频帧的抽取，得到包括T个视频帧的视频帧序列v_i＝{v_t}^T _t＝1，将得到的视频帧序列输入至视频摘要模型，经卷积神经网络CNN进行特征提取，得到各视频帧的图像特征x_t，然后经软注意力网络对各个视频帧进行二分类，得到对应各个视频帧的预测结果A＝{a_t|a_t∈{0,1},t＝1,...,T}，当视频帧的预测结果a_t＝1时，表示选择该视频帧作为关键帧，如此从视频帧序列中选出多个关键帧构成视频摘要，基于视频摘要模型所选出的关键帧序列，计算相应的奖励(包括多样性奖励及代表性奖励)，该奖励用于评估视频摘要模型本次输出的视频摘要的质量，评估视频摘要模型训练的目标是让奖励最大化，通过接收的奖励不断更新模型参数(权重矩阵)，以实现模型训练。

步骤305：基于奖励函数的值，更新视频摘要模型的模型参数。

在一些实施例中，服务器基于奖励函数的值，可通过如下方式更新视频摘要模型的模型参数：服务器基于奖励函数的值，确定视频摘要模型的目标函数的值，并采用梯度下降方法更新视频摘要模型的模型参数。

在实际实施时，视频摘要模型的目标函数为如下公式(7)所示：

其中，p_θ(a₁:T)表示视频帧序列对应的条件概率分布。

在视频摘要模型的训练过程中，可通过REINFORCE算法计算目标函数的导数，并采用梯度下降方法更新视频摘要模型的模型参数。

在实际应用中，通过训练得到的视频摘要模型，可对待处理视频进行视频摘要的生成，在一些实施例中，服务器获取待处理视频的视频帧序列，当待处理视频的特征复杂度满足特征复杂度条件时，通过视频摘要模型包括的特征提取网络，对待处理视频的视频帧序列进行特征提取，得到视频帧序列中各视频帧的第三图像特征；基于各视频帧的第三图像特征，通过视频摘要模型包括的软注意力网络，对待处理视频的视频帧进行分类，得到对应待处理视频的视频摘要。

在一些实施例中，当目标视频的特征复杂度不满足特征复杂度条件时，表明目标视频的内容复杂度较高，若采用无监督的方式进行模型训练，则训练得到的视频摘要模型的摘要生成准确度较低，此时，需要采用有监督的方式进行模型训练，具体地，通过人工将目标视频的视频帧序列中各视频帧仅标注，图10为有监督方式的视频摘要模型的结构示意图，该模型通过VASnet实现，参见图10，通过VASnet实现视频摘要生成的过程包括：

首先通过卷积神经网络CNN(如google-net或resnet等)对视频帧序列中各视频帧进行图像特征提取，相应的得到图像特征序列，然后通过注意力网络(attention network)提取帧间特性，经过回归网络给出每个视频帧的分数，该分数表示相应的视频帧的重要性程度，通过KTS(kernel temporal segmentation)算法将图像特征序列进行分段(shot)，每个分段中包含一个镜头，结合得到的每个视频帧的分数，采用背包算法进行分段的筛选，例如保留占帧数总量30％以下的分段，并且使总分数最高，对筛选得到的分段进行组合形成视频摘要。

继续对本发明实施例的视频摘要模型的训练方法进行说明。图11及图12为本发明实施例提供的视频摘要模型的训练方法的流程示意图，结合图11及图12，本发明实施例提供的视频摘要模型的训练方法包括：

步骤401：服务器获取目标视频的视频帧序列。

这里，通过对目标视频进行分帧采样，实现视频帧序列的获取，具体地，服务器解码目标视频，得到目标视频的多个视频帧；基于固定视频帧间隔，顺序的从多个视频帧中提取多个视频帧，形成目标视频的视频帧序列；例如，采取每10帧取一帧的做法，将视频拆解称一系列采样图片,设共有N帧，以降低数据量。

步骤402：对视频帧序列中各视频帧进行特征提取，得到各视频帧的图像特征。

这里，在实际实施时，提取的视频帧的图像特征可以为CEED特征，具体地，对每一张采样图片，进行CEDD特征提取，这种特征由MPEG-7提出用以图像索引和检索特征，相比于传统的颜色特征和纹理特征，效果明显增强，且提取简单，这种特征分为颜色特征、纹理特征、融合两种特征三个部分。

参见图7，在颜色特征部分使用模糊过滤方法，先对输入的图像HSV值进行过滤生成一个10维直方图，然后再经过一次过滤形成24维向量。

在提取纹理特征时，对输入的YIQ值进行数字滤波，然后设定阈值判断纹理方向，生成一个6维向量。

最终对这两部分进行融合，生成一个144(24*6)维向量，作为图像的量化表达。

步骤403：结合各视频帧的图像特征，确定目标视频的特征复杂度。

在实际实施时，服务器获取视频帧序列中视频帧的数量；当视频帧序列中视频帧的数量为N，N为正整数时，确定N个视频帧的图像特征的均方差，将得到的均方差结果作为目标视频的特征复杂度。也即，N张图像的图像特征向量求其均方差，作为目标视频的复杂度预估值，设为complex_video。

步骤404：判断目标视频的复杂度是否小于特征复杂度阈值，如果小于，执行步骤405；如果不小于，执行步骤408。

在实际应用中，特征复杂度阈值的大小可依据实际需要进行设定。

步骤405：将视频帧序列输入至视频摘要模型，得到对应目标视频的视频摘要。

这里，在实际实施时，当目标视频的特征复杂度小于特征复杂度阈值时，表明目标视频的内容复杂程度较小，适合采用无监督方式训练视频摘要模型，而当目标视频的特征复杂度不小于特征复杂度阈值时，表明目标视频的内容较复杂，若采用无监督方式进行模型训练，训练得到的模型的摘要生成准确度低，更适合采用有监督方式进行模型训练。

具体地，服务器在得到视频帧序列后，通过视频摘要模型包括的特征提取网络，分别对视频帧序列的各视频帧进行特征提取，得到各视频帧的图像特征；基于各视频帧的图像特征，通过视频摘要模型包括的软注意力网络，对视频帧序列的视频帧进行分类，得到对应目标视频的视频摘要，即得到由提取的多个关键帧构成的关键帧序列。

这里，软注意力(Soft-attention)网络对应软注意力机制，Attention机制的核心原理是快速从大量的信息中找到目标区域。早期Attention机制的学习方式主要是HardAttention，可以简单概括为寻找局部目标区域的学习过程；Soft-attention利用相关特征学习权重分布，再用学出来的权重施加在特征之上进一步提取相关知识。不同Soft-attention方法施加权重的方式略有差别。

步骤406：基于得到的目标视频的视频摘要，确定深度强化学习的奖励函数的值。

在本发明实施例中，采用深度强化学习的方法对视频摘要进行端到端的训练，深度强化学习是在训练的过程中，不断的去尝试，错了就扣分，对了就奖励，由此训练得到在各个状态环境当中最好的决策；深度强化学习将直接处理像素级的超高维度raw imagestate input，而非事先人为的抽象将状态抽象为低维度state，更加贴近现实的状况。

其中，端到端指的是输入是原始数据，输出是最后的结果，不用在原始数据中提取的特征。

在实际实施时，服务器可通过如下方式确定深度强化学习的奖励函数的值：服务器基于得到的目标视频的视频摘要，确定视频摘要的多样性奖励及代表性奖励；其中，多样性奖励用于表征视频摘要中视频帧的多样性，代表性奖励用于表征视频摘要能够代表目标视频的程度；结合多样性奖励及代表性奖励，确定深度强化学习的奖励函数的值。其中，视频摘要的多样性奖励及代表性奖励的确定参加前述实施例，此处不作赘述。

步骤407：基于奖励函数的值，更新视频摘要模型的模型参数。

在实际实施时，服务器基于奖励函数的值，可通过如下方式更新视频摘要模型的模型参数：服务器基于奖励函数的值，确定视频摘要模型的目标函数的值，并采用梯度下降方法更新视频摘要模型的模型参数，以实现对视频摘要模型的训练。

在本发明实施例中，当目标视频的复杂度小于特征复杂度阈值时，采用无监督的方式进行视频摘要模型的端到端的训练，如此，能够减少迁移训练时需要的人工标注成本，且由于视频摘要模型中采用软注意力网络及深度强化学习结合的方式进行训练，使用soft-attention结构，训练更加简单，训练得到的模型的摘要生成准确度更高。

步骤408：通过有监督模型VASnet对目标视频的视频帧序列进行处理。

这里，在实际实施时，当目标视频的复杂度不小于特征复杂度阈值时，可通过训练得到的监督模型VASnet对目标视频的视频帧序列进行处理，以得到目标视频的视频摘要。

对本发明实施例提供的视频摘要模型的训练装置进行说明，图13为本发明实施例提供的视频摘要模型的训练装置的组成结构示意图，参见图13，在一些实施例中，本发明实施例提供的视频摘要模型的训练装置包括：

特征提取模块2551，用于分别对目标视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征；

第一确定模块2552，用于结合各所述视频帧的所述第一图像特征，确定所述目标视频的特征复杂度，所述特征复杂度用于表征所述目标视频的内容复杂程度；

第一视频摘要模块2553，用于当所述目标视频的特征复杂度满足特征复杂度条件时，将所述视频帧序列输入至视频摘要模型，得到对应所述目标视频的视频摘要，所述视频摘要包括由多个关键帧构成的关键帧序列；

第二确定模块2554，用于基于得到的所述目标视频的视频摘要，确定深度强化学习的奖励函数的值；

参数更新模块2555，用于基于所述奖励函数的值，更新所述视频摘要模型的模型参数。

在一些实施例中，所述装置还包括：

在一些实施例中，所述特征提取模块，还用于分别提取各所述视频帧的颜色特征及纹理特征；

在一些实施例中，所述特征提取模块，还用于获取所述视频帧中各像素点的色调-饱和度-明度HSV值；

在一些实施例中，所述特征提取模块，还用于分别获取各所述视频帧的YIQ彩色空间值；

在一些实施例中，所述第一确定模块，还用于获取所述视频帧序列中视频帧的数量；

在一些实施例中，所述第一视频摘要模块，还用于通过所述视频摘要模型包括的特征提取网络，分别对所述视频帧序列的各视频帧进行特征提取，得到各所述视频帧的第二图像特征；

在一些实施例中，所述第二确定模块，还用于基于得到的所述目标视频的视频摘要，确定所述视频摘要的多样性奖励及代表性奖励；

在一些实施例中，所述第二确定模块，还用于确定所述目标视频的视频摘要在特征空间中的帧间差异性；

基于所述帧间差异性，确定所述视频摘要的多样性奖励。

在一些实施例中，所述第二确定模块，还用于确定所述视频摘要中各视频帧在特征空间中与聚类中心的距离；

基于确定的所述聚类，确定所述视频摘要的代表性奖励。

在一些实施例中，所述参数更新模块，还用于基于所述奖励函数的值，确定所述视频摘要模型的目标函数的值；

基于所述目标函数的值，采用梯度下降方法更新所述视频摘要模型的模型参数。

在一些实施例中，所述装置还包括：

第二视频摘要模块，用于获取待处理视频的视频帧序列；

图14为本发明实施例提供的基于人工智能的视频摘要生成装置的组成结构示意图，参见图14，在一些实施例中，本发明实施例提供的基于人工智能的视频摘要生成装置包括：

第一提取模块141，用于分别对待处理视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征；

复杂度确定模块142，用于结合各所述视频帧的所述第一图像特征，确定所述待处理视频的特征复杂度，所述特征复杂度用于表征所述待处理视频的内容复杂程度；

第二提取模块143，用于当所述待处理视频的特征复杂度满足特征复杂度条件时，通过视频摘要模型包括的特征提取网络，对所述待处理视频的视频帧序列进行特征提取，得到所述视频帧序列中各视频帧的第二图像特征；

分类模块144，用于基于各所述视频帧的第二图像特征，通过所述视频摘要模型包括的软注意力网络，对所述待处理视频的视频帧进行分类，得到对应所述待处理视频的视频摘要；

其中，所述视频摘要模型通过本发明上述实施例提供的视频摘要模型的训练方法训练得到。

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本发明实施例所述装置中未披露的技术细节，请参照本发明方法实施例的描述。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现本发明实施例提供的上述视频摘要模型的训练方法。

本发明实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的视频摘要模型的训练方法。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现本发明实施例提供的上述基于人工智能的视频摘要生成方法。

本发明实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的视频摘要生成方法。

实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频摘要模型的训练方法，其特征在于，所述方法包括：

当所述目标视频的特征复杂度不小于特征复杂度阈值时，确定所述目标视频的特征复杂度不满足特征复杂度条件，使用有监督的方式训练所述视频摘要模型，其中，所述有监督的方式使用所述目标视频的视频帧序列中各视频帧的标注；

当所述目标视频的特征复杂度小于所述特征复杂度阈值时，确定所述目标视频的特征复杂度满足所述特征复杂度条件，使用无监督的方式训练所述视频摘要模型，其中，所述使用无监督的方式训练所述视频摘要模型包括：

将所述视频帧序列输入至视频摘要模型，得到对应所述目标视频的视频摘要，其中，所述视频摘要包括由多个关键帧构成的关键帧序列；基于得到的所述目标视频的视频摘要，确定深度强化学习的奖励函数的值；基于所述奖励函数的值，更新所述视频摘要模型的模型参数。

2.如权利要求1所述的方法，其特征在于，所述分别对目标视频的视频帧序列中各视频帧进行特征提取之前，所述方法还包括：

解码所述目标视频，得到所述目标视频的多个视频帧；

3.如权利要求1所述的方法，其特征在于，所述分别对目标视频的视频帧序列中各视频帧进行特征提取，得到各所述视频帧的第一图像特征，包括：

分别提取各所述视频帧的颜色特征及纹理特征；

4.如权利要求3所述的方法，其特征在于，所述分别提取各所述视频帧的颜色特征，包括：

获取所述视频帧中各像素点的色调-饱和度-明度HSV值；

5.如权利要求1所述的方法，其特征在于，所述分别提取各所述视频帧的纹理特征，包括：

分别获取各所述视频帧的YIQ彩色空间值；

6.如权利要求1所述的方法，其特征在于，所述结合各所述视频帧的所述第一图像特征，确定所述目标视频的特征复杂度，包括：

获取所述视频帧序列中视频帧的数量；

7.如权利要求1所述的方法，其特征在于，所述将所述视频帧序列输入至视频摘要模型，得到对应所述目标视频的视频摘要，包括：

通过所述视频摘要模型包括的特征提取网络，分别对所述视频帧序列的各视频帧进行特征提取，得到各所述视频帧的第二图像特征；

8.如权利要求1所述的方法，其特征在于，所述基于得到的所述目标视频的视频摘要，确定深度强化学习的奖励函数的值，包括：

基于得到的所述目标视频的视频摘要，确定所述视频摘要的多样性奖励及代表性奖励；

9.如权利要求8所述的方法，其特征在于，所述基于得到的所述目标视频的视频摘要，确定所述视频摘要的多样性奖励，包括：

确定所述目标视频的视频摘要在特征空间中的帧间差异性；

基于所述帧间差异性，确定所述视频摘要的多样性奖励。

10.如权利要求8所述的方法，其特征在于，所述基于得到的所述目标视频的视频摘要，确定所述视频摘要的代表性奖励，包括：

确定所述视频摘要中各视频帧在特征空间中与聚类中心的距离；

基于确定的所述聚类，确定所述视频摘要的代表性奖励。

11.如权利要求1所述的方法，其特征在于，所述基于所述奖励函数的值，更新所述视频摘要模型的模型参数，包括：

基于所述奖励函数的值，确定所述视频摘要模型的目标函数的值；

12.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取待处理视频的视频帧序列，所述待处理视频的特征复杂度满足特征复杂度条件；

13.一种视频摘要模型的训练装置，其特征在于，所述装置包括：

第一确定模块，用于结合各所述视频帧的所述第一图像特征，确定所述目标视频的特征复杂度，所述特征复杂度用于表征所述目标视频的内容复杂程度；当所述目标视频的特征复杂度不小于特征复杂度阈值时，确定所述目标视频的特征复杂度不满足特征复杂度条件；当所述目标视频的特征复杂度小于所述特征复杂度阈值时，确定所述目标视频的特征复杂度满足所述特征复杂度条件；

第一视频摘要模块，用于当使用无监督的方式训练所述视频摘要模型时，将所述视频帧序列输入至所述视频摘要模型，得到对应所述目标视频的视频摘要，其中，所述视频摘要包括由多个关键帧构成的关键帧序列；

第二确定模块，用于使用无监督的方式训练所述视频摘要模型时，基于得到的所述目标视频的视频摘要，确定深度强化学习的奖励函数的值；

参数更新模块，用于当所述第一确定模块确定所述目标视频的特征复杂度不满足特征复杂度条件时，使用有监督的方式训练所述视频摘要模型，其中，所述有监督的方式使用所述目标视频的视频帧序列中各视频帧的标注；当所述第一确定模块确定所述目标视频的特征复杂度满足所述特征复杂度条件时，使用无监督的方式训练所述视频摘要模型，基于所述奖励函数的值，更新所述视频摘要模型的模型参数。

14.一种基于人工智能的视频摘要生成方法，其特征在于，所述方法包括：

当所述待处理视频的特征复杂度不小于特征复杂度阈值时，确定所述待处理视频的特征复杂度不满足特征复杂度条件，使用有监督的方式训练所述视频摘要模型，其中，所述有监督的方式使用所述待处理视频的视频帧序列中各视频帧的标注；

当所述待处理视频的特征复杂度小于所述特征复杂度阈值时，确定所述待处理视频的特征复杂度满足所述特征复杂度条件，使用无监督的方式训练所述视频摘要模型包括：

通过所述视频摘要模型包括的特征提取网络，对所述待处理视频的视频帧序列进行特征提取，得到所述视频帧序列中各视频帧的第二图像特征；

15.一种基于人工智能的视频摘要生成装置，其特征在于，所述装置包括：

16.一种计算机可读存储介质，存储有可执行指令，其特征在于，用于被处理器执行时，实现权利要求1至12任一项所述的视频摘要模型的训练方法或权利要求14所述的基于人工智能的视频摘要生成方法。