CN108073902A

CN108073902A - 基于深度学习的视频总结方法、装置及终端设备

Info

Publication number: CN108073902A
Application number: CN201711374076.0A
Authority: CN
Inventors: 乔宇; 周锴阳
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-05-25
Anticipated expiration: 2037-12-19
Also published as: CN108073902B

Abstract

一种基于强化学习和深度学习的视频总结和概要方法，包括：将目标视频分段，得到多个视频段落；分别对每个视频段落的各个视频帧提取特征向量；针对每个视频段落，将视频帧的特征向量作为输入投入预训练好的深度神经网络，得到输出的每一帧对应的概率值；针对每个视频段落，根据视频段落所有视频帧对应的概率值计算视频段落的重要性值；在保证选取出的视频段落总时长占目标视频总时长的比例小于或等于预设比例阈值的前提下，从多个视频段落中选取重要性值较大的若干个视频段落；对选取出的视频段落进行整理，得到视频总结；定义关于视频总结代表性和多样性的奖励函数，并利用强化学习方法，实现基于非监督和监督数据的深度网络训练。

Description

基于深度学习的视频总结方法、装置及终端设备

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于深度学习的视频总结方法、装置及终端设备。

背景技术

在现如今网络发达的时代，视频网站上的网络视频层出不穷，同时视频往往时间跨度比较长，给用户的快速浏览造成了一定的障碍，这是因为用户无法在有限的时间内完整浏览大量的网络视频。为了方便用户在观看完整视频之前短时间内了解视频的大概内容，寻找一种对视频快速实现视频总结的方法成为本领域技术人员的重要研究课题。

发明内容

本发明实施例提供了一种基于深度学习的视频总结方法、装置及终端设备，能够实现对视频的快速总结，极大方便用户在观看完整视频之前短时间内了解视频的大概内容。

第一方面，提供了一种基于深度学习的视频总结方法，包括：

将目标视频分段，得到多个视频段落；

采用预训练好的深度卷积网络模型分别对每个所述视频段落的各个视频帧提取特征向量；

针对每个所述视频段落，将所述视频段落所有视频帧对应的特征向量作为输入投入预训练好的深度神经网络，得到输出的所述视频段落每一帧对应的概率值，所述概率值表示视频帧被选为用于视频总结的概率；

针对每个所述视频段落，根据所述视频段落所有视频帧对应的概率值计算所述视频段落的重要性值，其中，所述视频段落所有视频帧对应的概率值越大，则相应计算得到的重要性值越大；

在保证选取出的视频段落总时长占所述目标视频总时长的比例小于或等于预设比例阈值的前提下，从所述多个视频段落中选取重要性值较大的若干个视频段落；

对选取出的所述若干个视频段落进行整理，得到所述目标视频的视频总结。

可选地，所述深度神经网络通过以下步骤进行预先训练：

采用预训练好的深度卷积网络模型对用于训练的样本视频的各个视频帧提取特征向量；

将所述样本视频所有视频帧对应的特征向量作为输入投入所述深度神经网络，得到输出的所述样本视频每一帧对应的概率值；

基于输出的概率值，采用伯努利分布对所述样本视频的视频帧进行采样，得到采样的行为值；

根据所述采样的行为值将选中的视频帧提取并整理得到所述样本视频的视频总结；

采用预设的奖励函数对所述样本视频的视频总结进行质量评估，得到评估的奖励值，其中，奖励值越大，则代表所述样本视频的视频总结质量越高；

根据所述奖励值采用强化学习方法对所述深度神经网络进行优化训练，以使所述深度神经网络对所述样本视频的输出满足预设的目标函数的要求。

可选地，所述奖励函数R表示为：

R＝R_div+R_rep；

所述R_div和R_rep分别为多样性评估函数和代表性评估函数，多样性评估函数R_div表示为：

代表性评估函数R_rep表示为：

其中，x_t表示每个视频帧的特征向量，t＝1,2,…,T，T表示视频帧的总长度，Y＝{y₁，y₂,…,|Y|}表示选中的视频帧的位置下标集，非相似度函数d表示为：

可选地，还包括：

在计算非相似度函数d时，若两视频帧之间相距的长度t超过预设的距离阈值，则直接设置所述两视频帧对应的非相似度函数d的计算结果等于1。

可选地，所述目标函数J表示为：

J(ω)＝E[R]；

其中，w是所述深度神经网络里需要训练的参数，R是所述奖励函数计算出来的奖励值；

根据所述目标函数计算相对于w的梯度值为：

其中，N是所述深度神经网络对训练的样本视频模拟的次数，T表示视频帧的总长度，b是由移动平均的R计算得出的基准线，π_w表示所述深度神经网络，a_t表示由伯努利分布生成的行为值，为0或者1；

所述根据所述奖励值采用强化学习方法对所述深度神经网络进行优化训练，以使所述深度神经网络对所述样本视频的输出满足预设的目标函数的要求具体为：

根据所述奖励值采用梯度优化算法对所述深度神经网络进行优化训练，以增大所述目标函数J的值。

可选地，所述根据所述奖励值采用强化学习方法对所述深度神经网络进行优化训练，以使所述深度神经网络对所述样本视频的输出满足预设的目标函数的要求具体为：

根据所述奖励值采用梯度优化算法对所述深度神经网络进行优化训练，以增大所述目标函数J的值并且减少损失函数L的值；

所述损失函数L表示为：

其中，p_t表示所述深度神经网络对t帧所预测的概率，ε表示所述选中的视频帧占所述样本视频的长度比例。

第二方面，提供了一种基于深度学习的视频总结装置，包括：

分段模块，用于将目标视频分段，得到多个视频段落；

特征向量提取模块，用于采用预训练好的深度卷积网络模型分别对每个所述视频段落的各个视频帧提取特征向量；

概率预测模块，用于针对每个所述视频段落，将所述视频段落所有视频帧对应的特征向量作为输入投入预训练好的深度神经网络，得到输出的所述视频段落每一帧对应的概率值，所述概率值表示视频帧被选为用于视频总结的概率；

重要性计算模块，用于针对每个所述视频段落，根据所述视频段落所有视频帧对应的概率值计算所述视频段落的重要性值，其中，所述视频段落所有视频帧对应的概率值越大，则相应计算得到的重要性值越大；

视频段落选取模块，用于在保证选取出的视频段落总时长占所述目标视频总时长的比例小于或等于预设比例阈值的前提下，从所述多个视频段落中选取重要性值较大的若干个视频段落；

视频总结模块，用于对选取出的所述若干个视频段落进行整理，得到所述目标视频的视频总结。

可选地，所述深度神经网络通过以下模块进行预先训练：

提取模块，用于采用预训练好的深度卷积网络模型对用于训练的样本视频的各个视频帧提取特征向量；

神经网络投入模块，用于将所述样本视频所有视频帧对应的特征向量作为输入投入所述深度神经网络，得到输出的所述样本视频每一帧对应的概率值；

行为值采样模块，用于基于输出的概率值，采用伯努利分布对所述样本视频的视频帧进行采样，得到采样的行为值；

视频帧整理模块，用于根据所述采样的行为值将选中的视频帧提取并整理得到所述样本视频的视频总结；

质量评估模块，用于采用预设的奖励函数对所述样本视频的视频总结进行质量评估，得到评估的奖励值，其中，奖励值越大，则代表所述样本视频的视频总结质量越高；

优化训练模块，用于根据所述奖励值采用强化学习方法对所述深度神经网络进行优化训练，以使所述深度神经网络对所述样本视频的输出满足预设的目标函数的要求。

第三方面，提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于深度学习的视频总结方法的步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于深度学习的视频总结方法的步骤。

第五方面，提供了一种基于深度学习的视频总结系统，其特征在于，包括上述的基于深度学习的视频总结装置。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，首先，将目标视频分段，得到多个视频段落；然后采用预训练好的深度卷积网络模型分别对每个所述视频段落的各个视频帧提取特征向量；接着，针对每个所述视频段落，将所述视频段落所有视频帧对应的特征向量作为输入投入预训练好的深度神经网络，得到输出的所述视频段落每一帧对应的概率值，所述概率值表示视频帧被选为用于视频总结的概率；再之，针对每个所述视频段落，根据所述视频段落所有视频帧对应的概率值计算所述视频段落的重要性值，其中，所述视频段落所有视频帧对应的概率值越大，则相应计算得到的重要性值越大；之后，在保证选取出的视频段落总时长占所述目标视频总时长的比例小于或等于预设比例阈值的前提下，从所述多个视频段落中选取重要性值较大的若干个视频段落；最后，对选取出的所述若干个视频段落进行整理，得到所述目标视频的视频总结。在本发明实施例中，可以利用预训练好的深度卷积网络模型和深度神经网络，得出各个视频段落每一帧对应的概率值，从而计算各个视频段落的重要性值，然后从多个视频段落中选取出重要性值较大的若干个视频段落，并且需要保证选取出的视频段落总时长不超过目标视频的一定比例。可见，选取出的这些视频段落可以用于代表目标视频在内容上的概括，因此整理可得到该目标视频的视频总结，实现了对视频的快速总结，极大方便用户在观看完整视频之前短时间内了解视频的大概内容。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于深度学习的视频总结方法一个实施例流程图；

图2为本发明实施例中一种基于深度学习的视频总结方法在一个应用场景下预先训练深度神经网络的流程示意图；

图3为本发明实施例中一种基于深度学习的视频总结装置一个实施例结构图；

图4为本发明一实施例提供的终端设备的示意图。

具体实施方式

本发明实施例提供了一种基于深度学习的视频总结方法、装置及终端设备，用于解决如何对视频快速实现视频总结的问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种基于深度学习的视频总结方法一个实施例包括：

101、将目标视频分段，得到多个视频段落；

本实施例中，在对目标视频进行视频总结时，需要运用视频分段方法将目标视频分段，得到多个视频段落。可知，步骤101中分段后得到的各个视频段落可以长度相同，也可以长度各不相同，此处不作限定。

102、采用预训练好的深度卷积网络模型分别对每个所述视频段落的各个视频帧提取特征向量；

本实施例中的深度卷积网络模型是用来对每个视频帧提取特征向量的，该深度卷积网络模型可以是预先训练好的GoogLeNet、AlexNet，VGGNet，和ResNet等模型。

103、针对每个所述视频段落，将所述视频段落所有视频帧对应的特征向量作为输入投入预训练好的深度神经网络，得到输出的所述视频段落每一帧对应的概率值；

在每个所述视频段落所有视频帧都提取特征向量之后，可以针对每个所述视频段落，将所述视频段落所有视频帧对应的特征向量作为输入投入预训练好的深度神经网络，得到输出的所述视频段落每一帧对应的概率值，所述概率值表示视频帧被选为用于视频总结的概率。

其中，上述的深度神经网络具体可以是卷积神经网络或递归神经网络。该递归神经网络可以具体采用LSTM(Long Short-Term Memory)，也可以采用其他高性能网络替代，例如GRU(Gated Recurrent Unit)。

该深度神经网络训练时的输入为视频帧对应的特征向量，输出为这些视频帧对应的概率值。因此，在测试阶段，可以将所述视频段落所有视频帧对应的特征向量作为输入投入该深度神经网络，得到输出的所述视频段落每一帧对应的概率值。

需要说明的是，该深度神经网络在执行本实施例的方法之前已预先训练完成，其训练过程将在下述内容中详细描述。

104、针对每个所述视频段落，根据所述视频段落所有视频帧对应的概率值计算所述视频段落的重要性值，其中，所述视频段落所有视频帧对应的概率值越大，则相应计算得到的重要性值越大；

具体地，所述重要性值可以等于所述视频段落所有视频帧对应的概率值的均值，在本实施例中，视频帧对应的概率值作为对视频帧的关键性的评估值。因此，概率值越大，则相应的视频帧在该视频段落中越关键、重要。

105、在保证选取出的视频段落总时长占所述目标视频总时长的比例小于或等于预设比例阈值的前提下，从所述多个视频段落中选取重要性值较大的若干个视频段落；

可以理解的是，在进行视频总结时，由于视频总结是目标视频的内容概要，因此其长度必然要求较短，这样才能满足用户快速浏览的需求。因此，在选取视频段落时，应当保证选取出的视频段落总时长(总长度)不超过该目标视频的一定比例，比如不超过目标视频的15％。

在选取视频段落时，选取其中重要性值较大的视频段落。例如，假设共10个视频段落，各个视频段落长度相同，上述的预设比例阈值为20％，则应当从10个视频段落中选取重要性值较大的2个视频段落。具体地，选取视频段落的方式可以是运用背包问题的优化方式去选择，以增大选中的视频段落的关键性的值，即重要性值。

106、对选取出的所述若干个视频段落进行整理，得到所述目标视频的视频总结。

比如，可以将选取出的这些视频段落进行合并，得到一个作为视频总结的视频，该视频的内容即为目标视频的内容概要。

下面将对上述步骤103中的深度神经网络进行详细说明。如图2所示，所述深度神经网络可以通过以下步骤进行预先训练：

201、采用预训练好的深度卷积网络模型对用于训练的样本视频的各个视频帧提取特征向量；

202、将所述样本视频所有视频帧对应的特征向量作为输入投入所述深度神经网络，得到输出的所述样本视频每一帧对应的概率值；

203、基于输出的概率值，采用伯努利分布对所述样本视频的视频帧进行采样，得到采样的行为值；

204、根据所述采样的行为值将选中的视频帧提取并整理得到所述样本视频的视频总结；

205、采用预设的奖励函数对所述样本视频的视频总结进行质量评估，得到评估的奖励值，其中，奖励值越大，则代表所述样本视频的视频总结质量越高；

206、根据所述奖励值采用强化学习方法对所述深度神经网络进行优化训练，以使所述深度神经网络对所述样本视频的输出满足预设的目标函数的要求。

上述步骤201与步骤102在原理上相似，均是采用预训练好的深度卷积网络模型提取视频帧的特征向量，此处不再赘述。

对于上述步骤202，在完成特征向量提取之后，可以将提取好的特征向量输入到深度神经网络。该深度神经网络会对每一帧输出一个概率值，该概率值用来表示当前视频帧有多大概率被选为关键帧。

对于上述步骤203，可以理解的是，根据深度神经网络预测的概率值分布，用伯努利分布采样一个二进制的行为值，也就是0或者1。0代表该视频帧不被选中，而1代表该视频帧被选中。

对于上述步骤204，可知，根据采样的行为值，可以将选中的视频帧(即行为值为1所对应的视频帧)提取出来作为对该样本视频的一个视频总结。

对于上述步骤205，在得到视频总结之后，可以预设的奖励函数对生成的视频总结进行质量评估，如果生成的视频总结具有越高的多样性和代表性，也就是选取的视频帧之间的相似度越低，并且这些视频帧在特征空间中越靠近群聚的中心，那么奖励函数会给予深度神经网络越高的奖励值。反之，如果生成的视频总结的多样性和代表性越低，那么奖励函数会给予深度神经网络越低的奖励值，从而去激励该深度神经网络去生成高质量的视频总结，也就是具有高度的多样性和高度的代表性的视频总结。

进一步地，上述的奖励函数R表示为：

R＝R_div+R_rep；

代表性评估函数R_rep表示为：

其中，x_t表示每个视频帧的特征向量，t＝1,2,…,T，T表示视频帧的总长度，Y＝{y₁,y₂,…,|Y|}表示选中的视频帧的位置下标集，非相似度函数d表示为：

更进一步地，在计算非相似度函数d时，若两视频帧之间相距的长度t超过预设的距离阈值，则直接设置所述两视频帧对应的非相似度函数d的计算结果等于1。比如，若两视频帧的长度分别为t₁和t₂，t₁-t₂＝20，则可以认为这两个视频帧的非相似度可以忽略，直接记d＝1。

对于上述步骤206，根据步骤205中奖励函数评估得到的奖励值，可以针对每一个输入的样本视频对深度神经网络进行训练以及优化。其中，该深度神经网络奖励机制优化的目标函数J可以表示为：

J(ω)＝E[R]；

根据所述目标函数计算相对于w的梯度值为：

因此，上述步骤206具体可以为：根据所述奖励值采用梯度优化算法对所述深度神经网络进行优化训练，以增大所述目标函数J的值。其中，所述梯度优化算法可以为随机梯度优化算法、Adam或者RMSProp等梯度优化算法。可知，利用奖励函数和强化学习方法，可以实现对深度网络分监督的训练。

为了更进一步优化本实施例中的深度神经网络，在优化深度神经网络的同时，还可以限制选中的关键帧的长度。从而，上述步骤206还可以具体为：根据所述奖励值采用梯度优化算法对所述深度神经网络进行优化训练，以增大所述目标函数J的值并且减少损失函数L的值。

其中，所述损失函数L表示为：

其中，p_t表示所述深度神经网络对t帧所预测的概率，ε表示所述选中的视频帧占所述样本视频的长度比例。在大多数应用场景中，ε一般设为0.5。

由上述内容可知，本实施例的基于深度学习的视频总结方法是基于深度神经网络的无监督式视频总结方法，该方法可以利用强化学习和没有标签的视频来无监督的训练用于视频概要的深度神经网络模型，进而利用该模型对目标视频进行概要和总结。其次，该深度神经网络模型的训练算法是基于强化学习的，并且能够支持端到端的网络训练。

为便于理解，根据图1所描述的实施例，下面将在SumMe和TVSum两个数据库上对上述的基于深度学习的视频总结方法进行测试：

在本次测试中，测试衡量的标准是对比算法形成的视屏总结和人为标定的视频总结之间的相似度，也就是F-score。F-score越高表示机器形成的视频总结和人为标定的视频总结之间相似度越高。对比的无监督方法有(1)平均分布抽取关键帧、(2)K-中心点、(3)字典学习和(4)生成式深度对抗网络。

对比的结果如下表所示。从表中可以看到本实施例提供的基于深度学习的视频总结方法的结果比其他方法得到的结果提高了至少2(在SumMe上)和6(在TVSum上)个百分点。其中，基于深度学习的视频总结方法比传统方法，也就是方法(1)，方法(2)和方法(3)高出了将近至少4(在SumMe上)和15(在TVSum上)个百分点。

	SumMe	TVSum
			平均分布抽取关键帧	29.3％	15.5％
K-中心点	33.4％	28.8％
			字典学习	37.8％	42％
生成式深度对抗网络	39.1％	51.7％
			基于深度强化学习的视频总结方法	41.4％	57.6％

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上面主要描述了一种基于深度学习的视频总结方法，下面将对一种基于深度学习的视频总结装置进行详细描述。

图3示出了本发明实施例中一种基于深度学习的视频总结装置一个实施例结构图。

本实施例中，一种基于深度学习的视频总结装置包括：

分段模块301，用于将目标视频分段，得到多个视频段落；

特征向量提取模块302，用于采用预训练好的深度卷积网络模型分别对每个所述视频段落的各个视频帧提取特征向量；

概率预测模块303，用于针对每个所述视频段落，将所述视频段落所有视频帧对应的特征向量作为输入投入预训练好的深度神经网络，得到输出的所述视频段落每一帧对应的概率值，所述概率值表示视频帧被选为用于视频总结的概率；

重要性计算模块304，用于针对每个所述视频段落，根据所述视频段落所有视频帧对应的概率值计算所述视频段落的重要性值，其中，所述视频段落所有视频帧对应的概率值越大，则相应计算得到的重要性值越大；

视频段落选取模块305，用于在保证选取出的视频段落总时长占所述目标视频总时长的比例小于或等于预设比例阈值的前提下，从所述多个视频段落中选取重要性值较大的若干个视频段落；

视频总结模块306，用于对选取出的所述若干个视频段落进行整理，得到所述目标视频的视频总结。

进一步地，所述深度神经网络可以通过以下模块进行预先训练：

进一步地，所述奖励函数R可以表示为：

R＝R_div+R_rep；

代表性评估函数R_rep表示为：

进一步地，所述基于深度学习的视频总结装置还可以包括：

非相似函数模块，用于在计算非相似度函数d时，若两视频帧之间相距的长度t超过预设的距离阈值，则直接设置所述两视频帧对应的非相似度函数d的计算结果等于1。

进一步地，所述目标函数J可以表示为：

J(ω)＝E[R]；

根据所述目标函数计算相对于w的梯度值为：

所述优化训练模块可以具体用于：

进一步地，所述优化训练模块可以具体用于：

所述损失函数L表示为：

本发明还公开了一种基于深度学习的视频总结系统，该基于深度学习的视频总结系统包括图3对应实施例中描述的任意一种基于深度学习的视频总结装置，因此，其也同样包括这些基于深度学习的视频总结装置的所有技术特征，并能解决相同的技术问题以及达到相同的预期效果。

图4是本发明一实施例提供的终端设备的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42，例如执行上述基于深度学习的视频总结方法的程序。所述处理器40执行所述计算机程序42时实现上述各个基于深度学习的视频总结方法实施例中的步骤，例如图1所示的步骤101至106。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块301至306的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的视频总结方法，其特征在于，包括：

将目标视频分段，得到多个视频段落；

2.根据权利要求1所述的基于深度学习的视频总结方法，其特征在于，所述深度神经网络通过强化学习方法和以下步骤进行预先训练：

3.根据权利要求2所述的基于深度学习的视频总结方法，其特征在于，所述奖励函数R表示为：

R＝R_div+R_rep；

所述Rdiv和R_rep分别为多样性评估函数和代表性评估函数，多样性评估函数R_div表示为：

<mrow> <msub> <mi>R</mi> <mrow> <mi>d</mi> <mi>i</mi> <mi>v</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>Y</mi> <mo>|</mo> <mrow> <mo>(</mo> <mo>|</mo> <mi>Y</mi> <mo>|</mo> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>Y</mi> </mrow> </munder> <munder> <munder> <mo>&Sigma;</mo> <mrow> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>Y</mi> </mrow> </munder> <mrow> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> <mo>&NotEqual;</mo> <mi>t</mi> </mrow> </munder> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

代表性评估函数R_rep表示为：

<mrow> <msub> <mi>R</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>p</mi> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>T</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>Y</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <msubsup> <mi>x</mi> <mi>t</mi> <mi>T</mi> </msubsup> <msub> <mi>x</mi> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mfrac> <mo>.</mo> </mrow>

4.根据权利要求3所述的基于深度学习的视频总结方法，其特征在于，还包括：

5.根据权利要求2至4中任一项所述的基于深度学习的视频总结方法，其特征在于，所述目标函数J表示为：

J(w)＝E[R]:

根据所述目标函数计算相对于w的梯度值为：

<mrow> <msub> <mo>&dtri;</mo> <mi>w</mi> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <mrow> <mo>(</mo> <mi>R</mi> <mo>-</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>&dtri;</mo> <msub> <mi>log&pi;</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

6.根据权利要求5所述的基于深度学习的视频总结方法，其特征在于，所述根据所述奖励值采用强化学习方法对所述深度神经网络进行优化训练，以使所述深度神经网络对所述样本视频的输出满足预设的目标函数的要求具体为：

所述损失函数L表示为：

<mrow> <mi>L</mi> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mfrac> <mn>1</mn> <mi>T</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>-</mo> <mi>&epsiv;</mi> <mo>|</mo> <mo>|</mo> <mo>;</mo> </mrow>

7.一种基于深度学习的视频总结装置，其特征在于，包括：

分段模块，用于将目标视频分段，得到多个视频段落；

8.根据权利要求7所述的基于深度学习的视频总结装置，其特征在于，所述深度神经网络通过以下模块进行预先训练：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述基于深度学习的视频总结方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述基于深度学习的视频总结方法的步骤。

11.一种基于深度学习的视频总结系统，其特征在于，包括如权利要求7或8所述的基于深度学习的视频总结装置。