CN110798752B

CN110798752B - 用于生成视频摘要的方法和系统

Info

Publication number: CN110798752B
Application number: CN201810874321.2A
Authority: CN
Inventors: 曾建平; 吴立薪; 吕晶晶; 包勇军
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2021-10-15
Anticipated expiration: 2038-08-03
Also published as: WO2020024958A1; CN110798752A

Abstract

本公开提供了一种用于生成视频摘要的方法和系统，涉及视频技术领域。该方法可以包括：根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；计算每个镜头的重要性分值；以及从该多个镜头中选取一组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。本公开可以使得视频摘要中包含一些比较重要的镜头或片段。

Description

用于生成视频摘要的方法和系统

技术领域

本公开涉及视频技术领域，特别涉及一种用于生成视频摘要的方法和系统。

背景技术

视频摘要是从一段较长的视频中选取关键帧或者关键片段并拼接成一段较短的视频，使观看者能够在较短的时间内了解原始视频的内容或者欣赏原始视频中的精彩片段。视频摘要有广泛的应用场景，包括个人视频剪辑、电视电影剧情介绍、视频辅助刑侦和互联网短视频等。在现有的生成视频摘要的方法中，由于对视频评价的主观性较强，因此所生成的视频摘要可能会丢失一些比较重要的片段或精彩内容。

例如，现有视频摘要方法一般是基于一些通用性准则来选取关键帧和关键片段，较少有针对特定场景和应用的视频摘要方法。这导致这样的方法在一些具体应用场景特别是视频广告领域的效果不太好，经过摘要处理的广告视频可能会丢失用于介绍商品品牌和商品特点的关键片段，以及一些能快速抓住观众心理的精彩内容。

发明内容

本公开实施例解决的一个技术问题是：提供一种用于生成视频摘要的方法，使得该视频摘要能包含一些比较重要的镜头或片段。

根据本公开实施例的一个方面，提供了一种用于生成视频摘要的方法，包括：根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；计算每个镜头的重要性分值；以及从所述多个镜头中选取一组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。

在一些实施例中，计算每个镜头的重要性分值的步骤包括：利用三维卷积网络对每个镜头提取特征向量，获得镜头集合的特征向量序列；以及将所述特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。

在一些实施例中，在将视频切分为多个镜头之前，所述方法还包括：采用强化学习的方法对镜头重要性分值计算网络进行训练，其中，所述强化学习的方法所包含的关键元素包括：行动和价值奖励函数，所述价值奖励函数包含：多样性指标和代表性指标。

在一些实施例中，在从所述多个镜头中选取一组镜头拼接成视频摘要之前，所述方法还包括：在所述多个镜头中识别出展现关键特征的镜头。

在一些实施例中，所述关键特征包括商品品牌商标和商品品牌文字中的至少一个。

在一些实施例中，在所述多个镜头中识别出展现关键特征的镜头的步骤包括：使用基于深度学习的对象检测方法检测视频的每帧图像中的商标区域；以及将商标区域的图像输入到预先训练的深度模型提取嵌入特征向量，并将所述嵌入特征向量与数据库中的商标图像的特征向量进行比对，获取商标的品牌类型，从而识别出展现商品品牌商标的镜头；或者，使用基于深度学习的光学字符识别方法识别视频的每帧图像中的文字；以及对文字进行分词处理，并将处理后的文字与数据库中的品牌文字进行匹配，保留与商品品牌相关的文字，从而识别出展现商品品牌文字的镜头。

在一些实施例中，从所述多个镜头中选取一组镜头拼接成视频摘要的步骤包括：从所述展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，并将该组镜头拼接成视频摘要。

在一些实施例中，从所述展现关键特征的镜头中选取主镜头的步骤包括：如果从所述展现关键特征的镜头中选取的镜头为视频的最前面N_g个镜头或最后面N_g个镜头，则确定该最前面N_g个镜头或该最后面N_g个镜头为主镜头，N_g为正整数；从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头的步骤包括：从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大；将该组镜头拼接成视频摘要的步骤包括：将所述主镜头和所述辅助镜头按照时间顺序拼接成视频摘要。

在一些实施例中，在所述多个镜头中识别出展现关键特征的镜头之前，所述方法还包括：计算每个镜头与所宣传商品图片的相似度，并利用所述相似度修正镜头的重要性分值。

在一些实施例中，计算每个镜头与所宣传的商品图片的相似度，并利用所述相似度修正镜头的重要性分值的步骤包括：计算所宣传商品图片的特征向量；对每个镜头的多帧图像进行采样以获得采样帧，并计算每个镜头的采样帧的特征向量；根据所述商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与所述商品图片的相似度；以及根据所述相似度和预设的相似度阈值对每个镜头的重要性分值进行修正。

根据本公开实施例的另一个方面，提供了一种用于生成视频摘要的系统，包括：视频切分单元，用于根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；计算单元，用于计算每个镜头的重要性分值；选取单元，用于从所述多个镜头中选取一组镜头，使得在满足视频摘要总时长的约束条件的情况下所选取的该组镜头的总的重要性分值最大；以及拼接单元，用于将所选取的该组镜头拼接成视频摘要。

在一些实施例中，所述计算单元用于利用三维卷积网络对每个镜头提取特征向量，获得镜头集合的特征向量序列，以及将所述特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。

在一些实施例中，所述系统还包括：训练单元，用于采用强化学习的方法对镜头重要性分值计算网络进行训练，其中，所述强化学习的方法所包含的关键元素包括：行动和价值奖励函数，所述价值奖励函数包含：多样性指标和代表性指标。

在一些实施例中，所述系统还包括：识别单元，用于在所述多个镜头中识别出展现关键特征的镜头。

在一些实施例中，所述识别单元用于：使用基于深度学习的对象检测方法检测视频的每帧图像中的商标区域；以及将商标区域的图像输入到预先训练的深度模型提取嵌入特征向量，并将所述嵌入特征向量与数据库中的商标图像的特征向量进行比对，获取商标的品牌类型，从而识别出展现商品品牌商标的镜头；或者，使用基于深度学习的光学字符识别方法识别视频的每帧图像中的文字；以及对文字进行分词处理，并将处理后的文字与数据库中的品牌文字进行匹配，保留与商品品牌相关的文字，从而识别出展现商品品牌文字的镜头。

在一些实施例中，所述选取单元用于从所述展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头。

在一些实施例中，所述选取单元用于：如果从所述展现关键特征的镜头中选取的镜头为视频的最前面N_g个镜头或最后面N_g个镜头，则确定该最前面N_g个镜头或该最后面N_g个镜头为主镜头，N_g为正整数；以及从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大；所述拼接单元用于将所述主镜头和所述辅助镜头按照时间顺序拼接成视频摘要。

在一些实施例中，所述系统还包括：修正单元，用于计算每个镜头与所宣传商品图片的相似度，并利用所述相似度修正镜头的重要性分值。

在一些实施例中，所述修正单元用于：计算所宣传商品图片的特征向量；对每个镜头的多帧图像进行采样以获得采样帧，并计算每个镜头的采样帧的特征向量；根据所述商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与所述商品图片的相似度；以及根据所述相似度和预设的相似度阈值对每个镜头的重要性分值进行修正。

根据本公开实施例的另一个方面，提供了一种生成视频摘要的系统，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如前所述的方法。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如前所述的方法的步骤。

在上述方法中，在将视频切分为多个镜头后，计算了每个镜头的重要性分值，而且在选取一组镜头的过程中，选取了在满足视频摘要总时长的约束条件的情况下总的重要性分值最大的一组镜头，将该组镜头拼接成视频摘要。因此通过该方法可以使得视频摘要中包含一些比较重要的镜头或片段。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的用于生成视频摘要的方法的流程图；

图2是示出根据本公开一些实施例的计算每个镜头的重要性分值的方法的流程图；

图3是示出根据本公开另一些实施例的计算每个镜头的重要性分值的方法的流程图；

图4是示出根据本公开另一些实施例的用于生成视频摘要的方法的流程图；

图5是示出根据本公开一些实施例的修正镜头的重要性分值的方法的流程图；

图6是示出根据本公开一些实施例的用于生成视频摘要的系统的结构图；

图7是示出根据本公开另一些实施例的用于生成视频摘要的系统的结构图；

图8是示出根据本公开另一些实施例的用于生成视频摘要的系统的结构图；

图9是示出根据本公开另一些实施例的用于生成视频摘要的系统的结构图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的用于生成视频摘要的方法的流程图。图2是示出根据本公开一些实施例的计算每个镜头的重要性分值的方法的流程图。图3是示出根据本公开另一些实施例的计算每个镜头的重要性分值的方法的流程图。下面结合图1至图3详细描述根据本公开一些实施例的用于生成视频摘要的方法。如图1所示，该方法可以包括步骤S102～S106。

如图1所示，在步骤S102，根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景。

例如，对于一段视频序列V＝{I_i|i＝1，…，N}，其中I_i是一帧视频图像。根据视频场景的变化将其切分为长度不一的多个镜头S_t，这些多个镜头组成镜头集合S＝{S_t|t＝1，…，T}，T＞1且T为正整数。每个镜头是一段内容连续的视频场景。假设每个镜头的长度(即每个镜头包含的视频帧的数目)为sl_t，则所有镜头长度的集合表示为SL＝{sl_t|t＝1，…，T}。

在一些实施例中，可以采用KTS(Kernel Temporal Segmentation，核函数时域分割)方法将视频切分为多个镜头。此方法切分效果好而且速度较快。但本公开并仅不限于使用KTS方法，还可以采用其它镜头切分方法。

在步骤S104，计算每个镜头的重要性分值。

在一些实施例中，该步骤S104可以包括：利用三维卷积网络对每个镜头提取特征向量，获得镜头集合的特征向量序列；以及将该特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。

例如，实现计算重要性分值(该计算重要性分值的过程也可以称为重要性打分)的模型框图如图2所示。使用三维卷积网络(C3D Net)对视频镜头提取特征向量，获得镜头集合S(S＝{S_t|t＝1，…，T})的特征向量序列X＝{X_t|t＝1，…，T}，其中

为实数集，d1表示维度。然后将特征向量序列X输入到已经训练得到的镜头重要性分值计算网络来计算每个镜头的重要性分值(或者称为重要性概率值)sv_t∈[0，1]，获得镜头重要性序列SV＝{sv_t|t＝1，…，T}。以下对计算重要性分值的两个子网络进行说明。

(1)视频镜头特征提取网络

视频镜头是图像序列，可以用三维矩阵表示。可以使用三维卷积网络(C3D Net)对镜头进行处理并提取一维特征向量。即将三维卷积网络作为视频镜头特征提取网络。例如，可以采用膨胀的三维卷积网络(Inflated 3D convolutional network，简称为I3D)对镜头进行处理。

例如，Kinetics-600是一个视频分类数据集，它包含600个类别的人的活动，共50多万个10秒时长的视频片段。首先使用Kinetics-600数据集对I3D网络进行预训练，然后使用13D网络处理视频镜头S_t，将网络的最后一个池化层的输出作为特征向量X_t，从而将镜头集合S＝{S_t|t＝1，…，T}转化为特征向量序列X＝{X_t|t＝1，…，T}。由于经过预训练的I3D网络具有很强的视频分类能力，其最后一个池化层的输出就是一种特征嵌入(featureembedding)，表征了视频内容的本质特征。

在本公开的实施例中，并不仅限于采用I3D网络，还可以采用其它类型的三维卷积网络以进行视频镜头的特征提取。

(2)镜头重要性分值计算网络

镜头重要性分值计算网络可以是时序网络，例如可以是递归神经网络(RecurrentNeural Network，简称为RNN)。镜头重要性分值计算网络可以被输入具有时间先后顺序的特征向量序列X＝{X_t|t＝1，…，T}，输出镜头重要性分值序列SV＝{sv_t|t＝1，…，T}。例如，可以使用双向LSTM(Long Short-Term Memory，长短时记忆网络)实现此网络，如图3所示。

在一些实施例中，在将视频切分为多个镜头之前，所述方法还可以包括：采用强化学习的方法对镜头重要性分值计算网络进行训练。该强化学习的方法所包含的关键元素包括：行动和价值奖励函数。该价值奖励函数包含：多样性指标和代表性指标。使用强化学习的方法训练上述模型，不需要对视频进行标注。该强化学习的方法是一种无监督学习方法。

强化学习的基本思想是在系统的某个状态下随机采取多个行动，计算每个行动产生的价值，通过奖励价值较大的行动而惩罚价值较小的行动来对系统进行优化，使其趋向于选择价值较大的行动。因此，强化学习有两个关键元素：行动(actions)和价值奖励函数(reward function)。

例如，定义与镜头选取相关的行动(actions)：

表示时间序号为y_i的镜头被选取，所以Y可以代表镜头选取行动，表示被选取镜头的时间序号集合，|Y|表示该集合的元素数目。网络对每个视频镜头输出其重要性概率值p_t＝sv_t，基于伯努利分布对镜头是否被选取进行采样，即a_t～Bernoulli(p_t)，用π_θ(a_t|p_t)表示，其中θ为上述双向LSTM模型的参数，所以镜头选取行动Y的发生概率为

价值奖励函数R(S)有两个指标：多样性R_div和代表性R_rep，分别定义如下：

其中，

R(S)＝R_div+R_rep。 (4)

这里，||X_t||₂表示特征向量X_t的长度，通过对特征向量X_t的各个元素的平方和进行开平方得到；||X_t′||₂表示特征向量X_t’的长度，通过对特征向量X_t’的各个元素的平方和进行开平方得到；

表示特征向量X_t的转置。

多样性指标度量了不同镜头之间内容的多样性，代表性指标度量了选取的视频镜头在多大程度上代表了原始的视频。

强化学习的目标是对所有可能的行动最大化奖励函数R(S)的期望，数学描述如下：

其中，a_1：T表示采取的行动，即表示哪些镜头被选取，哪些镜头不被选取，pθ(a_1：T)表示行动a_1：T发生的概率。

因为镜头选取行动Y的发生概率为

所有目标函数的梯度可以表示为：

通过对镜头选择行动进行采样，上述梯度期望可以做近似计算，即：

实际计算期望过程中可以采样一些行动来近似计算期望，这里，N为采样的行动的数目。

基于上述强化学习方法，使用例如京东商城上的大量广告视频训练前述双向LSTM网络，获得了训练好的镜头重要性分值计算网络作为视频镜头重要性打分网络模型。

回到图1，在步骤S106，从多个镜头中选取一组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。

例如，所需要满足的视频摘要总时长的约束条件可以为不超过要求的视频摘要总时长。从所述多个镜头中选取一组镜头，该组镜头在满足视频摘要总时长的约束条件的情况下的总重要性分值最大。可以将该组镜头按照时间顺序拼接成视频摘要。

至此，提供了一些实施例的用于生成视频摘要的方法。在该方法中，在将视频切分为多个镜头后，计算每个镜头的重要性分值，重要性分值比较大的镜头是比较重要的镜头。而且在选取一组镜头的过程中，选取了在满足视频摘要总时长的约束条件的情况下总的重要性分值最大的一组镜头，并将该组镜头拼接成视频摘要。因此可以通过该方法使得视频摘要中包含一些比较重要的镜头或片段。

在一些实施例中，在步骤S106之前，所述方法还可以包括：在所述多个镜头中识别出展现关键特征的镜头。例如，该关键特征可以包括商品品牌商标和商品品牌文字中的至少一个。

在一些实施例中，上述步骤S106可以包括：从展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头(除去所选取的主镜头之外的所有剩余镜头)中选取辅助镜头，将该主镜头和该辅助镜头作为所选取的一组镜头，并将该组镜头拼接成视频摘要。

在上述实施例的方法中，识别出展现关键特征的镜头，并从展现关键特征的镜头中选取主镜头以及从其他剩余镜头中选取辅助镜头。将该主镜头和该辅助镜头作为所选取的一组镜头，并使得该组镜头在满足视频摘要总时长的约束条件的情况下的总重要性分值最大。将该组镜头拼接成视频摘要。这样可以使得所得到的视频摘要包含关键镜头，例如广告视频中用于介绍商品品牌或商品名称的关键镜头，从而可以尽可能地起到宣传商品的目的。

在一些实施例中，在所述多个镜头中识别出展现关键特征的镜头之前，所述方法还可以包括：计算每个镜头与所宣传商品图片的相似度，并利用该相似度修正镜头的重要性分值。经过镜头与所宣传商品图片相似性的修正后，那些重点展示商品的镜头的重要性获得了提升，可以增强视频摘要对商品的展现能力。

图4是示出根据本公开另一些实施例的用于生成视频摘要的方法的流程图。如图4所示，该方法可以包括步骤S402～S410。

在步骤S402，根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景。该步骤S402与步骤S102相同或相似，这里不再赘述。

在步骤S404，计算每个镜头的重要性分值。该步骤S404与步骤S104相同或相似，这里不再赘述。

在步骤S406，计算每个镜头与所宣传商品图片的相似度，并利用该相似度修正镜头的重要性分值。该步骤S406的过程在后面将结合图5详细描述。

在步骤S408，在多个镜头中识别出展现关键特征的镜头。例如，该关键特征可以包括商品品牌商标和商品品牌文字中的至少一个。

例如，在广告视频中，一般在片头或者片尾都会有展示商品品牌的镜头，这是为了加深商品品牌对广告受众的印象，起到宣传品牌的目的，因此可以识别和提取广告品牌镜头并在摘要后的广告视频中进行展示。本公开实施例用于识别广告品牌镜头所使用的两个信息来源包括：商品品牌商标和商品品牌文字。例如京东吉祥物和京东文字。

在一些实施例中，广告品牌镜头识别可以包含品牌商标或文字识别和品牌镜头判定两个步骤。如下：(1)使用对象检测技术识别品牌商标，或者使用OCR(Optical CharacterRecognition，光学字符识别)技术识别品牌文字；(2)品牌镜头判定：对于镜头S_t，其长度(即视频帧数)为sl_t，如果品牌商标或文字处在图像的中心区域，并且在连续N_c帧图像中出现，则此镜头被确定为广告品牌镜头。例如，N_c≥sl_t/2。

在一些实施例中，该步骤S408可以包括：使用基于深度学习的对象检测方法检测视频的每帧图像中的商标区域。例如，该对象检测方法可以使用Faster-RCNN(FasterRegion CNN Detector，更快速区域CNN检测器)、SSD(Single Shot Detector，单帧检测器)和YOLO(Detector by“You only look once”，“你只能看一次”的检测器)等，但不限于这些方法。该步骤S408还可以包括：将商标区域的图像输入到预先训练的深度模型提取嵌入特征向量，并将该嵌入特征向量与数据库中的商标图像的特征向量进行比对，获取商标的品牌类型(例如京东、apple或海尔等)，从而识别出展现商品品牌商标的镜头。例如，数据库存储有N个商标图像的特征向量，则将提取的嵌入特征向量与这N个商标图像的特征向量进行比对，获取商标的品牌类型。

在另一些实施例中，该步骤S408可以包括：使用基于深度学习的OCR方法识别视频的每帧图像中的文字；以及对文字进行分词处理，并将处理后的文字与数据库中的品牌文字进行匹配，保留与商品品牌相关的文字，从而识别出展现商品品牌文字的镜头。

在步骤S410，从多个镜头中选取一组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。

在本公开的实施例中，在生成视频摘要的过程中，需要选择一组镜头并将它们拼接起来获得最后的摘要视频文件。哪些镜头被选取可以用集合SU＝{su_t|t＝1，…，T}来表示，其中su_t∈{0，1}，表示镜头是否被选取。例如，su_t为1，表示镜头被选取；su_t为0，表示镜头不被选取。

对于镜头集合S＝{S_t|t＝1，…，T}，在满足总时长约束条件下选择一组镜头使得总的镜头重要性分值最大，可以归结为一个最优化问题，如下：

其中，sv_t是镜头的重要性分值，sl_t是镜头的长度，su_t表示镜头是否被选取，ST是摘要视频的最大时长。此最优化问题可以使用动态规划方法求解。

在一些实施例中，该步骤S410可以包括：从展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头中选取辅助镜头，将该主镜头和该辅助镜头作为所选取的一组镜头，并将该组镜头拼接成视频摘要。

在一些实施例中，从展现关键特征的镜头中选取主镜头的步骤可以包括：如果从展现关键特征的镜头中选取的镜头为视频的最前面N_g个镜头或最后面N_g个镜头，则确定该最前面N_g个镜头或该最后面N_g个镜头为主镜头，N_g为正整数，例如N_g的取值为1～2。

例如，如果镜头S_t被识别为用于展示所宣传商品品牌的镜头，而且是镜头集合S的最前面N_g个或者最后面N_g个镜头，即t≤N_g或者t＞K-N_g，K为总镜头数，则此镜头S_t即为所选取的广告品牌镜头。例如，N_g的取值为1～2。因为广告的一个基本目的是让广告受众知晓商品的品牌，所以可以在摘要视频中展示和强调商品的品牌。

在一些实施例中，从所述多个镜头中的剩余镜头中选取辅助镜头，将主镜头和辅助镜头作为所选取的一组镜头的步骤可以包括：从所述多个镜头中的剩余镜头中选取辅助镜头，将主镜头和辅助镜头作为所选取的一组镜头，使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大。

例如，S^pre是上面所选取的广告品牌镜头集合，在镜头集合S\S^pre(表示排除S^pre之后的剩余镜头集合)中使用动态规划方法求解前述最优化问题，选择镜头并满足剩余时长约束。

在一些实施例中，将该组镜头拼接成视频摘要的步骤可以包括：将主镜头和辅助镜头按照时间顺序拼接成视频摘要。例如，可以将主镜头和辅助镜头按照时间排序，最后拼接成广告视频摘要。

在另一些实施例中，展现关键特征的镜头可能不是视频的最前面N_g个镜头或最后面N_g个镜头，而是视频中间部分的某些镜头。在这样的情况下，可以从这些展现关键特征的镜头中选取一个或一些镜头作为主镜头。然后从剩余的镜头中选取辅助镜头。在将主镜头和辅助镜头拼接成视频摘要的过程中，将该主镜头放在视频摘要的最前面或最后面，并将辅助镜头按照时间顺序排列，从而将这些主镜头和辅助镜头拼接成视频摘要。

至此，提供了根据本公开另一些实施例的用于生成视频摘要的方法。在该方法中，在将视频切分为多个镜头后，计算了每个镜头的重要性分值，重要性分值比较大的镜头是比较重要的镜头。识别出展现关键特征的镜头，并从展现关键特征的镜头中选取主镜头以及从其他剩余镜头中选取辅助镜头。将该主镜头和该辅助镜头作为所选取的一组镜头，并使得该组镜头在满足视频摘要总时长的约束条件的情况下的总重要性分值最大。将该组镜头拼接成视频摘要。这样可以使得所得到的视频摘要包含关键镜头，例如广告视频中用于介绍商品品牌或商品名称的关键镜头，从而可以尽可能地起到宣传商品的目的。

本公开一些实施例的方法在短视频广告中重点保留介绍商品品牌和商品特点的关键片段，并保证摘要后视频内容有一定的连续性和精彩性。

广告的一个目的是向广告受众展示商品的外观，在他们的脑海中建立对此商品的印象，所以可以在广告视频中识别出重点展示商品的镜头并输出到视频摘要中。商品主图一般包含了商品的外观全貌，通过视频镜头与商品主图之间的相似性可以识别出以展示商品为主要内容的镜头。如果能够获取广告视频所宣传商品的主图，则可以对镜头重要性分值进行修正。

图5是示出根据本公开一些实施例的修正镜头的重要性分值的方法的流程图。该图5所示的过程是图4中的步骤S406的一种具体实施方式。下面结合图5详细描述图4中的步骤S406的具体过程。如图5所示，该修正镜头的重要性分值的过程可以包括步骤S502～S508。

在步骤S502，计算所宣传商品图片的特征向量。

例如，可以使用基于深度学习的分类模型(例如，VGG(Very Deep ConvolutionalNetwork，非常深的卷积网络)、Inception(Google Inception Convolutional Network，谷歌初期卷积网络)、ResNet(Residual Convolutional Network，残差卷积网络)等)计算商品图片(或称为商品主图)I_M的嵌入特征向量

X_M是d2维的特征向量。

在步骤S504，对每个镜头的多帧图像进行采样以获得采样帧，并计算每个镜头的采样帧的特征向量。

例如，对每个镜头S_t中的视频图像每若干帧(例如每5帧)图像选取1帧图像，使用步骤S502中的分类模型计算这些图像的嵌入特征向量，得到特征向量集合{X_ti|i＝1，…，N_t}。这里N_t表示对镜头S_t抽样的图像的数目。

在步骤S506，根据商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与商品图片的相似度。

例如，对每个镜头S_t，将其特征向量集合{X_ti|i＝1，…，N_t}与商品图片的特征向量X_M计算余弦相似度以得到相似度集合{sm_ti|i＝1，…，N_t}，并取相似度集合的中值sm_t＝median{sm_ti|i＝1，…，N_t}作为镜头与商品图片的相似度。

在步骤S508，根据相似度和预设的相似度阈值对每个镜头的重要性分值进行修正。

例如，可以使用以下公式对镜头重要性分值sv_t进行修正，其中tsm为相似度阈值，例如，该相似度阈值可以取值为0.5～0.6。对镜头重要性分值sv_t进行修正的公式为：

至此，提供了根据一些实施例的修正镜头的重要性分值的方法。通过计算镜头与商品图片的相似度，并根据相似度对镜头的重要性分值修正后，可以提升重点展示商品的镜头的重要性，从而增强视频摘要对商品的展现能力。

图6是示出根据本公开一些实施例的用于生成视频摘要的系统的结构图。如图6所示，该系统可以包括视频切分单元602、计算单元604、选取单元606和拼接单元608。

该视频切分单元602可以用于根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景。

该计算单元604可以用于计算每个镜头的重要性分值。

该选取单元606可以用于从所述多个镜头中选取一组镜头，使得在满足视频摘要总时长的约束条件的情况下所选取的该组镜头的总的重要性分值最大。

该拼接单元608可以用于将所选取的该组镜头拼接成视频摘要。

在该实施例的系统中，视频切分单元根据视频场景的变化将视频切分为多个镜头；计算单元计算每个镜头的重要性分值；选取单元从所述多个镜头中选取一组镜头，使得在满足视频摘要总时长的约束条件的情况下所选取的该组镜头的总的重要性分值最大；以及拼接单元将所选取的该组镜头拼接成视频摘要。该系统可以使得视频摘要中包含一些比较重要的镜头或片段。

在一些实施例中，该计算单元604可以用于利用三维卷积网络对每个镜头提取特征向量，获得镜头集合的特征向量序列，以及将该特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。

图7是示出根据本公开另一些实施例的用于生成视频摘要的系统的结构图。如图7所示，该系统可以包括视频切分单元602、计算单元604、选取单元606和拼接单元608。

在一些实施例中，如图7所示，该系统还可以包括训练单元714。该训练单元714可以用于采用强化学习的方法对镜头重要性分值计算网络进行训练。该强化学习的方法所包含的关键元素包括：行动和价值奖励函数。该价值奖励函数包含：多样性指标和代表性指标。

在一些实施例中，如图7所示，该系统还可以包括识别单元710。该识别单元710可以用于在所述多个镜头中识别出展现关键特征的镜头。例如，该关键特征可以包括商品品牌商标和商品品牌文字中的至少一个。

在一些实施例中，该识别单元710可以用于：使用基于深度学习的对象检测方法检测视频的每帧图像中的商标区域；以及将商标区域的图像输入到预先训练的深度模型提取嵌入特征向量，并将该嵌入特征向量与数据库中的商标图像的特征向量进行比对，获取商标的品牌类型，从而识别出展现商品品牌商标的镜头。

在另一些实施例中，该识别单元710可以用于：使用基于深度学习的光学字符识别方法识别视频的每帧图像中的文字；以及对文字进行分词处理，并将处理后的文字与数据库中的品牌文字进行匹配，保留与商品品牌相关的文字，从而识别出展现商品品牌文字的镜头。

在一些实施例中，该选取单元606可以用于从展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头中选取辅助镜头，将该主镜头和该辅助镜头作为所选取的一组镜头。

在一些实施例中，该选取单元606可以用于：如果从展现关键特征的镜头中选取的镜头为视频的最前面N_g个镜头或最后面N_g个镜头，则确定该最前面N_g个镜头或该最后面N_g个镜头为主镜头，N_g为正整数；以及从所述多个镜头中的剩余镜头中选取辅助镜头，将该主镜头和该辅助镜头作为所选取的一组镜头，使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大。

在一些实施例中，该拼接单元608可以用于将主镜头和辅助镜头按照时间顺序拼接成视频摘要。

在一些实施例中，如图7所示，该系统还可以包括修正单元712。该修正单元712可以用于计算每个镜头与所宣传商品图片的相似度，并利用该相似度修正镜头的重要性分值。

在一些实施例中，该修正单元712可以用于：计算所宣传商品图片的特征向量；对每个镜头的多帧图像进行采样以获得采样帧，并计算每个镜头的采样帧的特征向量；根据该商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与该商品图片的相似度；以及根据该相似度和预设的相似度阈值对每个镜头的重要性分值进行修正。

图8是示出根据本公开另一些实施例的用于生成视频摘要的系统的结构图。该系统包括存储器810和处理器820。其中：

存储器810可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1至图5中的至少一个所对应实施例中的指令。

处理器820耦接至存储器810，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器820用于执行存储器中存储的指令，从而使得视频摘要中包含一些比较重要的镜头或片段，或者包含一些关键镜头或片段。

在一些实施例中，还可以如图9所示，该系统900包括存储器910和处理器920。处理器920通过BUS总线930耦合至存储器910。该系统900还可以通过存储接口940连接至外部存储装置950以便调用外部数据，还可以通过网络接口960连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，从而使得视频摘要中包含一些比较重要的镜头或片段，或者包含一些关键镜头或片段。

在另一些实施例中，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1至图5中的至少一个所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种用于生成视频摘要的方法，包括：

根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；

计算每个镜头的重要性分值；

计算每个镜头与所宣传商品图片的相似度，并利用所述相似度修正镜头的重要性分值；

在所述多个镜头中识别出展现关键特征的镜头；以及

从所述展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，并将该组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。

2.根据权利要求1所述的方法，其中，计算每个镜头的重要性分值的步骤包括：

利用三维卷积网络对每个镜头提取特征向量，获得镜头集合的特征向量序列；以及

将所述特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。

3.根据权利要求2所述的方法，其中，在将视频切分为多个镜头之前，所述方法还包括：

采用强化学习的方法对镜头重要性分值计算网络进行训练，其中，所述强化学习的方法所包含的关键元素包括：行动和价值奖励函数，所述价值奖励函数包含：多样性指标和代表性指标。

4.根据权利要求1所述的方法，其中，所述关键特征包括商品品牌商标和商品品牌文字中的至少一个。

5.根据权利要求4所述的方法，其中，在所述多个镜头中识别出展现关键特征的镜头的步骤包括：

使用基于深度学习的对象检测方法检测视频的每帧图像中的商标区域；以及将商标区域的图像输入到预先训练的深度模型提取嵌入特征向量，并将所述嵌入特征向量与数据库中的商标图像的特征向量进行比对，获取商标的品牌类型，从而识别出展现商品品牌商标的镜头；或者，

使用基于深度学习的光学字符识别方法识别视频的每帧图像中的文字；以及对文字进行分词处理，并将处理后的文字与数据库中的品牌文字进行匹配，保留与商品品牌相关的文字，从而识别出展现商品品牌文字的镜头。

6.根据权利要求1所述的方法，其中，

从所述展现关键特征的镜头中选取主镜头的步骤包括：如果从所述展现关键特征的镜头中选取的镜头为视频的最前面N_g个镜头或最后面N_g个镜头，则确定该最前面N_g个镜头或该最后面N_g个镜头为主镜头，N_g为正整数；

从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头的步骤包括：从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大；

将该组镜头拼接成视频摘要的步骤包括：将所述主镜头和所述辅助镜头按照时间顺序拼接成视频摘要。

7.根据权利要求1所述的方法，其中，计算每个镜头与所宣传商品图片的相似度，并利用所述相似度修正镜头的重要性分值的步骤包括：

计算所宣传商品图片的特征向量；

对每个镜头的多帧图像进行采样以获得采样帧，并计算每个镜头的采样帧的特征向量；

根据所述商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与所述商品图片的相似度；以及

根据所述相似度和预设的相似度阈值对每个镜头的重要性分值进行修正。

8.一种用于生成视频摘要的系统，包括：

视频切分单元，用于根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；

计算单元，用于计算每个镜头的重要性分值；

修正单元，用于计算每个镜头与所宣传商品图片的相似度，并利用所述相似度修正镜头的重要性分值；

识别单元，用于在所述多个镜头中识别出展现关键特征的镜头；

选取单元，用于从所述多个镜头中选取一组镜头，使得在满足视频摘要总时长的约束条件的情况下所选取的该组镜头的总的重要性分值最大，其中，所述选取单元用于从所述展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头；以及

拼接单元，用于将所选取的该组镜头拼接成视频摘要。

9.根据权利要求8所述的系统，其中，

所述计算单元用于利用三维卷积网络对每个镜头提取特征向量，获得镜头集合的特征向量序列，以及将所述特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。

10.根据权利要求9所述的系统，还包括：

训练单元，用于采用强化学习的方法对镜头重要性分值计算网络进行训练，其中，所述强化学习的方法所包含的关键元素包括：行动和价值奖励函数，所述价值奖励函数包含：多样性指标和代表性指标。

11.根据权利要求8所述的系统，其中，所述关键特征包括商品品牌商标和商品品牌文字中的至少一个。

12.根据权利要求11所述的系统，其中，所述识别单元用于：

13.根据权利要求8所述的系统，其中，

所述选取单元用于：如果从所述展现关键特征的镜头中选取的镜头为视频的最前面N_g个镜头或最后面N_g个镜头，则确定该最前面N_g个镜头或该最后面N_g个镜头为主镜头，N_g为正整数；以及从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大；

所述拼接单元用于将所述主镜头和所述辅助镜头按照时间顺序拼接成视频摘要。

14.根据权利要求8所述的系统，其中，所述修正单元用于：

计算所宣传商品图片的特征向量；对每个镜头的多帧图像进行采样以获得采样帧，并计算每个镜头的采样帧的特征向量；根据所述商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与所述商品图片的相似度；以及根据所述相似度和预设的相似度阈值对每个镜头的重要性分值进行修正。

15.一种生成视频摘要的系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至7任意一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至7任意一项所述的方法的步骤。