CN113949942A

CN113949942A - 视频摘要生成方法、装置、终端设备及存储介质

Info

Publication number: CN113949942A
Application number: CN202010684719.7A
Authority: CN
Inventors: 亚萨尔·阿巴斯·乌尔·雷赫曼; 杨捷文
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2022-01-18

Abstract

本申请适用于多媒体技术领域，提供了一种视频摘要生成方法、装置、终端设备及存储介质，方法包括：获取原始视频中每帧视频图像的初始视频特征；根据初始视频特征，计算每帧视频图像的视频分数；根据初始视频特征，确定原始视频的图像变化点；基于视频分数与图像变化点，从原始视频的所有视频图像中确定目标视频片段；根据图像变化点，提取目标视频片段对应的目标音频文件，并将目标音频文件与目标视频片段进行合成得到视频摘要。本申请可以解决现有技术中对于原始视频剪辑生成视频摘要耗时时间长的问题。

Description

视频摘要生成方法、装置、终端设备及存储介质

技术领域

本申请属于多媒体技术领域，尤其涉及一种视频摘要生成方法、装置、终端设备及存储介质。

背景技术

现有技术中，随着生活节奏的加快，用户是否观看长时间的视频，往往取决于用户对该视频的视频摘要的感兴趣程度。一般情况下，视频摘要包含了该视频中的精彩视频片段。目前，对视频进行剪辑生成视频摘要时，需要人工观看视频，然后对视频的每一帧图像进行分析剪辑和合成处理，整个过程耗时时间长，难以高效且便捷的生成视频摘要。

发明内容

本申请实施例提供了一种视频摘要生成方法、装置、终端设备及存储介质，可以解决现有技术中对于原始视频剪辑生成视频摘要耗时时间长的问题。

第一方面，本申请实施例提供了一种视频摘要生成方法，包括：

获取原始视频中每帧视频图像的初始视频特征；

根据初始视频特征，计算每帧视频图像的视频分数；

根据初始视频特征，确定原始视频的图像变化点；

基于视频分数与图像变化点，从原始视频的所有视频图像中确定目标视频片段；

根据图像变化点，提取目标视频片段对应的目标音频文件，并将目标音频文件与目标视频片段进行合成得到视频摘要。

第二方面，本申请实施例提供了一种视频摘要生成装置，包括：

获取模块，用于获取原始视频中每帧视频图像的初始视频特征；

计算模块，用于根据初始视频特征，计算每帧视频图像的视频分数；

第一确定模块，用于根据初始视频特征，确定原始视频的图像变化点；

第二确定模块，用于基于视频分数与图像变化点，从原始视频的所有视频图像中确定目标视频片段；

合成模块，用于根据图像变化点，提取目标视频片段对应的目标音频文件，并将目标音频文件与目标视频片段进行合成得到视频摘要。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述第一方面任一项的视频摘要生成方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面任一项的视频摘要生成方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项的视频摘要生成方法。

本申请实施例与现有技术相比存在的有益效果是：通过获取原始视频中每帧视频图像的初始视频特征，来计算每帧视频图像的视频分数，视频分数可以表示每帧视频图像包含的视频信息重要程度。根据初始视频特征还可确定原始视频中的图像变化点，通过结合视频分数在原始视频中可以确定目标视频片段，解决了对原始视频的每帧图像均需进行观看后才可确定视频片段的问题。然后，根据图像变化点，可以提取目标音频文件与目标视频片段进行合成得到视频摘要，进一步地减少了后续剪辑合成视频摘要的处理时间。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的视频摘要生成方法的一种实现流程示意图；

图2是本申请另一实施例提供的视频摘要生成方法的一种实现流程示意图；

图3是本申请又一实施例提供的视频摘要生成方法的一种实现流程示意图；

图4是本申请再一实施例提供的视频摘要生成方法的一种实现流程示意图；

图5是本申请实施例提供的视频摘要生成装置中的一种结构示意图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的视频摘要生成方法可以应用于平板电脑、车载设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

参照图1，图1示出了本申请实施例提供的视频摘要生成方法的实现流程图，详述如下：

S101、终端设备获取原始视频中每帧视频图像的初始视频特征。

在应用中，上述原始视频可以为用户预先存储在终端内部的文件，终端设备可通过预先设定的指定存储路径进行获取。其中，原始视频包括视频文件和音频文件。其中，音频文件对应为视频文件在播放时的语音文件，而一个视频文件是由多幅在时间上连续的视频图像组成的，终端设备在播放视频文件时，可同步加载音频文件。

在应用中，上述原始视频中每帧视频图像的初始视频特征也可以为用户预先已经设定，并将初始视频特征对应标记并关联视频图像进行存储，终端设备在通过指定存储路径获取到视频图像时，可对应获取其初始视频特征。或者，终端设备可通过将原始视频输入至第一神经网络模型中进行特征提取。其中，第一神经网络模型可以为已有的卷积神经网络模型、时间递归神经网络模型、循环神经网络模型等，对此不作限定。为便于解释说明，本实施例以卷积神经网络模型对其进行解释说明。示例性的，卷积网络中主要有两个操作，一个是卷积(Convolution)，一个是池化(Pooling)。对于视频中的视频图像，每个视频图像均可以为像素大小为a×a×3的视频图像，其中，a×a为视频图像大小，3为视频图像的通道，分别为红色(Red)、绿色(Green)、蓝色(Blue)三个通道，即RGB。其中，池化层并不会对通道之间的交互有影响，只是在各个通道中进行操作。而卷积层则可以在通道与通道之间进行交互，之后在下一层生成新的通道。通过卷积层中的卷积核对视频图像进行处理，可以将视频图像中的多个特征组合抽取成一个特征，获得下一个特征图。之后再继续对特征图进行卷积，特征之间继续组合，可获得更复杂的特征图。又因池化层的存在，不断提取特征图中一定范围内最强烈的特征，并且缩小张量的大小，使得大范围内的特征组合也能够进行捕捉，生成可代表每帧视频图像的初始视频特征，V＝(A₀，A₁...，A_n)。其中，V为原始视频，A_n为原始视频中的第N+1帧视频图像的初始视频特征。

S102、终端设备根据初始视频特征，计算每帧视频图像的视频分数。

在应用中，对于上述终端设备提取到的初始视频特征，可根据第二神经网络模型计算每帧视频图像的视频分数。具体的，用户可预先通过终端设备建立第二神经网络模型的网络结构，采用训练数据(已有的视频图像)对神经网络模型进行训练，其中，训练数据中的每帧视频图像预先标记相应的目标物以设定相应的分数，训练模型根据训练数据中的每帧视频图像特征，输出预测分数，结合实际分数计算相应的训练损失。

示例性的，对于足球视频，第二神经网络需对足球视频中，包含进球类的视频图像赋予高分值。则对该视频图像的初始视频特征进行训练后输出属于“进球类”的预测分数＝0.9，而与预先设置的当前视频图像属于“进球类”真实分数＝1进行计算平方差，得到训练损失，根据训练损失迭代更新神经网络模型中的各网络层的模型参数(学习参数w和偏置向量b)。最终，输出的模型即为第二神经网络模型。因此，根据第二神经网络模型与初始视频特征，可以得到的各个视频图像中对应的视频分数。其中，上述第二神经网络模型与第一神经网络模型不同，第一神经网络模型为特征提取网络，作用为保留输入的每帧视频图像的初始视频特征，并输入进第二神经网络模型中。例如，特征提取网络(第一神经网络模型)可使用已预训练的模型和神经网络框架，比如GoogleNet(谷歌神经网络模型)或者ResNet(残差神经网络模型)，生成矩阵向量(初始视频特征)。第二神经网络模型则可通过提取后的初始视频特征计算每帧视频图像应得的分数。而第二神经网络模型可根据需求所由用户单独进行训练得到，且该模型只起输出每个视频图像对应分数的作用。具体可参照图2，利用已有的第一神经网络模型进行特征提取，使得用户只需训练第二神经网络模型，在训练时只需构造第二神经网络模型的网络结构，减少用户的工作量。

S103、终端设备根据初始视频特征，确定原始视频的图像变化点。

在应用中，在原始视频中，若包含多个场景下的视频镜头，则在每个视频镜头的边界(视频镜头的起始帧和终止帧)通常表现出很强的视觉内容不连续性。终端设备可通过原始视频中所有的初始视频特征，判断相邻两帧视频图像属于渐变还是切变。对于渐变的视频图像，可认为其属于同一个场景下的连续视频，对于切变的视频图像，则可认为其描述的为不同场景下的连续视频。

示例性的，对于原始视频中包含一个广告的多帧视频图像，与包含电视剧的多帧视频图像。其中，对于一个广告中的连续多帧视频图像可认为是一个镜头，对于电视剧的连续多帧视频图像可认为是一个镜头。一个镜头内的连续多帧视频图像因场景未发生变化，则其相邻视频图像的相似度高；而对于广告的终止帧与电视剧的起始帧，因场景发生变化，两帧相邻视频图像则完全不相似，可认为发生了切变。即可认为当前时间点为原始视频中的图像变化点。上述内容仅为本实施例中用于解释说明的一个示例，而非全部，具体视情况而定。

在应用中，终端设备确定原始视频的图像变化点可基于视频图像的边缘检测方法，根据提取的初始视频特征，计算两帧视频图像之间的差异。另外，对于S103步骤，其可以在S102步骤之前，即在得到初始视频特征之后，先计算图像变化点，而后计算视频分数，也可以同时进行，对此不作限定。

在一实施例中，S103还包括：

终端设备对初始视频特征进行时域分割处理，得到处理后的初始视频特征；

终端设备根据处理后的初始视频特征确定原始视频中的图像变化点。

在应用中，终端设备对初始视频特征进行时域分割处理，具体为利用图2中的时域分割(KTS，Kernel Temporal Segmentation)算法进行处理，该方法首先使用初始视频特征的特征序列相似度计算核矩阵，得到处理后的初始视频特征，而后根据核矩阵累积和的形式计算所有可能的段间方差，采用动态规划求解最佳分段方式，检测连续两帧视频图像是属于渐变，还是属于切变。若检测出属于切变，终端设备则判定当前时间点对应的视频图像为图像变化点。通过使用KTS方法对初始视频特征进行处理，可精确获取到原始视频中视频图像的图像变化点，以便后续进行处理时，提取的初始视频片段精度更高。

S104、终端设备基于视频分数与图像变化点，从原始视频的所有视频图像中确定目标视频片段。

在应用中，视频分数高低对应的即可体现该视频图像中包含的用户所需要的视频内容的重要程度，视频分数高，即为该视频中包含了用户所需要的重要信息。而终端设备可通过上述图像变化点区分每个场景下的连续视频图像，因此，可认为相邻两个图像变化点之间所包含的视频图像均包含了同一种视频信息。进而，终端设备可根据所包含的视频图像对应的视频分数，确定是否提取该两个图像变化点之间的所有视频图像作为目标视频片段。

示例性的，对于多个相邻图像变化点之间的视频图像形成的视频片段，虽然每个视频图像均包含了用户所需要的视频信息，且每个视频片段中包含的视频图像的帧数量不同。但终端设备可根据每个视频片段中视频图像对应的视频分数平均值进行排序，确定每个视频片段包含信息的重要程度，将视频分数平均值最高的视频片段作为目标视频片段。终端设备通过图像变化点，对原始视频中的N帧视频图像划分多个视频片段，在根据视频片段中每个视频图像的视频分数确定目标视频片段，实现一个片段的视频图像获取，避免用户一帧一帧对视频图像进行选择的情况，减少视频摘要中目标视频片段的选择时间。

S105、终端设备根据图像变化点，提取目标视频片段对应的目标音频文件，并将目标音频文件与目标视频片段进行合成得到视频摘要。

在应用中，上述S103已说明如何确定图像变化点，且说明了当前时间点为原始视频中的图像变化点。即可认为终端设备在确定图像变化点后，可在原始视频中确定目标视频片段的播放起始时间以及终止时间，并根据起始时间以及终止时间在音频文件对应的时间点提取目标音频文件进行合成。无需用户后续在进行剪辑合成处理时，还需要在输入一帧视频图像时输入对应音频文件，减少后续剪辑合成生成视频摘要的处理时间。

其中，使用上述方法具体生成视频摘要的处理时间如下表一所示：

表一：

其中，最后生成视频摘要的总处理时间与上述表格总时长误差时间小于0.01s，可近似认为是最后生成视频摘要的总处理时间。上述原始视频长度(单位：秒，或帧数)中，未有括号数字的表示为原始视频的播放时长，带有括号的数字表示为原始视频的总帧数。

在本实施例中，终端设备通过获取原始视频中每帧视频图像的初始视频特征，来计算每帧视频图像的视频分数，视频分数可以表示每帧视频图像包含的视频信息重要程度。根据初始视频特征还可确定原始视频中的图像变化点，通过结合视频分数在原始视频中可以确定目标视频片段，解决了对原始视频的每帧图像均需进行观看后才可确定视频片段的问题。然后，根据图像变化点，可以提取目标音频文件与目标视频片段进行合成得到视频摘要，进一步地减少了后续剪辑合成视频摘要的处理时间。

参照图3，在一实施例中，S102包括：

S201、终端设备对原始视频进行降采样处理，得到降采样视频，并获取降采样视频中每帧降采样视频图像的初始视频特征，每帧降采样视频图像的初始视频特征为降采样视频特征。

在应用中，上述降采样为对于一个样值序列间隔预设样值进行一次取样，得到新序列就是原序列的降采样。上述已说明视频文件是由多幅在时间上连续的视频图像组成，终端设备对原始视频进行降采样可以理解为，终端设备每隔固定时间间隔对视频文件进行一次采样(即可认为是抽取一帧视频图像)，将所有降采样得到的视频图像作为降采样视频，对应的降采样视频中每个降采样视频图像的降采样视频特征，可对应从上述S101中的初始视频特征对应获取。

示例性的，对于1分钟的原始视频，其由120帧连续的视频图像组成，终端设备可对其进行每隔2s中进行一次采样(即降采样视频至2fps)，将得到的30帧视频图像即可作为降采样视频。对应的，在对原始视频进行降采样时，降采样视频中的每帧降采样视频图像都携带有对应的时间点作为采样时间，均可根据采样时间获取视频中每帧视频图像的初始视频特征。

S202、终端设备根据降采样视频特征，计算各帧降采样视频图像对应的降采样视频分数。

在应用中，上述根据降采样视频特征计算各帧降采样视频图像对应的降采样视频分数，与上述步骤S102一致，对此不在详细描述。

S203、终端设备对降采样视频进行上采样处理，得到原始视频中的非降采样视频图像。

在应用中，上述上采样为降采样的逆过程，可认为终端设备将原始视频中原有的非降采样视频图像经过上采样处理，内插至降采样视频中，即可得到原始视频(降采样视频以及非降采样视频)。即可认为对于任意连续两帧降采样视频图像，其中包括了一定数量的非降采样视频图像。

S204、终端设备根据降采样视频分数，计算非降采样视频图像的初始分数，得到原始视频中每帧视频图像的视频分数。

在应用中，上述已说明终端设备对原始视频进行降采样可以理解为，每隔固定时间间隔对视频文件进行一次采样。因此，对于一段固定时间间隔的抽取的降采样视频图像，终端设备可将该降采样视频图像的降采样视频分数，作为该固定时间间隔内所有的非降采样视频图像的初始分数；或者，终端设备将相邻两个降采样视频图像的降采样视频分数的平均值，作为相邻两帧降采样视频图像之间的非降采样视频图像的初始分数，而对于未处于任一相邻降采样视频图像之间的非降采样视频图像(第一帧降采样视频图像之前的非降采样视频图像，或者最后一帧降采样视频图像之后的非降采样视频图像)，可将最近降采样视频图像的降采样视频分数作为该非降采样视频图像的初始分数，对此不作限定。

在本实施例中，终端设备通过对原始视频进行降采样处理，获取对降采样视频图像的进行打分的降采样视频分数。再对降采样视频进行上采样，根据降采样视频分数，计算非降采样视频图像的初始分数，进而实现在一定程度上保证各个视频图像的视频分数可以接近于实际值后，避免利用神经网络模型对整个原始视频中的所有视频图像均进行打分的情况。即在保证视频图像的分数准确率的情况下，减少神经网络模型的计算量，以及减少对每帧视频图像进行打分的时间。

在一实施例中，非降采样视频图像为任意两帧相邻降采样视频图像之间的各个视频图像；S204包括：

终端设备计算与任意两帧相邻降采样视频图像一一对应的两个降采样视频分数的平均分数，平均分数为任意两帧相邻降采样视频图像之间的非降采样视频图像的初始分数。

在应用中，对于原始视频，其可认为是有降采样视频图像与非降采样视频图像组成。其中，对于将原始视频中的第一帧视频图像，以及最后一帧视频图像作为降采样视频图像，则任意两帧相邻降采样视频图像之间均包含一定数量的非降采样视频图像。具体的可参照图2，图2中，F0为第一帧视频图像(第一帧降采样视频图像)，其分数为0.5，Fn为最后一帧视频图像(最后一帧降采样视频图像)，其分数为0.1，中间还包含其余降采样视频图像。因此，终端设备可计算出任意两帧相邻降采样视频图像对应的两个降采样视频分数的平均分数。

终端设备根据降采样视频分数或初始分数，确定原始视频中每帧视频图像的视频分数。

在应用中，参照图2，对于原始视频中的非降采样视频图像，其中的Sa即为任意相邻降采样视频图像之间排序第a帧的非降采样视频图像的初始分数。因此，终端设备在根据降采样视频分数得到初始分数后，即可确定原始视频中每帧视频图像的视频分数。在其他应用中，因降采样视频中可能包含原始视频中的第一帧图像和/或最后一帧视频图像，因此，对于未处于任一两帧相邻降采样视频图像之间的非降采样视频图像，其对应的初始分数可以根据上述S204进行获取，对此不作限定。

在本实施例中，终端设备通过设置原始视频中的第一帧视频图像以及最后一帧视频图像作为降采样视频图像，因此可计算出任意相邻降采样视频图像对应的降采样视频分数的平均分数，作为相邻降采样视频图像之间的非降采样视频图像的初始分数，可让原始视频中每帧视频图像的视频分数更接近于实际值，使得根据视频分数确定目标视频片段的精确率提高。

参照图4，在一实施例中，S104包括：

S301、终端设备分别获取任意两个相邻图像变化点之间的所有视频图像，任意两个相邻图像变化点之间的所有视频图像为一个初始视频片段。

在应用中，上述S103已说明图像变化点的确定方法，基于此，对于一个原始视频，其第一个图像变化点可以认为是原始视频播放的起始时间点，因第一帧视频图像未有上一帧视频图像，可以认为原始视频中发生切变。同样的，最后一个图像变化点可认为原始视频播放的终止时间点。因此，终端设备在获取到图像变化点后，可将每个图像变化点之间的所有视频图像作为一个初始视频片段。与上述非降采样视频图像不同，降采样视频图像是按时间间隔进行处理的，因此，任意相邻降采样视频图像之间的非降采样视频图像的帧数量均一致。对于图像变化点而言，任意相邻图像变化点之间的视频图像帧数量可能是相同的，也可能是不同的，具体视情况而定。具体可参照图2，图2中的C0即代表第一个图像变化点，Cm代表原始视频中的第m个图像变化点，每个图像变化点之间的视频图像的帧数量各不相同。

S302、终端设备根据每帧视频图像中的视频分数，确定每个初始视频片段的片段分数。

在应用中，上述一个初始视频片段可能存在包含多个非降采样视频图像的初始分数，以及多个降采样视频图像的降采样视频分数，且其中降采样视频分数可能各不相同。因此，每个初始视频片段的片段分数也各不相同，进而终端设备可根据片段分数确定每个视频片段的重要程度。

S303、终端设备根据预设的视频摘要长度，确定待生成的视频摘要的目标帧数量。

在应用中，上述视频摘要长度即为所需要生成的视频摘要包含的视频图像的帧数量。视频摘要为提取原始视频中关键、有概括性的片段，因此，较于原始视频的视频长度，其视频摘要的视频长度更短。其中，预设的视频摘要长度可以为用户预先设置的，也可以为用户根预先设置一定的百分比，终端设备根据百分比以及原始视频的视频长度进行计算确定的，对此不作限定。

S304、终端设备根据每个初始视频片段的片段分数从所有初始视频片段中查找符合目标帧数量的初始视频片段，符合目标帧数量的初始视频片段为目标视频片段。

在应用中，上述初始视频片段具有多个，且每个视频片段均具有相应的片段分数，终端设备可根据每个初始视频片段的片段分数，从高到低选取符合目标帧数量的初始视频片段，作为目标视频片段。在其他应用中，若视频摘要长度可容纳多个初始视频片段，终端设备根据任意多个符合目标帧数量的初始视频片段的组合情况，选取组合分数最高的多个视频片段，依播放顺序进行排序，生目标视频片段；或者，在视频摘要长度可容纳多个初始视频片段时，先选中片段分数最高初始视频片段，再在其余初始视频片段中，选择符合剩余目标帧数量且片段分数最高的初始视频片段，生成目标视频片段，对此不作限定。

在本实施例中，终端设备通过根据预设的视频摘要长度，确定视频摘要可包含的目标帧数量，根据帧数量以及每个视频片段的片段分数，选取符合要求的初始视频片段作为目标视频片段，进而在生成符合时间要求的视频摘要长度时，还可挑选出最佳的初始视频片段，以实现在生成的视频短片的播放时间及视频片段包含的重要信息之间均衡的目的。

在一实施例中，S304包括：

终端设备根据每个初始视频片段中视频图像的帧数量，获取所有符合目标帧数量的初始视频片段组合。

终端设备根据每个初始视频片段的片段分数，确定各个初始视频片段组合的组合分数。

终端设备从所有符合目标帧数量的初始视频片段组合中选取最高组合分数对应的初始视频片段组合，最高组合分数对应的初始视频片段组合为目标视频片段。

在应用中，上述每个初始视频片段均包含多帧视频图像，因此，终端设备在确定视频摘要的目标帧数量后，可获取到任意初始视频片段组合情况，并且每个初始视频片段组合中视频图像的总帧数均符合目标帧数量。即可认为每个组合中的帧数量一致，因此，终端设备只需将最高组合分数对应的初始视频片段组合，作为目标视频片段。在应用中，上述终端设备确定了目标帧数量、各初始视频片段的帧数量、各初始视频片段对应的片段分数，可通过执行图2中的0-1背包算法，以实现在多个初始视频片段组合中确定的最优组合(目标视频片段对应的初始视频片段组合)的目的。

在其他应用中，上述S302已说明每个初始视频片段的片段分数各不相同，可根据片段分数确定每个视频片段的重要程度。基于此，终端设备可根据每个视频片段的重要程度，确定多个初始视频片段。若多个初始视频片段中视频图像的总帧数低于目标帧数量，但再加入其余初始视频片段将超过目标帧数量时。此时，终端设备可选择加入部分初始视频片段以满足目标帧数量要求，或者，不在加入其余初始视频片段，具体可视情况而定，对此不作限定。

在本实施例中，终端设备通过确定目标帧数量、各初始视频片段的帧数量、各初始视频片段对应的片段分数，进而利用执行0-1背包算法，以在多个初始视频片段组合中确定的最优组合，达到在多个初始视频片段中快速确定目标视频片段的目的，减少用户的剪辑时间。

在一实施例中，S105包括：

终端设备根据图像变化点获取目标视频片段包括的各个初始视频片段在原始视频中的起始时间点与终止时间点。

终端设备在原始视频中，获取起始时间点与终止时间点之间音频文件，起始时间点与终止时间点之间的音频文件作为目标音频文件。

在应用中，上述S105已说明终端设备在确定图像变化点后，可在原始视频中确定目标视频片段的播放起始时间以及终止时间。因此，对于多个初始视频片段，则有多个初始视频片段的起始时间点与终止时间点。即对于原始视频，终端设备可根据起始时间点以及终止时间点，在原始视频中提取对应时间点下的音频文件作为目标音频文件。

终端设备根据起始时间点与终止时间点，将目标音频文件与目标视频片段进行合成得到视频摘要。

在应用中，终端设备在提取每段初始视频片段的目标音频文件后，对应起始时间点与终止时间点，利用视频剪辑软件将目标音频文件与各个初始视频片段进行合成得到上述视频摘要。其中，视频剪辑软件可以为会声会影、快剪辑、爱剪辑，也可以为其他已有的剪辑软件，对此不作限定。

在本实施例中，终端设备通过根据图像变化点，确定对应音频软件的起始时间点，与终止时间点，进而可快速提取出一段音频文件，无需用户后续在进行剪辑合成处理时，还需要在输入一帧视频图像时输入对应音频文件，减少后续剪辑合成生成视频摘要的处理时间。

如图5所示，本实施例还提供一种视频摘要生成装置100，包括：

获取模块10，用于获取原始视频中每帧视频图像的初始视频特征。

计算模块20，用于根据初始视频特征，计算每帧视频图像的视频分数。

第一确定模块30，用于根据初始视频特征，确定原始视频的图像变化点。

第二确定模块40，用于基于视频分数与图像变化点，从原始视频的所有视频图像中确定目标视频片段。

合成模块50，用于根据图像变化点，提取目标视频片段对应的目标音频文件，并将目标音频文件与目标视频片段进行合成得到视频摘要。

在一实施例中，计算模块20具体用于：

对原始视频进行降采样处理，得到降采样视频，并获取降采样视频中每帧降采样视频图像的初始视频特征，每帧降采样视频图像的初始视频特征为降采样视频特征；

根据降采样视频特征，计算各帧降采样视频图像的降采样视频分数；

对降采样视频进行上采样处理，得到原始视频中的非降采样视频图像；

根据降采样视频分数，计算非降采样视频图像的初始分数，得到原始视频中每帧视频图像的视频分数。

在一实施例中，非降采样视频图像为任意两帧相邻降采样视频图像之间的视频图像；计算模块20具体用于：

计算与任意两帧相邻降采样视频图像一一对应的两个降采样视频分数的平均分数，平均分数为任意相邻两帧降采样视频图像之间的非降采样视频图像的初始分数；

根据降采样视频分数或初始分数，确定原始视频中每帧视频图像的视频分数。

在一实施例中，第二确定模块40具体用于：

分别获取任意两个相邻图像变化点之间的所有视频图像，任意两个相邻图像变化点之间的所有视频图像为一个初始视频片段；

根据每帧视频图像中的视频分数，确定每个初始视频片段的片段分数；

根据预设的视频摘要长度，确定待生成的视频摘要的目标帧数量；

根据每个初始视频片段的片段分数从所有初始视频片段中查找符合目标帧数量的初始视频片段，符合目标帧数量的初始视频片段为目标视频片段。

在一实施例中，第二确定模块40具体用于：

根据每个初始视频片段中视频图像的帧数量，获取所有符合目标帧数量的初始视频片段组合；

根据每个初始视频片段的片段分数，确定各个初始视频片段组合的组合分数；

从所有符合目标帧数量的初始视频片段组合中选取最高组合分数对应的初始视频片段组合，最高组合分数对应的初始视频片段组合为目标视频片段。

在一实施例中，合成模块50具体用于：

根据图像变化点获取目标视频片段包括的各个初始视频片段在原始视频中的起始时间点与终止时间点；

在原始视频中，获取起始时间点与终止时间点之间的音频文件，起始时间点与终止时间点之间的音频文件为目标音频文件；

根据起始时间点与终止时间点，将目标音频文件与目标视频片段进行合成得到视频摘要。

在一实施例中，第一确定模块30具体用于：

对初始视频特征进行时域分割处理，得到处理后的初始视频特征；

根据处理后的初始视频特征确定原始视频中的图像变化点。

图6是本申请一实施例提供的终端设备60的示意图。如图6所示，该实施例的终端设备60包括：处理器603、存储器601以及存储在存储器601中并可在处理器603上运行的计算机程序602。处理器603执行计算机程序602时实现上述各个方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，处理器603执行计算机程序602时实现上述各装置实施例中各模块/单元的功能。

示例性的，计算机程序602可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器601中，并由处理器603执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序602在终端设备60中的执行过程。例如，计算机程序602可以被分割成获取模块、计算模块、第一确定模块、第二确定模块和合成模块，各模块具体功能如下：

获取模块，用于获取原始视频中每帧视频图像的初始视频特征。

计算模块，用于根据初始视频特征，计算每帧视频图像的视频分数。

第一确定模块，用于根据初始视频特征，确定原始视频的图像变化点。

第二确定模块，用于基于视频分数与图像变化点，从原始视频的所有视频图像中确定目标视频片段。

上述终端设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器603、存储器601。本领域技术人员可以理解，图6仅仅是终端设备60的示例，并不构成对终端设备60的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器603可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器601可以是终端设备60的内部存储单元，例如终端设备80的硬盘或内存。存储器801也可以是终端设备60的外部存储设备，例如终端设备60上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。在一个实施例中，存储器601还可以既包括终端设备60的内部存储单元也包括外部存储设备。存储器601用于存储计算机程序以及终端设备所需的其他程序和数据。存储器601还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时可实现上述各个方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频摘要生成方法，其特征在于，包括：

获取原始视频中每帧视频图像的初始视频特征；

根据所述初始视频特征，计算所述每帧视频图像的视频分数；

根据所述初始视频特征，确定所述原始视频的图像变化点；

基于所述视频分数与所述图像变化点，从所述原始视频的所有视频图像中确定目标视频片段；

根据所述图像变化点，提取所述目标视频片段对应的目标音频文件，并将所述目标音频文件与所述目标视频片段进行合成得到视频摘要。

2.如权利要求1所述的视频摘要生成方法，其特征在于，所述根据所述初始视频特征，计算所述每帧视频图像的视频分数，包括：

对所述原始视频进行降采样处理，得到降采样视频，并获取所述降采样视频中每帧降采样视频图像的初始视频特征，所述每帧降采样视频图像的初始视频特征为降采样视频特征；

根据所述降采样视频特征，计算各帧降采样视频图像的降采样视频分数；

对所述降采样视频进行上采样处理，得到所述原始视频中的非降采样视频图像；

根据所述降采样视频分数，计算所述非降采样视频图像的初始分数，得到所述原始视频中所述每帧视频图像的视频分数。

3.如权利要求2所述的视频摘要生成方法，其特征在于，所述非降采样视频图像为任意两帧相邻降采样视频图像之间的视频图像；

所述根据所述降采样视频分数，计算所述非降采样视频图像的初始分数，得到所述原始视频中所述每帧视频图像的视频分数，包括：

计算与任意两帧相邻降采样视频图像一一对应的两个降采样视频分数的平均分数，所述平均分数为所述任意两帧相邻降采样视频图像之间的非降采样视频图像的初始分数；

根据所述降采样视频分数或所述初始分数，确定所述原始视频中所述每帧视频图像的视频分数。

4.如权利要求1-3任一项所述的视频摘要生成方法，其特征在于，所述基于所述视频分数与所述图像变化点，从所述原始视频的所有视频图像中确定目标视频片段，包括：

分别获取任意两个相邻图像变化点之间的所有视频图像，所述任意两个相邻图像变化点之间的所有视频图像为一个初始视频片段；

根据所述每帧视频图像中的视频分数，确定每个初始视频片段的片段分数；

根据所述每个初始视频片段的片段分数从所有初始视频片段中查找符合所述目标帧数量的初始视频片段，所述符合所述目标帧数量的初始视频片段为目标视频片段。

5.如权利要求4所述的视频摘要生成方法，其特征在于，所述根据所述每个初始视频片段的片段分数从所有初始视频片段中查找符合所述目标帧数量的初始视频片段，包括：

根据所述每个初始视频片段中视频图像的帧数量，获取所有符合所述目标帧数量的初始视频片段组合；

根据所述每个初始视频片段的片段分数，确定各个初始视频片段组合的组合分数；

从所述所有符合所述目标帧数量的初始视频片段组合中选取最高组合分数对应的初始视频片段组合，所述最高组合分数对应的初始视频片段组合为所述目标视频片段。

6.如权利要求5所述的视频摘要生成方法，其特征在于，所述根据所述图像变化点，提取所述目标视频片段对应的目标音频文件，并将所述目标音频文件与所述目标视频片段进行合成得到视频摘要，包括：

根据所述图像变化点获取所述目标视频片段包括的各个初始视频片段在所述原始视频中的起始时间点与终止时间点；

在所述原始视频中，获取所述起始时间点与终止时间点之间的音频文件，所述起始时间点与终止时间点之间的音频文件为目标音频文件；

根据所述起始时间点与终止时间点，将所述目标音频文件与所述目标视频片段进行合成得到视频摘要。

7.如权利要求1-3或5或6任一所述的视频摘要生成方法，其特征在于，所述根据所述初始视频特征，确定所述原始视频的图像变化点，包括：

对所述初始视频特征进行时域分割处理，得到处理后的初始视频特征；

根据所述处理后的初始视频特征确定所述原始视频的图像变化点。

8.一种视频摘要生成装置，其特征在于，包括：

计算模块，用于根据所述初始视频特征，计算所述每帧视频图像的视频分数；

第一确定模块，用于根据所述初始视频特征，确定所述原始视频的图像变化点；

第二确定模块，用于基于所述视频分数与所述图像变化点，从所述原始视频的所有视频图像中确定目标视频片段；

合成模块，用于根据所述图像变化点，提取所述目标视频片段对应的目标音频文件，并将所述目标音频文件与所述目标视频片段进行合成得到视频摘要。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。