CN115883878A

CN115883878A - 视频剪辑方法、装置、电子设备及存储介质

Info

Publication number: CN115883878A
Application number: CN202211496992.2A
Authority: CN
Inventors: 林琴; 唐云龙; 芦清林; 庞诺; 姜文浩; 郑锋
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-31
Anticipated expiration: 2042-11-25
Also published as: CN115883878B

Abstract

本申请实施例公开了一种视频剪辑方法、装置、电子设备及存储介质，该视频剪辑方法在对原始视频进行切分时考虑不同的模态数据，提升切分得到的候选视频片段的数据完整性，使得后续从候选视频片段中确定的目标视频片段更加准确；接着，确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数自动化地输出摘要视频，此过程无须人工参与，自动化程度高，可以提升视频剪辑的效率，并且，通过进行多个轮次的目标视频片段的确定，每个轮次确定一个目标视频片段，能够提升视频剪辑的精细化程度，加强各个目标视频片段之间的关联，进而提升视频剪辑的准确性，可以广泛应用于云技术、人工智能等技术领域。

Description

视频剪辑方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视频剪辑方法、装置、电子设备及存储介质。

背景技术

视频剪辑是一种视频处理技术，随着互联网技术的快速发展，视频剪辑的应用变得越来越广泛。视频剪辑可以是将原始视频的视频时长缩短，从而输出可用的摘要视频。相关技术中，在将原始视频剪辑为摘要视频时，一般需要通过人工的方式实现，视频剪辑的效率较低。

发明内容

以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种视频剪辑方法、装置、电子设备及存储介质，能够提升视频剪辑的效率。

一方面，本申请实施例提供了一种视频剪辑方法，包括：

获取原始视频，对所述原始视频进行边界检测，得到所述原始视频中多种模态数据的预测边界；

对多种模态数据的所述预测边界进行边界筛选，得到目标边界，根据所述目标边界对所述原始视频进行切分，得到多个候选视频片段；

确定历史视频片段与各个所述候选视频片段之间的目标相关性参数，根据所述目标相关性参数从多个所述候选视频片段中确定当前轮次的目标视频片段，其中，所述历史视频片段为前一轮次确定的所述目标视频片段；

根据多个轮次确定的所述目标视频片段得到摘要视频。

另一方面，本申请实施例还提供了一种视频剪辑装置，包括：

边界检测模块，用于获取原始视频，对所述原始视频进行边界检测，得到所述原始视频中多种模态数据的预测边界；

片段切分模块，用于对多种模态数据的所述预测边界进行边界筛选，得到目标边界，根据所述目标边界对所述原始视频进行切分，得到多个候选视频片段；

片段选择模块，用于确定历史视频片段与各个所述候选视频片段之间的目标相关性参数，根据所述目标相关性参数从多个所述候选视频片段中确定当前轮次的目标视频片段，其中，所述历史视频片段为前一轮次确定的所述目标视频片段；

输出模块，用于根据多个轮次确定的所述目标视频片段得到摘要视频。

进一步，多种模态数据的所述预测边界包括图像边界、语音边界和文本边界，上述片段切分模块具体用于：

对所述语音边界和所述文本边界进行边界筛选，得到语音文本边界；

对所述语音文本边界和所述图像边界进行边界筛选，得到所述目标边界。

进一步，上述片段切分模块具体用于：

根据所述语音边界在播放时间轴上确定语音数据块，根据所述语音数据块确定有效语音区域，根据所述文本边界在所述播放时间轴上确定文本数据块，根据所述文本数据块确定有效文本区域；

当所述有效语音区域与所述有效文本区域相互交叠时，对相互交叠的所述有效语音区域与所述有效文本区域进行并集处理，得到并集区域；

将所述并集区域的边界作为所述语音文本边界。

进一步，上述片段切分模块具体用于：

根据所述图像边界在所述播放时间轴上确定图像数据块；

当所述并集区域包含所述图像数据块的至少一部分时，将所述语音文本边界作为所述目标边界；或者，当所述并集区域邻接有无效数据区域，且所述无效数据区域完全包含所述图像数据块时，将所述图像数据块的所述图像边界作为所述目标边界；或者，当所述并集区域邻接有无效数据区域，且所述图像数据块完全包含所述并集区域时，将所述图像数据块的所述图像边界作为所述目标边界。

进一步，上述片段选择模块具体用于：

对所述候选视频片段进行特征提取，得到所述候选视频片段的视频特征；

将所述视频特征输入至第二目标模型，根据所述视频特征确定所述历史视频片段与各个所述候选视频片段之间的所述目标相关性参数。

进一步，上述片段选择模块具体用于：

对所述候选视频片段进行文本特征提取，得到所述候选视频片段的文本特征；

对所述候选视频片段进行采样，得到所述候选视频片段的多个图像帧，对所述图像帧进行图像特征提取，得到所述图像帧的帧特征；

根据多个所述图像帧的帧特征的平均值，确定所述候选视频片段的图像特征；

将所述文本特征和所述图像特征进行拼接，得到所述候选视频片段的所述视频特征。

进一步，上述片段选择模块具体用于：

对各个所述候选视频片段的所述视频特征进行编码操作，得到各个所述候选视频片段的第一编码特征，对所述历史视频片段的所述视频特征进行解码操作，得到解码特征；

根据所述第一编码特征和所述解码特征计算初始相关性参数，根据所述初始相关性参数对多个所述第一编码特征进行加权，得到第二编码特征；

将所述第二编码特征与所述解码特征进行拼接，得到拼接特征；

根据所述第一编码特征和所述拼接特征，计算所述历史视频片段与各个所述候选视频片段之间的所述目标相关性参数。

进一步，上述输出模块具体用于：

将当前轮次确定的所述目标视频片段与历史轮次确定的所述目标视频片段进行拼接，得到拼接视频；

根据所述拼接视频中多个所述目标视频片段的时长之和，得到所述拼接视频的第一视频时长，当所述第一视频时长达到预设的时长阈值时，将所述拼接视频确定为所述摘要视频；或者，根据所述拼接视频中多个所述目标视频片段的个数之和，得到所述拼接视频的片段个数，当所述片段个数达到预设的个数阈值时，将所述拼接视频确定为所述摘要视频。

进一步，上述视频剪辑装置还包括训练模块，上述训练模块用于：

获取样本视频，其中，所述样本视频标注有多种模态数据的边界标签；

基于所述第一目标模型对所述样本视频进行边界检测，得到所述样本视频中多种模态数据的样本边界；

确定所述样本边界和所述边界标签之间的边界距离，根据所述边界距离计算所述第一目标模型的第一评估分数，根据所述第一评估分数调整所述第一目标模型的参数。

进一步，所述边界标签和所述样本边界的数量均为多个，上述训练模块具体用于：

根据所述边界距离与预设的距离阈值之间的大小关系，确定各个所述边界距离对应的距离系数；

根据多个所述距离系数之和与所述样本边界的个数之间的商值，得到第一平均系数；

根据多个所述距离系数之和与所述边界标签的个数之间的商值，得到第二平均系数；

确定所述第一平均系数和所述第二平均系数的系数积，以及所述第一平均系数和所述第二平均系数的系数和；

根据所述系数积与所述系数和之间的商值，得到所述第一目标模型的第一评估分数。

进一步，上述训练模块还用于：

获取多个样本视频片段，其中，各个所述样本视频片段标注有评估标签，所述评估标签包括推广性能等级标签、结尾标签、连贯性标签中的至少一种；

基于第二目标模型在多个所述样本视频片段中确定评估视频片段；

根据所述评估视频片段的所述评估标签计算所述第二目标模型的第二评估分数，根据所述第二评估分数调整所述第二目标模型的参数。

进一步，上述训练模块具体用于：

当所述评估标签包括所述推广性能等级标签，根据所述推广性能等级标签确定所述评估视频片段的推广特性分数，将多个轮次确定的所述推广特性分数进行平均处理，得到所述第二评估分数；

或者，当所述评估标签包括所述结尾标签，根据所述结尾标签确定最后一个轮次确定的所述评估视频片段的完整性分数，将所述完整性分数作为所述第二评估分数；

或者，当所述评估标签包括所述连贯性标签，根据所述连贯性标签，确定任意两个相邻轮次中确定的所述评估视频片段之间的连贯性分数，将所述连贯性分数作为所述第二评估分数。

进一步，上述训练模块具体用于：

计算多个轮次确定的所述评估视频片段的时长之和，得到第二视频时长；

根据所述第二视频时长与预设的时长范围之间的关系，确定所述第二目标模型的第三评估分数；

根据所述第二评估分数和所述第三评估分数调整所述第二目标模型的参数。

另一方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的视频剪辑方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的视频剪辑方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的视频剪辑方法。

本申请实施例至少包括以下有益效果：通过对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界，对多种模态数据的预测边界进行边界筛选，得到目标边界，根据目标边界对原始视频进行切分，从而在对原始视频进行切分时考虑不同的模态数据，提升切分得到的候选视频片段的数据完整性，使得后续从候选视频片段中确定的目标视频片段更加准确；接着，确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段，根据多个轮次确定的目标视频片段得到摘要视频，能够自动化地输出摘要视频，此过程无须人工参与，自动化程度高，可以提升视频剪辑的效率，并且，通过进行多个轮次的目标视频片段的确定，每个轮次确定一个目标视频片段，能够提升视频剪辑的精细化程度，由于历史视频片段为前一轮次确定的目标视频片段，可以加强各个目标视频片段之间的关联，进而提升视频剪辑的准确性。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种可选的实施环境的示意图；

图2为本申请实施例提供的视频剪辑方法的一种可选的流程示意图；

图3为本申请实施例提供的多种模态数据的一种可选的边界示意图；

图4为本申请实施例提供的第一目标模型的一种可选的结构示意图；

图5为本申请实施例提供的对原始视频进行边界检测的一种可选的流程示意图；

图6为本申请实施例提供的对语音边界和文本边界进行边界筛选的一种可选的流程示意图；

图7为本申请实施例提供的对语音边界和文本边界进行边界筛选的另一种可选的流程示意图；

图8为本申请实施例提供的对语音文本边界和图像边界进行边界筛选的一种可选的流程示意图；

图9为本申请实施例提供的对语音文本边界和图像边界进行边界筛选的另一种可选的流程示意图；

图10为本申请实施例提供的对语音文本边界和图像边界进行边界筛选的另一种可选的流程示意图；

图11为本申请实施例提供的确定目标边界的一种可选的完整流程示意图；

图12为本申请实施例提供的得到候选视频片段的视频特征的一种可选的流程示意图；

图13为本申请实施例提供的第二目标模型的一种可选的结构示意图；

图14为本申请实施例提供的目标注意力分数的一种可选的确定流程示意图；

图15为本申请实施例提供的训练第二目标模型的一种可选的流程示意图；

图16为本申请实施例提供的视频剪辑方法的一种可选的完整流程示意图；

图17为本申请实施例提供的视频剪辑方法的一种可选的应用场景的示意图；

图18为本申请实施例提供的视频剪辑装置的一种可选的结构示意图；

图19为本申请实施例提供的终端的部分结构框图；

图20为本申请实施例提供的服务器的部分结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取目标对象属性信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

相关技术中，在将原始视频剪辑为摘要视频时，一般需要通过人工的方式实现，视频剪辑的效率较低。

基于此，本申请实施例提供了一种视频剪辑方法、装置、电子设备及存储介质，能够提升视频剪辑的效率。

参照图1，图1为本申请实施例提供的一种可选的实施环境的示意图，该实施环境包括终端101和服务器102，其中，终端101和服务器102之间通过通信网络连接。

示例性地，终端101可以将原始视频发送至服务器102，服务器102接收到原始视频后，对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界，对多种模态数据的预测边界进行边界筛选，得到目标边界，根据目标边界对原始视频进行切分，得到多个候选视频片段，确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段，根据多个轮次确定的目标视频片段得到摘要视频，将摘要视频发送至终端101。

通过对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界，对多种模态数据的预测边界进行边界筛选，得到目标边界，根据目标边界对原始视频进行切分，从而在对原始视频进行切分时考虑不同的模态数据，提升切分得到的候选视频片段的数据完整性，使得后续从候选视频片段中确定的目标视频片段更加准确；接着，确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段，根据多个轮次确定的目标视频片段得到摘要视频，能够基于第二目标模型自动化地输出摘要视频，此过程无须人工参与，自动化程度高，可以提升视频剪辑的效率，并且，通过进行多个轮次的目标视频片段的确定，每个轮次确定一个目标视频片段，能够提升视频剪辑的精细化程度，由于历史视频片段为前一轮次确定的目标视频片段，可以加强各个目标视频片段之间的关联，进而提升视频剪辑的准确性。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。另外，服务器102还可以是区块链网络中的一个节点服务器。

终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

除此以外，终端101或者服务器102也可以获取原始视频，基于第一目标模型对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界，对多种模态数据的预测边界进行边界筛选，得到目标边界，根据目标边界对原始视频进行切分，得到多个候选视频片段，基于第二目标模型确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段，根据多个轮次确定的目标视频片段得到摘要视频。

本申请实施例提供的方法可应用于各种技术领域，包括但不限于云技术、人工智能等技术领域。

参照图2，图2为本申请实施例提供的视频剪辑方法的一种可选的流程示意图，该视频剪辑方法可以由终端执行，或者也可以由服务器执行，或者也可以由终端和服务器配合执行，该视频剪辑方法包括但不限于以下步骤201至步骤204。

步骤201：获取原始视频，对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界。

其中，原始视频即待剪辑的视频，当该视频剪辑方法由终端执行时，原始视频可以是预先存储在终端中的视频，或者也可以是连接可移动存储设备后从可移动存储设备中获取的视频，或者也可以是通过无线连接的方式从其他终端中获取的视频；当该视频剪辑方法由服务器执行，或者由终端和服务器配合执行时，原始视频可以是由终端发送至服务器的视频。

在一种可能的实现方式中，可以引入第一目标模型，第一目标模型可以用于对原始视频进行多种模态数据的边界检测，得到多种模态数据的预测边界。多种模态数据可以包括图像数据、语音数据和文本数据中的至少两种，即多种模态数据可以包括图像数据和语音数据，或者，多种模态数据也可以包括图像数据和文本数据，或者，多种模态数据也可以包括图像数据、语音数据和文本数据。

其中，边界用于指示原始视频的各种模态数据发生变化的时间信息，边界能够将各种模态数据切分成多个数据块。时间信息可以是具体的帧或者具体的时间点，例如，对于图像数据来说，预测边界可以是图像边界，图像边界用于指示图像数据发生变化的时间信息，其中，图像数据发生变化的时间信息可以是画面场景转换的帧或者时间点；对于语音数据来说，预测边界可以是语音边界，语音边界用于指示语音数据发生变化的时间信息，其中，语音数据发生变化的时间信息可以是语音断句的帧或者时间点；对于文本数据来说，预测边界可以是文本边界，文本边界用于指示文本数据发生变化的时间信息，其中，文本数据发生变化的时间信息可以是文本断句的帧或者时间点。各种模态数据的预测边界可以为多个。

例如，参照图3，图3为本申请实施例提供的多种模态数据的一种可选的边界示意图，其中，在本例子中，原始视频的总时长为30秒，具有三个画面场景，分别为画面场景一、画面场景二和画面场景三，画面场景一、画面场景二和画面场景三的持续时间分别为10秒，因此，图像边界可以是播放时间轴上的第0秒、第10秒、第20秒和第30秒；在画面场景一中，具有持续时间为5秒的语音数据和文本数据，在画面场景三中，具有持续时间为5秒的语音数据和文本数据，因此，语音边界可以是播放时间轴上的第5秒和第15秒，文本边界可以是播放时间轴上的第5秒和第15秒。可以理解的是，图3所示的例子中语音边界和文本边界是相同的，实际上语音边界和文本边界也可以是不相同的，例如当语音数据和文本数据的持续时长存在差异时，会使得语音边界和文本边界也存在差异。

在一种可能的实现方式中，在对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界时，可以是得到原始视频中的图像边界、语音边界和文字边界，通过检测原始视频中的图像边界、语音边界和文字边界，后续可以对图像边界、语音边界和文字边界进行筛选，提升筛选的完整性，减少边界闪帧的问题出现。

参照图4，图4为本申请实施例提供的第一目标模型的一种可选的结构示意图，第一目标模型可以包括前述的边界检测模块和边界筛选模块，其中，边界检测模块用于对原始视频进行边界检测，边界筛选模块用于对多种模态数据的预测边界进行边界筛选。

参照图5，图5为本申请实施例提供的对原始视频进行边界检测的一种可选的流程示意图，其中，获取了待剪辑的原始视频后，将原始视频分离成视觉通道和音频通道后输入至第一目标模型，其中，第一目标模型的边界检测模块中的图像边界检测器从视觉通道获取原始视频的图像数据，对图像数据进行边界检测，得到图像边界；第一目标模型的文本边界检测器从视觉通道获取原始视频的文本数据，对文本数据进行边界检测，得到文本边界；第一目标模型的语音边界检测器从音频通道获取原始视频的语音数据，对语音数据进行边界检测，得到图像边界；边界检测模块输出的图像边界、文本边界和语音边界传递至第一目标模型的边界筛选模块，边界筛选模块从图像边界、文本边界和语音边界中筛选出目标边界，进而将原始视频切分为多个候选视频片段。

在一种可能的实现方式中，在基于第一目标模型对原始视频进行边界检测时，可以先将原始视频分离成视觉通道和音频通道，对于视觉通道来说，可以利用镜头切分检测器得到原始视频的图像边界，利用光学字符识别(Optical Character Recognition，OCR)检测器得到原始视频的文本边界；对于音频通道来说，可以利用自动语音识别技术(Automatic Speech Recognition)检测器得到原始视频的语音边界。

在一种可能的实现方式中，在基于第一目标模型对原始视频进行边界检测，得到原始视频的图像边界时，具体可以可以先将原始视频分离成视觉通道和音频通道，从视觉通道获取原始视频的图像数据，图像数据包括多个图像帧，基于第一目标模型对原始视频的各个图像帧进行特征提取，得到原始视频的各个图像帧的图像特征，根据图像特征确定相邻的两个图像帧之间的相似度，当相邻的两个图像帧之间的相似度小于或者等于预设的相似度阈值，则将相邻的两个图像帧中的第一个图像帧或者第一个图像帧对应的时间点作为原始视频的图像边界。

在一种可能的实现方式中，在基于第一目标模型对原始视频进行边界检测，得到原始视频的文本边界时，具体可以可以先将原始视频分离成视觉通道和音频通道，基于视觉通道获取原始视频的文本数据，基于第一目标模型对文本数据进行分词处理，得到多个文本词语，对各个文本词语进行特征提取，得到各个文本词语的文本特征，根据文本特征确定相邻的两个文本词语之间的语义相关性，当相邻的两个文本词语之间的语义相关性小于或者等于预设的相关性阈值，则将相邻的两个文本词语中的第一个文本词语对应的时间点作为原始视频的文本边界。

在一种可能的实现方式中，在基于第一目标模型对原始视频进行边界检测，得到原始视频的语音边界时，具体可以可以先将原始视频分离成视觉通道和音频通道，从音频通道获取原始视频的语音数据，对语音数据进行语音识别处理，得到语音识别结果，由于语音识别结果也属于文本数据，因此也可以利用与前述的得到文本边界相类似的方式来确定语音边界，即基于第一目标模型对语音识别结果进行分词处理，得到多个文本词语，对各个文本词语进行特征提取，得到各个文本词语的文本特征，根据文本特征确定相邻的两个文本词语之间的语义相关性，当相邻的两个文本词语之间的语义相关性小于或者等于预设的相关性阈值，则将相邻的两个文本词语中的第一个文本词语对应的时间点作为原始视频的语音边界。或者，也可以基于第一目标模型对语音数据进行分帧处理，得到多个语音帧，对各个语音帧进行特征提取，得到各个语音帧的语音特征，根据语音特征确定相邻的两个语音帧之间的语义相关性，当相邻的两个语音帧之间的语义相关性小于或者等于预设的相关性阈值，则将相邻的两个语音帧中的第一个语音帧对应的时间点作为原始视频的语音边界。

步骤202：对多种模态数据的预测边界进行边界筛选，得到目标边界，根据目标边界对原始视频进行切分，得到多个候选视频片段。

在一种可能的实现方式中，除了可以基于第一目标模型对多种模态数据的预测边界进行边界筛选以外，第一目标模型也可以只包括边界检测模块，此时，可以利用其它的外部模型对多种模态数据的预测边界进行边界筛选，本申请实施例不做限定。

其中，目标边界用于对原始视频进行切分，得到多个候选视频片段。通过第一目标模型对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界，对多种模态数据的预测边界进行边界筛选，得到原始视频的目标边界，根据目标边界对原始视频进行切分，从而在对原始视频进行切分时考虑不同种类的模态数据，提升切分得到的候选视频片段的数据完整性，使得后续从候选视频片段中确定的目标视频片段更加准确。

步骤203：确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段。

在一种可能的实现方式中，可以引入第二目标模型，将多个候选视频片段输入至第二目标模型后，第二目标模型会多轮次地从多个候选视频片段中确定目标视频片段，其中，历史视频片段为前一轮次确定的目标视频片段。具体地，第二目标模型可以对候选视频片段进行特征提取，得到各个候选视频片段的片段特征，根据片段特征确定历史视频片段与各个候选视频片段之间的目标相关性参数。

其中，目标相关性参数用于指示历史视频片段与候选视频片段之间的相关性，在一种可能的实现方式中，目标相关性参数可以是注意力分数，具体地，注意力分数可以通过对历史视频片段的片段特征与候选视频片段的片段特征进行注意力提取得到；又或者，目标相关性参数也可以是相关概率，具体地，相关概率可以通过将历史视频片段的片段特征与候选视频片段的片段特征拼接后进行归一化处理得到。

例如，假设多个候选视频片段包括视频片段A1、视频片段A2、...、视频片段A10，第二目标模型可以根据候选视频片段的时间顺序来确定历史视频片段与各个候选视频片段之间的目标相关性参数，其中，在第一轮中，第二目标模型确定历史视频片段与各个候选视频片段之间的目标相关性参数时，由于此时不存在历史视频片段，因此，可以获取预设的用于表征处理开始的初始特征作为历史视频片段的片段特征，或者将首个候选视频片段的片段特征作为历史视频片段的片段特征，根据各个候选视频片段的片段特征与历史视频片段的片段特征确定视频片段A1至视频片段A10各自对应的目标相关性参数，若目标相关性参数最高的候选视频片段为视频片段A3，则视频片段A3为第一轮中确定的目标视频片段。接着，在第二轮中，第二目标模型可以将视频片段A3作为历史视频片段，确定视频片段A1至视频片段A10各自对应的目标相关性参数，再根据目标相关性参数选取目标视频片段；以此类推继续进行多轮次的目标视频片段确定，最终得到多个目标视频片段。

在一种可能的实现方式中，由于多个候选视频片段存在时间播放顺序，因此，在确定当前轮次的目标视频片段时，可以先从多个候选视频片段中剔除在时间播放顺序上位于历史视频片段之前的视频片段，在确定目标相关性参数时，可以只确定历史视频片段与剔除历史视频片段后剩余的候选视频片段之间的目标相关性参数，从而提升目标视频片段的确定效率。

步骤204：根据多个轮次确定的目标视频片段得到摘要视频。

其中，第二目标模型通过进行多个轮次的目标视频片段确定，可以得到多个目标视频片段，因此，根据多个轮次确定的目标视频片段得到摘要视频，可以是将多个目标视频片段拼接为摘要视频。

可见，基于第二目标模型确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段，根据多个轮次确定的目标视频片段得到摘要视频，能够基于第二目标模型自动化地输出摘要视频，此过程无须人工参与，自动化程度高，可以提升视频剪辑的效率，并且，通过进行多个轮次的目标视频片段的确定，每个轮次确定一个目标视频片段，能够提升视频剪辑的精细化程度，由于历史视频片段为前一轮次确定的目标视频片段，可以加强各个目标视频片段之间的关联，进而提升视频剪辑的准确性。

在一种可能的实现方式中，可以将当前轮次确定的目标视频片段与历史轮次确定的目标视频片段进行拼接，得到拼接视频；根据拼接视频中多个目标视频片段的时长之和，得到拼接视频的第一视频时长，当第一视频时长达到预设的时长阈值时，将拼接视频确定为摘要视频；或者，根据拼接视频中多个目标视频片段的个数之和，得到拼接视频的片段个数，当片段个数达到预设的个数阈值时，将拼接视频确定为摘要视频。

其中，在将目标视频片段拼接成拼接视频时，通过引入多个目标视频片段的时长之和或者多个目标视频片段的个数之和，当第一视频时长达到预设的时长阈值或者当片段个数达到预设的个数阈值时，将拼接视频确定为摘要视频，即停止确定新的目标视频片段，从而可以对摘要视频的时长进行灵活控制。

在一种可能的实现方式中，可以基于多种模态数据在播放时间轴上的位置关系，来对多种模态数据的预测边界进行边界筛选。例如，当多种模态数据包括图像数据和语音数据时，可以根据图像数据和语音数据在播放时间轴上的位置关系，来对图像数据和语音数据的预测边界进行边界筛选；或者，当多种模态数据包括图像数据、文本数据和语音数据时，可以根据图像数据、文本数据和语音数据在播放时间轴上的位置关系，来对图像数据和文本数据的预测边界进行边界筛选。通过基于多种模态数据在播放时间轴上的位置关系，来对多种模态数据的预测边界进行边界筛选，可以在进行边界筛选时考虑多种模态数据在播放时间轴上的交叠情况，从而提升边界筛选的可靠性。

在一种可能的实现方式中，当多种模态数据包括图像数据、文本数据和语音数据时，相应地，多种模态数据的预测边界包括图像边界、语音边界和文本边界，在对多种模态数据的预测边界进行边界筛选，得到目标边界时，可以对语音边界和文本边界进行边界筛选，得到语音文本边界；对语音文本边界和图像边界进行边界筛选，得到目标边界。

具体地，语音文本边界为语音边界或者文本边界，目标边界为语音文本边界或者图像边界。由于在原始视频中，文本数据一般是字幕，语音数据和文本数据一般是成对出现的，两者的关联性较强，因此，通过先筛选出语音文本边界，再筛选出目标边界，可以在一定程度上提升边界筛选的效率。

在一种可能的实现方式中，在对语音边界和文本边界进行边界筛选，得到语音文本边界时，可以根据语音边界在播放时间轴上确定语音数据块，根据语音数据块确定有效语音区域，根据文本边界在播放时间轴上确定文本数据块，根据文本数据块确定有效文本区域；当有效语音区域与有效文本区域相互交叠时，对相互交叠的有效语音区域与有效文本区域进行并集处理，得到并集区域；将并集区域的边界作为语音文本边界。

具体地，有效语音区域中可以包括一个或者多个语音数据块，同理，有效文本区域中可以包括一个或者多个文本数据块，语音数据块可以包括语音句子，文本数据块可以包括字幕文本。由于原始视频中并不是所有的播放时间均有语音数据或者文本数据，因此，可以根据语音边界或者文本边界确定语音有效区域或者文本有效区域，语音有效区域即存在语音数据的区域，文本有效区域即存在文本数据的区域，相应地，语音无效区域即不存在语音数据的区域，文本无效区域即不存在文本数据的区域。

当有效语音区域与有效文本区域相互交叠时，通过对相互交叠的有效语音区域与有效文本区域进行并集处理得到并集区域，并将并集区域的边界作为语音文本边界，使得语音文本边界为间隔最远的语音边界或者文本边界，使得语音文本边界能够完全包含有效语音区域和有效文本区域，从而能够提升语音文本边界内的语音数据和文本数据的完整性。

例如，参照图6，图6为本申请实施例提供的对语音边界和文本边界进行边界筛选的一种可选的流程示意图，其中，有效语音区域与有效文本区域相互交叠，可以是有效语音区域与有效文本区域的一端对齐，有效文本区域的另一端被包含于有效语音区域中，因此，有效语音区域和有效文本区域的并集区域实际上为有效语音区域，此时的语音文本边界为有效文本区域两端的语音边界。

可以理解的是，有效语音区域与有效文本区域相互交叠，也可以是有效语音区域与有效文本区域的一端对齐，有效语音区域的另一端被包含于有效文本区域中，或者当有效语音区域与有效文本区域的两端对齐，或者当有效语音区域被包含于有效文本区域中，或者当有效文本区域被包含于有效语音区域中时，并集区域为有效文本区域或者有效语音区域，语音文本边界为有效语音区域两端的语音边界或者为有效文本区域两端的文本边界，在此不再赘述。

又例如，参照图7，图7为本申请实施例提供的对语音边界和文本边界进行边界筛选的另一种可选的流程示意图，其中，有效语音区域与有效文本区域相互交叠，还可以是有效语音区域与有效文本区域相互交错，因此，有效语音区域和有效文本区域的并集区域为有效语音区域的一端至有效文本区域距离有效语音区域最远的一端之间的区域，此时的语音文本边界为有效语音区域一端的语音边界和有效文本区域距离有效语音区域最远的一端的文本边界。

在一种可能的实现方式中，对语音文本边界和图像边界进行边界筛选，得到目标边界时，可以根据图像边界在播放时间轴上确定图像数据块；当并集区域包含图像数据块的至少一部分时，将语音文本边界作为目标边界。

具体地，参照图8，图8为本申请实施例提供的对语音文本边界和图像边界进行边界筛选的一种可选的流程示意图，其中，并集区域包含图像数据块的至少一部分，可以是并集区域包含图像数据块的一部分，或者完全包含图像数据块，此时将语音文本边界作为目标边界，能够保持后续根据目标边界切分得到的候选视频片段的语音数据和文本数据的完整性。

而当并集区域邻接有无效数据区域，且无效数据区域完全包含图像数据块时，将图像数据块的图像边界作为目标边界。

具体地，参照图9，图9为本申请实施例提供的对语音文本边界和图像边界进行边界筛选的另一种可选的流程示意图，其中，无效数据区域即不存在语音数据也不存在文本数据的区域，此时将图像边界作为目标边界，可以提升目标边界的合理性，减少后续根据目标边界切分得到的候选视频片段中的冗余内容。

而当并集区域邻接有无效数据区域，且图像数据块完全包含并集区域时，将图像数据块的图像边界作为目标边界。

具体地，参照图10，图10为本申请实施例提供的对语音文本边界和图像边界进行边界筛选的另一种可选的流程示意图，图像数据块完全包含并集区域时，若并集区域邻接有有效数据区域，此时若将图像边界作为目标边界时，则会截断并集区域相邻的该有效数据区域，从而降低了目标边界的可靠性。因此，当图像数据块完全包含并集区域时，通过进一步限定并集区域邻接有无效数据区域，使得在将图像边界作为目标边界时，不会对其余的有效数据区域产生影响，从而提升目标边界的可靠性。

下面以一实际例子完整说明本申请实施例提供的确定目标边界的原理。

参照图11，图11为本申请实施例提供的确定目标边界的一种可选的完整流程示意图，首先对语音边界和文本边界进行边界筛选，本例子中存在两处相互交叠的有效语音区域与有效文本区域，分别对相互交叠的有效语音区域与有效文本区域进行并集处理，得到两个并集区域，进而将并集区域的边界作为语音文本边界；接着，对语音文本边界和图像边界进行边界筛选，本例子中，存在并集区域完全包含图像数据块，以及图像数据块完全包含并集区域且并集区域邻接有无效数据区域的情况，因此对应将语音文本边界和图像边界做为目标边界，进而可以根据目标边界得到多个候选视频片段。

在一种可能的实现方式中，可以使用向量计算的方式来进行目标边界的确定，具体地，在确定语音边界后，可以根据语音边界确定原始视频的语音数据的语音向量，例如，假设原始视频的总帧数为L，则语音向量可以表示为x∈{0,1}^L，其中，若某一帧的值为1，则表示这一帧为语音边界，反之该帧的值为0。类似地，可以根据文本边界确定原始视频的文本数据的文本向量，例如文本向量可以表示为y∈{0,1}^L。基于此，可以将语音向量和文本向量极进行点乘，得到语音文本向量，语音文本向量可以用于表示语音数据和文本数据合并后的语音文本数据，例如，语音文本数据的第一语音文本向量可以表示为b∈{0,1}^L，使得b＝x⊙y，其中⊙表示点乘方式。另外，语音文本数据的第一语音文本向量也可以被表达为c∈{0,1}^L，c是b的1阶导数，被表达为

类似地，可以根据图像边界确定原始视频的图像数据的图像向量，例如图像向量可以表示为z∈{0,1}^L。最终可以根据图像向量与第一语音文本向量的乘积，以及图像向量与第二语音文本向量的乘积确定目标边界，若图像向量与第二语音文本向量的乘积为1，或者确定1与第一语音向量的差值，若该差值与图像向量之间的乘积为1，则可以将该帧确定为目标边界。

目标边界可以表示为：

其中，s_i表示目标边界，i表示帧的编号，i为正整数。

通过使用向量计算的方式来进行目标边界的确定，能够显著提升目标边界的确定效率。

在一种可能的实现方式中，基于第二目标模型确定历史视频片段与各个候选视频片段之间的目标相关性参数时，具体可以对候选视频片段进行特征提取，得到候选视频片段的视频特征；将视频特征输入至第二目标模型，根据视频特征确定历史视频片段与各个候选视频片段之间的目标相关性参数。

其中，候选视频片段的视频特征可以包括文本特征、语音特征和图像特征中的至少两种。通过提取候选视频片段的视频特征，能够提升候选视频片段的特征准确性，使得后续计算的目标相关性参数更加准确。

在一种可能的实现方式中，视频特征可以包括文本特征和图像特征，对候选视频片段进行特征提取，得到候选视频片段的视频特征，具体可以对候选视频片段进行文本特征提取，得到候选视频片段的文本特征；对候选视频片段进行采样，得到候选视频片段的多个图像帧，对图像帧进行图像特征提取，得到图像帧的帧特征；根据多个图像帧的帧特征的平均值，确定候选视频片段的图像特征；将文本特征和图像特征进行拼接，得到候选视频片段的视频特征。

具体地，参照图12，图12为本申请实施例提供的得到候选视频片段的视频特征的一种可选的流程示意图，可以先从候选视频片段中提取出文本数据和图像数据，将图像数据中的每一个图像帧输入至图像特征提取器(例如卷积神经网络、Transformer等)中进行特征提取，得到各个图像帧的帧特征，帧特征的维度可以是768*2维，再将多个图像帧的帧特征求平均后得到图像特征，可以使得候选视频片段的图像特征携带各个图像帧的信息，提升图像特征的准确性；另外，可以将文本数据输入至文本特征提取器(例如BERT模型)进行特征提取，得到文本特征，文本特征的维度可以是768*1维，再将文本特征和图像特征进行拼接得到视频特征，视频特征的维度可以是768*3维，从而可以提升候选视频片段的特征准确性。

在一种可能的实现方式中，视频特征也可以包括语音特征、文本特征和图像特征，对候选视频片段进行特征提取，得到候选视频片段的视频特征，具体可以对候选视频片段进行文本特征提取，得到候选视频片段的文本特征；对候选视频片段进行采样，得到候选视频片段的多个图像帧，对图像帧进行图像特征提取，得到图像帧的帧特征；根据多个图像帧的帧特征的平均值，确定候选视频片段的图像特征；对候选视频片段进行语音特征提取，得到候选视频片段的语音特征；将文本特征、图像特征和语音特征进行拼接，得到候选视频片段的视频特征。

通过引入语音特征、文本特征和图像特征来得到候选视频片段的视频特征，可以提升候选视频片段的视频特征所携带的信息量，提升候选视频片段的视频特征的准确性。

在一种可能的实现方式中，在根据视频特征确定历史视频片段与各个候选视频片段之间的目标相关性参数时，具体可以对视频特征进行编码操作，得到第一编码特征；对历史视频片段进行解码操作，得到解码特征；根据第一编码特征和解码特征计算初始相关性参数，根据初始相关性参数对多个第一编码特征进行加权，得到第二编码特征；将第二编码特征与解码特征进行拼接，得到拼接特征；根据第一编码特征和拼接特征，计算历史视频片段与各个候选视频片段之间的目标相关性参数。

具体地，以相关性参数为注意力分数为例子进行说明，参照图13，图13为本申请实施例提供的第二目标模型的一种可选的结构示意图，其中，第二目标模型包括第一注意力模块、第二注意力模块和片段确定模块，第一注意力模块用于计算初始注意力分数，第二注意力模块用于计算目标注意力分数，片段确定模块用于根据目标注意力分数从多个候选视频片段中确定目标视频片段。

参照图14，图14为本申请实施例提供的目标注意力分数的一种可选的确定流程示意图，对原始视频进行基于文本识别的片段切分以后，利用Swin Transformer/C3D对得到的多个候选视频片段的图像数据进行特征提取，得到各个候选视频片段的图像特征，利用BERT对得到的多个候选视频片段的文本数据进行特征提取，得到各个候选视频片段的文本特征，接着，第二目标模型一个轮次的处理过程如下：将图像特征和文本特征拼接后得到的视频特征输入至编码器(例如可以是Transformer/GRU)进行编码操作，得到各个候选视频片段的第一编码特征，并将历史视频片段的视频特征输入至解码器(例如可以是GRU)，得到历史视频片段的解码特征，将第一编码特征和解码特征输入至第一注意力模块，输出各个候选视频片段的初始注意力分数，接着，将各个候选视频片段的初始注意力分数作为对应的第一编码特征的权值，对多个第一编码特征进行加权，得到第二编码特征，例如，视频片段A1至视频片段A10的第一编码特征分别为T1、T2、...、T10，视频片段A1至视频片段A10各自对应的注意力分数分别为a1、a2、...、a10，则第二编码特征为T1*a1+T2*a2+...+T10*a10。接着，再将第二编码特征与解码特征拼接后得到的拼接特征以及各个候选视频片段的第一编码特征输入至第二注意力模块，输出各个候选视频片段的目标注意力分数。根据目标注意力分数确定目标视频片段后，将该目标视频片段作为下一轮次的历史视频片段，将历史视频片段的第一编码特征输入至解码器。

可见，第二目标模型在处理过程中计算了两次相关性参数，通过确定初始相关性参数，根据初始相关性参数对多个第一编码特征进行加权，得到第二编码特征，再将第二编码特征与解码特征进行拼接，得到拼接特征，达到对解码特征的更新效果，使得在第二目标模型不同轮次的处理过程中，解码器输出的解码特征均是动态变化的，从而使得第二目标模型在不同轮次计算各个候选视频片段的目标注意力分数时都可以具备不同的关注重点，从而提升第二目标模型的性能，提升目标相关性参数的合理性，使得后续确定的目标视频片段更加准确。

在一种可能的实现方式中，在基于第一目标模型对原始视频进行边界检测之前，可以先对第一目标模型进行训练，具体可以获取样本视频，基于第一目标模型对样本视频进行边界检测，得到样本视频中多种模态数据的样本边界；确定样本边界和边界标签之间的边界距离，根据边界距离计算第一目标模型的第一评估分数，根据第一评估分数调整第一目标模型的参数。

其中，可以采用策略梯度的方式来对第一目标模型进行训练，样本视频用于对第一目标模型进行训练，各个样本视频标注有多种模态数据的边界标签，边界标签可以用于指示样本视频中图像数据、文本数据和语音数据各自的真实边界，边界距离即边界标签与样本边界在播放时间轴上的时间差或者帧数差，在确定样本边界与边界标签之间的边界距离时，可以是计算样本边界与距离该样本边界最近的边界标签之间的边界距离。

基于第一目标模型得到各种模态数据的样本边界后，可以根据样本边界和边界标签之间的边界距离来评估样本边界和边界标签之间的误差，进而可以快速地计算出第一评估分数，提升第一目标模型的参数调整效率。

在一种可能的实现方式中，可以直接对边界距离进行归一化处理，得到第一评估分数，再根据第一评估分数调整第一目标模型的参数。又或者，可以获取边界距离范围与第一评估分数的预设的映射关系，确定边界距离所在的边界距离范围，根据上述映射关系匹配出对应的第一评估分数。

除此以外，在一种可能的实现方式中，边界标签和样本边界的数量均为多个，根据边界距离计算第一目标模型的第一评估分数时，具体可以根据边界距离与预设的距离阈值之间的大小关系，确定各个边界距离对应的距离系数；根据多个距离系数之和与样本边界的个数之间的商值，得到第一平均系数；根据多个距离系数之和与边界标签的个数之间的商值，得到第二平均系数；确定第一平均系数和第二平均系数的系数积，以及第一平均系数和第二平均系数的系数和；根据系数积与系数和之间的商值，得到第一目标模型的第一评估分数。

其中，距离阈值可以根据实际需求而定，例如可以是3帧、5帧等等，本申请实施例不做限定。距离系数用于对边界距离进行定量转化，距离系数也可以根据实际需求而定，例如，当边界距离小于或者等于距离阈值时，距离系数可以为1；当边界距离大于距离阈值时，距离系数可以为0。接着，通过计算第一平均系数和第二平均系数，进而根据系数积与系数和之间的商值得到第一评估分数，可以降低样本边界的个数与边界标签的个数不一致时所带来的计算误差，使得第一评估分数更加准确。

具体地，距离系数可以表示为：

其中，Hit(GtTrans，PredTrans)表示距离系数，PredTrans表示样本边界，GtTrans表示边界标签，PredTrans-GtTrans表示边界距离，t表示距离阈值。

第一评估分数可以表示为：

其中，F表示第一评估分数，P表示第一平均系数，R表示第二平均系数。

第一平均系数和第二平均系数可以表示为：

其中，PredNum表示样本边界的个数，GtNum表示边界标签的个数。

在一种可能的实现方式中，在基于第二目标模型确定历史视频片段与各个候选视频片段之间的目标相关性参数之前，可以先对第一目标模型进行训练，具体可以获取多个样本视频片段，基于第二目标模型在多个样本视频片段中确定评估视频片段；根据评估视频片段的评估标签计算第二目标模型的第二评估分数，根据第二评估分数调整第二目标模型的参数。

其中，可以采用策略梯度的方式来对第二目标模型进行训练，样本视频片段用于对第二目标模型进行训练，各个样本视频片段标注有评估标签，评估标签包括推广性能等级标签、结尾标签、连贯性标签中的至少一种。

其中，推广性能等级标签用于指示样本视频片段的推广特性，推广性能等级标签可以包括多个推广性能等级，例如，推广性能等级标签可以包括第一等级标识、第二等级标识、第三等级标识和第四等级标识，第一等级标识可以为“0级”、第二等级标识可以为“1级”、第三等级标识可以为“2级”，第四等级标识可以为“3级”，其中，第一等级标识可以用于指示不存在推广功能；第二等级标识可以用于指示具备推广铺垫功能，并不是进行推广时的主要部分；第三等级标识可以用于指示具备推广描述功能，即可以用于描述推广内容，具备吸引特性；第四等级标识可以用于指示具备推广指引功能，即可以用于进行推广内容的展示或者行动的指引，具备强烈的推广特性。可以理解的是，推广性能等级标签的等级数量以及具体表现形式可以根据实际需求而定，本申请实施例不做限定。

当评估标签包括推广性能等级标签时，根据评估视频片段的评估标签计算第二目标模型的第二评估分数，具体可以根据推广性能等级标签确定评估视频片段的推广特性分数，将多个轮次确定的推广特性分数进行平均处理，得到第二评估分数。例如，假设第二目标模型经过三个轮次确定了三个评估视频片段，各个评估视频片段的推广性能标签分别为0级、1级、2级，对应的推广特性分数为0、1、2，则第二评估分数为(0+1+2)/3＝1。可以理解的是，推广特性分数的具体取值可以根据实际需求而定，本申请实施例不做限定。

可见，通过引入推广性能等级标签来对第二目标模型进行训练，后续在利用第二目标模型确定目标视频片段时，可以有效提升目标视频片段的推广性能。

其中，结尾标签用于指示样本视频片段是否能够作为摘要视频的结尾，结尾标签可以包括第一结尾标识、第二结尾标识和第三结尾标识，第一结尾标识可以为“可以”，第二结尾标识可以为“不确定”，第三结尾标识可以为“不可以”。可以理解的是，结尾标签的等级数量以及具体表现形式可以根据实际需求而定，本申请实施例不做限定。

当评估标签包括结尾标签时，根据评估视频片段的评估标签计算第二目标模型的第二评估分数，具体可以根据结尾标签确定最后一个轮次确定的评估视频片段的完整性分数，将完整性分数作为第二评估分数。例如，第一结尾标识、第二结尾标识和第三结尾标识对应的完整性分数可以分别为1、0.5、0，若最后一个轮次确定的评估视频片段的结尾标签为“可以”，则第二评估分数为1。可以理解的是，完整性分数的具体取值可以根据实际需求而定，本申请实施例不做限定。

可见，通过引入结尾标签来对第二目标模型进行训练，后续在利用第二目标模型确定目标视频片段时，可以有效提升目标视频片段的完整性。

其中，连贯性标签可以用于指示任意两个样本视频片段之间的连贯性，连贯性标签可以包括第一连贯性标识、第二连贯性标识和第三连贯性标识，第一连贯性标识可以为“连贯”，第二连贯性标识可以为“不确定”，第三连贯性标识可以为“不连贯”。可以理解的是，连贯性标签的等级数量以及具体表现形式可以根据实际需求而定，本申请实施例不做限定。

当评估标签包括连贯性标签时，根据评估视频片段的评估标签计算第二目标模型的第二评估分数，具体可以是根据连贯性标签，确定任意两个相邻轮次中确定的评估视频片段之间的连贯性分数，将连贯性分数作为第二评估分数。例如，第一连贯性标识、第二连贯性标识和第三连贯性标识对应的连贯性分数可以分别为1、0.5、0，若相邻轮次中确定的评估视频片段之间的连贯性标签为“连贯”，则第二评估分数为1。可以理解的是，连贯性分数的具体取值可以根据实际需求而定，本申请实施例不做限定。

可见，通过引入连贯性标签来对第二目标模型进行训练，后续在利用第二目标模型确定目标视频片段时，可以有效提升目标视频片段的连贯性。

在此基础上，在根据第二评估分数调整第二目标模型的参数时，还可以进一步引入评估视频片段的时长，具体地，可以计算多个轮次确定的评估视频片段的时长之和，得到第二视频时长；根据第二视频时长与预设的时长范围之间的关系，确定第二目标模型的第三评估分数；根据第二评估分数和第三评估分数调整第二目标模型的参数。

例如，当第二视频时长位于时长范围之内时，第三评估分数可以为1，当第二视频时长位于时长范围之外时，第三评估分数可以为0。可以理解的是，第三评估分数的具体取值可以根据实际需求而定，本申请实施例不做限定。

可见，通过引入评估视频片段的时长来对第二目标模型进行训练，后续在利用第二目标模型确定目标视频片段时，可以有效提升目标视频片段的时长合理性。

在一种可能的实现方式中，参照图15，图15为本申请实施例提供的训练第二目标模型的一种可选的流程示意图，其中，在训练第二目标模型时，可以同时引入推广特性分数、完整性分数、连贯性分数以及时长分数(即前述的第三评估分数)，根据推广特性分数、完整性分数、连贯性分数以及时长分数的乘积计算目标评估分数，根据目标评估分数调整第二目标模型的参数，从而可以显著地提升第二目标模型在推广特性、完整性、连贯性和时长这几个维度的性能，使得后续在利用第二目标模型确定目标视频片段时，可以有效提升目标视频片段的推广性能、完整性、连贯性和时长合理性。

由于第二目标模型所处理的任务实际上是将一个时长较长的视频剪辑为一个时长较短的视频，相关技术中，训练处理这种任务的模型时，一般是获取一个时长较长的视频和一个时长较短的视频作为训练的样本数据对，再利用这种样本数据对来进行训练，因此，无疑会增加样本数据对的获取难度。而在本申请实施例中，通过采用对样本视频片段进行标签的标注，只利用样本视频片段即可对第二目标模型进行弱监督的训练，有利于降低样本获取难度，提高训练效率；并且，通过引入推广性能等级标签、结尾标签、连贯性标签中的至少一种标签，实际上在视频时长的长剪短任务中引入了其他场景维度的标签来对第二目标模型进行训练，从而可以有效地提升第二目标模型的训练效果。

可以理解的是，上述推广特性分数、完整性分数、连贯性分数以及时长分数也可以选择一个或者多个的组合来对第二目标模型进行训练。另外，除了根据推广特性分数、完整性分数、连贯性分数以及时长分数的乘积计算目标评估分数以外，还可以根据推广特性分数、完整性分数、连贯性分数以及时长分数的加权或者平均等方式来计算目标评估分数。

可以理解的是，在第一目标模型的应用过程中无须使用到上述边界标签，第二目标模型的应用过程中无须使用到上述的评估标签。

下面以实际例子说明本申请实施例提供的视频剪辑方法的原理。

参照图16，图16为本申请实施例提供的视频剪辑方法的一种可选的完整流程示意图，其中，获取了待剪辑的原始视频后，将原始视频分离成视觉通道和音频通道后输入至第一目标模型，其中，第一目标模型的边界检测模块中的镜头切分检测器从视觉通道获取原始视频的图像数据，对图像数据进行边界检测，得到图像边界；第一目标模型的OCR检测器从视觉通道获取原始视频的文本数据，对文本数据进行边界检测，得到文本边界；第一目标模型的ASR检测器从音频通道获取原始视频的语音数据，对语音数据进行边界检测，得到图像边界；边界检测模块输出的图像边界、文本边界和语音边界传递至第一目标模型的边界筛选模块，边界筛选模块从图像边界、文本边界和语音边界中筛选出目标边界，进而将原始视频切分为多个候选视频片段。接着，将多个候选视频片段进行特征提取，得到各个候选视频片段的视频特征，将视频特征输入至第二目标模型中，通过第二目标模型的编码器对视频特征进行编码，得到各个候选视频片段的第一编码特征，各个候选视频片段的第一编码特征和第二目标模型的编码器的编码特征输入至第二目标模型的第一注意力模块，计算各个候选视频片段的初始注意力分数，然后根据初始注意力分数对多个第一编码特征进行加权，得到第二编码特征，将第二编码特征与解码特征进行拼接，得到拼接特征，再将拼接特征和第一编码特征输入至第二目标模型的的第二注意力模块，计算各个候选视频片段的目标注意力分数，根据目标注意力分数从候选视频片段中确定目标视频片段，第二目标模型进行多个轮次的目标视频片段的确定，直至多个目标视频片段的时长达到预设的时长阈值，将多个目标视频片段拼接得到摘要视频。可见，本申请实施例提供的视频剪辑方法能够基于第二目标模型自动化地输出摘要视频，此过程无须人工参与，自动化程度高，可以提升视频剪辑的效率，并且，通过进行多个轮次的目标视频片段的确定，每个轮次确定一个目标视频片段，能够提升视频剪辑的精细化程度，由于历史视频片段为前一轮次确定的目标视频片段，可以加强各个目标视频片段之间的关联，进而提升视频剪辑的准确性。

其中，上述第一目标模型和第二目标模型可以集成为同一个模型，或者也可以为两个单独的模型，本申请实施例不做限定。

下面以实际例子说明本申请实施例提供的视频剪辑方法的应用场景。

参照图17，图17为本申请实施例提供的视频剪辑方法的一种可选的应用场景的示意图，其中，本申请实施例提供的视频剪辑方法可以应用于推广视频的剪辑场景，原始的推广视频的总时长为30秒，将推广视频切分为多个视频片段以后，可以基于第二目标模型进行视频片段的选择，最终将原始的推广视频剪辑为15秒的摘要视频，从而达到推广视频时长缩短的效果。

除此以外，在视频平台上发布状态视频时，若视频平台存在发布视频的时长限制，当待发布的状态视频时长超过时长限制时，可以将状态视频切分为多个视频片段以后，基于第二目标模型进行视频片段的选择，最终将原始的状态视频剪辑为符合视频平台的限制时长的视频，再将剪辑后视频进行发布，从而无须人工对状态视频进行调整，提升视频发布的效率。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图18，图18为本申请实施例提供的视频剪辑装置的一种可选的结构示意图，该视频剪辑装置1800包括：

边界检测模块1801，用于获取原始视频，对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界；

片段切分模块1802，用于对多种模态数据的预测边界进行边界筛选，得到目标边界，根据目标边界对原始视频进行切分，得到多个候选视频片段；

片段选择模块1803，用于确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段，其中，历史视频片段为前一轮次确定的目标视频片段；

输出模块1804，用于根据多个轮次确定的目标视频片段得到摘要视频。

进一步，多种模态数据的预测边界包括图像边界、语音边界和文本边界，上述片段切分模块1802具体用于：

对语音边界和文本边界进行边界筛选，得到语音文本边界；

对语音文本边界和图像边界进行边界筛选，得到目标边界。

进一步，上述片段切分模块1802具体用于：

根据语音边界在播放时间轴上确定语音数据块，根据语音数据块确定有效语音区域，根据文本边界在播放时间轴上确定文本数据块，根据文本数据块确定有效文本区域；

当有效语音区域与有效文本区域相互交叠时，对相互交叠的有效语音区域与有效文本区域进行并集处理，得到并集区域；

将并集区域的边界作为语音文本边界。

进一步，上述片段切分模块1802具体用于：

根据图像边界在播放时间轴上确定图像数据块；

当并集区域包含图像数据块的至少一部分时，将语音文本边界作为目标边界；或者，当并集区域邻接有无效数据区域，且无效数据区域完全包含图像数据块时，将图像数据块的图像边界作为目标边界；或者，当并集区域邻接有无效数据区域，且图像数据块完全包含并集区域时，将图像数据块的图像边界作为目标边界。

进一步，上述片段选择模块1803具体用于：

对候选视频片段进行特征提取，得到候选视频片段的视频特征；

将视频特征输入至第二目标模型，根据视频特征确定历史视频片段与各个候选视频片段之间的目标相关性参数。

进一步，上述片段选择模块1803具体用于：

对候选视频片段进行文本特征提取，得到候选视频片段的文本特征；

对候选视频片段进行采样，得到候选视频片段的多个图像帧，对图像帧进行图像特征提取，得到图像帧的帧特征；

根据多个图像帧的帧特征的平均值，确定候选视频片段的图像特征；

将文本特征和图像特征进行拼接，得到候选视频片段的视频特征。

进一步，上述片段选择模块1803具体用于：

对各个候选视频片段的视频特征进行编码操作，得到各个候选视频片段的第一编码特征，对历史视频片段的视频特征进行解码操作，得到解码特征；

根据第一编码特征和解码特征计算初始相关性参数，根据初始相关性参数对多个第一编码特征进行加权，得到第二编码特征；

将第二编码特征与解码特征进行拼接，得到拼接特征；

根据第一编码特征和拼接特征，计算历史视频片段与各个候选视频片段之间的目标相关性参数。

进一步，上述输出模块1804具体用于：

将当前轮次确定的目标视频片段与历史轮次确定的目标视频片段进行拼接，得到拼接视频；

根据拼接视频中多个目标视频片段的时长之和，得到拼接视频的第一视频时长，当第一视频时长达到预设的时长阈值时，将拼接视频确定为摘要视频；或者，根据拼接视频中多个目标视频片段的个数之和，得到拼接视频的片段个数，当片段个数达到预设的个数阈值时，将拼接视频确定为摘要视频。

进一步，上述视频剪辑装置还包括训练模块1805，上述训练模块1805用于：

获取样本视频，其中，样本视频标注有多种模态数据的边界标签；

基于第一目标模型对样本视频进行边界检测，得到样本视频中多种模态数据的样本边界；

确定样本边界和边界标签之间的边界距离，根据边界距离计算第一目标模型的第一评估分数，根据第一评估分数调整第一目标模型的参数。

进一步，边界标签和样本边界的数量均为多个，上述训练模块1805具体用于：

根据边界距离与预设的距离阈值之间的大小关系，确定各个边界距离对应的距离系数；

根据多个距离系数之和与样本边界的个数之间的商值，得到第一平均系数；

根据多个距离系数之和与边界标签的个数之间的商值，得到第二平均系数；

确定第一平均系数和第二平均系数的系数积，以及第一平均系数和第二平均系数的系数和；

根据系数积与系数和之间的商值，得到第一目标模型的第一评估分数。

进一步，上述训练模块1805还用于：

获取多个样本视频片段，其中，各个样本视频片段标注有评估标签，评估标签包括推广性能等级标签、结尾标签、连贯性标签中的至少一种；

基于第二目标模型在多个样本视频片段中确定评估视频片段；

根据评估视频片段的评估标签计算第二目标模型的第二评估分数，根据第二评估分数调整第二目标模型的参数。

进一步，上述训练模块1805具体用于：

当评估标签包括推广性能等级标签，根据推广性能等级标签确定评估视频片段的推广特性分数，将多个轮次确定的推广特性分数进行平均处理，得到第二评估分数；

或者，当评估标签包括结尾标签，根据结尾标签确定最后一个轮次确定的评估视频片段的完整性分数，将完整性分数作为第二评估分数；

或者，当评估标签包括连贯性标签，根据连贯性标签，确定任意两个相邻轮次中确定的评估视频片段之间的连贯性分数，将连贯性分数作为第二评估分数。

进一步，上述训练模块1805具体用于：

计算多个轮次确定的评估视频片段的时长之和，得到第二视频时长；

根据第二视频时长与预设的时长范围之间的关系，确定第二目标模型的第三评估分数；

根据第二评估分数和第三评估分数调整第二目标模型的参数。

上述视频剪辑装置1800与视频剪辑方法基于相同的发明构思，因此该视频剪辑装置1800通过对原始视频进行边界检测，得到原始视频中多种模态数据的预测边界，对多种模态数据的预测边界进行边界筛选，得到目标边界，根据目标边界对原始视频进行切分，从而在对原始视频进行切分时考虑不同的模态数据，提升切分得到的候选视频片段的数据完整性，使得后续从候选视频片段中确定的目标视频片段更加准确；接着，确定历史视频片段与各个候选视频片段之间的目标相关性参数，根据目标相关性参数从多个候选视频片段中确定当前轮次的目标视频片段，根据多个轮次确定的目标视频片段得到摘要视频，能够基于第二目标模型自动化地输出摘要视频，此过程无须人工参与，自动化程度高，可以提升视频剪辑的效率，并且，通过进行多个轮次的目标视频片段的确定，每个轮次确定一个目标视频片段，能够提升视频剪辑的精细化程度，由于历史视频片段为前一轮次确定的目标视频片段，可以加强各个目标视频片段之间的关联，进而提升视频剪辑的准确性。

本申请实施例提供的用于执行上述视频剪辑方法的电子设备可以是终端，参照图19，图19为本申请实施例提供的终端的部分结构框图，该终端包括：射频(RadioFrequency，简称RF)电路1910、存储器1920、输入单元1930、显示单元1940、传感器1950、音频电路1960、无线保真(wireless fidelity，简称WiFi)模块1970、处理器1980、以及电源1990等部件。本领域技术人员可以理解，图19中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

RF电路1910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1980处理；另外，将设计上行的数据发送给基站。

存储器1920可用于存储软件程序以及模块，处理器1980通过运行存储在存储器1920的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。

输入单元1930可用于接收输入的数字或字符信息，以及产生与终端的设置以及功能控制有关的键信号输入。具体地，输入单元1930可包括触摸面板1931以及其他输入装置1932。

显示单元1940可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元1940可包括显示面板1941。

音频电路1960、扬声器1961，传声器1962可提供音频接口。

在本实施例中，该终端所包括的处理器1980可以执行前面实施例的视频剪辑方法。

本申请实施例提供的用于执行上述视频剪辑方法的电子设备也可以是服务器，参照图20，图20为本申请实施例提供的服务器的部分结构框图，服务器2000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central ProcessingUnits，简称CPU)2022(例如，一个或一个以上处理器)和存储器2032，一个或一个以上存储应用程序2042或数据2044的存储介质2030(例如一个或一个以上海量存储装置)。其中，存储器2032和存储介质2030可以是短暂存储或持久存储。存储在存储介质2030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器2000中的一系列指令操作。更进一步地，中央处理器2022可以设置为与存储介质2030通信，在服务器2000上执行存储介质2030中的一系列指令操作。

服务器2000还可以包括一个或一个以上电源2026，一个或一个以上有线或无线网络接口2050，一个或一个以上输入输出接口2058，和/或，一个或一个以上操作系统2041，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器2000中的处理器可以用于执行视频剪辑方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述各个实施例的视频剪辑方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的视频剪辑方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应了解，在本申请实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本申请实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

1.一种视频剪辑方法，其特征在于，包括：

根据多个轮次确定的所述目标视频片段得到摘要视频。

2.根据权利要求1所述的视频剪辑方法，其特征在于，多种模态数据的所述预测边界包括图像边界、语音边界和文本边界，所述对多种模态数据的所述预测边界进行边界筛选，得到目标边界，包括：

3.根据权利要求2所述的视频剪辑方法，其特征在于，所述对所述语音边界和所述文本边界进行边界筛选，得到语音文本边界，包括：

将所述并集区域的边界作为所述语音文本边界。

4.根据权利要求3所述的视频剪辑方法，其特征在于，所述对所述语音文本边界和所述图像边界进行边界筛选，得到所述目标边界，包括：

根据所述图像边界在所述播放时间轴上确定图像数据块；

5.根据权利要求1所述的视频剪辑方法，其特征在于，所述确定历史视频片段与各个所述候选视频片段之间的目标相关性参数，包括：

6.根据权利要求5所述的视频剪辑方法，其特征在于，所述对所述候选视频片段进行特征提取，得到所述候选视频片段的视频特征，包括：

7.根据权利要求5所述的视频剪辑方法，其特征在于，所述根据所述视频特征确定所述历史视频片段与各个所述候选视频片段之间的所述目标相关性参数，包括：

8.根据权利要求1所述的视频剪辑方法，其特征在于，所述根据多个轮次确定的所述目标视频片段得到摘要视频，包括：

9.根据权利要求1至8任意一项所述的视频剪辑方法，其特征在于，所述对所述原始视频进行边界检测之前，所述视频剪辑方法还包括：

基于第一目标模型对所述样本视频进行边界检测，得到所述样本视频中多种模态数据的样本边界；

10.根据权利要求9所述的视频剪辑方法，其特征在于，所述边界标签和所述样本边界的数量均为多个，所述根据所述边界距离计算所述第一目标模型的第一评估分数，包括：

11.根据权利要求1至8任意一项所述的视频剪辑方法，其特征在于，所述基于第二目标模型确定历史视频片段与各个所述候选视频片段之间的目标相关性参数之前，所述视频剪辑方法还包括：

基于所述第二目标模型在多个所述样本视频片段中确定评估视频片段；

12.根据权利要求11所述的视频剪辑方法，其特征在于，所述根据所述评估视频片段的所述评估标签计算所述第二目标模型的第二评估分数，包括：

13.根据权利要求11所述的视频剪辑方法，其特征在于，所述根据所述第二评估分数调整所述第二目标模型的参数，包括：

14.一种视频剪辑装置，其特征在于，包括：

15.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13任意一项所述的视频剪辑方法。

16.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13任意一项所述的视频剪辑方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13任意一项所述的视频剪辑方法。