CN113676671A

CN113676671A - 视频剪辑方法、装置、电子设备及存储介质

Info

Publication number: CN113676671A
Application number: CN202111135207.6A
Authority: CN
Inventors: 郭晓锋
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-11-19
Anticipated expiration: 2041-09-27
Also published as: CN113676671B

Abstract

本公开关于一种视频剪辑方法、装置、电子设备及存储介质，该方法包括：将待处理视频的视频特征输入片段切分模型，得到待处理视频的切分点位；切分点位用于表示对应的视频片段的起始时间点和截止时间点；从视频特征中提取出切分点位对应的视频片段特征；通过视频片段预测模型，得到视频片段特征的第一系数和第二系数；第一系数用于表征视频片段特征是否保留，第二系数用于表征视频片段特征对应的视频片段的排列位置；根据第一系数，从视频片段特征中筛选出目标视频片段特征；按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行拼接处理，得到待处理视频的拼接视频。采用本方法，有利于提高视频拼接的通用性。

Description

视频剪辑方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频剪辑方法、装置、电子设备及存储介质。

背景技术

视频作为人类社交过程中传达情感和信息的重要媒介，已经广泛用于各类社交工具、论坛等。近年来，随着深度学习和人工智能技术的兴起，AI视频剪辑技术蓬勃发展。

相关技术中，基于人工启发式规则的AI视频剪辑方法，常见于一些剪辑模式相对固定的领域，比如球类比赛、游戏比赛等；这些视频的剪辑方式，通常需要先利用特定的检测算法检测出精彩的片段(比如游戏击杀、进球等)，然后将这些精彩片段按照特定的规则(比如时间顺序、精彩程度等)进行拼接；但是，这种视频剪辑方法，需要针对每一类特定类型的视频设计规则，比如球赛就找出进球片段、游戏就找出击杀片段等，这样就使得一个视频剪辑算法如果需要覆盖足够多的场景，就需要设计几十上百个规则，导致通用性较差。

发明内容

本公开提供一种视频剪辑方法、装置、电子设备及存储介质，以至少解决相关技术中视频剪辑的通用性较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频剪辑方法，包括：

将待处理视频的视频特征输入训练完成的片段切分模型，得到所述待处理视频的切分点位；所述切分点位用于表示对应的视频片段的起始时间点和截止时间点；

从所述视频特征中提取出所述切分点位对应的视频片段特征；

通过训练完成的视频片段预测模型，得到所述视频片段特征的第一系数和第二系数；所述第一系数用于表征所述视频片段特征是否保留，所述第二系数用于表征所述视频片段特征对应的视频片段的排列位置；

根据所述第一系数，从所述视频片段特征中筛选出目标视频片段特征；

按照所述目标视频片段特征的第二系数，将所述目标视频片段特征对应的目标视频片段进行拼接处理，得到所述待处理视频的拼接视频。

在一示例性实施例中，所述训练完成的片段切分模型和所述训练完成的视频片段预测模型通过下述方式训练得到：

获取样本视频的样本视频特征、实际切分点位和所述实际切分点位对应的视频片段；所述视频片段携带有对应的实际第一系数和实际第二系数；

根据所述样本视频特征、所述实际切分点位、所述实际第一系数和所述实际第二系数，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，直到得到的目标损失值小于预设阈值；

将所述目标损失值小于所述预设阈值时的片段切分模型和视频片段预测模型，对应作为所述训练完成的片段切分模型和所述训练完成的视频片段预测模型。

在一示例性实施例中，所述根据所述样本视频特征、所述实际切分点位、所述实际第一系数和所述实际第二系数，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，直到得到的目标损失值小于预设阈值，包括：

将所述样本视频特征输入待训练的片段切分模型，得到所述样本视频的预测切分点位；

从所述样本视频特征中提取出所述预测切分点位对应的预测片段特征；

将所述预测片段特征输入待训练的视频片段预测模型，得到所述预测片段特征的预测第一系数和预测第二系数；

根据所述实际切分点位、所述预测切分点位、所述实际第一系数、所述预测第一系数、所述实际第二系数和所述预测第二系数，得到目标损失值；

当所述目标损失值大于或者等于所述预设阈值的情况，则根据所述目标损失值对所述待训练的片段切分模型和所述待训练的视频片段预测模型的模型参数进行调整，并对模型参数调整后的片段切分模型和视频片段预测模型进行反复训练，直到得到的所述目标损失值小于所述预设阈值。

在一示例性实施例中，所述根据所述实际切分点位、所述预测切分点位、所述实际第一系数、所述预测第一系数、所述实际第二系数和所述预测第二系数，得到目标损失值，包括：

根据所述实际切分点位和所述预测切分点位，得到第一损失值；

根据所述实际第一系数和所述预测第一系数，得到第二损失值；

根据所述实际第二系数和所述预测第二系数，得到第三损失值；

根据所述第一损失值、所述第二损失值以及所述第三损失值，得到所述目标损失值。

在一示例性实施例中，所述根据所述第一系数，从所述视频片段特征中筛选出目标视频片段特征，包括：

从所述视频片段特征中，筛选出所述第一系数大于预设系数的视频片段特征，作为初始视频片段特征；

当所述初始视频片段特征中存在所述第二系数相同的视频片段特征的情况，则从所述第二系数相同的视频片段特征中，选择所述第一系数最大的视频片段特征；

根据所述第一系数最大的视频片段特征和所述初始视频片段特征中除所述第二系数相同的视频片段特征之外的视频片段特征，得到所述目标视频片段特征。

在一示例性实施例中，所述从所述视频特征中提取出所述切分点位对应的视频片段特征，包括：

从所述视频特征中，提取出所述切分点位所表示的起始时间点和截止时间点之间的视频特征，作为所述切分点位对应的视频片段特征。

在一示例性实施例中，所述按照所述目标视频片段特征的第二系数，将所述目标视频片段特征对应的目标视频片段进行拼接处理，得到所述待处理视频的拼接视频，包括：

从所述待处理视频中，提取出所述目标视频片段特征对应的目标视频片段；

按照所述目标视频片段特征的第二系数，将所述目标视频片段特征对应的目标视频片段进行排序，得到排序后的目标视频片段；

将所述排序后的目标视频片段进行拼接处理，得到所述待处理视频的拼接视频。

根据本公开实施例的第二方面，提供一种视频剪辑装置，包括：

片段切分单元，被配置为执行将待处理视频的视频特征输入训练完成的片段切分模型，得到所述待处理视频的切分点位；所述切分点位用于表示对应的视频片段的起始时间点和截止时间点；

特征提取单元，被配置为执行从所述视频特征中提取出所述切分点位对应的视频片段特征；

片段预测单元，被配置为执行通过训练完成的视频片段预测模型，得到所述视频片段特征的第一系数和第二系数；所述第一系数用于表征所述视频片段特征是否保留，所述第二系数用于表征所述视频片段特征对应的视频片段的排列位置；

特征筛选单元，被配置为执行根据所述第一系数，从所述视频片段特征中筛选出目标视频片段特征；

视频拼接单元，被配置为执行按照所述目标视频片段特征的第二系数，将所述目标视频片段特征对应的目标视频片段进行拼接处理，得到所述待处理视频的拼接视频。

在一示例性实施例中，所述视频剪辑装置还包括：模型训练单元，被配置为执行获取样本视频的样本视频特征、实际切分点位和所述实际切分点位对应的视频片段；所述视频片段携带有对应的实际第一系数和实际第二系数；根据所述样本视频特征、所述实际切分点位、所述实际第一系数和所述实际第二系数，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，直到得到的目标损失值小于预设阈值；将所述目标损失值小于所述预设阈值时的片段切分模型和视频片段预测模型，对应作为所述训练完成的片段切分模型和所述训练完成的视频片段预测模型。

在一示例性实施例中，所述模型训练单元，还被配置为执行将所述样本视频特征输入待训练的片段切分模型，得到所述样本视频的预测切分点位；从所述样本视频特征中提取出所述预测切分点位对应的预测片段特征；将所述预测片段特征输入待训练的视频片段预测模型，得到所述预测片段特征的预测第一系数和预测第二系数；根据所述实际切分点位、所述预测切分点位、所述实际第一系数、所述预测第一系数、所述实际第二系数和所述预测第二系数，得到目标损失值；当所述目标损失值大于或者等于所述预设阈值的情况，则根据所述目标损失值对所述待训练的片段切分模型和所述待训练的视频片段预测模型的模型参数进行调整，并对模型参数调整后的片段切分模型和视频片段预测模型进行反复训练，直到得到的所述目标损失值小于所述预设阈值。

在一示例性实施例中，所述模型训练单元，还被配置为执行根据所述实际切分点位和所述预测切分点位，得到第一损失值；根据所述实际第一系数和所述预测第一系数，得到第二损失值；根据所述实际第二系数和所述预测第二系数，得到第三损失值；根据所述第一损失值、所述第二损失值以及所述第三损失值，得到所述目标损失值。

在一示例性实施例中，所述特征筛选单元，还被配置为执行从所述视频片段特征中，筛选出所述第一系数大于预设系数的视频片段特征，作为初始视频片段特征；当所述初始视频片段特征中存在所述第二系数相同的视频片段特征的情况，则从所述第二系数相同的视频片段特征中，选择所述第一系数最大的视频片段特征；根据所述第一系数最大的视频片段特征和所述初始视频片段特征中除所述第二系数相同的视频片段特征之外的视频片段特征，得到所述目标视频片段特征。

在一示例性实施例中，所述特征提取单元，还被配置为执行从所述视频特征中，提取出所述切分点位所表示的起始时间点和截止时间点之间的视频特征，作为所述切分点位对应的视频片段特征。

在一示例性实施例中，所述视频拼接单元，还被配置为执行从所述待处理视频中，提取出所述目标视频片段特征对应的目标视频片段；按照所述目标视频片段特征的第二系数，将所述目标视频片段特征对应的目标视频片段进行排序，得到排序后的目标视频片段；将所述排序后的目标视频片段进行拼接处理，得到所述待处理视频的拼接视频。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的视频剪辑方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面的任一项实施例中所述的视频剪辑方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行第一方面的任一项实施例中所述的视频剪辑方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过将待处理视频的视频特征输入训练完成的片段切分模型，得到待处理视频的切分点位；切分点位用于表示对应的视频片段的起始时间点和截止时间点；接着从视频特征中提取出切分点位对应的视频片段特征，并通过训练完成的视频片段预测模型，得到视频片段特征的第一系数和第二系数；第一系数用于表征视频片段特征是否保留，第二系数用于表征视频片段特征对应的视频片段的排列位置；最后根据第一系数，从视频片段特征中筛选出目标视频片段特征，并按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行拼接处理，得到待处理视频的拼接视频；这样，无论针对哪种类型的视频，都可以利用片段切分模型和视频片段预测模型进行视频拼接处理，无需针对每一种类型的视频，都设计一种视频剪辑规则，从而提高了视频剪辑的通用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频剪辑方法的应用环境图。

图2是根据一示例性实施例示出的一种视频剪辑方法的流程图。

图3是根据一示例性实施例示出的对片段切分模型和视频片段预测模型的训练步骤的流程图。

图4是根据一示例性实施例示出的另一种视频剪辑方法的流程图。

图5是根据一示例性实施例示出的又一种视频剪辑方法的流程图。

图6是根据一示例性实施例示出的一种视频剪辑装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本公开所提供的视频剪辑方法，可以应用于如图1所示的应用环境中。参照图1，该应用环境图包括终端110。终端110是具有视频剪辑功能的电子设备，该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中以终端110是智能手机为例进行说明，终端110将待处理视频的视频特征输入训练完成的片段切分模型，得到待处理视频的切分点位；切分点位用于表示对应的视频片段的起始时间点和截止时间点；从视频特征中提取出切分点位对应的视频片段特征；通过训练完成的视频片段预测模型，得到视频片段特征的第一系数和第二系数；第一系数用于表征视频片段特征是否保留，第二系数用于表征视频片段特征对应的视频片段的排列位置；根据第一系数，从视频片段特征中筛选出目标视频片段特征；按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行拼接处理，得到待处理视频的拼接视频。

图2是根据一示例性实施例示出的一种视频剪辑方法的流程图，如图2所示，视频剪辑方法用于如图1所示的终端中，包括以下步骤：

在步骤S210中，将待处理视频的视频特征输入训练完成的片段切分模型，得到待处理视频的切分点位；切分点位用于表示对应的视频片段的起始时间点和截止时间点。

其中，待处理视频是指需要进行视频剪辑的视频，可以是用户输入的视频，也可以是网络上的视频，还可以是本地存储的视频；在实际场景中，待处理视频可以是电影、某一集电视剧、游戏视频、旅行视频等。

其中，视频特征是指从待处理视频中提取出的特征信息，其大小为M×N，M和视频长度相关，通常和视频时长相等，比如，假设待处理视频为1小时视频，则M＝3600；N为特征维度，通常来说，特征维度为多个。

其中，一个待处理视频有多个切分点位，每一个切分点位用于表示对应的视频片段的起始时间点和截止时间点；需要说明的是，起始时间点和截止时间点，是针对整个待处理视频而言的；比如，切分点位A(10:08，11:08)，表示的是待处理视频中10分08秒到11分08秒之间的视频片段。

其中，片段切分模型是一种用于自动识别出待处理视频的切分点位的模型，比如卷积神经网络模型、TransNetV2模型等；片段切分模型也可以是指通过损失函数进行端到端训练得到的模型。

具体地，终端获取待处理视频的视频特征，并将待处理视频的视频特征输入训练完成的片段切分模型，训练完成的片段切分模型基于待处理视频的视频特征，识别出待处理视频的切分点位，比如C_i＝((p_s1，p_e1)，(p_s2，p_e2)···(p_sn，p_en))，(p_s1，p_e1)表示第一个切分点位，(p_s2，p_e2)表示第二个切分点位，(p_sn，p_en)表示最后一个切分点位。

举例说明，用户在视频拼接页面上选择需要剪辑的视频，并触发视频剪辑操作，通过终端响应用户触发的视频剪辑操作，得到待处理视频，并对待处理视频进行一系列剪辑处理，得到待处理视频的拼接视频。

此外，在将待处理视频的视频特征输入训练完成的片段切分模型之前，还包括：终端获取待处理视频，对待处理视频进行特征提取处理，得到待处理视频的视频特征。例如，终端通过训练完成的特征提取模型，对输入的待处理视频进行特征提取，得到待处理视频的视频特征；其中，特征提取模型可以是I3D模型，C3D模型，ResNet模型，SENet模型等。

在步骤S220中，从视频特征中提取出切分点位对应的视频片段特征。

其中，切分点位对应的视频片段特征，是指根据该切分点位，从待处理视频的视频特征中提取出的对应时间段的视频特征，其大小为(p_ei-p_si)×N；在实际场景中，视频片段特征是指特征切片，即视频片段对应的视频特征。需要说明的是，每个待处理视频有多个视频片段特征。

具体地，终端根据待处理视频的每个切分点位，从待处理视频的视频特征中，提取出每个切分点位所表示的时间段的视频特征，对应作为每个切分点位对应的视频片段特征，从而得到待处理视频的视频片段特征，比如S＝(S₁，S₂···S_n)，S₁表示第一个视频片段特征，S₂表示第二个视频片段特征，S_n表示最后一个视频片段特征。

举例说明，终端根据待处理视频的每个切分点位，对待处理视频的视频特征进行重映射，得到每个切分点位对应的特征切片，作为每个切分点位对应的视频片段特征。

在步骤S230中，通过训练完成的视频片段预测模型，得到视频片段特征的第一系数和第二系数；第一系数用于表征视频片段特征是否保留，第二系数用于表征视频片段特征对应的视频片段的排列位置。

其中，视频片段预测模型是一种用于自动预测出视频片段特征对应的视频片段是否保留，以及预测出该视频片段特征对应的视频片段属于最终的拼接视频中的第几个视频片段的模型，比如Seq2Seq模型，Transformer模型等，视频片段预测模型也可以是指通过损失函数进行端到端训练得到的模型。

其中，第一系数，具体用于表示视频片段特征对应的视频片段是否可以保留；比如，第一系数为1，表示视频片段特征对应的视频片段可以保留；第一系数为0，表示视频片段特征对应的视频片段可以丢弃。

其中，第二系数，具体用于表示视频片段特征对应的视频片段属于最终的拼接视频中的第几个视频片段；比如，第二系数为3，表示视频片段特征对应的视频片段属于最终的拼接视频中的第3个视频片段；第二系数为5，表示视频片段特征对应的视频片段属于最终的拼接视频中的第5个视频片段。

具体地，终端将待处理视频的视频片段特征输入训练完成的视频片段预测模型，通过训练完成的视频片段预测模型，对待处理视频的视频片段进行选择和排序处理，得到每个视频片段特征的第一系数和第二系数。

举例说明，通过训练完成的视频片段预测模型，输出每个视频片段特征的标签信息P_t；其中，P_t＝(y_t，z_t)，y_t表示第t个视频片段特征的第一系数，z_t表示第t个视频片段特征的第二系数。

在步骤S240中，根据第一系数，从视频片段特征中筛选出目标视频片段特征。

其中，目标视频片段特征是指待处理视频的视频片段特征中，需要保留的视频片段特征。

具体地，终端从待处理视频的视频片段特征中，筛选出第一系数大于预设系数的视频片段特征，并将第一系数大于预设系数的视频片段特征，作为目标视频片段特征。

在步骤S250中，按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行拼接处理，得到待处理视频的拼接视频。

具体地，终端从待处理视频中，提取出目标视频片段特征对应的目标视频片段；按照目标视频片段特征的第二系数，依次将目标视频片段特征对应的目标视频片段拼接在一起，得到待处理视频的拼接视频，比如待处理视频的剪辑视频。

上述视频剪辑方法中，通过将待处理视频的视频特征输入训练完成的片段切分模型，得到待处理视频的切分点位；切分点位用于表示对应的视频片段的起始时间点和截止时间点；接着从视频特征中提取出切分点位对应的视频片段特征，并通过训练完成的视频片段预测模型，得到视频片段特征的第一系数和第二系数；第一系数用于表征视频片段特征是否保留，第二系数用于表征视频片段特征对应的视频片段的排列位置；最后根据第一系数，从视频片段特征中筛选出目标视频片段特征，并按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行拼接处理，得到待处理视频的拼接视频；这样，无论针对哪种类型的视频，都可以利用片段切分模型和视频片段预测模型进行视频拼接处理，无需针对每一种类型的视频，都设计一种视频剪辑规则，从而提高了视频剪辑的通用性。

在一示例性实施例中，如图3所示，本公开的视频剪辑方法还包括对片段切分模型和视频片段预测模型的训练步骤，具体可以通过以下步骤实现：

在步骤S310中，获取样本视频的样本视频特征、实际切分点位和实际切分点位对应的视频片段；视频片段携带有对应的实际第一系数和实际第二系数。

其中，样本视频是指人为剪辑后的视频所对应的原始视频；实际切分点位是指人为剪辑的点位，视频片段的实际第一系数，是指人为剪辑时，最终得到的拼接视频中是否使用了该视频片段；视频片段的实际第二系数，是指人为剪辑时，该视频片段属于最终得到的拼接视频中的第几个视频片段。

具体地，终端获取剪辑师的剪辑行为数据，并从剪辑师的剪辑行为数据中，提取出样本视频的样本视频特征、实际切分点位和实际切分点位对应的视频片段，每个视频片段携带有对应的实际第一系数和实际第二系数。

在步骤S320中，根据样本视频特征、实际切分点位、实际第一系数和实际第二系数，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，直到得到的目标损失值小于预设阈值。

其中，目标损失值，用于衡量片段切分模型和视频片段预测模型的预测误差。

具体地，终端根据样本视频特征、实际切分点位、实际第一系数和实际第二系数，结合端到端的训练方式，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练；当根据训练后的片段切分模型和训练后的视频片段预测模型得到的目标损失值小于预设阈值时，则停止对片段切分模型和视频片段预测模型进行训练。

在步骤S330中，将目标损失值小于预设阈值时的片段切分模型和视频片段预测模型，对应作为训练完成的片段切分模型和训练完成的视频片段预测模型。

举例说明，终端将目标损失值小于预设阈值时的片段切分模型，作为训练完成的片段切分模型，以及将目标损失值小于预设阈值时的视频片段预测模型，作为训练完成的视频片段预测模型。

本公开实施例提供的技术方案，通过剪辑师的剪辑行为数据，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，使得后续针对任意类型的视频，都可以使用训练完成的片段切分模型和训练完成的视频片段预测模型进行剪辑处理，无需单独去设计视频剪辑规则，从而使得最终得到的拼接视频的多样性较好，避免了最终得到的拼接视频较为单一的缺陷。

在一示例性实施例中，在步骤S320中，根据样本视频特征、实际切分点位、实际第一系数和实际第二系数，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，直到得到的目标损失值小于预设阈值，包括：将样本视频特征输入待训练的片段切分模型，得到样本视频的预测切分点位；从样本视频特征中提取出预测切分点位对应的预测片段特征；将预测片段特征输入待训练的视频片段预测模型，得到预测片段特征的预测第一系数和预测第二系数；根据实际切分点位、预测切分点位、实际第一系数、预测第一系数、实际第二系数和预测第二系数，得到目标损失值；当目标损失值大于或者等于预设阈值的情况，则根据目标损失值对待训练的片段切分模型和待训练的视频片段预测模型的模型参数进行调整，并对模型参数调整后的片段切分模型和视频片段预测模型进行反复训练，直到得到的目标损失值小于预设阈值。

具体地，终端将样本视频的样本视频特征输入待训练的片段切分模型，通过待训练的片段切分模型基于样本视频的样本视频特征，识别出样本视频的切分点位，作为样本视频的预测切分点位；从样本视频特征中，提取出预测切分点位所表示的时间段的视频特征，作为该预测切分点位对应的预测片段特征；将预测片段特征输入待训练的视频片段预测模型，通过待训练的视频片段预测模型，对预测片段特征进行选择和排序处理，得到每个预测片段特征的预测第一系数和预测第二系数；将实际切分点位、预测切分点位、实际第一系数、预测第一系数、实际第二系数和预测第二系数，输入到损失函数中，得到目标损失值；当目标损失值大于或者等于预设阈值的情况，则根据目标损失值对待训练的片段切分模型和待训练的视频片段预测模型的模型参数进行调整，得到模型参数调整后的片段切分模型和视频片段预测模型，并对模型参数调整后的片段切分模型和视频片段预测模型进行反复训练，直到根据训练后的片段切分模型和训练后的视频片段预测模型得到的目标损失值小于预设阈值，则将训练后的片段切分模型作为训练完成的片段切分模型，以及将训练后的视频片段预测模型，作为训练完成的视频片段预测模型。

本公开实施例提供的技术方案，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，使得后续针对任意类型的视频，都可以使用训练完成的片段切分模型和训练完成的视频片段预测模型进行剪辑处理，无需单独去设计视频剪辑规则，从而可以覆盖更多的场景，进而提高了视频剪辑的通用性。

在一示例性实施例中，根据实际切分点位、预测切分点位、实际第一系数、预测第一系数、实际第二系数和预测第二系数，得到目标损失值，包括：根据实际切分点位和预测切分点位，得到第一损失值；根据实际第一系数和预测第一系数，得到第二损失值；根据实际第二系数和预测第二系数，得到第三损失值；根据第一损失值、第二损失值以及第三损失值，得到目标损失值。

具体地，终端根据多个实际切分点位以及对应的预测切分点位，结合第一损失函数，得到第一损失值；根据多个实际第一系数以及对应的预测第一系数，结合第二损失函数，得到第二损失值；根据多个实际第二系数以及对应的预测第二系数，结合第三损失函数，得到第三损失值；将第一损失值、第二损失值以及第三损失值进行相加，得到目标损失值。

举例说明，目标损失值可以通过下述公式得到：

loss＝∑||C_i-C’_i||₂+∑[CE(y_t，y’_t)+||z_t-z’_t||₂]；

其中，loss表示目标损失值，C_i表示预测切分点位，C’_i表示实际切分点位，||C_i-C’_i||₂表示C_i与C’_i之间的L2范数，y_t表示预测第一系数，y’_t表示实际第一系数，CE(y_t，y’_t)表示y_t与y’_t之间的交叉熵损失，z_t表示预测第二系数，z’_t表示实际第二系数，||z_t-z’_t||₂表示z_t与z’_t之间的L2范数。

本公开实施例提供的技术方案，在统计目标损失值时，综合考虑实际切分点位、预测切分点位、实际第一系数、预测第一系数、实际第二系数和预测第二系数，有利于提高通过训练完成的片段切分模型输出的切分点位的准确率，以及通过训练完成的视频片段预测模型输出的第一系数和第二系数的准确率。

在一示例性实施例中，在步骤S240中，根据第一系数，从视频片段特征中筛选出目标视频片段特征，包括：从视频片段特征中，筛选出第一系数大于预设系数的视频片段特征，作为初始视频片段特征；当初始视频片段特征中存在第二系数相同的视频片段特征的情况，则从第二系数相同的视频片段特征中，选择第一系数最大的视频片段特征；根据第一系数最大的视频片段特征和初始视频片段特征中除第二系数相同的视频片段特征之外的视频片段特征，得到目标视频片段特征。

具体地，在初始视频片段特征中存在第二系数相同的视频片段特征的情况下，终端从第二系数相同的视频片段特征中，选择第一系数最大的视频片段特征；将第一系数最大的视频片段特征和初始视频片段特征中除第二系数相同的视频片段特征之外的视频片段特征，均作为目标视频片段特征。

举例说明，假设待处理视频的视频片段特征包括视频片段特征A、视频片段特征B、视频片段特征C、视频片段特征D、视频片段特征E、视频片段特征F，对应的第一系数分别为0.8、0.9、0.8、0.7、0.4、0.3，而预设系数为0.6，说明第一系数大于预设系数的视频片段特征包括视频片段特征A、视频片段特征B、视频片段特征C、视频片段特征D，对应的第二系数为3、2、1、2，视频片段特征B和视频片段特征D的第二系数相同，且视频片段特征B的第一系数大于视频片段特征D的第一系数，所以选择视频片段特征B，说明最终得到的目标视频片段特征包括视频片段特征A、视频片段特征B、视频片段特征C。

本公开实施例提供的技术方案，综合考虑第一系数和第二系数，有利于准确从待处理视频的视频片段特征中筛选出目标视频片段特征，从而提高了目标视频片段特征的确定准确率。

在一示例性实施例中，在步骤S220中，从视频特征中提取出切分点位对应的视频片段特征，包括：从视频特征中，提取出切分点位所表示的起始时间点和截止时间点之间的视频特征，作为切分点位对应的视频片段特征。

举例说明，终端根据待处理视频的每个切分点位，从待处理视频的视频特征中，提取出每个切分点位所表示的起始时间点和截止时间点之间的时间段的视频特征，对应作为每个切分点位对应的视频片段特征。

本公开实施例提供的技术方案，通过从视频特征中提取出切分点位对应的视频片段特征，有利于后续通过训练完成的视频片段预测模型，得到每个视频片段特征的第一系数和第二系数，便于后续根据第一系数和第二系数，从视频片段特征中确定出目标视频片段特征。

在一示例性实施例中，在步骤S250中，按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行拼接处理，得到待处理视频的拼接视频，包括：从待处理视频中，提取出目标视频片段特征对应的目标视频片段；按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行排序，得到排序后的目标视频片段；将排序后的目标视频片段进行拼接处理，得到待处理视频的拼接视频。

举例说明，终端从待处理视频中，提取出视频特征与目标视频片段特征匹配的视频片段，作为目标视频片段特征对应的目标视频片段；按照目标视频片段特征的第二系数从小到大的顺序，将目标视频片段特征对应的目标视频片段进行排序，得到排序后的目标视频片段，并将排序后的目标视频片段依次拼接在一起，得到待处理视频的拼接视频。

本公开实施例提供的技术方案，按照筛选出的目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段拼接在一起，有利于提高得到的拼接视频的准确度。

图4是根据一示例性实施例示出的另一种视频剪辑方法的流程图，如图2所示，视频剪辑方法用于如图1所示的终端中，包括以下步骤：

在步骤S410中，对待处理视频进行特征提取处理，得到待处理视频的视频特征。

在步骤S420中，将待处理视频的视频特征输入训练完成的片段切分模型，得到待处理视频的切分点位；切分点位用于表示对应的视频片段的起始时间点和截止时间点。

在步骤S430中，从视频特征中，提取出切分点位所表示的起始时间点和截止时间点之间的视频特征，作为切分点位对应的视频片段特征。

在步骤S440中，通过训练完成的视频片段预测模型，得到视频片段特征的第一系数和第二系数；第一系数用于表征视频片段特征是否保留，第二系数用于表征视频片段特征对应的视频片段的排列位置。

在步骤S450中，从视频片段特征中，筛选出第一系数大于预设系数的视频片段特征，作为初始视频片段特征；当初始视频片段特征中存在第二系数相同的视频片段特征的情况，则从第二系数相同的视频片段特征中，选择第一系数最大的视频片段特征；根据第一系数最大的视频片段特征和初始视频片段特征中除第二系数相同的视频片段特征之外的视频片段特征，得到目标视频片段特征。

在步骤S460中，从待处理视频中，提取出目标视频片段特征对应的目标视频片段；按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行排序，得到排序后的目标视频片段。

在步骤S470中，将排序后的目标视频片段进行拼接处理，得到待处理视频的拼接视频。

上述视频剪辑方法，无论针对哪种类型的视频，都可以利用片段切分模型和视频片段预测模型进行视频拼接处理，无需针对每一种类型的视频，都设计一种视频剪辑规则，从而提高了视频剪辑的通用性。

为了更清晰阐明本公开实施例提供的视频剪辑方法，以下以一个具体的实施例对该视频剪辑方法进行具体说明。在一个实施例中，如图5所示，本公开还提供了又一种视频剪辑方法，具体包括以下内容：

(1)特征提取模块

对输入的视频进行特征提取，特征提取方式可以使用ResNet，I3D，C3D模型等；对于视频Vi，提取的特征Fi，其大小为M×N，M和视频长度相关，通常和视频时长相等。N为特征维度；特征Fi将被送入下一个模块：片段切分模块。

(2)片段切分模块

对提取的特征Fi送入片段切分模块，识别出视频的切分点位。对于Fi，其切分点位Ci＝((Ps1,Pe1),(Ps2,Pe2),…(Psn,Pen))，每一个切分点位(Psi,Pei)表示视频片段的起始和截止时间点；一个视频有多对切分点，n表示切片个数；片段切分模块采用卷积神经网络实现，并通过模型端到端训练学习得到。根据视频切分的结果，可以对特征Fi进行重映射，得到特征切片，记为S＝(S1,S2,…St,Sn)，t表示第t个特征切片；S将被送入下一个模块：视频片段选择&排序模块。

(3)视频片段选择&排序模块

对于特征切片序列S＝(S1,S2,…St,Sn)中的每一个切片St，模型将预测出该切片是否保留，同时还预测切片为最终视频序列的第几个片段，用符号表示为Pt＝(yt,zt)；视频片段选择&排序模块采用Seq2Seq模型实现，并通过模型端到端训练学习得到。

最终合成视频时，选取yt大于某一个阈值的所有片段，并按zt进行排序，然后根据顺序拼接得到(当存在一样的zt时，选择yt更大的片段即可)最终视频。

需要说明的是，在图5中，feature是指从视频中提取出的特征，feature slices是指特征切片；Keep/Drop表示视频片段是保留还是丢弃，用1/0表示，也可以用yt表示；Pos表示预测的位置，即片段属于第几个位置，也可以用zt表示。

上述视频剪辑方法，整个过程采用纯数据驱动方法，没有设计任何人工先验规则，可以达到以下技术效果：(1)对于任意视频，都可以适用一个模型，不用单独去设计，从而提高了视频拼接的通用性；(2)由于采用学习剪辑师的剪辑行为，而非设计特定规则，使得最终生成视频的多样性较好。

应该理解的是，虽然图2-图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图6是根据一示例性实施例示出的一种视频剪辑装置的框图。参照图6，该装置包括片段切分单元610，特征提取单元620，片段预测单元630，特征筛选单元640和视频拼接单元650。

片段切分单元610，被配置为执行将待处理视频的视频特征输入训练完成的片段切分模型，得到待处理视频的切分点位；切分点位用于表示对应的视频片段的起始时间点和截止时间点。

特征提取单元620，被配置为执行从视频特征中提取出切分点位对应的视频片段特征。

片段预测单元630，被配置为执行通过训练完成的视频片段预测模型，得到视频片段特征的第一系数和第二系数；第一系数用于表征视频片段特征是否保留，第二系数用于表征视频片段特征对应的视频片段的排列位置。

特征筛选单元640，被配置为执行根据第一系数，从视频片段特征中筛选出目标视频片段特征。

视频拼接单元650，被配置为执行按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行拼接处理，得到待处理视频的拼接视频。

在一示例性实施例中，视频剪辑装置还包括：模型训练单元，被配置为执行获取样本视频的样本视频特征、实际切分点位和实际切分点位对应的视频片段；视频片段携带有对应的实际第一系数和实际第二系数；根据样本视频特征、实际切分点位、实际第一系数和实际第二系数，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，直到得到的目标损失值小于预设阈值；将目标损失值小于预设阈值时的片段切分模型和视频片段预测模型，对应作为训练完成的片段切分模型和训练完成的视频片段预测模型。

在一示例性实施例中，模型训练单元，还被配置为执行将样本视频特征输入待训练的片段切分模型，得到样本视频的预测切分点位；从样本视频特征中提取出预测切分点位对应的预测片段特征；将预测片段特征输入待训练的视频片段预测模型，得到预测片段特征的预测第一系数和预测第二系数；根据实际切分点位、预测切分点位、实际第一系数、预测第一系数、实际第二系数和预测第二系数，得到目标损失值；当目标损失值大于或者等于预设阈值的情况，则根据目标损失值对待训练的片段切分模型和待训练的视频片段预测模型的模型参数进行调整，并对模型参数调整后的片段切分模型和视频片段预测模型进行反复训练，直到得到的目标损失值小于预设阈值。

在一示例性实施例中，模型训练单元，还被配置为执行根据实际切分点位和预测切分点位，得到第一损失值；根据实际第一系数和预测第一系数，得到第二损失值；根据实际第二系数和预测第二系数，得到第三损失值；根据第一损失值、第二损失值以及第三损失值，得到目标损失值。

在一示例性实施例中，特征筛选单元640，还被配置为执行从视频片段特征中，筛选出第一系数大于预设系数的视频片段特征，作为初始视频片段特征；当初始视频片段特征中存在第二系数相同的视频片段特征的情况，则从第二系数相同的视频片段特征中，选择第一系数最大的视频片段特征；根据第一系数最大的视频片段特征和初始视频片段特征中除第二系数相同的视频片段特征之外的视频片段特征，得到目标视频片段特征。

在一示例性实施例中，特征提取单元620，还被配置为执行从视频特征中，提取出切分点位所表示的起始时间点和截止时间点之间的视频特征，作为切分点位对应的视频片段特征。

在一示例性实施例中，视频拼接单元650，还被配置为执行从待处理视频中，提取出目标视频片段特征对应的目标视频片段；按照目标视频片段特征的第二系数，将目标视频片段特征对应的目标视频片段进行排序，得到排序后的目标视频片段；将排序后的目标视频片段进行拼接处理，得到待处理视频的拼接视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行上述视频剪辑方法的电子设备700的框图。例如，电子设备700可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702、存储器704、电源组件706、多媒体组件708、音频组件710、输入/输出(I/O)的接口712、传感器组件714以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700组件的位置改变，用户与电子设备700接触的存在或不存在，设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备700的处理器720执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频剪辑方法，其特征在于，包括：

2.根据权利要求1所述的视频剪辑方法，其特征在于，所述训练完成的片段切分模型和所述训练完成的视频片段预测模型通过下述方式训练得到：

3.根据权利要求2所述的视频剪辑方法，其特征在于，所述根据所述样本视频特征、所述实际切分点位、所述实际第一系数和所述实际第二系数，对待训练的片段切分模型和待训练的视频片段预测模型进行联合训练，直到得到的目标损失值小于预设阈值，包括：

4.根据权利要求3所述的视频剪辑方法，其特征在于，所述根据所述实际切分点位、所述预测切分点位、所述实际第一系数、所述预测第一系数、所述实际第二系数和所述预测第二系数，得到目标损失值，包括：

5.根据权利要求1所述的视频剪辑方法，其特征在于，所述根据所述第一系数，从所述视频片段特征中筛选出目标视频片段特征，包括：

6.根据权利要求1所述的视频剪辑方法，其特征在于，所述从所述视频特征中提取出所述切分点位对应的视频片段特征，包括：

7.一种视频剪辑装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频剪辑方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的视频剪辑方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6任一项所述的视频剪辑方法。