CN111131884B

CN111131884B - 一种视频剪辑的方法、相关装置、设备以及存储介质

Info

Publication number: CN111131884B
Application number: CN202010060005.9A
Authority: CN
Inventors: 梁涛; 张晗; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2021-11-23
Anticipated expiration: 2040-01-19
Also published as: CN111131884A

Abstract

本申请公开了一种视频剪辑的方法、装置、设备以及存储介质，将视频字幕信息和视频内容信息共同作为视频剪辑的参考依据，实现了信息互补，从而提升视频剪辑的准确度。本申请方法包括：获取待剪辑视频以及待剪辑视频所对应的视频字幕信息，根据视频字幕信息，从待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，第一含字幕片段与第一无字幕片段为相邻两个片段，获取第一含字幕片段的第一对象帧，其中，第一对象帧为与第一无字幕片段相邻的一个视频帧，若第一无字幕片段中包含至少一个对象帧，则根据第一对象帧以及第一无字幕片段中的至少一个对象帧，生成至少一个目标剪辑片段。

Description

一种视频剪辑的方法、相关装置、设备以及存储介质

技术领域

本申请涉及计算机处理领域，尤其涉及一种视频剪辑的方法、相关装置、设备以及存储介质。

背景技术

随着用户需求与媒体技术的发展，视频的数量也呈指数级的爆炸增长，对视频进行剪辑也成为人们关注的视频处理方式。视频剪辑技术是一种将待剪辑对象通过剪辑的方式合成一段剪辑视频的视频处理方式，常应用于短视频制作、视频集锦等视频剪辑场景。

目前，视频剪辑方法多为均时剪辑，即对视频进行等时间段的自动剪辑，比如，一个60秒的视频，按照每10秒进行一次自动剪辑，可以得到6段剪辑后的视频片段。

然而，均时剪辑之后得到的视频片段可能会出现视频场景不完整的情况，导致剪辑后的视频片段出现信息缺失，并且不利于视频剪辑的准确度。

发明内容

本申请实施例提供了一种视频剪辑的方法、相关装置、设备以及存储介质，将视频字幕信息和视频内容信息共同作为视频剪辑的参考依据，实现了信息互补，使得剪辑后的片段不会出现信息缺失，从而提升视频剪辑的准确度。

有鉴于此，本申请第一方面提供一种视频剪辑的方法，包括：

获取待剪辑视频以及待剪辑视频所对应的视频字幕信息；

根据视频字幕信息，从待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，第一含字幕片段与第一无字幕片段为相邻两个片段；

获取第一含字幕片段的第一对象帧，其中，第一对象帧为与第一无字幕片段相邻的一个视频帧；

若第一无字幕片段中包含至少一个对象帧，则根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，其中，目标剪辑片段集合包括至少一个目标剪辑片段。

本申请第二方面提供了一种视频剪辑装置，包括：

获取模块，用于获取待剪辑视频以及待剪辑视频所对应的视频字幕信息；

获取模块，还用于根据获取模块获取的视频字幕信息，从待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，第一含字幕片段与第一无字幕片段为相邻两个片段；

获取模块，还用于获取第一含字幕片段的第一对象帧，其中，第一对象帧为与第一无字幕片段相邻的一个视频帧；

生成模块，用于在第一无字幕片段中包含至少一个对象帧的情况下，根据获取模块获取的第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，其中，目标剪辑片段集合包括至少一个目标剪辑片段。

在一种可能的设计中，在本申请实施例的第二方面的第一种实现方式中，

获取模块，还用于从视频字幕信息中获取目标字幕信息，其中，目标字幕信息为视频字幕信息中的第一个字幕信息，且目标字幕信息对应于目标时间戳；

视频剪辑装置还包括：确定模块，用于根据获取模块获取的目标字幕信息所对应的目标时间戳，从待剪辑视频中确定目标时间戳所对应的目标视频帧；

视频剪辑装置还包括：对齐模块，用于对确定模块确定的目标视频帧与目标字幕信息进行对齐处理。

在一种可能的设计中，在本申请实施例的第二方面的第二种实现方式中，

获取模块，还用于在第一无字幕片段中未包含对象帧的情况下，获取第一无字幕片段的片段时长；

视频剪辑装置还包括：确定模块，用于在片段时长大于或等于片段时长阈值的情况下，将获取模块获取的第一无字幕片段作为目标剪辑片段；

视频剪辑装置还包括：合并模块，用于在片段时长小于片段时长阈值的情况下，将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。

在一种可能的设计中，在本申请实施例的第二方面的第三种实现方式中，第一无字幕片段中包括一个对象帧；生成模块，具体用于：

根据第一对象帧以及第一无字幕片段中的一个对象帧，确定目标相似度；

若目标相似度大于或等于相似度阈值，则将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段；

若目标相似度小于相似度阈值，则将第一含字幕片段作为第一目标剪辑片段，并将第一无字幕片段作为第二目标剪辑片段，其中，第一目标剪辑片段与第二目标剪辑片段均属于目标剪辑片段集合。

在一种可能的设计中，在本申请实施例的第二方面的第四种实现方式中，

获取模块，还用于根据视频字幕信息，从待剪辑视频中获取第二含字幕片段，其中，第二含字幕片段与第一无字幕片段为相邻两个片段，第二含字幕片段与第一含字幕片段为不同的含字幕片段；

获取模块，还用于获取第二含字幕片段的第二对象帧，其中，第二对象帧为与第一无字幕片段相邻的一个视频帧；

生成模块，具体用于：

根据第一含字幕片段中的第一对象帧、第二含字幕片段中的第二对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合。

在一种可能的设计中，在本申请实施例的第二方面的第五种实现方式中，第一无字幕片段中包括一个对象帧；生成模块，具体用于：

根据第一对象帧以及第一无字幕片段中的一个对象帧，确定第一相似度；

根据第二对象帧以及第一无字幕片段中的一个对象帧，确定第二相似度；

若第一相似度大于第二相似度，则将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段；

若第二相似度大于第一相似度，则将第二含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。

在一种可能的设计中，在本申请实施例的第二方面的第六种实现方式中，第一无字幕片段中包括一个对象帧；生成模块，具体用于：

若第一相似度与第二相似度均小于相似度阈值，则将第一含字幕片段作为第一目标剪辑片段，将第一无字幕片段作为第二目标剪辑片段，并将第二含字幕片段作为第三目标剪辑片段，其中，第一目标剪辑片段、第二目标剪辑片段以及第三目标剪辑片段均属于目标剪辑片段集合。

在一种可能的设计中，在本申请实施例的第二方面的第七种实现方式中，第一无字幕片段中包括一个对象帧；生成模块，具体用于：

若第一相似度与第二相似度均小于相似度阈值，则将第一含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段；

或者，

若第一相似度与第二相似度均小于相似度阈值，则将第二含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段。

在一种可能的设计中，在本申请实施例的第二方面的第八种实现方式中，第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，第三对象帧为与第一对象帧相邻的对象帧，第四对象帧为与第二对象帧相邻的对象帧；

生成模块，具体用于：

根据第一对象帧以及第一无字幕片段中的第三对象帧，确定第三相似度；

根据第二对象帧以及第一无字幕片段中的第四对象帧，确定第四相似度；

若第三相似度大于第四相似度，则将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段；

若第三相似度大于第四相似度，则将第二含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。

在一种可能的设计中，在本申请实施例的第二方面的第九种实现方式中，第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，第三对象帧为与第一对象帧相邻的对象帧，第四对象帧为与第二对象帧相邻的对象帧；

生成模块，具体用于：

根据第一含字幕片段中的第一对象帧、第二含字幕片段中的第二对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，包括：

若第三相似度与第四相似度均小于相似度阈值，则将第一含字幕片段作为第一目标剪辑片段，将第一无字幕片段作为第二目标剪辑片段，并将第二含字幕片段作为第三目标剪辑片段，其中，第一目标剪辑片段、第二目标剪辑片段以及第三目标剪辑片段均属于目标剪辑片段集合。

在一种可能的设计中，在本申请实施例的第二方面的第十种实现方式中，第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，第三对象帧为与第一对象帧相邻的对象帧，第四对象帧为与第二对象帧相邻的对象帧；

生成模块，具体用于：

若第三相似度与第四相似度均小于相似度阈值，则将第一含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段；

或者，

若第三相似度与第四相似度均小于相似度阈值，则将第二含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段。

在一种可能的设计中，在本申请实施例的第二方面的第十一种实现方式中，

获取模块，还用于根据视频字幕信息，从待剪辑视频中获取第二无字幕片段，其中，第二无字幕片段与第一含字幕片段为相邻两个片段，第二无字幕片段与第一无字幕片段为不同的无字幕片段；

获取模块，还用于获取第二无字幕片段的目标对象帧，其中，目标对象帧为与第一含字幕片段相邻的一个对象帧；

生成模块，具体用于根据第一含字幕片段中的第一对象帧、第一无字幕片段中的至少一个对象帧以及第二无字幕片段中的目标对象帧，生成目标剪辑片段集合。

本申请第三方面提供了一种电子设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括如下步骤：

获取待剪辑视频以及待剪辑视频所对应的视频字幕信息；

若第一无字幕片段中包含至少一个对象帧，则根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，其中，目标剪辑片段集合包括至少一个目标剪辑片段；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频剪辑的方法，获取待剪辑视频以及待剪辑视频所对应的视频字幕信息，然后根据视频字幕信息，从待剪辑视频中获取第一含字幕片段以及第一无字幕片段，再获取第一含字幕片段的第一对象帧，若第一无字幕片段中包含至少一个对象帧，则根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成至少一个目标剪辑片段。通过上述方式，先对视频进行粗剪辑，得到第一无字幕片段和含字幕片段，再对含字幕片段和无字幕片段进行精剪辑，即提取含字幕片段和无字幕片段中的对象帧，基于对象帧生成目标剪辑片段，将视频字幕信息和视频内容信息共同作为视频剪辑的参考依据，实现了信息互补，使得剪辑后的片段不会出现信息缺失，从而提升视频剪辑的准确度。

附图说明

图1为本申请实施例中视频剪辑系统的一个架构示意图；

图2为本申请实施例中视频剪辑的方法的一个实施例示意图；

图3为本申请实施例中视频剪辑的方法的另一个实施例示意图；

图4为本申请实施例中视频剪辑的方法中对字幕信息进行对齐的一个实施例示意图；

图5为本申请实施例中视频剪辑的方法中生成目标剪辑片段的一个实施例示意图；

图6为本申请实施例中视频剪辑的方法中对字幕信息对齐的一个实施例示意图；

图7为本申请实施例中视频剪辑的方法中对字幕信息对齐的的另一个实施例示意图；

图8为本申请实施例中视频剪辑装置的一个实施例示意图；

图9为本申请实施例中视频剪辑装置的另一个实施例示意图；

图10为本申请实施例中电子设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请可以应用于各种存在视频剪辑的应用场景中，作为示例，例如在新闻类客户端中，新闻类客户端经常会在播放长视频的同时，也会提取并播放长视频中的精彩片段，以吸引用户的注意力，从而会需要对长视频进行剪辑，从而将长视频中的精彩片段提取出来；作为另一示例，例如在具有视频上传功能的应用中，可以提供用户个性化编辑的功能，也即用户可以在录制长视频之后，对长视频进行剪辑成若干个片段，从而对喜欢的片段做进一步编辑或直接上传喜欢的片段；作为再一示例，例如在视频播放类客户端中，存在视频个性化推荐的功能，也即在向用户推荐长视频时，会针对不同用户推荐长视频中的不同片段，因此也需要对长视频进行剪辑；应当理解，此处举例仅为方便理解本方案，不对本申请的所有应用场景进行穷举。

为了在上述各种场景中，得到准确度较高的视频剪辑片段，本申请提出了一种视频剪辑的方法，该方法应用于图1所示的视频剪辑系统，请参阅图1，图1为本申请实施例中视频剪辑系统的一个架构示意图，如图所示，视频剪辑系统中包括服务器和终端设备。前述视频剪辑的方法的执行主体(也即视频剪辑装置)可以部署于服务器，也可以部署于计算能力较强的终端设备。

具体的，视频剪辑装置可以在获取到待剪辑视频之后，获取与之对应的视频字幕信息，根据视频字幕信息，从待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，第一含字幕片段与第一无字幕片段为相邻两个片段；获取第一含字幕片段的第一对象帧，其中，第一对象帧为与第一无字幕片段相邻的一个视频帧；若第一无字幕片段中包含至少一个对象帧，则根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，也就是将视频字幕信息和视频内容信息共同作为视频剪辑的参考依据，实现了信息互补，从而提升视频剪辑的准确度。

更具体的，视频剪辑装置可以具体表现为部署于终端设备上的客户端，例如上述对本申请的应用场景进行举例时所示出的所有客户端，则服务器可以通过无线网络将视频剪辑装置发送至终端设备上。视频剪辑装置也可以具体表现为专门用于进行视频剪辑的终端设备，则服务器也可以在生成视频剪辑装置之后，通过有线网络或移动存储介质等方式将视频剪辑装置配置于终端设备上。视频剪辑装置还可以为部署于服务器上，则终端设备在获取到待剪辑视频之后，将待剪辑视频发送给服务器，由服务器执行视频剪辑操作之后，再发送给终端设备等，本申请以视频剪辑装置部署于终端设备为例进行说明，但这不应理解为对本申请的限定。进一步地，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于蓝牙、局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。

其中，如图1所示，前述终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。在部分实现方式中，客户端可以表现为网页客户端，也可以表现为应用程序类客户端，部署于前述终端设备上。图1中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。

虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

结合上述介绍，下面将对本申请中视频剪辑的方法进行介绍，请参阅图2，本申请实施例中视频剪辑的方法一个实施例包括：

101、视频剪辑装置获取待剪辑视频以及待剪辑视频所对应的视频字幕信息；

本实施例中，视频剪辑装置获取待剪辑视频以及与待剪辑视频对应的视频字幕信息。其中，视频字幕信息包括待剪辑视频中的所有字幕信息，还可以包括字幕信息在待剪辑视频中的出现时间，进一步地，本申请实施例中所指的一个字幕信息是指出现于一个视频帧中一个完整的字幕信息，出现时间具体可以表现为时间戳，也可以表现为更粗粒度的时、分和秒等时间单位，作为示例，例如1567181148、1567198134、01:14:52或其他形式等，前述举例中前两个为时间戳的举例，最后一个为时、分和秒的举例。

具体的，视频剪辑装置可以通过摄像机直接拍摄得到待剪辑视频，作为示例，例如用户可以通过具有视频上传功能的客户端，打开本地摄像机，从而直接拍摄待剪辑视频；也可以为从本地的内部存储设备存储的媒体文件中获取待剪辑视频，作为示例，例如从相册中选取待剪辑视频；还可以为从云端下载待剪辑视频；还可以为从本地的外部存储设备存储的媒体文件中获取待剪辑视频，作为示例，例如视频剪辑装置通过有线网络从硬盘中存储的视频文件中获取待剪辑视频等等，此处不做限定。

102、视频剪辑装置根据视频字幕信息，从待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，第一含字幕片段与第一无字幕片段为相邻两个片段；

本实施例中，视频剪辑装置在获取到视频字幕信息之后，可以根据视频字幕信息对待剪辑视频进行切分，以将待剪辑视频切分为至少一个无字幕片段和至少一个含字幕片段，并从前述至少一个无字幕片段和至少一个含字幕片段中获取第一含字幕片段以及第一无字幕片段，其中，第一含字幕片段为至少一个含字幕片段中一个含字幕片段，第一无字幕片段为至少一个无字幕片段中一个无字幕片段，第一含字幕片段可以为第一无字幕片段之前的视频片段，第一含字幕片段也可以为第一无字幕片段之后的视频片段。

具体的，一般情况下每个视频片段中的对话是较连续的，同一视频片段中的字幕信息与字幕信息之间的时间间隔较短，而不同视频片段中由于会出现场景过渡现象，所以字幕信息与字幕信息之间的时间间隔较长。视频剪辑装置可以预先设置有目标时间间隔，视频字幕信息中包括多个字幕信息，针对多个字幕信息中一对相邻字幕信息，根据视频字幕信息获取第一字幕信息和第二字幕信息之间的间隔时长，前述一对相邻字幕信息包括第一字幕信息和第二字幕信息。基于第一字幕信息和第二字幕信息之间的间隔时长判断是否小于目标时间间隔，若第一字幕信息和第二字幕信息之间的间隔时长小于目标时间间隔，则认为第一字幕信息和第二字幕信息是同一字幕片段中的字幕信息，若第一字幕信息和第二字幕信息之间的间隔时长大于或等于目标时间间隔，则认为第一字幕信息和第二字幕信息是不同字幕片段中的字幕信息，从而将第一字幕信息所在视频帧和第二字幕信息所在视频帧均确定为切分帧，视频剪辑装置对视频字幕信息中的每对相邻字幕信息均执行前述操作，从而可以根据视频字幕信息中的所有字幕信息确定出所有切分帧，进而基于所有切分帧对待剪辑视频进行切分，从而得到至少一个无字幕片段和至少一个含字幕片段。

若视频字幕信息中的所有字幕信息之间的时间间隔均小于目标时间间隔，则视频剪辑装置可以从视频字幕信息中获取第一个字幕信息，从待剪辑视频中获取第一个字幕信息所在的视频帧，并将其确定为切分帧，从而将待剪辑视频切分为一个无字幕片段和一个含字幕片段。或者，可以从视频字幕信息中获取最后一个字幕信息，从待剪辑视频中获取最后一个字幕信息所在的视频帧，并将其确定为切分帧，从而将待剪辑视频切分为一个无字幕片段和一个含字幕片段。进而视频剪辑装置从得到的至少一个无字幕片段和至少一个含字幕片段中获取第一含字幕片段和第一无字幕片段。

103、视频剪辑装置获取第一含字幕片段的第一对象帧，其中，第一对象帧为与第一无字幕片段相邻的一个视频帧；

本实施例中，视频剪辑装置在获取到第一含字幕片段以及第一无字幕片段之后，会从第一含字幕片段中获取第一对象帧。其中，第一对象帧为与第一无字幕片段相邻的一个视频帧，若第一含字幕片段为第一无字幕片段之前的视频片段，则第一对象帧具体可以为第一无字幕片段之前的一个视频帧，若第一含字幕片段为第一无字幕片段之后的视频片段，则第一对象帧具体可以为第一无字幕片段之后的一个视频帧。

104、若第一无字幕片段中包含至少一个对象帧，则视频剪辑装置根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，其中，目标剪辑片段集合包括至少一个目标剪辑片段。

本实施例中，视频剪辑装置在获取到第一无字幕片段之后，可以对第一无字幕片段进行对象帧提取操作，判断第一无字幕片段中是否包括对象帧，其中，视频片段中可以包括多个视频帧，前述多个视频帧中包括对象帧，本申请实施例中的对象帧也可以称为关键帧(key frame)，对象帧指的是这一帧画面的完整保留，在解码时可以仅利用本帧数据就可以完成，它描述了图像背景和运动主体的详情。若第一无字幕片段中包括至少一个对象帧，则可以根据第一对象帧以及第一无字幕片段中的至少一个对象帧，来确定是否对第一含字幕片段和第一无字幕片段进行合并处理，也即确定是将第一含字幕片段和第一无字幕片段合并为一个目标剪辑片段，还是将第一含字幕片段和第一无字幕片段分别确定为两个独立的目标剪辑片段。具体的，视频剪辑装置可以将第一无字幕片段中的至少一个对象帧与第一含字幕片段中的第一对象帧进行比较，以确定第一无字幕片段与第一含字幕片段之间的相似度，进而确定是否对第一含字幕片段和第一无字幕片段进行合并处理。若第一无字幕片段中未包含对象帧，则可以将第一含字幕片段与第一无字幕片段进行合并处理，也可以将第一无字幕片段作为独立的目标剪辑片段，也可以获取第一无字幕片段的片段时长，进而根据第一无字幕片段的片段时长确定是否将第一含字幕片段与第一无字幕片段进行合并处理等，具体此处不做限定。针对至少一个无字幕片段和至少一个含字幕片段中包括的每组相邻的无字幕片段和含字幕片段均执行上述操作，进而生成目标剪辑片段集合。

为进一步理解本方案，请参阅图3，图3为本申请实施例中视频剪辑的方法的一个实施例示意图，其中，在获取到待剪辑视频之后，可以先获取到与待剪辑视频对应的视频字幕信息，利用视频字幕信息中的多个字幕信息对待剪辑视频进行粗剪辑，得到至少一个无字幕片段和至少一个含字幕片段，进而可以获取第一含字幕片段的第一对象帧，并对第一无字幕片段进行对象帧提取操作，其中，第一对象帧为与第一无字幕片段相邻的一个视频帧，根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，确定是否将第一含字幕片段和第一无字幕片段进行合并处理，对至少一个无字幕片段和至少一个含字幕片段中包括的每组相邻的无字幕片段和含字幕片段均执行上述操作，从而生成待剪辑视频所对应的目标剪辑片段集合，图3中以示出目标剪辑片段集合中的3个目标剪辑片段为例，应理解，图3中的示例仅为方便理解本方案，不用于限定本方案。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例提供的视频剪辑的方法一个可选实施例中，视频剪辑装置获取待剪辑视频以及待剪辑视频所对应的视频字幕信息之后，方法还包括：

视频剪辑装置从视频字幕信息中获取目标字幕信息，其中，目标字幕信息为视频字幕信息中的第一个字幕信息，且目标字幕信息对应于目标时间戳；

视频剪辑装置根据目标字幕信息所对应的目标时间戳，从待剪辑视频中确定目标时间戳所对应的目标视频帧；

视频剪辑装置对目标视频帧与目标字幕信息进行对齐处理。

本实施例中，视频剪辑装置在获取到待剪辑视频以及与待剪辑视频对应的视频字幕信息之后，从视频字幕信息中获取目标字幕信息，其中，视频字幕信息中包括多个字幕信息以及每个字幕信息对应的时间戳，前述时间戳用于指示字幕信息在待剪辑视频中的出现时间。具体的，在一种实现方式中，视频剪辑装置可以根据每个字幕信息所对应的时间戳，顺序排列每个字幕信息，出现时间越早的字幕信息，排列顺序越靠前，则视频剪辑装置可以从多个字幕信息中获取排在首位的字幕信息确定为目标字幕信息，并从视频字幕信息中获取目标字幕信息的目标时间戳。在另一种实现方式中，视频剪辑装置也可以不对视频字幕信息中的多个字幕信息进行排序，则视频剪辑装置可以获取视频字幕信息中的所有时间戳，从中获取指示的时间最早的目标时间戳，并从多个字幕信息中获取与目标时间戳对应的目标字幕信息。

由于字幕信息的开始出现的时间和待剪辑视频的音频内容中台词的开始时间可能有偏差，则在利用视频字幕信息对待剪辑视频进行剪辑之前，可以先对字幕信息执行对齐操作。具体的，视频剪辑装置可以利用字幕对齐插件对视频字幕信息中的首个字幕信息执行对齐操作，更具体的，视频剪辑装置根据目标字幕信息所对应的目标时间戳，获取与目标时间戳对应的目标视频帧，也即从待剪辑视频中获取目标时间戳所指示的出现时间对应的目标视频帧，由于视频字幕信息中记录的每个字幕信息出现的时间戳是准确的，也即目标视频帧为目标字幕信息应该出现的视频帧。视频剪辑装置获取目标字幕信息在待剪辑视频中的实际出现的第一视频帧，并判断目标视频帧与第一视频帧是否一致，若目标视频帧与第一视频帧一致，则证明目标字幕信息和目标视频帧为对齐状态。若第一视频帧早于目标视频帧，则证明目标字幕信息在待剪辑视频中出现过早，若第一视频帧晚于目标视频帧，则证明目标字幕信息在待剪辑视频中出现过晚，均需要调整目标字幕信息在待剪辑视频中的出现时间，将目标字幕信息调整至在目标视频帧中出现，以实现目标视频帧与目标字幕信息进行对齐处理。可选地，视频剪辑装置可以对视频字幕信息中的每个字幕信息执行上述操作。也可以为对视频字幕信息中的部分字幕信息执行上述操作，其中，前述部分字幕信息中包括目标字幕信息。具体的，视频剪辑装置可以从视频字幕信息中随机抽取部分字幕信息，对部分字幕信息中的每个字幕信息执行上述操作；也可以为每隔预设个数的字幕信息执行一次上述操作，作为示例，例如每隔5个字幕信息执行一次上述操作，也即对目标字幕信息执行上述操作后，对第6个字幕信息执行一次上述操作，以此类推；还可以为对预设时间戳对应的字幕信息执行上述操作等，此处均不做限定。

为进一步理解本方案，请参阅图4，图4为本申请实施例中视频剪辑的方法中对字幕信息进行对齐的一个实施例示意图，其中，在获取到视频字幕信息之后，从视频字幕信息中获取第一个字幕信息(也即目标字幕信息)，对目标字幕信息(captions file)执行字幕对齐(caption align)操作，也即根据待剪辑视频的音频内容获取待剪辑视频中台词开始出现的目标视频帧，得到了对齐点(align point)所对应的目标视频帧，进而将目标字幕信息对齐至目标视频帧上，再根据视频字幕信息对执行过对齐操作的待剪辑视频进行切分得到至少一个含字幕片段(caption during)和至少一个无字幕片段(no caption during)，应当理解，图4中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，在根据视频字幕信息从待剪辑视频中获取无字幕片段和含字幕片段之前，获取视频字幕信息中的第一个字幕信息，且目标字幕信息对应于目标时间戳，根据目标字幕信息所对应的目标时间戳，从待剪辑视频中确定目标时间戳所对应的目标视频帧，对目标视频帧与目标字幕信息进行对齐处理。通过上述方式，在利用视频字幕信息对待剪辑视频进行切分之前会对字幕信息进行对齐，以保证画面与字幕的一致性，进一步提高了提升视频剪辑的准确度。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例提供的视频剪辑的方法一个可选实施例中，方法还包括：

若第一无字幕片段中未包含对象帧，则视频剪辑装置获取第一无字幕片段的片段时长；

若片段时长大于或等于片段时长阈值，则视频剪辑装置将第一无字幕片段作为目标剪辑片段；

若片段时长小于片段时长阈值，则视频剪辑装置将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。

本实施例中，视频剪辑装置在获取到第一无字幕片段之后，可以对第一无字幕片段执行对象帧提取操作，若第一无字幕片段中未包含对象帧，则可以获取第一无字幕片段的片段时长。将第一无字幕片段的片段时长与片段时长阈值进行比较，若片段时长大于或等于片段时长阈值，则将第一无字幕片段作为独立的目标剪辑片段，若片段时长小于片段时长阈值，则将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。其中，片段时长阈值可以为2分钟、3分钟、5分钟、8分钟、10分钟或其他取值等等，此处不做限定。

本申请实施例中，在第一无字幕片段中不存在对象帧的情况下，会判断第一无字幕片段的片段时长是否大于或等于片段时长阈值，若大于或等于，则将第一无字幕片段作为目标剪辑片段，若小于，则将第一无字幕片段与第一含字幕片段合并。通过上述方式，提供了第一无字幕片段中不包含对象帧的处理方式，根据第一无字幕片段的片段时长来确定是否进行合并处理，有利于提高视频剪辑过程的合理性。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例提供的视频剪辑的方法一个可选实施例中，第一无字幕片段中包括一个对象帧；视频剪辑装置根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，包括：

视频剪辑装置根据第一对象帧以及第一无字幕片段中的一个对象帧，确定目标相似度；

若目标相似度大于或等于相似度阈值，则视频剪辑装置将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段；

若目标相似度小于相似度阈值，则视频剪辑装置将第一含字幕片段作为第一目标剪辑片段，并将第一无字幕片段作为第二目标剪辑片段，其中，第一目标剪辑片段与第二目标剪辑片段均属于目标剪辑片段集合。

本实施例中，视频剪辑装置在获取到第一无字幕片段之后，可以利用背景差分法、帧差法、光流法或其他算法从第一无字幕片段中提取至少一个对象帧，其中，第一无字幕片段中内容的变化越剧烈，提取的对象帧越多。在第一无字幕片段中包括一个对象帧的情况下，视频剪辑装置生成第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的目标相似度。具体的，在一种情况下，视频剪辑装置可以利用直方图对比、图像模板匹配、峰值信噪比(peak signal to noise ratio，PSNR)、结构相似性(structural similarity，SSIM)、感知哈希算法(perceptual hash algorithm)或其他算法等来计算第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的目标相似度。在另一种情况下，视频剪辑装置可以获取第一对象帧的第一关键点集合，获取从第一无字幕片段中提取出的前述一个对象帧的第二关键点集合，根据第一关键点集合和第二关键点集合计算第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的欧氏距离(Euclidean Distance)的距离值、明氏距离(Minkowski Distance)的距离值、曼哈顿距离(Manhattan Distance)的距离值或切比雪夫距离(Chebyshev Distance)的距离值等来确定第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度，其中，第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的距离值越大，第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度越小。更具体的，视频剪辑装置可以预先设置第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的距离值与第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度之间的对应关系，从而在得到第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的距离值之后，生成第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度。在另一种情况下，视频剪辑装置也可以根据第一关键点集合和第二关键点集合计算第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的余弦相似度，进而直接将前述余弦相似度确定为第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度，或者预先设置有余弦相似度和第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度之间的对应关系，从而根据第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的余弦相似度生成，第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度，其中，余弦相似度越大，第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度越大。此外，视频剪辑装置还可以通过其他方式得到第一对象帧和从第一无字幕片段中提取出的前述一个对象帧之间的相似度，此处不做穷举。其中，相似度阈值的取值可以为百分之七十、百分之七十五、百分之八十、百分之八十五、百分之九十、百分之九十五等，此处不做限定。

视频剪辑装置中可以预先设置有相似度阈值，在获取到目标相似度之后，可以判断目标相似度是否大于或等于相似度阈值，若目标相似度大于或等于相似度阈值，则视频剪辑装置将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段，目标剪辑片段属于目标剪辑片段集合。若目标相似度小于相似度阈值，则视频剪辑装置将第一含字幕片段作为第一目标剪辑片段，并将第一无字幕片段作为第二目标剪辑片段，也即不对第一含字幕片段和第一无字幕片段进行合并处理，分别将第一含字幕片段和第一无字幕片段确定为目标剪辑片段集合中的两个目标剪辑片段。视频剪辑装置对于从待剪辑视频中获取第一含字幕片段以及第一无字幕片段中每组字幕片段均执行上述操作，得到目标视频剪辑片段，前述每组字幕片段中包括一个无字幕片段以及一个与无字幕片段相邻的含字幕片段。

本申请实施例中，在第一无字幕片段中包括一个对象帧的情况下，获取前述一个对象帧与第一对象帧的目标相似度，若目标相似度大于或等于相似度阈值，则将第一含字幕片段与第一无字幕片段进行合并处理，若目标相似度小于相似度阈值，则将第一含字幕片段和第一无字幕片段作为相互独立的两个目标剪辑片段。也即利用对象帧之间的相似度来判断无字幕片段和含字幕片段之间的关联性，也即根据画面信息来确定无字幕片段和含字幕片段之间的关联性，符合用户对视频的切分逻辑，进一步提升视频剪辑的准确度。

视频剪辑装置根据视频字幕信息，从待剪辑视频中获取第二含字幕片段，其中，第二含字幕片段与第一无字幕片段为相邻两个片段，第二含字幕片段与第一含字幕片段为不同的含字幕片段；

视频剪辑装置获取第二含字幕片段的第二对象帧，其中，第二对象帧为与第一无字幕片段相邻的一个视频帧；

视频剪辑装置根据第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，包括：

视频剪辑装置根据第一含字幕片段中的第一对象帧、第二含字幕片段中的第二对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合。

本实施例中，视频剪辑装置根据视频字幕信息对待剪辑视频进行切分，得到至少一个含字幕片段和至少一个无字幕片段之后，还可以从至少一个含字幕片段和至少一个无字幕片段中获取第二含字幕片段。其中，第二含字幕片段与第一无字幕片段为相邻两个片段，也即当第一含字幕片段为第一无字幕片段之前的字幕片段的情况下，第二含字幕片段为第一无字幕片段之后的字幕片段，当第一含字幕片段为第一无字幕片段之后的字幕片段的情况下，第二含字幕片段为第一无字幕片段之前的字幕片段。并从第二含字幕片段中获取第二对象帧，进而可以将第一对象帧、第一无字幕片段中的至少一个对象帧和第二对象帧组成一个对象帧序列。其中，在第二含字幕片段为第一无字幕片段之后的字幕片段的情况下，第二对象帧为第一无字幕片段之后的一个视频帧，也即第二含字幕片段的第一个视频帧，在第二含字幕片段为第一无字幕片段之前的字幕片段的情况下，第二对象帧为第一无字幕片段之前的一个视频帧，也即第二含字幕片段的最后一个视频帧。

视频剪辑装置获取到第一对象帧、第二对象帧以及第一无字幕片段中的至少一个对象帧之后，可以根据第一对象帧和第一无字幕片段中的至少一个对象帧确定第一含字幕片段与第一无字幕片段之间的相似度，根据第二对象帧和第一无字幕片段中的至少一个对象帧确定第二含字幕片段与第一无字幕片段之间的相似度。进而可以确定是将第一无字幕片段与第一含字幕片段进行合并处理，得到合并后的目标剪辑片段，还是将第一无字幕片段与第二含字幕片段进行合并处理，得到合并后的目标剪辑片段，还是既不将第一无字幕片段与第一含字幕片段进行合并处理，也不将第一无字幕片段与第二含字幕片段进行合并处理，而是将第一无字幕片段、第一含字幕片段以及第二含字幕片段分别确定为独立的目标剪辑片段。视频剪辑装置针对从待剪辑视频中获取第一含字幕片段以及第一无字幕片段中每组字幕片段均执行上述操作，得到目标视频剪辑片段，前述每组字幕片段中包括一个无字幕片段和与之相邻的两个含字幕片段。

本申请实施例中，根据视频字幕信息，从待剪辑视频中获取第二含字幕片段，其中，第二含字幕片段与第一无字幕片段为相邻两个片段，从第二含字幕片段中获取与第一无字幕片段相邻的一个视频帧作为第二对象帧，根据第一对象帧、第二对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合。通过上述方式，在确定第一无字幕片段是否需要合并的过程中，同时考虑第一无字幕片段之前和之后的两个含字幕片段，最终得到的目标剪辑片段集合是综合考虑了更长跨度的画面内容，以进一步提升视频剪辑过程的精度。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例提供的视频剪辑的方法一个可选实施例中，第一无字幕片段中包括一个对象帧；

视频剪辑装置根据第一含字幕片段中的第一对象帧、第二含字幕片段中的第二对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，包括：

视频剪辑装置根据第一对象帧以及第一无字幕片段中的一个对象帧，确定第一相似度；

视频剪辑装置根据第二对象帧以及第一无字幕片段中的一个对象帧，确定第二相似度；

若第一相似度大于第二相似度，则视频剪辑装置将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段；

若第二相似度大于第一相似度，则视频剪辑装置将第二含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。

本实施例中，视频剪辑装置在获取到第一无字幕片段之后，可以对第一无字幕信息字段执行对象帧提取操作，在第一无字幕片段中包括一个对象帧的情况下，视频剪辑装置根据第一对象帧以及第一无字幕片段中的一个对象帧，确定第一对象帧与第一无字幕片段中的一个对象帧之间的第一相似度，并据第二对象帧以及第一无字幕片段中的一个对象帧，确定第二对象帧与第一无字幕片段中的一个对象帧之间的第二相似度，对于两个对象帧之间的相似度的具体生成方式可以参阅上述实施例中的描述，此处不做赘述。

视频剪辑装置判断第一相似度和第二相似度之间大小，若第一相似度大于第二相似度，则将第一含字幕片段与第一无字幕片段进行合并处理，得到一个目标剪辑片段。若第二含字幕片段为第一无字幕片段之前的字幕片段，则可以将第二含字幕片段确定为独立的目标剪辑片段，若第二含字幕片段后面还有第二无字幕片段，且第二含字幕片段为第一无字幕片段之后的字幕片段，则需要结合第二无字幕片段确定是否将第二含字幕片段确定为一个独立的目标剪辑片段，若第二含字幕片段后面不再有无字幕片段，则可以将第二含字幕片段确定为一个独立的目标剪辑片段。

若第二相似度大于第一相似度，则视频剪辑装置将第二含字幕片段与第一无字幕片段进行合并处理，得到一个目标剪辑片段。在此种情况下对于第一含字幕片段的处理方式，可以参阅前述在第一相似度大于第二相似度的情况下，对第二含字幕片段的处理方式，此处不再赘述。若第一相似度等于第二相似度，则视频剪辑装置可以将第一含字幕片段与第一无字幕片段进行合并处理，也可以将第二含字幕片段与第一无字幕片段进行合并处理，还可以为将第一无字幕片段、第一含字幕片段以及第二含字幕片段分别确定为独立的目标剪辑片段。视频剪辑装置针对从待剪辑视频中获取第一含字幕片段以及第一无字幕片段中每组字幕片段均执行上述操作，得到目标视频剪辑片段，前述每组字幕片段中包括一个无字幕片段和与之相邻的两个含字幕片段。

为进一步理解本方案，请参阅图5，图5为本申请实施例中视频剪辑的方法中生成目标剪辑片段的一个实施例示意图，其中，A1指的是第一含字幕片段，A2指的是第一无字幕片段，A3指的是第二含字幕片段，图5中以第一含字幕片段为第一无字幕片段之前的字幕片段，第二含字幕片段为第一无字幕片段之后的字幕片片段为例，A4指的是第一对象帧，也即第一含字幕片段中与第一无字幕片段相邻的视频帧，A5指的是第一无字幕片段中的一个对象帧，A6指的是第二对象帧，也即第二含字幕片段中与第一无字幕片段相邻的视频帧，由于A5和A6之间的相似度(也即第二相似度)大于A4和A5之间的相似度(也即第一相似度)，因此将第二含字幕片段与第一无字幕片段进行合并处理，得到一个目标剪辑片段(也即图5中的A7)，将第一无字幕片段确定为另一个目标剪辑片段(也即图5中的A8)，应当理解，图5中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，第一无字幕片段中包括一个对象帧，根据第一对象帧以及第一无字幕片段中的一个对象帧，确定第一相似度，并根据第二对象帧以及第一无字幕片段中的一个对象帧，确定第二相似度，若第一相似度大于第二相似度，则将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段，若第二相似度大于第一相似度，则将第二含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。通过上述方式，利用第一无字幕片段中的一个对象帧与第一对象帧以及第二对象帧之间的相似度，来确定第一无字幕片段是与第一含字幕片段合并还是与第二含字幕片段合并，提高了本方案的可执行性。

若第一相似度与第二相似度均小于相似度阈值，则视频剪辑装置将第一含字幕片段作为第一目标剪辑片段，将第一无字幕片段作为第二目标剪辑片段，并将第二含字幕片段作为第三目标剪辑片段，其中，第一目标剪辑片段、第二目标剪辑片段以及第三目标剪辑片段均属于目标剪辑片段集合。

本实施例中，视频剪辑装置在获取到第一无字幕片段之后，可以对第一无字幕信息字段执行对象帧提取操作，在第一无字幕片段中包括一个对象帧的情况下，视频剪辑装置根据第一对象帧以及第一无字幕片段中的一个对象帧，确定第一相似度，根据第二对象帧以及第一无字幕片段中的一个对象帧，确定第二相似度。进而会判断第一相似度是否大于或等于相似度阈值，以及，第二相似度是否大于或等于相似度阈值，若第一相似度与第二相似度均小于相似度阈值，则视频剪辑装置将第一含字幕片段、第一无字幕片段以及第二含字幕片段分别确定为三个独立的目标剪辑片段，也即不对第一含字幕片段、第一无字幕片段和第二含字幕片段进行合并处理。视频剪辑装置针对从待剪辑视频中获取第一含字幕片段以及第一无字幕片段中每组字幕片段均执行上述操作，得到目标视频剪辑片段，前述每组字幕片段中包括一个无字幕片段和与之相邻的两个含字幕片段。

本申请实施例中，获取第一对象帧和第一无字幕片段中的一个对象帧之间的第一相似度，并获取第二对象帧和第一无字幕片段中的一个对象帧之间的第二相似度，若第一相似度与第二相似度均小于相似度阈值，则将第一含字幕片段、第一无字幕片段以及第二含字幕片段分别确定为三个独立的目标剪辑片段。通过上述方式，可以确保执行过合并处理操作的字幕片段为关联性强的片段，避免了不必要的合并操作，既提高了视频剪辑过程的效率，又保证了视频剪辑过程的精准度。

若第一相似度与第二相似度均小于相似度阈值，则视频剪辑装置将第一含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段；

或者，

若第一相似度与第二相似度均小于相似度阈值，则视频剪辑装置将第二含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段。

本实施例中，视频剪辑装置在获取到第一无字幕片段之后，可以对第一无字幕信息字段执行对象帧提取操作，在第一无字幕片段中包括一个对象帧的情况下，视频剪辑装置根据第一对象帧以及第一无字幕片段中的一个对象帧，确定第一相似度，根据第二对象帧以及第一无字幕片段中的一个对象帧，确定第二相似度。若第一相似度与第二相似度均小于相似度阈值，则将第一含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段，或者，将第二含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段。可选地，若第一相似度与第二相似度均小于相似度阈值，则视频剪辑装置可以获取第一无字幕片段的片段时长，在第一无字幕片段的片段时长小于片段时长阈值的情况下，则将第一含字幕片段以及第一无字幕片段进行合并处理，或者，将第二含字幕片段以及第一无字幕片段进行合并处理。

本申请实施例中，通过上述方式，提供了在第一相似度和第二相似度均小于相似度阈值的情况下的另一种实现方式，提高了本方案的实现灵活性。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例提供的视频剪辑的方法一个可选实施例中，第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，第三对象帧为与第一对象帧相邻的对象帧，第四对象帧为与第二对象帧相邻的对象帧；

视频剪辑装置根据第一对象帧以及第一无字幕片段中的第三对象帧，确定第三相似度；

视频剪辑装置根据第二对象帧以及第一无字幕片段中的第四对象帧，确定第四相似度；

若第三相似度大于第四相似度，则视频剪辑装置将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段；

若第三相似度小于第四相似度，则视频剪辑装置将第二含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。

本实施例中，视频剪辑装置在获取到第一无字幕片段之后，可以对第一无字幕信息字段执行对象帧提取操作，在第一无字幕片段中包括至少两个对象帧的情况下，将前述至少两个对象帧按照出现时间由早到晚的排序方式顺序排列，从第一无字幕片段包括的至少两个对象帧中获取与第一对象帧相邻的第三对象帧，从第一无字幕片段包括的至少两个对象帧中获取与第二对象帧相邻的第四对象帧。可选地，视频剪辑装置还可以将第一对象帧、第二对象帧、第三对象帧以及第四对象帧组成对象帧序列。

视频剪辑装置获取第三对象帧和第一对象帧之间的第三相似度，并获取第四对象帧与第二对象帧相邻之间的第四相似度。若第三相似度大于第四相似度，则将第一含字幕片段与第一无字幕片段进行合并处理，得到一个目标剪辑片段，对于在将第一含字幕片段与第一无字幕片段进行合并处理的情况下，对第二含字幕片段的处理方式，可以参阅上述图5对应实施例中的描述。若第三相似度小于第四相似度，则将第二含字幕片段与第一无字幕片段进行合并处理，得到一个目标剪辑片段，对于在将第二含字幕片段与第一无字幕片段进行合并处理的情况下，对第一含字幕片段的处理方式，可以参阅上述图5对应实施例中的描述。

为进一步理解本方案，请参阅图6，图6为本申请实施例中视频剪辑的方法中对字幕信息对齐的一个实施例示意图，其中，在获取到第一无字幕片段(no caption during)、第一含字幕片段(caption during)和第二含字幕片段(caption during)之后，对第一无字幕片段进行对象帧提取(extract)操作，得到了至少两个对象帧，从第一含字幕片段中获取与第一无字幕片段相邻的第一对象帧，从第二含字幕片段中获取与第二无字幕片段相邻的第二对象帧，从第一无字幕片段包括的至少两个对象帧中提取与第一对象帧相邻的第三对象帧，以及与第二对象帧相邻的第四对象帧，将第一对象帧至第四对象帧组成对象帧序列(sequence)，排序方式可以为对象帧在待剪辑视频中的出现时间，根据预设的相似性规则(similar regulation)，生成第三对象帧和第一对象帧之间的第三相似度，以及，第四对象帧与第二对象帧相邻之间的第四相似度，进而根据第三相似度和第四相似度之间的大小关系，进行含字幕片段和无字幕片段之间的合并操作，图6中以第三相似度小于第四相似度为例，将第一无字幕片段与第二含字幕片段进行合并操作，得到目标剪辑片段，应当理解，图6中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，通过上述方式，提供了当第一无字幕片段中包括至少两个对象帧的情况下，生成目标剪辑片段的一种具体实现方式，扩展了本方案的应用场景。

若第三相似度与第四相似度均小于相似度阈值，则视频剪辑装置将第一含字幕片段作为第一目标剪辑片段，将第一无字幕片段作为第二目标剪辑片段，并将第二含字幕片段作为第三目标剪辑片段，其中，第一目标剪辑片段、第二目标剪辑片段以及所述第三目标剪辑片段均属于目标剪辑片段集合。

本实施例中，在第一无字幕片段中包括至少两个对象帧的情况下，视频剪辑装置从第一无字幕片段包括的至少两个对象帧中获取第三对象帧和第四对象帧，生成第三对象帧和第一对象帧之间的第三相似度，并生成第四对象帧与第二对象帧相邻之间的第四相似度，若第三相似度与第四相似度均小于相似度阈值，则将第一含字幕片段、第一无字幕片段以及第二含字幕片段分别确定为三个独立的目标剪辑片段。可选地，在第三相似度与第四相似度均小于相似度阈值的情况下，视频剪辑装置还可以获取第一无字幕片段的片段时长，在第一无字幕片段的片段时长大于或等于片段时长阈值的情况下，将第一含字幕片段、第一无字幕片段以及第二含字幕片段分别确定为三个独立的目标剪辑片段。

本申请实施例中，通过上述方式，提供了当第一无字幕片段中包括至少两个对象帧的情况下，生成目标剪辑片段的另一种具体实现方式，不仅扩展了本方案的应用场景，而且提高了本方案的实现灵活性；此外，确保执行过合并处理操作的字幕片段为关联性强的片段，保证了视频剪辑过程的精准度。

若第三相似度与第四相似度均小于相似度阈值，则视频剪辑装置将第一含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段；

或者，

若第三相似度与第四相似度均小于相似度阈值，则视频剪辑装置将第二含字幕片段以及第一无字幕片段进行合并处理，得到目标剪辑片段。

本实施例中，在第一无字幕片段中包括至少两个对象帧的情况下，视频剪辑装置从第一无字幕片段包括的至少两个对象帧中获取第三对象帧和第四对象帧，生成第三对象帧和第一对象帧之间的第三相似度，并生成第四对象帧与第二对象帧相邻之间的第四相似度，若第三相似度与第四相似度均小于相似度阈值，则将第一含字幕片段以及第一无字幕片段进行合并处理，或者，将第二含字幕片段以及第一无字幕片段进行合并处理。

为进一步理解本方案，请参阅图7，图7为本申请实施例中视频剪辑的方法中对字幕信息进行对齐的一个实施例示意图，其中，在获取到待剪辑视频(video)和与待剪辑视频对应的视频字幕信息(captions file)之后，对视频字幕信息进行字幕信息提取(captionsextract)操作，得到目标字幕信息，对目标字幕信息执行字幕对齐(caption align)操作，得到了对齐点(align point)所对应的目标视频帧，进而将目标字幕信息对齐至目标视频帧上，进而根据视频字幕信息对执行过对齐操作的待剪辑视频进行切分，得到至少一个含字幕片段(caption during)和至少一个无字幕片段(no caption during)，从中获取第一含字幕片段、第二含字幕片段和第一无字幕片段，对第一无字幕片段执行对象帧提取(extract)操作，得到了至少两个对象帧，获取与第一无字幕片段相邻的第一对象帧，以及获取与第二无字幕片段相邻的第二对象帧，从第一无字幕片段包括的至少两个对象帧中提取第三对象帧和第四对象帧，将第一对象帧至第四对象帧组成对象帧序列(sequence)，根据预设的相似性规则，生成第三对象帧和第一对象帧之间的第三相似度，以及，第四对象帧与第二对象帧相邻之间的第四相似度，进而根据第三相似度和第四相似度，进行含字幕片段和无字幕片段之间的合并操作，得到目标剪辑片段，应当理解，图7中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，通过上述方式，提供了当第一无字幕片段中包括至少两个对象帧的情况下，生成目标剪辑片段的又一种具体实现方式，提高了本方案的实现灵活性。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例提供的视频剪辑的方法一个可选实施例中，还可以包括：

视频剪辑装置根据视频字幕信息，从待剪辑视频中获取第二无字幕片段，其中，第二无字幕片段与第一含字幕片段为相邻两个片段，第二无字幕片段与第一无字幕片段为不同的无字幕片段；

视频剪辑装置获取第二无字幕片段的目标对象帧，其中，目标对象帧为与第一含字幕片段相邻的一个对象帧；

视频剪辑装置根据第一含字幕片段中的第一对象帧、第一无字幕片段中的至少一个对象帧以及第二无字幕片段中的目标对象帧，生成目标剪辑片段集合。

本实施例中，视频剪辑装置根据视频字幕信息对待剪辑视频进行切分，得到至少一个含字幕片段和至少一个无字幕片段之后，还可以从至少一个含字幕片段和至少一个无字幕片段中获取与第一含字幕片段相邻的第二无字幕片段，其中，第二无字幕片段与第一无字幕片段为不同的无字幕片段。对第二无字幕片段进行对象帧提取操作，以从第二无字幕片段中提取出至少一个对象帧，从前述至少一个对象帧中获取与第一含字幕片段相邻的一个对象帧，并确定为目标对象帧。可选地，视频剪辑装置可以将第一对象帧、第一无字幕片段中的至少一个对象帧和目标对象帧组成一个对象帧序列。其中，在第二无字幕片段为第一含字幕片段之后的字幕片段的情况下，目标对象帧为第二无字幕片段的至少一个对象帧中第一个对象帧，在第二无字幕片段为第一含字幕片段之前的字幕片段的情况下，目标对象帧为第二无字幕片段至少一个对象帧中的最后一个对象帧。

视频剪辑装置获取到第一对象帧、第一无字幕片段中的至少一个对象帧和目标对象帧，可以根据第一对象帧和第一无字幕片段中的至少一个对象帧确定第一含字幕片段与第一无字幕片段之间的相似度，根据第一对象帧和目标对象帧，确定第一含字幕片段与第二无字幕片段之间的相似度。进而可以确定是将第一含字幕片段与第一无字幕片段进行合并处理，还是将第一含字幕片段与第二无字幕片段进行合并处理，还是既不将第一含字幕片段与第一无字幕片段进行合并处理，也不将第一含字幕片段与第二无字幕片段进行合并处理，而是将第一无字幕片段、第一含字幕片段以及第二无字幕片段分别确定为独立的目标剪辑片段。视频剪辑装置针对从待剪辑视频中获取第一含字幕片段以及第一无字幕片段中每组字幕片段均执行上述操作，得到目标视频剪辑片段，前述每组字幕片段中包括一个含字幕片段和与之相邻的两个无字幕片段。

本申请实施例中，通过上述方式，在确定第一含字幕片段是否需要合并的过程中，同时考虑第一含字幕片段之前和之后的两个无字幕片段，最终得到的目标剪辑片段集合是综合考虑了更长跨度的画面内容，进一步提升视频剪辑过程的精度；此外，利用含字幕片段和与之相邻的两个无字幕片段来确定是否需要进行片段合并，提供了视频片段确定的又一种实现方式，提高了本方案的实现灵活性。

下面对本申请中的视频剪辑装置进行详细描述，请参阅图8，图8为本申请实施例中视频剪辑装置的一个实施例示意图，视频剪辑装置20包括：

获取模块201，用于获取待剪辑视频以及待剪辑视频所对应的视频字幕信息；

获取模块201，还用于根据获取模块201获取的视频字幕信息，从待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，第一含字幕片段与第一无字幕片段为相邻两个片段；

获取模块201，还用于获取第一含字幕片段的第一对象帧，其中，第一对象帧为与第一无字幕片段相邻的一个视频帧；

生成模块202，用于在第一无字幕片段中包含至少一个对象帧的情况下，根据获取模块201获取的第一含字幕片段中的第一对象帧以及第一无字幕片段中的至少一个对象帧，生成目标剪辑片段集合，其中，目标剪辑片段集合包括至少一个目标剪辑片段。

可选地，在上述图8所对应的实施例的基础上，请参阅图9，图9为本申请实施例中视频剪辑装置的一个实施例示意图，本申请实施例提供的视频剪辑装置20的另一实施例中，

获取模块201，还用于从视频字幕信息中获取目标字幕信息，其中，目标字幕信息为视频字幕信息中的第一个字幕信息，且目标字幕信息对应于目标时间戳；

视频剪辑装置还包括：确定模块203，用于根据获取模块201获取的目标字幕信息所对应的目标时间戳，从待剪辑视频中确定目标时间戳所对应的目标视频帧；

视频剪辑装置还包括：对齐模块204，用于对确定模块203确定的目标视频帧与目标字幕信息进行对齐处理。

可选地，在上述图8以及图9所对应的实施例的基础上，本申请实施例提供的视频剪辑装置20的另一实施例中，

获取模块201，还用于在第一无字幕片段中未包含对象帧的情况下，获取第一无字幕片段的片段时长；

视频剪辑装置还包括：确定模块203，用于在片段时长大于或等于片段时长阈值的情况下，将获取模块201获取的第一无字幕片段作为目标剪辑片段；

视频剪辑装置还包括：合并模块205，用于在片段时长小于片段时长阈值的情况下，将第一含字幕片段与第一无字幕片段进行合并处理，得到目标剪辑片段。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的视频剪辑装置20的另一实施例中，第一无字幕片段中包括一个对象帧；

生成模块202，具体用于：

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的视频剪辑装置20的另一实施例中，获取模块201，还用于根据视频字幕信息，从待剪辑视频中获取第二含字幕片段，其中，第二含字幕片段与第一无字幕片段为相邻两个片段，第二含字幕片段与第一含字幕片段为不同的含字幕片段；

获取模块201，还用于获取第二含字幕片段的第二对象帧，其中，第二对象帧为与第一无字幕片段相邻的一个视频帧；

生成模块202，具体用于：

或者，

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的视频剪辑装置20的另一实施例中，第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，第三对象帧为与第一对象帧相邻的对象帧，第四对象帧为与第二对象帧相邻的对象帧；

生成模块202，具体用于：

或者，

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的视频剪辑装置20的另一实施例中，获取模块201，还用于根据视频字幕信息，从待剪辑视频中获取第二无字幕片段，其中，第二无字幕片段与第一含字幕片段为相邻两个片段，第二无字幕片段与第一无字幕片段为不同的无字幕片段；

获取模块201，还用于获取第二无字幕片段的目标对象帧，其中，目标对象帧为与第一含字幕片段相邻的一个对象帧；

生成模块202，具体用于根据第一含字幕片段中的第一对象帧、第一无字幕片段中的至少一个对象帧以及第二无字幕片段中的目标对象帧，生成目标剪辑片段集合。

接下来，本申请实施例还提供了一种电子设备，所述电子设备上可以部署有上述图8和图9对应的实施例中提供的视频剪辑装置，用于执行图2至图7对应的实施例中视频剪辑装置执行的步骤。如图10所示，图10为本申请实施例中电子设备的一个实施例示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意电子设备，以属性信息展示装置为手机为例：

图10示出的是与本申请实施例提供的属性信息展示装置相关的手机的部分结构的框图。参考图10，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图10中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；可选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，可选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像模块、蓝牙模块等，在此不再赘述。

在本申请实施例中，当电子设备上部署有上述图8和图9对应的实施例中提供的视频剪辑装置时，处理器380还用于执行图2至图7对应的实施例中视频剪辑装置执行的步骤，对于处理器380执行图2至图7对应的实施例中视频剪辑装置执行的步骤的具体实现方式，可以参阅上述实施例的描述，此处不做赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图2至图7对应的实施例中视频剪辑装置执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2至图7对应的实施例中视频剪辑装置执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频剪辑的方法，其特征在于，包括：

获取待剪辑视频以及所述待剪辑视频所对应的视频字幕信息；

根据所述视频字幕信息，从所述待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，所述第一含字幕片段与所述第一无字幕片段为相邻两个片段；

获取所述第一含字幕片段的第一对象帧，其中，所述第一对象帧为与所述第一无字幕片段相邻的一个视频帧；

若所述第一无字幕片段中包含至少一个对象帧，则根据所述第一含字幕片段中的所述第一对象帧以及所述第一无字幕片段中的所述至少一个对象帧，生成至少一个目标剪辑片段，所述至少一个目标剪辑片段属于目标剪辑片段集合，其中，对象帧为关键帧。

2.根据权利要求1所述的方法，其特征在于，所述获取待剪辑视频以及所述待剪辑视频所对应的视频字幕信息之后，所述方法还包括：

从所述视频字幕信息中获取目标字幕信息，其中，所述目标字幕信息为所述视频字幕信息中的第一个字幕信息，且所述目标字幕信息对应于目标时间戳；

根据所述目标字幕信息所对应的所述目标时间戳，从所述待剪辑视频中确定所述目标时间戳所对应的目标视频帧；

对所述目标视频帧与所述目标字幕信息进行对齐处理。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一无字幕片段中未包含对象帧，则获取所述第一无字幕片段的片段时长；

若所述片段时长大于或等于片段时长阈值，则将所述第一无字幕片段作为目标剪辑片段；

若所述片段时长小于所述片段时长阈值，则将所述第一含字幕片段与所述第一无字幕片段进行合并处理，得到目标剪辑片段。

4.根据权利要求1所述的方法，其特征在于，所述第一无字幕片段中包括一个对象帧；

所述根据所述第一含字幕片段中的所述第一对象帧以及所述第一无字幕片段中的所述至少一个对象帧，生成至少一个目标剪辑片段，包括：

根据所述第一对象帧以及所述第一无字幕片段中的一个对象帧，确定目标相似度；

若所述目标相似度大于或等于相似度阈值，则将所述第一含字幕片段与所述第一无字幕片段进行合并处理，得到目标剪辑片段；

若所述目标相似度小于所述相似度阈值，则将所述第一含字幕片段作为第一目标剪辑片段，并将所述第一无字幕片段作为第二目标剪辑片段，其中，所述第一目标剪辑片段与所述第二目标剪辑片段均属于所述目标剪辑片段集合。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

根据所述视频字幕信息，从所述待剪辑视频中获取第二含字幕片段，其中，所述第二含字幕片段与所述第一无字幕片段为相邻两个片段，所述第二含字幕片段与所述第一含字幕片段为不同的含字幕片段；

获取所述第二含字幕片段的第二对象帧，其中，所述第二对象帧为与所述第一无字幕片段相邻的一个视频帧；

根据所述第一含字幕片段中的所述第一对象帧、所述第二含字幕片段中的所述第二对象帧以及所述第一无字幕片段中的所述至少一个对象帧，生成至少一个目标剪辑片段。

6.根据权利要求5所述的方法，其特征在于，所述第一无字幕片段中包括一个对象帧；

所述根据所述第一含字幕片段中的所述第一对象帧、所述第二含字幕片段中的所述第二对象帧以及所述第一无字幕片段中的所述至少一个对象帧，生成至少一个目标剪辑片段，包括：

根据所述第一对象帧以及所述第一无字幕片段中的所述一个对象帧，确定第一相似度；

根据所述第二对象帧以及所述第一无字幕片段中的所述一个对象帧，确定第二相似度；

若所述第一相似度大于所述第二相似度，则将所述第一含字幕片段与所述第一无字幕片段进行合并处理，得到目标剪辑片段；

若所述第二相似度大于所述第一相似度，则将所述第二含字幕片段与所述第一无字幕片段进行合并处理，得到目标剪辑片段。

7.根据权利要求5所述的方法，其特征在于，所述第一无字幕片段中包括一个对象帧；

若所述第一相似度与所述第二相似度均小于相似度阈值，则将所述第一含字幕片段作为第一目标剪辑片段，将所述第一无字幕片段作为第二目标剪辑片段，并将所述第二含字幕片段作为第三目标剪辑片段，其中，所述第一目标剪辑片段、所述第二目标剪辑片段以及所述第三目标剪辑片段均属于所述目标剪辑片段集合。

8.根据权利要求5所述的方法，其特征在于，所述第一无字幕片段中包括一个对象帧；

若所述第一相似度与所述第二相似度均小于相似度阈值，则将所述第一含字幕片段以及所述第一无字幕片段进行合并处理，得到目标剪辑片段；

或者，

若所述第一相似度与所述第二相似度均小于相似度阈值，则将所述第二含字幕片段以及所述第一无字幕片段进行合并处理，得到目标剪辑片段。

9.根据权利要求5所述的方法，其特征在于，所述第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，所述第三对象帧为与所述第一对象帧相邻的对象帧，所述第四对象帧为与所述第二对象帧相邻的对象帧；

根据所述第一对象帧以及所述第一无字幕片段中的所述第三对象帧，确定第三相似度；

根据所述第二对象帧以及所述第一无字幕片段中的所述第四对象帧，确定第四相似度；

若所述第三相似度大于所述第四相似度，则将所述第一含字幕片段与所述第一无字幕片段进行合并处理，得到目标剪辑片段；

若所述第三相似度大于所述第四相似度，则将所述第二含字幕片段与所述第一无字幕片段进行合并处理，得到目标剪辑片段。

10.根据权利要求5所述的方法，其特征在于，所述第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，所述第三对象帧为与所述第一对象帧相邻的对象帧，所述第四对象帧为与所述第二对象帧相邻的对象帧；

根据所述第一含字幕片段中的所述第一对象帧、所述第二含字幕片段中的所述第二对象帧以及所述第一无字幕片段中的所述至少一个对象帧，生成至少一个目标剪辑片段，包括：

若所述第三相似度与所述第四相似度均小于相似度阈值，则将所述第一含字幕片段作为第一目标剪辑片段，将所述第一无字幕片段作为第二目标剪辑片段，并将所述第二含字幕片段作为第三目标剪辑片段，其中，所述第一目标剪辑片段、所述第二目标剪辑片段以及所述第三目标剪辑片段均属于所述目标剪辑片段集合。

11.根据权利要求5所述的方法，其特征在于，所述第一无字幕片段中至少包括第三对象帧以及第四对象帧，其中，所述第三对象帧为与所述第一对象帧相邻的对象帧，所述第四对象帧为与所述第二对象帧相邻的对象帧；

若所述第三相似度与所述第四相似度均小于相似度阈值，则将所述第一含字幕片段以及所述第一无字幕片段进行合并处理，得到目标剪辑片段；

或者，

若所述第三相似度与所述第四相似度均小于相似度阈值，则将所述第二含字幕片段以及所述第一无字幕片段进行合并处理，得到目标剪辑片段。

12.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

根据所述视频字幕信息，从所述待剪辑视频中获取第二无字幕片段，其中，所述第二无字幕片段与所述第一含字幕片段为相邻两个片段，所述第二无字幕片段与所述第一无字幕片段为不同的无字幕片段；

获取所述第二无字幕片段的目标对象帧，其中，所述目标对象帧为与所述第一含字幕片段相邻的一个对象帧；

根据所述第一含字幕片段中的所述第一对象帧、所述第一无字幕片段中的所述至少一个对象帧以及所述第二无字幕片段中的所述目标对象帧，生成至少一个目标剪辑片段。

13.一种视频剪辑装置，其特征在于，包括：

获取模块，用于获取待剪辑视频以及所述待剪辑视频所对应的视频字幕信息；

所述获取模块，还用于根据所述获取模块获取的视频字幕信息，从所述待剪辑视频中获取第一含字幕片段以及第一无字幕片段，其中，所述第一含字幕片段与所述第一无字幕片段为相邻两个片段；

所述获取模块，还用于获取所述获取模块获取的第一含字幕片段的第一对象帧，其中，所述第一对象帧为与所述第一无字幕片段相邻的一个视频帧；

生成模块，用于在所述第一无字幕片段中包含至少一个对象帧的情况下，根据所述获取模块获取的第一含字幕片段中的所述第一对象帧以及所述第一无字幕片段中的所述至少一个对象帧，生成至少一个目标剪辑片段，所述至少一个目标剪辑片段属于目标剪辑片段集合，其中，对象帧为关键帧。

14.一种电子设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

若所述第一无字幕片段中包含至少一个对象帧，则根据所述第一含字幕片段中的所述第一对象帧以及所述第一无字幕片段中的所述至少一个对象帧，生成至少一个目标剪辑片段，所述至少一个目标剪辑片段属于目标剪辑片段集合，其中，对象帧为关键帧；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的方法。