CN113301430A

CN113301430A - 视频剪辑方法、装置、电子设备以及存储介质

Info

Publication number: CN113301430A
Application number: CN202110852101.1A
Authority: CN
Inventors: 赵天昊; 田思达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-08-24
Anticipated expiration: 2041-07-27
Also published as: CN113301430B

Abstract

提供了一种视频剪辑方法、装置、电子设备以及存储介质，涉及网络媒体的视频处理领域，该方法包括：获取待剪辑视频；对该待剪辑视频进行抽帧，得到视频帧序列；识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。本申请提供的方法能够自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段进行拼接，从而生成待剪辑视频的视频集锦，一方面，不仅节约大量的人工成本，而且提升视频剪辑的效率；另一方面，无需用户对待剪辑视频进行提前处理，提升用户体验。

Description

视频剪辑方法、装置、电子设备以及存储介质

技术领域

本申请实施例涉及网络媒体的视频处理领域，并且更具体地，涉及视频剪辑方法、装置、电子设备以及存储介质。

背景技术

随着网络视频平台的快速发展，短视频剪辑受到关注，由于人工剪辑需要耗费大量人力，所以需要引入自动化的剪辑工具，目前自动化的剪辑工具通常要求用户先按照剪辑模版，提供几段特定时长的原始素材（通常为几秒钟），再进行自动合并；由于此类剪辑方法使用的限制较多，用户提供的视频超过固定时长的素材会被自动截断，而且需要用户提前对视频进行处理，无法对一段完整的长视频进行自动剪辑，导致用户体验差。

因此，本领域急需一种视频剪辑方法，能够实现对待剪辑视频的自动剪辑，节约人力成本、提高剪辑效率、提升用户体验。

发明内容

本申请实施例提供了一种视频剪辑方法、装置、电子设备以及存储介质，能够自动生成待剪辑视频的视频集锦，一方面，替代在实际业务场景中的人工操作，不仅节约大量的人工成本，而且提升了视频剪辑的效率；另一方面，无需用户对待剪辑视频进行提前处理，避免用户提供超过固定时长的素材被自动截断的情况，提升用户体验。

一方面，提供了一种视频剪辑方法，包括：

获取待剪辑视频；

对该待剪辑视频进行抽帧，得到视频帧序列；

识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；

基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；

按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

另一方面，提供了一种视频剪辑装置，包括：

获取单元，获取待剪辑视频；

抽帧单元，对该待剪辑视频进行抽帧，得到视频帧序列；

识别单元，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；

划分单元，基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；

拼接单元，按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

另一方面，本申请实施例提供了一种电子设备，包括：

处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以实现上述视频剪辑方法。

另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述视频剪辑方法。

基于以上技术方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于该场景类别序列自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段进行拼接，从而生成待剪辑视频的视频集锦，一方面，基于该场景类别序列自动对待剪辑视频进行划分及拼接，替代了在实际业务场景中的人工操作，不仅节约大量的人工成本，而且提升视频剪辑的效率；另一方面，用户输入待剪辑视频，可以直接获取剪辑后的视频集锦，无需用户对待剪辑视频进行提前处理，且避免用户提供超过固定时长的素材被自动截断的情况，提升了用户体验。

附图说明

图1是本申请实施例提供的视频剪辑方法的场景示意图。

图2是本申请实施例提供的视频剪辑方法的示意性流程图。

图3是本申请实施例提供的视频剪辑系统框架的示例。

图4是本申请实施例提供的视频剪辑装置的示意性框图。

图5是本申请实施例提供的电子设备的示意结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的方案可涉及人工智能技术。

其中，人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision, CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案还涉及网络媒体领域中的视频处理技术。网络媒体与传统的音视频设备采用的工作方式不同，网络媒体依赖信息技术（IT）设备开发商们提供的技术和设备来传输、存储和处理音视频信号。传统的串型数字（SDI）传输方式缺乏真正意义上的网络交换特性。需要做大量的工作才可能利用SDI创建类似以太网和因特网协议（IP）所提供的部分网络功能。因此，视频行业中的网络媒体技术就应运而生。进一步的，网络媒体的视频处理技术可以包括音视频信号的传输、存储和处理过程及音视频。

更具体的，本申请涉及一种视频剪辑方法，该视频剪辑方法可通过视频剪辑装置实现。需要说明的是，本申请实施例提供的装置可集成在终端设备中，该终端设备包括但不限于智能移动电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal DigitalAssistant，PDA）、电子书（electronic book，E-book）等，本申请对此不作具体限制，当然，本申请实施例提供的装置还可集成在服务器中，服务器可以包括一个独立运行的服务器或者分布式服务器，也可以包括由多个服务器组成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，本申请实施例提供的方法可以通过多种形式应用于完整的游戏视频智能剪辑方案中。其中，以web接口为例，对本申请实施例提供的视频剪辑方案的表现形式和操作步骤进行说明：

步骤一：用户上传一段待剪辑视频或者待剪辑视频URL，终端设备获取到待剪辑视频或者待剪辑视频URL后，调用接口将待剪辑视频传输给视频剪辑模型；

步骤二：视频剪辑模型对输入的待剪辑视频进行处理，得到待剪辑视频对应的视频集锦；

步骤三：视频剪辑模型通过上述接口以URL的形式返回视频精彩集锦。

下面将结合附图，以视频剪辑装置集成在服务器中为例，对本申请实施例中的技术方案进行描述。应理解，该视频剪辑装置也可集成在终端设备中，本申请对此不作具体限制。

图1是本申请实施例提供的视频剪辑方法的场景100的示意图。

应理解，图1仅为本申请的示例，不应理解为对本申请的限制。

如图1所示，该场景100可包括用于用户上传待剪辑视频的终端设备110、集成视频剪辑装置的服务器130、网络120。

其中，终端设备110和服务器130通过网络120进行通信，网络120在终端设备110和服务器130之间提供通信链路的介质。

例如，用户上传待剪辑视频或待剪辑视频URL，终端设备110获取到待剪辑视频后，通过网络120将该待剪辑视频传递给服务器130，在视频剪辑的过程中，首先，服务器130对获取的该待剪辑视频或待剪辑视频URL进行抽帧，得到视频帧序列，其次，再将得到的视频帧序列中的每一个视频帧输入到场景分割模型中，识别每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，最后，再基于得到的场景类别序列对视频帧的场景类别结果进行聚类，再根据聚类结果将待剪辑视频划分为多个第一视频片段，并按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦；在视频剪辑完成后，服务器130将剪辑完成后的视频集锦或视频集锦URL通过网络120反馈给终端设备110，用户可通过终端设备110查看剪辑后的视频集锦。

基于以上方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于该场景类别序列自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段进行拼接，从而生成待剪辑视频的视频集锦，一方面，通过对待剪辑视频的自动划分及拼接生成待剪辑视频对应的视频集锦，替代了在实际业务场景中的人工操作，不仅节约大量的人工成本，而且提升了视频剪辑的效率；另一方面，相对于目前需要用户提前裁剪的视频剪辑方案，用户输入完整的待剪辑视频，可以直接获取剪辑后的视频集锦，无需用户对待剪辑视频进行提前处理，且避免用户提供超过固定时长的素材被自动截断的情况，在提升视频剪辑效率的同时，提升用户体验。

需要说明的是，该终端设备包括任意具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备，该终端设备包括但不限于智能移动电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal Digital Assistant，PDA）、电子书（electronic book，E-book）等。需要说明的是，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

应理解，图1中的终端设备、网络、和服务器的数目仅仅是示意性的，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

图2是本申请实施例提供的视频剪辑方法200的示意性流程图。

应理解，该视频剪辑方法可由集成有视频剪辑装置的终端设备执行，也可由集成有视频剪辑装置的服务器执行，本申请对此不作具体限制，下边以由集成有视频剪辑装置的终端设备执行为例，对本申请提供的视频剪辑方法进行详细说明。

S201，获取待剪辑视频。

S202，对该待剪辑视频进行抽帧，得到视频帧序列。

S203，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列。

S204，基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段。

S205，按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

换言之，首先，终端设备获取用户上传的待剪辑视频，对该待剪辑视频进行抽帧，得到视频帧序列，其次，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；最后，基于该场景类别序列对待剪辑视频进行划分，得到多个第一视频片段，并按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

例如，可以对待剪辑视频按固定时间间隔（例如每秒2帧）进行抽帧，得到视频帧序列，并将该视频帧序列中的每一个视频帧输入到场景类别识别模型中，对每一个视频帧进行场景类别识别，得到每一个视频帧的场景类别结果，即场景类别序列，再基于场景类别序列，将相同场景类别的视频帧进行聚类，根据聚类结果对待剪辑视频进行剪辑，以得到多个第一视频片段。其中，该场景类别识别模型可以选择基于残差网络ResNet50网络模型进行训练，另外，该场景类别识别模型在训练时，训练数据集中的场景类别可包括大类和小类，通过使用小类对场景类别识别模型进行训练，使场景类别识别模型的鲁棒性增强，使用大类作为场景类别识别模型的输出，可以降低视频剪辑过程中计算的复杂度，例如，可以基于365个小类和15个大类的场景类别对该场景类别识别模型进行训练，选择15个大类的结果作为场景类别识别模型的输出类别。

基于以上技术方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于该场景类别序列自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段进行拼接，从而生成待剪辑视频的视频集锦，一方面，通过对待剪辑视频的自动划分及拼接生成待剪辑视频对应的视频集锦，替代了在实际业务场景中的人工操作，不仅节约大量的人工成本，而且提升视频剪辑的效率；另一方面，相对于目前需要用户提前裁剪的视频剪辑方案，用户输入完整的待剪辑视频，可以直接获取剪辑后的视频集锦，无需用户对待剪辑视频进行提前处理，且避免用户提供超过固定时长的素材被自动截断的情况，在提升视频剪辑效率的同时，提升用户体验。

需要说明的是，该视频帧序列为待剪辑视频抽取的多个视频帧组成的序列，场景类别序列为该视频帧序列中的所有视频帧的场景类别组成的序列。

在本申请的一些实施例中，S204可包括：

基于该视频帧序列中属于同一场景类别的连续视频帧，将该待剪辑视频划分为多个第二视频片段；

基于该多个第二视频片段中的每一个第二视频片段和该第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对该多个第二视频片段中的每一个第二视频片段分别进行扩展，以得到该多个第二视频片段分别对应的多个第三视频片段；

基于该多个第三视频片段中每一个第三视频片段的场景类别，对该多个第三视频片段进行合并，以得到该多个第一视频片段。

通过基于视频帧序列中属于同一场景类别的连续视频帧，将待剪辑视频划分为多个第二视频片段，相当于，基于每一个视频帧的场景类别对待剪辑视频进行初步划分；基于每一个第二视频片段和该第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对该每一个第二视频片段分别进行扩展，得到多个第三视频片段，相当于，考虑到视频帧序列中相邻两个第二视频片段之间可能会存在场景类别识别错误的视频帧，通过扩展每一个第二视频片段，提高了视频帧场景类别识别的容错率，即提高剪辑片段的准确性；再基于该多个第三视频片段中每一个第三视频片段的场景类别，对多个第三视频片段进行合并，能够进一步提高剪辑片段的准确性。

在本申请的一些实施例中，基于该场景类别序列，得到多个子序列；该多个子序列中的每一个子序列包括属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧；针对该多个子序列中的每一个子序列，基于该子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳，剪辑待剪辑视频，以得到多个第二视频片段，该多个子序列分别对应该多个第二视频片段。

换言之，基于场景类别序列，将该场景类别系列划分为多个子序列，其中，每一个子序列包括属于同一场景类别的连续的视频帧、且该连续视频帧的数量大于第一预设阈值；再基于每一个子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳，构建连续场景的第二视频片段，即将待剪辑视频剪辑出多个第二视频片段，例如，该第一预设阈值可以是6帧，当然，也可以是其他数量，本申请对此不作具体限制。

通过划分视频帧序列中属于同一场景类别的连续视频帧、且该连续视频帧的数量大于第一预设阈值，将待剪辑视频划分为多个第二视频片段，相当于，考虑到基于每一个视频帧的场景类别对待剪辑视频进行初步划分。

在本申请的一些实施例中，针对该多个第二视频片段中的每一个第二视频片段，在该视频帧序列中，确定该第二视频片段和该第二视频片段的后一相邻视频片段之间是否存在和该第二视频片段中的视频帧的场景类别相同的至少一个视频帧；若存在该至少一个视频帧，则基于该至少一个视频帧中的最后一个视频帧的时间戳，将该第二视频片段和该最后一个视频帧之间的片段扩展至该第二视频片段，以得到该第二视频片段对应的第三视频片段；若不存在该至少一个视频帧，则将该第二视频片段确定为该第二视频片段对应的第三视频片段。

通过确定两个相邻的第二视频片段之间是否存在和两个相邻视频片段中的前一视频片段中的视频帧的场景类别相同的至少一个视频帧，相当于，考虑到两个相邻的第二视频片段之间是否存在场景类别识别错误的视频帧；若存在至少一个视频帧，则将两个相邻的第二视频片段中的前一视频片段扩展至至少一个视频帧中的最后一个视频帧，得到该前一视频片段对应的第三视频片段，能够提高视频帧场景类别识别的容错率，即提高剪辑片段的准确性。

在本申请的一些实施例中，基于该多个第三视频片段中每一个第三视频片段的场景类别，对该多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，以得到该多个第一视频片段。

通过对多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，相当于，考虑到经过扩展后的相同场景类别的相邻两个第三视频片段之间的视频帧很大可能存在场景类别识别错误，通过对相邻场景类别相同的相邻两个第三视频片段进行合并，能够进一步提高视频帧场景类别识别的容错率，从而进一步提高剪辑片段的准确性。

需要说明的是，也可以对多个第三视频片段中属于同一场景类别的、不相邻的第三视频片段进行合并，以得到多个第一视频片段。

在本申请的一些实施例中，S205可包括：

在该多个第一视频片段中，确定评分大于第二预设阈值的多个第四视频片段；该视频片段的评分用于表征该视频片段满足该视频集锦的收录要求的评分；

按时间顺序拼接该多个第四视频片段，以得到该待剪辑视频的视频集锦。

通过从多个第一视频片段中，筛选出评分大于第二预设阈值的多个第四视频片段，能够保证最后剪辑后的视频为该待剪辑视频的精彩集锦。

需要说明的是，示例性的，该评分可以是美学评分，例如，视频的分辨率、视频的流畅度，分辨率高的视频或流畅性好的视频评分较高，分辨率低或卡顿的视频评分较低；另一示例性的，该评分也可以是球赛评分，例如，足球视频中进球的片段评分高，射门的片段评分较高，正常传球的片段评分较低，本申请对评分的种类不作具体限制。

在本申请的一些实施例中，针对该多个第一视频片段中的每一个第一视频片段，利用评价模型确定该第一视频片段中的每一个视频帧的评分；针对该多个第一视频片段中的每一个第一视频片段，将该第一视频片段中的所有视频帧的平均评分，确定为该第一视频片段的评分；将该多个第一视频片段中的评分大于该第二预设阈值的第一视频片段，确定为多个第四视频片段。

例如，该评分可以是美学评分，首先，将多个第一视频片段中的每一个第一视频片段包括的视频帧子序列输入到美学评价网络模型中，输出对应视频帧子序列中的每一个视频帧的美学评分，其次，将每个视频帧子序列中所有视频帧的平均美学评分，确定为该第一视频片段的美学评分，最后，再从多个第一视频片段中筛选出美学评分高于第二预设阈值的视频片段，以得到多个第四视频片段，其中，美学评分越高美学质量越高；例如，美学评分的分数划分可以为1至10分，该第二阈值可以为5分。

通过从多个第一视频片段中，筛选出评分大于第二预设阈值的多个第四视频片段，能够提高剪辑后的视频集锦的质量，进一步确保生成精彩集锦。

在本申请的一些实施例中，S205可包括：

对该多个第一视频片段分别进行镜头切换过滤，以得到多个第五视频片段；

按时间顺序拼接该多个第五视频片段，以得到该待剪辑视频的视频集锦。

换言之，在多个第一视频片段中，分别删除发生镜头切换的视频片段，以得到多个第五视频片段，再按时间顺序拼接该多个第五视频片段，以得到该待剪辑视频的视频集锦。

在本申请的一些实施例中，针对该多个第一视频片段中的每一个第一视频片段，在位于该第一视频片段的首部的第一时间内进行抽帧、且在位于该第一视频片段的尾部的第二时间内进行抽帧，以得到多个视频帧；确定该多个视频帧中相邻的两个视频帧的直方图数据；将该相邻的两个视频帧的直方图数据之间的相似度，确定为该相邻的两个视频帧的相关系数；基于该相邻的两个视频帧的相关系数，对该第一视频片段进行剪辑，以得到该第一视频片段对应的第五视频片段。

示例性的，以一个第一视频片段为例，例如，第一视频片段在待剪辑视频中位于第20s至30s，第一时间可以为20s至20.5s，第二时间可以为29.5s至30s，首先，可以在位于该第一视频片段的首部的20s至20.5s内以固定频率（如10帧/秒）进行抽帧、在位于该第一视频片段的尾部的29.5s至30s内以固定频率（如10帧/秒）内进行抽帧，以得到该第一视频片段对应的多个视频帧；其次，再利用开放源代码计算机视觉类库（open source computervision library，OpenCV）计算该多个视频帧中相邻的两个视频帧的直方图数据，再计算相邻两个视频帧的直方图数据的相似度，并将该相似度确定为该相邻两个视频帧的相关系数，最后，再基于该相邻两个视频帧的相关系数，对该第一视频片段进行剪辑，以得到该第一视频片段对应的第五视频片段。

需要说明的是，直方图数据是用来表示数字图像中亮度分布的直方图，标绘了图像中每个亮度值的像素数，是图像中像素强度分布的图形表达方式。直方图统计了每一个强度值所具有的像素个数，直方图广泛应用于许多计算机视觉应用中，通过标记帧和帧之间显著的边缘和颜色的统计变化，来检测视频中场景的变换。

在本申请的一些实施例中，若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第一时间段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中前一视频帧之前的片段，以得到该第一视频片段对应的第五视频片段；若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第二时间段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段，以得到该第一视频片段对应的第五视频片段。

换言之，首先，通过判断在第一视频片段的首尾抽取的多个视频帧中是否存在相关系数小于第三预设阈值的相邻的两个视频帧，相当于，判断该第一视频片段的首尾是否发生镜头切换，其次，若存在相关系数小于第三预设阈值的相邻的两个视频帧、且该相邻的两个视频帧位于该第一时间段内，相当于，确定该相邻的两个视频帧发生了镜头切换，再根据该相邻的两个视频帧的位置，采用不同的过滤方案进行过滤，即若相邻的两个视频帧位于该第一时间段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中前一视频帧之前的片段，以得到该第一视频片段对应的第五视频片段，若该相邻的两个视频帧位于该第二时间段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段，以得到该第一视频片段对应的第五视频片段；例如，该第三预设阈值可以是0.5，即若相邻的两个视频帧的相关系数小于0.5，则该相邻的两个视频帧发生镜头切换。

针对每一个第一视频片段，通过基于计算该第一视频片段抽取的多个视频帧中的相邻两个视频帧的相关系数，确定该相邻两个视频帧是否发生镜头切换，在确定该相邻的两个视频帧发生镜头切换后，基于该相邻的两个视频帧的位置，采用不同的过滤方案进行过滤，能够进一步提高剪辑后视频片段的质量，提升用户的主观体验。

在本申请的一些实施例中，S205可包括：

对该多个第一视频片段进行相似场景去重，以得到多个第六视频片段；

对该多个第六视频片段，按时间顺序进行拼接，以得到该待剪辑视频的视频集锦。

在本申请的一些实施例中，将该多个第一视频片段中的首个第一视频片段，确定为当前片段；确定该当前片段中的最后一个视频帧的直方图数据和该当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据；将该最后一个视频帧的直方图数据和该第一个视频帧的直方图数据之间的相似度，确定为该最后一个视频帧和该第一个视频帧的相关系数；若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值，则判断该当前片段和该后一相邻第一视频片段是相似视频片段，并删除该当前片段和该后一相邻第一视频片段中评分低的视频片段，并将该当前片段和该后一相邻第一视频片段中评分高的视频片段确定为该当前片段；若该最后一个视频帧和该第一个视频帧的相关系数小于或等于第四预设阈值，则保留该当前片段和该后一相邻第一视频片段，且将该后一相邻第一视频片段确定为该当前片段；在该当前片段相邻的后一相邻第一视频片段为空时，将保留的视频片段确定为该多个第六视频片段。

换言之，通过该当前片段中的最后一个视频帧的直方图数据和该当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据，确定该最后一个视频帧和该第一个视频帧的相关系数；若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值，则删除该当前片段和该后一相邻第一视频片段中评分低的视频片段，并将该当前片段和该后一相邻第一视频片段中评分高的视频片段重新确定为当前片段；若该最后一个视频帧和该第一个视频帧的相关系数小于或等于第四预设阈值，则保留该当前片段和该后一相邻第一视频片段，且将该后一相邻第一视频片段重新确定为当前片段；由此，不仅能够对该当前片段和该当前片段的后一相邻第一视频片段进行相似场景去重，还便于对重新确定的当前片段和该重新确定的当前片段的后一相邻第一视频片段进行相似场景去重，直至重新确定的当前片段相邻的后一相邻第一视频片段为空，将保留的视频片段确定为所述多个第六视频片段。

示例性的，从多个第一视频片段中的第一个第一视频片段开始，将第一个第一视频片段确定为当前片段，取当前片段最后一帧与后一相邻第一视频片段第一帧，利用OpenCV计算两个视频帧的颜色直方图数据，进而确定两个视频帧的相关系数。若相关系数超过第四预设阈值（例如0.8），则认为当前片段与后一相邻第一视频片段为相似视频片段，此时比较当前片段与后一相邻第一视频片段的评分，去除评分低的视频片段，保留评分高的视频片段，并将评分高的视频片段指定为当前片段；若相关性不超过第四预设阈值，则保留当前片段与后一相邻第一视频片段，并将当前片段指定为该后一相邻视频片段，直到比较完最后一个第一视频片段，以得到多个第六视频片段。

通过对多个第一视频片段进行相似场景去重，能够进一步提高剪辑后视频片段的质量，提升用户的主观体验。

图3是本申请实施例提供的视频剪辑的系统框架300的示例。

需要说明的是，本申请实施例提供的系统框架300可以集成在终端设备中，也可以集成在服务器中，本申请对此不作具体限制。

下边以集成在终端设备中为例进行详细说明。

需要说明的是，该终端设备包括但不限于智能移动电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal Digital Assistant，PDA）、电子书（electronicbook，E-book）等，本申请对此不作具体限制。例如，图1所示的终端设备。

如图3所示，该系统框架300可包括抽帧模块310、图像场景分割模块320、第一后处理模块330、图像美学评价模块340、第二后处理模块350、镜头切换检测模块360、相似场景去重模块370以及拼接模块380。

其中，抽帧模块310可用于对获取的待剪辑视频进行抽帧，以得到视频帧序列。

图像场景分割模块320可用于图像场景分割，即将获取的视频帧序列，利用场景分割模型得到该视频帧序列对应的场景类别序列。

第一后处理模块330可用于基于图像场景分割模块320输出的场景类别序列将待剪辑视频划分为多个第一视频片段。具体而言，基于获取的场景类别序列，将待剪辑视频按照场景类别划分为多个第一视频片段；例如，可以基于场景类别序列，将属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧划分为一个视频片段，以得到多个视频片段，将该多个视频片段分别确定为多个第一视频片段；再如，可以将待剪辑视频基于属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧划分后的多个视频片段再分别进行扩展，将扩展后的多个视频片段再进行同类型合并，以得到多个第一视频片段，或者将扩展后的多个视频片段直接确定为多个第一视频片段。

图像美学评价模块340可用于图像美学评估，即将获取的多个第一视频片段中的每一个第一视频片段，利用美学评价模型，输出每一个第一视频片段中的每一个视频帧的美学评分。

第二后处理模块350可用于基于图像美学评价模块340得到的每一个第一视频片段中的每一个视频帧的美学评分对该多个第一视频片段进行筛选，以得到评分较高的视频片段。具体而言，首先，针对多个第一视频片段中的每一个第一视频片段，计算第一视频片段中的所有视频帧的平均美学评分，并将所有视频帧的平均美学评分，确定为该第一视频片段的美学评分；其次，在多个第一视频片段中，将评分大于第二预设阈值的视频片段，确定为多个第四视频片段。

镜头切换检测模块360可用于场景切换检测。具体而言，针对多个第四视频片段中的每一个第四视频片段，首先，对该第四视频片段进行首尾抽帧，获取多个视频帧；其次，确定多个视频帧中的相邻两个视频帧的相关系数，若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于第四视频片段的尾部，则删除该第四视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段，以得到该第四视频片段对应的第五视频片段；若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于第四视频片段的首部，则删除该第四视频片段中的、位于该相邻的两个视频帧中前一视频帧之前的片段，以得到该第四视频片段对应的第五视频片段，该相关系数用于表征相邻两个视频帧的帧间相似度。

相似场景去重模块370可用于将镜头切换检测模块360输出的多个第五视频片段中场景相似的视频片段进行去重。具体地，在获取的多个第五视频片段，将第一个第五视频片段作为当前片段，确定当前片段和后一相邻视频片段是否为相似场景视频片段，若是相似场景视频片段，则删除该当前片段和该后一相邻视频片段中评分低的视频片段，并将该当前片段和该后一相邻视频片段中评分高的视频片段确定为该当前片段，再去继续确定当前片段和后一相邻视频片段是否为相似场景视频片段；若不是相似视频片段，则保留所该当前片段和该后一相邻视频片段，且将该后一相邻视频片段确定为该当前片段，再去继续确定当前片段和后一相邻视频片段是否为相似场景视频片段；直至该当前片段相邻的后一相邻视频片段为空时，将保留的视频片段确定为该多个第六视频片段。

拼接模块380可用于按时间顺序将多个第六视频片段进行拼接，得到待剪辑视频对应的视频集锦。

基于以上技术方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于该场景类别序列自动从一长段微录（vlog）待剪辑视频中分割出不同场景、具备较高美学质量的视频片段，进一步的，基于颜色直方图进行了瞬时镜头切换检测和相似场景去重，自动生成待剪辑视频对应的精彩集锦；一方面，通过对待剪辑视频的自动划分及拼接生成待剪辑视频对应的视频集锦，实现智能剪辑，替代了在实际业务场景中的人工操作，不仅节约大量的人工成本，而且提升视频剪辑的效率；另一方面，相对于目前需要用户提前裁剪的视频剪辑方案，用户输入完整的待剪辑视频，可以直接获取剪辑后的视频集锦，无需用户对待剪辑视频进行提前处理，且避免用户提供超过固定时长的素材被自动截断的情况，在提升视频剪辑效率的同时，提升用户体验。

此外，基于图像美学评价模块、镜头切换检测模块及相似场景去重模块对待剪辑视频划分后的视频片段做进一步处理，能够进一步提高剪辑后视频片段的质量，从而进一步提升用户的主观体验。

为便于理解，下面对本申请实施例中的相关术语进行说明。

图像场景分割：用于区分图像所属的不同场景类型。

图像美学评估：用于评估图像美学价值的高度。

场景切换检测：用于找到视频中场景快速切换的时刻

智能剪辑：使用算法模型自动选取出视频中所有的精彩时刻片段。

需要说明的是，在以上的描述中，所涉及的术语“第一\第二\第三\第四\第五\第六”仅仅是区别类似的对象，不代表针对对象的特定排序，应理解，“第一\第二\第三\第四\第五\第六”在允许的情况下可以互换特定的顺序或先后次序，不应成为本申请的限制。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的装置进行说明。

图4是本申请实施例提供的视频剪辑装置400的示意性框图。

如图4所示，该视频剪辑装置400包括：

获取单元410，获取待剪辑视频；

抽帧单元420，对该待剪辑视频进行抽帧，得到视频帧序列；

识别单元430，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；

划分单元440，基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；

拼接单元450，按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

在本申请的一些实施例中，划分单元440具体可用于：

在本申请的一些实施例中，划分单元440具体还可用于：

基于该场景类别序列，得到多个子序列；该多个子序列中的每一个子序列包括属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧；

针对该多个子序列中的每一个子序列，基于该子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳，剪辑该待剪辑视频，以得到该多个第二视频片段，该多个子序列分别对应该多个第二视频片段。

在本申请的一些实施例中，装置400还可包括：

扩展单元，具体用于针对该多个第二视频片段中的每一个第二视频片段，在该视频帧序列中，确定该第二视频片段和该第二视频片段的后一相邻视频片段之间是否存在和该第二视频片段中的视频帧的场景类别相同的至少一个视频帧；若存在该至少一个视频帧，则基于该至少一个视频帧中的最后一个视频帧的时间戳，将该第二视频片段和该最后一个视频帧之间的片段扩展至该第二视频片段，以得到该第二视频片段对应的第三视频片段；若不存在该至少一个视频帧，则将该第二视频片段确定为该第二视频片段对应的第三视频片段。

在本申请的一些实施例中，装置400还可包括：

合并单元，具体可用于基于该多个第三视频片段中每一个第三视频片段的场景类别，对该多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，以得到该多个第一视频片段。

在本申请的一些实施例中，拼接单元450可用于：

在本申请的一些实施例中，装置400还可包括：

确定单元，具体用于针对该多个第一视频片段中的每一个第一视频片段，利用评价模型确定该第一视频片段中的每一个视频帧的评分；针对该多个第一视频片段中的每一个第一视频片段，将该第一视频片段中的所有视频帧的平均评分，确定为该第一视频片段的评分；将该多个第一视频片段中的评分大于该第二预设阈值的第一视频片段，确定为多个第四视频片段。

在本申请的一些实施例中，拼接单元450还可用于：

在本申请的一些实施例中，抽帧单元420还可用于：

针对该多个第一视频片段中的每一个第一视频片段，在位于该第一视频片段的首部的第一时间内进行抽帧、且在位于该第一视频片段的尾部的第二时间内进行抽帧，以得到多个视频帧；

确定该多个视频帧中相邻的两个视频帧的直方图数据；

将该相邻的两个视频帧的直方图数据之间的相似度，确定为该相邻的两个视频帧的相关系数。

基于该相邻的两个视频帧的相关系数，对该第一视频片段进行剪辑，以得到该第一视频片段对应的第五视频片段。

在本申请的一些实施例中，装置400还可包括：

剪辑单元，具体用于若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第一时间段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中前一视频帧之前的片段，以得到该第一视频片段对应的第五视频片段；若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第二时间段内，删除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段，以得到该第一视频片段对应的第五视频片段。

在本申请的一些实施例中，划分单元440具体还可用于：

在本申请的一些实施例中，确定单元具体还可用于：

将该多个第一视频片段中的首个第一视频片段，确定为当前片段；

确定该当前片段中的最后一个视频帧的直方图数据和该当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据；

将该最后一个视频帧的直方图数据和该第一个视频帧的直方图数据之间的相似度，确定为该最后一个视频帧和该第一个视频帧的相关系数；

若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值，则判断该当前片段和该后一相邻第一视频片段是相似视频片段，并删除该当前片段和该后一相邻第一视频片段中评分低的视频片段，并将该当前片段和该后一相邻第一视频片段中评分高的视频片段确定为该当前片段；

若该最后一个视频帧和该第一个视频帧的相关系数小于或等于第四预设阈值，则保留该当前片段和该后一相邻第一视频片段，且将该后一相邻第一视频片段确定为该当前片段；

在该当前片段相邻的后一相邻第一视频片段为空时，将保留的视频片段确定为该多个第六视频片段。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。例如，该装置400可以对应于执行本申请实施例的方法200的相应主体，并且该装置400中的各个单元分别为了实现方法200中的相应流程，再如，该装置400可对应系统框架300、中的相应模块或器件。为了简洁，在此不再赘述。

还应当理解，本申请实施例涉及的该装置400中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该装置400也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造本申请实施例涉及的该装置400，以及来实现本申请实施例的视频剪辑方法。其中，计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在其中运行，来实现本申请实施例的相应方法。

换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图5是本申请实施例提供的电子设备500的示意结构图。

如图5所示，该电子设备500至少包括处理器510以及计算机可读存储介质520。其中，处理器510以及计算机可读存储介质520可通过总线或者其它方式连接。计算机可读存储介质520用于存储计算机程序521，计算机程序521包括计算机指令，处理器510用于执行计算机可读存储介质520存储的计算机指令。处理器510是电子设备500的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

作为示例，处理器510也可称为中央处理器（Central Processing Unit，CPU）。处理器510可以包括但不限于：通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

作为示例，计算机可读存储介质520可以是高速RAM存储器，也可以是非不稳定的存储器（Non-VolatileMemory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器510的计算机可读存储介质。具体而言，计算机可读存储介质520包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在一种实现方式中，该电子设备500可以是图4所示的用于视频剪辑的装置400；该计算机可读存储介质520中存储有计算机指令；由处理器510加载并执行计算机可读存储介质520中存放的计算机指令，以实现图2所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质520中的计算机指令由处理器510加载并执行相应步骤，为避免重复，此处不再赘述。

根据本申请的另一方面，本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是电子设备500中的记忆设备，用于存放程序和数据。例如，计算机可读存储介质520。可以理解的是，此处的计算机可读存储介质520既可以包括电子设备500中的内置存储介质，当然也可以包括电子设备500所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备500的操作系统。并且，在该存储空间中还存放了适于被处理器510加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序521（包括程序代码）。

该电子设备500还可包括：收发器530，该收发器530可连接至该处理器510或计算机可读存储介质520。

其中，计算机可读存储介质520可以控制该收发器530与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器530可以包括发射机和接收机。收发器530还可以进一步包括天线，天线的数量可以为一个或多个。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。例如，计算机程序521。此时，电子设备500可以是计算机，处理器510从计算机可读存储介质520读取该计算机指令，处理器510执行该计算机指令，使得该计算机执行上述各种可选方式中提供的视频剪辑方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后需要说明的是，以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频剪辑方法，其特征在于，包括：

获取待剪辑视频；

对所述待剪辑视频进行抽帧，得到视频帧序列；

识别所述视频帧序列中的每一个视频帧的场景类别，以得到所述视频帧序列对应的场景类别序列；

基于所述场景类别序列对所述待剪辑视频进行划分，以得到多个第一视频片段；

按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦。

2.根据权利要求1所述的方法，其特征在于，所述基于所述场景类别序列对所述待剪辑视频进行划分，以得到多个第一视频片段，包括：

基于所述视频帧序列中属于同一场景类别的连续视频帧，将所述待剪辑视频划分为多个第二视频片段；

基于所述多个第二视频片段中的每一个第二视频片段和所述第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对所述多个第二视频片段中的每一个第二视频片段分别进行扩展，以得到所述多个第二视频片段分别对应的多个第三视频片段；

基于所述多个第三视频片段中每一个第三视频片段的场景类别，对所述多个第三视频片段进行合并，以得到所述多个第一视频片段。

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频帧序列中属于同一场景类别的连续视频帧，将所述待剪辑视频划分为多个第二视频片段，包括：

基于所述场景类别序列，得到多个子序列；所述多个子序列中的每一个子序列包括属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧；

针对所述多个子序列中的每一个子序列，基于所述子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳，剪辑所述待剪辑视频，以得到所述多个第二视频片段，所述多个子序列分别对应所述多个第二视频片段。

4.根据权利要求2所述的方法，其特征在于，所述基于所述多个第二视频片段中的每一个第二视频片段和所述第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对所述多个第二视频片段中的每一个第二视频片段分别进行扩展，以得到所述多个第二视频片段分别对应的多个第三视频片段，包括：

针对所述多个第二视频片段中的每一个第二视频片段，在所述视频帧序列中，确定所述第二视频片段和所述第二视频片段的后一相邻视频片段之间是否存在和所述第二视频片段中的视频帧的场景类别相同的至少一个视频帧；

若存在所述至少一个视频帧，则基于所述至少一个视频帧中的最后一个视频帧的时间戳，将所述第二视频片段和所述最后一个视频帧之间的片段扩展至所述第二视频片段，以得到所述第二视频片段对应的第三视频片段；

若不存在所述至少一个视频帧，则将所述第二视频片段确定为所述第二视频片段对应的第三视频片段。

5.根据权利要求2所述的方法，其特征在于，所述基于所述多个第三视频片段中每一个第三视频片段的场景类别，对所述多个第三视频片段进行合并，以得到所述多个第一视频片段，包括：

基于所述多个第三视频片段中每一个第三视频片段的场景类别，对所述多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，以得到所述多个第一视频片段。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦，包括：

在所述多个第一视频片段中，确定评分大于第二预设阈值的多个第四视频片段；所述视频片段的评分用于表征所述视频片段满足所述视频集锦的收录要求的评分；

按时间顺序拼接所述多个第四视频片段，以得到所述待剪辑视频的视频集锦。

7.根据权利要求6所述的方法，其特征在于，所述在所述多个第一视频片段中，确定评分大于第二预设阈值的多个第四视频片段，包括：

针对所述多个第一视频片段中的每一个第一视频片段，利用评价模型确定所述第一视频片段中的每一个视频帧的评分；

针对所述多个第一视频片段中的每一个第一视频片段，将所述第一视频片段中的所有视频帧的平均评分，确定为所述第一视频片段的评分；

将所述多个第一视频片段中的评分大于所述第二预设阈值的第一视频片段，确定为多个第四视频片段。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦，包括：

对所述多个第一视频片段分别进行镜头切换过滤，以得到多个第五视频片段；

按时间顺序拼接所述多个第五视频片段，以得到所述待剪辑视频的视频集锦。

9.根据权利要求8所述的方法，其特征在于，所述对所述多个第一视频片段分别进行镜头切换过滤，以得到多个第五视频片段，包括：

针对所述多个第一视频片段中的每一个第一视频片段，在位于所述第一视频片段的首部的第一时间内进行抽帧、且在位于所述第一视频片段的尾部的第二时间内进行抽帧，以得到多个视频帧；

确定所述多个视频帧中相邻的两个视频帧的直方图数据；

将所述相邻的两个视频帧的直方图数据之间的相似度，确定为所述相邻的两个视频帧的相关系数；

基于所述相邻的两个视频帧的相关系数，对所述第一视频片段进行剪辑，以得到所述第一视频片段对应的第五视频片段。

10.根据权利要求9所述的方法，其特征在于，所述基于所述相邻的两个视频帧的相关系数，对所述第一视频片段进行剪辑，以得到所述第一视频片段对应的第五视频片段，包括：

若所述相邻的两个视频帧的相关系数小于第三预设阈值且所述相邻的两个视频帧位于所述第一时间段内，则删除所述第一视频片段中的、位于所述相邻的两个视频帧中前一视频帧之前的片段，以得到所述第一视频片段对应的第五视频片段；

若所述相邻的两个视频帧的相关系数小于第三预设阈值且所述相邻的两个视频帧位于所述第二时间段内，则删除所述第一视频片段中的、位于所述相邻的两个视频帧中后一视频帧之后的片段，以得到所述第一视频片段对应的第五视频片段。

11.根据权利要求1至5中任一项所述的方法，其特征在于，所述按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦，包括：

对所述多个第一视频片段进行相似场景去重，以得到多个第六视频片段；

对所述多个第六视频片段，按时间顺序进行拼接，以得到所述待剪辑视频的视频集锦。

12.根据权利要求11所述的方法，其特征在于，所述对所述多个第一视频片段进行相似场景去重，以得到多个第六视频片段，包括：

将所述多个第一视频片段中的首个第一视频片段，确定为当前片段；

确定所述当前片段中的最后一个视频帧的直方图数据和所述当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据；

将所述最后一个视频帧的直方图数据和所述第一个视频帧的直方图数据之间的相似度，确定为所述最后一个视频帧和所述第一个视频帧的相关系数；

若所述最后一个视频帧和所述第一个视频帧的相关系数大于第四预设阈值，则判断所述当前片段和所述后一相邻第一视频片段是相似视频片段，并删除所述当前片段和所述后一相邻第一视频片段中评分低的视频片段，并将所述当前片段和所述后一相邻第一视频片段中评分高的视频片段确定为所述当前片段；

若所述最后一个视频帧和所述第一个视频帧的相关系数小于或等于第四预设阈值，则保留所述当前片段和所述后一相邻第一视频片段，且将所述后一相邻第一视频片段确定为所述当前片段；

在所述当前片段相邻的后一相邻第一视频片段为空时，将保留的视频片段确定为所述多个第六视频片段。

13.一种视频剪辑装置，其特征在于，包括：

获取单元，获取待剪辑视频；

抽帧单元，对所述待剪辑视频进行抽帧，得到视频帧序列；

识别单元，识别所述视频帧序列中的每一个视频帧的场景类别，以得到所述视频帧序列对应的场景类别序列；

划分单元，基于所述场景类别序列对所述待剪辑视频进行划分，以得到多个第一视频片段；

拼接单元，按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦。

14.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至12中任一项所述的方法。