CN113709561B

CN113709561B - 视频剪辑方法、装置、设备及存储介质

Info

Publication number: CN113709561B
Application number: CN202110399118.6A
Authority: CN
Inventors: 张韵璇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2024-04-19
Anticipated expiration: 2041-04-14
Also published as: CN113709561A

Abstract

本申请实施例提供一种视频剪辑方法、装置、设备及存储介质，涉及人工智能和云技术领域。方法包括：对待剪辑视频进行视频识别处理，得到待剪辑视频的至少一种模态特性信息和待剪辑视频中的每一视频帧对应的视频场景信息；根据每一种模态特征信息，在待剪辑视频中确定出至少一个高消剧情点和与每一高消剧情点对应的候选视频片段；对与模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段；根据视频场景信息，确定出包含每一目标视频片段的精彩视频片段的起始位置和终止位置；根据起始位置和终止位置对待剪辑视频进行剪辑，得到剪辑视频片段。通过本申请，能够高效且准确的定位出待剪辑视频中的精彩视频片段。

Description

视频剪辑方法、装置、设备及存储介质

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种视频剪辑方法、装置、设备及存储介质。

背景技术

随着信息流产品的高速发展和应用，在此背景下短/小视频消费需求不断增加。信息流产品中的信息流视频中，大部分的产量和消费都来自于长视频(例如，影视剧或综艺节目)内容的片段剪辑。具体表现为内容创作者从已发行的版权影视剧内容中切割出2-15分钟长度的精彩视频片段，并对精彩视频片段加上标题和封面图组织成一条短视频内容。

相关技术中短视频的生成主要依赖于人工，或者，用到一些算法减轻人工操作，比如利用传统镜头转换算法进行长视频自动分割(例如，基于RGB直方图差异的传统算法)，或者，利用视频理解对不同片段打上标签。

但是，相关技术中人工生成短视频的方法效率低下，对于一部用户没有看过的影视剧，如果想短时间理解剧情，找到能够获得高消费的片段是很困难的；而基于RGB直方图差异的传统算法则不能融合视频时域上的信息，在复杂场景的镜头转换上精度较低；对视频理解并加标签的方法定位精彩视频片段的效率较低，且准确率也较低。

发明内容

本申请实施例提供一种视频剪辑方法、装置、设备及存储介质，涉及人工智能和云技术领域。在待剪辑视频中定位出与每一模态特征信息对应的候选视频片段，对候选视频片段进行融合，并基于视频场景信息确定出精彩视频片段的起始位置和终止位置，进而实现对精彩视频片段的剪辑，如此，由于融合了不同模态特征信息下的候选视频片段和视频帧的视频场景信息，进行精彩视频片段的定位，从而能够高效且准确的定位出待剪辑视频中的精彩视频片段。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频剪辑方法，所述方法包括：

对待剪辑视频进行视频识别处理，得到所述待剪辑视频的至少一种模态特性信息和所述待剪辑视频中的每一视频帧对应的视频场景信息；

根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段；

对与所述至少一种模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段；

根据所述视频场景信息，确定出包含每一所述目标视频片段的精彩视频片段的起始位置和终止位置；

根据所述起始位置和所述终止位置对所述待剪辑视频进行剪辑，得到剪辑视频片段。

本申请实施例提供一种视频剪辑装置，所述装置包括：

视频识别模块，用于对待剪辑视频进行视频识别处理，得到所述待剪辑视频的至少一种模态特性信息和所述待剪辑视频中的每一视频帧对应的视频场景信息；

第一确定模块，用于根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段；

融合处理模块，用于对与所述至少一种模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段；

第二确定模块，用于根据所述视频场景信息，确定出包含每一所述目标视频片段的精彩视频片段的起始位置和终止位置；

剪辑模块，用于根据所述起始位置和所述终止位置对所述待剪辑视频进行剪辑，得到剪辑视频片段。

本申请实施例提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；其中，计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器用于执行所述计算机指令，实现上述的视频剪辑方法。

本申请实施例提供一种视频剪辑设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的视频剪辑方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的视频剪辑方法。

本申请实施例具有以下有益效果：对待剪辑视频进行视频识别处理，得到待剪辑视频的至少一种模态特性信息；并基于所得到的每一种模态特征信息，在待剪辑视频中定位出高消剧情点和候选视频片段；对与全部模态特征信息对应的候选视频片段进行融合处理得到至少一段目标视频片段，并基于待剪辑视频中的每一视频帧对应的视频场景信息，实现对精彩视频片段的剪辑。如此，由于融合了待剪辑视频的不同模态特征信息下的候选视频片段进行精彩视频片段的定位，且根据视频场景信息对待剪辑视频进行基于场景信息的视频片段划分，从而能够高效且准确的定位出待剪辑视频中的精彩视频片段。

附图说明

图1是本申请实施例提供的视频剪辑系统的一个可选的架构示意图；

图2是本申请实施例提供的视频剪辑设备的结构示意图；

图3是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图4是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图5是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图6是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图7是本申请实施例提供的高效片段自动剪辑产品的GUI示意图；

图8是本申请实施例提供的基于多模态特征的精彩视频片段定位方法的流程示意图；

图9是本申请实施例提供的长视频网站人工运营添加的剧情点示意图；

图10是本申请实施例提供的基于音频的高消剧情点识别效果示意图；

图11是本申请实施例提供的某电视剧中某一集的视频长对短结果示意图；

图12是本申请实施例提供的基于影视剧场景分割算法的场景分割结果示意图；

图13是本申请实施例提供的在电视剧《XXX》某一集上对演员A的人脸识别与聚合结果示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在解释本申请实施例之前，首先对本申请中涉及的名词及关键术语进行解释：

1)高消片段：即精彩视频片段，对应本申请实施例中的候选视频片段，是指可以引起观众强烈兴趣的片段。比如预告片(对应本申请实施例中最终得到的剪辑视频片段)就是糅合了正片中的高消片段所得到的视频片段。

2)信息流产品：信息＝内容(例如，短视频、新闻、商品等)，流＝瀑布流+数据流(其中，瀑布流是指不用不断刷新滑动，类似于瀑布源，给用户呈现新的内容。数据流是指用户的行为数据、基础信息、手机型号、浏览习惯等等这些信息，且这些信息都会被记录存储，从而更好的为用户推送合适的内容，也就是通常的兴趣推荐)。比如资讯应用中的热点资讯、点评应用中的推荐餐厅、推荐应用中的种草笔记等等，都是信息流产品的具体形态。

相关技术中，在对长视频进行剪辑得到高消片段时，通常是采用人工方式进行人工剪辑，或者，也会利用到一些算法来减轻人工操作，比如利用传统镜头转换算法进行长视频自动分割，或者，利用视频理解对不同片段打上标签。

但是，相关技术中的上述方法均存在效率低下且视频剪辑的精度和准确度较低的问题。

基于相关技术中所存在的上述问题，本申请实施例提供一种视频剪辑方法，该方法使用基于模型的镜头转换检测算法，经过试验证明能够更好的融合时域上的信息，在复杂场景的镜头转换上拥有更高的精度，并且，使用多模态视频理解算法，在视觉信息的基础上结合了音频和弹幕等信息，更加高效的定位高消片段。

本申请实施例提供的视频剪辑方法，首先，对待剪辑视频进行视频识别处理，得到待剪辑视频的至少一种模态特性信息和待剪辑视频中的每一视频帧对应的视频场景信息；然后，根据每一种模态特征信息，在待剪辑视频中确定出至少一个高消剧情点和与每一高消剧情点对应的候选视频片段；再然后，对与至少一种模态特征信息对应的候选视频片段进行融合处理，得到至少一段目标视频片段；根据视频场景信息，确定出包含每一目标视频片段的精彩视频片段的起始位置和终止位置；最后，根据起始位置和终止位置对待剪辑视频进行剪辑，得到剪辑视频片段。如此，由于融合了待剪辑视频的不同模态特征信息下的候选视频片段进行精彩视频片段的定位，且根据视频场景信息对待剪辑视频进行基于场景信息的视频片段划分，从而能够高效且准确的定位出待剪辑视频中的精彩视频片段。

下面说明本申请实施例的视频剪辑设备的示例性应用，在一种实现方式中，本申请实施例提供的视频剪辑设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人、车载计算机、可穿戴电子设备、智能家居、VR/AR设备等任意的具备数据处理、视频播放和视频剪辑功能的终端；在另一种实现方式中，本申请实施例提供的视频剪辑设备还可以实施为服务器。下面，将说明视频剪辑设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的视频剪辑系统10的一个可选的架构示意图。为实现对待剪辑视频进行剪辑，得到待剪辑视频中的精彩视频片段，本申请实施例提供的视频剪辑系统10中包括终端100、网络200和服务器300，终端100上运行有视频播放应用，该视频播放应用能够实现对待剪辑视频进行播放，或者，终端上具有视频生成应用，该视频生成应用能够生成完整的待剪辑视频。本申请实施例中，用户可以在终端100上的应用客户端进行操作，生成视频剪辑请求，其中该视频剪辑请求用于请求对待剪辑视频进行剪辑，并通过网络200将视频剪辑请求发送给服务器300。视频剪辑请求中包括待剪辑视频，服务器300对视频剪辑请求进行解析得到待剪辑视频，并采用本申请实施例提供的视频剪辑方法对待剪辑视频进行剪辑，得到最终的剪辑视频片段。

本申请实施例中，服务器300在响应视频剪辑请求进行视频剪辑时，首先，服务器300对待剪辑视频进行视频识别处理，得到待剪辑视频的至少一种模态特性信息和待剪辑视频中的每一视频帧对应的视频场景信息；然后，服务器300根据每一种模态特征信息，在待剪辑视频中确定出至少一个高消剧情点和与每一高消剧情点对应的候选视频片段；再然后，服务器300对与至少一种模态特征信息对应的候选视频片段进行融合处理，得到至少一段目标视频片段；并根据视频场景信息，确定出包含每一目标视频片段的精彩视频片段的起始位置和终止位置；最后，服务器300根据起始位置和终止位置对待剪辑视频进行剪辑，得到剪辑视频片段。在得到剪辑视频片段之后，服务器300通过网络200将剪辑视频片段发送给终端100，终端100在当前界面100-1上播放该剪辑视频片段。

本申请实施例所提供的视频剪辑方法还可以基于云平台并通过云技术来实现，例如，上述服务器可以是云端服务器，通过云端服务器对待剪辑视频进行剪辑，得到剪辑视频片段。或者，还可以具有云端存储器，可以将待剪辑视频、待剪辑视频的模态特征信息和剪辑视频片段等信息存储于云端存储器中。这样，当需要再次对待剪辑视频进行剪辑时，则可以直接从云端存储器中获取与该待剪辑视频对应的剪辑视频片段。

这里需要说明的是，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请实施例提供的视频剪辑方法还还涉及人工智能技术领域，通过人工智能技术来确定出对应于待剪辑视频的剪辑视频片段，即可以通过人工智能技术对待剪辑视频进行剪辑，得到剪辑视频片段，或者可以采用人工智能技术对待剪辑视频进行视频识别处理，得到待剪辑视频的至少一种模态特性信息和待剪辑视频中的每一视频帧对应的视频场景信息；或者，可以采用人工智能技术在待剪辑视频中定位出候选视频片段或目标视频片段；或者，可以采用人工智能技术确定待剪辑视频中的每一视频帧对应的视频场景信息；或者，可以采用人工智能技术确定出包含每一目标视频片段的精彩视频片段的起始位置和终止位置。在一些实施例中，还可以通过人工智能技术训练一视频剪辑模型，通过该视频剪辑模型来实现本申请实施例的视频剪辑方法，即通过该视频剪辑模型来自动生成剪辑视频片段。

本申请实施例中，至少可以通过人工智能技术中的计算机视觉技术、语音技术和自然语言处理技术来实现。其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术，语音技术让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。自然语言处理技术(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向，自然语言处理技术研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

图2是本申请实施例提供的视频剪辑设备的结构示意图，图2所示的视频剪辑设备包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。视频剪辑设备中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可采用软件方式实现，图2示出了存储在存储器350中的一种视频剪辑装置354，该视频剪辑装置354可以是视频剪辑设备中的视频剪辑装置，其可以是程序和插件等形式的软件，包括以下软件模块：视频识别模块3541、第一确定模块3542、融合处理模块3543、第二确定模块3544和剪辑模块3545，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频剪辑方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面将结合本申请实施例提供的视频剪辑设备的示例性应用和实施，说明本申请实施例提供的视频剪辑方法，其中，该视频剪辑设备可以是任意一种具备数据处理、视频播放和视频剪辑功能的终端，或者也可以是服务器，即本申请实施例的视频剪辑方法可以通过终端来执行，也可以通过服务器来执行，或者还可以通过终端与服务器进行交互来执行。

参见图3，图3是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，下面将结合图3示出的步骤进行说明，需要说明的是，图3中的视频剪辑方法是通过服务器作为执行主体来实现的。

步骤S301，对待剪辑视频进行视频识别处理，得到待剪辑视频的至少一种模态特性信息和待剪辑视频中的每一视频帧对应的视频场景信息。

这里，模态特征信息是指待剪辑视频在任意一种模态下的特征信息，例如，模态可以包括视频帧图像、文本和音频等模态，模态特征信息包括待剪辑视频与视频帧图像对应的特征信息、与待剪辑视频中的文本对应的特征信息和与待剪辑视频中的音频对应的特征信息。本申请实施例中，在同一种模态下，可以具有多个模态特征信息，或者在同一种模态下可以具有不同的模态特征信息，例如，在文本模态下，可以具有与待剪辑视频的多个字幕对应的不同的模态特征信息，还可以具有与待剪辑视频的多个弹幕对应的不同的模态特征信息，还可以具有与待剪辑视频中所显示的图案中的多个文字对应的不同的模态特征信息，还可以具有对待剪辑视频进行视频内容识别后的内容的多个描述信息对应的不同的模态特征信息等。

本申请实施例中，对待剪辑视频进行视频识别处理可以是基于不同的模态采用不同的识别方法。例如，当模态为视频帧图像时，视频识别处理可以是基于图像识别技术的视频识别处理；当模态为文本时，视频识别处理可以是基于文本识别技术的视频识别处理；当模态为音频时，视频识别处理可以是基于音频识别技术的视频识别处理。本申请实施例中，可以同时基于多种识别方法对待剪辑视频进行识别，从而得到多种模态特征信息。

模态特征信息与待剪辑视频中的至少一个视频片段之间具有映射关系，该映射关系可以是在生成待剪辑视频时已经预设的映射关系，例如，当模态特征信息为弹幕信息时，则弹幕信息与弹幕出现的位置所对应的视频片段之间具有该映射关系；当模态特征信息为音频信息时，则音频信息与该音频信息对应的视频片段之间具有该映射关系。

本申请实施例中，待剪辑视频中的每一视频帧对应一视频场景信息，视频场景信息用于指示该视频帧所发生在何种场景下，不同视频帧之间的视频场景信息可以相同，也可以不同。连续的多个视频帧可以具有相同的视频场景信息。举例来说，视频场景信息可以是打斗场景、吵架场景、学习场景或游戏场景等，或者视频场景信息可以对应一固定的位置，例如一间咖啡厅、一个客厅或一个小树林等。

需要说明的是，由于影视剧通常是基于镜头切换来实现对连续画面的分隔，也就是说，在同一镜头下，通常会具有相同的视频场景信息，在镜头切换之后，视频场景信息可以改变，也可能不变。并且，由于一个镜头具有一定的时长或延时性，同一镜头下可以具有多帧视频帧，因此，同一镜头下的多帧视频帧具有相同的视频场景信息。

本申请实施例中，确定待剪辑视频中的每一视频帧对应的视频场景信息，可以是首先对待剪辑视频进行分帧处理，得到每一视频帧，然后通过对每一视频帧进行识别，例如可以进行图像识别和文本识别，确定视频帧中所包括的内容，进而确定出该视频帧的视频场景信息。或者，也可以基于人工智能技术，通过预先训练的视频帧识别模型，对视频帧进行识别和分类，得到该视频帧的视频场景信息。

步骤S302，根据每一种模态特征信息，在待剪辑视频中确定出至少一个高消剧情点和与每一高消剧情点对应的候选视频片段。

本申请实施例中，可以基于每一种模态特征信息均定位出一个或多个高消剧情点，每一高消剧情点对应一高消片段，该高消片段即候选视频片段。当视频识别处理得到多种模态特征信息时，则可以对应定位得到多个候选视频片段。

本申请实施例中，在定位候选视频片段时，可以基于模态特征信息、和模态特征信息与高消剧情点或者视频片段之间的映射关系，从待剪辑视频中直接定位到高消剧情点或者候选视频片段，也就是说，当模态特征信息确定时，由于模态特征信息与高消剧情点或者视频片段之间的映射关系为预设的映射关系，因此可以基于模态特征信息和映射关系，直接从待剪辑视频中定位出高消剧情点和候选视频片段。

步骤S303，对与至少一种模态特征信息对应的候选视频片段进行融合处理，得到至少一段目标视频片段。

这里，由于待剪辑视频可以具有多种模态特征信息，通过每一种模态特征信息均可以定位出至少一段候选视频片段，因此，可以将采用不同的模态特征信息确定出的候选视频片段集合进行融合，得到最终的目标视频片段，其中，最终确定出的目标视频片段可以为至少一段。

本申请实施例中，由于基于每一种模态特征信息确定出的候选视频片段的精彩度不同，可能确定出的候选视频片段并不是最精彩的视频片段，或者也并不是精彩视频片段，即存在定位不准确的问题。因此，可以对候选视频片段集合中的候选视频片段进行融合，从而得到更加准确的精彩视频片段，或者筛选出候选视频片段集合中最精彩的视频片段。

对候选视频片段集合进行融合，可以是将候选视频片段集合中的相同的候选视频片段删除，仅保留多个相同候选视频片段中的一个即可，或者在候选视频片段集合中筛选出出现频率最高的候选视频片段，或者还可以确定候选视频片段集合中的每一候选视频片段的精彩程度，将最精彩的或者精彩程度位于前特定数量的候选视频片段确定为最终的目标视频片段。

步骤S304，根据视频场景信息，确定出包含每一目标视频片段的精彩视频片段的起始位置和终止位置。

这里，可以将具有相同视频场景信息且连续的多帧视频帧所形成的视频片段，确定为精彩视频片段，且精彩视频片段中至少包括该目标视频片段。也就是说，从待剪辑视频中分割出属于同一场景且包含目标视频片段的一段视频片段作为精彩视频片段。

在确定出精彩视频片段之后，获取精彩视频片段的起始位置和终止位置。

需要说明的是，由于精彩视频片段中至少包括目标视频片段，因此，精彩视频片段的起始位置可以是目标视频片段的起始位置，或者还可以是待剪辑视频中位于目标视频片段的起始位置之前的任一位置；精彩视频片段的终止位置可以是目标视频片段的终止位置，或者还可以是待剪辑视频中位于目标视频片段的终止位置之后的任一位置。

步骤S305，根据起始位置和终止位置对待剪辑视频进行剪辑，得到剪辑视频片段。

这里，在确定出起始位置和终止位置之后，从待剪辑视频中将起始位置与终止位置之间的视频片段剪辑出来，得到该剪辑视频片段。

在一些实施例中，当目标视频片段为多个时，可以分别确定出每一目标视频片段的起始位置和终止位置；然后剪辑出与每一目标视频片段对应的精彩视频片段，得到多个精彩视频片段；最后将多个精彩视频片段进行拼接，得到该剪辑视频片段。在拼接时，可以按照每段精彩视频片段在待剪辑视频中的位置的先后顺序，对多个精彩视频片段进行拼接，或者，还可以为每一段精彩视频片段确定出一精彩值，按照精彩值由高到低的顺序对多个精彩视频片段进行拼接，或者，还可以采用预先定义好的拼接方式对多个精彩视频片段进行拼接。

本申请实施例提供的视频剪辑方法，对待剪辑视频进行视频识别处理，得到待剪辑视频的至少一种模态特性信息；并基于所得到的每一种模态特征信息，在待剪辑视频中定位出高消剧情点和候选视频片段；对与全部模态特征信息对应的候选视频片段进行融合处理得到至少一段目标视频片段，并基于待剪辑视频中的每一视频帧对应的视频场景信息，实现对精彩视频片段的剪辑。如此，由于融合了待剪辑视频的不同模态特征信息下的候选视频片段进行精彩视频片段的定位，且根据视频场景信息对待剪辑视频进行基于场景信息的视频片段划分，从而能够高效且准确的定位出待剪辑视频中的精彩视频片段。

在一些实施例中，模态特性信息可以包括待剪辑视频的预设剧情点和与预设剧情点对应的描述信息，其中，预设剧情点可以是各个视频网站的编辑在待剪辑视频中添加并标注出的人工的且用于运营的剧情点，预设剧情点可以是精彩视频片段的起始位置，在添加标注预设剧情点时，还可以针对该段精彩视频片段添加相应的描述信息，以说明该段精彩视频片段将要播放怎样的内容。

基于图3，图4是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，如图4所示，步骤S302可以通过以下步骤实现：

步骤S401，获取待剪辑视频中的每一预设剧情点和与预设剧情点对应的描述信息。

本申请实施例中，在预先标注预设剧情点时，同时也确定出了与该预设剧情点具有映射关系的一段视频片段，也就是说，预设剧情点对应一段视频片段，该视频片段的内容即描述信息所描述的内容。

步骤S402，对每一预设剧情点的描述信息进行文本分析，得到文本分析结果。

这里，待剪辑视频中可以具有多个预设剧情点，每一预设剧情点对应一描述信息，通过该描述信息描述该预设剧情点即将播放的视频内容，因此，可以对描述信息进行文本分析，得到文本分析结果。

步骤S403，根据每一预设剧情点的文本分析结果，在待剪辑视频中的预设剧情点中确定出高消剧情点。

这里，文本分析结果用于表明该高消剧情点的剧情内容，进而根据分析得到的剧情内容，确定该高消剧情点对应的视频片段是否是精彩视频片段，从而在待剪辑视频中的多个预设剧情点中确定出属于精彩视频片段的目标高消剧情点。

由于人工标注预设剧情点时，通常是将精彩视频片段对应的剧情点标注为预设剧情点，因此，在一些实施例中，还可以将识别出的预设剧情点均确定为目标高消剧情点。

步骤S404，将与高消剧情点具有预设映射关系的视频片段，确定为候选视频片段。

在一些实施例中，还可以确定目标高消剧情点在待剪辑视频中的位置，将与该位置对应的视频片段确定为候选视频片段。

在一些实施例中，模态特性信息还可以包括待剪辑视频的以下至少之一：高能背景音频片段和标记性音频片段。请继续参照图4，步骤S302可以通过以下步骤实现：

步骤S405，获取待剪辑视频的高能背景音频片段和标记性音频片段。

这里，可以通过以下步骤获取待剪辑视频的高能背景音频片段：

步骤S4051，对待剪辑视频进行音频识别，得到待剪辑视频的音频信息。

这里，通过对待剪辑视频进行音频识别，将待剪辑视频中的音频信息分离出来。

步骤S4052，确定音频信息的能量密度分布。

这里，能量密度分布可以是音频信息中的音调、音色和音高等信息对应的能量密度分布，通过对识别到的音频信息的音调、音色和音高等信息对应的频谱进行绘制，得到能量密度分布。

步骤S4053，根据能量密度分布，将能量密度大于阈值的连续音频片段，确定为高能背景音频片段。

这里，当能量密度大于阈值时，表明该连续音频片段为高能音频片段，因此，将该连续音频片段确定为高能背景音频片段。通常，高能背景音频片段为精彩视频片段的背景音乐，且该背景音乐通常是歌曲中的高潮部分。

这里，可以通过以下步骤获取待剪辑视频的标记性音频片段：

步骤S4054，将音频信息中具有预设类型音频的连续音频片段，确定为标记性音频片段。

这里，预设类型音频可以是预先录入的任意类型的音频，例如，可以是欢呼声音频、掌声音频、哭声音频或尖叫声音频等。本申请实施例中，可以将音频信息与预设类型音频进行对比，得到音频信息中每一段音频片段与预设类型音频之间的相似度，将相似度大于相似度阈值的连续音频片段，确定为标记性音频片段。

步骤S406，将与高能背景音频片段和标记性音频片段中的至少之一具有映射关系的视频片段，确定为候选视频片段。

在一些实施例中，模态特性信息还可以包括待剪辑视频中的弹幕信息和预设视频时长内的弹幕信息数量。请继续参照图4，步骤S302可以通过以下步骤实现：

步骤S407，获取待剪辑视频中的弹幕信息和预设视频时长内的弹幕信息数量。

步骤S408，当弹幕信息数量大于预设阈值时，将与弹幕信息具有映射关系的视频片段确定为候选视频片段。

本申请实施例中，当弹幕信息数量大于预设阈值时，表明该段视频片段用户关注度较高，或者用户观看率较高，极有可能是因为这段视频片段比较精彩，因此，可以将与弹幕信息具有映射关系的视频片段确定为候选视频片段。

步骤S409，对弹幕信息进行文本分析，得到弹幕文本分析结果。其中，弹幕文本分析结果用于表征与弹幕信息对应的弹幕意图。

步骤S410，当预设视频时长内的弹幕信息的弹幕文本分析结果相同，或者，当预设视频时长内的弹幕信息对应的弹幕意图为预设弹幕意图时，将与弹幕信息具有映射关系的视频片段确定为候选视频片段。

本申请实施例中，当预设视频时长内的弹幕信息的弹幕文本分析结果相同时，表明用户都在关注相同的内容，则极有可能该段视频片段是大多数用户强烈关注的视频片段，因此，可以将与弹幕信息具有映射关系的视频片段确定为候选视频片段。例如，当一段时间内出现大量的“前方高能”、“高能预警”等弹幕信息时，表明当前的视频片段会有精彩的内容呈现。

在一些实施例中，弹幕文本分析结果可以表明弹幕意图，弹幕意图用于表明用户对该段视频片段观看后的理解。例如，当一段视频片段是搞笑片段时，用户可以发送弹幕“哈哈哈”、“太好笑了”、“xxx太逗了”等弹幕，则对这些弹幕进行文本分析得到弹幕文本分析结果之后，根据弹幕文本分析结果可以表明弹幕意图是该段视频是搞笑片段。

本申请实施例中，当预设视频时长内的弹幕信息的弹幕文本分析结果为预设结果时，即当预设视频时长内的弹幕信息对应的弹幕意图为预设弹幕意图时，表明当前的视频片段是与预设的精彩视频片段相关或相对应的视频片段，因此，可以将与弹幕信息具有映射关系的视频片段确定为候选视频片段。例如，当弹幕文本分析结果表明弹幕意图是该段视频是搞笑片段，且预设结果也是与搞笑片段对应的预设结果，则可以将该弹幕信息具有映射关系的视频片段确定为候选视频片段。

在一些实施例中，模态特性信息还可以包括视频向量索引。基于图3，图5是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，如图5所示，步骤S302可以通过以下步骤实现：

步骤S501，获取预设短视频集合和预设短视频集合中的每一短视频的视频向量索引。

这里，预设短视频集合中包括至少一条短视频，短视频可以是预先从待剪辑视频中剪辑得到的视频片段，短视频可以是待剪辑视频中的任意视频片段，也就是说，预设短视频集合中至少包括：对待剪辑视频进行视频拆条处理后所得到的至少一短视频。每一短视频具有一视频向量索引，其中，视频向量索引可以通过以下方式获取：对短视频进行关键帧抽取，得到至少一短视频关键帧，然后基于预设模型对短视频关键帧进行向量化处理，得到短视频关键帧的语义向量表达，再然后对语义向量表达进行降维得到该视频向量索引。

步骤S502，对待剪辑视频进行关键帧抽取，得到与待剪辑视频对应的至少一视频关键帧。

这里，可以采用任意一种关键帧抽取方式进行关键帧抽取。

步骤S503，对至少一视频关键帧进行向量化处理，得到视频关键帧索引。

这里，可以采用InceptionV3模型对视频关键帧进行向量化处理，得到视频关键帧的语义向量表达，然后，对视频关键帧的语义向量表达进行降维处理，构建包含了十亿级视频关键帧向量的向量索引，即视频关键帧索引。

需要说明的是，得到视频关键帧索引的过程与得到短视频的视频向量索引的过程可以相同，所采用的模型也可以相同。本申请实施例中，可以在召回目标短视频之前，在构建预设短视频集合时即确定出每一短视频的视频向量索引，并将每一短视频的视频向量索引对应存储至预设短视频集合中；在进行目标短视频召回时，则只需确定待剪辑视频的视频关键帧索引即可，如此可以提高目标短视频召回效率，进而提高视频剪辑效率。

步骤S504，根据视频关键帧索引和每一短视频的视频向量索引，从预设短视频集合中召回目标短视频。

这里，在得到视频关键帧索引和每一短视频的视频向量索引之后，通过对比视频关键帧索引和每一短视频的视频向量索引，从预设短视频集合中的多个短视频中召回目标短视频。

步骤S505，将所召回的目标短视频对应的剧情点确定为高消剧情点，且将所召回的目标短视频确定为候选视频片段。

在一些实施例中，模态特性信息可以包括上述待剪辑视频的预设剧情点、高能背景音频片段和标记性音频片段、弹幕信息和预设视频时长内的弹幕信息数量、视频向量索引中的多个，因此，可以同时基于多个不同的模态特性信息中的每一个模态特性信息均确定出一个候选视频片段，即同时确定出多个候选视频片段，再对与多种模态特征信息对应的多个候选视频片段进行融合处理，从多个候选视频片段中确定出最终的目标视频片段。

基于图3，图6是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，如图6所示，步骤S303可以通过以下步骤实现：

步骤S601，确定出每一候选视频片段的候选分值。

这里，根据每一模态特征信息和映射关系，在待剪辑视频中定位出至少一个候选视频片段，可以采用上述实施例提供的方法来实现。在定位出候选视频片段的同时，还会计算每一候选视频片段的候选分值，候选分值用于表明该候选视频片段作为最终的目标视频片段的可能性的高低，因此，候选分值越高，对应的候选视频片段作为最终的目标视频片段的可能性越高，候选分值越低，对应的候选选视频片段作为最终的目标视频片段的可能性越低。本申请实施例中，候选分值可以以百分比的形式呈现，或者，候选分值可以取值0到1之间的任意值。

当采用同一模态特征信息定位出多个候选视频片段时，多个候选视频片段的候选分值总和为1。

步骤S602，获取针对于每一模态特征信息预设的权重。

举例来说，由于基于预设剧情点所定位出的精彩视频片段的准确度高于基于高能背景音频片段和标记性音频片段定位出的精彩视频片段的准确度，因此，可以设置预设剧情点的权重高于背景音频片段和标记性音频片段的权重。

步骤S603，采用不同模态特征信息的权重，对每一候选视频片段的候选分值进行加权求和，得到每一候选视频片段的候选总分。

这里，如果同一候选视频片段被多个模态特征信息定位出，因此，可以根据不同模态特征信息的权重，对每一候选视频片段的候选分值进行加权求和。

举例来说，当基于预设剧情点定位出候选视频片段P1、P2和P3，且P1、P2和P3的候选分值分别为0.5、0.3和0.2；基于高能背景音频片段定位出候选视频片段P1和P2，且P1和P2的候选分值分别为0.6和0.4；基于弹幕信息定位出候选视频片段P1和P3，且P1和P3的候选分值分别为0.3和0.7；其中，预设剧情点对应的权重是0.6，高能背景音频片段对应的权重是0.1，弹幕信息对应的权重是0.3，那么，最终确定出视频片段P1的候选总分为：(0.5*0.6+0.6*0.1+0.3*0.3)＝0.45；视频片段P2的候选总分为：(0.3*0.6+0.4*0.1)＝0.22；视频片段P3的候选总分为：(0.2*0.6+0.7*0.3)＝0.33。

步骤S604，将具有最高候选总分的候选视频片段，确定为目标视频片段。

请继续参照上述示例，由于视频片段P1的候选总分为0.45，视频片段P2的候选总分为0.22，视频片段P3的候选总分为0.33，因此，最终将视频片段P1确定为目标视频片段。

在一些实施例中，还可以根据待剪辑视频中的每一视频片段被定位为候选视频片段的次数，来选择出最终的目标视频片段。请继续参照图6，步骤S303可以通过以下步骤实现：

步骤S605，当基于一种模态特征信息将待剪辑视频中的任一视频片段被确定为候选视频片段时，将对应候选视频片段的定位次数加一。

步骤S606，确定出每一候选视频片段的总定位次数。

步骤S607，将具有最高总定位次数的候选视频片段，确定为目标视频片段。

在一些实施例中，模态特性信息还可以包括待剪辑视频中的目标对象，也就是说，还可以根据待剪辑视频中的目标对象来对待剪辑视频进行剪辑，即仅剪辑出出现该目标对象的视频片段，上述步骤S302可以通过以下步骤实现：

步骤S11，确定待剪辑视频中具有目标对象的至少一个对象视频片段。

这里，目标对象可以是任意一种对象，例如，可以是某一栋标志性建筑物，如东方明珠、故宫等，或者，可以是某个人物，如某演员或某音乐家等。

步骤S12，将每一对象视频片段确定为候选视频片段。

或者，在一些实施例中，方法还可以包括：将至少一个对象视频片段拼接形成目标视频片段。本申请实施例中，可以将包括有该目标对象的一个对象视频片段确定为最终的目标视频片段；还可以在待剪辑视频中筛选出多个对象视频片段，并将这多个对象视频片段拼接成一个完整的仅播放该目标对象的目标视频片段。

在一些实施例中，步骤S304可以通过以下步骤实现：

步骤S21，将具有相同视频场景信息的连续的视频帧所形成的视频片段，确定为同一场景下的分割视频片段。

步骤S22，将包含目标视频片段的分割视频片段，确定为精彩视频片段。

步骤S23，根据分割视频片段的起始视频帧和终止视频帧，确定精彩视频片段的起始位置和终止位置。

本申请实施例中，可以将同一场景下的分割视频片段的起始视频帧对应的位置确定为精彩视频片段的起始位置，将同一场景下的分割视频片段的终止视频帧对应的位置确定为精彩视频片段的终止位置。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种视频剪辑方法，该视频剪辑方法是一种高效片段剪辑方法，可以应用于任意一种高效片段自动剪辑产品中，例如，可以应用于精彩视频片段剪辑应用中。图7是本申请实施例提供的高效片段自动剪辑产品的GUI示意图，如图7所示，高消片段自动剪辑产品的用户为视频剪辑人员，输入为待处理的长视频701(即待剪辑视频)，系统会自动返回剪辑后的片段702(即剪辑视频片段)，用户挑选合适的片段并配上标题(图7中剪辑后的片段下的文字为需要用户添加的标题)。

本申请实施例中，高消片段剪辑流程包括：精彩视频片段定位(可以采用视频多模态分析算法，对待处理的长视频多个模态的数据分别进行分析)；片段起止位置挑选(可以采用视频场景分割算法来确定剧情故事的起止时间)。其中，根据高消片段的侧重点可以分为基于剧情的高消片段剪辑和基于明星的高消片段剪辑两种方法。

在基于剧情的高消片段剪辑中，定位影视剧中的精彩剧情片段需要对视频内容进行理解，此类算法一般是将一段小视频中的关键帧、音频、文本分别进行嵌入(Embedding)，然后将多个嵌入向量合并(concat)到一起，再用深度模型进行分类打标训练。在视频拆条项目中分析的视频对象多为时长40min～120min的影视剧长视频，难以直接使用这种针对30s以内的小视频多模分析算法对视频进行内容理解。判断一个视频片段是否精彩是人对连续视频片段所讲述故事的主观理解，从目前视频多模分析算法的发展来看，任何算法都还不具备对视频进行长片段逻辑理解的能力，所有的视频打标算法都还只停留在对视频的概念理解的层面(例如，视频里面有人在唱歌、跳舞、有房子、有车子，主题是快乐、悲伤之类等)。人判断影视剧片段是否精彩很多时候还要结合人的生活经验和知识(比如理解生活大爆炸里面的各种科学梗)。因此本申请实施例没有采用直接基于多模分析算法对视频精彩内容进行理解定位的方案。

图8是本申请实施例提供的基于多模态特征的精彩视频片段定位方法的流程示意图，如图8所示，对于输入的待处理的长视频801，分别基于关键帧图像802、音频803和文本804三方面的信息分别进行多模态特征识别805(即视频识别处理)，从而得到高消剧情点806，进而可以根据高消剧情点806确定出高消片段(即候选视频片段)。

下面分别对多模态特征识别和基于不同的模态特性信息进行高消剧情点定位的方法进行说明。

第一种，剧情点抓取。

近年的很多新热电视剧在各大视频网站播放的时候都会由各个视频网站的编辑预先加上人工的运营的剧情点，如图9所示，长视频网站人工运营添加的剧情点901，在可以获得人工剧情点的情况下，直接将该剧情点作为候选的高消剧情点。这种方式所确定的高消剧情点准确度高但是覆盖率比较低，只存在于各大视频网站的新热剧集上。

第二种，基于音频的高消剧情点定位。

影视剧往往会给一些高能片段配上一些高能的背景音乐来烘托剧情氛围，例如《天龙八部》中乔帮主每次出场都会自带背景音乐、有些综艺节目中则会通过后期添加掌声和欢呼声的方式来标记精彩片段。基于音频的高消剧情点定位就是通过对这些音频特征点的识别来实现的。

为了实现基于音频的高消剧情点的定位，可以先从影视剧的源数据中分离出音轨数据(即音频信息)，根据音轨数据计算音频的能量密度分布，然后通过Inaspeech算法识别音频中有背景音乐的位置，通过VGG模型对音频向量化以及通过MIL模型对音频片段进行分类，以定位出掌声和欢呼声这些标记性声音片段，最后结合多个维度的声音特征数据判断具有高消潜力的音频特征点，得到基于音频的高消剧情点。基于音频的高消剧情点识别效果如图10所示，通过音频的能量密度分布1001来定位出输入的长视频1002中的高消剧情点，其中，右图中的表格是与能量密度分布1001对应的声音特征数据，结合该声音特征数据即可判断出具有高消潜力的音频特征点。本申请实施例中，通过音频定位高消剧情点的最大优点在于覆盖率高，绝大多数视频都有音频数据，音频切点在全部剧集上的覆盖率大于90％，但是基于音频的高消剧情点相对于基于其他模态特性信息的定位方法的准确率较低，在声音特征不明显或者音乐过于密集的影视剧上准确率较差，且音频定位的高消剧情点无法提供剧情内容的描述，创作者理解成本相对较高。

第三种，基于弹幕的高消剧情点定位。

弹幕是一种基于用户评论的后验数据，现在大多数视频网站都已经支持弹幕功能，通过单位时间窗口内的弹幕信息数量以及标记性弹幕(例如，前方高能、高能预警等)的识别，可以较为精准地定位影视剧精彩看点。本申请实施例中，对部分视频网站的弹幕数据进行了抓取，通过对弹幕数据的分析来定位影视剧高消看点。基于弹幕的高消剧情点准确率较高，同时可以基于弹幕提供丰富的剧情文本描述。但是受限于弹幕数据本身的覆盖率(<25％)，弹幕高消点定位算法无法为全部剧集提供高消剧情点挖掘。

第四种，基于弹幕意图的高消剧情点定位。

通过对音频、弹幕、抓取剧情点挖掘的高消剧情点的分析发现，有些影视剧的精彩看点并不一定适用于短视频消费场景，这些看点需要结合影视剧的上下文才能理解到其中的梗，比如剧中演员提到了之前剧情中出现过的某个其他角色引起了观众的共鸣，但是短视频消费者在没有看过之前剧情的情况下是难以理解这种共鸣的。影视剧拆条的创作者往往也会对着这些用户的兴趣点去寻找高消视频片段。鉴于影视剧有丰富的弹幕信息且弹幕信息往往能精准地反应这些兴趣点，本申请实施例考虑通过基于弹幕的意图打标的方式来定位这些高消意图。同上文提到的基于弹幕的高消剧情点定位，基于弹幕意图的高消剧情点定位同样受限于剧集本身的弹幕覆盖率，无法覆盖无弹幕剧集。

第五种，通过视频长对短进行高消剧情点定位。

视频长对短是指用片源的长视频通过短视频向量索引召回从这个长视频拆条产生的短视频，并通过帧对齐算法将短视频精准对齐到片源上的一种技术。借助视频长对短技术，可以帮解决以下问题：第一，一个长视频的哪些片段已经被作者创作过，避免重复切条；第二，通过对齐竞品的短视频和消费，找到端内还没有覆盖的高消视频片段，为创作者提供切点；第三，为其他算法定位的高消剧情点提供准确率和召回率评测的基准数据。

图11是本申请实施例提供的某电视剧中某一集的视频长对短结果示意图，如图11所示，采用视频长对短方式定位出高消片段1101，即高消剧情点所在的短视频的片段。本申请实施例中，为了实现长短视频之间的对齐，首先对长视频进行关键帧的抽取，然后通过InceptionV3模型对长视频和短视频中的关键帧分别进行向量化，得到长视频关键帧的语义向量表达和短视频关键帧的语义向量表达，考虑到向量索引的存储效率和召回效果，本申请实施例对语义向量表达的向量进行了降维后，构建了包含十亿级视频关键帧向量的向量索引，其中，短视频的向量索引即上述视频向量索引。长视频片源入库后会通过相同的方式进行关键帧的抽取和向量化，然后从短视频向量索引召回可能相似的候选短视频(即目标短视频)，最后通过视频对帧算法将召回的候选短视频精准对齐到长视频片源上。视频长对短方式定位的切点准确率高且带有切点描述(例如短视频标题)，但是计算过程复杂，受限于算力和向量引擎的存储能力。

以上提到通过5种不同的方式进行了高消剧情点的定位，之所以要用到这么多种定位方式，是因为单一的高消点的定位方式都存在一定的不足，如表1对这5种定位方式进行了优缺点比较，综合多种定位方式有助于提高高消点定位准确率和覆盖率。

表1不同高消剧情点定位方式的优缺点比较

在一些实施例中，由于通过不同方式定位的高消剧情点会存在重复的问题，所以本申请实施例中还会进行多种类型切点的上层聚合与去重。

在一些实施例中，在定位到高消剧情点之后，要想切出一个短视频片段则还需要为这段高消剧情片段找到合适的起止时间范围。一个好的起止时间范围要尽可能包含一段完整的剧情，尽量不要跨越无关的其他剧情片段。通过对影视剧剧情片段的分析发现，一般一段完整的剧情都会在一定固定的场景内发生，比如：一间咖啡馆、一个客厅或一个小树林等，一般而言出现大的场景切换的时候这段剧情也就结束了。所以本申请实施例将剧情片段起止位置定位的任务转化为视频场景分割的任务，在绝大多数场景下创作者可以借助视频场景的分割来确定剧情发生的起止位置。

目前学界对视频分割的研究多集中于视频镜头的分割(shot detection&segment)，视频镜头的分割是将同不同镜头各自拍摄的连续画面分割开来。对于影视剧来说镜头切换非常频繁，一般2-3s就会切换一个镜头(其中，一个镜头对应至少一视频帧)。同一个影视剧场景会包含多个机位拍摄的多个不同的镜头片段，后期剪辑还会将这些镜头片段进行分割组合。通过对影视剧剪辑知识的学习了解到，虽然影视剧同一场景会存在多个镜头的频繁切换，但是对于剧情想重点突出的人物和画面会反复穿插重复出现，即同一场景内的不同镜头存在很强的内聚性，此外镜头在场景内出现的时长和频次也代表了该镜头在当前场景下的重要性。基于以上两点影视剧镜头剪辑的基本原理，本申请实施例设计了基于贪心算法的影视剧场景分割算法。图12是本申请实施例提供的基于影视剧场景分割算法的场景分割结果示意图，场景开始箭头1201和场景结束箭头1202所表示的为5:26至10:10的一个视频场景。例如，这个视频场景包含了完整的一段内容：两位男性角色见面——>争执——>其中一位男性角色愤然离开——>一位女性角色出现安慰留下的男性角色，这样一段完整的剧情故事。视频场景开始前是一段过场画面，视频场景结束后是女主夜晚的剧情故事，算法分割出的场景中包含了多个同一场景下多个不同的镜头机位画面。

在一些实施例中，在基于明星(即演员)的高消片段剪辑中，用户对于影视剧拆条的消费兴趣除了基于剧情本身，有时也会基于影视的演员，比如某演员A的粉丝喜欢看该演员A所主演的电视剧《XXX》里面演员A出现的情节而不太关注剧情本身。基于此，本申请实施例通过影视剧演员人脸识别和聚合算法，识别出影视剧中各个明星出现的具体剧情范围，为拆条创作者提供了一种基于人物的高消剧情定位方式，针对人气流量明星可以采用此种方式进行影视剧拆条。该方法先通过单脉冲多盒探测器(SSD，Single Shot MultiBoxDetector)算法检测影视剧单帧画面中的人脸区域，再通过faceNET算法对明星人脸进行向量化，然后从基于预设图谱和预设图片库构建的明星人脸库中检索相似明星人脸，并基于演员表进行挑选过滤。在识别出影视剧单帧画面中的明星人脸后，再对相同明星人脸进行聚合，以确定出该明星出现的连续剧情区间。图13展示了在电视剧《XXX》某一集上对演员A的人脸识别与聚合结果，图13中播放进度条黑色区域1301所示为演员A饰演的角色出现的剧情片段。需要说明的是，该电视剧中包括演员A、演员B、演员C、演员D、演员E和演员F，用户可以点击当前界面右上角的演员名字，选择要剪辑出的特定演员的剧情片段。

本申请实施例提供的高效片段剪辑方法，能够帮助用户更快且更准确地生产出精彩影视片段。

需要说明的是，本申请实施例的重点在于如何整合多模态特征信息，对长视频中的高消片段进行精准的定位，其中，整合手法和特征提取的方法都可能被替代，不仅限于上述实施例中所提出的方案。

下面继续说明本申请实施例提供的视频剪辑装置354实施为软件模块的示例性结构，在一些实施例中，如图2所示，视频剪辑装置354包括：

视频识别模块3541，用于对待剪辑视频进行视频识别处理，得到所述待剪辑视频的至少一种模态特性信息和所述待剪辑视频中的每一视频帧对应的视频场景信息；

第一确定模块3542，用于根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段；

融合处理模块3543，用于对与所述至少一种模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段；

第二确定模块3544，用于根据所述视频场景信息，确定出包含每一所述目标视频片段的精彩视频片段的起始位置和终止位置；

剪辑模块3545，用于根据所述起始位置和所述终止位置对所述待剪辑视频进行剪辑，得到剪辑视频片段。

在一些实施例中，所述模态特性信息包括所述待剪辑视频的预设剧情点和与所述预设剧情点对应的描述信息；所述第一确定模块还用于：获取所述待剪辑视频中的每一所述预设剧情点和与所述预设剧情点对应的描述信息；对每一所述预设剧情点的所述描述信息进行文本分析，得到文本分析结果；根据每一所述预设剧情点的所述文本分析结果，在所述待剪辑视频中的所述预设剧情点中确定出所述高消剧情点；将与所述高消剧情点具有预设映射关系的视频片段，确定为所述候选视频片段。

在一些实施例中，模态特性信息包括所述待剪辑视频的弹幕信息；所述第一确定模块还用于：对所述弹幕信息进行文本分析，得到弹幕文本分析结果；其中，所述弹幕文本分析结果用于表征与所述弹幕信息对应的弹幕意图；当预设视频时长内的弹幕信息的所述弹幕文本分析结果相同，或者，当所述预设视频时长内的弹幕信息对应的弹幕意图为预设弹幕意图时，将与所述弹幕信息具有映射关系的视频片段确定为所述候选视频片段。

在一些实施例中，所述模态特征信息包括视频向量索引；所述第一确定模块还用于：获取预设短视频集合和所述预设短视频集合中的每一短视频的视频向量索引；其中，所述预设短视频集合中至少包括：对所述待剪辑视频进行视频拆条处理后所得到的至少一短视频；对所述待剪辑视频进行关键帧抽取，得到与所述待剪辑视频对应的至少一视频关键帧；对所述至少一视频关键帧进行向量化处理，得到视频关键帧索引；根据所述视频关键帧索引和每一所述短视频的视频向量索引，从所述预设短视频集合中召回目标短视频；将所召回的目标短视频对应的剧情点确定为所述高消剧情点，且将所召回的目标短视频确定为所述候选视频片段。

在一些实施例中，所述融合处理模块还用于：确定出每一所述候选视频片段的候选分值；获取针对于每一所述模态特征信息预设的权重；采用不同模态特征信息的所述权重，对每一所述候选视频片段的候选分值进行加权求和，得到每一所述候选视频片段的候选总分；将具有最高候选总分的候选视频片段，确定为所述目标视频片段。

在一些实施例中，所述融合处理模块还用于：当基于一种模态特征信息将所述待剪辑视频中的任一视频片段被确定为所述候选视频片段时，将对应候选视频片段的定位次数加一；确定出每一所述候选视频片段的总定位次数；将具有最高总定位次数的候选视频片段，确定为所述目标视频片段。

在一些实施例中，所述第二确定模块还用于：将具有相同视频场景信息的连续的视频帧所形成的视频片段，确定为同一场景下的分割视频片段；将包含所述目标视频片段的分割视频片段，确定为所述精彩视频片段；根据所述分割视频片段的起始视频帧和终止视频帧，确定所述精彩视频片段的起始位置和终止位置。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read OnlyMemory)、可擦除可编程只读存储器(EPROM，Erasable Programmable ReadOnly Memory)、带电可擦可编程只读存储器(EEPROM，Electrically ErasableProgrammable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

对待剪辑视频进行视频识别处理，得到所述待剪辑视频的多种模态特征信息和所述待剪辑视频中的每一视频帧对应的视频场景信息；

根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段；所述高消剧情点对应一高消片段，所述高消片段是所述待剪辑视频中的精彩视频片段；

其中，当所述模态特征信息包括视频关键帧索引时，所述根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段，包括：获取预设短视频集合和所述预设短视频集合中的每一短视频的视频向量索引；所述预设短视频集合中至少包括：对所述待剪辑视频进行视频拆条处理后所得到的至少一短视频；对所述待剪辑视频进行关键帧抽取，得到与所述待剪辑视频对应的至少一视频关键帧；对所述至少一视频关键帧进行向量化处理，得到视频关键帧索引；根据所述视频关键帧索引和每一所述短视频的视频向量索引，从所述预设短视频集合中召回目标短视频；将所召回的目标短视频对应的剧情点确定为所述高消剧情点，且将所召回的目标短视频确定为所述候选视频片段；

对与所述多种模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段；

2.根据权利要求1所述的方法，其特征在于，当所述模态特征信息包括所述待剪辑视频的预设剧情点和与所述预设剧情点对应的描述信息时，所述根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段，包括：

获取所述待剪辑视频中的每一所述预设剧情点和与所述预设剧情点对应的描述信息；

对每一所述预设剧情点的所述描述信息进行文本分析，得到文本分析结果；

根据每一所述预设剧情点的所述文本分析结果，在所述待剪辑视频中的所述预设剧情点中确定出所述高消剧情点；

将与所述高消剧情点具有预设映射关系的视频片段，确定为所述候选视频片段。

3.根据权利要求1所述的方法，其特征在于，当所述模态特征信息包括所述待剪辑视频的弹幕信息时，所述根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段，包括：

对所述弹幕信息进行文本分析，得到弹幕文本分析结果；其中，所述弹幕文本分析结果用于表征与所述弹幕信息对应的弹幕意图；

当预设视频时长内的弹幕信息的所述弹幕文本分析结果相同，或者，当预设视频时长内的弹幕信息对应的弹幕意图为预设弹幕意图时，将与所述弹幕信息具有映射关系的视频片段确定为所述候选视频片段。

4.根据权利要求1所述的方法，其特征在于，所述对与所述多种模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段，包括：

确定出每一所述候选视频片段的候选分值；

获取针对于每一所述模态特征信息预设的权重；

采用不同模态特征信息的所述权重，对每一所述候选视频片段的候选分值进行加权求和，得到每一所述候选视频片段的候选总分；

将具有最高候选总分的候选视频片段，确定为所述目标视频片段。

5.根据权利要求1所述的方法，其特征在于，所述对与所述多种模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段，包括：

当基于一种模态特征信息将所述待剪辑视频中的任一视频片段确定为所述候选视频片段时，将对应候选视频片段的定位次数加一；

确定出每一所述候选视频片段的总定位次数；

将具有最高总定位次数的候选视频片段，确定为所述目标视频片段。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述视频场景信息，确定出包含每一所述目标视频片段的精彩视频片段的起始位置和终止位置，包括：

将具有相同视频场景信息的连续的视频帧所形成的视频片段，确定为同一场景下的分割视频片段；

将包含所述目标视频片段的分割视频片段，确定为所述精彩视频片段；

根据所述分割视频片段的起始视频帧和终止视频帧，确定所述精彩视频片段的起始位置和终止位置。

7.一种视频剪辑装置，其特征在于，所述装置包括：

视频识别模块，用于对待剪辑视频进行视频识别处理，得到所述待剪辑视频的多种模态特征信息和所述待剪辑视频中的每一视频帧对应的视频场景信息；

第一确定模块，用于根据每一种模态特征信息，在所述待剪辑视频中确定出至少一个高消剧情点和与每一所述高消剧情点对应的候选视频片段；所述高消剧情点对应一高消片段，所述高消片段是所述待剪辑视频中的精彩视频片段；其中，当所述模态特征信息包括视频关键帧索引时，所述第一确定模块还用于获取预设短视频集合和所述预设短视频集合中的每一短视频的视频向量索引；所述预设短视频集合中至少包括：对所述待剪辑视频进行视频拆条处理后所得到的至少一短视频；对所述待剪辑视频进行关键帧抽取，得到与所述待剪辑视频对应的至少一视频关键帧；对所述至少一视频关键帧进行向量化处理，得到视频关键帧索引；根据所述视频关键帧索引和每一所述短视频的视频向量索引，从所述预设短视频集合中召回目标短视频；将所召回的目标短视频对应的剧情点确定为所述高消剧情点，且将所召回的目标短视频确定为所述候选视频片段；

融合处理模块，用于对与所述多种模态特征信息对应的所述候选视频片段进行融合处理，得到至少一段目标视频片段；

8.一种视频剪辑设备，其特征在于，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至6任一项所述的视频剪辑方法。

9.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于处理器执行所述可执行指令时，实现权利要求1至6任一项所述的视频剪辑方法。