CN112532897B

CN112532897B - 视频剪辑方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112532897B
Application number: CN202011338113.4A
Authority: CN
Inventors: 罗文寒; 殷泽龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-07-01
Anticipated expiration: 2040-11-25
Also published as: CN112532897A

Abstract

本申请实施例提供一种视频剪辑方法、装置、设备及计算机可读存储介质，涉及人工智能技术领域和云技术领域。方法包括：响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头；获取每一所述视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值；根据每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值，确定对应视频镜头的分值；根据每一所述视频镜头的所述分值，从所述待剪辑视频中截取至少一段视频片段。通过本申请，能够对待剪辑视频的精彩程度进行准确的刻画，进而能够对待剪辑视频进行准确的剪辑。

Description

视频剪辑方法、装置、设备及计算机可读存储介质

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种视频剪辑方法、装置、设备及计算机可读存储介质。

背景技术

在目前的精彩视频剪辑方案里面，通常只考虑了单一模态，最常见的是视觉信息，即相关技术中的精彩视频剪辑方法通常只考虑到视觉信息这一单模态。但是，单纯基于视觉信息对视频精彩程度的刻画显得不太够，例如，对于MV视频，单独看视频的图像画面，很难定义出高潮部分。因此，相关技术中的方法不能对视频的精彩程度进行准确的刻画，进而不能对视频进行准确的剪辑。

发明内容

本申请实施例提供一种视频剪辑方法、装置、设备及计算机可读存储介质，涉及人工智能技术领域和云技术领域。由于根据每一视频镜头的视觉评价分值、音频评价分值和文本评价分值，确定对应视频镜头的分值，并根据分值对待剪辑视频进行剪辑，如此，充分利用了待剪辑视频的视觉信息、音频信息和文本信息，从而能够对待剪辑视频的精彩程度进行准确的刻画，进而能够对待剪辑视频进行准确的剪辑。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频剪辑方法，所述方法包括：

响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头；

获取每一所述视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值；

根据每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值，确定对应视频镜头的分值；

根据每一所述视频镜头的所述分值，从所述待剪辑视频中截取至少一段视频片段。

本申请实施例提供一种视频剪辑装置，所述装置包括：

镜头划分模块，用于响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头；

获取模块，用于获取每一所述视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值；

确定模块，用于根据每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值，确定对应视频镜头的分值；

截取模块，用于根据每一所述视频镜头的所述分值，从所述待剪辑视频中截取至少一段视频片段。

本申请实施例提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；其中，计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器用于执行所述计算机指令，实现上述的视频剪辑方法。

本申请实施例提供一种视频剪辑设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的视频剪辑方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的视频剪辑方法。

本申请实施例具有以下有益效果：在对待剪辑视频进行剪辑时，是根据每一视频镜头的视觉评价分值、音频评价分值和文本评价分值，确定对应视频镜头的分值；并根据每一视频镜头的分值，从待剪辑视频中截取至少一段视频片段，如此，由于充分利用了待剪辑视频的视觉信息、音频信息和文本信息这多维的信息，从而能够对待剪辑视频的精彩程度进行准确的刻画，进而能够对待剪辑视频进行准确的剪辑。

附图说明

图1是本申请实施例提供的视频剪辑系统的一个可选的架构示意图；

图2是本申请实施例提供的服务器的结构示意图；

图3是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图4是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图5是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图6是本申请实施例提供的视频剪辑方法的一个可选的流程示意图；

图7是本申请实施例提供的视频剪辑方法的流程图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在目前的视频精彩剪辑方案里面，通常只考虑了视觉信息这一单一模态，对于MV视频，单独看视频的图像画面，很难定义出高潮部分，但是如果考虑到音频信息，对于精彩程度的感知就能比较明确。如果加上额外的模态，比如文字信息，那么就能更全面。本申请实施例提出的技术方案可以应用于广告视频剪辑，充分利用了待剪辑视频里面的视觉信息、音频信息和文本信息，并且充分考虑到了融合关系，对视频进行精彩程度刻画和剪辑，满足了广告视频缩短时长的要求。

本申请实施例提供的视频剪辑方法，首先，响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头；然后，获取每一视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值；根据每一视频镜头的视觉评价分值、音频评价分值和文本评价分值，确定对应视频镜头的分值；根据每一视频镜头的分值，从待剪辑视频中截取至少一段视频片段。如此，由于充分利用了视频镜头的视觉信息、音频信息和文本信息这多维的信息，从而能够对待剪辑视频的精彩程度进行准确的刻画，进而能够对待剪辑视频进行准确的剪辑。

下面说明本申请实施例的视频剪辑设备的示例性应用，在一种实现方式中，本申请实施例提供的视频剪辑设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人等任意的具备视频播放功能的终端，在另一种实现方式中，本申请实施例提供的视频剪辑设备还可以实施为服务器。下面，将说明视频剪辑设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的视频剪辑系统10的一个可选的架构示意图。为实现对待剪辑视频进行剪辑，本申请实施例提供的视频剪辑系统10中包括终端100、网络200和服务器300，终端100获取待剪辑视频，并将待剪辑视频封装于视频剪辑指令中，将视频剪辑指令通过网络200发送给服务器300，服务器300响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头；同时获取每一视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值；并根据每一视频镜头的视觉评价分值、音频评价分值和文本评价分值，确定对应视频镜头的分值；根据每一视频镜头的分值，从待剪辑视频中截取至少一段视频片段。在得到视频片段之后，将视频片段通过网络200发送给终端100。终端100在获取到视频片段之后，在终端100的当前界面100-1上播放该视频片段。

本申请实施例提供的视频剪辑方法还涉及人工智能技术领域，通过人工智能技术实现对待剪辑视频进行剪辑。本申请实施例中，至少可以通过人工智能技术中的计算机视觉技术、语音技术和自然语言处理技术来实现。其中，计算机视觉技术(CV，ComputerVision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OCR，OpticalCharacter Recognition)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。语音技术(Speech T echnology)的关键技术有自动语音识别技术(ASR，Automatic Speech Recogn ition)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NLP，Nature Language proces sing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例所提供的视频剪辑方法还可以基于云平台并通过云技术来实现，例如，上述服务器300可以是云端服务器。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

图2是本申请实施例提供的服务器300的结构示意图，图2所示的服务器300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可采用软件方式实现，图2示出了存储在存储器350中的一种视频剪辑装置354，该视频剪辑装置354可以是服务器300中的视频剪辑装置，其可以是程序和插件等形式的软件，包括以下软件模块：镜头划分模块3541、获取模块3542、确定模块3543和截取模块3544，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频剪辑方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic De vice)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面将结合本申请实施例提供的服务器300的示例性应用和实施，说明本申请实施例提供的视频剪辑方法。参见图3，图3是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，下面将结合图3示出的步骤进行说明。

步骤S301，响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头。

这里，视频剪辑指令用于指示对待剪辑视频进行剪辑，其中，视频剪辑指令中可以至少包括待剪辑视频和剪辑后的视频的时长。用户可以通过终端向服务器发送视频剪辑指令，以请求对待剪辑视频进行剪辑。

服务器在接收到视频剪辑指令之后，首先对待剪辑视频进行镜头划分，得到至少两个视频镜头，这里，划分得到的同一视频镜头中的视频帧之间具有较高的相似度，即将连续的多帧相似视频帧划分至同一视频镜头中。

步骤S302，获取每一视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值。

这里，视觉信息包括但不限于视频镜头中的视频帧的清晰度、饱和度、色彩丰富度、亮度和人脸指数等信息；音频信息中包括但不限于视频镜头对应的音频中的音乐类型的素材，例如，音频属于音乐副歌部分还是重复部分等；文本信息包括但不限于视频镜头中的视频帧中的文字、对话和独白等文本。

视觉评价分值是指针对于视频镜头中的每一视频帧进行视频精彩程度评价后所得到的评价分值；音频评价分值是指针对于视频镜头中的每一视频帧进行音频精彩程度评价后所得到的评价分值；文本评价分值是指针对于视频镜头中的每一视频帧进行文本精彩程度评价后所得到的评价分值。

在一些实施例中，可以针对于待剪辑视频中每一视频帧的视觉信息中的至少一类信息，对对应视频帧进行视觉精彩评价，得到每一视频帧针对于视觉信息的评价值，然后根据视频镜头包括的视频帧的数量和包括的每一视频帧针对于视觉信息的评价值，计算得到视频镜头的视觉信息对应的视觉评价分值。

在一些实施例中，还可以针对于待剪辑视频中每一预设时长(例如，可以是每一秒)的视频片段的音频信息，对对应视频片段进行音频精彩评价，得到每一视频片段针对于音频信息的评价值，然后，通过差值法，将该评价值赋值于视频片段中的每一视频帧，即同一个视频片段中的每一视频帧均具有该评价值，这样，可以将时间维度的评价值转换到视频帧维度；然后根据视频镜头包括的视频帧的数量和包括的每一视频帧针对于音频信息的评价值，计算得到视频镜头的音频信息对应的音频评价分值。

在一些实施例中，可以针对于待剪辑视频中每一视频帧的文本信息，对对应视频帧进行文本精彩评价，得到每一视频帧针对于文本信息的评价值，然后根据视频镜头包括的视频帧的数量和包括的每一视频帧针对于文本信息的评价值，计算得到视频镜头的文本信息对应的文本评价分值。

步骤S303，根据每一视频镜头的视觉评价分值、音频评价分值和文本评价分值，确定对应视频镜头的分值。

这里，在获取到每一视频镜头的视觉评价分值、音频评价分值和文本评价分值之后，对视觉评价分值、音频评价分值和文本评价分值进行融合计算，得到对应视频镜头的分值，该分值是视觉评价分值、音频评价分值和文本评价分值的融合评价分值。

视频镜头的分值用于评价该视频镜头的精彩程度，视频镜头的分值越高，表明该视频镜头的精彩程度越高，视频镜头的分值越低，表明该视频镜头的精彩程度越低。

步骤S304，根据每一视频镜头的分值，从待剪辑视频中截取至少一段视频片段。

这里，可以以具有最高分值的视频镜头为中心，按照视频播放的时间轴，向两边扩展特定时长，得到第一段视频片段；然后，在剩下的视频中继续以当前最高分值的视频镜头为中心，继续按照视频播放的时间轴向两边扩展特定时长，得到第二段视频片段，以此类推，得到预设数量的视频片段。

本申请实施例提供的视频剪辑方法，在对待剪辑视频进行剪辑时，是根据每一视频镜头的视觉评价分值、音频评价分值和文本评价分值，确定对应视频镜头的分值；并根据每一视频镜头的分值，从待剪辑视频中截取至少一段视频片段，如此，由于充分利用了待剪辑视频的视觉信息、音频信息和文本信息这多维的信息，从而能够对待剪辑视频的精彩程度进行准确的刻画，进而能够对待剪辑视频进行准确的剪辑。

在一些实施例中，视频剪辑方法还可以通过云技术实现，视频剪辑系统中包括终端和云端服务器，用户通过终端向云端服务器发送视频剪辑指令，云端服务器对终端的视频剪辑指令进行响应，得到剪辑后的视频。图4是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，如图4所示，方法包括以下步骤：

步骤S401，终端采集得到待剪辑视频。

这里，终端可以通过视频采集单元采集得到待剪辑视频，或者终端从网络上下载待剪辑视频，或者终端接收其他终端发送的待剪辑视频。

步骤S402，终端将待剪辑视频封装于视频剪辑指令中，并将视频剪辑指令发送给云端服务器。

这里，视频剪辑指令用于指示对待剪辑视频进行剪辑，视频剪辑指令中包括剪辑参数，剪辑参数包括但不限于剪辑后的视频的时长、剪辑后的视频中视频片段的数量和每一视频片段的时长等参数。

步骤S403，云端服务器响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头。

步骤S404，云端服务器获取每一视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值。

步骤S405，云端服务器根据每一视频镜头的视觉评价分值、音频评价分值和文本评价分值，确定对应视频镜头的分值。

步骤S406，云端服务器根据每一视频镜头的分值，从待剪辑视频中截取至少一段视频片段。

需要说明的是，步骤S403至步骤S406与上述步骤S301至步骤S304相同，本申请实施例不再赘述。

步骤S407，云端服务器对至少一段视频片段进行拼接，形成剪辑后的视频。

这里，当截取到多段视频片段时，可以对这多段视频片段进行拼接，形成剪辑后的视频。在一些实施例中，可以按照每一视频片段在整个待剪辑视频中的的先后顺序，对多段视频片段进行拼接，形成剪辑后的视频。当确定出的视频片段为一个时，可以直接将这一个视频片段确定为剪辑后的视频。

步骤S408，云端服务器将剪辑后的视频发送给终端。

步骤S409，终端在当前界面上播放剪辑后的视频。

本申请实施例提供的视频剪辑方法，通过终端与云端服务器之间的交互，实现对待剪辑视频的剪辑，由于可以通过云端服务器来实现视频剪辑，因此，可以保证多任务同时进行时视频剪辑的速度，提高视频剪辑效率。

基于图3，图5是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，如图5所示，步骤S302中获取每一所述视频镜头的视觉信息对应的视觉评价分值，可以通过以下步骤实现：

步骤S501，获取待剪辑视频中每一视频帧的视觉信息，其中，视觉信息包括至少一种视频属性参数。

这里视频帧的视频属性参数即视频帧的清晰度、饱和度、色彩丰富度、亮度和人脸指数等信息。

本申请实施例中，可以在获取到待剪辑视频时获取每一视频帧的视觉信息，其中，获取每一视频帧的视觉信息，可以首先获取该视频帧的图像属性信息，从图像属性信息中提取清晰度、饱和度、色彩丰富度、亮度和人脸指数等信息；在获取视频帧的音频信息时，可以截取视频片段对应的音频片段，然后根据该音频片段和整个待剪辑视频对应的音频来获取音频信息；在获取文本信息时，可以通过图像识别技术，对每一视频帧进行图像识别(例如，可以采用OCR识别技术进行识别)，以识别出每一视频帧中的文本信息。

步骤S502，对应于每一种视频属性参数的类型，采用预设算法计算对应视频属性参数对应的评价值。

本申请实施例中，由于视频属性参数包括清晰度、饱和度、色彩丰富度、亮度和人脸指数等信息，那么对应地，视频属性参数对应的评价值包括清晰度分数、饱和度分数、色彩丰富度分数、亮度分数和人脸指数分值等。

当视频属性参数为视频帧的清晰度时，可以根据视频帧的清晰度，计算清晰度分数，在计算的过程中，可以首先将视频帧转为灰度图像，然后计算该灰度图像的拉普拉斯算子，将灰度图像的拉普拉斯算子的方差作为清晰度分数。

当视频属性参数为视频帧的饱和度时，可以根据视频帧的饱和度，计算饱和度分数，在计算的过程中，可以将视频帧转为HSV(Hue，Saturation，Value)空间之后，将S通道的均值作为饱和度分数。

当视频属性参数为视频帧的色彩丰富度时，可以根据视频帧的色彩丰富度，计算色彩丰富度分数，在计算的过程中，可以提取视频帧的RGB通道，计算R通道和G通道的差，将R通道和G通道的均值作为Y通道，并计算R通道和G通道的标准差，计算Y通道和B通道的差，然后计算这两个差值(即R通道和G通道的差值、和Y通道和B通道的差值)的均值和标准差，并计算两个标准差的融合标准差和两个均值的融合均值，对融合后的标准差和均值进行加权平均，并将加权平均结果作为最终的色彩丰富度分数。需要说明的是，这里的融合标准差和融合均值的计算方式可以采用以下公式(1-1)来实现：

其中，当计算融合标准差时，a表示两个标准差中的任意一个，b表示两个标准差中的另一个，k表示融合标准差；当计算融合均值时，a表示两个均值中的任意一个，b表示两个均值中的另一个，k表示融合均值。

当视频属性参数为视频帧的亮度时，可以根据视频帧的亮度，计算亮度分数，在计算的过程中，可以将图片转为HSV空间之后，将V通道的均值作为亮度分数。

当视频属性参数为视频帧的人脸指数时，可以根据视频帧的人脸指数(例如视频帧中人脸的数量)计算人脸指数分值。在计算的过程中，可以对图像进行人脸检测。举例来说，当人脸数目介于1-5之间(认为此时出现重点角色)时，则人脸指数分值较高；当人脸数目大于5(可以认为是人群画面)时，则人脸指数分值较低；若没有人脸(视频帧中是风景，街景等)则人脸指数分值为0。

步骤S503，对全部视频属性参数对应的评价值进行融合，得到视频帧的融合评价值。

这里，可以先对每一视频属性参数对应的评价值进行归一化处理，使得每一视频属性参数对应的评价值均在同一维度的数值范围内，然后，将多个评价值进行融合，得到视频帧的融合评价值。本申请实施例中，对多个评价值进行融合可以是对多个评价值进行相加，或者是对多个评价值进行加权融合。

步骤S504，根据视频镜头对应的全部视频帧的融合评价值，确定视频镜头的视觉评价分值。

本申请实施例中，可以将视频镜头对应的全部视频帧的融合评价值进行再次融合，得到该视频镜头的视觉评价分值。

请继续参照图5，在一些实施例中，步骤S302中获取每一视频镜头的音频信息对应的音频评价分值，可以通过以下步骤实现：

步骤S505，按照预设时长将待剪辑视频对应的音频划分成特定数量的音频片段。

这里，预设时长例如可以是1秒或2秒等任意的时长。

步骤S506，根据每一音频片段在待剪辑视频对应的音频中的位置，对对应音频片段进行音频精彩评价，得到每一音频片段的音频片段评价值。

这里，根据音频片段在音频中的位置，确定该音频片段是音频中的重复片段还是音频中的高潮部分，如果是音频中的重复片段或者是音频中的高潮部分，则可以确定出该音频片段具有较高的精彩程度，因此，确定出该音频片段对应的视频片段具有较高的音频评价分值。

需要说明的是，确定出的音频片段评价值是该音频片段对应的视频镜头的音频片段评价值，因此，对于该视频镜头中的每一视频帧，可以均具有该音频片段评价值。

本申请实施例中，由于对于视觉信息和文本信息，时刻意味着帧级别的时间刻度，而对于音频信息，时时刻意味着秒级别的时间刻度，因此，需要对视觉信息对应的精彩程度评价结果、音频信息对应的精彩程度评价结果和文本信息对应的精彩程度评价结果，进行时间刻度统一化处理，即将音频片段评价值统一为视频帧级别的时间刻度。

步骤S507，根据视频镜头对应的全部音频片段的音频片段评价值，确定视频镜头的所述音频评价分值。

在一些实施例中，步骤S507还可以通过以下步骤实现：步骤S5071，在待剪辑视频中，确定每一预设时长的音频片段对应的视频片段中的至少一个视频帧。步骤S5072，将音频片段评价值，赋值给音频片段对应的视频片段中的每一视频帧，使得每一视频帧具有所述音频片段评价值。步骤S5073，根据视频镜头对应的全部视频帧的音频片段评价值，确定视频镜头的音频评价分值。

本申请实施例中，在获取到每一音频片段的音频片段评价值之后，可以采用差值法，将音频片段评价值赋值给同一音频片段对应的视频片段中的每一视频帧。举例来说，每一音频片段的时长是1秒，这1秒的音频片段对应的视频片段中具有多帧视频帧，因此，可以将该音频片段的音频片段评价值赋值给这1秒的视频片段中的每一视频帧，以使得每一视频帧均具有该音频片段评价值。采用这样的方法，可以计算出整个待剪辑视频中每一视频帧的音频片段评价值。

本申请实施例，在确定出整个待剪辑视频中每一视频帧的音频片段评价值之后，确定视频镜头对应的全部视频帧，并根据视频镜头对应的全部视频帧的音频片段评价值，确定视频镜头的音频评价分值。

在一些实施例中，针对于同一视频镜头中不同的视频帧，可以具有相同的音频片段评价值(例如可以是同一视频片段中的视频帧，因此具有相同的音频片段评价值)，也可以具有不同的音频片段评价值。这里，在确定音频评价分值时，可以针对于视频镜头对应的音频片段中的每一秒音频在音频中的目标位置，确定每一秒视频的音频片段评价值，即当同一视频镜头对应的音频既有对应于音频的高潮部分时，又有对应于音频的非高潮部分时，其中对应于音频的高潮部分的音频片段部分对应的视频帧具有较高的音频片段评价值，对应于音频的非高潮部分的音频片段部分对应的视频帧具有较低的音频片段评价值，因此，同一视频镜头中的不同的视频帧具有不同的音频片段评价值，那么，对于不同的音频片段评价值，可以求均值，并将所计算的均值确定为视频镜头的音频评价分值。

在一些实施例中，还可以取视频镜头对应的音频片段的中间位置，根据该中间位置在音频中对应的位置来获取该中间位置的视频帧的音频片段评价值，并将该中间位置的音频片段评价值确定为视频镜头的音频评价分值，即整个音频片段中的不同的视频帧均具有相同的音频片段评价值。

请继续参照图5，在一些实施例中，步骤S302中获取每一视频镜头的文本信息对应的文本评价分值，可以通过以下步骤实现：

步骤S508，获取待剪辑视频的每一视频帧中的文本信息。

这里，可以基于人工智能技术对每一视频帧进行图像识别，以识别出每一视频帧中的文本信息。例如，可以采用OCR识别技术识别每一视频帧中的文字，得到文本信息。

步骤S509，对每一视频帧中的文本信息进行文本情感分析，得到每一视频帧的文本情感值。

这里，文本情感分析是指确定文本信息的情感属性，例如，可以根据文本信息中的语气词、动词和语气助词等确定文本信息的情感属性。

举例来说，在视频里面，激烈的争吵片段应该比平淡无奇的对白更吸引眼球，激烈的争吵片段应该具有负面情感属性，且根据争吵片段的争吵内容，可以确定负面情感属性的程度值；亲情的表达片段应该具有正面情感属性，且根据亲情的表达片段的表达内容，可以确定正面情感属性的程度值。将该负面情感属性的程度值和该正面情感属性的程度值可以确定为对应视频帧的文本情感值。

步骤S510，根据视频镜头对应的全部视频帧的文本情感值，确定视频镜头的文本评价分值。

在一些实施例中，步骤S510可以通过以下步骤实现：步骤S5101，确定视频镜头中每两帧视频帧之间的文本情感值之间的差值。步骤S5102，当任意两帧视频帧之间的文本情感值之间的差值的绝对值大于文本情感差阈值时，将文本情感值之间的差值的绝对值，确定为视频镜头的文本评价分值。

这里，可以计算每两帧视频帧之间的文本情感值之间的差值，如果该差值的绝对值越大，表明连续两帧视频帧之间的情感变化越大，文本情感越强烈，因此，文本评价分值越大；如果该差值的绝对值越小，表明连续两帧视频帧之间的情感变化越小，文本情感越平淡，因此，文本评价分值越小。

在一些实施例中，还可以计算同一视频镜头中的负面情感属性的程度值与正面情感属性的程度值之间的差值，如果该差值的绝对值大于文本情感差阈值时，将文本情感值之间的差值的绝对值，确定为视频镜头的文本评价分值。即如果该差值的绝对值越大，表明该视频镜头的情感变化越大，文本情感越强烈，因此，文本评价分值越大；如果该差值的绝对值越小，表明该视频镜头的情感变化越小，文本情感越平淡，因此，文本评价分值越小。

在一些实施例中，还可以分别获取同一视频镜头中的每一视频帧的负面情感属性的程度值和正面情感属性的程度值，然后，取每一视频帧的负面情感属性的程度值的绝对值和正面情感属性的程度值的绝对值，将最大绝对值确定为该视频镜头的文本评价分值。

请继续参照图5，在一些实施例中，步骤S303可以通过以下步骤实现：

步骤S511，对每一视频镜头的视觉评价分值、音频评价分值和文本评价分值分别进行归一化处理，得到归一化处理后的视觉评价分值、音频评价分值和文本评价分值。

这里，归一化处理是指分别对视觉评价分值、音频评价分值和文本评价分值进行加权，以使得归一化处理后的视觉评价分值、音频评价分值和文本评价分值在同一维度内，可以进行比较和计算。

步骤S512，对归一化处理后的视觉评价分值、音频评价分值和文本评价分值求均值，并将均值确定为对应视频镜头的分值。

基于图3，图6是本申请实施例提供的视频剪辑方法的一个可选的流程示意图，如图6所示，步骤S301可以通过以下步骤实现：

步骤S601，获取待剪辑视频中的每一视频帧的颜色直方图。

这里，颜色直方图所描述的是不同色彩在整幅图像中所占的比例。

步骤S602，确定每连续两帧视频帧的颜色直方图之间的相似度。

步骤S603，根据相似度对待剪辑视频进行镜头划分，得到至少两个视频镜头。

这里，可以分别根据每连续两帧视频帧的颜色直方图之间的相似度，将相似度均大于阈值的连续多帧视频帧划分至同一个视频镜头中。

请继续参照图6，在一些实施例中，步骤S304还可以通过以下步骤实现：

步骤S604，将分值大于分值阈值的视频镜头所对应的播放时刻，确定为目标播放时刻。

步骤S605，将每一目标播放时刻确定为时间原点。

步骤S606，以时间原点为起点，沿待剪辑视频的时间轴的两侧，每次以一个视频镜头为单元进行扩展，得到扩展视频片段。

举例来说，在确定出待剪辑视频中的视频镜头A具有最高的分值(例如分值可以是10)或者视频镜头A的分值大于分值阈值，视频镜头A之前的视频镜头分别是A1(分值是8)、A2(分值是7)、A3(分值是4)，视频镜头A之后的视频镜头分别是A4(分值是6)、A5(分值是5)、A6(分值是4)，即对应待剪辑视频来说，正常播放顺序是：A3(分值是4)-A2(分值是7)-A1(分值是8)-A(分值是10)-A4(分值是6)-A5(分值是5)-A6(分值是4)，那么，首先时间原点对应的视频镜头是A，然后，分别比较A1和A4的大小，向左取一个视频镜头A1，再然后，分别比较A2和A5的大小，继续向左取一个视频镜头A2，再然后，分别比较A3和A6的大小，由于A3和A6的分值相同，此时可以直接取视频镜头A3(因为视频镜头A左侧的分值整体上比视频镜头A右侧的分值高)。

步骤S607，当任意一次扩展后得到的扩展视频片段的时长满足预设条件时，停止扩展并将当前的扩展视频片段，确定为与目标播放时刻对应的视频片段。

本申请实施例中，在每一次扩展之后，均需要判断一次当前的扩展视频片段的时长，当该时长大于或等于时长阈值时，则停止对视频片段的扩展，并将当前的扩展视频片段确定为与目标播放时刻对应的视频片段；当该时长小于时长阈值时，则继续执行步骤S606，直至扩展视频片段的时长大于或等于时长阈值时停止扩展。

请继续参照图6，在一些实施例中，在步骤S607之后，方法还包括以下步骤实现：

步骤S608，按照目标播放时刻的先后顺序，对至少一段视频片段进行拼接，形成拼接后的视频。

步骤S609，输出拼接后的视频。

本申请实施例中，可以确定出至少一个视频片段，并且，当确定出的视频片段为多个时，可以按照视频片段在整个待剪辑视频中的时间先后顺序，即目标播放时刻的先后顺序，对多个视频片段进行拼接，将拼接后的视频作为剪辑结果并输出；当确定出的视频片段为一个时，可以直接将这一个视频片段确定为剪辑结果并输出。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种视频剪辑方法，主要是一种多模态融合的视频精彩剪辑的方法。本申请实施例可以应用在云端和本地进行视频的精彩剪辑。本申请实施例主要是基于多种模态的信息对视频片段进行打分，进而在给定时间长度的约束下选择精彩程度最高的部分作为剪辑结果。在实现的过程中，首先对视频进行镜头切分，将视频分为一系列的序列镜头。然后，对每个镜头(即视频镜头)，分别从视觉角度(包括清晰度、饱和度、色彩丰富度、亮度和人脸指数等维度)进行精彩程度打分、听觉角度(对于音乐类型的素材，可以定义副歌部分或者重复部分为高潮片段，音乐的高潮部分精彩程度较高)和文本信号(对于对话类的素材，提取对话文本，文本情感属性强度代表精彩程度)对每个镜头进行精彩程度衡量打分。得到镜头的精彩程度分数之后，从最高分数的镜头开始沿着时间轴往左右两边扩张，对当前视频片段进行时间轴上的扩展，直到接近但不超过要求的时间长度为止，这样得到的视频片段为剪辑出来的精彩片段。

本申请实施例的方案可以提供对短视频的精彩剪辑服务，对短视频的精彩剪辑服务可以部署在云端，对给定的短视频进行剪辑，从而为后续服务，比如广告投放和视频推荐等提供满足时长要求的视频。其中，

本申请实施例中，首先对视频进行镜头检测，也就是对视频进行时间片段划分，然后融合多个模态对视频进行理解，对视频的镜头进行精彩程度打分。这些模态包括视觉信息、音频信息和文本信息。其中，视觉信息包括清晰度、饱和度、色彩丰富度、亮度和人脸指数等，音频信息体现为对音乐类视频的音乐进行打分，文本信息主要体现为提取视频字幕，并依据文本的情感强烈程度决定精彩程度。

图7是本申请实施例提供的视频剪辑方法的流程图，如图7所示，首先基于视频中图像(即视频帧)的颜色直方图对输入视频进行镜头分割701。在实现的过程中，可以计算每帧图像的颜色直方图，然后计算颜色直方图之间的相似度，根据相似度阈值决定镜头转换帧，通过这些转换帧将视频分成多个镜头。

分别基于视觉信息和文本信息对每一帧图像进行精彩程度打分，得到视觉信号精彩评分702(即视觉评价分值)和文本信号精彩评分704(即文本评价分值)。基于音频信息对视频所对应的音频的预定时长片段，如每秒，进行精彩程度打分，得到音频信号精彩评分703(即音频评价分值)，然后，对音频信号进行插值，以将音频信号精彩评分对应到视频的每一帧，从而得到每一帧的音频评价分数。

基于每个时刻的精彩评分进行平均，实现对不同精彩评分的精彩分数融合705，得到每个镜头的精彩分数。得到每个镜头的分数之后，从分数最高的镜头开始沿着时间轴左右两边进行扩张，直到得到满足时长要求的最长的视频片段为止，即实现基于精彩分数的视频剪辑706，以得到满足时长要求的输出视频。

下面对本申请实施例提供的视频剪辑方法的各个步骤进行详细说明。

在镜头分割步骤中，镜头分割包括如下步骤：计算每一帧的颜色直方图得到每一帧图像的直方图向量，基于直方图向量计算连续两帧图像的颜色直方图之间的相似度。获取每连续两帧的相似度之后，统计给定视频内连续两帧间的相似度，根据统计信息决定相似度的阈值。决定该阈值之后，高于该阈值的连续两帧会被判定为属于同一个镜头，低于该阈值的则被判定为属于不同的镜头。这样，视频被分为多个镜头。

本申请实施例中，根据统计信息决定相似度的阈值可以通过以下任意一种方式实现：方式一，取视频的镜头中全部图像的颜色直方图之间的相似度的均值，将该均值确定为相似度的阈值，或者，对该均值乘以任一预设倍数得到相似度的阈值；方式二，取视频的镜头中全部图像的颜色直方图之间的相似度，并对相似度进行排序，形成相似度序列，然后取相似度序列中前特定百分比位置处对应的相似度或者取相似度序列的相似度中值，作为该相似度的阈值。

在视觉信号精彩评分步骤中，可以基于图像帧采用如下视觉信号进行精彩程度评价。

清晰度：将图像转为灰度图像之后，计算拉普拉斯算子，其方差作为清晰度分数。

色彩丰富度：提取图像的RGB通道，计算R通道和G通道的差，将R和G通道的均值作为Y通道，计算Y通道和B通道的差，计算这两个差值的均值和标准差，然后计算两个标准差的融合标准差和两个均值的融合均值，融合后的标准差和均值加权平均作为最终的色彩丰富度的评价。

饱和度：将图片转为HSV空间之后S通道的均值作为饱和度的评价。

亮度：将图片转为HSV空间之后V通道的均值作为亮度的评价。

人脸指数：对图像进行人脸检测，人脸数目介于1-5之间(认为此时出现重点角色)则分数较高，人数大于5(可以认为是人群画面)，分数较低，若没有人脸(风景，街景等)则分数为0。

在听觉信号精彩评分步骤中，提取视频里面的音频，对音频的每一秒进行精彩程度打分。通常而言，对于音乐而言，副歌部分或者重复的片段会被认为是高潮部分也就是精彩程度较高的部分。通过这样的机制可以对音频的每一秒都可以得到一个精彩分数。

在文本信号精彩评分步骤中，在视频里面，对白是可以提供精彩分数衡量的，比如，激烈的争吵片段应该比平淡无奇的对白更吸引眼球。为了获取对白，可以通过OCR技术获取字幕文本。为了衡量文本的情感属性，可以通过文本情感分析，对对话文本的情感属性进行分析，如果文本的正负情感差大于0.5，则认为该文本情感强烈，会把这个情感差值作为该时刻的精彩分数。

在精彩分数融合步骤中，拿到每个时刻的精彩分数(对于视觉信号和文本信号，时刻意味着帧级别的时间刻度，对于听觉信号，时刻意味着秒级别的时间刻度)，可以将每个镜头内的时刻的精彩分数做平均作为该镜头的精彩分数。由于听觉信号的时间刻度为秒，与另外两种信号的刻度不一样，因此需要将该模态的精彩分数按照视频帧数目进行插值得到每一个视频帧级别的精彩分数。这样统一时间刻度之后，将每种描述的精彩分数做归一化，然后进行平均，得到每个镜头的精彩评分，然后再进行归一化，得到最终的精彩评分。

在基于精彩分数剪辑步骤中，获得每个镜头的精彩分数之后，取最高精彩分数的镜头为锚点，沿着时间轴往两边扩展(哪边分数高先往哪边扩展)，取得满足时长限制要求最长的视频片段进行输出。

本申请实施例提供的视频剪辑方法，能够提升视频精彩剪辑的准确性，并且能够根据剪辑结果进行更好地为下游任务服务，具有潜在的经济效益。

下面继续说明本申请实施例提供的视频剪辑装置354实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器350的视频剪辑装置354中的软件模块可以是服务器300中的视频剪辑装置，所述装置包括：

镜头划分模块3541，用于响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头；

获取模块3542，用于获取每一所述视频镜头的视觉信息对应的视觉评价分值、音频信息对应的音频评价分值和文本信息对应的文本评价分值；

确定模块3543，用于根据每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值，确定对应视频镜头的分值；

截取模块3544，用于根据每一所述视频镜头的所述分值，从所述待剪辑视频中截取至少一段视频片段。

在一些实施例中，所述确定模块还用于：对每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值进行融合计算，得到所述对应视频镜头的所述分值。

在一些实施例中，所述获取模块还用于：获取所述待剪辑视频中每一视频帧的所述视觉信息，其中，所述视觉信息包括至少一种视频属性参数；对应于每一种视频属性参数的类型，采用预设算法计算对应视频属性参数对应的评价值；对全部视频属性参数对应的评价值进行融合，得到所述视频帧的融合评价值；根据所述视频镜头对应的全部视频帧的所述融合评价值，确定所述视频镜头的所述视觉评价分值。

在一些实施例中，所述获取模块还用于：按照预设时长将所述待剪辑视频对应的音频划分成特定数量的音频片段；根据每一所述音频片段在所述待剪辑视频对应的音频中的位置，对对应音频片段进行音频精彩评价，得到每一所述音频片段的音频片段评价值；根据所述视频镜头对应的全部音频片段的所述音频片段评价值，确定所述视频镜头的所述音频评价分值。

在一些实施例中，所述获取模块还用于：在所述待剪辑视频中，确定每一所述预设时长的音频片段对应的视频片段中的至少一个视频帧；将所述音频片段评价值，赋值给所述音频片段对应的所述视频片段中的每一视频帧，使得每一所述视频帧具有所述音频片段评价值；根据所述视频镜头对应的全部视频帧的所述音频片段评价值，确定所述视频镜头的所述音频评价分值。

在一些实施例中，所述获取模块还用于：获取所述待剪辑视频的每一视频帧中的文本信息；对每一视频帧中的文本信息进行文本情感分析，得到每一视频帧的文本情感值；根据所述视频镜头对应的全部视频帧的所述文本情感值，确定所述视频镜头的所述文本评价分值。

在一些实施例中，所述获取模块还用于：确定所述视频镜头中每两帧视频帧之间的所述文本情感值之间的差值；当任意两帧视频帧之间的所述文本情感值之间的差值的绝对值大于文本情感差阈值时，将所述文本情感值之间的差值的绝对值，确定为所述视频镜头的所述文本评价分值。

在一些实施例中，所述确定模块还用于：对每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值分别进行归一化处理，得到归一化处理后的视觉评价分值、音频评价分值和文本评价分值；对所述归一化处理后的视觉评价分值、音频评价分值和文本评价分值求均值，并将所述均值确定为所述对应视频镜头的所述分值。

在一些实施例中，所述镜头划分模块还用于：获取所述待剪辑视频中的每一视频帧的颜色直方图；确定每连续两帧视频帧的颜色直方图之间的相似度；根据所述相似度对所述待剪辑视频进行镜头划分，得到所述至少两个视频镜头。

在一些实施例中，所述截取模块还用于：将所述分值大于分值阈值的视频镜头所对应的播放时刻，确定为目标播放时刻；将每一所述目标播放时刻确定为时间原点；以所述时间原点为起点，沿所述待剪辑视频的时间轴的两侧，每次以一个视频镜头为单元进行扩展，得到扩展视频片段；当任意一次扩展后得到的所述扩展视频片段的时长满足预设条件时，停止扩展并将当前的所述扩展视频片段，确定为与所述目标播放时刻对应的所述视频片段。

在一些实施例中，所述装置还包括：拼接模块，用于按照所述目标播放时刻的先后顺序，对所述至少一段视频片段进行拼接，形成拼接后的视频；输出所述拼接后的视频。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，R ead Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头，所述视频镜头包括连续的多帧相似视频帧；

获取每一所述视频镜头对应的视觉评价分值，所述视觉评价分值用于指示相应所述视频镜头的视频精彩程度；

获取多个音频片段，所述多个音频片段通过对所述待剪辑视频的音频进行划分得到；根据每一所述音频片段在所述待剪辑视频所对应音频中的位置，对所述音频片段进行音频精彩评价，得到相应音频片段的音频片段评价值；根据各所述视频镜头对应音频片段的所述音频片段评价值，确定每一所述视频镜头的音频评价分值；

获取所述待剪辑视频的每一视频帧中的文本信息；对每一视频帧中的文本信息进行文本情感分析，得到每一视频帧的文本情感值；根据各所述视频镜头对应视频帧的所述文本情感值，确定每一所述视频镜头的文本评价分值；

对每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值进行融合计算，确定对应所述视频镜头的分值，所述视频镜头的分值用于评价所述视频镜头的精彩程度；

以具有最高所述分值的所述视频镜头为中心，按照所述待剪辑视频播放的时间轴，向所述时间轴两侧扩展特定时长，从所述待剪辑视频中截取至少一段视频片段。

2.根据权利要求1所述的方法，其特征在于，所述获取每一所述视频镜头对应的视觉评价分值，包括：

获取所述待剪辑视频中每一视频帧的视觉信息，其中，所述视觉信息包括至少一种视频属性参数；

对应于每一种视频属性参数的类型，采用预设算法计算对应视频属性参数对应的评价值；

对全部视频属性参数对应的评价值进行融合，得到所述视频帧的融合评价值；

根据所述视频镜头对应的全部视频帧的所述融合评价值，确定所述视频镜头的所述视觉评价分值。

3.根据权利要求1所述的方法，其特征在于，所述获取多个音频片段，包括：

按照预设时长将所述待剪辑视频对应的音频划分成特定数量的音频片段。

4.根据权利要求1所述的方法，其特征在于，所述根据各所述视频镜头对应音频片段的所述音频片段评价值，确定每一所述视频镜头的音频评价分值，包括：

在所述待剪辑视频中，确定每一预设时长的音频片段对应的视频片段中的至少一个视频帧；

将所述音频片段评价值，赋值给所述音频片段对应的所述视频片段中的每一视频帧，使得每一所述视频帧具有所述音频片段评价值；

根据所述视频镜头对应的全部视频帧的所述音频片段评价值，确定所述视频镜头的所述音频评价分值。

5.根据权利要求1所述的方法，其特征在于，所述根据各所述视频镜头对应视频帧的所述文本情感值，确定每一所述视频镜头的文本评价分值，包括：

确定所述视频镜头中每两帧视频帧之间的所述文本情感值之间的差值；

当任意两帧视频帧之间的所述文本情感值之间的差值的绝对值大于文本情感差阈值时，将所述文本情感值之间的差值的绝对值，确定为所述视频镜头的所述文本评价分值。

6.根据权利要求1所述的方法，其特征在于，所述对每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值进行融合计算，得到所述对应视频镜头的所述分值，包括：

对每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值分别进行归一化处理，得到归一化处理后的视觉评价分值、音频评价分值和文本评价分值；

对所述归一化处理后的视觉评价分值、音频评价分值和文本评价分值求均值，并将所述均值确定为所述对应视频镜头的所述分值。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述对待剪辑视频进行镜头划分，得到至少两个视频镜头，包括：

获取所述待剪辑视频中的每一视频帧的颜色直方图；

确定每连续两帧视频帧的颜色直方图之间的相似度；

根据所述相似度对所述待剪辑视频进行镜头划分，得到所述至少两个视频镜头。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

将所述分值大于分值阈值的视频镜头所对应的播放时刻，确定为目标播放时刻；

将每一所述目标播放时刻确定为时间原点；

以所述时间原点为起点，沿所述待剪辑视频的时间轴的两侧，每次以一个视频镜头为单元进行扩展，得到扩展视频片段；

当任意一次扩展后得到的所述扩展视频片段的时长满足预设条件时，停止扩展并将当前的所述扩展视频片段，确定为与所述目标播放时刻对应的所述视频片段。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

按照所述目标播放时刻的先后顺序，对所述至少一段视频片段进行拼接，形成拼接后的视频；

输出所述拼接后的视频。

10.一种视频剪辑装置，其特征在于，所述装置包括：

镜头划分模块，用于响应于视频剪辑指令，对待剪辑视频进行镜头划分，得到至少两个视频镜头，所述视频镜头包括连续的多帧相似视频帧；

获取模块，用于获取每一所述视频镜头对应的视觉评价分值，所述视觉评价分值用于指示相应所述视频镜头的视频精彩程度；获取多个音频片段，所述音频片段对应所述待剪辑视频的音频；根据每一所述音频片段在所述待剪辑视频所对应音频中的位置，对所述音频片段进行音频精彩评价，得到相应音频片段的音频片段评价值；根据各所述视频镜头对应音频片段的所述音频片段评价值，确定每一所述视频镜头的音频评价分值；获取所述待剪辑视频的每一视频帧中的文本信息；对每一视频帧中的文本信息进行文本情感分析，得到每一视频帧的文本情感值；根据各所述视频镜头对应视频帧的所述文本情感值，确定每一所述视频镜头的文本评价分值；

确定模块，用于对每一所述视频镜头的所述视觉评价分值、所述音频评价分值和所述文本评价分值进行融合计算，确定对应所述视频镜头的分值，所述视频镜头的分值用于评价所述视频镜头的精彩程度；

截取模块，用于以具有最高所述分值的所述视频镜头为中心，按照所述待剪辑视频播放的时间轴，向所述时间轴两侧扩展特定时长，从所述待剪辑视频中截取至少一段视频片段。

11.一种视频剪辑设备，其特征在于，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至9任一项所述的视频剪辑方法。

12.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现权利要求1至9任一项所述的视频剪辑方法。