CN113542865B

CN113542865B - 视频剪辑方法、装置及存储介质

Info

Publication number: CN113542865B
Application number: CN202011559704.4A
Authority: CN
Inventors: 赵天昊; 田思达; 袁微
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-04-07
Anticipated expiration: 2040-12-25
Also published as: CN113542865A

Abstract

本申请提供了一种视频剪辑方法、装置及计算机可读存储介质，能够实现将视频自动生成视频片段，节约人力成本，并减少人为误差，该方法包括：抽取待剪辑视频中的多个视频帧；将多个视频帧输入至第一卷积网络模型进行特征提取得到多个视频帧的图像特征；将多个视频帧的图像特征输入时序动作分割网络模型得到目标事件的起止时间；将目标事件的起止时间对应的视频帧输入至第二卷积网络模型，得到目标事件的事件类型；根据目标事件的事件类型，获取目标事件对应的视频帧中的文本信息生成目标事件的标签信息；根据目标事件的起止时间剪辑待剪辑视频，并将目标事件的标签信息赋予目标事件对应的视频片段，得到待剪辑视频对应的目标视频片段。

Description

视频剪辑方法、装置及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种视频剪辑方法、装置及存储介质。

背景技术

游戏视频的时长通常较长，不适合直接进行游戏视频的分享，这就需要将其中的精彩片段，剪辑成精彩片段集锦再进行分享。

相关技术中，这些集锦类视频片段的制作需要由人工识别精彩时刻再进行剪辑与后期制作，费时费力，并且对于快节奏的游戏视频难以从画面直接识别是否完成击杀，而且对于场景复杂的游戏，地图、武器、人物等标签众多，标注困难，因此，如何实现快捷且准确的游戏视频剪辑是一项急需解决的问题。

发明内容

本申请提供一种视频剪辑方法、装置及存储介质，能够实现将待剪辑视频自动剪辑生成目标视频片段，节约人力成本，并减少人为误差。

第一方面，本申请提供一种视频剪辑方法，包括：

抽取待剪辑视频中的多个视频帧；

将所述多个视频帧输入至第一卷积网络模型进行特征提取，得到所述多个视频帧的图像特征；

将所述多个视频帧的图像特征输入时序动作分割网络模型，得到目标事件在所述待剪辑视频中的起止时间；将所述目标事件的起止时间对应的视频帧输入至第二卷积网络模型进行事件分类，得到所述目标事件的事件类型；

根据所述目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息；

根据所述目标事件在所述待剪辑视频中的起止时间，剪辑所述待剪辑视频，并将所述目标事件的标签信息赋予所述目标事件对应的视频片段，得到所述待剪辑视频对应的目标视频片段。

第二方面，本申请提供一种视频剪辑装置，包括：

抽帧模块，用于抽取待剪辑视频中的多个视频帧；

特征提取模块，用于通过第一卷积网络模型提取所述多个视频帧的图像特征；

时序动作分割模块，用于将所述多个视频帧的图像特征输入至时序动作分割网络模型，输出目标事件在所述待剪辑视频中的起止时间；

事件分类模块，用于通过第二卷积网络模型对所述目标事件的起止时间对应的视频帧进行事件分类，输出所述目标事件的事件类型；

标签生成模块，用于根据所述目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息；

剪辑模块，用于根据所述目标事件在所述待剪辑视频中的起止时间，剪辑所述待剪辑视频，并将所述目标事件的标签信息赋予所述目标事件对应的视频片段，得到所述待剪辑视频对应的目标视频片段。

第三方面，提供了一种视频剪辑装置，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面的方法。

第四方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行第一方面的方法。

通过本申请提供的技术方案，可以对待剪辑视频中的多个视频帧输入至卷积网络模型以及时序动作分割网络模型，通过上述网络模型将该待剪辑视频自动剪辑出目标事件对应的视频片段，并对目标事件进行事件分类、添加标签，进而自动生成该待剪辑视频对应的目标视频片段，相对于人工剪辑操作，节约大量的人工成本并减少人为误差对剪辑结果的影响。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图。

图2为本申请实施例提供的一种视频剪辑方法的流程图。

图3为本申请实施例提供的另一种视频剪辑方法的流程图。

图4为对战匹配事件的一例示意图。

图5为背包选择事件的一例示意图。

图6为换子弹事件的一例示意图。

图7是多徽章击杀事件的一例示意图。

图8是人物动画事件的一例示意图。

图9是RGB卷积网络模型的训练流程的示意性图。

图10是时序动作分割网络模型的训练流程的示意性图。

图11为本申请实施例提供的一种视频剪辑装置的示意图。

图12是本申请实施例提供的另一种视频剪辑装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象，而不在用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在一些视频中，例如射击类游戏视频，游戏场景比较复杂，例如，武器、地图、人物等标签众多，标注困难，并且此类游戏的节奏一般较快，难以从画面之间识别是否完成击杀。

应理解，本申请实施例中的待剪辑视频可以为任意视频，例如，游戏视频，比如，射击类游戏，球类游戏等，或者也可以为其他多媒体作品的剪辑等，以下，以对游戏视频进行剪辑为例进行说明，但本申请并不限于此。

有鉴于此，本申请提供了一种视频剪辑方法，能够通过多模态技术(例如，事件分类技术，时序动作分割技术和光学字符识别(Optical Character Recognition，OCR)技术)对待剪辑视频自动生成目标事件的视频片段集锦，节约人力成本，并减少人为误差。

可选地，本申请技术方案可以应用于如下应用场景，但不限于此：如图 1所述，装置110可以向装置120上传待剪辑视频或者待剪辑视频的统一资源定位符(UniformResource Locator，URL)，以使装置120对该待剪辑视频进行剪辑，生成目标视频片段。

可选地，装置110可以通过Web接口上传待剪辑视频或者待剪辑视频的 URL。

在一些实施例中，装置110可以上传待剪辑视频流URL，装置120对接收的待剪辑视频流进行分段，进一步对分段的待剪辑视频流采用多模态技术进行处理，得到目标视频片段。具体地，装置120可以接收装置110的剪辑请求，进一步基于该剪辑请求获取该待剪辑视频，对该待剪辑视频进行处理，得到目标视频片段。

可选地，装置120在生成目标视频片段之后，可以将该目标视频片段或者该目标视频片段的URL传输给装置110，以供用户观看该目标视频片段。

应理解的是，图1所示的应用场景是以包括一个装置110和一个装置120 为例的，实际上，还可以包括其他数量的装置110，并且在装置110和装置 120之间还可以包括其他数据传输设备，本申请对此不做限制。

可选地，在本申请中，装置110可以是游戏机、手机、平板电脑、笔记本电脑或者个人计算机(Personal Computer，PC)等，本申请对此不做限制。

可选地，在本申请实施例中，装置120可以是终端设备或服务器等，本申请对此不做限制。

本申请实施例涉及人工智能(Artificial Intelligence,AI)中的计算机视觉技术(Computer Vision,CV)。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

下面结合图2至图12，对本申请技术方案进行详细阐述。

图2和图3为本申请实施例提供的一种视频剪辑方法的流程图，该方法的执行主体可以为视频剪辑装置，该视频剪辑装置可以是图1中的装置120，例如，终端设备或服务器等，但不限于此。

以下，从视频剪辑装置的角度描述本申请实施例，如图2和图3所示，该方法包括如下步骤：

S210，抽取待剪辑视频中的多个视频帧。

可选地，视频剪辑装置可以从其他设备获取待剪辑视频或者该待剪辑视频的URL。如果该视频剪辑装置获取到的是待剪辑视频的URL，该视频剪辑装置可以根据该URL从本地或者云服务器获取待剪辑视频。

可选地，在本申请一些实施例中，该方法还包括：

接收客户端发送的剪辑请求；

根据剪辑请求获取所述待剪辑视频。

例如，在一些场景中，在需要进行视频剪辑时，用户可以通过客户端上传待剪辑视频，并向视频剪辑装置发送剪辑请求，该视频剪辑装置在接收到该剪辑请求的情况下，获取该待剪辑视频。在对该待剪辑视频剪辑完毕之后，还可以将剪辑得到的目标视频片段发送给对应的一个或多个客户端。

可选地，在一些实施例中，该待剪辑视频可以为游戏视频，该游戏视频可以是完整的游戏视频，或者也可以是完整的游戏视频中的一段，本申请对此不作限定。更具体地，该游戏视频可以是点播游戏视频。

可选地，视频剪辑装置可以对待剪辑视频按照第一时间间隔进行视频抽帧，以得到该待剪辑视频的多个视频帧。例如：视频剪辑装置可以每隔1秒抽取连续的10个视频帧。可选地，所述第一时间间隔可以是预先设置的，其可以是固定不变的，也可以动态调整，本申请对此不做限制。

在S220中，将多个视频帧输入至第一卷积网络模型进行特征提取，提取多个视频帧的图像特征。

可选地，该第一卷积网络模型可以为RGB卷积网络模型，用于提取输入的视频帧的图像特征，例如，颜色特征等，该第一卷积网络模型的训练方式在下文中进行说明。

S230，将多个视频帧的图像特征输入时序动作分割(Temporal ActionSegmentation)网络模型，得到待剪辑视频中的目标事件在待剪辑视频中的起止时间。

应理解，本申请实施例对于目标事件的具体内容不做限定，其可以根据待剪辑视频的类型而变化，例如，若该待剪辑视频为影视视频，该目标事件可以为视频中的精彩片段或高潮部分，或者，若该待剪辑视频为游戏视频，该目标事件可以包括游戏视频中的精彩片段，例如，足球视频中的进球片段，射击游戏中的击杀片段等。

可选地，在一些实施例中，待剪辑视频为游戏视频，目标事件可以包括第一类事件和第二类事件，例如，第一类事件为对战准备过程中的事件，第二类事件为对战过程中的事件。

在本申请实施例中，所述第一类事件对应的视频帧可以称为关键帧，第二类事件对应的视频帧可以称为精彩片段。因此，在S230中可以得到关键帧和精彩片段在游戏视频中的起止时间。

应理解，本申请实施例对于第一类事件和第二类事件包括的具体事件不作限定。

作为示例而非限定，关键帧例如可以包括如表1所示的对战匹配和武器背包选择等事件对应的视频帧。

表1

关键帧	标签
		武器背包选择	武器-皮肤名称，人物-皮肤名称
对战匹配	地图名称

即第一类事件可以包括武器背包选择，对战匹配等事件。

图4至图5示出了游戏视频中对战匹配，武器背包选择等事件对应的视频帧的示例性画面。

作为示例而非限定，精彩片段例如可以包括表2中所示例的多徽章击杀，多徽章击杀接换子弹，换子弹，人物动画，比如人物胜利或人物失败等事件对应的视频帧。

表2

即第二类事件可以包括多徽章击杀，换子弹，人物动画等事件。

图6至图8示出了游戏视频中换子弹，多徽章击杀、人物动画等事件对应的视频帧的示例性画面。

应理解，以上示范性描述了关键帧和精彩片段的具体实例，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本申请实施方式的保护范围。

S240，将目标事件的起止时间对应的视频帧输入至第二卷积网络模型进行事件分类，得到目标事件的事件类型。

例如，将该多个视频帧中关键帧和精彩片段的起止时间对应的视频帧输入至第二卷积网络模型，对该关键帧和精彩片段进行事件分类，得到该关键帧和精彩片段的事件类型。

应理解，本申请实施例对于关键帧和精彩片段对应的事件类型不作限定。

作为示例，关键帧可以是地图选择，人物选择还是武器选择等事件对应的视频帧，精彩片段可以是多徽章击杀，换子弹，人物动画等事件对应的视频帧。

可选地，该第二卷积网络模型可以为RGB卷积网络模型。

结合图9，以该第二卷积网络模型为RGB卷积网络模型为例，说明该 RGB卷积网络模型的训练方法。

S301，对训练视频进行抽帧，得到多个视频帧。

例如，按照一定的时间间隔对该训练视频进行抽帧，得到该多个视频帧。

若该方法应用于游戏视频的剪辑，该训练视频可以包括多款游戏中的包括各类事件的游戏视频数据，例如，要实现对射击类游戏的自动剪辑，该训练视频可以是多款射击类游戏视频数据，此情况下，该RGB卷积网络模型可以用于对不同的射击类游戏视频的剪辑。或者，该训练视频也可以包括特定游戏中的各类事件的游戏视频数据，例如可以将大量用户玩该款游戏的视频作为训练视频，此情况下，该RGB卷积网络模型可以用于对该特定游戏的游戏视频的剪辑。

S302，对该多个视频帧中的目标事件的事件类型进行标注，组成该RGB 卷积网络模型的训练集。

例如，对该多个视频帧中的关键帧和精彩片段的事件类型进行标注，组成该RGB卷积网络模型的训练集。例如，标注N类事件和背景，则该RGB 卷积网络为N+1的分类器，用于区分视频帧属于N类事件中的一类事件还是背景。

例如，按照表1和表2中示例对关键帧和精彩片段对应的事件类型进行标注。

可选地，在一些实施例中，可以对视频帧中的击杀类事件单独抠图徽章区域，组成训练集，在训练时，判断针对此徽章区域是否判定为多徽章击杀事件。

S303，将标注的该多个视频帧输入至RGB卷积网络进行训练，得到该 RGB卷积网络的模型参数。

结合图10，说明该时序动作分割网络模型的训练方法。

应理解，RGB卷积网络模型可以作为该时序动作分割网络模型的基准网络模型，用于特征提取，提取的特征进一步输入该时序动作分割网络模型进行训练，因此，特征提取的结果也会影响时序动作分割网络模型的输出结果，因此，可以根据该时序动作分割网络模型的输出调整RGB卷积网络模型的模型参数，以使得二者配合输出最优的结果。

S401，对训练视频中目标事件的起止时间进行标注。

在一些实施例中，若时序动作分割模型用于对游戏视频进行剪辑，可以对训练视频中的关键帧和精彩片段的起止时间进行标注。

若该方法应用于直播游戏视频的剪辑，该训练视频可以包括各大游戏平台的包括各类事件的游戏视频数据，此情况下，该时序动作分割网络模型可以用于对不同游戏的游戏视频的剪辑，或者，也可以包括特定游戏的各类事件的游戏视频数据，此情况下，该时序动作分割网络模型可以用于对该特定游戏的游戏视频的剪辑。

S402，对标注的该训练视频以固定时间间隔抽帧，并将抽取的视频帧输入至RGB卷积网络模型，输出视频帧的图像特征，组成该时序动作分割网络的训练集。

可选地，该固定时间间隔可以是预先设置的，其可以是固定不变的，也可以动态调整，本申请对此不做限制。

S403，利用S402中得到的训练集对时序动作分割网络进行训练，得到该时序动作分割网络的模型参数。

至此，通过上述步骤可以确定待剪辑视频中的目标事件的起止时间以及事件类型。进一步地，继续参见图2和图3，通过以下步骤可以确定目标事件对应的标签信息，以及进行视频片段的输出。

S250，根据目标事件的事件类型，获取目标事件对应的视频帧中的文本信息，生成目标事件的标签信息。

例如，可以根据关键帧的事件类型，获取关键帧对应的视频帧中的文本信息，生成关键帧的标签信息。

又例如，可以根精彩片段的事件类型，获取精彩片段对应的视频帧中的文本信息，生成精彩片段的标签信息。

在本申请一些实施例中，如图3所示，该S250可以包括S251至S253 中的文字识别，文本组合和文本匹配三个步骤。

以下，以确定关键帧和精彩片段中的文本信息为例，分别介绍该三个步骤。

一、文本识别：

在一些实施例中，可以根据关键帧的事件类型，对关键帧对应的视频帧按照不同的帧率进行抽帧。例如，对于出现时间较短的关键帧以较高的帧率进行抽帧，对于出现时间较长的关键帧以较低的帧率进行抽帧。

在一些实施例中，也可以根据精彩片段的事件类型，对精彩片段对应的视频帧按照不同的帧率进行抽帧。例如，对于出现时间较短的精彩片段以较高的帧率进行抽帧，对于出现时间较长的精彩片段以较低的帧率进行抽帧。

在另一些实施例中，也可以根据关键帧的重要性采用不同的帧率进行抽帧，例如，对于重要事件以较高的帧率抽帧，比如背包选择事件，对于重要性较低的事件以较低的帧率抽帧等。

在另一些实施例中，也可以根据精彩片段的重要性采用不同的帧率进行抽帧，例如，对于重要事件以较高的帧率抽帧，比如人物动画事件，对于重要性较低的事件以较低的帧率抽帧等。

在一些实施例中，可以根据关键帧的事件类型，对抽取的关键帧对应的视频帧中的特定区域进行抠图以获取该特定区域中的文本信息，例如，图4 和图5所示，不同事件类型的关键帧中的文本信息通常会出现在不同的区域。因此，对于不同事件类型的关键帧中的文本信息的提取，可以重点对出现文本信息的特定区域进行抠图，以提取该特定区域中的文本信息。

在一些实施例中，可以根据精彩片段的事件类型，对抽取的精彩片段对应的视频帧中的特定区域进行抠图以获取该特定区域中的文本信息，例如，图6至图8所示，不同事件类型的精彩片段中的文本信息通常会出现在不同的区域。因此，对于不同事件类型的精彩片段中的文本信息的提取，可以重点对特定区域进行抠图，以提取该特定区域中的文本信息。

进一步地，可以将该关键帧和精彩片段对应的视频帧中的特定区域的图像输入至OCR模块，识别该图像中的文本信息以及该文本信息对应的文本框的坐标信息。在一些可选的实现方式中，可以只将抽取的视频帧中包括重要文本信息的图像输入至OCR模块进行识别。

二、文本合并：

在一些情况中，OCR模块可能会将视频帧中的一个完整句子识别为多个词组或单词，或者将一个词组识别为多个单词，即将本应属于一个文本框的文本信息划分到多个文本框中，在本申请实施例中，可以根据所述文本框的坐标信息，进行文本框的合并，进一步将合并的文本框中的文本信息进行拼接，从而得到一个完整句子或词组。

在一些实施例中，可以根据文本框之间的横向间距，纵向高度或纵向重合范围等信息，判断两个文本框是否为属于同一词组或句子的文本框。

可选地，该文本框的横向间距可以指两个文本框之间的水平距离，即两个文本框的竖直边之间的最短距离。

可选地，该文本框的纵向高度可以指文本框的竖直边的长度。

可选地，文本框之间的纵向重复范围可以指两个文本框的竖直边之间的重复范围。

作为示例而非限定，可以将满足以下条件的两个文本框合并为一个文本框：

两个文本框的横向间距小于第一阈值；

两个文本框的纵向高度差小于第二阈值；

两个文本框的纵向重合范围大于第三阈值。

作为示例而非限定，该第一阈值例如可以为两个文本框中纵向高度较小的文本框的纵向高度。

作为示例而非限定，该第二阈值例如可以为两个文本框中纵向高度较小的文本框的纵向高度的25％。

作为示例而非限定，该第三阈值例如可以为两个文本框中纵向高度较小的文本框的纵向高度的75％。

进一步地，可以将合并的文本框中的文本信息进行拼接得到完整文本信息。

三、文本匹配：

在本申请一些实施例中，可以将完整文本信息和词组字典中的词条进行整体匹配，确定目标文本信息。

若该待剪辑视频为游戏视频，该词组字典可以包括游戏中的各种标签的词条，或者标签组合的词条，例如武器名称，人物名称，地图名称等。当待剪辑视频为其他类型的视频时，该词组字典也可以包括其他内容的词条，本申请对此不作限定。

例如，可以计算完整文本信息和词组字典中的词条的第一文本编辑距离，根据第一文本编辑距离确定该完整文本信息在词组字典中所匹配的目标文本信息。

应理解，文本编辑距离是指两个字串之间，由一个字串转成另一个字串所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。

例如，abc转换为bcd所需要的操作次数为：删除a，插入d，即文本编辑距离为2。

具体地，可以将完整文本信息和词组字典中的多个词条进行匹配，确定该完整文本信息和该多个词条中的每个词条之间的第一文本编辑距离，进一步根据该完整文本信息和该每个词条之间的第一文本编辑距离确定和该完整文本信息匹配的目标词条，即目标文本信息。

在一些实施例中，可以选择第一文本编辑距离最小并且小于或等于第四阈值的词条作为目标词条。

作为示例而非限定，该第四阈值例如可以为1，或者2。

在一些场景中，词组字典中并不一定包括各种标签的组合，假设武器名称包括A和B，皮肤名称包括1和2，该武器和皮肤可以任意组合，即可以有如下组合：A-1，A-2，B-1和B-2，若检测到完整文本信息为A-2，而词组字典仅包括A-1和B-2，此情况下，将完整文本信息和词组字典中的词条进行匹配，可能得到的匹配结果不准确。

在本申请另一些实施例中，可以将完整文本信息中的每个单词和词组字典进行独立匹配，确定目标文本信息。

在一些实施例中，可以计算完整文本信息中的每个单词和词组字典中的词条的文本编辑距离，得到所述完整文本信息和词组字典中的词条的第二文本距离，进一步地，根据第二文本编辑距离，确定该完整文本信息在词组字典中所匹配的目标文本信息。

在一些实施例中，可以选择第二文本编辑距离最小并且小于或等于第五阈值的词条作为目标词条。

作为示例而非限定，该第五阈值例如可以为1，或者2。

在本申请又一实施例中，可以根据完整文本信息和词组字典中的词条的第一文本编辑距离以及该完整文本信息和词组字典中的词条的第二文本编辑距离，确定该完整文本信息所匹配的目标文本信息。

可选地，将第一文本编辑距离和第二文本编辑距离中的较小值所对应的词条作为与所述完整文字信息匹配的目标文本信息。

作为一个示例，可以将武器背包选择事件对应的关键帧中的完整文本信息，与武器、人物和皮肤字典中的词条进行匹配，得到第一匹配结果，还可以将武器背包选择事件对应的关键帧中的完整文本信息中的独立单词，与武器、人物和皮肤字典中进行匹配，得到第二匹配结果，将第一匹配结果和第二匹配结果比较，选择匹配度较高的结果，这里的匹配度较高可以指文本编辑距离低，采用此方式能够检测出词组字典中未录入过的武器-皮肤或人物- 皮肤等组合。

接着上个例子，假设完整文本信息为A-2，而词组字典包括A-1和B-2，则将完整文本信息A-2和词组字典中的词条进行整体匹配，得到该完整文本信息与词条的第一文本编辑距离为1，将完整文本信息A-2中的每个单词和词组字典中的词条进行整体匹配，得到该完整文本信息与词条的第二文本编辑距离为0，则确定完整文本信息A-2对应的目标文本信息为A-2。

进一步地，根据目标文本信息，确定关键帧和精彩片段的标签信息。

在一些实施例中，将在精彩片段中检测到的文本信息所对应的目标文本信息作为精彩片段的标签信息。

例如，若在击杀类精彩片段对应的视频帧中检测到多杀确认的文本信息 (例如，武器击杀或技能杀等)，此情况下，可以将多杀作为该精彩片段对应的标签信息。可选地，该精彩片段对应的标签信息还可以包括完成击杀所使用的武器名称、技能名称、地图名称等信息。

在另一些实施例中，将在相邻并且事件类型相同的关键帧中检测到的文本信息所对应的目标文本信息作为该相邻的关键帧之间的精彩片段的标签信息。

例如，若第一关键帧和第二关键帧对应的事件类型相同，例如均为武器背包选择，并且第二关键帧为该第一关键帧的下一个事件类型相同的关键帧，第一关键帧和第二关键帧之间有第一精彩片段，则可以将该第一关键帧和第二关键帧中检测到的文本信息所匹配到的目标文本信息作为第一精彩片段的标签信息，例如，可以将该第一关键帧和第二关键帧中检测到的武器名称或人物名称等作为该第一精彩片段的标签信息。

也就是说，如表2所示，精彩片段的标签信息可以包括来自该精彩片段中的文本信息，也可以包括来自相关的关键帧中的文本信息。

至此，可以得到待剪辑视频中的目标事件的起止时间以及目标事件对应的标签信息。

在S260中，根据目标事件的起止时间对该待剪辑视频进行剪辑得到目标事件对应的视频片段，进一步地，将目标事件的标签信息赋予该目标事件对应的视频片段，得到该目标事件对应的目标视频片段。

应理解，根据目标事件的起止时间对该待剪辑视频进行剪辑可以是在 S250之后，或者也可以在S230之后，本申请对此不作限定。

在本申请一些实施例中，如图3所示，在S270中，还可以对该目标视频片段进一步处理，例如进行特殊的视频片段的拼接。

作为示例，若目标视频片段中包括第一虚拟事件对应的视频片段，并且在所述第一虚拟事件对应的视频片段之前以及之后均包括第二虚拟事件对应的视频片段，并且第一虚拟事件和第二虚拟事件对应的第一类事件标签相同，将第一虚拟事件对应的视频片段以及在第一虚拟事件对应的视频片段之前以及之后的第二虚拟事件对应的视频片段进行拼接。

在一些实施例中，第一虚拟事件和第二虚拟事件均为第二类事件，即对战过程中的事件。

可选地，第一类事件标签相同可以指关键帧标签相同，例如地图标签相同和武器标签相同，关键帧标签相同用于表示视频片段发生在同一场对战中。

可选地，第一虚拟事件可以指换子弹事件，第二虚拟事件可以指多徽章击杀事件。例如，对于每一个换子弹事件，如果在该换子弹事件前后均存在地图标签和武器标签都与之相同的多徽章击杀事件，则将这两个多徽章击杀事件与该换子弹事件对应的视频片段进行拼接，得到由多徽章击杀事件+换子弹事件+多徽章击杀事件拼接的特殊视频片段。

可选地，在一些实施例中，该待剪辑视频包括一场完整的对战，在其他实施例中，该待剪辑视频可以包括多场对战，或者也可以只包括部分对战场面，即对战并没有结束，此情况下，为了提升用户观看体验，在本申请实施例中，还可以根据所述目标视频片段中包括的视频片段的事件类型，进行所述目标视频片段的输出。

人物动画事件表示一场对战的结束，因此在进行视频剪辑时，可以将人物动画事件作为视频片段的结束节点。

在一些实施例中，若目标视频片段中包括人物动画精彩片段，例如，人物胜利片段或人物失败片段，此情况下可以将第一个人物动画精彩片段和第一个人物动画精彩片段之前的精彩片段进行拼接得到第一视频片段，并输出所述第一视频片段；将两段人物动画精彩片段之间的精彩片段进行拼接得到第二视频片段，并输出第二视频片段；最后一个人物动画精彩片段和最后一个人物动画精彩片段之后的精彩片段缓存，不输出，直到出现对战结束的精彩片段。

在另一些实施例中，若目标视频片段中不包括人物动画精彩片段，表示对战未结束，此情况下，可以将精彩片段进行缓存，待出现人物动画精彩片段之后再和人物动画精彩片段进行拼接输出。

也就是说，本申请实施例中，输出的每个视频片段可以包括代表对战结束的精彩片段，还可以包括对战过程中的精彩片段，例如，多杀精彩片段，换子弹精彩片段，特定场景的精彩片段等。

因此，在本申请实施例中，视频剪辑装置可以按一定的时间间隔对待剪辑视频进行抽帧，并将抽取的视频帧发送给RGB卷积网络模型以及时序动作分割网络模型，通过上述网络模型将该待剪辑视频自动剪辑出目标事件对应的视频片段，并对其分类、添加标签，进而自动生成目标视频片段，因此，在实际业务场景中可以替代人工剪辑操作，节约大量的人工成本并减少人为误差。

图11为本申请实施例提供的一种视频剪辑装置的示意图，如图11所示，该视频剪辑装置1000包括：

抽帧模块1001，用于抽取待剪辑视频中的多个视频帧；

特征提取模块1002，用于通过第一卷积网络模型提取该多个视频帧的图像特征；

时序动作分割模块1003，将该多个视频帧的图像特征输入时序动作分割网络模型，得到目标事件在该待剪辑视频中的起止时间；

事件分类模块1004，用于通过第二卷积网络模型对该目标事件的起止时间对应的视频帧进行事件分类，输出该目标事件的事件类型；

标签生成模块1005，用于根据该目标事件的事件类型，获取该目标事件对应的视频帧中的文本信息，生成该目标事件的标签信息；

剪辑模块1006，用于根据该目标事件在该待剪辑视频中的起止时间，剪辑该待剪辑视频，并将该目标事件的标签信息赋予该目标事件对应的视频片段，得到该待剪辑视频对应的目标视频片段。

可选地，在一些实施例中，该抽帧模块1001还用于：

根据该目标事件的事件类型，按照特定帧率对该目标事件对应的视频帧进行抽帧；

该装置1000还包括：

获取模块，用于根据该目标事件的事件类型，获取抽取的视频帧中的特定区域的图像，其中，该特定区域的图像为该视频帧中包含文本信息的图像；

光学文字识别OCR模块，用于对该特定区域的图像进行识别，得到该视频帧中所包括的文本信息以及该文本信息对应的文本框的坐标信息；

处理模块，用于根据该文字信息和该文本信息对应的文本框的坐标信息，确定该目标事件的标签信息。

可选地，在一些实施例中，该处理模块还用于：

根据该文本框的坐标信息，进行文本框的合并，得到完整文本信息；

将该完整文本信息和词组字典进行匹配，确定该完整文本信息所匹配的目标文本信息；

根据该目标文本信息，确定该目标事件的标签信息。

可选地，在一些实施例中，该处理模块还用于：

将满足以下条件的两个文本框合并为一个文本框：

该两个文本框的横向间距小于第一阈值；

该两个文本框的纵向高度差小于第二阈值；

该两个文本框的纵向重合范围大于第三阈值。

可选地，在一些实施例中，该处理模块还用于：

将该完整文本信息和该词组字典中的词条进行整体匹配，确定该完整文本信息和该词组字典中的词条的第一文本编辑距离；

将第一文本编辑距离最小，并且该第一文本编辑距离小于第四阈值的词条作为该目标文本信息。

可选地，在一些实施例中，该处理模块还用于：

将该完整文本信息中的每个单词和该词组字典中的词条进行独立匹配，确定该完整文本信息与该词组字典中的词条的第二文本编辑距离；

将该第一文本编辑距离和该第二文本编辑距离中的较小值所对应的词条作为与该完整文字信息匹配的目标文本信息。

可选地，在一些实施例中，该目标视频片段包括至少一个精彩片段，或该目标视频片段包括至少一个精彩片段和至少一个关键帧，该目标事件包括第一类事件和第二类事件，该关键帧包括该第一类事件对应的多个视频帧，该精彩片段包括该第二类事件对应的多个视频帧，该处理模块还用于：

将在第二类事件对应的视频帧中检测到的文本信息所匹配的目标文本信息作为该第二类事件的标签信息；

将在相邻并且事件类型相同的第一类事件对应的视频帧中检测到的文本信息所匹配的目标文本信息作为该相邻的第一类事件之间的第二类事件的标签信息。

可选地，在一些实施例中，该待剪辑视频为点播游戏视频，该目标视频片段包括至少一个精彩片段，或该目标视频片段包括至少一个精彩片段和至少一个关键帧，其中，该目标事件包括第一类事件和第二类事件，该关键帧包括该第一类事件对应的多个视频帧，该精彩片段包括该第二类事件对应的多个视频帧。

可选地，在一些实施例中，该装置1000还包括：

输出模块，用于若该目标视频片段中包括第一虚拟事件对应的视频片段，并且在该第一虚拟事件对应的视频片段之前以及之后均包括第二虚拟事件对应的视频片段，并且该第一虚拟事件和该第二虚拟事件对应的第一类事件标签相同，将该第一虚拟事件对应的视频片段以及在第一虚拟事件对应的视频片段之前以及之后的该第二虚拟事件对应的视频片段进行拼接，其中该第一虚拟事件和该第二虚拟事件均为该第二类事件。

可选地，在一些实施例中，该装置1000还包括：

通信模块，用于接收客户端发送的剪辑请求；

处理模块，用于根据该剪辑请求获取该待剪辑视频。

该通信模块还用于：将对待剪辑视频剪辑得到的目标视频片段发送给对应的一个或多个客户端。

可选地，在一些实施例中，该抽帧模块1001还用于：

抽取训练视频中的多个视频帧；

可选地，在一些实施例中，该装置1000还包括：

第一标注模块，用于对该多个视频帧中的目标事件的事件类型进行标注；

第一训练模块，用于将该多个视频帧输入至该第二卷积网络模型进行训练，得到该第二卷积网络模型的模型参数。

可选地，在一些实施例中，该装置1000还包括：

第二标注模块，用于对训练视频中的目标事件的起止时间进行标注；

可选地，在一些实施例中，该抽帧模块1001还用于：

抽取标注的该训练视频中的多个视频帧；

该特征提取模块1002还用于：将该多个视频帧输入至第一卷积网络模型进行特征提取，得到该多个视频帧的图像特征；

第二训练模块，用于将该多个视频帧的图像特征输入至该时序动作分割网络进行训练，得到该时序动作分割网络的模型参数。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图11所示的视频剪辑装置可以执行图2、图3、图9和图10对应的方法实施例，并且视频剪辑装置中的各个模块的前述和其它操作和/或功能分别为了实现图2、图3、图9 和图10中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的视频剪辑装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图12是本申请实施例提供的视频剪辑装置1100的示意性框图。

如图12所示，该视频剪辑装置1100可包括：

存储器1110和处理器1120，该存储器1110用于存储计算机程序，并将该程序代码传输给该处理器1120。换言之，该处理器1120可以从存储器1110 中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器1120可用于根据该计算机程序中的指令执行上述方法实施例。

在一个示例性实施例中，处理器1120(具体是处理器包含的各器件)通过调用存储器中的一条或多条指令来执行上述方法实施例中的各步骤。具体地，存储器存储有一条或多条第一指令，该一条或多条第一指令适于由处理器加载并执行如下步骤：

抽取待剪辑视频中的多个视频帧；

在本申请的一些实施例中，该处理器1120可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器1110中，并由该处理器1120执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该视频剪辑装置中的执行过程。

如图12所示，该视频剪辑装置1100还可包括：

收发器1130，该收发器1130可连接至该处理器1120或存储器1110。

其中，处理器1120可以控制该收发器1130与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器1130可以包括发射机和接收机。收发器1130还可以进一步包括天线，天线的数量可以为一个或多个。

作为一实施例，该收发器1130可以接收用户通过客户端上传的游戏视频或游戏视频URL，进一步对该游戏视频进行剪辑，然后以URL形式返回剪辑的视频片段。

应当理解，该视频剪辑装置中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例中的相应内容。

本申请实施例还提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例中的相应内容。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM， SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频剪辑方法，其特征在于，包括：

抽取待剪辑视频中的多个视频帧；

将所述多个视频帧的图像特征输入时序动作分割网络模型，得到目标事件在所述待剪辑视频中的起止时间；

将所述目标事件的起止时间对应的视频帧输入至第二卷积网络模型进行事件分类，得到所述目标事件的事件类型；

根据所述目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息，包括：根据所述目标事件的事件类型，按照特定帧率对所述目标事件对应的视频帧进行抽帧；根据所述目标事件的事件类型，获取抽取的视频帧中的特定区域的图像，其中，所述特定区域的图像为所述视频帧中包含文本信息的图像；将所述特定区域的图像输入至光学文字识别OCR模块，得到所述视频帧中所包括的文本信息以及所述文本信息对应的文本框的坐标信息；根据所述文本信息和所述文本信息对应的文本框的坐标信息，确定所述目标事件的标签信息，包括：根据所述文本框的坐标信息，进行文本框的合并，得到完整文本信息，并将所述完整文本信息和词组字典进行匹配，确定所述完整文本信息所匹配的目标文本信息，且根据所述目标文本信息，确定所述目标事件的标签信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本框的坐标信息，进行文本框的合并，包括：

将满足以下条件的两个文本框合并为一个文本框：

所述两个文本框的横向间距小于第一阈值；

所述两个文本框的纵向高度差小于第二阈值；

所述两个文本框的纵向重合范围大于第三阈值。

3.根据权利要求1所述的方法，其特征在于，所述将所述完整文本信息和词组字典进行匹配，确定所述完整文本信息所匹配的目标文本信息，包括：

将所述完整文本信息和所述词组字典中的词条进行整体匹配，确定所述完整文本信息和所述词组字典中的词条的第一文本编辑距离；

将第一文本编辑距离最小，并且所述第一文本编辑距离小于第四阈值的词条作为所述目标文本信息。

4.根据权利要求1所述的方法，其特征在于，所述将所述完整文本信息和词组字典进行匹配，确定所述完整文本信息所匹配的目标文本信息，包括：

将所述完整文本信息中的每个单词和所述词组字典中的词条进行独立匹配，确定所述完整文本信息与所述词组字典中的词条的第二文本编辑距离；

将所述第一文本编辑距离和所述第二文本编辑距离中的较小值所对应的词条作为与所述完整文本信息匹配的目标文本信息。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述目标视频片段包括至少一个精彩片段，或所述目标视频片段包括至少一个精彩片段和至少一个关键帧，所述目标事件包括第一类事件和第二类事件，所述关键帧包括所述第一类事件对应的多个视频帧，所述精彩片段包括所述第二类事件对应的多个视频帧，所述根据所述目标文本信息，确定所述目标事件的标签信息，包括：

将在第二类事件对应的视频帧中检测到的文本信息所匹配的目标文本信息作为所述第二类事件的标签信息；

将在相邻并且事件类型相同的第一类事件对应的视频帧中检测到的文本信息所匹配的目标文本信息作为所述相邻的第一类事件之间的第二类事件的标签信息。

6.根据权利要求1所述的方法，其特征在于，所述待剪辑视频为点播游戏视频，所述目标视频片段包括至少一个精彩片段，或所述目标视频片段包括至少一个精彩片段和至少一个关键帧，其中，所述目标事件包括第一类事件和第二类事件，所述关键帧包括所述第一类事件对应的多个视频帧，所述精彩片段包括所述第二类事件对应的多个视频帧。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

若所述目标视频片段中包括第一虚拟事件对应的视频片段，并且在所述第一虚拟事件对应的视频片段之前以及之后均包括第二虚拟事件对应的视频片段，并且所述第一虚拟事件和所述第二虚拟事件对应的第一类事件标签相同，将所述第一虚拟事件对应的视频片段以及在所述第一虚拟事件对应的视频片段之前以及之后的所述第二虚拟事件对应的视频片段进行拼接，其中所述第一虚拟事件和所述第二虚拟事件均为所述第二类事件。

8.根据权利要求1所述的方法，还包括：

接收客户端发送的剪辑请求；

根据所述剪辑请求获取所述待剪辑视频；

将对所述待剪辑视频剪辑得到的所述目标视频片段发送给对应的一个或多个客户端。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

抽取训练视频中的多个视频帧；

对所述多个视频帧中的目标事件的事件类型进行标注；

将所述多个视频帧输入至所述第二卷积网络模型进行训练，得到所述第二卷积网络模型的模型参数。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对训练视频中的目标事件的起止时间进行标注；

抽取标注的所述训练视频中的多个视频帧；

将所述多个视频帧的图像特征输入至所述时序动作分割网络进行训练，得到所述时序动作分割网络的模型参数。

11.一种视频剪辑装置，其特征在于，包括：

抽帧模块，用于抽取待剪辑视频中的多个视频帧；

标签生成模块，用于根据所述目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息，包括：根据所述目标事件的事件类型，按照特定帧率对所述目标事件对应的视频帧进行抽帧；根据所述目标事件的事件类型，获取抽取的视频帧中的特定区域的图像，其中，所述特定区域的图像为所述视频帧中包含文本信息的图像；将所述特定区域的图像输入至光学文字识别OCR模块，得到所述视频帧中所包括的文本信息以及所述文本信息对应的文本框的坐标信息；根据所述文本信息和所述文本信息对应的文本框的坐标信息，确定所述目标事件的标签信息，包括：根据所述文本框的坐标信息，进行文本框的合并，得到完整文本信息，并将所述完整文本信息和词组字典进行匹配，确定所述完整文本信息所匹配的目标文本信息，且根据所述目标文本信息，确定所述目标事件的标签信息；

12.一种视频剪辑装置，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至10中任一项所述的方法。