CN113542777B

CN113542777B - 直播视频剪辑方法、装置及计算机设备

Info

Publication number: CN113542777B
Application number: CN202011559699.7A
Authority: CN
Inventors: 赵天昊; 田思达; 袁微
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-06-21
Anticipated expiration: 2040-12-25
Also published as: CN113542777A

Abstract

本申请提供了一种直播视频剪辑方法、装置及计算机设备，该方法包括：利用直线检测算法检测直播视频中的主播框和目标视频画面的分割线；抽取直播视频中的多个直播视频帧；根据分割线去除多个直播视频帧中的主播框得到多个视频帧；将多个视频帧输入至第一卷积网络模型进行特征提取得到多个视频帧的图像特征；将多个视频帧的图像特征输入时序动作分割网络模型得到目标事件的起止时间；将目标事件的起止时间对应的视频帧输入至第二卷积网络模型进行事件分类得到目标事件的事件类型；根据目标事件的事件类型，获取目标事件对应的视频帧中的文本信息，生成目标事件的标签信息，得到直播视频对应的目标视频片段。

Description

直播视频剪辑方法、装置及计算机设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种直播视频剪辑方法、装置及计算机设备。

背景技术

近年来，网络直播行业发展极为迅速，各种直播平台层出不穷并不断发展壮大，越来越多的游戏爱好者选择在网络上观看一些游戏直播。同时，随着互联网及游戏行业的飞速发展，各类游戏赛事及广大的游戏主播也越来越受到人们的关注。

面对大量的游戏赛事和游戏主播的个人直播，观众们往往应接不暇。而且观众也无法做到因为害怕错过直播过程中的精彩瞬间而时刻坚守在电脑面前。为了应对这样的局面，各类游戏的精彩片段集锦等应运而生。

但是这些集锦类视频片段的制作一般费时费力，需要将完整的直播内容录制下来后由人工识别精彩时刻再进行剪辑与后期制作。面对海量的直播内容与日益增长的主播数量，这种制作方式的人工成本越来越高，并且对于快节奏的设计游戏难以从画面直接识别是否完成击杀，而且对于场景复杂的游戏，地图、武器、人物等标签众多，标注困难，因此，如何实现快捷且准确的游戏视频剪辑是一项急需解决的问题。

发明内容

本申请提供一种直播视频剪辑方法、装置及计算机设备，能够实现将直播视频自动剪辑生成目标视频片段，节约人力成本，并减少人为误差。

第一方面，本申请提供一种直播视频剪辑方法，包括：

利用直线检测算法检测直播视频中的主播框和目标视频画面的分割线；

抽取所述直播视频中的多个直播视频帧；

根据所述分割线，去除所述多个直播视频帧中的主播框，得到多个视频帧；

将所述多个视频帧输入至第一卷积网络模型进行特征提取，得到所述多个视频帧的图像特征；

将所述多个视频帧的图像特征输入时序动作分割网络模型，得到目标事件在所述直播视频中的起止时间；

将所述目标事件的起止时间对应的视频帧输入至第二卷积网络模型进行事件分类，得到所述目标事件的事件类型；

根据所述目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息；

根据所述目标事件在所述直播视频中的起止时间，剪辑所述直播视频，并将所述目标事件的标签信息赋予所述目标事件对应的视频片段，得到所述直播视频对应的目标视频片段。

第二方面，本申请提供一种直播视频剪辑装置，包括：

直线检测模块，用于利用直线检测算法检测所述直播视频中的主播框和目标视频画面的分割线；

抽帧模块，用于抽取直播视频中的多个直播视频帧；

主播框去除模块，用于根据所述分割线，去除所述多个直播视频帧中的主播框，得到多个视频帧；

特征提取模块，用于通过第一卷积网络模型提取所述多个视频帧的图像特征；

时序动作分割模块，用于将所述多个视频帧的图像特征输入至时序动作分割网络模型，得到目标事件在所述直播视频中的起止时间；

事件分类模块，用于通过第二卷积网络模型对所述目标事件的起止时间对应的视频帧进行事件分类，得到所述目标事件的事件类型；

标签生成模块，用于根据所述目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息；

剪辑模块，用于根据所述目标事件在所述直播视频中的起止时间，剪辑所述直播视频，并将所述目标事件的标签信息赋予所述目标事件对应的视频片段，得到所述直播视频对应的目标视频片段。

第三方面，提供了一种计算机设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面的方法。

第四方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行第一方面的方法。

基于上述技术方案，利用直线检测算法检测直播视频中的主播框和目标视频画面的分割线，进一步根据该分割线去除直播视频中的多个直播视频帧中的主播框，得到多个视频帧，并进一步将该多个视频帧输出至卷积网络模型以及时序动作分割网络模型，通过上述网络模型将该直播视频自动剪辑出目标事件的视频片段，并对该目标事件的视频片段进行事件分类、添加标签，进而自动生成该直播视频对应的目标视频片段，相对于人工剪辑操作，节约大量的人工成本并减少人为误差对剪辑结果的影响。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种直播游戏画面的示意图。

图2为本申请实施例提供的应用场景示意图。

图3为本申请实施例提供的一种直播视频剪辑方法的流程图。

图4为本申请实施例提供的另一种直播视频剪辑方法的流程图。

图5为去除直播框的游戏画面的示意图。

图6为对战匹配事件的一例示意图。

图7为武器背包选择事件的一例示意图。

图8为换子弹事件的一例示意图。

图9是多徽章击杀事件的一例示意图。

图10是人物动画事件的一例示意图。

图11是RGB卷积网络的训练流程的示意性图。

图12是时序动作分割网络的训练流程的示意性图。

图13为本申请实施例提供的一种直播视频剪辑装置的示意图。

图14是本申请实施例提供的另一种直播视频剪辑装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象，而不在用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请实施例中的直播视频可以为任意直播视频，例如，直播游戏视频，比如，直播射击类游戏视频，直播球类游戏视频等，以下，以对直播游戏视频进行剪辑为例进行说明，但本申请并不限于此。

在一些直播游戏视频中，例如射击类游戏，游戏场景比较复杂，例如，武器、地图、人物等标签众多，标注困难，并且此类游戏的节奏一般较快，难以从画面之间识别是否完成击杀，并且直播游戏视频中包括主播框，如图 1所示，影响观看体验。

有鉴于此，本申请提供了一种直播视频剪辑方法，能够通过多模态技术 (例如，事件分类技术，时序动作分割技术和光学字符识别(Optical Character Recognition，OCR)技术)将待剪辑的直播视频自动生成目标事件对应的视频片段，并通过直线检测技术去除直播视频中的主播框，从而能够提升观看体验。

可选地，本申请技术方案可以应用于如下应用场景，但不限于此：如图 2所述，装置110可以向装置120上传直播视频或者直播视频的统一资源定位符(Uniform ResourceLocator，URL)，以使装置120对该直播视频进行剪辑，生成目标视频片段。

可选地，装置110可以通过Web接口上传直播视频或者直播视频的URL。

在一些实施例中，装置110可以上传直播视频流URL，装置120对接收的直播视频流进行分段，进一步对分段的直播视频流采用多模态技术进行处理，得到目标视频片段。

可选地，装置120在生成目标视频片段之后，可以将该目标视频片段或者该目标视频片段的URL传输给装置110，以供用户观看该目标视频片段。

应理解的是，图2所示的应用场景是以包括一个装置110和一个装置120 为例的，实际上，还可以包括其他数量的装置110，并且在装置110和装置 120之间还可以包括其他数据传输设备，本申请对此不做限制。

可选地，在本申请中，装置110可以是游戏机、手机、智能、平板电脑、笔记本电脑或者个人计算机(Personal Computer，PC)等，本申请对此不做限制。

可选地，在本申请实施例中，装置120可以是终端设备或服务器等，本申请对此不做限制。

本申请实施例涉及人工智能(Artificial Intelligence,AI)中的计算机视觉技术(Computer Vision,CV)。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

下面结合图3至图14，对本申请技术方案进行详细阐述。

图3和图4为本申请实施例提供的一种直播视频剪辑方法的流程图，该方法的执行主体可以是图2中的装置120，例如，终端设备或服务器等，但不限于此。以下，从直播视频剪辑装置的角度描述本申请实施例，如图3和图4所示，该方法包括如下步骤：

S210，利用直线检测算法检测直播视频中的主播框和目标视频画面的分割线。

可选地，直播视频剪辑装置可以从其他设备获取直播视频或者该直播视频的URL。如果该直播视频剪辑装置获取到的是直播视频的URL，该直播视频剪辑装置可以根据该URL从本地或者云服务器获取直播视频。

可选地，该直播视频可以为直播游戏视频，该直播游戏视频可以是完整的直播游戏视频，或者也可以是完整的直播游戏视频中的一段，分段对时长较长的直播游戏视频进行剪辑，有利于降低处理负荷。例如在直播过程中，对当前时间点之前的一段时间(例如，10分钟，20分钟)内的直播游戏视频进行剪辑，这样，随着直播的进行，可以分时获得多段直播游戏视频分别对应的视频片段。

可选地，在本申请一些实施例中，该方法还包括：

接收客户端发送的剪辑请求；

根据剪辑请求确定所述直播视频。

例如，在一些场景中，在需要进行视频剪辑时，用户可以通过客户端上传直播视频，并向视频剪辑装置发送剪辑请求，该视频剪辑装置在接收到该剪辑请求的情况下，获取该直播视频。在对该直播视频剪辑完毕之后，还可以将剪辑得到的目标视频片段发送给对应的一个或多个客户端。

可选地，该利用直线检测算法检测直播视频中的主播框和目标视频画面的分割线，包括：

获取该直播视频中的多个视频帧；

利用直线检测算法检测该多个视频帧中竖直方向的直线，删除该多个视频帧中满足第一条件的直线，并合并该多个视频帧中水平距离小于第一阈值的直线；

对该多个视频帧中的剩余直线进行统计，选择满足第二条件的直线作为主播和游戏界面的分割线。

可选地，直播视频剪辑装置可以对该直播视频按照第一时间间隔进行视频抽帧，或者也可以在该直播视频中抽取一定数量的视频帧用于确定该分割线的位置，例如，直播视频剪辑装置可以在直播视频中抽取10个视频帧。可选地，所述第一时间间隔可以是预先设置的，其可以是固定不变的，也可以动态调整，本申请对此不做限制。

进一步地，利用直线检测算法对抽取的该多个视频帧进行直线检测，确定该主播框和目标视频画面的分割线。

对于直播游戏视频，可以利用直线检测算法确定主播框和游戏画面的分割线。

在一些场景中，直播框和游戏画面的分割线通常为一条竖线，并且位于画面的一侧，但不是边缘的位置，如图1所示场景。而游戏画面中也可能存在一些直线，影响该分割线的检测，例如，靠近视频帧的左右边缘的直线，因此，在本申请实施例中，首先利用直线检测算法检测视频帧中可能被误检测的直线，删除该可能被误检测的直线，进一步在剩余直线中确定主播和游戏界面的分界线。

可选地，该可能被误检测的直线包括该多个视频帧中满足第一条件的直线，以及该多个视频帧中水平距离小于第一阈值的直线。

作为一个示例，该第一阈值可以为视频帧的宽度的0.4％。

作为一个示例，该第一条件包括：长度小于或等于第二阈值，或距离视频帧的左右边缘的距离小于或等于第三阈值。

作为一个示例，该第二阈值可以为视频帧的高度的60％。

作为一个示例，该第三阈值可以为该视频帧的宽度的4％。

在一些实施例中，该直播视频剪辑装置可以删除该满足长度小于或等于第二阈值的直线，或删除距离视频帧的左右边缘的距离小于或等于第三阈值的直线，并合并水平距离小于第一阈值的直线。进一步对所述多个视频帧中的剩余直线进行合并统计，确定主播和游戏画面的分割线。

在实际应用中，主播框通常会出现在直播视频的每个视频帧中，因此，可以根据直线出现的概率或次数确定哪条直线是分割线，例如，可以确定满足第二条件的直线为主播框和目标视频画面的分割线。可选地，该第二条件包括：直线在该多个视频帧中的出现次数最高且高于第四阈值。作为一个示例，该第四阈值可以为该多个视频帧的数量的30％。

应理解，在一些实施例中，主播框和目标视频画面的分割线是一条竖线，此情况下，可以利用直线检测算法对视频帧中的竖线进行检测以确定该分割线，在其他实施例中，主播框和目标视频画面的分割线也可以为横线，或者方框等，此情况下，可以对直线检测算法进行调整，本申请对此不作限定。

S220，抽取直播视频中的多个直播视频帧。

在一些实施例中，直播视频剪辑装置可以按照第二时间间隔对该直播视频进行抽帧，例如，直播视频剪辑装置可以每隔1秒抽取连续的10个视频帧等。

可选地，该第二时间间隔可以是预先设置的，其可以是固定不变的，也可以动态调整，本申请对此不做限制。

进一步地，在S230中，根据分割线，去除多个直播视频帧中的主播框，得到多个视频帧。

因此，在本申请实施例中，通过采用直线检测技术检测主播框和目标视频画面的分割线，进一步根据该分割线，去除抽取的该多个直播视频帧中的主播框，从而得到不包括主播框的视频帧，进一步基于该视频帧进行视频剪辑，能够提升用户的观看体验。图5示出了图1中的直播游戏画面去除主播框之后的游戏画面。

在S240中，将多个视频帧输入至第一卷积网络模型进行特征提取，得到多个视频帧的图像特征。

可选地，该第一卷积网络模型可以为RGB卷积网络模型，用于提取输入的视频帧的图像特征，例如，颜色特征等，该第一卷积网络模型的训练方式在下文中进行说明。

S250，将多个视频帧的图像特征输入时序动作分割(Temporal ActionSegmentation)网络模型，得到目标事件在直播视频中的起止时间。

应理解，本申请实施例对于目标事件的具体内容不做限定，其可以根据待剪辑直播视频的类型而变化，例如，若该待剪辑的直播视频为直播游戏视频，该目标事件可以包括直播游戏视频中的精彩片段，例如，足球视频中的进球片段，射击游戏中的击杀片段等。

可选地，在一些实施例中，直播视频为直播游戏视频，目标事件可以包括第一类事件和第二类事件，例如，第一类事件为对战准备过程中的事件，第二类事件为对战过程中的事件。

在本申请实施例中，所述第一类事件对应的视频帧可以称为关键帧，第二类事件对应的视频帧可以称为精彩片段。因此，在S250中可以得到关键帧和精彩片段在游戏视频中的起止时间。

应理解，本申请实施例对于第一类事件和第二类事件包括的具体事件不作限定。

作为示例而非限定，关键帧例如可以包括如表1所示的对战匹配和武器背包选择等事件对应的视频帧。

表1

关键帧	标签
		武器背包选择	武器-皮肤名称，人物-皮肤名称
对战匹配	地图名称

即第一类事件可以包括武器背包选择，对战匹配等事件。

图6至图7示出了游戏视频中对战匹配，武器背包选择等事件对应的视频帧的示例性画面。

作为示例而非限定，精彩片段例如可以包括表2中所示例的多徽章击杀，多徽章击杀接换子弹，换子弹，人物动画，比如人物胜利或人物失败等事件对应的视频帧。

表2

即第二类事件可以包括多徽章击杀，换子弹，人物动画等事件。

图8至图10分别示出了游戏视频中换子弹，多徽章击杀、人物动画等事件对应的视频帧的示例性画面。

应理解，以上示范性描述了关键帧和精彩片段的具体实例，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本申请实施方式的保护范围。

S260，将目标事件的起止时间对应的视频帧输入至第二卷积网络模型进行事件分类，得到目标事件的事件类型。

具体地，将该多个视频帧中目标事件的起止时间所对应的视频帧输入至第二卷积网络模型，对该目标事件进行事件分类，得到该目标事件的事件类型。

例如，将该多个视频帧中关键帧和精彩片段的起止时间对应的视频帧输入至第二卷积网络模型，对该关键帧和精彩片段进行事件分类，得到该关键帧和精彩片段的事件类型。

应理解，本申请实施例对于关键帧和精彩片段对应的事件类型不作限定，作为示例，关键帧的事件类型可以是地图选择，人物选择还是武器选择等事件，精彩片段的事件类型可以是多徽章击杀，换子弹，人物动画等事件。

可选地，该第二卷积网络模型可以为RGB卷积网络模型。

结合图11，以该第二卷积网络模型为RGB卷积网络模型为例，说明该 RGB卷积网络模型的训练方法。

S301，对训练视频进行抽帧，得到多个视频帧。

例如，按照一定的时间间隔对该训练视频进行抽帧，得到该多个视频帧。

若该方法应用于直播游戏视频的剪辑，该训练视频可以包括多款游戏中的包括各类事件的游戏视频数据，例如，要实现对射击类游戏的自动剪辑，该训练视频可以多款射击类游戏视频数据，此情况下，该RGB卷积网络模型可以用于不同的射击类游戏视频的剪辑。或者，该训练视频也可以包括特定游戏中的各类事件的游戏视频数据，例如可以将大量用户玩该款游戏的视频作为训练视频，此情况下，该RGB卷积网络模型可以用于该特定游戏的游戏视频的剪辑。

S302，对该多个视频帧中的目标事件的事件类型进行标注，组成该RGB 卷积网络模型的训练集。

例如，对该多个视频帧中的关键帧和精彩片段的事件类型进行标注，组成该RGB卷积网络的训练集。

应理解，关键帧和精彩片段的事件类型的个数和分类标准可以根据实际需求调整，本申请对此不作限定。例如，标注N类事件和背景，则该RGB 卷积网络为N+1的分类器，用于区分视频帧属于N类事件中的一类事件还是背景。

作为示例，可以按照表1和表2中所示例的标签对关键帧和精彩片段进行标注。

可选地，在一些实施例中，可以对视频帧中的击杀事件单独抠图击杀完成时的徽章区域，组成训练集，在训练时，判断针对此徽章区域是否判定为击杀事件。

S303，将标注的该多个视频帧输入至RGB卷积网络进行训练，得到该 RGB卷积网络的模型参数。

结合图12，说明该时序动作分割网络模型的训练方法。

应理解，RGB卷积网络模型可以作为该时序动作分割网络模型的基准网络模型，用于特征提取，提取的特征进一步输入该时序动作分割网络模型进行训练，因此，特征提取的结果也会影响时序动作分割网络模型的输出结果，因此，可以根据该时序动作分割网络模型的输出调整RGB卷积网络模型的模型参数，以使得二者配合输出最优的结果。

S401，对训练视频中目标事件的起止时间进行标注。

在一些实施例中，若时序动作分割模型用于对直播游戏视频进行剪辑，可以对训练视频中的关键帧和精彩片段的起止时间进行标注。

若该方法应用于直播游戏视频的剪辑，该训练视频可以包括多款游戏中的包括各类事件的游戏视频数据，例如，要实现对射击类游戏的自动剪辑，该训练视频可以多款射击类游戏视频数据，此情况下，该时序动作分割网络模型可以用于不同的射击类游戏视频的剪辑。

可选地，该训练视频也可以包括特定游戏中的各类事件的游戏视频数据，例如可以将大量用户玩该款游戏的视频作为训练视频，此情况下，该时序动作分割网络模型可以用于该特定游戏的游戏视频的剪辑。

S402，对标注的该训练视频以固定时间间隔抽帧，并将抽取的视频帧输入至RGB卷积网络模型，输出视频帧的图像特征，组成该时序动作分割网络的训练集。

可选地，该固定时间间隔可以是预先设置的，其可以是固定不变的，也可以动态调整，本申请对此不做限制。

S403，利用将S402中得到的训练集对时序动作分割网络进行训练，得到该时序动作分割网络的模型参数。

至此，通过上述步骤可以确定直播视频中的目标事件的起止时间以及事件类型。继续参见图3和图4，通过以下步骤可以确定目标事件对应的标签信息，以及进行目标视频片段的输出。

S270，根据目标事件的事件类型，获取目标事件对应的视频帧中的文本信息，生成目标事件的标签信息。

例如，可以根据关键帧的事件类型，获取关键帧对应的视频帧中的文本信息，生成关键帧的标签信息。

又例如，可以根精彩片段的事件类型，获取精彩片段对应的视频帧中的文本信息，生成精彩片段的标签信息。

应理解，在本申请实施例中，目标事件的标签信息可以理解为目标事件对应的视频片段的标签信息，二者是等价的，即第一类事件的标签信息可以理解为关键帧的标签信息，第二类事件的标签信息可以理解为精彩片段的标签信息。

在本申请一些实施例中，如图4所示，该S270可以包括S271至S273 中的文字识别，文本组合和文本匹配三个步骤。

以下，以确定关键帧和精彩片段中的文本信息为例，分别介绍该三个步骤。

一、文本识别：

在一些实施例中，可以根据关键帧的事件类型，对关键帧对应的视频帧按照不同的帧率进行抽帧。例如，对于出现时间较短的关键帧以较高的帧率进行抽帧，对于出现时间较长的关键帧以较低的帧率进行抽帧。

在一些实施例中，也可以根据精彩片段的事件类型，对精彩片段对应的视频帧按照不同的帧率进行抽帧。例如，对于出现时间较短的精彩片段以较高的帧率进行抽帧，对于出现时间较长的精彩片段以较低的帧率进行抽帧。

在另一些实施例中，也可以根据关键帧的重要性采用不同的帧率进行抽帧，例如，对于重要事件以较高的帧率抽帧，比如背包选择事件，对于重要性较低的事件以较低的帧率抽帧等。

在另一些实施例中，也可以根据精彩片段的重要性采用不同的帧率进行抽帧，例如，对于重要事件以较高的帧率抽帧，比如人物动画事件，对于重要性较低的事件以较低的帧率抽帧等。

在一些实施例中，可以根据关键帧的事件类型，对抽取的关键帧对应的视频帧中的特定区域进行抠图以获取该特定区域中的文本信息，例如，图6 和图7所示，不同事件类型的关键帧中的文本信息通常会出现在不同的区域。因此，对于不同事件类型的关键帧中的文本信息的提取，可以重点对出现文本信息的特定区域进行抠图，以提取该特定区域中的文本信息。

在一些实施例中，可以根据精彩片段的事件类型，对抽取的精彩片段对应的视频帧中的特定区域进行抠图以获取该特定区域中的文本信息，例如，图8至图10所示，不同事件类型的精彩片段中的文本信息通常会出现在不同的区域。因此，对于不同事件类型的精彩片段中的文本信息的提取，可以重点对特定区域进行抠图，以提取该特定区域中的文本信息。

进一步地，可以将该关键帧和精彩片段对应的视频帧中的特定区域的图像输入至OCR模块，识别该图像中的文本信息以及该文本信息对应的文本框的坐标信息。在一些可选的实现方式中，可以只将抽取的视频帧中包括重要文本信息的图像输入至OCR模块进行识别。

二、文本合并：

在一些情况中，OCR模块可能会将视频帧中的一个完整句子识别为多个词组或单词，或者将一个词组识别为多个单词，即将本应属于一个文本框的文本信息划分到多个文本框中，在本申请实施例中，可以根据所述文本框的坐标信息，进行文本框的合并，进一步将合并的文本框中的文本信息进行拼接，从而得到一个完整句子或词组。

在一些实施例中，可以根据文本框之间的横向间距，纵向高度或纵向重合范围等信息，判断两个文本框是否为属于同一词组或句子的文本框。

可选地，该文本框的横向间距可以指两个文本框之间的水平距离，即两个文本框的竖直边之间的最短距离。

可选地，该文本框的纵向高度可以指文本框的竖直边的长度。

可选地，文本框之间的纵向重复范围可以指两个文本框的竖直边之间的重复范围。

作为示例而非限定，可以将满足以下条件的两个文本框合并为一个文本框：

两个文本框的横向间距小于第五阈值；

两个文本框的纵向高度差小于第六阈值；

两个文本框的纵向重合范围大于第七阈值。

作为示例而非限定，该第五阈值例如可以为两个文本框中纵向高度较小的文本框的纵向高度。

作为示例而非限定，该第六阈值例如可以为两个文本框中纵向高度较小的文本框的纵向高度的25％。

作为示例而非限定，该第七阈值例如可以为两个文本框中纵向高度较小的文本框的纵向高度的75％。

进一步地，可以将合并的文本框中的文本信息进行拼接得到完整文本信息。

三、文本匹配：

在本申请实施例中，将完整文本信息和词组字典进行匹配，确定目标文本信息。

若该直播视频为直播游戏视频，该词组字典可以包括游戏中的各种标签的词条，或者标签组合的词条，例如武器名称，人物名称，地图名称，武器- 人物，武器-地图的组合等。当直播视频为其他类型的直播视频时，该词组字典也可以包括其他内容的词条，本申请对此不作限定。

在一些实施例中，可以计算完整文本信息和词组字典中的词条的文本编辑距离，根据文本编辑距离确定完整文本信息在词组字典中所匹配的目标文本信息。

应理解，文本编辑距离是指两个字串之间，由一个字串转成另一个字串所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。

例如，abc转换为bcd所需要的操作次数为：删除a，插入d，则二者的文本编辑距离为2。

具体地，可以将完整文本信息和词组字典中的多个词条进行匹配，确定该完整文本信息和该多个词条中的每个词条之间的文本距离，进一步根据该完整文本信息和该每个词条之间的文本编辑距离确定和该完整文本信息匹配的目标词条，即目标文本信息。

在一些实施例中，可以将文本编辑距离最小并且小于第八阈值的词条作为目标词条。

作为示例而非限定，该第八阈值例如可以为1，或者2。

在一些场景中，词组字典中并不一定包括各种标签的组合，此情况下，将完整文本信息和词组字典中的词条进行整体匹配可能检测不到最佳的匹配结果。例如，武器名称包括A和B，皮肤名称包括1和2，该武器和皮肤可以任意组合，即可以有如下组合：A-1，A-2，B-1和B-2，若检测到完整文本信息为A-2，而词组字典仅包括A-1和B-2，此情况下，将完整文本信息和词组字典中的词条进行匹配，不能得到理想的匹配结果。

在本申请另一些实施例中，可以将完整文本信息中的每个单词和词组字典进行独立匹配，确定目标文本信息。

在一些实施例中，可以计算完整文本信息中的每个单词和词组字典中的词条的文本编辑距离，得到所述完整文本信息和词组字典中的词条的文本距离，进一步地，根据该文本编辑距离，确定该完整文本信息在词组字典中所匹配的目标文本信息。

在一些实施例中，可以选择文本编辑距离最小并且小于或等于第九阈值的词条作为目标词条。

作为示例而非限定，该第九阈值例如可以为1，或者2。

在本申请又一实施例中，可以根据完整文本信息和词组字典中的词条进行整体匹配的文本编辑距离以及该完整文本信息和词组字典中的词条进行独立匹配的文本编辑距离，确定该完整文本信息所匹配的目标文本信息。

可选地，将这两个文本编辑距离中的较小值所对应的词条作为与该完整文字信息匹配的目标文本信息。

作为一个示例，可以将武器背包选择事件对应的关键帧中的完整文本信息，与武器、人物和皮肤字典中的词条进行匹配，得到第一匹配结果，还可以将武器背包选择事件对应的关键帧中的完整文本信息中的独立单词，与武器、人物和皮肤字典中进行匹配，得到第二匹配结果，将第一匹配结果和第二匹配结果比较，选择匹配度较高的结果，这里的匹配度较高可以指文本编辑距离低，采用此方式能够检测出词组字典中未录入过的武器-皮肤或人物- 皮肤等组合。

接着上个例子，假设完整文本信息为A-2，而词组字典包括A-1和B-2，则将完整文本信息A-2和词组字典中的词条进行整体匹配，得到该完整文本信息与词条的文本编辑距离为1，将完整文本信息A-2中的每个单词和词组字典中的词条进行整体匹配，得到该完整文本信息与词条的文本编辑距离为 0，则确定完整文本信息A-2对应的目标文本信息为A-2。

进一步地，根据确定的该目标文本信息，确定关键帧和精彩片段的标签信息。

在一些实施例中，将在精彩片段中检测到的文本信息所对应的目标文本信息作为精彩片段的标签信息。

例如，若在击杀类精彩片段对应的视频帧中检测到多杀确认的文本信息(例如，武器击杀或技能杀等)，此情况下，可以将多杀作为该精彩片段对应的标签信息。可选地，该精彩片段对应的标签信息还可以包括完成击杀所使用的武器名称、技能名称、地图名称等信息。

在另一些实施例中，将在相邻并且事件类型相同的关键帧中检测到的文本信息所对应的目标文本信息作为相邻的关键帧之间的精彩片段的标签信息。

例如，若第一关键帧和第二关键帧对应的事件类型相同，例如均为武器背包选择，并且第二关键帧为该第一关键帧的下一个事件类型相同的关键帧，第一关键帧和第二关键帧之间有第一精彩片段，则可以将该第一关键帧和第二关键帧中检测到的文本信息所匹配到的目标文本信息作为第一精彩片段的标签信息，例如，可以将该第一关键帧和第二关键帧中检测到的武器名称或人物名称等作为该第一精彩片段的标签信息。

也就是说，如表2所示，精彩片段的标签信息可以包括来自该精彩片段中的文本信息，也可以包括来自相关的关键帧中的文本信息。

至此，可以得到直播视频中的目标事件的起止时间以及目标事件对应的标签信息，将目标事件的标签信息赋予对应的视频片段，得到目标视频片段。

进一步地，继续参加图4，在S290中，根据所述目标视频片段中包括的精彩片段的事件类型，进行所述目标视频片段的输出。

人物动画精彩片段表示一场对战的结束，因此在进行视频剪辑时，可以将人物动画精彩片段作为视频片段的结束节点。

在一些实施例中，若目标视频片段中包括人物动画精彩片段，例如，人物胜利片段或人物失败片段，此情况下可以将第一个人物动画精彩片段和第一个人物动画精彩片段之前的精彩片段进行拼接得到第一视频片段，并输出所述第一视频片段；将两段人物动画精彩片段之间的精彩片段进行拼接得到第二视频片段，并输出第二视频片段；最后一个人物动画精彩片段和最后一个人物动画精彩片段之后的精彩片段缓存，不输出，直到出现对战结束的精彩片段。

在另一些实施例中，若目标视频片段中不包括人物动画精彩片段，表示对战未结束，此情况下，可以将精彩片段进行缓存，待出现人物动画精彩片段之后再和人物动画精彩片段进行拼接输出。

也就是说，本申请实施例中，输出的每个视频片段可以包括代表对战结束的精彩片段，还可以包括对战过程中的精彩片段，例如，多杀精彩片段，换子弹精彩片段，特定场景的精彩片段等。

在本申请一些实施例中，还可以进行一些特殊的精彩片段的拼接。

作为示例，若目标视频片段中包括第一虚拟事件对应的视频片段，并且在所述第一虚拟事件对应的视频片段之前以及之后均包括第二虚拟事件对应的视频片段，并且第一虚拟事件和第二虚拟事件对应的第一类事件标签相同，将第一虚拟事件对应的视频片段以及在第一虚拟事件对应的视频片段之前以及之后的第二虚拟事件对应的视频片段进行拼接。

在一些实施例中，第一虚拟事件和第二虚拟事件均为第二类事件，即对战过程中的事件。

可选地，第一类事件标签相同可以指关键帧标签相同，例如地图标签相同和武器标签相同，关键帧标签相同用于表示视频片段发生在同一场对战中。

可选地，第一虚拟事件可以指换子弹事件，第二虚拟事件可以指多徽章击杀事件。例如，对于每一个换子弹事件，如果在该换子弹事件前后均存在地图标签和武器标签都与之相同的多徽章击杀事件，则将这两个多徽章击杀事件与该换子弹事件对应的视频片段进行拼接，得到由多徽章击杀事件+换子弹事件+多徽章击杀事件拼接的特殊视频片段。

因此，在本申请实施例中，直播视频剪辑装置可以自动按一定的时间间隔将直播视频流分段，并将分段的直播视频发送给RGB卷积网络模型以及时序动作分割网络模型，通过上述网络模型将该直播视频自动剪辑出目标事件的视频片段，并对其分类、添加标签，进而自动生成目标视频片段，因此，在实际业务场景中可以替代人工剪辑操作，节约大量的人工成本并减少人为误差。

图13为本申请实施例提供的一种直播视频剪辑装置的示意图，如图13 所示，该直播视频剪辑装置1000包括：

直线检测模块1001，用于利用直线检测算法检测所述直播视频中的主播框和目标视频画面的分割线；

抽帧模块1002，用于抽取直播视频中的多个直播视频帧；

主播框去除模块1003，用于根据所述分割线，去除所述多个直播视频帧中的主播框，得到多个视频帧；

特征提取模块1004，用于通过第一卷积网络模型提取所述多个视频帧的图像特征；

时序动作分割模块1005，用于将所述多个视频帧的图像特征输入至时序动作分割网络模型，得到目标事件在所述直播视频中的起止时间；

事件分类模块1006，用于通过第二卷积网络模型对所述目标事件的起止时间对应的视频帧进行事件分类，得到所述目标事件的事件类型；

标签生成模块1007，用于根据所述目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息；

剪辑模块1008，用于根据所述目标事件在所述直播视频中的起止时间，剪辑所述直播视频，并将所述目标事件的标签信息赋予所述目标事件对应的视频片段，得到所述直播视频对应的目标视频片段。

在一些可选的实现方式中，该抽帧模块1002还用于：

抽取所述直播视频中的多个视频帧；

该直线检测模块1001具体用于：

检测所述多个视频帧中竖直方向的直线，删除所述多个视频帧中满足第一条件的直线，并合并所述多个视频帧中水平距离小于第一阈值的直线；

对所述多个视频帧中的剩余直线进行统计，确定满足第二条件的直线作为主播和目标视频界面的分割线。

在一些可选的实现方式中，所述第一条件包括：长度小于或等于第二阈值，或距离视频帧的左右边缘的距离小于或等于第三阈值；

所述第二条件包括：直线在所述多个视频帧中的出现次数最高且高于第四阈值。

在一些可选的实现方式中，该抽帧模块1002还用于：

根据所述目标事件的事件类型，按照特定帧率对所述目标事件对应的视频帧进行抽帧；

该装置1000还包括：

获取模块，用于根据所述目标事件的事件类型，获取抽取的视频帧中的特定区域的图像，其中，所述特定区域的图像为所述视频帧中包含文本信息的图像；

OCR模块，用于识别所述特定区域的图像，得到所述视频帧中所包括的文本信息以及所述文本信息对应的文本框的坐标信息；

处理模块，用于根据所述文本信息和所述文本信息对应的文本框的坐标信息，确定所述目标事件的标签信息。

在一些可选的实现方式中，该处理模块还用于：

根据所述文本框的坐标信息，进行文本框的合并；

将合并的文本框中的文本信息和词组字典进行匹配，得到目标文本信息；

根据所述目标文本信息，确定所述目标事件的标签信息。

在一些可选的实现方式中，该处理模块具体用于：

将满足以下条件的两个文本框合并为一个文本框：

所述两个文本框的横向间距小于第五阈值；

所述两个文本框的纵向高度差小于第六阈值；

所述两个文本框的纵向重合范围大于第七阈值。

在一些可选的实现方式中，该处理模块具体用于：

计算合并的文本框中的文本信息和所述词组字典中的词条的文本编辑距离；

将文本编辑距离最小并且文本编辑距离小于第八阈值的词条作为所述目标文本信息。

在一些可选的实现方式中，所述目标视频片段包括至少一个精彩片段，或所述目标视频片段包括至少一个精彩片段和至少一个关键帧，所述目标事件包括第一类事件和第二类事件，所述关键帧包括所述第一类事件对应的多个视频帧，所述精彩片段包括所述第二类事件对应的多个视频帧，该处理模块具体用于：

将在第二类事件对应的视频帧中检测到的文本信息所对应的目标文本信息作为所述第二类事件的标签信息；

将在相邻并且事件类型相同的第一类事件对应的视频帧中检测到的文本信息所匹配的目标文本信息作为所述相邻的第一类事件之间的第二类事件的标签信息。

在一些可选的实现方式中，所述直播视频为直播游戏视频，所述目标视频片段包括至少一个精彩片段，或所述目标视频片段包括至少一个精彩片段和至少一个关键帧，其中，所述目标事件包括第一类事件和第二类事件，所述关键帧包括所述第一类事件对应的多个视频帧，所述精彩片段包括所述第二类事件对应的多个视频帧。

在一些可选的实现方式中，该装置1000还包括：

输出模块，用于根据所述目标视频片段中包括的视频片段的事件类型，进行所述目标视频片段的输出。

在一些可选的实现方式中，该输出模块具体用于：

若所述目标视频片段中包括人物动画精彩片段，将第一个人物动画精彩片段和所述第一个人物动画精彩片段之前的精彩片段进行拼接得到第一视频片段，并输出所述第一视频片段，或者，将两段人物动画精彩片段之间的精彩片段进行拼接得到第二视频片段，并输出所述第二视频片段；或者

若所述目标视频片段中不包括人物动画精彩片段，将所述精彩片段进行缓存。

在一些可选的实现方式中，该抽帧模块1002还用于：

抽取训练视频中的多个视频帧；

在一些可选的实现方式中，该装置1000还包括：

第一标注模块，用于对所述多个视频帧中的目标事件的事件类型进行标注；

第一训练模块，用于将所述多个视频帧输入至所述第二卷积网络模型进行训练，得到所述第二卷积网络模型的模型参数。

在一些可选的实现方式中，该装置1000还包括：

第二标注模块，用于对训练视频中的目标事件的起止时间进行标注；

在一些可选的实现方式中，该抽帧模块1002还用于：

抽取标注的所述训练视频中的多个视频帧。

在一些可选的实现方式中，该特征提取模块1004还用于：

将所述多个视频帧输入至第一卷积网络模型，得到所述多个视频帧的图像特征。

在一些可选的实现方式中，该装置1000还包括：

第二训练模块，用于将所述多个视频帧的图像特征输入至所述时序动作分割网络进行训练，得到所述时序动作分割网络的模型参数。

在一些可选的实现方式中，该装置1000还包括：

通信模块，用于接收客户端发送的剪辑请求；

处理模块，用于根据所述剪辑请求确定待剪辑的所述直播视频。

在一些可选的实现方式中，该通信模块还用于：

将对所述直播视频剪辑得到的所述目标视频片段发送至对应的一个或多个客户端。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图13所示的直播视频剪辑装置可以执行图3、图4、图11至图12对应的方法实施例，并且直播视频剪辑装置中的各个模块的前述和其它操作和/或功能分别为了实现图3、图4、图11至图12中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的直播视频剪辑装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图14是本申请实施例提供的计算机设备1100的示意性框图。

如图14所示，该计算机设备1100可包括：

存储器1110和处理器1120，该存储器1110用于存储计算机程序，并将该程序代码传输给该处理器1120。换言之，该处理器1120可以从存储器1110 中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器1120可用于根据该计算机程序中的指令执行上述方法实施例。

在一个示例性实施例中，处理器1120(具体是处理器包含的各器件)通过调用存储器中的一条或多条指令来执行上述方法实施例中的各步骤。具体地，存储器存储有一条或多条第一指令，该一条或多条第一指令适于由处理器加载并执行如下步骤：

抽取该直播视频中的多个直播视频帧；

根据该分割线，去除该多个直播视频帧中的主播框，得到多个视频帧；

将该多个视频帧输入至第一卷积网络模型进行特征提取，得到该多个视频帧的图像特征；

将该多个视频帧的图像特征输入时序动作分割网络模型，得到目标事件在该直播视频中的起止时间；

将该目标事件的起止时间对应的视频帧输入至第二卷积网络模型进行事件分类，得到该目标事件的事件类型；

根据该目标事件的事件类型，获取该目标事件对应的视频帧中的文本信息，生成该目标事件的标签信息；

根据该目标事件在该直播视频中的起止时间，剪辑该直播视频，并将该目标事件的标签信息赋予该目标事件对应的视频片段，得到该直播视频对应的目标视频片段。

在本申请的一些实施例中，该处理器1120可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器1110中，并由该处理器1120执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该计算机设备中的执行过程。

如图14所示，该计算机设备1100还可包括：

收发器1130，该收发器1130可连接至该处理器1120或存储器1110。

其中，处理器1120可以控制该收发器1130与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器1130可以包括发射机和接收机。收发器1130还可以进一步包括天线，天线的数量可以为一个或多个。

作为一实施例，该收发器1130可以接收用户通过客户端上传的直播游戏视频或直播游戏视频URL，进一步对该直播游戏视频进行剪辑，然后以URL 形式返回剪辑的视频片段。

应当理解，该计算机设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例中的相应内容。

本申请实施例还提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例中的相应内容。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM， SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种直播视频剪辑方法，其特征在于，包括：

抽取所述直播视频中的多个直播视频帧；

2.根据权利要求1所述的方法，其特征在于，所述利用直线检测算法检测所述直播视频中的主播框和目标视频画面的分割线，包括：

抽取所述直播视频中的多个视频帧；

利用直线检测算法检测所述多个视频帧中竖直方向的直线，删除所述多个视频帧中满足第一条件的直线，并合并所述多个视频帧中水平距离小于第一阈值的直线；

对所述多个视频帧中的剩余直线进行统计，确定满足第二条件的直线作为主播和目标视频画面界面的分割线。

3.根据权利要求2所述的方法，其特征在于，所述第一条件包括：长度小于或等于第二阈值，或距离视频帧的左右边缘的距离小于或等于第三阈值；

4.根据权利要求1所述的方法，其特征在于，所述根据目标事件的事件类型，获取所述目标事件对应的视频帧中的文本信息，生成所述目标事件的标签信息，包括：

根据所述目标事件的事件类型，获取抽取的视频帧中的特定区域的图像，其中，所述特定区域的图像为所述视频帧中包含文本信息的图像；

将所述特定区域的图像输入至光学文字识别OCR模块，得到所述视频帧中所包括的文本信息以及所述文本信息对应的文本框的坐标信息；

根据所述文本信息和所述文本信息对应的文本框的坐标信息，确定所述目标事件的标签信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述文本信息和所述文本信息对应的文本框的坐标信息，确定所述目标事件的标签信息，包括：

根据所述文本框的坐标信息，进行文本框的合并，得到完整文本信息；

将所述完整文本信息和词组字典进行匹配，确定目标文本信息；

根据所述目标文本信息，确定所述目标事件的标签信息。

6.根据权利要求5所述的方法，其特征在于，所述根据所述文本框的坐标信息，进行文本框的合并，包括：

将满足以下条件的两个文本框合并为一个文本框：

所述两个文本框的横向间距小于第五阈值；

所述两个文本框的纵向高度差小于第六阈值；

所述两个文本框的纵向重合范围大于第七阈值。

7.根据权利要求5所述的方法，其特征在于，所述将所述完整文本信息和词组字典进行匹配，确定目标文本信息，包括：

计算所述完整文本信息和所述词组字典中的词条的文本编辑距离；

将文本编辑距离最小并且文本编辑距离小于第八阈值的词条确定为所述目标文本信息。

8.根据权利要求5所述的方法，其特征在于，所述目标视频片段包括至少一个精彩片段，或所述目标视频片段包括至少一个精彩片段和至少一个关键帧，所述目标事件包括第一类事件和第二类事件，所述关键帧包括所述第一类事件对应的多个视频帧，所述精彩片段包括所述第二类事件对应的多个视频帧，所述根据所述目标文本信息，确定所述目标事件的标签信息，包括：

将在第二类事件对应的视频帧中检测到的文本信息所匹配的目标文本信息作为所述第二类事件的标签信息；

9.根据权利要求1所述的方法，其特征在于，所述直播视频为直播游戏视频，所述目标视频片段包括至少一个精彩片段，或所述目标视频片段包括至少一个精彩片段和至少一个关键帧，其中，所述目标事件包括第一类事件和第二类事件，所述关键帧包括所述第一类事件对应的多个视频帧，所述精彩片段包括所述第二类事件对应的多个视频帧。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

根据所述目标视频片段中包括的视频片段的事件类型，进行所述目标视频片段的输出。

11.根据权利要求10所述的方法，其特征在于，所述根据所述目标视频片段中包括的视频片段的事件类型，进行所述目标视频片段的输出，包括：

12.根据权利要求1-11中任一项所述的方法，其特征在于，所述方法还包括：

抽取训练视频中的多个视频帧；

对所述多个视频帧中的目标事件的事件类型进行标注；

将所述多个视频帧输入至所述第二卷积网络模型进行训练，得到所述第二卷积网络模型的模型参数。

13.根据权利要求1-11中任一项所述的方法，其特征在于，所述方法还包括：

对训练视频中的目标事件的起止时间进行标注；

抽取标注的所述训练视频中的多个视频帧；

将所述多个视频帧的图像特征输入至所述时序动作分割网络进行训练，得到所述时序动作分割网络的模型参数。

14.根据权利要求1-11中任一项所述的方法，还包括：

接收客户端发送的剪辑请求；

根据所述剪辑请求确定待剪辑的所述直播视频；

15.一种直播视频剪辑装置，其特征在于，包括：

抽帧模块，用于抽取直播视频中的多个直播视频帧；

16.一种计算机设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至14中任一项所述的方法。