CN108259990B

CN108259990B - 一种视频剪辑的方法及装置

Info

Publication number: CN108259990B
Application number: CN201810079259.8A
Authority: CN
Inventors: 李俊; 王丰; 刘笑江; 王文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2020-08-04
Anticipated expiration: 2038-01-26
Also published as: CN108259990A

Abstract

本发明公开了一种视频剪辑的方法，包括：获取待处理视频，其中，所述待处理视频包括N帧图像，所述N为大于1的正整数；从所述待处理视频的M帧图像中检测第一对象标识，其中，所述M为大于1且小于或等于所述N的正整数；获取第一对象，其中，所述第一对象与所述第一对象标识具有唯一的对应关系；根据预设剪辑时间规则以及所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频。本发明还公开一种视频剪辑装置。本发明可以自动从待处理视频中剪辑出精彩视频，无需人工进行视频剪辑，提升了视频剪辑的精准性，降低人力成本。

Description

一种视频剪辑的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种视频合成的方法及装置。

背景技术

短视频即短片视频，一般是在互联网上传播的时长在几分钟以内的视频内容。可以在各种新媒体平台上播放，适合在移动状态和短时休闲状态下观看。随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐获得各大平台和网友们的青睐。

为了更好的维护和推广游戏，每天需要生成大量的游戏短视频。目前，生产这些短视频内容主要是以外包人工为主，需要人工先将视频预览一遍，再使用剪辑软件对视频进行剪辑，最后将剪辑得到的视频进行合成，得到相应的短片视频。

然而，由于视频是由多帧图像组成的，而人的肉眼很难分辨出前一帧图像和后一帧图像的区别，所以人工剪辑的视频存在不精准的问题。此外，人工剪辑还存在效率低下，人力成本较高的问题。

发明内容

本发明实施例提供了一种视频剪辑的方法及装置，可以自动从待处理视频中剪辑出精彩视频，无需人工进行视频剪辑，提升了视频剪辑的精准性，降低人力成本。

本发明的第一方面提供了一种视频剪辑的方法，包括：

获取待处理视频，其中，所述待处理视频包括N帧图像，所述N为大于1的正整数；

从所述待处理视频的M帧图像中检测第一对象标识，其中，所述M为大于1且小于或等于所述N的正整数；

获取第一对象，其中，所述第一对象与所述第一对象标识具有唯一的对应关系；

根据预设剪辑时间规则以及所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频。

本发明的第二方面提供了一种视频剪辑装置，包括：

获取模块，用于获取待处理视频，其中，所述待处理视频包括N帧图像，所述N为大于1的正整数；

检测模块，用于从所述获取模块获取的所述待处理视频的M帧图像中检测第一对象标识，其中，所述M为大于1且小于或等于所述N的正整数；

所述获取模块，用于获取第一对象，其中，所述第一对象与所述第一对象标识具有唯一的对应关系；

剪辑模块，用于根据预设剪辑时间规则以及所述获取模块获取的所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频。

本发明的第三方面提供了一种视频剪辑装置，所述视频剪辑装置包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据预设剪辑时间规则以及所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明实施例中，提供了一种视频剪辑的方法，首先，获取待处理视频，其中，待处理视频包N帧图像，每帧图像中包括预设灰度区域，若M帧图像对应的预设灰度区域满足预设剪辑条件，则从M帧图像对应的预设灰度区域中获取第一对象标识，然后确定第一对象，最后根据预设剪辑时间规则以及第一对象对待处理视频进行剪辑处理，以得到第一视频。通过上述方式，可以自动从待处理视频中剪辑出精彩视频，无需人工进行视频剪辑，从而提升了视频剪辑的精准性，降低人力成本，提升了剪辑效率。

附图说明

图1为本发明实施例中视频剪辑的方法一个实施例示意图；

图2为本发明实施例中预设灰度区域的一个示意图；

图3为本发明实施例中第一视角下识别击杀英雄的实施例示意图；

图4为本发明实施例中第一视角下剪辑得到视频的流程示意图；

图5为本发明实施例中技能标识的一个实施例示意图；

图6为本发明实施例中技能识别模型的一个实施例示意图；

图7为本发明实施例中解说视角下识别击杀英雄的实施例示意图；

图8为本发明实施例中解说视角下剪辑得到视频的流程示意图；

图9为本发明实施例中视频剪辑装置一个实施例示意图；

图10为本发明实施例中视频剪辑装置另一个实施例示意图；

图11为本发明实施例中视频剪辑装置一个结构示意图。

具体实施方式

本发明实施例提供了一种视频剪辑的方法及装置，可以自动从待处理视频中剪辑出精彩视频，无需人工进行视频剪辑，提升了视频剪辑的精准性，降低人力成本。此外，采用灰度图进行处理还能有效地减少计算资源。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明主要应用于交互式应用程序，具体可以应用于多人在线战术竞技(multiplayer online battle arena，MOBA)游戏，这类MOBA游戏的玩法是，在战斗中玩家通常被分为两队，两队在分散的游戏地图中互相竞争，每个玩家都通过一个即时策略(real-time strategy，RTS)风格的界面控制所选的角色，玩家只控制自己所选的角色，该角色即为“英雄”，也就是后续实施例中所提到的“第一对象”、“第二对象”和“第三对象”等。

英雄定位可分为法师、战士、坦克、刺客、射手以及辅助，不同的英雄拥有不同的属性和技能，每个英雄都有多个主动攻击技能和1个被动技能，主动技能需要玩家通过点击屏幕上相应的位置来触发，而被动技能达到某个条件后即可触发。

本发明可以对MOBA游戏中的多杀场景、推敌方建筑物场景以及击杀非玩家角色(Non Player Character，NPC)场景等进行识别，还可以进而识别出击杀英雄和被击杀英雄，从而自动对整个游戏过程中的精彩视频进行剪辑。通常情况下，击杀可以分别多种情况，这些情况被定义为精彩时刻，如“双杀”(规定时间内连续击杀对方两名英雄)、“三杀”(规定时间内连续击杀对方三名英雄)、“四杀”(规定时间内连续击杀对方四名英雄)以及“五杀”(规定时间内连续击杀对方五名英雄)。

下面将从视频剪辑装置的角度，对本发明中视频剪辑的方法进行介绍，请参阅图1，本发明实施例中视频剪辑的方法一个实施例包括：

101、获取待处理视频，其中，待处理视频包括N帧图像，N为大于1的正整数；

本实施例中，首先视频剪辑装置获取待处理视频，待处理视频可以是从至少一场MOBA游戏中获取到的，比如，进行了100场MOBA游戏就会产生100个整场游戏的视频，这些视频即为待处理视频。其中，待处理视频包含了N帧图像，N是大于1的整数。

而每帧图像都具有一个预设灰度区域，该预设灰度区域的位置是固定的，这样可以便于对该位置的图像进行检测，请参阅图2，图2为本发明实施例中预设灰度区域的一个示意图，如图所示，图中黑色框内的区域即为预设灰度区域。可以理解的是，该预设灰度区域仅为一个示意，在实际应用中，还可以将预设灰度区域设置在界面中的其他位置，且大小也可以根据实际情况进行灵活地调整。

102、从待处理视频的M帧图像中检测第一对象标识，其中，M为大于1且小于或等于N的正整数；

本实施例中，待处理视频由一帧一帧的大小相同的图像组成，每一秒待处理视频通常由25或者30帧连续的图片组成。按照每一帧进行读取，从而得到一个个图像，再对图像中预设灰度区域进行检测，如果视频剪辑装置检测到有M帧图像对应的预设灰度区域满足预设剪辑条件，那么就可以从这M帧图像对应的预设灰度区域中获取第一对象标识。

具体地，请继续参阅图2，图2中首先在预设灰度区域中检测到存在第一对象标识，然后对第一对象标识所覆盖的区域形成色彩识别结果，即形成三通道RGB图像，通过RGB图像可以识别出第一对象标识为“虞姬头像”，当检测到存在第一对象标识时，说明可能存在击杀英雄的场景，也可能是存在击杀非玩家角色(non-player character，NPC)的场景。

103、获取第一对象，其中，第一对象与第一对象标识具有唯一的对应关系；

本实施例中，视频剪辑装置可以根据第一对象标识确定第一对象，比如，第一对象标识为“虞姬头像”，那么对应的第一对象就是虞姬这个英雄角色，每个英雄角色都具有一个唯一对应的头像。

104、根据预设剪辑时间规则以及第一对象对待处理视频进行剪辑处理，以得到第一视频。

本实施例中，视频剪辑装置确定需要按照剪辑时间规则对包含第一对象的图像进行剪辑，以此生成第一视频。

可以理解的是，剪辑时间规则表示对不同事件进行剪辑的时间长度，一种示例性的剪辑时间规则如下表1所示。

表1

事件	时间长度
		“双杀”	1.8秒
“三杀”	3秒
		“四杀”	5.2秒
“五杀”	7.5秒

可以理解的是，上述剪辑时间规则仅为一个示意，在实际应用中，可以根据情况进行灵活的设定，此处不做限定。

本发明实施例中，提供了一种视频剪辑的方法，首先，获取待处理视频，其中，待处理视频包N帧图像，每帧图像中包括预设灰度区域，若M帧图像对应的预设灰度区域满足预设剪辑条件，则从M帧图像对应的预设灰度区域中获取第一对象标识，然后根据第一对象标识确定第一对象，最后，根据预设剪辑时间规则以及第一对象对待处理视频进行剪辑处理，以得到第一视频。通过上述方式，可以自动从待处理视频中剪辑出精彩视频，无需人工进行视频剪辑，从而提升了视频剪辑的精准性，降低人力成本，提升了剪辑效率。此外，采用灰度图进行处理还能有效地减少计算资源。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的视频剪辑的方法第一个可选实施例中，还可以包括：

从M帧图像中检测第二对象标识，其中，第二对象标识用于表示第一对象的交互操作情况；

根据预设剪辑时间规则以及第一对象对待处理视频进行剪辑处理，包括：

若第二对象标识与预设标识匹配，则根据预设剪辑时间规则、第一对象以及第二对象标识对待处理视频进行剪辑处理。

本实施例中，满足预设剪辑条件的一个方式是检测到预设灰度区域中有第二对象标识，其中，第二对象标识用于表示第一对象的交互操作情况，具体可以是击杀类的图标。请再次参阅图2，图2中的第二对象标识为“三连决胜”，也就表示存在“三杀”的精彩片段，如果存在与预设标识匹配的第二对象标识，则视频剪辑装置确定满足预设剪辑条件。

可以理解的是，预设标识除了可以是“三连决胜”，还可以是“二连击破”、“四连超凡”、“五连绝世”、“锋芒毕露”以及“无坚不摧”等，在实际应用中，预设标识还可以是其他的内容，此处不做限定。

终端可以根据预设剪辑时间规则、第一对象以及第二对象标识进行视频剪辑处理，第一对象以及第二对象标识共同用于确定当前属于精彩视频片段。

其次，本发明实施例中，介绍了一种判断是否满足预设剪辑条件的方式，即从M帧图像对应的预设灰度区域中获取第二对象标识，如果第二对象标识与预设标识匹配，确定M帧图像对应的预设灰度区域满足预设剪辑条件。通过上述方式，能够利用第二对象标识来识别是否属于精彩片段，从而提升视频剪辑的准确度，增加方案的实用性。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的视频剪辑的方法第二个可选实施例中，还可以包括：

从M帧图像中检测第三对象标识，其中，第三对象标识用于表示与第一对象具有交互操作的第三对象；

根据预设剪辑时间规则、第一对象以及第三对象标识对待处理视频进行剪辑处理。

本实施例中，满足预设剪辑条件的另一个方式是检测到预设灰度区域中有第三对象标识，其中，第三对象标识用于表示与第一对象具有交互操作的第三对象，具体可以是被击杀的对象。请再次参阅图2，图2中的第三对象标识为“张飞头像”，第三对象就是“张飞”这个英雄。如果存在第三对象标识，则说明当前有被击杀的对象，于是视频剪辑装置确定满足预设剪辑条件。

终端可以根据预设剪辑时间规则、第一对象以及第三对象标识进行视频剪辑处理，第一对象以及第三对象标识共同用于确定当前属于精彩视频片段。

其次，本发明实施例中，介绍了另一种判断是否满足预设剪辑条件的方式，即判断M帧图像对应的预设灰度区域中是否存在第三对象标识，如果存在第三对象标识，则确定M帧图像对应的预设灰度区域满足预设剪辑条件。通过上述方式，能够利用第三对象标识来识别是否属于精彩片段，从而提升视频剪辑的准确度，增加方案的实用性和灵活性。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的视频剪辑的方法第三个可选实施例中，根据第一对象标识确定第一对象，可以包括：

采用色彩模式对第一对象标识进行识别，以得到色彩识别结果；

根据色彩识别结果确定第一对象。

本实施例中，对第一对象的识别中，需要识别的是在击杀场景发生时，是哪个英雄击杀了另一个英雄，请再次参阅图2，当出现击杀场景时，如图2中的“虞姬”击杀“张飞”，此时在预设灰度区域中会出现一个第一对象标识(虞姬头像)击杀第三对象标识(张飞头像)的图像，并在M帧图像的各个帧中，第一对象标识和第三对象标识的位置和大小会发生变化，所以对第一对象识别的过程实际上是一个动态识别的过程。

具体地，每个对象标识(英雄头像)都有给圆圈包裹着，所以可以先在预设灰度区域中内检测是否存在圆圈。如果存在，那么可以采用多层卷积神经网络(ConvolutionalNeural Network，CNN)对圆圈内的第一对象标识进行分类。首先采用色彩模式对第一对象标识进行识别，得到一个色彩识别结果，即红绿蓝(red green blue，RGB)图像。RGB色彩模式是工业界的一种颜色标准，是通过对红、绿和蓝三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。因此，在得到色彩识别结果后，也就能根据色彩识别结果确定第一对象，即确定击杀英雄的名字。

可以理解的是，在对圆圈的检测过程中，为了加快检测速度，可以先将圆圈转换为灰度图。

其次，本发明实施例中，介绍了如何识别第一对象，即采用色彩模式对第一对象标识进行识别，以得到色彩识别结果，然后根据色彩识别结果确定第一对象。通过上述方式，能够对三个通道所对应的RGB图像进行分类，从而识别第一对象RGB这三个通道的颜色几乎包括了人类视力所能感知的所有颜色，因此，识别得到的结果也具有非常高的准确度。

可选地，在上述图1以及图1对应的第一至第三个实施例中任一项的基础上，本发明实施例提供的视频剪辑的方法第四个可选实施例中，获取第一对象，可以包括：

通过技能识别模型对M帧图像中的技能标识进行处理，以得到技能类型，其中，技能标识为灰度图像，其中，技能识别模型用于表示技能标识集合与技能类型集合之间的函数关系；

根据技能类型以及第一对象标识确定第一对象。

本实施例中，在视频剪辑装置确定第一对象之后，还需确定技能类型与该第一对象具有唯一的对象关系，这样就能确定识别到的是同一个英雄。为了便于介绍，请参阅图3，图3为本发明实施例中第一视角下识别击杀英雄的实施例示意图，如图所示，首先提取技能标识，以一技能标识为例，即提取界面右下方最靠近底部的技能标识，然后将该技能标识输入至技能识别模型，该模型用于表示技能标识集合中各个技能标识与技能类型集合中各个技能类型之间的函数关系。最后输出该技能标识所对应的技能类型，技能类型和第一对象标识同样具有对应关系，因此，根据技能类型和第一对象标识就能确定唯一对应的第一对象，如图3所示的技能标识则输出对应的技能类型为“梦境萦绕”。

为了便于介绍，请参阅图4，图4为本发明实施例中第一视角下剪辑得到视频的流程示意图，如图所示，具体地，步骤A1中，选择第一视角视频，即如果玩家玩游戏的时候选择了“阿珂”这个英雄，那么剪辑的就是这个视角下的视频，视频剪辑装置先对第一视角的视频按照一帧帧的画面进行读取；步骤A2中，视频剪辑装置对每一帧画面预设灰度区域的图像进行击杀分类，可以分为“无击杀”、“一杀”、“双杀”、“三杀”、“四杀”和“五杀”等，并且做击杀特征判定，即检测预设灰度区域是否存在两个某大小范围的圆圈)发生击杀画面时，会出现两个圆圈框住的英雄头像，即为我们要检测的两个圆)；步骤A3中，如果步骤A2中判定得到预设灰度区域中存在击杀类图片，于是需要进行击杀英雄识别和英雄技能识别；步骤A4中，如果识别得到的击杀英雄和识别得到的英雄技能匹配，则确定它们是同一个英雄；步骤A5中，根据预设剪辑时间规则来判定剪辑时间；步骤A6中，根据击杀类别来对视频进行截取，直到对整个待处理视频检测完成；步骤A7中，将相同英雄的击杀视频根据时间等规则进行合并。

再次，本发明实施例中，在第一视角的视频中可以通过技能识别模型对M帧图像中的技能标识进行处理，以得到技能类型，如果技能类型与第一对象具有唯一对应关系，那么可以确定技能类型属于第一对象触发的技能。通过上述方式，能够提升第一视角下的对象识别的准确度，有利于提升精彩片段剪辑的准确性。

可选地，在上述图1对应的第四个实施例的基础上，本发明实施例提供的视频剪辑的方法第五个可选实施例中，通过技能识别模型对M帧图像中的技能标识进行处理，以得到技能类型，可以包括：

分别将M帧图像中的每帧技能标识输入至技能识别模型中的卷积神经网络CNN，以得到第一输出结果；

分别将每帧技能标识对应的第一输出结果输入至技能识别模型中的循环神经网络RNN，以得到第二输出结果；

根据每帧技能标识对应的第二输出结果确定技能类型。

本实施例中，在第一视角下，M帧图像中的每帧图像还具有技能标识，请参阅图5，图5为本发明实施例中技能标识的一个实施例示意图，如图所示，右下角一般会有三个英雄技能标识，且位置固定，每一个英雄的三个技能标识都不一样，所以我们只需要对其中的一个技能标识进行识别即可。图5中的技能标识为“一技能标识”，当然，在实际应用中，技能标识还有是“二技能标识”或者“三技能标识”，每个技能标识都对应与一个技能类型，

下面将结合图6来说明如何根据技能标识识别出技能类型，请参阅图6，图6为本发明实施例中技能识别模型的一个实施例示意图，如图所示，CNN₁，CNN₂……CNN_n即为多层CNN网络的1至n层，而循环神经网络(Recurrent Neural Network，RNN)结构一共n个，对应n个图像帧(比如图像帧每一秒取一帧)。其中，每个RNN结构输入256维向量，输出50维度的向量，RNN_n将前面几个RNN结构的隐含层数据和CNN_n数据，通过一个softmax层，最终输出英雄技能类型。RNN₁到RNN_n，和RNN₂到RNN_n是attention机制，将RNN₁和RNN₂的隐含层输入到RNN_n中。

整个技能识别模型具体可以包括十一层，其中，第一层和第二层是由32个过滤器(filters)，内核大小(kernel_size)为3×3，步长(strides)为1，激活函数为修正线性单元(Rectified Linear Units，ReLu)的卷积神经网络构成的。第三层为2×2的最大池化(MaxPooling)层，第四层为流失(Dropout)层，第五层和第六层是由64个filters，kernel_size为3×3，strides为1，激活函数为ReLu的卷积神经网络构成的。第七层为2×2的MaxPooling层，第八层为Dropout层，第九层为全连接层，第十层为Dropout层，第十一层为softmax输出英雄技能类型。

进一步地，本发明实施例中，由于技能标识是一个动态变化的过程，因此，对测试数据集合进行进一步的增强，采用CNN与RNN结合的模型来对连续的多帧技能标识进行识别，可以提升分类的准确率。

可选地，在上述图1以及图1对应的第一至第三个实施例中任一项的基础上，本发明实施例提供的视频剪辑的方法第六个可选实施例中，获取第一对象，可以包括：

从M帧图像中获取第四对象标识，其中，M帧图像为灰度图；

根据第四对象标识确定第四对象所对应的位置，并根据第四对象所对应的位置获取第四对象图像；

通过对象识别模型对M帧图像中的第四对象图像进行处理，以得到第一对象，其中，对象识别模型用于表示对象图像集合与对象之间的函数关系。

本实施例中，在解说视角下，需要对每一帧图像内运动中的第四对象(如英雄)进行识别，在实际情况下，解说视角下会存在多个第四对象，下面将介绍如何在一帧图像中识别第四对象。

请参阅图7，图7为本发明实施例中解说视角下识别击杀英雄的实施例示意图，假设第四对象为英雄，如图所示，每个英雄上方都有一个黑色且带着等级的小圆圈。可以先将每一帧图像的原图转换为灰度图，再从灰度图中扫描该固定大小的圆圈，然后根据该圆圈的相对位置得到各个英雄的位置，最后用多层卷积神经网络对英雄进行分类，从而快速的识别英雄。

为了便于介绍，请参阅图8，图8为本发明实施例中解说视角下剪辑得到视频的流程示意图，如图所示，具体地，步骤B1中，选择解说视角视频，即“王者荣耀职业联赛”(KingPro League，KPL)的整场比赛视频，那么剪辑的就是这个视角下的视频，视频剪辑装置先对解说视角的视频按照一帧帧的画面进行读取；步骤B2中，视频剪辑装置对每一帧画面预设灰度区域的图像进行击杀分类，可以分为“无击杀”、“一杀”、“双杀”、“三杀”、“四杀”和“五杀”等，并且做击杀特征判定，即检测预设灰度区域是否存在两个某大小范围的圆圈)发生击杀画面时，会出现两个圆圈框住的英雄头像，即为我们要检测的两个圆)；步骤B3中，如果步骤B2中判定得到预设灰度区域中存在击杀类图片，于是需要进行击杀英雄识别；步骤B4中，如果识别得到的击杀英雄和识别得到的英雄技能匹配，则确定它们是同一个英雄；步骤B5中，根据预设剪辑时间规则来判定剪辑时间；步骤B6中，根据击杀类别来对视频进行截取，直到对整个待处理视频检测完成；步骤B7中，将相同英雄的击杀视频根据时间等规则进行合并。

再次，本发明实施例中，对于解说角度的视频而言，可以从M帧图像中获取第四对象标识，直接根据第四对象标识确定第四对象所对应的位置，并根据第四对象所对应的位置获取第四对象图像，最后通过对象识别模型对M帧图像中的第四对象图像进行处理，以得到第四对象。通过上述方式，可以在解说角度的视频中获取当前场景内各个对象以及各个对象所在的位置，从而能够准确地从待处理视频中剪辑出相应的内容。此外，采用灰度图进行检测可以加快数据处理速度。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的视频剪辑的方法第七个可选实施例中，根据预设剪辑时间规则以及第一对象对待处理视频进行剪辑处理，以得到第一视频之后，还可以包括：

获取第二视频，其中，第二视频为根据预设剪辑时间规则从待处理视频中剪辑得到的视频；

对第一视频以及第二视频进行拼接，以得到目标视频。

本实施例中，在视频剪辑装置获取到第一视频之后，还可以根据预设剪辑时间规则对待处理视频进行下一个精彩片段的剪辑，以此得到第二视频。然后将第一视频和第二视频进行拼接，可以将第一视频放置在第二视频之前播放，也可以将第一视频放置在第二视频之后播放，此处不做限定。

其次，本发明实施例中，在得到第一视频之后，视频剪辑装置还可以以同样的方式从待处理视频中获取第二视频，再将第一视频和第二视频进行拼接，合成目标视频。通过上述方式，可以将待处理视频中截取到的多个精彩片段进行拼接，并生成对应的目标视频，整个过程也无需人工操作，从剪辑到拼接都可以自动完成，从而提升方案的便利性。

可选地，在上述图1对应的第七个实施例的基础上，本发明实施例提供的视频剪辑的方法第八个可选实施例中，对第一视频以及第二视频进行拼接，以得到目标视频，可以包括：

获取第一视频的第一时间戳以及第二视频的第二时间戳；

若第一时间戳早于第二时间戳，则将第一视频排列在第二视频之前，以得到目标视频；

若第二时间戳早于第一时间戳，则将第二视频排列在第一视频之前，以得到目标视频。

本实施例中，介绍一种可行的目标视频拼接方式。首先，获取第一视频的第一时间戳以及第二视频的第二时间戳，其中，该时间戳可以标识精彩片段开始时刻，也可以标识精彩片段结束时刻，此处不做限定、

假设时间戳为精彩视频开始时刻，首先判断第一时间戳和第二时间戳的早晚，若视频A的时间戳是15时36分15秒，视频B的时间戳是15时36分18秒，那么15时36分15秒早于15时36分18秒，于是将视频A排列在视频B之前进行合成。

可以理解的是，在实际应用中，还可以采用其他的方式拼接视频，例如根据精彩程度，如，第一视频为“五杀”视频，第二视频为“三杀”视频，那么根据精彩程度来说，第一视频的优先级高于第二视频，于是将第一视频排列在第二视频之前进行合成。

再次，本发明实施例中，介绍了一种合成目标视频的具体方式，即根据多个视频的时间戳对各个视频进行排列，按照时间戳从早到晚的顺序合成目标视频。通过上述方式，可以提升视频合成的合理性。

下面对本发明中的视频剪辑装置进行详细描述，请参阅图9，图9为本发明实施例中视频剪辑装置一个实施例示意图，视频剪辑装置20包括：

获取模块201，用于获取待处理视频，其中，所述待处理视频包括N帧图像，所述N为大于1的正整数；

检测模块202，用于从所述获取模块201获取的所述待处理视频的M帧图像中检测第一对象标识，其中，所述M为大于1且小于或等于所述N的正整数；

所述获取模块201，用于获取第一对象，其中，所述第一对象与所述第一对象标识具有唯一的对应关系；

剪辑模块203，用于根据预设剪辑时间规则以及所述获取模块201获取的所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频。

本实施例中，获取模块201获取待处理视频，其中，所述待处理视频包括N帧图像，所述N为大于1的正整数，检测模块202从所述获取模块201获取的所述待处理视频的M帧图像中检测第一对象标识，其中，所述M为大于1且小于或等于所述N的正整数，所述获取模块201获取第一对象，其中，所述第一对象与所述第一对象标识具有唯一的对应关系，剪辑模块203根据预设剪辑时间规则以及所述获取模块201获取的所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频。

本发明实施例中，提供了一种视频剪辑装置，首先，获取待处理视频，其中，待处理视频包N帧图像，每帧图像中包括预设灰度区域，若M帧图像对应的预设灰度区域满足预设剪辑条件，则从M帧图像对应的预设灰度区域中获取第一对象标识，然后根据第一对象标识确定第一对象，最后，根据预设剪辑时间规则以及第一对象对待处理视频进行剪辑处理，以得到第一视频。采用上述装置，可以自动从待处理视频中剪辑出精彩视频，无需人工进行视频剪辑，从而提升了视频剪辑的精准性，降低人力成本，提升了剪辑效率。此外，采用灰度图进行处理还能有效地减少计算资源。

可选地，在上述图9所对应的实施例的基础上，本发明实施例提供的视频剪辑装置20的另一实施例中，

所述检测模块202，还用于从所述M帧图像中检测第二对象标识，其中，所述第二对象标识用于表示所述第一对象的交互操作情况；

所述剪辑模块203，具体用于若所述检测模块检测得到的所述第二对象标识与预设标识匹配，则根据所述预设剪辑时间规则、所述第一对象以及所述第二对象标识对所述待处理视频进行剪辑处理。

所述检测模块202，还用于从所述M帧图像中检测第三对象标识，其中，所述第三对象标识用于表示与所述第一对象具有交互操作的第三对象；

所述剪辑模块203，具体用于根据所述预设剪辑时间规则、所述第一对象以及所述检测模块检测得到的所述第三对象标识对所述待处理视频进行剪辑处理。

所述获取模块201，具体用于通过技能识别模型对所述M帧图像中的技能标识进行处理，以得到技能类型，其中，所述技能标识为灰度图像，其中，所述技能识别模型用于表示技能标识集合与技能类型集合之间的函数关系；

根据所述技能类型以及所述第一对象标识确定所述第一对象。

其次，本发明实施例中，在第一视角的视频中可以通过技能识别模型对M帧图像中的技能标识进行处理，以得到技能类型，如果技能类型与第一对象具有唯一对应关系，那么可以确定技能类型属于第一对象触发的技能。通过上述方式，能够提升第一视角下的对象识别的准确度，有利于提升精彩片段剪辑的准确性。

所述获取模块201，具体用于分别将所述M帧图像中的每帧技能标识输入至所述技能识别模型中的卷积神经网络CNN，以得到第一输出结果；

分别将所述每帧技能标识对应的第一输出结果输入至所述技能识别模型中的循环神经网络RNN，以得到第二输出结果；

根据每帧技能标识对应的第二输出结果确定所述技能类型。

所述获取模块201，具体用于从所述M帧图像中获取第四对象标识；

根据所述第四对象标识确定第四对象所对应的位置，并根据所述第四对象所对应的位置获取第四对象图像；

通过对象识别模型对所述M帧图像中的所述第四对象图像进行处理，以得到所述第一对象，其中，所述对象识别模型用于表示对象图像集合与对象之间的函数关系。

可选地，在上述图9所对应的实施例的基础上，请参阅图10，本发明实施例提供的视频剪辑装置20的另一实施例中，所述视频剪辑装置20还包括拼接模块204；

所述获取模块201，还用于在所述剪辑模块203根据预设剪辑时间规则以及所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频之后，获取第二视频，其中，所述第二视频为根据所述预设剪辑时间规则从所述待处理视频中剪辑得到的视频；

所述拼接模块204，用于对所述第一视频以及所述获取模块201获取的所述第二视频进行拼接，以得到目标视频。

可选地，在上述图10所对应的实施例的基础上，本发明实施例提供的视频剪辑装置20的另一实施例中，

所述拼接模块204，具体用于获取所述第一视频的第一时间戳以及所述第二视频的第二时间戳；

若所述第一时间戳早于所述第二时间戳，则将所述第一视频排列在所述第二视频之前，以得到所述目标视频；

若所述第二时间戳早于所述第一时间戳，则将所述第二视频排列在所述第一视频之前，以得到所述目标视频；

本发明实施例还提供了另一种视频剪辑装置，如图11所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该视频剪辑装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以视频剪辑装置为手机为例：

图11示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图11，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图11中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；可选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，可选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器380还具有以下功能：

可选地，处理器380还用于执行如下步骤：

从所述M帧图像中检测第二对象标识，其中，所述第二对象标识用于表示所述第一对象的交互操作情况；

若所述第二对象标识与预设标识匹配，则根据所述预设剪辑时间规则、所述第一对象以及所述第二对象标识对所述待处理视频进行剪辑处理。

可选地，处理器380还用于执行如下步骤：

从所述M帧图像中检测第三对象标识，其中，所述第三对象标识用于表示与所述第一对象具有交互操作的第三对象；

根据所述预设剪辑时间规则、所述第一对象以及所述第三对象标识对所述待处理视频进行剪辑处理。

可选地，处理器380具体用于执行如下步骤：

通过技能识别模型对所述M帧图像中的技能标识进行处理，以得到技能类型，其中，所述技能标识为灰度图像，其中，所述技能识别模型用于表示技能标识集合与技能类型集合之间的函数关系；

可选地，处理器380具体用于执行如下步骤：

分别将所述M帧图像中的每帧技能标识输入至所述技能识别模型中的卷积神经网络CNN，以得到第一输出结果；

根据每帧技能标识对应的第二输出结果确定所述技能类型。

可选地，处理器380还用于执行如下步骤：

从所述M帧图像中获取第四对象标识；

可选地，处理器380还用于执行如下步骤：

获取第二视频，其中，所述第二视频为根据所述预设剪辑时间规则从所述待处理视频中剪辑得到的视频；

对所述第一视频以及所述第二视频进行拼接，以得到目标视频。

可选地，处理器380具体用于执行如下步骤：

获取所述第一视频的第一时间戳以及所述第二视频的第二时间戳；

若所述第二时间戳早于所述第一时间戳，则将所述第二视频排列在所述第一视频之前，以得到所述目标视频。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频剪辑的方法，其特征在于，包括：

根据预设剪辑时间规则以及所述第一对象对包含第一对象的所述待处理视频进行剪辑处理，以得到第一视频，所述剪辑时间规则表示对不同事件进行剪辑的时间长度。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述根据预设剪辑时间规则以及所述第一对象对所述待处理视频进行剪辑处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取第一对象，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过技能识别模型对所述M帧图像中的技能标识进行处理，以得到技能类型，包括：

根据每帧技能标识对应的第二输出结果确定所述技能类型。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取第一对象，包括：

从所述M帧图像中获取第四对象标识；

7.根据权利要求1所述的方法，其特征在于，所述根据预设剪辑时间规则以及所述第一对象对所述待处理视频进行剪辑处理，以得到第一视频之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述第一视频以及所述第二视频进行拼接，以得到目标视频，包括：

9.根据权利要求1所述的方法，其特征在于，所述从所述待处理视频的M帧图像中检测第一对象标识，包括：

从所述待处理视频的M帧图像中获取预设区域，其中，所述预设区域内包括所述第一对象标识；

将所述M帧图像中的预设区域转化为灰度区域；

从所述灰度区域中检测得到所述第一对象标识。

10.一种视频剪辑装置，其特征在于，包括：

剪辑模块，用于根据预设剪辑时间规则以及所述获取模块获取的所述第一对象对包含第一对象的所述待处理视频进行剪辑处理，以得到第一视频，所述剪辑时间规则表示对不同事件进行剪辑的时间长度。

11.根据权利要求10所述的视频剪辑装置，其特征在于，

所述检测模块，还用于从所述M帧图像中检测第二对象标识，其中，所述第二对象标识用于表示所述第一对象的交互操作情况；

所述剪辑模块，具体用于若所述检测模块检测得到的所述第二对象标识与预设标识匹配，则根据所述预设剪辑时间规则、所述第一对象以及所述第二对象标识对所述待处理视频进行剪辑处理。

12.一种视频剪辑装置，其特征在于，所述视频剪辑装置包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据预设剪辑时间规则以及所述第一对象对包含第一对象的所述待处理视频进行剪辑处理，以得到第一视频，所述剪辑时间规则表示对不同事件进行剪辑的时间长度；

13.根据权利要求12所述的视频剪辑装置，其特征在于，所述处理器具体用于执行如下步骤：

14.根据权利要求13所述的视频剪辑装置，其特征在于，所述处理器具体用于执行如下步骤：

根据每帧技能标识对应的第二输出结果确定所述技能类型。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法。