CN107529091B

CN107529091B - 视频剪辑方法及装置

Info

Publication number: CN107529091B
Application number: CN201710807830.9A
Authority: CN
Inventors: 高跃峰; 梁策; 程彧; 宁华龙
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2020-08-04
Anticipated expiration: 2037-09-08
Also published as: CN107529091A

Abstract

本申请提供一种视频剪辑方法及装置，所述方法包括：获取合成视频帧序列，所述合成视频帧包括初始视频帧，以及渲染在所述初始视频帧上的基于AR场景的虚拟对象，所述虚拟对象在所述初始视频帧的渲染位置基于所述虚拟对象的运动状态而确定；从所述合成视频帧序列中选取满足预设剪辑条件的视频帧，所述预设剪辑条件包括：合成视频帧中虚拟对象的运动状态与预设标记状态匹配；利用所选取的合成视频帧生成剪辑后的视频数据。本申请实施例的方案，可以实现视频剪辑的自动化，剪辑过程不需要人工手动操作，能显著提高剪辑效率。

Description

视频剪辑方法及装置

技术领域

本申请涉及视频处理技术领域，尤其涉及视频剪辑方法及装置。

背景技术

目前视频剪辑过程在很大程度上依赖于人工处理，具体处理过程通常是将视频文件逐帧展开，由用户查阅视频帧，由用户手动选取合适的视频帧，以帧为精度来进行剪辑，因此视频剪辑过程需要投入较大的人力物力、耗时较长且效率低下。

发明内容

为克服相关技术中存在的问题，本申请提供了视频剪辑方法及装置。

一种视频剪辑方法，所述方法包括：

获取合成视频帧序列，所述合成视频帧包括初始视频帧，以及渲染在所述初始视频帧上的基于AR场景的虚拟对象，所述虚拟对象在所述初始视频帧的渲染位置基于所述虚拟对象的运动状态而确定；

从所述合成视频帧序列中选取满足预设剪辑条件的视频帧，所述预设剪辑条件包括：合成视频帧中虚拟对象的运动状态与预设标记状态匹配；

利用所选取的合成视频帧生成剪辑后的视频数据。

可选的，所述虚拟对象的运动状态通过预先配置的运动状态计算函数计算得到，所述运动状态计算函数中的运动参数基于从所述初始视频帧中识别出的人脸特征而确定。

可选的，所述剪辑条件还包括：所述从所述初始视频帧中识别出的人脸特征与预设标记特征匹配。

可选的，所述人脸特征包括嘴部特征。

可选的，所述初始视频帧包括主播客户端实时采集的视频帧。

可选的，所述主播客户端在直播过程中关联有一个或多个观众客户端，在所述观众客户端向所述主播客户端发送虚拟礼物的情况下，所述虚拟对象的运动状态还基于所述虚拟礼物的参数而确定。

可选的，所述合成视频帧还包括渲染在所述初始视频帧上的特效数据，所述预设剪辑条件包括：渲染有所述特效数据的视频帧。

一种视频剪辑装置，所述装置包括：

获取模块，用于：获取合成视频帧序列，所述合成视频帧包括初始视频帧，以及渲染在所述初始视频帧上的基于AR场景的虚拟对象，所述虚拟对象在所述初始视频帧的渲染位置基于所述虚拟对象的运动状态而确定；

选取模块，用于：从所述合成视频帧序列中选取满足预设剪辑条件的视频帧，所述预设剪辑条件包括：合成视频帧中虚拟对象的运动状态与预设标记状态匹配；

生成模块，用于：利用所选取的合成视频帧生成剪辑后的视频数据。可选的，所述虚拟对象的运动状态基于从所述初始视频帧识别出的人脸特征而确定。

可选的，所述人脸特征包括嘴部特征。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例的视频剪辑方案，针对渲染有基于AR场景的虚拟对象的视频，由于虚拟对象具有不同的运动状态，以虚拟对象的运动状态作为剪辑因素，通过视频帧所渲染的虚拟对象的状态，从视频帧序列中自动选取出渲染有某些特定状态虚拟对象的视频帧，从而实现了视频剪辑的自动化，剪辑过程不需要人工手动操作，能显著提高剪辑效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例提供的一种视频画面示意图。

图2A是本申请根据一示例性实施例示出的视频剪辑方案的架构示意图。

图2B是本申请根据一示例性实施例示出的视频剪辑方法的流程示意图。

图3是本申请根据一示例性实施例示出的一种直播场景示意图。

图4是本申请视频剪辑装置所在电子设备的一种硬件结构图。

图5是本申请根据一示例性实施例示出的一种视频剪辑装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

增强现实(Augmented Reality，简称AR)技术，是一种将真实世界信息和虚拟世界信息无缝集成的新技术，该技术可以通过电脑技术，将虚拟的信息应用到真实世界，真实环境和虚拟物体实时地叠加到了同一个画面或空间同时存在。

AR技术一种常见的应用场景是，用户通过手持或佩戴等移动设备中的摄像模块拍摄真实环境，提供AR服务的软件可以基于所拍摄的初始视频数据，在初始视频数据上渲染一个或多个虚拟对象。实现上述场景的关键在于如何将虚拟对象与实际拍摄的现实环境结合，一方面，提供AR服务的软件可以预先配置一个或多个对应虚拟对象的模型，每个虚拟对象的模型规定该虚拟对象对应的状态演变规则，以决定虚拟对象的不同运动状态。另一方面，软件还可以根据设备所拍摄的视频数据，基于所计算出的虚拟对象的运动状态，确定虚拟对象渲染到视频数据上的哪个位置，在成功渲染后，用户即可观看到基于真实环境叠加有虚拟对象的视频画面。

举例来说，如图1所示，是本申请根据一示例性实施例提供的一种视频画面示意图，图1中电子设备以智能手机为例，用户开启了前置摄像头拍摄真实环境，电子设备摄像模块拍摄的视频数据可以理解为一视频帧序列，电子设备的显示模块以每秒N帧的速度显示每一帧画面。而AR场景下，可以基于所拍摄的真实环境中的用户脸部特征，图1中虚拟对象以蛋糕为例进行示意，从用户观看的角度来说，可以看见该蛋糕旋转、蛋糕在屏幕不同位置移动、蛋糕可以被用户的嘴巴咬住、被用户吃掉后消失等等效果。

上述过程能够实现的原理，是提供AR服务的软件在两帧之间的空隙处进行计算，这些计算决定了虚拟对象的运动状态。假设某一帧的时候蛋糕位于左下角，显示模块将这一帧渲染完后，软件需要确定下一帧时蛋糕渲染在视频帧中的哪个位置。这个过程实际上可以理解为运动状态的计算过程：如果知道一个物体此刻的位置、速度和加速度等运动参数，就可以计算出若干时间(例如一帧)后它所处的新位置。因此，软件正是根据蛋糕在第一帧的运动参数，来计算它下一帧的位置，计算出来后，它才开始在下一帧中渲染出来。

可以理解，根据不同场景下的设计需要，每个虚拟对象都可以设计对应的运动状态计算函数。诸如位置、速度、旋转等等参数所导致的虚拟对象变化，本实施例中可以称之为运动状态。每一帧中虚拟对象的运动状态决定了这一帧最终所呈现的画面。运动状态的计算，实际上就是一个运动状态到另一个运动状态的变化，而整个基于视频数据的增强现实的运行，则是拍摄的视频数据不断变化、虚拟对象不断变化，从而导致最终由视频帧和虚拟对象合成的画面不断变化的过程。

基于此，本申请实施例提供了一种视频剪辑方案，针对渲染有基于AR场景的虚拟对象的视频，由于虚拟对象具有不同的运动状态，以虚拟对象的运动状态作为剪辑因素，通过视频帧所渲染的虚拟对象的状态，可以从视频帧序列中自动选取出渲染有某些特定状态虚拟对象的视频帧，从而实现了视频剪辑的自动化，剪辑过程不需要人工手动操作，能显著提高剪辑效率。接下来对本申请实施例进行详细说明。

如图2A所示，是本申请根据一示例性实施例示出的视频剪辑方案的架构示意图，包括用于提供初始视频帧的视频采集模块、用于提供虚拟对象相关数据的AR模块、用于渲染显示视频画面的渲染显示模块、以及用于剪辑视频画面的剪辑模块。

其中，本申请实施例的方案可以应用在图2A中的剪辑模块中，需要说明的是，在一些例子中，上述各个模块可以配置同一设备中，例如智能手机、平板电脑等电子设备。在另一些例子中，上述模块也可以分别配置在不同设备中，例如，视频采集模块、AR模块和渲染显示模块可配置于终端设备，而剪辑模块配置于网络侧的服务设备，终端设备可以通过网络获得终端设备所提供的视频数据并进行剪辑；或者，还可以是视频采集模块和渲染显示模块配置于终端设备，而AR模块和剪辑模块可配置于网络侧的服务设备，服务设备可以通过网络向终端设备提供虚拟对象相关数据，之后获得终端设备所提供的视频数据并进行剪辑。实际应用中可以根据需要灵活配置多种方式，本实施例对此不作限定。

如图2B所示，是本申请根据一示例性实施例示出的视频剪辑方法的流程示意图，包括如下步骤：

在步骤202中，获取合成视频帧序列，所述合成视频帧包括初始视频帧，以及渲染在所述初始视频帧上的基于AR场景的虚拟对象，所述虚拟对象在所述初始视频帧的渲染位置基于所述虚拟对象的运动状态而确定。

在步骤204中，从所述合成视频帧序列中选取满足预设剪辑条件的视频帧，所述预设剪辑条件包括：合成视频帧中虚拟对象的运动状态与预设标记状态匹配。

在步骤206中，利用所选取的合成视频帧生成剪辑后的视频数据。

由前述分析可知，虚拟对象具有不同的运动状态，对于渲染有虚拟对象的合成视频帧，每一合成视频帧可以利用所渲染的虚拟对象的运动状态进行区分，而虚拟对象的运动状态通过预先配置的虚拟对象运动状态函数计算得到。因此，可以根据实际的剪辑需要，预先配置某些运动状态作为预设标记状态，在获得合成视频帧序列后，选取出合成视频帧中虚拟对象的运动状态与预设标记状态匹配的视频帧，符合剪辑条件的视频帧被选取出来后，即可生成剪辑后的视频数据。

接下来通过一具体实施例对视频剪辑方案进行详细说明。本实施例所涉及的应用场景为直播场景，网络直播技术是一种服务端将主播用户的直播视频数据广播至多个观众用户进行观看的互联网技术。如图3所示，是本申请根据一示例性实施例示出的一种直播场景示意图，图3中包括作为服务端设备的服务器、以及作为客户端设备的智能手机、平板电脑和个人计算机。其中，客户端设备还可以是PDA(Personal Digital Assistant，个人数字助理)、多媒体播放器、可穿戴设备等等设备。

图3中的服务端向各客户端提供直播服务，用户可以使用智能设备安装直播客户端，通过该直播客户端获得服务端所提供的直播服务，也可以使用智能设备安装浏览器客户端，通过浏览器客户端登录服务器所提供的直播页面，获得直播服务。通常，直播过程中涉及两类用户，一类用户为主播用户，另一类用户为观众用户。客户端提供有主播直播功能和直播收看功能，主播用户可以使用客户端提供的直播功能进行视频直播，具体的实现过程是客户端开启智能设备的视频拍摄模块，通过视频拍摄模块实时采集视频数据，并发送给服务端，服务端将所接收的视频数据广播给各观众用户的客户端，而观众用户可以使用客户端提供的收看功能观看主播用户的直播内容。

进一步的，本实施例中的客户端还可以在直播功能的基础上增加AR功能，可选的，本申请实施例示出的客户端可以配置有图2A所示的视频采集模块、AR模块、渲染显示模块以及剪辑模块。

在主播模式下，主播用户可以启动摄像模块，由摄像模块实时采集初始视频帧序列。AR模块可以配置有一个或多个针对虚拟对象的虚拟模型，可选的，这些虚拟模型可以规定有虚拟对象的维度(二维或三维等)、虚拟对象的运动状态计算函数、虚拟对象的显示信息(如颜色、亮度或材质等等)等等相关数据。其中，虚拟对象的运动状态计算函数中涉及多种参数，这些参数影响了虚拟对象的整个运动过程。举例来说，对于一个“篮球”虚拟对象，篮球的运动状态受篮球的质量、弹性系数、发力值或发力角度等等因素影响。在一些例子中，虚拟对象的运动状态可以基于从初始视频帧中识别出的目标特征而确定，这些目标特征包括但不限于视频画面中的人脸、人体动作、动物或某些物体，例如桌子、计算机、道路或汽车等等，上述从初始视频帧中识别出的目标特征的过程，可以采用已有的图像识别技术而实现。在本申请实施例中的直播场景下，直播过程通常是拍摄有主播的脸部，为了提高直播效果，虚拟对象的运动状态可以基于从所述初始视频帧识别出的人脸特征而确定，也即是，虚拟对象可以由用户人脸进行控制，从而实现了一种新的AR互动方式。

其中，人脸特征可以包括眉毛、眼睛、鼻子、嘴巴或脸部轮廓等等，这些人脸特征的确定，可以利用已有的人脸特征识别算法，从初始视频帧中进行识别而得到。各人脸特征在视频帧中的具体位置，即表示视频帧中哪些像素点为上述的人脸特征像素点。在实际应用中，可以根据需要预先设定需定位的人脸特征，例如设定鼻子或嘴巴等。

举例来说，假设具体场景是提供一种可由用户的嘴巴控制虚拟对象运动的互动方式，例如是用户通过嘴巴张开至闭合过程中嘴巴张开的大小、张开至闭合的时长等方式控制虚拟对象篮球的运动，具体实现可以是所述虚拟对象的运动状态通过预先配置的运动状态计算函数计算得到，所述运动状态计算函数中的运动参数基于从所述初始视频帧中识别出的人脸特征而确定。举例来说，可以针对该虚拟对象预先配置有运动状态计算函数，运动状态计算函数中的运动参数则根据从初始视频帧序列中所识别出的人脸特征而确定，因此运动状态计算函数可以计算出篮球的运动状态，进而渲染显示模块在初始视频帧中进行渲染而形成合成视频帧序列。

本申请实施例中，主播客户端在通过摄像头捕获的视频帧的基础上添加AR场景下的虚拟对象形成视频画面，主播所拍摄的包含有人脸特征的视频帧可以影响AR场景下的虚拟对象的运动状态，因此增强了用户与虚拟世界的互动效果。该由初始视频帧与虚拟对象合成的视频画面可以发送给观众客户端，观众可以直观的看到主播控制AR场景下虚拟对象的运动过程，从而丰富了主播直播的内容，提高了直播效果。

直播过程中，客户端可能还提供了观众向主播赠送虚拟礼物的功能，主播客户端在直播过程中关联有一个或多个观众客户端，这些观众用户可以进入该主播所直播的频道内，在直播过程中向主播用户赠送虚拟礼物，为了增加互动效果及增强AR效果，本实施例中的虚拟对象的运动状态还可以基于虚拟礼物的参数而确定，也即是，观众用户所赠送的礼物还可以影响虚拟对象的运动状态，运动状态计算函数中的运动参数除了人脸特征，还可以进一步结合虚拟礼物的参数而确定，运动状态计算函数可以计算出虚拟对象的运动状态，进而渲染显示模块在初始视频帧中进行渲染而形成合成视频帧序列。仍以虚拟对象为篮球为例，在直播过程中，为了增强主播与观众的互动，在主播用嘴巴控制篮球运动过程中，观众可以赠送“力量增强”礼物，根据该“力量增强”礼物预先配置的参数，运动状态计算函数可以进一步增加篮球的速度参数值等参数，进而计算出受主播用户影响和观众用户影响下的篮球的运动状态。

由上述实施例可见，在虚拟对象运动过程中，主播用户或观众用户可能对某些运动状态等较为关注，为了实现自动剪辑用户关注的视频数据，本实施例可以预设标记状态，该预设标记状态可以根据不同场景下不同虚拟对象的实际设计而灵活配置。举例来说，以虚拟对象为篮球为例，预设标记状态可以包括篮球开始运动状态、篮球投中虚拟对象篮筐的状态或结束运动状态等等。

在包含有人脸的视频帧中，可能用户对于某些人脸特征也较为关注，比如用户睁大眼睛、用户大笑、用户眯眼等等，在这些场景下，用户还可以根据需要预先配置这些用户所关注的人脸特征作为预设标记特征，从而可以进一步选取更多用户所关注的视频帧并剪辑出用户需要的视频。

在AR互动过程中，可能会基于虚拟对象的运动状态渲染某些特征数据，例如在玩家吃到食物时，可以显示得分、连击数等特效，或者增加虚拟啦啦队、或者在篮球投中后产生喷火等等特效数据，互动过程中可以根据需要添加各种特效，特效可以是flash特效、贴图特效，也可以是其它形式的特效等等，用户可能对于特效数据也较为关注，在这些场景下，预设剪辑条件还包括：渲染有所述特效数据的视频帧，从而可以进一步选取更多用户所关注的视频帧并剪辑出用户需要的视频。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

与前述视频剪辑方法的实施例相对应，本申请还提供了视频剪辑装置及其所应用的电子设备的实施例。

本申请视频剪辑装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本申请视频剪辑装置所在电子设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该直播装置的实际功能，还可以包括其他硬件，例如摄像头，对此不再赘述。

如图5所示，是本申请根据一示例性实施例示出的一种视频剪辑装置的框图，所述装置包括：

获取模块51，用于：获取合成视频帧序列，所述合成视频帧包括初始视频帧，以及渲染在所述初始视频帧上的基于AR场景的虚拟对象，所述虚拟对象在所述初始视频帧的渲染位置基于所述虚拟对象的运动状态而确定；

选取模块52，用于：从所述合成视频帧序列中选取满足预设剪辑条件的视频帧，所述预设剪辑条件包括：合成视频帧中虚拟对象的运动状态与预设标记状态匹配；

生成模块53，用于：利用所选取的合成视频帧生成剪辑后的视频数据。可选的，所述虚拟对象的运动状态基于从所述初始视频帧识别出的人脸特征而确定。

可选的，所述人脸特征包括嘴部特征。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应地，本申请实施例还提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

利用所选取的合成视频帧生成剪辑后的视频数据。

相应地，本申请实施例还提供一种计算机存储介质，所述存储介质中存储有程序指令，所述程序指令包括：

利用所选取的合成视频帧生成剪辑后的视频数据。

本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

获取合成视频帧序列，所述合成视频帧包括初始视频帧，以及渲染在所述初始视频帧上的基于AR场景的虚拟对象，所述虚拟对象在所述初始视频帧的渲染位置基于所述虚拟对象的运动状态而确定；所述虚拟对象的运动状态通过预先配置的运动状态计算函数计算得到；

以所述虚拟对象的运动状态为剪辑条件，从所述合成视频帧序列中选取满足所述剪辑条件的视频帧，其中，所选取的合成视频帧中虚拟对象的运动状态与预设标记状态匹配；

利用所选取的合成视频帧生成剪辑后的视频数据。

2.根据权利要求1所述的方法，其特征在于，所述运动状态计算函数中的运动参数基于从所述初始视频帧中识别出的人脸特征而确定。

3.根据权利要求2所述的方法，其特征在于，所述剪辑条件还包括：所述从所述初始视频帧中识别出的人脸特征与预设标记特征匹配。

4.根据权利要求1所述的方法，其特征在于，所述初始视频帧包括主播客户端实时采集的视频帧。

5.根据权利要求4所述的方法，其特征在于，所述主播客户端在直播过程中关联有一个或多个观众客户端，在所述观众客户端向所述主播客户端发送虚拟礼物的情况下，所述虚拟对象的运动状态还基于所述虚拟礼物的参数而确定。

6.根据权利要求1或5所述的方法，其特征在于，所述合成视频帧还包括渲染在所述初始视频帧上的特效数据，所述剪辑条件包括：渲染有所述特效数据的视频帧。

7.一种视频剪辑装置，其特征在于，所述装置包括：

获取模块，用于：获取合成视频帧序列，所述合成视频帧包括初始视频帧，以及渲染在所述初始视频帧上的基于AR场景的虚拟对象，所述虚拟对象在所述初始视频帧的渲染位置基于所述虚拟对象的运动状态而确定；所述虚拟对象的运动状态通过预先配置的运动状态计算函数计算得到；

选取模块，用于：以所述虚拟对象的运动状态为剪辑条件，从所述合成视频帧序列中选取满足所述剪辑条件的视频帧，其中，所选取的合成视频帧中虚拟对象的运动状态与预设标记状态匹配；

生成模块，用于：利用所选取的合成视频帧生成剪辑后的视频数据。

8.根据权利要求7所述的装置，其特征在于，所述虚拟对象的运动状态通过预先配置的运动状态计算函数计算得到，所述运动状态计算函数中的运动参数基于从所述初始视频帧中识别出的人脸特征而确定。

9.根据权利要求8所述的装置，其特征在于，所述初始视频帧包括主播客户端实时采集的视频帧。

10.根据权利要求9所述的装置，其特征在于，所述主播客户端在直播过程中关联有一个或多个观众客户端，在所述观众客户端向所述主播客户端发送虚拟礼物的情况下，所述虚拟对象的运动状态还基于所述虚拟礼物的参数而确定。