CN112528936B

CN112528936B - 视频序列编排方法、装置、电子设备及存储介质

Info

Publication number: CN112528936B
Application number: CN202011529093.9A
Authority: CN
Inventors: 赵亚飞; 张世昌; 郭紫垣; 陈超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-02-06
Anticipated expiration: 2040-12-22
Also published as: EP4016529A1; US11521653B2; JP2021177647A; JP7273901B2; US20220093133A1; CN112528936A

Abstract

本公开提供了一种视频序列编排方法、装置、电子设备及存储介质，涉及深度学习、虚拟现实、云计算、视频编排处理等领域。具体实现方案为：获取第一视频序列，所述第一视频序列包括用于描述人体第一姿态的主序列、及用于描述人体多种第二姿态的从序列；从所述第一视频序列中提取所述主序列及所述从序列；检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列；其中，所述排序标识帧包括反向帧、跳转帧、过渡帧中的至少一种。采用本公开，可以提高视频编排的多样化。

Description

视频序列编排方法、装置、电子设备及存储介质

技术领域

本公开涉及信息处理领域。本公开尤其涉及深度学习、虚拟现实、云计算、视频编排处理等领域。

背景技术

随着计算机技术的发展，诸如人工智能、深度学习、虚拟现实、云计算等技术大量应用于用户的生活中，在直播、短视频、线上培训等各种应用场景中起到与用户互动的作用。在这些场景中，可以采用虚拟人物(2D或3D)来替代真实人物，或者将该虚拟人物配合真实人物一起录制视频。

便携设备、手机终端等电子设备相比以往更加智能化，芯片的解析能力更强，尤其对视频信息的解析、画面渲染等比以往更快、更清晰，使得用户对视频信息的需求日益提高，所录制视频是否多样化会直接影响到用户的互动体验，所录制视频的多样化也可以丰富视频内容。然而，相关技术中，对如何提高视频的多样化，未存在有效的解决方案。

发明内容

本公开提供了一种视频序列编排方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种视频序列编排方法，包括：

获取第一视频序列，所述第一视频序列包括用于描述人体第一姿态的主序列、及用于描述人体多种第二姿态的从序列；

从所述第一视频序列中提取所述主序列及所述从序列；

检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列；

其中，所述排序标识帧包括反向帧、跳转帧、过渡帧中的至少一种。

根据本公开的另一方面，提供了一种视频序列编排装置，包括：

视频获取模块，用于获取第一视频序列，所述第一视频序列包括用于描述人体第一姿态的主序列、及用于描述人体多种第二姿态的从序列；

视频提取模块，用于从所述第一视频序列中提取所述主序列及所述从序列；

视频编排模块，用于检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列；

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。

本公开中，可以获取第一视频序列，所述第一视频序列包括用于描述人体第一姿态的主序列、及用于描述人体多种第二姿态的从序列。从所述第一视频序列中提取所述主序列及所述从序列，检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列；其中，所述排序标识帧包括反向帧、跳转帧、过渡帧中的至少一种。采用本公开，可以提高视频编排的多样化。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是相关技术中用于生成虚拟人物的底版视频序列的单向播放示意图；

图2是相关技术中用于生成虚拟人物的底版视频序列的双向循环播放示意图；

图3为本公开实施例的主序列的示意图；

图4为本公开实施例的从序列的示意图；

图5是根据本公开实施例的视频序列编排方法的流程示意图；

图6是根据本公开实施例的生成2D数字人视频画面的示意图；

图7是根据本公开实施例的底版视频序列的编排播放示意图；

图8是根据本公开实施例的两个底版视频主序列的编排播放示意图；

图9是根据本公开实施例的三个底版视频主序列的编排播放示意图；

图10是根据本公开实施例的一主一从序列之间的编排播放示意图；

图11是根据本公开实施例的一主多从序列之间的编排播放示意图；

图12是根据本公开实施例的生成过渡帧的示意图；

图13是根据本公开实施例的视频序列编排装置的组成结构示意图；

图14是用来实现本公开实施例的视频序列编排方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

在直播、短视频、线上培训等各种应用场景中，以虚拟人物(2D或3D)来替代真实人物，或者将该虚拟人物配合真实人物一起录制视频的场景为例，可以利用深度学习等技术生成该虚拟人物，比如，输入语音到深度学习模型中，可以生成该虚拟人物的面部区域，且虚拟人物面部区域的动作(含口型动作、表情动作等)与该语音在节奏及语义内容等上保持一致，从而得到虚拟人物讲述该语音内容的视频画面。该视频画面中，面部以外的身体部分的动作则来自于事先录制好的底版视频。

图1是相关技术中用于生成虚拟人物的底版视频序列的单向播放示意图，如图1所示，底版视频序列中的多个视频帧为单向播放状态，即正向播放，以录制得到该底版视频。图2是相关技术中用于生成虚拟人物的底版视频序列的双向循环播放示意图，如图2所示，底版视频序列中的多个视频帧可以正向播放，也可以根据图2中三角形所标识的帧“N₀”反向播放，实现双向循环播放，以录制得到该底版视频。其中，图1-图2分别展示了视频第0、1、2、3、4、5秒钟的视频画面。

该底版视频的长度和内容在录制结束后很难更改，将该底版视频应用于上述生成虚拟人物的过程中，所得到的虚拟人物的视频画面长度受限，内容单一。

采用本公开，可以根据排序标识帧(反向帧、跳转帧、过渡帧中的至少一种标识帧)，将初始视频帧(由主序列和/或从序列构成的视频帧)中提取的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为新的视频序列，该新的视频序列的长度，在随机混排处理过程中可以根据用户需求来调整，长度不受限；该新的视频序列的内容具备更多随机性，呈现多样化。

本公开涉及的技术用语描述如下：

1)主动作序列(简称主序列)：为虚拟人物在闲置状态下的动作视频序列。图3为本公开实施例的主序列的示意图，如图3所示，整个主动作序列当中虚拟人物基本保持同一个姿势，只有轻微的动作。

2)从动作序列(简称从序列)：与主序列相匹配的序列，图4为本公开实施例的从序列的示意图，如图4所示，在该类从序列中虚拟人物从主动作序列中的姿势开始，做出大幅度的动作(比如挥手、左右伸手等)，然后把手放回原来的位置，回到主序列的姿势。

3)反向帧：如图2所示的三角形所标识的帧“N₀”，作为反向帧可以反向播放。当然，该帧处也可以正向播放，只是说该帧作为反向帧具备反向播放的能力。

4)跳转帧：跳转帧可以是主序列的任意一帧，或者从序列的起始帧(第一帧)和结束帧(最后一帧)，跳转帧用来实现不同动作序列之间的跳转播放。

5)过渡帧：过渡帧为两个不同序列的跳转帧之间通过内插算法或神经网络模型所生成的内插帧。

根据本公开的实施例，提供了一种视频序列编排方法，图5是根据本公开实施例的视频序列编排方法的流程示意图，该方法可以应用于视频序列编排装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行视频帧提取、视频帧进行随机混排等等。其中，终端可以为用户设备(UE，User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图5所示，包括：

S101、获取第一视频序列，所述第一视频序列包括用于描述人体第一姿态的主序列、及用于描述人体多种第二姿态的从序列。

S102、从所述第一视频序列中提取所述主序列及所述从序列。

S103、检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列。其中，所述排序标识帧包括反向帧、跳转帧、过渡帧中的至少一种。

基于S101-S103的一示例中，针对构成第一视频序列的主动作序列(简称主序列)及从动作序列(简称从序列)，可以加入随机混排处理，从而，可以基于排序标识帧(反向帧、跳转帧、过渡帧等)将该主序列及该从序列中的视频帧进行随机混排处理，即切换所述视频帧的播放顺序，或者在多个序列间切换(如至少两个主序列之间切换，至少两个主序列与从序列之间切换等)，将随机混排处理得到的排序组合作为第二视频序列。由于该第二视频序列的长度、视频帧的编排可以基于任意短时长的第一视频序列生成，因此，采用本示例，可以得到任意时长、任意播放顺序的多种视频序列的排序组合，也就是说，第二视频序列不限制于第一视频序列的固定长度，比如30分钟播放时长的第一视频序列，可以根据需要生成60分钟或者更多播放时长的第二视频序列。第二视频序列不限制于第一视频序列的正向播放或反向播放顺序，还可以在第一视频序列的各个序列(主序列及从序列)或某个序列的视频帧间进行跳转或过渡，可以根据需要生成更多视频帧随机混排的第二视频序列，增加了视频帧编排的随机性。

采用本公开，可以获取第一视频序列，所述第一视频序列包括用于描述人体第一姿态的主序列、及用于描述人体多种第二姿态的从序列。从所述第一视频序列中提取所述主序列及所述从序列，检测到所述第一视频序列中存在排序标识帧的情况下，可以根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，如根据反向帧进行视频帧的反向播放，根据跳转帧从一个序列切换到其他的不同序列，根据跳转帧触发切换到其他的不同序列，还可以根据过渡帧进一步切换到序列中具体的指定帧，从而将随机混排处理得到的这些任意排序组合作为第二视频序列，可以增加视频帧的随机性，提高视频编排的多样化，且视频长度可以根据用户需求来编排，长度不受限。

本公开可以适应于将有限个数的视频序列组合出更加丰富多样的视频序列的各种应用场景中，不限于直播、短视频、线上培训等场景中采用虚拟人物(2D或3D)来替代或模拟真实人物的场景。

图6是根据本公开实施例的生成2D数字人视频画面的示意图，将本公开随机混排得到的第二视频序列，应用于虚拟人物(如2D数字人)生成的场景中，可以根据输入语音得到2D数字人的面部区域，将该第二视频序列作为底版视频，通过2D数字人的面部区域结合该底版视频中除面部区域其他部分动作得到包含该2D数字人的视频画面，增加了2D数字人的真实性，更自然，接近于真实的人，具体包括如下内容：

一、通过深度学习技术，可以输入语音(如通过语音合成技术TTS生成)至神经网络模型(如人脸生成模型)中以生成2D人脸(包含面部区域)，该2D人脸为与输入语音在内容(如节奏、语义等)匹配一致的面部图片(含口型和表情)。

其中，2D数字人的形象可以自定义设计(即虚拟人物)，也可以来自真实的人物A，且生成针对该人物A讲述语音内容的视频画面，能够控制画面中的人物A说出并非其本人真实讲话的画面，并且能够做到语音(节奏、语义内容)和人脸面部动作(含口型动作、表情动作)的一致性。

若输入的语音不来自人物A的真实语音，其语音采集方式可以包括：1)通过语音合成技术(TTS)生成的接近人物A讲话的语音；2)另外的人物B的语音；3)通过TTS生成的其他语音(不一定对应真实的人，可以是模拟动画配音等)。

二、将该2D人脸与身体其他部分相匹配的过程中，可以从已有的底版视频中提取。针对底版视频而言，可以读取上述第二视频序列(即对第一视频序列经上述视频编排得到的第二视频序列，并将其作为该底版视频)，根据该第二视频序列得到该底版视频，对该底版视频的每一帧解码，得到多个底版帧，对每一个底版帧做处理后输出两路信息。

其中，第一路信息，是截取的面部区域(即输入该人脸生成模型所得到的2D人脸)；第二路信息，是对每一个底版帧的面部区域加了蒙版处理后，得到的蒙版遮蔽底版帧。最终，将生成的该2D人脸与该蒙版遮蔽底版帧在经过对齐、融合之后拼接成输出视频帧，以直接进行播放展示或者压缩编码之后传输到网络上进行播放。由于根据需要生成的第二视频序列，增加了视频帧长度的不受限及编排的随机性，则根据该第二视频序列得到的该底版视频在长度及视频编排上更随机，因此，使得生成的2D数字人更加自然，接近于真实的人，也极大的提高了2D数字人的灵活性、动作的丰富度和可控性。

上述2D数字人可以应用于各种应用场景，包括但不限于：1)用于新闻播报、有声读物朗读、视频直播的虚拟主播；2)用于客服的数字助手；3)用于教育培训的虚拟老师等。

上述2D数字人训练完成、部署上线后应用到上述应用场景中，由于面部动作是通过人脸生成模型从语音信号生成的，面部以外的身体部分的动作则来自于事先录制好的底版视频。在数字人展示的整个过程当中会从底版视频里面逐帧抽取，然后在该帧基础上生成输入语音对应的2D人脸，因此，底版视频编排的优劣决定了2D数字人整体的形象、动作的真实性及多样性。

底版视频的长度和内容一般在录制训练素材的时候同步录制，训练完成之后很难更改。对于需要长时展示的数字人，需要能够长时连续播放的底版视频，但在具体应用下很难确定多长时间的底版视频才是够用的。同时连续底版视频里面的动作也只能是幅度比较小的身体动作，才能避免语音内容跟动作画面不会出现严重的违和感(比如在介绍产品时做出“挥手再见”的动作)。视频录制完之后在播放时为保证视频内动作的时序一致性，就必须按照时间顺序正向播放或者反向播放，不能在打乱帧之间的前后顺序，所以2D数字人底版帧的读取顺序(或称播放顺序)，若采用如图1所示的单向顺序播放、或者如图2所示的双向循环播放都不够自然、且模式单一。

其中，单向顺序播放，是根据底版帧本身录制时候的时间轴方向进行播放，从第一帧播放到最后一帧，然后结束。这要求在做长时间展示的时候需要录制长时间的底版视频，比如，播放半个小时就需要事先录制时长为半个小时的底版视频，如果录制的底版时长小于半个小时就无法完成半个小时的播放展示。而本公开中，可以对第一视频序列经上述视频编排得到第二视频序列，并将该第二视频帧作为该底版视频，由于可以根据排序标识帧(反向帧、跳转帧、过渡帧等)进行随机混排，因此，可以利用短时连续的底版视频生成任意时长的底版视频，因此，不受时长的限制。

双向循环播放，是从底版帧的第一帧正向播放到最后一帧(N₀帧)之后再反向播放回去(三角形表示最后一帧为反向帧)，这样，正向及反向构成的双向循环播放，就可以产生任意时长的底版帧。但是，这也要求底版帧的时长也要足够长，以避免用户发现这种“循环往复”的播放模式，这种“循环往复”的播放模式会使用户加深对所生成2D数字人“单调、不真实”的观感。因此，有必要实现打破这种“循环播放”感受的编排播放模式，以带来“随机自然”的感受。而本公开中，不仅通过随机混排生成任意时长的底版视频，而且，在两个或多个非连续底版视频(主序列和/或从序列)之间进行切换编排，以便利用随机信号在特定时刻触发相应的比较大动作幅度的视频画面。

一实施方式中，还包括：根据所述反向帧，调整所述第一视频序列中所述视频帧的播放顺序；其中，所述反向帧包括：除所述第一视频序列中起始帧(如第一帧)之外的其他视频帧。采用本实施方式，可以根据反向帧调整播放顺序，根据该反向帧得到新的顺序组合，从而，实现了利用短时连续的第一视频序列生成任意时长的第二视频序列。

一实施方式中，还包括：根据所述跳转帧和/或过渡帧，连接所述第一视频序列中的所述视频帧；其中，所述第一视频序列包括所述主序列的情况下，所述跳转帧为所述主序列中的任意视频帧；所述第一视频序列包括所述从序列的情况下，所述跳转帧为所述从序列的起始帧(如第一帧)及结束帧(如最后一帧)。所述第一视频序列中包括不同主序列和/或不同从序列的情况下，所述过渡帧为：根据在所述不同主序列和/或所述不同从序列间切换的至少一个所述跳转帧得到的内插帧。采用本实施方式，可以根据主序列及从序列中的跳转帧进行不同序列(主序列与其他主序列之间的切换、主序列与从序列之间的切换、从序列与其他从序列之间的切换等)间的精准切换，以及跳转帧进一步与过渡帧结合，得到切换到具体帧的更为精确的切换效果。

一实施方式中，所述检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列，包括：将所述第一视频序列中的所述视频帧进行正向播放；检测到所述排序标识帧为所述反向帧，根据第一随机信号进行所述视频帧的反向播放；将根据所述视频帧的正向播放及反向播放得到的排序组合，作为所述第二视频序列。

一示例中，可以获取作为该第一视频序列的主序列和/或从序列；其中，主序列中，除起始帧(如第一帧)之外的其他视频帧，都可以作为反向帧。从序列中，除起始帧(如第一帧)之外的其他视频帧，也都可以作为反向帧。

本示例可以应用于2D数字人生成的场景，在进行视频序列编排的过程中，可以从第一帧开始以正向顺序来播放该第一视频序列(如主序列和/或从序列构成的视频序列)，播放到该第一视频序列中间某一帧的情况下，若收到第一随机信号(用于触发正向播放或反向播放)，则响应于该第一随机信号，第一随机信号用于触发正向播放的情况下，继续从该中间帧执行正向播放；第一随机信号用于触发反向播放的情况下，第一视频序列中存在的排序标识帧为反向帧，则播放至该反向帧后再执行反向播放，或者，该中间帧为反向帧，则从该中间帧执行反向播放。将根据所述视频帧的正向播放及反向播放得到的排序组合，作为上述第二视频序列。

采用本示例，通过引入上述基于反向帧的随机决策，可以利用较短的第一视频序列产生任意时长的播放序列，同时也一定程度上增加了序列顺序组合的随机性。以2D数字人生成的场景为例，第一视频序列即为底版视频，通过在底版视频的面部区域增加蒙版来遮蔽，得到蒙版遮蔽底版帧，将生成的目标人脸(输入语音至神经网络模型所得到的2D人脸图片，该2D人脸包含的口型和表情与输入语音在内容，如节奏、语义等相匹配)与该蒙版遮蔽的底版帧在经过对齐、融合之后拼接成输出视频帧，以直接进行播放，或者传输到网络上进行播放等。由于底版视频的长度及视频编排更随机，因此，使得生成的2D数字人更加自然。

一实施方式中，所述检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列，包括：获取所述第一视频序列中的第一主序列；检测到所述第一主序列的所述排序标识帧为所述跳转帧，根据第二随机信号进行所述第一主序列中视频帧的跳转播放，并切换到除所述第一主序列之外的其他主序列；将根据所述第一主序列及所述其他主序列得到的排序组合，作为所述第二视频序列。

一示例中，在主序列与主序列之间切换，可以先读取第一视频序列中的第一主序列，当读到第一主序列的某个跳转帧时，收到第二随机信号(用于触发到该其他主序列的跳转播放)，则响应于该第二随机信号，在第二随机信号用于触发到其他主序列跳转播放的情况下，跳转到该其他主序列(该其他主序列可以为一个或多个)，循环往复，直至根据该跳转帧得到新的序列顺序组合。

一实施方式中，两个主序列的情况下，所述其他主序列为一个第二主序列的情况下，还包括：检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第三随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第一主序列。采用本实施方式，可以根据跳转帧在两个主序列间执行切换，得到更多序列的顺序组合，且可以实现精准的切换。

一实施方式中，多个主序列的情况下，所述其他主序列为多个主序列，如包括第二主序列、第三序列、…、第i序列的情况下，i为大于3的正整数，还包括：检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第四随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第二主序列、所述第三序列、…、所述第i序列中的对应序列；在所述第二主序列、所述第三序列、…、所述第i序列中进行跳转播放，或者，在所述第二主序列、所述第三序列、…、所述第i序列中进行跳转播放后切换回所述第一主序列。采用本实施方式，可以根据跳转帧在多个主序列间执行切换，得到更多序列的顺序组合，且可以实现精准的切换。

一实施方式中，所述检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列，包括：获取所述第一视频序列中的第一主序列及第一从序列；检测到所述第一主序列的所述排序标识帧为所述跳转帧，根据第五随机信号进行所述第一主序列中视频帧的跳转播放，并切换到所述第一从序列；将所述第一从序列中的视频帧进行正向播放，直至播放至述第一从序列的结束帧；将所述结束帧作为跳转帧，并切换回所述第一主序列，或者，将所述结束帧作为跳转帧，结合所述排序标识帧为所述过渡帧的情况，根据所述跳转帧触发跳转播放后，根据所述过渡帧切换回所述第一主序列中的指定帧。

一示例中，可以先读取第一视频序列中的第一主序列，当读到第一主序列的某个跳转帧时，收到第五随机信号(用于触发到从序列的跳转播放)，则响应于该第五随机信号，在第五随机信号用于触发到从序列跳转播放的情况下，跳转到一个或多个从序列；循环往复，直至根据该跳转帧得到新的序列顺序组合。其中，从序列只有第一帧和最后一帧才能作为跳转帧，且从序列的播放可以为正向播放且不能被打断。

上述示例，是从主序列切换到从序列，也可以是从序列切换到主序列，不做赘述。

一实施方式中，在主序列与从序列之间的切换，所述第一主序列为一个或多个，第一从序列为一个或多个。可以根据所述第一主序列及第一从序列之间，不同序列的一主一从编排播放模式、不同序列的一主多从编排播放模式、不同序列的多主多从编排播放模式的至少一种模式进行所述跳转播放。采用本实施方式，可以采用多种编排播放模式(“一主一从”、“一主多从”及“多主多从”)及跳转帧进行不同序列间的切换，得到更多序列的顺序组合，且可以实现精准的切换。

应用示例：

应用本公开实施例一处理流程包括如下内容：

一、利用短时连续的底版视频生成任意时长的底版视频

图7是根据本公开实施例的底版视频序列的编排播放示意图，如图7所示，编排播放可以在如图2所示的双向循环播放之上，增加更多的反向帧，除第一帧之外的所有帧都可以作为反向帧，在2D数字人生成的过程中，根据如图7所示的编排播放模式(即每一帧可以根据需要或者随机确定是正向播放还是反向播放)，从第一帧开始顺序播放，播放到中间的某一帧，比如第10帧时，可以随机判定接下来是继续正向播放还是反向播放。通过引入这种随机决策，可以利用较短的底版视频产生任意时长的播放序列，同时也一定程度上增加了序列顺序组合的随机性。

二、两个或多个非连续底版视频之间进行切换编排

1、两个主序列之间的编排播放

图8是根据本公开实施例的两个底版视频主序列的编排播放示意图，如图8所示，为了丰富底版序列播放时的随机性，可以采用两个主序列，每个主序列支持如图7所示的编排播放模式(每一帧可以根据需要或者随机确定是正向播放还是反向播放)，除此之外，两个主序列之间可以通过跳转帧和过渡帧实现互相之间的切换。每个主序列的每一帧都可以作为跳转帧，当然也可以根据实际应用需求可以每隔几帧(如图8里为每隔3帧)设置一个跳转帧，或者自定义跳转帧之间的间隔。

上述两个主序列之间的编排播放，包括：1)在生成2D数字人时，先读取主序列#1，读取顺序参考如图7所示的编排播放，当读到某个跳转帧时，可以通过随机触发或者外部信号触发，来决定是否跳转到主序列#2；2)跳转到主序列#2之后也是采用编排播放的形式来读取，然后有随机触发或者外部信号触发决定是否跳转到主序列#1；3)如此循环往复，可以利用两个主序列产生更加丰富的播放顺序。

2、多个主序列之间的编排播放

图9是根据本公开实施例的三个底版视频主序列的编排播放示意图，如图9所示，在上述图8所示的两个主序列之间的编排播放基础至少可以增加更多的主序列，做成3个(如图9所示)或者更多的主序列之间的编排播放。

多个主序列之间的编排播放，包括：1)在生成2D数字人时，先读取主序列#1，读取顺序参考如图7里的编排播放，当读到某个跳转帧时，可以通过随机触发或者外部信号触发，来决定是否跳转到主序列#2或主序列#3或其他主序列；2)假设跳转到主序列#2，对主序列#2也是采用编排播放的形式来读取，然后有随机触发或者外部信号触发决定是否跳转到主序列#1或者主序列#3或者其他主序列；3)如此循环往复，可以利用多个主序列产生更加丰富的播放顺序。

需要指出的是：在主序列#2和主序列#3之间也存在上述同样的跳转播放(如图9所示)，为简洁起见，在图9中未画出主序列#2和主序列#3之间的跳转播放。

3、“一主一从”序列之间的编排播放

主序列的每一帧都可以作为跳转帧，而从序列只有第一帧和最后一帧才能作为跳转帧，为了更好的切换，可以设置从序列的播放只能是正向播放，且不能被打断。

图10是根据本公开实施例的一主一从序列之间的编排播放示意图，如图10所示，“一主一从”两个序列之间的编排播放包括：1)在生成2D数字人时，先读取主序列，读取顺序参考如图7所示的编排播放，当读到某个跳转帧时，可以通过随机触发或者外部信号触发，来决定是否跳转到从序列；2)假设跳转到了从序列，则对从序列采用正向顺序播放的形式来读取，直到播放到最后一帧，在基于过渡帧切换回到主序列的某个跳转帧；3)回到主序列之后再执行第1)步，如此循环往复，可以利用“一主一从”两个序列产生更加丰富的播放顺序。

4、“一主多从”序列之间的编排播放

图11是根据本公开实施例的一主多从序列之间的编排播放示意图，如图11所示，在图10所示的“一主一从”的编排播放基础上，可以增加更多的从序列，完成“一主多从”序列之间的编排播放。“一主多从”两个序列之间的编排播放包括：1)在生成2D数字人时，先读取主序列，读取顺序参考如图7所示的编排播放，当读到某个跳转帧时，可以通过随机触发或者外部信号触发，来决定是否跳转到从序列#1还从序列#2或是其他从序列；2)假设跳转到了从序列#1，则对从序列采用正向顺序播放的形式来读取，直到播放到最后一帧，在基于过渡帧切换回到主序列的某个跳转帧；3)回到主序列之后再执行第第1)步，如此循环往复，可以利用“一主多从”的方式实现主序列到更多大幅度动作的跳转播放，实现动作的编排控制。

需要指出的是：主序列和两个从序列之间，可以通过跳转帧和过渡帧可以连起来播放，两个从序列之间不能跳转播放。

5、“多主多从”序列之间的编排播放

在如图11所示的“一主多从”序列播放中增加主序列#2，主序列#3等等，可以构成“多主多从”序列之间的编排播放，主序列与主序列之间的切换(参考图8)、主序列和从序列之间的切换(参考图10)都可以通过跳转帧和过渡帧连起来播放，可以实现更加丰富的播放顺序和动作编排控制。整个跳转关系较为复杂，这里不再给出示意图。

三、在两个非连续视频之间跳转，以生成两个非连续视频之间跳转所需的过渡帧

图12是根据本公开实施例的生成过渡帧的示意图，如图12所示，可以基于深度学习算法得到的训练后模型(光流内插模型)来生成该过渡帧，包括：1)利用底版数据或者更多的视频数据通过降采样抽帧的方式制作训练数据及目标光流数据，来训练该光流内插模型；2)将来自不同动作序列的两个跳转帧输入到训练好的光流内插模型，生成内插的光流序列；3)将两个跳转帧和生成的内插光流序列一起输入图像合成模块，最终产生内插图像序列(即为该两个跳转帧之间的过渡帧)。

根据本公开的实施例，提供了一种视频序列编排装置，图13是根据本公开实施例的视频序列编排装置的组成结构示意图，如图13所示，包括：视频获取模块41，用于获取第一视频序列，所述第一视频序列包括用于描述人体第一姿态的主序列、及用于描述人体多种第二姿态的从序列；视频提取模块42，用于从所述第一视频序列中提取所述主序列及所述从序列；视频编排模块43，用于检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列。其中，所述排序标识帧包括反向帧、跳转帧、过渡帧中的至少一种。

一实施方式中，还包括播放顺序调整模块，用于根据所述反向帧，调整所述第一视频序列中所述视频帧的播放顺序；其中，所述反向帧包括：除所述第一视频序列中起始帧之外的其他视频帧。

一实施方式中，还包括视频帧连接模块，用于根据所述跳转帧和/或过渡帧，连接所述第一视频序列中的所述视频帧；其中，所述第一视频序列包括所述主序列的情况下，所述跳转帧为所述主序列中的任意视频帧；所述第一视频序列包括所述从序列的情况下，所述跳转帧为所述从序列的起始帧及结束帧；所述第一视频序列中包括不同主序列和/或不同从序列的情况下，所述过渡帧为：根据在所述不同主序列和/或所述不同从序列间切换的至少一个所述跳转帧得到的内插帧。

一实施方式中，所述视频编排模块，用于将所述第一视频序列中的所述视频帧进行正向播放；检测到所述排序标识帧为所述反向帧，根据第一随机信号进行所述视频帧的反向播放；将根据所述视频帧的正向播放及反向播放得到的排序组合，作为所述第二视频序列。

一实施方式中，所述视频编排模块，用于获取所述第一视频序列中的第一主序列；检测到所述第一主序列的所述排序标识帧为所述跳转帧，根据第二随机信号进行所述第一主序列中视频帧的跳转播放，并切换到除所述第一主序列之外的其他主序列；将根据所述第一主序列及所述其他主序列得到的排序组合，作为所述第二视频序列。

一实施方式中，所述视频编排模块，还用于所述其他主序列为第二主序列的情况下，检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第三随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第一主序列。

一实施方式中，所述视频编排模块，还用于所述其他主序列为第二主序列、第三序列、…、第i序列的情况下，i为大于3的正整数，检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第四随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第二主序列、所述第三序列、…、所述第i序列中的对应序列；在所述第二主序列、所述第三序列、…、所述第i序列中进行跳转播放，或者，在所述第二主序列、所述第三序列、…、所述第i序列中进行跳转播放后切换回所述第一主序列。

一实施方式中，所述视频编排模块，用于获取所述第一视频序列中的第一主序列及第一从序列；检测到所述第一主序列的所述排序标识帧为所述跳转帧，根据第五随机信号进行所述第一主序列中视频帧的跳转播放，并切换到所述第一从序列；将所述第一从序列中的视频帧进行正向播放，直至播放至述第一从序列的结束帧；将所述结束帧作为跳转帧，并切换回所述第一主序列，或者，将所述结束帧作为跳转帧，结合所述排序标识帧为所述过渡帧的情况，根据所述跳转帧触发跳转播放后，根据所述过渡帧切换回所述第一主序列中的指定帧。

一实施方式中，所述第一主序列为一个或多个，第一从序列为一个或多个；所述视频编排模块，还用于根据所述第一主序列及第一从序列之间不同序列的一主一从编排播放模式、不同序列的一主多从编排播放模式、不同序列的多主多从编排播放模式的至少一种模式进行所述跳转播放。

本公开实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质和一种计算机程序产品。

如图14所示，是用来实现本公开实施例的视频序列编排方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图14所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如视频序列编排方法。例如，在一些实施例中，视频序列编排方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的视频序列编排方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频序列编排方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频序列编排方法，所述方法包括：

从所述第一视频序列中提取所述主序列及所述从序列；

其中，所述排序标识帧包括反向帧、跳转帧、过渡帧中的至少一种；

根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，包括：响应于随机信号，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行以下之一播放：正向播放、反向播放或者跳转播放。

2.根据权利要求1所述的方法，还包括：

根据所述反向帧，调整所述第一视频序列中所述视频帧的播放顺序；其中，

所述反向帧包括：除所述第一视频序列中起始帧之外的其他视频帧。

3.根据权利要求1所述的方法，还包括：

根据所述跳转帧和/或过渡帧，连接所述第一视频序列中的所述视频帧；其中，

所述第一视频序列包括所述主序列的情况下，所述跳转帧为所述主序列中的任意视频帧；

所述第一视频序列包括所述从序列的情况下，所述跳转帧为所述从序列的起始帧及结束帧；

所述第一视频序列中包括不同主序列和/或不同从序列的情况下，所述过渡帧为：根据在所述不同主序列和/或所述不同从序列间切换的至少一个所述跳转帧得到的内插帧。

4.根据权利要求1至3中任一项所述的方法，所述检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列，包括：

将所述第一视频序列中的所述视频帧进行正向播放；

检测到所述排序标识帧为所述反向帧，根据第一随机信号进行所述视频帧的反向播放；

将根据所述视频帧的正向播放及反向播放得到的排序组合，作为所述第二视频序列。

5.根据权利要求1至3中任一项所述的方法，所述检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列，包括：

获取所述第一视频序列中的第一主序列；

检测到所述第一主序列的所述排序标识帧为所述跳转帧，根据第二随机信号进行所述第一主序列中视频帧的跳转播放，并切换到除所述第一主序列之外的其他主序列；

将根据所述第一主序列及所述其他主序列得到的排序组合，作为所述第二视频序列。

6.根据权利要求5所述的方法，其中，所述其他主序列为第二主序列的情况下，还包括：

检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第三随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第一主序列。

7.根据权利要求5所述的方法，其中，所述其他主序列为第二主序列、第三序列、…、第i序列的情况下，i为大于3的正整数，还包括：

检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第四随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第二主序列、所述第三序列、…、所述第i序列中的对应序列；

在所述第二主序列、所述第三序列、…、所述第i序列中进行跳转播放，或者，在所述第二主序列、所述第三序列、…、所述第i序列中进行跳转播放后切换回所述第一主序列。

8.根据权利要求1至3中任一项所述的方法，所述检测到所述第一视频序列中存在排序标识帧的情况下，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行随机混排处理，将随机混排处理得到的排序组合作为第二视频序列，包括：

获取所述第一视频序列中的第一主序列及第一从序列；

检测到所述第一主序列的所述排序标识帧为所述跳转帧，根据第五随机信号进行所述第一主序列中视频帧的跳转播放，并切换到所述第一从序列；

将所述第一从序列中的视频帧进行正向播放，直至播放至述第一从序列的结束帧；

将所述结束帧作为跳转帧，并切换回所述第一主序列，或者，将所述结束帧作为跳转帧，结合所述排序标识帧为所述过渡帧的情况，根据所述跳转帧触发跳转播放后，根据所述过渡帧切换回所述第一主序列中的指定帧。

9.根据权利要求8所述的方法，其中，所述第一主序列为一个或多个，第一从序列为一个或多个；

根据所述第一主序列及第一从序列之间不同序列的一主一从编排播放模式、不同序列的一主多从编排播放模式、不同序列的多主多从编排播放模式的至少一种模式进行所述跳转播放。

10.一种视频序列编排装置，所述装置包括：

所述视频编排模块还用于：响应于随机信号，根据所述排序标识帧将所述主序列及所述从序列中的视频帧进行以下之一播放：正向播放、反向播放或者跳转播放。

11.根据权利要求10所述的装置，还包括播放顺序调整模块，用于：

12.根据权利要求10所述的装置，还包括视频帧连接模块，用于：

13.根据权利要求10至12中任一项所述的装置，所述视频编排模块，用于：

将所述第一视频序列中的所述视频帧进行正向播放；

14.根据权利要求10至12中任一项所述的装置，所述视频编排模块，用于：

获取所述第一视频序列中的第一主序列；

15.根据权利要求14所述的装置，其中，所述视频编排模块，还用于：

所述其他主序列为第二主序列的情况下，检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第三随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第一主序列。

16.根据权利要求14所述的装置，其中，所述视频编排模块，还用于：

所述其他主序列为第二主序列、第三序列、…、第i序列的情况下，i为大于3的正整数，检测到所述第二主序列的所述排序标识帧为所述跳转帧，根据第四随机信号进行所述第二主序列中视频帧的跳转播放，并切换到所述第二主序列、所述第三序列、…、所述第i序列中的对应序列；

17.根据权利要求10至12中任一项所述的装置，所述视频编排模块，用于：

获取所述第一视频序列中的第一主序列及第一从序列；

18.根据权利要求17所述的装置，其中，所述第一主序列为一个或多个，第一从序列为一个或多个；

所述视频编排模块，还用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行权利要求1-9中任一项所述的方法。