CN114900733A

CN114900733A - 一种视频生成方法、相关装置及存储介质

Info

Publication number: CN114900733A
Application number: CN202210461854.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-12
Anticipated expiration: 2042-04-28
Also published as: CN116801043A; CN114900733B; CN116801043B

Abstract

本申请实施例涉及音视频处理领域，提供一种视频生成方法、相关装置及存储介质，该方法包括：获得音频分片和至少两个视频分片；根据至少两个视频分片得到目标分片；利用音频分片驱动目标分片，得到经驱动的目标分片；其中，视频分片中的目标对象对对至少一种特定动作，至少两个视频分片中的目标对象对对不同的特定动作，目标分片中的目标对象对应至少两种特定动作，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一视频分片在第一播放时段的结束播放时刻与第二视频分片在第二播放时段的起始播放时刻相同。本方案能够提高合成视频中对象的动作丰富多样性和视频拼接处的图像连贯性和稳定性。

Description

一种视频生成方法、相关装置及存储介质

技术领域

本申请实施例涉及音视频处理技术领域，尤其涉及一种视频生成方法、相关装置及存储介质。

背景技术

相关技术中为了录制视频，可以通过拍摄装置对拍摄对象进行视频录制。例如，为了录制教师的教学视频，可以通过拍摄装置对教师的教学过程进行视频录制。但是，录制过程对拍摄对象、拍摄人员、拍摄器材和拍摄场地等的要求较高，导致录制成本较高。相关技术可以采用视频合成技术生成教学视频，来降低视频录制成本。

在对现有技术的研究和实践过程中，本申请实施例的发明人发现，为了提升视频中拍摄对象的真实度，可以采用包括拍摄对象的背景视频，以生成所需的视频。为了降低背景视频的拍摄难度和拍摄成本，可以拍摄播放时长较短的视频片段，然后通过视频片段拼接的方式生成所需背景视频。然而，拼接后的视频分片中对象的动作单一。此外，视频分片拼接处在进行播放时，展示效果较低，如容易出现图像抖动、图像跳变等。

发明内容

本申请实施例提供了一种视频生成方法、相关装置及存储介质，能够提高合成视频中对象的动作丰富多样性和视频拼接处的图像连贯性和稳定性。

第一方面中，本申请实施例提供的一种视频生成方法，该方法包括：获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长；根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长；利用音频分片驱动目标分片，得到经驱动的目标分片；其中，视频分片中的目标对象对应至少一种特定动作，至少两个视频分片中的目标对象对应不同的特定动作，目标分片中的目标对象对应至少两种特定动作，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一视频分片的第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二视频分片的第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一视频分片在第一播放时段的结束播放时刻与第二视频分片在第二播放时段的起始播放时刻相同。

一种可能的设计中，生成动作视频分片Vi针对动作视频分片Vj的补帧视频分片Bij可以包括如下操作：首先，获得动作视频分片Vi的最后一个视频帧和动作视频分片Vj的首个视频帧；然后，通过补帧算法得到动作视频分片Vi的最后一个视频帧和动作视频分片Vj的首个视频帧之间的多个补充视频帧，使得动作视频分片Vi的最后一个视频帧、动作视频分片Vj的首个视频帧以及两者之间无跳变帧∶接着，按照预设帧率组合多个补充视频帧，得到补帧视频分片Bij，补帧视频分片Bij的播放时长为指定时长。

一种可能的设计中，确定音频分片的各播放时段与至少两个视频分片各自之间的映射关系，包括：接收标定信息，标定信息包括音频分片的播放时段与视频分片之间的对应关系：基于标定信息确定音频分片的各播放时段与至少两个视频分片各自之间的映射关系。

一种可能的设计中，如果f2/f1是小数，并且

则第一播放时段的结束播放时刻的音频帧与第二播放时段的起始播放时刻的音频帧之间存在重叠；如果f2/f1是小数，并且

则第一播放时段的结束播放时刻的音频帧与第二播放时段的起始播放时刻的音频帧之间相互分离。

一种可能的设计中，根据至少两个视频分片得到目标分片，包括：对于至少两个视频分片中的每一个视频分片，对该视频分片进行抽帧，得到视频帧序列；按照预设的视频分片播放顺序对至少两个视频帧序列进行排序，得到经合并的视频帧序列；按照预设帧率对经合并的视频帧序列进行组合，生成目标分片。

一种可能的设计中，当补帧动作视频分片Vij中i和j的取值相同时，两个相邻的补帧动作视频分片Vij中的视频帧序列相互逆序排列。

一种可能的设计中，对于目标分片中的第P个视频帧，利用音频分片驱动目标分片，得到经驱动的目标分片可以包括：至少基于第Q×P个音频帧到第(Q×(P+1)-1)个音频帧的音频特征，调整目标分片中第P个视频帧的嘴部图像，得到经驱动的第P个视频帧，其中，P是大于或者等于0的整数，

为上取整，或者，

为下取整，f1是目标分片的帧率，f2是音频分片的帧率。

一种可能的设计中，上述方法还可以包括：输出音频和经驱动的目标分片，进行教学、引导中至少一种功能。

一种可能的设计中，第一视频分片在第一播放时段的视频帧与第二视频分片在第二播放时段的视频帧不同。

第二方面中，本申请实施例提供一种视频生成装置，具有实现对应于上述第一方面提供的视频生成方法的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。

第三方面中，本申请实施例提供一种视频处理装置，设置于服务器端和/或客户端中。

一种可能的设计中，上述装置包括：视频分片获得模块、目标分片获得模块和驱动模块。其中，视频分片获得模块用于获得至少两个视频分片；目标分片获得模块用于根据至少两个视频分片得到目标分片；驱动模块用于利用音频分片驱动目标分片，得到经驱动的目标分片。其中，视频分片中的目标对象对应至少一种特定动作，至少两个视频分片中的目标对象对应不同的特定动作，目标分片中的目标对象对应至少两种特定动作，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一视频分片的第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二视频分片的第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一视频分片在第一播放时段的结束播放时刻与第二视频分片在第二播放时段的起始播放时刻相同。

本申请实施例又一方面提供了一种视频处理装置，其包括至少一个连接的处理器、存储器和输入输出模块，其中，存储器用于存储计算机程序，处理器用于调用存储器中的计算机程序来执行上述第一方面、第一方面中的各种可能的设计中提供的方法。

本申请实施例又一方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面、第一方面中的各种可能的设计中提供的方法。

相较于现有技术，本申请实施例提供的方案中，采用至少两个视频分片生成目标分片，其中，两个视频分片各自可以包括针对目标对象的不同种类的特定动作的图像，使得生成的目标分片中可以包括与目标对象对应的至少两种特定动作，有效提升了目标分片中的目标对象的动作丰富性和多样性。此外，第一播放时段和第二播放时段中没有跳变的帧，有助于实现第一视频分片在第一播放时段以及第二视频分片在第二播放时段的播放图像的连贯性和稳定性较高。

附图说明

图1为本申请实施例提供的一种服务器示意图；

图2为本申请实施例提供的一种应用场景示意图；

图3为本申请实施例中视频生成方法的一种流程示意图；

图4为本申请实施例中动作视频分片、补帧视频分片和补帧动作视频分片的示意图∶

图5为本申请实施例中生成补帧动作视频分片的过程示意图；

图6为本申请实施例中基准动作、特定动作的示意图；

图7为本申请实施例中动作视频分片中视频帧的示意图；

图8为本申请实施例中补帧的示意图；

图9为本申请实施例中补帧的生成过程示意图；

图10为本申请实施例中音频分片和视频分片之间的对应关系的示意图；

图11为本申请实施例中一种截取多余音频分片的示意图∶

图12为本申请实施例中驱动视频图像的过程示意图；

图13为本申请实施例中输出经驱动的目标分片的示意图∶

图14为本申请实施例中执行视频生成方法的实体装置的一种结构示意图∶

图15为本申请实施例中服务器的一种结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

数字人技术需要使用不同的嘴形去同步不同的音频信息，以便生成逼真的数字人视频。具体地，需要将音频信号和数字人的口型之间建立起联系。例如，可以将音频特征(如音素、能量等)映射到视频特征(如嘴形特征)。人工智能(Artificial Intelligence，简称AI)可以自动学习音频特征和视频型特征之间的映射关系。例如，可以基于机器学习技术来构建音频特征和视频特征之间的映射关系。

为了提升数字人视频中的目标人的真实度，如提升授课老师的面容的真实还原度，可以采用包括目标人的背景视频生成数字人视频。数字人视频中音频的长度可以是由录制时长决定的，也可以是由特定文本的文本长度来决定的。音频的长度可以比较长，如40分钟、1小时或者更长等。为了保证背景视频的长度不短于音频的长度，以便合成数字人视频，在录制背景视频过程中需要目标人持续保持特定姿势。这种录制背景视频的方式给目标人带来了很大的身体和精神负担。此外，背景视频拍摄时对拍摄环境要求也较高，如尽量避免视频背景改变，需要租用的拍摄场地等的成本较高。

为了降低背景视频的拍摄难度和拍摄成本，可以拍摄长度较短的视频片段，如播放时长10秒、30秒、1分钟、3分钟或者10分钟等，然后通过视频片段拼接的方式生成所需背景视频。然而，不同的视频分片中人物的姿态可能不同，尤其是待拼接的当前视频分片的结束时段和下一视频分片的开始时段的拍摄对象的姿态不同，导致不便于进行视频频拼接。此外，背景视频中目标人的姿态不可避免的会发生改变(如轻微的晃动等)，拼接后的视频片段在进行播放时，拼接处的视频展示效果较差，如容易出现图像抖动、图像跳变等。

本申请实施例供了一种视频生成方法、相关装置及存储介质，可用于服务器或者终端设备。通过对视频分片中目标对象的姿态等进行限定，并且借助补帧等方式，能够有效减少因视频分片拼接，导致拼接处展示效果不满足用户需求的缺陷。

本申请实施例的方案可基于云技术和人工智能技术等来实现，具体来说涉及云技术中的云计算、云存储和数据库等技术领域，下面将分别进行介绍。

图1为本申请实施例提供的一种服务器示意图。需要注意的是，图1所示仅为可以应用本申请实施例的系统架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。

参见图1，根据本实施例的系统架构100可以包括多个服务器101、102、103。其中，不同的服务器101、102、103各自可以提供不同种类的服务。例如，服务器101可以提供文字识别服务，服务器102可以提供语音合成服务，服务器103可以提供图像处理服务。

例如，服务器101可以将从图像中识别的文字发送给服务器102，以便合成与文字对应的音频分片。服务器103可以对接收的视频分片进行图像处理。如服务器103可以接收至少两个视频分片，并且根据至少两个视频分片得到目标分片。此外，服务器103还可以生成针对动作视频分片和动作视频分片的补帧视频分片，以降低视频分片拼接处的图像跳变等问题。另外，利用接收的音频分片驱动目标分片，得到经驱动的目标分片等功能。服务器103还可以发送经驱动的目标分片、生成的嘴部图像、经驱动的视频帧等给终端设备，以便在终端设备上展示上述信息。例如，终端设备上可以展示经驱动的视频，实现视频教学等。例如，服务器103可以为后台管理服务器、服务器集群、云服务器等。

云服务器能够实现云计算(cloud computing)，云技术指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

例如，云服务器可以提供人工智能云服务，也被称作是AI即服务(AI as aService，简称AIaaS)。AIaaS平台可以把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。图2为本申请实施例提供的一种应用场景示意图。

以两个视频分片中目标对象(如老师)都处于基准动作状态(如站立面向拍摄装置，并且处于不说话状态)的视频拼接为例。两个视频分片中目标对象(如老师)都处于基准动作状态，这样会导致目标对象的动作单一，合成的视频不够生动。例如，老师一直处于面向拍摄装置站立，并且无身体动作，这不符合日常教学任务中的老师讲课形象。如果希望合成的视频中目标对象可以具有多种动作，并且视频分片中目标对象的动作和音频分片的声音信息相适配，如老师说“接下来要讲解重点内容......”，如果视频中的老师能展示出点头、挥动胳膊等动作，则相对于展示基准动作而言，可以和音频分片更加适配。然而，如何将展示不同动作的视频分片拼接在一起，并且不会发生图像跳变等，就成为亟待解决的技术问题。

此外，即使是不同的视频分片中的目标对象都处于基准动作状态，拼接得到的目标分片中仍然可能出现图像抖动等问题。参见图2，仅示出了目标对象的头部图像，并示出了相关技术中经拼接的视频分片中视频帧的排列方式，以及在播放该经拼接的视频分片时展示的授课老师的图像。如该图像中示出授课老师的面部图像。

例如，视频分片1(简称分片1)包括视频帧a0～视频帧a(N-1)，视频分片2(简称分片2)包括视频帧a0～视频帧a(N-1)，视频分片3(简称分片3)包括视频帧a0～视频帧a(N-1)。此外，拼接的视频中可以包括更多或更少分片，各分片中的视频帧的数量可以相同或不同。相关技术中，在拼接分片1、分片2和分片3时，可以是按照正序拼接的方式进行拼接。由于老师在录制背景视频时，几乎不可能一直保持姿势完全不变。分片拼接处的相邻两帧，如图2中分片1的视频帧a(N-1)和分片2的视频帧a0之间的图像几乎不可能完全相同，这就导致播放视频帧a(N-1)的图像如图2下图中实线面部图像所示，播放视频帧a0中的图像如图2下图中虚线面部图像所示。由于这两者之间存在差异，导致播放视频时出现图像抖动等问题，影响播放效果。

本申请的至少部分技术方案旨在对分片1、分片2和分片3进行拼接后，拼接处的视频帧被播放时，目标对象的动作能够平滑连接，有效消除视频图像抖动等缺陷。

以下结合图3～图15对本申请实施例的技术方案进行示例性说明。

图3为本申请实施例中视频生成方法的一种流程示意图。其中，视频生成方法可以由服务器端执行。视频生成方法也可以由客户端执行。此外，视频生成方法的部分操作可以由服务器端执行，部分操作可以由客户端执行，在此不做限定。

参见图3，该视频生成方法可以包括操作S310～操作S330。

在操作S310，获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长。

在本实施例中，视频分片中的目标对象对应至少一种特定动作，至少两个视频分片中的目标对象对应不同的特定动作。例如，视频分片1中老师一直处于基准动作的状态。视频分片2中老师处于挥手动作的状态。又例如，视频分片2中老师起始处于基准动作的状态，然后处于挥手动作的状态，接着处于基准动作的状态。又例如，视频分片2中老师起始处于基准动作的状态，然后处于挥手动作的状态，接着处于点头动作的状态。又例如，视频分片2中老师起始处于基准动作的状态，然后处于挥手动作的状态，接着处于点头动作的状态，然后处于基准动作的状态。

其中，视频分片可以由终端设备将采集或经编辑的多个视频分片发送给服务器。至少两个视频分片中的目标对象实施过的动作各自可以相同或不同。视频分片可以是通过拍摄得到的，还可以是通过剪辑得到的。例如，从包括目标人的多帧视频帧中选取部分视频帧，得到该视频分片。音频分片可以是通过声音传感器采集的音频，或者通过语音合成得到的音频。由于具有较长播放时长的音频的采集难度低于具有较长播放时长的视频分片的采集难度，音频分片的播放时长可能比视频分片的播放时长更长。

在操作S320，根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长。

在本实施例中，目标分片中的目标对象对应至少两种特定动作。也就是说，目标分片中目标对象可以实施多种特定动作，这样有助于提升目标分片中目标对象的动作丰富性和多样性，提升合成视频中目标对象的动作的自然度，以及视频内容与大众认知的相符度。

其中，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一播放时段的结束播放时刻与第二播放时段的起始播放时刻相同。

具体地，可以通过设定视频分片起始动作和结束动作的约束、对视频分片拼接处进行补帧、特殊的视频分片拼接方式等来消除出现跳变帧的问题。

例如，可以设置基准动作，并约定各视频分片的起始时间段和结束时间段时，目标对象都处于基准动作，这样可以有效消除不同视频分片中目标对象处于不同特定动作，导致视频拼接处出现明显跳动的问题。例如，动作视频分片中的目标对象实施基准动作和至少一种特定动作，动作视频分片的目标对象在第一播放时段和第二播放时段实施基准动作，基准动作和特定动作相同或者不同。

相应地，获得至少两个视频分片可以包括：首先，从第二素材库中获取至少两个动作视频分片Vi，其中，第二素材库包括n个动作视频分片Vi，每个动作视频分片Vi中的目标对象实施基准动作和至少一种特定动作，对于至少部分动作视频分片Vi中的每一个，动作视频分片Vi的目标对象在第一播放时段和第二播放时段实施基准动作，基准动作和特定动作相同或者不同。然后，将至少两个动作视频分片Vi作为上述至少两个视频分片。其中，n是大于或者等于2的整数，i是大于或者等于1的整数。在该应用场景中，第一视频分片在第一播放时段的视频帧与第二视频分片在第二播放时段的视频帧可以相似，不会出现明显的图像跳变，但是，在视频拼接处仍然可能出现轻微的图像抖动问题。

例如，可以生成针对任意两个视频分片之间的补帧，该补帧可以使得不同视频分片拼接处目标对象的动作连贯性。例如，目标对象的图像突然从当前视频帧中的位置1跳变至下一视频帧中的位置2，位置1和位置2之间的差距越大，则图像抖动越严重，参见图2所示。在该应用场景中，第一视频分片在第一播放时段的视频帧与第二视频分片在第二播放时段的视频帧不同。

例如，第一视频分片在第一播放时段的视频帧逐帧趋近于第二视频分片的首个视频帧。具体地，第一相似度大于第二相似度，其中，第一相似度是第一视频分片在第一播放时段的在后视频帧与第二视频分片的首个视频帧之间的相似度，第二相似度是第一视频分片在第一播放时段的在前视频帧与第二视频分片的首个视频帧之间的相似度，第一视频分片和第二视频分片的多个视频帧各自按照时序排列，上述在前视频帧排在上述在后视频帧之前。又例如，第二视频分片的在第二播放时段的视频帧与第一视频分片的最后一个视频帧之间的相似度逐帧降低。具体地，第三相似度大于第四相似度，其中，第三相似度是第二视频分片的在第二播放时段的在前视频帧与第一视频分片的最后一个视频帧之间的相似度，第四相似度是第二视频分片的在第二播放时段的在后视频帧与第一视频分片的最后一个视频帧之间的相似度，第一视频分片和第二视频分片的多个视频帧各自按照时序排列，上述在前视频帧排在上述在后视频帧之前。

例如，可以通过特殊的视频分片拼接方式来降低如下情形中的图像抖动：两个视频分片中目标对象的动作相同，如都处于基准动作，则可以通过调整视频分片中视频帧序列的播放顺序的方式，来改善图像抖动的问题。在该应用场景中，第一视频分片在第一播放时段的视频帧与第二视频分片在第二播放时段的视频帧中至少拼接处相邻的两帧会完全相同，不会出现图像跳变。但是，该方案能适用的应用场合比较少，如只采用某一种动作视频分片进行拼接。

在操作S330，利用音频分片驱动目标分片，得到经驱动的目标分片。例如，可以根据音频分片中至少一个帧的音频特征调整目标分片中目标对象的嘴部形状，使得经驱动的目标分片中声音和嘴部形状更加适配。

以下以多个实施例对上述三种方式分别进行说明。

在某些实施例中，由于目标对象在特定场景中的动作种类通常是有限的。例如，文化课老师在上网络课程时，可能实施的动作可以包括：基准动作、点头动作、挥手动作、转身等。文化课老师在上网络课程时很少会出现跑动、拳击等动作。因此，可以针对目标对象可能实施的多种特定动作分别录制动作视频分片。然后，针对其中任意两个动作视频分片生成对应的补帧视频分片。这样在基于补帧视频分片拼接对应的两个动作视频分片时，就不会出现图像跳动等问题。

具体地，获得至少两个视频分片可以包括如下操作。首先，从第一素材库中获取至少两个补帧动作视频分片Vij，其中，视频素材库包括N个补帧动作视频分片Vij，每个补帧动作视频分片Vij包括动作视频分片Vi和至少一个补帧视频分片Bij。补帧视频分片Bij使得动作视频分片Vi在第一播放时段没有跳变的帧，并且补帧视频分片Bij使得动作视频分片Vj在第二播放时段没有跳变的帧。其中，N是大于或者等于2的整数，i、j分别是大于或者等于1的整数。然后，将至少两个补帧动作视频分片Vij作为至少两个视频分片。

图4为本申请实施例中动作视频分片、补帧视频分片和补帧动作视频分片的示意图。

参见图4，可以预先采集动作视频分片V1～Vn，其中，各视频分片中可以包括一种或多种特定动作。由于动作视频分片是针对目标对象的拍摄视频，目标对象的动作是连贯的，不会出现跳变帧。

然后，针对动作视频分片V1～Vn中任意两个动作视频分片，生成针对这两个动作视频分片之间的补帧视频分片。参见图4中的补帧视频分片B11～Bnn。这里采用预先生成补帧视频分片的优点可以包括：例如，预先生成的补帧视频分片可以直接调用，无需在使用时才生成视频分片，响应速度高。例如，动作视频分片的数量是有限的，并且数量不会过多，生成的补帧视频分片同样有限，不会占用过多的存储空间。

接着，可以直接将补帧视频分片和动作视频分片作为整体进行存储，降低拼接出错的风险。参见图4中的补帧动作视频分片V11～Vnn。如补帧动作视频分片V11是由动作视频分片V1和补帧视频分片B11共同构成。

需要说明的是，补帧视频分片B21和补帧视频分片B12是不同的两个补帧视频分片。这是由于动作视频分片V1包括起始播放时间段和终止播放时间段，动作视频分片V2同样包括起始播放时间段和终止播放时间段。动作视频分片V1的起始播放时间段和终止播放时间段的视频帧不是完全相同的，如目标对象发生了微小姿态变化。参见图2，如果采用补帧视频分片B21代替补帧视频分片B12，则可能发生如图2所示的图像跳变。

也就是说，补帧视频分片B21为了对接动作视频分片V2的终止播放时间段和动作视频分片V1的起始播放时间段。补帧视频分片B12为了对接动作视频分片V1的终止播放时间段和动作视频分片V2的起始播放时间段。

此外，生成补帧视频分片B11是由于如下原因：动作视频分片V1包括起始播放时间段和终止播放时间段，如果为了实现增加目标分片的播放时长的效果等，用动作视频分片V1和动作视频分片V1进行拼接，则动作视频分片V1的起始播放时间段和终止播放时间段的视频帧不是完全相同，如目标对象发生了微小姿态变化。参见图2，如果直接采用动作视频分片V1和动作视频分片V1进行拼接，则可能发生如图2所示的图像跳变。

以下对补帧动作视频分片Vij的生成过程进行示例性说明。

在某些实施例中，上述方法还可以包括：构建和/或更新第一素材库。

具体地，第一素材库可以通过以下方式进行构建。

首先，获得n个动作视频分片Vi，i≤N，N＝n2。参见图4中补帧视频分片。

然后，对于n个动作视频分片Vi中的每一个，生成动作视频分片Vi针对动作视频分片Vj的补帧动作视频分片Vij，i和j相同或不同。参见图4中补帧动作视频分片。

此外，还可以存储补帧动作视频分片Vij，以构建第一素材库或者更新第一素材库。

在利用第一素材库进行视频合成时，可以通过视频分片拼接方式得到目标分片，具体如下所示。例如，为了拼接动作视频分片V2和动作视频分片V4，则可以选择补帧动作视频分片V24和动作视频分片V4。例如，为了拼接动作视频分片V2、动作视频分片V4和动作视频分片V1，则可以选择补帧动作视频分片V24、补帧动作视频分片V41和动作视频分片V1。需要说明的是，以上采用了将补帧视频分片添加到动作视频分片之后的方式进行示例性说明。此外，也可以采用其它添加方式来生成补帧动作视频分片。

在某些实施例中，上述生成动作视频分片Vi针对动作视频分片Vj的补帧动作视频分片Vij可以包括如下操作。首先，生成动作视频分片Vi针对动作视频分片Vj的补帧视频分片Bij。然后，通过拼接等方式得到包括补帧视频分片Bij的补帧动作视频分片Vij。

上述拼接方式可以包括多种方式。图5为本申请实施例中生成补帧动作视频分片的过程示意图。参见图5，可以使用多种拼接方式生成补帧动作视频分片。

例如，将补帧视频分片Bij设置于动作视频分片Vi的最后一个视频帧之后，得到补帧动作视频分片Vij。参见图5，以需要拼接动作视频分片V1和动作视频分片V2为例，在生成了补帧视频分片B12之后，则可以将补帧视频分片B12拼接在动作视频分片V1的后端，得到补帧动作视频分片V12，然后就可以通过拼接补帧动作视频分片V12和动作视频分片V2，实现视频分片之间无跳变帧的拼接效果。

例如，将补帧视频分片Bij设置于动作视频分片Vj的首个视频帧之前，得到补帧动作视频分片Vii。参见图5，以需要拼接动作视频分片V1和动作视频分片V2为例，在生成了补帧视频分片B12之后，则可以将补帧视频分片B12拼接在动作视频分片V2的前端，得到补帧动作视频分片V12，然后就可以通过拼接动作视频分片V1和补帧动作视频分片V12的方式，实现视频分片之间无跳变帧的拼接效果。

综上，动作视频分片和补帧视频分片之间的拼接方式可以有多种，在此不做限定。又例如，将补帧视频分片Bij的第一部分设置于动作视频分片Vi的最后一个视频帧之后，并且将补帧视频分片Bij的第二部分设置于动作视频分片Vj的首个视频帧之前，得到补帧动作视频分片Vij。也就是说，一个补帧视频分片Bij还可以被拆分为两半，分别拼接在动作视频分片Vi之后和动作视频分片Vj之前。通过以上对动作视频分片和补帧视频分片之间的处理方式，使得补帧动作视频分片Vij可以和所需的任意补帧动作视频分片Vjx之间进行拼接，并且拼接处无跳变帧。其中，1≤x≤n。

以下对生成动作视频分片Vi针对动作视频分片Vj的补帧视频分片Bij的过程和原理等进行示例性说明。

为了便于理解，首先对基准动作和特定动作等进行图示。图6为本申请实施例中基准动作、特定动作的示意图。

参见图6，图6示出了三种动作，如左边帧是基准动作：面向拍摄装置站立，并且处于静默状态。如中间帧是第一特定动作：侧向站立，并且处于静默状态。如右边帧是第二特定动作：背对拍摄装置站立，并且处于静默状态。图6仅示出了三种动作，此外，还可以包括更多种特定动作，如仰头动作、低头动作、抬手动作、点头动作、转头动作等，在此不再一一示出。

图7为本申请实施例中动作视频分片中视频帧的示意图。参见图7，在包括侧身站立动作的视频分片中，包括目标对象处于侧身站立的视频帧，如图7中的中间帧所示。如果为了拼接该包括侧身站立动作的视频分片和包括基准动作的视频分片，则需要生成针对如左边视频帧和中间视频帧之间的补帧视频分片，由于两者之间的动作差异过大，很难通过补帧方式得到动作连续变化且自然的补帧视频分片。因此，可以对包括侧身站立动作的视频分片的录制过程进行约定：如第二播放时段中目标对象处于基准动作，第一播放时段中目标对象也处于基准动作，第二播放时段和第一播放时段之间的播放时段中，目标对象可以从基准动作自然切换至侧身站立动作，然后再切换至基准动作。这样可以有效改善待拼接的两个动作视频分片中目标对象的动作相差过大的问题。此外，录制的包括侧身站立动作的视频分片中，目标对象的动作是连续变化的，视频分片内部没有跳变的帧。这样便于通过补帧的方式使得待拼接的两个视频分片之间没有跳变的帧。

图8为本申请实施例中补帧的示意图。

参见图8，图8中视频帧i可以是某个视频分片中的最后一个视频帧，可以看到目标对象的头部略微向左扭头，并且目标对象的头部位于视频帧i的左上角。图8中视频帧i+4可以是待拼接的视频分片中的首个视频帧，可以看到目标对象的头部没有扭头动作，并且目标对象的头部位于视频帧i+4的右下角。为了使得该某个视频分片和待拼接的视频分片之间的拼接处的图像无跳变。则可以生成视频帧i+1～视频帧i+3，来改善视频帧i和视频帧i+4之间的图像跳变的问题。例如，视频帧i+1～视频帧i+3中目标对象的图像可以逐渐从视频帧i中目标对象的动作转变至视频帧i+4。图8中的辅助线便于示出目标对象的头部图像的变化过程。

在某些实施例中，当两个视频帧的目标对象的动作之间没有过大的差异时，可以通过补帧算法等生成补帧视频分片。

具体地，生成动作视频分片Vi针对动作视频分片Vj的补帧视频分片Bij可以包括如下操作。

首先，获得动作视频分片Vi的最后一个视频帧和动作视频分片Vj的首个视频帧。参见图7中左边的视频帧和右边的视频帧。

然后，通过补帧算法得到动作视频分片Vi的最后一个视频帧和动作视频分片Vj的首个视频帧之间的多个补充视频帧，使得动作视频分片Vi的最后一个视频帧、动作视频分片Vj的首个视频帧以及两者之间无跳变帧。具体地，可以采用多种补帧算法，如基于人工智能的补帧算法、基于预设规则的补帧算法等，在此不做限定。多个补充视频帧的帧数可以基于流畅度、预设的补帧视频分片的播放时长等来确定。

接着，按照预设帧率组合多个补充视频帧，得到补帧视频分片Bij，补帧视频分片Bij的播放时长为指定时长。例如，可以预设补帧视频分片的播放时长为0.3秒、0.5秒、0.8秒、1秒等，在此不做限定。

图9为本申请实施例中补帧的生成过程示意图。图9中以视频帧中目标对象的图像位置发生改变为例，对补帧的生成过程进行示例性说明。

首先可以确定视频帧中目标对象的多个特征点，然后基于两帧视频帧中该多个特征点之间的位置变化关系和需要插入的帧数等来生成补帧视频分片。

具体地，首先，可以标识两个视频帧中相对应的特征点，如标定当前视频分片中最后一个视频帧中瞳孔的第一位置，并且标定待拼接视频分片中首个视频帧中瞳孔的第二位置。

然后，基于两个视频帧中相对应的特征点之间的位置变化，确定第一帧到第二帧的运动矢量，如x方向的平移量、y方向的平移量和转动角度。

接着，可以基于用户预设的补帧视频分片的帧数处理上述运动矢量，确定各补帧中个特征点的更新位置，这样就可以基于该特征点的更新位置对视频帧中目标对象的其余像素的位置进行更新，生成补帧1～补帧n。

需要说明的是，以上补帧算法仅为示例性说明，不能理解为对本申请技术方案的限定，还可以采用多种补帧算法，如基于人工智能的补帧算法进行补帧，在此不做限定。

在一个具体实施例中，可以基于第二素材库生成第一素材库。以第二素材库为动作视频素材库{V1，V2，......，Vn}为例进行说明，其中，n为素材总数量。动作素材库中的素材短视频应为同一场景下、同一人物的不同动作视频，V1为基准动作视频分片，可以通过如下过程生成n×n个补帧动作视频。由于存在n个动作视频分片，各个视频分片的首尾动作状态可能不处在同一个状态和位置。所以应对n个视频分片进行两两补帧，生成n×n个补帧动作视频分片。定义补帧过程为f：Vi×Vj→Vij，i∈(1，n)，j∈(1，n)。其中，Vij为生成的流畅平滑的补帧动作视频分片。取动作视频素材库中两个动作视频分片Vi、Vj，其中，Vi为待拼接的前一个视频，Vj为后一个视频。取Vi的末尾帧Fi，Vj的起始帧Fj。使用补帧算法补充Fi和Fj之间的图像，实现动作的连贯平滑，将补充的图像帧与Vi进行拼接得到补帧动作视频Vij。

本申请实施例通过以上补帧、约定视频分片中目标对象的动作等方式，使得拼接得到的目标分片中可以包括目标对象的多种特定动作，使得目标分片中目标对象的动作更加流畅自然，并且不会出现图像跳变等问题。

在某些实施例中，可以将拼接得到的目标分片作为背景视频，然后利用音频分片驱动目标分片中目标对象的动作、表情和嘴部形状等，生成自然流畅的数字人视频。

具体地，上述方法还可以包括如下操作。获得音频分片，音频分片包括多个播放时段。

相应地，根据至少两个视频分片得到目标分片可以包括：首先，确定音频分片的各播放时段与至少两个视频分片各自之间的映射关系。然后，基于映射关系将至少两个视频分片按照音频分片的播放时段进行拼接，得到目标分片。

例如，可以通过标定的方式来确定映射关系。具体地，确定音频分片的各播放时段与至少两个视频分片各自之间的映射关系可以包括如下操作。

首先，接收标定信息，标定信息包括音频分片的播放时段与视频分片之间的对应关系。例如，用户通过标定的方式指定音频分片中某个播放时段用于播放某个动作视频分片或者某个补充动作视频分片。标定信息可以是时间戳和/或视频分片标志等。

然后，基于标定信息确定音频分片的各播放时段与至少两个视频分片各自之间的映射关系。

图10为本申请实施例中音频分片和视频分片之间的对应关系的示意图。

参见图10，用户可以通过听音频分片或者看与音频分片对应的文本信息等方式，来确定个播放时段T0、T1、T2、T3等所需的动作，即动作视频分片或者补帧动作视频分片V01、V12、V21、V14等。这样就可以构建出与音频分段中个播放时段T0、T1、T2和T3对应的补帧动作视频分片V01、V12、V21、V14。

在一个具体实施例中，可以构建映射表：时间段到补帧动作视频。将音频分片按照时间进行分段标注，标注的内容为各个时间段对应的补帧动作视频。映射表如表1所示。

表1：映射表

时间段	补帧动作视频
		T0-T1	V01
T1-T2	V12
		T2-T3	V21
T3-T4	V14

在某些实施例中，还可以通过人工智能的方式来辅助确定上述映射关系。

例如，确定音频分片的各播放时段与至少两个视频分片各自之间的映射关系可以包括如下操作。

首先，分析音频分片，得到声音特征；和/或，分析与音频分片对应的文本信息，得到语义特征。

其中，声音特征包括但不限于：语音特征、音调特征和/或音量特征。例如，老师在强调一些内容时，可能采用更高的音量，或者采用挥手、点头等方式来吸引同学的注意力，这样就可以在音频分片中音量高于设定音量阈值时，采用挥手视频分片或点头视频分片。

语义特征可以表征用户所要采取的动作。例如，可以先获得与音频分片对应的文本信息，然后通过语义理解的方式得到该文本的语义特征，这样便于通过语义特征确定与音频分片对应的特定动作。例如，文本信息包括：请看书本第99页。则其对应的特定动作可以为低头动作(书本通常放在低于头部的高度)。例如，还可以通过语音识别的方式得到音频分片的文本信息等。

然后，确定声音特征和/或语义特征与至少两个视频分片各自之间的映射关系。例如，声音特征可以具有声音特征标识，语义特征可以具有语义特征标识，视频分片可以具有视频分片标识。这样就可以通过相关联地存储声音特征标识和视频分片标识来形成映射关系，或者，通过相关联地存储语义特征标识和视频分片标识来形成映射关系。

在某些实施例中，在确定了上述映射关系之后，可以基于映射关系将至少两个视频分片按照音频分片的播放时段进行拼接，得到目标分片。参见图10，根据映射表，使用补帧动作视频进行拼接，得到目标分片。

通过以上方式即可得到目标分片，但是目标分片是背景视频分片，为了使得背景视频分片中的目标对象的嘴部形状与音频分片中的语音内容相符，还需要利用音频分片对目标分片进行驱动，以提升合成的视频分片的自然度。

以下对利用音频分片驱动目标分片，得到经驱动的目标分片的过程进行示例性说明。其中，音频分片可以是由麦克风等采集的目标人的音频片段。该音频片段可以经过编辑、降噪等操作。此外，音频分片也可以是基于语音合成技术得到的音频片段。例如，服务器端通过调用语音合成平台提供的接口，输入目标文本信息，由语音合成平台合成与目标文本信息对应的音频片段。

具体地，可以利用音频分片中一个或多个音频帧来驱动目标分片中的一个视频帧。例如，音频帧表征当前用户处于静默状态，则对应的视频帧中目标人的面部图像中，嘴部处于闭嘴状态。例如，音频帧表征当前用户处于说话状态，则对应的视频帧中目标人的面部图像中，嘴部处于张开状态。例如，音频帧表征当前用户处于发音“好”的状态，则对应的视频帧中目标人的面部图像中，嘴部处于与发音“好”相同的形状。

需要说明的是，对于仅包括基准动作的动作视频分片，可以通过如下特殊拼接方式来减少视频分片拼接所要消耗的计算资源。例如，对于音频分片中的每个音频帧，根据至少两个视频分片得到目标分片可以包括如下操作。

首先，对于至少两个视频分片中的每一个视频分片，对该视频分片进行抽帧，得到视频帧序列。例如，可以从某个视频分片中抽取所有帧，并且各帧可以是按照拍摄顺序(正序)或者逆序进行排列的，得到视频帧序列。

然后，按照预设的视频分片拼接方式对至少两个视频帧序列中的视频帧进行排序，得到经合并的视频帧序列，视频分片拼接方式包括相邻的视频分片之间相互逆序拼接。例如，视频分片拼接方式包括：相邻的视频分片的视频帧序列之间相互逆序排列。

接着，按照预设帧率对经合并的视频帧序列进行组合，生成目标分片。

具体地，视频分片拼接方式包括：正-反-正-反-......，或者反-正-反-正-......。需要说明的是，视频分片中各视频帧的排列顺序不做特殊要求，如视频分片1和视频分片2之间可以正序拼接或者逆序拼接，只要不影响播放效果即可。此外，各视频分片的长度可以相同或不同。如第二个视频分片比第一个视频分片短一些，只要保证第二个视频分片的结尾视频帧和第一视频分片的起始视频帧相同，或者第一个视频的结尾视频帧和第二视频的起始视频帧相同即可。例如，图2中的分片1的视频帧可以正序排列，分片2的视频帧可以逆序排列，分片3的视频帧可以正序排列。

以下对音频分片驱动目标分片的原理进行示例性说明。

为了便于理解本申请的技术方案，如音频帧和视频帧之间的对应关系，在此对音频帧的长度等进行示例性说明。

例如，一帧音频帧的播放时间长度为图像的帧率的倒数。如果图像的帧率为50fps，则表示一秒传输50帧画面，每帧视频帧需要20ms的播放时长，因此一个20ms的音频可以对应一帧视频帧。据此，将预设时间长度设置为帧率的倒数，可使分片段输出的音频与画面对应，即实现二者在时间上的对齐。

但是，在一些场景中，音频分片中音频帧的帧率和视频分片中视频帧的帧率不同。

例如，正常人听觉的频率范围大约在20Hz～20kHz之间。采样频率(samplerate)是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。例如，为了降低声音的失真率，采样频率可以大于16kHz。常用的音频采样频率有8kHz、11.025kHz、16kHz、22.05kHz、37.8kHz、44.1kHz、48kHz等。例如，可以按200个采样点形成一帧音频帧。

采样率为16KHz，表示每秒16000个采样点，音频帧的播放时长＝一个高级音频编码(Advanced Audio Coding，简称ACC)帧对应的采样点个数/采样频率，则对于80fps的音频帧的帧率而言，当前一帧音频帧的播放时长＝200*1000/16000＝12.5毫秒(ms)。视频帧的帧率可以为25fps左右即可满足视频播放效果，一秒传输25帧画面，那么每帧画面需要1000÷25＝40ms的时长。可以看出，两者之间的播放时长不同。

为了便于生成包括等播放时长音频和视频的数字人信息，可以按照如下方式确定视频帧和音频帧之间的对应关系。

在某些实施例中，至少两个视频分片中的各视频分片的帧率为第一帧率f1，音频分片的帧率为第二帧率f2，第二帧率f2大于第一帧率f1。

相应地，视频分片的一帧对应音频分片的N帧，其中，

为上取整，或者，

为下取整。

在某些实施例中，在利用音频分片驱动目标分片之前，上述方法还可以包括：如果f2/f1是大于1的小数，并且

则确定第一播放时段的结束播放时刻的音频帧与第二播放时段的起始播放时刻的音频帧之间存在重叠。

相应地，对于目标分片中的第P个视频帧，利用音频分片驱动目标分片，得到经驱动的目标分片可以包括如下操作。

至少基于第Q×P个音频帧到第(Q×(P+1)-1)个音频帧的音频特征，调整目标分片中第P个视频帧的嘴部图像，得到经驱动的第P个视频帧。

具体地，首先，确定第一对应关系，第一对应关系包括：音频分片的第P×Q个音频帧至第(Q×(P+1)-1)个音频帧对应目标分片的第P个视频帧，其中，第(Q×(P+1)-1)个音频帧的重叠部分还对应目标分片的第(P+1)个视频帧。

然后，基于第一对应关系利用音频帧驱动与音频帧对应的视频帧，得到经驱动的目标视频帧。

以第(Q×(P+1)-1)个音频帧的重叠部分还对应目标分片的第(P+1)个视频帧为例进行示例性说明。

一个视频帧(如aP等)可以对应多个音频帧(bP，如b0～b(Q-1))，P表示序号，如P可以为0，1，2，3...。音频帧和视频帧之间的倍数关系可以表示为Q。则用于驱动第0个视频帧a0的音频帧可以包括：第0个音频帧b0至第(Q-1)个音频帧b(Q-1)。用于驱动第1个视频帧a1的音频帧可以包括：第Q个音频帧b(Q)至第(2×Q-1)个音频帧b(2×Q-1)。其中，由于对音频帧的个数进行了上取整操作，会导致第(Q-1)个音频帧b(Q-1)和第Q个音频帧b(Q)中的部分采样点都用于驱动第1个视频帧a1，导致这两个音频帧b(Q-1)和b(Q)之间存在一定的重叠。以f2和f1各自为80fps和25fps为例，

重叠率为4-3.2＝0.8，则重叠时长为1000/80*0.8＝10毫秒，人耳的灵敏度察觉不到该重叠，不影响播放效果。

此外，还可以对音频帧的个数进行下取整操作。但是，这会导致第Q-1个音频帧b(Q-1)仅能够覆盖第0个视频帧a0的部分播放时长，没有覆盖第0个视频帧a0的最后播放时段，导致这两个音频帧b(Q-1)、b(Q)之间存在一定的时间间隔。以f2和f1各自为80fps和25fps为例，

分隔率为3.2-3＝0.2，则分隔时长为1000/80*0.2＝2.5毫秒，人耳的灵敏度察觉不到该分隔时段，不影响播放效果。

通过以上实施例，可以建立起目标分片中的视频帧和音频分片中的音频帧之间的对应关系，有助于生成数字人视频。

在某些实施例中，经拼接得到的视频分片和音频分片的播放时长可能不一致，可以通过裁剪操作等使得视频分片和音频分片的播放时长保持一致。具体地，根据至少两个视频分片得到目标分片可以包括如下操作，如果至少两个视频分片的总播放时长大于音频分片的播放时长，则对基于音频分片的播放时长对至少两个视频分片进行剪切，得到目标分片，目标分片的播放时长与音频分片的播放时长相一致。

图11为本申请实施例中一种截取多余音频分片的示意图。

参见图11，通过诸如拼接等方法得到视频分片之后，该视频分片的播放时长可能比音频分片的播放时长长。这可能是由于音频分片的播放时长和视频分片的播放时长之间不是整数倍等原因导致。

为了解决该问题，使得音频分片的播放时长和目标分片的播放时长保持一致，可以对视频分片进行诸如裁剪等操作，如去除多余的视频帧。

例如，根据至少两个视频分片得到目标分片可以包括：如果至少两个视频分片的总播放时长大于音频分片的播放时长，则对基于音频分片的播放时长对至少两个视频分片进行剪切，得到目标分片，目标分片的播放时长与音频分片的播放时长相一致。

以下对音频分片驱动视频分片的过程进行示例性说明。

在某些实施例中，利用音频分片驱动目标分片可以包括：利用音频分片中的至少部分音频帧逐一驱动目标分片中的至少部分视频帧。其中，可以使用多帧音频帧驱动一帧视频帧。例如，对于音频分片中的每个音频帧，基于音频帧的音频特征驱动与音频帧对应的视频帧。

多帧音频帧的音频特征和目标人的嘴部形状特征之间存在对应关系，以便基于多帧音频帧生成目标人的嘴部图像。

图12为本申请实施例中驱动视频图像的过程示意图。

参见图12，服务器端响应于获得的音频分片(如音频小片段)和视频帧的嘴部图像，分别进行特征提取，得到音频特征和视频特征(如嘴部特征)。然后将融合后的特征(如拼接的音频特征和嘴部特征)输入解码器中进行解码，得到针对音频小段中音频帧对应的经驱动的嘴部图像。这样就可以利用嘴部图像替换相对应的视频帧背景图像中的嘴部图像，得到经驱动的视频帧图像。

其中，嘴部特征可以是由诸如神经网络自动提取的特征。嘴部特征也可以是基于预设规则提取的特征，如多个特征点分别表示嘴角位置、上嘴唇中间位置、下嘴唇中间位置等，这样便于基于多个点的位置表征嘴的形状。嘴部特征可以是由神经网络自动提取的特征和基于预设规则提取的特征的组合，在此不做限定。

音频特征可以是嘴部特征可以是由诸如神经网络自动提取的特征。音频特征也可以是基于预设规则提取的特征，如梅尔频率倒谱系数(Mel-frequency cepstralcoefficients，MFCC)、过零率、短时能量、短时自相关函数、语谱图、短时功率谱密度、短时平均幅度差、谱熵、基频或者共振峰等中至少一种。嘴部特征可以是由神经网络自动提取的特征和基于预设规则提取的特征的组合，在此不做限定。

例如，关于梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如：对于一帧有512维(采样点)数据，经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。关于其它音频特征，在此不再一一列举。

以上已经对音频特征和嘴部特征进行示例性说明，以下对基于音频特征和嘴部特征得到经驱动的视频为例进行示例性说明。例如，基于第0个音频帧至第(Q-1)个音频帧的音频特征，调整目标分片中第0个视频帧的图像。

在某些实施例中，请参见图12，至少基于第Q×P个音频帧到第(Q×(P+1)-1)个音频帧的音频特征，调整目标分片中第P个视频帧的图像，得到经驱动的第P个视频帧可以包括如下操作。

首先，从第Q×P个音频帧到第(Q×(P+1)-1)个音频帧中提取音频特征，并且从第P个视频帧中提取目标人的嘴部特征。例如，提取第0个音频帧至第(Q-1)个音频帧的音频特征，并且从第0个视频帧中提取目标人的嘴部特征。

然后，利用嘴部图像生成模型处理音频特征和嘴部特征，得到与第Q×P个音频帧到第(Q×(P+1)-1)个音频帧对应的嘴部图像。例如，得到与第0个音频帧至第(Q-1)个音频帧对应的嘴部图像。

接着，利用嘴部图像替换第P个视频帧中目标人的嘴部图像，得到经驱动的第P个视频帧。例如，利用基于第0个音频帧b0至第Q-1个音频帧b(Q-1)生成的嘴部图像，替换经拼接得到的视频片段中第0个视频帧a0的嘴部图像。

在某些实施例中，嘴部图像生成模型可以包括：特征融合模块和解码器。

其中，特征融合模块用于融合音频特征和嘴部特征，得到融合特征。解码器与特征融合模块相连，用于对融合特征进行解码，得到嘴部图像。

例如，嘴部图像生成模型可以为神经网络，该神经网络可以包括声音编码器、图像编码器、图像解码生成器。

例如，将音频分片的声音频谱图输入声音编码器，通过卷积层提取声音特征。同时将声音频分片对应的多个视频帧的图像输入到图像编码器中，通过卷积层提取图像特征。接着将提取好的音频特征和视频特征输入解码器，最终生成与音频分片同步的嘴唇图像序列。嘴唇图像的图像分辨率包括但不限于96*96、128*128、256*256、512*512等，可以根据用户需求进行设定。

此外，为了生成更加符合目标人的嘴唇图像，解码器的输入中还可以包括基于规则提取的特征如人脸唇形关键点轮廓、头部轮廓以及背景等。通过增加基于规则提取的特征，可对生成的嘴唇图像进行更加精细地控制，生成更加可控的高清图像。

在某些实施例中，请参考图12，视频帧背景图片还可以经过预处理，以将背景图片中的嘴部图像去除，降低背景图像中的嘴部图像和生成的嘴部图像同时展示在驱动后的视频帧图片中的风险，提升容错能力。

在某些实施例中，上述方法还可以通过如下方式训练嘴部图像生成模型。以嘴部图像生成模型是神经网络为例，该方法可以包括如下操作。

首先，获得训练数据集，训练数据集中的训练数据包括训练音频分片、训练视频分片和目标视频分片。

然后，对于训练音频分片中的第j个音频帧和训练视频分片中的第k个视频帧，从第j个音频帧中提取音频特征，并且从第k个视频帧中提取嘴部特征。其中，j和k之间存在对应关系，对应关系包括：

或者，

其中，j和k是大于或等于0的整数。

接着，将音频特征和嘴部特征输入嘴部图像生成模型，通过调整嘴部图像生成模型的模型参数，使得嘴部图像生成模型输出的嘴部图像与目标视频分片中的第k个视频帧中嘴部图像之间的差异小于差异阈值。例如，通过最小化损失函数来得到模型参数。其中，模型参数包括但不限于：权重和偏移量。

具体地，嘴部图像生成模型将在训练过程中学习到音频特征和视频特征之间的映射关系，使得生成的人脸唇形图像序列更加流畅自然，根据不同视频场景与说话人物的生成要求。

例如，判别网络根据音频分片和嘴唇图像序列进行嘴唇同步判别，得到嘴唇同步判别值，根据嘴唇同步判别值对嘴部图像生成模型进行优化。例如，判别网络根据嘴唇图像序列与目标视频分片中的若干帧图像得到图像真实度概率值，并根据图像真实度概率值对嘴部图像生成模型进行优化。

在某些实施例中，判别网络可分为嘴唇同步判别网络与图像质量判别网络。嘴唇同步判别网络用于在训练的过程中，对嘴部图像生成模型生成的嘴唇同步做检测，并给出嘴唇同步判别值，这样便于训练嘴部图像生成模型生成更真实同步的嘴唇图像。图像质量判别网络用于在训练的过程中，对图像质量进行检测，并输出生成的嘴部图像和目标图像之间的真实度概率值，这样便于训练嘴部图像生成模型生成更高清真实的图像。

例如，嘴唇同步判别网络可以为预训练网络，输入为音频分片以及对应生成的嘴唇图像，输出为每张嘴唇图像与对应的音频分片的同步匹配度，判别器通过判断并给出嘴唇同步判别值，进而训练嘴部图像生成模型进行优化改进，生成与声音更加同步的嘴唇图像。图像质量判别网络与嘴部图像生成模型同时进行训练，图像质量判别网络的输入为生成的嘴唇图像与目标视频分片中视频帧的嘴唇图像，输出为图像真实度概率值。图像质量判别网络用于对生成的图像质量的好坏进行判断，在训练的过程中训练嘴部图像生成模型生成出更加逼真的嘴唇图像。

在某些实施例中，嘴部图像生成模型的输入还可以包括人脸围绕铅垂线的旋转角度。由于背景视频中目标人可能会存在一些动作，如转头、点头等动作。如果生成的嘴部图像都是针对一个角度下生成的嘴唇图像，则可能不适用于这些特定场景下，如造成嘴部图像和人脸图像不适配。在嘴部图像生成模型的输入中增加旋转角度，能够得到针对该旋转角度下的嘴唇图像，提升合成视频的真实度。

在一个具体实施例中，将用于驱动视频的音频分片和需要被驱动的目标分片作为语音驱动算法f：V×A→V的输入。使用语音驱动算法对目标分片中各视频帧的目标对象的嘴部形状根据音频帧的内容进行更改，使输出的经驱动的视频分片中的嘴部形状更符合音频分片。

在某些实施例中，在得到了经驱动的目标分片之后，可以利用经驱动的目标分片实现诸如教学、引导等诸多功能，在此不再一一列举。

图13为本申请实施例中输出经驱动的目标分片的示意图，

参见图13，首先构建第二素材库。然后，针对第二素材库使用补帧算法，生成具有动作流畅的补帧动作视频分片的第一素材库。接着，对音频分片的分析，标注出补帧动作视频分片的拼接位置(时段)，并根据标注对补帧动作视频分片进行拼接，得到目标分片，请一并参见图10。最后，对拼接的目标分片进行语音驱动，实现口型与语音内容对齐，得到经驱动的目标分片。本申请实施例针对计算机视觉语音驱动的应用场景中，根据音频内容生成带肢体、面部、口型等动作的流畅视频。

本申请实施例中，建立了第二素材库，该第二素材库中包含多种动作视频分片，使得用户可以根据音频分片的内容，使用素材库的动作视频分片进行拼接，得到包含符合音频语义的人物肢体、面部动作等的视频。由于动作素材库为真实采集的视频，所以动作素材库可以提供人物最真实的动作状态，使合成的视频分片中的人物更加真实自然。

此外，对采集的动作视频分片进行补帧，实现目标分片中各个动作视频分片的平滑流畅过渡。通过补帧方式可以生成流畅的人物动作的补帧视频分片，该补帧视频分片可以使得目标分片中不会出现动作、位置等发生突变、卡顿等情况。

此外，对得到的平滑目标分片进行语音驱动。通过语音驱动算法，使用预定音频分片对流畅的目标分片进行驱动，实现音频唇口对齐。

此外，采用提前音频标注和提前视频拼接的方法，可以提前可视化预览生成视频的动作与音频内容的匹配的效果，使得生成视频更加高效。

图14为本申请实施例中执行视频生成方法的实体装置的一种结构示意图。

参阅图14，如图14所示的一种电子设备1400的结构示意图。本申请实施例中的电子设备1400能够实现对应于上述图3所对应的实施例中所执行的视频生成方法的操作。电子设备1400实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。电子设备1400可包括处理模块、存储模块，处理模块的功能实现可参考图3所对应的实施例中所执行的操作，此处不作赘述。

具体地，该电子设备1400包括：存储器1410和至少一个处理器1420。此外，该电子设备1400还可以包括输入输出模块，至少用于获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长。

其中，存储器1410用于存储计算机程序，处理器1420用于调用存储器1410中存储的计算机程序来执行如上述的方法。

一些实施方式中，处理器1420还用于实现根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长；利用音频分片驱动目标分片，得到经驱动的目标分片；其中，视频分片中的目标对象对应至少一种特定动作，至少两个视频分片中的目标对象对应不同的特定动作，目标分片中的目标对象对应至少两种特定动作，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一视频分片的第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二视频分片的第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一视频分片在第一播放时段的结束播放时刻与第二视频分片在第二播放时段的起始播放时刻相同。

本申请的另一方面还提供了一种服务器。

图15为本申请实施例中服务器的一种结构示意图。

参见图15，该服务器150可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：central processing units，英文简称：CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1520上执行存储介质1530中的一系列指令操作。

服务器1520还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器1520的结构。例如上述实施例中由图14所示的电子设备1400所执行的步骤可以基于该图15所示的服务器结构。例如，处理器1522通过调用存储器1532中的指令，执行以下操作。

通过输入输出接口1558获得至少两个视频分片。

处理器1522根据至少两个视频分片得到目标分片。其中，视频分片中的目标对象对应至少一种特定动作，目标分片中的目标对象对应至少两种特定动作，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一播放时段的结束播放时刻与第二播放时段的起始播放时刻相同。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机计算机程序时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获得音频分片和至少两个视频分片，所述音频分片的播放时长至少长干所述至少两个视频分片中的各视频分片的播放时长；

根据所述至少两个视频分片得到目标分片，所述目标分片的播放时长大于或者等于所述音频分片的播放时长；

利用所述音频分片驱动所述目标分片，得到经驱动的目标分片；

其中，所述视频分片中的目标对象对应至少一种特定动作，至少两个所述视频分片中的目标对象对应不同的特定动作，所述目标分片中的所述目标对象对应至少两种特定动作，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，所述第一视频分片的第一播放时段的起始播放时刻晚于所述第一视频分片的播放起始时刻，所述第二视频分片的第二播放时段的结束播放时刻提前于所述第二视频分片的结束播放时刻，所述第一视频分片在所述第一播放时段的结束播放时刻与所述第二视频分片在所述第二播放时段的起始播放时刻相同。

2.根据权利要求1所述的方法，其特征在于，所述至少两个视频分片通过如下方式获得：

至少从第一素材库中获取至少两个补帧动作视频分片Vij，其中，所述第一素材库包括N个补帧动作视频分片Vij，每个补帧动作视频分片Vij包括动作视频分片Vi和至少一个补帧视频分片Bij；补帧视频分片Bij使得动作视频分片Vi在第一播放时段没有跳变的帧，并且补帧视频分片Bij使得动作视频分片Vj在第二播放时段没有跳变的帧，其中，N是大干或者等于2的整数，i、j分别是大干或者等于1的整数；

将所述至少两个补帧动作视频分片Vij作为所述至少两个视频分片。

3.根据权利要求2所述的方法，其特征在于，所述动作视频分片Vi中的目标对象对应基准动作和至少一种特定动作，所述动作视频分片Vi的目标对象在所述第一播放时段和所述第二播放时段对应所述基准动作。

4.根据权利要求2所述的方法，其特征在于，所述第一素材库通过以下方式构建，包括：

获得n个动作视频分片Vi，i≤N，N＝n²；

对于所述n个动作视频分片Vi中的每一个，生成所述动作视频分片Vi针对动作视频分片Vj的补帧动作视频分片Vij，以添加到所述第一素材库中，i和j相同或不同。

5.根据权利要求4所述的方法，其特征在于，所述生成所述动作视频分片Vi针对动作视频分片Vj的补帧动作视频分片Vij，包括：

生成所述动作视频分片Vi针对动作视频分片Vj的补帧视频分片Bij；

通过以下之一得到所述补帧动作视频分片Vij：将所述补帧视频分片Bij设置于所述动作视频分片Vi的最后一个视频帧之后，得到所述补帧动作视频分片Vij；或者，将所述补帧视频分片Bij设置于所述动作视频分片Vj的首个视频帧之前，得到所述补帧动作视频分片Vij；或者，将所述补帧视频分片Bij的第一部分设置干所述动作视频分片Vi的最后一个视频帧之后，并且将所述补帧视频分片Bij的第二部分设置于所述动作视频分片Vj的首个视频帧之前，得到所述补帧动作视频分片Vij。

6.根据权利要求1所述的方法，其特征在于，所述至少两个视频分片通过如下方式获得：

M第二素材库中获取至少两个动作视频分片Vi，其中，所述第二素材库包括n个动作视频分片Vi，每个动作视频分片Vi中的目标对象对应基准动作和至少一种特定动作，对于至少部分所述动作视频分片Vi中的每一个，所述动作视频分片Vi的目标对象在所述第一播放时段和所述第二播放时段对应所述基准动作，所述基准动作和所述特定动作相同或者不同，其中，n是大干或者等于2的整数，i是大干或者等于1的整数；

将所述至少两个动作视频分片Vi作为所述至少两个视频分片。

7.根据权利要求1所述的方法，其特征在于，所述音频分片包括多个播放时段；

所述根据所述至少两个视频分片得到目标分片，包括：

确定所述音频分片的各播放时段与所述至少两个视频分片各自之间的映射关系；

基于所述映射关系将所述至少两个视频分片按照所述音频分片的播放时段进行拼接，得到所述目标分片。

8.根据权利要求7所述的方法，其特征在于，所述确定所述音频分片的各播放时段与所述至少两个视频分片各自之间的映射关系，包括：

分析所述音频分片，得到声音特征；和/或，分析与所述音频分片对应的文本信息，得到语义特征；

确定所述声音特征和/或语义特征与所述至少两个视频分片各自之间的映射关系。

9.根据权利要求1至8任一项所述的方法，其特征在于：

第一相似度大干第二相似度，其中，所述第一相似度是所述第一视频分片在所述第一播放时段的在后视频帧与所述第二视频分片的首个视频帧之间的相似度，所述第二相似度是所述第一视频分片在所述第一播放时段的在前视频帧与所述第二视频分片的首个视频帧之间的相似度，所述第一视频分片和所述第二视频分片的多个视频帧各自按照时序排列，所述在前视频帧排在所述在后视频帧之前；或者

第三相似度大于第四相似度，其中，所述第三相似度是所述第二视频分片的在所述第二播放时段的在前视频帧与所述第一视频分片的最后一个视频帧之间的相似度，所述第四相似度是所述第二视频分片的在所述第二播放时段的在后视频帧与所述第一视频分片的最后一个视频帧之间的相似度，所述第一视频分片和所述第二视频分片的多个视频帧各自按照时序排列，所述在前视频帧排在所述在后视频帧之前。

10.一种视频处理装置，其特征在于，所述装置包括：

至少一个处理器、存储器和输入输出模块；

其中，所述输入输出模块用于接收信息和发送信息，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行根据权利要求1-9中任一项方法。