CN114845160B

CN114845160B - 一种语音驱动视频处理方法、相关装置及存储介质

Info

Publication number: CN114845160B
Application number: CN202210460682.9A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Shengshu Technology Co ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2024-04-23
Anticipated expiration: 2042-04-28
Also published as: CN114845160A

Abstract

本申请实施例涉及音视频处理领域，提供一种语音驱动视频处理方法、相关装置及存储介质，该方法包括：获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长；根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长；利用音频分片驱动目标分片，得到经驱动的目标分片；第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧。本方案能够提高视频拼接处的图像连贯性和稳定性。

Description

一种语音驱动视频处理方法、相关装置及存储介质

技术领域

本申请实施例涉及音视频处理技术领域，尤其涉及一种语音驱动视频处理方法、相关装置及存储介质。

背景技术

相关技术中为了录制视频，可以通过拍摄装置对拍摄对象进行视频录制。例如，为了录制教师的教学视频，可以通过拍摄装置对教师的教学过程进行视频录制。但是，录制过程对拍摄对象、拍摄人员、拍摄器材和拍摄场地等的要求较高，导致录制成本较高。相关技术可以采用视频合成技术生成教学视频，来降低视频录制成本。

在对现有技术的研究和实践过程中，本申请实施例的发明人发现，为了提升视频中拍摄对象的真实度，可以采用包括拍摄对象的背景视频，以生成所需的视频。为了降低背景视频的拍摄难度和拍摄成本，可以拍摄播放时长较短的视频片段，然后通过视频片段拼接的方式生成所需背景视频。然而，拼接后的视频片段在进行播放时，拼接处的视频展示效果较低，如容易出现图像抖动、图像跳变等。

发明内容

本申请实施例提供了一种语音驱动视频处理方法、相关装置及存储介质，能够提高视频拼接处的图像连贯性和稳定性。

第一方面中，本申请实施例提供的一种语音驱动视频处理方法，该方法包括：获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长；根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长；利用音频分片驱动目标分片，得到经驱动的目标分片；其中，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一播放时段的结束播放时刻与第二播放时段的起始播放时刻相同。

一种可能的设计中，第一播放时段和第二播放时段的至少部分视频帧相同，其中，第一播放时段的至少最后一个视频帧和第二播放时段的至少第一个视频帧相同。

一种可能的设计中，上述方法还包括：获得训练数据集，训练数据集中的训练数据包括训练音频分片、训练视频分片和目标视频分片；对于训练音频分片中的第j个音频帧和训练视频分片中的第k个视频帧，从第j个音频帧中提取音频特征，并从第k个视频帧中提取嘴部特征；其中，j和k之间存在对应关系，对应关系包括：N=⌈ j/k ⌉，或者，N=⌊ j/k ⌋，其中，j和k是大于或等于0的整数；将音频特征和嘴部特征输入嘴部图像生成模型，通过调整嘴部图像生成模型的模型参数，使得嘴部图像生成模型输出的嘴部图像与目标视频分片中的第k个视频帧中嘴部图像之间的差异小于差异阈值。

一种可能的设计中，在根据至少两个视频分片得到目标分片之后，上述方法还可以在服务器端拼接至少两个视频分片，得到目标分片。

一种可能的设计中，在根据至少两个视频分片得到目标分片之后，上述方法还可以在客户端拼接至少两个视频分片，得到目标分片。

第二方面中，本申请实施例提供一种视频处理装置，具有实现对应于上述第一方面提供的语音驱动视频处理方法的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。

第三方面中，本申请实施例提供一种视频处理装置，设置于服务器端和/或客户端中。

一种可能的设计中，该视频处理装置包括：获取模块、处理模块和驱动模块。其中，获取模块用于获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长。处理模块用于根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长，其中，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一播放时段的结束播放时刻与第二播放时段的起始播放时刻相同。驱动模块用于利用音频分片驱动目标分片，得到经驱动的目标分片。

本申请实施例又一方面提供了一种视频处理装置，其包括至少一个连接的处理器、存储器和收发器，其中，存储器用于存储计算机程序，处理器用于调用存储器中的计算机程序来执行上述第一方面、第一方面中的各种可能的设计中提供的方法。

本申请实施例又一方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面、第一方面中的各种可能的设计中提供的方法。

相较于现有技术，本申请实施例提供的方案中，根据至少两个视频分片得到目标分片的过程中，由于第一视频分片的至少最后一个视频帧和相邻的第二视频分片的至少第一个视频帧相同，使得第一视频分片在第一播放时段以及第二视频分片在第二播放时段的播放图像可以相同。这样实现了第一播放时段和第二播放时段中没有跳变的帧，第一视频分片和第二视频分片的拼接处没有跳变的帧。本申请有效改善了目标分片在进行播放时，第一分片和第二分片之间在拼接处的视频展示效果较低的问题。

附图说明

图1为本申请实施例提供的一种服务器示意图；

图2为本申请实施例提供的一种应用场景示意图；

图3为本申请实施例中语音驱动视频处理方法的一种流程示意图；

图4为本申请实施例中目标分片的拼接处的播放效果的示意图；

图5为本申请实施例中另一种目标分片的拼接处的播放效果的示意图；

图6为本申请实施例中语音驱动视频处理视频的过程示意图；

图7为本申请实施例中一种与拼接处对应的音频分片的示意图；

图8为本申请实施例中另一种与拼接处对应的音频分片的示意图；

图9为本申请实施例中一种截取多于音频分片的示意图；

图10为本申请实施例中生成视频的过程示意图；

图11为本申请实施例中视频处理装置的一种结构示意图；

图12为本申请实施例中执行操作提示方法的实体装置的一种结构示意图；

图13为本申请实施例中服务器的一种结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

数字人技术需要使用不同的嘴形去同步不同的音频信息，以便生成逼真的数字人视频。具体地，需要将音频信号和数字人的口型之间建立起联系。例如，可以将音频特征（如音素、能量等）映射到视频特征（如嘴形特征）。人工智能（Artificial Intelligence，简称AI）可以自动学习音频特征和视频型特征之间的映射关系。例如，可以基于机器学习技术来构建音频特征和视频特征之间的映射关系。

为了提升数字人视频中的目标人的真实度，如提升授课老师的面容的真实还原度，可以采用包括目标人的背景视频生成数字人视频。数字人视频中音频的长度可以是由录制时长决定的，也可以是由特定文本的文本长度来决定的。音频的长度可以比较长，如40分钟、1小时或者更长等。为了保证背景视频的长度不短于音频的长度，以便合成数字人视频。在录制背景视频过程中需要目标人持续保持特定姿势。这种录制背景视频的方式给目标人带来了很大的身体和精神负担。此外，背景视频拍摄时对拍摄环境要求也较高，如尽量避免视频背景改变，需要租用的拍摄场地等的成本较高。

为了降低背景视频的拍摄难度和拍摄成本，可以拍摄长度较短的视频片段，如播放时长10秒、30秒、1分钟、3分钟或者10分钟等，然后通过视频片段拼接的方式生成所需背景视频。然而，背景视频中目标人的姿态不可避免的会发生改变（如轻微的晃动等），拼接后的视频片段在进行播放时，拼接处的视频展示效果较差，如容易出现图像抖动、图像跳变等。

本申请实施例供了一种语音驱动视频处理方法、相关装置及存储介质，可用于服务器或者终端设备。通过对视频分片进行特殊顺序的组合，能够有效减少因视频分片拼接，导致拼接处展示效果不满足用户需求的缺陷。

本申请实施例的方案可基于云技术和人工智能技术等来实现，具体来说涉及云技术中的云计算、云存储和数据库等技术领域，下面将分别进行介绍。

图1为本申请实施例提供的一种服务器示意图。需要注意的是，图1所示仅为可以应用本申请实施例的系统架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。

参见图1，根据本实施例的系统架构100可以包括多个服务器101、102、103。其中，不同的服务器101、102、103各自可以提供不同种类的服务。例如，服务器101可以提供文字识别服务，服务器102可以提供语音合成服务，服务器103可以提供图像处理服务。服务器101、102、103各自之间可以通过网络104互联。

例如，服务器101可以将从图像中识别的文字发送给服务器102，以便合成与文字对应的音频分片。服务器103可以对接收的视频分片进行图像处理。如服务器103可以接收音频分片和至少两个视频分片，并且根据至少两个视频分片得到目标分片。此外，服务器103还可以利用音频分片驱动目标分片，得到经驱动的目标分片等功能。服务器103还可以发送经驱动的目标分片、生成的嘴部图像、经驱动的视频帧等给终端设备，以便在终端设备上展示上述信息。例如，终端设备上可以展示经驱动的视频，实现视频教学等。例如，服务器103可以为后台管理服务器、服务器集群、云服务器等。

云服务器能够实现云计算（cloud computing），云技术指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算（Grid Computing）、分布式计算（DistributedComputing）、并行计算（Parallel Computing）、效用计算（Utility Computing）、网络存储（Network Storage Technologies）、虚拟化（Virtualization）、负载均衡（Load Balance）等传统计算机和网络技术发展融合的产物。

例如，云服务器可以提供人工智能云服务，也被称作是AI即服务（AI as aService，简称AIaaS）。AIaaS平台可以把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。图2为本申请实施例提供的一种应用场景示意图。

参见图2，示出了相关技术中经拼接的视频分片中视频帧的排列方式，以及在播放该经拼接的视频分片时展示的授课老师的图像。如该图像中示出授课老师的面部图像。

例如，视频分片1（简称分片1）包括视频帧a0~视频帧a（N-1），视频分片2（简称分片2）包括视频帧a0~视频帧a（N-1），视频分片3（简称分片3）包括视频帧a0~视频帧a（N-1）。此外，拼接的视频中可以包括更多或更少分片，各分片中的视频帧的数量可以相同或不同。相关技术中，在拼接分片1、分片2和分片3时，可以是按照正序拼接的方式进行拼接。由于授课老师在录制背景视频时，几乎不可能一直保持姿势完全不变。分片拼接处的相邻两帧，如图2中分片1的视频帧a（N-1）和分片2的视频帧a0之间的图像几乎不可能完全相同，这就导致播放视频帧a（N-1）的图像如图2下图中实线面部图像所示，播放视频帧a0中的图像如图2下图中虚线面部图像所示。由于这两者之间存在差异，导致播放视频时出现图像抖动等问题，影响播放效果。本申请的至少部分技术方案旨在对分片1和分片2进行拼接后，拼接处的视频帧被播放时，能最大程度上消除视频图像抖动等缺陷。

以下结合图3~图12对本申请实施例的技术方案进行示例性说明。

图3为本申请实施例中语音驱动视频处理方法的一种流程示意图。其中，语音驱动视频处理方法可以由服务器端执行。语音驱动视频处理方法也可以由客户端执行。此外，语音驱动视频处理方法的部分操作可以由服务器端执行，部分操作可以由客户端执行，在此不做限定。

参见图3，该语音驱动视频处理方法可以包括操作S310~操作S330。

在操作S310，获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长。

在本实施例中，可以由终端设备将采集的音频分片和/或多个视频分片发送给服务器。至少两个视频分片各自可以相同或不同。例如，可以通过复制的方式获得针对同一个视频分片的多个复制视频分片。视频分片可以是通过拍摄得到的，还可以是通过剪辑得到的。例如，从包括目标人的多帧视频帧中选取部分视频帧，得到该视频分片。

音频分片可以是由麦克风等采集的目标人的音频片段。该音频片段可以经过编辑、降噪等操作。此外，音频分片也可以是基于语音合成技术得到的音频片段。例如，服务器端通过调用语音合成平台提供的接口，输入目标文本信息，由语音合成平台合成与目标文本信息对应的音频片段。

操作S320，根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长。

由于音频片段的采集便捷度不差于视频片段的采集便捷度，并且音频片段可以基于目标文本自动生成，使得音频分片的播放时长可以较长。而背景视频较难拍摄高质量的长播放时长片段，这就使得音频分片的播放长度可能大于视频分片的播放时长，不便于生成具有相同播放时长的音频和视频的数字人影像信息。为了解决该问题，可以根据至少两个视频分片得到目标分片。例如，可以通过拼接视频分片的方式来增长视频分片的播放时长。

操作S330，利用音频分片驱动目标分片，得到经驱动的目标分片。

具体地，可以利用音频分片中一个或多个音频帧来驱动目标分片中的一个视频帧。例如，音频帧表征当前用户处于静默状态，则对应的视频帧中目标人的面部图像中，嘴部处于闭嘴状态。例如，音频帧表征当前用户处于说话状态，则对应的视频帧中目标人的面部图像中，嘴部处于张开状态。例如，音频帧表征当前用户处于发音“好”的状态，则对应的视频帧中目标人的面部图像中，嘴部处于与发音“好”相同的形状。

在实施例中，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一播放时段的结束播放时刻与第二播放时段的起始播放时刻相同。其中，第一播放时段和第二播放时段可以参考图4和图5等。

其中，第一视频分片和第二视频分片可以是需要拼接在一起的视频分片。与第一播放时段对应的视频帧可以是位于第一视频分片中尾部的帧。与第二播放时段对应的视频帧可以是位于第二视频分片中头部的帧。与第一播放时段对应的视频帧可以包括一帧或者多帧。与第二播放时段对应的视频帧可以包括一帧或者多帧。例如，与第一播放时段对应的视频帧可以包括最后一帧、最后两帧、最后三帧等。与第二播放时段对应的视频帧可以包括第一帧、前两帧、前三帧等。

在某些实施例中，第一播放时段的至少最后一个视频帧和第二播放时段的至少第一个视频帧相同。如果第一播放时段和第二播放时段的至少部分视频帧（如第一部分时段的最后一帧和第二播放时段的第一帧）的图像相同，则可以避免拼接处的视频帧被播放时，出现图像跳变的问题。

在某些实施例中，对于音频分片中的每个音频帧，根据至少两个视频分片得到目标分片可以包括如下操作。

首先，对于至少两个视频分片中的每一个视频分片，对该视频分片进行抽帧，得到视频帧序列。例如，可以从某个视频分片中抽取所有帧，并且各帧可以是按照拍摄顺序（正序）或者逆序进行排列的，得到视频帧序列。

然后，按照预设的视频分片拼接方式对至少两个视频帧序列中的视频帧进行排序，得到经合并的视频帧序列，视频分片拼接方式包括相邻的视频分片之间相互逆序拼接。例如，视频分片拼接方式包括：相邻的视频分片的视频帧序列之间相互逆序排列。

接着，按照预设帧率对经合并的视频帧序列进行组合，生成目标分片。

具体地，视频分片拼接方式包括：正-反-正-反-……，或者反-正-反-正-……。需要说明的是，视频分片中各视频帧的排列顺序不做特殊要求，如视频分片1和视频分片2之间可以正序拼接或者逆序拼接，只要不影响播放效果即可。此外，各视频分片的长度可以相同或不同。如第二个视频分片比第一个视频分片短一些，只要保证第二个视频分片的结尾视频帧和第一视频分片的起始视频帧相同，或者第一个视频的结尾视频帧和第二视频的起始视频帧相同即可。

例如，图2中的分片1的视频帧可以正序排列，分片2的视频帧可以逆序排列。图4为本申请实施例中目标分片的拼接处的播放效果的示意图。

参见图4，第一视频分片（分片1）包括视频帧a0至视频帧a（N-1），第二视频分片（分片2）包括视频帧a0~视频帧a（N-1）。但是，分片2中的视频帧的排列顺序相对于分片1中的视频帧的排列顺序是逆序排列的，分片3中的视频帧的排列顺序相对于分片2中的视频帧的排列顺序是逆序排列的。这样使得第一视频分片和第二视频分片相接处的视频帧都是视频帧a（N-1），第二视频分片和第三视频分片相接处的视频帧都是视频帧a0，即图像是完全相同的。这样就可以不同的视频分片相接处不会出现图像跳变。

参见图4的人物图像部分，示出了第一视频分片的视频帧a（N-1）和第二视频分片的视频帧a（N-1）被播放时的效果示意图。由于第一视频分片的视频帧a（N-1）和第二视频分片的视频帧a（N-1）完全相同，不会出现图像抖动、跳变等问题，有效提升视频播放效果。

图5为本申请实施例中另一种目标分片的拼接处的播放效果的示意图。

参见图5，第一视频分片（分片1）包括视频帧a0至视频帧a（N-1），第二视频分片包括视频帧a0至视频帧a（N-1），第三视频分片（分片3）包括视频帧a0至视频帧a（N-1）。但是，分片1的各视频帧是逆序排列的，分片2的各视频帧是正序排列的，分片3的各视频帧是逆序排列的。这样使得分片1和分片2相接处的视频帧都是视频帧a0，即图像是完全相同的。这样就可以保证分片1和分片2的相接处不会出现图像跳变。

此外，需要说明的是，由于多个视频分片各自可以为拍摄的连续视频帧，或者截取的连续视频帧，这些视频分片中也没有跳变帧，则通过拼接得到的目标分片中都不存在跳变帧，有效提升背景视频的质量。

图6为本申请实施例中音频驱动视频的过程示意图。

参见图6，可以由多个视频分片，如根视频（root_video），生成目标分片。用于驱动目标分片的音频分片，可以为驱动音频（driving_audio），音频分片可以包括多个音频帧。

为了便于理解本申请的技术方案，如音频帧和视频帧之间的对应关系，在此对音频帧的长度等进行示例性说明。

例如，一帧音频帧的播放时间长度为图像的帧率的倒数。如果图像的帧率为50fps，则表示一秒传输50帧画面，每帧视频帧需要20ms的播放时长，因此一个20ms的音频可以对应一帧视频帧。据此，将预设时间长度设置为帧率的倒数，可使分片段输出的音频与画面对应，即实现二者在时间上的对齐。

但是，在一些场景中，音频分片中音频帧的帧率和视频分片中视频帧的帧率不同。

例如，正常人听觉的频率范围大约在20Hz~20kHz之间。采样频率（samplerate）是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。例如，为了降低声音的失真率，采样频率可以大于16kHz。常用的音频采样频率有8kHz、11.025kHz、16kHz、22.05kHz、37.8kHz、44.1kHz、48kHz等。例如，可以按200个采样点形成一帧音频帧。

采样率为16KHz，表示每秒16000个采样点，音频帧的播放时长= 一个高级音频编码（Advanced Audio Coding，简称ACC）帧对应的采样点个数 / 采样频率，则对于80 fps的音频帧的帧率而言，当前一帧音频帧的播放时长 = 200 * 1000/16000= 12.5毫秒（ms）。视频帧的帧率可以为25 fps左右即可满足视频播放效果，一秒传输25帧画面，那么每帧画面需要1000 ÷ 25 = 40 ms的时长。可以看出，两者之间的播放时长不同。

为了便于生成包括等播放时长音频和视频的数字人信息，可以按照如下方式确定视频帧和音频帧之间的对应关系。

在某些实施例中，至少两个视频分片中的各视频分片的帧率为第一帧率f1，音频分片的帧率为第二帧率f2，第二帧率f2大于第一帧率f1。

相应地，视频分片的一帧对应音频分片的N帧，其中，N =⌈f2/f1⌉，⌈⌉为上取整，或者，N =⌊f2/f1⌋，⌊ ⌋为下取整。

如果第一帧率f1和第二帧率f2之间是整数倍关系，则按照整数倍关系确定音频帧和视频帧之间的关系即可。如果第一帧率f1和第二帧率f2之间不是整数倍关系，则可以通过取整的方式来确定音频帧和视频帧之间的对应关系。

在某些实施例中，在利用音频分片驱动目标分片之前，上述方法还可以包括：如果f2/f1是大于1的小数，并且N =⌈f2/f1⌉，则确定第一播放时段的结束播放时刻的音频帧与第二播放时段的起始播放时刻的音频帧之间存在重叠。

相应地，利用音频分片驱动目标分片可以包括如下操作。

首先，确定第一对应关系，第一对应关系包括：音频分片的第i×N个音频帧至第（N×（i+1）-1）个音频帧对应目标分片的第i个视频帧，其中，第（N×（i+1）-1）个音频帧的重叠部分还对应目标分片的第（i+1）个视频帧。

然后，基于第一对应关系利用音频帧驱动与音频帧对应的视频帧，得到经驱动的目标视频帧。

以第（N×（i+1）-1）个音频帧的重叠部分还对应目标分片的第（i+1）个视频帧为例进行示例性说明。图7为本申请实施例中一种与拼接处对应的音频分片的示意图。

参见图7，一个视频帧（如ai等）可以对应多个音频帧（bi，如b0 ~ b（N-1）），i表示序号，如i可以为1,2,3…。音频帧和视频帧之间的倍数关系可以表示为N。则用于驱动第0个视频帧a0的音频帧可以包括：第0个音频帧b0至第（N-1）个音频帧b（N-1）。用于驱动第1个视频帧a1的音频帧可以包括：第N个音频帧b（N）至第（2×N-1）个音频帧b（2×N-1）。其中，由于对音频帧的个数进行了上取整操作，会导致第（N-1）个音频帧b（N-1）和第N个音频帧b（N）中的部分采样点都用于驱动第1个视频帧a1，导致这两个音频帧b（N-1）和b（N）之间存在一定的重叠。以f2和f1各自为80 fps和25 fps为例，⌈f2/f1⌉=⌈3.2⌉=4，重叠率为4-3.2=0.8，则重叠时长为1000/80*0.8=10毫秒，人耳的灵敏度察觉不到该重叠，不影响播放效果。

在某些实施例中，在利用音频分片驱动目标分片之前，上述方法还可以包括：如果f2/f1是大于1的小数，并且N =⌊f2/f1⌋，则确定第一播放时段的结束播放时刻的音频帧与第二播放时段的起始播放时刻的音频帧之间相互分离。

相应地，利用音频分片驱动目标分片可以包括如下操作。

首先，确定第二对应关系，第二对应关系包括：音频分片的第i×N个音频帧至第（N×（i+1）-1）个音频帧对应目标分片的第i个视频帧，其中，第i个视频帧的与上述相互分离之处对应部分处于静默状态。

然后，基于第二对应关系利用音频帧驱动与音频帧对应的视频帧，得到经驱动的目标视频帧。

以第i个视频帧的与相互分离之处对应部分处于静默状态为例，进行示例性说明。图8为本申请实施例中另一种与拼接处对应的音频分片的示意图。

参见图8，与图7不同的是，由于对音频帧的个数进行了下取整操作，则会导致第N-1个音频帧b（N-1）仅能够覆盖第0个视频帧a0的部分播放时长，没有覆盖第0个视频帧a0的最后播放时段，导致这两个音频帧b（N-1）、b（N）之间存在一定的时间间隔。以f2和f1各自为80 fps和25 fps为例，⌊f2/f1⌋=⌊3.2⌋=3，分隔率为3.2-3=0.2，则分隔时长为1000/80*0.2=2.5毫秒，人耳的灵敏度察觉不到该分隔时段，不影响播放效果。

通过以上实施例，得到的目标分片中不存在跳变帧，有效提升背景视频的质量。此外，可以建立起目标分片中的视频帧和音频分片中的音频帧之间的对应关系，有助于生成数字人视频。

在某些实施例中，经拼接得到的视频分片和音频分片的播放时长可能不一致，可以通过裁剪操作等使得视频分片和音频分片的播放时长保持一致。具体地，根据至少两个视频分片得到目标分片可以包括如下操作，如果至少两个视频分片的总播放时长大于音频分片的播放时长，则对基于音频分片的播放时长对至少两个视频分片进行剪切，得到目标分片，目标分片的播放时长与音频分片的播放时长相一致。

图9为本申请实施例中一种截取多余音频分片的示意图。

参见图9，通过诸如拼接等方法得到视频分片之后，该视频分片的播放时长可能比音频分片的播放时长长。这可能是由于音频分片的播放时长和视频分片的播放时长之间不是整数倍等原因导致。

为了解决该问题，使得音频分片的播放时长和目标分片的播放时长保持一致，可以对视频分片进行诸如裁剪等操作，如去除多余的视频帧。

例如，根据至少两个视频分片得到目标分片可以包括：如果至少两个视频分片的总播放时长大于音频分片的播放时长，则对基于音频分片的播放时长对至少两个视频分片进行剪切，得到目标分片，目标分片的播放时长与音频分片的播放时长相一致。

以下对音频分片驱动视频分片的过程进行示例性说明。

在某些实施例中，利用音频分片驱动目标分片可以包括：利用音频分片中的至少部分音频帧逐一驱动目标分片中的至少部分视频帧。其中，可以使用多帧音频帧驱动一帧视频帧。例如，对于音频分片中的每个音频帧，基于音频帧的音频特征驱动与音频帧对应的视频帧。

多帧音频帧的音频特征和目标人的嘴部形状特征之间存在对应关系，以便基于多帧音频帧生成目标人的嘴部图像。

图10为本申请实施例中生成视频的过程示意图。

参见图10，服务器端响应于获得的音频分片（如音频小片段）和视频帧的嘴部图像，分别进行特征提取，得到音频特征和视频特征（如嘴部特征）。然后将融合后的特征（如拼接的音频特征和嘴部特征）输入解码器中进行解码，得到针对音频小段中音频帧对应的经驱动的嘴部图像。这样就可以利用嘴部图像替换相对应的视频帧背景图像中的嘴部图像，得到经驱动的视频帧图像。

其中，嘴部特征可以是由诸如神经网络自动提取的特征。嘴部特征也可以是基于预设规则提取的特征，如多个特征点分别表示嘴角位置、上嘴唇中间位置、下嘴唇中间位置等，这样便于基于多个点的位置表征嘴的形状。嘴部特征可以是由神经网络自动提取的特征和基于预设规则提取的特征的组合，在此不做限定。

音频特征可以是嘴部特征可以是由诸如神经网络自动提取的特征。音频特征也可以是基于预设规则提取的特征，如梅尔频率倒谱系数（Mel-frequency cepstralcoefficients，MFCC）、过零率、短时能量、短时自相关函数、语谱图、短时功率谱密度、短时平均幅度差、谱熵、基频或者共振峰等中至少一种。嘴部特征可以是由神经网络自动提取的特征和基于预设规则提取的特征的组合，在此不做限定。

例如，关于梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如：对于一帧有512维（采样点）数据，经过MFCC后可以提取出最重要的40维（一般而言）数据同时也达到了将维的目的。关于其它音频特征，在此不再一一列举。

以上已经对音频特征和嘴部特征进行示例性说明，以下对基于音频特征和嘴部特征得到经驱动的视频为例进行示例性说明。

在某些实施例中，对于视频分片中的第i个视频帧，基于音频帧的音频特征驱动与音频帧对应的视频帧可以包括如下操作：至少基于第N×i个音频帧到第（N×（i+1）-1）个音频帧的音频特征，调整目标分片中第i个视频帧的图像，得到经驱动的第i个视频帧，其中，N= ⌈f2/f1⌉，⌈⌉为上取整，或者，N = ⌊ f2/f1⌋，⌊⌋为下取整，i是大于或者等于0的整数。例如，基于第0个音频帧至第（N-1）个音频帧的音频特征，调整目标分片中第0个视频帧的图像。

在某些实施例中，请一并参见图10，至少基于第N×i个音频帧到第（N×（i+1）-1）个音频帧的音频特征，调整目标分片中第i个视频帧的图像，得到经驱动的第i个视频帧可以包括如下操作。

首先，从第N×i个音频帧到第（N×（i+1）-1）个音频帧中提取音频特征，并且从第i个视频帧中提取目标人的嘴部特征。例如，提取第0个音频帧至第（N-1）个音频帧的音频特征，并且从第0个视频帧中提取目标人的嘴部特征。

然后，利用嘴部图像生成模型处理音频特征和嘴部特征，得到与第N×i个音频帧到第（N×（i+1）-1）个音频帧对应的嘴部图像。例如，得到与第0个音频帧至第（N-1）个音频帧对应的嘴部图像。

接着，利用嘴部图像替换第i个视频帧中目标人的嘴部图像，得到经驱动的第i个视频帧。例如，利用基于第0个音频帧b0至第N-1个音频帧b（N-1）生成的嘴部图像，替换经拼接得到的视频片段中第0个视频帧a0的嘴部图像。

在某些实施例中，嘴部图像生成模型可以包括：特征融合模块和解码器。

其中，特征融合模块用于融合音频特征和嘴部特征，得到融合特征。解码器与特征融合模块相连，用于对融合特征进行解码，得到嘴部图像。

例如，嘴部图像生成模型可以为神经网络，该神经网络可以包括声音编码器、图像编码器、图像解码生成器。

例如，将音频分片的声音频谱图输入声音编码器，通过卷积层提取声音特征。同时将声音频分片对应的多个视频帧的图像输入到图像编码器中，通过卷积层提取图像特征。接着将提取好的音频特征和视频特征输入解码器，最终生成与音频分片同步的嘴唇图像序列。嘴唇图像的图像分辨率包括但不限于96*96、128*128、256*256、512*512等，可以根据用户需求进行设定。

此外，为了生成更加符合目标人的嘴唇图像，解码器的输入中还可以包括基于规则提取的特征如人脸唇形关键点轮廓、头部轮廓以及背景等。通过增加基于规则提取的特征，可对生成的嘴唇图像进行更加精细地控制，生成更加可控的高清图像。

在某些实施例中，请一并参考图10，视频帧背景图片还可以经过预处理，以将背景图片中的嘴部图像去除，降低背景图像中的嘴部图像和生成的嘴部图像同时展示在驱动后的视频帧图片中的风险，提升容错能力。

在某些实施例中，上述方法还可以通过如下方式训练嘴部图像生成模型。以嘴部图像生成模型是神经网络为例，该方法可以包括如下操作。

首先，获得训练数据集，训练数据集中的训练数据包括训练音频分片、训练视频分片和目标视频分片。

然后，对于训练音频分片中的第j个音频帧和训练视频分片中的第k个视频帧，从第j个音频帧中提取音频特征，并且从第k个视频帧中提取嘴部特征。其中，j和k之间存在对应关系，对应关系包括：N=⌈j/k⌉，或者，N=⌊ j/k ⌋，其中，j和k是大于或等于0的整数。

接着，将音频特征和嘴部特征输入嘴部图像生成模型，通过调整嘴部图像生成模型的模型参数，使得嘴部图像生成模型输出的嘴部图像与目标视频分片中的第k个视频帧中嘴部图像之间的差异小于差异阈值。例如，通过最小化损失函数来得到模型参数。其中，模型参数包括但不限于：权重和偏移量。

具体地，嘴部图像生成模型将在训练过程中学习到音频特征和视频特征之间的映射关系，使得生成的人脸唇形图像序列更加流畅自然，根据不同视频场景与说话人物的生成要求。

例如，判别网络根据音频分片和嘴唇图像序列进行嘴唇同步判别，得到嘴唇同步判别值，根据嘴唇同步判别值对嘴部图像生成模型进行优化。例如，判别网络根据嘴唇图像序列与目标视频分片中的若干帧图像得到图像真实度概率值，并根据图像真实度概率值对嘴部图像生成模型进行优化。

在某些实施例中，判别网络可分为嘴唇同步判别网络与图像质量判别网络。嘴唇同步判别网络用于在训练的过程中，对嘴部图像生成模型生成的嘴唇同步做检测，并给出嘴唇同步判别值，这样便于训练嘴部图像生成模型生成更真实同步的嘴唇图像。图像质量判别网络用于在训练的过程中，对图像质量进行检测，并输出生成的嘴部图像和目标图像之间的真实度概率值，这样便于训练嘴部图像生成模型生成更高清真实的图像。

例如，嘴唇同步判别网络可以为预训练网络，输入为音频分片以及对应生成的嘴唇图像，输出为每张嘴唇图像与对应的音频分片的同步匹配度，判别器通过判断并给出嘴唇同步判别值，进而训练嘴部图像生成模型进行优化改进，生成与声音更加同步的嘴唇图像。图像质量判别网络与嘴部图像生成模型同时进行训练，图像质量判别网络的输入为生成的嘴唇图像与目标视频分片中视频帧的嘴唇图像，输出为图像真实度概率值。图像质量判别网络用于对生成的图像质量的好坏进行判断，在训练的过程中训练嘴部图像生成模型生成出更加逼真的嘴唇图像。

在某些实施例中，嘴部图像生成模型的输入还可以包括人脸围绕铅垂线的旋转角度。由于背景视频中目标人可能会存在一些动作，如转头、点头等动作。如果生成的嘴部图像都是针对一个角度下生成的嘴唇图像，则可能不适用于这些特定场景下，如造成嘴部图像和人脸图像不适配。在嘴部图像生成模型的输入中增加旋转角度，能够得到针对该旋转角度下的嘴唇图像，提升合成视频的真实度。

本申请实施例中，为了解决拼接处的视频帧之间存在跳变，采取了相邻的视频分片中的各视频帧相互逆序排列的方式，实现了拼接处的两个视频帧之间的图像相同，有效避免了图像跳变等异常情况。此外，一帧或多帧音频帧驱动一帧视频帧，通过视频分片拼接、多余帧裁剪等方式使得视频播放时长与音频分片的播放时长基本相同。

本申请实施例中，通过多个视频分片拼接的方式，得到背景视频，以便对背景视频进行嘴部图像替换。其中，替换后的嘴部视频的动作是由音频来驱动的。

本申请还提供了一种视频处理装置。

图11为本申请实施例中视频处理装置的一种结构示意图。

参见图11，该视频处理装置1100可以包括获取模块1110、处理模块1120和驱动模块1130。

其中，获取模块1110用于获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长。

处理模块1120用于根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长。

驱动模块1130用于利用音频分片驱动目标分片，得到经驱动的目标分片；其中，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一播放时段的结束播放时刻与第二播放时段的起始播放时刻相同。

图12为本申请实施例中执行操作提示方法的实体装置的一种结构示意图。

参阅图12，如图12所示的如电子设备1200的结构示意图。本申请实施例中的如电子设备1200能够实现对应于上述图3所对应的实施例中所执行的语音驱动视频处理方法的操作。如电子设备1200实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。如电子设备1200可包括处理模块、存储模块，处理模块的功能实现可参考图3所对应的实施例中所执行的操作，此处不作赘述。

具体地，该电子设备1200包括：存储器1210和至少一个处理器1220。此外，该电子设备1200还可以包括收发器。

其中，存储器1210用于存储计算机程序，处理器1220用于调用存储器1210中存储的计算机程序来执行如上述的方法。

一些实施方式中，处理器1220还用于实现确定第一对应关系，第一对应关系包括：音频分片的第i×N个音频帧至第（N×（i+1）-1）个音频帧对应目标分片的第i个视频帧，其中，第（N×（i+1）-1）个音频帧的重叠部分还对应目标分片的第（i+1）个视频帧；基于第一对应关系利用音频帧驱动与音频帧对应的视频帧，得到经驱动的目标视频帧。

一些实施方式中，处理器1220还用于实现确定第二对应关系，第二对应关系包括：音频分片的第i×N个音频帧至第（N×（i+1）-1）个音频帧对应目标分片的第i个视频帧，其中，第i个视频帧的与相互分离对应部分处于静默状态；基于第二对应关系利用音频帧驱动与音频帧对应的视频帧，得到经驱动的目标视频帧。

一些实施方式中，处理模块可用于对于至少两个视频分片中的每一个视频分片，对该视频分片进行抽帧，得到视频帧序列；按照预设的视频分片拼接方式对至少两个视频帧序列中的视频帧进行排序，得到经合并的视频帧序列，视频分片拼接方式包括相邻的视频分片之间相互逆序拼接。按照预设帧率对经合并的视频帧序列进行组合，生成目标分片。

一些实施方式中，处理模块可用于对于音频分片中的每个音频帧，基于音频帧的音频特征驱动与音频帧对应的视频帧。

一些实施方式中，处理模块可用于对于音频分片中的第i个视频帧，至少基于第N×i个音频帧到第（N×（i+1）-1）个音频帧的音频特征，调整目标分片中第i个视频帧的图像，得到经驱动的第i个视频帧，其中，N = ⌈f2/f1⌉，⌈⌉为上取整，或者，N = ⌊ f2/f1⌋，⌊⌋为下取整，i是大于或者等于0的整数。

一些实施方式中，处理模块可用于从第N×i个音频帧到第（N×（i+1）-1）个音频帧中提取音频特征，并且从第i个视频帧中提取目标人的嘴部特征；利用嘴部图像生成模型处理音频特征和嘴部特征，得到与第N×i个音频帧到第（N×（i+1）-1）个音频帧对应的嘴部图像；利用嘴部图像替换第i个视频帧中目标人的嘴部图像，得到经驱动的第i个视频帧。

一些实施方式中，处理模块可用于获得训练数据集，训练数据集中的训练数据包括训练音频分片、训练视频分片和目标视频分片；对于训练音频分片中的第j个音频帧和训练视频分片中的第k个视频帧，从第j个音频帧中提取音频特征，并且从第k个视频帧中提取嘴部特征；将音频特征和嘴部特征输入嘴部图像生成模型，通过调整嘴部图像生成模型的模型参数，使得嘴部图像生成模型输出的嘴部图像与目标视频分片中的第k个视频帧中嘴部图像之间的差异小于差异阈值。

一些实施方式中，处理模块可用于如果至少两个视频分片的总播放时长大于音频分片的播放时长，则对基于音频分片的播放时长对至少两个视频分片进行剪切，得到目标目标分片，目标分片的播放时长与音频分片的播放时长相一致。

本申请的另一方面还提供了一种服务器。

图13为本申请实施例中服务器的一种结构示意图。

参见图13，该服务器130可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（英文全称：central processing units，英文简称：CPU）1322（例如，一个或一个以上处理器）和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330（例如一个或一个以上海量存储设备）。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1320上执行存储介质1330中的一系列指令操作。

服务器1320还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341，例如Windows Server，Mac OS X，Unix, Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器1320的结构。例如上述实施例中由图11所示的装置1100所执行的步骤可以基于该图13所示的服务器结构。例如，处理器1322通过调用存储器1332中的指令，执行以下操作。

通过输入输出接口1358获得音频分片和至少两个视频分片，音频分片的播放时长至少长于至少两个视频分片中的各视频分片的播放时长。

根据至少两个视频分片得到目标分片，目标分片的播放时长大于或者等于音频分片的播放时长。

利用音频分片驱动目标分片，得到经驱动的目标分片。

其中，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，第一播放时段的起始播放时刻晚于第一视频分片的播放起始时刻，第二播放时段的结束播放时刻提前于第二视频分片的结束播放时刻，第一播放时段的结束播放时刻与第二播放时段的起始播放时刻相同。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机计算机程序时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘Solid StateDisk（SSD））等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种语音驱动视频处理方法，其特征在于，所述方法包括：

获得音频分片和至少两个视频分片，所述音频分片的播放时长至少长于所述至少两个视频分片中的各视频分片的播放时长；视频分片中目标人持续保持特定姿势；

根据所述至少两个视频分片得到目标分片，所述目标分片的播放时长大于或者等于所述音频分片的播放时长，所述视频分片拼接方式包括相邻的视频分片之间相互逆序拼接；所述至少两个视频分片为不包含跳变帧的连续视频帧；

利用所述音频分片驱动所述目标分片，得到经驱动的目标分片；利用所述音频分片中至少一个音频帧驱动所述目标分片中的一个视频帧；

其中，第一视频分片在第一播放时段以及第二视频分片在第二播放时段没有跳变的帧，所述第一播放时段的起始播放时刻晚于所述第一视频分片的播放起始时刻，所述第二播放时段的结束播放时刻提前于所述第二视频分片的结束播放时刻，所述第一播放时段的结束播放时刻与所述第二播放时段的起始播放时刻相同；

其中，对于所述视频分片中的第i个视频帧，至少基于第N×i个音频帧到第（N×（i+1）-1）个音频帧的音频特征，调整所述目标分片中第i个视频帧的图像，得到经驱动的第i个视频帧，所述N用于表示音频帧和视频帧之间的倍数关系，所述i用于表示序号，包括：

从所述第N×i个音频帧到所述第（N×（i+1）-1）个音频帧中提取音频特征，并且从所述第i个视频帧中提取目标人的嘴部特征、人脸唇形关键点轮廓和头部轮廓；

利用嘴部图像生成模型处理所述音频特征和所述嘴部特征，得到与所述第N×i个音频帧到所述第（N×（i+1）-1）个音频帧对应的嘴部图像；

利用所述嘴部图像替换所述第i个视频帧中所述目标人的嘴部图像，得到所述经驱动的第i个视频帧。

2.根据权利要求1所述的方法，其特征在于，所述至少两个视频分片中的各视频分片的帧率为第一帧率f1，所述音频分片的帧率为第二帧率f2，所述第二帧率f2大于所述第一帧率f1；

所述视频分片的一帧对应所述音频分片的N帧，其中，，/>为上取整，或者，，/>为下取整。

3.根据权利要求1所述的方法，其特征在于，在所述利用所述音频分片驱动所述目标分片之前，所述方法还包括：

如果f2/f1是大于1的小数，并且，则确定所述第一播放时段的结束播放时刻的音频帧与所述第二播放时段的起始播放时刻的音频帧之间存在重叠；

所述利用所述音频分片驱动所述目标分片，包括：

确定第一对应关系，所述第一对应关系包括：所述音频分片的第i×N个音频帧至第（N×（i+1）-1）个音频帧对应所述目标分片的第i个视频帧，其中，所述第（N×（i+1）-1）个音频帧的重叠部分还对应所述目标分片的第（i+1）个视频帧；

基于所述第一对应关系利用所述音频帧驱动与所述音频帧对应的视频帧，得到经驱动的目标视频帧。

4.根据权利要求1所述的方法，其特征在于，在所述利用所述音频分片驱动所述目标分片之前，所述方法还包括：

如果f2/f1是大于1的小数，并且，则确定所述第一播放时段的结束播放时刻的音频帧与所述第二播放时段的起始播放时刻的音频帧之间相互分离；

所述利用所述音频分片驱动所述目标分片，包括：

确定第二对应关系，所述第二对应关系包括：所述音频分片的第i×N个音频帧至第（N×（i+1）-1）个音频帧对应所述目标分片的第i个视频帧，其中，所述第i个视频帧的与所述相互分离对应部分处于静默状态；

基于所述第二对应关系利用所述音频帧驱动与所述音频帧对应的视频帧，得到经驱动的目标视频帧。

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少两个视频分片得到目标分片，包括：

对于所述至少两个视频分片中的每一个视频分片，对该视频分片进行抽帧，得到视频帧序列；

按照预设的视频分片拼接方式对至少两个视频帧序列中的视频帧进行排序，得到经合并的视频帧序列；

按照预设帧率对所述经合并的视频帧序列进行组合，生成所述目标分片。

6.根据权利要求1所述的方法，其特征在于，所述第一播放时段和所述第二播放时段的至少部分视频帧相同，其中，所述第一播放时段的至少最后一个视频帧和所述第二播放时段的至少第一个视频帧相同。

7.根据权利要求2至6任一项所述的方法，其特征在于，所述利用所述音频分片驱动所述目标分片包括：对于所述音频分片中的每个音频帧，基于所述音频帧的音频特征驱动与所述音频帧对应的视频帧。

8.根据权利要求7所述的方法，其特征在于，，/>为上取整，或者，/>，为下取整，i是大于或者等于0的整数。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得训练数据集，所述训练数据集中的训练数据包括训练音频分片、训练视频分片和目标视频分片；

对于所述训练音频分片中的第j个音频帧和所述训练视频分片中的第k个视频帧，从所述第j个音频帧中提取音频特征，并从所述第k个视频帧中提取嘴部特征；其中，j和k之间存在对应关系，对应关系包括：，或者，/>，其中，j和k是大于或等于0的整数；

将所述音频特征和所述嘴部特征输入所述嘴部图像生成模型，通过调整所述嘴部图像生成模型的模型参数，使得所述嘴部图像生成模型输出的嘴部图像与所述目标视频分片中的第k个视频帧中嘴部图像之间的差异小于差异阈值。

10.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述至少两个视频分片得到目标分片，包括：

如果所述至少两个视频分片的总播放时长大于所述音频分片的播放时长，则对基于所述音频分片的播放时长对所述至少两个视频分片进行剪切，得到所述目标分片，所述目标分片的播放时长与所述音频分片的播放时长相一致。

11.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述至少两个视频分片得到目标分片包括：

在服务器端拼接所述至少两个视频分片，得到所述目标分片。

12.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述至少两个视频分片得到目标分片包括：

在客户端拼接所述至少两个视频分片，得到所述目标分片。

13.一种视频处理装置，其特征在于，所述装置包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储计算机程序，所述处理器用于：

根据所述至少两个视频分片得到目标分片，所述目标分片的播放时长大于或者等于所述音频分片的播放时长，所述视频分片拼接方式包括相邻的视频分片之间相互逆序拼接；

所述处理器还用于：

从所述第N×i个音频帧到所述第（N×（i+1）-1）个音频帧中提取音频特征，并且从所述第i个视频帧中提取目标人的嘴部特征、人脸唇形关键点轮廓和头部轮廓；所述N用于表示音频帧和视频帧之间的倍数关系，所述i用于表示序号；

14.根据权利要求13所述的装置，其特征在于，所述至少两个视频分片中的各视频分片的帧率为第一帧率f1，所述音频分片的帧率为第二帧率 f2，所述第二帧率f2大于所述第一帧率f1；

15.根据权利要求13所述的装置，其特征在于，所述处理器还用于：

16.根据权利要求13所述的装置，其特征在于，所述处理器还用于：

17.根据权利要求13所述的装置，其特征在于，所述处理器还用于：

18.根据权利要求13所述的装置，其特征在于，所述第一播放时段和所述第二播放时段的至少部分视频帧相同，其中，所述第一播放时段的至少最后一个视频帧和所述第二播放时段的至少第一个视频帧相同。

19.根据权利要求13至18任一项所述的装置，其特征在于，所述处理器具体用于：对于所述音频分片中的每个音频帧，基于所述音频帧的音频特征驱动与所述音频帧对应的视频帧。

20.根据权利要求19所述的装置，其特征在于，所述处理器用于：

对于所述视频分片中的第i个视频帧，至少基于第N×i个音频帧到第（N×（i+1）-1）个音频帧的音频特征，调整所述目标分片中第i个视频帧的图像，得到经驱动的第i个视频帧，其中，，/>为上取整，或者，/>，/>为下取整，i是大于或者等于0的整数。

21.根据权利要求13所述的装置，其特征在于，所述处理器还用于：

22.根据权利要求13至18任一项所述的装置，其特征在于，所述处理器具体用于：如果所述至少两个视频分片的总播放时长大于所述音频分片的播放时长，则对基于所述音频分片的播放时长对所述至少两个视频分片进行剪切，得到所述目标分片，所述目标分片的播放时长与所述音频分片的播放时长相一致。

23.根据权利要求13至18任一项所述的装置，其特征在于，所述处理器具体用于：在服务器端拼接所述至少两个视频分片，得到所述目标分片。

24.根据权利要求13至18任一项所述的装置，其特征在于，所述处理器具体用于：在客户端拼接所述至少两个视频分片，得到所述目标分片。

25.一种计算机可读存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行根据权利要求1-12中任一项方法。