CN116074577A

CN116074577A - 视频处理方法、相关装置及存储介质

Info

Publication number: CN116074577A
Application number: CN202211667935.6A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Shengshu Technology Co ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-05-05
Anticipated expiration: 2042-12-23
Also published as: CN116074577B

Abstract

本申请实施例涉及计算机视觉领域，提供一种视频处理方法、相关装置及存储介质，该方法包括：获取候选图像序列，所述候选图像序列通过预设对抗生成模型中的生成器基于目标语音片段以及目标对象的面部图像得到；基于所述候选图像序列获取目标损失，所述目标损失至少包括真实度判别损失，所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到；若所述目标损失未收敛，则基于所述目标损失更新所述生成器；基于更新的生成器，获取更新的候选图像序列，直至目标损失收敛，并将目标损失收敛时的候选图像序列作为目标图像序列。本申请实施例中在生成图像序列时，至少基于真实度判别损失约束生成器，在视频层面对图像的连续生成提供了指导。

Description

视频处理方法、相关装置及存储介质

技术领域

本申请实施例涉及计算机视觉领域，更具体地涉及一种视频处理方法、相关装置及存储介质。

背景技术

通过语音驱动人脸视频生成的方案，可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域，满足上述领域对智能虚拟形象的功能需求和性能需求，并基于人工智能大幅度降低相关行业的人工劳动。

现有技术中往往采用生成式对抗网络(Generative Adversarial Networks,GAN)基于输入的语音和目标人物图像，生成目标人物的换口型视频。然而，由于GAN通常仅对单张图像的质量负责，并不关心多张图像之间的联系，因此现有技术生成的换口型视频存在明显瑕疵，例如连续帧图像之间的人物动作衔接不自然，出现图像抖动的现象。

在目标人物的换口型视频的生成方案中，通常是仅生成目标人物的头部图像，并将该头部图像粘贴回原视频中。由于现有技术在生成单张头部图像时，并未考虑人物头部前后动作的连贯性和一致性，这就导致随着人物动作变化，生成图像的瑕疵(尤其是图像边缘靠近贴合部位的地方)会在连续播放时被放大。另外，不同图像之间明暗、光线的差异，在单张观察时并不明显，一旦连续播放，这些属性的差异也会被肉眼直观的捕捉到。

发明内容

本申请实施例提供一种视频处理方法、相关装置及存储介质,可以生成前后帧图像连贯性和一致性较高的换口型视频。

第一方面，本申请实施例提供一种视频处理方法，该方法包括：

获取候选图像序列，所述候选图像序列通过预设对抗生成模型中的生成器基于目标语音片段以及目标对象的面部图像得到；

基于所述候选图像序列获取目标损失，所述目标损失至少包括真实度判别损失，所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到；

若所述目标损失未收敛，则基于所述目标损失更新所述生成器；

基于更新的生成器，获取更新的候选图像序列，直至目标损失收敛，并将目标损失收敛时的候选图像序列作为目标图像序列。

第二方面，本申请实施例提供一种视频处理装置，具有实现对应于上述第一方面提供的视频处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施方式中，所述视频处理装置包括：

输入输出模块，被配置为获取目标语音片段以及目标对象的面部图像；

处理模块，被配置为获取候选图像序列，所述候选图像序列基于所述目标语音片段以及所述面部图像得到；

所述处理模块，还被配置为基于所述候选图像序列获取目标损失，所述目标损失至少包括真实度判别损失，所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到；

所述处理模块，还被配置为若所述目标损失未收敛，则基于所述目标损失更新所述候选图像序列；以及基于更新的候选图像序列，获取更新的目标损失，直至目标损失收敛，并将目标损失收敛时的候选图像序列作为目标图像序列。

第三方面，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的视频处理方法。

第四方面，本申请实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面所述的视频处理方法。

相较于现有技术，本申请实施例中，基于生成的候选图像序列中各个候选图像之间的差异获取时序连接特征，之后可以基于该时序连接特征获取真实度判别损失，然后基于至少包括所述真实度判别损失的目标损失确定所述候选图像序列是否符合要求，能否作为目标图像序列，以替换原视频中的面部图像序列，得到目标对象的换口型视频。由于本申请实施例中的真实度判别损失是基于图像序列之间的时序连接特征获取的，因此，本申请实施例中相当于基于候选图像序列之间的连续性对生成器进行了图像生成的指导，从而本申请实施例中获得的目标图像序列之间的连贯性和一致性较高，不容易出现图像抖动。本申请实施例中生成的目标图像序列在插入原始视频之后形成的换口型视频，不存在现有技术中的图像抖动、伪影等缺陷，且口腔等部位的细节质量高，不需要人工后期处理。

附图说明

通过参考附图阅读本申请实施例的详细描述，本申请实施例的目的、特征和优点将变得易于理解。其中：

图1为本申请实施例中视频处理方法的一种视频处理系统示意图；

图2为本申请实施例的视频处理方法的一种流程示意图；

图3为本申请实施例的视频处理方法的目标对象的面部中目标区域的示意图；

图4为现有技术中用于生成换口型视频的一种对抗生成模型的结构示意图；

图5为本申请实施例的视频处理方法的一种对抗生成模型的结构示意图；

图6为本申请实施例的视频处理方法的一种获取第二判别器的流程示意图；

图7为本申请实施例的视频处理装置的结构示意图；

图8为本申请实施例的计算设备的一种结构示意图；

图9为本申请实施例中手机的一种结构示意图；

图10为本申请实施例中服务器的一种结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一预设视频和第二预设视频分别表示为不同的预设视频，其他类似)，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合，通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例提供一种视频处理方法、相关装置及存储介质，可应用于视频处理系统，该视频处理系统可包括视频处理装置和终端设备。该视频处理装置至少用于获取候选图像序列，基于候选图像序列获取目标损失，基于目标损失更新生成器，以得到目标图像序列，并基于目标图像序列得到换口型视频。该终端设备可以接收视频处理装置发送的换口型视频并播放，以供用户观看。其中，视频处理装置可为候选图像序列、生成目标图像序列的应用程序，或为安装了更新候选图像序列、生成目标图像序列的应用程序的服务器。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、计算机视觉技术(Computer Vision，CV)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括对抗扰动生成、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

相比于现有技术，本申请实施例可以基于生成的候选图像序列中各个候选图像之间的差异获取时序连接特征，之后可以基于该时序连接特征获取真实度判别损失，然后基于至少包括所述真实度判别损失的目标损失确定所述候选图像序列是否符合要求，能否作为目标图像序列，以替换原视频中的面部图像序列，得到目标对象的换口型视频。由于本申请实施例中的真实度判别损失是基于图像序列之间的时序连接特征获取的，因此，本申请实施例中相当于基于候选图像序列之间的连续性对生成器进行了图像生成的指导，从而本申请实施例中获得的目标图像序列之间的连贯性和一致性较高，不容易出现图像抖动。本申请实施例中生成的目标图像序列在插入原始视频之后形成的换口型视频，不存在现有技术中的图像抖动、伪影等缺陷，且口腔等部位的细节质量高，不需要人工后期处理。本申请实施例中可以通过视频处理系统生成目标图像序列。该视频处理系统可包括视频处理装置和终端设备。

一些实施方式中，参照图1，本申请实施例提供的视频处理方法可基于图1所示的一种视频处理系统实现。该视频处理系统可以包括服务器01和终端设备02。

该服务器01可以是视频处理装置，其中可以部署视频处理程序，例如用于生成目标图像序列的生成对抗模型。

服务器01可以获取目标语音片段和目标对象的面部图像，然后通过预设对抗生成模型中的生成器，迭代更新出目标图像序列，该目标图像序列可用于替换目标对象的面部图像，并结合目标语音片段，生成换口型视频。服务器01可以将该换口型视频向该终端设备02发送。终端设备02可以接收服务器01发送的换口型视频并播放，以供用户观看。

需要说明的是，本申请实施例涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例涉及的终端设备，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：Personal Communication Service，英文简称：PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop，英文简称：WLL)站、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)等设备。

参照图2，图2为本申请实施例中视频处理方法的一种流程示意图。该方法可由视频处理装置执行，可应用于语音驱动的视频生成场景，生成前后帧图像连贯性和一致性较高的换口型视频。所述视频处理方法包括步骤101-104：

步骤101，获取候选图像序列。

在本申请实施例中，所述候选图像序列是生成目标图像序列的中间产物。在一些迭代轮次中，生成的图像序列还未满足预设要求，无法作为最终的目标图像序列，故而称之为候选图像序列。每个迭代轮次生成的候选图像序列均可以包括预设数量的帧图像，这些帧图像可以用于得到一个视频段，然而，由于候选图像序列还不满足预设要求，这些帧图像组成的视频段播放出来，可能会具有不连贯或抖动问题，即相邻帧图像之间的过渡不够平滑。

为了使得最终得到的目标图像序列中的相邻帧图像之间的过渡足够平滑，即基于其得到的视频，播放时的画面连贯一致。在本申请实施例中将会对候选图像序列进行不断更新，即每个迭代轮次均产生新的候选图像序列。一个迭代轮次的候选图像序列可以基于历史候选图像序列更新得到，所述历史候选图像序列包括初始图像序列。具体来说，本申请实施例中将基于初始图像序列逐步迭代更新，得到目标图像序列。初始图像序列可以是根据预设方式初始化得到的，例如随机初始化得到，或者也可以是一批空白图像，本申请实施例对此不做限定。在后续的生成目标图像序列的过程中，则以历史候选图像序列为基础更新得到所述目标图像序列。

考虑到本领域在基于语音驱动生成视频时，往往采用对抗生成模型进行。基于此，在本申请实施例中，也可以采用预设对抗生成模型中的生成器，基于目标语音片段以及目标对象的面部图像，在每个迭代轮次生成新的候选图像序列。具体来说，目标语音片段即为生成任务中希望视频段中的人物口型匹配的语音序列，例如在生成换口型视频的任务中，语音播放到“天下”时，任务希望视频中人物的口型也表示其正在发出“天下”的声音。目标对象可以为真实的人物，也可以是虚拟的拟人化形象(例如可以是动漫人物，动物形象等)，此处不做限定。

可以理解的是，本申请实施例中并不限于输入目标对象的面部图像，也可以输入目标对象的视频段，然后基于目标对象的视频段获取目标对象的面部图像，以便生成目标对象的换口型视频。

需要说明的是，本申请实施例中生成的目标图像序列是一批图像，并不是一个完整的视频段，在得到所述目标图像序列之后，可以根据预设方式将其置换入预设视频中，得到换口型视频。

例如，所述候选视频序列中可以包括多个候选图像，所述候选图像可以不包括目标对象的完整面部，而是仅包括目标对象说话时会牵引的面部区域。即所述候选图像序列基于所述目标语音片段以及多个预设的目标区域得到。例如，通过研究发现，人类讲话时，往往需要用到面部的口轮匝肌、降口角肌、提上唇肌、提上唇鼻翼肌、降下唇肌、提口角肌、颊肌和颏肌等肌肉群。因此，如图3所示，本申请实施例中可以根据上述肌肉群运动时影响的面部区域，确定多个目标区域，然后基于包括所述多个目标区域的目标对象的面部图像，由语音驱动生成包括所述多个目标区域的候选图像，从而方便在预设视频或图像中替换目标对象的面部区域，生成换口型视频。

可以理解的是，不同类型的目标对象，讲话时可能牵引的面部区域并不相同。例如，在一些场景下，需要生成的可能是形象为动物脸的动漫人物的讲话视频，由于动物脸和人脸的结构不同(例如狐狸脸的嘴部是尖的，而人脸的嘴部相对扁平)。因此，在一个可能的设计中，目标对象的面部图像的目标区域可以基于预设关键点确定，所述预设关键点可以是基于目标对象所属群体讲话数据研究得到的，例如在目标对象为人类时，可以是基于上述肌肉群确定的一些关键点。

步骤102，基于所述候选图像序列获取目标损失。

其中，所述目标损失至少包括真实度判别损失；在一些可选实施例中，所述目标损失还可以包括口型判别损失(用于评估候选图像中的口型语义与目标语音的语义差异)和图像质量判别损失(用于评估候选图像与真实图像的质量差异)。

现有技术中存在一些基于语音驱动生成换口型视频的技术方案，然而，由于这些技术方案中仅仅关注生成的图像中人物的口型是否和对应的语音匹配，而未关注到视频是一个连续变换的图像序列，从而会导致最终得到的换口型视频的相邻帧图像过渡不够平滑，出现视频抖动，与真实视频的连续动作差异较大，观看体验较差。

基于上述视频抖动的缺陷，本申请实施例中引入了至少包括真实度判别损失的目标损失，该目标损失相当于现有技术中基于对抗生成模型中判别器得到的判别损失，从而可以基于该目标损失调整生成器，使其生成过渡平滑的图像序列。

在本申请实施例中，所述真实度判别损失用于衡量生成器生成的候选图像序列的真实度，即其与真实图像中相邻图像之间的平滑度差异。由于本申请实施例引入了真实度判别损失，因此，在基于真实度判别损失调整生成器时，相当于使得生成器学习了视频帧图像之间的关联关系，从而使得生成的图像序列过渡更加平滑。

为了使得真实度判别损失可以准确评估候选图像序列的平滑度，在本申请实施例中，所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到。

在本申请实施例中，所述时序连接特征可以包括以下三种可能的设计：

①、时序连接特征包括各个候选图像的图像表征；

②、时序连接特征包括各个候选图像的区域运动趋势变化值；

③、时序连接特征包括各个候选图像的图像表征和区域运动趋势变化值。

设计①

图像表征可以是候选图像的外在视觉表征，例如图像的色彩和亮度等。在现有技术中，有些方案在生成换口型视频时，由于未考虑前后帧图像的平滑过渡问题，可能造成在前的一帧图像中，人物面部肤色较白，且亮度较高，而在后的一帧图像中，人物的肤色较黑，且亮度较低，从而使得相邻两帧图像之间的视觉差异较大。

为解决现有技术中这些缺陷，本申请实施例中获取了生成的候选图像序列中，各个候选图像的图像表征(视觉表征)，以便衡量相邻候选图像之间的视觉表征差异。

考虑到，图像的视觉表征基本均是基于像素值确定的，且视觉表征也受到几个固定的通道影响，在设计①中，一个候选图像的所述图像表征基于该图像中预设图像通道的像素值获取，所述预设图像通道包括以下至少一项：亮度、色度、对比度和饱和度。

在获取到候选图像序列中各个候选图像的图像表征之后，即可根据相邻图像之间的图像表征差异，得到真实度判别损失。具体来说，例如候选图像序列a包括3张候选图像：图像a1、图像a2和图像a3，则可以基于图像a1和图像a2之间的图像表征差异获取d1，以及基于图像a2和图像a3之间的图像表征差异获取d2；最后，基于d1和d2获取候选图像序列a的真实度判别损失。可以理解的是，基于d1和d2，得到真实度判别损失的方式可以是拼接、组合、加权融合等，本领域的技术人员可以基于实际应用场景进行选择，此处不做限定。

可以理解的是，在获取两个相邻候选图像之间的图像表征差异时，可以基于两个图像表征之间的距离获取。由于候选图像的图像表征是基于预设通道的像素值获取的，由此，在获取两个候选图像之间的图像表征距离时，可以基于对应像素之间在预设范数的距离获取，例如可以是L2范数距离(即欧式距离)。需要说明的是，由于一个候选图像的图像表征可能包括多个预设通道的像素值；因此，在设计①中，获取两个相邻候选图像的图像表征差异时，可以先以预设通道为单位，获取两个图像同一个预设通道的图像表征差异，然后再将各个预设通道的图像表征差异组合，得到两个候选图像的整体图像表征差异。

在设计①中，由于获取了包括各个候选图像的图像表征的时序连接特征，由此，可以在后续步骤中得到能够表示候选图像间的图像表征距离的真实度判别损失，从而可以基于图像表征距离指导各个迭代轮次的候选图像的生成，使得迭代生成的目标图像序列中相邻图像的图像表征距离较小，不易被察觉出视觉差异，过渡更加平滑。

设计②时序连接特征包括各个候选图像的区域运动趋势变化值

在设计②中，基于所述区域运动趋势变化值，可以获取一个候选图像中特定区域的运动趋势变化，或者相邻两个候选图像中对应区域的运动趋势变化差异。也即设计②中，至少可以包括以下两种获取时序连接特征的方式：

②-1、获取各个候选图像中全局区域的运动趋势变化值作为所述时序连接特征；

②-2、获取相邻候选图像中对应区域的运动趋势变化值作为所述时序连接特征。

设计②-1

在现有技术中，有些方案在生成换口型视频时，由于未考虑前后帧图像的平滑过渡问题，可能造成同一帧图像中的不同图像区域的运动趋势不一致，从而给用户观看带来违和感，使用户产生不够真实或虚假的感觉。例如，在人物进行“啊”的发音时，嘴部区域是一个整体向外扩张的运动趋势，如果生成的图像中的嘴部部分区域(例如上唇和上唇周边区域)是向外扩张的运动趋势，而另一部分区域(例如下唇和下唇周边区域)是向内收缩的运动趋势，则整个图像嘴部区域的运动趋势是矛盾的，非常容易被用户察觉出视觉差异，不够真实。

基于现有技术中存在的缺陷，在设计②-1中，可以基于一张候选图像的全局像素进行各个区域运动趋势值的获取，得到单张候选图像中全局区域的运动趋势变化值，然后后续可以根据每个候选图像的全局区域的运动趋势是否在整体上协调匹配，确定真实度判别损失。也即，本申请实施例中，所述时序连接特征中可以包括各个候选图像的整体区域趋势变化值。

可以理解的是，候选图像中的各个区域可以是事先确定的。例如可以根据目标对象讲话时，面部会产生变化的几个重点区域，事先确定预设区域，然后在获取候选图像序列的时序连接特征时，获取各个候选图像中，每一个候选图像的各个预设区域的运动趋势变化值，作为所述时序连接特征。在获取一个预设区域的运动趋势变化值时，可以是基于该区域中的全部像素进行的，例如可以通过卷积的感受野获取该区域的整体运动趋势变化，得到一个代表运动趋势变化的向量。由此，在后续步骤中，至少可以基于同一个候选图像中不同区域的运动趋势变化向量之间的距离，获取所述真实度判别损失。

设计②-2

现有的技术方案中，还可能造成前后帧图像中，相应区域的运动趋势变换不一致。例如，在人物进行“啊”的发音时，嘴部区域是一个整体逐渐向外扩张的运动趋势，如果在发出“啊”的初始图像中的嘴部区域是向外扩张的运动趋势，而在相邻的在后图像(该时刻依然处于发出“啊”的过程中)中，嘴部区域是向内收缩的运动趋势，则整个图像嘴部区域的前后运动趋势是矛盾的，容易被用户察觉出视觉差异，不够真实。

基于现有技术中这些缺陷，可以获取生成的候选图像序列中，各个候选图像的对应区域的运动趋势变化值差异，以便衡量相邻候选图像之间的动作表征差异。与设计②-1中类似，各个候选图像中的对应区域，也可以是事先确定的，此处不再赘述。

考虑到，即使是同一个目标对象，在讲述不同的话语时，牵动的面部区域也可能是不同的，如果针对所有候选图像均获取相同区域的运动趋势，有可能会获取到无效信息，即对判断真实性没有贡献的信息。由此，在一个可能的设计中，可以根据目标语音片段的语句，获取各个候选图像中的对应区域。例如若目标语音片段是发出“啊”的声音，则可以将区域确定为嘴部和嘴部周边预设范围的区域，然后获取各个候选图像所述区域的运动趋势，最后基于各个相邻候选图像中对应区域的运动趋势值，得到所述时序连接特征。可以理解的是，一张候选图像的区域运动趋势变化值可以是一个向量，由此，相邻候选图像之间的对应区域运动趋势变化值可以是对应向量之间的距离。

考虑到，不同对象或人物的讲话习惯或方式不同，为了使得得到的区域运动趋势变化更加适配目标对象，在本申请实施例中，还可以根据目标对象的历史讲话情况，确定需要获取运动趋势变化值的区域。具体来说，可以首先基于第二预设视频中目标对象讲话时突出显示(例如面部肌肉牵引)的面部关键点，确定一些预设面部关键点(即目标像素点)；然后基于所述目标像素点在不同时序(帧图像)的数值确定所述区域运动趋势变化值。可以理解的是，获取得到的所述区域，既可以用于设计②-1中，获取同一个候选图像的全域运动趋势变化值；也可以用于设计②-2中，获取相邻候选图像之间的对应区域运动趋势变化值，本领域的技术人员可以根据实际场景进行设置，此处不做限定。

在设计②中，由于获取了包括各个候选图像的区域运动趋势变化值的时序连接特征，由此，可以在后续步骤中得到能够表示候选图像中的区域运动趋势变化差异(包括全域运动区域变化差异或对应区域运动趋势变化差异)的真实度判别损失，从而可以基于区域运动趋势变化差异指导各个迭代轮次的候选图像的生成，使得迭代生成的目标图像序列中相邻图像的区域运动趋势变化差异较小(即不同图像中相同区域的动作变化连贯，例如口型变化连贯)，不易被察觉出动作变化差异，过渡更加平滑。

设计②中通过设计②-1和设计②-2介绍了两种获取时序连接特征的可能方案，但并不限于此。在一个可能的方式中，还可以将设计②-1和设计②-2结合，即所述时序连接特征可以包括各个候选图像中的全域运动趋势变化值，也可以包括相邻候选图像之间对应区域的运动趋势变化值。

设计③

在设计③中，时序连接特征可以包括的具体内容已经在设计①和设计②中进行了详细介绍，此处不再赘述。可以理解的是，基于前述设计中的介绍(尤其是设计②中的三种可能方案)，设计③中的时序变化特征也可以包括三种可行的组合方式，例如组合1包括各个候选图像中的图像表征和整体区域运动趋势变化值，组合2包括各个候选图像中的图像表征和对应区域运动趋势变化值，组合3可以包括各个候选图像的图像表征、整体区域运动趋势变化值，以及对应区域运动趋势变化值。

在设计③中，由于获取了包括各个候选图像的图像表征和区域运动趋势变化值的时序连接特征，由此，可以在后续步骤中得到能够表示候选图像间的图像表征距离，以及候选图像中的区域运动趋势变化差异(包括全域运动区域变化差异或对应区域运动趋势变化差异)的真实度判别损失，从而可以基于图像表征距离和区域运动趋势变化差异，指导各个迭代轮次的候选图像的生成，使得迭代生成的目标图像序列中相邻图像的图像表征距离和区域运动趋势变化差异均较小(即不同图像中相同区域的动作变化连贯，例如口型变化连贯；且各个区域的视觉表征一致，例如亮度和色度一致)，不易被察觉出视觉和动作变化差异，过渡更加平滑。

在本申请实施例中，通过三种可能的设计(设计①、②、③)介绍了时序连接特征的具体内容。在获取到时序连接特征之后，接下来可以根据所述时序连接特征得到所述真实度判别损失，具体来说，在一个包括设计③的可选实施例中，可以将相邻候选图像之间的图像表征的距离，以及同一个候选图像中各个区域的运动趋势变化值差异，进行加权融合，得到所述真实度判别损失。

在其他可选实施例中，在获取到各个图像表征差异和/或区域运动趋势变化(距离)之后，可以根据实际需要，采用拼接、叠加、组合等方式得到所述真实度判别损失。

考虑到，仅仅依靠真实度判别损失，只能使得最终得到目标图像序列的各个图像之间的过渡更加平滑，与真实图像的帧间过渡情况近似。然而，本申请实施例中生成的目标图像序列中的对象口型还需要与目标语音片段匹配，且具备真实视频的质感。由此，所述目标损失可以基于所述真实度判别损失、所述口型判别损失和所述图像质量判别损失加权得到，所述图像质量判别损失的权重值不小于全部类型的损失中至少一种的权重值，例如在三种损失的权重值中最大。

具体来说，所述口型判别损失基于各个候选图像的口型语义特征以及各个目标语音的语义特征之间的距离获取，所述候选图像与所述目标语音的时序对应。例如，在本申请实施例中，在生成候选图像序列时，是基于目标语音片段进行的各个候选图像的生成。若目标语音片段包括：“北京市，晴转多云，温度29℃”，则可以根据每个字生成一个候选图像，然后确定每一个候选图像中的人物口型是否与对应的字一致；具体来说，若一个候选图像的人物口型表达的语义(即该口型发音时对应的字)是一个向量，则该候选图像对应的目标语音也可以是一个向量，然后可以根据两个向量之间的预设范数距离或相似度，得到该时刻的两个数据(候选图像和目标语音)之间的口型损失。基于此，本申请实施例中，可以获取一个候选图像序列中每个候选图像与对应的目标语音的口型损失，然后基于所有的口型损失可以得到所述候选图像序列的口型判别损失。

在本申请实施例中，所述图像质量判别损失用于衡量生成的候选图像序列与真实图像之间的图像质量(例如清晰度，分辨率等)差异。具体来说，所述图像质量判别损失基于各个候选图像的面部特征与所述面部图像的面部特征之间的距离获取。所述面部图像可以是基于目标对象的真实图像，例如可以是从基于目标图像拍摄的真实视频中获取的。在得到候选图像中目标对象的面部图像，以及真实图像中目标对象的面部图像之后，可以分别获取两个面部图像的特征，从而基于两个特征之间的距离(例如是L1距离)，获取生成的候选图像的质量损失。基于此，可以获取到一个候选图像序列中各个候选图像的质量损失，然后根据各个质量损失，可以得到所述候选图像序列的图像质量判别损失。

可以理解的是，在本申请实施例中，也可以根据生成的面部图像与真实的面部图像之间的距离，获取所述图像质量判别损失。

考虑到，现有技术方案中，往往采用对抗生成模型获取生成图像和真实图像之间的口型判别损失和图像质量损失，由此，本申请实施例中可以在现有技术的基础上，通过附加真实度判别损失的方式，提高现有技术生成的候选图像序列的过渡平滑性。具体来说，一个迭代轮次的口型判别损失、图像质量判别损失可以由所述预设对抗生成模型中的第一判别器，基于该迭代轮次的候选图像序列得到；所述第一判别器即为现有技术方案中原生的判别器，可以由本领域的技术人员根据选用的对抗生成模型确定，例如，如图4所示，在采用wav2lip模型框架的对抗生成模型中，其包括生成器、口型判别器和图像质量判别器。

在本申请实施例中，通过在现有技术的对抗生成模型中附加第二判别器，获取真实度判别损失，从而可以以模块化的方式，通过简单修改现有技术方案的模型架构，提高其生成的图像的真实度。例如，如图5所示，可以在wav2lip模型框架的对抗生成模型中，增加视频判别器(即所述第二判别器)，以获取生成器生成候选图像序列的真实度判别损失。所述视频判别器用于判别生成的候选图像序列的真假，其通过对连续候选图像真假的判断，为生成器提供了视频层面的生成方向指导，在生成器工作推理时输出的结果(即候选图像序列)即可消除抖动，并且强化了口腔细节的质量，不需要人工后处理即可缓解抖动现象的出现。

考虑到，对抗生成模型的模型参数越多，在进行图像生成时，需要消耗的计算资源和时间成本也越高。由此，为了实现生成效果和计算资源消耗的最佳平衡，可以通过一个循环过程，在大量可选择的判别器模型中，选取合适的第二判别器。在本申请实施例中，第二判别器可以基于预设对抗生成模型中的生成器的参数数量从预设判别器库中得到。具体来说，如图6所示，第二判别器可以预先通过以下步骤201-205从所述预设判别器库中得到：

步骤201，获取目标参数数量。

在本申请实施例中，所述目标参数数量是获取第二判别器的基础判断指标，具体来说，可以在预设判别器库中获取具有一定参数数量(与目标参数数量相同)的候选判别器，并根据预设方式判断其是否能够作为第二判别器。需要说明的是，在本申请实施例中，获取第二判别器的方式是一个循环查找的方案，即根据在每个迭代轮次不断更新的目标参数数量获取一个候选判别器，然后测试候选判别器是否符合要求，在候选判别器的参数数量和效果均符合要求时，则将其确定为第二判别器。

因此，本申请实施例中的目标参数数量是不断更新(递增)的，在每个迭代轮次，其均基于历史目标参数数量更新得到，且当前迭代轮次的目标参数数量大于历史目标参数数量。可以理解的是，虽然现有判别器的参数数量各有不同，但其作为一种神经网络模型，不会低于一定的最低数量值。由此，在本申请实施例中，可以设置历史目标参数数量的初始值与所述生成器的参数数量的比例不大于第一预设值(例如可以是10％)，以节省一些无效参数数量参与的循环迭代过程(相当于在没有合适参数数量的空白区间查找匹配的候选判别器)，节省查找时间和提高查找效率。

步骤202，基于所述目标参数数量，从所述预设判别器库中获取候选判别器。

考虑到，一个迭代轮次中的目标参数数量是一个固定的数值，而预设判别器库中的各个判别器的参数数量是由其自身的模型结构确定的，可能无法与目标参数数量完全一致，若采用非常严苛精准的匹配标准去获取候选判别器，则可能导致一些迭代轮次无法获取到匹配的候选判别器，相当于进行了无效的操作。因此，可以在每个迭代轮次中，基于当前的目标参数数量确定一个用于获取候选判别器的参数数量区间，只要参数数量在该区间内的判别器均可以作为候选判别器。具体来说，在本申请实施例中，可以设置同一个迭代轮次中，候选判别器的参数数量与目标参数数量的差值，不大于第二预设值(例如可以是50)。

可以理解的是，在本申请实施例中，在一个迭代轮次中，参数数量与所述目标参数数量的差值不大于第二预设值的判别器可能有多个，此时可以将参数数量差值最小的一个判别器作为候选判别器。

步骤203，将所述生成器生成的图像序列输入所述候选判别器，以得到用于更新所述生成器的更新梯度值。

在本申请实施例中，在一个迭代轮粗获取到候选判别之后，需要测试所述候选判别器是否符合要求，能否作为第二判别器在对抗生成模型中获取真实度判别损失。具体来说，在一个迭代轮次中，可以将生成器生成的图像序列，输入当前迭代轮次的候选判别器，然后得到其输出的判别损失，基于该判别损失与所述生成器的模型参数(或者隐向量)进行梯度计算(例如可以是二者偏导的比值)，得到用于更新所述生成器的更新梯度值。由于第二判别器是用于约束生成器的，即其输出的真实度判别损失可以用于更新生成器(模型参数或隐向量)，因此，可以根据候选判别器对生成的约束效果，确定其是否符合要求，能否作为第二判别器。

考虑到，在基于判别器损失更新约束生成器时，往往采用梯度优化法。因此，在本申请实施例中的一个迭代轮次，可以基于候选判别器的输出，获取其用于约束更新生成器的更新梯度值，判断其是否可以作为第二判别器。

步骤204，若所述更新梯度值小于第三预设值，则更新所述目标参数数量。

在本申请实施例中，可以根据当前迭代轮次的更新梯度值的情况，确定候选判别器是否符合要求。例如，若发生梯度消失(即更新梯度值非常小，可能非常接近于0，导致模型训练缓慢)，则可以认为候选判别器不符合要求，无法正常约束更新生成器。因此，可以实现设置第三预设值(例如可以是0.5)，根据每个迭代轮次的更新梯度值与第三预设值的大小关系，确定当前迭代轮次的候选判别器是否符合要求。

在当前迭代轮次的候选判别器不符合要求时，则可以更新目标参数数量，以便下一个迭代轮次获取参数数量更多，模型层次更深的判别器，增强对生成器的约束效果。具体来说，可以实现设置预设更新步长(例如10)，更新目标参数数量时，则将所述预设更新步长与当前的目标参数数量相加，得到更新后的目标参数数量，以便获取下一个迭代轮次的候选判别器。

步骤205，基于更新的目标参数数量，获取新的候选判别器，直至更新梯度值等于第三预设值，并将更新梯度值等于第三预设值时的候选判别器作为所述第二判别器。

在本申请实施例中，基于更新的目标参数数量，获取新的候选判别器，即相当于步骤201中的获取候选判别器，从而进入了下一个循环。

可以理解的是，虽然本申请实施例中以候选判别器的更新梯度值是否等于第三预设值为循环终止条件，但是不限于此。在一些可能的设计中，还可以根据循环迭代次数确定是否终止循环，例如可以将循环迭代100次后得到的候选判别器作为第二判别器。在一些可能的设计中，还可以根据各个迭代轮次得到的候选判别器的更新梯度值是否收敛，作为判断循环是否终止的条件，例如某个迭代轮次得到的候选判别器的更新梯度值与上一轮次相比，没有发生变化，则可以认为已经收敛，此时可以将倒数第二个迭代轮次得到的候选判别器作为第二判别器。

需要说明的是，虽然本申请实施例中得到的第二判别器可以取得计算效率与计算效果(约束更新生成器的效果)的平衡。在一些可能的设计中，也可以将约束更新生成器的效果放在首位，即只要候选判别器的更新梯度值不发生梯度爆炸的情况，则可以将循环一直进行下去，每个迭代轮次均获取比前一个迭代轮次参数数量更多，模型结构更深的候选判别器，从而增强其对生成器的约束更新效果，使得生成器生成的候选图像序列的质量更好。

在本申请实施例中，通过步骤201-205介绍了一种获取第二判别器的可能方式。在一个可能的设计中，可以选用wav2lip模型框架的对抗生成模型，作为所述预设生成对抗模型，然后采用R3D_18模型作为所述第二判别器，插入所述wav2lip模型框架中。由于R3D_18模型参数数量较少，且模型结构简单，其相较于Transformer等参数量较多的视频判别模型，可以显著加快整个对抗生成模型的计算速度，减少消除抖动的成本。可以理解的是，本申请实施例中的第二判别器可以仅用于输出候选图像序列的真假二分类结果，由此，可以对R3D_18模型的输出层进行改进，将其最后的全连接层修改为1个节点，从而使得其仅输出真假二分类结果。

步骤103，若所述目标损失未收敛，则基于所述目标损失更新所述生成器。

在本申请实施例中，若一个迭代轮次得到的目标损失没有收敛，则该迭代轮次的候选图像序列还不符合要求，无法作为目标图像序列，用于获取换口型视频。可以理解的是，目标损失未收敛，即为目标损失未达到预设的极限值，说明生成器还存在优化提升空间。因此，可以采用梯度优化法，基于当前轮次的目标损失，更新所述生成器(模型参数或隐向量)，提高候选图像序列的质量。

在一些可能的设计中，可以基于任意现有的梯度优化方法优化更新生成器，例如可以是梯度下降法(Gradient Descent)、动量法(Momentum)、共轭梯度法(ConjugateGradient)和自然梯度法(Natural Gradient))，本领域的技术人员可以根据实际需要进行选择，本申请实施例对此不做限定。

步骤104，基于更新的生成器，获取更新的候选图像序列，直至目标损失收敛，并将目标损失收敛时的候选图像序列作为目标图像序列。

在本申请实施例中，基于更新的生成器，获取新的候选图像序列，即相当于步骤101中的获取候选图像序列操作，从而进入了下一个循环。

可以理解的是，虽然本申请实施例中以各个迭代轮次中基于候选图像序列得到的目标损失是否收敛，作为判断循环是否终止的条件，但是不限于此。在一些可能的设计中，还可以根据循环迭代次数确定是否终止循环，例如可以将循环迭代100次后得到的候选图像序列作为目标图像序列。

需要说明的是，本申请实施例中得到目标图像序列还不是最终的换口型视频，其可能仅仅是一些目标对象讲话口型的图像序列(包括目标对象的完整面部区域)，或者是目标对象讲话口型的局部面部图像序列(例如仅包括目标对象讲话时，面部变化的区域)。因此，本申请实施例中，在得到所述目标图像序列之后，所述方法还包括：获取所述目标对象的第一预设视频；具体来说，所述第一预设视频可以是目标对象的真实拍摄视频(在目标对象为虚拟形象时，也可以是计算机生成的)，其中包括目标对象的完整面部图像(例如可以是单纯的面部图像，半身图像或全身图像)；然后可以基于所述目标图像序列和所述目标语音片段，更新所述第一预设视频，得到目标视频；具体来说，可以将所述目标语音片段插入(或者替换)所述第一预设视频中，作为所述目标视频的音频轨道，然后可以采用所述目标图像序列更新(替换)所述第一预设视频中包括的目标对象的面部图像序列。可以理解的是，在获取目标视频的过程中，可以将图像(主要是对象口型)与语音段对齐，以使得目标视频的质量可靠，真实度强。

为了进一步提高获取目标视频的获取效率，在一个可能的设计中，可以采用基于机器学习技术构建的贴合网络模型执行换脸操作(即基于所述目标图像序列更新(替换)所述第一预设视频中包括的目标对象的面部图像序列的操作)。

需要说明的是，虽然本申请实施例中通过引入真实度判别损失的方式提高生成器生成图像的真实度，从而减少换口型视频中图像过渡时的抖动，但不限于此。在一个可能的设计中，还可以采用时序超分模型获取生成器生成的相邻候选图像之间的时序特征，使得生成器学习到前后关联图像的信息，由此，生成器便会在对单张图像质量负责的同时，兼顾到前后图像的情况，有利于消除抖动。可以理解的是，所述时序超分模型可以附加在所述预设对抗生成模型中的生成器末端，从而也可以通过模块化插入的方式，简单地改进现有模型，节省成本。

本申请实施例中，基于生成的候选图像序列中各个候选图像之间的差异获取时序连接特征，之后可以基于该时序连接特征获取真实度判别损失，然后基于至少包括所述真实度判别损失的目标损失确定所述候选图像序列是否符合要求，能否作为目标图像序列，以替换原视频中的面部图像序列，得到目标对象的换口型视频。由于本申请实施例中的真实度判别损失是基于图像序列之间的时序连接特征获取的，因此，本申请实施例中相当于基于候选图像序列之间的连续性进行了判断对生成器进行了图像生成的指导，从而本申请实施例中获得的目标图像序列之间的连贯性和一致性较高，不容易出现图像抖动。在所述候选图像序列不符合要求时，则基于所述目标损失更新所述候选图像序列，由于本申请实施例中基于表示相邻图像连续性的损失调整生成的图像序列，因此，本申请实施例中在生成图像序列时，相当于在视频层面对图像的连续生成提供了指导。本申请实施例中生成的目标图像序列在插入原始视频之后形成的换口型视频，不存在现有技术中的图像抖动、伪影等缺陷，且口腔等部位的细节质量高，不需要人工后期处理。

以上对本申请实施例中一种视频处理方法进行说明，以下对执行上述视频处理方法的视频处理装置(例如服务器)进行介绍。

参阅图7，如图7所示的一种视频处理装置的结构示意图，其可应用于服务器中，用于语音驱动的讲话视频生成场景，生成前后帧图像连贯性和一致性较高的换口型视频。在本申请实施例中的视频处理装置能够实现对应于上述图2中所对应的实施例中所执行的视频处理方法的步骤。视频处理装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述视频处理装置可包括输入输出模块601及处理模块602，所述装置还可以包括显示模块(图7中未标识出)，所述处理模块602、所述输入输出模块601的功能实现可参考图2所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块602可用于控制所述输入输出模块601的收发、获取等操作，以及控制所述显示模块播放换口型视频等操作。

所述输入输出模块601，被配置为获取目标语音片段以及目标对象的面部图像；

所述处理模块602，被配置为获取候选图像序列，所述候选图像序列基于所述目标语音片段以及所述面部图像得到；

所述处理模块602，还被配置为基于所述候选图像序列获取目标损失，所述目标损失至少包括真实度判别损失，所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到；

所述处理模块602，还被配置为若所述目标损失未收敛，则基于所述目标损失更新所述候选图像序列；以及基于更新的候选图像序列，获取更新的目标损失，直至目标损失收敛，并将目标损失收敛时的候选图像序列作为目标图像序列。

在一些实施方式中，所述面部图像中包括多个目标区域，所述目标区域基于所述面部图像的预设关键点确定；

所述候选图像序列基于所述目标语音片段以及所述多个目标区域得到。

在一些实施方式中，所述处理模块602，被配置为获取所述目标对象的第一预设视频；以及基于所述目标图像序列和目标语音片段更新所述第一预设视频，得到目标视频；

其中，所述目标图像序列用于更新所述第一预设视频中的面部图像序列。

在一些实施方式中，所述候选图像序列包括多个候选图像；所述处理模块602，被配置为获取所述候选图像序列的时序连接特征；所述时序连接特征包括各个候选图像的图像表征和区域运动趋势变化值；以及将相邻候选图像之间的图像表征的距离，以及同一个候选图像中各个区域的运动趋势变化差异，进行加权融合，得到所述真实度判别损失。

在一些实施方式中，一个候选图像的图像表征基于预设图像通道的像素值获取，所述预设图像通道包括以下至少一项：亮度、色度、对比度和饱和度；

所述区域运动趋势变化值基于目标像素点在不同时序的数值确定；

所述目标像素点根据目标对象的预设面部关键点确定，所述预设面部关键点为第二预设视频中目标对象讲话突出显示的面部关键点。

在一些实施方式中，所述目标损失基于所述真实度判别损失、口型判别损失和图像质量判别损失加权得到，所述图像质量判别损失的权重值不小于全部类型的损失中至少一种的权重值；

所述口型判别损失，基于各个候选图像的口型语义特征与各个目标语音的语义特征之间的距离得到，候选图像与目标语音的时序对应；

所述图像质量判别损失，基于各个候选图像的面部特征与所述面部图像的面部特征之间的距离得到。

在一些实施方式中，所述口型判别损失、所述图像质量判别损失由所述预设对抗生成模型中的第一判别器，基于所述候选图像序列得到；

所述真实度判别损失由第二判别器基于所述候选图像序列得到；

所述第二判别器基于所述生成器的参数数量从预设判别器库中得到。

在一些实施方式中，所述处理模块602，被配置为预先通过以下方式从所述预设判别器库中得到所述第二判别器：

获取目标参数数量，所述目标参数数量基于历史目标参数数量更新得到，所述目标参数数量大于所述历史目标参数数量，所述历史目标参数数量的初始值与所述生成器的参数数量的比例不大于第一预设值；

基于所述目标参数数量，从所述预设判别器库中获取候选判别器，其中，所述候选判别器的参数数量与所述目标参数数量的差值不大于第二预设值；

将所述生成器生成的图像序列输入所述候选判别器，以得到用于更新所述生成器的更新梯度值；

若所述更新梯度值小于第三预设值，则更新所述目标参数数量；

基于更新的目标参数数量，获取新的候选判别器，直至更新梯度值等于第三预设值，并将更新梯度值等于第三预设值时的候选判别器作为所述第二判别器。

本申请实施例中，处理模块可以基于生成的候选图像序列中各个候选图像之间的差异获取时序连接特征，所述处理模块之后可以基于该时序连接特征获取真实度判别损失，然后基于至少包括所述真实度判别损失的目标损失确定所述候选图像序列是否符合要求，能否作为目标图像序列，以替换原视频中的面部图像序列，得到目标对象的换口型视频。由于本申请实施例中的真实度判别损失是基于图像序列之间的时序连接特征获取的，因此，本申请实施例中相当于基于候选图像序列之间的连续性进行了判断对生成器进行了图像生成的指导，从而本申请实施例中获得的目标图像序列之间的连贯性和一致性较高，不容易出现图像抖动。在所述候选图像序列不符合要求时，则基于所述目标损失更新所述候选图像序列，由于本申请实施例中基于表示相邻图像连续性的损失调整生成的图像序列，因此，本申请实施例中在生成图像序列时，相当于在视频层面对图像的连续生成提供了指导。本申请实施例中生成的目标图像序列在插入原始视频之后形成的换口型视频，不存在现有技术中的图像抖动、伪影等缺陷，且口腔等部位的细节质量高，不需要人工后期处理。

在介绍了本申请实施例的方法和装置之后，接下来，对本申请实施例的计算机可读存储介质进行说明，计算机可读存储介质可为光盘，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取候选图像序列，所述候选图像序列通过预设对抗生成模型中的生成器基于目标语音片段以及目标对象的面部图像得到；基于所述候选图像序列获取目标损失，所述目标损失至少包括真实度判别损失，所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到；若所述目标损失未收敛，则基于所述目标损失更新所述生成器；基于更新的生成器，获取更新的候选图像序列，直至目标损失收敛，并将目标损失收敛时的候选图像序列作为目标图像序列。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

上面从模块化功能实体的角度对本申请实施例中的视频处理装置60进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行视频处理方法的服务器、终端设备进行描述。

需要说明的是，在本申请视频处理装置实施例的图7所示的输入输出模块601对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等，处理模块602对应的实体设备可以为处理器。图7所示的视频处理装置60可以具有如图8所示的结构，当图7所示的视频处理装置60具有如图8所示的结构时，图8中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块602和输入输出模块601相同或相似的功能，图8中的存储器存储处理器执行上述视频处理方法时需要调用的计算机程序。

本申请实施例还提供了一种终端设备，如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General PacketRadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图9中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了Wi-Fi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还可以控制执行以上由视频处理装置执行的获取目标图像序列的方法流程；或者控制播放换口型视频。

本申请实施例还提供了一种服务器，请参阅图10，图10是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：central processing units，英文简称：CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器1100的结构。例如，例如上述实施例中由图10所示的视频处理装置60所执行的步骤可以基于该图10所示的服务器结构。例如，所述中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158获取目标语音片段以及目标对象的面部图像；

还可以通过输入输出接口1158所述目标图像序列输出，以便替换预设视频中的目标对象的面部图像，与目标语音片段结合，生成目标对象的换口型视频。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种视频处理方法，所述方法包括：

获取候选图像序列，所述候选图像序列通过预设对抗生成模型中的生成器，基于目标语音片段以及目标对象的面部图像得到；

2.如权利要求1所述的方法，其中，所述面部图像中包括多个目标区域，所述目标区域基于所述面部图像的预设关键点确定；

3.如权利要求1所述的方法，其中，得到所述目标图像序列之后，所述方法还包括：

获取所述目标对象的第一预设视频；

基于所述目标图像序列和目标语音片段更新所述第一预设视频，得到目标视频；

4.如权利要求1-3中任一项所述的方法，其中，所述候选图像序列包括多个候选图像；

基于所述候选图像序列获取所述真实度判别损失，包括：

获取所述候选图像序列的时序连接特征；所述时序连接特征包括各个候选图像的图像表征和区域运动趋势变化值；

将相邻候选图像之间的图像表征的距离，以及同一个候选图像中各个区域的运动趋势变化差异，进行加权融合，得到所述真实度判别损失。

5.如权利要求4所述的方法，其中，一个候选图像的图像表征基于预设图像通道的像素值获取，所述预设图像通道包括以下至少一项：亮度、色度、对比度和饱和度；

所述目标像素点根据目标对象的预设面部关键点确定，所述预设面部关键点为第二预设视频中的目标对象讲话时突出显示的面部关键点。

6.如权利要求4所述的方法，其中，所述目标损失基于所述真实度判别损失、口型判别损失和图像质量判别损失加权得到，所述图像质量判别损失的权重值不小于全部类型的损失中至少一种的权重值；

所述口型判别损失基于各个候选图像的口型语义特征与各个目标语音的语义特征之间的距离得到，候选图像与目标语音的时序对应；

所述图像质量判别损失基于各个候选图像的面部特征与所述面部图像的面部特征之间的距离得到。

7.如权利要求6所述的方法，其中，所述口型判别损失、所述图像质5量判别损失由所述预设对抗生成模型中的第一判别器，基于所述候选图像序列得到；

8.如权利要求7所述的方法，其中，所述第二判别器预先通过以下方0式从所述预设判别器库中得到：

基于所述目标参数数量，从所述预设判别器库中获取候选判别器，其5中，所述候选判别器的参数数量与所述目标参数数量的差值不大于第二预设值；

0基于更新的目标参数数量，获取新的候选判别器，直至更新梯度值等于第三预设值，并将更新梯度值等于第三预设值时的候选判别器作为所述第二判别器。

9.一种视频处理装置，包括：

输入输出模块，被配置为获取目标语音片段以及目标对象的面部图像；5处理模块，被配置为获取候选图像序列，所述候选图像序列基于所述目标语音片段以及所述面部图像得到；

0所述处理模块，还被配置为若所述目标损失未收敛，则基于所述目标损失更新所述候选图像序列；以及基于更新的候选图像序列，获取更新的目标损失，直至目标损失收敛，并将目标损失收敛时的候选图像序列作为目标图像序列。

10.一种计算设备，包括存储器，处理器及存储在存储器上并可在处理5器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其包括指令，当其在计算机上运行时，

使得计算机执行如权利要求1-8中任一项所述的方法。