CN116980584A

CN116980584A - 图像处理方法、装置、计算机设备、存储介质及程序产品

Info

Publication number: CN116980584A
Application number: CN202210411455.7A
Authority: CN
Inventors: 张勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-10-31

Abstract

本申请提供一种图像处理方法、装置、计算机设备、存储介质及程序产品，涉及图像处理领域。图像处理方法包括：从待处理视频的各视频帧图像中获取源人脸图像；针对每一源人脸图像，基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像；获取语音信息；语音信息用于驱动各个标准人脸图像进行视频重定向；提取语音信息的语音特征，并提取各个标准人脸图像的视觉特征；将语音特征与视觉特征融合，生成语音驱动的重定向视频。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。可以降低待融合的标准人脸图像的多样性，使重定向视频跟用于驱动的语音可以更好的进行配合。

Description

图像处理方法、装置、计算机设备、存储介质及程序产品

技术领域

本申请涉及图像处理技术领域，本申请涉及一种图像处理方法、装置、计算机设备、存储介质及程序产品。

背景技术

随着视频类应用程序的兴起，各种视频处理技术层出不穷，其中，视频重定向技术是一种受广泛关注的视频处理技术。视频重定向技术也叫动作迁移技术，是一种将原始视频中原始对象的动作迁移至目标对象，得到目标视频中目标对象模仿原始对象的动作的技术。目前的重定向可以分为两类：一类是用语音信息驱动一张人脸图像，修改人脸图像中的嘴型；另一类是用一段语音驱动一段视频，修改视频中的人脸嘴型。视频中的人脸重定向可以应用于多种场景，例如，译制片口型翻译等。

目前针对视频重定向，通常是直接对视频中的源人脸图像进行重定向，这种会导致生成的重定向视频跟用于驱动的语音没对上的问题，例如，语音中没有说话声音，生成的视频中依然会有嘴型的变化。

发明内容

本申请提供了一种图像处理方法、装置、计算机设备、存储介质及程序产品，可以解决相关技术中生成的重定向视频跟用于驱动的语音没对上的问题。所述技术方案如下：

一方面，提供了一种图像处理方法，方法包括：

从待处理视频的各视频帧图像中获取源人脸图像；

针对每一源人脸图像，基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像；

获取语音信息；语音信息用于驱动各个标准人脸图像进行视频重定向；

提取语音信息的语音特征，并提取各个标准人脸图像的视觉特征；

将语音特征与视觉特征融合，生成语音驱动的重定向视频。

在一个可能实现方式中，五官状态包括嘴部状态；

基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像，包括：

确定源人脸图像的嘴部状态；

若嘴部状态处于预设状态，则将源人脸图像作为标准人脸图像；

若嘴部状态不处于预设状态，则将源人脸图像进行标准化，得到标准人脸图像。

在一个可能实现方式中，将源人脸图像进行标准化，得到标准人脸图像，包括：

对源人脸图像进行至少一次下采样，得到下采样特征；

确定与预设状态对应的标签，对标签进行扩张得到标准特征图；

基于预设的标准特征图对下采样特征进行调整，得到标准化特征；

对标准化特征进行至少一次上采样，得到标准人脸图像。

在一个可能实现方式中，提取语音信息的语音特征，并提取标准人脸图像的视觉特征，包括：

通过音频编码器提取语音信息的语音特征；

通过视觉编码器提取各个标准人脸图像的视觉特征；

其中，视觉特征的维度与语音特征的维度相同。

在一个可能实现方式中，将语音特征与视觉特征融合，生成语音驱动的重定向视频，包括：

确定语音特征的注意力权重；

基于注意力权重将语音特征与视觉特征融合，生成语音驱动的重定向视频。

在一个可能实现方式中，基于注意力权重将语音特征与视觉特征融合，生成语音驱动的重定向视频，包括：

基于注意力权重确定视觉特征的权重系数；

基于注意力权重和权重系数确定语音特征与视觉特征的加权和，得到融合特征；

通过视频解码器将融合特征进行视觉解码，得到语音驱动的重定向视频。

在一个可能实现方式中，音频编码器、视觉编码器以及视频解码器通过如下方式训练得到：

获取样本视频中的各个样本标准人脸图像、用于驱动重定向的样本语音信息，以及对应的真实人脸视频；

通过初始音频编码器提取样本语音信息的样本语音特征；

通过初始视觉编码器提取各个样本标准人脸图像的样本视觉特征；

将样本语音特征与样本视觉特征融合，得到样本融合特征；

通过初始视频解码器将样本融合特征进行视觉解码，得到样本重定向视频；

确定真实人脸视频与样本重定向视频之间的差异损失函数；

通过差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器。

在一个可能实现方式中，通过差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器，包括：

通过生成对抗网络GAN对样本重定向视频进行判别，确定GAN损失函数；

基于GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器。

在一个可能实现方式中，基于GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器，包括：

从样本重定向视频中抽取预设帧数的重定向样本图像；

从样本语音信息中获取与重定向样本图像对应的目标样本语音信息；

通过一致性检测网络确定重定向样本图像与目标样本语音信息之间的一致性损失函数；

基于一致性损失函数、GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器。

在一个可能实现方式中，基于一致性损失函数、GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器，包括：

确定样本重定向视频和真实人脸视频之间的感知损失函数；

基于感知损失函数、一致性损失函数、GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器。

另一方面，提供了一种图像处理装置，装置包括：

第一获取模块，用于从待处理视频的各视频帧图像中获取源人脸图像；

标准化模块，用于针对每一源人脸图像，基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像；

第二获取模块，用于获取语音信息；语音信息用于驱动各个标准人脸图像进行视频重定向；

提取模块，用于提取语音信息的语音特征，并提取各个标准人脸图像的视觉特征；

生成模块，用于将语音特征与视觉特征融合，生成语音驱动的重定向视频。

在一个可能实现方式中，五官状态包括嘴部状态；

标准化模块在基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像时，具体用于：

确定源人脸图像的嘴部状态；

在一个可能实现方式中，标准化模块在将源人脸图像进行标准化，得到标准人脸图像时，具体用于：

对源人脸图像进行至少一次下采样，得到下采样特征；

对标准化特征进行至少一次上采样，得到标准人脸图像。

在一个可能实现方式中，提取模块在提取语音信息的语音特征，并提取标准人脸图像的视觉特征时，具体用于：

通过音频编码器提取语音信息的语音特征；

通过视觉编码器提取各个标准人脸图像的视觉特征；

其中，视觉特征的维度与语音特征的维度相同。

在一个可能实现方式中，生成模块在将语音特征与视觉特征融合，生成语音驱动的重定向视频时，具体用于：

确定语音特征的注意力权重；

在一个可能实现方式中，生成模块在基于注意力权重将语音特征与视觉特征融合，生成语音驱动的重定向视频时，具体用于：

基于注意力权重确定视觉特征的权重系数；

在一个可能实现方式中，还包括训练模块，用于：

通过初始音频编码器提取样本语音信息的样本语音特征；

将样本语音特征与样本视觉特征融合，得到样本融合特征；

确定真实人脸视频与样本重定向视频之间的差异损失函数；

在一个可能实现方式中，训练模块在通过差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器时，具体用于：

在一个可能实现方式中，训练模块在基于GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器时，具体用于：

从样本重定向视频中抽取预设帧数的重定向样本图像；

在一个可能实现方式中，训练模块在基于一致性损失函数、GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器时，具体用于：

确定样本重定向视频和真实人脸视频之间的感知损失函数；

另一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现上述的图像处理方法。

另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的图像处理方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述的图像处理方法。

本申请提供的技术方案带来的有益效果是：

通过先将源人脸进行标准化，再提取标准人脸图像的视觉特征，并提取用于驱动标准人脸图像的语音信息的语音特征，将将语音特征与视觉特征融合，生成语音驱动的重定向视频，源人脸图像先标准化后再跟语音特征融合，可以降低待融合的标准人脸图像的多样性，使重定向视频跟用于驱动的语音可以更好的进行配合。

重定向视频重定向视频重定向视频

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像处理方法的实施环境示意图；

图2为本申请实施例提供的一种图像处理方法的流程示意图；

图3为本申请示例提供的图像标准化的方案的示意图；

图4为本申请实施例提供的一种模型训练的方案的示意图；

图5为本申请示例提供的图像处理的方案的示意图；

图6为本申请实施例提供的一种图像处理装置的结构示意图；

图7为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

语音驱动的视频重定向可以分为两类，一类是用一段语音驱动一张图像，修改图像中人脸嘴型；另一类是用一段语音驱动一段视频，修改视频中的人脸嘴型。两者的设置不同，视频中的人脸重定向有更多的应用场景，比如译制片口型翻译。我们主要专注于视频中的人脸重定向问题。

视频中的人脸重定向可以分为两类，一类是个性化的方法，针对每个人的视频来训练一个模型；另一类是通用方法,训练出来的模型可以用于任意的人。相关技术中有一种基于3D(3-dimension，三维)网格的方法，首先将输入的语音提取特征，然后语音特征作为两个网络的输入，用于分别预测3D关键点和2D(2-dimension，二维)纹理图。3D关键点和纹理图被用来合成3D人脸网格。对于目标视频，该方法先将3D人脸网络调整对齐视频中人脸的姿态，然后将3D人脸网格投影到2D，最后将投影的2D人脸与视频进行融合生成重定向后的视频。还有相关技术中使用数万个人脸视频进行训练，先提取人脸和语音特征，然后将两种特征就行融合，融合后的特征输入给卷积网络，输出重定向人脸。该方法使用一个同步判别器来判别语音与图像是否同步。

目前的相关方法并没有考虑输入嘴型分布问题，而是直接将说话的嘴型作为输入。这样会造成两个问题，一是语音中没有说话声音，生成的视频中依然会有嘴型的变化；二是输入嘴型的多样性增加重定向网络的难度，生成的嘴型容易出现高频变化。

本申请主要通过一个生成式网络对输入嘴型进行标准化，降低其多样性，从而降低重定向网络的学习难度，提高生成质量。

图1是本发明实施例提供的一种图像处理方法的实施环境的示意图，参见图1，用于进行图像处理的计算机设备100获取源人脸图像；对源人脸图像进行处理，得到标准人脸图像；采集用户输入的语音信息，提取语音信息的语音特征，并提取标准人脸图像的视觉特征，将语音特征与视觉特征融合，生成重定向视频。

可以理解的是，图1表示的是一个示例中的应用场景，并不对本申请的图像处理方法的应用场景进行限定，上述场景中，计算机设备可以是终端设备，也可以是服务器，本申请实施例对此不作限定。

本技术领域技术人员可以理解，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile Internet Devices，移动互联网设备)、PDA(个人数字助理)、台式计算机、智能家电、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等，终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。具体也可基于实际应用场景需求确定，在此不作限定。

图2为本申请实施例提供的一种图像处理方法的流程示意图。该方法的执行主体可以为计算机设备。如图2所示，该方法可以包括以下步骤：

步骤S201，从待处理视频的各视频帧图像中获取源人脸图像。

具体的，待处理视频需要针对视频中的人脸图像进行视频重定向，即视频中人脸说话的嘴型需要根据指定的语音驱动变化。

具体的，可以从待处理视频中提取视频帧图像，可以将视频帧图像直接作为人脸图像，也可以对视频帧图像进行处理，例如裁剪等操作，得到源人脸图像。

步骤S202，针对每一源人脸图像，基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像。

其中，标准人脸图像可以是指源人脸图像所对应的人在五官处于预设的标准状态下的图像，例如，可以是处于眼睛睁开嘴巴闭上的状态下的人脸图像。

具体的，基于源人脸图像的五官状态将源人脸图像进行标准化，可以是将源人脸图像的五官状态调整至预设的标准状态，具体针对源人脸图像的标准化过程将在下文进行进一步详细阐述。

步骤S203，获取语音信息。

其中，语音信息用于驱动各个标准人脸图像进行视频重定向。

具体的，语音信息可以是预先采集的，也可以是实时采集的，对此不进行限定。

在具体实施过程中，语音信息的时长可以和待处理视频的时长相同，即待处理视频中的人脸图像的嘴型由语音信息的驱动而改变。

若待处理视频和语音信息的时长不同，则可以确定语音信息的第一时长，根据语音信息的第一时长从待处理视频中获取具有第一时长的目标视频，从目标视频的视频帧图像中获取源人脸图像。

步骤S204，提取语音信息的语音特征，并提取各个标准人脸图像的视觉特征。

具体的，可以通过预训练的特征提取网络分别提取语音特征和视觉特征。

在一些可能的实施方式中，步骤S204提取语音信息的语音特征，并提取各个标准人脸图像的视觉特征，可以包括：

通过音频编码器提取语音信息的语音特征；

通过视觉编码器提取各个标准人脸图像的视觉特征；

其中，视觉特征的维度与语音特征的维度相同。

在一些可能的实施方式中，可以通过音频编码器提取语音信息的MFCC(Mel-frequency ceptral coefficient，梅尔频率倒谱系数)heat map(热力图)特征，即将音频信号转成图像特征。

具体的，音频编码器可以采用标准的4个卷积层，通过音频编码器来提取语音特征，语音特征为二维向量；视觉编码器也可以采用4层卷积网络，输出一个二维的视觉特征。

步骤S205，将语音特征与视觉特征融合，生成语音驱动的重定向视频。

具体的，语音特征和视觉特征为两种不同模态的特征，可以采用注意力机制将两种特征进行融合。

在一些可能的实施方式中，可以采用注意力机制确定针对语音特征的权重系数，再根据语音特征的权重系数确定针对视觉特征的权重系数，从而将语音特征和视觉特征进行融合。具体针对语音特征和视觉特征的融合过程，将在下文进行进一步详细阐述。

上述实施例中，通过先将源人脸进行标准化，再提取标准人脸图像的视觉特征，并提取用于驱动标准人脸图像的语音信息的语音特征，将将语音特征与视觉特征融合，生成语音驱动的重定向视频，源人脸图像先标准化后再跟语音特征融合，可以降低待融合的标准人脸图像的多样性，使重定向视频跟用于驱动的语音可以更好的进行配合。

以下将结合实施例进一步阐述将源人脸图像进行标准化的具体过程。

在一些可能的实施方式中，五官状态可以包括嘴部状态。

步骤S202基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像，可以包括：

(1)确定源人脸图像的嘴部状态；

(2)若嘴部状态处于预设状态，则将源人脸图像作为标准人脸图像；

(3)若嘴部状态不处于预设状态，则将源人脸图像进行标准化，得到标准人脸图像。

具体的，将源人脸图像进行标准化，得到标准人脸图像，包括：

对源人脸图像进行至少一次下采样，得到下采样特征；

对标准化特征进行至少一次上采样，得到标准人脸图像。

具体的，可以采用UNet网络对源人脸图像进行标准化。其中，UNet网络是一种分割网络。

其中，预设状态可以是嘴部状态处于闭合状态。

具体的，UNet模型的前半部分通过降采样(下采样)，提高图像中高阶特征；在UNet模型的中间特征层，即隐空间中嵌入了一个由预设标签扩张而成的标准特征图，用来后续做嘴部状态的控制，不同的预设状态设置有不同的预设标签；预设状态为闭嘴的时候，标签为0，那么标准特征图是由0扩张而成的张量；当预设状态为张嘴的时候，标签为1，那么标准特征图是由1扩张而成的张量；UNet后半部分就是一系列的上采样过程，将得到的标准化特征进行解码。

当预设状态为闭嘴的时候，标签为0，那么UNet输出的都是处于闭嘴状态的图像；当预设状态为张嘴的时候，标签为1，那么UNet输出的都是处于张嘴状态的图像。

以下将针对UNet网络的训练进行进一步说明。

具体的，针对UNet网络的训练，可以获取初始UNet网络，在初始UNet网络中插入预设特征图，预设特征图是由预设值，例如0，张成的三位张量。

在具体实施过程中，可以采用L1损失函数来进行人脸重建，即UNet的输出应该与UNet的输入相同，其中，L1损失函数也被称为最小绝对值偏差、最小绝对值误差；还可以采用GAN(Generative Adversarial Networks，生成式对抗网络)损失函数来训练UNet。

上述实施例阐述了将源人脸图像进行标准化的具体过程，以下将结合实施例进一步阐述将视觉特征和语音特征进行融合生成重定向视频的具体过程。

在一些可能的实施方式中，步骤S205将语音特征与视觉特征融合，生成语音驱动的重定向视频，可以包括：

(1)确定语音特征的注意力权重；

(2)基于注意力权重将语音特征与视觉特征融合，生成语音驱动的重定向视频。

具体的，可以采用注意力机制确定语音特征的注意力权重，例如，将语音特征和视觉特征输入到预设的Attention(注意力)网络，得到针对语音特征的注意力权重。

在一些可能的实施方式中，基于注意力权重将语音特征与视觉特征融合，生成语音驱动的重定向视频，包括：

a、基于注意力权重确定视觉特征的权重系数；

b、基于注意力权重和权重系数确定语音特征与视觉特征的加权和，得到融合特征；

c、通过视频解码器将融合特征进行视觉解码，得到语音驱动的重定向视频。

在具体实施过程中，注意力权重和视觉特征的权重系数之和为1，则可以直接注意力权重确定视觉特征的权重系数，并根据注意力权重和视觉特征的权重系数将视觉特征和语音特征融合，具体可以采用如下公式：

f_out＝α*f_audio+(1-α)*f_visual (1)

其中，f_audio表示语音特征；f_visual表示视觉特征；f_out表示融合特征。

上述实施例阐述了将视觉特征和语音特征进行融合生成重定向视频的具体过程，以下将结合实施例进一步阐述针对音频编码器、视觉编码器以及视频解码器的训练过程。

在一些可能的实施方式中，如图4所示，音频编码器、视觉编码器以及视频解码器可以通过如下方式训练得到：

通过初始音频编码器提取样本语音信息的样本语音特征；

将样本语音特征与样本视觉特征融合，得到样本融合特征；

确定真实人脸视频与样本重定向视频之间的差异损失函数；

在具体实施过程中，可以将初始音频编码器、初始视觉编码器以及初始视频解码器进行联合训练。

具体的，真实人脸视频与样本重定向视频之间的差异损失函数可以是L1损失函数。

具体的，若差异性损失函数达到设的第一训练终止条件，即差异性损失函数收敛，或者真实人脸视频与样本重定向视频之间的差异值小于一个预设的第一阈值，或者针对初始音频编码器、初始视觉编码器以及初始视频解码器的训练次数达到了预设次数，则可以得到音频编码器、视觉编码器以及视频解码器。

在一些可能的实施方式中，除了采用差异性损失函数之外，还可以结合生成式对抗网络(Generative Adversarial Networks,GAN)损失函数来训练初始音频编码器、初始视觉编码器以及初始视频解码器。

在一些可能的实施方式中，通过差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器，可以包括：

具体的，针对GAN损失函数，可以采用如下公式进行计算:

式中：x为标准人脸图像，D为GAN中的判别器，L_g是样本重定向视频中重定向人脸图像的分布，L_G是真实人脸视频中真实人脸图像的分布；L_gen是GAN中生成器的损失函数，L_disc是GAN中判别器的损失函数。

具体的，若差异性损失函数达到设的第一训练终止条件，且GAN损失函数达到预设的第二训练终止条件，或者针对初始音频编码器、初始视觉编码器以及初始视频解码器的训练次数达到了预设次数，则可以得到音频编码器、视觉编码器以及视频解码器。

在另一些可能的实施方式中，还可以确定差异性损失函数和GAN损失函数之间的加权平均值，从而进一步确定是否针对初始音频编码器、初始视觉编码器以及初始视频解码器的训练达到终止条件，例如，差异性损失函数和GAN损失函数之间的加权平均值小于预设的第二阈值。

在一些可能的实施方式中，除了采用差异性损失函数和GAN损失函数之外，还可以结合一致性损失函数来训练初始音频编码器、初始视觉编码器以及初始视频解码器。

在一些可能的实施方式中，基于GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器，可以包括：

从样本重定向视频中抽取预设帧数的重定向样本图像；

具体的，可以采用预设的SyncNet网络来来监督一致性，可以选择连续的5帧合成的重定向样本图像与对应的目标样本语音信息输入SyncNet,用一致性损失来更新模型。其中，SyncNet是一种用于视听同步任务的模型。

具体的，若差异性损失函数达到设的第一训练终止条件，且GAN损失函数达到预设的第二训练终止条件，且一致性损失函数达到第三训练终止条件，或者针对初始音频编码器、初始视觉编码器以及初始视频解码器的训练次数达到了预设次数，则可以得到音频编码器、视觉编码器以及视频解码器。

在另一些可能的实施方式中，还可以确定差异性损失函数、GAN损失函数以及一致性损失函数之间的加权平均值，从而进一步确定是否针对初始音频编码器、初始视觉编码器以及初始视频解码器的训练达到终止条件，例如，差异性损失函数、GAN损失函数和一致性损失函数之间的加权平均值小于预设的第三阈值。

在一些可能的实施方式中，除了采用差异性损失函数、GAN损失函数和一致性损失函数之外，还可以结合感知损失函数来训练初始音频编码器、初始视觉编码器以及初始视频解码器。

其中，学习感知图像块相似度(Learned Perceptual Image Patch Similarity,LPIPS)也称为“感知损失”(perceptual loss),用于度量两张图像之间的差别。

在一些可能的实施方式中，基于一致性损失函数、GAN损失函数以及差异损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行训练，得到音频编码器、视觉编码器以及视频解码器，包括：

确定样本重定向视频和真实人脸视频之间的感知损失函数；

具体的，若差异性损失函数达到设的第一训练终止条件、GAN损失函数达到预设的第二训练终止条件、一致性损失函数达到第三训练终止条件，且感知损失函数达到预设的第四终止条件，或者针对初始音频编码器、初始视觉编码器以及初始视频解码器的训练次数达到了预设次数，则可以得到音频编码器、视觉编码器以及视频解码器。

在另一些可能的实施方式中，还可以确定差异性损失函数、GAN损失函数、一致性损失函数和感知损失函数之间的加权平均值，从而进一步确定是否针对初始音频编码器、初始视觉编码器以及初始视频解码器的训练达到终止条件，例如，差异性损失函数、GAN损失函数、一致性损失函数和感知损失函数之间的加权平均值小于预设的第四阈值。

上述实施例中，通过差异性损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行联合训练，可以保证输出的重定向视频中的重定向图像与真实人脸图像之间差异最小。

进一步的，结合GAN损失函数可以提高生成的重定向人脸图像的保真度；结合一致性损失函数可以保证语音信息和重定向视频中嘴型的一致性；结合感知损失函数可以提高重定向视频的细节信息和真实感。

为了更清楚的阐述本申请的图像处理方法，以下将结合附图和示例对本申请的图像处理方法进行进一步阐述。

如图5所示，在一个示例中，本申请的图像处理方法，包括如下步骤：

获取源人脸图像；通过源人脸图像的嘴部状态判断是否需要对源人脸图像进行标准化；

若嘴部状态不处于预设状态，则将源人脸图像进行标准化，得到标准人脸图像；

通过音频编码器提取语音信息的语音特征；

通过视觉编码器提取各个标准人脸图像的视觉特征；

确定语音特征的注意力权重；

基于注意力权重将语音特征与视觉特征融合，得到融合特征；

上述的图像处理方法，通过先将源人脸进行标准化，再提取标准人脸图像的视觉特征，并提取用于驱动标准人脸图像的语音信息的语音特征，将将语音特征与视觉特征融合，生成语音驱动的重定向视频，源人脸图像先标准化后再跟语音特征融合，可以降低待融合的标准人脸图像的多样性，使重定向视频跟用于驱动的语音可以更好的进行配合。

进一步的，通过差异性损失函数对初始音频编码器、初始视觉编码器以及初始视频解码器进行联合训练，可以保证输出的重定向视频中的重定向图像与真实人脸图像之间差异最小。

图6为本申请实施例提供的一种图像处理装置的结构示意图。如图6所示，该装置包括：

第一获取模块601，用于从待处理视频的各视频帧图像中获取源人脸图像；

标准化模块602，用于针对每一源人脸图像，基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像；

第二获取模块603，用于获取语音信息；语音信息用于驱动各个标准人脸图像视频重定向；

提取模块604，用于提取语音信息的语音特征，并提取各个标准人脸图像的视觉特征；

生成模块605，用于将语音特征与视觉特征融合，生成语音驱动的重定向视频。

在一个可能实现方式中，五官状态包括嘴部状态；

标准化模块602在基于源人脸图像的五官状态将源人脸图像进行标准化，得到标准人脸图像时，具体用于：

确定源人脸图像的嘴部状态；

在一个可能实现方式中，标准化模块602在将源人脸图像进行标准化，得到标准人脸图像时，具体用于：

对源人脸图像进行至少一次下采样，得到下采样特征；

对标准化特征进行至少一次上采样，得到标准人脸图像。

在一个可能实现方式中，提取模块604在提取语音信息的语音特征，并提取标准人脸图像的视觉特征时，具体用于：

通过音频编码器提取语音信息的语音特征；

通过视觉编码器提取各个标准人脸图像的视觉特征；

其中，视觉特征的维度与语音特征的维度相同。

在一个可能实现方式中，生成模块605在将语音特征与视觉特征融合，生成语音驱动的重定向视频时，具体用于：

确定语音特征的注意力权重；

在一个可能实现方式中，生成模块605在基于注意力权重将语音特征与视觉特征融合，生成语音驱动的重定向视频时，具体用于：

基于注意力权重确定视觉特征的权重系数；

在一个可能实现方式中，还包括训练模块，用于：

通过初始音频编码器提取样本语音信息的样本语音特征；

将样本语音特征与样本视觉特征融合，得到样本融合特征；

确定真实人脸视频与样本重定向视频之间的差异损失函数；

从样本重定向视频中抽取预设帧数的重定向样本图像；

确定样本重定向视频和真实人脸视频之间的感知损失函数；

上述的图像处理装置，通过先将源人脸进行标准化，再提取标准人脸图像的视觉特征，并提取用于驱动标准人脸图像的语音信息的语音特征，将将语音特征与视觉特征融合，生成语音驱动的重定向视频，源人脸图像先标准化后再跟语音特征融合，可以降低待融合的标准人脸图像的多样性，使重定向视频跟用于驱动的语音可以更好的进行配合。

本实施例的图像处理装置可执行本申请上述实施例所示的图像处理方法，其实现原理相类似，此处不再赘述。

图7是本申请实施例中提供了一种计算机设备的结构示意图。如图7所示，该计算机设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：

通过先将源人脸进行标准化，再提取标准人脸图像的视觉特征，并提取用于驱动标准人脸图像的语音信息的语音特征，将将所述语音特征与所述视觉特征融合，生成语音驱动的重定向视频，源人脸图像先标准化后再跟语音特征融合，可以降低待融合的标准人脸图像的多样性，使重定向视频跟用于驱动的语音可以更好的进行配合。通过差异性损失函数对初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行联合训练，可以保证输出的重定向视频中的重定向图像与真实人脸图像之间差异最小。结合GAN损失函数可以提高生成的重定向人脸图像的保真度；结合一致性损失函数可以保证语音信息和重定向视频中嘴型的一致性；结合感知损失函数可以提高重定向视频的细节信息和真实感。

在一个可选实施例中提供了一种计算机设备，如图7所示，图7所示的计算机设备700包括：处理器701和存储器703。其中，处理器701和存储器703相连，如通过总线702相连。可选地，计算机设备700还可以包括收发器704，收发器704可以用于该计算机设备与其他计算机设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器704不限于一个，该计算机设备700的结构并不构成对本申请实施例的限定。

处理器701可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线702可包括一通路，在上述组件之间传送信息。总线702可以是PCI(Peripheral Component Interconnect，外设部件互连标注)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标注结构)总线等。总线702可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器703可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器703用于存储执行本申请方案的应用程序代码(计算机程序)，并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，计算机设备包括但不限于：虚拟化的计算机设备、虚拟机、服务器、服务集群、用户的终端等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中图像处理方法的相应内容。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的图像处理方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，生成模块还可以被描述为“用于生成重定向视频的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

从待处理视频的各视频帧图像中获取源人脸图像；

针对每一所述源人脸图像，基于所述源人脸图像的五官状态将所述源人脸图像进行标准化，得到标准人脸图像；

获取语音信息；所述语音信息用于驱动各个所述标准人脸图像进行视频重定向；

提取所述语音信息的语音特征，并提取各个所述标准人脸图像的视觉特征；

将所述语音特征与所述视觉特征融合，生成语音驱动的重定向视频。

2.根据权利要求1所述的图像处理方法，其特征在于，所述五官状态包括嘴部状态；

所述基于所述源人脸图像的五官状态将所述源人脸图像进行标准化，得到标准人脸图像，包括：

确定所述源人脸图像的嘴部状态；

若所述嘴部状态处于预设状态，则将所述源人脸图像作为所述标准人脸图像；

若所述嘴部状态不处于所述预设状态，则将所述源人脸图像进行标准化，得到所述标准人脸图像。

3.根据权利要求2所述的图像处理方法，其特征在于，所述将所述源人脸图像进行标准化，得到所述标准人脸图像，包括：

对所述源人脸图像进行至少一次下采样，得到下采样特征；

确定与所述预设状态对应的标签，对所述标签进行扩张得到标准特征图；

基于预设的标准特征图对所述下采样特征进行调整，得到标准化特征；

对所述标准化特征进行至少一次上采样，得到所述标准人脸图像。

4.根据权利要求1所述的图像处理方法，其特征在于，所述提取所述语音信息的语音特征，并提取所述标准人脸图像的视觉特征，包括：

通过音频编码器提取所述语音信息的语音特征；

通过视觉编码器提取各个所述标准人脸图像的视觉特征；

其中，所述视觉特征的维度与所述语音特征的维度相同。

5.根据权利要求4所述的图像处理方法，其特征在于，所述将所述语音特征与所述视觉特征融合，生成语音驱动的重定向视频，包括：

确定所述语音特征的注意力权重；

基于所述注意力权重将所述语音特征与所述视觉特征融合，生成所述语音驱动的重定向视频。

6.根据权利要求5所述的图像处理方法，其特征在于，所述基于所述注意力权重将所述语音特征与所述视觉特征融合，生成所述语音驱动的重定向视频，包括：

基于所述注意力权重确定所述视觉特征的权重系数；

基于所述注意力权重和所述权重系数确定所述语音特征与所述视觉特征的加权和，得到融合特征；

通过视频解码器将所述融合特征进行视觉解码，得到所述语音驱动的重定向视频。

7.根据权利要求6所述的图像处理方法，其特征在于，所述音频编码器、所述视觉编码器以及所述视频解码器通过如下方式训练得到：

通过初始音频编码器提取所述样本语音信息的样本语音特征；

通过初始视觉编码器提取各个所述样本标准人脸图像的样本视觉特征；

将所述样本语音特征与所述样本视觉特征融合，得到样本融合特征；

通过初始视频解码器将所述样本融合特征进行视觉解码，得到样本重定向视频；

确定所述真实人脸视频与所述样本重定向视频之间的差异损失函数；

通过所述差异损失函数对所述初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行训练，得到所述音频编码器、所述视觉编码器以及所述视频解码器。

8.根据权利要求7所述的图像处理方法，其特征在于，所述通过所述差异损失函数对所述初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行训练，得到所述音频编码器、所述视觉编码器以及所述视频解码器，包括：

通过生成对抗网络GAN对所述样本重定向视频进行判别，确定GAN损失函数；

基于所述GAN损失函数以及所述差异损失函数对所述初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行训练，得到所述音频编码器、所述视觉编码器以及所述视频解码器。

9.根据权利要求8所述的图像处理方法，其特征在于，所述基于所述GAN损失函数以及所述差异损失函数对所述初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行训练，得到所述音频编码器、所述视觉编码器以及所述视频解码器，包括：

从所述样本重定向视频中抽取预设帧数的重定向样本图像；

从所述样本语音信息中获取与所述重定向样本图像对应的目标样本语音信息；

通过一致性检测网络确定所述重定向样本图像与所述目标样本语音信息之间的一致性损失函数；

基于所述一致性损失函数、所述GAN损失函数以及所述差异损失函数对所述初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行训练，得到所述音频编码器、所述视觉编码器以及所述视频解码器。

10.根据权利要求9所述的图像处理方法，其特征在于，所述基于所述一致性损失函数、所述GAN损失函数以及所述差异损失函数对所述初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行训练，得到所述音频编码器、所述视觉编码器以及所述视频解码器，包括：

确定所述样本重定向视频和所述真实人脸视频之间的感知损失函数；

基于所述感知损失函数、所述一致性损失函数、所述GAN损失函数以及所述差异损失函数对所述初始音频编码器、所述初始视觉编码器以及所述初始视频解码器进行训练，得到所述音频编码器、所述视觉编码器以及所述视频解码器。

11.一种图像处理装置，其特征在于，所述装置包括：

标准化模块，用于针对每一所述源人脸图像，基于所述源人脸图像的五官状态将所述源人脸图像进行标准化，得到标准人脸图像；

第二获取模块，用于获取语音信息；所述语音信息用于驱动各个所述标准人脸图像进行重定向；

提取模块，用于提取所述语音信息的语音特征，并提取各个所述标准人脸图像的视觉特征；

生成模块，用于将所述语音特征与所述视觉特征融合，生成语音驱动的重定向视频。

12.一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至10任一项所述的图像处理方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述的图像处理方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述的图像处理方法。