CN116129007A

CN116129007A - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN116129007A
Application number: CN202211198959.1A
Authority: CN
Inventors: 杨茂; 冯晟; 吴海英; 蒋宁
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-05-16

Abstract

本申请提供一种图像处理方法、装置、设备及存储介质，通过获取待处理的音频；将音频输入生成式对抗网络的生成器进行人脸图像生成，得到生成式对抗网络输出的2D人脸图像；将2D人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数；根据第一3DMM参数，构建音频对应的3D人脸图像。通过生成式对抗网络的生成器处理音频，得到2D人脸图像，然后通过参数估计网络对2D人脸图像进行处理，得到第一3DMM参数，基于第一3DMM参数构建音频对应的3D人脸图像，在没有大量成对的3D人脸以及音频数据集的情况下，根据音频构建对应的3D人脸图像，简化3D人脸图像生成方式。

Description

图像处理方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着深度学习的发展及计算机算力的增加，深度学习的应用已渗透至各方面众多相关领域，尤其在图像处理领域的表现突出。在图像处理领域，深度学习一种具体应用体现为根据说话者的音频获得人脸图像。

相关技术中，通常采用有监督学习方式来确定音频对应的人脸图像。但有监督学习需获取大量的成对的音频与三维(three-dimensional，3D)人脸数据的数据集，而该数据集是难以获取的。

发明内容

本申请的实施例提供一种图像处理方法、装置、设备及存储介质。

第一方面，本申请的实施例提供一种图像处理方法，包括：将待处理的音频输入生成式对抗网络的生成器进行2D人脸图像生成，得到生成式对抗网络输出的2D人脸图像；将2D人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数，其中，参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，且用于训练得到参数估计网络的标注数据是采用预训练网络标注的，第一3DMM参数用于表示所述三维可变形人脸模型中基于基础脸模型脸部变化的系数；根据第一3DMM参数，构建音频对应的3D人脸图像。

可以看出，在本申请实施例中，先通过生成式对抗网络的生成器对音频进行处理，得到2D人脸图像，然后通过参数估计网络对2D人脸图像进行处理，得到第一3DMM参数，最后基于该第一3DMM参数构建该音频对应的3D人脸图像，实现在没有大量的成对的3D人脸以及音频数据集的情况下，可以根据音频构建对应的3D人脸图像，简化了3D人脸图像生成的方式。另外，基于预训练网络可以从2D人脸图像中蒸馏提取出3D人脸重建的特征知识，使得本申请实施例生成的3D人脸图像中不包含有与音频无关的噪声变化，另外，由于参数估计网络的标注数据是采用预训练网络标注的，使得第一3DMM参数达到最佳，提高了3D人脸图像的准确性。

第二方面，本申请实施例提供一种参数估计网络的训练方法，该参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的。训练方法包括：获取第一样本人脸图像；将第一样本人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数；将第一样本人脸图像输入预训练网络进行3DMM参数估计，得到预训练网络输出的第二3DMM参数为参数估计网络的标签；根据第一3DMM参数和标签，调整参数估计网络的模型参数。

可以看出，在本申请实施例中，在对参数估计网络进行训练的过程中，将第一样本人脸图像输入预训练网络进行3DMM参数估计，得到预训练网络输出的第二3DMM参数为参数估计网络的标签，可以提升参数估计网络的精度，使得该参数估计网络在根据音频生成3D人脸图像的过程中，确保了生成的3D人脸图像不包含与音频无关的噪声变化。

第三方面，本申请实施例提供一种图像处理装置，包括：生成模块，用于将待处理的音频输入生成式对抗网络的生成器进行2D人脸图像生成，得到生成式对抗网络输出的2D人脸图像；参数估计模块，用于将2D人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数，其中，参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，且用于训练得到参数估计网络的标注数据是采用预训练网络标注的，第一3DMM参数用于表示所述三维可变形人脸模型中基于基础脸模型脸部变化的系数；构建模块，用于根据第一3DMM参数，构建音频对应的3D人脸图像。

第四方面，本申请实施例提供一种参数估计网络的训练装置，用于训练参数估计网络，该参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，该训练装置包括：获取模块，用于获取第一样本人脸图像；第一参数估计模块，用于将第一样本人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数；第二参数估计模块，用于将第一样本人脸图像输入预训练网络进行3DMM参数估计，得到预训练网络输出的第二3DMM参数为参数估计网络的标签；调整模块，用于根据第一3DMM参数和标签，调整参数估计网络的模型参数。

第五方面，本申请实施例提供一种电子设备，包括：存储器和至少一个处理器，存储器用于存储程序指令，处理器用于调用存储器中的程序指令，执行如第一方面的图像处理方法，和/或，如第二方面的参数估计网络的训练方法。

第六方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序；计算机程序被执行时，实现如第一方面的图像处理方法，和/或，如第二方面的参数估计网络的训练方法。

第七方面，本申请实施例提供一种计算机程序产品，包括：计算机程序，该计算机程序被处理器执行时，实现如第一方面的图像处理方法，和/或，如第二方面的参数估计网络的训练方法。

本申请实施例提供一种图像处理方法、装置、设备及存储介质，先通过生成式对抗网络的生成器对音频进行处理，得到2D人脸图像，然后通过参数估计网络对2D人脸图像进行处理，得到第一3DMM参数，最后基于该第一3DMM参数构建该音频对应的3D人脸图像，实现在没有大量的成对的3D人脸以及音频数据集的情况下，可以根据音频构建对应的3D人脸图像，简化了3D人脸图像生成的方式。另外，基于预训练网络可以从2D人脸图像中蒸馏提取出3D人脸重建的特征知识，使得本申请实施例生成的3D人脸图像中不包含有与音频无关的噪声变化，另外，由于参数估计网络的标注数据是采用预训练网络标注的，使得第一3DMM参数达到最佳，提高了3D人脸图像的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的图像处理方法的场景示意图；

图2为本申请实施例一提供的图像处理方法的流程示意图；

图3为本申请实施例提供的图像处理方法的原理示意图；

图4为本申请实施例二提供的图像处理模型的结构示意图；

图5a为本申请实施例提供的2D人脸图像模块的结构示意图；

图5b为本申请实施例提供的3D人脸建模模块的结构示意图；

图6为本申请实施例三提供的参数估计网络的训练方法的流程图；

图7为本申请实施例四提供的参数估计网络的训练方法的流程图；

图8为本申请实施例五提供的参数估计网络的训练方法的流程图；

图9为本申请实施例六提供的生成式对抗网络的训练流程图；

图10为本申请实施例提供的根据音频生成3D人脸图像的模型推理的流程示意图；

图11为本申请实施例七提供的从音频构建3D人脸图像的流程示意图；

图12为本申请实施例八提供的图像处理装置的结构示意图；

图13为本申请实施例九提供的参数估计网络的训练装置的结构示意图；

图14为本申请实施例十提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的说明书、权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“/”表示“或”的关系。

人们在听到一个不知名的说话者的音频时，可以大致想象出他的样子。音频包含了许多生理属性，例如，语言是由发音结构产生的，如声带、面部肌肉和面部骨骼，这些都是紧密相连的。这一事实直观地表明了音频和脸型之间的潜在关联。认知科学的实验指出，在人类的感知中，音频与视觉是相关联的，尤其是在识别一个人的身份时。以往的音频和面部形状的相关性研究都集中在生理学和神经科学领域中，但在人工智能领域，鲜有这样的研究。

相关技术中，通过使用图像重建以及生成式对抗网络的方法生成人脸。该方法的目标是仅从说话者的音频中输出面部图像。然而，由于预测音频无法推理出外部属性，比如图像背景、发型、头饰或胡须等，使得根据说话者的音频输出的面部图像本身是不正确的。此外，相关技术中还可以采用有监督的学习方法从音频中生成人脸。但是该方法需要大量的成对的音频与3D人脸数据的数据集，而获得大量的三维人脸扫描数据非常昂贵，且受隐私限制。另外基于优化的三维可变形人脸模型(3D Morphable models，简称3DMM)拟合人脸landmarks的解决方案又非常耗时。

因此，如何在没有获取到大量的成对的音频与3D人脸数据的情况下根据音频生成人脸图像，是值得研究的重要问题。有鉴于此，本申请实施例提供一种图像处理方法、装置、设备及存储介质，先通过生成式对抗网络的生成器对音频进行处理，得到2D人脸图像，然后通过参数估计网络对2D人脸图像进行处理，得到第一3DMM参数，最后基于该第一3DMM参数构建该音频对应的3D人脸图像，实现在没有大量的成对的3D人脸以及音频数据集的情况下，可以根据音频构建对应的3D人脸图像，简化了3D人脸图像生成的方式。另外，基于预训练网络可以从2D人脸图像中蒸馏提取出3D人脸重建的特征知识，使得本申请实施例生成的3D人脸图像中不包含有与音频无关的噪声变化，另外，由于用于训练得到参数估计网络的标注数据是采用预训练网络标注的，使得第一3DMM参数达到最佳，提高了3D人脸图像的准确性。

接下来，结合具体实施例对图像处理方法进行详细说明。图1为本申请实施例提供的图像处理方法的场景示意图。如图1所示，该场景包括：终端设备。

其中，终端设备也可称之为用户设备(user equipment，简称：UE)、移动台(mobilestation，简称：MS)、移动终端(mobile terminal)、终端(terminal)等。在实际应用中，终端设备例如是：台式电脑、笔记本、个人数字助理(Personal Digital Assistant，简称：PDA)、智能手机、平板电脑、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能显示设备)等。

示例性的，在终端设备获得该待处理的音频后(例如，通过终端设备捕捉获得待处理的音频，或者，通过其他方式上传或发送待处理的音频至该终端设备)，终端设备即可通过本申请实施例提供的图像处理方法，对该待处理的音频进行处理，进而获得该待处理的音频对应的3D人脸图像。

在一些可选的实施例中，该场景中还可以包括服务器。其中，服务器是提供数据处理、数据库等功能的业务点，服务器可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器，服务器可以包括硬件、软件，或者用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。服务器例如为，刀片服务器、云端服务器等，或者可以是由多台服务器组成的服务器群组。

其中，终端设备和服务器之间可以通过有线网络或者无线网络进行通，在本申请实施例中，可以由服务器执行上述终端设备的部分功能。

示例性的，可以通过终端设备将待处理的音频上传至服务器，由服务器通过本申请实施例提供的图像处理方法，对该待处理的音频进行处理，进而获得该待处理的音频对应的3D人脸图像，再由终端设备输出该3D人脸图像。

应理解，图1仅是本申请实施例提供的一种应用场景的示意图，本申请实施例不对图1中包括的设备种类及设备个数进行限定，例如，在图1所示的应用场景中，还可以包括数据存储设备，用于存储业务数据，该数据存储设备可以是外部存储器，也可以是集成在终端设备或者服务器中的内部存储器。

下面以具体地实施例对本申请的实施例的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请实施例进行描述。

图2为本申请实施例一提供的图像处理方法的流程示意图。应理解，本申请实施例的执行主体为上述终端设备或者服务器，如图2所示，该图像处理方法包括如下步骤：

S201、将待处理的音频输入生成式对抗网络的生成器进行2D人脸图像生成，得到生成式对抗网络输出的2D人脸图像。

待处理的音频可以为现有数据集中的音频，也可以为实时获取的音频，本申请实施例对待处理的音频的来源不做限定。示例性的，现有的数据集可以为Voxceleb数据集。示例性的，对于待处理的音频的获取，可以通过场景实施例中所述的终端设备获取，也可以通过场景实施例中所述的服务器获取，本申请实施例对待处理的音频的获取方式不做限定。

生成式对抗网络(Generative Adversarial Networks，简称GAN)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。

GAN中的生成器可以理解为生成模块，用于根据输入的音频生成与该音频对应的人脸图像。具体的，该人脸图像中包含有与音频无关的噪声变化。示例性的，无关的噪声变化可以包括但不限于风格变化、发型、背景和面部纹理等等。

S202、将2D人脸图像输入参数估计网络进行3DMM参数估计，得到参数估计网络输出的第一3DMM参数。

可选地，参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，且用于训练得到参数估计网络的标注数据是采用预训练网络标注的。

知识蒸馏(knowledge distillation，简称KD)是模型压缩的一种常用的方法。不同于模型压缩中的剪枝和量化，KD是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度。最早是由Hinton在2015年首次提出并应用在分类任务上面，这个大模型我们称之为teacher(教师模型)，小模型我们称之为Student(学生模型)。来自Teacher模型输出的监督信息称之为knowledge(知识)，而student学习迁移来自teacher的监督信息的过程称之为Distillation(蒸馏)。

本申请实施例中，可以将参数估计网络理解为KD中的学生模型，将预训练网络理解为教师模型。

可选地，第一3DMM参数用于表示三维可变形人脸模型中基于基础脸模型脸部变化的系数。3DMM是一种常用的基于主成分分析(rincipal Component Analysis，简称PCA)的三维人脸建模方法。通过估计基矩阵的权值，可以构造出一个三维人脸。PCA是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。具体的，该基矩阵为脸部变化的基矩阵。示例性的，脸部变化可以为旋转、平移、横向变化以及纵向变化等等。

图3为本申请实施例提供的图像处理方法的原理示意图。如图3所示，参数估计网络包括，编码器和解码器。一些实施例中，第一3DMM参数可以通过以下方式确定：通过编码器对人脸图像进行特征提取，得到编码器输出的特征图；通过解码器对特征图进行3DMM参数估计，得到解码器输出的第一3DMM参数。

S203，根据第一3DMM参数，构建音频对应的3D人脸图像。

可选地，通过3DMM构建三维人脸，一种可能的实现方式中，可以将人脸分解为两部分：基础脸模型和脸部变化。示例性的，对于人脸A，可以通过以下公式表示：

其中，

表示具有N个三维顶点的基础脸模型；V∈R^3N×P，表示脸部变化的基矩阵；α∈R^P，表示3DMM参数；R表示实数集，P表示维度，N表示顶点个数。

一种可能的实现方式中，可以通过将人脸A重构为A_r∈R^3×N用于表示三维旋转和平移的矩阵。

示例性的，对于3DMM中顶点个数以及维度可以根据BFM(Basel Face Model)模型进行设置。BFM是一个开源的人脸数据库，其基本原理是3DMM在PCA的基础上进行存储，BFM可以拟合任意三维人脸并保存3DMM参数。目前，BFM有两个数据库，分别为2009版和2017版。具体的，可以通过以下方式根据BFM的2009版进行3DMM的顶点以及维度的设置：BFM的2009版由53490个顶点构成，根据其形状(shape)或纹理(texture)的排列方式，可知其形状或纹理的数据长度为16047(53490*3)。因此，可以设置3DMM的顶点数N＝53490。进一步，参考新力量网络(SynergyNet)，根据形状变化基础的维度，可以设置3DMM的维度P＝50。另外，可以根据SynergyNet的额外构成参数，将重建的3D人脸与2D人脸图像输入对齐。具体的，可以表示为：

A_P＝MA_r+t

其中，M∈R^3×3，表示旋转矩阵；t∈R³，表示平移向量。

需要说明的是，本申请实施例用于可视化预测人脸网格，判断该人脸网格是否符合二维形状轮廓时，不使用上述所说的额外构成参数，即旋转和平移。可以理解的是，本申请实施例中对于3D人脸图像的生成仅使用3DMM参数对应的基矩阵。

一些实施例中，根据第一3DMM参数，确定人脸图像相对基础脸模型的脸部变化；在基础脸模型上，叠加脸部变化，得到音频对应的3D人脸图像。示例性的，脸部变化的确定方法可以为：确定第一3DMM参数与基矩阵的乘积为脸部变化，其中，基矩阵为3DMM中基于基础脸模型的脸部变化的基矩阵。

本实施例中，先通过生成式对抗网络的生成器对音频进行处理，得到2D人脸图像，然后通过参数估计网络对2D人脸图像进行处理，得到第一3DMM参数，最后基于该第一3DMM参数构建该音频对应的3D人脸图像，实现在没有大量的成对的3D人脸以及音频数据集的情况下，可以根据音频构建对应的3D人脸图像，简化了3D人脸图像生成的方式。另外，基于预训练网络可以从2D人脸图像中蒸馏提取出3D人脸重建的特征知识，使得本申请实施例生成的3D人脸图像中不包含有与音频无关的噪声变化，另外，由于用于训练得到参数估计网络的标注数据是采用预训练网络标注的，使得第一3DMM参数达到最佳，提高了3D人脸图像的准确性。

接下来，将参数估计网络和生成式对抗网络统称为图像处理模型，以图像处理模型为KD的无监督学习框架为例，结合图4对图像处理模型的具体结构进行说明。

图4为本申请实施例二提供的图像处理模型的结构示意图。如图4所示，该图像处理模型包括：2D人脸图像模块(Speech-to-Image模块)、3D人脸建模模块(Image-to-3D模块)。其中，2D人脸图像模块包括四个主要的组件：语音编码器φ_ν(语音嵌入网络)，生成器φ_g，鉴别器φ_dis和分类器φ_c，具体的，语音编码器用于提取音频信号的语音嵌入特征，生成器进一步根据提取的语音嵌入特征生成2D人脸图像，鉴别器用于鉴别生成的2D人脸图像与真实图像之间的差异性，并将鉴定结果分为真实图像和伪图像两类，分类器用于根据生成的2D人脸图像对说话人的身份进行分类。3D人脸建模模块包括参数估计网络和预训练网络，预训练网络和参数估计网络如上所述，可以理解为只是蒸馏中的“教师”网络和“学生”网络的关系，根据生成的2D人脸图像，3D人脸建模模块分别根据预训练网络得到3DMM的参数α^E，根据参数估计网络得到3DMM的参数α。

具体的，在通过图像处理模型获取3D人脸图像时，具体包括如下步骤：

(1)通过2D人脸图像模块中的语音编码器和生成器对第一样本音频进行处理，生成第一样本图像；

(2)通过3D人脸建模模块中的参数估计网络进行3DMM参数估计，得到参数估计网络输出的第一3DMM参数；

(3)3DMM根据参数估计网络输出的3DMM参数，构建出3D人脸图像。

图5a为本申请实施例提供的2D人脸图像模块的结构示意图，图5b为本申请实施例提供的3D人脸建模模块的结构示意图。如图5a和图5b所示，2D人脸图像模块和3D人脸建模模块的具体组成模块以及各模块的作用如上所述，这里不再赘述。

本申请实施例中，通过将2D人脸图像模块中得到的2D人脸图像进一步采用3D人脸建模模块进行处理，得2D人脸图像对应的3D人脸图像。该方法去除了2D人脸图像中包含的与音频无关的噪声变化，提高了根据音频得到的3D人脸图像的准确性。

接下来，结合具体实施例对于参数估计网络的训练方法进行详细说明。

图6为本申请实施例三提供的参数估计网络的训练方法的流程图。应理解，本申请实施例的执行主体可以为上述图像处理装置，也可以为其他装置，本申请实施例不做特别限定。如图6所示，该参数估计网络的训练方法包括以下步骤：

S601，获取第一样本人脸图像。

示例性的，第一样本人脸图像为通过2D人脸图像模块生成的2D人脸图像。具体的，根据2D人脸图像模块生成第一样本人脸图像可以包括以下步骤：

S6011，获取第一样本音频。

第一样本音频可以从现有的数据集中获取，示例性的，该数据集可以为Voxceleb数据集。

一种可能的实现方式中，提取窗口大小为25ms的64维对数谱图，并对每个语音频率库的均值和方差进行归一化处理。具体的，通过对数据集中的每个语音频率库的均值和方差进行归一化处理，以消除不同音频的语音频率对模型训练的影响，使得用于模型训练的样本音频的频率无差异。

可以理解的是，我们在获取第一样本音频的同时，也会获取与第一样本音频对应的第一人脸图像。示例性的，该第一人脸图像可以从VGGFace数据集中获取。即本申请示例中所提及的数据集中人脸图像和音频是成对的。

S6012，将第一样本音频输入生成式对抗网络的生成器进行人脸图像生成，得到生成器输出的第一样本音频对应的第一人脸图像为第一样本人脸图像。

示例性的，第一样本人脸图像的维度可以为64×64。

S602，将第一样本人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数。

本申请实施例中，为了适应参数估计网络模型以及预训练网络模型对人脸图像进行三维人脸重建的输入尺寸，在利用第一样本图像对参数估计网络进行训练时，需对第一样本人脸图像进行双线性上采样至维度为120×120。

可选地，将第一样本人脸图像输入编码器进行特征提取，得到编码器输出的特征图；将特征图输入解码器进行3DMM参数估计，得到解码器输出的3DMM参数。

S603，将第一样本人脸图像输入预训练网络进行3DMM参数估计，得到预训练网络输出的第二3DMM参数为参数估计网络的标签。

参数估计网络的标签用于表示由参数估计网络得到的3DMM参数构建的3D人脸图像与第一样本人脸图像的相似度。示例性的，当参数估计网络得到的3DMM参数构建的3D人脸图像与第一样本人脸图像的相似度较高时，设置参数估计网络的标签为真标签(groundtruth)；当参数估计网络得到的3DMM参数构建的3D人脸图像与第一样本人脸图像的相似度较低时，设置参数估计网络的标签为伪标签(pseudo-groundtruth)。

可以理解的是，当大于一定阈值的标签全部为真标签时，则说明参数估计网络估计的3DMM参数为最佳参数。

S604，根据第一3DMM参数和标签，调整参数估计网络的模型参数。

根据3DMM参数和标签对参数估计网络进行迭代训练，直到大于一定阈值的标签全部为真标签时，确定参数估计网络的模型参数调整到最佳，则停止训练。

一种可能的实现方式中，基于第一损失函数，确定3DMM参数相对标签的第一损失值；根据第一损失值，调整参数估计网络的模型参数。示例性的，第一损失函数可以为L2损失函数。L2损失函数用于最小化误差,该误差是真实值和预测值之间所有平方差的总和。

示例性的，第一损失值可以通过以下公式表示：

L_p-gt＝||α^E-α||²

其中，L_p-gt表示第一损失值，α^E表示通过预训练网络估计得到的3DMM参数，α表示通过参数估计网络估计得到的3DMM参数。

可以理解的是，当参数估计网络估计得到的3DMM参数与通过预训练网络估计得到的3DMM参数相等或者近似相等时，说明参数估计网络模型的参数已调整到最佳。

本实施例中，在对参数估计网络进行训练的过程中，将第一样本人脸图像输入预训练网络进行3DMM参数估计，得到预训练网络输出的第二3DMM参数为参数估计网络的标签，对参数估计网络进行训练，可以提升参数估计网络的精度，使得该参数估计网络在根据音频生成3D人脸图像的过程中，确保了生成的3D人脸图像与真实人脸图像的相似性，且该3D人脸图像不包含与音频无关的噪声变化。

为了使训练得到的参数估计网络的参数更加准确，可以结合不同的损失函数对参数估计网络进行训练。

一种实现方式中，上述根据第一损失值，调整参数估计网络的模型参数，可以进一步包括如图7所示的步骤。下面结合图7对结合第一损失函数和第二损失函数的训练方式进行详细说明。

图7为本申请实施例四提供的参数估计网络的训练方法的流程图。在图6所示流程的基础上，如图7所示，该参数估计网络的训练方法包括以下步骤：

S701，分别从预训练网络和参数估计网络对应的特征图中提取图像嵌入特征。

在预训练网络和参数估计网络中还可以包括中间层，示例性的，该中间层可以为特征嵌入层(Embedding)，用于将数据转换(降维)为固定大小的特征表示(矢量)。使得在欧几里得空间中，可以更直接地量化预测和真实情况之间的差异。

从预训练网络和参数估计网络对应的特征图中提取图像嵌入特征用于表示人脸图像的分布。示例性的，从参数估计网络提取的图像嵌入特征可以表示为Z^E∈R^B*ν，从预训练网络提取的图像嵌入特征可以表示为Z∈R^B*ν。其中，B和ν表示维度。

S702，根据预训练网络对应的图像嵌入特征，确定预训练网络的特征之间的第一条件概率。

可选地，第一条件概率可以采用余弦相似度进行约束。余弦相似度是通过计算两个向量夹角的余弦值来评估他们的相似度。

示例性的，第一条件概率可以通过以下公式表示：

其中，K(.，.)表示余弦相似度。示例性的，K(.，.)的输出范围为[0，1]。

示例性的，当预训练网络对应的图像嵌入特征分别分布在5个不同的位置点(x₁，y₁)、(x₂，y₂)、(x₃，y₃)、(x₄，y₄)和(x₅，y₅)时，分别计算点(x₁，y₁)和(x₂，y₂)、(x₂，y₂)和(x₃，y₃)、(x₃，y₃)和(x₄，y₄)、(x₄，y₄)和(x₅，y₅)以及(x₁，y₁)和(x₅，y₅)之间夹角的余弦值，得到5个不同位置点对应的余弦相似度，并根据第一条件概率对应的公式分别得到与余弦相似度对应的第一条件概率。

S703，根据参数估计网络对应的图像嵌入特征，确定参数估计网络的特征之间的第二条件概率。

可选地，第一条件概率可以采用余弦相似度进行约束。

示例性的，第二条件概率可以通过以下公式表示：

具体的，根据余弦相似度确定第二条件概率的方法与上述第一条件概率的确定方法类似，这里不再赘述。

S704，基于第二损失函数，确定第二条件概率相对第一条件概率的第二损失值。

示例性的，第二损失函数可以为KL散度(Kullback-Leibler divergence)，也称为相对熵，用于度量两个概率分布之间差异的非对称性。

第二损失值可以通过以下公式表示：

其中，L_div表示第二损失值。

可以理解的是，根据第一条件概率和第二条件概率基于第二损失函数求解第二损失值时，其第二损失值为根据图像嵌入特征中相近位置点的每一个第一条件概率和第二条件概率的损失值的总和。示例性的，其中，任意一个第一条件概率为根据点(x₁，y₁)和(x₂，y₂)之间的余弦相似度计算得到的时，则第二条件概率为根据点(x′₁，y′₁)和(x′₂，y′₂)之间的余弦相似度计算得到的。其中，点(x₁，y₁)和(x₂，y₂)为预训练网络图像嵌入特征对应的图像分布的位置点，点(x′₁，y′₁)和(x′₂，y′₂)为参数估计网络图像嵌入特征对应的图像分布的位置点。

S705，根据第一损失值和第二损失值，调整参数估计网络的模型参数。

示例性的，可以将第一损失值和第二损失值的和作为参数估计网络的第一目标损失值，并用该第一目标损失值去调整参数估计网络的模型参数。可以理解的是，当第一目标损失值达到最小时，表示参数估计网络的参数调整到最佳。第一目标损失值可以通过以下公式表示：

L₁＝L_p-gt+L_div

其中，L_p-gt为第一损失值，L_div为第二损失值。

本实施例中，通过分别从预训练网络和参数估计网络对应的特征图中提取图像嵌入特征；根据预训练网络对应的图像嵌入特征，确定预训练网络的特征之间的第一条件概率；根据参数估计网络对应的图像嵌入特征，确定参数估计网络的特征之间的第二条件概率；基于第二损失函数，确定第二条件概率相对第一条件概率的第二损失值；根据第一损失值和第二损失值，调整参数估计网络的模型参数。该方法通过结合第一损失函数和第二损失函数对参数估计网络进行训练，使得训练得到的参数估计网络的模型参数更加准确，进一步提高了参数估计网络模型的准确性。

为了使训练得到的参数估计网络的参数更加准确，还可以结合不同的损失函数对参数估计网络进行训练。一种实现方式中，上述根据第一损失值，调整参数估计网络的模型参数，可以进一步包括如图8所示的步骤。下面结合图8对结合第一损失函数和第三损失函数的训练方式进行详细说明。

图8为本申请实施例五提供的参数估计网络的训练方法的流程图。在图6所示流程的基础上，如图8所示，该参数估计网络的训练方法可以包括以下步骤：

S801，基于第三损失函数，确定3DMM参数为锚点时相对锚点的正样本和负样本的第三损失值。

示例性的，第三损失函数可以为三重损失函数。三重损失的目的是相对于负样本拉近某一个样本和它的正样本的距离。本申请实施例中，可以将3DMM参数作为锚点样本，将从不同图像回归出来的相同的身份作为锚点的正样本，将从不同图像回归出来的不同的身份作为锚点的负样本。

第三损失函数可以通过以下公式表示：

L_tri＝max{||α-α_p||₂-||α-α_n||₂+1，0}

其中，L_tri表示第三损失值，α表示锚点样本，α_p表示锚点的正样本，α_n表示锚点的负样本。

S802，根据第一损失值和第三损失值，调整参数估计网络的模型参数。

示例性的，可以将第一损失值和第三损失值的和作为参数估计网络的第二目标损失值，并用该第二目标损失值去调整参数估计网络的模型参数。可以理解的是，当第二目标损失值达到最小时，表示参数估计网络的参数调整到最佳。第二目标损失值可以通过以下公式表示：

L₂＝L_p-gt+L_tri

其中，L_p-gt为第一损失值，L_tri为第三损失值。

本领域技术人员可以想到的是，再一种可能的实现方式中，还可以通过结合第一损失函数、第二损失函数以及第三损失函数对参数估计网络进行联合训练，并进一步根据第一损失值、第二损失值以及第三损失值调整参数估计网络的模型参数。

本实施例中，基于第三损失函数，确定3DMM参数为锚点时相对锚点的正样本和负样本的第三损失值；根据第一损失值和第三损失值，调整参数估计网络的模型参数。该方法通过结合第一损失函数和第三损失函数对参数估计网络进行训练，使得训练得到的参数估计网络的模型参数更加准确，进一步提高了参数估计网络模型的准确性。

可以理解的是，本申请实施例提供的3D人脸建模模块用于生成3D人脸图像，2D人脸图像模块用于根据音频生成人脸图像。下面结合具体的实施例，对2D人脸图像模块的训练方法进行详细说明。

图9为本申请实施例六提供的生成式对抗网络的训练流程图。该实施例具体用于说明2D人脸图像模块的训练方法，具体的该2D人脸图像模块可以为生成式对抗网络。如图9所示，该生成式对抗网络的训练流程包括以下步骤：

S901，获取成对的第二样本音频和第二样本人脸图像。

第二样本音频和第二样本人脸图像的具体获取方式如上述所述的获取方法相同，以及对第二样本音频的归一化处理方法与对第一样本音频的处理方法相同，这里不在赘述。

可以理解的是，第二样本音频与第二样本人脸图像是一一对应的。需要说明的是，第一样本音频和第二样本音频可以为相同数据集中的数据，具体的，第一样本音频用于检测生成式对抗网络模型的准确性，第二样本音频用于训练生成式对抗网络的参数。

还可以理解的是，在对生成式对抗网络进行训练时，还需要输入与第二样本音频对应的说话人的ID。用于确保音频与人脸一一对应的准确性。

S902，将第二样本音频输入生成器进行人脸图像生成，得到生成器输出的第二样本音频对应的第二人脸图像。

生成器从语音嵌入特征中根据经验值合成人脸图像。具体的，语音嵌入特征可以通过语音编码器获取。可以理解的是，语音编码器提取的语音嵌入特征为所有维度的音频特征。

一种可能的实现方式中，将第二样本音频输入语音编码器进行特征提取，得到语音编码器输出的音频嵌入特征；将音频嵌入特征输入生成器进行人脸图像生成，得到生成器输出的第二人脸图像。

示例性的，当第二样本语音输入为S，与该语音对应的真实人脸图像为I_r，以及与该语音对应的说话人的ID。则由生成器合成的图像可以表示为：

其中，

表示语音编码器，

表示生成器。

S903，将第二样本人脸图像和第二人脸图像输入鉴别器，得到鉴别器输出的鉴别结果，该鉴别结果为真实图像或伪图像。

S904，将第二人脸图像输入分类器，得到分类器输出的第二人脸图像的身份信息。

第二人脸图像的身份信息与输入的与第二样本音频对应的说话人的身份信息相一致。

S905，根据鉴别结果和身份信息，调整生成式对抗网络的模型参数。

一种可能的实现方式中，基于第四损失函数，根据鉴别结果和身份信息，确定第四损失值；根据第四损失值，调整生成式对抗网络的模型参数。

示例性的，第四损失函数分为真实图像和伪图像两部分。具体的，对于真实的图像，鉴别器

将它们分配给“real”(r)，分类器

将它们分配给id。真实图像的损失可以表示为：

其中，L_r表示真实图像的损失，L_d表示鉴别器的损失，L_c表示生成器的损失。

对于伪图像，从生成器

产生I_f后，鉴别器

将其分配给“fake”

分类器

将其分配给id。伪图像的损失是：

其中，L_f表示伪图像的损失，L_d表示鉴别器的损失，L_c表示生成器的损失。

示例性的，L_d和L_c可以为交叉熵损失函数。交叉熵损失函数主要用于度量两个概率分布间的差异性。两个概率分布分别为样本的真实分布和模型所预测的分布。交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小，模型预测效果就越好。

基于第四损失函数，根据鉴别结果和身份信息，确定第四损失值，一种可能的实现方式中，若鉴别结果为真实图像，则基于第四损失函数，根据鉴别结果和身份信息，确定相对真实图像的损失为第四损失值；若鉴别结果为伪图像，则基于第四损失函数，根据鉴别结果和身份信息，确定相对伪图像的损失为第四损失值。

本申请实施例中，通过获取成对的第二样本音频和第二样本人脸图像；将第二样本音频输入生成器进行人脸图像生成，得到生成器输出的第二样本音频对应的第二人脸图像；将第二样本人脸图像和第二人脸图像输入鉴别器，得到鉴别器输出的鉴别结果，鉴别结果为真实图像或伪图像；将第二人脸图像输入分类器，得到分类器输出的第二人脸图像的身份信息；根据鉴别结果和身份信息，调整生成式对抗网络的模型参数。该方法通过对生成式对抗网络的模型参数的训练，提高了通过生成式对抗网络根据音频生成的人脸图像的准确性。

综上所述对模型的训练，本申请实施例还需要说明的是关于模型训练中的数据的解释、模型训练环境的准备以及模型训练参数的设置。

具体的，用于训练生成式对抗网络的数据做如下处理：将人脸数据定义为y。我们假设一组受试者的面部数据Y＝{y₁，y₂，……，y_k}。相应地，我们也有一组语音录音S＝{s₁，s₂，……，s_N}，具有身份标签

和一组人脸I_f＝{I_f1，I_f2，……，I_fM}的标识

使

以及

可以理解的是，对于输入的音频数据不一定全部可以生成对应的人脸，因此，生成的人脸个数不一定等于真实的人脸个数，即N并不一定等于M。

另外，我们定义的“real”和“fake”两组标签

以及

分别对应

和Y^s。R是一组表示I_f中的所有面部都是“real”的标签。

是一组表明任何由s∈S生成的面孔都是合成的或“fake”的标签。

在具体的实验中，实例化语音编码器

生成器

鉴别器

分类器

作为卷积神经网络。s是语音信号表示，最终卷积层的输出随着时间的推移被汇聚，输出q维向量e。生成器组件输出的图像是相同分辨率w x h(长和宽)的RGB图像。

训练数据(Voxceleb+VGGFace)包括一组语音记录S和一组人脸图像F。根据V中的语音录音数据。在训练模型时：1、任何实际语音输入s的生成器的输出I_f必须是“real”的人脸图像。2、它必须与音频具有相同的身份，即ID相同。我们将使用GAN框架来训练模型。

具体的，模型训练环境准备包括：本发明的框架在PyTorch中实现，python＝3.8，PyTorch V1.9

1)由此创建一个conda环境：

conda create--name CMP python＝3.8

2)另外，还需一些依赖包：opencv，scipy，PIL，Cython；-cython＝＝0.29.24；opencv-python＝＝4.5.3.56；scipy＝＝1.7.1。将这些依赖包环境打包到environment.yml中，实现一键安装：

conda env create-f environment.yml//安装依赖包

conda activate CMP//激活环境

3)构建渲染工具包：通过c++和cython，构建用于在带有配置的图像上重叠3D网格的渲染工具包。

python3 setup.py build_ext--inplace

其中，setup.py中：

from distutils.core import setup，Extension

from Cython.Build import cythonize

from Cython.Distutils import build_ext

import numpy

setup(name＝'Sim3DR_Cython',#not the package name

cmdclass＝{'build_ext':build_ext},

ext_modules＝[Extension("Sim3DR_Cython",

sources＝["lib/rasterize.pyx","lib/rasterize_kernel.cpp"],

language＝'c++',

include_dirs＝[numpy.get_include()],

extra_compile_args＝["-std＝c++11"])],)

具体的，模型训练参数设置包括：使用Adam优化器，并将学习速率设置为2x10-4，batch size设置为64，总训练步骤数为50,000。

为了进行三重损失函数(triplet loss)训练，对一批样本中的每个样本，进一步统一抽取同一人的一个话语作为阳性样本，将不同人的另一个话语作为阴性样本。

图10为本申请实施例提供的根据音频生成3D人脸图像的模型推理的流程示意图。如图10所示，输入一段不同于训练集的新的音频到已经训练好的Speech-to-Image模型中，则该模型会输出一张2D人脸，进一步将该2D人脸又输入到Image-to-3D模块中，输出最后的3D人脸图像。其具体的生成方法，与上述图像处理的方法实施例中所述的方法类似，这里不再赘述。

图11为本申请实施例七提供的从音频构建3D人脸图像的流程示意图。本申请实施例通过直接级联两种单独预训练的方法(无需联合训练)建立了一个简单的baseline网络，即GAN-based的Speech-to-Image模块以及用于Image-to-3D人脸的模块。

如图11所示，将音频输入Speech-to-Image模块后，基于GAN生成与音频对应的2D人脸图像，进一步将2D人脸图像输入Image-to-3D模块，用于构建与音频对应的3D人脸图像。

本实施例提供的方法，使得与音频对应的3D人脸图像中不包括与音频无关的噪声变化，提高了与音频对应的3D人脸图像的准确性。此外，该3D人脸图像在欧几里得空间中，可以更直接地量化预测和真实情况之间的差异。

图12为本申请实施例八提供的图像处理装置的结构示意图。该图像处理装置可以通过软件和/或硬件的方式实现。实际应用中，该图像处理装置可以集成在如前的终端设备或者服务器中。

如图12所示，该图像处理装置120包括：获取模块121，用于获取待处理的音频；生成模块122，用于将音频输入生成式对抗网络的生成器进行人脸图像生成，得到生成式对抗网络输出的2D人脸图像；参数估计模块123，用于将2D人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数，其中，该参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，且用于训练得到参数估计网络的标注数据是采用预训练网络标注的，第一3DMM参数用于表示三维可变形人脸模型中基于基础脸模型脸部变化的系数；构建模块124，用于根据第一3DMM参数，构建音频对应的3D人脸图像。

在一些实施例中，参数估计模块123具体用于：通过编码器对2D人脸图像进行特征提取，得到编码器输出的特征图；通过解码器对特征图进行3DMM参数估计，得到解码器输出的第一3DMM参数。

在一些实施例中，构建模块124具体用于：根据第一3DMM参数，确定人脸图像相对基础脸模型的脸部变化；在基础脸模型上，叠加脸部变化，得到音频对应的3D人脸图像。

应理解，本申请实施例提供的图像处理装置12可应用于上述图像处理方法所示实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本申请实施例九提供的参数估计网络的训练装置的结构示意图。该训练装置用于训练参数估计网络，该参数估计网络为采用KD对预训练网络进行模型压缩得到的。应理解，该训练装置可以通过软件和/或硬件的方式实现。实际应用中，该语音识别装置可以集成在如前的终端设备或者服务器中。

如图13所示，训练装置130包括：获取模块131，用于获取第一样本人脸图像；第一参数估计模块132，用于将第一样本人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到参数估计网络输出的第一3DMM参数；第二参数估计模块133，用于将第一样本人脸图像输入预训练网络进行3DMM参数估计，得到预训练网络输出的第二3DMM参数为参数估计网络的标签；调整模块134，用于根据3DMM参数和标签，调整参数估计网络的模型参数。

一些实施例中，调整模块134具体用于：基于第一损失函数，确定第一3DMM参数相对标签的第一损失值；根据第一损失值，调整参数估计网络的模型参数。

一些实施例中，调整模块134还用于：分别从预训练网络和参数估计网络对应的特征图中提取图像嵌入特征；根据预训练网络对应的图像嵌入特征，确定预训练网络的特征之间的第一条件概率；根据参数估计网络对应的图像嵌入特征，确定参数估计网络的特征之间的第二条件概率；基于第二损失函数，确定第二条件概率相对第一条件概率的第二损失值；根据第一损失值和第二损失值，调整参数估计网络的模型参数。

一些实施例中，调整模块134还用于：基于第三损失函数，确定3DMM参数为锚点时相对锚点的正样本和负样本的第三损失值；根据第一损失值和第三损失值，调整参数估计网络的模型参数。

一些实施例中，获取模块131具体用于：获取第一样本音频；将第一样本音频输入生成式对抗网络的生成器进行人脸图像生成，得到生成器输出的第一样本音频对应的第一人脸图像为第一样本人脸图像。

一些实施例中，该训练模块中的生成式对抗网络包括生成器、鉴别器和分类器，获取模块131还用于：获取成对的第二样本音频和第二样本人脸图像；将第二样本音频输入生成器进行人脸图像生成，得到生成器输出的第二样本音频对应的第二人脸图像；将第二样本人脸图像和第二人脸图像输入鉴别器，得到鉴别器输出的鉴别结果，鉴别结果为真实图像或伪图像；将第二人脸图像输入分类器，得到分类器输出的第二人脸图像的身份信息；根据鉴别结果和身份信息，调整生成式对抗网络的模型参数。

图14为本申请实施例十提供的电子设备的结构示意图。如图14所示，电子设备140包括：处理器141、存储器142、通信接口143和系统总线144。

其中，存储器142和通信接口143通过系统总线144与处理器141连接并完成相互间的通信，存储器142用于存储程序指令，通信接口143用于和其他设备进行通信，处理器141用于调用存储器中的程序指令以执行如上述方法实施例的图像处理方法的方案，和/或，执行如上述方法实施例的参数估计网络的训练方法的方案。

具体地，处理器141可以包括一个或多个处理单元，例如：处理器141可以是中央处理单元(Central Processing Unit，简称CPU)，也可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器142可以用于存储程序指令。存储器142可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能等)等。存储数据区可存储电子设备140使用过程中所创建的数据(比如音频数据等)等。此外，存储器142可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，简称UFS)等。处理器141通过运行存储在存储器142的程序指令，执行电子设备140的各种功能应用以及数据处理。

通信接口143可以提供应用在电子设备140上的包括2G/3G/4G/110G等无线通信的解决方案。通信接口143可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。通信接口143还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，通信接口143的至少部分功能模块可以被设置于处理器141中。在一些实施例中，通信接口143的至少部分功能模块可以与处理器141的至少部分模块被设置在同一个器件中。

系统总线144可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该系统总线144可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需说明的是，对于存储器142及处理器141的个数，本申请实施例不对其进行限制，其均可以为一个或多个，图14以一个为例进行图示；存储器142、及处理器141之间，可以通过多种方式进行有线或者无线连接，例如通过总线连接。实际应用中，该电子设备140可以是各种形式的计算机或移动终端。其中，计算机例如为膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机等；移动终端例如为个人数字处理、蜂窝电话、智能电话、可穿戴设备以及其它类似的计算装置。

本实施例的电子设备，可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有程序指令，该程序指令被执行时，实现如上述任一实施例的图像处理方法，和/或，参数估计网络的训练方法。

本申请实施例还提供一种计算机程序产品，包括：计算机程序，该计算机程序被处理器执行时，实现如上述任一项方法实施例中的图像处理方法，和/或，参数估计网络的训练方法。

在上述的实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的部分步骤。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种图像处理方法，其特征在于，包括：

将待处理的音频输入生成式对抗网络的生成器进行2D人脸图像生成，得到所述生成式对抗网络输出的2D人脸图像；

将所述2D人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到所述参数估计网络输出的第一3DMM参数；其中，所述参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，且用于训练得到所述参数估计网络的标注数据是采用所述预训练网络标注的，所述第一3DMM参数用于表示所述三维可变形人脸模型中基于基础脸模型脸部变化的系数；

根据所述第一3DMM参数，构建所述音频对应的3D人脸图像。

2.根据权利要求1所述的图像处理方法，其特征在于，所述参数估计网络包括编码器和解码器，所述将所述2D人脸图像输入参数估计网络进行3DMM参数估计，得到所述参数估计网络输出的第一3DMM参数，包括：

通过所述编码器对所述2D人脸图像进行特征提取，得到所述编码器输出的特征图；

通过所述解码器对所述特征图进行3DMM参数估计，得到所述解码器输出的第一3DMM参数。

3.根据权利要求1或2所述的图像处理方法，其特征在于，所述根据所述第一3DMM参数，构建所述音频对应的3D人脸图像，包括：

根据所述第一3DMM参数，确定所述3D人脸图像相对基础脸模型的脸部变化；

在所述基础脸模型上，叠加所述脸部变化，得到所述音频对应的3D人脸图像。

4.一种参数估计网络的训练方法，其特征在于，所述参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，所述训练方法包括：

获取第一样本人脸图像；

将所述第一样本人脸图像输入所述参数估计网络进行三维可变形人脸模型3DMM参数估计，得到所述参数估计网络输出的第一3DMM参数；

将所述第一样本人脸图像输入所述预训练网络进行3DMM参数估计，得到所述预训练网络输出的第二3DMM参数为所述参数估计网络的标签；

根据所述第一3DMM参数和所述标签，调整所述参数估计网络的模型参数。

5.根据权利要求4所述的训练方法，其特征在于，所述根据所述第一3DMM参数和所述标签，调整所述参数估计网络的模型参数，包括：

基于第一损失函数，确定所述第一3DMM参数相对所述标签的第一损失值；

根据所述第一损失值，调整所述参数估计网络的模型参数。

6.根据权利要求5所述的训练方法，其特征在于，所述根据所述第一损失值，调整所述参数估计网络的模型参数，包括：

分别从所述预训练网络和所述参数估计网络对应的特征图中提取图像嵌入特征；

根据所述预训练网络对应的图像嵌入特征，确定所述预训练网络的特征之间的第一条件概率；

根据所述参数估计网络对应的图像嵌入特征，确定所述参数估计网络的特征之间的第二条件概率；

基于第二损失函数，确定所述第二条件概率相对所述第一条件概率的第二损失值；

根据所述第一损失值和所述第二损失值，调整所述参数估计网络的模型参数。

7.根据权利要求5所述的训练方法，其特征在于，所述根据所述第一损失值，调整所述参数估计网络的模型参数，包括：

基于第三损失函数，确定所述3DMM参数为锚点时相对锚点的正样本和负样本的第三损失值；

根据所述第一损失值和所述第三损失值，调整所述参数估计网络的模型参数。

8.根据权利要求4至7中任一项所述的训练方法，其特征在于，所述获取第一样本人脸图像，包括：

获取第一样本音频；

将所述第一样本音频输入生成式对抗网络的生成器进行人脸图像生成，得到所述生成器输出的所述第一样本音频对应的第一人脸图像为所述第一样本人脸图像。

9.根据权利要求8所述的训练方法，其特征在于，所述生成式对抗网络包括所述生成器、鉴别器和分类器，所述生成式对抗网络是通过以下方式训练得到的：

获取成对的第二样本音频和第二样本人脸图像；

将所述第二样本音频输入所述生成器进行人脸图像生成，得到所述生成器输出的所述第二样本音频对应的第二人脸图像；

将所述第二样本人脸图像和所述第二人脸图像输入所述鉴别器，得到所述鉴别器输出的鉴别结果，所述鉴别结果为真实图像或伪图像；

将所述第二人脸图像输入所述分类器，得到所述分类器输出的所述第二人脸图像的身份信息；

根据所述鉴别结果和所述身份信息，调整所述生成式对抗网络的模型参数。

10.一种图像处理装置，其特征在于，包括：

生成模块，用于将待处理的音频输入生成式对抗网络的生成器进行2D人脸图像生成，得到所述生成式对抗网络输出的2D人脸图像；

参数估计模块，用于将所述2D人脸图像输入参数估计网络进行三维可变形人脸模型3DMM参数估计，得到所述参数估计网络输出的第一3DMM参数，其中，所述参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，且用于训练得到所述参数估计网络的标注数据是采用所述预训练网络标注的，所述第一3DMM参数用于表示所述三维可变形人脸模型中基于基础脸模型脸部变化的系数；

构建模块，用于根据所述第一3DMM参数，构建所述音频对应的3D人脸图像。

11.一种参数估计网络的训练装置，其特征在于，所述参数估计网络为采用知识蒸馏对预训练网络进行模型压缩得到的，所述训练装置包括：

获取模块，用于获取第一样本人脸图像；

第一参数估计模块，用于将所述第一样本人脸图像输入所述参数估计网络进行三维可变形人脸模型3DMM参数估计，得到所述参数估计网络输出的第一3DMM参数；

第二参数估计模块，用于将所述第一样本人脸图像输入所述预训练网络进行3DMM参数估计，得到所述预训练网络输出的第二3DMM参数为所述参数估计网络的标签；

调整模块，用于根据所述第一3DMM参数和所述标签，调整所述参数估计网络的模型参数。

12.一种电子设备，其特征在于，包括：

存储器和至少一个处理器，存储器用于存储程序指令，处理器用于调用存储器中的程序指令，执行如权利要求1至3中任一项所述的图像处理方法，和/或，如权利要求4至9中任一项所述的参数估计网络的训练方法。

13.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序；所述计算机程序被执行时，实现如权利要求1至3中任一项所述的图像处理方法，和/或，如权利要求4至9中任一项所述的参数估计网络的训练方法。