CN110706713A

CN110706713A - 一种人脸图像生成方法及电子设备

Info

Publication number: CN110706713A
Application number: CN201911033642.0A
Authority: CN
Inventors: 黄俊仁
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-01-17

Abstract

本发明公开了一种人脸图像生成方法及电子设备，该方法包括：获取目标音频；提取所述目标音频的声纹特征数据；将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。实施上述方法，可以基于通话方的语音信息，通过更直观地方式，显示通话方的形象，能够满足通话一方对通话另一方声音的想象，丰富电子设备的语音通话功能。

Description

一种人脸图像生成方法及电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种人脸图像生成方法及电子设备。

背景技术

随着电子技术的发展，诸如智能手机、平板电脑等电子设备能够支持的功能越来越多，例如，电子设备可以支持用户与其他用户之间进行语音通话。现有技术中，电子设备用户之间只能进行简单的语音通话，语音通话功能比较单一。

发明内容

本发明实施例提供一种人脸图像生成方法及电子设备，以解决现有技术中存在的语音通话功能单一的技术问题。

为解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种人脸图像生成方法，所述方法包括：

获取目标音频；

提取所述目标音频的声纹特征数据；

将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。

第二方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

第一获取单元，用于获取目标音频；

第一提取单元，用于提取所述目标音频的声纹特征数据；

第一处理单元，用于将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任一项所述的人脸图像生成方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的人脸图像生成方法的步骤。

本发明实施例中，可以获取目标音频，提取目标音频的声纹特征数据，将目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。本发明实施例中，可以基于通话方的语音信息，通过更直观地方式，显示通话方的形象，能够满足通话一方对通话另一方声音的想象，丰富电子设备的语音通话功能。

附图说明

图1是本发明实施例提供的人脸图像生成方法的流程图；

图2是本发明实施例提供目标模型训练方法的流程图；

图3是本发明实施例提供的步骤203的一种实施方式的流程图；

图4是本发明实施例提供的目标解码模型训练过程的示意图；

图5是本发明实施例提供的目标编码模型训练过程的示意图；

图6是本发明实施例提供的电子设备的结构示意图；

图7是实现本发明各个实施例的一种电子设备的硬件结构示意图之一；

图8是实现本发明各个实施例的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种人脸图像生成方法及电子设备。

下面首先对本发明实施例提供的人脸图像生成方法进行介绍。

需要说明的是，本发明实施例提供的人脸图像生成方法适用于电子设备，在实际应用中，该电子设备可以包括：智能手机、平板电脑、掌上电脑、车载终端、可穿戴设备和个人数字助理等移动终端，也可以包括：服务器、笔记本电脑、台式电脑和桌面机等计算机设备，本发明实施例对此不作限定。

图1是本发明实施例提供的人脸图像生成方法的流程图，如图1所示，该方法可以包括以下步骤：步骤101、步骤102和步骤103，其中，

在步骤101中，获取目标音频。

本发明实施例中，目标音频为待转换的音频，目标音频可以来源于电话通话，也可以来源于网络应用的语音通话。

在步骤102中，提取目标音频的声纹特征数据。

本发明实施例中，目标音频的声纹特征数据可以为目标音频的梅尔频率倒谱系数，也可以为目标音频的感知线性预测系数。

在步骤103中，将目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。

本发明实施例中，目标模型用于将待转换的音频转换为对应的人脸图像。

本发明实施例中，将目标音频的声纹特征数据输入至目标模型进行处理后，该目标模型会输出对应的图像，将目标模型输出的图像确定为目标人脸图像。

由上述实施例可见，该实施例中，可以获取目标音频，提取目标音频的声纹特征数据，将目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。本发明实施例中，可以基于通话方的语音信息，通过更直观地方式，显示通话方的形象，能够满足通话一方对通话另一方声音的想象，丰富电子设备的语音通话功能。

接下来对本发明实施例提供的目标模型训练方法进行介绍。

图2是本发明实施例提供目标模型训练方法的流程图，如图2所示，该方法可以包括以下步骤：步骤201、步骤202和步骤203，其中，

在步骤201中，获取训练样本集，其中，训练样本集中包括用于模型训练的训练样本，训练样本包括样本人物的音频和人脸图像，样本人物的音频为样本人物朗读预设文本的音频。

本发明实施例中，为了确保模型训练结果的准确性，训练样本集中可以包括海量训练样本。

本发明实施例中，为了确保模型训练结果的准确性，可以让训练样本集中的每个样本人物均阅读同样的N段语句，得到每个样本人物的音频。

本发明实施例中，为了确保模型训练结果的准确性，样本人物的人脸图像可以为正面角度拍摄的清晰的人脸图像。

在步骤202中，基于样本人物的音频，提取样本人物的声纹特征数据。

本发明实施例中，样本人物的声纹特征数据可以包括：梅尔频率倒谱系数和/或感知线性预测系数。

优选地，样本人物的声纹特征数据为样本人物的梅尔频率倒谱系数。

可见，本发明实施例中，可以基于样本人物的音频，计算样本人物的梅尔频率倒谱系数，将样本人物的梅尔频率倒谱系数作为样本人物的声纹特征数据，由于梅尔频率倒谱系数可以作为声纹识别的重要特征参数，因此，基于样本人物的梅尔频率倒谱系数进行模型训练，可以保证训练结果的准确性和可信度。

在步骤203中，基于样本人物的声纹特征数据和样本人物的人脸图像，进行模型训练，得到目标模型，其中，目标模型用于将待转换音频转换为对应的人脸图像。

本发明实施例中，可以采用神经网络相关算法，对样本人物的声纹特征数据和样本人物的人脸图像进行模型训练，得到目标模型。

本发明实施例中，目标模型可以包括一个神经网络模型，也可以包括两个神经网络模型。

在本发明提供的一个实施方式中，当目标模型包括两个神经网络模型时，目标模型包括：目标编码模型和目标解码模型，其中，目标编码模型与目标解码模型级联，目标编码模型用于接收待转换音频的声纹特征数据，并将待转换音频的声纹特征数据转换为待转换音频的人像特征向量；目标解码模型用于接收来自目标编码模型的人像特征向量，并将人像特征向量转换为待转换音频对应的人脸图像。

可见，本发明实施例中，通过目标编码模型和目标解码模型的相互配合，实现目标模型的功能，丰富了目标模型的训练方式。

为了便于理解，下面对本发明实施例的模型训练思路进行描述。

本发明实施例中，为了提高目标模型输出的人脸图像的图像品质，目标模型的训练过程可以采用两个阶段：前半部份的编码阶段和后半部份的解码阶段，其中，在编码阶段进行目标编码模型的训练，在解码阶段进行目标解码模型的训练。

本发明实施例中，可以先进行解码阶段的目标解码模型训练，再进行编码阶段的目标编码模型训练，此时，如图3所示，上述步骤203具体可以包括以下步骤：步骤2031和步骤2032，其中，

在步骤2031中，训练目标解码模型；

在步骤2032中，基于训练后的目标解码模型、样本人物的声纹特征数据和样本人物的人脸图像，训练目标编码模型。

可见，相较于单一阶段模型训练容易因covariate shift而训练出模糊不清的图像，本发明实施例中，先训练解码阶段可以产生较好的图像品质。

下面首先描述目标解码模型的训练过程：

本发明实施例中，目标解码模型的训练过程主要是训练一神经网络，输入为一特征向量，输出为一人脸图像，此部份可以看作一图像生成模型，具体可以采用对抗生成网络的训练方式(即生成-判别对抗训练方式)来训练；其中，对抗生成网络的训练方式的公式具体如下：

对抗生成网络也分为两个部分：生成网络(也称为生成器)和判别网络(也称为判别器)，其中，生成网络是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片；判别网络是一个判别图片的网络，判别一张图片是不是“真实的”，它的输入参数是x，x代表一张图片，输出x为真实图片的概率，如果为1，就代表100％是真实的图片，而输出为0，就代表不可能是真实的图片。

对抗生成训练主要是通过生成网络与判别网络的网络对抗来提高生成网络的效果，在训练过程中会不断地将真实的人脸图像与生成网络所生成的人脸图像两者间交替输入到判别网络，而判别网络要判别输入的图像是属于生成网络所生成的图像还是真实的人脸图像，输出真假值，并在每一回合的训练中不断的调整判别网络的参数来提高判别准确度。而生成网络的目的为产生出来的图像能够欺骗过判别网络，因此在每一回合的训练中，生成网络也会不断的调整参数来产生更像真实图像的输出，进而提高图像的品质。在实际训练中，可以将高斯白噪声图像当作生成网络的输入参数来生成图像，白噪声的生成公式具体如下：

其中，图4示出了上述训练过程。

本发明实施例中，将解码阶段训练的目标解码模型视为生成网络，并通过上述对抗生成训练可以产生一高品质的生成网络。

基于上述所分析的解码模型的训练思路，此时，上述步骤2031具体可以包括以下步骤(图中未示出)：步骤20311、步骤20312和步骤20313，其中，

在步骤20311中，获取高斯白噪声图像；

在步骤20312中，将高斯白噪声图像输入至预设初始生成器；

在步骤20313中，将预设初始生成器的输出图像和样本人物的人脸图像交替输入至预设初始判别器；

在步骤20314中，对预设初始生成器和预设初始判别器进行对抗生成训练，得到生成器，并将生成器确定为目标解码模型。

在一个例子中，利用白噪声的生成公式产生一尺寸为w*h*c的高斯白噪声图像N，将高斯白噪声图像N输入至预设初始生成器，产生一尺寸为w*h*c的结果图像G，搭配一尺寸为w*h*c的真实人脸图像T，交替训练预设初始判别器，第一次先传入G，预设初始判别器接收到G的输入，会输出一真假信心值浮点数f，0<f<1，代表属于真实人脸图像的信心，1代表高度信心，0则反之。因为G属于人造生成，理应判定为假，系统会根据输出的信心值和0计算出损失函数L＝f-0。第二次训练，系统需要交替数据，输入真实的人像T，而T属于真实人像，理应判定为真，系统会根据输出的信心值和0计算出损失函数L＝1-f。系统根据L损失函数，来调整生成器和判别器的参数，一般经由网络反馈算法(Backpropagation)，此网络反馈算法非本发明关键算法，不加以详述。

接下来描述目标编码模型的训练过程：

本发明实施例中，在训练目标编码网络时，会将目标解码网络的参数固定住，因为目标解码模型已完成训练不需要再做变动。接着将编码网络和解码网络连接，将样本人物的声纹特征数据和人脸图像作为输入和输出，做监督式的学习训练。每一回合的训练过程会计算损失函数，之后根据损失函数的反馈，调整编码网络的参数，随着参数的调整，编码网络会越来越准确地将声纹特征数据编码成对应的人像特征向量，再通过上述训练好的解码网络产生人像，而损失函数主要在对最后产生的图像和真实图像做像素点颜色的差异计算，再依据差异调整参数的改变方向和量值，这里采用基本的网络反馈算法(Backpropagation)；其中，图5示出了上述训练过程。

基于上述所分析的编码模型的训练思路，此时，上述步骤2032具体可以包括以下步骤(图中未示出)：步骤20321、步骤20322和步骤20323，其中，

在步骤20321中，根据预设连接关系，将预设初始编码模型与目标解码模型级联，其中，预设连接关系包括：预设初始编码网络前置于目标解码模型；

在步骤20322中，将样本人物的声纹特征数据输入至预设初始编码模型；

在步骤20323中，将预设初始编码模型输出的人像特征向量输入至目标解码模型；

在步骤20324中，基于目标解码模型的输出图像和样本人物的人脸图像，对预设初始编码模型进行监督式训练，得到编码模型，并将编码模型确定为目标编码模型。

在一个例子中，预设初始编码模型的输入为声纹特征数据P(p1,p2,p3,p4...pn)，目标编码模型的输出为声纹特征数据对应的人脸图像GT，声纹特征数据P经过编码模型产生出一尺寸为w*h*c的人像特征向量，该特征向量代表人像语意的编码，视觉上不具意义。之后以人像特征向量作为输入，经过上一步训练完成的目标解码模型，产生一真实人像R，计算R与GT的损失函数L1，其中，损失函数L1可以为：

根据此损失函数搭配网络反馈算法，算法会根据损失函数一层一层更新编码网络的参数，此网络反馈算法非本发明关键算法，不加以详述。

由上述实施例可见，该实施例中，可以根据训练样本中样本人物的音频和人脸图像训练用于将音频转换为对应人脸图像的目标模型，当需要将待转换音频转换为人脸图像时，提取待转换音频的声纹特征数据，将该声纹特征数据输入到目标模型，将目标模型的输出图像确定为待转换音频的人脸图像。本发明实施例中，可以基于训练样本中样本人物的音频和人脸图像，建立音频与人脸图像的关联关系，基于关联关系将待转换音频转换为对应的人脸图像，使得能够基于通话方的语音信息，通过更直观地方式，显示通话方的形象，能够满足通话一方对通话另一方声音的想象，丰富电子设备的语音通话功能。

在一个例子中，当需要将目标音频转换为人脸图像时，首先提取目标音频的梅尔频率倒谱系数作为N维的声纹特征数据P(p1,p2,p3...)，输入经过训练的目标模型中，若目标模型包括目标编码模型和目标解码模型，则将P(p1,p2,p3...)输入到目标编码模型中，目标编码模型经过编码产生一人像特征向量，接着将该人脸特征向量传入目标解码模型中，目标解码模型将人像特征向量转换成真实具视觉意义的人脸图像，此为最终结果。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，电子设备600，可以包括：获取单元601、第一提取单元602和第一处理单元603，其中，

第一获取单元601，用于获取目标音频；

第一提取单元602，用于提取所述目标音频的声纹特征数据；

第一处理单元603，用于将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。

可选地，作为一个实施例，所述电子设备600，还可以包括：

第二获取单元，用于获取训练样本集，其中，所述训练样本集中包括用于模型训练的训练样本，所述训练样本包括样本人物的音频和人脸图像，所述样本人物的音频为所述样本人物朗读预设文本的音频；

第二提取单元，用于基于所述样本人物的音频，提取所述样本人物的声纹特征数据；

训练单元，用于基于所述样本人物的声纹特征数据和所述样本人物的人脸图像，进行模型训练，得到目标模型；

其中，所述目标模型用于将待转换音频转换为对应的人脸图像。

可选地，作为一个实施例，所述目标模型可以包括：目标编码模型和目标解码模型；

其中，所述目标编码模型与所述目标解码模型级联；

所述目标编码模型用于接收所述待转换音频的声纹特征数据，并将所述待转换音频的声纹特征数据转换为所述待转换音频的人像特征向量；

所述目标解码模型用于接收来自所述目标编码模型的人像特征向量，并将所述人像特征向量转换为所述待转换音频对应的人脸图像。

可选地，作为一个实施例，所述训练单元，可以包括：

第一训练子单元，用于训练所述目标解码模型；

第二训练子单元，用于基于训练后的所述目标解码模型、所述样本人物的声纹特征数据和所述样本人物的人脸图像，训练所述目标编码模型。

可选地，作为一个实施例，所述第一训练子单元，可以包括：

噪声图像获取模块，用于获取高斯白噪声图像；

第一输入模块，用于将所述高斯白噪声图像输入至预设初始生成器；

第二输入模块，用于将所述预设初始生成器的输出图像和所述样本人物的人脸图像交替输入至预设初始判别器；

第一模型训练模块，用于对所述预设初始生成器和所述预设初始判别器进行对抗生成训练，得到生成器，并将所述生成器确定为目标解码模型。

可选地，作为一个实施例，所述第二训练子单元，可以包括：

级联模块，用于根据预设连接关系，将预设初始编码模型与所述目标解码模型级联，其中，所述预设连接关系包括：所述预设初始编码网络前置于所述目标解码模型；

第三输入模块，用于将所述样本人物的声纹特征数据输入至所述预设初始编码模型；

第四输入模块，用于将所述预设初始编码模型输出的人像特征向量输入至所述目标解码模型；

第二模型训练模块，用于基于所述目标解码模型的输出图像和所述样本人物的人脸图像，对所述预设初始编码模型进行监督式训练，得到编码模型，并将所述编码模型确定为目标编码模型。

可选地，作为一个实施例，所述声纹特征数据可以为梅尔频率倒谱系数。

图7是实现本发明各个实施例的一种电子设备的硬件结构示意图之一，在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、以及可穿戴设备等。如图7所示，该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，处理器710，用于获取目标音频；提取所述目标音频的声纹特征数据；将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。

可选地，作为一个实施例，所述将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像之前，所述方法还包括：

获取训练样本集，其中，所述训练样本集中包括用于模型训练的训练样本，所述训练样本包括样本人物的音频和人脸图像，所述样本人物的音频为所述样本人物朗读预设文本的音频；

基于所述样本人物的音频，提取所述样本人物的声纹特征数据；

基于所述样本人物的声纹特征数据和所述样本人物的人脸图像，进行模型训练，得到目标模型；

可选地，作为一个实施例，所述目标模型包括：目标编码模型和目标解码模型；

其中，所述目标编码模型与所述目标解码模型级联；

可选地，作为一个实施例，所述基于所述样本人物的声纹特征数据和所述样本人物的人脸图像，进行模型训练，得到目标模型，包括：

训练所述目标解码模型；

基于训练后的所述目标解码模型、所述样本人物的声纹特征数据和所述样本人物的人脸图像，训练所述目标编码模型。

可选地，作为一个实施例，所述训练所述目标解码模型，包括：

获取高斯白噪声图像；

将所述高斯白噪声图像输入至预设初始生成器；

将所述预设初始生成器的输出图像和所述样本人物的人脸图像交替输入至预设初始判别器；

对所述预设初始生成器和所述预设初始判别器进行对抗生成训练，得到生成器，并将所述生成器确定为目标解码模型。

可选地，作为一个实施例，所述基于训练后的所述目标解码模型、所述样本人物的声纹特征数据和所述样本人物的人脸图像，训练所述目标编码模型，包括：

根据预设连接关系，将预设初始编码模型与所述目标解码模型级联，其中，所述预设连接关系包括：所述预设初始编码网络前置于所述目标解码模型；

将所述样本人物的声纹特征数据输入至所述预设初始编码模型；

将所述预设初始编码模型输出的人像特征向量输入至所述目标解码模型；

基于所述目标解码模型的输出图像和所述样本人物的人脸图像，对所述预设初始编码模型进行监督式训练，得到编码模型，并将所述编码模型确定为目标编码模型。

可选地，作为一个实施例，所述声纹特征数据为梅尔频率倒谱系数。

应理解的是，本发明实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像可以显示在显示单元706上。经图形处理器7041处理后的图像可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

电子设备700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在电子设备700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中，触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与电子设备700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元；优选地，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

电子设备700还可以包括给各个部件供电的电源711(比如电池)，优选地，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备700包括一些未示出的功能模块，在此不再赘述。

优选地，本发明实施例还提供一种电子设备，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的计算机程序，该计算机程序被处理器710执行时实现上述人脸图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

图8是实现本发明各个实施例的一种电子设备的硬件结构示意图之二，在本发明实施例中，电子设备可以为服务器，如图8所示，电子设备800包括：处理器801、收发机802、存储器803、用户接口804和总线接口，其中：

在本发明实施例中，电子设备800还包括：存储在存储器803上并可在处理器801上运行的计算机程序，该计算机程序被处理器801，执行时实现如下人脸图像生成方法的步骤：获取目标音频；提取所述目标音频的声纹特征数据；将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像。

在图8中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器801代表的一个或多个处理器和存储器803代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机802可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口804还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器801负责管理总线架构和通常的处理，存储器803可以存储处理器801在执行操作时所使用的数据。电子设备800能够实现前述实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述任一人脸图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种人脸图像生成方法，其特征在于，所述方法包括：

获取目标音频；

提取所述目标音频的声纹特征数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标音频的声纹特征数据输入至预先生成的目标模型，输出目标人脸图像之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述目标模型包括：目标编码模型和目标解码模型；

其中，所述目标编码模型与所述目标解码模型级联；

4.根据权利要求3所述的方法，其特征在于，所述基于所述样本人物的声纹特征数据和所述样本人物的人脸图像，进行模型训练，得到目标模型，包括：

训练所述目标解码模型；

5.根据权利要求4所述的方法，其特征在于，所述训练所述目标解码模型，包括：

获取高斯白噪声图像；

将所述高斯白噪声图像输入至预设初始生成器；

6.根据权利要求4所述的方法，其特征在于，所述基于训练后的所述目标解码模型、所述样本人物的声纹特征数据和所述样本人物的人脸图像，训练所述目标编码模型，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述声纹特征数据为梅尔频率倒谱系数。

8.一种电子设备，其特征在于，所述电子设备包括：

第一获取单元，用于获取目标音频；

第一提取单元，用于提取所述目标音频的声纹特征数据；

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的人脸图像生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的人脸图像生成方法的步骤。