CN113299312B

CN113299312B - 一种图像生成方法、装置、设备以及存储介质

Info

Publication number: CN113299312B
Application number: CN202110560359.4A
Authority: CN
Inventors: 吴潜溢; 吴文岩; 戴勃; 王宇欣; 高娜; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-04-28
Anticipated expiration: 2041-05-21
Also published as: WO2022242381A1; TW202247144A; CN113299312A

Abstract

本申请提出一种图像生成方法、装置、设备以及存储介质。其中，所述方法可以包括：接收音频数据，提取所述音频数据包括的音频序列对应的文本特征。所述文本特征表征对应音频序列的文本内容。基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征。所述面部特征表征所述音频序列对应的发音动作。根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像。

Description

一种图像生成方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种图像生成方法、装置、设备以及存储介质。

背景技术

发音人脸图像的生成是语音驱动人物与虚拟数字人等应用中非常关键的一项技术。

发音人脸图像生成是指根据接收的音频数据与人脸图像，生成表达说话时发音动作的发音人脸图像的过程。

如果发音人脸图像中体现的发音动作不准确，可能会影响观感效果。

发明内容

有鉴于此，本申请公开一种图像生成方法。该方法可以包括：接收音频数据，提取所述音频数据包括的音频序列对应的文本特征；所述文本特征表征对应音频序列的文本内容；基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征；所述面部特征表征所述音频序列对应的发音动作；根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像。

在一些实施例中，所述基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征，包括：根据所述音频序列，得到所述音频序列对应的声音特征；所述声音特征表征对应音频序列的音色、响度、音调中的至少一种特征；将所述音频序列对应的文本特征和声音特征进行融合，得到所述音频序列对应的融合特征；利用面部特征映射网络，对所述音频序列对应的融合特征进行面部特征映射，得到与所述音频序列对应的面部特征。

在一些实施例中，所述音频数据包括连续的多个音频序列；所述利用面部特征映射网络，对所述音频序列对应的融合特征进行面部特征映射，得到与所述音频序列对应的面部特征，包括：将所述音频序列，以及与所述音频序列前后连续的多个音频序列分别对应的融合特征作为输入，利用基于长短期记忆网络构建的面部特征映射网络，得到所述音频序列对应的面部特征。

在一些实施例中，所述面部特征包括面部区域的多个关键点的三维坐标；所述根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像，包括：根据接收的人脸图像确定投影矩阵；其中，所述投影矩阵表征所述人脸图像中的人脸坐标从三维到二维的映射关系；通过所述投影矩阵，将所述音频序列对应的多个关键点的三维坐标投影为二维坐标；获取将所述人脸图像中目标面部区域遮挡之后的遮挡图像；利用生成网络，根据所述遮挡图像与所述音频序列对应的多个关键点的二维坐标，生成所述音频序列对应的发音人脸图像。

在一些实施例中，所述音频数据包括多个连续音频序列；在利用生成网络，根据所述遮挡图像与所述音频序列对应的多个关键点的二维坐标，生成所述音频序列对应的发音人脸图像之前，还包括：基于所述音频序列以及所述音频序列前后多个音频序列分别对应的多个关键点的二维坐标，对所述音频序列对应的多个关键点的二维坐标进行平滑处理。

在一些实施例中，所述目标面部区域包括以下中的至少一项：嘴部；下颚；鼻子；眼睛；眉毛；耳朵。

在一些实施例中，所述音频数据包括多个连续音频序列；所述方法还包括：生成与所述音频数据包括多个连续音频序列分别对应的发音人脸图像；根据生成的各发音人脸图像，生成与所述音频数据对应的发音人脸视频。

在一些实施例中，所述根据生成的各发音人脸图像，生成与所述音频数据对应的发音人脸视频，包括：获取与所述人脸图像对应的背景图像；根据所述背景图像与所述各发音人脸图像融合后的图像，生成与所述音频数据对应的发音人脸视频。

在一些实施例中，所述提取所述音频数据包括的音频序列对应的文本特征，包括：获取所述音频序列对应的音频信号特征；对所述音频信号特征进行文本特征提取，得到所述音频序列对应的文本特征。

在一些实施例中，所述获取所述音频序列对应的音频信号特征，包括：通过音频信号分析算法获取所述音频数据对应的音频信号特征；从所述音频数据对应的音频信号特征中截取出与所述音频序列对应的音频信号特征。

在一些实施例中，所述音频数据包括连续的多个音频序列；所述对所述音频信号特征进行文本特征提取，得到所述音频序列对应的文本特征，包括：根据所述音频序列，以及与所述音频序列前后连续的多个音频序列分别对应的音频信号特征，生成输入特征；利用文本特征提取网络，对所述输入特征进行文本特征提取，得到与所述音频序列对应的文本特征。

在一些实施例中，所述音频信号特征，包括以下中的至少一项：梅尔倒谱特征；梅尔特征；线性预测特征；线性预测倒谱特征；线谱频率特征；小波变换特征。

本申请还提出一种图像生成装置，包括：接收与提取模块，用于接收音频数据，提取所述音频数据包括的音频序列对应的文本特征；所述文本特征表征对应音频序列的文本内容；面部特征映射模块，用于基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征；所述面部特征表征所述音频序列对应的发音动作；图像生成模块，根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像。

在一些实施例中，所述装置还包括：视频生成模块，用于生成与所述音频数据包括多个连续音频序列分别对应的发音人脸图像；根据生成的各发音人脸图像，生成与所述音频数据对应的发音人脸视频。

本申请还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如前述任一实施例示出的图像生成方法。

本申请还提出一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于使处理器执行如前述任一实施例示出的图像生成方法。

在所述方案中，第一，可以根据表征音频序列的文本内容的文本特征，得到表征音频序列对应发音动作的面部特征，然后再根据所述面部特征生成与音频序列对应的发音人脸图像。由于同一文本内容具有唯一的发音动作，并且文本内容可以包含语义，且不包含与发声人员个人有关的特性，因此根据音频序列对应的文本内容可以获取准确的表征发音动作的面部特征，可以有助于减少由于诸如发音等与说话人员个人有关的特性带来的对确定面部特征的影响，获取准确的表征发音动作的面部特征，从而有助于获得准确表达发音动作的发音人脸图像，提升观感效果。

第二，可以将表征文本内容的文本特征和表征音色、响度、音调中至少一种特征的声音特征融合得到融合特征，并进行面部特征映射，得到与所述音频序列对应的面部特征，从而可以结合音频序列对应的声音特性与文本内容，得到更准确的面部特征。

第三，通过在目标面部区域轮廓上选取的多个关键点的三维坐标来表征面部特征，可以准确的表达出音频序列对应的发音动作，从而可以提升发音人脸图像表达的发音动作的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种图像生成方法的方法流程图；

图2为本申请示出的一种文本特征提取流程示意图；

图3为本申请示出的一种面部特征映射网络结构示意图；

图4为本申请示出的一种发音人脸视频生成方法流程示意图；

图5为本申请示出的一种图像生成装置的结构示意图；

图6为本申请示出的一种电子设备的硬件结构示意图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

有鉴于此，本申请提出一种图像生成方法。该方法可以根据表征音频序列的文本内容的文本特征，得到表征音频序列对应发音动作的面部特征，然后再根据所述面部特征生成与音频序列对应的发音人脸图像。由于同一文本内容具有唯一的发音动作，并且文本内容可以包含语义，且不包含与发声人员个人有关的特性，因此根据音频序列对应的文本内容可以获取准确的表征发音动作的面部特征，可以有助于减少由于诸如发音等与说话人员个人有关的特性带来的对确定面部特征的影响，获取准确的表征发音动作的面部特征，从而有助于获得准确表达发音动作的发音人脸图像，提升观感效果。

该方法可以应用于电子设备中。其中，所述电子设备可以通过搭载与图像生成方法对应的软件装置执行所述方法。所述电子设备的类型可以是笔记本电脑，计算机，服务器，手机，PAD终端等。本申请不对所述电子设备的具体类型进行特别限定。所述电子设备可以是客户端或服务端一侧的设备。所述服务端可以是由服务器、服务器集群或分布式服务器集群提供的服务端或云端。以下以执行主体为电子设备(以下简称设备)为例进行说明。

请参见图1，图1为本申请示出的一种图像生成方法的方法流程图。

如图1所示，所述方法可以包括：

S102，接收音频数据，提取所述音频数据包括的音频序列对应的文本特征；所述文本特征表征对应音频序列的文本内容。

S104，基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征；所述面部特征表征所述音频序列对应的发音动作。

S106，根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像。

在一些实施例中，用户可以通过所述电子设备提供的客户端程序，将音频数据与人脸图像传输至所述电子设备。接收到所述音频数据后，所述设备可以执行S102。

所述音频数据，可以包含语音信息。例如，所述音频数据可以是说话、唱歌等语音音频文件。所述音频数据可以包括单个音频序列或者多个在时序上连续的音频序列。本申请可以将所述音频序列与人脸图像进行合成，得到与音频序列一致的发音人脸图像。

所述音频序列通常可以表达一定的文本内容。例如，当音频数据为“我要去吃饭”时，其包括的首个音频序列表达的文本内容可能为“wo(我)”的第一个音素“w”。同一文本内容具有唯一的发音动作，并且文本内容可以包含语义，且不包含与发声人员个人有关的特性，因此根据音频序列对应的文本内容可以获取准确的表征发音动作的面部特征，进而获得准确的发音人脸图像。

所述文本特征可以表征所述音频序列的文本内容。在一些实施例中，所述文本特征可以是文本内容的向量表达。

在一些实施例中，在执行S102时，可以利用预先训练好的第一文本特征提取网络(以下称为第一网络)，对所述音频序列进行特征提取得到音频序列对应的文本特征。

所述第一网络可以是基于神经网络构建的回归或分类网络。在训练该网络时，可以获取标注了文本特征的若干音频序列样本。然后再根据获取的样本对所述第一网络进行训练，直至该第一网络收敛。

在一些实施例中，可以先获取若干音频序列，然后可以根据文本特征与文本内容的对应规则，确定各音频序列的文本内容对应的文本特征，并采用诸如人工标注等方式对各音频序列进行文本特征的标注，得到若干音频序列样本。之后可以采用有监督训练的方式，利用反向传播对所述第一网络的网络参数进行多次迭代，直至该网络收敛，完成训练。

在完成训练后，可以将接收到的音频数据包括的音频序列分别输入所述第一网络，从而得到与音频序列对应的文本特征。

在一些实施例中，为了提升更准确的文本特征，在执行S102时，可以执行S1022，获取所述音频序列对应的音频信号特征。然后执行S1024，对所述音频信号特征进行文本特征提取，得到所述音频序列对应的文本特征。

所述音频信号特征，可以表征声音特性(如音调，响度，音色等中至少一种)和文本内容等。在一些实施例中，所述音频信号特征，可以包括以下中的至少一项：梅尔倒谱特征(Mel-Frequency Cepstral Coefficients，MFCC)；梅尔特征；线性预测特征；线性预测倒谱特征；线谱频率特征；小波变换特征。通过所述音频信号特征有助于对音频信号信息进行准确描述，从而有助于得到更准确的文本特征。

需要说明的是，所述音频信号分析方法包括但不限于傅里叶变换，小波变换等。本申请不限定所述音频信号分析方法的具体类型。

在一些实施例中，可以根据整个音频数据对应的音频信号特征，得到音频数据包括的音频序列的音频信号特征，与针对单帧音频序列确定音频信号特征相比，可以结合单帧音频序列前后音频表征的语义得到更准确的音频信号特征。

在一些实施例中，在执行S1022时，可以通过音频信号分析算法获取所述音频数据对应的音频信号特征。然后可以从所述音频数据对应的音频信号特征中截取出与所述音频序列对应的音频信号特征。

在执行S1024时，可以通过第二文本特征提取网络(以下称为第二网络)，对所述音频序列对应的音频信号特征进行特征提取得到所述音频序列对应的文本特征。其中，所述第二网络包括：通过标注了文本特征的若干音频信号特征样本进行训练得到的神经网络。由此根据表征音频信号信息的音频信号特征进行音频序列的文本特征提取，可以直接从与文本内容有关的音频信号中提取文本特征，有助于减少音频序列包括的其它信息对提取文本特征的影响，从而得到更准确的文本特征。

在一些实施例中，可以结合当前音频序列与其前后若干连续序列之间的语义，获取更准确的文本特征。在执行S1024时，可以执行S1，根据所述音频序列，以及与所述音频序列前后连续的多个音频序列分别对应的音频信号特征，生成输入特征。S2，利用文本特征提取网络，对所述输入特征进行文本特征提取，得到与所述音频序列对应的文本特征。其中，所述文本特征提取网络包括：通过标注了文本特征的若干训练样本进行训练得到的神经网络。

请参见图2，图2为本申请示出的一种文本特征提取流程示意图。

如图2所示，在执行S1时，可以对所述音频序列，及其之前连续m个音频序列，和之后连续n个音频序列分别对应的音频信号特征，执行诸如特征拼接，加权求和等步骤，然后得到所述输入特征。其中，所述m和n为预设正整数。由于所述输入特征除了包括所述音频序列的音频信号特征外，还包括所述音频序列与其周围连续的音频序列之间的语义信息，因此可以得到更准确的文本特征。

所述文本特征提取网络，可以是基于神经网络构建的回归或分类网络。

在一些实施例中，在训练该网络时，可以先获取若干连续的音频序列的音频信号特征；然后可以将任意连续的三个音频序列，以中间音频序列为准，分别确定前后音频序列与中间音频序列的音频信号特征的差值，然后将确定的差值与所述中间音频序列的音频信号特征进行拼接，得到所述中间音频序列的输入特征。然后可以采用诸如人工标注等方式，对各输入特征进行标注，得到若干训练样本。之后，可以采用有监督训练的方式，利用反向传播对所述文本特征提取网络进行多次迭代，直至该网络收敛，完成训练。

请继续参见图2，在执行S2时，可以根据当前音频序列，以及前后两个音频序列对应的音频信号特征，采用训练网络时采用的构建输入特征的方法，得到输入特征。然后可以将该输入特征输入所述文本特征提取网络，得到与所述当前音频序列对应的文本特征。由此可以利用当前音频序列与其前后音频序列之间的语义，得到所述音频序列更准确的文本特征。

在得到音频序列分别对应的文本特征后，所述设备可以执行S104。

本步骤中的面部特征可以表征对应音频序列对应的发音动作。在本申请中，可以利用至少两种面部特征表征发音动作。其一，所述面部特征可以包括目标面部区域的纹理特征，通过目标面部区域的纹理特征可以表征发音动作，其二，所述面部特征可以包括目标面部区域的轮廓特征，通过目标面部区域的轮廓特征也可以表征发音动作。以下以面部特征包括目标面部区域的轮廓特征为例进行说明。

所述目标面部区域，是指可以表达发音动作的任意区域。所述目标面部区域可以根据业务需求进行选定。在一些实施例中，所述目标面部区域包括以下中的至少一项：嘴部；下颚；鼻子；眼睛；眉毛；耳朵。由此可以根据实际要求灵活选择嘴部，下颚，眉毛等至少一个区域多个来表达说话时的发音动作，从而实现对发音动作更准确的表达，进而提升发音人脸图像表达发音动作的准确性。

在一些实施例中，所述面部特征可以包括针对目标面部区域选取的多个关键点的三维坐标。通过在目标面部区域轮廓上选取的多个关键点的三维坐标来表征面部特征，可以准确的表达出音频序列对应的发音动作，从而可以提升发音人脸图像表达的发音动作的准确性。

在一些实施例中，在执行S104时，可以利用面部特征映射网络(以下称为第三网络)，对所述音频序列对应的文本特征进行面部特征映射，得到与所述音频序列对应的面部特征。其中，所述面部特征包括针对目标面部区域选取的多个关键点的三维坐标。

其中，所述第三网络包括：通过标注了面部特征的若干文本特征样本进行训练得到的神经网络。

在一些实施例中，所述第三网络可以是基于神经网络构建的回归网络。

在训练所述第三网络时，可以先获取若干音频序列对应的文本特征，并确定各音频序列对应的面部特征。然后采用诸如人工标注等方式对文本特征进行标注，得到若干文本特征样本。之后可以采用有监督训练的方式，利用反向传播对所述第三网络的网络参数进行多次迭代，直至该网络收敛，完成训练。

完成训练后，可以将所述音频序列对应的文本特征输入所述第三网络，得到与所述音频序列对应的面部特征。

在一些实施例中，可以利用表征文本内容的文本特征与和表征音色、响度、音调中至少一种特征的声音特征融合得到融合特征，进行面部特征映射，得到与所述音频序列对应的面部特征，从而可以综合考虑音频序列对应的声音特性与文本内容，得到更准确的面部特征。在执行S104时，可以执行S1042，根据所述音频序列，得到所述音频序列对应的声音特征；所述声音特征表征对应音频序列的音色、响度、音调中的至少一种特征。然后执行S1044，将所述音频序列对应的文本特征和声音特征进行融合，得到所述音频序列对应的融合特征。之后执行S1046，利用面部特征映射网络(以下称为第四网络)，对所述音频序列对应的融合特征进行面部特征映射，得到与所述音频序列对应的面部特征。其中，所述第四网络可以包括：通过标注了面部特征的若干融合特征样本进行训练得到的神经网络。

由于音频信号特征可以涵盖声音特征。因此在一些实施例中，在执行S1042时，可以根据所述音频序列对应的音频信号特征，得到所述声音特征。在一些实施例中，可以获取音频序列的音频信号特征包括的多维度特征中，与声音特征相关维度的特征，从而得到声音特征。以音频信号特征为梅尔倒谱特征(以下称为MFCC)为例。所述MFCC包括多维的特征中的首维特征表征与声音特性有关的特征，因此可以将MFCC的首维特征作为所述声音特征。

在一些实施例中，在执行S1044时，可以采用特征拼接或特征叠加等方式，将文本特征和声音特征进行融合，由此可以得到表征文本内容与声音特性的融合特征，以使在确定面部特征时，可以同时兼顾音频序列的文本内容与声音特性，从而确定出更准确表达发音动作的面部特征。

所述第四网络可以是基于神经网络构建的回归网络。

在训练所述第四网络时，可以先获取若干音频序列对应的融合特征，并确定各音频序列对应的面部特征。然后采用诸如人工标注等方式对融合特征进行标注，得到若干融合特征样本。之后可以采用有监督训练的方式，利用反向传播对所述第四网络的网络参数进行多次迭代，直至该网络收敛，完成训练。

完成训练后，可以根据所述音频序列对应的声音特征与文本特征，得到融合特征，然后输入所述第四网络，得到面部特征。

在一些实施例中，可以结合所述音频序列，以及其前后若干连续序列之间的关联信息，获取更准确的面部特征。在执行S1046时，可以执行S3，将所述音频序列，以及与所述音频序列前后连续的多个音频序列分别对应的融合特征作为输入，利用基于长短期记忆网络构建的面部特征映射网络，得到所述音频序列对应的面部特征。

所述长短期记忆网络(LSTM，Long Short-Term Memory)，可以在时序上保留多个音频序列的融合特征信息，进而可以结合当前音频序列，以及其前后若干连续序列之间的关联信息，获取更准确的面部特征。

请参见图3，图3为本申请示出的一种面部特征映射网络结构示意图。

图3示出的面部特征映射网络(以下称为第五网络)可以包括输入层，LSTM层，全连接层以及输出层。

其中，所述输入层包括N个节点31(311，312…)。所述N个节点分别对应LSTM层的N个LSTM处理单元32(321，322…；以下称为处理单元)。所述N为根据业务需求设定的正整数，所述N通常与输入的音频序列个数相同。所述N个节点用于向对应处理单元输入音频序列对应的融合特征。

所述LSTM处理单元可以包括遗忘门，输入门与输出门。其中，输出门可以将当前处理单元的处理结果分为两份，一份作为当前处理单元的输出结果；另一份可以作为下一处理单元的输入。所述遗忘门可以筛选出上一处理单元的输出结果中有益的信息。所述输入门可以筛选出当前处理单元对应节点的输入信息中有益的信息。所述处理单元可以通过所述三个门，对当前节点的输入与上一处理单元的输出进行处理，得到处理结果。

所述全连接层33，可以对各LSTM处理单元的输出结果进行全连接，得到与当前音频序列对应的输出与结果。

在执行S3时(以下，将所述音频序列，以及与所述音频序列前后连续的若干音频序列称为序列集合)，可以按照时序，依次将序列集合中的各音频序列对应的融合特征按照时序输入所述输入层包括的N个节点。

然后经过LSTM层与全连接层处理后，可以得到与所述音频序列对应的面部特征。

其中，在LSTM层处理过程中，除了利用对应节点输入的融合特征外，还可以结合之前节点输入的信息，从而可以确定出更准确的输出特征。所述全连接层处理过程中，可以根据各处理单元输出的输出特征，得到当前序列的面部特征，从而可以进一步结合序列集合中各音频序列之间的关联信息，获得更准确的面部特征。

在得到音频序列对应的面部特征后，所述设备可以执行S106。

在一些实施例中，在执行S1062时，可以执行S21，根据接收的人脸图像确定投影矩阵。然后执行S22，通过所述投影矩阵，将所述音频序列对应的多个关键点的三维坐标投影为二维坐标。之后执行S23，获取将所述人脸图像中目标面部区域遮挡之后的遮挡图像。最后执行S24，利用生成网络，根据所述遮挡图像与所述音频序列对应的多个关键点的二维坐标，生成所述音频序列对应的发音人脸图像。其中，所述生成网络包括通过对抗训练方式得到神经网络。

所述投影矩阵，可以表征所述人脸图像中的人脸坐标从三维到二维的映射关系。三维与二维坐标系中的各坐标点存在一定的映射关系。在一些实施例中可以通过投影矩阵表征时尚映射关系，通过实施投影矩阵可以将三维坐标影射为二维坐标。

接收的所述人脸图像可以包括人脸。所述人脸可以是侧面或正面人脸。在本申请中可以根据所述人脸图像，生成表达发音动作的发音人脸图像。

所述多个关键点可以用于表征所述目标面部区域的面部轮廓信息。在一些实施例中，所述多个关键点可以是面部轮廓上的特征点。例如，所述目标面部区域为嘴部和下颚时，所述多个关键点可以是嘴部和下颚轮廓上的特征点。

在一些实施例中，在执行S21时，可以先将接收的人脸图像输入预先训练的三维人脸形态模型中，得到与所述人脸图像对应的投影矩阵。所述三维人脸形态模型用于根据二维图像生成三维模型。在本申请中可以将所述映射过程中生成的投影矩阵作为所述与所述人脸图像对应的投影矩阵。

在一些实施例中，在执行S22时，可以利用所述投影矩阵与所述音频序列对应的多个关键点三维坐标矩阵进行矩阵运算，得到当前序列对应的多个关键点的二维坐标矩阵。

在一些实施例中，在执行S23时，可以通过人工方式，或基于Faster-Rcnn(FasterRegion Convolutional Neural Networks，更快速的区域卷积神经网络)、Mask-Rcnn(MaskRegion Convolutional Neural Networks，掩膜区域卷积神经网络)等神经网络构建的掩膜网络，对所述人脸图像进行遮挡处理，得到遮挡了所述目标面部区域的人脸图像。

S24中的生成网络可以是基于神经网络构建的回归网络。所述生成网络可以根据表征预设区域轮廓的多个关键点二维坐标，通过像素填充等方式生成预设区域对应的局部图像，然后再通过图像扭转等方式，将局部图像填充至人脸图像被掩盖的区域中，得到完整的发音人脸图像。

在一些实施例中，可以使用对抗训练的方式训练所述生成网络。在训练该网络时，可以先构建分类网络和生成网络。然后利用若干标注了真实图像或虚假图像分类的图像样本，对所述分类网络进行训练，得到对图像分类比较精准的分类网络。之后，可以获取若干遮挡图像和表征所述目标面部区域的多个关键点的二维坐标，再之后通过调整所述生成网络的参数，使得通过生成网络对所述遮挡图像与关键点坐标进行图像补充后得到的图像，可以被训练完成的所述分类网络判定为真实图像。至此则完成了对抗训练的过程。

完成训练后，可以将所述遮挡图像与所述音频序列对应的多个关键点的二维坐标输入所述生成网络，得到所述发音人脸图像。

在所述例子中，通过多个关键点的坐标可以准确的表征出目标面部区域轮廓，从而可以提升发音人脸图像表达的发音动作的准确性。

在一些实施例中，在执行S24之前，可以基于所述音频序列以及所述音频序列前后多个音频序列分别对应的多个关键点的二维坐标，对所述音频序列对应的多个关键点的二维坐标进行平滑处理。

在一些实施例中，可以通过异常数据排除法与插值法等方法，对所述音频序列以及所述音频序列前后多个音频序列分别对应的多个关键点的二维坐标进行修正，达到音频序列之间发音动作斜街自然的目的，提升基于各音频序列对应的发音人脸图像生成的发音人脸视频所体现的发音动作的连贯性。

在一些实施例中，接收的音频数据可以包括多连续音频序列。本例中可以根据前述任一实施例示出的图像生成方法，生成与所述音频数据包括多个连续音频序列分别对应的发音人脸图像。然后可以根据生成的各发音人脸图像，生成与所述音频数据对应的发音人脸视频。

所述发音人脸视频(以下简称视频)，可以包括多帧按照时序排列的人脸法院图像。在一些实施例中，可以将音频数据分割为多个音频序列，所述音频序列的播放时长可以与所述视频单帧图像的播放时长相同，由此在确定所述音频数据包括的各音频序列对应的发音人脸图像后，按照时序将各图形排序即可得到与音频数据播放时长一致的视频。

例如，所述音频数据为5s。所述视频的帧率为25fps，即单帧图像的播放时长为40毫秒。此时可以将所述音频数据划分为125个播放时长为40毫秒的音频序列。在得到125个与音频序列对应的发音人脸图像后，可以将各人脸图像按照音频对应的时序排序，即可得到人脸发音视频。

在一些实施例中，可以通过将视频与背景图像进行融合，生成更真实的发音人脸视频。

所述背景图像可以是与人脸图像对应的背景图像。在一些实施例中，所述背景图像与发音环境相关的图像。例如，在演讲场景中，所述背景图像可以是演讲大厅等背景。再例如，在歌唱场景中，所述背景图像可以是舞台背景等。

在执行S1064时，可以先获取与所述人脸图像对应的背景图像。然后根据所述背景图像与所述各发音人脸图像融合后的图像，生成与所述音频数据对应的发音人脸视频。

在一些实施例中，可以通过图像融合技术，将所述背景图像分别与各发音人脸图像进行融合，得到融合后的图像，然后将融合后的图像作为视频帧，按照音频序列的时序进行排列，得到融合背景后的发音人脸视频，从而更符合真实场景。

以下结合虚拟人物的场景进行实施例说明。

所述虚拟人物用于进行新闻播报。在一些实施例中，所述虚拟人物可以是某位公众人物。例如，主持人或公司负责人等。

本申请记载的发音视频生成方法可以应用于云端。所述云端可以为用户提供界面，供用户上传待播放的新闻音频(以下成为音频)与包括所述虚拟人物的人物图像。所述发音视频的帧率为25fps。

所述云端可以部署预先训练完成的文本特征提取网络，用于进行音频序列的文本特征提取，部署预先训练完成的三维关键点映射网络，用于进行文本特征到多个关键点三维坐标的映射，部署图像补全网络，用于根据预算关键点坐标，补全遮挡图像。

请参见图4，图4为本申请示出的一种发音人脸视频生成方法流程示意图。

如图4所示，所述云端在接收到所述新闻与人物图像后，可以执行S41，获取所述音频对应的MFCC，并对MFCC进行分割，得到所述音频包括的各音频序列(时长为40ms)分别对应的MFCC。

然后可以执行S42，针对各音频序列，利用所述文本特征提取网络，提取各音频序列对应的文本特征。由此通过准确表述音频信号的MFCC，可以得到准确的文本特征。

然后可以执行S43，将各音频序列的MFCC中表征声音特性的声音特征与文本特征进行拼接，并针对各音频序列拼接后的特征，利用三维关键点映射网络，得到表征虚拟人物嘴部与下颚(目标面部区域)的多个关键点的三维坐标。由此可以得到准确表述音频序列的发音动作的面部特征。

之后可以执行S44，利用接收到的人脸图像得到表征三维坐标到二维坐标影射关系的投影矩阵，并利用投影矩阵将所述多个关键点的三维坐标影射维二维坐标，并进行各音频序列对应的多个关键点坐标的平滑处理。

再执行S45，根据人脸图像，生成遮挡了虚拟人物嘴部和下颚的遮挡图像，然后利用所述图像补全网络，根据各音频序列对应的多个关键点的二维坐标，对遮挡图像进行补全，得到与各音频序列分别对应的完整的虚拟人物发音人脸图像。

最后可以执行S46，获取新闻播报背景图像，并将背景图像融合至各发音人脸图像，然后将各发音人脸图像作为视频帧，按照对应音频序列时序，生产虚拟人物发音人脸视频。

所述云端可以将生成的发音人脸视频返回，并像用户展示。

由此先获取与录制所述音频个人特性无关仅表达音频文本内容的文本特征，再将文本特征与表征录音人员声音特性的声音特征拼接，进行嘴部与下颚轮廓的映射，再根据嘴部与下颚轮廓，补全人脸图像，并生成视频，可以既考虑音频的文本内容也考虑声音特性，得到准确表达虚拟人物发音动作的发音人脸视频，提升发音人脸视频观感效果。

与所述实施例相应的，本申请提出一种图像生成装置。

请参见图5，图5为本申请示出的一种图像生成装置的结构示意图。

如图5所示，所述装置50可以包括：

接收与提取模块51，用于接收音频数据，提取所述音频数据包括的音频序列对应的文本特征；所述文本特征表征对应音频序列的文本内容；

面部特征映射模块52，用于基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征；所述面部特征表征所述音频序列对应的发音动作；

图像生成模块53，根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像。

在一些实施例中，所述面部特征映射模块52用于：

根据所述音频序列，得到所述音频序列对应的声音特征；所述声音特征表征对应音频序列的音色、响度、音调中的至少一种特征；

将所述音频序列对应的文本特征和声音特征进行融合，得到所述音频序列对应的融合特征；

利用面部特征映射网络，对所述音频序列对应的融合特征进行面部特征映射，得到与所述音频序列对应的面部特征。

在一些实施例中，所述音频数据包括连续的多个音频序列；所述面部特征映射模块52用于：

将所述音频序列，以及与所述音频序列前后连续的多个音频序列分别对应的融合特征作为输入，利用基于长短期记忆网络构建的面部特征映射网络，得到所述音频序列对应的面部特征。

在一些实施例中，所述面部特征包括面部区域的多个关键点的三维坐标；

所述图像生成模块53用于：

根据接收的人脸图像确定投影矩阵；其中，所述投影矩阵表征所述人脸图像中的人脸坐标从三维到二维的映射关系；

通过所述投影矩阵，将所述音频序列对应的多个关键点的三维坐标投影为二维坐标；

获取将所述人脸图像中目标面部区域遮挡之后的遮挡图像；

利用生成网络，根据所述遮挡图像与所述音频序列对应的多个关键点的二维坐标，生成所述音频序列对应的发音人脸图像。

在一些实施例中，所述音频数据包括多个连续音频序列；所述装置50还包括：

平滑处理模块，用于基于所述音频序列以及所述音频序列前后多个音频序列分别对应的多个关键点的二维坐标，对所述音频序列对应的多个关键点的二维坐标进行平滑处理。

在一些实施例中，所述目标面部区域包括以下中的至少一项：

嘴部；下颚；鼻子；眼睛；眉毛；耳朵。

视频生成模块54，用于生成与所述音频数据包括多个连续音频序列分别对应的发音人脸图像；

根据生成的各发音人脸图像，生成与所述音频数据对应的发音人脸视频。

在一些实施例中，所述视频生成模块54用于：

获取与所述人脸图像对应的背景图像；

根据所述背景图像与所述各发音人脸图像融合后的图像，生成与所述音频数据对应的发音人脸视频。

在一些实施例中，所述接收与提取模块51用于：

获取所述音频序列对应的音频信号特征；

对所述音频信号特征进行文本特征提取，得到所述音频序列对应的文本特征。

在一些实施例中，所述接收与提取模块51用于：

通过音频信号分析算法获取所述音频数据对应的音频信号特征；

从所述音频数据对应的音频信号特征中截取出与所述音频序列对应的音频信号特征。

在一些实施例中，所述音频数据包括连续的多个音频序列；所述接收与提取模块51用于：

根据所述音频序列，以及与所述音频序列前后连续的多个音频序列分别对应的音频信号特征，生成输入特征；

利用文本特征提取网络，对所述输入特征进行文本特征提取，得到与所述音频序列对应的文本特征。

在一些实施例中，所述音频信号特征，包括以下中的至少一项：

梅尔倒谱特征；梅尔特征；线性预测特征；线性预测倒谱特征；线谱频率特征；小波变换特征。

本申请示出的图像生成装置的实施例可以应用于电子设备上。相应地，本申请公开了一种电子设备，该设备可以包括：处理器。

用于存储处理器可执行指令的存储器。

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现前述任一实施例示出的图像生成方法。

请参见图6，图6为本申请示出的一种电子设备的硬件结构示意图。

如图6所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储图像生成装置对应指令的非易失性存储器。

其中，所述装置的实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

可以理解的是，为了提升处理速度，图像生成装置对应指令也可以直接存储于内存中，在此不作限定。

本申请提出一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可以用于使处理器执行如前述任一实施例示出的图像生成方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本申请中记载的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

所述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理系统。通常，中央处理系统将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理系统以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及0xCD_00ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，所述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

1.一种图像生成方法，包括：

接收音频数据，提取所述音频数据包括的音频序列对应的文本特征；所述文本特征表征对应音频序列的文本内容；

基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征；所述面部特征表征所述音频序列对应的发音动作；

根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像；

所述面部特征包括面部区域的多个关键点的三维坐标；

所述根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像，包括：

获取将所述人脸图像中目标面部区域遮挡之后的遮挡图像；

2.根据权利要求1所述的方法，所述基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征，包括：

3.根据权利要求2所述的方法，所述音频数据包括连续的多个音频序列；所述利用面部特征映射网络，对所述音频序列对应的融合特征进行面部特征映射，得到与所述音频序列对应的面部特征，包括：

4.根据权利要求1所述的方法，所述音频数据包括多个连续音频序列；

在利用生成网络，根据所述遮挡图像与所述音频序列对应的多个关键点的二维坐标，生成所述音频序列对应的发音人脸图像之前，还包括：

基于所述音频序列以及所述音频序列前后多个音频序列分别对应的多个关键点的二维坐标，对所述音频序列对应的多个关键点的二维坐标进行平滑处理。

5.根据权利要求1或4所述的方法，所述目标面部区域包括以下中的至少一项：

嘴部；下颚；鼻子；眼睛；眉毛；耳朵。

6.根据权利要求1-5任一所述的方法，所述音频数据包括多个连续音频序列；所述方法还包括：

生成与所述音频数据包括多个连续音频序列分别对应的发音人脸图像；

7.根据权利要求6所述的方法，所述根据生成的各发音人脸图像，生成与所述音频数据对应的发音人脸视频，包括：

获取与所述人脸图像对应的背景图像；

8.根据权利要求1-7任一所述的方法，所述提取所述音频数据包括的音频序列对应的文本特征，包括：

获取所述音频序列对应的音频信号特征；

9.根据权利要求8所述的方法，所述获取所述音频序列对应的音频信号特征，包括：

10.根据权利要求8或9所述的方法，所述音频数据包括连续的多个音频序列；所述对所述音频信号特征进行文本特征提取，得到所述音频序列对应的文本特征，包括：

11.根据权利要求8-10任一所述的方法，所述音频信号特征，包括以下中的至少一项：

12.一种图像生成装置，包括：

接收与提取模块，用于接收音频数据，提取所述音频数据包括的音频序列对应的文本特征；所述文本特征表征对应音频序列的文本内容；

面部特征映射模块，用于基于所述音频序列对应的文本特征，进行面部特征映射，得到与所述音频序列对应的面部特征；所述面部特征表征所述音频序列对应的发音动作；

图像生成模块，根据所述音频序列对应的面部特征以及接收的人脸图像，生成与所述音频序列对应的发音人脸图像；

所述面部特征包括面部区域的多个关键点的三维坐标；

获取将所述人脸图像中目标面部区域遮挡之后的遮挡图像；

13.根据权利要求12所述的装置，还包括：

视频生成模块，用于生成与所述音频数据包括多个连续音频序列分别对应的发音人脸图像；

14.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-11任一所述的图像生成方法。

15.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于使处理器执行如权利要求1-11任一所述的图像生成方法。