CN112770062B

CN112770062B - 一种图像生成方法及装置

Info

Publication number: CN112770062B
Application number: CN202011527663.0A
Authority: CN
Inventors: 汤近祺
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-03-08
Anticipated expiration: 2040-12-22
Also published as: CN112770062A

Abstract

本发明实施例提供了一种图像生成方法及装置，获取目标虚拟对象的待处理语音数据；获取每一帧待处理语音数据的频谱特征；针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值；按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。基于上述处理，可以提高图像的生成效率。

Description

一种图像生成方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像生成方法及装置。

背景技术

在3D(三维)视频制作场景中，可以生成包含虚拟对象的视频图像，例如，虚拟对象可以为虚拟人物。相应的，在生成虚拟人物时，可以根据虚拟人物在场景中的语音(可以称为待处理语音)，确定每一视频图像帧中该虚拟人物的3D唇部形状，以提高该视频图像帧的真实度。

现有技术中，由配音人员为虚拟人物配音，即，由配音人员发出待处理语音，进而，由技术人员观看配音人员发出待处理语音时的唇部形状，并根据观看到的唇部形状，在绘图软件中绘制每一视频图像帧中该虚拟人物的3D唇部形状。具体的，可以由技术人员在绘图软件中手动调整该虚拟人物的唇部包含的每一特征点的位置。

然而，虚拟人物的唇部包含的特征点的数目较多，上述过程中由人工手动调整每一特征点的位置所消耗的时间较长，进而，会降低图像的生成效率。

发明内容

本发明实施例的目的在于提供一种图像生成方法及装置，以提高图像生成效率。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种图像生成方法，所述方法包括：

获取目标虚拟对象的语音数据，作为待处理语音数据；

获取每一帧待处理语音数据的频谱特征；

针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值；

按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的三维3D唇部形状的目标图像帧。

可选的，所述获取每一帧待处理语音数据的频谱特征，包括：

针对每一帧待处理语音数据，获取该帧待处理语音数据的语音能量在不同频率范围内的分布情况，作为该帧待处理语音数据的频谱特征。

可选的，在所述针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值之前，所述方法还包括：

获取样本语音数据；

针对每一帧样本语音数据，获取该帧样本语音数据对应的唇部形状参数的形状参数值，以及该帧样本语音数据的频谱特征；

针对每一目标帧样本语音数据，将该目标帧样本语音数据的频谱特征，以及该目标帧样本语音数据之前的连续预设数目帧样本语音数据的频谱特征，作为初始唇部形状预测模型的输入数据，将该目标帧样本语音数据对应的唇部形状参数的形状参数值，作为对应的所述初始唇部形状预测模型的输出数据，对所述初始唇部形状预测模型的模型参数进行调整，直至达到预设收敛条件，得到训练好的唇部形状预测模型。

可选的，所述唇部形状预测模型包括：卷积网络和全连接网络；

所述针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值，包括：

针对每一目标帧待处理语音数据，通过所述卷积网络对该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征进行特征提取，得到第一特征矩阵，并将所述第一特征矩阵输入至所述全连接网络；

通过所述全连接网络对所述第一特征矩阵进行特征融合，得到第一特征向量；其中，所述第一特征向量中的元素与该目标帧待处理语音数据对应的唇部形状参数一一对应，所述第一特征向量中的一个元素为对应的唇部形状参数的参数值。

可选的，所述唇部形状参数为形状插值Blendshape参数。

可选的，所述按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的三维3D唇部形状的目标图像帧，包括：

将预设的原始图像帧中所述目标虚拟对象对应的Blendshape参数的原始形状参数值，修改为该目标帧待处理语音数据对应的Blendshape参数的形状参数值，得到包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧；其中，所述原始形状参数值为所述目标虚拟对象未讲话时的3D唇部形状的Blendshape参数的形状参数值。

可选的，在所述按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的三维3D唇部形状的目标图像帧之后，所述方法还包括：

对各目标帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像；

将所述待处理语音数据添加至所述初始视频图像，得到所述目标虚拟对象对应的目标视频图像。

在本发明实施的第二方面，还提供了一种图像生成装置，所述装置包括：

第一获取模块，用于获取目标虚拟对象的语音数据，作为待处理语音数据；

第二获取模块，用于获取每一帧待处理语音数据的频谱特征；

预测模块，用于针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值；

生成模块，用于按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

可选的，所述第二获取模块，具体用于针对每一帧待处理语音数据，获取该帧待处理语音数据的语音能量在不同频率范围的分布情况，作为该帧待处理语音数据的频谱特征。

可选的，所述装置还包括：

第三获取模块，用于在所述预测模块执行针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值之前，执行获取样本语音数据；

第四获取模块，用于针对每一帧样本语音数据，获取该帧样本语音数据对应的唇部形状参数的形状参数值，以及该帧样本语音数据的频谱特征；

训练模块，用于针对每一目标帧样本语音数据，将该目标帧样本语音数据的频谱特征，以及该目标帧样本语音数据之前的连续预设数目帧样本语音数据的频谱特征，作为初始唇部形状预测模型的输入数据，将该目标帧样本语音数据对应的唇部形状参数的形状参数值，作为对应的所述初始唇部形状预测模型的输出数据，对所述初始唇部形状预测模型的模型参数进行调整，直至达到预设收敛条件，得到训练好的唇部形状预测模型。

所述预测模块，具体用于针对每一目标帧待处理语音数据，通过所述卷积网络对该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征进行特征提取，得到第一特征矩阵，并将所述第一特征矩阵输入至所述全连接网络；

可选的，所述唇部形状参数为形状插值Blendshape参数。

可选的，生成模块，具体用于将预设的原始图像帧中所述目标虚拟对象对应的Blendshape参数的原始形状参数值，修改为该目标帧待处理语音数据对应的Blendshape参数的形状参数值，得到包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧；其中，所述原始形状参数值为所述目标虚拟对象未讲话时的3D唇部形状的Blendshape参数的形状参数值。

可选的，所述装置还包括：

合成模块，用于在所述生成模块执行按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧之后，执行对各目标帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像；

添加模块，用于将所述待处理语音数据添加至所述初始视频图像，得到所述目标虚拟对象对应的目标视频图像。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的图像生成方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的图像生成方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像生成方法。

本发明实施例提供的一种图像生成方法，通过获取目标虚拟对象的语音数据，作为待处理语音数据；获取每一帧待处理语音数据的频谱特征；针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值；按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

基于上述处理，可以确定每一目标帧待处理语音数据对应的唇部形状参数的形状参数值，进而，可以按照该目标帧待处理语音数据的唇部形状参数的形状参数值，直接生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。不需要人工手动调整唇部包含的每一特征点的位置，进而，可以提高图像的生成效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种图像生成方法的流程图；

图2为本发明实施例中提供的一种唇部形状预测模型训练方法的流程图；

图3为本发明实施例中提供的另一种图像生成方法的流程图；

图4为本发明实施例中提供的另一种图像生成方法的流程图；

图5为本发明实施例中提供的一种视频生成方法的流程图；

图6为本发明实施例中提供的一种图像生成装置的结构图；

图7为本发明实施例中提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图1，图1为本发明实施例中提供的一种图像生成方法的流程图，该方法应用于电子设备，电子设备可以用于生成图像。

该方法可以包括以下步骤：

S101：获取目标虚拟对象的语音数据，作为待处理语音数据。

S102：获取每一帧待处理语音数据的频谱特征。

S103：针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值。

S104：按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

基于本发明实施例提供的图像生成方法，可以确定每一目标帧待处理语音数据对应的唇部形状参数的形状参数值，进而，可以按照该目标帧待处理语音数据的唇部形状参数的形状参数值，直接生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。不需要人工手动调整唇部包含的每一特征点的位置，进而，可以提高图像的生成效率。

在步骤S101中，在3D视频(例如，3D动画视频、3D游戏视频等)制作场景中，在创建虚拟对象(例如，虚拟人物、虚拟动物等)之后，可以由配音人员为虚拟对象配音。相应的，针对每一虚拟对象，电子设备可以获取配音人员为该虚拟对象所配的语音数据(即待处理语音数据)。

在步骤S102中，在获取目标虚拟对象的待处理语音数据之后，电子设备可以获取每一帧待处理语音数据的频谱特征。

在本发明的一个实施例中，步骤S102可以包括以下步骤：

其中，每一帧待处理语音数据的频谱特征可以为该帧待处理语音数据的梅尔频率倒谱系数，或者，也可以为该帧待处理语音数据的自相关函数，但并不限于此。

一种实现方式，当每一帧待处理语音数据的频谱特征为该帧待处理语音数据的梅尔频率倒谱系数时，电子设备可以通过如下方式，计算该帧待处理语音数据的梅尔频率倒谱系数。

电子设备可以对待处理语音数据进行预加重处理，以增加待处理语音数据中的高频语音数据的频率，得到预加重后的待处理语音数据。电子设备可以基于预设的窗口函数(例如，矩形窗函数、汉宁窗函数等)，对预加重后的待处理语音数据进行分帧处理，得到多帧待处理语音数据。

然后，针对每一帧待处理语音数据，电子设备可以对该帧待处理语音数据进行FFT(Fast Fourier Transform，快速傅里叶变换)处理，得到该帧待处理语音数据对应的频域信号。进而，基于该帧待处理语音数据对应的频域信号，计算该帧待处理语音数据的功率谱，并基于Mel(梅尔)频率滤波器对该帧待处理语音数据的功率谱进行滤波，得到该帧待处理语音数据对应的Mel频谱。

进而，电子设备可以对该帧待处理语音数据对应的Mel频谱进行取对数处理，并对该帧待处理语音数据对应的Mel频谱的对数进行DCT(Discrete Cosine Transform，离散余弦变换)处理，得到该帧待处理语音数据的MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)。

在步骤S103中，针对每一目标帧待处理语音数据，由于需要基于该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的预设数目帧待处理语音数据的频谱特征，确定该目标帧待处理语音数据对应的唇部形状参数的形状参数值。但是待处理语音数据中的第n(n小于预设数目)帧待处理语音数据之前，不存在预设数目帧待处理语音数据。因此，可以预测待处理语音数据中第预设数目帧待处理语音数据之后的，每一帧待处理语音数据对应的唇部形状参数的形状参数值。

也就是说，目标帧待处理语音数据可以为待处理语音数据中，除前预设数目帧待处理语音数据之外的其他待处理语音数据。

唇部形状预测模型可以为CNN(Convolutional Neural Network，卷积神经网络)模型，或者，也可以为Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短期记忆)模型，但并不限于此。

在本发明的一个实施例中，在基于预先训练的唇部形状预测模型，确定该目标帧待处理语音数据对应的唇部形状参数的形状参数值之前，电子设备可以对初始唇部形状预测模型进行训练。

相应的，参见图2，图2为本发明实施例中提供的一种唇部形状预测模型训练方法的流程图，该方法可以包括以下步骤：

S201：获取样本语音数据。

S202：针对每一帧样本语音数据，获取该帧样本语音数据对应的唇部形状参数的形状参数值，以及该帧样本语音数据的频谱特征。

S203：针对每一目标帧样本语音数据，将该目标帧样本语音数据的频谱特征，以及该目标帧样本语音数据之前的连续预设数目帧样本语音数据的频谱特征，作为初始唇部形状预测模型的输入数据，将该目标帧样本语音数据对应的唇部形状参数的形状参数值，作为对应的初始唇部形状预测模型的输出数据，对初始唇部形状预测模型的模型参数进行调整，直至达到预设收敛条件，得到训练好的唇部形状预测模型。

针对步骤S201和步骤S202，可以通过预设终端采集样本对象(例如，配音人员)朗读预设文字素材时的语音数据(即样本语音数据)，以及样本对象朗读预设文字素材时的唇部形状。预设终端可以根据样本对象朗读预设文字素材时的唇部形状，确定每一帧样本语音数据对应的唇部形状参数的形状参数值。进而，电子设备可以从预设终端获取样本语音数据，以及每一帧样本语音数据对应的唇部形状参数的形状参数值(可以称为样本形状参数值)。

另外，为了提高训练好的唇部形状预测模型的准确性，可以选取发音不同，且发音时唇部形状不同的多个文字，作为预设文字素材。

然后，针对每一帧样本语音数据，电子可以获取该帧样本语音数据的频谱特征。电子设备获取一帧语音数据的频谱特征的具体方法，可以参见前述实施例的介绍。

在步骤S203中，目标帧样本语音数据可以为样本语音数据中，除前预设数目帧样本语音数据之外的其他样本语音数据。

针对样本语音数据中的每一目标帧样本语音数据，电子设备可以将该目标帧样本语音数据的频谱特征，以及该目标帧样本语音数据之前的连续预设数目帧样本语音数据的频谱特征，输入至初始唇部形状预测模型，得到该目标帧样本语音数据对应的唇部形状参数的形状参数值(可以称为预测形状参数值)。进而，电子设备可以计算表示预测形状参数值与样本形状参数值的差异性的损失函数值，并基于计算得到的损失函数值，对初始唇部形状预测模型的模型参数进行调整，直至达到预设收敛条件，得到训练好的唇部形状预测模型。

其中，预设收敛条件可以由技术人员根据经验设置。

一种实现方式中，预设收敛条件可以为对初始唇部形状预测模型的训练次数达到预设次数。其中，预设次数可以由技术人员根据经验设置。

另一种实现方式中，为了提高训练好的唇部形状预测模型的准确性，预设收敛条件可以为本次训练后计算得到的损失函数值，与前第一数目次计算得到的损失函数值的差值均小于第一差值。其中，第一数目、第一差值均可以由技术人员根据经验设置。

在本发明的一个实施例中，唇部形状预测模型可以包括：卷积网络和全连接网络。一种实现方式中，卷积网络可以包含4个卷积层，全连接网络可以包含2个全连接层。

相应的，参见图3，步骤S103可以包括以下步骤：

S1031：针对每一目标帧待处理语音数据，通过卷积网络对该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征进行特征提取，得到第一特征矩阵，并将第一特征矩阵输入至全连接网络。

S1032：通过全连接网络对第一特征矩阵进行特征融合，得到第一特征向量。

其中，第一特征向量中的元素与该目标帧待处理语音数据对应的唇部形状参数一一对应，第一特征向量矩阵中的一个元素为对应的唇部形状参数的参数值。

针对步骤S1031和步骤S1032，每一目标帧待处理语音数据的频谱特征可以表示为一个特征向量(可以称为第二特征向量)。电子设备可以对该目标帧待处理语音数据的第二特征向量，和该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据各自的第二特征向量进行拼接，得到对应的特征矩阵(可以称为第二特征矩阵)。

然后，将第二特征矩阵输入至唇部形状预测模型中的卷积网络。然后，通过卷积网络对第二特征矩阵进行特征提取，得到第一特征矩阵，并将第一特征矩阵输入至全连接网络。进而，通过全连接网络，对第一特征矩阵进行特征融合，得到第一特征向量。

在步骤S104中，针对每一目标帧待处理语音数据，电子设备可以按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

在本发明的一个实施例中，唇部形状参数可以为Blendshape(形状插值)参数。Blendshap参数可以包括：下颌左移参数、下颌右移参数、下颌前移参数、左嘴角上移参数、左嘴角下移参数、右嘴角上移参数、右嘴角下移参数、上嘴唇内卷参数、上嘴唇外翻参数、下嘴唇内卷参数、下嘴唇外翻参数、上下嘴唇闭合参数、上下嘴唇打开为圆形参数等。

在本发明的一个实施例中，当唇部形状参数为Blendshape参数时，步骤S104可以包括以下步骤：

将预设的原始图像帧中目标虚拟对象对应的Blendshape参数的原始形状参数值，修改为该目标帧待处理语音数据对应的Blendshape参数的形状参数值，得到包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

其中，原始形状参数值为目标虚拟对象未讲话时的3D唇部形状的Blendshape参数的形状参数值。

一种实现方式中，电子设备中存储有预设的原始图像帧，原始图像帧中目标虚拟对象的3D唇部形状为未讲话时的3D唇部图像，例如，原始图像帧中目标虚拟对象的3D唇部形状可以为上下嘴唇闭合、左右嘴角未移动的3D唇部形状。此时，目标虚拟对象的Blendshape参数的参数值为原始形状参数值。进而，电子设备可以将原始图像帧中目标虚拟对象对应的原始形状参数值，修改为该目标帧待处理语音数据对应的Blendshape参数的形状参数值，可以得到包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

在本发明的一个实施例中，参见图4，在步骤S104之后，该方法还可以包括以下步骤：

S105：对各目标帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像。

S106：将待处理语音数据添加至初始视频图像，得到目标虚拟对象对应的目标视频图像。

针对步骤S105和步骤S106，在确定出各目标帧待处理语音数据各自对应的目标图像帧之后，电子设备可以对各目标帧待处理语音数据各自对应的目标图像帧进行合成，得到对应的视频图像(即初始视频图像)。进而，电子设备可以按照每一目标帧待处理语音数据与该目标帧待处理语音数据对应的目标图像帧对齐的方式，将待处理语音数据添加至初始视频图像，可以得到目标虚拟对象对应的视频图像(即目标视频图像)。

参见图5，图5为本发明实施例中提供的一种视频生成方法的流程图。

电子设备可以获取目标虚拟对象的语音数据(即待处理语音数据)。然后电子设备可以提取每一帧待处理语音数据的频谱特征。进而，针对每一目标帧待处理语音数据，基于该目标帧待处理语音数据的频谱特征、该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，以及预先训练的唇部形状预测模型，确定该目标帧待处理语音数据对应的唇部形状参数的形状参数值。

进而，电子设备可以按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧，并对各目标帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像。然后，将待处理语音数据添加至初始视频图像，得到目标虚拟对象对应的目标视频图像。

与图1的方法实施例相对应，参见图6，图6为本发明实施例中提供的一种图像生成装置的结构图，所述装置包括：

第一获取模块601，用于获取目标虚拟对象的语音数据，作为待处理语音数据；

第二获取模块602，用于获取每一帧待处理语音数据的频谱特征；

预测模块603，用于针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值；

生成模块604，用于按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

可选的，所述第二获取模块602，具体用于针对每一帧待处理语音数据，获取该帧待处理语音数据的语音能量在不同频率范围的分布情况，作为该帧待处理语音数据的频谱特征。

可选的，所述装置还包括：

第三获取模块，用于在所述预测模块603执行针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值之前，执行获取样本语音数据；

所述预测模块603，具体用于针对每一目标帧待处理语音数据，通过所述卷积网络对该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征进行特征提取，得到第一特征矩阵，并将所述第一特征矩阵输入至所述全连接网络；

可选的，所述唇部形状参数为形状插值Blendshape参数。

可选的，所述装置还包括：

基于本发明实施例提供的图像生成装置，可以确定每一目标帧待处理语音数据对应的唇部形状参数的形状参数值，进而，可以按照该目标帧待处理语音数据的唇部形状参数的形状参数值，直接生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。不需要人工手动调整唇部包含的每一特征点的位置，进而，可以提高图像的生成效率。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取目标虚拟对象的语音数据，作为待处理语音数据；

获取每一帧待处理语音数据的频谱特征；

按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于本发明实施例提供的电子设备，可以确定每一目标帧待处理语音数据对应的唇部形状参数的形状参数值，进而，可以按照该目标帧待处理语音数据的唇部形状参数的形状参数值，直接生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧。不需要人工手动调整唇部包含的每一特征点的位置，进而，可以提高图像的生成效率。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的图像生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取目标虚拟对象的语音数据，作为待处理语音数据；

获取每一帧待处理语音数据的频谱特征；

按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的三维3D唇部形状的目标图像帧；

其中，所述唇部形状预测模型包括：卷积网络和全连接网络；

2.根据权利要求1所述的方法，其特征在于，所述获取每一帧待处理语音数据的频谱特征，包括：

3.根据权利要求1所述的方法，其特征在于，在所述针对每一目标帧待处理语音数据，将该目标帧待处理语音数据的频谱特征，以及该目标帧待处理语音数据之前的连续预设数目帧待处理语音数据的频谱特征，输入至预先训练的唇部形状预测模型，得到该目标帧待处理语音数据对应的唇部形状参数的形状参数值之前，所述方法还包括：

获取样本语音数据；

4.根据权利要求1所述的方法，其特征在于，所述唇部形状参数为形状插值Blendshape参数。

5.根据权利要求4所述的方法，其特征在于，所述按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的三维3D唇部形状的目标图像帧，包括：

6.根据权利要求1所述的方法，其特征在于，在所述按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的三维3D唇部形状的目标图像帧之后，所述方法还包括：

7.一种图像生成装置，其特征在于，所述装置包括：

生成模块，用于按照该目标帧待处理语音数据对应的唇部形状参数的形状参数值，生成包含该目标帧待处理语音数据对应的3D唇部形状的目标图像帧；

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。