CN112770063B

CN112770063B - 一种图像生成方法及装置

Info

Publication number: CN112770063B
Application number: CN202011532065.2A
Authority: CN
Inventors: 汤近祺
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-07-21
Anticipated expiration: 2040-12-22
Also published as: CN112770063A

Abstract

本发明实施例提供了一种图像生成方法及装置，按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据；按照动漫的帧率对待处理语音数据进行分帧，得到多帧待处理语音数据，并基于每一帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量；基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像；针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧。基于上述处理，可以降低生成图像的成本。

Description

一种图像生成方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像生成方法及装置。

背景技术

在2D(二维)动漫视频制作场景中，可以生成包含虚拟对象的视频图像，例如，虚拟对象可以为虚拟人物。相应的，在生成虚拟人物时，可以根据虚拟人物在场景中的语音(可以称为待处理语音)，确定每一图像帧中该虚拟人物的嘴部形状，以提高该图像帧的真实度。

现有技术中，由技术人员预先绘制多张嘴部图像，多张嘴部图像中的嘴部形状各不相同。然后，针对每一帧待处理语音，由技术人员根据经验从多张嘴部图像中，选择与该帧待处理语音对应的嘴部图像。进而，对该帧待处理语音对应的嘴部图像与包含虚拟人物的原始图像帧进行合成，得到该帧待处理语音对应的目标图像帧。

然而，由人工选择每一帧待处理语音对应的嘴部图像，会导致生成图像的成本较大。

发明内容

本发明实施例的目的在于提供一种图像生成方法及装置，以降低生成图像的成本。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种图像生成方法，所述方法包括：

按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据；

按照动漫的帧率对所述待处理语音数据进行分帧，得到多帧待处理语音数据；

针对每一帧待处理语音数据，基于该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量；

基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像；其中，所述多张预设嘴部图像中的嘴部形状各不相同，且所述多张预设嘴部图像分别对应从嘴型闭合至嘴型张开程度最大之间不同的嘴部形状；

针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧。

可选的，所述按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据，包括：

按照预设的采样率，确定对目标虚拟对象的原始语音数据进行采样的采样点；

获取所述原始语音数据中各个采样点对应的语音数据，作为待处理语音数据；

所述针对每一帧待处理语音数据，基于该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量，包括：

针对每一帧待处理语音数据，根据该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值和第一预设公式，计算该帧待处理语音数据的语音能量；其中，所述第一预设公式为：

E表示该帧待处理语音数据的语音能量，n表示该帧待处理语音数据包含的采样点的数目，a_i表示该帧待处理语音数据中第i个采样点对应的待处理语音数据的音量值。

可选的，所述基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像，包括：

计算各帧待处理语音数据各自的目标语音能量；

针对每一帧待处理语音数据，如果该帧待处理语音数据的目标语音能量为0，确定嘴型闭合的嘴部图像为该帧待处理语音数据对应的备选嘴部图像；

确定各目标帧待处理语音数据的目标语音能量中的最大语音能量；其中，所述目标帧待处理语音数据包括：除目标语音能量为0的待处理语音数据外的其他待处理语音数据；

将预设能量阈值与所述最大语音能量之间的能量区间，平均划分为第一数目个能量子区间；其中，所述第一数目为所述预设嘴部图像的数目；

确定每一能量子区间对应的预设嘴部图像；其中，一个能量子区间在所述各个能量子区间按照从小到大的排列顺序中的位置，与对应的预设嘴部图像在所述多张预设嘴部图像按照嘴型张开程度从小到大的排列顺序中的位置一致；

针对每一所述目标帧待处理语音数据，确定该目标帧待处理语音数据的目标语音能量所属的能量子区间；

确定该目标帧待处理语音数据的目标语音能量所属的能量子区间对应的嘴部图像，作为该目标帧待处理语音数据对应的备选嘴部图像；

针对每一帧待处理语音数据，基于该帧待处理语音数据对应的备选嘴部图像，确定该帧待处理语音数据对应的目标嘴部图像。

可选的，所述计算各帧待处理语音数据各自的目标语音能量，包括：

针对每一帧待处理语音数据，如果该帧待处理语音数据的语音能量小于所述预设能量阈值，确定该帧待处理语音数据的语音能量为0；

对各帧待处理语音数据的语音能量进行非线性变换，得到变换后的语音能量；

基于平滑算法，对所述各帧待处理语音数据的变换后的语音能量进行平滑处理，得到各帧待处理语音数据各自的目标语音能量。

可选的，所述针对每一帧待处理语音数据，基于该帧待处理语音数据对应的备选嘴部图像，确定该帧待处理语音数据对应的目标嘴部图像，包括：

按照对应的时间的先后顺序，以第二数目帧为一组，对所述各帧待处理语音数据进行分组，得到多个语音数据组；其中，任意两个语音数据组中不存在相同的语音数据；

针对每一个语音数据组，将该语音数据组中指定的一帧待处理语音数据的备选嘴部图像，作为该语音数据组中各帧待处理语音数据对应的目标嘴部图像。

可选的，在所述针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧之后，所述方法还包括：

对各帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像；

将所述待处理语音数据添加至所述初始视频图像，得到所述目标虚拟对象对应的目标视频图像。

在本发明实施的第二方面，还提供了一种图像生成装置，所述装置包括：

采样模块，用于按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据；

分帧模块，用于按照动漫的帧率对所述待处理语音数据进行分帧，得到多帧待处理语音数据；

第一确定模块，用于针对每一帧待处理语音数据，基于该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量；

第二确定模块，用于基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像；其中，所述多张预设嘴部图像中的嘴部形状各不相同，且所述多张预设嘴部图像分别对应从嘴型闭合至嘴型张开程度最大之间不同的嘴部形状；

第一合成模块，用于针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧。

可选的，所述采样模块，具体用于按照预设的采样率，确定对目标虚拟对象的原始语音数据进行采样的采样点；

所述第一确定模块，具体用于针对每一帧待处理语音数据，根据该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值和第一预设公式，计算该帧待处理语音数据的语音能量；其中，所述第一预设公式为：

可选的，所述第二确定模块，具体用于计算各帧待处理语音数据各自的目标语音能量；

可选的，所述第二确定模块，具体用于针对每一帧待处理语音数据，如果该帧待处理语音数据的语音能量小于所述预设能量阈值，确定该帧待处理语音数据的语音能量为0；

可选的，所述第二确定模块，具体用于按照对应的时间的先后顺序，以第二数目帧为一组，对所述各帧待处理语音数据进行分组，得到多个语音数据组；其中，任意两个语音数据组中不存在相同的语音数据；

可选的，所述装置还包括：

第二合成模块，用于在所述第一合成模块执行针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧之后，执行对各帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像；

添加模块，用于将所述待处理语音数据添加至所述初始视频图像，得到所述目标虚拟对象对应的目标视频图像。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的图像生成方法的步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的图像生成方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像生成方法。

本发明实施例提供的图像生成方法，通过按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据；按照动漫的帧率对待处理语音数据进行分帧，得到多帧待处理语音数据；针对每一帧待处理语音数据，基于该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量；基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像；针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧。

基于上述处理，可以确定每一帧待处理语音数据的语音能量，进而，根据各帧待处理语音数据的语音能量的分布情况，确定各帧待处理语音数据各自对应的嘴部图像。不需要由人工选择每一帧待处理语音对应的嘴部图像，进而，可以降低生成图像的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种图像生成方法的流程图；

图2为本发明实施例中提供的另一种图像生成方法的流程图；

图3为本发明实施例中提供的另一种图像生成方法的流程图；

图4为本发明实施例中提供的另一种图像生成方法的流程图；

图5为本发明实施例中提供的另一种图像生成方法的流程图；

图6为本发明实施例中提供的另一种图像生成方法的流程图；

图7为本发明实施例中提供的一种目标视频图像生成方法示例的流程图；

图8为本发明实施例中提供的一种图像生成装置的结构图；

图9为本发明实施例中提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图1，图1为本发明实施例中提供的一种图像生成方法的流程图，该图像生成方法应用于电子设备。电子设备可以为终端，电子设备也可以为服务器，电子设备可以用于生成图像。

该方法可以包括以下步骤：

S101：按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据。

S102：按照动漫的帧率对待处理语音数据进行分帧，得到多帧待处理语音数据。

S103：针对每一帧待处理语音数据，基于该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量。

S104：基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像。

其中，多张预设嘴部图像中的嘴部形状各不相同，且多张预设嘴部图像分别对应从嘴型闭合至嘴型张开程度最大之间不同的嘴部形状。

S105：针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧。

基于本发明实施例提供的图像生成方法，可以确定每一帧待处理语音数据的语音能量，进而，根据各帧待处理语音数据的语音能量的分布情况，确定各帧待处理语音数据各自对应的嘴部图像。不需要由人工选择每一帧待处理语音对应的嘴部图像，进而，可以降低生成图像的成本。

在步骤S101中，在2D视频(例如，2D动漫视频、2D游戏视频等)制作场景中，在创建虚拟对象(例如，虚拟人物、虚拟动物等)之后，可以由配音人员为虚拟对象配音。相应的，针对每一虚拟对象，电子设备可以按照预设的采样率，对配音人员为该虚拟对象所配的语音数据(即原始语音数据)进行采样，得到待处理语音数据。

在步骤S102中，在获取目标虚拟对象的待处理语音数据之后，电子设备可以按照动漫的帧率，基于预设的窗口函数(例如，矩形窗函数、汉宁窗函数等)对待处理语音数据进行分帧处理，得到多帧待处理语音数据。

其中，动漫的帧率为24帧/秒。也就是说，在动漫视频图像中，每一视频帧对应的时长为1/24秒。进而，可以确定每一帧待处理语音数据对应的时长为1/24秒。相应的，电子设备可以基于预设的窗口函数，从待处理语音数据中，获取1/24秒的待处理语音数据，作为一帧待处理语音数据，进而，可以得到多帧待处理语音数据。

在步骤S103中，针对每一帧待处理语音数据，电子设备可以基于该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量。

在本发明的一个实施例中，参见图2，步骤S101可以包括以下步骤：

S1011：按照预设的采样率，确定对目标虚拟对象的原始语音数据进行采样的采样点。

S1012：获取原始语音数据中各个采样点对应的语音数据，作为待处理语音数据。

相应的，步骤S103可以包括以下步骤：

S1031：针对每一帧待处理语音数据，根据该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值和第一预设公式，计算该帧待处理语音数据的语音能量。

其中，第一预设公式为：

针对步骤S1011和步骤S1012，预设的采样率可以由技术人员根据经验设置，例如，预设的采样率可以为22.05kHz，或者，预设的采样率也可以为44.1kHz，但并不限于此。

当预设的采样率为22.05kHz时，表示每秒对原始语音数据进行22050次采样，即每秒对原始语音数据进行采样的采样点的数目为22050；当预设的采样率为44.1kHz时，表示每秒对原始语音数据进行44100次采样，即每秒对原始语音数据进行采样的采样点的数目为44100。

电子设备可以按照预设的采样率，确定每秒对原始语音数据进行采样的采样点的数目，进而，可以确定每一采样点在原始语音数据中对应的语音数据的时长。然后，电子设备可以按照各采样点各自对应的语音数据的时长，从原始语音数据中，获取各采样点各自对应的语音数据，得到待处理语音数据。

在步骤S104中，在确定出各帧待处理语音数据各自的语音能量之后，电子设备可以根据各帧待处理语音数据的语音能量的分布情况，确定各帧待处理语音数据各自对应的目标嘴部图像。

在本发明的一个实施例中，参见图3，步骤S104可以包括以下步骤：

S1041：计算各帧待处理语音数据各自的目标语音能量。

S1042：针对每一帧待处理语音数据，如果该帧待处理语音数据的目标语音能量为0，确定嘴型闭合的嘴部图像为该帧待处理语音数据对应的备选嘴部图像。

S1043：确定各目标帧待处理语音数据的目标语音能量中的最大语音能量。

其中，目标帧待处理语音数据包括：除目标语音能量为0的待处理语音数据外的其他待处理语音数据。

S1044：将预设能量阈值与最大语音能量之间的能量区间，平均划分为第一数目个能量子区间。

其中，第一数目为预设嘴部图像的数目。

S1045：确定每一能量子区间对应的预设嘴部图像。

其中，一个能量子区间在各个能量子区间按照从小到大的排列顺序中的位置，与对应的预设嘴部图像在多张预设嘴部图像按照嘴型张开程度从小到大的排列顺序中的位置一致。

S1046：针对每一目标帧待处理语音数据，确定该目标帧待处理语音数据的目标语音能量所属的能量子区间。

S1047：确定该目标帧待处理语音数据的目标语音能量所属的能量子区间对应的嘴部图像，作为该目标帧待处理语音数据对应的备选嘴部图像。

S1048：针对每一帧待处理语音数据，基于该帧待处理语音数据对应的备选嘴部图像，确定该帧待处理语音数据对应的目标嘴部图像。

在步骤S1041中，电子设备还可以计算各帧待处理语音数据各自的目标语音能量。后续，可以根据各帧待处理语音数据各自的目标语音能量，确定各帧待处理语音数据各自对应的嘴部图像。

一种实现方式中，针对每一帧待处理语音数据，可以直接将基于上述公式(1)计算得到的该帧待处理语音数据的语音能量，作为该帧待处理语音数据的目标语音能量。

在本发明的一个实施例中，参见图4，步骤S1041可以包括以下步骤：

S10411：针对每一帧待处理语音数据，如果该帧待处理语音数据的语音能量小于预设能量阈值，确定该帧待处理语音数据的语音能量为0。

S10412：对各帧待处理语音数据的语音能量进行非线性变换，得到变换后的语音能量。

S10413：基于平滑算法，对各帧待处理语音数据的变换后的语音能量进行平滑处理，得到各帧待处理语音数据各自的目标语音能量。

在步骤S10411中，预设能量阈值可以由技术人员根据经验设置，预设能量阈值属于[0.05，0.1]。例如，预设能量阈值可以为0.05，或者，预设能量阈值也可以为0.1，但并不限于此。

针对每一帧待处理语音数据，如果该帧待处理语音数据的语音能量小于预设能量阈值，表明该帧待处理语音数据可能为噪声数据，并不包含真实的语音数据，即目标虚拟对象没有讲话。进而，可以将该帧待处理语音数据的语音能量确定为0。

在步骤S10412中，电子设备可以基于非线性变换函数(例如，三角函数、指数函数等)，对各帧待处理语音数据的语音能量进行非线性变换，得到变换后的语音能量。

在步骤S10413中，电子设备可以基于平滑算法，对各帧待处理语音数据的变换后的语音能量进行平滑处理，得到各帧待处理语音数据各自的目标语音能量。

其中，平滑算法可以为滑动平均算法，或者平滑算法也可以为指数平均算法，或者，平滑算法也可以为One Euro Filter(一欧元滤波)算法，但并不限于此。

基于上述处理，可以使得各帧待处理语音数据的语音能量的变化更加平滑，进而，可以使得确定出的各帧待处理语音数据对应的嘴部形状的变化更加稳定，即可以使得后续生成的各目标图像帧中的目标虚拟对象的嘴部形状变化更加真实，可以提高用户体验。

在步骤S1042中，针对每一帧待处理语音数据，如果该帧待处理语音数据的目标语音能量为0，表明该帧待处理语音数据为噪声数据，并不包含真实的语音数据，即目标虚拟对象没有讲话。进而，可以确定该帧待处理语音数据对应嘴型闭合的嘴部图像。

针对步骤S1043和步骤S1044，由于已经确定了目标语音能量为0的待处理语音数据对应的嘴部图像。后续，可以确定除目标语音能量为0的待处理语音数据外的其他待处理语音数据，作为目标帧待处理语音数据。进而，可以确定各目标帧待处理语音数据各自对应的嘴部图像。

因此，电子设备可以从各目标帧待处理语音数据的目标语音能量中，确定最大语音能量。然后，电子设备可以确定从预设能量阈值至最大语音能量的能量区间，进而，电子设备可以将该能量区间平均划分为第一数目个能量子区间。

在步骤S1045中，电子设备可以按照能量从小到大的顺序，确定各能量子区间的排列顺序(可以称为第一排列顺序)，并按照嘴型张开程度从小到大顺序，确定多张预设嘴部图像的排列顺序(可以称为第二排列顺序)。

然后，针对每一能量子区间，可以确定该能量子区间在第一排列顺序中的位置(可以称为第一位置)。进而，电子设备可以确定在第二排列顺序中的位置，与第一位置一致的嘴部图像，作为该能量子区间对应的嘴部图像。

示例性的，预设唇部图像的数目为4，预设唇部图像按照嘴型张开程度从小到大的第二排列顺序为：嘴部图像1、嘴部图像2、嘴部图像3、嘴部图像4。各目标帧待处理语音数据的目标语音能量中的最大语音能量为0.9，预设能量阈值为0.1。

电子设备可以将[0.1，0.9]的能量区间，平均划分为4个能量子区间，该4个能量子区间按照能量从小到大的第一排列顺序为：[0.1，0.3)、[0.3，0.5)、[0.5，0.7)、[0.7，0.9]。

进而，能量子区间[0.1，0.3)为第一排列顺序中的第1个能量子区间，电子设备可以确定第二排列顺序中，第1个嘴部图像(即嘴部图像1)为能量子区间[0.1，0.3)对应的嘴部图像，即能量子区间[0.1，0.3)，与嘴部图像1相对应。同理，电子设备可以确定能量子区间[0.3，0.5)，与嘴部图像2相对应；能量子区间[0.5，0.7)，与嘴部图像3相对应；能量子区间[0.7，0.9]，与嘴部图像4相对应。

针对步骤S1046和步骤S1047，针对每一目标帧待处理语音数据，电子设备可以确定该目标帧待处理语音数据的目标语音能量所属的能量子区间。进而，电子设备可以确定该目标帧待处理语音数据的目标语音能量所属的能量子区间对应的嘴部图像，为该目标帧待处理语音数据对应的备选嘴部图像。

针对上述实施例，针对每一目标帧待处理语音数据，如果该目标帧待处理语音数据的目标语音能量为0.4，则电子设备可以确定该目标帧待处理语音数据的目标语音能量所属的能量子区间为[0.3，0.5)，进而，可以确定该目标帧待处理语音数据对应的备选嘴部图像为嘴部图像2；如果该目标帧待处理语音数据的目标语音能量为0.7，则电子设备可以确定该目标帧待处理语音数据的目标语音能量所属的能量子区间为[0.7，0.9]，进而，可以确定该目标帧待处理语音数据对应的备选嘴部图像为嘴部图像4。

在步骤S1048中，一种实现方式中，针对每一帧待处理语音数据，电子设备可以将该帧待处理语音数据对应的备选嘴部图像，作为该帧待处理语音数据对应的目标嘴部图像。

在本发明的一个实施例中，参见图5，步骤S1048可以包括以下步骤：

S10481：按照对应的时间的先后顺序，以第二数目帧为一组，对各帧待处理语音数据进行分组，得到多个语音数据组。

其中，任意两个语音数据组中不存在相同的语音数据。

S10482：针对每一个语音数据组，将该语音数据组中指定的一帧待处理语音数据的备选嘴部图像，作为该语音数据组中各帧待处理语音数据对应的目标嘴部图像。

针对步骤S10481和步骤S10482，电子设备可以按照各帧待处理语音数据各自对应的时间的先后顺序，以第二数目帧为一组，对各帧待处理语音数据进行分组，得到多个语音数据组。进而，针对每一个语音数据组，确定该语音数据组中指定的一帧待处理语音数据的备选嘴部图像，作为该语音数据组中各帧待处理语音数据对应的目标嘴部图像。

第二数目可以由技术人员根据经验设置，例如，第二数目可以为3，或者，第二数目也可以为4，但并不限于此。

每一语音数据组中指定的一帧待处理语音数据可以由技术人员根据经验设置，例如，指定的一帧待处理语音数据可以为每一语音数据组中的第1帧语音数据，或者，指定的一帧待处理语音数据也可以为每一语音数据组中的第2帧语音数据，但并不限于此。

示例性的，各帧待处理语音数据包括：第1帧至第15帧的待处理语音数据，第二数目为3，指定的一帧待处理语音数据为每一语音数据组中的第1帧语音数据。电子设备可以确定第1帧待处理语音数据、第2帧待处理语音数据和第3帧待处理语音数据为第1个语音数据组；第4帧待处理语音数据、第5帧待处理语音数据和第6帧待处理语音数据为第2个语音数据组，以此类推，电子设备可以确定第13帧待处理语音数据、第14帧待处理语音数据和第15帧待处理语音数据为第5个语音数据组。

进而，对于第1个语音数据组，电子设备可以将第1帧待处理语音数据对应的备选嘴部图像，作为第1帧待处理语音数据、第2帧待处理语音数据和第3帧待处理语音数据对应的目标嘴部图像。对于第2个语音数据组，电子设备可以将第4帧待处理语音数据对应的备选嘴部图像，作为第4帧待处理语音数据、第5帧待处理语音数据和第6帧待处理语音数据对应的目标嘴部图像，以此类推，可以确定每一语音数据组中的各帧待处理语音数据对应的目标嘴部图像。

另外，如果各帧待处理语音数据包括：第1帧至第11帧的待处理语音数据，第二数目为3。电子设备确定每3帧待处理语音数据为一个语音数据组，得到3个语音数据组，电子设备还可以确定第10帧待处理语音数据和第11帧待处理语音数据为第4个语音数据组。

如果指定的一帧待处理语音数据为每一语音数据组中的第1帧语音数据。对于第4个语音数据组，电子设备可以将第10帧待处理语音数据对应的备选嘴部图像，作为第10帧待处理语音数据和第11帧待处理语音数据对应的目标嘴部图像。

如果指定的一帧待处理语音数据为每一语音数据组中的第3帧语音数据。由于第4个语音数据组仅包含2帧待处理语音数据，电子设备可以将第10帧待处理语音数据对应的备选嘴部图像，作为第10帧待处理语音数据和第11帧待处理语音数据对应的目标嘴部图像。或者，电子设备也可以将第11帧待处理语音数据对应的备选嘴部图像，作为第10帧待处理语音数据和第11帧待处理语音数据对应的目标嘴部图像。

基于上述处理，可以使得确定出的各帧待处理语音数据对应的嘴部形状的变化更加稳定，进而，可以使得后续生成的各目标图像帧中的目标虚拟对象的嘴部形状变化更加真实，可以提高用户体验。

在步骤S105中，在确定各帧待处理语音数据各自对应的目标嘴部图像之后，针对每一帧待处理语音数据，电子设备可以将该帧待处理语音数据对应的目标嘴部图像，覆盖原始图像帧中目标虚拟对象的嘴部区域，得到该帧待处理语音数据对应的目标图像帧。

在本发明的一个实施例中，参见图6，在步骤S105之后，该方法还可以包括以下步骤：

S106：对各帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像。

S107：将待处理语音数据添加至初始视频图像，得到目标虚拟对象对应的目标视频图像。

针对步骤S106和步骤S107，在确定出各帧待处理语音数据各自对应的目标图像帧之后，电子设备可以对各帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像。进而，电子设备可以按照每一帧待处理语音数据与该帧待处理语音数据对应的目标图像帧对齐的方式，将待处理语音数据添加至初始视频图像，可以得到目标虚拟对象对应的目标视频图像。

参见图7，图7为本发明实施例中提供的一种目标视频图像生成方法示例的流程图。

S701：按照预设的采样率，确定对目标虚拟对象的原始语音数据进行采样的采样点。

S702：获取原始语音数据中各个采样点对应的语音数据，作为待处理语音数据。

S703：按照动漫的帧率对待处理语音数据进行分帧，得到多帧待处理语音数据。

S704：针对每一帧待处理语音数据，根据该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值和第一预设公式，计算该帧待处理语音数据的语音能量。

其中，第一预设公式为：

/>

S705：针对每一帧待处理语音数据，如果该帧待处理语音数据的语音能量小于预设能量阈值，确定该帧待处理语音数据的语音能量为0。

S706：对各帧待处理语音数据的语音能量进行非线性变换，得到变换后的语音能量。

S707：基于平滑算法，对各帧待处理语音数据的变换后的语音能量进行平滑处理，得到各帧待处理语音数据各自的目标语音能量。

S708：针对每一帧待处理语音数据，如果该帧待处理语音数据的目标语音能量为0，确定嘴型闭合的嘴部图像为该帧待处理语音数据对应的备选嘴部图像。

S709：确定各目标帧待处理语音数据的目标语音能量中的最大语音能量。

S7010：将预设能量阈值与最大语音能量之间的能量区间，平均划分为第一数目个能量子区间。

其中，第一数目为预设嘴部图像的数目。

S7011：确定每一能量子区间对应的预设嘴部图像。

其中，一个能量子区间在各个能量子区间按照从小到大的排列顺序中的位置，与对应的预设嘴部图像在多张预设嘴部图像按照嘴型张开程度从小到大的排列顺序中的位置一致。多张预设嘴部图像中的嘴部形状各不相同，且多张预设嘴部图像分别对应从嘴型闭合至嘴型张开程度最大之间不同的嘴部形状。

S7012：针对每一目标帧待处理语音数据，确定该目标帧待处理语音数据的目标语音能量所属的能量子区间。

S7013：确定该目标帧待处理语音数据的目标语音能量所属的能量子区间对应的嘴部图像，作为该目标帧待处理语音数据对应的备选嘴部图像。

S7014：按照对应的时间的先后顺序，以第二数目帧为一组，对各帧待处理语音数据进行分组，得到多个语音数据组。

其中，任意两个语音数据组中不存在相同的语音数据。

S7015：针对每一个语音数据组，将该语音数据组中指定的一帧待处理语音数据的备选嘴部图像，作为该语音数据组中各帧待处理语音数据对应的目标嘴部图像。

S7016：针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧。

S7017：对各帧待处理语音数据各自对应的目标图像帧进行合成，得到初始视频图像。

S7018：将待处理语音数据添加至初始视频图像，得到目标虚拟对象对应的目标视频图像。

与图1的方法实施例相对应，参见图8，图8为本发明实施例中提供的一种图像生成装置的结构图，所述装置包括：

采样模块801，用于按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据；

分帧模块802，用于按照动漫的帧率对所述待处理语音数据进行分帧，得到多帧待处理语音数据；

第一确定模块803，用于针对每一帧待处理语音数据，基于该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值，计算该帧待处理语音数据的语音能量；

第二确定模块804，用于基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像；其中，所述多张预设嘴部图像中的嘴部形状各不相同，且所述多张预设嘴部图像分别对应从嘴型闭合至嘴型张开程度最大之间不同的嘴部形状；

第一合成模块805，用于针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧。

可选的，所述采样模块801，具体用于按照预设的采样率，确定对目标虚拟对象的原始语音数据进行采样的采样点；

所述第一确定模块803，具体用于针对每一帧待处理语音数据，根据该帧待处理语音数据包含的各采样点对应的待处理语音数据的音量值和第一预设公式，计算该帧待处理语音数据的语音能量；其中，所述第一预设公式为：

可选的，所述第二确定模块804，具体用于计算各帧待处理语音数据各自的目标语音能量；

可选的，所述第二确定模块804，具体用于针对每一帧待处理语音数据，如果该帧待处理语音数据的语音能量小于所述预设能量阈值，确定该帧待处理语音数据的语音能量为0；

可选的，所述第二确定模块804，具体用于按照对应的时间的先后顺序，以第二数目帧为一组，对所述各帧待处理语音数据进行分组，得到多个语音数据组；其中，任意两个语音数据组中不存在相同的语音数据；

可选的，所述装置还包括：

基于本发明实施例提供的图像生成装置，可以确定每一帧待处理语音数据的语音能量，进而，根据各帧待处理语音数据的语音能量的分布情况，确定各帧待处理语音数据各自对应的嘴部图像。不需要由人工选择每一帧待处理语音对应的嘴部图像，进而，可以降低生成图像的成本。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于本发明实施例提供的电子设备，可以确定每一帧待处理语音数据的语音能量，进而，根据各帧待处理语音数据的语音能量的分布情况，确定各帧待处理语音数据各自对应的嘴部图像。不需要由人工选择每一帧待处理语音对应的嘴部图像，进而，可以降低生成图像的成本。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的图像生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧；

所述基于各帧待处理语音数据的语音能量的分布情况，从多张预设嘴部图像中，确定各帧待处理语音数据各自对应的目标嘴部图像，包括：

计算各帧待处理语音数据各自的目标语音能量；

针对每一帧待处理语音数据，基于该帧待处理语音数据对应的备选嘴部图像，确定该帧待处理语音数据对应的目标嘴部图像；

所述针对每一帧待处理语音数据，基于该帧待处理语音数据对应的备选嘴部图像，确定该帧待处理语音数据对应的目标嘴部图像，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设的采样率，对目标虚拟对象的原始语音数据进行采样，得到待处理语音数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述计算各帧待处理语音数据各自的目标语音能量，包括：

4.根据权利要求1所述的方法，其特征在于，在所述针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧之后，所述方法还包括：

5.一种图像生成装置，其特征在于，所述装置包括：

第一合成模块，用于针对每一帧待处理语音数据，对该帧待处理语音数据对应的目标嘴部图像与包含所述目标虚拟对象的原始图像帧进行合成，得到该帧待处理语音数据对应的目标图像帧；

所述第二确定模块，具体用于计算各帧待处理语音数据各自的目标语音能量；

所述第二确定模块，具体用于按照对应的时间的先后顺序，以第二数目帧为一组，对所述各帧待处理语音数据进行分组，得到多个语音数据组；其中，任意两个语音数据组中不存在相同的语音数据；

6.根据权利要求5所述的装置，其特征在于，所述采样模块，具体用于按照预设的采样率，确定对目标虚拟对象的原始语音数据进行采样的采样点；

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。