CN112102468B

CN112102468B - 模型训练、虚拟人物图像生成方法和装置以及存储介质

Info

Publication number: CN112102468B
Application number: CN202010790459.1A
Authority: CN
Inventors: 刘颖璐; 石海林; 梅涛; 周伯文
Original assignee: Beijing Huijun Technology Co ltd
Current assignee: Beijing Huijun Technology Co.,Ltd.
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2022-03-04
Anticipated expiration: 2040-08-07
Also published as: CN112102468A

Abstract

本公开提供了一种模型训练方法和装置、虚拟人物图像生成方法和装置以及存储介质，涉及深度学习技术领域，其中的方法包括：使用第一子模型并基于训练样本集中的训练样本获得第一特征信息；使用对应的第二子模型并基于比对样本集中的比对样本获得第二特征信息；根据第一特征信息与第二特征信息或图像信息的比对结果对第一子模型的参数进行调整，用以获得训练好的虚拟人物图像生成模型。本公开的方法、装置以及存储介质，使用已训练好的训练标注模型在模型训练过程中生成标注数据，可以有效地结合2D和3D信息进行模型训练，避免采集大量的训练数据，提高了模型训练以及使用的效率和准确性。

Description

模型训练、虚拟人物图像生成方法和装置以及存储介质

技术领域

本公开涉及深度学习技术领域，尤其涉及一种模型训练方法和装置、虚拟人物图像生成方法和装置以及存储介质。

背景技术

随着互联网技术的发展，出现很多视频平台和直播平台等，在平台上可以通过虚拟主持人等虚拟人物进行主播。对于虚拟人物主播功能，需要根据语音信号生成虚拟人物的面部表情以及对应的口型的视频，此视频用于在平台上进行播放。目前，在生成虚拟人物的技术方案中，通常基于深度学习技术建立虚拟人物图像生成模型，在训练虚拟人物图像生成模型时，需要预先采集大量视频文件作为样本，并对视频帧中的人脸关键点进行标注，利用人脸关键点使虚拟人物图像生成模型能够学习面部各器官的动作；但是，获取训练数据是十分昂贵且缓慢的，模型训练的效率低，并且，生成的虚拟人物图像与实际人物差别较大，视觉效果较差。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种模型训练方法和装置、虚拟人物图像生成方法和装置以及存储介质。

根据本公开的第一方面，提供一种模型训练方法，其中，虚拟人物图像生成模型包括至少一个待训练的第一子模型，训练标注模型包括至少一个训练好的第二子模型，所述方法包括：对视频样本进行分离处理，获取与所述视频样本相对应的音频信息和图像信息；根据所述音频信息、所述图像信息和与所述图像信息相对应的人物基准图像生成训练样本集合，并且，根据所述图像信息和所述人物基准图像生成比对样本集合；使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息；使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息；根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整，用以获得训练好的所述虚拟人物图像生成模型。

可选地，设置所述第一子模型与所述第二子模型的对应关系；基于所述对应关系在所述训练样本集中选取与所述第一子模型相对应的训练样本，并在所述比对样本集合中选取与所述第二子模型相对应的比对样本。

可选地，所述第一子模型包括：第一姿态估计模型，所述第二子模型包括：第二姿态估计模型；所述训练样本包括：音频样本，所述比对样本包括：与所述音频样本相对应的图像样本；所述使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息包括：使用所述第一姿态估计模型并基于所述音频样本获得第一人物姿态信息；所述使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息包括：使用所述第二姿态估计模型并基于所述图像样本获得第二人物姿态信息；所述根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整包括：根据所述第一人物姿态信息和所述第二人物姿态信息的比对结果计算第一估计损失；根据所述第一估计损失对所述第一姿态估计模型的参数进行调整。

可选地，所述第一子模型包括：面部关键点偏差估计模型，所述第二子模型包括：第一3D重建模型；所述训练样本包括：音频样本，所述比对样本包括：与所述音频样本相对应的图像样本；所述使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息包括：使用所述面部关键点偏差估计模型并基于所述音频样本获得面部关键点偏差信息；所述使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息包括：使用所述第一3D重建模型并基于所述图像样本获得第一3D人物模型；所述根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整包括：根据所述面部关键点偏差信息获取第二3D人物模型；根据所述第一3D人物模型和所述第二3D人物模型的比对结果计算第二估计损失；根据所述第二估计损失对所述面部关键点偏差估计模型的参数进行调整。

可选地，所述第二子模型还包括：第二3D重建模型；所述比对样本包括：与所述图像样本相对应的人物基准图像样本；所述根据所述面部关键点偏差信息获取第二3D人物模型包括：使用所述第二3D重建模型并基于所述人物基准图像样本获得3D人物基准模型；根据所述3D人物基准模型与所述面部关键点偏差信息进行合成处理，生成所述第二3D人物模型。

可选地，所述第一子模型包括：第一生成器，所述第二子模型包括：人脸解析模型；所述训练样本包括：图像样本和人物基准图像样本，所述比对样本包括图像样本；所述使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息包括：基于所述图像样本获取第三3D人物模型；使用所述第一生成器并基于所述第三3D人物模型和所述人物基准图像样本获得第一人脸解析图；所述使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息包括：使用所述人脸解析模型并基于所述图像样本获得第二人脸解析图；所述根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整包括：根据所述第一人脸解析图和所述第二人脸解析图的比对结果计算第三估计损失；根据所述第三估计损失对所述第一生成器的参数进行调整。

可选地，所述第二子模型还包括：第三3D重建模型；所述基于所述图像样本获取第三3D人物模型；使用所述第三3D重建模型并基于所述图像样本获得所述第三3D人物模型。

可选地，所述第一子模型包括：第二生成器，所述训练样本包括所述图像样本和人物基准图像样本；所述使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息包括：获取与所述图像样本相对应的第三人脸解析图；使用所述第二生成器并基于所述第三人脸解析图和所述人物基准图像样本获得虚拟人物图像；所述根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整包括：根据所述虚拟人物图像和所述图像样本的比对结果计算第四估计损失；根据所述第四估计损失对所述第二生成器的参数进行调整。

可选地，所述获取与所述图像样本相对应的第三人脸解析图包括：使用所述第三3D重建模型并基于所述图像样本获得所述第三3D人物基准模型；使用所述第一生成器并基于所述第三3D人物模型获得所述第三人脸解析图。

根据本公开的第二方面，提供一种虚拟人物图像生成方法，包括：接收到音频信息，获取与所述音频信息相对应的人物基准图像；使用所述虚拟人物图像生成模型并基于所述音频信息和所述人物基准图像获得虚拟人物图像；其中，虚拟人物图像生成模型包括至少一个第一子模型，所述虚拟人物图像生成模型是通过如上所述的模型训练方法训练得到。

可选地，所述第一子模型包括：第一姿态估计模型、面部关键点偏差估计模型、第一生成器和第二生成器；所述使用所述虚拟人物图像生成模型并基于所述音频信息和所述人物基准图像获得虚拟人物图像包括：使用所述第一姿态估计模型并基于所述音频信息获得人物姿态信息；使用所述面部关键点偏差估计模型并基于所述音频样本获得面部关键点偏差信息；根据所述人物姿态信息、所述面部关键点偏差信息以及所述人物基准图像生成3D人物模型；使用第一生成器并基于所述3D人物模型和所述人物基准图像获取人脸解析图；使用第二生成器并基于所述人脸解析图和所述人物基准图像获得虚拟人物图像。

可选地，所述根据所述人物姿态信息、所述面部关键点偏差信息以及所述人物基准图像生成3D人物模型包括：使用3D重建模型并基于所述人物基准图像样本获得3D人物基准模型；使用所述3D人物基准模型与所述人物姿态信息、所述面部关键点偏差信息进行合成处理，生成所述3D人物模型。

根据本公开的第三方面，提供一种模型训练装置，其中，虚拟人物图像生成模型包括至少一个待训练的第一子模型，训练标注模型包括至少一个训练好的第二子模型，所述装置包括：视频分离模块，用于对视频样本进行分离处理，获取与所述视频样本相对应的音频信息和图像信息；样本生成模块，用于根据所述音频信息、所述图像信息和与所述图像信息相对应的人物基准图像生成训练样本集合，并且，根据所述图像信息和所述人物基准图像生成比对样本集合；第一特征获取模块，用于使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息；第二特征获取模块，用于使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息；模型参数调整模块，用于根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整，用以获得训练好的所述虚拟人物图像生成模型。

根据本公开的第四方面，提供一种虚拟人物图像生成装置，包括：信息获取模块，用于接收到音频信息，获取与所述音频信息相对应的人物基准图像；图像获取模块，用于使用所述虚拟人物图像生成模型并基于所述音频信息和所述人物基准图像获得虚拟人物图像；其中，虚拟人物图像生成模型包括至少一个第一子模型，所述虚拟人物图像生成模型是通过如上的模型训练方法训练得到。

根据本公开的第五方面，提供一种模型训练装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第六方面，提供一种虚拟人物图像生成装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第七方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上的模型训练方法，和/或，执行如上的虚拟人物图像生成方法。

本公开的模型训练方法和装置、虚拟人物图像生成方法和装置以及存储介质，使用待训练的虚拟人物图像生成模型并基于训练样本获得第一特征信息，使用训练好的训练标注模型并基于比对样本获得第二特征信息，根据第一特征信息与第二特征信息或图像信息的比对结果进行模型参数调整，能够获得训练好的、基于语音驱动的虚拟人物图像生成模型并使用此模型生成虚拟人物图像；使用已训练好的训练标注模型在模型训练过程中生成标注数据，并且训练标注模型能够进行3D模型重建，可以有效地结合2D和3D信息进行模型训练，避免采集大量的训练数据，提高了模型训练以及使用的效率和准确性，并且，能够通过人脸解析技术对虚拟人物图像进行渲染，虚拟人物图像逼真、视觉效果好。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为根据本公开的模型训练方法的一个实施例的流程示意图；

图2为根据本公开的模型训练方法的一个实施例中的对姿态估计模型进行训练的流程示意图；

图3为根据本公开的模型训练方法的一个实施例中的对姿态估计模型进行训练的框架示意图；

图4为根据本公开的模型训练方法的一个实施例中的对面部关键点偏差估计模型进行训练的流程示意图；

图5为根据本公开的模型训练方法的一个实施例中的对面部关键点偏差估计模型进行训练的框架示意图；

图6A为根据本公开的模型训练方法的一个实施例中的对第一生成器进行训练的流程示意图；图6B为第一人脸解析图的示意图；

图7A为根据本公开的模型训练方法的一个实施例中的对第二生成器进行训练的流程示意图；图7B为虚拟人物图像的示意图；

图8为根据本公开的模型训练方法的一个实施例中的对第一生成器和第二生成器进行训练的框架示意图；

图9为根据本公开的虚拟人物图像生成方法的一个实施例的流程示意图；

图10为根据本公开的模型训练方法的一个实施例的生成虚拟人物图像的框架示意图；

图11为根据本公开的模型训练装置的一个实施例的模块示意图；

图12为根据本公开的模型训练装置的另一个实施例的模块示意图；

图13为根据本公开的模型训练装置的又一个实施例的模块示意图；

图14为根据本公开的虚拟人物图像生成装置的一个实施例的模块示意图；

图15为根据本公开的虚拟人物图像生成装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。

下文中的“第一”、“第二”等仅用于描述上相区别，并没有其它特殊的含义。

虚拟人物图像生成模型用于基于音频驱动生成虚拟人物图像，虚拟人物可以为虚拟主播等，虚拟主播指的是以虚拟的形象来进行新闻播报、智能问答、互动交流等，而不需要真实的人物参与。训练标注模型用于在虚拟人物图像生成模型的训练过程中，生成标注数据。

虚拟人物图像生成模型包括至少一个待训练的第一子模型，训练标注模型包括至少一个训练好的第二子模型。第一子模型和第二子模型可以为多种深度学习算法模型，例如卷积神经网络(Convolutional Neural Networks,CNN)模型、长短期记忆网络(LongShort-Term Memory，LSTM)模型、生成对抗网络(Generative Adversarial Nets，GAN)模型等。

在虚拟人物图像生成模型的训练过程中，对各个第一子模型分别进行训练。在第一子模型的训练过程中，使用与第一子模型相对应的第二子模型生成标注数据。

图1为根据本公开的模型训练方法的一个实施例的流程示意图，如图1所示：

步骤101，对视频样本进行分离处理，获取与视频样本相对应的音频信息和图像信息。

在一个实施例中，视频样本可以为说话者(主持人等)的多个视频文件，视频样本包括说话者的人脸图像信息以及说话者的音频信息，可以使用现有的方法对视频样本进行音视频分离，从视频样本中提取音频信息以及无音频的视频。

从无音频的视频中提取一系列包含有人脸图像的视频帧，作为人脸图像序列，人脸图像序列中的视频帧图像为图像信息。例如，可以对1秒长度的无音频的视频中提取3个或5个等包含有人脸图像的视频帧，作为图像信息。图像信息中的人脸样本图像的排列顺序与拍摄顺序相同。

步骤102，根据音频信息、图像信息和与图像信息相对应的人物基准图像生成训练样本集合，并且，根据图像信息和人物基准图像生成比对样本集合。

在一个实施例中，获取与视频中的说话者相对应的人物基准图像，人物基准图像为说话者处于正常状态(说话者表情为通常的表情并且说话者没有说话)下的图像，人物基准图像中包含说话者的人脸图像以及头发、眼镜等。例如，可以从用户注册照片中获取人物基准图像。

步骤103，使用第一子模型并基于训练样本集中的训练样本获得第一特征信息。

在一个实施例中，第一子模型为待训练的模型，数量可以为多个。从训练样本集中选取与第一子模型相对应的训练样本，将训练样本输入第一子模型，获取第一子模型输出的第一特征信息；第一特征信息可以为人物姿态信息、面部关键点偏差信息等特征信息。

步骤104，使用对应的第二子模型并基于比对样本集中的比对样本获得第二特征信息。

在一个实施例中，第二子模型为训练好的模型，数量可以为多个。从比对样本集中选取与第二子模型相对应的比对样本，将比对样本输入第二子模型，获取第二子模型输出的第二特征信息；第二特征信息可以为人物姿态信息、面部关键点偏差信息等特征信息。

步骤105，根据第一特征信息与第二特征信息或图像信息的比对结果对第一子模型的参数进行调整，用以获得训练好的虚拟人物图像生成模型。

在一个实施例中，基于预设的损失函数并根据第一特征信息与第二特征信息或图像信息的比对结果计算估计损失，基于估计损失对第一子模型的参数进行调整，使估计损失最小化，用以获得训练好的虚拟人物图像生成模型。可以使用现有的方法设置与第一子模型相对应的损失函数并基于估计损失对第一子模型的参数进行调整。

设置第一子模型与第二子模型的对应关系，基于对应关系在训练样本集中选取与第一子模型相对应的训练样本，并在比对样本集合中选取与第二子模型相对应的比对样本。

在一个实施例中，第一子模型包括第一姿态估计模型，第二子模型包括第二姿态估计模型；训练样本包括音频样本，比对样本包括与音频样本相对应的图像样本。第一姿态估计模型、第二姿态估计模型可以实现为CNN模型、LSTM模型等。

图2为根据本公开的模型训练方法的一个实施例中的对姿态估计模型进行训练的流程示意图，如图2所示：

步骤201，使用第一姿态估计模型并基于音频样本获得第一人物姿态信息。

在一个实施例中，第一人物姿态信息可以为人物头部的左右转动角度、上下转动角度等。将音频样本输入待训练的第一姿态估计模型，获取第一姿态估计模型输出的人物头部的左右转动角度、上下转动角度等姿态特征信息。

步骤202，使用第二姿态估计模型并基于图像样本获得第二人物姿态信息。

在一个实施例中，第二人物姿态信息可以为人物头部的左右转动角度、上下转动角度等。将与音频样本相对应的图像样本输入训练好的第二姿态估计模型，获取第二姿态估计模型输出的人物头部的左右转动角度、上下转动角度等姿态特征信息。

步骤203，根据第一人物姿态信息和第二人物姿态信息的比对结果计算第一估计损失。

步骤204，根据第一估计损失对第一姿态估计模型的参数进行调整。

在一个实施例中，设置与第一姿态估计模型相对应的损失函数，基于损失函数并根据第一人物姿态信息和第二人物姿态信息的比对结果计算第一估计损失。基于第一估计损失对第一子模型的参数进行调整，使第一估计损失最小化，用以获得训练好的第一姿态估计模型。可以使用现有的方法设置损失函数并基于第一估计损失对第一姿态估计模型的参数进行调整。

如图3所示，使用第一姿态估计模型并基于音频样本获得第一人物姿态信息，使用第二姿态估计模型并基于图像样本获得第二人物姿态信息；利用一个训练好的第二姿态估计模型得到图像样本对应的第二人物姿态信息，第二人物姿态信息作为音频驱动的第一姿态估计模型训练中的标注数据，即作为ground truth。

获得第一人物姿态信息和第二人物姿态信息的比对结果，使用损失函数并根据比对结果计算第一估计损失，根据第一估计损失对第一姿态估计模型的参数进行调整，可以训练从音频到姿态参数的第一姿态估计模型。

在一个实施例中，第一子模型包括面部关键点偏差估计模型，第二子模型包括第一3D重建模型；训练样本包括音频样本，比对样本包括与音频样本相对应的图像样本；面部关键点偏差估计模型、第一3D重建模型可以实现为CNN模型、LSTM模型等。

图4为根据本公开的模型训练方法的一个实施例中的对面部关键点偏差估计模型进行训练的流程示意图，如图4所示：

步骤401，使用面部关键点偏差估计模型并基于音频样本获得面部关键点偏差信息。

在一个实施例中，面部关键点为脸颊、眼睛、眉毛、鼻子、嘴巴等的关键点。面部关键点偏差估计模型训练好后，输入音频样本，对音频样本中的每秒音频都生成面部关键点偏差信息，面部关键点偏差信息可以为面部关键点偏差序列。使用面部关键点可以用较少的参数(例如，106个面部关键点只需要212个参数)描述人脸的表情以及口型等。

步骤402，使用第一3D重建模型并基于图像样本获得第一3D人物模型。

在一个实施例中，可以将图像样本输入训练好的第一3D重建模型，获取由第一3D重建模型输出的第一3D人物模型，第一3D人物(可以为主持人等)模型可以为多种三维模型，例如为3D mesh(网格)模型等。

步骤403，根据面部关键点偏差信息获取第二3D人物模型。

在一个实施例中，第二子模型还包括第二3D重建模型，比对样本包括与图像样本相对应的人物基准图像样本；第二3D重建模型可以为CNN模型、LSTM模型等。

使用第二3D重建模型并基于人物基准图像样本获得3D人物基准模型，根据3D人物基准模型与面部关键点偏差信息进行合成处理，生成第二3D人物模型。可以使用现有的多种方法将3D人物基准模型与面部关键点偏差信息进行合成处理，3D人物基准模型和第二3D人物模型可以为3D mesh模型等。

步骤404，根据第一3D人物模型和第二3D人物模型的比对结果计算第二估计损失。

步骤404，根据第二估计损失对面部关键点偏差估计模型的参数进行调整。

在一个实施例中，设置损失函数，基于损失函数并根据第一3D人物模型和第二3D人物模型的比对结果计算第二估计损失。基于第二估计损失对面部关键点偏差估计模型的参数进行调整，使第二估计损失最小化，用以获得训练好的面部关键点偏差估计模型。可以使用现有的方法设置损失函数并基于第二估计损失对面部关键点偏差估计模型的参数进行调整。

在一个实施例中，如图5所示，对视频样本进行分离处理，获取与视频样本相对应的音频样本息和图像样本。使用面部关键点偏差估计模型并基于音频样本获得面部关键点偏差信息，使用训练好的第一3D重建模型来对图像样本进行预测，得到第一3D人物模型，即人物的3D mesh模型；将此人物的3D mesh模型作为面部关键点偏差估计模型训练中的3Dmesh正确标注。

使用第二3D重建模型并基于人物基准图像样本获得3D人物基准模型，将3D人物基准模型与面部关键点偏差信息进行合成处理，生成第二3D人物模型。可以使用现有的方法将3D人物基准模型与面部关键点偏差信息进行合成处理。

获取第一3D人物模型和第二3D人物模型的比对结果，根据损失函数并基于比对结果计算第二估计损失，根据第二估计损失对面部关键点偏差估计模型的参数进行调整。

在一个实施例中，第一子模型包括第一生成器，第二子模型包括人脸解析模型；训练样本包括图像样本和人物基准图像样本，比对样本包括图像样本；第一生成器和人脸解析模型可以实现为GAN模型、CNN模型等。

图6A为根据本公开的模型训练方法的一个实施例中的对第一生成器进行训练的流程示意图，如图6A所示：

步骤601，基于图像样本获取第三3D人物模型。

在一个实施例中，第二子模型还包括第三3D重建模型，使用训练好的第三3D重建模型并基于图像样本获得第三3D人物模型。第三3D人物模型可以为CNN模型、LSTM模型等，第三3D人物模型可以为3D mesh模型等。

步骤602，使用第一生成器并基于第三3D人物模型和人物基准图像获得第一人脸解析图。

在一个实施例中，将第三3D人物模型和人物基准图像输入第一生成器中，获得第一生成器输出的第一人脸解析图，第一人脸解析图为二维的人脸解析图。第一人脸解析图可以为人物的二维图像，并在二维图像中标注出头发、眼睛、鼻子、眉毛、嘴等区域。第一生成器可以为使用神经网络建立的深度语义分割模型，用于进行图像语义分割。

第一生成器的作用是从3D模型映射到2D人脸解析图，从2D人脸解析图生成2D图像更加简单，并且，第三3D人物模型中的人物通常不包含头发等信息，结合人物基准图像可以在人物的二维图像中标注出图像文信息。第一生成器并基于第三3D人物模型和人物基准图像获得的第一人脸解析图如图6B所示，不同的颜色表示不同的类别。

步骤603,使用人脸解析模型并基于图像样本获得第二人脸解析图。

在一个实施例中，将图像样本输入训练好的人脸解析模型，获取人脸解析模型输出的第二人脸解析图；第二人脸解析图可以为人物的二维图像，在第二人脸解析图中可以标注出头发、眼睛、鼻子、眉毛、嘴等区域。第二生成器可以为使用神经网络建立的深度语义分割模型，用于进行图像语义分割。

步骤604，根据第一人脸解析图和第二人脸解析图的比对结果计算第三估计损失。

步骤605，根据第三估计损失对第一生成器的参数进行调整。

在一个实施例中，设置损失函数，基于损失函数并根据第一人脸解析图和第二人脸解析图的比对结果计算第三估计损失。基于第三估计损失对第一生成器的参数进行调整，使第三估计损失最小化，用以获得训练好的第一生成器。可以使用现有的方法设置损失函数并基于第三估计损失对第一生成器的参数进行调整。

在一个实施例中，第一子模型包括第二生成器，训练样本包括图像样本和人物基准图像样本，第二生成器和人脸解析模型可以为GAN模型、CNN模型等。

图7A为根据本公开的模型训练方法的一个实施例中的对第二生成器进行训练的流程示意图，如图7A所示：

步骤701，获取与图像样本相对应的第三人脸解析图。

在一个实施例中，使用第三3D重建模型并基于图像样本获得第三3D人物基准模型，使用训练好的第一生成器并基于第三3D人物模型获得第三人脸解析图。

步骤702，使用第二生成器并基于第三人脸解析图和人物基准图像样本获得虚拟人物图像。

在一个实施例中，第二生成器能够从人物基准图像样本获取与人物的头发、眼睛、鼻子、眉毛、嘴、头发等相对应的形状、颜色以及化妆等特征，例如口红颜色、眼镜形状或颜色、发型和头发颜色等。根据获取的形状、颜色以及化妆等特征，第二生成器生成与人物基准图像样本相对应的二维虚拟人物图像，并在第三人脸解析图中标注出头发、眼睛、鼻子、眉毛、嘴等区域内进行相应地渲染处理，获得虚拟人物图像。虚拟人物图像可以为虚拟主播图像等。例如，第三人脸解析图如图6B所示，使用第二生成器并基于第三人脸解析图和人物基准图像样本获得虚拟人物图像，虚拟人物图像如图7B所示。

步骤703，根据虚拟人物图像和图像样本的比对结果计算第四估计损失。

步骤704，根据第四估计损失对第二生成器的参数进行调整。

在一个实施例中，设置损失函数，基于损失函数并根据虚拟人物图像和图像样本的比对结果计算第四估计损失。基于第四估计损失对第二生成器的参数进行调整，使第四估计损失最小化，用以获得训练好的第二生成器。可以使用现有的方法设置损失函数并基于第四估计损失对第二生成器的参数进行调整。

在一个实施例中，如图8所示，将图像样本输入第三3D重建模型，获得第三3D人物模型；将第三3D人物模型输入第一生成器，获得第一人脸解析图；使用训练好的人脸解析模型并基于图像样本获得第二人脸解析图；根据损失函数并基于第一人脸解析图和第二人脸解析图的比对结果计算第三估计损失，根据第三估计损失对第一生成器的参数进行调整。

将第一人脸解析图输入第二生成器，第二生成器基于第一人脸解析图和人物基准图像样本获得虚拟人物图像；根据损失函数并基于虚拟人物图像和图像样本的比对结果计算第四估计损失，根据第四估计损失对第二生成器的参数进行调整。

图9为根据本公开的虚拟人物图像生成方法的一个实施例的流程示意图，如图9所示：

步骤901，接收到音频信息，获取与音频信息相对应的人物基准图像。

步骤902，使用虚拟人物图像生成模型并基于音频信息和人物基准图像获得虚拟人物图像；虚拟人物图像生成模型包括至少一个第一子模型，虚拟人物图像生成模型是通过如上的模型训练方法训练得到。

在一个实施例中，如图10所示，第一子模型包括第一姿态估计模型、面部关键点偏差估计模型、第一生成器和第二生成器；使用第一姿态估计模型并基于音频信息获得人物姿态信息，使用面部关键点偏差估计模型并基于音频样本获得面部关键点偏差信息。

使用训练好的3D重建模型并基于人物基准图像样本获得3D人物基准模型，可以为3D网格模型等，基于3D人物基准模型与人物姿态信息、面部关键点偏差信息进行合成处理，生成3D人物模型。

使用第一生成器并基于3D人物模型和人物基准图像获取人脸解析图，使用第二生成器并基于人脸解析图和人物基准图像获得虚拟人物图像。第二生成器获取与人物基准图像样本对应的人物的头发、眼睛、鼻子、眉毛、嘴、头发等对应的形状、颜色以及化妆等特征，生成二维的虚拟人物图像并在人脸解析图中标注出眼睛、鼻子、眉毛、嘴等区域内进行相应地渲染处理，获取虚拟人物图像，虚拟人物图像可以为虚拟主播图像等。

在一个实施例中，如图11所示，本公开提供一种模型训练装置110，包括：视频分离模块111、样本生成模块112、第一特征获取模块113、第二特征获取模块114和模型参数调整模块115。

虚拟人物图像生成模型包括至少一个待训练的第一子模型，训练标注模型包括至少一个训练好的第二子模型。视频分离模块111对视频样本进行分离处理，获取与视频样本相对应的音频信息和图像信息。样本生成模块112根据音频信息、图像信息和与图像信息相对应的人物基准图像生成训练样本集合，并且，根据图像信息和人物基准图像生成比对样本集合。

第一特征获取模块113使用第一子模型并基于训练样本集中的训练样本获得第一特征信息。第二特征获取模块114使用对应的第二子模型并基于比对样本集中的比对样本获得第二特征信息。模型参数调整模块115根据第一特征信息与第二特征信息或图像信息的比对结果对第一子模型的参数进行调整，用以获得训练好的虚拟人物图像生成模型。

在一个实施例中，如图12所示，模型训练装置还包括样本选取模块116。样本选取模块116设置第一子模型与第二子模型的对应关系，基于对应关系在训练样本集中选取与第一子模型相对应的训练样本，并在比对样本集合中选取与第二子模型相对应的比对样本。

第一子模型包括第一姿态估计模型，第二子模型包括第二姿态估计模型；训练样本包括音频样本，比对样本包括与音频样本相对应的图像样本。第一特征获取模块113使用第一姿态估计模型并基于音频样本获得第一人物姿态信息。第二特征获取模块114使用第二姿态估计模型并基于图像样本获得第二人物姿态信息；

模型参数调整模块115根据第一人物姿态信息和第二人物姿态信息的比对结果计算第一估计损失，根据第一估计损失对第一姿态估计模型的参数进行调整。

在一个实施例中，第一子模型包括面部关键点偏差估计模型，第二子模型包括第一3D重建模型；训练样本包括音频样本，比对样本包括与音频样本相对应的图像样本。第一特征获取模块113使用面部关键点偏差估计模型并基于音频样本获得面部关键点偏差信息。第二特征获取模块114使用第一3D重建模型并基于图像样本获得第一3D人物模型。

模型参数调整模块115根据面部关键点偏差信息获取第二3D人物模型，根据第一3D人物模型和第二3D人物模型的比对结果计算第二估计损失，根据第二估计损失对面部关键点偏差估计模型的参数进行调整。

第二子模型还包括第二3D重建模型，比对样本包括与图像样本相对应的人物基准图像样本。模型参数调整模块115使用第二3D重建模型并基于人物基准图像样本获得3D人物基准模型，根据3D人物基准模型与面部关键点偏差信息进行合成处理，生成第二3D人物模型。

在一个实施例中，第一子模型包括第一生成器，第二子模型包括人脸解析模型；训练样本包括图像样本和人物基准图像样本，比对样本包括图像样本。第一特征获取模块113基于图像样本获取第三3D人物模型。例如，第二子模型还包括第三3D重建模型，第一特征获取模块113使用第三3D重建模型并基于图像样本获得第三3D人物模型。

第一特征获取模块113使用第一生成器并基于第三3D人物模型和人物基准图像样本获得第一人脸解析图。第二特征获取模块114使用人脸解析模型并基于图像样本获得第二人脸解析图。模型参数调整模块115根据第一人脸解析图和第二人脸解析图的比对结果计算第三估计损失，根据第三估计损失对第一生成器的参数进行调整。

第一子模型包括第二生成器，训练样本包括图像样本和人物基准图像样本。第一特征获取模块113获取与图像样本相对应的第三人脸解析图。例如，第一特征获取模块113使用第三3D重建模型并基于图像样本获得第三3D人物基准模型，使用第一生成器并基于第三3D人物模型和人物基准图像获得第三人脸解析图。

第一特征获取模块113使用第二生成器并基于第三人脸解析图和人物基准图像样本获得虚拟人物图像。模型参数调整模块115根据虚拟人物图像和图像样本的比对结果计算第四估计损失，根据第四估计损失对第二生成器的参数进行调整。

在一个实施例中，图13为根据本公开的模型训练装置的又一个实施例的模块示意图。如图13所示，该装置可包括存储器1301、处理器1302、通信接口1303以及总线1304。存储器1301用于存储指令，处理器1302耦合到存储器1301，处理器1302被配置为基于存储器1301存储的指令执行实现上述的模型训练方法。

存储器1301可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器1301也可以是存储器阵列。存储器1301还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器1302可以为中央处理器CPU，或专用集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本公开的模型训练方法的一个或多个集成电路。

在一个实施例中，如图14所示，本公开提供一种虚拟人物图像生成装置140，包括：信息获取模块141和图像获取模块142。信息获取模块141接收到音频信息，获取与音频信息相对应的人物基准图像。图像获取模块142使用虚拟人物图像生成模型并基于音频信息和人物基准图像获得虚拟人物图像。虚拟人物图像生成模型包括至少一个第一子模型，虚拟人物图像生成模型是通过如上实施例中的模型训练方法训练得到。

在一个实施例中，第一子模型包括第一姿态估计模型、面部关键点偏差估计模型、第一生成器和第二生成器。图像获取模块142使用第一姿态估计模型并基于音频信息获得人物姿态信息，使用面部关键点偏差估计模型并基于音频样本获得面部关键点偏差信息。图像获取模块142根据人物姿态信息、面部关键点偏差信息以及人物基准图像生成3D人物模型。例如，图像获取模块142使用3D重建模型并基于人物基准图像样本获得3D人物基准模型，基于3D人物基准模型与面部关键点偏差信息进行合成处理，生成3D人物模型。

图像获取模块142使用第一生成器并基于3D人物模型获取人脸解析图；图像获取模块142使用第二生成器并基于人脸解析图和人物基准图像获得虚拟人物图像。

在一个实施例中，图15为根据本公开的虚拟人物图像生成装置的另一个实施例的模块示意图。如图15所示，该装置可包括存储器151、处理器152、通信接口153以及总线154。存储器151用于存储指令，处理器152耦合到存储器151，处理器152被配置为基于存储器151存储的指令执行实现上述的虚拟人物图像生成方法。

存储器151可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器151也可以是存储器阵列。存储器151还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器152可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的虚拟人物图像生成的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的模型训练方法，和/或，如上任一个实施例中的虚拟人物图像生成方法。

上述实施例提供的模型训练方法和装置、虚拟人物图像生成方法和装置以及存储介质，使用待训练的虚拟人物图像生成模型并基于训练样本获得第一特征信息，使用训练好的训练标注模型并基于比对样本获得第二特征信息，根据第一特征信息与第二特征信息或图像信息的比对结果进行模型参数调整，能够获得训练好的、基于语音驱动的虚拟人物图像生成模型并使用此模型生成虚拟人物图像；使用已训练好的训练标注模型在模型训练过程中生成标注数据，并且训练标注模型能够进行3D模型重建，可以有效地结合2D和3D信息进行模型训练，避免采集大量的3D训练数据，提高了模型训练以及使用的效率和准确性，并且，能够通过人脸解析技术对虚拟人物图像进行渲染，虚拟人物图像逼真、视觉效果好。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种模型训练方法，其中，虚拟人物图像生成模型包括至少一个待训练的第一子模型，训练标注模型包括至少一个训练好的第二子模型，所述第一子模型包括：面部关键点偏差估计模型，所述第二子模型包括：第一3D重建模型；所述方法包括：

对视频样本进行分离处理，获取与所述视频样本相对应的音频信息和图像信息；

根据所述音频信息、所述图像信息和与所述图像信息相对应的人物基准图像生成训练样本集合，并且，根据所述图像信息和所述人物基准图像生成比对样本集合；

使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息；其中，训练样本包括：音频样本；使用所述面部关键点偏差估计模型并基于所述音频样本获得面部关键点偏差信息；

使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息；其中，比对样本包括：与音频样本相对应的图像样本；使用所述第一3D重建模型并基于所述图像样本获得第一3D人物模型；

根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整，用以获得训练好的所述虚拟人物图像生成模型，包括：根据所述面部关键点偏差信息获取第二3D人物模型，根据所述第一3D人物模型和所述第二3D人物模型的比对结果计算第二估计损失并对面部关键点偏差估计模型的参数进行调整。

2.如权利要求1所述的方法，还包括：

设置所述第一子模型与所述第二子模型的对应关系；

基于所述对应关系在所述训练样本集中选取与所述第一子模型相对应的训练样本，并在所述比对样本集合中选取与所述第二子模型相对应的比对样本。

3.如权利要求2所述的方法，所述第一子模型包括：第一姿态估计模型，所述第二子模型包括：第二姿态估计模型；所述训练样本包括：音频样本，所述比对样本包括：与所述音频样本相对应的图像样本；

所述使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息包括：

使用所述第一姿态估计模型并基于所述音频样本获得第一人物姿态信息；

所述使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息包括：

使用所述第二姿态估计模型并基于所述图像样本获得第二人物姿态信息；

所述根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整包括：

根据所述第一人物姿态信息和所述第二人物姿态信息的比对结果计算第一估计损失；

根据所述第一估计损失对所述第一姿态估计模型的参数进行调整。

4.如权利要求2所述的方法，所述第二子模型还包括：第二3D重建模型；所述比对样本包括：与所述图像样本相对应的人物基准图像样本；所述根据所述面部关键点偏差信息获取第二3D人物模型包括：

使用所述第二3D重建模型并基于所述人物基准图像样本获得3D人物基准模型；

根据所述3D人物基准模型与所述面部关键点偏差信息进行合成处理，生成所述第二3D人物模型。

5.如权利要求2所述的方法，所述第一子模型包括：第一生成器，所述第二子模型包括：人脸解析模型；所述训练样本包括：图像样本和人物基准图像样本，所述比对样本包括图像样本；

基于所述图像样本获取第三3D人物模型；

使用所述第一生成器并基于所述第三3D人物模型和所述人物基准图像样本获得第一人脸解析图；

使用所述人脸解析模型并基于所述图像样本获得第二人脸解析图；

根据所述第一人脸解析图和所述第二人脸解析图的比对结果计算第三估计损失；

根据所述第三估计损失对所述第一生成器的参数进行调整。

6.如权利要求5所述的方法，所述第二子模型还包括：第三3D重建模型；所述基于所述图像样本获取第三3D人物模型；

使用所述第三3D重建模型并基于所述图像样本获得所述第三3D人物模型。

7.如权利要求6所述的方法，所述第一子模型包括：第二生成器，所述训练样本包括所述图像样本和人物基准图像样本；所述使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息包括：

获取与所述图像样本相对应的第三人脸解析图；

使用所述第二生成器并基于所述第三人脸解析图和所述人物基准图像样本获得虚拟人物图像；

根据所述虚拟人物图像和所述图像样本的比对结果计算第四估计损失；

根据所述第四估计损失对所述第二生成器的参数进行调整。

8.如权利要求7所述的方法，所述获取与所述图像样本相对应的第三人脸解析图包括：

使用所述第三3D重建模型并基于所述图像样本获得第三3D人物基准模型；

使用所述第一生成器并基于所述第三3D人物模型获得所述第三人脸解析图。

9.一种虚拟人物图像生成方法，包括：

接收到音频信息，获取与所述音频信息相对应的人物基准图像；

使用虚拟人物图像生成模型并基于所述音频信息和所述人物基准图像获得虚拟人物图像；

其中，虚拟人物图像生成模型包括至少一个第一子模型，所述虚拟人物图像生成模型是通过权利要求1至8中任一项所述的模型训练方法训练得到。

10.如权利要求9所述的方法，所述第一子模型包括：第一姿态估计模型、面部关键点偏差估计模型、第一生成器和第二生成器；所述使用所述虚拟人物图像生成模型并基于所述音频信息和所述人物基准图像获得虚拟人物图像包括：

使用所述第一姿态估计模型并基于所述音频信息获得人物姿态信息；

使用所述面部关键点偏差估计模型并基于所述音频样本获得面部关键点偏差信息；

根据所述人物姿态信息、所述面部关键点偏差信息以及所述人物基准图像生成3D人物模型；

使用第一生成器并基于所述3D人物模型和所述人物基准图像获取人脸解析图；

使用第二生成器并基于所述人脸解析图和所述人物基准图像获得虚拟人物图像。

11.如权利要求10所述的方法，所述根据所述人物姿态信息、所述面部关键点偏差信息以及所述人物基准图像生成3D人物模型包括：

使用3D重建模型并基于所述人物基准图像样本获得3D人物基准模型；

使用所述3D人物基准模型与所述人物姿态信息、所述面部关键点偏差信息进行合成处理，生成所述3D人物模型。

12.一种模型训练装置，其中，虚拟人物图像生成模型包括至少一个待训练的第一子模型，训练标注模型包括至少一个训练好的第二子模型，所述第一子模型包括：面部关键点偏差估计模型，所述第二子模型包括：第一3D重建模型；所述装置包括：

视频分离模块，用于对视频样本进行分离处理，获取与所述视频样本相对应的音频信息和图像信息；

样本生成模块，用于根据所述音频信息、所述图像信息和与所述图像信息相对应的人物基准图像生成训练样本集合，并且，根据所述图像信息和所述人物基准图像生成比对样本集合；

第一特征获取模块，用于使用所述第一子模型并基于所述训练样本集中的训练样本获得第一特征信息；其中，训练样本包括：音频样本；使用所述面部关键点偏差估计模型并基于所述音频样本获得面部关键点偏差信息；

第二特征获取模块，用于使用对应的第二子模型并基于所述比对样本集中的比对样本获得第二特征信息；其中，比对样本包括：与音频样本相对应的图像样本；使用所述第一3D重建模型并基于所述图像样本获得第一3D人物模型；

模型参数调整模块，用于根据所述第一特征信息与所述第二特征信息或所述图像信息的比对结果对所述第一子模型的参数进行调整，用以获得训练好的所述虚拟人物图像生成模型，包括：根据所述面部关键点偏差信息获取第二3D人物模型，根据所述第一3D人物模型和所述第二3D人物模型的比对结果计算第二估计损失并对面部关键点偏差估计模型的参数进行调整。

13.一种模型训练装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至8中任一项所述的方法。

14.一种虚拟人物图像生成装置，包括：

信息获取模块，用于接收到音频信息，获取与所述音频信息相对应的人物基准图像；

图像获取模块，用于使用所述虚拟人物图像生成模型并基于所述音频信息和所述人物基准图像获得虚拟人物图像；

15.一种虚拟人物图像生成装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求9至11中任一项所述的方法。

16.一种计算机可读存储介质，所述计算机可读存储介质非暂时性地存储有计算机指令，所述指令被处理器执行如权利要求1至8中任一项所述的方法，和/或，执行如权利要求9至11中任一项所述的方法。