CN114022598B

CN114022598B - 图像处理方法、模型训练方法、装置、电子设备及介质

Info

Publication number: CN114022598B
Application number: CN202111321970.8A
Authority: CN
Inventors: 胡天舒; 何声一; 韩钧宇; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2024-02-20
Anticipated expiration: 2041-11-09
Also published as: US20230065675A1; EP4177884A1; JP2023011742A; CN114022598A

Abstract

本公开提供了图像处理方法、模型训练方法、装置、电子设备及介质，涉及工智能技术领域，尤其涉及深度学习、计算机视觉等技术领域。具体实现方案为：生成第一人脸图像；所述第一人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内；根据用于驱动所述第一人脸图像的目标语音，调整所述第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合所述目标语音发音规则的第二人脸图像；将所述第二人脸图像作为所述目标语音驱动后的人脸图像。本公开实施例能够提高人脸驱动效果。

Description

图像处理方法、模型训练方法、装置、电子设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、计算机视觉等技术领域。

背景技术

人脸驱动指的是通过一种媒介作为内容参考来驱动一张人物图片，从而利用人物图片生成一段与参考内容匹配的人物视频。近几年来，短视频以及直播赛道的火热造就了内容创作的空前繁荣，而虚拟现实技术的不断升级则给内容创作带来了更多的可能性。人脸驱动技术也成为这些内容创作背后重要的支持性技术。

一般认为，人脸驱动作品越逼真、越接近真实场景，效果越好。而如何提高人脸驱动作品所呈现的效果，是改进人脸驱动技术的重点。

发明内容

本公开提供了一种图像处理方法、模型训练方法、装置、电子设备及介质。

根据本公开的一方面，提供了一种图像处理方法，包括：

生成第一人脸图像；第一人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内；

根据用于驱动第一人脸图像的目标语音，调整第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合目标语音发音规则的第二人脸图像；

将第二人脸图像作为目标语音驱动后的人脸图像。

根据本公开的另一方面，提供了一种模型生成方法，包括：

将第四人脸图像输入待训练的人脸驱动模型的人脸编码模型，得到第二人脸图像编码；第二人脸图像编码为符合预设分布的连续型随机变量；

将目标语音输入待训练的人脸驱动模型的语音处理器，得到调整向量；

利用待训练的人脸驱动模型的人脸生成模型，根据调整向量与第二人脸图像编码，生成第五人脸图像；

根据第五人脸图像的脸部动作信息与目标音频，训练语音处理器；

根据训练后的语音处理器，得到训练后的人脸驱动模型。

根据本公开的另一方面，提供了一种图像处理装置，包括：

第一人脸图像生成模块，用于生成第一人脸图像；第一人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内；

第二人脸图像生成模块，用于根据用于驱动第一人脸图像的目标语音，调整第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合目标语音发音规则的第二人脸图像；

驱动模块，用于将第二人脸图像作为目标语音驱动后的人脸图像。

根据本公开的另一方面，提供了一种模型生成装置，包括：

第一输入模块，用于将第四人脸图像输入待训练的人脸驱动模型的人脸编码模型，得到第二人脸图像编码；第二人脸图像编码为符合预设分布的连续型随机变量；

第二输入模块，用于将目标语音输入待训练的人脸驱动模型的语音处理器，得到调整向量；

第一输出模块，用于利用待训练的人脸驱动模型的人脸生成模型，根据调整向量与第二人脸图像编码，生成第五人脸图像；

第一训练模块，用于根据第五人脸图像的脸部动作信息与目标音频，训练语音处理器；

第二训练模块，用于根据训练后的语音处理器，得到训练后的人脸驱动模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，根据参照人脸图像，生成清晰度和真实性都大于设定阈值的第一人脸图像，再采用目标语音驱动第一人脸图像，从而得到的第二人脸图像的嘴型、脸部肌理等信息，足够丰富且真实呈现与目标语音一致的发音效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的图像处理方法示意图；

图2是根据本公开另一实施例的图像处理方法示意图；

图3是根据本公开又一实施例的图像处理方法示意图；

图4是根据本公开又一实施例的图像处理方法示意图；

图5是根据本公开又一实施例的图像处理方法示意图；

图6是根据本公开又一实施例的图像处理方法示意图；

图7是根据本公开又一实施例的图像处理方法示意图；

图8是根据本公开一示例的模型训练示意图；

图9是根据本公开另一示例的模型训练示意图；

图10是根据本公开一实施例的图像处理装置示意图；

图11是根据本公开另一实施例的图像处理装置示意图；

图12是根据本公开又一实施例的图像处理装置示意图；

图13是根据本公开又一实施例的图像处理装置示意图；

图14是根据本公开又一实施例的图像处理装置示意图；

图15是根据本公开又一实施例的图像处理装置示意图；

图16是根据本公开又一实施例的图像处理装置示意图；

图17是用来实现本公开实施例的图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

根据本公开的实施例，提供了一种图像处理方法，图1是根据本公开实施例的基于图像处理方法的流程示意图，该方法可以应用于图像处理装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行人脸图像的生成、人脸图像的调整、脸部动作信息的生成等等。其中，终端可以为用户设备(UE，User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，图像处理方法包括：

步骤S11：生成第一人脸图像；第一人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内；

步骤S12：根据用于驱动第一人脸图像的目标语音，调整第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合目标语音发音规则的第二人脸图像；

步骤S13：将第二人脸图像作为目标语音驱动后的人脸图像。

本实施例中，第一人脸图像可以是脸部特征随机生成的人脸图像。参照人脸图像可以是任意一个真实且高清的人脸图像，即清晰度大于设定阈值的真实人脸的图像。参照人脸图像可以是脸部相貌特征与第一人脸图像完全不同的人脸的图像。

第一人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内，即第一人脸图像和参照人脸图像之间的清晰度差异以及真实性差异小于设定阈值，从而第一人脸图像是高清且真实的。

比如，第一人脸图像的清晰度满足不小于参照人脸图像的清晰度减去设定差异阈值的情况下，可以认为第一人脸图像和参照人脸图像之间的清晰度差异在设定范围内。

再如，第一人脸图像的真实性不小于参照人脸图像的真实性数据减去设定的差异阈值的情况下，可认为第一人脸图像和参照人脸图像之间的真实性差异在设定范围内。

用于驱动第一人脸图像的目标语音，可以用于在第一人脸图像产生变化时提供参照，以使得变化后的第一人脸图像中的嘴型、脸部肌肉等与目标语音中的至少一个音节的发音方式相一致。

目标语音可以至少包括一个音节。

比如，目标语音为“你好”，则根据目标语音，调整第一人脸图像，使得第一人脸图像中与发音相关的脸部动作信息，即脸部各组织的位置与音节“你”或者“好”相一致，得到第二人脸图像。

本实施例中，脸部组织位置符合目标语音发音规则，可以是人脸图像中的全部脸部组织位置符合目标语音发音规则，也可以是人脸图像中的部分脸部组织位置符合目标语音发音规则。

第二人脸图像可以为至少一张图像。

本实施例中，根据参照人脸图像，生成清晰度和真实性都大于设定阈值的第一人脸图像，再采用目标语音驱动第一人脸图像，从而得到的第二人脸图像的嘴型、脸部肌理等信息，足够丰富且真实呈现与目标语音一致的发音效果。

在一种实施方式中，生成第一人脸图像，包括：

获得多个维度的第一连续型随机变量，第一连续型随机变量符合设定分布，设定分布的连续型随机变量全集对应真实人脸的脸部特征全集；

根据预设的随机变量与人脸图像的对应关系，以及第一连续型随机变量，生成第一人脸图像。

本实施例中，多个维度，可以是多个独立的坐标数目，每个维度的数目可代表一种脸部信息，比如，多个维度中n1个维度对应眼部信息，n2个维度对应脸型信息等。

设定分布可以是一定的连续型数学分布，比如，正态分布、均匀分布、指数分布等等。可以是标准数学分布，也可以是变形的数学分布。

在设定分布的连续型随机变量全集中，任意连续型随机变量对应一个唯一的真实人脸特征，也即对应唯一一个真实人脸的图像，连续型随机变量全集中存在无穷多个连续型随机变量，对应人脸的可能五官、肤色等特征全集。

根据预设的随机变量与人脸图像的对应关系，以及第一连续型随机变量，生成第一人脸图像，可以是根据符合设定分布的随机变量全集与人脸图像全集之间的对应关系，确定第一连续型随机变量对应的人脸特征，进而生成第一人脸图像。

本实施例中，根据符合设定分布的第一连续型随机变量，生成第一人脸图像，从而能够快速得到具有真实性的人脸特征，且生成的人脸具有随机性。

在一种实施方式中，如图2所示，预设的随机变量与人脸图像的对应关系的生成过程包括：

步骤S21：获得多个维度的第二连续型随机变量，第二连续型随机变量符合设定分布；

步骤S22：根据第二连续型随机变量，生成第三人脸图像；

步骤S23：在第三人脸图像和参照人脸图像之间的清晰度差异或真实性差异大于设定范围的情况下，重复执行根据第二连续型随机变量，生成第三人脸图像的步骤，直至第三人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内。

本实施例中，根据第二连续型随机变量，生成第三人脸图像，可以是根据默认的连续型随机变量中的每一维数据与人脸图像中的特征的关系，生成随机相貌的人脸图像。人脸图像中的特征与连续型随机变脸中每一维数据的关系，可通过公式进行表示。

在重复执行根据第二连续型随机变量，生成第三人脸图像的步骤时，可将连续型随机变量和人脸图像中的特征的关系的对应方式进行调整，具体比如，可以调整根据连续型随机变量获得特征的公式或公式的参数。

连续型随机变量符合设定分布，可以是连续型随机变量所有维度的数据可以拟合出设定分布。

本实施例中，在确定连续型随机变量中的每一维数据与人脸图像中的特征的对应关系时，以真实性和清晰度为标准，在不满足真实性或清晰度条件的情况下，调整连续型随机变量中的每一维数据与人脸图像中的特征的对应方式，从而最终能够通过确定的特征和数据之间的关系，获得高清且真实的人脸。

在一种实施方式中，如图3所示，根据第三人脸图像和参照人脸图像，生成对应关系，包括：

步骤S31：对第三人脸图像进行编码，得到第一人脸图像编码；第一人脸图像编码与第一连续型随机变量的维度相同；

步骤S32：调整第一人脸图像编码，使得调整后的第一人脸图像编码符合设定分布；

步骤S33：根据调整后的第一人脸图像编码和第三人脸图像，确定对应关系。

本实施例中，可采用任意可用的图像编码方式，对第三人脸图像进行编码，得到与第一连续型随机变量属于相同的分布、且维度相同的数据。

根据调整后的第一人脸图像编码和第三人脸图像，确定对应关系，可以是建立调整后的第一人脸图像编码和第三人脸图像之间的对应关系从而使得后续根据对应关系，能够在类似的编码(即前述随机变量)的基础上生成与第三人脸图像的清晰度和真实性接近的人脸图像。

本实施例中，在确定连续型随机变量与人脸图像之间的对应关系后，进一步对真实人脸图像进行编码，反向确定人脸图像和连续型随机变量之间的关系，从而进一步确保能够根据随机生成的连续型变量生成真实且高清的人脸图像。

在一种实施方式中，根据用于驱动第一人脸图像的目标语音，调整第一人脸图像中与发音相关的脸部变动信息脸部动作信息，生成脸部组织位置符合目标语音发音规则的第二人脸图像，包括：

根据目标语音，生成调整向量；调整向量对应第一连续型随机变量中至少一个与脸部动作信息对应的维度；

根据调整向量，调整第一连续型随机变量，使得第一连续型随机变量向调整向量的方向偏移。

本实施例中，调整向量的维度可以少于连续型随机变量，对应脸部动作信息在连续型随机变量中的维度。比如，调整向量可以包括用于表达嘴部开合程度、嘴型、脸部第一肌肉的纹理、脸部第二肌肉的纹理等的多维数据，每一维数据对应表达一种脸部组织位置信息。

在一种可能的实施方式中，调整向量可以根据预定的脸部组织位移准确度来确定维度，比如，在脸部组织动作位移准确性要求较低的情况下，可采用一维数据表达嘴部形状，在脸部组织动作位移准确性要求较高的情况下，可采用多维数据表达嘴部形状。

根据调整向量，调整第一连续型随机变量，使得第一连续型随机变量向调整向量的方向偏移，可以是使得第一连续型随机变量中与调整向量对应的维度的数据与调整向量尽量接近。可在调整第一连续型随机变量的同时，限定调整后的连续型随机变量仍然符合设定分布。

本实施例中，通过调整向量，能够改变脸部动作信息，使得人脸图像呈现于目标语音一致的脸部动作、表情、发音等信息。

在一种实施方式中，调整向量符合预设分布。

调整向量符合预设分布，可以指调整向量的多维数据本身能够拟合成预设分布。或者将调整向量进行维度补全，使得调整向量的维度和第一连续型随机变量的维度相同后，符合预设分布。

本实施例中，调整向量符合预设分布，能够保证根据目标语音的发音要求调整后的脸部图像，仍然能够满足高清以及真实的要求。

本公开实施例还提供一种模型生成方法，如图4所示，包括：

步骤S41：将第四人脸图像输入待训练的人脸驱动模型的人脸编码模型，得到第二人脸图像编码；第二人脸图像编码为符合预设分布的连续型随机变量；

步骤S42：将目标语音输入待训练的人脸驱动模型的语音处理器，得到调整向量；

步骤S43：利用待训练的人脸驱动模型的人脸生成模型，根据调整向量与第二人脸图像编码，生成第五人脸图像；

步骤S44：根据第五人脸图像的脸部动作信息与目标音频，训练语音处理器；

步骤S45：根据训练后的语音处理器，得到训练后的人脸驱动模型。

本实施例中，可以对语音处理器进行单独训练，也可以将语音处理器与人脸编码模型、人脸生成模型进行融合训练。

根据第五人脸图像的脸部动作信息与目标音频，训练语音处理器，可以是根据脸部动作信息与目标音频的符合程度，训练或优化音频处理器，使得音频处理器产生的编码能够使得人脸生成器(人脸生成模型)生成真实、高清且符合目标音频的发音规则的人脸图像。

根据训练后的语音处理器，得到训练后的人脸驱动模型，可以是将语音处理器、人脸生成模型和人脸编码模型进行组合，得到人脸驱动模型。

近几年，很多新潮的内容创作者都在尝试结合一些前沿的技术给大家带来更多的惊喜，例如用一段语音驱动蒙娜丽莎唱歌；又或者创造一个虚拟卡通形象，在直播时通过驱动卡通形象来跟观众互动。而这些创作的背后，都涉及到人脸驱动技术。在语音驱动人脸的过程中，可以给定一段以语音文件的形式存在的说话内容C以及一张人物照片，理想状态下，通过人脸驱动技术，可以得到一段视频，视频的内容是人物照片中的人物在说内容C，且视频任意时刻的人物嘴型都能跟内容C中的同一时刻的声音正确匹配。对于语音驱动人脸而言，对人物进行高质量建模是很复杂的事情，一方面因为大多数视频数据的质量往往参差不齐，很多数据中的人脸都很模糊，导致模型训练的时候无法很好的学习到如何建模高质量人脸；另一方面在语音驱动的过程中，嘴部的一直在运动的，这使得很难对嘴部，包括嘴巴，牙齿等面部组织进行一个稳定的建模，从而导致生成的结果往往嘴部特别模糊，甚至不真实。

通过本公开实施例提供的模型生成方法，在训练人脸驱动模型时，可以将音频编码器与人脸编码模型、人脸生成模型等进行分开训练，从而能够使得音频编码模型更为准确地学习到人脸在发音时的面部组织位置信息，对运动的嘴部或者其它组织、肌肉等的运动状况进行更好的掌握，达到更好的人脸驱动效果。同时，人脸生成模型可以是本公开任意实施例提供的训练后的人脸生成模型，提供随机生成的高清真实人脸图像，从而在训练如何生成语音驱动信息时，模型能够学习到足够清晰且真是的脸部信息。

本公开实施例还提供一种模型生成方法，如图5所示，包括：

步骤S51：将第三连续型随机变量输入待训练的人脸生成模型，生成第六人脸图像，第三连续型随机变量符合预设分布；

步骤S52：根据第六人脸图像与参照人脸图像的清晰度差异和真实性差异，训练待训练的人脸生成模型，得到人脸生成模型。

本实施例中，参照人脸图像可以是与第六人脸图像在相貌特征方面不相同的人脸图像。

根据第六人脸图像与参照人脸图像的清晰度差异和真实性差异，训练待训练的人脸生成模型，可以是根据第六人脸图像和参照人脸图像之间的清晰度差异和真实性差异，对待训练的人脸生成模型中的参数或者结构进行调整，直到第六人脸图像和参照人脸图像之间的清晰度和真实性差异处于设定范围内为止。

本实施例中，通过对待训练的人脸生成模型的训练，使得人脸生成模型能够生成清晰度和真实性较高的人脸图像，从而在驱动人脸的过程中，生成的人脸驱动图像能够提供充分且真实的嘴部、脸部肌肉等信息，有利于产生真实、高清的人脸驱动图像。

在一种具体实施方式中，可在训练后的人脸生成模型的基础上，进一步训练人脸驱动模型。

本公开实施例还提供一种模型生成方法，如图6所示，包括：

步骤S61：将第四连续型随机变量输入人脸生成模型，得到第七人脸图像；

步骤S62：利用待训练的人脸编码模型，对第七人脸图像进行编码，得到第三人脸图像编码；第三人脸图像编码与第四连续型随机变量的维度相同；

步骤S63：根据第三人脸图像编码与第四连续型随机变量的差异，训练待训练的人脸编码模型，得到人脸编码模型。

本实施例中，人脸生成模型可以是待训练的人脸生成模型，也可以是训练后得到的人脸生成模型。

本实施例中，通过对待训练的人脸编码器的训练，使得训练得到的编码模型能够执行人脸生成模型的反向操作，即根据人脸图像得到符合设定分布、且维度与获得人脸图像的原始向量维度相同的编码(或者连续型随机变量)。人脸编码器可以相当于其它实施例中的人脸编码模型。

在一种实施方式中，训练编码模型时所使用的人脸生成模型为本公开任意一项实施例提供的模型生成方法所训练得到的。

本实施例中，将编码模型和人脸生成模型进行分开训练，有利于学习到稳定的人脸生成功能和人脸图像编码功能。

本实施例中，能够将人脸生成模型和人脸编码模型与模型的驱动部分进行分开训练，有助于模型学习到脸部组织随着语音运动的准确的信息。

在一种实施方式中，如图7所示，将目标语音输入待训练的人脸驱动模型的语音处理器，得到调整向量，包括：

步骤S71：将目标语音输入语音处理器的语音编码器，得到目标语音编码；

步骤S72：将目标语音编码输入语音处理器的映射网络进行调整，使得调整后的目标语音编码符合预设分布；

步骤S73：将调整后的目标语音编码作为调整向量。

在一种可能的实现方式中，映射网络可以是固定结构，也可以在语音编码器进行训练的过程中同时进行参数优化。

本实施例中，将目标语音编码输入语音处理器的映射网络进行调整，使得调整后的目标语音编码符合预设分布，从而调整后的目标语音的编码能够被人脸生成器转化为真实且高清的脸部图像信息。

在本公开一种示例中，人脸驱动模型的训练过程可以分为两个部分，高清人脸先验模型的训练和基于先验信息的人脸驱动模型的训练。

通过训练高清人脸先验模型(即前述实施例中所提到的人脸生成模型)得到能够生成真实高清人脸的人脸生成模型。通过对人脸大数据的研究发现，世界上人脸特征的分布符合正态分布或高斯分布的特定。在本示例中，如图8所示，从一个高斯分布中随机采样得到一个隐编码w，隐编码w的维度可以为1×512。在此基础上，通过人脸生成器81生成出一张具有随机的人脸特征的人脸图片。人脸生成器81可以是其它实施例中的人脸生成模型。

本示例中，仍然参照图8，人脸生成器81可以预先通过高清人脸数据，以及人脸判别器82进行监督，即采用真实人类的人脸图像和待训练的人脸生成器81生成的图像进行对比，通过二分类的方式产生对比结果，根据对比结果对待训练的人脸生成器81进行对抗训练，最终使得训练得到的人脸生成器81生成出来的结果是高清且真实的。

本示例中，仍然参照图8，基于人脸生成器81，还可以训练一个可以将人脸图片压缩为隐编码的人脸编码器83，该人脸编码器83可以用于执行人脸生成器的逆向操作，将图片转换为隐编码。人脸编码器83可以是其它实施例中的人脸编码模型。

在本示例的一种具体可能的实现方式中，仍然参照图8，人脸编码器83可以与人脸生成器81同时训练得到。在人脸生成器81生成出人脸图后，可以通过人脸编码器83对图片重新进行编码，获得眼部、嘴型、肌肉等面部特征，得到隐编码w’,再通过原始采样得到的编码w对w’进行监督，让w’和w能共享同一个分布，也可以在监督时是w’和w尽可能地保持一致。从而根据人脸编码器83生成的编码w’，人脸生成器81能重建出人脸。

在图8的示例的基础上，可以得到一个能将人脸图片压缩成隐码的人脸编码器，以及能够通过隐码生成高清人脸的生成器。后续可以利用这两个训练后的模型来训练人脸驱动模型。

训练基于语音驱动的人脸模型时，可以利用训练后的人脸生成器和人脸编码器作为先验模型，来提供高清人脸的先验信息。如图9所示，可以通过人脸编码器91将人脸编码成隐向量k。通过一个语音编码器92对用于驱动人脸图像的语音内容(相当于前述实施例中的目标语音)进行编码，并通过一个映射网络93，将语音内容的编码结果映射成deltak。

在一种具体可能的实现方式中，仍然参照图9，语音内容的编码结果映射成deltak的维度与人脸生成器94所输入的向量维度和编码器输出的向量维度相同。

例如，仍然参照图9，在生成人脸时，将1×512维向量(相当于前述实施例中的连续型随机变量)输入人脸生成器94得到人脸图像，通过人脸编码器91将人脸图像进行编码转换为1×512维向量。那么，语音编码器92根据语音内容进行编码，并通过映射网络93得到的delta k也可以为1×512维向量，其中与脸部发音相关的组织的维度的数字可以与语音内容相关，其余维度的数字可以为0。

本示例中的deltak可以看作一个条件向量，用来修改原始的k，使得k往与条件向量对应的条件的方向偏移。更具体而言，本示例的语音编码器用语音信息来作为一个条件，生成调整向量，调整向量用于修改人脸图片的信息(例如唇形等)，从而使得最后生成的人脸图像能够跟语音内容匹配上。最终deltak+k的结果会被送入到已经训练好的人脸生成器94中，生成出新的人脸图片。

在利用语音内容进行训练的过程中，人脸编码器91和人脸生成器94的参数都可以固定不变，只通过音频同步判别器95根据人脸生成器94生成的人脸原始图像和语音内容驱动后产生的人脸图像计算损失值，训练图9中所示的语音编码器92和映射网络93。

由于人脸生成器是预先训练好的高清模型，基于之前学到的先验知识，只要输入人脸生成器的隐码是符合k的数据分布，则能保证生成的人脸是高清且真实的。由于语音编码器得到的结果大概率并不能和k共享一个数据空间分布，从而可能导致语音编码并不能和k有意义的进行融合，因此本示例采用映射网络对语音编码器生成的语音内容的编码进行映射，将语音内容的编码重映射到k的分布空间中，从而使得delta k+k具有意义，能够生成真实高清的脸部动作画面。

本示例中，通过对人脸生成器、人脸编码器、语音编码器、映射网络等进行分别训练，可实现通过语音驱动的高清人脸视频生成。人脸生成器训练过程中，只需要人脸生成器学习如何生成高清人脸，给人脸驱动模型提供先验知识，去降低人脸驱动模型对高清人脸的建模难度。在此基础上，通过语音内容作为条件，将语音内容的编码并重映射至服从人脸编码器输入的数据空间分布中，与人脸隐码进行结合，从而改变人脸信息，达到驱动的效果。

本公开实施例还提供一种图像处理装置，如图10所示，包括：

第一人脸图像生成模块101，用于生成第一人脸图像；第一人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内；

第二人脸图像生成模块102，用于根据用于驱动第一人脸图像的目标语音，调整第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合目标语音发音规则的第二人脸图像；

驱动模块103，用于将第二人脸图像作为目标语音驱动后的人脸图像。

在一种实施方式中，如图11所示，第一人脸图像生成模块包括：

第一随机变量生成单元111，用于获得多个维度的第一连续型随机变量，第一连续型随机变量符合设定分布，设定分布的连续型随机变量的全集对应真实人脸的脸部特征全集；

第一随机变量转化单元112，用于根据预设的随机变量与人脸图像的对应关系，以及第一连续型随机变量，生成第一人脸图像。

在一种实施方式中，预设的随机变量与人脸图像的对应关系的生成过程包括：

获得多个维度的第二连续型随机变量，第二连续型随机变量符合设定分布；

根据第二连续型随机变量，生成第三人脸图像；

在第三人脸图像和参照人脸图像之间的清晰度差异或真实性差异大于设定范围的情况下，重复执行根据第二连续型随机变量，生成第三人脸图像的步骤，直至第三人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内。

在一种实施方式中，根据第三人脸图像和参照人脸图像，生成对应关系，包括：

对第三人脸图像进行编码，得到第一人脸图像编码；第一人脸图像编码与第一连续型随机变量的维度相同；

调整第一人脸图像编码，使得调整后的第一人脸图像编码符合设定分布；

根据调整后的第一人脸图像编码和第三人脸图像，确定对应关系。

在一种实施方式中，如图12所示，第二人脸图像生成模块包括：

调整向量单元121，用于根据目标语音，生成调整向量；调整向量对应第一连续型随机变量中至少一个与脸部动作信息对应的维度；

调整单元122，用于根据调整向量，调整第一连续型随机变量，使得第一连续型随机变量向调整向量的方向偏移。

在一种实施方式中，调整向量符合预设分布。

本公开实施例还提供一种模型生成装置，如图13所示，包括：

第一输入模块131，用于将第四人脸图像输入待训练的人脸驱动模型的人脸编码模型，得到第二人脸图像编码；第二人脸图像编码为符合预设分布的连续型随机变量；

第二输入模块132，用于将目标语音输入待训练的人脸驱动模型的语音处理器，得到调整向量；

第一输出模块133，用于利用待训练的人脸驱动模型的人脸生成模型，根据调整向量与第二人脸图像编码，生成第五人脸图像；

第一训练模块134，用于根据第五人脸图像的脸部动作信息与目标音频，训练语音处理器；

第二训练模块135，用于根据训练后的语音处理器，得到训练后的人脸驱动模型。

在一种实施方式中，如图14所示，模型生成装置还包括：

第三输入模块141，用于将第三连续型随机变量输入待训练的人脸生成模型，生成第六人脸图像，第三连续型随机变量符合预设分布；

第三训练模块142，用于根据第六人脸图像与参照人脸图像的清晰度差异和真实性差异，训练待训练的人脸生成模型，得到人脸生成模型。

在一种实施方式中，如图15所示，模型生成装置还包括：

第四输入模块151，用于将第四连续型随机变量输入人脸生成模型，得到第七人脸图像；

第二输出模块152，用于利用待训练的人脸编码模型，对第七人脸图像进行编码，得到第三人脸图像编码；第三人脸图像编码与第四连续型随机变量的维度相同；

第四训练模块153，用于根据第三人脸图像编码与第四连续型随机变量的差异，训练待训练的人脸编码模型，得到人脸编码模型。

在一种实施方式中，如图16所示，第二输入模块包括：

目标语音编码单元161，用于将目标语音输入语音处理器的语音编码器，得到目标语音编码；

映射单元162，语音将目标语音编码输入语音处理器的映射网络进行调整，使得调整后的目标语音编码符合预设分布；

调整向量单元163，用于将调整后的目标语音编码作为调整向量。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图17示出了可以用来实施本公开的实施例的示例电子设备170的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图17所示，设备170包括计算单元171，其可以根据存储在只读存储器(ROM)172中的计算机程序或者从存储单元178加载到随机访问存储器(RAM)173中的计算机程序，来执行各种适当的动作和处理。在RAM 173中，还可存储设备170操作所需的各种程序和数据。计算单元171、ROM 172以及RAM 173通过总线174彼此相连。输入/输出(I/O)接口175也连接至总线174。

设备170中的多个部件连接至I/O接口175，包括：输入单元176，例如键盘、鼠标等；输出单元177，例如各种类型的显示器、扬声器等；存储单元178，例如磁盘、光盘等；以及通信单元179，例如网卡、调制解调器、无线通信收发机等。通信单元179允许设备170通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元171可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元171的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元171执行上文所描述的各个方法和处理，例如图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元178。在一些实施例中，计算机程序的部分或者全部可以经由ROM 172和/或通信单元179而被载入和/或安装到设备170上。当计算机程序加载到RAM 173并由计算单元171执行时，可以执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元171可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

获得多个维度的第一连续型随机变量，所述第一连续型随机变量符合设定分布，所述设定分布的连续型随机变量的全集对应真实人脸的脸部特征全集；

根据预设的随机变量与人脸图像的对应关系，以及所述第一连续型随机变量，生成第一人脸图像；所述第一人脸图像和参照人脸图像之间的清晰度差异和真实性差异在设定范围内；

根据用于驱动所述第一人脸图像的目标语音，调整所述第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合所述目标语音发音规则的第二人脸图像；

将所述第二人脸图像作为所述目标语音驱动后的人脸图像。

2.根据权利要求1所述的方法，其中，所述预设的随机变量与人脸图像的对应关系的生成过程包括：

获得多个维度的第二连续型随机变量，所述第二连续型随机变量符合所述设定分布；

根据所述第二连续型随机变量，生成第三人脸图像；

在所述第三人脸图像和所述参照人脸图像之间的清晰度差异或真实性差异大于设定范围的情况下，重复执行所述根据所述第二连续型随机变量，生成第三人脸图像的步骤，直至所述第三人脸图像和所述参照人脸图像之间的清晰度差异和真实性差异在设定范围内。

3.根据权利要求2所述的方法，其中，所述根据所述第三人脸图像和所述参照人脸图像，生成所述对应关系，包括：

对所述第三人脸图像进行编码，得到第一人脸图像编码；所述第一人脸图像编码与所述第一连续型随机变量的维度相同；

调整所述第一人脸图像编码，使得调整后的第一人脸图像编码符合设定分布；

根据调整后的第一人脸图像编码和第三人脸图像，确定所述对应关系。

4.根据权利要求1-3中任意一项所述的方法，其中，所述根据用于驱动所述第一人脸图像的目标语音，调整所述第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合所述目标语音发音规则的第二人脸图像，包括：

根据所述目标语音，生成调整向量；所述调整向量对应所述第一连续型随机变量中至少一个与所述脸部动作信息对应的维度；

根据所述调整向量，调整所述第一连续型随机变量，使得所述第一连续型随机变量向所述调整向量的方向偏移。

5.根据权利要求4所述的方法，其中，所述调整向量符合预设分布。

6.一种模型生成方法，包括：

将第四人脸图像输入待训练的人脸驱动模型的人脸编码模型，得到第二人脸图像编码；所述第二人脸图像编码为符合预设分布的连续型随机变量；

利用所述待训练的人脸驱动模型的人脸生成模型，根据所述调整向量与所述第二人脸图像编码，生成第五人脸图像；

根据所述第五人脸图像的脸部动作信息与目标音频，训练所述语音处理器；

根据训练后的语音处理器，得到训练后的人脸驱动模型。

7.根据权利要求6所述的方法，其中，所述方法还包括：

将第三连续型随机变量输入待训练的人脸生成模型，生成第六人脸图像，所述第三连续型随机变量符合预设分布；

根据所述第六人脸图像与参照人脸图像的清晰度差异和真实性差异，训练所述待训练的人脸生成模型，得到所述人脸生成模型。

8.根据权利要求6或7所述的方法，其中，所述方法还包括：

将第四连续型随机变量输入人脸生成模型，得到第七人脸图像；

利用待训练的人脸编码模型，对所述第七人脸图像进行编码，得到第三人脸图像编码；所述第三人脸图像编码与所述第四连续型随机变量的维度相同；

根据所述第三人脸图像编码与第四连续型随机变量的差异，训练所述待训练的人脸编码模型，得到人脸编码模型。

9.根据权利要求6或7所述的方法，其中，所述将目标语音输入待训练的人脸驱动模型的语音处理器，得到调整向量，包括：

将所述目标语音输入所述语音处理器的语音编码器，得到目标语音编码；

将所述目标语音编码输入所述语音处理器的映射网络进行调整，使得调整后的目标语音编码符合预设分布；

将所述调整后的目标语音编码作为所述调整向量。

10.一种图像处理装置，包括：

第一人脸图像生成模块，用于获得多个维度的第一连续型随机变量，所述第一连续型随机变量符合设定分布，所述设定分布的连续型随机变量的全集对应真实人脸的脸部特征全集；

第二人脸图像生成模块，用于根据用于驱动所述第一人脸图像的目标语音，调整所述第一人脸图像中与发音相关的脸部动作信息，生成脸部组织位置符合所述目标语音发音规则的第二人脸图像；

驱动模块，用于将所述第二人脸图像作为所述目标语音驱动后的人脸图像。

11.根据权利要求10所述的装置，其中，所述预设的随机变量与人脸图像的对应关系的生成过程包括：

根据所述第二连续型随机变量，生成第三人脸图像；

12.根据权利要求11所述的装置，其中，所述根据所述第三人脸图像和所述参照人脸图像，生成所述对应关系，包括：

13.根据权利要求10-12中任意一项所述的装置，其中，所述第二人脸图像生成模块包括：

调整向量单元，用于根据所述目标语音，生成调整向量；所述调整向量对应所述第一连续型随机变量中至少一个与所述脸部动作信息对应的维度；

调整单元，用于根据所述调整向量，调整所述第一连续型随机变量，使得所述第一连续型随机变量向所述调整向量的方向偏移。

14.根据权利要求13所述的装置，其中，所述调整向量符合预设分布。

15.一种模型生成装置，包括：

第一输入模块，用于将第四人脸图像输入待训练的人脸驱动模型的人脸编码模型，得到第二人脸图像编码；所述第二人脸图像编码为符合预设分布的连续型随机变量；

第一输出模块，用于利用所述待训练的人脸驱动模型的人脸生成模型，根据所述调整向量与所述第二人脸图像编码，生成第五人脸图像；

第一训练模块，用于根据所述第五人脸图像的脸部动作信息与目标音频，训练所述语音处理器；

16.根据权利要求15所述的装置，其中，所述装置还包括：

第三输入模块，用于将第三连续型随机变量输入待训练的人脸生成模型，生成第六人脸图像，所述第三连续型随机变量符合预设分布；

第三训练模块，用于根据所述第六人脸图像与参照人脸图像的清晰度差异和真实性差异，训练所述待训练的人脸生成模型，得到所述人脸生成模型。

17.根据权利要求15或16所述的装置，其中，所述装置还包括：

第四输入模块，用于将第四连续型随机变量输入人脸生成模型，得到第七人脸图像；

第二输出模块，用于利用待训练的人脸编码模型，对所述第七人脸图像进行编码，得到第三人脸图像编码；所述第三人脸图像编码与所述第四连续型随机变量的维度相同；

第四训练模块，用于根据所述第三人脸图像编码与第四连续型随机变量的差异，训练所述待训练的人脸编码模型，得到人脸编码模型。

18.根据权利要求15或16所述的装置，其中，所述第二输入模块包括：

目标语音编码单元，用于将所述目标语音输入所述语音处理器的语音编码器，得到目标语音编码；

映射单元，语音将所述目标语音编码输入所述语音处理器的映射网络进行调整，使得调整后的目标语音编码符合预设分布；

调整向量单元，用于将所述调整后的目标语音编码作为所述调整向量。

19. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。