CN116110099A

CN116110099A - 头像生成的方法和头像更换的方法

Info

Publication number: CN116110099A
Application number: CN202310086661.XA
Authority: CN
Inventors: 赵广伟; 李吉祥; 王昊; 林晓春; 刘慧慧; 于天宝; 贠挺; 齐冰洁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-05-12
Anticipated expiration: 2043-01-19
Also published as: CN116110099B

Abstract

本公开提供了头像生成的方法和头像更换的方法，本公开涉及图像处理技术领域，尤其涉及人工智能、深度学习、云计算等技术领域。具体实现方案为：根据目标人脸的人脸图像，确定第一文本描述信息；其中，第一文本描述信息至少用于表征人脸图像的人脸特征；确定人脸图像的第一图像向量；利用目标物种对应的预训练的文生图模型，根据第一图像向量和第一文本描述信息，生成目标人脸对应的目标物种头像；其中，目标物种头像包含有与人脸特征对应的面部特征。根据本公开的技术，通过将目标人脸的人脸特征迁移至目标物种，可以生成目标人脸专属的跨物种头像。

Description

头像生成的方法和头像更换的方法

技术领域

本公开涉及图像处理技术领域，尤其涉及人工智能、深度学习、云计算等技术领域。

背景技术

几乎当前所有的应用程序，都可以实现用户头像的自定义更改，该功能能够给用户带来更好的使用体验。然而，当前的头像更改方式较为固定，一种方式是给定一些默认图像供用户作为头像，另一方式是将用户上传的图片作为头像。

发明内容

本公开提供了一种头像生成的方法和头像更换的方法。

根据本公开的一方面，提供了一种头像生成的方法，包括：

根据目标人脸的人脸图像，确定第一文本描述信息；其中，第一文本描述信息至少用于表征人脸图像的人脸特征；

确定人脸图像的第一图像向量；以及

利用目标物种对应的预训练的文生图模型，根据第一图像向量和第一文本描述信息，生成目标人脸对应的目标物种头像；其中，目标物种头像包含有与人脸特征对应的面部特征。

根据本公开的另一方面，提供了一种头像更换的方法，应用于终端的应用程序，包括：

响应于用户的头像更换指令，确定用户需要转换的目标物种和用户上传的人脸图像；以及

根据人脸图像和目标物种，利用本公开任一实施例的头像生成的方法，生成用户待更换的目标物种头像；其中，待更换的目标物种头像包含有与人脸特征对应的面部特征。

根据本公开的另一方面，提供了一种头像生成的装置，包括：

第一确定模块，用于根据目标人脸的人脸图像，确定第一文本描述信息；其中，第一文本描述信息至少用于表征人脸图像的人脸特征；

第二确定模块，用于确定人脸图像的第一图像向量；以及

第一生成模块，用于利用目标物种对应的预训练的文生图模型，根据第一图像向量和第一文本描述信息，生成目标人脸对应的目标物种头像；其中，目标物种头像包含有与人脸特征对应的面部特征。

根据本公开的另一方面，提供了一种头像更换的装置，应用于终端的应用程序，包括：

响应模块，用于响应于用户的头像更换指令，确定用户需要转换的目标物种和用户上传的人脸图像；以及

第二生成模块，用于根据人脸图像和目标物种，利用本公开任一实施例的头像生成的方法，生成用户待更换的目标物种头像；其中，待更换的目标物种头像包含有与人脸特征对应的面部特征。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

根据本公开的技术，通过将目标人脸的人脸特征迁移至目标物种，可以生成目标人脸专属的跨物种头像。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的头像生成的方法的流程示意图；

图2是根据本公开实施例的头像生成的方法的应用示意图；

图3是根据本公开实施例的头像生成的方法的流程示意图；

图4是根据本公开实施例的头像生成的方法的流程示意图；

图5是根据本公开实施例的头像更换的方法的流程示意图；

图6是根据本公开实施例的头像生成的装置的示意图；

图7是根据本公开实施例的头像更换的装置的示意图；

图8是用来实现本公开实施例的头像生成的方法和/或头像更换的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开实施例提供了一种头像生成的方法，包括：

步骤S101：根据目标人脸的人脸图像，确定第一文本描述信息。其中，第一文本描述信息至少用于表征人脸图像的人脸特征。

步骤S102：确定人脸图像的第一图像向量。以及

步骤S103：利用目标物种对应的预训练的文生图模型，根据第一图像向量和第一文本描述信息，生成目标人脸对应的目标物种头像。其中，目标物种头像包含有与人脸特征对应的面部特征。

根据本公开实施例，需要说明的是：

本公开实施例的头像生成的方法可以应用于应用程序(app，application)的换头像场景。目前几乎所有的app在用户登录时，均可以实现对应用程序默认配置给用户的用户头像进行更换。通过本公开实施例的方法，可以使用户能够更换一张包含有用户自身人脸特征的跨物种的专属头像。本公开实施例的头像生成的方法也可以应用于用户的图片美化或图片修图场景。当用户不想在照片中显示自己的真实人脸，但又想在照片中体现自己存在的情况下，可以通过本公开实施例的方法，在照片中将用户本人的头部区域的图像(即头像)更换为包含有用户自身人脸特征的跨物种头像。

人脸图像，可以理解为图像中仅包含人脸区域的图像，也可以理解为图像中绝大部分区域被人脸区域所占的图像。人脸图像可以是直接对目标人脸进行图像采集所得到的图像，也可以是对包含有目标人脸的图像进行图像分割裁剪所得到的图像。

第一文本描述信息(text prompt)，至少包含有与人脸图像所表征的人脸特征相关的信息。第一文本描述信息可以是基于人脸图像中的一个或多个人脸特征所生成的信息，通过这些人脸特征组合成一段文本描述信息来指导文生图模型生成具有目标人脸的人脸特征的目标物种的头像。如图2中左侧的人脸图像所示，人脸特征包含有该人脸为男性的性别特征、该人脸的嘴部为微笑的表情特征、该人脸带有眼镜的面部配饰特征、该人脸为斜刘海的毛发特征。基于图2中左侧的人脸图像所示出的这些人脸特征，生成的第一文本描述信息可以为“该人脸为微笑的男性，留有斜刘海发型，戴有眼镜”。第一文本描述信息中除了包含有与人脸特征相关的信息外，还可以包含有与要生成的目标物种头像有关的信息，例如，包含有头像风格信息，根据头像风格信息可以确定所需生成的目标物种头像的画风和图像清晰度等。

人脸图像中的人脸特征，可以利用深度学习技术从人脸图像中提取。具体从人脸图像中提取人脸特征的方式，可以采用现有技术中的任意方式，在此不做具体限定。

人脸特征可以包括面部配饰特征、毛发特征、肤色特征、眼部特征、表情特征、性别特征、年龄特征和脸型特征中的至少一种特征。其中，面部配饰特征可以包括：是否戴眼镜、眼镜形状(例如，方形眼镜、圆形眼镜、椭圆形眼镜等)、眼镜类型(例如，护目镜、墨镜、普通眼镜等)、是否戴耳环、耳环形状等。毛发特征可以包括：是否有头发、是否有刘海、头发长短、头发颜色、是否有胡子、胡子形状、胡子位置等。肤色特征包括：皮肤颜色(例如，肤色黑、肤色黄、肤色白等)。眼部特征包括：大眼睛、小眼睛、睁眼、闭眼等。表情特征包括：无表情、高兴表情(例如，微笑、大笑)、难过表情等。性别特征：性别男女。年龄特征：儿童、青年、中年、老年等。脸型特征：方脸、圆脸、尖脸等。

第一图像向量，可以理解为基于人脸图像所提取的用于表征人脸图像的潜在表示。

目标物种，可以理解为动物和/或植物。动物可以包括兔子、猫、狗、鸟等。植物可以包括花朵、树木等。

目标物种对应的预训练的文生图模型，可以理解为能够生成目标物种的头像的文生图模型。文生图模型可以采用现有技术中能够基于文本描述生成图像的任一模型，在此不做具体限定。例如，文生图模型可以采用跨模态生成模型(ernie-vilg)、稳定扩散模型(stable diffusion)、第一代图像生成模型(DALLE)和第二代图像生成模型(DALLE-2)中的任一个模型。

目标人脸对应的目标物种头像，可以理解为将目标人脸的人脸特征与目标物种的面部特征结合后，所生成的既包含有人脸特征又保留有物种自身特征的跨物种头像。如图2所示，图2中右侧的图像即为目标人脸对应的一个非常可爱的个人专属兔子头像，该目标物种头像中既包含有兔子(目标物种)的面部特征，也保留有图2中左侧的人脸图像的人脸特征(戴眼镜、头发有刘海、微笑、大眼睛)。

根据本公开实施例的技术，可以实现将用户给定的目标人脸的人脸图像片和特定物种的图像结合，生成与用户的人脸相似并且具有物种自身特征的跨物种头像。利用本公开实施例的技术，可以个性化的为每个用户生成跨物种的头像，可以使用户体验到AI(Artificial Intelligence，人工智能)生成图像的乐趣，提升用户的娱乐趣味性，进而提升具备该头像生成功能的app产品的核心竞争力，丰富产品功能。同时，本公开实施例的技术，通过将基于人脸图像生成的第一文本描述信息和第一图像向量输入文生图模型，可以更好的指导文生图模型生成具有目标人脸的人脸特征的目标物种的头像，能够更好地将人脸的特征迁移到目标物种的身上，使得生成的目标物种头像与用户的人脸视觉上更加相似。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103，其中，步骤S101：根据目标人脸的人脸图像，确定第一文本描述信息，包括：

步骤S1011：根据目标人脸的人脸图像，确定人脸特征。

步骤S1012：根据人脸特征，确定第一文本描述信息。

根据本公开实施例，需要说明的是：

人脸特征可以基于现有的任何人脸特征属性的提取模型从人脸图像中得到。例如，可以采用densenet(密集连接的卷积网络)分类模型。

根据本公开实施例的技术，根据人脸特征生成第一文本描述信息，可以使得第一文本描述信息在输入文生图模型时，更好的指导文生图模型生成具有目标人脸的人脸特征的目标物种的头像。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103、以及步骤S1011和步骤S1012，其中，步骤S1011：根据目标人脸的人脸图像，确定人脸特征之前，还包括：

对目标图像进行人脸识别，确定目标图像中的目标人脸的位置信息。

根据位置信息，对目标图像进行裁剪预处理，以得到与目标人脸对应的人脸图像。

根据本公开实施例，需要说明的是：

目标图像，可以理解为直接对目标人脸进行图像采集所得到的图像，也可以是对包含有目标人脸的图像。

位置信息，可以理解为目标人脸所占的图像区域在目标图像中的具体坐标位置。例如，位置信息包含有目标人脸的轮廓区域对应的各像素点的坐标信息。又如，位置信息包含有目标人脸对应的全部像素点的坐标信息。

裁剪预处理的具体方式，可以采用现有技术中任意的人脸裁剪分割技术，在此不做具体限定，能够从目标图像中提取出仅包含有目标人物的人脸图像即可。例如，采用人脸裁剪分割模型BiSeNet(Bilateral Segmentation Network，双向分割网络)对目标图像进行裁剪预处理。通过人脸裁剪分割模型可以将人脸的各个部分识别并分割出来，比如头发、眼睛、鼻子和嘴巴等，最终生成只保留有人脸部分的人脸图像。

根据本公开实施例的技术，通过对目标图像进行裁剪预处理，可以得到只包含有人脸的图像，这样可以使得在提取人脸特征时有更好的准确率，避免图像中的背景信息对人脸特征提取产生干扰。通过裁剪预处理，可以使得文生图模型最终生成更高质量的目标物种头像。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103、以及步骤S1011和步骤S1012，其中，步骤S1011：根据目标人脸的人脸图像，确定人脸特征，包括：

利用人脸特征提取模型，对目标人脸的人脸图像进行特征提取，以确定人脸特征。

根据本公开实施例，需要说明的是：

根据本公开实施例的技术，通过对人脸图像进行特征提取，可以实现根据人脸特征生成第一文本描述信息，使得第一文本描述信息在输入文生图模型时，更好的指导文生图模型生成具有目标人脸的人脸特征的目标物种的头像。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103、以及步骤S1011和步骤S1012，其中，步骤S1012：根据人脸特征，确定第一文本描述信息，包括：

步骤S10121：确定人脸特征的语义信息。

步骤S10122：确定目标物种的物种类别信息。

步骤S10123：根据语义信息和物种类别信息，确定第一文本描述信息。

根据本公开实施例，需要说明的是：

语义信息，可以理解为表示人脸特征含义的信息。

物种类别信息，用于表征具体的物种。例如，根据物种类别信息可以确定目标物种为兔子、猫、狗等等。

本公开实施例的第一文本描述信息中，不仅包含有与人脸特征关联的描述信息，还包含有欲生成的目标物种头像的相关信息。

根据本公开实施例的技术，根据人脸特征的语义信息和物种类别信息生成第一文本描述信息，可以使得第一文本描述信息在输入文生图模型时，更好的指导文生图模型生成具有目标人脸的人脸特征的目标物种的头像。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103、步骤S1011和步骤S1012、步骤S10121至步骤S10123，其中，步骤S10123：根据语义信息和物种类别信息，确定第一文本描述信息，包括：

确定所需生成的目标物种头像的头像风格信息。

根据语义信息、物种类别信息和头像风格信息，确定第一文本描述信息。

根据本公开实施例，需要说明的是：

头像风格信息可以包括图像清晰度信息和/或图像画风信息。图像清晰度信息包括但不限于4k(4096×2160的像素分辨率)、HQ(High Quality，高等级质量)或8K(7680×4320的像素分辨率)。图像画风信息包括但不限于digital portrait(数字画像)、3D(Dimensions，维)渲染。

根据本公开实施例的技术，根据人脸特征的语义信息、物种类别信息和头像风格信息生成第一文本描述信息，可以使得第一文本描述信息在输入文生图模型时，更好的指导文生图模型生成符合用户需求的且具有目标人脸的人脸特征的目标物种的头像。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103，其中，步骤S102：确定人脸图像的第一图像向量，包括：

利用变分自编码器(VAE，Variational Auto-Encoder)，将人脸图像编码为第一图像向量。

根据本公开实施例，需要说明的是：

第一图像向量为人脸图像在低维空间的向量表示。

根据本公开实施例的技术，通过变分自编码器可以准确的获取人脸图像的第一图像向量。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103，其中，步骤S103：利用目标物种对应的预训练的文生图模型，根据第一图像向量和第一文本描述信息，生成目标人脸对应的目标物种头像，包括：

步骤S1031：利用目标物种对应的预训练的文生图模型中的跨模态模型，将第一文本描述信息转换为第一文本向量。

步骤S1032：利用预训练的文生图模型中的扩散模型，根据第一文本向量和第一图像向量，生成目标人脸对应的目标物种头像。

根据本公开实施例，需要说明的是：

跨模态模型可以采用现有技术中任何的能够实现将文本跨模态至图像的模型，在此不做具体限定。例如可以采用CLIP模型(Contrastive Language-Image Pre-training，对比文本-图像预训练模型)。

扩散模型可以采用现有技术中任何的模型，在此不做具体限定。

根据本公开实施例的技术，在第一文本向量的指导下，通过扩散模型来生成目标物种头像的潜在表示，从而准确的生成目标人脸对应的目标物种头像。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103、以及步骤S1031至步骤S1032，其中，步骤S1031：利用目标物种对应的预训练的文生图模型中的跨模态模型，将第一文本描述信息转换为第一文本向量，包括：

利用目标物种对应的预训练的文生图模型中的跨模态模型的文本编码器，将第一文本描述信息编码为第一文本向量。

根据本公开实施例的技术，通过跨模态的文本编码器，能够将第一文本描述信息中的人脸特征的文本语义信息和特定物种图像的信息结合起来，从而更好地将人脸特征组成的文本描述融合到目标物种头像的生成过程中。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103、以及步骤S1031至步骤S1032，其中，步骤S1032：利用预训练的文生图模型中的扩散模型，根据第一文本向量和第一图像向量，生成目标人脸对应的目标物种头像，包括：

步骤S10321：利用预训练的文生图模型中的扩散模型，根据第一文本向量和第一图像向量，生成第二图像向量。

步骤S10322：利用VAE的变分自解码器，对第二图像向量进行解码，生成目标人脸对应的目标物种头像。

根据本公开实施例，需要说明的是：

扩散模型可以基于U-Net(用于二维图像分割的卷积神经网络)构成。

第二图像向量可以理解为人脸特征与目标物种的关联关系在目标物种头像的潜在表示。

根据本公开实施例的技术，利用VAE的变分自解码器，可以将扩散模型不断去噪后的第二图像向量转化为具有人脸属性的特定物种图像。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103、步骤S1031至步骤S1032、以及步骤S10321至步骤S10322，其中，步骤S10321：利用预训练的文生图模型中的扩散模型，根据第一文本向量和第一图像向量，生成第二图像向量，包括：

将第一图像向量与第一高斯噪声向量混合，得到混合向量。

利用预训练的文生图模型中的扩散模型，根据第一文本向量和混合向量，生成第二图像向量。

根据本公开实施例，需要说明的是：

第一高斯噪声，可以理解为扩散模型中所使用的随机噪声。

根据本公开实施例的技术，通过在扩散模型中加入第一高斯噪声向量，可以使得扩散模型根据第一文本向量和混合向量，生成更加准确生成人脸特征与目标物种的关联关系在目标物种头像的潜在表示的第二图像向量。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S103，其中，预训练的文生图模型的训练过程，包括：

步骤S104：根据目标物种的物种样本图像，确定第二文本描述信息。其中，第二文本描述信息用于表征目标物种的面部特征。

步骤S105：确定物种样本图像的第三图像向量。

步骤S106：根据第二文本描述信息和第三图像向量，对初始文生图模型进行训练，以得到预训练的文生图模型。

根据本公开实施例，需要说明的是：

物种样本图像的数量可以根据需要进行选择和调整，在此不做具体限定。

第二文本描述信息，至少包含有与物种样本图像所表征的面部特征相关的信息。第二文本描述信息可以是基于物种样本图像中的一个或多个面部特征所生成的信息，通过这些面部特征组合成一段文本描述信息来指导训练初始文生图模型。第二文本描述信息可以为“一个微笑的带有大眼睛的兔子”。

在目标物种为动物的情况下，面部特征可以包括目标物种的眼部特征(大眼睛、小眼睛、睁眼、闭眼等)、目标物种的表情特征(高兴、凶狠、张嘴、呲牙等)、目标物种的性别特征中的至少一种。

面部特征，可以利用深度学习技术从物种样本图像中提取。具体从物种样本图像中提取人脸特征的方式，可以采用现有技术中的任意方式，在此不做具体限定。

第三图像向量，可以理解为基于物种样本图像所提取的用于表征物种样本图像的潜在表示。

初始的文生图模型可以采用现有技术中能够基于文本描述生成图像的任一模型，在此不做具体限定。例如，初始的文生图模型可以采用跨模态生成模型(ernie-vilg)、稳定扩散模型(stable diffusion)、第一代图像生成模型(DALLE)和第二代图像生成模型(DALLE-2)中的任一个模型。

根据本公开实施例的技术，为了建立文本描述信息和目标物种之间的联系，通过输入的物种样本图像和第二文本描述信息对初始的文生图模型进行微调，可以使得训练后得到的预训练的文生图模型在图像和图像对应的文本描述信息这两种模态直接实现跨模态对齐。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S106，其中，步骤S104：根据目标物种的物种样本图像，确定第二文本描述信息，包括：

根据目标物种的物种样本图像，确定目标物种的面部特征。

根据面部特征，确定第二文本描述信息。

根据本公开实施例，需要说明的是：

面部特征可以基于现有的任何面部特征属性的提取模型从物种样本图像中得到。例如，可以采用densenet(密集连接的卷积网络)分类模型。

根据本公开实施例的技术，根据基于面部特征生成第二文本描述信息，可以使得第二文本描述信息在输入初始文生图模型时，更好的指导初始文生图模型进行模型训练。

在一种实施方式中，本公开实施例的头像生成的方法包括步骤S101至步骤S106，其中，步骤S106：根据第二文本描述信息和第三图像向量，对初始文生图模型进行训练，以得到预训练的文生图模型，包括：

利用初始文生图模型的文本编码器，将第二文本描述信息编码为第二文本向量。

利用初始文生图模型的文本编码器，计算第二文本向量和第三图像向量之间的余弦相似度。

根据余弦相似度，对初始文生图模型的文本编码器进行训练。通过优化损失函数，使得第二文本向量和第三图像向量的相似度越大越好。

将第二文本向量、第三图像向量和第二高斯噪声向量输入初始文生图模型的扩散模型，基于马尔可夫链过程，对初始文生图模型的扩散模型进行训练。

根据训练后的文本编码器和训练后的扩散模型，得到预训练的文生图模型。

根据本公开实施例，需要说明的是：

对初始文生图模型的文本编码器进行训练，可以理解为对文本编码器进行微调(Finetune)。为了建立图像的文本描述信息和图像之间的联系，通过输入第二文本向量和第三图像向量在文本编码器型上进行微调，使得文生图模型可以实现在图像和图像对应的文本描述信息这两种模态直接实现跨模态对齐。

对初始文生图模型的扩散模型进行训练，可以理解为对扩散模型进行微调。扩散模型的微调过程包括扩散过程和逆扩散过程，主要是希望扩散模型能够通过输入的第二文本向量和第三图像向量，学习出一组概率分布,根据这个概率分布能够对随机噪声不断去噪，从而恢复原始图，如下图所示：其中，表示随机噪声，表示去噪后的原始图片。扩散过程是不断地对原始输入的物种样本图像添加噪声，使得物种样本图像转为高斯噪声的过程，扩散过程是一个马尔可夫链过程，每次添加的噪声是已知的。扩散模型的训练过程，可以参考现有的扩散模型的训练过程。

根据本公开实施例的技术，微调后的文本到图像的跨模态模型的文本编码器可以更好地将文本描述信息编码为文本向量，用来指导目标物种头像的生成。微调后的扩散模型可以通过将随机噪声(第二高斯噪声向量)不断地去噪，从而生成目标物种风格且具有人的特征属性的头像。

在一个示例中，如图3所示，头像生成的方法，包括：

根据位置信息，对目标图像进行人脸分割裁剪预处理，以得到与目标人脸对应的人脸图像。

根据目标人脸的人脸图像，确定人脸特征。

利用变分自编码器，对人脸图像进行图像编码，得到第一图像向量。

利用目标物种对应的预训练的文生图模型中的跨模态模型的文本编码器，将第一文本描述信息转换为第一文本向量。

利用预训练的文生图模型中的扩散模型，根据第一文本向量和第一图像向量，生成第二图像向量。

利用变分自解码器，对第二图像向量进行解码，生成目标人脸对应的目标物种头像。

在一个示例中，如图4所示，预训练的文生图模型的训练过程，包括：

根据目标物种的少量的物种样本图像，确定第二文本描述信息。

对少量的物种样本图像进行图像编码，确定物种样本图像的第三图像向量。

根据余弦相似度，对初始文生图模型的文本编码器进行训练。

如图5所示，本公开实施例提供了一种头像更换的方法，应用于终端的应用程序，包括：

步骤S501：响应于用户的头像更换指令，确定用户需要转换的目标物种和用户上传的人脸图像。以及

步骤S502：根据人脸图像和目标物种，利用本公开任一实施例的头像生成的方法，生成用户待更换的目标物种头像。其中，待更换的目标物种头像包含有与人脸特征对应的面部特征。

根据本公开实施例，需要说明的是：

用户上传的人脸图像通过拍摄用户的人脸的方式获取，或通过对用户从终端本地选择的历史图像进行裁剪预处理而获取。

终端的应用程序，可以理解为是移动终端上所安装的应用程序，也可以理解为是电脑终端上所安装的应用程序或网页。

在一种实施方式中，本公开实施例的头像更换的方法包括步骤S501和步骤S502，还包括：

确定应用程序中用户的当前头像。

将当前头像替换为待更换的目标物种头像。

根据本公开实施例，需要说明的是：

当前头像，可以理解为应用程序默认为用户配置的头像。

如图6所示，本公开实施例提供了一种头像生成的装置，包括：

第一确定模块610，用于根据目标人脸的人脸图像，确定第一文本描述信息。其中，第一文本描述信息至少用于表征人脸图像的人脸特征。

第二确定模块620，用于确定人脸图像的第一图像向量。以及

第一生成模块630，用于利用目标物种对应的预训练的文生图模型，根据第一图像向量和第一文本描述信息，生成目标人脸对应的目标物种头像。其中，目标物种头像包含有与人脸特征对应的面部特征。

在一种实施方式中，第一确定模块610包括：

第一确定子模块，用于根据目标人脸的人脸图像，确定人脸特征。

第二确定子模块，用于根据人脸特征，确定第一文本描述信息。

在一种实施方式中，第一确定模块610还包括：

第三确定子模块，用于对目标图像进行人脸识别，确定目标图像中的目标人脸的位置信息。

预处理子模块，用于根据位置信息，对目标图像进行裁剪预处理，以得到与目标人脸对应的人脸图像。

在一种实施方式中，第一确定子模块用于：

在一种实施方式中，第二确定子模块用于：

确定人脸特征的语义信息。

确定目标物种的物种类别信息。

根据语义信息和物种类别信息，确定第一文本描述信息。

在一种实施方式中，根据语义信息和物种类别信息，确定第一文本描述信息，包括：

确定所需生成的目标物种头像的头像风格信息。

在一种实施方式中，头像风格信息包括图像清晰度信息和/或图像画风信息。

在一种实施方式中，第二确定模块620用于：

利用变分自编码器，将人脸图像编码为第一图像向量。

在一种实施方式中，第一生成模块630包括：

转换子模块，用于利用目标物种对应的预训练的文生图模型中的跨模态模型，将第一文本描述信息转换为第一文本向量。

生成子模块，用于利用预训练的文生图模型中的扩散模型，根据第一文本向量和第一图像向量，生成目标人脸对应的目标物种头像。

在一种实施方式中，转换子模块用于：

利用目标物种对应的预训练的文生图模型中的跨模态模型的文本编码器，将第一文本描述信息编码为第一文本向量

在一种实施方式中，生成子模块用于：

在一种实施方式中，利用预训练的文生图模型中的扩散模型，根据第一文本向量和第一图像向量，生成第二图像向量，包括：

将第一图像向量与第一高斯噪声向量混合，得到混合向量。

在一种实施方式中，扩散模型基于用于二维图像分割的卷积神经网络构成。

在一种实施方式中，人脸特征包括面部配饰特征、毛发特征、肤色特征、眼部特征、表情特征、性别特征、年龄特征和脸型特征中的至少一种特征。

在一种实施方式中，目标物种包括动物和/或植物。

在一种实施方式中，文生图模型采用跨模态生成模型、稳定扩散模型、第一代图像生成模型和第二代图像生成模型中的任一个模型。

在一种实施方式中，头像生成的装置还包括训练模块，用于：

第四确定子模块，用于根据目标物种的物种样本图像，确定第二文本描述信息。其中，第二文本描述信息用于表征目标物种的面部特征。

第五确定子模块，用于确定物种样本图像的第三图像向量。

训练子模块，用于根据第二文本描述信息和第三图像向量，对初始文生图模型进行训练，以得到预训练的文生图模型。

在一种实施方式中，第四确定子模块用于：

根据目标物种的物种样本图像，确定目标物种的面部特征。

根据面部特征，确定第二文本描述信息。

在一种实施方式中，面部特征至少包括目标物种的眼部特征或目标物种的表情特征。

在一种实施方式中，训练子模块用于：

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

如图7所示，本公开实施例提供了一种头像更换的装置，应用于终端的应用程序，包括：

响应模块710，用于响应于用户的头像更换指令，确定用户需要转换的目标物种和用户上传的人脸图像。以及

第二生成模块720，用于根据人脸图像和目标物种，利用本公开任一实施例的头像生成的方法，生成用户待更换的目标物种头像。其中，待更换的目标物种头像包含有与人脸特征对应的面部特征。

在一种实施方式中，用户上传的人脸图像通过拍摄用户的人脸的方式获取，或通过对用户从终端本地选择的历史图像进行裁剪预处理而获取。

在一种实施方式中，头像更换的装置还包括：

更换模块，用于确定应用程序中用户的当前头像。以及将当前头像替换为待更换的目标物种头像。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如头像生成的方法和/或头像更换的方法。例如，在一些实施例中，头像生成的方法和/或头像更换的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的头像生成的方法和/或头像更换的方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行头像生成的方法和/或头像更换的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种头像生成的方法，包括：

根据目标人脸的人脸图像，确定第一文本描述信息；其中，所述第一文本描述信息至少用于表征所述人脸图像的人脸特征；

确定所述人脸图像的第一图像向量；以及

利用目标物种对应的预训练的文生图模型，根据所述第一图像向量和所述第一文本描述信息，生成所述目标人脸对应的目标物种头像；其中，所述目标物种头像包含有与所述人脸特征对应的面部特征。

2.根据权利要求1所述的方法，其中，根据目标人脸的人脸图像，确定第一文本描述信息，包括：

根据目标人脸的人脸图像，确定人脸特征；

根据所述人脸特征，确定第一文本描述信息。

3.根据权利要求2所述的方法，其中，根据目标人脸的人脸图像，确定人脸特征之前，还包括：

对目标图像进行人脸识别，确定所述目标图像中的目标人脸的位置信息；

根据所述位置信息，对所述目标图像进行裁剪预处理，以得到与所述目标人脸对应的人脸图像。

4.根据权利要求2所述的方法，其中，根据目标人脸的人脸图像，确定人脸特征，包括：

5.根据权利要求2所述的方法，其中，根据所述人脸特征，确定第一文本描述信息，包括：

确定所述人脸特征的语义信息；

确定目标物种的物种类别信息；

根据所述语义信息和所述物种类别信息，确定第一文本描述信息。

6.根据权利要求5所述的方法，其中，根据所述语义信息和所述物种类别信息，确定第一文本描述信息，包括：

确定所需生成的目标物种头像的头像风格信息；

根据所述语义信息、所述物种类别信息和所述头像风格信息，确定第一文本描述信息。

7.根据权利要求6所述的方法，其中，所述头像风格信息包括图像清晰度信息和/或图像画风信息。

8.根据权利要求1所述的方法，其中，确定所述人脸图像的第一图像向量，包括：

利用变分自编码器，将所述人脸图像编码为第一图像向量。

9.根据权利要求1所述的方法，其中，利用目标物种对应的预训练的文生图模型，根据所述第一图像向量和所述第一文本描述信息，生成所述目标人脸对应的目标物种头像，包括：

利用目标物种对应的预训练的文生图模型中的跨模态模型，将所述第一文本描述信息转换为第一文本向量；

利用所述预训练的文生图模型中的扩散模型，根据所述第一文本向量和所述第一图像向量，生成所述目标人脸对应的目标物种头像。

10.根据权利要求9所述的方法，其中，利用目标物种对应的预训练的文生图模型中的跨模态模型，将所述第一文本描述信息转换为第一文本向量，包括：

利用目标物种对应的预训练的文生图模型中的跨模态模型的文本编码器，将所述第一文本描述信息编码为第一文本向量。

11.根据权利要求9所述的方法，其中，利用所述预训练的文生图模型中的扩散模型，根据所述第一文本向量和所述第一图像向量，生成所述目标人脸对应的目标物种头像，包括：

利用所述预训练的文生图模型中的扩散模型，根据所述第一文本向量和所述第一图像向量，生成第二图像向量；

利用变分自解码器，对所述第二图像向量进行解码，生成所述目标人脸对应的目标物种头像。

12.根据权利要求11所述的方法，其中，利用所述预训练的文生图模型中的扩散模型，根据所述第一文本向量和所述第一图像向量，生成第二图像向量，包括：

将所述第一图像向量与第一高斯噪声向量混合，得到混合向量；

利用所述预训练的文生图模型中的扩散模型，根据所述第一文本向量和所述混合向量，生成第二图像向量。

13.根据权利要求11所述的方法，其中，所述扩散模型基于用于二维图像分割的卷积神经网络构成。

14.根据权利要求1至13任一项所述的方法，其中，所述人脸特征包括面部配饰特征、毛发特征、肤色特征、眼部特征、表情特征、性别特征、年龄特征和脸型特征中的至少一种特征。

15.根据权利要求1至13任一项所述的方法，其中，所述目标物种包括动物和/或植物。

16.根据权利要求1至13任一项所述的方法，其中，所述文生图模型采用跨模态生成模型、稳定扩散模型、第一代图像生成模型和第二代图像生成模型中的任一个模型。

17.根据权利要求1至13任一项所述的方法，其中，所述预训练的文生图模型的训练过程，包括：

根据所述目标物种的物种样本图像，确定第二文本描述信息；其中，所述第二文本描述信息用于表征所述目标物种的面部特征；

确定所述物种样本图像的第三图像向量；

根据所述第二文本描述信息和所述第三图像向量，对初始文生图模型进行训练，以得到所述预训练的文生图模型。

18.根据权利要求17所述的方法，其中，根据所述目标物种的物种样本图像，确定第二文本描述信息，包括：

根据所述目标物种的物种样本图像，确定所述目标物种的面部特征；

根据所述面部特征，确定第二文本描述信息。

19.根据权利要求18所述的方法，其中，所述面部特征至少包括所述目标物种的眼部特征或所述目标物种的表情特征。

20.根据权利要求17所述的方法，其中，根据所述第二文本描述信息和所述第三图像向量，对初始文生图模型进行训练，以得到所述预训练的文生图模型，包括：

利用初始文生图模型的文本编码器，将所述第二文本描述信息编码为第二文本向量；

利用所述初始文生图模型的文本编码器，计算所述第二文本向量和所述第三图像向量之间的余弦相似度；

根据所述余弦相似度，对所述初始文生图模型的文本编码器进行训练；

将所述第二文本向量、所述第三图像向量和第二高斯噪声向量输入所述初始文生图模型的扩散模型，基于马尔可夫链过程，对所述初始文生图模型的扩散模型进行训练；

根据训练后的文本编码器和训练后的扩散模型，得到所述预训练的文生图模型。

21.一种头像更换的方法，应用于终端的应用程序，包括：

响应于用户的头像更换指令，确定所述用户需要转换的目标物种和所述用户上传的人脸图像；以及

根据所述人脸图像和所述目标物种，利用权利要求1至20任一项所述的头像生成的方法，生成所述用户待更换的目标物种头像；其中，所述待更换的目标物种头像包含有与所述人脸特征对应的面部特征。

22.根据权利要求21所述的方法，其中，所述用户上传的所述人脸图像通过拍摄所述用户的人脸的方式获取，或通过对所述用户从终端本地选择的历史图像进行裁剪预处理而获取。

23.根据权利要求21或22所述的方法，还包括：

确定所述应用程序中所述用户的当前头像；

将所述当前头像替换为所述待更换的目标物种头像。

24.一种头像生成的装置，包括：

第一确定模块，用于根据目标人脸的人脸图像，确定第一文本描述信息；其中，所述第一文本描述信息至少用于表征所述人脸图像的人脸特征；

第二确定模块，用于确定所述人脸图像的第一图像向量；以及

第一生成模块，用于利用目标物种对应的预训练的文生图模型，根据所述第一图像向量和所述第一文本描述信息，生成所述目标人脸对应的目标物种头像；其中，所述目标物种头像包含有与所述人脸特征对应的面部特征。

25.根据权利要求24所述的装置，其中，所述第一确定模块包括：

第一确定子模块，用于根据目标人脸的人脸图像，确定人脸特征；

第二确定子模块，用于根据所述人脸特征，确定第一文本描述信息。

26.根据权利要求25所述的装置，还包括：

第三确定子模块，用于对目标图像进行人脸识别，确定所述目标图像中的目标人脸的位置信息；

预处理子模块，用于根据所述位置信息，对所述目标图像进行裁剪预处理，以得到与所述目标人脸对应的人脸图像。

27.根据权利要求25所述的装置，其中，所述第一确定子模块用于：

28.根据权利要求25所述的装置，其中，所述第二确定子模块用于：

确定所述人脸特征的语义信息；

确定目标物种的物种类别信息；

29.根据权利要求28所述的装置，其中，根据所述语义信息和所述物种类别信息，确定第一文本描述信息，包括：

确定所需生成的目标物种头像的头像风格信息；

30.根据权利要求29所述的装置，其中，所述头像风格信息包括图像清晰度信息和/或图像画风信息。

31.根据权利要求24所述的装置，其中，所述第二确定模块用于：

利用变分自编码器，将所述人脸图像编码为第一图像向量。

32.根据权利要求24所述的装置，其中，所述第一生成模块包括：

转换子模块，用于利用目标物种对应的预训练的文生图模型中的跨模态模型，将所述第一文本描述信息转换为第一文本向量；

生成子模块，用于利用所述预训练的文生图模型中的扩散模型，根据所述第一文本向量和所述第一图像向量，生成所述目标人脸对应的目标物种头像。

33.根据权利要求32所述的装置，其中，所述转换子模块用于：

34.根据权利要求32所述的装置，其中，所述生成子模块用于：

35.根据权利要求34所述的装置，其中，利用所述预训练的文生图模型中的扩散模型，根据所述第一文本向量和所述第一图像向量，生成第二图像向量，包括：

36.根据权利要求34所述的装置，其中，所述扩散模型基于用于二维图像分割的卷积神经网络构成。

37.根据权利要求21至36任一项所述的装置，其中，所述人脸特征包括面部配饰特征、毛发特征、肤色特征、眼部特征、表情特征、性别特征、年龄特征和脸型特征中的至少一种特征。

38.根据权利要求21至36任一项所述的装置，其中，所述目标物种包括动物和/或植物。

39.根据权利要求21至36任一项所述的装置，其中，所述文生图模型采用跨模态生成模型、稳定扩散模型、第一代图像生成模型和第二代图像生成模型中的任一个模型。

40.根据权利要求21至36任一项所述的装置，还包括训练模块，用于：

第四确定子模块，用于根据所述目标物种的物种样本图像，确定第二文本描述信息；其中，所述第二文本描述信息用于表征所述目标物种的面部特征；

第五确定子模块，用于确定所述物种样本图像的第三图像向量；

训练子模块，用于根据所述第二文本描述信息和所述第三图像向量，对初始文生图模型进行训练，以得到所述预训练的文生图模型。

41.根据权利要求40所述的装置，其中，所述第四确定子模块用于：

根据所述面部特征，确定第二文本描述信息。

42.根据权利要求41所述的装置，其中，所述面部特征至少包括所述目标物种的眼部特征或所述目标物种的表情特征。

43.根据权利要求40所述的装置，其中，所述训练子模块用于：

44.一种头像更换的装置，应用于终端的应用程序，包括：

响应模块，用于响应于用户的头像更换指令，确定所述用户需要转换的目标物种和所述用户上传的人脸图像；以及

第二生成模块，用于根据所述人脸图像和所述目标物种，利用权利要求1至20任一项所述的头像生成的方法，生成所述用户待更换的目标物种头像；其中，所述待更换的目标物种头像包含有与所述人脸特征对应的面部特征。

45.根据权利要求44所述的装置，其中，所述用户上传的所述人脸图像通过拍摄所述用户的人脸的方式获取，或通过对所述用户从终端本地选择的历史图像进行裁剪预处理而获取。

46.根据权利要求44或45所述的装置，还包括：

更换模块，用于确定所述应用程序中所述用户的当前头像；以及将所述当前头像替换为所述待更换的目标物种头像。

47.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至23中任一项所述的方法。

48.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至23中任一项所述的方法。

49.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至23中任一项所述的方法。