CN116721176B

CN116721176B - 一种基于clip监督的文本到人脸图像生成方法及装置

Info

Publication number: CN116721176B
Application number: CN202311000485.XA
Authority: CN
Inventors: 陈骞; 覃智泉; 曾尔曼
Original assignee: Nanqiang Youshi Xiamen Technology Co ltd
Current assignee: Nanqiang Youshi Xiamen Technology Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-10
Anticipated expiration: 2043-08-10
Also published as: CN116721176A

Abstract

本发明公开一种基于CLIP监督的文本到人脸图像生成方法及装置，给定内容不匹配的人脸图像与文本描述数据，本发明通过无条件式对抗生成目标函数训练模型生成真实的人脸图像，通过预训练的CLIP模型进行跨模态图文对齐约束，训练模型生成与给定描述内容匹配的人脸图像。本发明公开的不配对训练方法能够在内容不配对的图文数据上进行文本到人脸图像生成训练，基于自然语言形式的文本描述生成真实、匹配的人脸图像，提升生成的图像质量及图文关联度。

Description

一种基于CLIP监督的文本到人脸图像生成方法及装置

技术领域

本发明属于图像生成技术领域，涉及一种基于CLIP监督的文本到人脸图像生成方法及装置。

背景技术

文本生成人脸（Text-to-Face Generation, T2F）是涉及语言和图像的多模态任务。给出一段描述，文本生成图像技术将生成这段描述相对应的人脸图像，即“依文绘图”，它是“看图说话”的逆过程。作为一项新的生成任务，T2F生成在许多领域都有广泛的潜力，如艺术创作、人机交互等。脸部识别技术是一个非常重要的领域，它可以帮助人们更好地了解自己的脸部特征，同时也可以帮助人们更好地理解自己的脸部特征。它的主要挑战是如何将文本描述中的不同概念与相应的视觉内容准确对齐，从而生成高保真的人脸图像，因此，大多数现有的T2F方法都是在语义对齐的图像-文本对上训练的。

然而，这种配对训练范式的注释开销是非常昂贵的。对于每张人脸图像，它在训练期间至少需要一个语义一致的描述。尽管广泛使用的T2F基准，即MultiModal CelebA-HQ（MMCelebA），应用了基于模板的方法来自动生成人脸图像的标题，但在实践中，它仍然需要为每张人脸图像手动标记40个属性。同时，MMCelebA的训练图像的数量只有24k，这比用于无条件人脸生成的数据集FFHQ（70k）小得多。众所周知，对抗性生成的质量在很大程度上取决于训练数据的规模，所以对对齐的文本-脸部对的需求大大抑制了现有T2F模型的潜在能力。

为了解决这个问题，在文本到图像（T2I）生成的无语言训练方面已经有了一些尝试。这些工作建立在一个关键的假设上，即由预先训练的视觉-语言模型（如CLIP）提取的图像和文本特征可以在联合多模态空间中相互替代。例如，Wang等人训练了一个自回归变换器，用于将图像特征映射到离散的标记，因此文本嵌入可以在测试期间被转换为生成连贯的图像标记。同时，LAFITE从视觉特征中学习生成伪文本特征，在此基础上可以用固定或可训练的扰动进行无语言训练。然而，这些方法需要成对的视觉-语言信息来训练一个更好的图像-文本特征翻译器，从而使图像生成更加合理。但是对于T2F的生成，成对的文本-脸部信息要少得多。

发明内容

本发明的目的，在于提供一种基于CLIP监督的文本到人脸图像生成方法及装置，能够通过不配对的文本到人脸图像生成训练，提升生成的图片质量及图文关联度。

为了达成上述目的，本发明的解决方案是：

一种基于CLIP监督的文本到人脸图像生成方法，包括如下步骤：

步骤1，使用预训练CLIP模型的文本编码器提取待生成人脸图像的文本描述的文本特征/>；

步骤2，基于文本特征，使用生成器生成人脸图像/>；

其中，所述生成器的训练方法是：

步骤A，自训练集中选取内容不匹配的文本描述及真实图像/>，使用CLIP模型的文本编码器提取文本描述/>的文本特征/>；

步骤B，基于文本特征，使用生成器生成人脸图像/>；

步骤C，使用判别器将真实图像与生成器生成人脸图像/>进行比较，计算判别器的损失函数/>，并通过反向传播算法更新判别器参数；

步骤D，计算生成器的损失函数，并通过反向传播算法更新生成器参数；

步骤E，经过若干次迭代后得到训练好的生成器。

上述步骤1中，CLIP模型提取的语言文本特征，其中，N为每个训练批次中给定的文本描述的数量，维度/>。

上述步骤C中，判别器的损失函数如下：

，

其中，、/>表示损失值的数学期望，下标分别表示输入判别器的图像来自真实数据/>或生成数据/>；/>表示无条件式判别器损失；/>表示图像/>输入判别器D后得到的判别结果，/>表示图像/>输入判别器D后得到的判别结果。

上述步骤C中，分别将真实图像与生成器生成人脸图像/>输入判别器，根据判别器输出的数值判断为真实图像或生成器生成人脸图像，具体可以设置为，判别器输出一个取值范围在0至1之间的数值，该数值趋近1时表示输入的是真实图像，该数值趋近0时表示输入的是生成器生成人脸图像；再根据实际标签（可以向判别器输入真实标签，使判别器知道输入的是真实图像或生成器生成人脸图像），与判别器的输出结果计算判别器的损失函数/>，进而更新判别器参数，提高判别器区分真实图像和生成图像的能力。

上述步骤D中，生成器的损失函数如下：/>，

，其中，/>为无条件式生成器损失，/>为粗粒度对比损失，/>为细粒度对比损失；/>和/>是超参数；/>表示损失值的数学期望。

上述无条件式生成器损失如下：/>，其中，/>表示生成人脸图像/>输入判别器对应损失值的数学期望；/>表示图像/>输入判别器D后得到的判别结果。

上述粗粒度对比损失如下：，其中，N表示训练时的批处理大小；表示生成的第/>个人脸图像和第/>个文本描述之间的余弦相似度，/>表示生成的第/>个人脸图像和第/>个文本描述之间的余弦相似度；/>是超参；/>表示使用CLIP模型的图像编码器提取/>得到的图像特征，/>表示使用CLIP模型的文本编码器提取得到的文本特征；上标T表示转置。

上述细粒度对比损失函数的计算方法如下：

针对每个文本描述与对应的生成图像，将文本描述分割为K个短语，并从生成图像中随机裁剪M个图像区域，分别表示为和/>，其中，T表示文本分割为短语后的短语集合，/>为分割得到的第/>个短语；X表示裁剪后的图像区域集合，/>为裁剪得到的第/>个图像区域；则细粒度匹配得分/>定义为：，其中，/>表示与T中第/>个短语相关的图像区域加权表示，/>表示/>第/>个短语的余弦相似度，/>是超参；/>定义为：，其中，/>表示T中第i个短语的特征向量/>与X中第j个图像区域的特征向量/>之间的相关性权重，/>是超参；/>定义为：，其中，/>表示使用CLIP模型的图像编码器提取/>得到的图像特征，/>表示使用CLIP模型的文本编码器提取/>得到的文本特征；上标T表示转置；

则基于匹配得分的细粒度对比损失定义为：，其中，/>是超参。

一种基于CLIP监督的文本到人脸图像生成装置，包括，

CLIP模型的文本编码器，用于提取待生成人脸图像的文本描述的文本特征；以及，

生成器，用于基于文本特征生成人脸图像/>；

所述生成器采用如前所述的方法训练而得到。

采用上述方案后，本发明的有益效果是：

（1）本发明第一次尝试不配对的文本到人脸图像生成训练，它也是有文本条件训练和无文本训练之间的一种可行的补充，所述不配对的文本到人脸图像指在训练时，每个训练批次从数据集中随机抽取相同数量的文本和图像，输入的文本与真实图像尽管数量相等，但是内容上并不相关；

（2）本发明可以帮助基线模型，达到比使用传统的配对训练方案更好的生成性能，从而在MMCelebA数据集上超过了一堆有语言条件的和无语言的T2F模型；

（3）本发明可以利用大量无标签的人脸图像来促进T2F的生成，这实现了无配对T2F训练的目标，所述无标签的人脸图像指无标注的人脸图像，也即不含有对应文本描述的人脸图像；具体表现在，本发明提出的不配对训练方案不要求在训练时输入的文本描述和真实图像一一配对，打破了训练时图文数据内容配对的限制，因此在训练时，可以额外增加来自不同数据集的文本或人脸图像。

附图说明

图1是本发明中无条件式生成对抗损失的计算示意图；

其中，(a)为无条件式判别器损失的计算示意图，(b)为无条件式生成器损失的计算示意图；

图2是本发明中生成器损失的计算示意图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

本发明提供一种基于CLIP监督的文本到人脸图像生成方法，对于待生成图像的文本，首先使用CLIP模型提取该文本的语言文本特征；然后由生成器根据所述语言文本特征，生成相应的图片。在此过程中，本发明在生成过程中引入CLIP模型进行弱监督，同时，在对生成器进行训练时，使用CLIP模型对图片和文本进行编码，将它们映射到多模态特征空间，并使用不匹配的数据进行训练，使得生成的图像更加逼真、更加符合常识。为了验证本发明提出的训练方法并与传统训练方法进行文本到人脸图像生成性能对比，在Multi-ModalCelebA- HQ（MM-CelebA-HQ）数据集（Weihao Xia等，TediGAN: Text-Guided Diverse FaceImage Generation and Manipulation）上进行文本到人脸图像生成的训练与验证，其包含30000张512*512分辨率的人脸图像，其中训练图像24000张，测试图像6000张，每张图像拥有10个文本描述。

以下将重点说明生成器的训练过程。

步骤1，输入一段文本描述t、以及目标图像x，设置图片生成器G和判别器D。在训练时，生成器和判别器共同组成生成对抗网络（Generative Adversarial Network，GAN）。本发明采用预先训练好的、成熟的CLIP模型，该CLIP模型的模型架构以及模型参数均为已有，在本实施例中直接应用。在训练过程中，CLIP模型中的文本编码器提取文本特征送入生成器，输出图像。此时生成器输出的“生成图像”以及数据集中的“真实图像”均会输入判别器中，用来训练判别器区分“生成图像”与“真实图像”的能力。

为了根据不匹配数据生成良好的图片，在对抗训练方面，该任务的目标可以表示为：，

其中，、/>表示损失值的数学期望，下标分别表示输入判别器的图像来自真实数据（/>）或生成数据（/>）。/>分别表示无条件式判别器损失与无条件式生成器损失，可配合图1所示。

步骤2，为了实现生成的图像与给定文本描述之间的语义对齐，本发明进一步引入CLIP作为弱监督器来正则化T2F生成。训练时，每次从训练数据中随机采样N个文本描述t和真实图像x。使用CLIP的文本编码器提取文本特征，并经过生成器生成人脸图像/>。由于CLIP是一个经过良好训练的VL模型，其编码器提取的特征可以客观地反映出生成人脸图像/>和t之间的语义距离。在这种情况下，进一步引入对比损失来优化T2F语义匹配。

其中，N表示训练时的批处理大小（batchsize），表示生成的人脸图像/>和文本描述t之间的余弦相似度，/>是超参，在实践中设为10。/>和/>分别表示用于提取图像和文本平均特征的CLIP的图像和文本编码器。上标T表示转置。/>为粗粒度对比损失，对比N个相同位置表示第i个生成图像与第i个文本，对比N个不同位置则表示第i个生成图像与其他N-1个文本。

步骤3，为了进一步提升图片质量以及文本图片的匹配程度，本发明提出了通过测量基于注意力的细粒度对比损失来提高细粒度的语义一致性，具体而言，针对每个文本描述与对应的生成图像，将文本描述分割为K个短语，并从生成图像中随机裁剪M个图像区域，分别表示为和/>，其中，T表示文本分割为短语后的短语集合，/>为分割得到的第i个短语；X表示裁剪后的图像区域集合，/>为裁剪得到的第j个图像区域。那么细粒度匹配得分可以定义为：/>，

其中，表示与T中第i个短语相关的图像区域加权表示，/>表示/>第i个短语的余弦相似度，/>是超参，在实践中设为5。/>定义为：/>，

其中，表示T中第i个短语的特征向量/>与X中第j个图像区域的特征向量之间的相关性权重，/>是超参，在实践中设为4。/>定义为：，

与步骤2类似，基于匹配得分的细粒度对比损失定义为：’

步骤4，最终的生成器损失函数由无条件式生成器损失、粗粒度对比损失与细粒度对比损失/>组成，判别器损失由无条件式判别器损失组成，如下所示：，

其中，和/>是超参数。

实施例：

一、模型实施过程

1.1 人脸图像生成

模型在完成人脸图像生成任务中，通过使用确定性函数，直接将文本描述t映射到RGB图像x，这一过程可描述为：，

其中，G是生成器。本发明使用预训练好的CLIP模型对文本描述进行编码，表示用于提取文本特征的CLIP的语言编码器。

在训练的过程中，使用对抗生成损失对生成图像质量进行约束：，

其中，、/>表示损失值的数学期望，下标分别表示输入判别器的图像来自真实数据（/>）或生成数据（/>）。x代表真实图像，D表示判别器，/>表示输入的图像，，/>表示将图像/>输入判别器D后得到的判别结果。

至此只能保证生成图像的质量，为了约束生成图像和文本之间的关联性，引入对比损失进行约束：，

其中，表示生成的人脸图像和给定文本描述之间的余弦相似度。/>和分别表示用于提取图像和文本平均特征的CLIP的视觉和语言编码器。

为了进一步提升图像质量以及文本图像的匹配程度，本发明提出了细粒度的对比损失进行约束：

将文本描述分割为K个短语，并从生成图像中随机裁剪M个补丁，分别表示和/>。那么细粒度匹配得分可以定义为：，

其中是与第i个描述相关的图像区域表示，可以定义为：

基于匹配得分的细粒度对比损失定义为：

最终的目标函数定义为：，

其中，和/>是超参数。

训练结束后所述文本到人脸图像生成基线模型可以实现文本到图像的映射，完成文本到人脸图像生成任务。

二、模型训练过程

2.1 损失函数的计算：

模型的损失函数包括四部分，分别计算判别器、生成器、R1正则化和正则化路径的损失，即：/>，

其中D、G分别表示判别器和生成器，为相应的对抗损失，即：/>，，

为对抗损失以及两个对比损失，即：/>，

，

其中，表示生成的人脸图像和给定文本描述之间的余弦相似度。/>和/>分别表示用于提取图像和文本平均特征的CLIP的图像和文本编码器。

，

其中，将文本描述分割为K个短语，并从生成图像中随机裁剪M个补丁，分别表示和/>。

是与第i个描述相关的图像区域表示，可以定义为：

为R1正则化损失（可参见Lars Mescheder, Andreas Geiger, and SebastianNowozin. 2018. Which training methods for GANs do actually converge?. InInternational conference on machine learning. PMLR, 3481–3490.），/>为路径损失，用于引导噪声Z能够更好的解耦到W空间中（可参见Tero Karras, Samuli Laine,Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. 2020.Analyzing and improving the image quality of stylegan. In Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.8110–8119.）。

2.2 模型训练参数设置：

在训练过程中，使用Adam优化器，并设置学习率为0.0002，超参为、。

2.3 模型的训练：

对于模型的训练，首先将输入的图片和语言经过生成器得到模型的输出结果，接着通过步骤二来计算模型的损失函数，最后，利用损失函数的梯度反向传播来更新模型参数，训练和迭代过程的设置如步骤2.2所描述。最终完成整个模型的训练。

三、模型部署过程：

在经过步骤二的模型训练后，对于训练完毕的模型，将输入的语言经过CLIP进行编码，在输入模型中，即可得到模型的输出作为相对应的生成结果，即输入某段语言描述，模型输出最符合描述的图像。

综上，本发明借助预先训练好的视觉语言模型CLIP，并提出一种新的用于T2F生成的非配对数据对抗训练方案，称为UAT。与之前的T2F训练方案不同，UAT不再需要在每个训练批次中对文本和图像进行实例级对齐。具体来说，判别器学会了只使用视觉输入来区分真实和虚假的图像。与判别器的输出一起，文本概念被用来指导生成器在CLIP的监督下合成语义对齐的图像，即文本-脸语义匹配度。与无语言训练相比，UAT仍然需要文本描述，但没有成对例子的约束，其注释开销大大减少。例如，可以在线获得大量未标记的人脸图像，文本描述可以像MMCelebA一样自动生成，但不需要人工对齐。此外，UAT适用于大多数端到端T2F方法，不依赖预训练的生成器。

本发明可以给定不匹配的人脸图像与文本描述数据，通过预训练的CLIP模型进行弱监督，根据文本描述进行端到端的人像合成，生成真实、匹配的人脸图像。在图片生成的过程中，本发明去除了传统文本到人像生成中图像与文本一一对应的条件约束，即训练数据中图像与文本可以是无关的；同时为了保证生成图片与文本的相关性，本发明引入了预训练好的CLIP模型进行弱监督，使用CLIP模型对图片和文本进行编码，将它们映射到多模态特征空间，并通过计算对比损失，保证图文关联度。为了进一步提升图片质量以及图文关联度，本发明提出了更细粒度的对比损失，它将图片拆分成若干个区域，同时将文本划分为若干个小句子，通过对比损失的方式计算区域与短句之间的距离，进一步优化图片质量以及图文关联度。据目前了解，本发明是首次在文本到人脸生成中提出不匹配数据的训练方式，它是有文本条件训练和无文本训练之间的一种可行的补充。基于本发明所提出的方法，可以在文本描述的指导下生成高质量的人脸图像。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于CLIP监督的文本到人脸图像生成方法，其特征在于包括如下步骤：

步骤1，使用预训练CLIP模型的文本编码器提取待生成人脸图像的文本描述的文本特征/>，/>表示待生成人脸图像的文本描述/>的文本特征；

步骤2，基于文本特征，使用生成器生成人脸图像/>；

其中，所述生成器的训练方法是：

步骤A，自训练集中选取内容不匹配的文本描述及真实图像/>，使用CLIP模型的文本编码器提取文本描述/>的文本特征/>，/>表示文本描述/>的文本特征；

步骤B，基于文本特征，使用生成器生成人脸图像/>；

所述步骤C中，判别器的损失函数如下：

，

其中，、/>表示损失值的数学期望，下标分别表示输入判别器的图像来自真实数据/>或生成数据/>；/>表示无条件式判别器损失；/>表示图像/>输入判别器D后得到的判别结果，/>表示图像/>输入判别器D后得到的判别结果；

所述步骤D中，生成器的损失函数如下：/>，

其中，为无条件式生成器损失，/>为粗粒度对比损失，/>为细粒度对比损失；/>和/>是超参数；

所述无条件式生成器损失如下：/>，其中，/>表示生成人脸图像/>输入判别器对应损失值的数学期望；/>表示图像/>输入判别器D后得到的判别结果；

所述粗粒度对比损失如下：/> ，其中，N表示训练时的批处理大小；/>表示生成的第/>个人脸图像和第/>个文本描述之间的余弦相似度，/>表示生成的第/>个人脸图像和第/>个文本描述之间的余弦相似度；/>是超参；/>表示使用CLIP模型的图像编码器提取/>得到的图像特征，/>表示使用CLIP模型的文本编码器提取/>得到的文本特征；上标T表示转置；/>表示生成的人脸图像/>和给定文本/>描述之间的余弦相似度；

所述细粒度对比损失函数的计算方法如下：

针对每个文本描述与对应的生成图像，将文本描述分割为K个短语，并从生成图像中随机裁剪M个图像区域，分别表示为和/>，其中，T表示文本分割为短语后的短语集合，/>为分割得到的第/>个短语；X表示裁剪后的图像区域集合，为裁剪得到的第/>个图像区域；则细粒度匹配得分/>定义为：，其中，/>表示与T中第/>个短语相关的图像区域加权表示，/>表示/>第/>个短语的余弦相似度，/>是超参；/>定义为：，其中，/>表示T中第i个短语的特征向量/>与X中第j个图像区域的特征向量/>之间的相关性权重，/>是超参；/>定义为：，其中，/>表示使用CLIP模型的图像编码器提取/>得到的特征向量，/>表示使用CLIP模型的文本编码器提取/>得到的特征向量；上标T表示转置；

则基于匹配得分的细粒度对比损失定义为：，其中，/>是超参；

步骤E，经过若干次迭代后得到训练好的生成器。

2.如权利要求1所述的方法，其特征在于：所述步骤1中，CLIP模型提取的语言文本特征，其中，N表示训练时的批处理大小，维度/>。

3.如权利要求1所述的方法，其特征在于：所述步骤C中，分别将真实图像与生成器生成人脸图像/>输入判别器，根据判别器输出的数值判断为真实图像或生成器生成人脸图像；再根据实际标签与判别器的输出结果计算判别器的损失函数/>，进而更新判别器参数。

4.一种基于CLIP监督的文本到人脸图像生成装置，其特征在于：包括，

CLIP模型的文本编码器，用于提取待生成人脸图像的文本描述的文本特征，/>表示待生成人脸图像的文本描述/>的文本特征；以及，

生成器，用于基于文本特征生成人脸图像/>；

所述生成器采用如权利要求1-3中任一项所述的方法训练而得到。