CN114359423B - 一种基于深度对抗生成网络的文本生成人脸方法 - Google Patents
一种基于深度对抗生成网络的文本生成人脸方法 Download PDFInfo
- Publication number
- CN114359423B CN114359423B CN202011099710.6A CN202011099710A CN114359423B CN 114359423 B CN114359423 B CN 114359423B CN 202011099710 A CN202011099710 A CN 202011099710A CN 114359423 B CN114359423 B CN 114359423B
- Authority
- CN
- China
- Prior art keywords
- face
- network
- face image
- generating
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
针对从文本描述生成人脸图像,本发明设计了一种基于深度对抗生成网络的文本生成人脸方法。主要涉及从文本描述生成图像领域的应用,尤其涉及社会公共安全领域中根据目击者对目标人物的描述进行画像的应用。本方法包含数据集制作,网络模型设计,网络模型参数训练,网络模型性能测试四个部分。本发明充分发挥对抗生成网络在图像生成方面的优越性,设计了从文本生成人脸的一套优良解决方案,在公共安全、人脸图像修复、影视传媒和考古研究等领域具有较为广阔的应用前景。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及基于深度学习的文本到图像生成、人脸生成领域的应用,尤其涉及一种基于深度学习的从文本描述生成人脸图像的应用。
背景技术
近年来,基于深度学习的图像生成技术发展迅速,该技术已经应用到了社会的各个领域中,比如影视媒体、相机美颜、计算机辅助修图、换脸、考古研究和图像修复等。其中从文本描述到图像生成的技术也越来越成熟,出现了AttnGAN、DM-GAN、KT-GAN等技术在文本描述到图像生成方面取得了较大的突破,这些技术将会逐渐地应用到相关的各个领域。在社会公共安全领域,在对犯罪份子进行追捕时,往往会从目击者对目标人物的描述中获取到面貌的关键信息,甚至需要专业人员根据目击者的描述进行人脸画像。为此,研究从文本描述到人脸的生成技术,不但在公共安全领域有着较大的应用前景,在人脸图像修复、影视娱乐和考古研究等领域都有着较大的应用前景。
目前文本到图像的生成技术研究已经越来越成熟,但专注于文本到人脸生成方面的研究非常的少,还处于起步阶段。当前,只根据文本描述要生成与原始人脸相似的人脸图像技术难度高,还需要在技术上不断进步,本发明在该领域进行了创新和取得了一定的突破。
发明内容
本发明针对从文本描述到图像生成领域,尤其是从文本描述到人脸生成方面的问题,提供了一种基于深度对抗生成网络的文本生成人脸方法。该方法采用三级对抗生成网络,分别生成64×64、128×128和256×256三种分辨率大小的人脸图像,其中第一级生成人脸质量的好坏直接影响到最后生成人脸的质量,人脸生成任务要尽量做到生成人脸与原始人脸的语义一致性,为此本发明将第一级设计成双通道,一个通道输入为高斯噪声N(0~1)~和文本描述组合的特征向量,另一通道输入为文本描述的特征向量,有效地提升了生成人脸图像的质量。同时,引入感知损失函数(Perceptual Loss)来引导网络模型根据文本生成更加接近原始人脸的人脸图像,本发明提出了图1所示深度对抗生成网络模型的总体原理框架图。
本发明通过以下技术方案来实现上述目的:
一种基于深度对抗生成网络的文本生成人脸方法,包括以下步骤:
步骤一:数据集制作,在公开人脸数据集上选取人脸图像并对其进行文本描述,然后将描述完成的人脸图像和文本描述数据拆分为训练集和测试集;
步骤二:网络模型设计,提出的深度对抗网络采用双通道(Dual-channelGenerative Adversarial Network,DualGAN)模型,同时引入感知损失函数(PerceptualLoss)来引导网络模型根据文本生成更加逼真的人脸图像;
步骤三:网络模型参数训练,将步骤一中的训练数据集输入到步骤二中模型中进行训练,并根据中间结果不断对网络超参数进行调整和优化;
步骤四:网络模型性能测试,将步骤一中的测试数据集输入到步骤三训练好的模型中进行人脸生成测试,引入人脸相似度(Face Similarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)来对生成的人脸图像进行评价。
作为步骤一中数据集制作说明如下:
目前为止还没有公开的从文本描述生成人脸的数据集,为此要完成该任务,首先需要构建相应的数据集供网络模型训练和测试。本发明从公开人脸数据集LFW和CelebA中选择1000个人脸图像,首先截取出人脸部分图像,除去多余的背景图案,重置分辨率大小为256×256,然后通过人工对每个人脸图像分别用5句话进行描述,文本生成人脸的数据集样例如图2所示。
作为步骤二中的双通道对抗生成网络(Dual-channel Generative AdversarialNetwork,DualGAN)模型,其说明如下:
从文本描述生成人脸的网络采用的是三级对抗生成网络(GenerativeAdversarial Network,GAN),第一级GAN生成的人脸图像分辨率大小为64×64,第二级GAN生成的人脸图像分辨率大小128×128,第三级GAN生成的人脸图像分辨率大小为256×256。其中,最关键的是第一级GAN生成人脸图像质量的好坏,将直接影响到最后生成人脸图像的质量。为此本发明创新地在第一级GAN采用双通道对抗生成网络(Dual-channelGenerative Adversarial Network,DualGAN)来提升生成的人脸图像质量,从而有效地提升后面两级GAN生成人脸图像的质量。为了使得生成人脸图像更加逼近原始人脸图像,将第三级GAN生成的人脸图像和对应的原始人通过图像编码器进行编码转化成特征向量,计算它们的欧式距离(Euclidean Metric)也即感知损失(Perceptual Loss),其计算方法如公式1所示,并将该损失函数反向传播到网络中,通过计算梯度下降来引导模型训练,最终有效地提升了生成的人脸图像与原始图像的相似度。
其中m为训练batch-size的值,为原始人脸图像的特征图谱,/>为生成人脸图像的特征图谱。
作为步骤三网络模型参数训练,其说明如下:
DualGAN网络模型在训练过程中,需要对总损失函数和学习率等的超参数进行调整,通过实验不断地验证和调整,最后得到相对较优的超参数。
作为步骤四网络模型性能测试,其说明如下:
为了验证模型的性能,需要对生成的人脸进行定量和定性的评价。由于从文本生成人脸目前还没有公开的定量评价指标,根据该任务的特点,引入人脸相似度(FaceSimilarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)来对生成的人脸进行定量评价。同时对生成的人脸与公开方法生成的人脸做了对比,其生成人脸对比结果如图3所示。
附图说明
图1是本发明的深度对抗生成网络模型的总体原理框架图。
图2是本发明的文本生成人脸的数据集样例。
图3是本发明提出方法与其他方法生成人脸的对比结果。
具体实施方式
基于基于深度对抗生成网络的文本生成人脸,主要分为四个步骤进行:数据集制作,网络模型设计,网络模型参数训练,网络模型性能测试。
在数据集制作中,本发明基于公开人脸数据集LFW和CelebA中选取1000张人脸,对其进行预处理裁减掉背景,并提取出人脸部分的图像,然后由5个不同人的对其进行独立描述,然后将这个5个描述便为该人脸的文本描述,最终分为训练集800张,测试集200张,其样例如图2所示。
将准备好的训练数据集800张人脸及对应的文本描述输入到设计的网络模型进行训练,在训练过程不断调整总损失函数的超参数和学习率,如公式2的超参数,通过大量的实验证明,当超参数λ1=1.0,λ2=0.2和生成器的学习率为LR=0.00001时模型的性能相对较优。
LG=Lg1+Lg2+Lg3+λ1LDAMSM+λ2PL (2)
其中,LG为总的损失函数,Lg1为第一级生成器的损失函数,Lg2为第二级生成器的损失函数,Lg3为第三级生成器的损失函数,LDAMSM为Deep Attentional MultimodalSimilarity Model模型计算的损失函数,PL为感知损失函数,λ1和λ2为超参数。
网络模型训练好后,将测试数据集200张人脸的文本描述输入到网络模型中进行人脸生成的测试,其直观定性的对比结果如图3所示,本发明设计网络模型的性能要优于其他算法,定量客观的对比结果如表1所示,与StackGAN++,AttnGAN,FTGAN,DM-GAN四种现有的算法相比,本发明提出的Dual-GAN在Fréchet Inception Distance(FID),FSD,FSS三个评价指标上都达到了当前最优。
表1生成人脸评价指标对比
Claims (4)
1.一种基于深度对抗生成网络的文本生成人脸方法,其特征在于包括以下步骤:
步骤一:数据集制作,在公开人脸数据集上选取人脸图像并对其进行文本描述,然后将描述完成的人脸图像和文本描述数据随机拆分为训练集和测试集;
步骤二:网络模型设计,提出双通道对抗生成网络(Dual-channel GenerativeAdversarial Network,DualGAN)模型,同时引入感知损失函数(Perceptual Loss)来引导网络模型根据文本描述生成更逼真的人脸图像;
步骤三:网络模型参数训练,将步骤一中的训练数据集输入到步骤二中的模型进行训练,并根据中间结果不断对网络模型参数进行调整和优化;
步骤四:网络模型性能测试,将步骤一中的测试数据集输入到步骤三训练好的网络模型中进行人脸生成测试,并引入人脸相似度(Face Similarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)来对生成的人脸图像进行评价。
2.根据权利要求1所述的基于深度对抗生成网络的文本生成人脸方法,其特征在于步骤二中的网络模型,采用的是三级对抗生成网络,第一级生成的人脸图像分辨率大小为64×64,第二级生成的人脸图像分辨率大小为128×128,第三级生成的人脸图像分辨率大小为256×256,第一级采用双通道对抗生成网络(Dual-channel Generative AdversarialNetwork,DualGAN)模型。
3.根据权利要求1所述的基于深度对抗生成网络的文本生成人脸方法,其特征在于步骤二中将第三级对抗生成网络生成的人脸图像和对应的原始人脸图像编码转化成特征向量,并计算它们的欧式距离(Euclidean Eetric)也即感知损失(Perceptual Loss),将该损失函数反向传播到网络中,通过梯度下降来引导模型训练,最终提升生成的人脸图像与原始图像相似度。
4.根据权利要求1所述的基于深度对抗生成网络的文本生成人脸方法,其特征在于步骤四为了定量的评价提出网络模型生成人脸图像的质量,引入人脸相似度(FaceSimilarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)两个评价指标来对生成的人脸图像进行定量客观的评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011099710.6A CN114359423B (zh) | 2020-10-13 | 2020-10-13 | 一种基于深度对抗生成网络的文本生成人脸方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011099710.6A CN114359423B (zh) | 2020-10-13 | 2020-10-13 | 一种基于深度对抗生成网络的文本生成人脸方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114359423A CN114359423A (zh) | 2022-04-15 |
CN114359423B true CN114359423B (zh) | 2023-09-12 |
Family
ID=81089584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011099710.6A Active CN114359423B (zh) | 2020-10-13 | 2020-10-13 | 一种基于深度对抗生成网络的文本生成人脸方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359423B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115155058B (zh) * | 2022-09-06 | 2023-02-03 | 北京澜舟科技有限公司 | 一种捏脸方法、捏脸系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147010A (zh) * | 2018-08-22 | 2019-01-04 | 广东工业大学 | 带属性人脸图像生成方法、装置、系统及可读存储介质 |
CN109344879A (zh) * | 2018-09-07 | 2019-02-15 | 华南理工大学 | 一种基于文本-图像对抗网络模型的分解卷积方法 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
CN110751698A (zh) * | 2019-09-27 | 2020-02-04 | 太原理工大学 | 一种基于混和网络模型的文本到图像的生成方法 |
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10825219B2 (en) * | 2018-03-22 | 2020-11-03 | Northeastern University | Segmentation guided image generation with adversarial networks |
-
2020
- 2020-10-13 CN CN202011099710.6A patent/CN114359423B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147010A (zh) * | 2018-08-22 | 2019-01-04 | 广东工业大学 | 带属性人脸图像生成方法、装置、系统及可读存储介质 |
CN109344879A (zh) * | 2018-09-07 | 2019-02-15 | 华南理工大学 | 一种基于文本-图像对抗网络模型的分解卷积方法 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
CN110751698A (zh) * | 2019-09-27 | 2020-02-04 | 太原理工大学 | 一种基于混和网络模型的文本到图像的生成方法 |
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114359423A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN115964467A (zh) | 一种融合视觉情境的富语义对话生成方法 | |
CN110570366A (zh) | 基于双判别深度卷积生成式对抗网络的图像修复方法 | |
CN111212245B (zh) | 一种合成视频的方法和装置 | |
CN115601772B (zh) | 一种基于多模态学习的美学质量评价模型和方法 | |
CN111724458B (zh) | 一种语音驱动的三维人脸动画生成方法及网络结构 | |
CN109903236A (zh) | 基于vae-gan与相似块搜索的人脸图像修复方法及装置 | |
CN111861945A (zh) | 一种文本引导的图像修复方法和系统 | |
CN114913327A (zh) | 一种基于改进U-Net的下肢骨骼CT图像分割算法 | |
CN113362416B (zh) | 基于目标检测的文本生成图像的方法 | |
CN114757864B (zh) | 一种基于多尺度特征解耦的多层级细粒度图像生成方法 | |
CN114359423B (zh) | 一种基于深度对抗生成网络的文本生成人脸方法 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN110175248A (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN116977489A (zh) | 一种基于扩散模型的文本引导图像处理方法 | |
CN113744175B (zh) | 一种基于双向约束生成对抗网络的图像生成方法及系统 | |
Weng et al. | Affective image filter: Reflecting emotions from text to images | |
CN117894085A (zh) | 基于扩散模型的对抗识别人脸身份隐私保护方法及系统 | |
CN113806564A (zh) | 多模态信息性推文检测方法及系统 | |
CN106708789A (zh) | 一种文本处理方法及装置 | |
Wei et al. | IIFC-Net: A Monaural Speech Enhancement Network With High-Order Information Interaction and Feature Calibration | |
CN115270917A (zh) | 一种两阶段处理多模态服装图像生成方法 | |
CN114692836A (zh) | 一种区块链辅助的人员负面情绪综合评估方法和系统 | |
CN114419178A (zh) | 一种基于深度学习的壁画对应线稿生成方法及设备 | |
Wu et al. | Icanet: A method of short video emotion recognition driven by multimodal data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |