CN117522697A - 一种人脸图像生成方法、系统及模型训练方法 - Google Patents

一种人脸图像生成方法、系统及模型训练方法 Download PDF

Info

Publication number
CN117522697A
CN117522697A CN202311315829.6A CN202311315829A CN117522697A CN 117522697 A CN117522697 A CN 117522697A CN 202311315829 A CN202311315829 A CN 202311315829A CN 117522697 A CN117522697 A CN 117522697A
Authority
CN
China
Prior art keywords
text
features
image
memory
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311315829.6A
Other languages
English (en)
Inventor
宋天逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202311315829.6A priority Critical patent/CN117522697A/zh
Publication of CN117522697A publication Critical patent/CN117522697A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的人脸图像生成方法、系统及模型训练方法,图像生成方法包括:获取给定的用于描述人脸特征的自然语言文本,利用文本编码器进行编码,得到粗粒度文本特征和细粒度文本特征,并映射到潜空间中;将提取到的粗粒度文本特征输入至多层扩散模型,多层扩散模型通过学习到的潜空间噪声概率分布,生成的低分辨率草图,过程中会产生图像特征,将所述细粒度特征与图像特征进行特征融合对齐并嵌入记忆网络中,形成记忆槽;将图像特征作为对记忆网络的询问,从记忆网络提取出低分辨率草图中缺失的细粒度特征,在生成草图的基础上恢复出高分辨率的人脸图像。本发明面向开放性文本,交互式生成人脸图像,不对输入文本的数量、描述风格做限制。

Description

一种人脸图像生成方法、系统及模型训练方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种人脸图像生成方法、系统及模型训练方法。
背景技术
通过目击者表述的自然语言文本描述生成照片级逼真的人脸图像是一个重要的问题。
传统的对于模拟画像的手段可以分为两类,第一类是通过专业的模拟画像师依靠自身专业素质将目击者口述中的嫌疑人的体貌特征提取并完成人物肖像的侧写,但该方法耗费时间长,且对画师的专业素质和经验有着严苛的要求。
随着信息技术的发展,也出现了一些具备模拟画像功能的软件,这类软件通过引导目击者在人像部件库中选出最为相近的脸型、五官等元素,再将所选元素进行拼接组合,合成目击者认可的嫌疑人图像,但是单纯的将元素拼接使得该方法得到的人像不够真实,协调。
在人工智能技术的快速发展下,也出现了一些方法可以实现跨越文本模态到图像模态的生成模型,其中生成对抗网络(Generative Adversarial Network,下文简称为GAN)在文本生成真实图像方面取得了较好的效果,但是由于GAN网络的结构特性,在模型训练过程中需要同时训练生成器和判别器两个网络,同时对两个网络的参数进行学习调整常常容易出现训练崩溃的情况,且GAN模型在生成高清晰度的图像任务上往往表现不佳。
近年来,扩散模型(Diffusion Model)的提出使得文本生成图像领域迎来了新的研究热点,扩散模型相较于生成对抗网络在模型训练上更加容易,且模型在生成的图像的创造力和图像质量上往往表现更佳。然而,传统扩散模型由于其扩散过程遵循马尔科夫链,往往需要较大的采样步数(约1000步),因此生成图像的速度往往较为缓慢。
相较于鸟类、花卉等较为简单的图像类别,人脸图像往往蕴含的信息更为复杂且多变。通常,鸟类数据集的文本描述集中于描述鸟类的翅膀、羽毛、喙等关键信息,而花卉类数据集的文本描述主要涉及花瓣或花蕊的形状、数量、颜色等,而面部特征与面部描述之间的联系要薄弱许多。对于人的面部描述,往往会牵涉到年龄、性别、种族、发型和其他重要的面部装饰元素,因此现有的通用类文本到图像的生成方法往往在人脸图像的细节上表现不佳。
对于现有的人脸图像生成方面的工作,由于数据集支撑较弱,模型生成的图像多为欧美人种,无法复用于国内的嫌疑人模拟画像工作中,且存在对于描述文本的输入限制,失去了自然语言的灵活性,限制了用户的创造力和想象力。
发明内容
发明目的:本发明目的在于针对现有技术的不足,提供一种人脸图像生成方法、系统及模型训练方法,面向开放性文本,交互式生成人脸图像,不对输入文本的数量、描述风格做限制。
技术方案:本发明所述面像开放性文本的交互式人脸图像生成方法,包括如下步骤:
步骤1:获取给定的用于描述人脸特征的自然语言文本,利用文本编码器进行编码,得到粗粒度文本特征s和细粒度文本特征W,并映射到潜空间中;
步骤2:在潜空间中,由多层扩散模型将文本特征对应的人脸图像生成出来,包括第一阶段、第二阶段,
第一阶段中,将提取到的粗粒度文本特征s输入至多层扩散模型,多层扩散模型通过学习到的潜空间噪声概率分布,生成的低分辨率草图,过程中会产生图像特征,将所述细粒度特征W与图像特征进行特征融合对齐并嵌入记忆网络中,形成记忆槽;
第二阶段中,将图像特征作为对记忆网络的询问,从记忆网络提取出低分辨率草图缺失的细粒度特征,在第一阶段生成草图的基础上,通过潜空间解码恢复出高分辨率的人脸图像。
进一步地,若对第一阶段生成的低分辨率草图不满意,能够进行交互式修改,所述交互式修改包括获取用户反馈的修改文本,将修改文本转化为若干个对应位置的修改提示词,采用修改提示词替换对应位置的原文本特征,并形成若干个注意力图的权重,用于确定需要修正的部分人脸图像,并行使用多头注意力机制,将若干个注意力图连接起来,生成经过用户交互式修正的最终人脸图像。
进一步地,针对获取的自然语言文本,通过分词技术得到长度为d的词序列p=(w1,w2,…,wd),每个单词wi采用预训练的词向量进行表示,i=1~d;将词序列作为RoBERTa模型的输入,通过RoBERTa模型充分挖掘文本中的上下文依赖关系,得到基于上下文语义的文本特征,并使用整段掩码代替单一token的掩码帮助RoBERTa模型进行推断训练。
进一步地,所述第一阶段中通过学习到的噪声概率分布z,生成一个低分辨率草图P0,在生成过程中会产生图像特征R0,采用公式R0=G0(z,s)表示;将低分辨率草图P0在第二阶段中逐步填充细节纹理,采用公式Rk=Gk(Rk-1,W)表示,其中,Rk-1指上一阶段生成器生成的图像特征,图像的细化过程至少进行3次,以获得高分辨图像。
进一步地,所述记忆网络通过键值记忆之间的转换,融合文本语义和图像特征来细化图像细节,包括记忆写入、键寻址、值读取、响应;所述记忆写入通过对先验知识进行编码,从文本中恢复出质量更高的人脸图像,采用公式mi=M(wi)表示,其中,M(·)表示1×1的卷积运算;所述键寻址使用键存储寻找相关的记忆,每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出,/>是一个通过1×1卷积实现将键存储特征映射到对应维数的过程;所述值读取输出记忆表示由值记忆根据相似概率加权求和后得到,其中,/>是一个通过1×1卷积实现的将值记忆映射到相应维数的过程;所述响应是指在收到前面的输出记忆后,将当前人脸图像结合输出记忆得到新的人脸图像特征,此功能通过连接操作实现/>然后通过上采样和残差块将得到的图像特征升级为具有高分辨率的人脸图像,再通过卷积得到细化后的高分辨率的人脸图像。
用于实现所述面像开放性文本的交互式人脸图像生成方法的系统,包括:
中国人脸-描述文本对数据集,通过网络抽取人脸图像,使用图像描述生成模型结合人工筛查为人脸图像生成描述,再通过文本风格迁移增加描述风格变化,以形成所述中国人脸-描述文本对数据集;
跨模态多粒度特征提取融合模块,针对描述文本充分挖掘文本中的上下文依赖关系,得到基于上下文语义的文本特征,并使用整段掩码代替单一token的掩码帮助模型进行推断训练,同时应用预训练的Resnet模型将人脸图像映射为高维向量,将描述文本与人脸图像的配对关系作为指导,训练得到描述文本、人脸图像特征融合表示;
融合动态记忆网络的多层人脸生成模块,根据描述文本、人脸图像特征融合表示,在多阶段人脸生成模型的第一阶段通过提取到的粗粒度特征生成体现对应目标人脸特征的低分辨率草图,同时,将描述文本中提取到的多粒度特征与图像特征进行特征融合对齐并嵌入记忆网络中,形成记忆槽;在第二阶段,将图像特征作为对记忆网络的询问,从记忆网络提取出草图中缺失的细粒度特征,在第一阶段生成草图的基础上,修正草图错误,改善图像质量并提高图像分辨率。
用于图像生成的模型训练方法,包括如下步骤:
步骤1:获取用于描述人脸特征的描述性文本,将其转化为文本语义的嵌入表示;
步骤2:将文本语义的嵌入表示映射到潜空间中,通过潜空间编码器输出文本的潜空间编码;
步骤3:针对得到的潜空间编码,多层扩散模型在潜空间中进行前向加噪和反向去噪,过程中学习潜空间噪声概率分布以及文本特征与图像特征的对应关系,同时,多层扩散模型与记忆网络相结合,记忆网络通过键值记忆之间的转换,融合文本语义和图像特征来细化图像细节;
步骤4:通过多层扩散模型生成的图像与数据集中的真实图像进行相似度对比,生成损失函数,通过损失函数计算梯度惩罚,并通过梯度的反向传播对多层扩散模型进行训练;
步骤5:针对完成训练的多层扩散模型,接受文本输入作为条件,通过文本编码器提取文本特征,并将其映射在潜空间中,由多层扩散模型在潜空间中生成对应文本特征的人脸图像的潜空间表示,最后通过潜空间解码生成人脸图像。
进一步地,所述步骤4中多层扩散模型的训练过程为:
设总加噪步数为T,样本数据的初始分布为[x0,q(x0)],在前向加噪过程中的每一时刻t向数据中加入均值和标准差为固定值的高斯噪声,过程如式(1)所示,
其中,xt为加噪至t时刻的数据;
设定βt为t时刻加噪的参考值,xt-1加噪得到xt的过程如式(2)所示,
其中,z-1~N(0,I),定义αt=1-βt基于马尔可夫假设,经过迭代,式(2)简化为如式(3)所示,
构建θ参数化神经网络模拟原分布的方案,假设p0(xt-1|xt)是逆向过程拟合的概率分布,其服从于高斯分布,均值为μ0,方差为将方差/>设定为与时间相关的常数/>不参与神经网络训练,在训练过程中,使用网络训练均值μ0,应用贝叶斯公式,根据t时刻过程值xt和初始值x0计算后验条件概率q(xt-1|xt:0),如式(4)所示,
预测过程中的损失函数如式(5)所示,
Lθ=Et,x0,z[||z-ε0(x0,t)||2] z~N(0,I) (5)。
进一步地,所述训练过程中记忆网络通过键值记忆之间的转换,融合文本语义和图像特征来细化图像细节,共包含以下4个部分:记忆写入、键寻址、值读取、响应;首先是记忆写入,它的作用是对先验知识进行编码,从文本中恢复出质量更高的人脸图像,如公式mi=M(wi)所示,其中,M(·)表示1×1的卷积运算;其次是键寻址,使用键存储寻找相关的记忆,每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出,/>是一个通过1×1卷积实现的将键存储特征映射到对应维数的过程;接着是值读取,输出记忆表示/>由值记忆根据相似概率加权求和后得到,其中/>同样是一个通过1×1卷积实现的将值记忆映射到相应维数的过程;最后是响应,在收到前面的输出记忆后,将当前人脸图像结合输出表示得到新的人脸图像特征,此功能通过连接操作实现/>
进一步地,所述多层扩散模型的文本嵌入层来执行语义操作以进行交互式修改,将修改文本转化为若干个对应位置的修改提示词,采用修改提示词替换对应位置的原文本特征,包括如下处理过程:在记忆网络中,多层扩散模型的噪声图像的深度空间特征表示为公式/>而修改文本嵌入到记忆网络中的特征矩阵表示为公式注意力图的权重M表示为/>其中:d表示在记忆网络中潜空间所处于的维度,权重M的大小与Q和K之间的相似性相关;并行使用多头注意力机制,将若干个注意力图连接起来,生成经过用户交互式修正的最终人脸图像。
有益效果:与现有技术相比,本发明的优点在于:本方法可面向中文开放性文本,交互式生成中国人脸图像,解决了现有人脸生成模型生成人脸图像多为欧美人种的问题,该方法在国内嫌疑犯模拟画像的应用中更具有实际应用。
本方法可面向开放性文本,不对输入文本的数量、描述风格做限制,相较于现有方法均对输入文本的形式、数量进行限制的现象,本方法可充分体现自然语言的灵活性和多变性,更有效地对文本特征进行多粒度提取。
本方法可交互式生成人脸图像,即对第一阶段生成的图像中某一部位不满意时,可通过文本作为引导,指导模型对文本指定部位进行交互式修改,有效解决人脸图像生成过程中,无法通过语言描述一次性概括全部人脸特征的问题。
附图说明
图1是本发明公开的以文本输入为引导的交互式图像修改注意力权重更新示意图;
图2是本发明公开的面向开放性文本的交互式中国人脸图像生成方法的训练流程图;
图3是本发明公开的面向开放性文本的交互式中国人脸图像生成方法的整体框架图。
具体实施方式
下面通过附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:去噪扩散模型的主要原理即首先通过连续添加高斯噪声来破坏图像的原始数据,再通过反向采样尝试恢复图像。前向扩散过程遵循马尔科夫链,在连续的节点上不断加入噪声使得原有的图像分布转化为一个简单的标准高斯分布。在逆向去噪过程中,从标准高斯分布中进行采样,每一步尝试还原一小部分高斯噪声,使图像逐步贴近真实数据分布,进而得到真实数据分布中的样本。
具体而言,在前向加噪过程中,设总加噪步数为T,样本数据的初始分布为[x0,q(x0)],在前向加噪过程中的每一时刻t向数据中加入均值和标准差为固定值的高斯噪声,过程如公式所示,其中:xt为加噪至t时刻的数据。
值得注意的是,每一次加入的噪声并不是相同的,设定βt为t时刻加噪的参考值,满足0<β1<…<βt<…<βT<1。xt-1加噪得到xt的过程如公式:
其中:z-1~N(0,I),定义αt=1-βt基于马尔可夫假设,经过迭代;
公式可化简为公式:
去噪扩散模型的逆向解噪过程是从噪声中逐步去除噪声重建数据的过程,在生成模型中,训练结束后使用逆向过程生成图片。整个去噪过程同样可以视为一个马尔可夫链,若逆向过程中的每一步t能够精确求得条件概率分布q(xt-1|xt),则可以通过反向迭代不断采样得到q(x0)完成生成任务。
然而,由于q(xt-1|xt)取决于全部样本的数据分布,所以直接求得q(x0)并不现实,因此,采用构建θ参数化神经网络模拟原分布的方案,假设p0(xt-1|xt)是逆向过程拟合的概率分布,其服从于高斯分布,均值为μ0,方差为为减少神经网络训练难度,便于后续计算,将方差/>设定为与时间相关的常数/>不参与神经网络训练,/>的计算如所示。在训练过程中,仅使用网络训练均值μ0即可,应用贝叶斯公式,根据t时刻过程值xt和初始值x0计算后验条件概率q(xt-1|xt:0);
如公式所示,
预测过程中的损失函数为Lθ=Et,x0,z[||z-ε0(x0,t)||2]z~N(0,I)。
本发明公开的面向开放性文本的交互式中国人脸图像生成方法的训练流程可分为以下步骤:
步骤1,输入描述人脸特征的描述性文本,通过大规模文本与训练模型对文本特征进行提取,并在潜空间中对自然语言文本进行编码,得到文本语义嵌入表示;
步骤2,将步骤1得到的文本语义嵌入表示在潜空间中,通过潜空间编码器输出文本的潜空间编码;
步骤3,针对步骤2得到潜空间编码,由潜空间多层扩散模型在潜空间中对编码进行前向加噪和反向去噪的过程学习潜空间表示的分布以及文本特征与图像特征的对应关系,并通过记忆网络结合多层扩散模型,逐级提升图像生成的质量和分辨率;
步骤4,通过多层扩散模型生成的图像与数据集中的真实图像的相似度对比生成损失函数,由损失函数计算梯度,并通过梯度的反向传播方式对模型进行训练;
步骤5,对于完成训练的多层扩散模型,即可通过文本输入作为条件,通过文本编码器提取文本特征,并将其映射在潜空间中,由扩散模型在潜空间中将对应文本特征的人脸图像的潜空间表示生成出来,最后通过潜空间解码生成人脸图像。
动态记忆网络的源知识首先被写入记忆网络中形成多个记忆槽,接着问题以检索的形式输入,通过类似注意力机制的方式,与各记忆槽计算相关度,最终从记忆网络中读取出加权的记忆内容作为问题的答案。在多阶段人脸图像生成过程中,当前生成的图像可作为“问题”用以检索描述文本中对于提升图像质量有益的片段,从而修正生成图像中的存在的问题。在图像生成的各阶段,采用词格抽取描述文本的单词及短语层面的多粒度文本特征序列将与原始图像结合,通过写入记忆子网络形成动态知识内容嵌入,同时,原始图像被编码为检索向量,以Key-Value的键值形式,简便地编码先验知识,更好地通过对不同数据采用不同的键值索引从而减少对模型嵌入矩阵的依赖,使模型更好的找到相关记忆生成图像。
对于模型的交互式修改功能,本发明利用扩散模型的文本嵌入层来执行语义操作。将修改的文本部分转化为数个对应位置的修改提示词prompt,与原特征中对应位置的文本特征替换,最终仅改变需要调整部分的注意力权重,不改变其他位置的注意力权重,得到新的注意力图的过程如图1所示。之后再对生成模型进行优化,以更好地重建输入图像,最后一步是对潜在表示进行处理,得到编辑结果。具体来说,在动态记忆网络中,扩散模型的噪声图像的深度空间特征可以表示为公式/>而修改文本嵌入到记忆网络中的特征矩阵可表示为公式/>注意力图的权重M表示为其中:d表示在记忆网络中,潜空间所处于的维度。权重M的大小与Q和K之间的相似性相关。为了提高注意力权重的表现力,并行使用多头注意力机制,然后将结果连接起来并通过学习的线性层得到最终的输出。
各部件组成及关系如图3所示,模型整体可以分为跨模态多粒度特征提取模块和融合动态记忆网络的多层人脸图像生成模块和中国人脸-描述图像文本对数据集三个部分。
首先,针对现有公开的人脸文本对数据集中不存在以中国人脸为基础的图像描述文本对数据集。为实现最终生成中国人脸风格的人脸图像,本发明需要自行构建中国人脸图像文本对数据集。本发明通过网络抽取9000张中国人脸图片,并使用图像描述生成模型结合人工筛查为人脸图像生成描述,再通过文本风格迁移增加描述风格变化,增强数据集鲁棒性,从而构成一组高质量的中国人种的图像文本对数据集。
其次,在跨模态多粒度特征提取融合模块,针对中文语言特点,引入词格(lattice)的概念对文本进行字、词、句子的多粒度特征提取。充分挖掘文本中的上下文依赖关系,得到基于上下文语义的文本特征,并使用整段掩码代替单一token的掩码帮助模型进行推断训练。同时应用预训练的Resnet模型将人脸图像映射为高维向量,通过半监督的形式,将描述与图像的配对关系作为指导,训练得到多粒度文本特征表示。该过程对应整体框架中的“跨模态多粒度特征融合提取模块”部分。
最后,在融合动态网络的多层人脸生成模块中,根据文本、图像特征融合表示以及中国人种面部特征点分布,在多阶段生成网络的第一阶段Diffusion1通过提取到的粗粒度特征生成体现对应目标人脸特征的低分辨率草图。同时,将描述文本中提取到的多粒度特征与图像特征进行特征融合对齐并嵌入记忆网络中,形成记忆槽。
在第二阶段,考虑人脸草图与描述之间的差异,将图像信息作为对记忆网络的询问,从记忆网络提取出草图中缺失的细粒度特征,由Diffusion2网络在第一阶段生成草图的基础上,修正草图错误,提升图像分辨率,改善图像质量并提高图像分辨率。在实际应用中,用户对生成人脸提供反馈,反馈文本可进一步指导模型修正生成图像。该过程对应整体框架中的“融合动态网络的多层人脸生成模块”。
工作过程:一种面向开放性文本的交互式人脸图像生成方法,如图2所示,包括下列步骤:
步骤1,构建文本编码器,输入自然语言文本序列,输出文本的嵌入表示。自然语言文本序列是通过分词技术得到的长度为d的词序列p=(w1,w2,…,wd),其中每个单词wi采用预训练的词向量进行表示,i=1~d。
如:输入自然语言“她有着一头栗色的长头发”,通过分词技术初步得到词序列['她','有着','一','头','栗色','的','长头发'],去掉停用词得到最后的词序列P=[‘她’,‘栗色’,‘长头发’],序列长度d=3,对于不同的输入d的值不相同。
将分词后得到的线性序列,作为RoBERTa的输入。通过RoBERTa充分挖掘文本中的上下文依赖关系,得到基于上下文语义的文本特征。并使用整段掩码代替单一token的掩码帮助模型进行推断训练。
步骤2,构建文本潜空间编码,使用自动编码器(Auto Encoder)结构捕获感知压缩,自动编码器中的编码器将高维数据投影到潜在空间。
步骤3,潜空间扩散模型在潜空间中通过从正态分布变量中逐步去除噪声来学习数据分布。正向加噪的过程如公式所示,其中,xt为加噪至t时刻的数据,定义αt=1-βt,/>基于马尔可夫假设,经过迭代,公式可表示为
预测过程中的损失函数为z~N(0,I)。
将给定的文本描述通过特征提取得到粗粒度文本特征s和细粒度文本特征W,在第一阶段生成器中,将提取到的粗粒度文本特征输入至扩散模型,扩散模型通过学习到的噪声概率分布z,生成一个具有少量细节的粗糙原始人脸图像P0,如公式R0=G0(z,s)所示,G0指第一阶段扩散模型生成图像的过程描述,在生成过程中会产生图像特征R0,图像特征是一个维度为t的向量。接下来将原始图像在下一阶段扩散模型中逐步填充细节纹理,以合成尽可能真实的人脸图像,如公式Rk=Gk(Rk-1,W)所示。其中Rk-1指上一阶段生成器生成的图像特征,为得到高分辨率的图像,图像的细化过程至少进行3次,以获得高分辨图像。基于动态记忆网络的图像细化阶段通过键值记忆之间的转换,融合文本语义和图像特征来细化图像细节,它共包含以下4个部分:记忆写入、键寻址、值读取、响应。
首先是记忆写入,它的作用是对先验知识进行编码,从文本中恢复出质量更高的人脸图像,如公式mi=M(wi)所示,其中,M(·)表示1×1的卷积运算。其次是键寻址,在这一步,使用键存储寻找相关的记忆。每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出。/>是一个通过1×1卷积实现的将键存储特征映射到对应维数的过程。接着是值读取,输出记忆表示/>由值记忆根据相似概率加权求和后得到。其中/>同样是一个通过1×1卷积实现的将值记忆映射到相应维数的过程。最后是响应,在收到前面的输出记忆后,将当前人脸图像结合输出表示得到新的人脸图像特征,此功能通过连接操作实现/>上采样模块将得到图像的潜空间特征逐步升维到图像空间,再通过预训练好的解码器生成人脸图像P。
步骤4,将生成图像和真实图像输入到图像编码器进行相似度对比,通过损失函数z~N(0,I)计算梯度惩罚,并通过梯度反向传播是模型自行修正,从而学习正确的文本与图像在潜空间中的映射关系。
训练参数设置如下,学习率LR=0.00001,更新网络的优化器采用AdamW,权值衰减设置为0.0001,在采样过程中采用DDIM采样200步,guidance_scale设置为8从而获得更稳定的扩散。在训练过程中,可冻结编码器E和解码器D以进行模型的微调任务。
综上所述,本发明公开的基于融合动态记忆网络的多层扩散模型实现文本描述到人脸图像生成的方法,相比于传统的生成对抗网络方法,在模型训练上更加容易,且生成图像的多样性更丰富,图像质量更高,相比于传统的扩散模型生成图像,通过多层扩散模型融合记忆网络可实现交互式的人脸图像生成,更符合人脸这类表述复杂的图像生成的实际使用场景。本发明可通过自己建立的中国人脸-图像文本对数据集实现面向开放文本的交互式中国人脸图像生成。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (10)

1.一种面像开放性文本的交互式人脸图像生成方法,其特征在于,包括如下步骤:
步骤1:获取给定的用于描述人脸特征的自然语言文本,利用文本编码器进行编码,得到粗粒度文本特征s和细粒度文本特征W,并映射到潜空间中;
步骤2:在潜空间中,由多层扩散模型将文本特征对应的人脸图像生成出来,包括第一阶段、第二阶段,
第一阶段中,将提取到的粗粒度文本特征s输入至多层扩散模型,多层扩散模型通过学习到的潜空间噪声概率分布,生成的低分辨率草图,过程中会产生图像特征,将所述细粒度特征W与图像特征进行特征融合对齐并嵌入记忆网络中,形成记忆槽;
第二阶段中,将图像特征作为对记忆网络的询问,从记忆网络提取出低分辨率草图缺失的细粒度特征,在第一阶段生成草图的基础上,通过潜空间解码恢复出高分辨率的人脸图像。
2.根据权利要求1所述的面像开放性文本的交互式人脸图像生成方法,其特征在于:若对第一阶段生成的低分辨率草图不满意,能够进行交互式修改,所述交互式修改包括获取用户反馈的修改文本,将修改文本转化为若干个对应位置的修改提示词,采用修改提示词替换对应位置的原文本特征,并形成若干个注意力图的权重,用于确定需要修正的部分人脸图像,并行使用多头注意力机制,将若干个注意力图连接起来,生成经过用户交互式修正的最终人脸图像。
3.根据权利要求1所述的面像开放性文本的交互式人脸图像生成方法,其特征在于:针对获取的自然语言文本,通过分词技术得到长度为d的词序列p(w1,w2,…,wd),每个单词wi采用预训练的词向量进行表示,i=1~d;将词序列作为RoBERTa模型的输入,通过RoBERTa模型充分挖掘文本中的上下文依赖关系,得到基于上下文语义的文本特征,并使用整段掩码代替单一token的掩码帮助RoBERTa模型进行推断训练。
4.根据权利要求3所述的面像开放性文本的交互式人脸图像生成方法,其特征在于:所述第一阶段中通过学习到的噪声概率分布z,生成一个低分辨率草图P0,在生成过程中会产生图像特征R0,采用公式R0=G0(z,s)表示;将低分辨率草图P0在第二阶段中逐步填充细节纹理,采用公式Rk=Gk(Rk-1,W)表示,其中,Rk-1指上一阶段生成器生成的图像特征,图像的细化过程至少进行3次,以获得高分辨图像。
5.根据权利要求4所述的面像开放性文本的交互式人脸图像生成方法,其特征在于:所述记忆网络通过键值记忆之间的转换,融合文本语义和图像特征来细化图像细节,包括记忆写入、键寻址、值读取、响应;所述记忆写入通过对先验知识进行编码,从文本中恢复出质量更高的人脸图像,采用公式mi=M(wi)表示,其中,M(·)表示1×1的卷积运算;所述键寻址使用键存储寻找相关的记忆,每个记忆槽的权重为 通过计算记忆槽mi和图像特征rj之间的相似概率得出,/>是一个通过1×1卷积实现将键存储特征映射到对应维数的过程;所述值读取输出记忆表示/>由值记忆根据相似概率加权求和后得到,其中,/>是一个通过1×1卷积实现的将值记忆映射到相应维数的过程;所述响应是指在收到前面的输出记忆后,将当前人脸图像结合输出记忆得到新的人脸图像特征,此功能通过连接操作实现/>然后通过上采样和残差块将得到的图像特征升级为具有高分辨率的人脸图像,再通过卷积得到细化后的高分辨率的人脸图像。
6.用于实现权利要求1所述方法的系统,其特征在于,包括:
中国人脸-描述文本对数据集,通过网络抽取人脸图像,使用图像描述生成模型结合人工筛查为人脸图像生成描述,再通过文本风格迁移增加描述风格变化,以形成所述中国人脸-描述文本对数据集;
跨模态多粒度特征提取融合模块,针对描述文本充分挖掘文本中的上下文依赖关系,得到基于上下文语义的文本特征,并使用整段掩码代替单一token的掩码帮助模型进行推断训练,同时应用预训练的Resnet模型将人脸图像映射为高维向量,将描述文本与人脸图像的配对关系作为指导,训练得到描述文本、人脸图像特征融合表示;
融合动态记忆网络的多层人脸生成模块,根据描述文本、人脸图像特征融合表示,在多阶段人脸生成模型的第一阶段通过提取到的粗粒度特征生成体现对应目标人脸特征的低分辨率草图,同时,将描述文本中提取到的多粒度特征与图像特征进行特征融合对齐并嵌入记忆网络中,形成记忆槽;在第二阶段,将图像特征作为对记忆网络的询问,从记忆网络提取出草图中缺失的细粒度特征,在第一阶段生成草图的基础上,修正草图错误,改善图像质量并提高图像分辨率。
7.一种用于图像生成的模型训练方法,其特征在于,包括如下步骤:
步骤1:获取用于描述人脸特征的描述性文本,将其转化为文本语义的嵌入表示;
步骤2:将文本语义的嵌入表示映射到潜空间中,通过潜空间编码器输出文本的潜空间编码;
步骤3:针对得到的潜空间编码,多层扩散模型在潜空间中进行前向加噪和反向去噪,过程中学习潜空间噪声概率分布以及文本特征与图像特征的对应关系,同时,多层扩散模型与记忆网络相结合,记忆网络通过键值记忆之间的转换,融合文本语义和图像特征来细化图像细节;
步骤4:通过多层扩散模型生成的图像与数据集中的真实图像进行相似度对比,生成损失函数,通过损失函数计算梯度惩罚,并通过梯度的反向传播对多层扩散模型进行训练;
步骤5:针对完成训练的多层扩散模型,接受文本输入作为条件,通过文本编码器提取文本特征,并将其映射在潜空间中,由多层扩散模型在潜空间中生成对应文本特征的人脸图像的潜空间表示,最后通过潜空间解码生成人脸图像。
8.根据权利要求7所述的模型训练方法,其特征在于,所述步骤4中多层扩散模型的训练过程为:
设总加噪步数为T,样本数据的初始分布为[x0,q(x0)],在正向加噪过程中的每一时刻t向数据中加入均值和标准差为固定值的高斯噪声,过程如式(1)所示,
其中,xt为加噪至t时刻的数据;
设定βt为t时刻加噪的参考值,xt-1加噪得到xt的过程如式(2)所示,
其中,z-1~N(0,I),定义αt=1-βt基于马尔可夫假设,经过迭代,式(2)简化为如式(3)所示,
构建θ参数化神经网络模拟原分布的方案,假设p0(xt-1|xt)是反向去噪拟合的概率分布,其服从于高斯分布,均值为μ0,方差为将方差/>设定为与时间相关的常数/>不参与神经网络训练,在训练过程中,使用网络训练均值μ0,应用贝叶斯公式,根据t时刻过程值xt和初始值x0计算后验条件概率q(xt-1|xt:0),如式(4)所示,
预测过程中的损失函数如式(5)所示,
9.根据权利要求7所述的模型训练方法,其特征在于:所述训练过程中记忆网络通过键值记忆之间的转换,融合文本语义和图像特征来细化图像细节,共包含以下4个部分:记忆写入、键寻址、值读取、响应;首先是记忆写入,它的作用是对先验知识进行编码,从文本中恢复出质量更高的人脸图像,如公式mi=M(wi)所示,其中,M(·)表示1×1的卷积运算;其次是键寻址,使用键存储寻找相关的记忆,每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出,/>是一个通过1×1卷积实现的将键存储特征映射到对应维数的过程;接着是值读取,输出记忆表示/>由值记忆根据相似概率加权求和后得到,其中/>同样是一个通过1×1卷积实现的将值记忆映射到相应维数的过程;最后是响应,在收到前面的输出记忆后,将当前人脸图像结合输出表示得到新的人脸图像特征,此功能通过连接操作实现/>
10.根据权利要求7所述的模型训练方法,其特征在于:所述多层扩散模型的文本嵌入层来执行语义操作以进行交互式修改,将修改文本转化为若干个对应位置的修改提示词,采用修改提示词替换对应位置的原文本特征,包括如下处理过程:在记忆网络中,多层扩散模型的噪声图像的深度空间特征表示为公式/>而修改文本嵌入到记忆网络中的特征矩阵表示为公式/>注意力图的权重M表示为其中:d表示在记忆网络中潜空间所处于的维度,权重M的大小与Q和K之间的相似性相关;并行使用多头注意力机制,将若干个注意力图连接起来,生成经过用户交互式修正的最终人脸图像。
CN202311315829.6A 2023-10-11 2023-10-11 一种人脸图像生成方法、系统及模型训练方法 Pending CN117522697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311315829.6A CN117522697A (zh) 2023-10-11 2023-10-11 一种人脸图像生成方法、系统及模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311315829.6A CN117522697A (zh) 2023-10-11 2023-10-11 一种人脸图像生成方法、系统及模型训练方法

Publications (1)

Publication Number Publication Date
CN117522697A true CN117522697A (zh) 2024-02-06

Family

ID=89759571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311315829.6A Pending CN117522697A (zh) 2023-10-11 2023-10-11 一种人脸图像生成方法、系统及模型训练方法

Country Status (1)

Country Link
CN (1) CN117522697A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808854A (zh) * 2024-02-29 2024-04-02 腾讯科技(深圳)有限公司 图像生成方法、模型训练方法、装置及电子设备
CN117853638A (zh) * 2024-03-07 2024-04-09 厦门大学 基于文本驱动的端到端的3d人脸快速生成与编辑方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808854A (zh) * 2024-02-29 2024-04-02 腾讯科技(深圳)有限公司 图像生成方法、模型训练方法、装置及电子设备
CN117808854B (zh) * 2024-02-29 2024-05-14 腾讯科技(深圳)有限公司 图像生成方法、模型训练方法、装置及电子设备
CN117853638A (zh) * 2024-03-07 2024-04-09 厦门大学 基于文本驱动的端到端的3d人脸快速生成与编辑方法

Similar Documents

Publication Publication Date Title
CN111916067A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
CN112071329A (zh) 一种多人的语音分离方法、装置、电子设备和存储介质
CN110427989B (zh) 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN110853670B (zh) 音乐驱动的舞蹈生成方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN111861945B (zh) 一种文本引导的图像修复方法和系统
CN113901894A (zh) 一种视频生成方法、装置、服务器及存储介质
CN113140020B (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN114663962B (zh) 一种基于图像补全的唇形同步人脸伪造生成方法及系统
CN111598979A (zh) 虚拟角色的面部动画生成方法、装置、设备及存储介质
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN117521672A (zh) 一种基于扩散模型的长文本生成连续图片的方法
Bie et al. RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
CN113641854B (zh) 一种将文字转化为视频的方法及系统
Zhang et al. A survey on multimodal-guided visual content synthesis
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和系统
CN116485962A (zh) 一种基于对比学习的动画生成方法及系统
CN112069777B (zh) 一种基于骨架的二阶段数据到文本生成方法
CN112580370B (zh) 一种融合语义知识的蒙汉神经机器翻译方法
CN116385606A (zh) 一种语音信号驱动的个性化三维人脸动画生成方法及其应用
Foo et al. Aigc for various data modalities: A survey
CN113822790A (zh) 一种图像处理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination