CN114387366A - 一种感知联合空间注意力文本生成图像方法 - Google Patents
一种感知联合空间注意力文本生成图像方法 Download PDFInfo
- Publication number
- CN114387366A CN114387366A CN202210043174.0A CN202210043174A CN114387366A CN 114387366 A CN114387366 A CN 114387366A CN 202210043174 A CN202210043174 A CN 202210043174A CN 114387366 A CN114387366 A CN 114387366A
- Authority
- CN
- China
- Prior art keywords
- image
- representing
- spatial
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000006870 function Effects 0.000 claims abstract description 29
- 230000008447 perception Effects 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000007547 defect Effects 0.000 claims abstract description 5
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 92
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 9
- 230000008485 antagonism Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000011782 vitamin Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000007670 refining Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000036039 immunity Effects 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims 1
- 239000012141 concentrate Substances 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 210000003323 beak Anatomy 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000287436 Turdus merula Species 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 210000001137 tarsal bone Anatomy 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种感知联合空间注意力文本生成图像方法,包括生成初始图像,绘制对象的基本形状和颜色;进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;细化过程包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;通过训练目标函数,鼓励生成器生成更真实更符合文本语义的图像。本发明保证了生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状,同时避免了生成过程中的随机性,减少了最终生成的图像和目标图像之间的差异,本方法能够提高文本生成图像的感知质量和布局,能够高效准确得生成图像。
Description
技术领域
本发明属于文本合成图像领域,具体涉及一种感知联合空间注意力文本生成图像方法。
背景技术
文本到图像合成技术在艺术生成和计算机辅助设计等领域的应用有很大前景。现在,采用文本生成图像不仅可以大大降低文字创作者匹配图像的成本,还可以提高计算机创作的效率。因此,寻找更有效的方法来生成真实的高分辨率图像,用于文本-图像合成是非常必要的。
生成对抗网络(Generative Adversarial Network,简称GAN)基于博弈论的思想,通过深度神经网络构造生成器模型和判别器模型。生成器以随机噪声为输入生成样本,判别器判断生成样本是否真实。模型训练过程中,生成器不断提高让样本以假乱真的能力,判别器不断提高鉴别的能力。近年来随着GAN理论的不断进步,GAN在一些应用领域上有优异的表现,其中包括GAN在文本生成图像领域取得的成就。
现阶段文本生成图像方法主要分为两种:单阶段方法包括通过对抗式学习进行语义图像合成、文本条件辅助分类器生成对抗网络(TAC-GAN)、即插即用生成网络(PPGAN);多阶段方法包括堆叠的对抗生成网络(StackGAN)、基于注意生成对抗网络的细粒度文本图像生成(AttnGAN)、用于文本图像合成的动态记忆生成对抗网络(DMGAN)。多阶段文本生成图像方法由多个对抗生成网络组成,整个模型分为初始阶段和细化阶段。在初始阶段,随机噪声和编码后的文本联合输入到生成器中生成模糊的初始图像,在后续阶段上一层图像特征向量和词向量拼接输入到对抗生成网络,使得将模糊的初始图像转化为清晰的高分辨率图像,为减少模型复杂度,该阶段一般重复两次,因此多阶段文本生成图像方法一般共有三次生成,其分辨率首先从64*64提升到128*128,然后再提升到256*256。
现有的方法虽然可以产生良好的效果,但它们仍然存在两个问题。首先,大多数先驱方法不能很好地生成真实图像。例如,大多数先驱多阶段方法在生成目标图像时严重依赖初始阶段的布局,原因在于这种策略忽略了信息空间特征,从而导致生成图像布局缺陷(即结构边缘模糊和多对象混淆)。因此,这种方法在文本到图像合成的任务中获得了不真实的图像。其次,根据文本描述生成的图像是随机的。例如,当文本中没有描述对象类别时,生成的图像的内容可能与真实图像有很大不同。此外,尽管多阶段方法是迄今为止最好的生成方法,但在处理具有多个对象的复杂文本(例如COCO数据集)时,它们不能很好地聚焦和细化所有对象,所以生成结果的质量是不准确的。
发明内容
本发明的目的在于提供一种感知联合空间注意力文本生成图像方法,该方法能够提高文本生成图像的感知质量和布局,更加准确高效。
本发明提供的这种感知联合空间注意力文本生成图像方法,包括如下步骤:
S1.生成初始图像,绘制对象的基本形状和颜色;
S2.进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;
S3.训练目标函数,通过加入对抗损失和深度注意多模态相似模型(DeepAttentional Multimodel Similarity Model,简称DAMSM)损失鼓励生成器生成更真实更符合文本语义的图像,加入条件增强损失生成过程中避免过拟合,同时加入感知损失减少生成过程中的随机性,生成最终图像。
所述的步骤S1,生成初始图像包括文本编码器、条件增强模块和对抗生成网络,具体包括:
A1.将描述性的文本输入文本编码器,得到全局句子向量s和细粒度单词向量W;
A2.对全局句子向量s进行条件增强处理转换为低维条件向量s',并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加;
A3.将相加后的组合向量输入第一个生成器G0,输出初始图像的特征向量,并经过神经网络卷积处理得到第一分辨率图像R0=G0(z,s),z为随机噪声向量;s为全局句子向量。
所述的步骤S2,包括如下步骤:
B1.融合文本和图像,对于给定的上一阶段的图像特征Rk-1和单词文本向量W:
B2.将空间注意力模块和动态记忆力模块联合并进行细化,包括先采用空间注意力模块对图像特征图上的每一个位置进行注意力调整,再使用动态记忆力模块在细化阶段选择文本信息调整初始图像内容;
B3.基于响应门和双注意力设计联合响应机制,融合记忆力信息、空间信息和当前图像,生成从空间维度和单词重要性维度细化的新图像特征;
B4.在最后一个生成器上引入感知损失,修正从空间维度和单词重要性维度细化的新图像特征。
步骤B2中,空间注意力模块包括如下步骤:
C1.空间注意力网络的query为上一阶段的图像特征Rk-1,空间注意力网络的key为转换维度后的细粒度单词文本向量对于上一阶段的图像特征Rk-1,每一列都是图像子区域的特征向量,将上一阶段的图像特征Rk-1和细粒度单词文本向量逐元素相乘,计算图像每个子区域在空间维度上与单词之间的相关值:
C2.使用softmax函数对步骤C1得到的空间位置与单词相关值αi,j进行归一化;
其中,mspatial表示归一化后的空间注意力矩阵;
C4.将最终集中空间注意力的词上下文特征fspatial和图像特征连接,生成带有空间注意力的图像特征,然后作为动态记忆力的输入;
其中,Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;fspatial表示最终集中空间注意力的词上下文特征;Rk-1表示给定的上一阶段的图像特征;[·,·]表示连接操作。
步骤B2中动态记忆力模块包括:将从空间注意力模块得到的带有空间注意力的图像特征Rspatial和单词文本向量W输入到动态记忆力模块当中;动态记忆力模块包括记忆写入门、键寻址、值读取:
记忆写入门包括,融合单词文本向量W和空间注意力图像特征Rspatial,并计算单词重要性:
其中,σ(·)表示sigmoid激活函数;A表示1×Nw的矩阵;B表示1×Nr的矩阵;表示j-th单词重要性值;Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;wj表示j-th单词向量;
将单词和单词对应的重要性值存入键值结构化内存中:
其中,表示写入的j-th记忆插槽,存储内容为单词-单词重要性的键值对;wj表示j-th单词向量;表示j-th单词重要性值;Mw和Mr均为1×1的卷积操作,用于将单词特征和图像特征映射到和写入的j-th记忆插槽相同的维度;ri spatial表示带有位置信息的i-th图像像素特征;
所述的步骤B3,包括:从单词重要性维度出发,动态控制记忆力读取的信息流和上一个阶段的图像信息流结合:
其中,gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;b'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门的偏差项;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;
从空间信息和单词重要性信息角度同时出发,动态控制记忆力读取的信息流和带有空间注意力的图像信息流结合:
其中,gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;ri spatial表示带有位置信息的i-th图像像素特征;b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值;
根据记忆写入机制控制空间信息、记忆信息、当前图像信息的融合:
其中,ri new表示空间注意力和记忆力共同作用生成的新图像特征,ri new经过一个上采样模块和两个残差模块生成当前阶段的图像;gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征。
所述的步骤B4,包括:采用ImageNet数据集上预训练的19层VGG网络的感知损失,并将最后一个生成器的生成图像和真实图像输入感知损失网络;在relu5_4层激活图像特征;感知损失Lpl(Rreal,Rfake)的表达式为:
其中,感知损失Lpl(Rreal,Rfake)由在ImageNet数据集上预训练19层VGG网络的ReLU激活层定义;Rreal表示真实图像;Rfake表示最后一个生成器的生成图像;Rreal和Rfake均为Ck×Hk×Wk的图像特征图,Ck表示图像通道数;Hk表示图像的高度;Wk表示图像的宽度;φk(·)表示VGG网络处理图像时k-th的激活;表示真实图像和生成图像内容特征的欧式距离。
所述的步骤S3,目标函数包括,
其中,L表示总损失函数;λ1表示条件增强损失LCA的权重;λ2表示DAMSM损失LDAMSM的权重,文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失,DAMSM损失鼓励生成图像内容更加符合文本描述,在本实施例中,λ1=1,λ2=6;LGi表示第i个生成器的对抗损失函数;在本实施例中总共有3次生成;
其中,Lpl表示感知损失;β表示感知损失的权重;log表示取一个大于2的整数的对数,用于简便计算;生成器Gi包括相应的鉴别器Di,Di(x)表示判断从模型分布PGi采样的生成图像x为真实图像的概率;Di(x,s)表示判断根据条件(文本变量s)生成的从模型分布PGi采样的生成图像x为真实图像的概率;
其中,x~Pdata表示生成图像服从真实图像;pdata表示真实图像分布;data表示真实图像;
计算条件增强损失:条件增强损失是标准高斯分布和条件高斯分布之间的Kullback-Leibler散度,具体为:
其中,LCA表示条件增强损失;DKL(·)表示Kullback-Leibler散度;μ(s)表示文本嵌入s的句子特征的均值,∑(s)表示文本嵌入s的对角协方差矩阵;表示独立的高斯分布;I表示单位矩阵。
本发明提供的这种感知联合空间注意力文本生成图像方法,将单词级的空间注意力方法与动态记忆力方法结合并联合响应,保证生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状;同时本方法在多阶段文本生成图像模型的最后一个生成器引入感知损失函数,目的是减少最终生成的图像和目标图像之间的差异,使要生成的图像更在语义上与目标图像相似,本方法能够提高文本生成图像的感知质量和布局,能够高效准确得生成图像。
附图说明
图1为本发明方法的流程示意图。
图2为本发明实施例的流程示意图。
图3为本发明方法的空间注意力模块的结构示意图。
图4为本发明方法的联合响应机制示意图。
图5为本发明方法的感知损失网络示意图。
图6为本发明实施例一的文本生成图像结果示意图。
图7为本发明实施例二的文本生成图像结果示意图。
图8为本发明实施例三的文本生成图像结果示意图。
图9为本发明实施例四的文本生成图像结果示意图。
具体实施方式
本发明提出了一种感知联合空间注意力文本生成图像方法,本方法基于多阶段对抗生成网络,旨在提高文本生成图像的感知质量和布局。本方法的思想来源基于双注意力机制,具体来说,本方法考虑将词级的空间注意力方法与动态记忆力方法结合并联合响应,保证生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状。此外,该方法为多阶段文本生成图像模型的最后一个生成器引入感知损失函数,目的是减少最终生成的图像和目标图像之间的差异,使要生成的图像更在语义上与目标图像相似。
为实现上述目的,采用如下解决方案:
如图1为本发明方法的流程示意图:本发明提供的这种感知联合空间注意力文本生成图像方法,包括如下步骤:
S1.生成初始图像,绘制对象的基本形状和颜色;
S2.进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;
S3.训练目标函数,通过加入对抗损失和DAMSM损失鼓励生成器生成更真实更符合文本语义的图像,加入条件增强损失生成过程中避免过拟合,同时加入感知损失减少生成过程中的随机性,生成最终图像。
如图2为本发明实施例的流程示意图。所述的步骤S1,由于仅使用全局句子向量,使绘制的第一分辨率图像丢失重要细粒度信息,因此生成初始图像包括文本编码器、条件增强模块和对抗生成网络,具体包括:
A1.将描述性的文本输入文本编码器,得到全局句子向量s和细粒度单词向量W;
A2.对全局句子向量s进行条件增强处理转换为低维条件向量s',并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加;
A3.将相加后的组合向量输入第一个生成器G0,输出初始图像的特征向量,并经过神经网络卷积处理得到第一分辨率图像R0=G0(z,s),z为随机噪声向量;s为全局句子向量。
所述的步骤S2,包括如下步骤:
B1.融合文本和图像,对于给定的上一阶段的图像特征Rk-1和单词文本向量W:
其中,wj表示j-th单词向量;T表示单词的数目;表示维度为Nw实数空间;单词文本向量W通过感知器M将单词文本向量转换到图像特征的公共语义空间中, 表示细粒度单词文本向量,是和图像特征相同维度的文本语义;包括T个细粒度单词向量,即
B2.如图3为本发明方法的空间注意力模块的结构示意图。动态记忆力模块和空间注意力模块联合的细化基于双注意力网络的思想。空间注意力模块对图像特征图上的每一个位置进行注意力调整,即计算图像特征与单词的关联强度,目的为使模型关注到值得更多关注的区域上。动态记忆力模块帮助模型在细化阶段帮助选择重要的文本信息调整初始图像内容。
空间注意力模块和动态记忆力模块是两个独立的部分,如此设计可以减少参数和计算力。这两部分可以并行或顺序组合,在本方法中空间注意力模块在先,动态记忆力模块在后。空间注意力网络由不同尺度的1*1卷积层组成,因为不同阶段不同生成器生成的图像尺寸不同,当图像特征输入空间注意力网络时,要先对图像特征尺寸做判断,确定注意力的键值。
其中,实现空间注意力模块采用如下技术,具体结构见图3,空间注意力模块包括如下步骤:
C1.空间注意力网络的query(查询)为上一阶段的图像特征Rk-1,空间注意力网络的key(键)为转换维度后的细粒度单词文本向量对于上一阶段的图像特征Rk-1,每一列都是图像子区域的特征向量,将上一阶段的图像特征Rk-1和细粒度单词文本向量逐元素相乘,计算图像每个子区域在空间维度上与单词之间的相关值:
C2.使用softmax函数对步骤C1得到的空间位置与单词相关值αi,j进行归一化;
其中,mspatial表示归一化后的空间注意力矩阵,权重取值范围为0-1;
C4.将最终集中空间注意力的词上下文特征fspatial和图像特征连接,生成带有空间注意力的图像特征,然后作为动态记忆力的输入;
其中,Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;fspatial表示最终集中空间注意力的词上下文特征;Rk-1表示给定的上一阶段的图像特征;[·,·]表示连接操作;
将从空间注意力模块得到的带有空间注意力的图像特征Rspatial和单词文本向量W输入到动态记忆力模块当中;动态记忆力模块包括记忆写入门、键寻址、值读取:
记忆写入门包括,融合单词文本向量W和空间注意力图像特征Rspatial,并计算单词重要性:
其中,σ(·)表示sigmoid激活函数;A表示1×Nw的矩阵;B表示1×Nr的矩阵;表示j-th单词重要性值;Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;wj表示j-th单词向量;
将单词和单词对应的重要性值存入键值结构化内存中:
其中,表示写入的j-th记忆插槽,存储内容为单词-单词重要性的键值对;wj表示j-th单词向量;表示j-th单词重要性值;Mw和Mr均为1×1的卷积操作,用于将单词特征和图像特征映射到和写入的j-th记忆插槽相同的纬度;ri spatial表示带有位置信息的i-th图像像素特征;
如图4为本发明方法的双注意力机制示意图。B3.从单词重要性维度出发,动态控制记忆力读取的信息流和上一个阶段的图像信息流结合:
其中,gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;b'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门的偏差项;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;
从空间信息和单词重要性信息角度同时出发,动态控制记忆力读取的信息流和带有空间注意力的图像信息流结合:
其中,gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征;b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值;
根据记忆写入机制合理有效地控制空间信息、记忆信息、当前图像信息的融合:
其中,ri new表示空间注意力和记忆力共同作用生成的新图像特征,ri new经过一个上采样模块和两个残差模块生成当前阶段的图像;gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征。
如图5为本发明方法的感知损失网络示意图;B4.引入感知损失的思想基于超分辨率技术,超分辨技术是指从观测到的低分辨率图像重建出相应的高分辨率图像,文本生成图像方法的细化阶段也是补充图像细节提高分别率的过程,这一过程与超分辨率思想相同。感知损失网络包含两种损失,一种是风格损失,一种是内容损失,根据应用本方法中只借鉴内容损失。引入感知的内容损失部分大大减小了生成过程中的随机性。具体地说,即使生成任务遇到文本中没有指定物体类别或者没有详细说明某对象时,也可以生成与真实图像相似的图像。在文本生成图像领域,往往通过Caltech-UCSD Birds 200(CUB),COCO两个数据集进行训练,而COCO数据集包含多个对象,并且背景和风景设置种类繁多,所以上述的复杂情况是很常见的,现实生活中也会出现更复杂的情况。各种文本生成图像方法的实验结果也显示COCO数据集上的生成图像质量比CUB数据集差。本方法只在最后一个生成器上引入了感知损失,保证了网络在控制随机性的基础上减少训练时间。感知损失属于高级特征损失,是基于比较待生成的图片经过CNN的特征值和目标图片经过CNN的特征值,使得待生成的图片和目标图片在语义上更加相似。
在最后一个生成器上引入感知损失包括:采用ImageNet数据集上预训练的19层VGG网络的感知损失,并将最后一个生成器的生成图像和真实图像输入感知损失网络;在relu5_4层激活图像特征;感知损失Lpl(Rreal,Rfake)的表达式为:
其中,感知损失Lpl(Rreal,Rfake)由在ImageNet数据集上预训练19层VGG网络的ReLU激活层定义;Rreal表示真实图像;Rfake表示最后一个生成器的生成图像;Rreal和Rfake均为Ck×Hk×Wk的图像特征图,Ck表示图像通道数;Hk表示图像的高度;Wk表示图像的宽度;φk(·)表示VGG网络处理图像时k-th的激活;表示真实图像和生成图像内容特征的欧式距离;
选择只在最后一个生成器上引入感知损失,具有以下优点:经过评价指标IS和R精度证明只在最后一个生成器上引入感知损失生成效果更好;网络负载小;避免引起过拟合问题。
所述的步骤S3,目标函数包括,
其中,L表示总损失函数;λ1表示条件增强损失LCA的权重;λ2表示DAMSM损失LDAMSM的权重,文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失,DAMSM损失鼓励生成图像内容更加符合文本描述,在本实施例中,λ1=1,λ2=6;表示第i个生成器的对抗损失函数;在本实施例中总共有3次生成;
其中,第i次生成Gi的对抗损失函数包括无条件对抗性损失和条件对抗性损失无条件对抗性损失有利于生成图像更真实,条件对抗性损失使基于条件对抗生成网络生成的图像尽可能与文本匹配;Lpl表示感知损失;β表示感知损失的权重,感知损失只在第三阶段添加,在i=0和i=1时,β=0,在i=2时,β=1;log表示取一个大于2的整数的对数,用于简便计算;生成器Gi包括相应的鉴别器Di,Di(x)表示判断从模型分布PGi采样的生成图像x为真实图像的概率;Di(x,s)表示判断根据条件(文本变量s)生成的从模型分布PGi采样的生成图像x为真实图像的概率;
其中,每个鉴别器的对抗性损失包括无条件对抗性损失和条件对抗性损失无条件对抗性损失用于判断生成图像是否真实,条件对抗性损失用于判断基于条件对抗生成网络生成的图像是否与文本匹配。x~Pdata表示生成图像服从真实图像;pdata表示真实图像分布;data表示真实图像;
计算条件增强损失:条件增强损失是标准高斯分布和条件高斯分布之间的Kullback-Leibler散度,具体为:
其中,LCA表示条件增强损失;DKL(·)表示Kullback-Leibler散度;μ(s)表示文本嵌入s的句子特征的均值,∑(s)表示文本嵌入s的对角协方差矩阵;表示独立的高斯分布;I表示单位矩阵。
在具体实施方式中:如图6为本发明实施例一的文本生成图像结果示意图。输入文本“一只更大的鸟,但它有一个小喙,全身是灰色、黑色和白色”,生成图像图6。如图7为本发明实施例二的文本生成图像结果示意图。输入文本“这种鸟的喙比它的头大,尾羽长,胸部有灰色斑点,颜色很深”,生成图7。如图8为本发明实施例三的文本生成图像结果示意图。输入文本“这种鸟的腹部和胸部有斑点,嘴短而钝”,生成图8。如图9为本发明实施例四的文本生成图像结果示意图。输入文本“黑色的小鸟,短而黑的跗骨和大而短的黑色喙”,生成图9;从图6-9中可以看出,本方法能准确识别文本并生成所需图像,操作简单效果好。
Claims (8)
1.一种感知联合空间注意力文本生成图像方法,其特征在于包括如下步骤:
S1.生成初始图像,绘制对象的基本形状和颜色;
S2.进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;
S3.训练目标函数,通过加入对抗损失和DAMSM损失鼓励生成器生成更真实更符合文本语义的图像,加入条件增强损失生成过程中避免过拟合,同时加入感知损失减少生成过程中的随机性,生成最终图像。
2.根据权利要求1所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤S1,生成初始图像包括文本编码器、条件增强模块和对抗生成网络,具体包括:
A1.将描述性的文本输入文本编码器,得到全局句子向量s和细粒度单词向量W;
A2.对全局句子向量s进行条件增强处理转换为低维条件向量s',并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加;
A3.将相加后的组合向量输入第一个生成器G0,输出初始图像的特征向量,并经过神经网络卷积处理得到第一分辨率图像R0=G0(z,s),z为随机噪声向量;s为全局句子向量。
3.根据权利要求2所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤S2,包括如下步骤:
B1.融合文本和图像,对于给定的上一阶段的图像特征Rk-1和单词文本向量W:
B2.将空间注意力模块和动态记忆力模块联合并进行细化,包括先采用空间注意力模块对图像特征图上的每一个位置进行注意力调整,再使用动态记忆力模块在细化阶段选择文本信息调整初始图像内容;
B3.基于响应门和双注意力设计联合响应机制,融合记忆力信息、空间信息和当前图像,生成从空间维度和单词重要性维度细化的新图像特征;
B4.在最后一个生成器上引入感知损失,修正从空间维度和单词重要性维度细化的新图像特征。
4.根据权利要求3所述的感知联合空间注意力文本生成图像方法,其特征在于步骤B2中,空间注意力模块包括如下步骤:
C1.空间注意力网络的query为上一阶段的图像特征Rk-1,空间注意力网络的key为转换维度后的细粒度单词文本向量对于上一阶段的图像特征Rk-1,每一列都是图像子区域的特征向量,将上一阶段的图像特征Rk-1和细粒度单词文本向量逐元素相乘,计算图像每个子区域在空间维度上与单词之间的相关值:
C2.使用softmax函数对步骤C1得到的空间位置与单词相关值αi,j进行归一化;
其中,mspatial表示归一化后的空间注意力矩阵;
C4.将最终集中空间注意力的词上下文特征fspatial和图像特征连接,生成带有空间注意力的图像特征,然后作为动态记忆力的输入;
其中,Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;fspatial表示最终集中空间注意力的词上下文特征;Rk-1表示给定的上一阶段的图像特征;[·,·]表示连接操作。
5.根据权利要求4所述的感知联合空间注意力文本生成图像方法,其特征在于步骤B2中动态记忆力模块包括:将从空间注意力模块得到的带有空间注意力的图像特征Rspatial和单词文本向量W输入到动态记忆力模块当中;动态记忆力模块包括记忆写入门、键寻址、值读取:
记忆写入门包括,融合单词文本向量W和空间注意力图像特征Rspatial,并计算单词重要性:
其中,σ(·)表示sigmoid激活函数;A表示1×Nw的矩阵;B表示1×Nr的矩阵;表示j-th单词重要性值;Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;wj表示j-th单词向量;
将单词和单词对应的重要性值存入键值结构化内存中:
其中,表示写入的j-th记忆插槽,存储内容为单词-单词重要性的键值对;wj表示j-th单词向量;表示j-th单词重要性值;Mw和Mr均为1×1的卷积操作,用于将单词特征和图像特征映射到和写入的j-th记忆插槽相同的纬度;ri spatial表示带有位置信息的i-th图像像素特征;
6.根据权利要求5所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤B3,包括:从单词重要性维度出发,动态控制记忆力读取的信息流和上一个阶段的图像信息流结合:
其中,gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;b'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门的偏差项;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;
从空间信息和单词重要性信息角度同时出发,动态控制记忆力读取的信息流和带有空间注意力的图像信息流结合:
其中,gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征;b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值;
根据记忆写入机制控制空间信息、记忆信息、当前图像信息的融合:
7.根据权利要求6所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤B4,包括:采用ImageNet数据集上预训练的19层VGG网络的感知损失,并将最后一个生成器的生成图像和真实图像输入感知损失网络;在relu5_4层激活图像特征;感知损失Lpl(Rreal,Rfake)的表达式为:
8.根据权利要求7所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤S3,目标函数包括,
其中,L表示总损失函数;λ1表示条件增强损失LCA的权重;λ2表示DAMSM损失LDAMSM的权重,文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失,DAMSM损失鼓励生成图像内容更加符合文本描述,在本实施例中,λ1=1,λ2=6;表示第i个生成器的对抗损失函数;在本实施例中总共有3次生成;
其中,Lpl表示感知损失;β表示感知损失的权重;log表示取一个大于2的整数的对数,用于简便计算;生成器Gi包括相应的鉴别器Di,Di(x)表示判断从模型分布PGi采样的生成图像x为真实图像的概率;Di(x,s)表示判断根据文本变量s生成的从模型分布PGi采样的生成图像x为真实图像的概率;
其中,x~Pdata表示生成图像服从真实图像;pdata表示真实图像分布;data表示真实图像;
计算条件增强损失:条件增强损失是标准高斯分布和条件高斯分布之间的Kullback-Leibler散度,具体为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210043174.0A CN114387366B (zh) | 2022-01-14 | 2022-01-14 | 一种感知联合空间注意力文本生成图像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210043174.0A CN114387366B (zh) | 2022-01-14 | 2022-01-14 | 一种感知联合空间注意力文本生成图像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114387366A true CN114387366A (zh) | 2022-04-22 |
CN114387366B CN114387366B (zh) | 2024-08-06 |
Family
ID=81202257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210043174.0A Active CN114387366B (zh) | 2022-01-14 | 2022-01-14 | 一种感知联合空间注意力文本生成图像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114387366B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147314A (zh) * | 2022-09-02 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备以及存储介质 |
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
CN116503517A (zh) * | 2023-06-27 | 2023-07-28 | 江西农业大学 | 长文本生成图像的方法及系统 |
CN116912367A (zh) * | 2023-09-04 | 2023-10-20 | 江西农业大学 | 一种基于轻量级动态细化的文本生成图像方法及系统 |
CN117033393A (zh) * | 2023-10-08 | 2023-11-10 | 四川酷赛科技有限公司 | 一种基于人工智能的信息存储管理系统 |
CN117612170A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
WO2024130751A1 (zh) * | 2022-12-23 | 2024-06-27 | 北京大学 | 一种基于局部细节编辑的文本生成图像方法和系统 |
CN118378707A (zh) * | 2024-06-21 | 2024-07-23 | 中国科学技术大学 | 一种基于价值体系引导的动态演化多模态价值生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132866A (zh) * | 2020-09-22 | 2020-12-25 | 厦门大学 | 目标对象跟踪方法、装置、设备及计算机可读存储介质 |
WO2021058090A1 (en) * | 2019-09-24 | 2021-04-01 | Toyota Motor Europe | System and method for navigating a vehicle using language instructions |
CN113140019A (zh) * | 2021-05-13 | 2021-07-20 | 电子科技大学 | 一种基于融合弥补生成对抗网络的文本生成图像的方法 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113361251A (zh) * | 2021-05-13 | 2021-09-07 | 山东师范大学 | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 |
-
2022
- 2022-01-14 CN CN202210043174.0A patent/CN114387366B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021058090A1 (en) * | 2019-09-24 | 2021-04-01 | Toyota Motor Europe | System and method for navigating a vehicle using language instructions |
CN112132866A (zh) * | 2020-09-22 | 2020-12-25 | 厦门大学 | 目标对象跟踪方法、装置、设备及计算机可读存储介质 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113140019A (zh) * | 2021-05-13 | 2021-07-20 | 电子科技大学 | 一种基于融合弥补生成对抗网络的文本生成图像的方法 |
CN113361251A (zh) * | 2021-05-13 | 2021-09-07 | 山东师范大学 | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147314A (zh) * | 2022-09-02 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备以及存储介质 |
WO2024130751A1 (zh) * | 2022-12-23 | 2024-06-27 | 北京大学 | 一种基于局部细节编辑的文本生成图像方法和系统 |
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
CN116503517A (zh) * | 2023-06-27 | 2023-07-28 | 江西农业大学 | 长文本生成图像的方法及系统 |
CN116503517B (zh) * | 2023-06-27 | 2023-09-05 | 江西农业大学 | 长文本生成图像的方法及系统 |
CN116912367A (zh) * | 2023-09-04 | 2023-10-20 | 江西农业大学 | 一种基于轻量级动态细化的文本生成图像方法及系统 |
CN116912367B (zh) * | 2023-09-04 | 2023-12-19 | 江西农业大学 | 一种基于轻量级动态细化的文本生成图像方法及系统 |
CN117033393A (zh) * | 2023-10-08 | 2023-11-10 | 四川酷赛科技有限公司 | 一种基于人工智能的信息存储管理系统 |
CN117033393B (zh) * | 2023-10-08 | 2023-12-12 | 四川酷赛科技有限公司 | 一种基于人工智能的信息存储管理系统 |
CN117612170A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
CN118378707A (zh) * | 2024-06-21 | 2024-07-23 | 中国科学技术大学 | 一种基于价值体系引导的动态演化多模态价值生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114387366B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114387366B (zh) | 一种感知联合空间注意力文本生成图像方法 | |
Abiyev et al. | Sign language translation using deep convolutional neural networks | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN112084362B (zh) | 一种基于层次化特征互补的图像哈希检索方法 | |
Ferreira et al. | Physiological inspired deep neural networks for emotion recognition | |
Sun et al. | Facial expression recognition based on a hybrid model combining deep and shallow features | |
Mungra et al. | PRATIT: a CNN-based emotion recognition system using histogram equalization and data augmentation | |
Zhu et al. | Attention-aware perceptual enhancement nets for low-resolution image classification | |
CN112906867B (zh) | 一种基于像素梯度加权的卷积神经网络特征可视化方法及系统 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN115222998B (zh) | 一种图像分类方法 | |
CN115690534A (zh) | 一种基于迁移学习的图像分类模型的训练方法 | |
CN110704665A (zh) | 一种基于视觉注意力机制的图像特征表达方法及系统 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
Bouchain | Character recognition using convolutional neural networks | |
Yang et al. | N-Cluster loss and hard sample generative deep metric learning for PolSAR image classification | |
Gao et al. | Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition | |
Qian et al. | Ventral-Dorsal attention capsule network for facial expression recognition | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
Chou et al. | Representation learning on large and small data | |
Zhang et al. | A small target detection algorithm based on improved YOLOv5 in aerial image | |
Ruan et al. | Dual‐Path Residual “Shrinkage” Network for Side‐Scan Sonar Image Classification | |
Abdelaziz et al. | Few-shot learning with saliency maps as additional visual information | |
Villamizar et al. | Online learning and detection of faces with low human supervision | |
CN116543250A (zh) | 一种基于类注意力传输的模型压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |