CN114387366A - 一种感知联合空间注意力文本生成图像方法 - Google Patents

一种感知联合空间注意力文本生成图像方法 Download PDF

Info

Publication number
CN114387366A
CN114387366A CN202210043174.0A CN202210043174A CN114387366A CN 114387366 A CN114387366 A CN 114387366A CN 202210043174 A CN202210043174 A CN 202210043174A CN 114387366 A CN114387366 A CN 114387366A
Authority
CN
China
Prior art keywords
image
representing
spatial
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210043174.0A
Other languages
English (en)
Other versions
CN114387366B (zh
Inventor
赵欢
赵玉青
李婷婷
陈恩思
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210043174.0A priority Critical patent/CN114387366B/zh
Publication of CN114387366A publication Critical patent/CN114387366A/zh
Application granted granted Critical
Publication of CN114387366B publication Critical patent/CN114387366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种感知联合空间注意力文本生成图像方法,包括生成初始图像,绘制对象的基本形状和颜色;进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;细化过程包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;通过训练目标函数,鼓励生成器生成更真实更符合文本语义的图像。本发明保证了生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状,同时避免了生成过程中的随机性,减少了最终生成的图像和目标图像之间的差异,本方法能够提高文本生成图像的感知质量和布局,能够高效准确得生成图像。

Description

一种感知联合空间注意力文本生成图像方法
技术领域
本发明属于文本合成图像领域,具体涉及一种感知联合空间注意力文本生成图像方法。
背景技术
文本到图像合成技术在艺术生成和计算机辅助设计等领域的应用有很大前景。现在,采用文本生成图像不仅可以大大降低文字创作者匹配图像的成本,还可以提高计算机创作的效率。因此,寻找更有效的方法来生成真实的高分辨率图像,用于文本-图像合成是非常必要的。
生成对抗网络(Generative Adversarial Network,简称GAN)基于博弈论的思想,通过深度神经网络构造生成器模型和判别器模型。生成器以随机噪声为输入生成样本,判别器判断生成样本是否真实。模型训练过程中,生成器不断提高让样本以假乱真的能力,判别器不断提高鉴别的能力。近年来随着GAN理论的不断进步,GAN在一些应用领域上有优异的表现,其中包括GAN在文本生成图像领域取得的成就。
现阶段文本生成图像方法主要分为两种:单阶段方法包括通过对抗式学习进行语义图像合成、文本条件辅助分类器生成对抗网络(TAC-GAN)、即插即用生成网络(PPGAN);多阶段方法包括堆叠的对抗生成网络(StackGAN)、基于注意生成对抗网络的细粒度文本图像生成(AttnGAN)、用于文本图像合成的动态记忆生成对抗网络(DMGAN)。多阶段文本生成图像方法由多个对抗生成网络组成,整个模型分为初始阶段和细化阶段。在初始阶段,随机噪声和编码后的文本联合输入到生成器中生成模糊的初始图像,在后续阶段上一层图像特征向量和词向量拼接输入到对抗生成网络,使得将模糊的初始图像转化为清晰的高分辨率图像,为减少模型复杂度,该阶段一般重复两次,因此多阶段文本生成图像方法一般共有三次生成,其分辨率首先从64*64提升到128*128,然后再提升到256*256。
现有的方法虽然可以产生良好的效果,但它们仍然存在两个问题。首先,大多数先驱方法不能很好地生成真实图像。例如,大多数先驱多阶段方法在生成目标图像时严重依赖初始阶段的布局,原因在于这种策略忽略了信息空间特征,从而导致生成图像布局缺陷(即结构边缘模糊和多对象混淆)。因此,这种方法在文本到图像合成的任务中获得了不真实的图像。其次,根据文本描述生成的图像是随机的。例如,当文本中没有描述对象类别时,生成的图像的内容可能与真实图像有很大不同。此外,尽管多阶段方法是迄今为止最好的生成方法,但在处理具有多个对象的复杂文本(例如COCO数据集)时,它们不能很好地聚焦和细化所有对象,所以生成结果的质量是不准确的。
发明内容
本发明的目的在于提供一种感知联合空间注意力文本生成图像方法,该方法能够提高文本生成图像的感知质量和布局,更加准确高效。
本发明提供的这种感知联合空间注意力文本生成图像方法,包括如下步骤:
S1.生成初始图像,绘制对象的基本形状和颜色;
S2.进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;
S3.训练目标函数,通过加入对抗损失和深度注意多模态相似模型(DeepAttentional Multimodel Similarity Model,简称DAMSM)损失鼓励生成器生成更真实更符合文本语义的图像,加入条件增强损失生成过程中避免过拟合,同时加入感知损失减少生成过程中的随机性,生成最终图像。
所述的步骤S1,生成初始图像包括文本编码器、条件增强模块和对抗生成网络,具体包括:
A1.将描述性的文本输入文本编码器,得到全局句子向量s和细粒度单词向量W;
A2.对全局句子向量s进行条件增强处理转换为低维条件向量s',并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加;
A3.将相加后的组合向量输入第一个生成器G0,输出初始图像的特征向量,并经过神经网络卷积处理得到第一分辨率图像R0=G0(z,s),z为随机噪声向量;s为全局句子向量。
所述的步骤S2,包括如下步骤:
B1.融合文本和图像,对于给定的上一阶段的图像特征Rk-1和单词文本向量W:
Figure BDA0003471150240000031
其中,ri表示图像i-th像素的特征向量(i-th表示第i个);N表示图像像素数量;
Figure BDA0003471150240000032
表示维度为Nr实数空间;
Figure BDA0003471150240000033
其中,wj表示j-th单词向量(j-th表示第j个);T表示单词的数目;
Figure BDA0003471150240000034
表示维度为Nw实数空间;
单词文本向量W通过感知器M将单词文本向量转换到图像特征的公共语义空间中,
Figure BDA0003471150240000035
Figure BDA0003471150240000036
表示细粒度单词文本向量;
Figure BDA0003471150240000037
包括T个细粒度单词向量;
B2.将空间注意力模块和动态记忆力模块联合并进行细化,包括先采用空间注意力模块对图像特征图上的每一个位置进行注意力调整,再使用动态记忆力模块在细化阶段选择文本信息调整初始图像内容;
B3.基于响应门和双注意力设计联合响应机制,融合记忆力信息、空间信息和当前图像,生成从空间维度和单词重要性维度细化的新图像特征;
B4.在最后一个生成器上引入感知损失,修正从空间维度和单词重要性维度细化的新图像特征。
步骤B2中,空间注意力模块包括如下步骤:
C1.空间注意力网络的query为上一阶段的图像特征Rk-1,空间注意力网络的key为转换维度后的细粒度单词文本向量
Figure BDA0003471150240000038
对于上一阶段的图像特征Rk-1,每一列都是图像子区域的特征向量,将上一阶段的图像特征Rk-1和细粒度单词文本向量
Figure BDA0003471150240000039
逐元素相乘,计算图像每个子区域在空间维度上与单词之间的相关值:
Figure BDA00034711502400000310
其中,ri表示图像i-th像素特征;
Figure BDA00034711502400000311
表示转换维度后的j-th单词;αi,j表示空间位置与单词相关值;
C2.使用softmax函数对步骤C1得到的空间位置与单词相关值αi,j进行归一化;
Figure BDA0003471150240000041
其中,mspatial表示归一化后的空间注意力矩阵;
C3.将步骤C2的归一化后的空间注意力矩阵mspatial和细粒度单词文本向量
Figure BDA0003471150240000047
加权,计算空间注意力的词上下文特征,从而鼓励生成网络响应高相关性单词,加强具有高相关性的位置信息,弱化低相关单词的影响:
Figure BDA0003471150240000042
其中,将细粒度单词文本向量
Figure BDA0003471150240000043
进行转置;mspatial表示归一化后的空间注意力矩阵;fspatial表示最终集中空间注意力的词上下文特征;(·)'表示·的转置;
C4.将最终集中空间注意力的词上下文特征fspatial和图像特征连接,生成带有空间注意力的图像特征,然后作为动态记忆力的输入;
Figure BDA0003471150240000044
其中,Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;fspatial表示最终集中空间注意力的词上下文特征;Rk-1表示给定的上一阶段的图像特征;[·,·]表示连接操作。
步骤B2中动态记忆力模块包括:将从空间注意力模块得到的带有空间注意力的图像特征Rspatial和单词文本向量W输入到动态记忆力模块当中;动态记忆力模块包括记忆写入门、键寻址、值读取:
记忆写入门包括,融合单词文本向量W和空间注意力图像特征Rspatial,并计算单词重要性:
Figure BDA0003471150240000045
其中,σ(·)表示sigmoid激活函数;A表示1×Nw的矩阵;B表示1×Nr的矩阵;
Figure BDA0003471150240000046
表示j-th单词重要性值;Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;wj表示j-th单词向量;
将单词和单词对应的重要性值存入键值结构化内存中:
Figure BDA0003471150240000051
其中,
Figure BDA0003471150240000052
表示写入的j-th记忆插槽,存储内容为单词-单词重要性的键值对;wj表示j-th单词向量;
Figure BDA0003471150240000053
表示j-th单词重要性值;Mw和Mr均为1×1的卷积操作,用于将单词特征和图像特征映射到和写入的j-th记忆插槽
Figure BDA0003471150240000054
相同的维度;ri spatial表示带有位置信息的i-th图像像素特征;
键寻址包括,用键检索相关记忆,在这里计算每个记忆插槽的权重,作为j-th记忆插槽
Figure BDA0003471150240000055
和i-th像素特征ri的相似概率βi,j
Figure BDA0003471150240000056
其中,φK(·)表示一个1×1的卷积,用于将j-th记忆插槽
Figure BDA0003471150240000057
l-th记忆插槽
Figure BDA0003471150240000058
映射到Nr维,Nr表示图像像素维度;T表示单词的数目;ri表示图像i-th像素的特征向量;
值读取包括,根据写入的j-th记忆插槽
Figure BDA0003471150240000059
和图像i-th像素特征ri的相似度βi,j对记忆值进行加权求和:
Figure BDA00034711502400000510
其中,
Figure BDA00034711502400000511
表示记忆力模块输出的最终记忆值;φV表示一个1×1的卷积,用于将写入的j-th记忆插槽
Figure BDA00034711502400000512
映射到Nr维,Nr表示图像像素维度。
所述的步骤B3,包括:从单词重要性维度出发,动态控制记忆力读取的信息流和上一个阶段的图像信息流结合:
Figure BDA00034711502400000513
其中,gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;
Figure BDA00034711502400000514
表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;b'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门的偏差项;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;
从空间信息和单词重要性信息角度同时出发,动态控制记忆力读取的信息流和带有空间注意力的图像信息流结合:
Figure BDA0003471150240000061
其中,gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;ri spatial表示带有位置信息的i-th图像像素特征;b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值;
根据记忆写入机制控制空间信息、记忆信息、当前图像信息的融合:
Figure BDA0003471150240000062
其中,ri new表示空间注意力和记忆力共同作用生成的新图像特征,ri new经过一个上采样模块和两个残差模块生成当前阶段的图像;gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;
Figure BDA0003471150240000063
表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征。
所述的步骤B4,包括:采用ImageNet数据集上预训练的19层VGG网络的感知损失,并将最后一个生成器的生成图像和真实图像输入感知损失网络;在relu5_4层激活图像特征;感知损失Lpl(Rreal,Rfake)的表达式为:
Figure BDA0003471150240000064
其中,感知损失Lpl(Rreal,Rfake)由在ImageNet数据集上预训练19层VGG网络的ReLU激活层定义;Rreal表示真实图像;Rfake表示最后一个生成器的生成图像;Rreal和Rfake均为Ck×Hk×Wk的图像特征图,Ck表示图像通道数;Hk表示图像的高度;Wk表示图像的宽度;φk(·)表示VGG网络处理图像时k-th的激活;
Figure BDA0003471150240000065
表示真实图像和生成图像内容特征的欧式距离。
所述的步骤S3,目标函数包括,
Figure BDA0003471150240000066
其中,L表示总损失函数;λ1表示条件增强损失LCA的权重;λ2表示DAMSM损失LDAMSM的权重,文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失,DAMSM损失鼓励生成图像内容更加符合文本描述,在本实施例中,λ1=1,λ2=6;LGi表示第i个生成器的对抗损失函数;在本实施例中总共有3次生成;
计算第i次生成Gi的对抗损失函数
Figure BDA0003471150240000071
包括:
Figure BDA0003471150240000072
其中,Lpl表示感知损失;β表示感知损失的权重;log表示取一个大于2的整数的对数,用于简便计算;生成器Gi包括相应的鉴别器Di,Di(x)表示判断从模型分布PGi采样的生成图像x为真实图像的概率;Di(x,s)表示判断根据条件(文本变量s)生成的从模型分布PGi采样的生成图像x为真实图像的概率;
计算每个鉴别器的对抗性损失
Figure BDA0003471150240000073
Figure BDA0003471150240000074
其中,x~Pdata表示生成图像服从真实图像;pdata表示真实图像分布;data表示真实图像;
计算条件增强损失:条件增强损失是标准高斯分布和条件高斯分布之间的Kullback-Leibler散度,具体为:
Figure BDA0003471150240000075
其中,LCA表示条件增强损失;DKL(·)表示Kullback-Leibler散度;μ(s)表示文本嵌入s的句子特征的均值,∑(s)表示文本嵌入s的对角协方差矩阵;
Figure BDA0003471150240000076
表示独立的高斯分布;I表示单位矩阵。
本发明提供的这种感知联合空间注意力文本生成图像方法,将单词级的空间注意力方法与动态记忆力方法结合并联合响应,保证生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状;同时本方法在多阶段文本生成图像模型的最后一个生成器引入感知损失函数,目的是减少最终生成的图像和目标图像之间的差异,使要生成的图像更在语义上与目标图像相似,本方法能够提高文本生成图像的感知质量和布局,能够高效准确得生成图像。
附图说明
图1为本发明方法的流程示意图。
图2为本发明实施例的流程示意图。
图3为本发明方法的空间注意力模块的结构示意图。
图4为本发明方法的联合响应机制示意图。
图5为本发明方法的感知损失网络示意图。
图6为本发明实施例一的文本生成图像结果示意图。
图7为本发明实施例二的文本生成图像结果示意图。
图8为本发明实施例三的文本生成图像结果示意图。
图9为本发明实施例四的文本生成图像结果示意图。
具体实施方式
本发明提出了一种感知联合空间注意力文本生成图像方法,本方法基于多阶段对抗生成网络,旨在提高文本生成图像的感知质量和布局。本方法的思想来源基于双注意力机制,具体来说,本方法考虑将词级的空间注意力方法与动态记忆力方法结合并联合响应,保证生成器专注于与最相关的单词对应的图像子区域的内容以及位置和形状。此外,该方法为多阶段文本生成图像模型的最后一个生成器引入感知损失函数,目的是减少最终生成的图像和目标图像之间的差异,使要生成的图像更在语义上与目标图像相似。
为实现上述目的,采用如下解决方案:
如图1为本发明方法的流程示意图:本发明提供的这种感知联合空间注意力文本生成图像方法,包括如下步骤:
S1.生成初始图像,绘制对象的基本形状和颜色;
S2.进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;
S3.训练目标函数,通过加入对抗损失和DAMSM损失鼓励生成器生成更真实更符合文本语义的图像,加入条件增强损失生成过程中避免过拟合,同时加入感知损失减少生成过程中的随机性,生成最终图像。
如图2为本发明实施例的流程示意图。所述的步骤S1,由于仅使用全局句子向量,使绘制的第一分辨率图像丢失重要细粒度信息,因此生成初始图像包括文本编码器、条件增强模块和对抗生成网络,具体包括:
A1.将描述性的文本输入文本编码器,得到全局句子向量s和细粒度单词向量W;
A2.对全局句子向量s进行条件增强处理转换为低维条件向量s',并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加;
A3.将相加后的组合向量输入第一个生成器G0,输出初始图像的特征向量,并经过神经网络卷积处理得到第一分辨率图像R0=G0(z,s),z为随机噪声向量;s为全局句子向量。
所述的步骤S2,包括如下步骤:
B1.融合文本和图像,对于给定的上一阶段的图像特征Rk-1和单词文本向量W:
Figure BDA0003471150240000091
其中,ri表示图像i-th像素的特征向量;N表示图像像素数量;Nr表示图像像素维度;
Figure BDA0003471150240000092
表示维度为Nr实数空间;
Figure BDA0003471150240000093
其中,wj表示j-th单词向量;T表示单词的数目;
Figure BDA0003471150240000094
表示维度为Nw实数空间;单词文本向量W通过感知器M将单词文本向量转换到图像特征的公共语义空间中,
Figure BDA0003471150240000095
Figure BDA0003471150240000096
表示细粒度单词文本向量,是和图像特征相同维度的文本语义;
Figure BDA0003471150240000097
包括T个细粒度单词向量,即
Figure BDA0003471150240000098
B2.如图3为本发明方法的空间注意力模块的结构示意图。动态记忆力模块和空间注意力模块联合的细化基于双注意力网络的思想。空间注意力模块对图像特征图上的每一个位置进行注意力调整,即计算图像特征与单词的关联强度,目的为使模型关注到值得更多关注的区域上。动态记忆力模块帮助模型在细化阶段帮助选择重要的文本信息调整初始图像内容。
空间注意力模块和动态记忆力模块是两个独立的部分,如此设计可以减少参数和计算力。这两部分可以并行或顺序组合,在本方法中空间注意力模块在先,动态记忆力模块在后。空间注意力网络由不同尺度的1*1卷积层组成,因为不同阶段不同生成器生成的图像尺寸不同,当图像特征输入空间注意力网络时,要先对图像特征尺寸做判断,确定注意力的键值。
其中,实现空间注意力模块采用如下技术,具体结构见图3,空间注意力模块包括如下步骤:
C1.空间注意力网络的query(查询)为上一阶段的图像特征Rk-1,空间注意力网络的key(键)为转换维度后的细粒度单词文本向量
Figure BDA0003471150240000101
对于上一阶段的图像特征Rk-1,每一列都是图像子区域的特征向量,将上一阶段的图像特征Rk-1和细粒度单词文本向量
Figure BDA0003471150240000102
逐元素相乘,计算图像每个子区域在空间维度上与单词之间的相关值:
Figure BDA0003471150240000103
其中,ri表示图像i-th像素特征;
Figure BDA0003471150240000104
表示转换维度后的j-th单词;αi,j表示空间位置与单词相关值,αi,j越大,相关性越强;
C2.使用softmax函数对步骤C1得到的空间位置与单词相关值αi,j进行归一化;
Figure BDA0003471150240000105
其中,mspatial表示归一化后的空间注意力矩阵,权重取值范围为0-1;
C3.将步骤C2的归一化后的空间注意力矩阵mspatial和细粒度单词文本向量
Figure BDA0003471150240000109
加权,计算空间注意力的词上下文特征,从而鼓励生成网络响应高相关性单词,加强具有高相关性的位置信息,弱化低相关单词的影响:
Figure BDA0003471150240000106
其中,将细粒度单词文本向量
Figure BDA0003471150240000107
进行转置;mspatial表示归一化后的空间注意力矩阵;fspatial表示最终集中空间注意力的词上下文特征;(·)'表示·的转置;
C4.将最终集中空间注意力的词上下文特征fspatial和图像特征连接,生成带有空间注意力的图像特征,然后作为动态记忆力的输入;
Figure BDA0003471150240000108
其中,Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;fspatial表示最终集中空间注意力的词上下文特征;Rk-1表示给定的上一阶段的图像特征;[·,·]表示连接操作;
将从空间注意力模块得到的带有空间注意力的图像特征Rspatial和单词文本向量W输入到动态记忆力模块当中;动态记忆力模块包括记忆写入门、键寻址、值读取:
记忆写入门包括,融合单词文本向量W和空间注意力图像特征Rspatial,并计算单词重要性:
Figure BDA0003471150240000111
其中,σ(·)表示sigmoid激活函数;A表示1×Nw的矩阵;B表示1×Nr的矩阵;
Figure BDA0003471150240000112
表示j-th单词重要性值;Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;wj表示j-th单词向量;
将单词和单词对应的重要性值存入键值结构化内存中:
Figure BDA0003471150240000113
其中,
Figure BDA0003471150240000114
表示写入的j-th记忆插槽,存储内容为单词-单词重要性的键值对;wj表示j-th单词向量;
Figure BDA0003471150240000115
表示j-th单词重要性值;Mw和Mr均为1×1的卷积操作,用于将单词特征和图像特征映射到和写入的j-th记忆插槽
Figure BDA0003471150240000116
相同的纬度;ri spatial表示带有位置信息的i-th图像像素特征;
键寻址包括,用键检索相关记忆,在这里计算每个记忆插槽的权重,作为j-th记忆插槽
Figure BDA0003471150240000117
和i-th像素特征ri的相似概率βi,j
Figure BDA0003471150240000118
其中,φK(·)表示一个1×1的卷积,用于将j-th记忆插槽
Figure BDA0003471150240000119
l-th记忆插槽
Figure BDA00034711502400001110
映射到Nr维,Nr表示图像像素维度;T表示单词的数目;ri表示图像i-th像素的特征向量;
值读取包括,根据写入的j-th记忆插槽
Figure BDA00034711502400001111
和图像i-th像素特征ri的相似度βi,j对记忆值进行加权求和:
Figure BDA0003471150240000121
其中,
Figure BDA0003471150240000122
表示记忆力模块输出的最终记忆值;φV表示一个1×1的卷积,用于将写入的j-th记忆插槽
Figure BDA0003471150240000123
映射到Nr维,Nr表示图像像素维度。
如图4为本发明方法的双注意力机制示意图。B3.从单词重要性维度出发,动态控制记忆力读取的信息流和上一个阶段的图像信息流结合:
Figure BDA0003471150240000124
其中,gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;
Figure BDA0003471150240000125
表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;b'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门的偏差项;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;
从空间信息和单词重要性信息角度同时出发,动态控制记忆力读取的信息流和带有空间注意力的图像信息流结合:
Figure BDA0003471150240000126
其中,gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征;b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值;
根据记忆写入机制合理有效地控制空间信息、记忆信息、当前图像信息的融合:
Figure BDA0003471150240000127
其中,ri new表示空间注意力和记忆力共同作用生成的新图像特征,ri new经过一个上采样模块和两个残差模块生成当前阶段的图像;gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;
Figure BDA0003471150240000128
表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征。
如图5为本发明方法的感知损失网络示意图;B4.引入感知损失的思想基于超分辨率技术,超分辨技术是指从观测到的低分辨率图像重建出相应的高分辨率图像,文本生成图像方法的细化阶段也是补充图像细节提高分别率的过程,这一过程与超分辨率思想相同。感知损失网络包含两种损失,一种是风格损失,一种是内容损失,根据应用本方法中只借鉴内容损失。引入感知的内容损失部分大大减小了生成过程中的随机性。具体地说,即使生成任务遇到文本中没有指定物体类别或者没有详细说明某对象时,也可以生成与真实图像相似的图像。在文本生成图像领域,往往通过Caltech-UCSD Birds 200(CUB),COCO两个数据集进行训练,而COCO数据集包含多个对象,并且背景和风景设置种类繁多,所以上述的复杂情况是很常见的,现实生活中也会出现更复杂的情况。各种文本生成图像方法的实验结果也显示COCO数据集上的生成图像质量比CUB数据集差。本方法只在最后一个生成器上引入了感知损失,保证了网络在控制随机性的基础上减少训练时间。感知损失属于高级特征损失,是基于比较待生成的图片经过CNN的特征值和目标图片经过CNN的特征值,使得待生成的图片和目标图片在语义上更加相似。
在最后一个生成器上引入感知损失包括:采用ImageNet数据集上预训练的19层VGG网络的感知损失,并将最后一个生成器的生成图像和真实图像输入感知损失网络;在relu5_4层激活图像特征;感知损失Lpl(Rreal,Rfake)的表达式为:
Figure BDA0003471150240000131
其中,感知损失Lpl(Rreal,Rfake)由在ImageNet数据集上预训练19层VGG网络的ReLU激活层定义;Rreal表示真实图像;Rfake表示最后一个生成器的生成图像;Rreal和Rfake均为Ck×Hk×Wk的图像特征图,Ck表示图像通道数;Hk表示图像的高度;Wk表示图像的宽度;φk(·)表示VGG网络处理图像时k-th的激活;
Figure BDA0003471150240000132
表示真实图像和生成图像内容特征的欧式距离;
选择只在最后一个生成器上引入感知损失,具有以下优点:经过评价指标IS和R精度证明只在最后一个生成器上引入感知损失生成效果更好;网络负载小;避免引起过拟合问题。
所述的步骤S3,目标函数包括,
Figure BDA0003471150240000133
其中,L表示总损失函数;λ1表示条件增强损失LCA的权重;λ2表示DAMSM损失LDAMSM的权重,文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失,DAMSM损失鼓励生成图像内容更加符合文本描述,在本实施例中,λ1=1,λ2=6;
Figure BDA00034711502400001412
表示第i个生成器的对抗损失函数;在本实施例中总共有3次生成;
计算第i次生成Gi的对抗损失函数
Figure BDA0003471150240000141
包括:
Figure BDA0003471150240000142
其中,第i次生成Gi的对抗损失函数
Figure BDA0003471150240000143
包括无条件对抗性损失
Figure BDA0003471150240000144
和条件对抗性损失
Figure BDA0003471150240000145
无条件对抗性损失有利于生成图像更真实,条件对抗性损失使基于条件对抗生成网络生成的图像尽可能与文本匹配;Lpl表示感知损失;β表示感知损失的权重,感知损失只在第三阶段添加,在i=0和i=1时,β=0,在i=2时,β=1;log表示取一个大于2的整数的对数,用于简便计算;生成器Gi包括相应的鉴别器Di,Di(x)表示判断从模型分布PGi采样的生成图像x为真实图像的概率;Di(x,s)表示判断根据条件(文本变量s)生成的从模型分布PGi采样的生成图像x为真实图像的概率;
计算每个鉴别器的对抗性损失
Figure BDA0003471150240000146
Figure BDA0003471150240000147
其中,每个鉴别器的对抗性损失
Figure BDA0003471150240000148
包括无条件对抗性损失
Figure BDA0003471150240000149
和条件对抗性损失
Figure BDA00034711502400001410
无条件对抗性损失用于判断生成图像是否真实,条件对抗性损失用于判断基于条件对抗生成网络生成的图像是否与文本匹配。x~Pdata表示生成图像服从真实图像;pdata表示真实图像分布;data表示真实图像;
计算条件增强损失:条件增强损失是标准高斯分布和条件高斯分布之间的Kullback-Leibler散度,具体为:
Figure BDA00034711502400001411
其中,LCA表示条件增强损失;DKL(·)表示Kullback-Leibler散度;μ(s)表示文本嵌入s的句子特征的均值,∑(s)表示文本嵌入s的对角协方差矩阵;
Figure BDA0003471150240000151
表示独立的高斯分布;I表示单位矩阵。
在具体实施方式中:如图6为本发明实施例一的文本生成图像结果示意图。输入文本“一只更大的鸟,但它有一个小喙,全身是灰色、黑色和白色”,生成图像图6。如图7为本发明实施例二的文本生成图像结果示意图。输入文本“这种鸟的喙比它的头大,尾羽长,胸部有灰色斑点,颜色很深”,生成图7。如图8为本发明实施例三的文本生成图像结果示意图。输入文本“这种鸟的腹部和胸部有斑点,嘴短而钝”,生成图8。如图9为本发明实施例四的文本生成图像结果示意图。输入文本“黑色的小鸟,短而黑的跗骨和大而短的黑色喙”,生成图9;从图6-9中可以看出,本方法能准确识别文本并生成所需图像,操作简单效果好。

Claims (8)

1.一种感知联合空间注意力文本生成图像方法,其特征在于包括如下步骤:
S1.生成初始图像,绘制对象的基本形状和颜色;
S2.进行图像细化,生成从空间维度和单词重要性维度细化的新图像特征;包括通过细粒度单词级文本信息和图像信息融合,并联合空间注意力机制和动态记忆力机制对初始图像消除缺陷并添加细节,增强图像特征区域表征;
S3.训练目标函数,通过加入对抗损失和DAMSM损失鼓励生成器生成更真实更符合文本语义的图像,加入条件增强损失生成过程中避免过拟合,同时加入感知损失减少生成过程中的随机性,生成最终图像。
2.根据权利要求1所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤S1,生成初始图像包括文本编码器、条件增强模块和对抗生成网络,具体包括:
A1.将描述性的文本输入文本编码器,得到全局句子向量s和细粒度单词向量W;
A2.对全局句子向量s进行条件增强处理转换为低维条件向量s',并将低维条件向量s'与服从标准正态分布的随机噪声向量z进行维度相加;
A3.将相加后的组合向量输入第一个生成器G0,输出初始图像的特征向量,并经过神经网络卷积处理得到第一分辨率图像R0=G0(z,s),z为随机噪声向量;s为全局句子向量。
3.根据权利要求2所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤S2,包括如下步骤:
B1.融合文本和图像,对于给定的上一阶段的图像特征Rk-1和单词文本向量W:
Figure FDA0003471150230000011
其中,ri表示图像i-th像素的特征向量;N表示图像像素数量;Nr表示图像像素维度;
Figure FDA0003471150230000012
表示维度为Nr实数空间;
Figure FDA0003471150230000013
其中,wj表示j-th单词向量;T表示单词的数目;
Figure FDA0003471150230000014
表示维度为Nw实数空间;单词文本向量W通过感知器M将单词文本向量转换到图像特征的公共语义空间中,
Figure FDA0003471150230000021
Figure FDA0003471150230000022
表示细粒度单词文本向量;
Figure FDA0003471150230000023
包括T个细粒度单词向量;
B2.将空间注意力模块和动态记忆力模块联合并进行细化,包括先采用空间注意力模块对图像特征图上的每一个位置进行注意力调整,再使用动态记忆力模块在细化阶段选择文本信息调整初始图像内容;
B3.基于响应门和双注意力设计联合响应机制,融合记忆力信息、空间信息和当前图像,生成从空间维度和单词重要性维度细化的新图像特征;
B4.在最后一个生成器上引入感知损失,修正从空间维度和单词重要性维度细化的新图像特征。
4.根据权利要求3所述的感知联合空间注意力文本生成图像方法,其特征在于步骤B2中,空间注意力模块包括如下步骤:
C1.空间注意力网络的query为上一阶段的图像特征Rk-1,空间注意力网络的key为转换维度后的细粒度单词文本向量
Figure FDA0003471150230000024
对于上一阶段的图像特征Rk-1,每一列都是图像子区域的特征向量,将上一阶段的图像特征Rk-1和细粒度单词文本向量
Figure FDA0003471150230000025
逐元素相乘,计算图像每个子区域在空间维度上与单词之间的相关值:
Figure FDA0003471150230000026
其中,ri表示图像i-th像素特征;
Figure FDA0003471150230000027
表示转换维度后的j-th单词;αi,j表示空间位置与单词相关值;
C2.使用softmax函数对步骤C1得到的空间位置与单词相关值αi,j进行归一化;
Figure FDA0003471150230000028
其中,mspatial表示归一化后的空间注意力矩阵;
C3.将步骤C2的归一化后的空间注意力矩阵mspatial和细粒度单词文本向量
Figure FDA0003471150230000029
加权,计算空间注意力的词上下文特征,从而鼓励生成网络响应高相关性单词,加强具有高相关性的位置信息,弱化低相关单词的影响:
Figure FDA00034711502300000210
其中,将细粒度单词文本向量
Figure FDA00034711502300000211
进行转置;mspatial表示归一化后的空间注意力矩阵;fspatial表示最终集中空间注意力的词上下文特征;(·)'表示·的转置;
C4.将最终集中空间注意力的词上下文特征fspatial和图像特征连接,生成带有空间注意力的图像特征,然后作为动态记忆力的输入;
Figure FDA0003471150230000031
其中,Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;fspatial表示最终集中空间注意力的词上下文特征;Rk-1表示给定的上一阶段的图像特征;[·,·]表示连接操作。
5.根据权利要求4所述的感知联合空间注意力文本生成图像方法,其特征在于步骤B2中动态记忆力模块包括:将从空间注意力模块得到的带有空间注意力的图像特征Rspatial和单词文本向量W输入到动态记忆力模块当中;动态记忆力模块包括记忆写入门、键寻址、值读取:
记忆写入门包括,融合单词文本向量W和空间注意力图像特征Rspatial,并计算单词重要性:
Figure FDA0003471150230000032
其中,σ(·)表示sigmoid激活函数;A表示1×Nw的矩阵;B表示1×Nr的矩阵;
Figure FDA0003471150230000033
表示j-th单词重要性值;Rspatial表示带有位置信息的图像特征;ri spatial表示带有位置信息的i-th图像像素特征;wj表示j-th单词向量;
将单词和单词对应的重要性值存入键值结构化内存中:
Figure FDA0003471150230000034
其中,
Figure FDA0003471150230000035
表示写入的j-th记忆插槽,存储内容为单词-单词重要性的键值对;wj表示j-th单词向量;
Figure FDA0003471150230000036
表示j-th单词重要性值;Mw和Mr均为1×1的卷积操作,用于将单词特征和图像特征映射到和写入的j-th记忆插槽
Figure FDA0003471150230000037
相同的纬度;ri spatial表示带有位置信息的i-th图像像素特征;
键寻址包括,用键检索相关记忆,在这里计算每个记忆插槽的权重,作为j-th记忆插槽
Figure FDA0003471150230000038
和i-th像素特征ri的相似概率βi,j
Figure FDA0003471150230000041
其中,φK(·)表示一个1×1的卷积,用于将j-th记忆插槽
Figure FDA0003471150230000042
l-th记忆插槽
Figure FDA0003471150230000043
映射到Nr维,Nr表示图像像素维度;T表示单词的数目;ri表示图像i-th像素的特征向量;
值读取包括,根据写入的j-th记忆插槽
Figure FDA0003471150230000044
和图像i-th像素特征ri的相似度βi,j对记忆值进行加权求和:
Figure FDA0003471150230000045
其中,
Figure FDA0003471150230000046
表示记忆力模块输出的最终记忆值;φV表示一个1×1的卷积,用于将写入的j-th记忆插槽
Figure FDA0003471150230000047
映射到Nr维,Nr表示图像像素维度。
6.根据权利要求5所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤B3,包括:从单词重要性维度出发,动态控制记忆力读取的信息流和上一个阶段的图像信息流结合:
Figure FDA0003471150230000048
其中,gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;
Figure FDA0003471150230000049
表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;b'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门的偏差项;σ(·)表示sigmoid激活函数;W(·)表示参数矩阵;
从空间信息和单词重要性信息角度同时出发,动态控制记忆力读取的信息流和带有空间注意力的图像信息流结合:
Figure FDA00034711502300000410
其中,gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征;b”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门的偏差值;
根据记忆写入机制控制空间信息、记忆信息、当前图像信息的融合:
Figure FDA0003471150230000051
其中,ri new表示空间注意力和记忆力共同作用生成的新图像特征,ri new经过一个上采样模块和两个残差模块生成当前阶段的图像;gi'表示记忆力读取的信息和上一阶段图像特征信息融合的响应门;
Figure FDA0003471150230000052
表示记忆力模块输出的最终记忆值;ri表示图像i-th像素的特征向量;gi”表示记忆力读取的信息和带有空间注意力的图像信息融合的响应门;ri spatial表示带有位置信息的i-th图像像素特征。
7.根据权利要求6所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤B4,包括:采用ImageNet数据集上预训练的19层VGG网络的感知损失,并将最后一个生成器的生成图像和真实图像输入感知损失网络;在relu5_4层激活图像特征;感知损失Lpl(Rreal,Rfake)的表达式为:
Figure FDA0003471150230000053
其中,感知损失Lpl(Rreal,Rfake)由在ImageNet数据集上预训练19层VGG网络的ReLU激活层定义;Rreal表示真实图像;Rfake表示最后一个生成器的生成图像;Rreal和Rfake均为Ck×Hk×Wk的图像特征图,Ck表示图像通道数;Hk表示图像的高度;Wk表示图像的宽度;φk(·)表示VGG网络处理图像时k-th的激活;
Figure FDA0003471150230000054
表示真实图像和生成图像内容特征的欧式距离。
8.根据权利要求7所述的感知联合空间注意力文本生成图像方法,其特征在于所述的步骤S3,目标函数包括,
Figure FDA0003471150230000055
其中,L表示总损失函数;λ1表示条件增强损失LCA的权重;λ2表示DAMSM损失LDAMSM的权重,文本生成图像方法往往使用DAMSM损失来计算细粒度图像-文本匹配损失,DAMSM损失鼓励生成图像内容更加符合文本描述,在本实施例中,λ1=1,λ2=6;
Figure FDA0003471150230000056
表示第i个生成器的对抗损失函数;在本实施例中总共有3次生成;
计算第i次生成Gi的对抗损失函数
Figure FDA0003471150230000057
包括:
Figure FDA0003471150230000061
其中,Lpl表示感知损失;β表示感知损失的权重;log表示取一个大于2的整数的对数,用于简便计算;生成器Gi包括相应的鉴别器Di,Di(x)表示判断从模型分布PGi采样的生成图像x为真实图像的概率;Di(x,s)表示判断根据文本变量s生成的从模型分布PGi采样的生成图像x为真实图像的概率;
计算每个鉴别器的对抗性损失
Figure FDA0003471150230000062
Figure FDA0003471150230000063
Figure FDA0003471150230000064
其中,x~Pdata表示生成图像服从真实图像;pdata表示真实图像分布;data表示真实图像;
计算条件增强损失:条件增强损失是标准高斯分布和条件高斯分布之间的Kullback-Leibler散度,具体为:
Figure FDA0003471150230000065
其中,LCA表示条件增强损失;DKL(·)表示Kullback-Leibler散度;μ(s)表示文本嵌入s的句子特征的均值,∑(s)表示文本嵌入s的对角协方差矩阵;
Figure FDA0003471150230000066
表示独立的高斯分布;I表示单位矩阵。
CN202210043174.0A 2022-01-14 2022-01-14 一种感知联合空间注意力文本生成图像方法 Active CN114387366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210043174.0A CN114387366B (zh) 2022-01-14 2022-01-14 一种感知联合空间注意力文本生成图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210043174.0A CN114387366B (zh) 2022-01-14 2022-01-14 一种感知联合空间注意力文本生成图像方法

Publications (2)

Publication Number Publication Date
CN114387366A true CN114387366A (zh) 2022-04-22
CN114387366B CN114387366B (zh) 2024-08-06

Family

ID=81202257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210043174.0A Active CN114387366B (zh) 2022-01-14 2022-01-14 一种感知联合空间注意力文本生成图像方法

Country Status (1)

Country Link
CN (1) CN114387366B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147314A (zh) * 2022-09-02 2022-10-04 腾讯科技(深圳)有限公司 图像处理方法、装置、设备以及存储介质
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法
CN116503517A (zh) * 2023-06-27 2023-07-28 江西农业大学 长文本生成图像的方法及系统
CN116912367A (zh) * 2023-09-04 2023-10-20 江西农业大学 一种基于轻量级动态细化的文本生成图像方法及系统
CN117033393A (zh) * 2023-10-08 2023-11-10 四川酷赛科技有限公司 一种基于人工智能的信息存储管理系统
CN117612170A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合记忆网络和扩散网络的图像到长文本生成方法
WO2024130751A1 (zh) * 2022-12-23 2024-06-27 北京大学 一种基于局部细节编辑的文本生成图像方法和系统
CN118378707A (zh) * 2024-06-21 2024-07-23 中国科学技术大学 一种基于价值体系引导的动态演化多模态价值生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132866A (zh) * 2020-09-22 2020-12-25 厦门大学 目标对象跟踪方法、装置、设备及计算机可读存储介质
WO2021058090A1 (en) * 2019-09-24 2021-04-01 Toyota Motor Europe System and method for navigating a vehicle using language instructions
CN113140019A (zh) * 2021-05-13 2021-07-20 电子科技大学 一种基于融合弥补生成对抗网络的文本生成图像的方法
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统
CN113361251A (zh) * 2021-05-13 2021-09-07 山东师范大学 一种基于多阶段生成对抗网络的文本生成图像方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058090A1 (en) * 2019-09-24 2021-04-01 Toyota Motor Europe System and method for navigating a vehicle using language instructions
CN112132866A (zh) * 2020-09-22 2020-12-25 厦门大学 目标对象跟踪方法、装置、设备及计算机可读存储介质
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统
CN113140019A (zh) * 2021-05-13 2021-07-20 电子科技大学 一种基于融合弥补生成对抗网络的文本生成图像的方法
CN113361251A (zh) * 2021-05-13 2021-09-07 山东师范大学 一种基于多阶段生成对抗网络的文本生成图像方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147314A (zh) * 2022-09-02 2022-10-04 腾讯科技(深圳)有限公司 图像处理方法、装置、设备以及存储介质
WO2024130751A1 (zh) * 2022-12-23 2024-06-27 北京大学 一种基于局部细节编辑的文本生成图像方法和系统
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法
CN116503517A (zh) * 2023-06-27 2023-07-28 江西农业大学 长文本生成图像的方法及系统
CN116503517B (zh) * 2023-06-27 2023-09-05 江西农业大学 长文本生成图像的方法及系统
CN116912367A (zh) * 2023-09-04 2023-10-20 江西农业大学 一种基于轻量级动态细化的文本生成图像方法及系统
CN116912367B (zh) * 2023-09-04 2023-12-19 江西农业大学 一种基于轻量级动态细化的文本生成图像方法及系统
CN117033393A (zh) * 2023-10-08 2023-11-10 四川酷赛科技有限公司 一种基于人工智能的信息存储管理系统
CN117033393B (zh) * 2023-10-08 2023-12-12 四川酷赛科技有限公司 一种基于人工智能的信息存储管理系统
CN117612170A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合记忆网络和扩散网络的图像到长文本生成方法
CN118378707A (zh) * 2024-06-21 2024-07-23 中国科学技术大学 一种基于价值体系引导的动态演化多模态价值生成方法

Also Published As

Publication number Publication date
CN114387366B (zh) 2024-08-06

Similar Documents

Publication Publication Date Title
CN114387366B (zh) 一种感知联合空间注意力文本生成图像方法
Abiyev et al. Sign language translation using deep convolutional neural networks
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN112084362B (zh) 一种基于层次化特征互补的图像哈希检索方法
Ferreira et al. Physiological inspired deep neural networks for emotion recognition
Sun et al. Facial expression recognition based on a hybrid model combining deep and shallow features
Mungra et al. PRATIT: a CNN-based emotion recognition system using histogram equalization and data augmentation
Zhu et al. Attention-aware perceptual enhancement nets for low-resolution image classification
CN112906867B (zh) 一种基于像素梯度加权的卷积神经网络特征可视化方法及系统
Fan et al. A novel sonar target detection and classification algorithm
CN115222998B (zh) 一种图像分类方法
CN115690534A (zh) 一种基于迁移学习的图像分类模型的训练方法
CN110704665A (zh) 一种基于视觉注意力机制的图像特征表达方法及系统
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
Bouchain Character recognition using convolutional neural networks
Yang et al. N-Cluster loss and hard sample generative deep metric learning for PolSAR image classification
Gao et al. Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition
Qian et al. Ventral-Dorsal attention capsule network for facial expression recognition
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
Chou et al. Representation learning on large and small data
Zhang et al. A small target detection algorithm based on improved YOLOv5 in aerial image
Ruan et al. Dual‐Path Residual “Shrinkage” Network for Side‐Scan Sonar Image Classification
Abdelaziz et al. Few-shot learning with saliency maps as additional visual information
Villamizar et al. Online learning and detection of faces with low human supervision
CN116543250A (zh) 一种基于类注意力传输的模型压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant