CN114581334A - 一种基于生成对抗网络的自调节文本生成图像方法 - Google Patents

一种基于生成对抗网络的自调节文本生成图像方法 Download PDF

Info

Publication number
CN114581334A
CN114581334A CN202210267451.6A CN202210267451A CN114581334A CN 114581334 A CN114581334 A CN 114581334A CN 202210267451 A CN202210267451 A CN 202210267451A CN 114581334 A CN114581334 A CN 114581334A
Authority
CN
China
Prior art keywords
image
text
module
self
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210267451.6A
Other languages
English (en)
Other versions
CN114581334B (zh
Inventor
蒋斌
曾威远
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210267451.6A priority Critical patent/CN114581334B/zh
Publication of CN114581334A publication Critical patent/CN114581334A/zh
Application granted granted Critical
Publication of CN114581334B publication Critical patent/CN114581334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于生成对抗网络的自调节文本生成图像方法,属于对抗网络的文本合成图像技术领域。基于生成对抗网络设计自调节文本生成图像模块,该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系,建模每个通道的重要性,并自适应地增强重要的通道和抑制不重要的通道;通过将该模块组合进模型当中,能够显著地消除文本特征和视觉特征的融合带来的噪声,提高合成图像的质量;有益效果在于,通过将自调节模块组合进模型当中,能够显著地消除文本特征和视觉特征的融合带来的噪声,提高合成图像的质量。

Description

一种基于生成对抗网络的自调节文本生成图像方法
技术领域
本发明涉及一种基于生成对抗网络的自调节文本生成图像方法,属于对抗网络的文本合成图像技术领域。
背景技术
现有技术中,从文本到图像的合成任务,其目的是生成能够正确反映给定文本含义的图像。由于它在艺术生成和计算机辅助设计等一系列应用中具有巨大的潜力,文本-图像合成已成为研究界最有吸引力的任务之一。传统的文本生成图像方法采取的通用方式是通过搜索和监督式学习的组合来合成图像的。为了将文本的语义信息和生成的图像对应,常用的做法是计算文本序列中关键字与图像之间的相关性来显示获得与图像关系更加密切且可以被充分表现出的文本单元,然后搜索以文本为条件的最可能的图像部分,最终再以文本和搜索得到的图像子区域为条件去优化最终的图像布局。这类传统的方法有两个显著的缺陷,第一个在于它集成了太多复杂部件,过于笨重,而且不好进行优化。第二个问题则在于它缺乏生成新内容的能力,只能对给定图像或者训练集图像的内容进行更改。
近年来,以生成对抗网络(GAN)为代表的基于深度学习的生成式模型取得了巨大进展,文本生成图像这一领域内也从中获益,出现了许多基于GAN的方法,相比起传统方法,这些基于GAN的方法更加轻量,也能够合成出全新的图像。尽管这些基于GAN的方法取得了令人印象深刻的成果,但目前网络生成的图像质量仍然远远不能令人满意。为了提高生成图像的质量和分辨率,大多数现有的方法是建立在多阶段生成过程的基础上的,比如经典的Attn-GAN和DM-GAN模型;它们首先在初始阶段以句子层面的文本信息为条件生成一个低分辨率的图像,然后立即将初始结果与单词级别的文本特征融合后送入后一阶段的生成器中,忽略了对图像进行充分的细化。这种操作带来了一个不可忽视的问题:生成结果在很大程度上取决于初始图像的质量。如果初始图像生成得不好,整个多阶段过程就无法合成出为高质量的图像。
综上所述,现有的基于GAN的文本生成图像方法没有能力保证合成图像的质量,阻碍了这项技术应用到实际的使用场景当中。为了进一步提高文本生成图像的结果图像的质量,同时也为了保证最终合成的图像与输入文本的语义一致性,需要对现有的模型方法加以改进。
发明内容
本发明的目的在于,对现有的基于生成对抗网络的文本合成图像方法加以改进,提出一种基于生成对抗网络的自调节文本生成图像方法。
本发明的技术原理于,提出了一种新颖的自调节模块,该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系,建模每个通道的重要性,并自适应地增强重要的通道和抑制不重要的通道。
本发明的技术方案在于,基于生成对抗网络设计自调节文本生成图像模块,该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系,建模每个通道的重要性,并自适应地增强重要的通道和抑制不重要的通道;通过将该模块组合进模型当中,能够显著地消除文本特征和视觉特征的融合带来的噪声,提高合成图像的质量;具体包括以下步骤:
步骤1,数据收集与处理,训练文本生成图像模型,
(1.1)首先需要采集大量的图像数据和对应的描述文本数据,本发明使用了两个开源数据集CUB和MS-COCO,CUB数据集包含训练图像8855张、测试数据2933张;
(1.2)在获得数据集后,首先对文本进行预处理,随机选取每张图像的描述语句的其中一个,通过填充或者删除单词的操作使得每个句子的长度一致,在本发明中设置的句子固定长度为10,再使用一个双向的长短期记忆模型(Bi-LSTM)对文本进行编码,得到文本描述对应的句子向量嵌入表示表示作为模型的输入;
步骤2,模型构建,基于生成对抗网络设计自调节文本生成图像模块,主干网络分成两个部分,前半部分是生成器,后半部分是判别器;
(2.1)生成器接受一个噪声z和一个句子向量嵌入表示s作为输入,先利用全连接层将z扩充成一个视觉特征图A;
(2.2)再使用多个不同大小的跨模态融合模块和自调节模块将输入转化成最终的输出图像,跨模态融合模块首先对图像特征图进行上采样,提高特征图的分辨率,得到视觉特征图A2
随后将视觉特征图A2输入到深度融合模块中让其与句子向量的嵌入表示s进行融合;
(2.3)在一个跨模态融合模块里加入了两个深度融合模块,实现了图像特征和文本信息的充分融合;
(2.4)判别器接受一张图像和它对应的描述语句作为输入,计算图像和语句之间相似性求得损失函数,然后利用梯度下降算法依据损失函数更新模型的参数,逐渐提升模型合成的图像的质量;
步骤3,自调节模块构建,该模块的输入是一个尺寸为RH×W×C的特征图F,随后对该特征图进行调整:
(3.1)对特征图F应用全局平均池化操作,压缩F每个通道的空间信息,形成一个尺寸为RC的一维向量V={v1,v2,...,vc}:
V=avgpool(F)
其中avgpool表示全局平均池化。V的一个元素vi对应着原始特征图F的一个通道,因此V相当于F中通道的空间信息高度压缩之后的描述符,用于之后的计算;
(3.2)为了达成模型效果和参数量之间的平衡,在对V进行卷积操作之前,要决定卷积核的尺寸;没有使用固定的尺寸,使用一个公式依据V的大小来确定卷积核尺寸k:
Figure BDA0003552389680000031
其中eve表示取最近的偶数;
(3.3)对V施加一个一维卷积,去捕捉每个元素跟它相邻的k个元素之间的依赖关系,决定V中每个元素的重要性,也即是原始特征图F中每个通道的重要性,最终得到一个注意力向量M=(m1,m2,...,mc};M的元素mi就代表F中第i个通道的重要性,计算过程可形式化为如下公式:
Figure BDA0003552389680000032
其中σ表示sigmoid函数,
Figure BDA0003552389680000033
表示卷积核中第j个元素,
Figure BDA0003552389680000034
表示以vi为中心大小为k的邻域;
(3.4)将注意力向量M进行扩充,把它的尺寸变成跟F一样的RH×W×C,得到注意力图谱M2,M2的第i通道里不同空间位置上的元素值都跟M中第i个元素值相同;然后将F和M2按照逐元素相乘的的形式融合起来,形成调整之后特征图F2
F2=F×M2
自调节模块通过捕捉输入特征图的每个通道与它相邻通道之间的依赖关系,计算出通道的重要性,然后自适应地调整通道的强度,更好地支持模型实现高质量的图像生成;
步骤4,损失函数,自调节文本生成图像模型采用了带有以0为中心的匹配感知梯度惩罚项的Hinge-Loss作为损失函数,其数学计算公式如下:
Figure BDA0003552389680000035
Figure BDA0003552389680000036
Figure BDA0003552389680000041
其中G代表生成器,D代表判别器,z是噪声,s是文本的句子向量嵌入表示;LG和LD分别是生成器和判别器的损失函数,
Figure BDA0003552389680000042
Figure BDA0003552389680000043
分别表示生成器生成的数据分布,真实的数据分布以及不匹配的图像分布,x是分别从这些数据分布中采样得到的具体数据,
Figure BDA0003552389680000044
Figure BDA0003552389680000045
分别表示对x和s求导数。
在(2.3)中,深度融合模块则使用四个全链接层从s中分别学习出一个缩放参数γ和一个移位参数β去调整图像特征的数据分布,使得图象特征逐渐和句子的含义趋于一致,得到新的视觉特征图
Figure BDA0003552389680000046
上述过程可以形式化为如下数学公式:
A2=up(A)
γ=f12(f11(A2))
β=f22(f21(A2))
Aout=γ×A2
其中up表示上采样操作,f11、f12、f21和f22表示4个不同的全连接层;本发明相比于现有技术的深度融合模块,自调节模块则通过捕捉图像特征通道之间的关联,动态建模通道的重要性,然后自适应地增强重要的通道并抑制不重要的通道,从而提高图像质量。
本发明的有益效果在于,通过将自调节模块组合进模型当中,能够显著地消除文本特征和视觉特征的融合带来的噪声,提高合成图像的质量。1)由于设计了基于生成对抗网络的自调节文本生成图像模型,解决了以往此类模型过于依赖初始生成结果的问题,大大提升了生成图像的质量和模型的应用前景。2)提出的自调节模块能够很好地支持模型学会建模特征通道的重要性,自适应地抑制或者增强不同的通道,更好地消除了文本和视觉特征融合中带来的干扰,极大地保障了生成图像的质量。
附图说明
图1为本发明整体结构图。
图2为自调节模块计算流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念;此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。以下将参照附图更详细地描述本发明。在各个附图中,相同的元件采用类似的附图标记来表示。为了清楚起见,附图中的各个部分没有按比例绘制。
下面结合附图1至2来描述本发明实施例的一种基于生成对抗网络的自调节文本生成图像方法:基于生成对抗网络设计自调节文本生成图像模块,该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系,建模每个通道的重要性,并自适应地增强重要的通道和抑制不重要的通道;通过将该模块组合进模型当中,能够显著地消除文本特征和视觉特征的融合带来的噪声,提高合成图像的质量;
具体包括以下步骤:
步骤1,数据收集与处理,训练文本生成图像模型,
(1.1)首先需要采集大量的图像数据和对应的描述文本数据,本发明使用了两个开源数据集CUB和MS-COCO,CUB数据集包含训练图像8855张、测试数据2933张;每张图像最多可以对应有10个描述句子,其中每张图像可以有不定数量的一个或多个描述语句,本发明在实施时只要求有一个描述语句作为输入即可。例如使用的另一个数据集MS-COCO,它对于每张图像就只有5个描述句子。在使用时,对于存在多个描述语句的情况可随机选取其中一个作为输入,如果只有一个那就选取该语句作为输入;
(1.2)在获得数据集后,首先对文本进行预处理,随机选取每张图像的描述语句的其中一个,通过填充或者删除单词的操作使得每个句子的长度一致,在本发明中设置的句子固定长度为10,再使用一个双向的长短期记忆模型(Bi-LSTM)对文本进行编码,得到文本描述对应的句子向量嵌入表示表示作为模型的输入;句子固定长度为10是指在原始输入时句子的长度为不定长,本发明在读取到输入时会自动进行填充单词或者删除单词的操作,将句子长度变为10;
步骤2,模型构建,基于生成对抗网络设计自调节文本生成图像模块,完整的模型结构如图1所示,图1上半部分就是主干网络;主干网络分成两个部分,前半部分是生成器,后半部分是判别器;
(2.1)生成器接受一个噪声z和一个句子向量嵌入表示s作为输入,先利用全连接层将z扩充成一个视觉特征图A;
(2.2)再使用多个不同大小的跨模态融合模块和自调节模块将输入转化成最终的输出图像,如图1所示,跨模态融合模块首先对图像特征图进行上采样,提高特征图的分辨率,得到视觉特征图A2
随后将视觉特征图A2输入到深度融合模块中让其与句子向量的嵌入表示s进行融合;
(2.3)在一个跨模态融合模块里加入了两个深度融合模块,实现了图像特征和文本信息的充分融合;
深度融合模块则使用四个全链接层从s中分别学习出一个缩放参数γ和一个移位参数β去调整图像特征的数据分布,使得图象特征逐渐和句子的含义趋于一致,得到新的视觉特征图
Figure BDA0003552389680000061
上述过程可以形式化为如下数学公式:
A2=up(A)
γ=f12(f11(A2))
β=f22(f21(A2))
Aout=γ×A2
其中up表示上采样操作,f11、f12、f21和f22表示4个不同的全连接层。本发明相比于现有技术的深度融合模块,自调节模块则通过捕捉图像特征通道之间的关联,动态建模通道的重要性,然后自适应地增强重要的通道并抑制不重要的通道,从而提高图像质量;
(2.4)判别器接受一张图像和它对应的描述语句作为输入,计算图像和语句之间相似性求得损失函数,然后利用梯度下降算法依据损失函数更新模型的参数,逐渐提升模型合成的图像的质量;
步骤3,自调节模块构建,本发明提出的自调节模块内部的计算过程如图2所示,该模块的输入是一个尺寸为RH×W×C的特征图F,随后对该特征图进行调整:
(3.1)对特征图F应用全局平均池化操作,压缩F每个通道的空间信息,形成一个尺寸为RC的一维向量V={v1,v2,...,vc}:
V=avgpool(F)
其中avgpool表示全局平均池化。V的一个元素vi对应着原始特征图F的一个通道,因此V相当于F中通道的空间信息高度压缩之后的描述符,用于之后的计算;
(3.2)为了达成模型效果和参数量之间的平衡,在对V进行卷积操作之前,要决定卷积核的尺寸;本发明没有使用固定的尺寸,使用一个公式依据V的大小来确定卷积核尺寸k:
Figure BDA0003552389680000062
其中eve表示取最近的偶数;本发明之所以采用公式动态地依据每个输入的尺寸改变卷积核的尺寸,是由于如果卷积核尺寸固定,当输入的V尺寸较小时,卷积核尺寸就过大,造成了不必要的参数浪费。而当输入的V尺寸较大时,卷积核尺寸有不足覆盖V中每个元素较远的邻居元素,从而使得模块失去自调节能力;
(3.3)对V施加一个一维卷积,去捕捉每个元素跟它相邻的k个元素之间的依赖关系,决定V中每个元素的重要性,也即是原始特征图F中每个通道的重要性,最终得到一个注意力向量M={m1,m2,...,mc};M的元素mi就代表F中第i个通道的重要性,计算过程可形式化为如下公式:
Figure BDA0003552389680000071
其中σ表示sigmoid函数,
Figure BDA0003552389680000072
表示卷积核中第j个元素,
Figure BDA0003552389680000073
表示以vi为中心大小为k的邻域;
(3.4)将注意力向量M进行扩充,把它的尺寸变成跟F一样的RH×W×C,得到注意力图谱M2,M2的第i通道里不同空间位置上的元素值都跟M中第i个元素值相同;然后将F和M2按照逐元素相乘的的形式融合起来,形成调整之后特征图F2
F2=F×M2
如图1所示,从第4个跨模态融合模块开始,每个跨模态融合层之后就嵌入了一个自调节模块,这是为了等待特征图F开始具备一定的语义之后才进行调整。自调节模块通过捕捉输入特征图的每个通道与它相邻通道之间的依赖关系,计算出通道的重要性,然后自适应地调整通道的强度,更好地支持模型实现高质量的图像生成;
步骤4,损失函数,自调节文本生成图像模型采用了带有以0为中心的匹配感知梯度惩罚项的Hinge-Loss作为损失函数,其数学计算公式如下:
Figure BDA0003552389680000074
Figure BDA0003552389680000075
其中G代表生成器,D代表判别器,z是噪声,s是文本的句子向量嵌入表示;LG和LD分别是生成器和判别器的损失函数,
Figure BDA0003552389680000076
Figure BDA0003552389680000077
分别表示生成器生成的数据分布,真实的数据分布以及不匹配的图像分布,x是分别从这些数据分布中采样得到的具体数据,
Figure BDA0003552389680000078
Figure BDA0003552389680000079
分别表示对x和s求导数。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (2)

1.一种基于生成对抗网络的自调节文本生成图像方法,其特征在于:基于生成对抗网络设计自调节文本生成图像模块,该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系,建模每个通道的重要性,并自适应地增强重要的通道和抑制不重要的通道;通过将该模块组合进模型当中,能够显著地消除文本特征和视觉特征的融合带来的噪声,提高合成图像的质量;具体包括以下步骤:
步骤1,数据收集与处理,训练文本生成图像模型,
(1.1)首先需要采集大量的图像数据和对应的描述文本数据,包括两个开源数据集CUB和MS-COCO,CUB数据集包含训练图像8855张、测试数据2933张;
(1.2)在获得数据集后,首先对文本进行预处理,随机选取每张图像的描述语句的其中一个,通过填充或者删除单词的操作使得每个句子的长度一致,设置的句子固定长度为10,再使用一个双向的长短期记忆模型(Bi-LSTM)对文本进行编码,得到文本描述对应的句子向量嵌入表示表示作为模型的输入;
步骤2,模型构建,基于生成对抗网络设计自调节文本生成图像模块,主干网络分成两个部分,前半部分是生成器,后半部分是判别器;
(2.1)生成器接受一个噪声z和一个句子向量嵌入表示s作为输入,先利用全连接层将z扩充成一个视觉特征图A;
(2.2)再使用多个不同大小的跨模态融合模块和自调节模块将输入转化成最终的输出图像,跨模态融合模块首先对图像特征图进行上采样,提高特征图的分辨率,得到视觉特征图A2
随后将视觉特征图A2输入到深度融合模块中让其与句子向量的嵌入表示s进行融合;(2.3)在一个跨模态融合模块里加入了两个深度融合模块,实现了图像特征和文本信息的充分融合;
(2.4)判别器接受一张图像和它对应的描述语句作为输入,计算图像和语句之间相似性求得损失函数,然后利用梯度下降算法依据损失函数更新模型的参数,逐渐提升模型合成的图像的质量;
步骤3,自调节模块构建,该模块的输入是一个尺寸为RH×W×C的特征图F,随后对该特征图进行调整:
(3.1)对特征图F应用全局平均池化操作,压缩F每个通道的空间信息,形成一个尺寸为RC的一维向量V={v1,v2,...,vc}:
V=avgpool(F)
其中avgpool表示全局平均池化;V的一个元素vi对应着原始特征图F的一个通道,因此V相当于F中通道的空间信息高度压缩之后的描述符,用于之后的计算;
(3.2)为了达成模型效果和参数量之间的平衡,在对V进行卷积操作之前,要决定卷积核的尺寸;没有使用固定的尺寸,使用一个公式依据V的大小来确定卷积核尺寸k:
Figure FDA0003552389670000011
其中eve表示取最近的偶数;
(3.3)对V施加一个一维卷积,去捕捉每个元素跟它相邻的k个元素之间的依赖关系,决定V中每个元素的重要性,也即是原始特征图F中每个通道的重要性,最终得到一个注意力向量M={m1,m2,...,mc};M的元素mi就代表F中第i个通道的重要性,计算过程可形式化为如下公式:
Figure FDA0003552389670000021
其中σ表示sigmoid函数,
Figure FDA0003552389670000022
表示卷积核中第j个元素,Vi k表示以vi为中心大小为k的邻域;
(3.4)将注意力向量M进行扩充,把它的尺寸变成跟F一样的RH×W×C,得到注意力图谱M2,M2的第i通道里不同空间位置上的元素值都跟M中第i个元素值相同;然后将F和M2按照逐元素相乘的的形式融合起来,形成调整之后特征图F2
F2=F×M2
自调节模块通过捕捉输入特征图的每个通道与它相邻通道之间的依赖关系,计算出通道的重要性,然后自适应地调整通道的强度,更好地支持模型实现高质量的图像生成;
步骤4,损失函数,自调节文本生成图像模型采用了带有以0为中心的匹配感知梯度惩罚项的Hinge-Loss作为损失函数,其数学计算公式如下:
Figure FDA0003552389670000023
Figure FDA0003552389670000024
其中G代表生成器,D代表判别器,z是噪声,s是文本的句子向量嵌入表示;LG和LD分别是生成器和判别器的损失函数,
Figure FDA0003552389670000025
Figure FDA0003552389670000026
分别表示生成器生成的数据分布,真实的数据分布以及不匹配的图像分布,x是分别从这些数据分布中采样得到的具体数据,
Figure FDA0003552389670000027
Figure FDA0003552389670000028
分别表示对x和s求导数。
2.根据权利要求1所述的一种基于生成对抗网络的自调节文本生成图像方法,其特征在于:(2.3)中,深度融合模块则使用四个全链接层从s中分别学习出一个缩放参数γ和一个移位参数β去调整图像特征的数据分布,使得图象特征逐渐和句子的含义趋于一致,得到新的视觉特征图Aout;上述过程可以形式化为如下数学公式:
A2=up(A)
γ=f12(f11(A2))
β=f22(f21(A2))
Aout=γ×A2
其中up表示上采样操作,f11、f12、f21和f22表示4个不同的全连接层。
CN202210267451.6A 2022-03-17 2022-03-17 一种基于生成对抗网络的自调节文本生成图像方法 Active CN114581334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210267451.6A CN114581334B (zh) 2022-03-17 2022-03-17 一种基于生成对抗网络的自调节文本生成图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210267451.6A CN114581334B (zh) 2022-03-17 2022-03-17 一种基于生成对抗网络的自调节文本生成图像方法

Publications (2)

Publication Number Publication Date
CN114581334A true CN114581334A (zh) 2022-06-03
CN114581334B CN114581334B (zh) 2024-05-24

Family

ID=81775345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210267451.6A Active CN114581334B (zh) 2022-03-17 2022-03-17 一种基于生成对抗网络的自调节文本生成图像方法

Country Status (1)

Country Link
CN (1) CN114581334B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024130753A1 (zh) * 2022-12-23 2024-06-27 北京大学 一种多路并行的文本到图像生成方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050122397A1 (en) * 2003-12-03 2005-06-09 Safehouse International Limited Recording a sequence of images
GB201911724D0 (en) * 2019-08-15 2019-10-02 Vision Semantics Ltd Text based image search
WO2020146119A1 (en) * 2019-01-11 2020-07-16 Microsoft Technology Licensing, Llc Compositional model for text recognition
CN112489152A (zh) * 2020-11-04 2021-03-12 湖南大学 一种基于远程相关注意力生成对抗网络的文本生成图像方法
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法
CN113076994A (zh) * 2021-03-31 2021-07-06 南京邮电大学 一种开集域自适应图像分类方法及系统
CN113140020A (zh) * 2021-05-13 2021-07-20 电子科技大学 一种基于伴随监督生成对抗网络的文本生成图像的方法
KR102287407B1 (ko) * 2020-12-18 2021-08-06 영남대학교 산학협력단 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
CN113421314A (zh) * 2021-06-09 2021-09-21 湖南大学 一种基于生成对抗网络的多尺度双模态文本生成图像方法
US20220005235A1 (en) * 2020-07-06 2022-01-06 Ping An Technology (Shenzhen) Co., Ltd. Method and device for text-based image generation

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050122397A1 (en) * 2003-12-03 2005-06-09 Safehouse International Limited Recording a sequence of images
WO2020146119A1 (en) * 2019-01-11 2020-07-16 Microsoft Technology Licensing, Llc Compositional model for text recognition
GB201911724D0 (en) * 2019-08-15 2019-10-02 Vision Semantics Ltd Text based image search
US20220005235A1 (en) * 2020-07-06 2022-01-06 Ping An Technology (Shenzhen) Co., Ltd. Method and device for text-based image generation
CN112489152A (zh) * 2020-11-04 2021-03-12 湖南大学 一种基于远程相关注意力生成对抗网络的文本生成图像方法
KR102287407B1 (ko) * 2020-12-18 2021-08-06 영남대학교 산학협력단 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法
CN113076994A (zh) * 2021-03-31 2021-07-06 南京邮电大学 一种开集域自适应图像分类方法及系统
CN113140020A (zh) * 2021-05-13 2021-07-20 电子科技大学 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN113421314A (zh) * 2021-06-09 2021-09-21 湖南大学 一种基于生成对抗网络的多尺度双模态文本生成图像方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨超等: "基于语义的自然语言文本数字水印研究", 《计算机工程与设计》, no. 06, 30 June 2005 (2005-06-30) *
黄宏宇;谷子丰;: "一种基于自注意力机制的文本图像生成对抗网络", 重庆大学学报, no. 03, 15 March 2020 (2020-03-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024130753A1 (zh) * 2022-12-23 2024-06-27 北京大学 一种多路并行的文本到图像生成方法和系统

Also Published As

Publication number Publication date
CN114581334B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN111260740A (zh) 一种基于生成对抗网络的文本到图像生成方法
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN106846306A (zh) 一种超声图像自动描述方法和系统
CN110322416A (zh) 图像数据处理方法、装置以及计算机可读存储介质
CN109712108B (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
KR20200065433A (ko) 스타일 변환 모델 및 포토 몽타주 기반 합성 이미지의 스타일 변환 장치
CN105989067B (zh) 从图片生成文本摘要的方法、用户设备及训练服务器
CN113934890B (zh) 一种文字自动生成场景视频的方法及系统
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN114283080A (zh) 一种多模态特征融合的文本指导图像压缩噪声去除方法
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
CN114648681B (zh) 一种图像生成方法、装置、设备及介质
WO2024164616A1 (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN115601772A (zh) 一种基于多模态学习的美学质量评价模型和方法
CN113254694A (zh) 一种文本转图像方法和装置
WO2021082518A1 (zh) 机器翻译方法、机器翻译模型训练方法、装置及存储介质
CN114581334B (zh) 一种基于生成对抗网络的自调节文本生成图像方法
CN115115745A (zh) 自主创作型的数字艺术的生成方法、系统、存储介质及电子设备
CN116188621A (zh) 基于文本监督的双向数据流生成对抗网络图像生成方法
KR102562386B1 (ko) 이미지 합성 시스템의 학습 방법
CN113421314B (zh) 一种基于生成对抗网络的多尺度双模态文本生成图像方法
CN114386569A (zh) 一种使用胶囊网络的新型图像描述生成算法
CN114170460A (zh) 一种基于多模态融合的艺术品分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant