CN117392284B - 自适应条件增强的文本图像生成方法、系统、装置及介质 - Google Patents
自适应条件增强的文本图像生成方法、系统、装置及介质 Download PDFInfo
- Publication number
- CN117392284B CN117392284B CN202311682269.8A CN202311682269A CN117392284B CN 117392284 B CN117392284 B CN 117392284B CN 202311682269 A CN202311682269 A CN 202311682269A CN 117392284 B CN117392284 B CN 117392284B
- Authority
- CN
- China
- Prior art keywords
- text
- condition
- loss
- image generation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000008485 antagonism Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 59
- 230000003044 adaptive effect Effects 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 9
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 8
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种自适应条件增强的文本图像生成方法、系统、装置及介质,涉及文本‑图像生成技术领域,该方法包括采集文本信息,构建数据集;构建文本图像生成模型ACE‑GAN;将数据集输入到构建好的文本图像生成模型ACE‑GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE‑GAN;将文本信息输入到训练好的文本图像生成模型ACE‑GAN中,生成图像。本发明方法解决了单阶段生成网络中的跨模态信息交互性能较差,导致文本与生成图像之间的语义一致性较差的问题,提高了图像质量和多样性。
Description
技术领域
本发明涉及文本-图像生成技术领域,尤其涉及一种自适应条件增强的文本图像生成方法、系统、装置及介质。
背景技术
文本-图像生成(Text to image,简称为T2I)旨在建立一个文本-图像映射系统,建立语义一致的图像映射系统,生成语义一致的图像。在早期阶段,从文本到图像的生成框架受到生成对抗网络(Generative Adversarial Networks ,简称为GAN)和计算机硬件发展的限制,因此只能在有限的计算资源上构建浅层神经网络,无法充分拟合训练数据并生成高质量的图像。随着GAN的发展,越来越多的作品开始使用具有跨模态注意机制的多阶段生成网络。其中多阶段生成网络可以逐步增强生成图像的分辨率,而跨模态注意机制可以控制图像中的细粒度信息。
近年来,随着计算机硬件的快速发展,大参数单阶段生成网络展现出了其非凡的竞争力,但这其中也伴随着一些问题。最严重的问题是,单阶段生成网络中的跨模态信息交互性能较差,导致文本与生成图像之间的语义一致性较差。因此,提高文本与图像之间的交互强度成为单阶段生成网络领域关注的焦点。
发明内容
为此,本发明实施例提供了一种自适应条件增强的文本图像生成方法、系统、装置及介质,用于解决现有技术中单阶段生成网络中的跨模态信息交互性能较差,导致文本与生成图像之间的语义一致性较差的问题。
为了解决上述问题,本发明实施例提供一种自适应条件增强的文本图像生成方法,所述方法包括:
S1:采集文本信息,构建数据集;
S2;构建文本图像生成模型ACE-GAN,其中文本图像生成模型ACE-GAN的框架为:
由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个 ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失CMAL来优化判断器的特征提取能力;
S3: 将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;
S4:将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。
优选地,所述生成器中的每个ACE上采样块由自适应条件增强模块ACEM和语义空间感知模块SSAM组成,所述自适应条件增强模块ACEM用于根据单词对中间图像特征的重要性为每个上采样块构建自适应的语义条件,所述语义空间感知模块SSAM用于使用文本条件来指导中间图像特征的学习。
优选地,所述自适应条件增强模块ACEM用于根据单词对中间图像特征的重要性为每个上采样块构建自适应的语义条件,具体包括:
在自适应条件增强模块ACEM中,首先计算单词与图像子区域之间的关系矩阵:
式中,/>代表词特征,/>代表中间图像特征,/>代表关系矩阵,/>;
沿着文本轴对关系矩阵R进行归一化,并在图像轴上执行平均池化:
式中,/>代表关系矩阵,/>代表归一化后的关系矩阵,/>均表示第几个的意思,不指代任何释义,/>代表关系矩阵行数,/>代表词向量总个数,/>代表词向量的权重;
然后,对词向量进行加权和,得到一个自适应的语义向量:
式中,/>代表自适应的语义向量;
最后,将句子向量和自适应的语义向量连接在一起,作为最终的文本条件:
式中,/>代表文本条件,/>代表句子向量。
优选地,所述使用跨模态对齐损失CMAL来优化判断器的特征提取能力的方法具体包括:
在互信息损失的基础上引入了词与局部图像特征之间的约束,并为了迫使判断器在训练的早期阶段更多地关注全局图像特征,然后逐步加强对局部图像特征的关注,设计了一个平衡函数来调整词语局部损失和语句全局损失的比例,其中平衡函数表示为:
式中,/>为跨模态对齐损失,为词语局部对齐损失,/>为语句全局对齐损失,/>为训练周期,/>为与数据集相关的超参数。
优选地,所述词语局部对齐损失表示为:
式中,/>为第i个词向量,/>为第j个词向量;/>为第i个区域内上下文信息向量,/>为第j个区域内上下文信息向量;/>为关系矩阵;/>为平滑因子;/>为词向量总个数;/>均表示第几个的意思,不指代任何释义;
所述语句全局对齐损失表示为:
式中,/>为第i个语句向量;/>为第i张图片的第k个位置向量;/>为第j张图片的第k个位置向量;/>为图片总数;/>为每张图片内位置向量总数;/>均表示第几个的意思,不指代任何释义。
优选地,在进行条件对抗性学习训练过程中,总生成器损失为:
式中,/>为总生成器损失,/>为生成器的对抗性损失,/>为生成图像的跨模态对齐损失,/>为DAMSM loss,/>为系数。
优选地,在进行条件对抗性学习训练过程中,总判断器损失为:
式中,/>为总判断器损失,/>为判断器的对抗性损失,/>为真实图像的跨模态对齐损失,/>为MA-GP损失,/>为系数。
本发明实施例还提供了一种自适应条件增强的文本图像生成系统,所述系统用于实现上述所述的自适应条件增强的文本图像生成方法,具体包括:
文本采集模块,用于采集文本信息,构建数据集;
文本图像生成模型ACE-GAN构建模块,用于构建文本图像生成模型ACE-GAN,其中文本图像生成模型ACE-GAN的框架为:
由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个 ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失CMAL来优化判断器的特征提取能力;
训练模块,用于将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;
文本-图像生成模块,用于将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。
本发明实施例还提供了一种电子装置,所述电子装置包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的自适应条件增强的文本图像生成方法。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述所述的自适应条件增强的文本图像生成方法。
从以上技术方案可以看出,本发明申请具有以下优点:
本发明实施例中提出了一种自适应条件增强的文本图像生成方法、系统、装置及介质,提出了一种新的T2I模型,称为自适应条件增强生成对抗网络(ACE-GAN),它加强了细粒度词语信息对生成器和判断器的引导。一方面,设计了一个自适应条件增强模块ACEM,简化了词语信息的使用方式;另一方面,提出了一种新的跨模态对齐损失CMAL,来激励条件判断器提取更多与输入文本相关的图像特征。ACEM算法通过挖掘词语与局部图像特征之间的相关性,对词向量进行加权求和,构建自适应语义条件。在ACE-GAN中,自适应语义条件被视为句子条件的增强,与中间图像特征高度相关,可以为图像特征的细化提供更准确的指导。具体来说,CMAL包括两个部分:一是基于跨模态检索的词局部图像特征丢失,它在提高文本图像语义一致性方面效果显著;另一部分是基于对比学习的句子-全局图像特征损失,对提高图像多样性有显著效果。为了迫使判断器在训练的早期阶段更多地关注全局图像特征,然后逐步加强对局部图像特征的关注,设计了一个分段函数来平衡这两个部分损失的权重。此外,大量的实验表明,我们构建的文本图像生成模型ACE- GAN优于大多数最先进的方法,在CUB- 200-2011数据集上,我们在Inception Score、FID和R-precision上分别实现了3.55%、16.46%和5.72%的相对改进;在MSCOCO上,我们在Inception Score、FID和R-precision上分别实现了25.84%、32.16%和31.36%的相对改进。
附图说明
为了更清楚地说明本发明实施案例或现有技术中的技术方案,下边将对实施例中所需要使用的附图做简单说明,通过参考附图会更清楚的理解本发明的特征和优点,附图是示意性的而不应该理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为实施例中提供的一种自适应条件增强的文本图像生成方法的流程图;
图2为实施例中文本图像生成模型ACE-GAN的框架示意图;
图3为实施例中ACE上采样块的结构示意图;
图4为实施例中提供的一种自适应条件增强的文本图像生成系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案与优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明认为,通过合理的方法引入词语信息可以提高单阶段生成网络的能力。单阶段生成模型DF-GAN、SSA-GAN和COMIM-GAN中的每个上采样块都包含两个仿射变换层,而与At- tnGAN和DM-GAN中应用的跨模态注意机制相比,只使用句子信息来指导图像特征的学习是有些单薄的。将跨模态注意机制引入单阶段生成网络看似是一种合理的解决方案,但随着图像分辨率的提高,注意机制的资源消耗呈指数级增长。这种限制使得在高分辨率生成阶段很难应用,因此这种方法的通用性不是很好。基于仿射变换的单阶段生成网络在不同生成阶段使用相同的文本条件,忽略了不同生成阶段图像特征的可变性。此外,单阶段生成网络中的条件判断器不会在文本条件约束下提取图像特征。如果条件判断器提取的图像特征与文本条件无关,则条件判断器是无用的。因此,使判断器提取更多与文本相关的特征是必需的。
为了解决这些问题,如图1所示,本发明实施例提出一种自适应条件增强的文本图像生成方法,该方法包括:
S1:采集文本信息,构建数据集;
S2;构建文本图像生成模型ACE-GAN,其中文本图像生成模型ACE-GAN的框架为:
由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个 ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失CMAL来优化判断器的特征提取能力;
S3: 将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;
S4:将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。
从上述技术方案可知,本发明提供了一种自适应条件增强的文本图像生成方法,通过采集文本信息,构建数据集;构建文本图像生成模型ACE-GAN;将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。其中文本图像生成模型ACE-GAN在GAN的基础上加强了文本和图像之间的交互,改进了特征条件判断器的提取能力;其次,提出了一种自适应条件增强模块ACEM,该模块可以构建自适应语义条件来加强对图像细节的控制;最后,提出了一种新的跨模态对齐损失CMAL来迫使判别器提取更多与文本相关的特征,这有利于条件判别器的条件判别,反过来促进生成器生成具有高多样性和高语义一致性的图像。本发明方法解决了单阶段生成网络中的跨模态信息交互性能较差,导致文本与生成图像之间的语义一致性较差的问题,提高了图像质量和多样性。
在本实施中,在步骤S1中,采集文本信息,构建数据集。在本实施例中,使用CUB-200-2011数据集和MSCOCO数据集。
在本实施中,在步骤S2中,构建文本图像生成模型ACE-GAN。如图2所示,文本图像生成模型ACE-GAN的框架为:
由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个 ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失(Cross ModalAlignment Loss,CMAL)来优化判断器的特征提取能力。
具体地,生成器中的每个ACE上采样块由自适应条件增强模块(AdaptiveCondition Enhancement Module,ACEM)和语义空间感知模块SSAM组成。自适应条件增强模块ACEM用于根据单词对中间图像特征的重要性为每个上采样块构建自适应的语义条件。这些自适应语义条件聚焦于局部图像信息,可以增强句子条件。语义空间感知模块SSAM用于使用文本条件来指导中间图像特征的学习。如图3所示。
在ACEM中,首先计算单词与图像子区域之间的关系矩阵:
式中,/>代表词特征,/>代表中间图像特征,/>代表关系矩阵,/>。
沿着文本轴对关系矩阵R进行归一化,并在图像轴上执行平均池化:
式中,/>代表关系矩阵,/>代表归一化后的关系矩阵,/>均表示第几个的意思,不指代任何释义,/>代表关系矩阵行数,/>代表词向量总个数,/>代表词向量的权重。
然后,对词向量进行加权和,得到一个自适应的语义向量:
式中,/>代表自适应的语义向量。
最后,将句子向量和自适应的语义向量连接在一起,作为最终的文本条件:
式中,/>代表文本条件,/>代表句子向量。
进一步地,由于中间的图像特征在不同的生成阶段往往与不同的单词表现出高度的相关性。因此,文本条件应该在不同的生成阶段进行自适应。本发明提出的ACEM成功地将单词信息引入到图像生成过程中,提高了文本与图像之间的交互性,有利于提高生成图像的多样性和文本与图像之间的语义一致性。
在ACE-GAN的判断器中,判断网络根据文本条件确定提取的图像特征的真实性,判断器可以提取的图像特征的信息量很大地影响了判断网络的性能。以往的工作采用了基于对比学习的互信息丢失来鼓励判断器提取更多的句子相关特征,从而提高判断网络的性能。而COMIM-GAN仅在全球层面上使用句子信息对判断器进行修正,并不能充分利用文本信息的激励效应。因此,本发明提出了一种新的跨模态对齐损失(CMAL),它在互信息损失的基础上引入了词与局部图像特征之间的约束,进一步提高了判断器的特征提取能力。
进一步地,在计算词语与局部图像特征之间的跨模态对齐损失时,本发明借鉴了DAMSM损失的结构设计。首先将词语和局部图像特征投影到一个公共语义空间中,然后利用局部图像特征基于跨模态注意机制构造每个词语的区域上下文向量,最后计算区域上下文与原始词语的相似性。词语局部对齐损失表示为:
式中,/>为第i个词向量,/>为第j个词向量;/>为第i个区域内上下文信息向量,/>为第j个区域内上下文信息向量;/>为关系矩阵;/>为平滑因子;/>为词向量总个数;/>均表示第几个的意思,不指代任何释义。
进一步地,以往的绝大多数工作都将RGB图像抽象为一维向量,然后计算其与语句向量的相似度。本发明从判断器中第6个下采样块出发的全局图像特征图x∈R可以看作是从16个角度对图像的抽象。更高层次的抽象表示可能会导致详细信息的破坏。因此,本发明计算了x中的每个特征向量与语句向量之间的相似性。语句全局对齐损失显示为:
式中,/>为第i个语句向量;/>为第i张图片的第k个位置向量;/>为第j张图片的第k个位置向量;/>为图片总数;/>为每张图片内位置向量总数;/>均表示第几个的意思,不指代任何释义。
进一步地,与其他基于预训练模型的跨模态对齐损失不同,本发明提出的CMAL与判断器有很强的相关性。在模型训练的早期阶段,判断器的特征提取能力非常差,此时提取的图像的局部特征普遍不准确。因此,我们认为此时判断器应该更多地关注全局信息,然后随着判断器学习能力的提高,逐步提高其对局部信息的关注。为此,本发明设计了一个平衡函数来调整词语局部损失和语句全局损失的比例,其中平衡函数表示为:
式中,/>为跨模态对齐损失,为词语局部对齐损失,/>为语句全局对齐损失,/>为训练周期,/>为与数据集相关的超参数。CUB: K=200,COCO: K=25。
进一步地,对于条件对抗性学习,本发明利用hing损失来精确识别图像和文本之间的语义一致性。该判断器的对抗性损失定义为:
式中,/>为判断器的对抗性损失,/>为从真实样本中采样的 x 的期望值,/>为从生成样本中采样的x 的期望值,/>为判别器真实图像在匹配文本描述下的输出,/>为判别器生成图像在匹配文本描述下的输出,/>为判别器生成图像在非匹配文本描述下的输出。
将生成器的对抗性损失定义为:
式中,/>为生成器的对抗性损失。
DAMSM loss可以测量文本与图像的匹配度,有助于提高生成图像的语义一致性。DAMSM损失的公式为:
式中,为DAMSM损失,/>为通过实验证明的平滑因子,/>为词向量总个数,/>为第i张图片的位置向量,/>为第i个图像文本对;/>均表示第几个的意思,不指代任何释义。
对真实图像和相应文本的梯度惩罚可以使判断器的收敛面光滑,使判断器收敛得更好。MA-GP损失的公式为:
式中,/>为从真实样本中采样的 x 的期望值,/>为判别器真实图像在匹配文本描述下的输出。
综上,我们可以得到总生成器损失:
式中,/>为总生成器损失,/>为生成器的对抗性损失,/>为生成图像的跨模态对齐损失,/>为DAMSM loss,/>为系数。
总判断器损失:
;
;
;
式中,为总判断器损失,/>为判断器的对抗性损失,/>为真实图像的跨模态对齐损失,/>为MA-GP损失,/>为系数。
在本实施中,在步骤S3中,将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN。
进一步地,大量的实验表明,本发明提出的文本图像生成模型ACE- GAN优于大多数最先进的方法。在CUB- 200-2011数据集上,我们在Inception Score、FID和R-precision上分别实现了3.55%、16.46%和5.72%的相对改进。在MSCOCO上,我们在Inception Score、FID和R-precision上分别实现了25.84%、32.16%和31.36%的相对改进。
在本实施中,在步骤S4中,将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。
实施例二
如图4所示,本发明提供一种自适应条件增强的文本图像生成系统,所述系统用于实现实施例一所述的自适应条件增强的文本图像生成方法,具体包括:
文本采集模块10,用于采集文本信息,构建数据集;
文本图像生成模型ACE-GAN构建模块20,用于构建文本图像生成模型ACE-GAN,其中文本图像生成模型ACE-GAN的框架为:
由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个 ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失CMAL来优化判断器的特征提取能力;
训练模块30,用于将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;
文本-图像生成模块40,用于将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。
本实施例的一种自适应条件增强的文本图像生成系统,用于实现前述的自适应条件增强的文本图像生成方法,因此自适应条件增强的文本图像生成系统中的具体实施方式可见前文自适应条件增强的文本图像生成方法的实施例部分,例如,文本采集模块10,文本图像生成模型ACE-GAN构建模块20,训练模块30,文本-图像生成模块40,分别用于实现上述自适应条件增强的文本图像生成方法中步骤S1,S2,S3,S4,所以,其具体实施方式可以参照相应的各个部分实施例的描述,为了避免冗余,在此不再赘述。
实施例三
本发明实施例还提供了一种电子装置,所述电子装置包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的自适应条件增强的文本图像生成方法。
实施例四
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述所述的自适应条件增强的文本图像生成方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (6)
1.一种自适应条件增强的文本图像生成方法,其特征在于,包括:
S1:采集文本信息,构建数据集;
S2;构建文本图像生成模型ACE-GAN,其中文本图像生成模型ACE-GAN的框架为:
由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失CMAL来优化判断器的特征提取能力;
所述生成器中的每个ACE上采样块由自适应条件增强模块ACEM和语义空间感知模块SSAM组成,所述自适应条件增强模块ACEM用于根据单词对中间图像特征的重要性为每个上采样块构建自适应的语义条件,所述语义空间感知模块SSAM用于使用文本条件来指导中间图像特征的学习;
所述自适应条件增强模块ACEM用于根据单词对中间图像特征的重要性为每个上采样块构建自适应的语义条件,具体包括:
在自适应条件增强模块ACEM中,首先计算单词与图像子区域之间的关系矩阵:
R=WTI
式中,W代表词特征,I代表中间图像特征,R代表关系矩阵,
沿着文本轴对关系矩阵R进行归一化,并在图像轴上执行平均池化:
式中,Ri,j代表关系矩阵,代表归一化后的关系矩阵,i,j均表示第几个的意思,不指代任何释义,T代表关系矩阵行数,N代表词向量总个数,A代表词向量的权重;
然后,对词向量进行加权和,得到一个自适应的语义向量:
式中,代表自适应的语义向量;
最后,将句子向量和自适应的语义向量连接在一起,作为最终的文本条件:
式中,C代表文本条件,S代表句子向量;
所述使用跨模态对齐损失CMAL来优化判断器的特征提取能力的方法具体包括:
在互信息损失的基础上引入了词与局部图像特征之间的约束,并为了迫使判断器在训练的早期阶段更多地关注全局图像特征,然后逐步加强对局部图像特征的关注,设计了一个平衡函数来调整词语局部损失和语句全局损失的比例,其中平衡函数表示为:
式中,LCMA为跨模态对齐损失,为词语局部对齐损失,/>为语句全局对齐损失,E为训练周期,K为与数据集相关的超参数;
所述词语局部对齐损失表示为:
式中,wi为第i个词向量,wj为第j个词向量;为第i个区域内上下文信息向量,/>为第j个区域内上下文信息向量;R(,)为关系矩阵;γ为平滑因子;N为词向量总个数;i,j均表示第几个的意思,不指代任何释义;
所述语句全局对齐损失表示为:
式中,si为第i个语句向量;为第i张图片的第k个位置向量;/>为第j张图片的第k个位置向量;N1为图片总数;M为每张图片内位置向量总数;i,j,k均表示第几个的意思,不指代任何释义;
S3:将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;
S4:将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。
2.根据权利要求1所述的自适应条件增强的文本图像生成方法,其特征在于,在进行条件对抗性学习训练过程中,总生成器损失为:
式中,LossG为总生成器损失,为生成器的对抗性损失,/>为生成图像的跨模态对齐损失,LDAMSM为DAMSM loss,λ1,λ2为系数。
3.根据权利要求1所述的自适应条件增强的文本图像生成方法,其特征在于,在进行条件对抗性学习训练过程中,总判断器损失为:
式中,LossD为总判断器损失,为判断器的对抗性损失,/>为真实图像的跨模态对齐损失,LMA-GP为MA-GP损失,λ3,λ4为系数。
4.一种自适应条件增强的文本图像生成系统,其特征在于,所述系统用于实现权利要求1至3任意一项所述的自适应条件增强的文本图像生成方法,具体包括:
文本采集模块,用于采集文本信息,构建数据集;
文本图像生成模型ACE-GAN构建模块,用于构建文本图像生成模型ACE-GAN,其中文本图像生成模型ACE-GAN的框架为:
由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失CMAL来优化判断器的特征提取能力;
训练模块,用于将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;
文本-图像生成模块,用于将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。
5.一种电子装置,其特征在于,所述电子装置包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至3任意一项所述的自适应条件增强的文本图像生成方法。
6.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行权利要求1至3任意一项所述的自适应条件增强的文本图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311682269.8A CN117392284B (zh) | 2023-12-08 | 2023-12-08 | 自适应条件增强的文本图像生成方法、系统、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311682269.8A CN117392284B (zh) | 2023-12-08 | 2023-12-08 | 自适应条件增强的文本图像生成方法、系统、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117392284A CN117392284A (zh) | 2024-01-12 |
CN117392284B true CN117392284B (zh) | 2024-03-08 |
Family
ID=89463418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311682269.8A Active CN117392284B (zh) | 2023-12-08 | 2023-12-08 | 自适应条件增强的文本图像生成方法、系统、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392284B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393692A (zh) * | 2022-09-08 | 2022-11-25 | 南京邮电大学 | 基于生成式预训练语言模型的联想文本到图像生成方法 |
CN117058673A (zh) * | 2023-06-21 | 2023-11-14 | 北京交通大学 | 文本生成图像模型训练方法、系统以及文本生成图像方法、系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220005235A1 (en) * | 2020-07-06 | 2022-01-06 | Ping An Technology (Shenzhen) Co., Ltd. | Method and device for text-based image generation |
-
2023
- 2023-12-08 CN CN202311682269.8A patent/CN117392284B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393692A (zh) * | 2022-09-08 | 2022-11-25 | 南京邮电大学 | 基于生成式预训练语言模型的联想文本到图像生成方法 |
CN117058673A (zh) * | 2023-06-21 | 2023-11-14 | 北京交通大学 | 文本生成图像模型训练方法、系统以及文本生成图像方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117392284A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147457B (zh) | 图文匹配方法、装置、存储介质及设备 | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
US20220230276A1 (en) | Generative Adversarial Networks with Temporal and Spatial Discriminators for Efficient Video Generation | |
CN110390363A (zh) | 一种图像描述方法 | |
JP7290861B2 (ja) | 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム | |
CN109359214A (zh) | 基于神经网络的视频描述生成方法、存储介质及终端设备 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN113361251A (zh) | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 | |
CN108334910A (zh) | 一种事件检测模型训练方法以及事件检测方法 | |
WO2019196718A1 (zh) | 元素图像生成方法、装置及系统 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN115222998B (zh) | 一种图像分类方法 | |
WO2021178916A1 (en) | Single-stage model training for neural architecture search | |
CN114283080A (zh) | 一种多模态特征融合的文本指导图像压缩噪声去除方法 | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN111402365A (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN113837229B (zh) | 一种知识驱动型的文本到图像生成方法 | |
US20230205994A1 (en) | Performing machine learning tasks using instruction-tuned neural networks | |
CN112037239A (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
US20220301106A1 (en) | Training method and apparatus for image processing model, and image processing method and apparatus | |
CN116450813B (zh) | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |