CN113362416A - 基于目标检测的文本生成图像的方法 - Google Patents

基于目标检测的文本生成图像的方法 Download PDF

Info

Publication number
CN113362416A
CN113362416A CN202110754919.XA CN202110754919A CN113362416A CN 113362416 A CN113362416 A CN 113362416A CN 202110754919 A CN202110754919 A CN 202110754919A CN 113362416 A CN113362416 A CN 113362416A
Authority
CN
China
Prior art keywords
image
text
feature
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110754919.XA
Other languages
English (en)
Other versions
CN113362416B (zh
Inventor
杨雨嫣
谢海永
吴曼青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110754919.XA priority Critical patent/CN113362416B/zh
Publication of CN113362416A publication Critical patent/CN113362416A/zh
Application granted granted Critical
Publication of CN113362416B publication Critical patent/CN113362416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于目标检测的文本生成图像的方法,包括:输入一段描述性的文本;利用文本编码器进行编码,得到每一个单词的特征向量和整个句子的特征向量;通过训练好的生成模型输出与文本语义一致的逼真的图像,其中,所述生成模型是生成对抗网络模型,包括一个生成器和一个判别器,所述生成器中增加了注意力机制,所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别。本发明技术的生成模型只包含一个生成器和一个判别器,在保证生成图像质量的同时提高了模型的训练效率。

Description

基于目标检测的文本生成图像的方法
技术领域
本发明涉及计算机视觉、自然语言处理和生成对抗网络领域,尤其涉及一种基于目标检测的文本生成图像的方法。
背景技术
文本生成图像是计算机视觉领域的一个热点问题,它旨在基于一段描述性的文本语句生成语义相关的逼真的图像,在图像编辑、视频游戏和计算机辅助设计等方面都具有巨大的应用潜力。目前最经典最前沿的文本生成图像技术,都是以生成对抗网络(GAN)作为生成模型,它们先将自然语言文本编码为文本特征向量,GAN网络的生成器据此生成图像,而判别器通过提取图像特征来区分生成图像和真实图像,然后损失函数反向传播交替训练生成器和判别器,以促进生成器生成逼真的图像。
因为文本特征到图像特征是一个跨模态的转换,所以直接映射会比较困难,并且生成的图像分辨率越高,所需要得到的图像特征的空间维度越高,直接映射也会更加困难。此外,在使用深度神经网络进行映射时,训练很容易发生模式崩溃,并且网络越深,在映射过程中很容易丢失语义信息,很难保证语义一致性。因此,文本生成图像主要有两个难点:一是生成的图像和输入的文本要保持语义一致性;第二点是要生成尽可能逼真的高分辨率图像。
在目前已有的方法中,Stackgan提出了堆叠式的GAN网络结构,采用了三个生成器和判别器从低分辨率逐渐生成高分辨率图像。而AttnGAN则提出在编码文本时,不仅仅只生成整个句子的特征向量,还要生成每个单词的特征向量。句子特征作为生成器的输入,而单词特征则作为堆叠式的GAN网络中的注意力机制的输入,使得生成的图像包含更多的逼真细节。但是这些方法在处理具有多个物体的复杂语句时(如COCO数据集),往往达不到预期的效果,可能会出现生成的图像完全失真,难以分辨物体形状的情况。
CPGAN在AttnGAN的基础上,提出了一个memory-attented文本编码器,通过目标检测和Botton-Up and Top-Down Attention模型提取出给定图像中与词对应的视觉特征,然后将此特征和文本组合在一起输入文本编码器中,从而增强文本特征的代表性。此外CPGAN还将目标检测用于判别器提取图像特征的过程中——提取图像中每个物体的图像特征,与文本特征中的每个单词一一对应,达到提高文本图像的语义一致性的效果。尽管额外使用这些网络可以大幅度提高生成图像的质量,但是同时也会造成模型的冗余,尤其是三个生成器和判别器的结构,会拖慢模型训练的速度。
DF-GAN则提出了一种新型的只具有单个生成器和判别器就能生成高分辨率图像的模型结构,它通过仿射变换将文本特征作为条件多次应用到生成图像的过程中,提高了文本和图像的语义一致性,此外还采用了新颖的匹配感知零中信梯度惩罚(matching-aware zero-centered gradient penalty)稳定这个深度网络的训练。但是在生成复杂图像时,缺少注意力机制会降低图像的质量。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于目标检测的文本生成图像的方法,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,本发明提供了一种基于目标检测的文本生成图像的方法,包括:
输入一段描述性的文本;
利用文本编码器进行编码,得到每一个单词的特征向量和整个句子的特征向量;
通过训练好的生成模型输出与文本语义一致的逼真的图像,其中,所述生成模型是生成对抗网络模型,包括一个生成器和一个判别器,所述生成器中增加了注意力机制,所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别。
其中,所述文本编码器采用双向卷积长短期记忆人工神经网络或双向GRU模型。
其中,所述生成器的输入为句子特征、随机噪声和单词特征,包括:
将句子特征和随机噪声通过全连接层压缩到同样大小,级联两个向量输入卷积层,得到初始的图像特征;将特征图输入一系列上采样模块,直到图像特征的尺寸为256*256;
将所述初始的图像特征输入通道注意力机制层;
将生成的倒数第二个图像特征输入空间注意力机制层;
得到经过处理的图像特征,将其输入到卷积层中转换为生成图像。
其中,所述生成器包括上采样模块、通道注意力机制模块和空间注意力机制模块。
其中,所述上采样模块包括上采样层和残差网络;其中,所述上采样层是为了得到通道数减小、每张特征图的大小翻倍的图像特征;所述残差网络则是为了防止深度网络出现梯度消失的情况发生。
其中,所述通道注意力机制模块的输入为单词特征和上一层图像特征,基于单词特征为输入图像特征的每个通道计算权重,权重反应了每个单词和生成的图像特征的各个通道的相关程度,输出为加权后的图像特征。
其中,所述空间注意力机制模块的输入为单词特征和上一层的图像特征,基于单词特征时为输入特征图的各个子区域计算权重,权重反应的是每个单词和生成的图像各个子区域的相关程度,输出加权后的图像特征。
其中,所述判别器包括目标检测模块和判别模块。
其中,所述目标检测模块的输入为真实的图像或者生成的图像,输出为图像中检测到的概率最高的前10个物体的视觉特征。
其中,所述判别模块有两种情况的输入:
若输入只有图像中的各个物体的视觉特征,那么需要判别输入的是真实图像还是生成图像,输出0表示生成图像,输出1表示真实图像;
若输入是图像的视觉特征和单词特征,那么需要判断图像的每个物体的视觉特征和每个单词的特征是否相匹配;有以下三种判别的情况:生成图像,匹配文本,真实图像,不匹配文本,真实图像,匹配文本;前两种情况都认为是不匹配,输出为0,最后一种情况被认为是匹配,输出为1。
基于上述技术方案可知,本发明的基于目标检测的文本生成图像的方法相对于现有技术至少具有如下有益效果之一:
1.与现有的文本生成图像的方法相比,本发明技术的生成模型只包含一个生成器和一个判别器,在保证生成图像质量的同时提高了模型的训练效率。
2.在本发明中的条件卷积网络、空间注意力机制、通道注意力机制以及基于目标检测的判别器判别生成图像中各个物体的视觉特征和单词特征是否匹配,都提高了文本和图像的语义一致性。
3.判别器判别生成图像中各个物体是否真实,这样的细化判别可以促进网络生成各个物体都更加真实的图像,提高图像的质量。
附图说明
图1为本发明实施例提供的文本生成图像的流程图;
图2为本发明实施例提供的生成器的结构图;
图3为本发明实施例提供的上采样模块结构图;
图4为本发明实施例提供的判别器的结构图;
图5为本发明实施例提供的生成模型训练流程图。
具体实施方式
针对现有技术所存在的问题,本发明提出了一种基于目标检测的单流文本生成图像的方法,文本编码器编码文本得到整个句子的特征向量和每个单词的特征向量,构建具有一个生成器和判别器的生成模型,在生成器中引入注意力机制并充分利用句子特征和单词特征,在判别器中引入目标检测模型提取图像中每个物体的视觉特征,再和单词特征、真实图像中每个物体的视觉特征相匹配,从而达到提高图像质量和文本图像语义一致性的目标。
本发明仅依赖于文本生成视觉上真实的高分辨率图像,并且保证文本和图像的语义一致性,且致力于提高生成模型的训练效率和生成效率。
为了提高生成图像的质量和训练的效率,本发明提供了一种基于目标检测的文本生成图像的方法,该方法的生成模型中只包含一个生成器和一个判别器,生成器多次将句子特征和生成的图像特征进行融合,同时引入空间注意力机制和通道注意力机制,用单词特征向量指导图像生成更多的细节;判别器通过目标检测,得到生成图像中每个物体的视觉特征,并将其与真实图像的每个物体的视觉特征和单词特征匹配,从而提高生成图像的质量和文本图像语义一致性。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如图1所示,为本发明的文本生成图像的流程图,包括以下步骤:
输入一段描述性的文本;
利用文本编码器进行编码,得到每一个单词的特征向量和整个句子的特征向量;
通过训练好的生成模型输出与文本语义一致的逼真的图像,其中,所述生成模型是生成对抗网络模型,包括一个生成器和一个判别器,所述生成器中增加了注意力机制,所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别。
在本发明进一步的实施例中,对于输入的文本,首先用文本编码器进行编码,通常使用的是的双向卷积长短期记忆人工神经网络(LSTM),它输出每一个单词的特征向量和整个句子的特征向量,再基于此通过训练好的生成模型的生成器生成与文本语义一致的逼真的图像。
本发明的生成模型是生成对抗网络模型,包含一个生成器和一个判别器,但是生成器中额外增加了注意力机制,判别器基于目标检测实现了针对图像中每个目标物体的细化判别。其中生成器的主要结构如图2所示,包括上采样模块,通道注意力机制、空间注意力机制,各个模块的主要结构和作用如下:
1.上采样模块的结构如图3所示,包含一个上采样层和残差网络,输入为句子特征和上一层输出的三维图像特征,大小为Ci*Wi*Hi,其中,Ci为特征图的通道数,Wi*Hi是每张特征图的尺寸。输出为这一层的图像特征Si,Si-1经过上采样层后,得到通道数减小、每张特征图的大小翻倍的图像特征Si′,残差网络则是为了防止深度网络出现梯度消失的情况发生,残差网络中包含3*3的条件卷积层和激活层,条件卷积层以句子特征为条件生成与文本相关的卷积层的动态参数,然后作用在Si′上,得到与之维度大小相同的Si″,当前上采样模块输出的图像特征
Figure BDA0003143064450000061
大小为
Figure BDA0003143064450000062
为矩阵加法。
2.通道注意力机制的输入为单词特征和上一层图像特征,它基于单词特征为输入图像特征的每个通道计算权重,权重反应了每个单词和生成的图像特征的各个通道的相关程度,输出为加权后的图像特征。
3.空间注意力机制的输入同样为单词特征和上一层的图像特征,但是它基于单词特征时为输入特征图的各个子区域计算权重,这个权重反应的是每个单词和生成的图像各个子区域的相关程度,输出加权后的图像特征。
生成器的输入为句子特征、随机噪声、单词特征,我们首先将句子特征和随机噪声通过全连接层压缩到同样大小,然后级联两个向量输入3*3的卷积层,得到初始的大小为C1*4*4的图像特征S1,随后将特征图输入一系列上采样模块,直到图像特征的尺寸为256*256。而为了让图像特征包含更多的细节,我们将初始的图像特征输入通道注意力机制层,因为这个图像特征的通道数较大,此外,我们还将生成的倒数第二个图像特征输入空间注意力机制层,因为这里的特征图尺寸较大,这样可以给图像特征补充更多与文本相关的细节。最后得到大小为C7*4*4的图像特征,再将其出入到卷积层中转换为生成图像。
判别器的结构如图4所示包含一个目标检测模块和一个判别模块:
1.目标检测模块的输入为真实的图像或者生成的图像,输出为图像中检测到的概率最高的前10个物体的视觉特征。目标检测模块可以采用预训练的yolov3模型。
2.判别模块有两种情况的输入:
(1)若输入只有图像中的各个物体的视觉特征,那么需要判别输入的是真实图像还是生成图像,输出0表示生成图像,输出1表示真实图像;
(2)若输入是图像的视觉特征和单词特征,那么需要判断图像的每个物体的视觉特征和每个单词的特征是否相匹配。有三种判别的情况:(生成图像,匹配文本),(真实图像,不匹配文本),(真实图像,匹配文本)。前两种情况都认为是不匹配,输出为0,最后一种情况被认为是匹配,输出为1。
在本发明进一步的实施例中,本发明的方法只适用于软件的开发,设计软件存储训练好的生成器模型,模型结构如图3所示。同时能够捕获一段输入文本并呈现生成的图像。本发明的生成模型的训练过程如图5所示,生成器根据输入的句子特征和单词特征生成与文本语义一致性的图像,判别器根据真实图像和单词特征判别生成图像的质量,然后将结果以loss函数的形式反馈给生成器,促进生成器生成质量更高、更符合文本语义的图像,具体来说:
步骤1:固定生成器,对判别器进行训练,使得判别器能够更加准确地判别是图像中的每个目标物体是否真实、图像中的物体与文本是否匹配。
步骤2:固定判别器,对生成器进行训练,使得生成图像的每个物体都更加接近真实图像并且与文本保持语义一致性。
步骤3:交替进行步骤1和步骤2,直到生成的图像数据分布和真实的图像数据分布基本吻合,判别模型处于纳什均衡,无法判断输入图像是生成图像还是真实图像。
生成模型训练完毕后,不再需要判别器,对于一段输入的文本,文本编码器编码得到句子特征和单词特征,随后将其输入生成模型的生成器中,得到生成图像。
上述技术方案中能被替代的部分如下:
1.从文本生成单词特征和句子特征时,使用的模型也可以采用双向GRU模型;
2.生成器中多次融合句子特征和单词特征时,除了条件卷积网络,还可以采用放射网络、条件批处理归一化。
本发明以只有一对生成器和判别器的生成对抗网络为基础,充分利用句子特征和单词特征,在提高图像生成质量的同时提高网络的训练效率。
本发明的判别器基于目标检测为图像中的每个物体进行判别,这样细化的判别比传统的方式更能提高生成图像和文本之间的语义一致性,并使生成的图像的每个物体都更加逼真。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于目标检测的文本生成图像的方法,包括:
输入一段描述性的文本;
利用文本编码器进行编码,得到每一个单词的特征向量和整个句子的特征向量;
所述每一个单词的特征向量和整个句子的特征向量通过训练好的生成模型输出与文本语义一致的逼真的图像,其中,所述生成模型是生成对抗网络模型,包括一个生成器和一个判别器,所述生成器中增加了注意力机制,所述判别器基于目标检测实现了针对图像中每个目标物体的细化判别。
2.根据权利要求1所述的文本生成图像的方法,所述文本编码器采用双向卷积长短期记忆人工神经网络或双向GRU模型。
3.根据权利要求1所述的文本生成图像的方法,所述生成器的输入为句子特征、随机噪声和单词特征,包括:
将句子特征和随机噪声通过全连接层压缩到同样大小,级联两个向量输入卷积层,得到初始的图像特征;将特征图输入一系列上采样模块,直到图像特征的尺寸为256*256;
将所述初始的图像特征输入通道注意力机制层;
将生成的倒数第二个图像特征输入空间注意力机制层;
得到经过处理的图像特征,将其输入到卷积层中转换为生成图像。
4.根据权利要求1所述的文本生成图像的方法,所述生成器包括上采样模块、通道注意力机制模块和空间注意力机制模块。
5.根据权利要求4所述的文本生成图像的方法,所述上采样模块包括上采样层和残差网络;其中,所述上采样层是为了得到通道数减小、每张特征图的大小翻倍的图像特征;所述残差网络则是为了防止深度网络出现梯度消失的情况发生。
6.根据权利要求4所述的文本生成图像的方法,所述通道注意力机制模块的输入为单词特征和上一层图像特征,基于单词特征为输入图像特征的每个通道计算权重,权重反应了每个单词和生成的图像特征的各个通道的相关程度,输出为加权后的图像特征。
7.根据权利要求4所述的文本生成图像的方法,所述空间注意力机制模块的输入为单词特征和上一层的图像特征,基于单词特征时为输入特征图的各个子区域计算权重,权重反应的是每个单词和生成的图像各个子区域的相关程度,输出加权后的图像特征。
8.根据权利要求1所述的文本生成图像的方法,所述判别器包括目标检测模块和判别模块。
9.根据权利要求8所述的文本生成图像的方法,所述目标检测模块的输入为真实的图像或者生成的图像,输出为图像中检测到的概率最高的前10个物体的视觉特征。
10.根据权利要求8所述的文本生成图像的方法,所述判别模块有两种情况的输入:
若输入只有图像中的各个物体的视觉特征,那么需要判别输入的是真实图像还是生成图像,输出0表示生成图像,输出1表示真实图像;
若输入是图像的视觉特征和单词特征,那么需要判断图像的每个物体的视觉特征和每个单词的特征是否相匹配;有以下三种判别的情况:生成图像,匹配文本,真实图像,不匹配文本,真实图像,匹配文本;前两种情况都认为是不匹配,输出为0,最后一种情况被认为是匹配,输出为1。
CN202110754919.XA 2021-07-01 2021-07-01 基于目标检测的文本生成图像的方法 Active CN113362416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110754919.XA CN113362416B (zh) 2021-07-01 2021-07-01 基于目标检测的文本生成图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110754919.XA CN113362416B (zh) 2021-07-01 2021-07-01 基于目标检测的文本生成图像的方法

Publications (2)

Publication Number Publication Date
CN113362416A true CN113362416A (zh) 2021-09-07
CN113362416B CN113362416B (zh) 2024-05-17

Family

ID=77538225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110754919.XA Active CN113362416B (zh) 2021-07-01 2021-07-01 基于目标检测的文本生成图像的方法

Country Status (1)

Country Link
CN (1) CN113362416B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512368A (zh) * 2022-08-22 2022-12-23 华中农业大学 一种跨模态语义生成图像模型和方法
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法
CN116452906A (zh) * 2023-03-03 2023-07-18 哈尔滨市科佳通用机电股份有限公司 基于文本描述的铁路货车故障图片生成方法
CN116797684A (zh) * 2023-08-21 2023-09-22 腾讯科技(深圳)有限公司 图像生成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
莫建文;徐凯亮;: "结合皮尔逊重构的文本到图像生成模型", 桂林电子科技大学学报, no. 01 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512368A (zh) * 2022-08-22 2022-12-23 华中农业大学 一种跨模态语义生成图像模型和方法
CN115512368B (zh) * 2022-08-22 2024-05-10 华中农业大学 一种跨模态语义生成图像模型和方法
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法
CN116452906A (zh) * 2023-03-03 2023-07-18 哈尔滨市科佳通用机电股份有限公司 基于文本描述的铁路货车故障图片生成方法
CN116452906B (zh) * 2023-03-03 2024-01-30 哈尔滨市科佳通用机电股份有限公司 基于文本描述的铁路货车故障图片生成方法
CN116797684A (zh) * 2023-08-21 2023-09-22 腾讯科技(深圳)有限公司 图像生成方法、装置、电子设备及存储介质
CN116797684B (zh) * 2023-08-21 2024-01-05 腾讯科技(深圳)有限公司 图像生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113362416B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN113362416A (zh) 基于目标检测的文本生成图像的方法
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN110706302B (zh) 一种文本合成图像的系统及方法
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN112084841B (zh) 跨模态的图像多风格字幕生成方法及系统
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
CN111429355A (zh) 一种基于生成对抗网络的图像超分辨率重建方法
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
CN109919174A (zh) 一种基于门控级联注意力机制的文字识别方法
CN111833277A (zh) 一种具有非配对多尺度混合编解码结构的海上图像去雾方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
US20240177506A1 (en) Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption
CN114677580A (zh) 一种基于自适应增强自注意力网络的图像描述方法
CN113987129A (zh) 基于变分自动编码器的数字媒体保护文本隐写方法
CN113140023A (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN113869007B (zh) 一种基于深度学习的文本生成图像学习方法
CN115984700A (zh) 一种基于改进Transformer孪生网络的遥感图像变化检测方法
CN114463214A (zh) 区域注意力机制引导的双路虹膜补全方法及系统
CN113420179A (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN112581431A (zh) 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法
CN115512368B (zh) 一种跨模态语义生成图像模型和方法
Fan et al. Long-term recurrent merge network model for image captioning
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
Teng et al. Unimodal face classification with multimodal training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant