CN113421314A - 一种基于生成对抗网络的多尺度双模态文本生成图像方法 - Google Patents
一种基于生成对抗网络的多尺度双模态文本生成图像方法 Download PDFInfo
- Publication number
- CN113421314A CN113421314A CN202110641648.7A CN202110641648A CN113421314A CN 113421314 A CN113421314 A CN 113421314A CN 202110641648 A CN202110641648 A CN 202110641648A CN 113421314 A CN113421314 A CN 113421314A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- network
- channel
- bimodal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000002902 bimodal effect Effects 0.000 title claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法,属于文本到图像的合成技术领域,包括以下步骤:步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,步骤2,编码给定的文本描述,得到相应的文本编码特征,步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,步骤4,将中间图像特征经过一个双模态调整注意力机制,步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,本发明有益效果在于,提出一种双模态调整注意力机制,通过文本图像两种模态来调整生成图像,以及一种多尺度一致性鉴别器,通过其约束词级文本模态和多尺度视觉模态之间的相关性来增强语义一致性。
Description
技术领域
本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法,属于文本到图像的合成技术领域。
背景技术
文本到图像的合成是计算机视觉中一项重要且具有挑战性的任务,具体为根据给定的文本描述生成逼真且与给定文本语义一致的图像。这项任务已被广泛用于照片编辑,多媒体数据创建和计算机辅助设计等实际应用中。近年来,随着生成对抗网络(GANs)的快速发展,其被大量应用于文本生成图像任务中,这个复杂的计算机视觉和机器学习问题,也由此在近年来取得了很大的进步。2016年,Reed等人首次利用GAN,从文本描述中生成低分辨率的图像。2017年,Zhang等人提出StackGAN,将图像生成分为多个由粗到细的阶段。随后,Xu等人在此基础上提出了一个经典的AttnGAN模型。该模型在每一个生成阶段加入注意力机制,在生成图像的每一个子区域时,动态地选择单词级别的信息来指导图像生成。随后,研究学者基于AttnGAN框架,提出大量模型。这些模型从不同角度出发,都达到了可观的效果。例如:(1)MirrorGAN再次提取生成图像对应的文本描述,约束生成文本,使其与给定文本语义一致,进而达到增强图像文本语义一致性的目的;(2)SEGAN构建自适应注意权重机制,以区分文本描述中关键词和不重要的词,从而提高生成的精确度;(3)Yin等人认为不同描述但意思相近的句子生成的图像也应该类似,由此提出SD-GAN在提取多个句子中类似语义信息的前提下,保证图像的多样性与细节内容。但是上述方法没有考虑到蕴含在生成图像特征中的空间信息,并且,不同类型单词对应的图像区域大小也不同,比如在描述鸟的句子中“翅膀”对应的子区域范围显然与“眼睛”对应的大小不同。
发明内容
本发明的目的在于提供一种基于生成对抗网络的多尺度双模态文本生成图像方法,从而克服现有技术中的不足。
本发明通过以下技术方案实现,具体包括以下步骤:
步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征。
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子嵌入表示;
所述的步骤2.2中采用以下条件增强方法:
由于句子嵌入表示是一个高维稀疏向量,为了避免导致潜在数据流不连续,不利于模型训练的问题,采用以下条件增强的方法:
步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,经过第一阶段网络的处理,得到中间图像特征;即,将步骤2中得到的句子向量表示与从高斯分布随机采样得到的噪声沿着通道拼接,作为初始图像生成阶段的输入;所述的第一阶段网络包括一个全连接层与四个上采样层,输出64×64的中间图像特征;
步骤4,将中间图像特征经过一个双模态调整注意力机制,所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成;该机制包括一个文本指导模块,用于基于文本描述来校正图像内容;还包括一个通道采样模块,通过选择性地聚合空间上的通道信息来指导图像特征调节,并且将调整后的图像特征作为下一阶段的输入:
步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容:
计算单词嵌入表示W与中间图像特征Vi的相对重要性,即控制因子ri:
ri=σ(Lw(W)+Lv(avg(Vi)))
其中,σ为sigmoid函数,avg表示计算均值,Lw和Lv分别对应W和Vi的线性变换;
根据控制因子ri,将W和Vi投影到公共空间Oi中,分别用两个卷积操作fo,fk,使Oi通道数与Vi一致,通过以下方式构造加权图像表示Ci:
Ci=sm(fo(Oi)Vi)fk(Oi)
其中sm为softmax函数,用于归一化图像特征与关键分量之间的相似度;串联Ci与Vi,得到U;用门控机制将图像特征Vi与加权图像表示组合为:
其中,Lu表示线性运算,sigma表示sigma函数,为文本引导模块调整后的图像特征;步骤4.2、通道采样模块主要通过聚合通道维度上的信息由此获得图像特征Vi的空间信息;对于每个阶段输出的图像特征中的每个像素点,其通道信息表示为其中n为特征通道数。我们采用卷积操作将pi映射到po,并将卷积核集定义为A={α1,α2,...,am},其中每个αj是第j个卷积核的参数值。该聚合运算公式为:
其中m是卷积核的数量,po表示通道维度上的线性组合,可让网络自动关注图像特征中较重要的信息,同时抑制无用信息;
步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,并输入到多尺度一致性辨别器。该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性,由此增强图像文本语义一致性具体为计算给定文本描述中每个单词嵌入表示与三个不同尺度的图像区域之间的相关性,得到三个相关性值,相加得到相关性损失值。
本发明的有益效果在于,(1)采用的注意力机制不仅通过常用的文本描述来调节中间图像内容,而且还通过图像特征内部的空间信息来调节中间图像内容。由此,调整后的图像不仅蕴含文本中的语义信息,同时能更清晰的刻画出图像内物体的形状,并将其与背景区分开来。(2)提出一种多尺度一致性鉴别器,通过其约束词级文本模态和多尺度视觉模态之间的相关性来增强语义一致性。(3)在CUB和MS-COCO数据集上进行的大量实验表明,本发明优于现有技术方案中的方法,CUB和MS-COCO上Inception Score(IS)值分别从4.55和24.75提高到了4.64和26.09,R-precision值分别从70.31%和84.70%提高到了73.04%和85.74%。
附图说明
图1为本发明结构图。
图2为多尺度一致性辨别器结构图。
具体实施方式
下面结合附图1至2对本发明的优选实施例作进一步说明,步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,如图1所示,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征。
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子嵌入表示;
所述的步骤2.2中采用以下条件增强方法:
由于句子嵌入表示是一个高维稀疏向量,为了避免导致潜在数据流不连续,不利于模型训练的问题,采用以下条件增强的方法:
步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,经过第一阶段网络的处理,得到中间图像特征;即,将步骤2中得到的句子向量表示与从高斯分布随机采样得到的噪声沿着通道拼接,作为初始图像生成阶段的输入;所述的第一阶段网络包括一个全连接层与四个上采样层,输出64×64的中间图像特征;
步骤4,将中间图像特征经过一个双模态调整注意力机制,所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成;该机制包括一个文本指导模块,用于基于文本描述来校正图像内容;还包括一个通道采样模块,通过选择性地聚合空间上的通道信息来指导图像特征调节,并且将调整后的图像特征作为下一阶段的输入:
步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容:
计算单词嵌入表示W与中间图像特征Vi的相对重要性,即控制因子ri:
ri=σ(Lw(W)+Lu(avg(Vi)))
其中,σ为sigmoid函数,avg表示计算均值,Lw和Lv分别对应W和Vi的线性变换;
根据控制因子ri,将W和Vi投影到公共空间Oi中,分别用两个卷积操作fo,fk,使Oi通道数与Vi一致,通过以下方式构造加权图像表示Ci:
Ci=sm(fo(Oi)Vi)fk(Oi)
其中sm为softmax函数,用于归一化图像特征与关键分量之间的相似度;串联Ci与Vi,得到U;用门控机制将图像特征Vi与加权图像表示组合为:
步骤4.2、通道采样模块主要通过聚合通道维度上的信息,由此获得图像特征Vi的空间信息;对于每个阶段输出的图像特征中的每个像素点,其通道信息表示为其中n为特征通道数。我们采用卷积操作将pi映射到po,并将卷积核集定义为A={α1,α2,...,αm},其中每个αj是第j个卷积核的参数值。该聚合运算公式为:
其中m是卷积核的数量,po表示通道维度上的线性组合,可让网络自动关注图像特征中较重要的信息,同时抑制无用信息;
具体的,若m=1,则当αj的参数值全为时,该线性组合即相当于平均池化操作;若将通道中最大的对应的αk参数设置为1,且其他参数设置为0,此时该线性组合即为最大池化操作;因此通道采用模块不仅能达到平均池化中保留背景信息的作用以及最大池化中提取纹理特征,减少无用信息影响的作用,还能灵活做到关注图像特征中相对重要的信息,抑制无用信息。
步骤5,如图2所示,将中间图像特征经过生成器得到由文本描述产生的图片,并输入到多尺度一致性辨别器。该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性,由此增强图像文本语义一致性。具体为计算给定文本描述中每个单词嵌入表示与三个不同尺度的图像区域之间的相关性,得到三个相关性值,相加得到相关性损失值。在CUB和MS-COCO数据集上进行的大量实验表明,本发明优于现有技术方案中的方法,CUB和MS-COCO上Inception Score(IS)值分别从4.55和24.75提高到了4.64和26.09,R-precision值分别从70.31%和84.70%提高到了73.04%和85.74%。IS值可衡量生成图像的真实性与多样性,R-precision值可衡量生成图像与给定文本之间的语义一致性。
Claims (1)
1.一种基于生成对抗网络的多尺度双模态文本生成图像方法,其特征在于包括以下步骤:
步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征;
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子嵌入表示;
步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,经过第一阶段网络的处理,得到中间图像特征;即,将步骤2中得到的句子向量表示与从高斯分布随机采样得到的噪声z沿着通道拼接,作为初始图像生成阶段的输入;所述的第一阶段网络包括一个全连接层与四个上采样层,输出64×64的中间图像特征;
步骤4,将中间图像特征经过一个双模态调整注意力机制,所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成;该机制包括一个文本指导模块,用于基于文本描述来校正图像内容;还包括一个通道采样模块,通过选择性地聚合空间上的通道信息来指导图像特征调节,并且将调整后的图像特征作为下一阶段的输入:
步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容:
计算单词嵌入表示W与中间图像特征Vi的相对重要性,即控制因子ri:
ri=σ(Lw(W)+Lυ(avg(Vi)))
其中,σ为sigmoid函数,avg表示计算均值,Lw和Lυ分别对应W和Vi的线性变换;
根据控制因子ri,将W和Vi投影到公共空间Oi中,分别用两个卷积操作fo,fk,使Oi通道数与Vi一致,通过以下方式构造加权图像表示Ci:
Ci=sm(fo(Oi)Vi)fk(Oi)
其中sm为softmax函数,用于归一化图像特征与关键分量之间的相似度;串联Ci与Vi,得到U;用门控机制将图像特征Vi与加权图像表示组合为:
其中,Lu表示线性运算,sigma嵌示sigma函数,Vi t为文本引导模块调整后的图像特征;
步骤4.2、通道采样模块主要通过聚合通道维度上的信息,由此获得图像特征Vi的空间信息;对于每个阶段输出的图像特征中的每个像素点,其通道信息表示为其中n为特征通道数;采用卷积操作将pi映射到po,并将卷积核集定义为A={α1,α2,...,αm},其中每个αj是第j个卷积核的参数值,该聚合运算公式为:
其中m是卷积核的数量,po表示通道维度上的线性组合,可让网络自动关注图像特征中较重要的信息,同时抑制无用信息;
步骤4.3、采用一个上下文编码模块来增强模型的非线性映射能力,由此得到通道采样模块的输出Vi c;
步骤4.4、将文本引导模块和通道采样模块的输出Vi l,Vi c拼接起来,作为下一生成阶段的输入;
步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,并输入到多尺度一致性辨别器;该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性,由此增强图像文本语义一致性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110641648.7A CN113421314B (zh) | 2021-06-09 | 2021-06-09 | 一种基于生成对抗网络的多尺度双模态文本生成图像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110641648.7A CN113421314B (zh) | 2021-06-09 | 2021-06-09 | 一种基于生成对抗网络的多尺度双模态文本生成图像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421314A true CN113421314A (zh) | 2021-09-21 |
CN113421314B CN113421314B (zh) | 2022-04-22 |
Family
ID=77788225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110641648.7A Active CN113421314B (zh) | 2021-06-09 | 2021-06-09 | 一种基于生成对抗网络的多尺度双模态文本生成图像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421314B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581334A (zh) * | 2022-03-17 | 2022-06-03 | 湖南大学 | 一种基于生成对抗网络的自调节文本生成图像方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706302A (zh) * | 2019-10-11 | 2020-01-17 | 中山市易嘀科技有限公司 | 一种文本合成图像的系统及方法 |
US10713821B1 (en) * | 2019-06-27 | 2020-07-14 | Amazon Technologies, Inc. | Context aware text-to-image synthesis |
CN112489152A (zh) * | 2020-11-04 | 2021-03-12 | 湖南大学 | 一种基于远程相关注意力生成对抗网络的文本生成图像方法 |
US20210118129A1 (en) * | 2019-10-18 | 2021-04-22 | Retrace Labs | Dental Image Synthesis using Generative Adversarial Networks with Semantic Activation Blocks |
CN112818646A (zh) * | 2021-02-26 | 2021-05-18 | 南京邮电大学 | 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 |
-
2021
- 2021-06-09 CN CN202110641648.7A patent/CN113421314B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10713821B1 (en) * | 2019-06-27 | 2020-07-14 | Amazon Technologies, Inc. | Context aware text-to-image synthesis |
CN110706302A (zh) * | 2019-10-11 | 2020-01-17 | 中山市易嘀科技有限公司 | 一种文本合成图像的系统及方法 |
US20210118129A1 (en) * | 2019-10-18 | 2021-04-22 | Retrace Labs | Dental Image Synthesis using Generative Adversarial Networks with Semantic Activation Blocks |
CN112489152A (zh) * | 2020-11-04 | 2021-03-12 | 湖南大学 | 一种基于远程相关注意力生成对抗网络的文本生成图像方法 |
CN112818646A (zh) * | 2021-02-26 | 2021-05-18 | 南京邮电大学 | 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 |
Non-Patent Citations (3)
Title |
---|
BIN JIANG: "Adaptive Adversarial Latent Space for Novelty Detection", 《IEEE》 * |
吴昊昱: "基于生成对抗网络的文本描述生成图像算法研究及应用", 《中国优秀硕博士论文全文库》 * |
陈赛健等: "基于生成对抗网络的文本图像联合超分辨率与去模糊方法", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581334A (zh) * | 2022-03-17 | 2022-06-03 | 湖南大学 | 一种基于生成对抗网络的自调节文本生成图像方法 |
CN114581334B (zh) * | 2022-03-17 | 2024-05-24 | 湖南大学 | 一种基于生成对抗网络的自调节文本生成图像方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113421314B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344288B (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
WO2019120110A1 (zh) | 图像重建方法及设备 | |
CN111260740A (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN111402365B (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN114387366B (zh) | 一种感知联合空间注意力文本生成图像方法 | |
CN112686345B (zh) | 一种基于注意力机制的脱机英文手写识别方法 | |
CN111325660B (zh) | 一种基于文本数据的遥感图像风格转换方法 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN115147607A (zh) | 一种基于凸优化理论的抗噪声零样本图像分类方法 | |
CN111985525A (zh) | 基于多模态信息融合处理的文本识别方法 | |
CN115908639A (zh) | 基于transformer的场景图像文字修改方法、装置、电子设备及存储介质 | |
Zhang et al. | SSNet: Structure-Semantic Net for Chinese typography generation based on image translation | |
CN113421314B (zh) | 一种基于生成对抗网络的多尺度双模态文本生成图像方法 | |
WO2022007685A1 (en) | Method and device for text-based image generation | |
CN112784831B (zh) | 融合多层特征增强注意力机制的文字识别方法 | |
CN111339734B (zh) | 一种基于文本生成图像的方法 | |
CN112528168A (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN114581334B (zh) | 一种基于生成对抗网络的自调节文本生成图像方法 | |
He et al. | Image captioning algorithm based on multi-branch cnn and bi-lstm | |
CN116434058A (zh) | 基于视觉文本对齐的影像描述生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |