CN113421314A - 一种基于生成对抗网络的多尺度双模态文本生成图像方法 - Google Patents

一种基于生成对抗网络的多尺度双模态文本生成图像方法 Download PDF

Info

Publication number
CN113421314A
CN113421314A CN202110641648.7A CN202110641648A CN113421314A CN 113421314 A CN113421314 A CN 113421314A CN 202110641648 A CN202110641648 A CN 202110641648A CN 113421314 A CN113421314 A CN 113421314A
Authority
CN
China
Prior art keywords
text
image
network
channel
bimodal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110641648.7A
Other languages
English (en)
Other versions
CN113421314B (zh
Inventor
蒋斌
黄昀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110641648.7A priority Critical patent/CN113421314B/zh
Publication of CN113421314A publication Critical patent/CN113421314A/zh
Application granted granted Critical
Publication of CN113421314B publication Critical patent/CN113421314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法,属于文本到图像的合成技术领域,包括以下步骤:步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,步骤2,编码给定的文本描述,得到相应的文本编码特征,步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,步骤4,将中间图像特征经过一个双模态调整注意力机制,步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,本发明有益效果在于,提出一种双模态调整注意力机制,通过文本图像两种模态来调整生成图像,以及一种多尺度一致性鉴别器,通过其约束词级文本模态和多尺度视觉模态之间的相关性来增强语义一致性。

Description

一种基于生成对抗网络的多尺度双模态文本生成图像方法
技术领域
本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法,属于文本到图像的合成技术领域。
背景技术
文本到图像的合成是计算机视觉中一项重要且具有挑战性的任务,具体为根据给定的文本描述生成逼真且与给定文本语义一致的图像。这项任务已被广泛用于照片编辑,多媒体数据创建和计算机辅助设计等实际应用中。近年来,随着生成对抗网络(GANs)的快速发展,其被大量应用于文本生成图像任务中,这个复杂的计算机视觉和机器学习问题,也由此在近年来取得了很大的进步。2016年,Reed等人首次利用GAN,从文本描述中生成低分辨率的图像。2017年,Zhang等人提出StackGAN,将图像生成分为多个由粗到细的阶段。随后,Xu等人在此基础上提出了一个经典的AttnGAN模型。该模型在每一个生成阶段加入注意力机制,在生成图像的每一个子区域时,动态地选择单词级别的信息来指导图像生成。随后,研究学者基于AttnGAN框架,提出大量模型。这些模型从不同角度出发,都达到了可观的效果。例如:(1)MirrorGAN再次提取生成图像对应的文本描述,约束生成文本,使其与给定文本语义一致,进而达到增强图像文本语义一致性的目的;(2)SEGAN构建自适应注意权重机制,以区分文本描述中关键词和不重要的词,从而提高生成的精确度;(3)Yin等人认为不同描述但意思相近的句子生成的图像也应该类似,由此提出SD-GAN在提取多个句子中类似语义信息的前提下,保证图像的多样性与细节内容。但是上述方法没有考虑到蕴含在生成图像特征中的空间信息,并且,不同类型单词对应的图像区域大小也不同,比如在描述鸟的句子中“翅膀”对应的子区域范围显然与“眼睛”对应的大小不同。
发明内容
本发明的目的在于提供一种基于生成对抗网络的多尺度双模态文本生成图像方法,从而克服现有技术中的不足。
本发明通过以下技术方案实现,具体包括以下步骤:
步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征。
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子嵌入表示;
所述的步骤2.2中采用以下条件增强方法:
由于句子嵌入表示是一个高维稀疏向量,为了避免导致潜在数据流不连续,不利于模型训练的问题,采用以下条件增强的方法:
Figure BDA0003107300650000021
其中,
Figure BDA0003107300650000022
Figure BDA0003107300650000023
为将句子向量表示
Figure BDA0003107300650000024
通过全连接网络得到的均值向量和协方差矩阵,∈从高斯分布
Figure BDA0003107300650000025
随机采样得到,·为矩阵元素对应相乘,
Figure BDA0003107300650000026
为最终的句子向量表示;
步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,经过第一阶段网络的处理,得到中间图像特征;即,将步骤2中得到的句子向量表示
Figure BDA0003107300650000027
与从高斯分布
Figure BDA0003107300650000028
随机采样得到的噪声
Figure BDA0003107300650000029
沿着通道拼接,作为初始图像生成阶段的输入;所述的第一阶段网络包括一个全连接层与四个上采样层,输出64×64的中间图像特征;
步骤4,将中间图像特征经过一个双模态调整注意力机制,所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成;该机制包括一个文本指导模块,用于基于文本描述来校正图像内容;还包括一个通道采样模块,通过选择性地聚合空间上的通道信息来指导图像特征调节,并且将调整后的图像特征作为下一阶段的输入:
步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容:
计算单词嵌入表示W与中间图像特征Vi的相对重要性,即控制因子ri
ri=σ(Lw(W)+Lv(avg(Vi)))
其中,σ为sigmoid函数,avg表示计算均值,Lw和Lv分别对应W和Vi的线性变换;
根据控制因子ri,将W和Vi投影到公共空间Oi中,分别用两个卷积操作fo,fk,使Oi通道数与Vi一致,通过以下方式构造加权图像表示Ci
Ci=sm(fo(Oi)Vi)fk(Oi)
其中sm为softmax函数,用于归一化图像特征与关键分量之间的相似度;串联Ci与Vi,得到U;用门控机制将图像特征Vi与加权图像表示组合为:
Figure BDA0003107300650000031
其中,Lu表示线性运算,sigma表示sigma函数,
Figure BDA0003107300650000032
为文本引导模块调整后的图像特征;步骤4.2、通道采样模块主要通过聚合通道维度上的信息由此获得图像特征Vi的空间信息;对于每个阶段输出的图像特征中的每个像素点,其通道信息表示为
Figure BDA0003107300650000033
其中n为特征通道数。我们采用卷积操作将pi映射到po,并将卷积核集定义为A={α1,α2,...,am},其中每个αj是第j个卷积核的参数值。该聚合运算公式为:
Figure BDA0003107300650000034
其中m是卷积核的数量,po表示通道维度上的线性组合,可让网络自动关注图像特征中较重要的信息,同时抑制无用信息;
步骤4.3、采用一个上下文编码模块来增强模型的非线性映射能力,由此得到通道采样模块的输出
Figure BDA0003107300650000035
步骤4.4、将文本引导模块和通道采样模块的输出
Figure BDA0003107300650000036
拼接起来,作为下一生成阶段的输入;
步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,并输入到多尺度一致性辨别器。该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性,由此增强图像文本语义一致性具体为计算给定文本描述中每个单词嵌入表示与三个不同尺度的图像区域之间的相关性,得到三个相关性值,相加得到相关性损失值。
本发明的有益效果在于,(1)采用的注意力机制不仅通过常用的文本描述来调节中间图像内容,而且还通过图像特征内部的空间信息来调节中间图像内容。由此,调整后的图像不仅蕴含文本中的语义信息,同时能更清晰的刻画出图像内物体的形状,并将其与背景区分开来。(2)提出一种多尺度一致性鉴别器,通过其约束词级文本模态和多尺度视觉模态之间的相关性来增强语义一致性。(3)在CUB和MS-COCO数据集上进行的大量实验表明,本发明优于现有技术方案中的方法,CUB和MS-COCO上Inception Score(IS)值分别从4.55和24.75提高到了4.64和26.09,R-precision值分别从70.31%和84.70%提高到了73.04%和85.74%。
附图说明
图1为本发明结构图。
图2为多尺度一致性辨别器结构图。
具体实施方式
下面结合附图1至2对本发明的优选实施例作进一步说明,步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,如图1所示,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征。
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子嵌入表示;
所述的步骤2.2中采用以下条件增强方法:
由于句子嵌入表示是一个高维稀疏向量,为了避免导致潜在数据流不连续,不利于模型训练的问题,采用以下条件增强的方法:
Figure BDA0003107300650000041
其中,
Figure BDA0003107300650000042
Figure BDA0003107300650000043
为将句子向量表示
Figure BDA0003107300650000044
通过全连接网络得到的均值向量和协方差矩阵,∈从高斯分布
Figure BDA0003107300650000045
随机采样得到,·为矩阵元素对应相乘,
Figure BDA0003107300650000046
为最终的句子向量表示;
步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,经过第一阶段网络的处理,得到中间图像特征;即,将步骤2中得到的句子向量表示
Figure BDA0003107300650000047
与从高斯分布
Figure BDA0003107300650000048
随机采样得到的噪声
Figure BDA0003107300650000049
沿着通道拼接,作为初始图像生成阶段的输入;所述的第一阶段网络包括一个全连接层与四个上采样层,输出64×64的中间图像特征;
步骤4,将中间图像特征经过一个双模态调整注意力机制,所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成;该机制包括一个文本指导模块,用于基于文本描述来校正图像内容;还包括一个通道采样模块,通过选择性地聚合空间上的通道信息来指导图像特征调节,并且将调整后的图像特征作为下一阶段的输入:
步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容:
计算单词嵌入表示W与中间图像特征Vi的相对重要性,即控制因子ri
ri=σ(Lw(W)+Lu(avg(Vi)))
其中,σ为sigmoid函数,avg表示计算均值,Lw和Lv分别对应W和Vi的线性变换;
根据控制因子ri,将W和Vi投影到公共空间Oi中,分别用两个卷积操作fo,fk,使Oi通道数与Vi一致,通过以下方式构造加权图像表示Ci
Ci=sm(fo(Oi)Vi)fk(Oi)
其中sm为softmax函数,用于归一化图像特征与关键分量之间的相似度;串联Ci与Vi,得到U;用门控机制将图像特征Vi与加权图像表示组合为:
Figure BDA0003107300650000051
其中,Lu表示线性运算,sigma表示sigma函数,
Figure BDA0003107300650000052
为文本引导模块调整后的图像特征;
步骤4.2、通道采样模块主要通过聚合通道维度上的信息,由此获得图像特征Vi的空间信息;对于每个阶段输出的图像特征中的每个像素点,其通道信息表示为
Figure BDA0003107300650000053
其中n为特征通道数。我们采用卷积操作将pi映射到po,并将卷积核集定义为A={α1,α2,...,αm},其中每个αj是第j个卷积核的参数值。该聚合运算公式为:
Figure BDA0003107300650000054
其中m是卷积核的数量,po表示通道维度上的线性组合,可让网络自动关注图像特征中较重要的信息,同时抑制无用信息;
具体的,若m=1,则当αj的参数值全为
Figure BDA0003107300650000055
时,该线性组合即相当于平均池化操作;若将通道中最大的
Figure BDA0003107300650000056
对应的αk参数设置为1,且其他参数设置为0,此时该线性组合即为最大池化操作;因此通道采用模块不仅能达到平均池化中保留背景信息的作用以及最大池化中提取纹理特征,减少无用信息影响的作用,还能灵活做到关注图像特征中相对重要的信息,抑制无用信息。
步骤4.3、采用一个上下文编码模块来增强模型的非线性映射能力,由此得到通道采样模块的输出
Figure BDA0003107300650000057
步骤4.4、将文本引导模块和通道采样模块的输出
Figure BDA0003107300650000058
拼接起来,作为下一生成阶段的输入;
步骤5,如图2所示,将中间图像特征经过生成器得到由文本描述产生的图片,并输入到多尺度一致性辨别器。该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性,由此增强图像文本语义一致性。具体为计算给定文本描述中每个单词嵌入表示与三个不同尺度的图像区域之间的相关性,得到三个相关性值,相加得到相关性损失值。在CUB和MS-COCO数据集上进行的大量实验表明,本发明优于现有技术方案中的方法,CUB和MS-COCO上Inception Score(IS)值分别从4.55和24.75提高到了4.64和26.09,R-precision值分别从70.31%和84.70%提高到了73.04%和85.74%。IS值可衡量生成图像的真实性与多样性,R-precision值可衡量生成图像与给定文本之间的语义一致性。

Claims (1)

1.一种基于生成对抗网络的多尺度双模态文本生成图像方法,其特征在于包括以下步骤:
步骤1,构造基于生成对抗网络的多尺度双模态文本图像生成模型,网络的输入采用文本描述,输出与其对应的256×256图像;网络的框架具体由三个阶段堆叠而成,每个阶段都包含一对生成器与辨别器,并且由粗到细逐步生成分辨率为64×64,128×128,256×256的图片;
步骤2,编码给定的文本描述,得到相应的文本编码特征;
步骤2.1、对文本描述进行分词处理,将每个句子通过填充或删除操作得到统一长度的句子表示;
步骤2.2、将句子表示输入进一个双向长短时记忆神经网络,即Bi-LSTM,得到文本描述的对应词嵌入表示与句子嵌入表示;
步骤3,将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入,经过第一阶段网络的处理,得到中间图像特征;即,将步骤2中得到的句子向量表示
Figure FDA0003107300640000013
与从高斯分布
Figure FDA0003107300640000012
随机采样得到的噪声z沿着通道拼接,作为初始图像生成阶段的输入;所述的第一阶段网络包括一个全连接层与四个上采样层,输出64×64的中间图像特征;
步骤4,将中间图像特征经过一个双模态调整注意力机制,所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成;该机制包括一个文本指导模块,用于基于文本描述来校正图像内容;还包括一个通道采样模块,通过选择性地聚合空间上的通道信息来指导图像特征调节,并且将调整后的图像特征作为下一阶段的输入:
步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容:
计算单词嵌入表示W与中间图像特征Vi的相对重要性,即控制因子ri
ri=σ(Lw(W)+Lυ(avg(Vi)))
其中,σ为sigmoid函数,avg表示计算均值,Lw和Lυ分别对应W和Vi的线性变换;
根据控制因子ri,将W和Vi投影到公共空间Oi中,分别用两个卷积操作fo,fk,使Oi通道数与Vi一致,通过以下方式构造加权图像表示Ci
Ci=sm(fo(Oi)Vi)fk(Oi)
其中sm为softmax函数,用于归一化图像特征与关键分量之间的相似度;串联Ci与Vi,得到U;用门控机制将图像特征Vi与加权图像表示组合为:
Figure FDA0003107300640000011
其中,Lu表示线性运算,sigma嵌示sigma函数,Vi t为文本引导模块调整后的图像特征;
步骤4.2、通道采样模块主要通过聚合通道维度上的信息,由此获得图像特征Vi的空间信息;对于每个阶段输出的图像特征中的每个像素点,其通道信息表示为
Figure FDA0003107300640000021
其中n为特征通道数;采用卷积操作将pi映射到po,并将卷积核集定义为A={α1,α2,...,αm},其中每个αj是第j个卷积核的参数值,该聚合运算公式为:
Figure FDA0003107300640000022
其中m是卷积核的数量,po表示通道维度上的线性组合,可让网络自动关注图像特征中较重要的信息,同时抑制无用信息;
步骤4.3、采用一个上下文编码模块来增强模型的非线性映射能力,由此得到通道采样模块的输出Vi c
步骤4.4、将文本引导模块和通道采样模块的输出Vi l,Vi c拼接起来,作为下一生成阶段的输入;
步骤5,将中间图像特征经过生成器得到由文本描述产生的图片,并输入到多尺度一致性辨别器;该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性,由此增强图像文本语义一致性。
CN202110641648.7A 2021-06-09 2021-06-09 一种基于生成对抗网络的多尺度双模态文本生成图像方法 Active CN113421314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110641648.7A CN113421314B (zh) 2021-06-09 2021-06-09 一种基于生成对抗网络的多尺度双模态文本生成图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110641648.7A CN113421314B (zh) 2021-06-09 2021-06-09 一种基于生成对抗网络的多尺度双模态文本生成图像方法

Publications (2)

Publication Number Publication Date
CN113421314A true CN113421314A (zh) 2021-09-21
CN113421314B CN113421314B (zh) 2022-04-22

Family

ID=77788225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110641648.7A Active CN113421314B (zh) 2021-06-09 2021-06-09 一种基于生成对抗网络的多尺度双模态文本生成图像方法

Country Status (1)

Country Link
CN (1) CN113421314B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581334A (zh) * 2022-03-17 2022-06-03 湖南大学 一种基于生成对抗网络的自调节文本生成图像方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706302A (zh) * 2019-10-11 2020-01-17 中山市易嘀科技有限公司 一种文本合成图像的系统及方法
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis
CN112489152A (zh) * 2020-11-04 2021-03-12 湖南大学 一种基于远程相关注意力生成对抗网络的文本生成图像方法
US20210118129A1 (en) * 2019-10-18 2021-04-22 Retrace Labs Dental Image Synthesis using Generative Adversarial Networks with Semantic Activation Blocks
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis
CN110706302A (zh) * 2019-10-11 2020-01-17 中山市易嘀科技有限公司 一种文本合成图像的系统及方法
US20210118129A1 (en) * 2019-10-18 2021-04-22 Retrace Labs Dental Image Synthesis using Generative Adversarial Networks with Semantic Activation Blocks
CN112489152A (zh) * 2020-11-04 2021-03-12 湖南大学 一种基于远程相关注意力生成对抗网络的文本生成图像方法
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIN JIANG: "Adaptive Adversarial Latent Space for Novelty Detection", 《IEEE》 *
吴昊昱: "基于生成对抗网络的文本描述生成图像算法研究及应用", 《中国优秀硕博士论文全文库》 *
陈赛健等: "基于生成对抗网络的文本图像联合超分辨率与去模糊方法", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581334A (zh) * 2022-03-17 2022-06-03 湖南大学 一种基于生成对抗网络的自调节文本生成图像方法
CN114581334B (zh) * 2022-03-17 2024-05-24 湖南大学 一种基于生成对抗网络的自调节文本生成图像方法

Also Published As

Publication number Publication date
CN113421314B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN109344288B (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
WO2019120110A1 (zh) 图像重建方法及设备
CN111260740A (zh) 一种基于生成对抗网络的文本到图像生成方法
CN110390363A (zh) 一种图像描述方法
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN114387366B (zh) 一种感知联合空间注意力文本生成图像方法
CN112686345B (zh) 一种基于注意力机制的脱机英文手写识别方法
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN115147607A (zh) 一种基于凸优化理论的抗噪声零样本图像分类方法
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
CN115908639A (zh) 基于transformer的场景图像文字修改方法、装置、电子设备及存储介质
Zhang et al. SSNet: Structure-Semantic Net for Chinese typography generation based on image translation
CN113421314B (zh) 一种基于生成对抗网络的多尺度双模态文本生成图像方法
WO2022007685A1 (en) Method and device for text-based image generation
CN112784831B (zh) 融合多层特征增强注意力机制的文字识别方法
CN111339734B (zh) 一种基于文本生成图像的方法
CN112528168A (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN114581334B (zh) 一种基于生成对抗网络的自调节文本生成图像方法
He et al. Image captioning algorithm based on multi-branch cnn and bi-lstm
CN116434058A (zh) 基于视觉文本对齐的影像描述生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant