CN113537416A - 基于生成式对抗网络的文本转换图像的方法及相关设备 - Google Patents

基于生成式对抗网络的文本转换图像的方法及相关设备 Download PDF

Info

Publication number
CN113537416A
CN113537416A CN202111090312.2A CN202111090312A CN113537416A CN 113537416 A CN113537416 A CN 113537416A CN 202111090312 A CN202111090312 A CN 202111090312A CN 113537416 A CN113537416 A CN 113537416A
Authority
CN
China
Prior art keywords
network
image
text
input
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111090312.2A
Other languages
English (en)
Inventor
杨巨成
姚彤
刘建征
张伟
许能华
闫潇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Shenzhen Anruan Technology Co Ltd
Original Assignee
Tianjin University of Science and Technology
Shenzhen Anruan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology, Shenzhen Anruan Technology Co Ltd filed Critical Tianjin University of Science and Technology
Priority to CN202111090312.2A priority Critical patent/CN113537416A/zh
Publication of CN113537416A publication Critical patent/CN113537416A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供一种基于生成式对抗网络的文本转换图像的方法及相关设备,所述方法包括以下步骤:获取一段图像的文本描述;将所述文本描述通过预设的第一编码器转化为多维向量编码;将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量;将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像;将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量;将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像;所述第一生成网络、第二生成网络为预训练好的网络。该方法算法简单易于实现,能生成较高分辨率和多样性的图像,有助于扩充数据集。

Description

基于生成式对抗网络的文本转换图像的方法及相关设备
技术领域
本发明涉及人工智能领域,尤其涉及一种基于生成式对抗网络的文本转换图像的方法及相关设备。
背景技术
随着人工智能和深度学习领域的技术的发展,用于训练算法的数据集的需求也越来越庞大。然而庞大的数据的采集制作需要庞大的成本,使用计算机生成图像有助于数据库的扩充并且成本低下。目前生成图像的技术主要是基于生成式对抗网络的图像风格迁移方法。一些基于生成式对抗网络的图像迁移方法,例如cycleGAN,需要昂贵的配对数据集。而文本到图像转换方法优势是:成本低廉、操作简单,只需要文本描述和图像的配对数据集进行训练,而且在扩充数据集时只需要文本描述,就能生成多样的高分辨率的图像。例如训练好一个文本到图像的转化模型后,扩充数据集时只需将文本描述中的颜色、形状、背景等进行排列组合,就能生成多个图像数据。
从文本描述中合成高质量的图像是计算机视觉中一个具有挑战性的问题,并且有许多实际应用。由现有的文本到图像方法生成的样本可以大致反映给定描述的含义,但是它们没有包含必要的细节和生动的对象部分。
发明内容
本发明实施例提供一种基于生成式对抗网络的文本转换图像的方法,以解决上述技术问题。
第一方面,本发明实施例提供基于生成式对抗网络的文本转换图像的方法,其特征在于,包括以下步骤:
获取一段图像的文本描述;
将所述文本描述通过预设的第一编码器转化为多维向量编码;
将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量;
将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像;
将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量;
将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像;
所述第一生成网络、第二生成网络为预训练好的网络。
优选的,所述将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量的步骤前还包括:
将第一生成网络生成的低分辨率图像与真实图像放入预设的第一判别网络进行判断真假,输出结果为真的低分辨率图像,所述第一判别网络为预训练好的网络;
所述将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像的步骤之后还包括:
将第二生成网络生成的高分辨率图像输入到预设的第二判别网络进行判断真假,输出结果为真的高分辨率图像。
优选的,所述第一生成网络、第二生成网络的预训练使用生成式对抗网络的损失函数,采用反向传播算法,使用梯度下降优化参数。
优选的,所述第一生成网络、第二生成网络的结构相同,所述损失函数为:
Figure 100002_DEST_PATH_IMAGE001
其中真实图像
Figure 100002_DEST_PATH_IMAGE002
和文本描述
Figure 100002_DEST_PATH_IMAGE003
来自真实数据分布Pdata,
Figure 100002_DEST_PATH_IMAGE004
是从给定分布
Figure 100002_DEST_PATH_IMAGE005
随 机采样的噪声向量,
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
分别为判别器、生成器,
Figure 100002_DEST_PATH_IMAGE008
为基于所述文本描述的多维向 量编码,通过最大化
Figure 100002_DEST_PATH_IMAGE009
最小化
Figure 100002_DEST_PATH_IMAGE010
来训练所述第一生成网络、第二生成网络。
优选的,所述梯度下降优化参数算法为Adam优化算法,学习率为0.001。
优选的,所述第一编码器包括2-4个编码块,每个编码块包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述2-4个全连接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加。
优选的,所述初始化的噪音向量的值由随机函数生成的与所述文本描述编码同维度的方差为1、期望为0的正态分布数值。
优选的,在将所述第一输入向量输入预设的第一生成网络的步骤前,还包括:
将所述第一输入向量输入到多层感知机;
将所述多层感知机的输出平均划分为
Figure 100002_DEST_PATH_IMAGE011
个分块,在每个分块后面拼接位置信息, 作为所述第一生成网络的输入
Figure 100002_DEST_PATH_IMAGE012
优选的,所述第一生成网络生成低分辨率图像的步骤包括:
所述第一生成网络接收所述输入
Figure 438929DEST_PATH_IMAGE012
,其中,所述第一生成网络包括4-6个第二 编码器,每个所述第二编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一 化层、以及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出 与所述第一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述 2-4个全连接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加;
将所述第二编码器的输出进行上采样,将前一第二编码器的输出数据转化维度为
Figure 100002_DEST_PATH_IMAGE013
,再使用PixelShuffle方法将输出数据的维度
Figure 100002_DEST_PATH_IMAGE014
变形成
Figure 100002_DEST_PATH_IMAGE015
,提升图像的分辨率,然后将变形后的输出数据
Figure 100002_DEST_PATH_IMAGE016
划 分为多个分块,每个分块的分辨率为4像素
Figure 100002_DEST_PATH_IMAGE017
像素,特征维度为
Figure 100002_DEST_PATH_IMAGE018
,形成
Figure 100002_DEST_PATH_IMAGE019
个分块,或者每个分块的分辨率为8像素
Figure 100002_DEST_PATH_IMAGE020
像素,特征维度为
Figure 540877DEST_PATH_IMAGE018
,形成
Figure 100002_DEST_PATH_IMAGE021
个分块,形成下一个第二编码器的输入;
重复执行上述第一生成网络接收所述输入
Figure 100002_DEST_PATH_IMAGE022
的步骤以及所述将所述第二编码 器的输出进行上采样的步骤,将生成的张量转化为特征图,对所述特征图进行卷积操作,生 成低分辨率图像。
优选的,所述第一判别网络进行预训练的过程包括步骤:
将第一生成网络生成的低分辨率图像作为负样本,对应的文本描述的真实图像作为正样本,非对应的文本描述的真实图像作为负样本,所述低分辨率图像、真实图像作为所述第一判别网络的输入图像;
将所述低分辨率图像、真实图像分别划分为
Figure 100002_DEST_PATH_IMAGE023
个分块或
Figure 100002_DEST_PATH_IMAGE024
个分块,每个 所述分块对应的图像分辨率为
Figure 100002_DEST_PATH_IMAGE025
像素或者
Figure 100002_DEST_PATH_IMAGE026
像素,在每个所述分块后面拼接位置信 息和对应所述文本描述的多维向量编码,将拼接后的分块维度转化为
Figure 100002_DEST_PATH_IMAGE027
维,每个分块再对 应增加用于判别正负样本的分类分块,其中,所述分类分块的位置信息为全0,分类分块的 文本描述复制所述多维向量编码;
将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第一判别网络,根据所述分类分块判断所述输入图像是正样本还是负样本。
优选的,所述将所述第二输入向量输入预设的第二生成网络的步骤前包括:
将所述低分辨率图像平均划分成8个或16个分块,在每个分块后面添加位置信息,所述位置信息由热独码或二维度矩阵组成;
将所述分块与所述多维向量编码进行拼接,得到所述第二生成网络的第二输入向 量作为所述第二生成网络的输入
Figure 100002_DEST_PATH_IMAGE028
优选的,所述第二生成网络生成高分辨率图像的步骤包括:
所述第二生成网络接收所述输入
Figure 470918DEST_PATH_IMAGE028
,所述第二生成网络包括4-6个第三编码 器,每个所述第三编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化 层、以及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出与 所述第一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述2-4 个全连接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加,每个所述 第三编码器得到的输出在维度上等于该第三编码器的输入;
将所述第三编码器的输出进行上采样,将前一第二编码器的输出数据转化维度为
Figure 100002_DEST_PATH_IMAGE029
,再使用PixelShuffle方法将输出数据的维度
Figure 73937DEST_PATH_IMAGE029
变形成
Figure 100002_DEST_PATH_IMAGE030
,提升图像的分辨率,然后将变形后的输出数据
Figure 730790DEST_PATH_IMAGE030
划分为多个分块,每个分块的分辨率为4像素
Figure 100002_DEST_PATH_IMAGE031
像素,特征维度为
Figure 100002_DEST_PATH_IMAGE032
,形成
Figure 100002_DEST_PATH_IMAGE033
个分块,或者每个分块的分辨率为8像素
Figure 100002_DEST_PATH_IMAGE034
像素,特征维度为
Figure 659432DEST_PATH_IMAGE032
,形成
Figure 100002_DEST_PATH_IMAGE035
个分块,形成下一个第二编码器的输入;
重复执行上述第二生成网络接收所述输入M1的步骤以及所述将所述第三编码器的输出进行上采样的步骤,将生成的张量转化为特征图,对所述特征图进行卷积操作,生成高分辨率图像。
优选的,所述将第二生成网络生成的高分辨率图像输入到预设的第二判别网络进行判断真假,输出结果为真的高分辨率图像的步骤包括:
将生成的高分辨率图像作为负样本,对应所述文本描述的真实图像作为正样本,非对应所述文本描述的真实图像作为负样本,所述低分辨率图像、真实图像作为所述第二判别网络的输入图像;
将所述高分辨率图像、真实图像分别划分为
Figure 100002_DEST_PATH_IMAGE036
个分块或
Figure 100002_DEST_PATH_IMAGE037
个分块,每个 所述分块对应的图像分辨率为
Figure 732561DEST_PATH_IMAGE036
像素或者
Figure DEST_PATH_IMAGE038
像素,在每个所述分块后面拼接位置信 息和对应所述文本描述的多维向量编码,将拼接后的分块维度转化为C维,每个分块再对应 增加用于判别正负样本的分类分块,其中,所述分类分块的位置信息为全0,分类分块的文 本描述复制所述多维向量编码;
将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第二判别网络,根据所述分类分块判断所述输入图像是正样本还是负样本。
优选的,所述第一生成网络、第二生成网络的预训练过程中,先冻结第二生成网络的反向传播,训练第一生成网络;然后冻结第一生成网络的反向传播,训练第二生成网络;最后将第一生成网络、第二生成网络一起训练;
其中,训练过程使用文本描述与真实图像作为样本对,文本描述与对应描述的真实图像作为正样本1,文本描述与非对应描述的真实图像作为负样本2,文本描述与生成图像作为负样本3。
第二方面,本发明提供一种基于生成式对抗网络的文本转换图像的装置,包括:
文本获取模块,用于获取一段图像的文本描述;
第一编码模块,用于将所述文本描述通过预设的第一编码器转化为多维向量编码;
拼接模块,用于将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量;
第一生成模块,将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像;
融合模块,将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量;
第二生成模块,将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像;
所述第一生成网络、第二生成网络为预训练好的网络。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例提供的基于生成式对抗网络的文本转换图像的方法中的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现发明实施例提供的基于生成式对抗网络的文本转换图像的方法中的步骤。
本发明实施例中,通过多次上采样实现将文本描述转化为高分辨率的图像。利用生成式对抗网络来指导图像的生成,并且通过随机噪音实现生成图像的多样性。在一种实施例中,本发明使用transformer编码器的结构捕捉图像的全局依赖,而不是基于卷积操作的局部依赖,其原理简单,可靠性高;该方法成本低廉,且算法简单易于实现,能够满足不同场合的实际要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于生成式对抗网络的文本转换图像的方法的流程示意图;
图2是本发明实施例提供的一种transformer编码器结构示意图;
图3是本发明实施例提供的一种文本转换图像的模型框架结构示意图;
图4是本发明实施例提供的一种基于生成式对抗网络的文本转换图像的装置的结构示意图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种基于生成式对抗网络的文本转换图像的方法的流程示意图,请参见图3,图3是本发明实施例提供的一种文本转换图像的模型框架结构示意图,基于该模型框架结构,如图1所示,上述方法包括以下步骤:
101、获取一段图像的文本描述。
在本发明实施例中,文本描述是针对图像的描述内容,例如,可以是关于一个物体图像的外观、形状、颜色以及背景的描述。其中,文本描述的单词数量可以是10-30个英文单词,当然,并不限于其它单词数量或是语言的类型,为了更便于进行识别,使用英文单词可以减少计算的层次。
102、将所述文本描述通过预设的第一编码器转化为多维向量编码。
在本发明实施例中,第一编码器为transformer编码器结构,第一编码器的作用是将文本描述转化为多维向量编码,使其满足第一生成网络的输入格式要求。具体的,所述第一编码器包括2-4个编码块,如图2所示,图2是本发明实施例提供的一种transformer编码器结构示意图,其中每个编码块包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述2-4个全连接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加。
103、将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量。
在本发明实施例中,通过与噪音向量进行拼接,使得后续生成的图片可以形成多样性。其中,初始化的噪音向量的值由随机函数生成的与所述文本描述编码同维度的方差为1、期望为0的正态分布数值。
104、将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像。
在本发明实施例中,第一生成网络为预训练好的网络,同时,在将所述第一输入向量输入预设的第一生成网络的步骤前,还包括步骤:
将所述第一输入向量输入到多层感知机;
将所述多层感知机的输出平均划分为
Figure DEST_PATH_IMAGE039
个分块(patch),在每个分块后面拼接位 置信息,作为所述第一生成网络的输入
Figure DEST_PATH_IMAGE040
其中,生成低分辨率图像具体包括:
所述第一生成网络接收所述输入
Figure 155584DEST_PATH_IMAGE040
,其中,所述第一生成网络包括4-6个第二编 码器,第二编码器为transformer编码器结构,每个所述第二编码器包括一个第一层归一化 层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层;其中,所述多头注意力层 为4-8个头,所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加,再与所 述第二层归一化层相加,再连接所述2-4个全连接层,所述全连接层的输出与所述第二层归 一化层的输入对应元素相加;
将所述第二编码器的输出进行上采样,将前一第二编码器的输出数据转化维度为
Figure DEST_PATH_IMAGE041
,其中,
Figure 981457DEST_PATH_IMAGE041
表示(通道,高,宽),再使用像素重组(PixelShuffle)方 法将输出数据的维度
Figure 487525DEST_PATH_IMAGE041
变形成
Figure DEST_PATH_IMAGE042
,提升图像的分辨率, 然后将变形后的输出数据
Figure 516792DEST_PATH_IMAGE042
划分为多个分块,每个分块的分辨率为4像 素
Figure DEST_PATH_IMAGE043
像素,特征维度为
Figure DEST_PATH_IMAGE044
,形成
Figure DEST_PATH_IMAGE045
个分块,或者每个分块的分辨率为8像素
Figure DEST_PATH_IMAGE046
像素,特征维度为
Figure 474996DEST_PATH_IMAGE044
,形成
Figure DEST_PATH_IMAGE047
个分块,形成下一个第二编码器的输入;
重复执行上述第一生成网络接收所述输入
Figure DEST_PATH_IMAGE048
的步骤以及所述将所述第二编码 器的输出进行上采样的步骤,将生成的张量转化成维度为
Figure DEST_PATH_IMAGE049
的特征图, 对所述特征图进行卷积操作,生成低分辨率图像,该低分辨率图像的分辨率可以为
Figure DEST_PATH_IMAGE050
像素。其中,卷积操作的卷积核大小为
Figure DEST_PATH_IMAGE051
,步距为1,填充(padding)为1,通道
Figure DEST_PATH_IMAGE052
,卷积 核的个数为3,生成的是3通道的RGB图像。
104a、将低分辨率图像和真实图像放入第一判别网络判断真假。
具体的,本实施例中,第一判别网络为预先训练好的,其中,第一判别网络的训练过程包括:
将第一生成网络生成的低分辨率图像作为负样本,对应文本描述的真实图像作为正样本,非对应所述文本描述的真实图像作为负样本,所述低分辨率图像、真实图像作为所述第一判别网络的输入图像;
将所述低分辨率图像、真实图像分别划分为
Figure DEST_PATH_IMAGE053
个分块或
Figure DEST_PATH_IMAGE054
个分块,每个 所述分块对应的图像分辨率为
Figure 765163DEST_PATH_IMAGE053
像素或者
Figure DEST_PATH_IMAGE055
像素,在每个所述分块后面拼接位置信 息和对应所述文本描述的多维向量编码,将拼接后的分块维度转化为C维,每个分块再对应 增加用于判别正负样本的分类分块,其中,所述分类分块的位置信息为全0,分类分块的文 本描述复制所述多维向量编码;
将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第一判别网络,根据所述分类分块判断所述输入图像是正样本还是负样本。该第一判别网络包括8-16个transformer编码器。每个transformer编码器的内部结构依次为,一个层归一化、一个多头的自注意力模块,然后将输入与进行层归一化和多头自注意力模块后的tensor相加,再经过一个层归一化模块和一个多层感知机模块,多层感知机模块包括两个全连接,两个全连接并不改变输入tensor的维度,以便接入下一个transformer编码器,其中,多头自注意力为8-16个头。
105、将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量。
具体的,本实施例中,将所述低分辨率图像平均划分成8个或16个分块,在每个分 块后面添加位置信息,所述位置信息由热独码或二维度矩阵组成;将所述分块与所述多维 向量编码进行拼接,得到所述第二生成网络的第二输入向量作为所述第二生成网络的输入
Figure DEST_PATH_IMAGE056
106、将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像。
具体的,所述第二生成网络也是预训练好的,所述第二生成网络接收所述输入
Figure 520761DEST_PATH_IMAGE056
,所述第二生成网络包括4-6个第三编码器,第三编码器为transformer编码器结构, 每个所述第二编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以 及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出与所述第 一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述2-4个全连 接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加,每个所述第三编 码器得到的输出在维度上等于该第三编码器的输入。
将所述第三编码器的输出进行上采样,将前一第三编码器的输出数据转化维度为
Figure DEST_PATH_IMAGE057
,其中,
Figure 286591DEST_PATH_IMAGE057
表示(通道,高,宽),再使用像素重组方法将输 出数据的维度
Figure 441629DEST_PATH_IMAGE057
变形成
Figure DEST_PATH_IMAGE058
,提升图像的分辨率,然 后将变形后的输出数据
Figure 992827DEST_PATH_IMAGE058
划分为多个分块,每个分块的分辨率为4 像素
Figure DEST_PATH_IMAGE059
像素,特征维度为
Figure DEST_PATH_IMAGE060
,形成
Figure DEST_PATH_IMAGE061
个分块,或者每个分块的分辨率为8像 素
Figure DEST_PATH_IMAGE062
像素,特征维度为
Figure 434173DEST_PATH_IMAGE060
,形成
Figure DEST_PATH_IMAGE063
个分块,形成下一个第二编码器的输入。
重复执行上述第二生成网络接收所述输入
Figure DEST_PATH_IMAGE064
的步骤以及所述将所述第三编码 器的输出进行上采样的步骤,将生成的张量转化成维度为
Figure DEST_PATH_IMAGE065
,对所述特 征图进行卷积操作,生成高分辨率图像,该高分辨率图像的分辨率可以为
Figure DEST_PATH_IMAGE066
像素。 其中,卷积操作的卷积核大小为
Figure DEST_PATH_IMAGE067
,填充(padding)为1,通道
Figure DEST_PATH_IMAGE068
,卷积核的个数为3, 生成的是3通道的RGB图像。
本发明实施例中,第一生成网络、第一判别网络、第二生成网络、以及第二判别网络在使用过程中都是经过预训练好的。
具体的,第一生成网络、第一判别网络的训练过程如下:
S101、将正、负样本的文本描述经过第一编码器的两个编码块进行编码成多维向 量编码。文本描述描述了一个图片的基本要素,例如,文本描述为:This bird is white with some black on its head and wings,and has a long orange beak。该第一编码器 由两个相同的编码块组成,如图2所示,每个编码块包括一个层归一化层
Figure DEST_PATH_IMAGE069
,一个多头注意 力层,多头的范围为4-8个头,然后将多头注意力层的输出与层归一化层的输入对应元素相 加,再加一个层归一化L2,再加2-4个全连接层,将全连接层的输出与层归一化L2的输入对 应元素相加。
S102、将编码好的文本描述与相同维度的随机生成的方差为1期望为0正态分布噪 音拼接,文本描述编码(即上述的多维向量编码)维度为
Figure DEST_PATH_IMAGE070
,噪音维度为
Figure DEST_PATH_IMAGE071
S103、将拼接好的多维向量编码送入到第一生成网络。
S104、然后将第一生成网络中的第二编码器的输出进行上采样,具体是将输出的 数据转化为
Figure DEST_PATH_IMAGE072
,其中,
Figure 372786DEST_PATH_IMAGE072
表示(通道,高,宽),再使用像素重组方 法将前一第二编码器输出数据的维度
Figure 878984DEST_PATH_IMAGE072
变形成
Figure DEST_PATH_IMAGE073
,提升图 像的分辨率,并作为下一个的第二编码器的输入。
S105、重复实施例1中S103、S104的步骤2次,将生成的张量转化成维度为
Figure DEST_PATH_IMAGE074
的特征图,再连接一个卷积操作生成低分辨率图像,该分辨率可以是
Figure DEST_PATH_IMAGE075
像素。卷积操作的参数时,核大小为
Figure DEST_PATH_IMAGE076
,步距为1,填充为1,通道为4,卷积核的个 数为3,生成的图像为
Figure DEST_PATH_IMAGE077
像素,3通道的RGB图像。
S106、将生成的低分辨图像作为负样本,对应文本描述的真实图像为正样本,非对应文本描述的真实图像为负样本。
S107、将低分辨率图像、对应文本描述的真实图像、以及非对应文本描述的真实图 像分别各划分为
Figure DEST_PATH_IMAGE078
个分块,每个分块对应图像的分辨率
Figure 550268DEST_PATH_IMAGE078
像素,然后在每个分块后 面直接拼接位置信息和文本描述的编码(即多维向量编码),这样每个分块后面的文本描述 都是完整的,没有切分。拼接后的向量送入到全连接层将每个分块的维度转化为
Figure DEST_PATH_IMAGE079
维。再增 加一个用于判别正负样本的分类分块,分类分块拼接的位置信息为全0,文本描述复制之前 的文本描述编码。
S108、将上述分块和分类分块分别送入到第一判别网络,第一判别网络中transformer编码器的数量为8个。每个transformer编码器的内部结构依次为,一个层归一化、一个多头的自注意力模块,然后将输入与进行层归一化和多头自注意力模块后的tensor相加,再经过一个层归一化模块和一个多层感知机模块。多层感知机模块包括两个全连接,两个全连接并不改变输入向量的维度,以便接入下一个transformer编码模块。多头自注意力为8-16个头。
S109、经过8个transformer编码之后再由用于分类的分类分块判断输入图像是正样本还是负样本。
第二生成网络、第二判别网络的结构与第一生成网络、第一判别网络的结构相同, 将第一判别网络输出为真的低分辨率图像平均划分
Figure DEST_PATH_IMAGE080
个patch与文本描述编码融合,作 为第二个生成网络的输入
Figure DEST_PATH_IMAGE081
,维度为
Figure DEST_PATH_IMAGE082
。第二生成网络、第二判别网络的训练过程 与第一生成网络、第一判别网络的训练过程相同,此处不再重复论述。
本发明实施例中,在模型的训练过程中通过反向传播的梯度下降优化算法优化网络模型,反向传播优化算法为adam优化算法,并使用损失函数(1),该损失函数(1)如下所示
Figure DEST_PATH_IMAGE083
(1)
其中真实图像
Figure DEST_PATH_IMAGE084
和文本描述t来自真实数据分布Pdata,
Figure DEST_PATH_IMAGE085
是从给定分布
Figure DEST_PATH_IMAGE086
随机 采样的噪声向量,
Figure DEST_PATH_IMAGE087
Figure DEST_PATH_IMAGE088
分别为判别器、生成器,
Figure DEST_PATH_IMAGE089
为基于所述文本描述的多维向量 编码,通过最大化
Figure DEST_PATH_IMAGE090
最小化
Figure DEST_PATH_IMAGE091
来训练所述第一生成网络、第二生成网络。
训练中使用文本描述与真实图像作为样本对,文本描述与对应描述的真实图像作为正样本1,文本描述与非对应描述的真实图像作为负样本2,文本描述与生成图像作为负样本3。
在一个实施例中,取正样本1共1000个,负样本2共500个进行训练网络。该网络的 训练方法是:先冻结第二个生成网络的反向传播,训练第一个生成网络100-150个epochs, 然后冻结第一个生成网络的反向传播,训练第二个生成器100-150个epochs,最后将两个生 成网络一起训练200-300个epochs。训练时采用的优化算法为权利要求书中的参数优化算 法adam,adam优化算法的参数为
Figure DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE093
Figure DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE095
基于上述文本转换图像的方法,本发明还可以实现扩充数据集,具体的,可以给出关于物体图像的外观、形状、颜色和背景的文本描述形容词,然后随机组合这些形容词,送入第一生成网络和第二生成网络,生成高分辨率且多样性的图像,达到扩充数据集的目的。
请参见图4,图4是本发明实施例提供的基于生成式对抗网络的文本转换图像的装置200的结构示意图,包括:文本获取模块201、第一编码模块202、拼接模块203、第一生成模块204、融合模块205、第二生成模块206。
其中,文本获取模块201用于获取一段图像的文本描述;第一编码模块202用于将所述文本描述通过预设的第一编码器转化为多维向量编码;拼接模块203用于将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量;第一生成模块204用于将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像;融合模块205用于将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量;第二生成模块206用于将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像;所述第一生成网络、第二生成网络为预训练好的网络。
需要说明的是,本发明实施例提供的基于生成式对抗网络的文本转换图像的装置可以应用于移动终端、监控器、计算机、服务器等设备。
本发明实施例提供的基于生成式对抗网络的文本转换图像的装置能够实现上述方法实施例中基于生成式对抗网络的文本转换图像的方法实现的各个过程,且可以达到相同的有益效果。为避免重复,这里不再赘述。
参见图5,图5是本发明实施例提供的一种电子设备的结构示意图,如图5所示,电子设备700包括:存储器702、处理器701及存储在所述存储器702上并可在所述处理器701上运行的计算机程序,其中,处理器701用于调用存储器702存储的计算机程序,执行上述基于生成式对抗网络的文本转换图像的方法中的各个步骤。
需要说明的是,上述电子设备可以是可以应用于可以进行基于视频的最优目标捕捉的手机、监控器、计算机、服务器等设备。
本发明实施例提供的电子设备能够实现上述方法实施例中基于视频的最优目标捕捉方法实现的各个过程,且可以达到相同的有益效果,为避免重复,这里不再赘述。
存储器702至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器702可以是电子设备700的内部存储单元,例如该电子设备700的硬盘或内存。在另一些实施例中,存储器702也可以是电子设备700的外部存储设备,例如该电子设备700上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器702还可以既包括电子设备700的内部存储单元也包括其外部存储设备。本实施例中,存储器702通常用于存储安装于电子设备700的操作系统和各类应用软件,例如一种基于生成式对抗网络的文本转换图像的方法的程序代码等。此外,存储器702还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器701在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器701通常用于控制电子设备700的总体操作。本实施例中,处理器701用于运行存储器702中存储的程序代码或者处理数据,例如运行一种基于生成式对抗网络的文本转换图像的方法的程序代码。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的基于生成式对抗网络的文本转换图像的方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (17)

1.一种基于生成式对抗网络的文本转换图像的方法,其特征在于,包括以下步骤:
获取一段图像的文本描述;
将所述文本描述通过预设的第一编码器转化为多维向量编码;
将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量;
将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像;
将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量;
将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像;
所述第一生成网络、第二生成网络为预训练好的网络。
2.如权利要求1所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量的步骤前还包括:
将第一生成网络生成的低分辨率图像与真实图像放入预设的第一判别网络进行判断真假,输出结果为真的低分辨率图像,所述第一判别网络为预训练好的网络;
所述将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像的步骤之后还包括:
将第二生成网络生成的高分辨率图像输入到预设的第二判别网络进行判断真假,输出结果为真的高分辨率图像,所述第二判别网络为预训练好的网络。
3.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一生成网络、第二生成网络的预训练使用生成式对抗网络的损失函数,采用反向传播算法,使用梯度下降优化参数。
4.如权利要求3所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一生成网络、第二生成网络的结构相同,所述损失函数为:
Figure DEST_PATH_IMAGE001
其中真实图像
Figure DEST_PATH_IMAGE002
和文本描述
Figure DEST_PATH_IMAGE003
来自真实数据分布Pdata,
Figure DEST_PATH_IMAGE004
是从给定分布
Figure DEST_PATH_IMAGE005
随机采 样的噪声向量,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
分别为判别器、生成器,
Figure DEST_PATH_IMAGE008
为基于所述文本描述的多维向量编 码,通过最大化
Figure DEST_PATH_IMAGE009
最小化
Figure DEST_PATH_IMAGE010
来训练所述第一生成网络、第二生成网络。
5.如权利要求3所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述梯度下降优化参数算法为Adam优化算法,学习率为0.001。
6.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一编码器包括2-4个编码块,每个编码块包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出与所述第一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述2-4个全连接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加。
7.如权利要求1所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述初始化的噪音向量的值由随机函数生成的与所述文本描述编码同维度的方差为1、期望为0的正态分布数值。
8.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,在将所述第一输入向量输入预设的第一生成网络的步骤前,还包括:
将所述第一输入向量输入到多层感知机;
将所述多层感知机的输出平均划分为
Figure DEST_PATH_IMAGE011
个分块,在每个分块后面拼接位置信息,作为 所述第一生成网络的输入
Figure DEST_PATH_IMAGE012
9.如权利要求8所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一生成网络生成低分辨率图像的步骤包括:
所述第一生成网络接收所述输入
Figure 89626DEST_PATH_IMAGE012
,其中,所述第一生成网络包括4-6个第二编码器, 每个所述第二编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以 及2-4个全连接层;其中,所述多头注意力层为4-8个头,所述多头注意力层的输出与所述第 一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述2-4个全连 接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加;
将所述第二编码器的输出进行上采样,将前一第二编码器的输出数据转化维度为
Figure DEST_PATH_IMAGE013
,再使用像素重组方法将输出数据的维度
Figure 23079DEST_PATH_IMAGE013
变形成
Figure DEST_PATH_IMAGE014
,提升图像的分辨率,然后将变形后的输出数据
Figure 333974DEST_PATH_IMAGE014
划分为多个分块,每个分块的分辨率为4像素
Figure DEST_PATH_IMAGE015
像素,特征维度为
Figure DEST_PATH_IMAGE016
,形成
Figure DEST_PATH_IMAGE017
个分块,或者每个分块的分辨率为8像素
Figure DEST_PATH_IMAGE018
像素,特征维度为
Figure 867199DEST_PATH_IMAGE016
,形成
Figure DEST_PATH_IMAGE019
个 分块,形成下一个第二编码器的输入;
重复执行上述第一生成网络接收所述输入
Figure 212730DEST_PATH_IMAGE012
的步骤以及所述将所述第二编码器的输 出进行上采样的步骤,将生成的张量转化为特征图,对所述特征图进行卷积操作,生成低分 辨率图像。
10.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一判别网络进行预训练的过程包括步骤:
将第一生成网络生成的低分辨率图像作为负样本,对应的文本描述的真实图像作为正样本,非对应的文本描述的真实图像作为负样本,所述低分辨率图像、真实图像作为所述第一判别网络的输入图像;
将所述低分辨率图像、真实图像分别划分为
Figure DEST_PATH_IMAGE020
个分块或
Figure DEST_PATH_IMAGE021
个分块,每个所述 分块对应的图像分辨率为
Figure 848242DEST_PATH_IMAGE020
像素或者
Figure DEST_PATH_IMAGE022
像素,在每个所述分块后面拼接位置信息和 对应所述文本描述的多维向量编码,将拼接后的分块维度转化为
Figure DEST_PATH_IMAGE023
维,每个分块再对应增 加用于判别正负样本的分类分块,其中,所述分类分块的位置信息为全0,分类分块的文本 描述复制所述多维向量编码;
将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第一判别网络,根据所述分类分块判断所述输入图像是正样本还是负样本。
11.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述将所述第二输入向量输入预设的第二生成网络的步骤前包括:
将所述低分辨率图像平均划分成8个或16个分块,在每个分块后面添加位置信息,所述位置信息由热独码或二维度矩阵组成;
将所述分块与所述多维向量编码进行拼接,得到所述第二生成网络的第二输入向量作 为所述第二生成网络的输入
Figure DEST_PATH_IMAGE024
12.如权利要求11所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第二生成网络生成高分辨率图像的步骤包括:
所述第二生成网络接收所述输入
Figure 708750DEST_PATH_IMAGE024
,所述第二生成网络包括
Figure DEST_PATH_IMAGE025
个第三编码器,每 个所述第三编码器包括一个第一层归一化层、1个多头注意力层、1个第二层归一化层、以及
Figure DEST_PATH_IMAGE026
个全连接层;其中,所述多头注意力层为
Figure DEST_PATH_IMAGE027
个头,所述多头注意力层的输出与所述 第一层归一化层的输入对应元素相加,再与所述第二层归一化层相加,再连接所述
Figure 455121DEST_PATH_IMAGE026
个 全连接层,所述全连接层的输出与所述第二层归一化层的输入对应元素相加,每个所述第 三编码器得到的输出在维度上等于该第三编码器的输入;
将所述第三编码器的输出进行上采样,将前一第二编码器的输出数据转化维度为
Figure DEST_PATH_IMAGE028
,再使用像素重组方法将输出数据的维度
Figure 451895DEST_PATH_IMAGE028
变形成
Figure DEST_PATH_IMAGE029
,提升图像的分辨率,然后将变形后的输出数据
Figure 727150DEST_PATH_IMAGE029
划分为多个分块,每个分块的分辨率为4像素
Figure 215900DEST_PATH_IMAGE015
像素,特征维度为C/4,形成
Figure DEST_PATH_IMAGE030
个分块,或者每个分块的分辨率为8像素
Figure DEST_PATH_IMAGE031
像素,特征维度为C/4,形成
Figure DEST_PATH_IMAGE032
个 分块,形成下一个第二编码器的输入;
重复执行上述第二生成网络接收所述输入
Figure DEST_PATH_IMAGE033
的步骤以及所述将所述第三编码器的 输出进行上采样的步骤,将生成的张量转化为特征图,对所述特征图进行卷积操作,生成高 分辨率图像。
13.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第二判别网络进行预训练的过程包括步骤:
将第二生成网络生成的高分辨率图像作为负样本,对应的文本描述的真实图像作为正样本,非对应的文本描述的真实图像作为负样本,所述低分辨率图像、真实图像作为所述第二判别网络的输入图像;
将所述高分辨率图像、真实图像分别划分为
Figure DEST_PATH_IMAGE034
个分块或
Figure DEST_PATH_IMAGE035
个分块,每个所述分 块对应的图像分辨率为
Figure 153245DEST_PATH_IMAGE034
像素或者
Figure DEST_PATH_IMAGE036
像素,在每个所述分块后面拼接位置信息和对 应所述文本描述的多维向量编码,将拼接后的分块维度转化为
Figure DEST_PATH_IMAGE037
维,每个分块再对应增加 用于判别正负样本的分类分块,其中,所述分类分块的位置信息为全0,分类分块的文本描 述复制所述多维向量编码;
将所述由低分辨率图像、真实图像划分的分块及所述分类分块输入到所述第二判别网络,根据所述分类分块判断所述输入图像是正样本还是负样本。
14.如权利要求2所述的基于生成式对抗网络的文本转换图像的方法,其特征在于,所述第一生成网络、第二生成网络的预训练过程中,先冻结第二生成网络的反向传播,训练第一生成网络;然后冻结第一生成网络的反向传播,训练第二生成网络;最后将第一生成网络、第二生成网络一起训练;
其中,训练过程使用文本描述与真实图像作为样本对,文本描述与对应描述的真实图像作为正样本1,文本描述与非对应描述的真实图像作为负样本2,文本描述与生成图像作为负样本3。
15.一种基于生成式对抗网络的文本转换图像的装置,其特征在于,包括:
文本获取模块,用于获取一段图像的文本描述;
第一编码模块,用于将所述文本描述通过预设的第一编码器转化为多维向量编码;
拼接模块,用于将所述多维向量编码与初始化的噪音向量进行拼接得到第一输入向量;
第一生成模块,将所述第一输入向量输入预设的第一生成网络,生成低分辨率图像;
融合模块,将所述低分辨率图像与所述多维向量编码进行融合,得到第二输入向量;
第二生成模块,将所述第二输入向量输入预设的第二生成网络,生成高分辨率图像;
所述第一生成网络、第二生成网络为预训练好的网络。
16.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至14中任一项所述的基于生成式对抗网络的文本转换图像的方法中的步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至14中任一项所述的基于生成式对抗网络的文本转换图像的方法中的步骤。
CN202111090312.2A 2021-09-17 2021-09-17 基于生成式对抗网络的文本转换图像的方法及相关设备 Pending CN113537416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090312.2A CN113537416A (zh) 2021-09-17 2021-09-17 基于生成式对抗网络的文本转换图像的方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090312.2A CN113537416A (zh) 2021-09-17 2021-09-17 基于生成式对抗网络的文本转换图像的方法及相关设备

Publications (1)

Publication Number Publication Date
CN113537416A true CN113537416A (zh) 2021-10-22

Family

ID=78093346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090312.2A Pending CN113537416A (zh) 2021-09-17 2021-09-17 基于生成式对抗网络的文本转换图像的方法及相关设备

Country Status (1)

Country Link
CN (1) CN113537416A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503517A (zh) * 2023-06-27 2023-07-28 江西农业大学 长文本生成图像的方法及系统
CN116863456A (zh) * 2023-05-30 2023-10-10 中国科学院自动化研究所 视频文本识别方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111507909A (zh) * 2020-03-18 2020-08-07 南方电网科学研究院有限责任公司 一种有雾图像清晰化的方法、装置及存储介质
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN112163715A (zh) * 2020-10-14 2021-01-01 腾讯科技(深圳)有限公司 生成式对抗网络的训练方法及装置、电力负荷预测方法
CN112884856A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN113343876A (zh) * 2021-06-18 2021-09-03 上海梦象智能科技有限公司 基于对抗生成网络的家用设备电器指纹数据生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111507909A (zh) * 2020-03-18 2020-08-07 南方电网科学研究院有限责任公司 一种有雾图像清晰化的方法、装置及存储介质
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN112163715A (zh) * 2020-10-14 2021-01-01 腾讯科技(深圳)有限公司 生成式对抗网络的训练方法及装置、电力负荷预测方法
CN112884856A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于谱归一化层级式生成对抗网络的文本生成图像方法
CN113343876A (zh) * 2021-06-18 2021-09-03 上海梦象智能科技有限公司 基于对抗生成网络的家用设备电器指纹数据生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王坤峰等: "生成式对抗网络GAN的研究进展与展望", 《自动化学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863456A (zh) * 2023-05-30 2023-10-10 中国科学院自动化研究所 视频文本识别方法、装置及存储介质
CN116863456B (zh) * 2023-05-30 2024-03-22 中国科学院自动化研究所 视频文本识别方法、装置及存储介质
CN116503517A (zh) * 2023-06-27 2023-07-28 江西农业大学 长文本生成图像的方法及系统
CN116503517B (zh) * 2023-06-27 2023-09-05 江西农业大学 长文本生成图像的方法及系统

Similar Documents

Publication Publication Date Title
Liu et al. Recent advances of image steganography with generative adversarial networks
CN111401216B (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN110599395A (zh) 目标图像生成方法、装置、服务器及存储介质
CN114677185B (zh) 智慧大屏广告智能推荐系统及其推荐方法
CN109902723A (zh) 图像处理方法及装置
CN113537416A (zh) 基于生成式对抗网络的文本转换图像的方法及相关设备
CN109413510B (zh) 视频摘要生成方法和装置、电子设备、计算机存储介质
US11823490B2 (en) Non-linear latent to latent model for multi-attribute face editing
CN116797248B (zh) 基于区块链的数据溯源管理方法及其系统
Gu et al. From pixel to patch: Synthesize context-aware features for zero-shot semantic segmentation
CN111160555A (zh) 基于神经网络的处理方法、装置及电子设备
CN111460876A (zh) 用于识别视频的方法和装置
CN117251795A (zh) 基于自适应融合的多模态虚假新闻检测方法
Parde et al. Deep convolutional neural network features and the original image
CN115905605A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN115984949B (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备
WO2024059374A1 (en) User authentication based on three-dimensional face modeling using partial face images
US20240161327A1 (en) Diffusion models having continuous scaling through patch-wise image generation
CN111476095A (zh) 一种表情属性识别方法、装置、计算机设备及存储介质
CN111325252A (zh) 图像处理方法、装置、设备、介质
CN115631330A (zh) 特征提取方法、模型训练方法、图像识别方法及应用
CN113627243B (zh) 一种文本识别方法及相关装置
Yang et al. Image quality caption with attentive and recurrent semantic attractor network
US20230112647A1 (en) Processing image data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211022

RJ01 Rejection of invention patent application after publication