CN116309913A - 一种基于生成对抗网络asg-gan文本描述生成图像方法 - Google Patents
一种基于生成对抗网络asg-gan文本描述生成图像方法 Download PDFInfo
- Publication number
- CN116309913A CN116309913A CN202310259864.4A CN202310259864A CN116309913A CN 116309913 A CN116309913 A CN 116309913A CN 202310259864 A CN202310259864 A CN 202310259864A CN 116309913 A CN116309913 A CN 116309913A
- Authority
- CN
- China
- Prior art keywords
- image
- gan
- layer
- network
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 25
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 5
- 230000008485 antagonism Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 44
- 230000006870 function Effects 0.000 description 11
- 230000006872 improvement Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成对抗网络ASG‑GAN(Advanced Scene Graph‑GAN)的文本描述生成图像方法,包括:将原始文本输入到训练好的ASG‑GAN模型中,得到最终高分辨率图像;该模型通过堆叠式的生成对抗网络,将第一层网络的输出图像通过下采样取得输出图像特征,同时将原始描述文本通过文本编码器转换为文本嵌入向量,通过条件增强技术解决长文本嵌入向量条件流性不连续的问题,最终将第一层网络生成的图像与条件文本向量连接,通过残差网络学习文本与图像的多峰向量特征,实现第二层输出图像的分辨率提升,同时通过对图像原始文本的重复学习,提取原始文本的隐含信息,提升图像的整体细节及图像生成质量。
Description
技术领域
本发明属于文本描述生成图像技术领域,特别是涉及一种基于生成对抗网络ASG-GAN文本描述生成图像方法。
背景技术
图像信息相比单纯的文字信息更直观更易让人理解,这导致在如今获取信息的方式与信息量日益增多的背景下,人们选择性地忽略文字内容,而更愿意去接受图像所表达的信息,因此图像在当前信息传递中扮演一个至关重要的角色。但是就目前而言,图片大部分是由拍摄或绘制完成的,这种方式,效率低且制作成本高。如果能够让计算机通过文本描述来自动生成与文本的语义信息匹配的图像,这样不仅能减少文字创作者的配图成本,同时还可以提高图像创作者的创作效率。因此,计算机自动识别文本中的语义信息并生成一张与文本语义相符合的图像成为了当今机器学习的研究课题之一。
2014年,LanGoodfellow首次提出生成式对抗网络作为深度学习的重要研究方法赢得了广泛关注。GAN通过生成器和鉴别器两个深度神经网络互相博弈,在输入随机取样的前提下,输出与真实样本近似的数据。GAN是一种无监督式建模方法,可以避免早期手动特征提取的繁琐操作,采用深度神经网络自动学习特征,不需要人工干预。GAN的生成器在训练良好的情况下可以生成与真实样本几乎相同的数据分布。通过生成式对抗网络,可以实现图像风格迁移、创建动画角色、生成超分辨率图像、人脸合成、高分辨率图像合成等应用。GAN在解决多模态问题上表现了出不错的成果,因此结合GAN实现文本生成图像是目前阶段兼具可行性与研究价值的方案。
文本描述生成图像是深度学习领域中难度较高的分支之一,可用于插画配图、人物建模、以及通过场景还原辅助公安侦破案件等多个领域,具有较强的应用价值。随着深度学习以及生成对抗网络的快速发展,出现了很多解决方案对生成图像的质量进行提升,但由于任务的复杂性,生成图像的质量还有较大的提升空间,图像的真实性及分辨率都有进一步提高的可能性,文本描述生成图像课题研究具有很强的可行性及现实意义。
发明内容
本发明的目的是提供一种基于生成对抗网络ASG-GAN文本描述生成图像方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于生成对抗网络ASG-GAN文本描述生成图像方法,包括:
将原始文本输入到训练好的ASG-GAN模型中,得到最终高分辨率图像;
所述ASG-GAN模型是将两个生成对抗网络模型即第一层生成对抗网络模型和第二层生成对抗网络模型合并形成一个高分辨率图像生成网络模型即ASG-GAN模型;所述第一层生成对抗网络模型和所述第二层生成对抗网络模型均基于GAN模型构建;所述第一层生成对抗网络模型用于构建图像轮廓、填充基本颜色,生成低分辨率图像;所述第二层生成对抗网络模型用于利用所述低分辨率图像和所述原始文本,挖掘所述文本的隐含特征,为图像添加细节、弥补缺陷、丰富色彩,最终生成高分辨率图像。
可选的,所述第一层生成对抗网络模型包括场景图分析组件,将GAN模型的输入条件由场景图转变为所述原始文本。
可选的,所述场景图分析组件为Scene Graph Parser
可选的,所述第一层生成对抗网络模型的鉴别器由一对鉴别器网络Dimg及Dobj组成;鉴别器表示为:
LGAN=Ex~preal log D(x)+Ex~pfake log(1-D(x))
其中,X~Preal是真实的图像,X~Pfake是来自生成器网络的输出,D通过最大化目标对输入X进行归类,生成器通过最小化L对鉴别器进行欺骗。
可选的,所述第二层生成对抗网络模型的生成网络为深层残差卷积神经网络;
可选的,所述第二层生成对抗网络模型的生成器损失函数表示为:
可选的,所述第二层生成对抗网络模型的鉴别网络为深度卷积神经网络,所述鉴别网络包含额外的下采样层,用来处理更大的图像;
可选的,所述第二层生成对抗网络模型的鉴别器的损失函数表示为:
其中,
可选的,所述ASG-GAN模型的训练过程为:
1)获取训练图像及对应的描述文本,将对应的图像描述文本传递至场景图分析组件,形成与图像对应的场景图;
2)固定所述第二层生成对抗网络,对所述第一层生成对抗网络进行训练,即将步骤1)所述场景图输入到生成器中,输出生成的伪图像;
3)计算损失函数值,即将步骤2)生成的所述伪图像、步骤1)所述的训练图像一同输入到鉴别器中进行鉴别,得到相应的损失函数值;
4)更新生成器和鉴别器的网络,即依据所述损失函数值对生成器和鉴别器进行反向传播,更新生成器和鉴别器的网络参数;
5)重复步骤2)、3)和4)直至第一层生成对抗网络模型收敛,完成对第一层生成对抗网络模型的训练。
6)固定第一层生成对抗网络模型,重复步骤2)、3)和4)直至第二层生成对抗网络模型收敛,完成对第二生成对抗网络模型的训练,最终完成所述ASG-GAN模型的训练。
本发明的技术效果为:
通过提出的ASG-GAN模型针对原有模型生成图像分辨率较低、图像质量较差,对多物体场景适应性低的问题进行改进。该模型通过堆叠式的生成对抗网络,将第一层网络的输出图像通过下采样取得输出图像特征。
同时将图像的原始描述文本通过文本编码器转换为文本嵌入向量。通过条件增强技术解决长文本嵌入向量条件流性不连续的问题。最终将图像与条件文本向量连接,通过残差网络学习文本与图像的多峰向量特征。进而实现第二层输出图像的分辨率提升。同时通过对图像原始文本的重复学习,提取原始文本中隐含的图像信息。对场景图单一的对象与对象间结构化的图像信息学习作以补充,从而提升图像的整体细节及图像生成质量。实验表明相比于SG-GAN,ASG-GAN生成的图像在分辨率上更高,图像细节更为丰富,InceptionScore有所提升。相比于StackGAN,ASG-GAN在多物体场景下生成的图像与描述文本的语义更相符。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的基于原始文本生成图像方法的整体流程图;
图2为本发明实施例中的ASG-GAN模型的运行流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明方案整体思路为:基于生成对抗网络的ASG-GAN文本描述生成图像方法,该方法包括
1)设计ASG-GAN的第一层生成对抗网络模型;
2)设计ASG-GAN的第二层生成对抗网络模型;
3)完成对ASG-GAN模型的训练;
4)实现文本描述生成图像分辨率、质量提升及模型广适性增强。
使用多层级网络堆叠方式来改进生成对抗网络,将两个生成对抗网络合并形成一个高分辨率图像生成网络,对两层生成对抗网络作功能划分。
第一层网络负责图像轮廓构建、基本颜色填充,负责生成低分辨率图像,第一层网络以文字描述对应的场景图为输入条件,阶段生成图像分辨率为64*64。
第二层网络将获取第一层网络的输出图像及图像对应原始文本,挖掘文本隐含特征,生成高分辨率图像,为图像整体添加细节,弥补生成缺陷,并丰富图像色彩,最终生成图像分辨率为256*256。
本发明提供如下操作步骤:使用预设参数训练ASG-GAN模型,输入文本描述内容,获得与文本描述相符的256*256分辨率的高质量图像。
实施例一
如图1-2所示,本实施例中提供一种基于生成对抗网络ASG-GAN文本描述生成图像方法,包括:
1)设计ASG-GAN的第一层生成对抗网络模型
首先,引入一种描述文本解析方式,通过Scene Graph Parser将原文本解析为与文本对应的场景图,场景图是一种图像或文本中实体及实体间关系的向量表示。通过这种方式改变原有模型的输入条件,无需通过直接输入场景图生成相应图像,可直接输入自然语言生成对应图像,通过此种方式增强模型的普遍适用性。
Scene Graph Parser通过文本解析将文本转换为实体以及关系。实体列表包含实体头、拓展以及修饰词。关系列表将实体头与实体头之间的关系,通过点对点的方式展示出来。经过场景解析器转换后,将文本从原有的描述特性转移为突出语句实体与实体之间的关系。
通过这种方式改变原有模型的输入条件。无需绘制场景图,可直接输入自然语言生成对应图像,通过此种方式增强模型的普遍适用性。
通过Scene Graph Parse解析的场景图用以描述对象以及对象之间的关系,每个场景图是一个元组(O,E),设定对象类别为C,关系类别为R,则O={o1,...,on},oi∈C。是一组(oi,r,oj)形式的有向边,其中oi,oj∈O,r∈R。
以端到端的方式处理场景图,将每个节点以及与节点连接的边作为单张图Din输入,通过图卷积网络计算输出图Dout,输出向量是单个节点对应输入的局部邻域的函数特征,因此每个图的卷积层沿着图的边传播信息。图卷积层将单个函数应用于所有边,并允许单个层对任意形状图形进行操作,从而形成完整的对象嵌入向量。
为了生成一个图像,需要将中间结果从图域转换至图像域,因此需要通过对象嵌入向量转换一个二维结构作为图像的框架。在这里使用对象布局网络预测每个对象的分割掩码和边界框来最终计算图像的场景布局。
对象布局网络接收到一个形状为D的物体Oi的对象嵌入向量vi,将其传递至掩膜回归网络预测一个形状为D×M×M形状的二进制掩膜mi。
并同时将对象嵌入向量vi传递至一个边界框预测网络,来预测一个边界框bi=(x0,y0,x1,y1),将嵌入向量vi与掩模mi相乘,得到形状D×M×M的掩模嵌入,然后使用双线性插值将其弯曲到边界框的位置,给出对象布局。最终汇集所有对象布局生成最终的场景布局。
为了生成一个与场景布局相对应的输出图像,需要通过一系列细化卷积模块建立级联细化网络,倍增模块间的空间分辨率,从而使图像生成以一个从粗略到精细的方向运行。前一模块以下采样至输入分辨率的场景布局及前一模块的输出作为输入,将输入通过信道连接最终传递至一个3×3的卷积层,再传递至下一个模块之前通过邻近插值对输出进行上采样,从而符合下一模块的输入分辨率,第一模块的取高斯噪声Z~PZ作为输入,最后一模块的输出被传递至最终的双卷积层从而输出最终图像。
第一层对抗生成网络的鉴别器由一对鉴别器网络Dimg及Dobj组成,Dimg鉴别器负责图像整体的鉴别任务,Dobj网络鉴别器负责图像中包含的单个实体的鉴别任务。鉴别器网络表示为:
LGAN=E x~preal log D(x)+E x~pfake log(1-D(x))
鉴别器D通过最大化目标对输入X进行归类,其中X~Pfake是来自生成器网络的输出,生成器网络通过最小化L来欺骗鉴别器。图像鉴别器Dimg用以确保图像的整体真实度,而对象鉴别器Dobj用以保证图像中各个对象的真实程度。图像鉴别器Dimg将规则间隔的重叠图像块划分为真或假,并实现单个完整的卷积网络,Dobj的输入为一个对象的全部像素,通过双线性插值,将像素裁剪或缩放至固定尺寸。
2)设计ASG-GAN的第二层生成对抗网络模型;
第二层网络模型的生成网络是深层残差卷积神经网络。是为了提升原有方法的图像分辨率及丰富图像细节提升图像质量,设计并增加的堆叠式对抗生成网络结构。
第一层网络模型的输出图像通过下采样层生成相对应的图像特征。接着将图像原始描述文本通过预先训练的文本编码器转换为文本嵌入向量φt。在这里引入条件增强技术,改变原有的非线性转换,从一个独立的高斯分布中随机采样潜在变量,该高斯分部的表示为:
N(μ(φt),Σ(φt))
其中对角斜方差矩阵Σ(φt),和均值(μ(φt)为文本嵌入向量φt的函数,此种方式激励了模型小扰动条件流型的鲁棒性,使模型可实现在少量的文本、图像参数训练中得到更多的训练对,便于模型更充分的利用原始描述文本中隐含的文本特征信息。
将图像特征和图像描述文本通过文本编码器转换得到的文本嵌入向量连接在一起,用以深入理解文本的隐含特征。将连接后得到的张量送入残差块,残差块用以深入理解文本和图像的多峰特征。最后一个操作的输出被输入到一个上采样层种,生成尺寸为256x256x3的高分辨率图像。
生成器损失函数表示为:
鉴别网络是一个深度卷积神经网络,鉴别器网络包含额外的下采样层,用以处理更大的图像。鉴别器是一个可识别条件文字与图像是否匹配的鉴别器。在训练期间,鉴别器将真实图像及其对应的文本描述作为正样本对,而负样本对则由两组组成。第一组是具有不匹配文本嵌入的真实图像,而第二组是具有相应文本嵌入的合成图像。
鉴别器损失函数表示为:
3)完成对ASG-GAN模型的训练;
步骤一:获取训练图像及对应的描述文本;
将对应的图像描述文本传递至场景图分析组件,形成与图像对应的场景图
步骤二:固定第二阶段生成对抗网络,对一阶段网络进行训练;
将场景图输入进入到生成器中,输出生成的伪图像;
步骤三:计算损失函数值;
将生成图像、真实图像一同输入到鉴别器中进行鉴别,得到相应的损失函数值。
步骤四:更新生成器和鉴别器的网络;
依据损失函数值对生成器和鉴别器进行反向传播,更新生成器和鉴别器的网络参数;
步骤五:重复步骤二、三和四直至第一阶段模型收敛,完成对第一阶段模型的训练。
步骤六:固定一阶段网络,重复步骤二、三和四直至第二阶段模型收敛,完成对第二阶段模型的训练,最终完成ASG-GAN模型的训练。
4)实现文本描述生成图像分辨率、质量提升及模型广适性增强。
使用多层级网络堆叠方式来改进生成对抗网络,将两个生成对抗网络合并形成一个高分辨率图像生成网络。
通过堆叠式的生成对抗网络,在第一层网络中改进原有方法的输入模式,通过场景图分析器的引入,将场景图转换为模型的中间产物,增强模型的普遍适用性。设计并增加第二层堆叠式对抗生成网络,将第一层网络的输出图像通过下采样取得输出图像特征。通过条件增强技术解决长文本嵌入向量条件流性不连续的问题。最终将图像与条件文本向量连接,通过残差网络学习文本与图像的多峰向量特征。进而实现第二层输出图像的分辨率提升。
通过对图像原始文本的重复学习,提取原始文本中隐含的图像信息。对场景图单一的对象与对象间结构化的图像信息学习作以补充,从而提升图像的整体细节及图像生成质量。
实验表明相比于SG-GAN,ASG-GAN生成的图像在分辨率上更高,图像细节更为丰富,Inception Score有所提升。相比于StackGAN,ASG-GAN在多物体场景下生成的图像与描述文本的语义更相符。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (9)
1.一种基于生成对抗网络ASG-GAN文本描述生成图像方法,其特征在于,包括:
将原始文本输入到训练好的ASG-GAN模型中,得到最终高分辨率图像;
所述ASG-GAN模型是将两个生成对抗网络模型即第一层生成对抗网络模型和第二层生成对抗网络模型合并形成一个高分辨率图像生成网络模型即ASG-GAN模型;所述第一层生成对抗网络模型和所述第二层生成对抗网络模型均基于GAN模型构建;所述第一层生成对抗网络模型用于构建图像轮廓、填充基本颜色,生成低分辨率图像;所述第二层生成对抗网络模型用于利用所述低分辨率图像和所述原始文本,挖掘所述文本的隐含特征,为图像添加细节、弥补缺陷、丰富色彩,最终生成高分辨率图像。
2.根据权利要求1所述的基于生成对抗网络ASG-GAN文本描述生成图像方法,其特征在于,
所述第一层生成对抗网络模型包括场景图分析组件,将GAN模型的输入条件由场景图转变为所述原始文本。
3.根据权利要求2所述的基于生成对抗网络ASG-GAN文本描述生成图像方法,其特征在于,
所述场景图分析组件为Scene Graph Parser。
4.根据权利要求1所述的基于生成对抗网络ASG-GAN文本描述生成图像方法,其特征在于,
所述第一层生成对抗网络模型的鉴别器由一对鉴别器网络Dimg及Dobj组成;鉴别器表示为:
LGAN=Ex~preallog D(x)+Ex~pfakelog(1-D(x))
其中,X~Preal是真实的图像,X~Pfake是来自生成器网络的输出,D通过最大化目标对输入X进行归类,生成器通过最小化L对鉴别器进行欺骗。
5.根据权利要求1所述的基于生成对抗网络ASG-GAN文本描述生成图像方法,其特征在于,
所述第二层生成对抗网络模型的生成网络为深层残差卷积神经网络。
7.根据权利要求1所述的基于生成对抗网络ASG-GAN文本描述生成图像方法,其特征在于,
所述第二层生成对抗网络模型的鉴别网络为深度卷积神经网络,所述鉴别网络包含额外的下采样层,用来处理更大的图像。
9.根据权利要求1所述的基于生成对抗网络ASG-GAN文本描述生成图像方法,其特征在于,
所述ASG-GAN模型的训练过程为:
1)获取训练图像及对应的描述文本,将对应的图像描述文本传递至场景图分析组件,形成与图像对应的场景图;
2)固定所述第二层生成对抗网络,对所述第一层生成对抗网络进行训练,即将步骤1)所述场景图输入到生成器中,输出生成的伪图像;
3)计算损失函数值,即将步骤2)生成的所述伪图像、步骤1)所述的训练图像一同输入到鉴别器中进行鉴别,得到相应的损失函数值;
4)更新生成器和鉴别器的网络,即依据所述损失函数值对生成器和鉴别器进行反向传播,更新生成器和鉴别器的网络参数;
5)重复步骤2)、3)和4)直至第一层生成对抗网络模型收敛,完成对第一层生成对抗网络模型的训练;
6)固定第一层生成对抗网络模型,重复步骤2)、3)和4)直至第二层生成对抗网络模型收敛,完成对第二生成对抗网络模型的训练,最终完成所述ASG-GAN模型的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310259864.4A CN116309913B (zh) | 2023-03-16 | 2023-03-16 | 一种基于生成对抗网络asg-gan文本描述生成图像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310259864.4A CN116309913B (zh) | 2023-03-16 | 2023-03-16 | 一种基于生成对抗网络asg-gan文本描述生成图像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116309913A true CN116309913A (zh) | 2023-06-23 |
CN116309913B CN116309913B (zh) | 2024-01-26 |
Family
ID=86816380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310259864.4A Active CN116309913B (zh) | 2023-03-16 | 2023-03-16 | 一种基于生成对抗网络asg-gan文本描述生成图像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116309913B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152370A (zh) * | 2023-10-30 | 2023-12-01 | 碳丝路文化传播(成都)有限公司 | 基于aigc的3d地形模型生成方法、系统、设备及存储介质 |
CN117809310A (zh) * | 2024-03-03 | 2024-04-02 | 宁波港信息通信有限公司 | 基于机器学习的港口集装箱号识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080232470A1 (en) * | 2005-10-11 | 2008-09-25 | Gwang Hoon Park | Method of Scalable Video Coding and the Codec Using the Same |
CN113160057A (zh) * | 2021-04-27 | 2021-07-23 | 沈阳工业大学 | 基于生成对抗网络的rpgan图像超分辨率重建方法 |
CN113781377A (zh) * | 2021-11-03 | 2021-12-10 | 南京理工大学 | 基于对抗性语义引导与感知的红外和可见光图像融合方法 |
CN113961736A (zh) * | 2021-09-14 | 2022-01-21 | 华南理工大学 | 文本生成图像的方法、装置、计算机设备和存储介质 |
CN114038055A (zh) * | 2021-10-27 | 2022-02-11 | 电子科技大学长三角研究院(衢州) | 一种基于对比学习和生成对抗网络的图像生成方法 |
WO2022156350A1 (zh) * | 2021-01-25 | 2022-07-28 | 浙江师范大学 | 基于谱归一化层级式生成对抗网络的文本生成图像方法 |
-
2023
- 2023-03-16 CN CN202310259864.4A patent/CN116309913B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080232470A1 (en) * | 2005-10-11 | 2008-09-25 | Gwang Hoon Park | Method of Scalable Video Coding and the Codec Using the Same |
WO2022156350A1 (zh) * | 2021-01-25 | 2022-07-28 | 浙江师范大学 | 基于谱归一化层级式生成对抗网络的文本生成图像方法 |
CN113160057A (zh) * | 2021-04-27 | 2021-07-23 | 沈阳工业大学 | 基于生成对抗网络的rpgan图像超分辨率重建方法 |
CN113961736A (zh) * | 2021-09-14 | 2022-01-21 | 华南理工大学 | 文本生成图像的方法、装置、计算机设备和存储介质 |
CN114038055A (zh) * | 2021-10-27 | 2022-02-11 | 电子科技大学长三角研究院(衢州) | 一种基于对比学习和生成对抗网络的图像生成方法 |
CN113781377A (zh) * | 2021-11-03 | 2021-12-10 | 南京理工大学 | 基于对抗性语义引导与感知的红外和可见光图像融合方法 |
Non-Patent Citations (3)
Title |
---|
BORIS KNYAZEV 等: "Generative Compositional Augmentations for Scene Graph Prediction", 《ICML 2020 WORKSHOP ON OBJECT-ORIENTED LEARNING (OOL): PERCEPTION, REPRESENTATION, AND REASONING》, pages 1 - 7 * |
WENHAO LI 等: "GA-SRN: graph attention based text-image semantic reasoning network for fine-grained image classification and retrieval", 《NEURAL COMPUTING AND APPLICATIONS》, pages 21387 - 21401 * |
韩骁: "基于生成对抗网的高分辨率遥感影像道路提取", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 2, pages 028 - 167 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152370A (zh) * | 2023-10-30 | 2023-12-01 | 碳丝路文化传播(成都)有限公司 | 基于aigc的3d地形模型生成方法、系统、设备及存储介质 |
CN117152370B (zh) * | 2023-10-30 | 2024-02-02 | 碳丝路文化传播(成都)有限公司 | 基于aigc的3d地形模型生成方法、系统、设备及存储介质 |
CN117809310A (zh) * | 2024-03-03 | 2024-04-02 | 宁波港信息通信有限公司 | 基于机器学习的港口集装箱号识别方法及系统 |
CN117809310B (zh) * | 2024-03-03 | 2024-04-30 | 宁波港信息通信有限公司 | 基于机器学习的港口集装箱号识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116309913B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116309913B (zh) | 一种基于生成对抗网络asg-gan文本描述生成图像方法 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
Zhou et al. | Contextual ensemble network for semantic segmentation | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN113191375B (zh) | 一种基于联合嵌入的文本到多对象图像生成方法 | |
Li et al. | Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement | |
CN113140020B (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN111062329B (zh) | 基于增广网络的无监督行人重识别方法 | |
CN110853039B (zh) | 一种多数据融合的草图图像分割方法、系统、装置及存储介质 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN112364838B (zh) | 一种利用合成的联机文本图像改进手写ocr性能的方法 | |
CN112949707B (zh) | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 | |
CN115713680B (zh) | 一种基于语义引导的人脸图像身份合成方法 | |
CN112270300A (zh) | 基于生成式对抗网络的人脸素描图像转换为rgb图像方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN113378949A (zh) | 一种基于胶囊网络和混合注意力的双重生成对抗学习方法 | |
Robert | The Role of Deep Learning in Computer Vision | |
Lai et al. | Generative focused feedback residual networks for image steganalysis and hidden information reconstruction | |
Zhang et al. | AG-Net: An advanced general CNN model for steganalysis | |
CN113724271B (zh) | 一种用于复杂环境移动机器人场景理解的语义分割模型训练方法 | |
Xie et al. | Design of painting art style rendering system based on convolutional neural network | |
CN113536798A (zh) | 一种多实例文档关键信息抽取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |