CN107886169B - 一种基于文本-图像生成对抗网络模型的多尺度卷积核方法 - Google Patents

一种基于文本-图像生成对抗网络模型的多尺度卷积核方法 Download PDF

Info

Publication number
CN107886169B
CN107886169B CN201711124737.4A CN201711124737A CN107886169B CN 107886169 B CN107886169 B CN 107886169B CN 201711124737 A CN201711124737 A CN 201711124737A CN 107886169 B CN107886169 B CN 107886169B
Authority
CN
China
Prior art keywords
image
convolution
text
generator
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711124737.4A
Other languages
English (en)
Other versions
CN107886169A (zh
Inventor
周智恒
李立军
黄俊楚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201711124737.4A priority Critical patent/CN107886169B/zh
Publication of CN107886169A publication Critical patent/CN107886169A/zh
Application granted granted Critical
Publication of CN107886169B publication Critical patent/CN107886169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法,包括以下步骤:S1、构造文本‑图像生成对抗网络模型;S2、利用深度卷积神经网络充当生成器、判别器的功能;S3、对文本进行编码之后与随机噪声结合,输入至生成器中;S4、在文本‑图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作;S5、将多尺度卷积操作得到的损失函数输入生成器进行后续训练。本方法构建的文本‑图像生成对抗网络模型,通过多尺度卷积改变判别器、生成器接收图片后的卷积方式,从原来的针对单层图像通道只使用1个卷积核的操作转变为同时采用多个卷积核,使得整个网络能够在对单层图像通道卷积时学习到更多特征,提高了网络训练的效率。

Description

一种基于文本-图像生成对抗网络模型的多尺度卷积核方法
技术领域
本发明涉及深度学习神经网络技术领域,具体涉及一种基于文本-图像生成对抗网络模型的多尺度卷积核方法。
背景技术
生成式对抗网络(Generative Adversarial Network,简称GAN)是由Goodfellow在2014年提出的深度学习框架,它基于“博奕论”的思想,构造生成器(generator)和判别器(discriminator)两种模型,前者通过输入(0,1)的均匀噪声或高斯随机噪声生成图像,后者对输入的图像进行判别,确定是来自数据集的图像还是由生成器产生的图像。
在传统的对抗网络模型中,判别器、生成器接收图片后的卷积方式,原来针对单层图像通道只使用1个卷积核,这使得网络在训练过程中学习特征的速度较为缓慢,针对每一层图像通道只能学习到一种特征。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,构建了一种基于文本-图像生成对抗网络模型的多尺度卷积核方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于文本-图像生成对抗网络模型的多尺度卷积核方法,所述模型包括下列步骤:
S1、构造文本-图像生成对抗网络模型,生成器通过生成图像输入至判别器进行网络训练;
S2、利用深度卷积神经网络充当生成器、判别器的功能;
在本发明所涉及到的网络模型中,相对于传统的生成对抗网络模型,多了对于文本内容的编码操作,从而使整个网络能够生成符合文本描述内容的图像。
S3、对文本进行编码之后与随机噪声结合,输入至生成器中;
S4、在文本-图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作;
S5、将多尺度卷积操作得到的损失函数输入生成器进行后续训练。
进一步地,所述的步骤S2具体如下:
构造多个卷积核,不同的卷积核,代表着在学习的过程中,能够学习到不同的图像特征。
进一步地,所述的步骤S4中在文本-图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作,具体过程如下:
S41、构造多个不同数值但大小相同的卷积核;
S42、采用已构造的卷积核,分别对生成器生成的多张图像进行卷积,从而得到多张特征图。
进一步地,所述的步骤S5中,将多尺度卷积操作得到的损失函数输入生成器进行后续训练。具体过程如下:
S51、对S4中卷积之后的特征图,输入判别器进行判别;
S52、将多尺度卷积操作得到的损失函数输入生成器进行后续训练;
S53、将所有损失函数的均值输入至生成器中继续进行训练。
进一步地,所述的损失函数的表达式为:
Figure BDA0001468154410000021
其中,D(x)表示判别器对图像的判别,pr表示数据集图像的分布,pg表示生成图像的分布,λ为超参数,
Figure BDA0001468154410000022
为梯度,E为取均值的操作符号。
本发明相对于现有技术具有如下的优点及效果:
针对性:本发明根据多尺度卷积的操作过程,设置构造了多个多尺度卷积核,改变了判别器、生成器接收图片后的卷积方式,从原来的针对单层图像通道只使用1个卷积核的操作转变为同时采用多个卷积核的处理方式,从而使得整个网络能够在对单层图像通道卷积时学习到更多的特征,提高了网络训练的效率。
附图说明
图1是本发明中公开的基于文本-图像生成对抗网络模型的多尺度卷积核方法的训练流程图;
图2是本发明中对单层图像进行多尺度卷积的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于文本-图像生成对抗网络模型的多尺度卷积核方法,具体包括下列步骤:
步骤S1、构造文本-图像生成对抗网络模型,生成器通过生成图像输入至判别器进行网络训练。
步骤S2、利用深度卷积神经网络充当生成器、判别器的功能;
不同的卷积核,体现在矩阵数值的不同、行列数的不同。
构造多个卷积核,在处理图像的过程中,不同的卷积核意味着能够在网络训练的过程中学习到生成图像的不同特征。
在本发明所涉及到的网络模型中,相对于传统的生成对抗网络模型,多了对于文本内容的编码操作,从而使整个网络能够生成符合文本描述内容的图像。
在传统对抗网络的模型中,判别器和生成器所用到的卷积核都是固定大小且数值一致的,在这种情况下的训练效率相对较低,而且学习到的图像特征范围相对较小。而在本发明中,利用多尺度卷积,对原始卷积核进行中间插“0”的操作,从而增大了卷积核所能学习到的特征范围,进一步提高了整个网络学习的效率。
在实际应用中,应该根据数据集图像特征的复杂程度,设置卷积核的个数。
步骤S3、对文本进行编码之后随机噪声结合,输入至生成器中。
步骤S4、在文本-图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作。
具体方法如下:
S41、构造多个不同数值但大小相同的卷积核;
S42、针对同一层图像通道,利用多个卷积核同时对图像进行卷积。
步骤S5、将多尺度卷积操作得到的损失函数输入生成器进行后续训练。具体过程如下:
S51、将步骤S4中卷积之后的特征图,输入判别器进行判别;
S52、将多尺度卷积操作得到的损失函数输入生成器进行后续训练;
S53、将所有损失函数的均值输入至生成器中继续进行训练。
损失函数的作用是衡量判别器对生成图像判断的能力。损失函数的值越小,说明在当前迭代中,判别器能够有较好的性能辨别生成器的生成图像;反之则说明判别器的性能较差。
损失函数的表达式为:
Figure BDA0001468154410000051
其中,D(x)表示判别器对图像的判别,pr表示数据集图像的分布,pg表示生成图像的分布,λ为超参数,
Figure BDA0001468154410000052
为梯度。
综上所述,本实施例公开了一种基于文本-图像生成对抗网络模型的多尺度卷积核方法,相比于传统的原始对抗网络模型,改变了判别器接收图片后的对图像特征进行学习的方式,本发明改变了判别器、生成器接收图片后的卷积方式,从原来的针对单层图像通道只使用1个卷积核的操作转变为同时采用多个卷积核的处理方式,从而使得整个网络能够在对单层图像通道卷积时学习到更多的特征,提高了网络训练的效率。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (1)

1.一种基于文本-图像生成对抗网络模型的多尺度卷积核方法,其特征在于,所述的多尺度卷积核方法包括下列步骤:
S1、构造文本-图像生成对抗网络模型,生成器通过生成图像输入至判别器进行网络训练;
S2、利用深度卷积神经网络充当生成器、判别器的功能;
S3、对文本进行编码之后与随机噪声结合,输入至生成器中;
S4、在文本-图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作,过程如下:
S41、构造多个不同数值但大小相同的卷积核;
S42、利用多尺度卷积对卷积核进行改造,输入网络进行训练;
S5、将多尺度卷积操作得到的损失函数输入生成器进行后续训练,过程如下:
S51、将多尺度卷积操作之后得到的图像特征图,输入判别器中进行判别;
S52、将多尺度卷积操作之后得到的损失函数输入生成器进行后续训练;
S53、将所有损失函数的均值输入至生成器中继续进行训练,其中,所述的损失函数的表达式为:
Figure FDA0002696433330000011
其中,D(x)表示判别器对图像的判别,pr表示数据集图像的分布,pg表示生成图像的分布,λ为超参数,
Figure FDA0002696433330000012
为梯度,E为取均值的操作符号。
CN201711124737.4A 2017-11-14 2017-11-14 一种基于文本-图像生成对抗网络模型的多尺度卷积核方法 Active CN107886169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711124737.4A CN107886169B (zh) 2017-11-14 2017-11-14 一种基于文本-图像生成对抗网络模型的多尺度卷积核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711124737.4A CN107886169B (zh) 2017-11-14 2017-11-14 一种基于文本-图像生成对抗网络模型的多尺度卷积核方法

Publications (2)

Publication Number Publication Date
CN107886169A CN107886169A (zh) 2018-04-06
CN107886169B true CN107886169B (zh) 2021-02-12

Family

ID=61776658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711124737.4A Active CN107886169B (zh) 2017-11-14 2017-11-14 一种基于文本-图像生成对抗网络模型的多尺度卷积核方法

Country Status (1)

Country Link
CN (1) CN107886169B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146784B (zh) * 2018-07-27 2020-11-20 徐州工程学院 一种基于多尺度生成对抗网络的图像超分辨率重建方法
CN109271537B (zh) * 2018-08-10 2021-11-23 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN109344879A (zh) * 2018-09-07 2019-02-15 华南理工大学 一种基于文本-图像对抗网络模型的分解卷积方法
CN109697694B (zh) * 2018-12-07 2023-04-07 山东科技大学 基于多头注意力机制的高分辨率的图片的生成方法
CN110263203B (zh) * 2019-04-26 2021-09-24 桂林电子科技大学 一种结合皮尔逊重构的文本到图像生成方法
CN111860782B (zh) * 2020-07-15 2022-04-22 西安交通大学 三重多尺度的CycleGAN、眼底荧光造影生成方法、计算机设备及存储介质
CN112560784B (zh) * 2020-12-25 2023-06-20 华南理工大学 一种基于动态多尺度卷积神经网络的心电图分类方法
CN112818159B (zh) * 2021-02-24 2022-10-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法
CN113920396B (zh) * 2021-10-08 2022-11-04 中国人民解放军军事科学院军事医学研究院 一种特殊岗位人员视觉认知能力量化评测方法、系统及评测设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007013664A1 (de) * 2006-03-22 2007-09-27 Daimlerchrysler Ag Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
US10593035B2 (en) * 2015-03-18 2020-03-17 University Of South Florida Image-based automated measurement model to predict pelvic organ prolapse
CN107016406A (zh) * 2017-02-24 2017-08-04 中国科学院合肥物质科学研究院 基于生成式对抗网络的病虫害图像生成方法
CN106997380B (zh) * 2017-03-21 2019-07-12 北京工业大学 基于dcgan深度网络的成像光谱图像安全检索方法

Also Published As

Publication number Publication date
CN107886169A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN107886169B (zh) 一种基于文本-图像生成对抗网络模型的多尺度卷积核方法
CN109389556B (zh) 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
Sun et al. Swformer: Sparse window transformer for 3d object detection in point clouds
CN107609587B (zh) 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法
CN111386536B (zh) 语义一致的图像样式转换的方法和系统
CN108205803B (zh) 图像处理方法、神经网络模型的训练方法及装置
US10198801B2 (en) Image enhancement using self-examples and external examples
Jiang et al. Underwater image enhancement with lightweight cascaded network
CN109377459B (zh) 一种生成式对抗网络的超分辨率去模糊方法
CN108564549A (zh) 一种基于多尺度稠密连接网络的图像去雾方法
CN110136162B (zh) 无人机视角遥感目标跟踪方法及装置
CN108470196A (zh) 一种基于深度卷积对抗网络模型生成手写数字的方法
CN108960425B (zh) 一种渲染模型训练方法、系统、设备、介质及渲染方法
CN112489168A (zh) 一种图像数据集生成制作方法、装置、设备及存储介质
CN114511576A (zh) 尺度自适应特征增强深度神经网络的图像分割方法与系统
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
CN112200752B (zh) 一种基于er网络多帧图像去模糊系统及其方法
CN114202473A (zh) 一种基于多尺度特征和注意力机制的图像复原方法及装置
CN116188917B (zh) 缺陷数据生成模型训练方法、缺陷数据生成方法及装置
KR102567128B1 (ko) 개선된 적대적 어텐션 네트워크 시스템 및 이를 이용한 이미지 생성 방법
WO2020106871A1 (en) Image processing neural networks with dynamic filter activation
CN111815658B (zh) 一种图像识别方法及装置
CN110009579B (zh) 一种基于头脑风暴优化算法的图像复原方法及系统
CN109146886B (zh) 一种基于深度密度的rgbd图像语义分割优化方法
CN115760641B (zh) 基于多尺度特征注意力网络的遥感影像去云雾方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant