CN113505845A - 一种基于语言的深度学习训练集图像生成方法 - Google Patents
一种基于语言的深度学习训练集图像生成方法 Download PDFInfo
- Publication number
- CN113505845A CN113505845A CN202110840907.9A CN202110840907A CN113505845A CN 113505845 A CN113505845 A CN 113505845A CN 202110840907 A CN202110840907 A CN 202110840907A CN 113505845 A CN113505845 A CN 113505845A
- Authority
- CN
- China
- Prior art keywords
- image
- language
- generated
- sequence
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一种基于语言的深度学习训练集图像生成方法,涉及图像识别及生成领域。本发明是为了解决现有的图像生成方法还存在生成的图像不清晰、难以生成大量图像进而导致无法满足深度学习训练集图像的需要的问题。本发明包括:获取待生成图像语言描述序列,并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像;所述图像生成模型包括:语言特征提取模块、图像生成模块;所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵,然后利用LSTM网络提取待生成图像语言描序列的特征;所述图像生成模块采用生成对抗网络GAN和VGG‑19卷积神经网络。本发明用于根据输入的语言描述序列生成符合语言描述的图像。
Description
技术领域
本发明属于图像识别及生成领域,特别涉及一种基于语言的深度学习训练集图像生成方法。
背景技术
深度学习是目前的前沿热点研究之一,其关键核心是训练。但训练的基础需要有庞大的数据库作为支撑。虽然有一些可以获取的训练集数据库,但其样本量毕竟有限,有的还需要支付高昂的费用,并不能满足所有人的需要。在图像识别及生成领域,网络上每天几乎都会被采集上传数以亿计的图片。在整个互联网之中存在着难以统计数量的纷繁杂乱的图像文件,这些纷繁杂乱的图像没有被明确的标记分类,导致这些图片很难再被统一利用起来。到目前为止,很多研究图像深度学习的用户进行图片检索仍然采用人工方式,人工检索方法不仅浪费人力而且效率非常低,因此如何自动检索图片成为本领域的研究重点。
现在的图像检索办法,大多是根据输入文本内容来进行查找,或是通过图片嵌入的方式以图搜图,但是这种方法还需要输入图片或文本导致其使用不够便捷。传统的搜图方法一般利用变分自编码器(Variational Auto-Encoder,VAE)和卷积神经网络(Convolutional Neural Networks,CNN),但是变分自编码器存在均方误差损失,进而导致生成的图像不清晰;卷积神经网络仅适用于CNN结构,因此适用范围比较窄。所以目前的图像生成方法还存在使用不够便捷、生成的图像不清晰、难以生成大量图像进而导致无法满足深度学习训练集图像的需要的问题。
发明内容
本发明目的是为了解决现有的图像生成方法还存在生成的图像不清晰、难以生成大量图像进而导致无法满足深度学习训练集图像的需要的问题,而提出了一种基于语言的深度学习训练集图像生成方法。
一种基于语言的深度学习训练集图像生成方法具体过程为:
获取待生成图像语言描述序列,并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像;
所述图像生成系统包括:语言特征提取模块、图像生成模块;
所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵,然后利用LSTM网络提取待生成图像语言描序列的特征;
所述图像生成模块采用生成对抗网络GAN和VGG-19卷积神经网络,用于将语言特征提取模块提取的待生成图像语言描述序列特征转换为图像;
所述生成对抗网络GAN包括:生成器和判别器;
所述生成器用于将待生成图像语言描述序列特征生成目标图像然后将目标图像输入VGG-19卷积神经网络;
所述VGG-19卷积神经网络包括:5个stage、3个全链层和一个softmax分类层,用于提取生成器产生的图像的特征;
所述图像的特征用于优化LSTM网络的损失函数;
所述判别器用于判别语言描述序列特征是否与生成器生成的图像符合,如符合则输出生成器生成的图像,若不符合则重新训练生成对抗网络。
本发明的有益效果为:
本发明能够对用户输入的语言进行识别生成图像,使图像生成方法的使用更加的便捷、高效;本发明采用GAN生成对抗网络结合VGG-19卷积神经网络,使生成的图像更加清晰,且不会生成无意义的图像;本发明采用了对比生成图像与真实图像的特征分布差异来充当用于优化LSTM算法网络的损失函数,使生成器更加方便效率的生成目标图像。本发明将LSTM算法系统提取图像特征的方法用在判别器当中,鉴别图像的特征是否与语言描述相一致。本发明还增加了不相符的真实输入图像和语言,加快了判别器学习训练的速度。本发明生成器的损失函数增加了表达生成与真实图像差异的特征函数,有效让生成器产生了与语言描述的特征相同的图像输出,解决了无法生成大量图像而导致的无法满足深度学习训练集图像需要的问题。
附图说明
图1为根据输入语言生成图像流程图。
具体实施方式
具体实施方式一:本实施方式一种基于语言的深度学习训练集图像生成方法,具体过程为:获取待生成图像语言描述序列,并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像;
所述图像生成系统包括:语言特征提取模块、图像生成模块;
所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵,然后利用长短记忆网络(LSTM)网络提取待生成图像语言描序列的特征;
所述待生成图像语言描序列的特征包括句子特征和单词特征,句子特征和单词特征维度均为256;
所述图像生成模块采用生成对抗网络GAN和VGG-19卷积神经网络,用于将语言特征提取模块提取的待生成图像语言描述序列特征转换为图像;
所述生成对抗网络GAN包括生成器和判别器;
所述生成器用于将输入的语言描述序列特征生成目标图像,然后将目标图像输入VGG-19卷积神经网络;
所述判别器用于用于判别语言描述序列特征是否与生成器生成的图像符合,如符合则输出生成器生成的图像,若不符合则重新训练生成对抗网络;
所述VGG-19卷积神经网络用于提取生成器产生的图像的特征,然后将提取的图像特征输入判别器;
所述VGG-19由5个stage和3个全链层和一个softmax分类层组成;
所述图像的特征用于优化LSTM算法网络的损失函数。
生成图像具体过程为:将待生成图像语言描述序列输入到LSTM网络中进行特征提取,然后提取后的特征输入生成器,生成器根据特征生成图像,然后将生成器生成的图像输入VGG-19网络进行图像特征提取再将提取的生成器生成的图像特征进行降维,将降维后的特征与随机输入的图像参数叠加,再将叠加后的数据进行多次卷积,在每层卷积后,对卷积的结果进行Batch Normalization和leaky relu生成特征矩阵,然后获取特征矩阵的参数,将参数输入判别器进行判别是否符合语言描述序列,若符合如符合则输出生成器生成的图像,若不符合则重新训练生成对抗网络(图1)。
所述卷积的核步长度为2。
具体实施方式二:所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵,然后利用长短记忆网络(LSTM)网络提取待生成图像语言描序列的特征,具体过程包括以下步骤:
步骤一、获取待生成图像语言序列描述,并将待生成图像语言序列描述转化为数字序列;
步骤二、将步骤一获得的数字序列转化为特征矩阵;
步骤三、将特征矩阵输入LSTM网络,LSTM再将语言特征矩阵继续转化成1*2400的矩阵,所述1*2400的矩阵即为获取的待生成图像语言描述序列特征。
具体实施方式三:所述生成器的训练过程中输入数据为:维度和1*128的矩阵一致的任意随机的图像输入和来自于语言特征提取模块降维后的待生成图像语言描序列的特征。
GAN生成器输入由两部分组成:首先是任意的随机输入,其目的是为了增加输出图像样本的多样性,这样就避免了生成器产生的图片没有差别这一缺陷,其次另一部分的输入是来自于语言特征提取模块降维后的待生成图像语言描序列的特征,其目的是为了生成符合语言描述的图像;
具体实施方式四:所述判别器的输入数据,通过以下方式获得:
利用奇异值分解方法将待生成图像语言描述序列特征1*2400的矩阵转化为1*128的矩阵,并将1*128的矩阵的参数与维度和1*128的矩阵一致的任意随机的图像参数相叠加,再通过转置卷积(反卷积)、Batch Normalization、relu计算获取一个64*64*3图像特征矩阵,并获取64*64*3图像特征矩阵参数数据,这个64*64*3图像参数即是判别器的输入数据。
具体实施方式五:所述训练生成对抗网络GAN的具体过程为:
将语言描述序列的真实图像的特征和生成器生成的伪图像特征输入判别器,判别器将与待生成图像的语言描述序列的特征相吻合的真实图像标注为1,生成器生成的伪图像数据或与语言描述的特征不相吻合的真实数据标注为0,以此为基准来不断的优化判别器,生成器则是对抗判别器,以不断生成能使判别器判断为1的图像数据为目标来不断地优化生成器,当生成器生成的图像被判别器标注为1的准确率达到预设阈值,则获得训练好的生成对抗网络GAN。
实施例:
本发明以“颜色+动物”作为输入语言为例说明具体实施方式,具体过程如下:
环境基于Linux操作系统,开发语言使用shell脚本语言和python语言,网络模型的开发基于keras开源框架。以2个词向量构成语言输入,采用单层网络结构,每一时刻输入的词向量x(t)为1×2维的向量,将x(t)进行加权计算,记忆传递单元a<t>的权值大小为10×2,记忆单元c<t>的权值大小为10×2,遗忘门参数Wf的权值大小为10×1,更新门参数Wu的权值大小为10×11,输出门参数Wo的权值大小为10×11,输出部分y(t)经过激活层做二分类判断。由于循环神经网络的反向传播计算是采用沿时间的反向传播计算,会导致参数连乘、计算量较大,因此,参数更新的过程中可能出现梯度爆炸问题,采用沿时间截断的反向传播算法,在反向传播中当梯度计算过大时截断至5.0。模型优化采用Adam(AdaptiveMoment Estimation)算法,Adam算法综合利用了Momentum算法的利用的动量来累积梯度和RMSProp算法的减小波动幅度、加快收敛速度的优势。
实现中首先导入相关包,然后搭建生成器网络和判别器网络,将上面两个连起来组成生成对抗网络。然后导入数据集,数据集分别选用的是ImageNet和CIFAR-10数据集进行训练。训练结束后后,测试输入红色、鸟,和绿色、青蛙。网络会输出结果图像。
Claims (9)
1.一种基于语言的深度学习训练集图像生成方法,其特征在于所述方法具体过程为:获取待生成图像语言描述序列,并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像;
所述图像生成系统包括:语言特征提取模块、图像生成模块;
所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵,然后利用LSTM网络提取待生成图像语言描序列的特征;
所述图像生成模块采用生成对抗网络GAN和VGG-19卷积神经网络,用于将语言特征提取模块提取的待生成图像语言描述序列特征转换为图像;
所述生成对抗网络GAN包括:生成器和判别器;
所述生成器用于将待生成图像语言描述序列特征生成目标图像然后将目标图像输入VGG-19卷积神经网络;
所述VGG-19卷积神经网络包括:5个stage、3个全链层和一个softmax分类层,用于提取生成器产生的图像的特征,然后将提取的图像特征输入判别器;
所述图像的特征用于优化LSTM网络的损失函数;
所述判别器用于判别语言描述序列特征是否与生成器生成的图像符合,如符合则输出生成器生成的图像,若不符合则重新训练生成对抗网络。
2.根据权利要求1所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述生成对抗网络GAN的训练过程为:
将语言描述序列的真实图像的特征和生成器生成的伪图像特征输入判别器,判别器将与待生成图像的语言描述序列的特征相吻合的真实图像标注为1,生成器生成的伪图像数据或与语言描述的特征不相吻合的真实数据标注为0,以此为基准来不断的优化判别器,生成器则是对抗判别器,以不断生成能使判别器判断为1的图像数据为目标来不断地优化生成器,当生成器生成的图像被判别器标注为1的准确率达到预设阈值,则获得训练好的生成对抗网络GAN。
3.根据权利要求2所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述所述语言特征提取模块用于将待生成图像语言序列描述转化为数字序列,再将数字序列转化为特征矩阵,然后利用LSTM网络提取待生成图像语言描序列的特征,包括以下步骤:
步骤一、获取待生成图像语言序列描述,并将待生成图像语言序列描述转化为数字序列;
步骤二、将步骤一获得的数字序列转化为特征矩阵;
步骤三、将特征矩阵输入LSTM网络,LSTM再将语言特征矩阵继续转化成1*2400的矩阵,所述1*2400的矩阵即为获取的待生成图像语言描述序列特征。
4.根据权利要求3所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述生成器的训练过程中输入数据包括:随机的图像输入和来自于语言特征提取模块提取的待生成图像语言描序列的特征。
5.根据权利要求4所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述判别器的输入数据,通过以下方式获得:
首先,将待生成图像语言描述序列特征1*2400的矩阵转化为1*128的矩阵,并将1*128的矩阵的参数与随机输入的图像的参数相叠加;
然后,将叠加后的参数通过转置卷积、Batch Normalization、relu计算获取一个64*64*3图像特征矩阵;
最后,获取64*64*3图像特征矩阵参数数据,所述64*64*3图像参数数据即是判别器的输入数据。
6.根据权利要求5所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述将待生成图像语言描序列的特征包括:句子特征和单词特征。
7.根据权利要求6所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述句子特征和单词特征的维度均为256维。
8.根据权利要求7所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述将将待生成图像语言描述序列特征1*2400的矩阵转化为1*128的矩阵采用奇异值分解方法。
9.根据权利要求8所述的一种基于语言的深度学习训练集图像生成方法,其特征在于:所述随机输入的图像与1*128的矩阵维度相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110840907.9A CN113505845A (zh) | 2021-07-23 | 2021-07-23 | 一种基于语言的深度学习训练集图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110840907.9A CN113505845A (zh) | 2021-07-23 | 2021-07-23 | 一种基于语言的深度学习训练集图像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113505845A true CN113505845A (zh) | 2021-10-15 |
Family
ID=78013889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110840907.9A Withdrawn CN113505845A (zh) | 2021-07-23 | 2021-07-23 | 一种基于语言的深度学习训练集图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505845A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN112102337A (zh) * | 2020-09-16 | 2020-12-18 | 哈尔滨工程大学 | 一种超声成像下的骨骼表面分割方法 |
CN112419455A (zh) * | 2020-12-11 | 2021-02-26 | 中山大学 | 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质 |
WO2021077140A2 (en) * | 2021-02-05 | 2021-04-22 | Innopeak Technology, Inc. | Systems and methods for prior knowledge transfer for image inpainting |
WO2021096190A1 (en) * | 2019-11-12 | 2021-05-20 | Samsung Electronics Co., Ltd. | Method for synthesizing 2d image of scene as viewed from desired viewpoint and electronic computing device implementing the same |
-
2021
- 2021-07-23 CN CN202110840907.9A patent/CN113505845A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
WO2021096190A1 (en) * | 2019-11-12 | 2021-05-20 | Samsung Electronics Co., Ltd. | Method for synthesizing 2d image of scene as viewed from desired viewpoint and electronic computing device implementing the same |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN112102337A (zh) * | 2020-09-16 | 2020-12-18 | 哈尔滨工程大学 | 一种超声成像下的骨骼表面分割方法 |
CN112419455A (zh) * | 2020-12-11 | 2021-02-26 | 中山大学 | 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质 |
WO2021077140A2 (en) * | 2021-02-05 | 2021-04-22 | Innopeak Technology, Inc. | Systems and methods for prior knowledge transfer for image inpainting |
Non-Patent Citations (1)
Title |
---|
蔡晓龙: "基于 DCGAN 算法的图像生成技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN109597997B (zh) | 基于评论实体、方面级情感分类方法和装置及其模型训练 | |
CN107122375B (zh) | 基于图像特征的图像主体的识别方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN110019843A (zh) | 知识图谱的处理方法及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN113705218B (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN110516240B (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN111639186B (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN110895559A (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN107562729B (zh) | 基于神经网络和主题强化的党建文本表示方法 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN113806564B (zh) | 多模态信息性推文检测方法及系统 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN116384405A (zh) | 文本处理方法,文本分类方法及情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211015 |
|
WW01 | Invention patent application withdrawn after publication |