CN109697694B - 基于多头注意力机制的高分辨率的图片的生成方法 - Google Patents
基于多头注意力机制的高分辨率的图片的生成方法 Download PDFInfo
- Publication number
- CN109697694B CN109697694B CN201811491456.7A CN201811491456A CN109697694B CN 109697694 B CN109697694 B CN 109697694B CN 201811491456 A CN201811491456 A CN 201811491456A CN 109697694 B CN109697694 B CN 109697694B
- Authority
- CN
- China
- Prior art keywords
- picture
- pictures
- head
- generator
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发公开了一种基于多头注意力机制的高分辨率的图片的生成方法,具体涉及计算机视觉算法技术领域。其解决了现有的生成模型如果生成高分辨率的图片,对于图片的细节会生成的质量比较差以及出现图文不符的情况的不足。该方法基于堆积生成对抗网络(StackGAN)提出了一种对文本描述加入多头注意力机制的方法,对于描述图片的关键信息赋予高的权重,对生成不同分辨率图片的生成器加入不同的文本编码向量和类别向量,使最终的高分辨率的生成器能够生成细节完美的图片。
Description
技术领域
本发明涉及计算机视觉算法技术领域,具体涉及基于多头注意力机制的高分辨率的图片的生成方法。
背景技术
生成模型是利用少量真实数据来生成大量的与真实时候相媲美的数据。该技术主要是在一定程度上缓解建模的过程中遇到的数据集不足的问题,起到补充数据集的作用,应用于人工智能系统、自动驾驶系统、数据增强系统等领域。
目前的生成模型主要包括:
(1)基于VAE建模进行生成数据,流程图如图1所示,
对于自编码模型来说,输入的数据经过神经网络降维到一个编码(code),接着又通过另外一个神经网络去解码得到一个与输入原数据一模一样的生成数据,然后通过去比较这两个数据,最小化他们之间的差异来训练这个网络中编码器和解码器的参数。当这个过程训练完之后,我们可以拿出这个解码器,随机传入一个编码(code),希望通过解码器能够生成一个和原数据差不多的数据。
基于VAE建模生成数据,生成的数据质量不高,以图片为例,生成的图片的分辨率比较低,图片比较模糊;无法生成多种类别的数据。
(2)基于堆积生成对抗网络(StackGAN)进行生成数据
第一阶段的StackGAN就是一个标准的条件对抗生成网络(Conditional GAN),输入就是随机的标准正态分布采样的z和文本描述向量C0。第一步的对抗生成网络生成一个低分辨率的64*64的图片和真实数据进行对抗训练得到粗粒度的生成模型。第二阶段的StackGAN将第一阶段的生成结果和文本描述作为输入,用第二个对抗生成网络生成高分辨率的256*256的图片,具体单个网络进行生成数据的流程图如图2所示。
基于堆积生成对抗网络(StackGAN)建模生成数据,对于对于通过文本描述生成图片来说,由于LSTM生成文本向量的时候,认为每个词的重要程度是一致的,所以文本向量也就存在不准确的问题,所以如果是希望生成高分辨率的图片的话,对于图片的细节会生成的质量比较差,即生成图文不符的图片;如果希望生成多种类别的数据,在进行生成的时候,需要的类别越多,生成的质量会越差,出现模式崩溃的问题,即容易全部生成同一类的数据。
发明内容
本发明的目的是针对现有的生成模型如果生成高分辨率的图片,对于图片的细节生成的质量比较差,而且容易出现图文不符的不足,提出了一种利用多头注意力机制先对文本描述转换为文本向量,文本向量作为不同的生成器的输入部分,使堆积生成对抗网络更好的利用文本描述生成细节完美的高分辨率的图片的基于多头注意力机制的高分辨率的图片的生成方法。
本发明具体采用如下技术方案:
基于多头注意力机制的高分辨率的图片的生成方法,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one-hot生成图片的类别向量,包括如下步骤:
(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成“图片-文本-类别”对的形式;
(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分辨率的“图片-文本-类别”对以及生成器生成的图片;
(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;
(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;
(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片。
优选地,对于图片文本描述向量的生成,利用multi-head attention将图片的文本描述转换为图片文本描述向量的,利用multi-head attention机制使文本进行编码的过程中,对于不同的文本的关注度不同,对于重要的词赋予更高的关注度;
具体的计算过程如是式(2)、(3):
Multi-head (Q,K,V) = concat(head1,head2,...headn)wo (2)
Headi = attention(QWi Q,KWi K,VWi V) (3)
其中,w都是需要学习的参数,Q、K、V都是word embedding。
优选地,对于不同的生成器的multi-head attention中的头的个数是不一致的,令第一个生成器的头个数为1或n,第二个生成器的头个数为2或2n,第三个头结点的个数为3或2n,n为正整数。
图片的种类包含多种类别,不同类别的图片用不同的类别向量描述,对于类别向量的生成,是将每个类别使用one-hot进行编码,生成类别向量。
本发明具有如下有益效果:
该方法可以有效的使生成器在根据文本生成的时候,从文本中抓到重点信息,对于不同的分辨率的生成器抓取出不同的关键信息,从而生成出符合文本描述的细节完美的图片;
由于不同类别的文本编码的向量具有该类别的不同的特点,所以有效的保障在生成的过程中避免模式崩塌的情况的发生,生成多个类别的图片。
附图说明
图1为基于VAE建模进行生成数据流程图;
图2为基于堆积生成对抗网络(StackGAN)单个网络进行生成数据流程图;
图3为利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量;
图4为单个生成器和判别器生成图片的流程图;
图5为基于多头注意力机制的高分辨率的图片的生成方法。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
如图3-图5所示,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,单个生成器和判别器生成图片的流程图,基于多头注意力机制的高分辨率的图片的生成方法,包括如下步骤:
(1)数据预处理:将多个类别的高分辨率(256*256)的图片进行下采样,分别得到多个类别的低分辨率(128*128和64*64)的图片。
(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分辨率的“图片-文本-类别”对以及生成器生成的图片;
其中,第一个生成器的输入是噪声、类别向量和文本向量1,输出假图片1,第二个生成器的输入是第一个生成器生成的假图片1、类别向量和文本向量2,输出假图片2,第三个生成器的输入是假图片2、类别向量和文本向量3,输出假图片3。三个判别器的输入分别是三个生成器输出的假图片和类别向量,分别进行判断图片的真实性以及图片的类别。判别器和生成器做对抗,直至达到纳什平衡,此时图片会生成的尽可能的真实也会尽可能的符合该类别。
(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;
(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;n一般取1,或者根据具体的场景的经验值设置,不做明确的约束。
(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片。
对于图片文本描述向量的生成,利用multi-head attention将图片的文本描述转换为图片文本描述向量的,利用multi-head attention机制使文本进行编码的过程中,对于不同的文本的关注度不同,对于重要的词赋予更高的关注度;
具体的计算过程如是式(2)、(3):
Multi-head (Q,K,V) = concat(head1,head2,...headn)wo (2)
Headi = attention(QWi Q,KWi K,VWi V) (3)
其中,w都是需要学习的参数,Q、K、V都是word embedding。
对于不同的生成器的multi-head attention中的头的个数是不一致的,令第一个生成器的头个数为1或n,第二个生成器的头个数为2或2n,第三个头结点的个数为3或2n,n为正整数。
图片的种类包含多种类别,不同类别的图片用不同的类别向量描述,对于类别向量的生成,是将每个类别使用one-hot进行编码,生成类别向量。
该基于多头注意力机制的高分辨率的图片的生成方法在自动驾驶领域具有广泛的应用前景,真实图片的数据一般比较难采集或者采集的代价比较大,所以一般是利用对抗生成网络生成一些与真实数据相媲美的假图片,起到补充数据集的作用,然后利用补充之后的数据集,来训练自动驾驶系统。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (1)
1.基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one-hot生成图片的类别向量,包括如下步骤:
(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成三种分辨率的“图片-文本-类别”对的形式;
(2)构建网络结构:利用卷积神经网络构建三个生成器和三个判别器,其中,第一个生成器的输入是噪声、类别向量和文本向量1,输出假图片1,第二个生成器的输入是第一个生成器生成的假图片1、类别向量和文本向量2,输出假图片2,第三个生成器的输入是假图片2、类别向量和文本向量3,输出假图片3;输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,三个判别器的输入端分别输入三种分辨率的“图片-文本-类别”对以及三个生成器生成的图片和类别向量;
(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;
(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;
(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片;
对于图片文本描述向量的生成,利用multi-head attention将图片的文本描述转换为图片文本描述向量的,利用multi-head attention机制使文本进行编码的过程中,对于不同的文本的关注度不同,对于重要的词赋予更高的关注度;
具体的计算过程如是式(2)、(3):
Multi-head (Q,K,V) = concat(head1,head2,...headn)wo (2)
Headi = attention(QWi Q,KWi K,VWi V) (3)
其中,w都是需要学习的参数,Q、K、V都是word embedding;
对于不同的生成器的multi-head attention中的头的个数是不一致的,令第一个生成器的头个数为1或n,第二个生成器的头个数为2或2n,第三个头结点的个数为3或2n,n为正整数;
图片的种类包含多种类别,不同类别的图片用不同的类别向量描述,对于类别向量的生成,是将每个类别使用one-hot进行编码,生成类别向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811491456.7A CN109697694B (zh) | 2018-12-07 | 2018-12-07 | 基于多头注意力机制的高分辨率的图片的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811491456.7A CN109697694B (zh) | 2018-12-07 | 2018-12-07 | 基于多头注意力机制的高分辨率的图片的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697694A CN109697694A (zh) | 2019-04-30 |
CN109697694B true CN109697694B (zh) | 2023-04-07 |
Family
ID=66230379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811491456.7A Active CN109697694B (zh) | 2018-12-07 | 2018-12-07 | 基于多头注意力机制的高分辨率的图片的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697694B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781965A (zh) * | 2019-10-28 | 2020-02-11 | 上海眼控科技股份有限公司 | 模拟样本生成方法、装置、计算机设备和存储介质 |
CN111241291B (zh) * | 2020-04-24 | 2023-01-03 | 支付宝(杭州)信息技术有限公司 | 利用对抗生成网络生成对抗样本的方法及装置 |
CN113537487B (zh) * | 2021-06-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 模型训练的方法、生成图片的方法及其装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
CN107862668A (zh) * | 2017-11-24 | 2018-03-30 | 河海大学 | 一种基于gnn的文物图像复原方法 |
CN107886169A (zh) * | 2017-11-14 | 2018-04-06 | 华南理工大学 | 一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法 |
CN108388925A (zh) * | 2018-03-06 | 2018-08-10 | 天津工业大学 | 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法 |
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN108563640A (zh) * | 2018-04-24 | 2018-09-21 | 中译语通科技股份有限公司 | 一种多语言对的神经网络机器翻译方法及系统 |
CN108932534A (zh) * | 2018-07-15 | 2018-12-04 | 瞿文政 | 一种基于深度卷积生成对抗网络的图片生成方法 |
-
2018
- 2018-12-07 CN CN201811491456.7A patent/CN109697694B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
CN107886169A (zh) * | 2017-11-14 | 2018-04-06 | 华南理工大学 | 一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法 |
CN107862668A (zh) * | 2017-11-24 | 2018-03-30 | 河海大学 | 一种基于gnn的文物图像复原方法 |
CN108388925A (zh) * | 2018-03-06 | 2018-08-10 | 天津工业大学 | 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法 |
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN108563640A (zh) * | 2018-04-24 | 2018-09-21 | 中译语通科技股份有限公司 | 一种多语言对的神经网络机器翻译方法及系统 |
CN108932534A (zh) * | 2018-07-15 | 2018-12-04 | 瞿文政 | 一种基于深度卷积生成对抗网络的图片生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109697694A (zh) | 2019-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697694B (zh) | 基于多头注意力机制的高分辨率的图片的生成方法 | |
CN110223359B (zh) | 一种基于生成对抗网络的双阶段多配色线稿上色模型及其构建方法和应用 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN110458216A (zh) | 基于条件生成对抗网络的图像风格迁移方法 | |
CN111325660A (zh) | 一种基于文本数据的遥感图像风格转换方法 | |
CN108765512B (zh) | 一种基于多层级特征的对抗图像生成方法 | |
CN113961736B (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN113362416B (zh) | 基于目标检测的文本生成图像的方法 | |
CN113140020B (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN111541900B (zh) | 基于gan的安防视频压缩方法、装置、设备及存储介质 | |
CN114022582A (zh) | 一种文本生成图像方法 | |
CN113987129A (zh) | 基于变分自动编码器的数字媒体保护文本隐写方法 | |
CN116309913B (zh) | 一种基于生成对抗网络asg-gan文本描述生成图像方法 | |
CN113283577A (zh) | 一种基于元学习和生成对抗网络的工业平行数据生成方法 | |
CN115934932A (zh) | 一种基于多模态关键信息分析的摘要生成系统 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN115050087A (zh) | 一种人脸关键点身份和表情解耦方法及装置 | |
CN115331073A (zh) | 一种基于TransUnet架构的影像自监督学习方法 | |
CN113421185B (zh) | 一种基于StyleGAN的移动端人脸年龄编辑方法 | |
Inoue et al. | Initialization using perlin noise for training networks with a limited amount of data | |
Zhu et al. | Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% | |
CN112699288A (zh) | 一种基于条件-生成式对抗网络的食谱生成方法及系统 | |
CN117522674A (zh) | 一种联合局部和全局信息的图像重建系统及方法 | |
CN115496134B (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
CN110378979B (zh) | 基于生成对抗网络实现自定义高分辨率人脸图片自动生成的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |