CN109697694A - 基于多头注意力机制的高分辨率的图片的生成方法 - Google Patents
基于多头注意力机制的高分辨率的图片的生成方法 Download PDFInfo
- Publication number
- CN109697694A CN109697694A CN201811491456.7A CN201811491456A CN109697694A CN 109697694 A CN109697694 A CN 109697694A CN 201811491456 A CN201811491456 A CN 201811491456A CN 109697694 A CN109697694 A CN 109697694A
- Authority
- CN
- China
- Prior art keywords
- picture
- head
- generation
- generator
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发公开了一种基于多头注意力机制的高分辨率的图片的生成方法,具体涉及计算机视觉算法技术领域。其解决了现有的生成模型如果生成高分辨率的图片,对于图片的细节会生成的质量比较差以及出现图文不符的情况的不足。该方法基于堆积生成对抗网络(StackGAN)提出了一种对文本描述加入多头注意力机制的方法,对于描述图片的关键信息赋予高的权重,对生成不同分辨率图片的生成器加入不同的文本编码向量和类别向量,使最终的高分辨率的生成器能够生成细节完美的图片。
Description
技术领域
本发明涉及计算机视觉算法技术领域,具体涉及基于多头注意力机制的高分辨率的图片的生成方法。
背景技术
生成模型是利用少量真实数据来生成大量的与真实时候相媲美的数据。该技术主要是在一定程度上缓解建模的过程中遇到的数据集不足的问题,起到补充数据集的作用,应用于人工智能系统、自动驾驶系统、数据增强系统等领域。
目前的生成模型主要包括:
(1)基于VAE建模进行生成数据,流程图如图1所示,
对于自编码模型来说,输入的数据经过神经网络降维到一个编码(code),接着又通过另外一个神经网络去解码得到一个与输入原数据一模一样的生成数据,然后通过去比较这两个数据,最小化他们之间的差异来训练这个网络中编码器和解码器的参数。当这个过程训练完之后,我们可以拿出这个解码器,随机传入一个编码(code),希望通过解码器能够生成一个和原数据差不多的数据。
基于VAE建模生成数据,生成的数据质量不高,以图片为例,生成的图片的分辨率比较低,图片比较模糊;无法生成多种类别的数据。
(2)基于堆积生成对抗网络(StackGAN)进行生成数据
第一阶段的StackGAN就是一个标准的条件对抗生成网络(Conditional GAN),输入就是随机的标准正态分布采样的z和文本描述向量C0。第一步的对抗生成网络生成一个低分辨率的64*64的图片和真实数据进行对抗训练得到粗粒度的生成模型。第二阶段的StackGAN将第一阶段的生成结果和文本描述作为输入,用第二个对抗生成网络生成高分辨率的256*256的图片,具体单个网络进行生成数据的流程图如图2所示。
基于堆积生成对抗网络(StackGAN)建模生成数据,对于对于通过文本描述生成图片来说,由于LSTM生成文本向量的时候,认为每个词的重要程度是一致的,所以文本向量也就存在不准确的问题,所以如果是希望生成高分辨率的图片的话,对于图片的细节会生成的质量比较差,即生成图文不符的图片;如果希望生成多种类别的数据,在进行生成的时候,需要的类别越多,生成的质量会越差,出现模式崩溃的问题,即容易全部生成同一类的数据。
发明内容
本发明的目的是针对现有的生成模型如果生成高分辨率的图片,对于图片的细节生成的质量比较差,而且容易出现图文不符的不足,提出了一种利用多头注意力机制先对文本描述转换为文本向量,文本向量作为不同的生成器的输入部分,使堆积生成对抗网络更好的利用文本描述生成细节完美的高分辨率的图片的基于多头注意力机制的高分辨率的图片的生成方法。
本发明具体采用如下技术方案:
基于多头注意力机制的高分辨率的图片的生成方法,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one-hot生成图片的类别向量,包括如下步骤:
(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成“图片-文本-类别”对的形式;
(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分辨率的“图片-文本-类别”对以及生成器生成的图片;
(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;
(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;
(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片。
优选地,对于图片文本描述向量的生成,利用multi-head attention将图片的文本描述转换为图片文本描述向量的,利用multi-head attention机制使文本进行编码的过程中,对于不同的文本的关注度不同,对于重要的词赋予更高的关注度;
具体的计算过程如是式(2)、(3):
Multi-head(Q,K,V)=concat(head1,head2,...headn)wo (2)
其中,w都是需要学习的参数,Q、K、V都是word embedding。
优选地,对于不同的生成器的multi-head attention中的头的个数是不一致的,令第一个生成器的头个数为1或n,第二个生成器的头个数为2或2n,第三个头结点的个数为3或2n,n为正整数。
图片的种类包含多种类别,不同类别的图片用不同的类别向量描述,对于类别向量的生成,是将每个类别使用one-hot进行编码,生成类别向量。
本发明具有如下有益效果:
该方法可以有效的使生成器在根据文本生成的时候,从文本中抓到重点信息,对于不同的分辨率的生成器抓取出不同的关键信息,从而生成出符合文本描述的细节完美的图片;
由于不同类别的文本编码的向量具有该类别的不同的特点,所以有效的保障在生成的过程中避免模式崩塌的情况的发生,生成多个类别的图片。
附图说明
图1为基于VAE建模进行生成数据流程图;
图2为基于堆积生成对抗网络(StackGAN)单个网络进行生成数据流程图;
图3为利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量;
图4为单个生成器和判别器生成图片的流程图;
图5为基于多头注意力机制的高分辨率的图片的生成方法。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
如图3-图5所示,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,单个生成器和判别器生成图片的流程图,基于多头注意力机制的高分辨率的图片的生成方法,包括如下步骤:
(1)数据预处理:将多个类别的高分辨率(256*256)的图片进行下采样,分别得到多个类别的低分辨率(128*128和64*64)的图片。
(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分辨率的“图片-文本-类别”对以及生成器生成的图片;
其中,第一个生成器的输入是噪声、类别向量和文本向量1,输出假图片1,第二个生成器的输入是第一个生成器生成的假图片1、类别向量和文本向量,输出假图片2,第三个生成器的输入是假图片2、类别向量和文本向量3,输出假图片3。三个判别器的输入分别是三个生成器输出的假图片和类别向量,分别进行判断图片的真实性以及图片的类别。判别器和生成器做对抗,直至达到纳什平衡,此时图片会生成的尽可能的真实也会尽可能的符合该类别。
(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;
(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;n一般取1,或者根据具体的场景的经验值设置,不做明确的约束。
(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片。
对于图片文本描述向量的生成,利用multi-head attention将图片的文本描述转换为图片文本描述向量的,利用multi-head attention机制使文本进行编码的过程中,对于不同的文本的关注度不同,对于重要的词赋予更高的关注度;
具体的计算过程如是式(2)、(3):
Multi-head(Q,K,V)=concat(head1,head2,...headn)wo (2)
其中,w都是需要学习的参数,Q、K、V都是word embedding。
对于不同的生成器的multi-head attention中的头的个数是不一致的,令第一个生成器的头个数为1或n,第二个生成器的头个数为2或2n,第三个头结点的个数为3或2n,n为正整数。
图片的种类包含多种类别,不同类别的图片用不同的类别向量描述,对于类别向量的生成,是将每个类别使用one-hot进行编码,生成类别向量。
该基于多头注意力机制的高分辨率的图片的生成方法在自动驾驶领域具有广泛的应用前景,真实图片的数据一般比较难采集或者采集的代价比较大,所以一般是利用对抗生成网络生成一些与真实数据相媲美的假图片,起到补充数据集的作用,然后利用补充之后的数据集,来训练自动驾驶系统。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (3)
1.基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one-hot生成图片的类别向量,包括如下步骤:
(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成“图片-文本-类别”对的形式;
(2)构建网络结构:利用卷积神经网络构建三个生成器和判别器,生成器的输入端输入相同维度的噪声数据、图片文本描述向量以及类别向量,输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,其输入端输入三种分辨率的“图片-文本-类别”对以及生成器生成的图片;
(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;
(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;
(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片。
2.如权利要求1所述的基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,对于图片文本描述向量的生成,利用multi-head attention将图片的文本描述转换为图片文本描述向量的,利用multi-head attention机制使文本进行编码的过程中,对于不同的文本的关注度不同,对于重要的词赋予更高的关注度;
具体的计算过程如是式(2)、(3):
Multi-head(Q,K,V)=concat(head1,head2,...headn)wo (2)
Headi=attention(QWi Q,KWi K,VWi V) (3)
其中,w都是需要学习的参数,Q、K、V都是word embedding。
3.如权利要求1或2所述的基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,对于不同的生成器的multi-head attention中的头的个数是不一致的,令第一个生成器的头个数为1或n,第二个生成器的头个数为2或2n,第三个头结点的个数为3或2n,n为正整数。
图片的种类包含多种类别,不同类别的图片用不同的类别向量描述,对于类别向量的生成,是将每个类别使用one-hot进行编码,生成类别向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811491456.7A CN109697694B (zh) | 2018-12-07 | 2018-12-07 | 基于多头注意力机制的高分辨率的图片的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811491456.7A CN109697694B (zh) | 2018-12-07 | 2018-12-07 | 基于多头注意力机制的高分辨率的图片的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697694A true CN109697694A (zh) | 2019-04-30 |
CN109697694B CN109697694B (zh) | 2023-04-07 |
Family
ID=66230379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811491456.7A Active CN109697694B (zh) | 2018-12-07 | 2018-12-07 | 基于多头注意力机制的高分辨率的图片的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697694B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781965A (zh) * | 2019-10-28 | 2020-02-11 | 上海眼控科技股份有限公司 | 模拟样本生成方法、装置、计算机设备和存储介质 |
CN111241291A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 利用对抗生成网络生成对抗样本的方法及装置 |
CN113537487A (zh) * | 2021-06-25 | 2021-10-22 | 北京百度网讯科技有限公司 | 模型训练的方法、生成图片的方法及其装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
CN107862668A (zh) * | 2017-11-24 | 2018-03-30 | 河海大学 | 一种基于gnn的文物图像复原方法 |
CN107886169A (zh) * | 2017-11-14 | 2018-04-06 | 华南理工大学 | 一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法 |
CN108388925A (zh) * | 2018-03-06 | 2018-08-10 | 天津工业大学 | 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法 |
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN108563640A (zh) * | 2018-04-24 | 2018-09-21 | 中译语通科技股份有限公司 | 一种多语言对的神经网络机器翻译方法及系统 |
CN108932534A (zh) * | 2018-07-15 | 2018-12-04 | 瞿文政 | 一种基于深度卷积生成对抗网络的图片生成方法 |
-
2018
- 2018-12-07 CN CN201811491456.7A patent/CN109697694B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
CN107886169A (zh) * | 2017-11-14 | 2018-04-06 | 华南理工大学 | 一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法 |
CN107862668A (zh) * | 2017-11-24 | 2018-03-30 | 河海大学 | 一种基于gnn的文物图像复原方法 |
CN108388925A (zh) * | 2018-03-06 | 2018-08-10 | 天津工业大学 | 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法 |
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN108563640A (zh) * | 2018-04-24 | 2018-09-21 | 中译语通科技股份有限公司 | 一种多语言对的神经网络机器翻译方法及系统 |
CN108932534A (zh) * | 2018-07-15 | 2018-12-04 | 瞿文政 | 一种基于深度卷积生成对抗网络的图片生成方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781965A (zh) * | 2019-10-28 | 2020-02-11 | 上海眼控科技股份有限公司 | 模拟样本生成方法、装置、计算机设备和存储介质 |
CN111241291A (zh) * | 2020-04-24 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 利用对抗生成网络生成对抗样本的方法及装置 |
CN113537487A (zh) * | 2021-06-25 | 2021-10-22 | 北京百度网讯科技有限公司 | 模型训练的方法、生成图片的方法及其装置 |
CN113537487B (zh) * | 2021-06-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 模型训练的方法、生成图片的方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109697694B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
Dong et al. | Peco: Perceptual codebook for bert pre-training of vision transformers | |
Xu et al. | Adversarially approximated autoencoder for image generation and manipulation | |
CN109543745A (zh) | 基于条件对抗自编码网络的特征学习方法及图像识别方法 | |
CN108765512B (zh) | 一种基于多层级特征的对抗图像生成方法 | |
CN109697694A (zh) | 基于多头注意力机制的高分辨率的图片的生成方法 | |
CN111816156B (zh) | 基于说话人风格特征建模的多对多语音转换方法及系统 | |
CN109543159A (zh) | 一种文本生成图像方法及装置 | |
CN107437077A (zh) | 一种基于生成对抗网络的旋转面部表示学习的方法 | |
CN108287904A (zh) | 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法 | |
CN106776540A (zh) | 一种自由化文本生成方法 | |
CN111104512B (zh) | 游戏评论的处理方法及相关设备 | |
Song et al. | AgeGAN++: Face aging and rejuvenation with dual conditional GANs | |
CN113283577A (zh) | 一种基于元学习和生成对抗网络的工业平行数据生成方法 | |
CN116721176B (zh) | 一种基于clip监督的文本到人脸图像生成方法及装置 | |
Mishra et al. | Text to image synthesis using residual gan | |
Radpour et al. | Conditional generative adversarial networks for emoji synthesis with word embedding manipulation | |
CN112819689A (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
Sun et al. | SeCGAN: Parallel conditional generative adversarial networks for face editing via semantic consistency | |
Adigun et al. | Training generative adversarial networks with bidirectional backpropagation | |
CN115270917A (zh) | 一种两阶段处理多模态服装图像生成方法 | |
Mehmood et al. | Comparative Analysis of AttnGAN, DF-GAN and SSA-GAN | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
Chen et al. | Multivariate-information adversarial ensemble for scalable joint distribution matching | |
Jalaja et al. | A behavioral chatbot using encoder-decoder architecture: Humanizing conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |