CN114610935A - 一种文本控制图像风格的语义图像合成的方法及系统 - Google Patents

一种文本控制图像风格的语义图像合成的方法及系统 Download PDF

Info

Publication number
CN114610935A
CN114610935A CN202210511529.4A CN202210511529A CN114610935A CN 114610935 A CN114610935 A CN 114610935A CN 202210511529 A CN202210511529 A CN 202210511529A CN 114610935 A CN114610935 A CN 114610935A
Authority
CN
China
Prior art keywords
image
style
semantic
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210511529.4A
Other languages
English (en)
Other versions
CN114610935B (zh
Inventor
马诗洁
吴春琦
毛瑞琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210511529.4A priority Critical patent/CN114610935B/zh
Publication of CN114610935A publication Critical patent/CN114610935A/zh
Application granted granted Critical
Publication of CN114610935B publication Critical patent/CN114610935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种文本控制图像风格的语义图像合成的方法及系统,包括图像离散编码器和风格迁移对抗生成网络联合训练模块、文本和图像联合建模模块和文本和语义图像控制特定风格语义图像合成模块。本发明通过自然语言处理模型以及图像生成模型,将设定的风格语句和表征语义的掩膜图像输入到模型中,自动地生成具有相应风格和语义的图片,以此解决了人们想要依据自己想法,及时获取到相应风格图片的需求。

Description

一种文本控制图像风格的语义图像合成的方法及系统
技术领域
本发明涉及图像生成技术领域,特别涉及一种文本控制图像风格的语义图像合成的方法及系统。
背景技术
近年来,随着人工智能技术地不断发展,人们开始希望赋予机器理解多种模态的能力,即希望机器能够像人一样理解文本、语音等某一模态的内在语义,并将其准确地转换到另一种模态上。在文本生成图片领域中,根据输入的文字描述和语义分割图像生成相应风格和语义内容的图片,这一任务要求模型能够充分地理解风格语句的具体语义,并将相应的风格迁移到图片上。此外,还需要保证生成图片的语义跟输入的语义分割图相对应。通过文本语言及语义分割图像自动生成特定语义和风格的图片,不需要过多的人工干预措施,提高了图片的生成效率。
本方案能够根据风格语言和语义风格图自动生成图片。其主要涉及了矢量量化变分自编码器,GPT,风格迁移对抗生成网络等基础网络模型。矢量量化变分自编码器能够良好地利用潜在空间,将图片数据良好的离散化,在本方案中利用矢量量化变分自编码器的编码器将图片数据转换到潜在空间中,用于后续与文本之间的建模。风格迁移对抗生成网络具有很好的图片生成能力,能够依据潜在图像编码和掩膜图像转换为实景图。GPT作为一个良好的自回归模型,在本方案中利用GPT模型建立起语言和图片潜在编码之间的关系,之后即可通过输入的风格语句输出图片编码并进行解码,输出相应的图片。本方法提出了根据文本和语义分割图自动生成图片的方案,并为获取特定风格图片提供了解决思路。
发明内容
本发明的目的在于提供一种文本控制图像风格的语义图像合成的方法及系统,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种文本控制图像风格的语义图像合成的方法,包括以下步骤:
S1:构建训练数据集和评估数据集,每条数据由一张风格实景图,掩膜图像以及相应的风格语句构成;
S2:利用矢量量化变分自编码器的编码器和风格迁移对抗生成网络的生成器及判别器构建网络共同进行训练,将原始的图像利用联合训练完成的编码器进行编码、压缩,得到图像风格的编码向量和对应的图像风格标识;
S3:将风格语句输入预训练语言模型BERT并转换成相应的词向量;
S4:将所述步骤S2中得到的图像风格标识展平,将对应的编码向量和步骤S3得到的词向量拼接,输入到GPT模型中进行自回归训练,建立风格语句和图像风格标识之间的映射关系,使得模型能够根据风格语句描述生成出相应的图像风格标识;
S5:将需要生成特定风格的风格语句输入到预训练语言模型BERT中,并将生成的词向量输入到已训练完成的GPT模型中,预测出图像风格标识;
S6:将步骤S5中生成的图像风格标识和掩膜图像送入风格迁移对抗生成网络的生成器中,生成相应语义和风格的图像。
作为优选的,所述步骤S2中,所述编码器对输入的风格图像进行离散编码;所述生成器对生成的图像风格编码以及相应的掩膜图像进行解析生成对应风格和语义信息的图片;所述判别器用于判断图片是否属于真实实景图还是由生成器生成的实景图,具体为:所述编码器将风格实景图进行编码得到大小为
Figure 233303DEST_PATH_IMAGE001
的编码,编码中的向量与码本中的N个维度为d的向量计算欧氏距离后进行离散化,即利用码本中的最近邻向量替换编码中的向量,使得编码转换为距离其最近的图像离散编码;将图像离散编码以及掩膜图像送入到生成器中,通过生成器的解码重构生成图片;最终,判别器对所生成的图片进行判别,判断其来自于真实图片还是由生成器生成;
所述步骤S2的具体子步骤如下:
S21:将实景图输入到已训练完成的模型编码器部分中,经编码器的编码和压缩,得到相应的编码;
S22:根据步骤S21生成得到的编码在码本中查找最邻近向量进行替换,最终得到大小为
Figure 743919DEST_PATH_IMAGE001
的图像离散编码。
作为优选的,所述步骤S2中的训练采用风格实景图、语义分割图像作为训练数据集,并通过Adam随机梯度反向传播算法降低网络训练损失函数值,得到模型的最优参数。
作为优选的,所述步骤S3具体过程为:将风格语句输入预训练语言模型BERT进行编码,生成k个词向量和对应的标识,如果输出的词向量少于k个,则进行填充操作,使得词向量为k个。
作为优选的,所述步骤S4具体子步骤如下:
S41:将步骤S2生成的图像离散编码进行展平,生成得到长度为
Figure 100002_DEST_PATH_IMAGE002
、维度为h的图像编码,并对这g个图像编码加上相应的位置嵌入;
S42:将步骤S3中预训练神经网络生成的k个词向量和相应的位置嵌入相加;
S43:将生成得到的k个词向量和g个展平的图像编码拼接起来,生成
Figure 979116DEST_PATH_IMAGE003
个嵌入向量;
S44:将拼接得到的嵌入向量传入GPT模型中进行自回归的训练,建立起风格语句的词向量和图像离散编码之间的联系。
作为优选的,所述步骤S44的具体训练过程为:将
Figure 100002_DEST_PATH_IMAGE004
个嵌入向量输入到GPT模型中,GPT模型根据当前输入向量来预测下一个出现的图像风格标识,此处通过随机梯度下降算法降低Softmax分类损失函数。
作为优选的,所述步骤S5具体过程如下:在通过已训练好的GPT模型进行预测时,首先将相应风格语句输入到BERT模型中生成对应的词向量,GPT模型再根据这些词向量进行预测,逐步生成
Figure 79052DEST_PATH_IMAGE005
个相应的图像风格编码,并对生成的图像编码进行重构,变回
Figure 100002_DEST_PATH_IMAGE006
的图像风格编码,最终就得到了图像风格的图像离散编码。
作为优选的,所述步骤S6具体过程为将新生成的图像离散编码以及掩膜图像送入到步骤S2训练完成的生成器中,经过生成器的解码,生成具有图像离散编码特定风格的和掩膜图像特定语的图片。
本发明公开了一种文本控制图像风格的语义图像合成的系统,包括三个模块,分别为:
模块一:图像离散编码器和风格迁移对抗生成网络联合训练模块,用于对图像风格离散编码器和对抗生成网络进行联合建模,并用训练好的离散编码器生成各种风格图片的图像离散编码;
模块二:文本和图像联合建模模块,用于建立起文本词向量和图像离散编码的关系;
模块三:文本和语义图像控制特定风格语义图像合成模块,用于根据输入的风格语言描述生成相应风格图像编码,风格图像编码和掩膜图像输入到模块一中的生成器中生成相应风格和语义的实景图。
本发明公开了一种文本控制图像风格的语义图像合成的装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述文本控制图像风格的语义图像合成的方法。
本发明的有益效果:本发明涉及矢量量化变分自编码器,风格迁移网络以及GPT等神经网络模型,利用矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器部分共同进行训练,得到了良好性能的图像风格离散编码器。采用GPT自回归模型建立风格语句和风格图像之间的关系,使得之后进行预测时,能够根据风格语句直接生成相应图像的Token并交给风格迁移对抗神经网络的生成器生成特定风格的图片。基于上述,本发明为风格图片生成提供了新的方向,能够依据文字描述和掩膜图像生成各具风格的图片,减少了一定的创作成本,提升了效率。本发明通过自然语言处理模型以及图像生成模型,将设定的风格语句和表征语义的掩膜图像输入到模型中,自动地生成具有相应风格和语义的图片,以此解决了人们想要依据自己想法,及时获取到相应风格图片的需求;同时,生成的图片更具真实性,保证生成图片的质量。
附图说明
图1是本发明系统结构示意图;
图2是文本控制图像风格的语义图像合成方法的流程图;
图3是文本控制图像风格的语义图像合成的整体架构图;
图4是文本控制图像风格的语义图像合成装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明实施例提供了一种文本控制图像风格的语义图像合成的方法,包括以下步骤:
S1:构建训练数据集和评估数据集,每条数据由一张风格实景图x,掩膜图像
Figure 611534DEST_PATH_IMAGE007
以及相应的风格语句
Figure DEST_PATH_IMAGE008
构成;
S2:利用矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器及判别器构建网络共同进行训练,将原始的图像利用联合训练完成的编码器部分进行编码、压缩,得到图像风格的编码向量和对应的图像风格标识Token;
S3:将风格语句输入预训练语言模型BERT并转换成相应的词向量;
S4:将所述步骤S2中得到的图像风格标识Token展平,将对应的编码向量和步骤S3得到的词向量拼接,输入到GPT模型中进行自回归训练,建立风格语句和图像风格标识Token之间的关系,使得模型能够根据风格语句描述生成出相应的图像风格标识Token;
S5:将需要生成特定风格的风格语句输入到预训练语言模型BERT中,并将生成的词向量输入到已训练完成的GPT模型中,预测出图像风格标识Token;
S6:将步骤S5中生成的图像风格标识Token和掩膜图像送入风格迁移对抗生成网络的生成器中,生成相应语义和风格的图像。
所述编码器对输入的风格图像进行离散编码;生成器对生成的图像风格编码以及相应的掩膜图像进行解析生成对应风格和语义信息的图片;判别器用于判断图片是否属于真实实景图还是由生成器生成的实景图,具体为:编码器将风格实景图x进行编码得到大小为
Figure 889456DEST_PATH_IMAGE009
的编码
Figure DEST_PATH_IMAGE010
,而编码
Figure 858286DEST_PATH_IMAGE010
中的向量会与码本中的N个维度为d的向量计算欧氏距离后进行离散化,即利用码本中的最近邻向量替换编码
Figure 665310DEST_PATH_IMAGE011
中的向量,使得编码
Figure 193244DEST_PATH_IMAGE010
转换为距离它最近的图像离散编码
Figure DEST_PATH_IMAGE012
;将图像离散编码
Figure 904717DEST_PATH_IMAGE012
以及掩膜图像
Figure DEST_PATH_IMAGE013
送入到生成器中,通过生成器的解码重构生成图片
Figure DEST_PATH_IMAGE014
;最终,判别器对
Figure 222828DEST_PATH_IMAGE014
进行判别,判断其来自于真实图片还是由生成器生成。
所述步骤S2的具体子步骤如下:
S21:将实景图x输入到已训练完成的模型编码器部分中,经编码器的编码和压缩,得到相应的编码
Figure 556245DEST_PATH_IMAGE010
S22:根据步骤S21生成得到的编码
Figure 938684DEST_PATH_IMAGE010
在码本中查找最邻近向量进行替换,最终得到大小为
Figure 962004DEST_PATH_IMAGE009
的图像离散编码
Figure 328263DEST_PATH_IMAGE012
所述步骤S2中模型的训练采用风格实景图、语义分割图像作为训练数据集,并通过Adam随机梯度反向传播算法降低网络训练损失函数值,得到模型的最优参数。
所述步骤S3具体过程为:将风格语句输入预训练语言模型BERT进行编码,生成k个词向量
Figure DEST_PATH_IMAGE015
和对应的标识
Figure DEST_PATH_IMAGE016
,如果输出的词向量少于k个,则进行填充操作,使得词向量为k个。
所述步骤S4具体子步骤如下:
S41:将步骤S2生成的图像离散编码
Figure 901589DEST_PATH_IMAGE012
进行展平,生成得到长度为
Figure DEST_PATH_IMAGE017
,维度为h的图像编码,并对这g个图像编码加上相应的位置嵌入;
S42:将步骤S3中预训练神经网络生成的k个词向量
Figure 254380DEST_PATH_IMAGE015
和相应的位置嵌入相加;
S43:将生成得到的k个词向量
Figure 183022DEST_PATH_IMAGE015
和g个展平的图像编码拼接起来,生成f=k+g个嵌入向量
Figure DEST_PATH_IMAGE018
S44:将拼接得到的嵌入向量
Figure 882250DEST_PATH_IMAGE018
传入GPT模型中进行自回归的训练,建立起风格语句的词向量和图像离散编码之间的联系,其中训练数据为拼接得到的嵌入向量
Figure 554540DEST_PATH_IMAGE018
作为优选的,所述步骤S44的具体训练过程为:将f个嵌入向量
Figure 911572DEST_PATH_IMAGE018
输入到GPT模型中,GPT模型根据当前输入向量来预测下一个出现的图像风格标识Token,此处通过随机梯度下降算法降低Softmax分类损失函数。
所述步骤S5具体过程如下:在通过已训练好的GPT模型进行预测时,首先将相应风格语句输入到BERT模型中生成对应的词向量,GPT模型再根据这些词向量进行预测,逐步生成g个相应的图像风格编码,并对生成的图像编码进行重构,变回h×w的图像风格编码,最终就得到了图像风格的图像离散编码
Figure 279624DEST_PATH_IMAGE012
所述步骤S6具体过程为将新生成的图像离散编码
Figure 73005DEST_PATH_IMAGE012
以及掩膜图像
Figure 814565DEST_PATH_IMAGE013
送入到步骤S2训练完成的生成器中,经过生成器的解码,生成具有图像离散编码
Figure 29033DEST_PATH_IMAGE012
特定风格的和掩膜图像
Figure 565057DEST_PATH_IMAGE013
特定语的图片。
如图1所示,所提出的一种文本控制图像风格的语义图像合成的系统,包括了三个模块,分别为图像离散编码器和风格迁移对抗生成网络联合训练模块,用于对图像风格离散编码器和对抗生成网络进行联合建模,并用训练好的离散编码器生成各种风格图片的离散编码;文本和图像联合建模模块,用于建立起文本词向量和图像离散编码的关系;文本和语义图像控制特定风格语义图像合成模块,用于根据输入的风格语言描述生成相应风格图像编码,风格图像编码和掩膜图像输入到模块一中的生成器中生成相应风格和语义的实景图。
图2为文本控制图像风格迁移方法流程图,下面将参照图2对各个步骤进行详细说明。另外,本方法所提出的整体结构具体如图3所示,本发明为两阶段模型,第一阶段为矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器及判别器共同进行训练,第二阶段对风格语句进行编码并利用GPT模型建立起风格语句词向量和风格图像编码之间的关系。
步骤S101:利用图像离散化编码器结合对风格迁移对抗生成网络进行训练:
本发明首先构建了相应的训练数据集和评估数据集,每条数据由一张风格实景图x,掩膜图片
Figure 862046DEST_PATH_IMAGE007
以及相应的风格语句
Figure 141718DEST_PATH_IMAGE008
构成。
本发明设计了由矢量量化变分自编码器和风格迁移对抗生成网络构成的网络进行训练。其中本发明中的风格迁移对抗生成网络采用了经典的GauGAN模型。
具体的,如图3中的(a)所示,该网络的编码器部分由矢量量化变分自编码器的编码器和码本组成,生成器和判别器部分由GauGAN中的生成器及其相应的判别器构成。
将实景图x输入到编码器中,经过编码器Encoder的编码、压缩,得到相应的潜在编码
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
。码本中包含了N个d维向量,使用
Figure DEST_PATH_IMAGE021
表示码本,其用于替换经编码器所得到的编码。之后计算所得到的
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
中各个向量的欧式距离,并使用距离最小向量
Figure 222411DEST_PATH_IMAGE024
替换相应的
Figure DEST_PATH_IMAGE025
,从而得到全新的潜在向量
Figure 56899DEST_PATH_IMAGE012
, 在这里
Figure 575605DEST_PATH_IMAGE026
。将
Figure 393389DEST_PATH_IMAGE012
和掩膜图片
Figure 300558DEST_PATH_IMAGE013
输入到生成器中,经过解码得到了重构图
Figure 443964DEST_PATH_IMAGE014
输入的图片尺寸为
Figure DEST_PATH_IMAGE027
,其中,C表示通道数,H表示图片的高度,W表示图片的宽度。具体地,C=3,H=512,W=512。本发明设计的重构网络得到的生成图片尺寸同样为
Figure 300231DEST_PATH_IMAGE027
其中离散编码器主要由常规卷积函数、BatchNorm和残差网络三个部分构建得到。在编码器中包含了n个残差模块,并且进行了m次的下采样操作。而生成器部分主要由多个SPADE 残差模块构成,其采用跳跃连接结构将低层信息直接复制到高层特征图上,将第i层拼接到第n-i层,n为网络总层数,并且为了解决传统归一化层容易丢失输入语义图像中的信息这一问题,采用了空间自适应归一化来解决该问题。判别器部分主要采用了patchGAN结构的判别器。其一次只判断一个N×N的图像块是否为真实的,每个小块对应的结果求平均,作为这一张图像的判别结果。本发明中N=70。另外,本发明利用了均方方差损失函数(MSE Loss)作为辅助来学习图像信息。
参考矢量量化变分自编码器和风格迁移对抗生成网络的损失函数,本发明所构建网络的损失函数最终如下所示:
Figure 187285DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE029
其中E(x)为x经过编码器处理,
Figure 73595DEST_PATH_IMAGE012
Figure 856743DEST_PATH_IMAGE010
离散化之后的图像风格离散编码向量,
Figure 615620DEST_PATH_IMAGE013
为掩膜图像,网络学习从实景图像x重构回实景图像
Figure 775206DEST_PATH_IMAGE014
Figure 938859DEST_PATH_IMAGE030
表示停止反向传播,
Figure DEST_PATH_IMAGE031
表示超参数,另外的,G表示生成器,D表示判别器。在本发明中设置n=6,m=6,
Figure 1230DEST_PATH_IMAGE032
利用构造完的损失函数,对所构建网络进行相应的训练,这里采用Adam优化器对模型进行优化,设置优化器的学习率为0.001。
预测:在模型训练完成后,可以将风格图片x输入到矢量量化变分自编码器中,经过编码器的编码得到相应的输出,并根据码本查找到相应的最近向量进行替换操作,得到该风格图片编码
Figure 984754DEST_PATH_IMAGE012
步骤S102:风格语言输入到BERT模型并输出Token:
在本发明中利用预训练神经网络BERT模型将相应的风格语句进行转化,生成得到文本的Token和其对应的嵌入。
本发明将相应的风格语句输入到预训练神经网络BERT模型中,得到了语句对应的Token(标识),
Figure 948031DEST_PATH_IMAGE016
,其中每个Token所对应嵌入用
Figure 432102DEST_PATH_IMAGE015
表示。由于文本长度的不一致性,对于语句进行填充,最终使得Token(标识)数量保证为k个,保证Token数量为k个。其中,k=256,
Figure DEST_PATH_IMAGE033
,k=256,d=256。
步骤103:风格描述语句的Token和风格图像的Token联合建模。
为了能够通过风格语句生成相应风格图像编码,本发明通过GPT模型建立风格语句词向量和风格图像编码之间的映射关系,具体模型结构如图3中的(b)所示。将步骤S102生成的
Figure 945603DEST_PATH_IMAGE016
和经过矢量量化编码器的图像编码
Figure 147914DEST_PATH_IMAGE012
展平送入GPT进行学习,GPT模型主要由多个self-attention模块构成,在本发明由8个模块构成,而每个模块由多头注意力层、前向传播网络层以及归一化层构成。
本发明中将生成的
Figure 914882DEST_PATH_IMAGE012
展平后,拼接到风格语句Token(标识)之后。进一步的,GPT模型的输入由上述构成的Token(标识)相应的嵌入以及相应的位置嵌入相加得到,用符号
Figure 771236DEST_PATH_IMAGE034
表示,其大小为
Figure DEST_PATH_IMAGE035
Figure 926142DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
,其具体计算过程如下式所示:
Figure 743313DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE039
表示位置嵌入,
Figure 159644DEST_PATH_IMAGE040
表示权重矩阵。
本发明最终希望GPT模型能够依据风格语句预测出相应风格图片编码,因此本文设置的训练GPT模型的目标函数为:
Figure DEST_PATH_IMAGE041
其中,
Figure 477362DEST_PATH_IMAGE042
表示当前所需要预测的向量,
Figure DEST_PATH_IMAGE043
为左侧窗口的向量,即在预测向量
Figure 325539DEST_PATH_IMAGE042
时,只考虑其左侧k个信息,其余的忽略不计,
Figure 751710DEST_PATH_IMAGE044
为GPT模型中的参数。
具体的,通过
Figure DEST_PATH_IMAGE045
进行前向传播计算概率的过程如下所示:
Figure 456886DEST_PATH_IMAGE046
其中,self-attention( )代表的是self-attention模块,其由多头注意力、一层前向传播网络以及一层归一化层构成。m表示自注意力模块的层数,本发明中m=8。经过m个模块的转换,利用最终的语义特征向量输入到Softmax函数中输出下一个向量的概率:
Figure DEST_PATH_IMAGE047
在本发明使用Adam优化器对GPT模型进行优化,并设置相应的学习率设置为0.001。
步骤104:输入风格描述语句生成风格图像风格Token:
将一段风格语句输入到预训练神经网络模型BERT中,并将BERT输出的Token(标识)到已训练好的GPT模型中,预测出相应图像的Token(标识),由于此时Token(标识)是展平的,因此将其重构回尺寸为
Figure 894689DEST_PATH_IMAGE048
的样式,用
Figure 50120DEST_PATH_IMAGE012
表示,本发明中
Figure 714320DEST_PATH_IMAGE012
是一种离散表征,“
Figure 626781DEST_PATH_IMAGE012
”VQ-VAE中的表示方法,“Token”是NLP中的表示方法。
步骤105:图像风格Token和掩膜图片输入生成器特定语义和风格的实景图。
将风格图像的Token(标识)
Figure 60037DEST_PATH_IMAGE012
和掩膜图像
Figure 137102DEST_PATH_IMAGE013
一同输入至S101中所述的生成器中,通过生成器的解码最终生成了与文字对应的风格同时跟掩膜图像对应语义的图片。
综上,本发明涉及矢量量化变分自编码器,风格迁移网络以及GPT等神经网络模型,利用矢量量化变分自编码器的编码器部分和风格迁移对抗生成网络的生成器部分共同进行训练,得到了良好性能的图像风格离散编码器。采用GPT自回归模型建立风格语句和风格图像之间的关系,使得之后进行预测时,能够根据风格语句直接生成相应图像的Token(标识)并交给风格迁移对抗神经网络的生成器生成特定风格的图片。基于上述,本发明为风格图片生成提供了新的方向,能够依据文字描述和掩膜图像生成各具风格的图片,减少了一定的创作成本,提升了效率。
参见图4,本发明实施例还提供了一种文本控制图像风格的语义图像合成的装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的文本控制图像风格的语义图像合成的方法。
本发明一种文本控制图像风格的语义图像合成的装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种文本控制图像风格的语义图像合成的装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的面向神经网络模型计算的中间表示生成方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本控制图像风格的语义图像合成的方法,其特征在于:包括以下步骤:
S1:构建训练数据集和评估数据集,每条数据由一张风格实景图,掩膜图像以及相应的风格语句构成;
S2:利用矢量量化变分自编码器的编码器和风格迁移对抗生成网络的生成器及判别器构建网络共同进行训练,将原始的图像利用联合训练完成的编码器进行编码、压缩,得到图像风格的编码向量和对应的图像风格标识;
S3:将风格语句输入预训练语言模型BERT并转换成相应的词向量;
S4:将所述步骤S2中得到的图像风格标识展平,将对应的编码向量和步骤S3得到的词向量拼接,输入到GPT模型中进行自回归训练,建立风格语句和图像风格标识之间的映射关系,使得模型能够根据风格语句描述生成出相应的图像风格标识;
S5:将需要生成特定风格的风格语句输入到预训练语言模型BERT中,并将生成的词向量输入到已训练完成的GPT模型中,预测出图像风格标识;
S6:将步骤S5中生成的图像风格标识和掩膜图像送入风格迁移对抗生成网络的生成器中,生成相应语义和风格的图像。
2.如权利要求1所述的一种文本控制图像风格的语义图像合成的方法,其特征在于:所述步骤S2中,所述编码器对输入的风格图像进行离散编码;所述生成器对生成的图像风格编码以及相应的掩膜图像进行解析生成对应风格和语义信息的图片;所述判别器用于判断图片是否属于真实实景图还是由生成器生成的实景图,具体为:所述编码器将风格实景图进行编码得到大小为
Figure DEST_PATH_IMAGE001
的编码,编码中的向量与码本中的N个维度为d的向量计算欧氏距离后进行离散化,即利用码本中的最近邻向量替换编码中的向量,使得编码转换为距离其最近的图像离散编码;将图像离散编码以及掩膜图像送入到生成器中,通过生成器的解码重构生成图片;最终,判别器对所生成的图片进行判别,判断其来自于真实图片还是由生成器生成;
所述步骤S2的具体子步骤如下:
S21:将实景图输入到已训练完成的模型编码器部分中,经编码器的编码和压缩,得到相应的编码;
S22:根据步骤S21生成得到的编码在码本中查找最邻近向量进行替换,最终得到大小为
Figure 332409DEST_PATH_IMAGE001
的图像离散编码。
3.如权利要求2所述的一种文本控制图像风格的语义图像合成的方法,其特征在于:所述步骤S2中的训练采用风格实景图、语义分割图像作为训练数据集,并通过Adam随机梯度反向传播算法降低网络训练损失函数值,得到模型的最优参数。
4.如权利要求1所述的一种文本控制图像风格的语义图像合成的方法,其特征在于:所述步骤S3具体过程为:将风格语句输入预训练语言模型BERT进行编码,生成k个词向量和对应的标识,如果输出的词向量少于k个,则进行填充操作,使得词向量为k个。
5.如权利要求4所述的一种文本控制图像风格的语义图像合成的方法,其特征在于:所述步骤S4具体子步骤如下:
S41:将步骤S2生成的图像离散编码进行展平,生成得到长度为
Figure DEST_PATH_IMAGE002
、维度为h的图像编码,并对这g个图像编码加上相应的位置嵌入;
S42:将步骤S3中预训练神经网络生成的k个词向量和相应的位置嵌入相加;
S43:将生成得到的k个词向量和g个展平的图像编码拼接起来,生成
Figure DEST_PATH_IMAGE003
个嵌入向量;
S44:将拼接得到的嵌入向量传入GPT模型中进行自回归的训练,建立起风格语句的词向量和图像离散编码之间的联系。
6.如权利要求5所述的一种文本控制图像风格的语义图像合成的方法,其特征在于:所述步骤S44的具体训练过程为:将
Figure DEST_PATH_IMAGE004
个嵌入向量输入到GPT模型中,GPT模型根据当前输入向量来预测下一个出现的图像风格标识,此处通过随机梯度下降算法降低Softmax分类损失函数。
7.如权利要求6所述的一种文本控制图像风格的语义图像合成的方法,其特征在于:所述步骤S5具体过程如下:在通过已训练好的GPT模型进行预测时,首先将相应风格语句输入到BERT模型中生成对应的词向量,GPT模型再根据这些词向量进行预测,逐步生成
Figure DEST_PATH_IMAGE005
个相应的图像风格编码,并对生成的图像编码进行重构,变回
Figure DEST_PATH_IMAGE006
的图像风格编码,最终就得到了图像风格的图像离散编码。
8.如权利要求1所述的一种文本控制图像风格的语义图像合成的方法,其特征在于:所述步骤S6具体过程为将新生成的图像离散编码以及掩膜图像送入到步骤S2训练完成的生成器中,经过生成器的解码,生成具有图像离散编码特定风格的和掩膜图像特定语的图片。
9.一种文本控制图像风格的语义图像合成的系统,其特征在于:包括三个模块,分别为:
模块一:图像离散编码器和风格迁移对抗生成网络联合训练模块,用于对图像离散编码器和对抗生成网络进行联合建模,并用训练好的离散编码器生成各种风格图片的图像离散编码;
模块二:文本和图像联合建模模块,用于建立起文本词向量和图像离散编码的关系;
模块三:文本和语义图像控制特定风格语义图像合成模块,用于根据输入的风格语言描述生成相应风格图像编码,风格图像编码和掩膜图像输入到模块一中的生成器中生成相应风格和语义的实景图。
10.一种文本控制图像风格的语义图像合成的装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述文本控制图像风格的语义图像合成的方法。
CN202210511529.4A 2022-05-12 2022-05-12 一种文本控制图像风格的语义图像合成的方法及系统 Active CN114610935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210511529.4A CN114610935B (zh) 2022-05-12 2022-05-12 一种文本控制图像风格的语义图像合成的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210511529.4A CN114610935B (zh) 2022-05-12 2022-05-12 一种文本控制图像风格的语义图像合成的方法及系统

Publications (2)

Publication Number Publication Date
CN114610935A true CN114610935A (zh) 2022-06-10
CN114610935B CN114610935B (zh) 2022-08-30

Family

ID=81870707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210511529.4A Active CN114610935B (zh) 2022-05-12 2022-05-12 一种文本控制图像风格的语义图像合成的方法及系统

Country Status (1)

Country Link
CN (1) CN114610935B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100480A (zh) * 2022-07-28 2022-09-23 西南交通大学 基于向量量化变分自编码器的医学影像分类模型及方法
CN115222845A (zh) * 2022-08-01 2022-10-21 北京元亦科技有限公司 样式字体图片生成方法、装置、电子设备和介质
CN115908613A (zh) * 2022-12-01 2023-04-04 杭州雪爪文化科技有限公司 基于人工智能的ai模型生成方法、系统及存储介质
CN116911715A (zh) * 2023-09-12 2023-10-20 运易通科技有限公司 一种基于人工智能的物流识别分配机器人及其控制方法
CN117095084A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 文本风格图像生成方法、系统、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357259A1 (en) * 2017-06-09 2018-12-13 Adobe Systems Incorporated Sketch and Style Based Image Retrieval
CN110826593A (zh) * 2019-09-29 2020-02-21 腾讯科技(深圳)有限公司 融合图像处理模型的训练方法、图像处理方法、装置及存储介质
CN110930408A (zh) * 2019-10-15 2020-03-27 浙江大学 基于知识重组的语义图像压缩方法
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
US20210303803A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Text style transfer using reinforcement learning
CN113505834A (zh) * 2021-07-13 2021-10-15 阿波罗智能技术(北京)有限公司 训练检测模型、确定图像更新信息和更新高精地图的方法
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统
WO2022048182A1 (zh) * 2020-09-02 2022-03-10 北京邮电大学 一种图像风格转换及模型训练的方法及装置
CN114359526A (zh) * 2021-12-29 2022-04-15 中山大学 基于语义gan的跨域图像风格迁移方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357259A1 (en) * 2017-06-09 2018-12-13 Adobe Systems Incorporated Sketch and Style Based Image Retrieval
CN110826593A (zh) * 2019-09-29 2020-02-21 腾讯科技(深圳)有限公司 融合图像处理模型的训练方法、图像处理方法、装置及存储介质
CN110930408A (zh) * 2019-10-15 2020-03-27 浙江大学 基于知识重组的语义图像压缩方法
US20210303803A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Text style transfer using reinforcement learning
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
WO2022048182A1 (zh) * 2020-09-02 2022-03-10 北京邮电大学 一种图像风格转换及模型训练的方法及装置
CN113505834A (zh) * 2021-07-13 2021-10-15 阿波罗智能技术(北京)有限公司 训练检测模型、确定图像更新信息和更新高精地图的方法
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统
CN114359526A (zh) * 2021-12-29 2022-04-15 中山大学 基于语义gan的跨域图像风格迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《JOHANES EFFENDI》: "《End-to-End Image-to-Speech Generation for Untranscribed Unknown Languages》", 《IEEE》 *
彭晏飞等: "基于循环生成对抗网络的图像风格迁移", 《计算机工程与科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100480A (zh) * 2022-07-28 2022-09-23 西南交通大学 基于向量量化变分自编码器的医学影像分类模型及方法
CN115222845A (zh) * 2022-08-01 2022-10-21 北京元亦科技有限公司 样式字体图片生成方法、装置、电子设备和介质
CN115908613A (zh) * 2022-12-01 2023-04-04 杭州雪爪文化科技有限公司 基于人工智能的ai模型生成方法、系统及存储介质
CN115908613B (zh) * 2022-12-01 2023-06-06 杭州雪爪文化科技有限公司 基于人工智能的ai模型生成方法、系统及存储介质
CN116911715A (zh) * 2023-09-12 2023-10-20 运易通科技有限公司 一种基于人工智能的物流识别分配机器人及其控制方法
CN116911715B (zh) * 2023-09-12 2023-12-08 运易通科技有限公司 一种基于人工智能的物流识别分配机器人及其控制方法
CN117095084A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 文本风格图像生成方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN114610935B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN114610935B (zh) 一种文本控制图像风格的语义图像合成的方法及系统
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN113934890B (zh) 一种文字自动生成场景视频的方法及系统
CN112084841B (zh) 跨模态的图像多风格字幕生成方法及系统
CN110992252A (zh) 一种基于潜变量特征生成的图像多风格转化方法
CN109996073B (zh) 一种图像压缩方法、系统、可读存储介质及计算机设备
CN112560456B (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN115600581B (zh) 一种使用句法信息的受控文本生成方法
CN115984933A (zh) 人脸动画模型的训练方法、语音数据处理方法和装置
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN115426075A (zh) 语义通信的编码传输方法及相关设备
CN111797225B (zh) 一种文本摘要生成方法和装置
CN109979461A (zh) 一种语音翻译方法及装置
CN115880762A (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、系统
CN114065771A (zh) 一种预训练语言处理方法及设备
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN113590800B (zh) 图像生成模型的训练方法和设备以及图像生成方法和设备
CN113486180A (zh) 一种基于关系层级交互的远程监督关系抽取方法及系统
CN115422329A (zh) 一种基于知识驱动的多路筛选融合对话生成方法
CN114611510A (zh) 基于生成模型辅助机器阅读理解的实现方法及装置
CN110390010B (zh) 一种自动文本摘要方法
CN113822790A (zh) 一种图像处理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant