CN115512368A - 一种跨模态语义生成图像模型和方法 - Google Patents
一种跨模态语义生成图像模型和方法 Download PDFInfo
- Publication number
- CN115512368A CN115512368A CN202211007329.1A CN202211007329A CN115512368A CN 115512368 A CN115512368 A CN 115512368A CN 202211007329 A CN202211007329 A CN 202211007329A CN 115512368 A CN115512368 A CN 115512368A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- generation
- conv
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 230000004913 activation Effects 0.000 claims description 21
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000000052 comparative effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种跨模态语义生成图像模型和方法,采用了深度学习领域的生成对抗网络技术,结合自然语言处理领域的Bert模型提取文本描述的特征向量作为图像生成的条件,从而生成符合文本描述的图像,实现了由文本描述产生图像的功能。本发明提出了自适应语义特征融合模块,通过跨模态的方式调整生成图像,将语义特征更好地融合到图像生成的过程中,更加有效地构建文本与图像之间的映射关系,使得生成图像更加贴合语义描述。本发明将对比学习的方法应用到跨模态语义图像生成研究中,提出基于对比学习的损失函数,通过其约束文本特征与图像特征之间的相关性增强最终生成图像与语义的一致性,极大提升了模型性能。
Description
技术领域
本发明属于文本到图像的合成技术领域,具体涉及一种跨模态语义生成图像模型和方法。
背景技术
图像合成是计算机视觉、虚拟现实等领域的基本问题,是图像编辑、平面设计、计算机艺术、电影特效等技术智能化的基础,同时在元宇宙、人机多模态对话等领域有着广泛的应用前景。其中,基于文本生成图像属于跨模态生成任务,其主要挑战在于多模态语义的准确表示和语义空间融合。
发明内容
本发明要解决的技术问题是:提供一种跨模态语义生成图像模型和方法,用于由文本描述产生图像。
本发明为解决上述技术问题所采取的技术方案为:一种基于生成对抗网络的跨模态语义生成图像模型,包括依次连接的文本编码器、生成网络模块和鉴别网络模块;
文本编码器采用预训练的Bert网络模型,用于获取目标图像文本描述的句子向量esent和词向量eword;
生成网络模块包括依次连接的全连接层、连续多个UpBlock块和伪图像生成模块Conv_img;
每个UpBlock块包括残差块ResBlock和上采样层UpSample;
残差块ResBlock包括主干结构和捷径Shortcut;
残差块ResBlock的主干结构包括第一融合模块和第二融合模块;第一融合模块用于进行词级语义的融合;第二融合模块用于进行句子级语义的融合;
第一融合模块和第二融合模块的结构相同,均包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-if module+Leakyrelu+Conv,用于加强自适应语义图像特征融合模块As-if Module对特征映射的效果;
第一融合模块包括第一单隐层MLP用于从句子向量esent中预测语言条件的通道尺度参数γ和移动参数β:
γ=MLPs(esent),β=MLPs(esent),
第二融合模块包括第二单隐层MLP用于从词向量eword中得到参数:
γ′=MLPs(eword),β′=MLPs(eword),
设B、C、H、W分别代表特征向量的批次、通道数、高度、宽度,对前一层输入的特征向量hi∈RB×C×H×W先利用通道尺度参数γ进行特征通道尺度变化,然后利用移动参数β进行偏移操作,表示为:
As(hi|e)=γi·hi+βi;
鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样模块,具有图像编码器的功能。
按上述方案,生成网络模块中:全连接层用于进行变形操作;捷径Shortcut包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-if module+Leakyrelu+Conv;伪图像生成模块Conv_img包括Leaky Relu函数、卷积核为3×3的卷积层和激活函数Tanh层。
按上述方案,鉴别网络模块中:
每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu,表示为Conv-LeakyRelu-Conv-LeakyRelu,其中前一个卷积块采用尺寸为4×4、步长为2的卷积核用于进行卷积操作,后一个卷积块采用3×3、步长为1的卷积核用于进行卷积操作。
按上述方案,Bert网络模型用于通过语义编码将编码后的词向量和句子向量从全局到局部逐步加入到生成网络模块中,使得在生成图像的不同阶段有相应的语义信息监督模型;
设Preal是真实图像的分布,Pfake是生成图像的分布,生成网络模块为G(z),鉴别网络模块为D(x);则鉴别网络模块的对抗损失函数为:
最终模型训练过程中生成网络模块的对抗损失函数为:
进一步的,采用对比学习的思想定义具有对应关系的两对样本对:(图像,文本描述)、(生成图像,真实图像),通过学习损失函数获得所述的样本对的更好的特征向量表示,运用两类对比损失函数InfoNCE loss最大化样本对之间的互信息,分别用于对生成网络模块和鉴别网络模块进行学习更新,使得网络模型收敛生成更加真实的高分辨率图像;
设一系列样本特征表示为x1,i,p(x)是样本特征的分布函数,对匹配的正样本x2,i~p(x2|x1,i)的评分高于其他M-1个负样本x2,j~p(x2),使InfoNCE loss最小化;设S(·,·)是计算评分的函数,则:
定义互信息为:
I(x1;x2)≥log(M)-LNCE;
采用余弦相似度作为评分函数,余弦相似度的计算公式为:
设图像为x,对应的文本描述为s,τ是超参数,鉴别网络模块用作图像编码器fimg(·),则样本对(图像,文本描述)为:
Sdes(x,s)=cos(fimg(x),fsent(s))/τ;
设采用BERT网络的文本编码器为fsent(·),得到的图像特征表示和文本特征表示的向量大小为batchsize×256;结合InfoNCE loss的形式按归一化尺度交叉熵损失(NT-Xent)定义样本对(图像,文本描述)的对比损失为:
设样本对(真实图像,生成图像)中真实图像为x,生成图像为G(z,s),z是服从高斯分布的随机噪声向量,s是对应的文本描述,定义评分函数为:
Simg(x,G(z,s))=cos(fimg(x),fimg(G(z,s)))/τ;
则样本对(真实图像,生成图像)的对比损失为:
鉴别网络模块的损失为:
一种基于生成对抗网络的跨模态语义生成图像方法,包括以下步骤:
S1:构造基于生成对抗网络的跨模态语义图像生成模型,包括依次连接的文本编码器、生成网络模块和鉴别网络模块;
文本编码器采用预训练的Bert网络模型;
生成网络模块包括依次连接的全连接层、连续多个UpBlock块和伪图像生成模块Conv_img;
每个UpBlock块包括残差块ResBlock和上采样层UpSample;
每个残差块ResBlock包括主干结构和捷径Shortcut;
残差块ResBlock的主干结构包括第一融合模块和第二融合模块;
第一融合模块和第二融合模块的结构相同,均包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-if module+Leakyrelu+Conv;
第一融合模块包括第一单隐层MLP;
第二融合模块包括第二单隐层MLP;
捷径Shortcut包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-if module+Leakyrelu+Conv;
伪图像生成模块Conv_img包括激活函数层Leaky Relu、卷积核为3×3的卷积层Conv和激活函数层Tanh;
UpBlock块的ResBlock层的主干结构还包括As-if Module,与伪图像生成模块Conv_img的LeakyRelu层和3×3的Conv层共同组成主干结构;
鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样模块;
每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu,表示为Conv-LeakyRelu-Conv-LeakyRelu,其中前一个卷积块采用尺寸为4×4、步长为2的卷积核,后一个卷积块采用3×3、步长为1的卷积核;
S2:将目标图像的文本描述输入文本编码器,通过预训练的深度神经网络Bert模型编码处理目标图像的文本描述,从文本描述中提取包括句子向量esent与词向量eword的文本编码特征,将预处理过的文本特征与服从高斯分布的随机噪声向量z输入生成模型;
S3:拼接句子向量esent和服从高斯分布的随机噪声向量z,并发送到全连接层进行变形操作,将变形结果送入到连续多个UpBlock块中,通过自适应语义特征融合模块将词向量eword融入到图像生成的过程中进行处理后得到隐特征;
S4:将隐特征输入伪图像生成模块Conv_img,通过运算将隐特征转换为由文本描述产生的生成图像;
S5:将真实图像和生成图像输入鉴别网络模块中进行对抗学习;
S6:采用对比学习的思想定义具有对应关系的两对样本对:(图像,文本描述)、(生成图像,真实图像),通过学习损失函数获得所述的样本对的更好的特征向量表示,运用两类对比损失函数InfoNCE loss最大化样本对之间的互信息,分别用于对生成网络模块和鉴别网络模块进行学习更新,使得网络模型收敛生成更加真实的高分辨率图像。
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行一种基于生成对抗网络的跨模态语义生成图像方法。
本发明的有益效果为:
1.本发明的一种跨模态语义生成图像模型和方法,采用了深度学习领域的生成对抗网络技术,结合自然语言处理领域的Bert模型提取文本描述的特征向量作为图像生成的条件,从而生成符合文本描述的图像,实现了由文本描述产生图像的功能。
2.本发明采用生成对抗网络作为基本的网络结构实现图像的生成,提出了自适应语义特征融合模块,通过跨模态的方式调整生成图像,将语义特征更好地融合到图像生成的过程中,更加有效地构建文本与图像之间的映射关系,克服了现有的模型中语义图像关联程度不高的缺点,使得生成图像更加贴合语义描述。
3.本发明将对比学习的方法应用到跨模态语义图像生成研究中,提出基于对比学习的损失函数,通过其约束文本特征与图像特征之间的相关性增强最终生成图像与语义的一致性,极大提升了模型性能。
附图说明
图1是本发明实施例的生成网络图。
图2是本发明实施例的鉴别网络图。
图3是本发明实施例的自适应的语义图像特征融合模块图。
图4是本发明实施例的残差块结构图。
图5是本发明实施例的模型结果图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明采用生成对抗网络作为基本的网络结构实现图像的生成。
参见图1,在模型的生成网络中,首先使用预训练的Bert网络作为文本编码器来获取目标图像文本描述的句子向量esent和词向量eword,选取句子向量esent与服从高斯分布的随机噪声向量z进行拼接后给到全连接层以及变形操作,并将结果送入到连续的6个UpBlock中,生成器结构是由6个UpBlock块组成,每一个UpBlock块由一个残差块和上采样层组成,其中每个残差块由卷积核大小为3×3(文中后续未额外注明的卷积层均采用相同尺寸的卷积核)、步长为1的卷积层(Convolutional Layer,Conv)以及仿射层(AffineLayer)、激活层(LeakyRelu)、捷径(Shortcut)几部分共同组成。为了使得后续的生成中,生成器能够更深层、更有效的融合文本和视觉信息。在经过6个UpBlock处理后,得到一个隐特征,再将其送入一个图像的生成模块Conv_img,由一个Leaky Relu函数(参数设置为0.2)、一个卷积核为3×3的卷积层以及一个激活函数Tanh层组成,通过运算将隐特征转换为分辨率为256的图像,之后将生成的图像与真实图像一同送入判别器中进行对抗学习。
参见图2,由于判别器网络结构的特殊性,可以具有图像编码器的功能,因此为了模型的轻量级,模型中不再额外添加的图像编码器。与生成器网络结构类似,判别器也是由一系列的DownBlock模块组成。输入真实图像和生成图像后,会经过一个3×3的Conv层,紧接着就是通过6个由残差构成的下采样模块,处理得到4×4×512的特征向量。判别器的残差仅由Conv层以及LeakyRelu层构成,表示为Conv-LeakyRelu-Conv-LeakyRelu,其中前一个卷积块是采用尺寸为4×4、步长为2的卷积核进行卷积操作,后一个卷积块则是采用3×3、步长为1的卷积核进行卷积操作。
参见图3和图4,自适应的语义图像特征融合模块(Adaptive semantic imagefeature fusion module),嵌套在生成器UpBlock中的残差层。模型选择利用两个自适应的语义图像特征融合模块,分别进行词级语义的融合和句子级语义的融合,文中采用两个单隐层MLPs分别从句子向量esent中预测语言条件的通道尺度参数γ和移动参数β:
γ=MLPs(esent),β=MLPs(esent),
与句子向量相同,在第二个融合模块,可以得到基于词向量eword的参数:
γ′=MLPs(eword),β′=MLPs(eword),
设B、C、H、W分别代表特征向量的批次、通道数、高度、宽度,对前一层输入的特征向量hi∈RB×C×H×W,先对其进行特征通道尺度变化,然后再利用移动参数进行偏移操作,可表示为:
As(hi|e)=γi·hi+βi;
在生成器的残差的主干结构中加入As-if Module,与LeakyRelu层和3×3的Conv层共同组成主干结构,并以相同的结构重复一次得到As-if module+Leakyrelu+Conv,加强As-if Module对特征映射的效果。
为了实现轻量级网络结构同时提升生成图像的质量,生成模型采用Bert模型进行语义编码,将编码后的词向量以及句子向量从全局到局部逐步加入到生成网络中,使得模型可以在生成图像的不同阶段都能有相应的语义信息进行监督。其对抗损失函数定义如下公式所示:
判别器对抗损失函数为:
其中Preal是真实图像的分布,Pfake是生成图像的分布;最终模型训练过程中生成器的对抗损失函数定义为:
与此同时,为了使得网络模型收敛,能够生成更加真实的高分辨率图像,采用对比学习的思想,定义了两类对比损失函数,分别对生成器和判别器进行学习更新。
首先,定义两对具有对应关系的样本对:(图像,文本描述)、(生成图像,真实图像),运用对比学习的目标是学习一个损失函数来获得以上样本对的更好的特征向量表示,由此考虑运用InfoNCE loss来最大化这些样本对之间的互信息。给出一系列样本特征表示x1,i,p(x)是样本特征的分布函数,最小化InfoNCE loss则需要对匹配的正样本x2,i~p(x2|x1,i)的评分高于其他M-1个负样本x2,j~p(x2),最终互信息的定义为:
I(x1;x2)≥log(M)-LNCE,
其中
这里S(·,·)是计算评分的函数。
因此,对于文中提出的第一个样本对(图像,文本描述),分别设为图像x和其对应的文本描述s,采用余弦相似度作为评分函数,则有:
Sdes(x,s)=cos(fimg(x),fsent(s))/τ,
余弦相似度的计算公式为:
其中,τ是超参数,fimg(·)是图像编码器,模型中判别器就可以起到编码器网络的作用,因此不再额外设置图像编码器;fsent(·)是文本编码器,模型中采用BERT网络进行文本编码,此处得到的图像特征表示和文本特征表示的向量大小为batchsize×256。结合之前的InfoNCE loss的形式,可以定义出(图像,文本描述)样本对的对比损失为:
这样的对比损失定义形式也被称为归一化尺度交叉熵损失(NT-Xent)。同样地,可以对第二个样本对进行损失函数定义,样本对中真实图像定义为x,生成图像定义为G(z,s),z是服从标准正态分布的随机噪声,s则是对应的文本描述,因此可以定义评分函数:
Simg(x,G(z,s))=cos(fimg(x),fimg(G(z,s)))/τ;
则(真实图像,生成图像)样本对的对比损失为:
因此生成器的损失为:
判别器的损失为:
参见图1至图4,本发明实施例的语义生成图像方法,包括以下步骤:
S1:构造基于生成对抗网络的跨模态语义图像生成模型;
S2:通过预训练的深度神经网络Bert模型编码处理给定的文本描述,从文本描述中提取包括句子特征向量与词特征向量的文本编码特征,将预处理过的文本特征与服从高斯分布的噪声输入生成模型;
S2:将中间图像特征输入自适应语义图像特征融合模块,通过自适应语义特征融合模块将词特征向量融入到图像生成的过程中;
S3:将中间图像特征输入生成器,通过生成器得到由文本描述产生的图片,参见图5。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (7)
1.一种跨模态语义生成图像模型,其特征在于:包括依次连接的文本编码器、生成网络模块和鉴别网络模块;
文本编码器采用预训练的Bert网络模型,用于获取目标图像文本描述的句子向量esent和词向量eword;
生成网络模块包括依次连接的全连接层、连续多个UpBlock块和伪图像生成模块Conv_img;
每个UpBlock块包括残差块ResBlock和上采样层UpSample;
残差块ResBlock包括主干结构和捷径Shortcut;
残差块ResBlock的主干结构包括第一融合模块和第二融合模块;第一融合模块用于进行词级语义的融合;第二融合模块用于进行句子级语义的融合;
第一融合模块和第二融合模块的结构相同,均包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-ifmodule+Leakyrelu+Conv,用于加强自适应语义图像特征融合模块As-if Module对特征映射的效果;
第一融合模块包括第一单隐层MLP用于从句子向量esent中预测语言条件的通道尺度参数γ和移动参数β:
γ=MLPs(esent),β=MLPs(esent),
第二融合模块包括第二单隐层MLP用于从词向量eword中得到参数:
γ′=MLPs(eword),β′=MLPs(eword),
设B、C、H、W分别代表特征向量的批次、通道数、高度、宽度,对前一层输入的特征向量hi∈RB×C×H×W先利用通道尺度参数γ进行特征通道尺度变化,然后利用移动参数β进行偏移操作,表示为:
As(hi|e)=γi·hi+βi;
鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样模块,具有图像编码器的功能。
2.根据权利要求1所述的一种跨模态语义生成图像模型,其特征在于:生成网络模块中:
全连接层用于进行变形操作;
捷径Shortcut包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-if module+Leakyrelu+Conv;
伪图像生成模块Conv_img包括激活函数层Leaky Relu、卷积核为3×3的卷积层Conv和激活函数层Tanh。
3.根据权利要求1所述的一种跨模态语义生成图像模型,其特征在于:鉴别网络模块中:
每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu,表示为Conv-LeakyRelu-Conv-LeakyRelu,其中前一个卷积块采用尺寸为4×4、步长为2的卷积核用于进行卷积操作,后一个卷积块采用3×3、步长为1的卷积核用于进行卷积操作。
5.根据权利要求4所述的一种跨模态语义生成图像模型,其特征在于:
采用对比学习的思想定义具有对应关系的两对样本对:(图像,文本描述)、(生成图像,真实图像),通过学习损失函数获得所述的样本对的更好的特征向量表示,运用两类对比损失函数InfoNCE loss最大化样本对之间的互信息,分别用于对生成网络模块和鉴别网络模块进行学习更新,使得网络模型收敛生成更加真实的高分辨率图像;
设一系列样本特征表示为x1,i,p(x)是样本特征的分布函数,对匹配的正样本x2,i~p(x2|x1,i)的评分高于其他M-1个负样本x2,j~p(x2),使InfoNCE loss最小化;设S(·,·)是计算评分的函数,则:
定义互信息为:
I(x1;x2)≥log(M)-LNCE;
采用余弦相似度作为评分函数,余弦相似度的计算公式为:
设图像为x,对应的文本描述为s,τ是超参数,鉴别网络模块用作图像编码器fimg(·),则样本对(图像,文本描述)为:
Sdes(x,s)=cos(fimg(x),fsent(s))/τ;
设采用BERT网络的文本编码器为fsent(·),得到的图像特征表示和文本特征表示的向量大小为batchsize×256;结合InfoNCE loss的形式按归一化尺度交叉熵损失NT-Xent定义样本对(图像,文本描述)的对比损失为:
设样本对(真实图像,生成图像)中真实图像为x,生成图像为G(z,s),z是服从高斯分布的随机噪声向量,s是对应的文本描述,定义评分函数为:
Simg(x,G(z,s))=cos(fimg(x),fimg(G(z,s)))/τ;
则样本对(真实图像,生成图像)的对比损失为:
鉴别网络模块的损失为:
6.一种基于权利要求1至5中任意一项所述的跨模态语义生成图像模型的语义生成图像方法,其特征在于:包括以下步骤:
S1:构造基于生成对抗网络的跨模态语义图像生成模型,包括依次连接的文本编码器、生成网络模块和鉴别网络模块;
文本编码器采用预训练的Bert网络模型;
生成网络模块包括依次连接的全连接层、连续多个UpBlock块和伪图像生成模块Conv_img;
每个UpBlock块包括残差块ResBlock和上采样层UpSample;
每个残差块ResBlock包括主干结构和捷径Shortcut;
残差块ResBlock的主干结构包括第一融合模块和第二融合模块;
第一融合模块和第二融合模块的结构相同,均包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-ifmodule+Leakyrelu+Conv;
第一融合模块包括第一单隐层MLP;
第二融合模块包括第二单隐层MLP;
捷径Shortcut包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As-if module+Leakyrelu+Conv;
伪图像生成模块Conv_img包括激活函数层Leaky Relu、卷积核为3×3的卷积层Conv和激活函数层Tanh;
鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样模块;
每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu,表示为Conv-LeakyRelu-Conv-LeakyRelu,其中前一个卷积块采用尺寸为4×4、步长为2的卷积核,后一个卷积块采用3×3、步长为1的卷积核;
S2:将目标图像的文本描述输入文本编码器,通过预训练的深度神经网络Bert模型编码处理目标图像的文本描述,从文本描述中提取包括句子向量esent与词向量eword的文本编码特征,将预处理过的文本特征与服从高斯分布的随机噪声向量z输入生成模型;
S3:拼接句子向量esent和服从高斯分布的随机噪声向量z,并发送到全连接层进行变形操作,将变形结果送入到连续多个UpBlock块中,通过自适应语义特征融合模块将词向量eword融入到图像生成的过程中进行处理后得到隐特征;
S4:将隐特征输入伪图像生成模块Conv_img,通过运算将隐特征转换为由文本描述产生的生成图像;
S5:将真实图像和生成图像输入鉴别网络模块中进行对抗学习;
S6:采用对比学习的思想定义具有对应关系的两对样本对:(图像,文本描述)、(生成图像,真实图像),通过学习损失函数获得所述的样本对的更好的特征向量表示,运用两类对比损失函数InfoNCE loss最大化样本对之间的互信息,分别用于对生成网络模块和鉴别网络模块进行学习更新,使得网络模型收敛生成更加真实的高分辨率图像。
7.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求6所述的语义生成图像方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211007329.1A CN115512368B (zh) | 2022-08-22 | 2022-08-22 | 一种跨模态语义生成图像模型和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211007329.1A CN115512368B (zh) | 2022-08-22 | 2022-08-22 | 一种跨模态语义生成图像模型和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115512368A true CN115512368A (zh) | 2022-12-23 |
CN115512368B CN115512368B (zh) | 2024-05-10 |
Family
ID=84502110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211007329.1A Active CN115512368B (zh) | 2022-08-22 | 2022-08-22 | 一种跨模态语义生成图像模型和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512368B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017151863A (ja) * | 2016-02-26 | 2017-08-31 | 国立大学法人東京工業大学 | 文書要約装置 |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
US10452959B1 (en) * | 2018-07-20 | 2019-10-22 | Synapse Tehnology Corporation | Multi-perspective detection of objects |
WO2019204186A1 (en) * | 2018-04-18 | 2019-10-24 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
CN110706302A (zh) * | 2019-10-11 | 2020-01-17 | 中山市易嘀科技有限公司 | 一种文本合成图像的系统及方法 |
WO2020093042A1 (en) * | 2018-11-02 | 2020-05-07 | Deep Lens, Inc. | Neural networks for biomedical image analysis |
CN112150493A (zh) * | 2020-09-22 | 2020-12-29 | 重庆邮电大学 | 一种基于语义指导的自然场景下屏幕区域检测方法 |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
CN113191375A (zh) * | 2021-06-09 | 2021-07-30 | 北京理工大学 | 一种基于联合嵌入的文本到多对象图像生成方法 |
CN113343705A (zh) * | 2021-04-26 | 2021-09-03 | 山东师范大学 | 一种基于文本语义的细节保持图像生成方法及系统 |
CN113362416A (zh) * | 2021-07-01 | 2021-09-07 | 中国科学技术大学 | 基于目标检测的文本生成图像的方法 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113361251A (zh) * | 2021-05-13 | 2021-09-07 | 山东师范大学 | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 |
CN113435203A (zh) * | 2021-08-30 | 2021-09-24 | 华南师范大学 | 多模态命名实体识别方法、装置以及电子设备 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114863231A (zh) * | 2022-04-08 | 2022-08-05 | 中国石油大学(华东) | 基于渐进式融合的多视图跨模态匹配方法 |
-
2022
- 2022-08-22 CN CN202211007329.1A patent/CN115512368B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017151863A (ja) * | 2016-02-26 | 2017-08-31 | 国立大学法人東京工業大学 | 文書要約装置 |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
WO2019204186A1 (en) * | 2018-04-18 | 2019-10-24 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
US10452959B1 (en) * | 2018-07-20 | 2019-10-22 | Synapse Tehnology Corporation | Multi-perspective detection of objects |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
WO2020093042A1 (en) * | 2018-11-02 | 2020-05-07 | Deep Lens, Inc. | Neural networks for biomedical image analysis |
CN110706302A (zh) * | 2019-10-11 | 2020-01-17 | 中山市易嘀科技有限公司 | 一种文本合成图像的系统及方法 |
CN112150493A (zh) * | 2020-09-22 | 2020-12-29 | 重庆邮电大学 | 一种基于语义指导的自然场景下屏幕区域检测方法 |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
CN113343705A (zh) * | 2021-04-26 | 2021-09-03 | 山东师范大学 | 一种基于文本语义的细节保持图像生成方法及系统 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113361251A (zh) * | 2021-05-13 | 2021-09-07 | 山东师范大学 | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 |
CN113191375A (zh) * | 2021-06-09 | 2021-07-30 | 北京理工大学 | 一种基于联合嵌入的文本到多对象图像生成方法 |
CN113362416A (zh) * | 2021-07-01 | 2021-09-07 | 中国科学技术大学 | 基于目标检测的文本生成图像的方法 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN113435203A (zh) * | 2021-08-30 | 2021-09-24 | 华南师范大学 | 多模态命名实体识别方法、装置以及电子设备 |
CN114863231A (zh) * | 2022-04-08 | 2022-08-05 | 中国石油大学(华东) | 基于渐进式融合的多视图跨模态匹配方法 |
Non-Patent Citations (7)
Title |
---|
"基于生成对抗网络的文本到图像生成技术研究", 《 中国优秀硕士论文电子期刊网》, 15 March 2022 (2022-03-15) * |
HAN ZHANG: "Cross-Modal Contrastive Learning for Text-to-Image Generation", 《COMPUTER VISION AND PATTERN RECOGNITION (CS.CV)》, 12 January 2021 (2021-01-12) * |
MING TAO: "DF-GAN A Simple and Effective Baseline for Text-to-Image Synthesis", 《CVPR》, 15 March 2022 (2022-03-15) * |
XIAOPENG LU: "CIGLI: Conditional Image Generation from Language & Image", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW)》 * |
张姣: "基于深度学习的图像描述生成方法研究", 《中国优秀硕士论文电子期刊网》, 15 February 2021 (2021-02-15) * |
王玉锋;王宏伟;刘宇;杨明权;全吉成;: "渐进细化的实时立体匹配算法", 光学学报, no. 09 * |
王玉锋;王宏伟;刘宇;杨明权;全吉成;: "渐进细化的实时立体匹配算法", 光学学报, no. 09, 10 May 2020 (2020-05-10) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115512368B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN110427605B (zh) | 面向短文本理解的省略恢复方法 | |
CN109657226B (zh) | 多联结注意力的阅读理解模型、系统及方法 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN112016604B (zh) | 一种运用视觉信息的零资源机器翻译方法 | |
CN110597947A (zh) | 一种基于全局和局部注意力交互的阅读理解系统及方法 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN111402365B (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN110516530A (zh) | 一种基于非对齐多视图特征增强的图像描述方法 | |
CN113361251A (zh) | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 | |
CN111767718A (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN112348911A (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及系统 | |
CN113140020A (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN115512368A (zh) | 一种跨模态语义生成图像模型和方法 | |
CN116168401A (zh) | 基于多模态码本的文本图像翻译模型的训练方法 | |
CN112528168B (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
CN112633079A (zh) | 一种手写英文单词识别方法及系统 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN109918484B (zh) | 对话生成方法和装置 | |
CN111339734A (zh) | 一种基于文本生成图像的方法 | |
CN111414762A (zh) | 基于dcu编码和自注意力机制的机器阅读理解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |