CN115512368A

CN115512368A - 一种跨模态语义生成图像模型和方法

Info

Publication number: CN115512368A
Application number: CN202211007329.1A
Authority: CN
Inventors: 向金海; 蔡汶宏; 张子强; 朱焰新; 肖书尧; 章英
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-12-23
Anticipated expiration: 2042-08-22
Also published as: CN115512368B

Abstract

本发明提供了一种跨模态语义生成图像模型和方法，采用了深度学习领域的生成对抗网络技术，结合自然语言处理领域的Bert模型提取文本描述的特征向量作为图像生成的条件，从而生成符合文本描述的图像，实现了由文本描述产生图像的功能。本发明提出了自适应语义特征融合模块，通过跨模态的方式调整生成图像，将语义特征更好地融合到图像生成的过程中，更加有效地构建文本与图像之间的映射关系，使得生成图像更加贴合语义描述。本发明将对比学习的方法应用到跨模态语义图像生成研究中，提出基于对比学习的损失函数，通过其约束文本特征与图像特征之间的相关性增强最终生成图像与语义的一致性，极大提升了模型性能。

Description

一种跨模态语义生成图像模型和方法

技术领域

本发明属于文本到图像的合成技术领域，具体涉及一种跨模态语义生成图像模型和方法。

背景技术

图像合成是计算机视觉、虚拟现实等领域的基本问题，是图像编辑、平面设计、计算机艺术、电影特效等技术智能化的基础，同时在元宇宙、人机多模态对话等领域有着广泛的应用前景。其中，基于文本生成图像属于跨模态生成任务，其主要挑战在于多模态语义的准确表示和语义空间融合。

发明内容

本发明要解决的技术问题是：提供一种跨模态语义生成图像模型和方法，用于由文本描述产生图像。

本发明为解决上述技术问题所采取的技术方案为：一种基于生成对抗网络的跨模态语义生成图像模型，包括依次连接的文本编码器、生成网络模块和鉴别网络模块；

文本编码器采用预训练的Bert网络模型，用于获取目标图像文本描述的句子向量e^sent和词向量e^word；

生成网络模块包括依次连接的全连接层、连续多个UpBlock块和伪图像生成模块Conv_img；

每个UpBlock块包括残差块ResBlock和上采样层UpSample；

残差块ResBlock包括主干结构和捷径Shortcut；

残差块ResBlock的主干结构包括第一融合模块和第二融合模块；第一融合模块用于进行词级语义的融合；第二融合模块用于进行句子级语义的融合；

第一融合模块和第二融合模块的结构相同，均包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu，表示为As-if module+Leakyrelu+Conv，用于加强自适应语义图像特征融合模块As-if Module对特征映射的效果；

第一融合模块包括第一单隐层MLP用于从句子向量e^sent中预测语言条件的通道尺度参数γ和移动参数β：

γ＝MLPs(e^sent)，β＝MLPs(e^sent)，

第二融合模块包括第二单隐层MLP用于从词向量e^word中得到参数：

γ′＝MLPs(e^word)，β′＝MLPs(e^word)，

设B、C、H、W分别代表特征向量的批次、通道数、高度、宽度，对前一层输入的特征向量h_i∈R^B×C×H×W先利用通道尺度参数γ进行特征通道尺度变化，然后利用移动参数β进行偏移操作，表示为：

As(h_i|e)＝γ_i·h_i+β_i；

鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样模块，具有图像编码器的功能。

按上述方案，生成网络模块中：全连接层用于进行变形操作；捷径Shortcut包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu，表示为As-if module+Leakyrelu+Conv；伪图像生成模块Conv_img包括Leaky Relu函数、卷积核为3×3的卷积层和激活函数Tanh层。

按上述方案，鉴别网络模块中：

每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu，表示为Conv-LeakyRelu-Conv-LeakyRelu，其中前一个卷积块采用尺寸为4×4、步长为2的卷积核用于进行卷积操作，后一个卷积块采用3×3、步长为1的卷积核用于进行卷积操作。

按上述方案，Bert网络模型用于通过语义编码将编码后的词向量和句子向量从全局到局部逐步加入到生成网络模块中，使得在生成图像的不同阶段有相应的语义信息监督模型；

设P_real是真实图像的分布，P_fake是生成图像的分布，生成网络模块为G(z)，鉴别网络模块为D(x)；则鉴别网络模块的对抗损失函数为：

最终模型训练过程中生成网络模块的对抗损失函数为：

进一步的，采用对比学习的思想定义具有对应关系的两对样本对：(图像，文本描述)、(生成图像，真实图像)，通过学习损失函数获得所述的样本对的更好的特征向量表示，运用两类对比损失函数InfoNCE loss最大化样本对之间的互信息，分别用于对生成网络模块和鉴别网络模块进行学习更新，使得网络模型收敛生成更加真实的高分辨率图像；

设一系列样本特征表示为x_1,i，p(x)是样本特征的分布函数，对匹配的正样本x_2,i～p(x₂|x_1,i)的评分高于其他M-1个负样本x_2,j～p(x₂)，使InfoNCE loss最小化；设S(·,·)是计算评分的函数，则：

定义互信息为：

I(x₁；x₂)≥log(M)-L_NCE；

采用余弦相似度作为评分函数，余弦相似度的计算公式为：

设图像为x，对应的文本描述为s，τ是超参数，鉴别网络模块用作图像编码器f_img(·)，则样本对(图像，文本描述)为：

S_des(x,s)＝cos(f_img(x),f_sent(s))/τ；

设采用BERT网络的文本编码器为f_sent(·)，得到的图像特征表示和文本特征表示的向量大小为batchsize×256；结合InfoNCE loss的形式按归一化尺度交叉熵损失(NT-Xent)定义样本对(图像，文本描述)的对比损失为：

设样本对(真实图像，生成图像)中真实图像为x，生成图像为G(z,s)，z是服从高斯分布的随机噪声向量，s是对应的文本描述，定义评分函数为：

S_img(x,G(z,s))＝cos(f_img(x),f_img(G(z,s)))/τ；

则样本对(真实图像，生成图像)的对比损失为：

设

则生成网络模块的损失为：

鉴别网络模块的损失为：

一种基于生成对抗网络的跨模态语义生成图像方法，包括以下步骤：

S1：构造基于生成对抗网络的跨模态语义图像生成模型，包括依次连接的文本编码器、生成网络模块和鉴别网络模块；

文本编码器采用预训练的Bert网络模型；

每个UpBlock块包括残差块ResBlock和上采样层UpSample；

每个残差块ResBlock包括主干结构和捷径Shortcut；

残差块ResBlock的主干结构包括第一融合模块和第二融合模块；

第一融合模块和第二融合模块的结构相同，均包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu，表示为As-if module+Leakyrelu+Conv；

第一融合模块包括第一单隐层MLP；

第二融合模块包括第二单隐层MLP；

捷径Shortcut包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu，表示为As-if module+Leakyrelu+Conv；

伪图像生成模块Conv_img包括激活函数层Leaky Relu、卷积核为3×3的卷积层Conv和激活函数层Tanh；

UpBlock块的ResBlock层的主干结构还包括As-if Module，与伪图像生成模块Conv_img的LeakyRelu层和3×3的Conv层共同组成主干结构；

鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样模块；

每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu，表示为Conv-LeakyRelu-Conv-LeakyRelu，其中前一个卷积块采用尺寸为4×4、步长为2的卷积核，后一个卷积块采用3×3、步长为1的卷积核；

S2：将目标图像的文本描述输入文本编码器，通过预训练的深度神经网络Bert模型编码处理目标图像的文本描述，从文本描述中提取包括句子向量e^sent与词向量e^word的文本编码特征，将预处理过的文本特征与服从高斯分布的随机噪声向量z输入生成模型；

S3：拼接句子向量e^sent和服从高斯分布的随机噪声向量z，并发送到全连接层进行变形操作，将变形结果送入到连续多个UpBlock块中，通过自适应语义特征融合模块将词向量e^word融入到图像生成的过程中进行处理后得到隐特征；

S4：将隐特征输入伪图像生成模块Conv_img，通过运算将隐特征转换为由文本描述产生的生成图像；

S5：将真实图像和生成图像输入鉴别网络模块中进行对抗学习；

S6：采用对比学习的思想定义具有对应关系的两对样本对：(图像，文本描述)、(生成图像，真实图像)，通过学习损失函数获得所述的样本对的更好的特征向量表示，运用两类对比损失函数InfoNCE loss最大化样本对之间的互信息，分别用于对生成网络模块和鉴别网络模块进行学习更新，使得网络模型收敛生成更加真实的高分辨率图像。

一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行一种基于生成对抗网络的跨模态语义生成图像方法。

本发明的有益效果为：

1.本发明的一种跨模态语义生成图像模型和方法，采用了深度学习领域的生成对抗网络技术，结合自然语言处理领域的Bert模型提取文本描述的特征向量作为图像生成的条件，从而生成符合文本描述的图像，实现了由文本描述产生图像的功能。

2.本发明采用生成对抗网络作为基本的网络结构实现图像的生成，提出了自适应语义特征融合模块，通过跨模态的方式调整生成图像，将语义特征更好地融合到图像生成的过程中，更加有效地构建文本与图像之间的映射关系，克服了现有的模型中语义图像关联程度不高的缺点，使得生成图像更加贴合语义描述。

3.本发明将对比学习的方法应用到跨模态语义图像生成研究中，提出基于对比学习的损失函数，通过其约束文本特征与图像特征之间的相关性增强最终生成图像与语义的一致性，极大提升了模型性能。

附图说明

图1是本发明实施例的生成网络图。

图2是本发明实施例的鉴别网络图。

图3是本发明实施例的自适应的语义图像特征融合模块图。

图4是本发明实施例的残差块结构图。

图5是本发明实施例的模型结果图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明采用生成对抗网络作为基本的网络结构实现图像的生成。

参见图1，在模型的生成网络中，首先使用预训练的Bert网络作为文本编码器来获取目标图像文本描述的句子向量e^sent和词向量e^word，选取句子向量e^sent与服从高斯分布的随机噪声向量z进行拼接后给到全连接层以及变形操作，并将结果送入到连续的6个UpBlock中，生成器结构是由6个UpBlock块组成，每一个UpBlock块由一个残差块和上采样层组成，其中每个残差块由卷积核大小为3×3(文中后续未额外注明的卷积层均采用相同尺寸的卷积核)、步长为1的卷积层(Convolutional Layer，Conv)以及仿射层(AffineLayer)、激活层(LeakyRelu)、捷径(Shortcut)几部分共同组成。为了使得后续的生成中，生成器能够更深层、更有效的融合文本和视觉信息。在经过6个UpBlock处理后，得到一个隐特征，再将其送入一个图像的生成模块Conv_img，由一个Leaky Relu函数(参数设置为0.2)、一个卷积核为3×3的卷积层以及一个激活函数Tanh层组成，通过运算将隐特征转换为分辨率为256的图像，之后将生成的图像与真实图像一同送入判别器中进行对抗学习。

参见图2，由于判别器网络结构的特殊性，可以具有图像编码器的功能，因此为了模型的轻量级，模型中不再额外添加的图像编码器。与生成器网络结构类似，判别器也是由一系列的DownBlock模块组成。输入真实图像和生成图像后，会经过一个3×3的Conv层，紧接着就是通过6个由残差构成的下采样模块，处理得到4×4×512的特征向量。判别器的残差仅由Conv层以及LeakyRelu层构成，表示为Conv-LeakyRelu-Conv-LeakyRelu，其中前一个卷积块是采用尺寸为4×4、步长为2的卷积核进行卷积操作，后一个卷积块则是采用3×3、步长为1的卷积核进行卷积操作。

参见图3和图4，自适应的语义图像特征融合模块(Adaptive semantic imagefeature fusion module)，嵌套在生成器UpBlock中的残差层。模型选择利用两个自适应的语义图像特征融合模块，分别进行词级语义的融合和句子级语义的融合，文中采用两个单隐层MLPs分别从句子向量e^sent中预测语言条件的通道尺度参数γ和移动参数β：

γ＝MLPs(e^sent)，β＝MLPs(e^sent)，

与句子向量相同，在第二个融合模块，可以得到基于词向量e^word的参数：

γ′＝MLPs(e^word)，β′＝MLPs(e^word)，

设B、C、H、W分别代表特征向量的批次、通道数、高度、宽度，对前一层输入的特征向量h_i∈R^B×C×H×W，先对其进行特征通道尺度变化，然后再利用移动参数进行偏移操作，可表示为：

As(h_i|e)＝γ_i·h_i+β_i；

在生成器的残差的主干结构中加入As-if Module，与LeakyRelu层和3×3的Conv层共同组成主干结构，并以相同的结构重复一次得到As-if module+Leakyrelu+Conv，加强As-if Module对特征映射的效果。

为了实现轻量级网络结构同时提升生成图像的质量，生成模型采用Bert模型进行语义编码，将编码后的词向量以及句子向量从全局到局部逐步加入到生成网络中，使得模型可以在生成图像的不同阶段都能有相应的语义信息进行监督。其对抗损失函数定义如下公式所示：

判别器对抗损失函数为：

其中P_real是真实图像的分布，P_fake是生成图像的分布；最终模型训练过程中生成器的对抗损失函数定义为：

与此同时，为了使得网络模型收敛，能够生成更加真实的高分辨率图像，采用对比学习的思想，定义了两类对比损失函数，分别对生成器和判别器进行学习更新。

首先，定义两对具有对应关系的样本对：(图像，文本描述)、(生成图像，真实图像)，运用对比学习的目标是学习一个损失函数来获得以上样本对的更好的特征向量表示，由此考虑运用InfoNCE loss来最大化这些样本对之间的互信息。给出一系列样本特征表示x_1,i，p(x)是样本特征的分布函数，最小化InfoNCE loss则需要对匹配的正样本x_2,i～p(x₂|x_1,i)的评分高于其他M-1个负样本x_2,j～p(x₂)，最终互信息的定义为：

I(x₁；x₂)≥log(M)-L_NCE，

其中

这里S(·,·)是计算评分的函数。

因此，对于文中提出的第一个样本对(图像，文本描述)，分别设为图像x和其对应的文本描述s，采用余弦相似度作为评分函数，则有：

S_des(x,s)＝cos(f_img(x),f_sent(s))/τ，

余弦相似度的计算公式为：

其中，τ是超参数，f_img(·)是图像编码器，模型中判别器就可以起到编码器网络的作用，因此不再额外设置图像编码器；f_sent(·)是文本编码器，模型中采用BERT网络进行文本编码，此处得到的图像特征表示和文本特征表示的向量大小为batchsize×256。结合之前的InfoNCE loss的形式，可以定义出(图像，文本描述)样本对的对比损失为：

这样的对比损失定义形式也被称为归一化尺度交叉熵损失(NT-Xent)。同样地，可以对第二个样本对进行损失函数定义，样本对中真实图像定义为x，生成图像定义为G(z,s)，z是服从标准正态分布的随机噪声，s则是对应的文本描述，因此可以定义评分函数：

S_img(x,G(z,s))＝cos(f_img(x),f_img(G(z,s)))/τ；

则(真实图像，生成图像)样本对的对比损失为：

因此生成器的损失为：

判别器的损失为：

其中，

参见图1至图4，本发明实施例的语义生成图像方法，包括以下步骤：

S1：构造基于生成对抗网络的跨模态语义图像生成模型；

S2：通过预训练的深度神经网络Bert模型编码处理给定的文本描述，从文本描述中提取包括句子特征向量与词特征向量的文本编码特征，将预处理过的文本特征与服从高斯分布的噪声输入生成模型；

S2：将中间图像特征输入自适应语义图像特征融合模块，通过自适应语义特征融合模块将词特征向量融入到图像生成的过程中；

S3：将中间图像特征输入生成器，通过生成器得到由文本描述产生的图片，参见图5。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种跨模态语义生成图像模型，其特征在于：包括依次连接的文本编码器、生成网络模块和鉴别网络模块；

每个UpBlock块包括残差块ResBlock和上采样层UpSample；

残差块ResBlock包括主干结构和捷径Shortcut；

第一融合模块和第二融合模块的结构相同，均包括自适应语义图像特征融合模块As-if Module、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu，表示为As-ifmodule+Leakyrelu+Conv，用于加强自适应语义图像特征融合模块As-if Module对特征映射的效果；

γ＝MLPs(e^sent)，β＝MLPs(e^sent)，

γ′＝MLPs(e^word)，β′＝MLPs(e^word)，

As(h_i|e)＝γ_i·h_i+β_i；

2.根据权利要求1所述的一种跨模态语义生成图像模型，其特征在于：生成网络模块中：

全连接层用于进行变形操作；

伪图像生成模块Conv_img包括激活函数层Leaky Relu、卷积核为3×3的卷积层Conv和激活函数层Tanh。

3.根据权利要求1所述的一种跨模态语义生成图像模型，其特征在于：鉴别网络模块中：

4.根据权利要求1所述的一种跨模态语义生成图像模型，其特征在于：

Bert网络模型用于通过语义编码将编码后的词向量和句子向量从全局到局部逐步加入到生成网络模块中，使得在生成图像的不同阶段有相应的语义信息监督模型；

最终模型训练过程中生成网络模块的对抗损失函数为：

5.根据权利要求4所述的一种跨模态语义生成图像模型，其特征在于：

采用对比学习的思想定义具有对应关系的两对样本对：(图像，文本描述)、(生成图像，真实图像)，通过学习损失函数获得所述的样本对的更好的特征向量表示，运用两类对比损失函数InfoNCE loss最大化样本对之间的互信息，分别用于对生成网络模块和鉴别网络模块进行学习更新，使得网络模型收敛生成更加真实的高分辨率图像；