CN111325660B

CN111325660B - 一种基于文本数据的遥感图像风格转换方法

Info

Publication number: CN111325660B
Application number: CN202010104072.6A
Authority: CN
Inventors: 王力哲; 朱朕; 陈伟涛; 李显巨
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2021-01-29
Anticipated expiration: 2040-02-20
Also published as: CN111325660A

Abstract

本发明提供一种基于文本数据的遥感图像风格转换方法，包括：构建数据集，获取文本数据集和待转换图像数据集；生成低分辨率的图像，根据文本数据提取句子特征，然后结合噪声生成低分辨率的遥感图像和对应的图像特征；生成高分辨率的图像，根据文本数据提取单词特征，然后结合上一层低分辨率的特征生成下一层的高分辨率的遥感图像和图像特征；计算损失函数，检测生成的图像和文本的匹配程度，生成相应的损失函数；图像风格转换，以生成的高分辨率图像作为参考风格图像，依据循环一致性原理和对抗损失函数进行风格转换。本发明的有益效果是：从文本数据逐层生成高分辨率图像，极大地提高了文本到图像的生成精度，弥补了文本数据进行风格转换的空缺。

Description

一种基于文本数据的遥感图像风格转换方法

技术领域

本发明涉及图像生成领域，尤其涉及一种基于文本数据的遥感图像风格转换方法。

背景技术

图像生成是人工智能领域研究热点之一。当前，生成对抗网络(GAN)的应用延伸至视频、图像、文字、语音等众多领域，尤其在图像生成领域取得了良好效果。但是，利用文本数据对图像进行风格转换仍然存在研究空缺。

当前，图像生成主要包括图像到图像的生成和文本到图像的生成。在原始GAN中，因为输出仅依赖于随机噪声，无法控制要生成的内容，因此M.Mirza等人于2014年提出了CGAN算法。而对于文本到图像的生成，其生成的合理性、真实性成为算法的评判标准和研究中的难点。H.Zhang等人于2016年提出了StackGAN算法，算法使用两个不同的生成器进行文本到图像的合成，而不是只使用一个生成器。虽然StackGAN可以基于文本描述生成图像，但是它们无法捕获图像中对象的定位约束。图像的转换方面主要是通过已有的图像进行转换，比如Phillip Isola等人于2018年提出的基于pix2pix的数据生成技术，该技术采用生成对抗网络的思想实现数据的风格转换，但是该技术的核心原理是利用了相同场景图像的像素之间的映射关系，所以这也就要求训练数据必须是成对输入的，这对于遥感图像来说是根本无法实现的。

发明内容

有鉴于此，本发明将文本生成的图像作为参考风格图像进行风格转换，充分利用了生成图像的不足，克服了风格转换的局限性，并且弥补了文本数据进行风格转换的空缺，提供了一种基于文本数据的遥感图像风格转换方法。

本发明提供一种基于文本数据的遥感图像风格转换方法，包括以下步骤：

S101：根据用户需求，获取文本数据集和源域图像数据集；

S102：利用所述文本数据集中的文本数据提取句子特征，并结合文本数据噪声生成低分辨率遥感图像特征和低分辨率遥感图像；

S103：利用所述文本数据提取单词特征，结合所述低分辨率遥感图像对应的图像特征生成高分辨率遥感图像；

S104：检测所述高分辨率遥感图像和所述文本数据的匹配程度，并生成对应的损失函数；利用损失函数评估所述高分辨率遥感图像和所述文本数据的匹配程度，生成匹配程度最高的高分辨率图像；

S105：根据所述匹配程度最高的高分辨率图像，利用生成对抗原理生成具有所述匹配程度最高的高分辨率图像风格的目标域图像；

S106：利用生成对抗原理将所述目标域图像重构成源域图像，获得源域图像和目标域图像之间的映射关系；

S107：根据所述源域图像和目标域图像之间的映射关系，利用对抗损失函数和循环一致性损失函数使生成损失达到最小，获得源域图像和目标域图像之间的最优映射关系；

S108：利用所述最优映射关系生成具有文本数据风格的源域图像数据。

进一步地，步骤S102具体为：

S201：采用双向LSTM网络，从所述文本数据中提取全局整句的特征表示，得到句子特征；

S202：对所述句子特征进行降维转换，作为生成器的条件向量；

S203：将所述条件向量结合所述文本数据噪声进行上采样操作，生成低分辨率图像特征，在经过卷积层生成低分辨率遥感图像。

进一步地，步骤S103具体为：

S301：采用双向LSTM网络，从所述文本数据中提取单词特征表示，得到单词特征；

S302：所述单词特征通过注意力模型，并结合步骤S102的低分辨率图像特征作为生成器的条件向量；

S303：经过生成器生成中分辨率遥感图像特征，经过卷积层处理生成中分辨率遥感图像；

S304：所述单词特征通过注意力模型，结合所述中分辨率遥感图像特征，作为生成器的条件向量；

S305：经过生成器生成高分辨率遥感图像特征，经过卷积层处理生成高分辨率遥感图像。

进一步地，步骤S104具体为：

S401：将步骤S103生成的高分辨率遥感图像经过Inception-v3网络处理，提取高分辨率遥感图像的每个区域以及全局的特征表示，然后再通过线性操作压缩特征到文本相同的维度；

S402：对于高分辨率遥感图像的每个区域和所述文本数据的每个单词特征使用点乘的方式表示相似性；

S403：对每个单词特征匹配对应的高分辨率遥感图像每一个区域的概率进行归一化，使用注意力模型计算高分辨率遥感图像所有区域在单词引导下的特征表示c_i；

S404：采用监督的方式训练注意力模型，其中每个单词特征和整个高分辨率遥感图像每个区域之间的相似性用余弦距离表示；所述注意力模型的得分函数如式(1)所示：

式(1)中，γ_i表示注意力模型的依赖程度；Q表示高分辨率遥感图像数据；e_i为第i个单词D的特征表示；c_i为高分辨率遥感图像每个区域在对应单词引导下的特征表示；γ₁用来调节注意力模型的依赖程度，根据实际情况预设；T为文本的单词总数；

表示c_i的转置；

所述句子和所述高分辨率遥感图像数据对之间的后验概率如式(2)所示：

式(2)中，M为高分辨率遥感图像区域的个数，j代表高分辨率遥感图像区域的编号；γ₂用来调节注意力模型的依赖程度，根据实际情况预设；D_i指第i个单词对应的句子；D_j指第j个图像区域对应的句子；

S405：采用softmax loss作为损失函数，如式(3):

式(3)中，

分别代表单词与高分辨率遥感图像每个区域之间的局部损失函数和高分辨率遥感图像区域与单词之间的局部损失函数；

全局损失函数如式(4)：

式(4)中，

分别为句子与整个高分辨率遥感图像之间的全局损失函数和整个高分辨率遥感图像与句子之间的全局损失函数。

S406：利用局部损失函数和全局损失函数评估所述文本数据和所述高分辨率遥感图像数据对之间的匹配程度，生成匹配程度最高的高分辨率遥感图像；所述匹配程度最高，具体指：式(3)中，只有D_i匹配Q_i，其余的都不匹配。

进一步地，S501：对所述匹配程度最高的高分辨率遥感图像采用实例归一化，得到实例归一化后的遥感图像；

S502：利用3个卷积层从所述实例归一化后的遥感图像中提取特征，得到特征向量；

S503：将所述特征向量输入6个残差模块层中，通过所述源域图像和目标域数据的不相近特征，将数据在源域中的特征向量转换为目标域中的特征向量，从而得到所述匹配程度最高的高分辨率图像风格的目标域图像。

进一步地，步骤S106具体为：

S601：采用1个全卷积网络作为判别模型；所述全卷积网络由5个卷积层构成，前4层提取特征，最后1层产生1个一维的输出；除第1层和最后1层外，也均采用InstanceNormalization函数来实现归一化；

S602：训练所述判别模型；建立了一个历史生成图像缓冲池，把缓存的历史生成图像作为判别器的训练数据；

S603：利用所述判别模型，在生成和重构时，将步骤S502中的特征向量输入到2个反卷积网络层中，还原出低级的特征，得到重构的源域图像，从而得到源域图像和目标域图像之间的映射关系。

步骤S107具体为：

所述对抗损失函数如式(5)：

式(5)中，Γ_GAN(G,D_Y,X,Y)、Γ_GAN(F,D_X,Y,X)表示对抗损失函数；

X表示源域图像集合；Y表示目标域图像集合；x表示源域图像集合X中的一个样本，即Ι_{x～ρdata(x)}；y表示目标域图像集合Y中的一个样本，即Ι_{y～ρdata(y)}；G表示所述源域图像和目标域图像之间的映射函数G：X→Y；D_Y表示映射函数G的判定器，用于区分由映射函数G将源域图像集合X中的样本x映射转换后的G(x)和目标域图像集合Y中的样本y之间的区别；F表示目标域图像和源域图像之间的映射函数F：Y→X；D_X表示映射函数F的判定器，用于区分由映射函数F将目标域图像集合Y中的样本y映射转换后的F(y)和源域图像集合X中的样本x之间的区别；

所述对抗损失函数最小，满足以下条件，如式(6)：

式(6)中，min_Gmax_DYΓ_GAN(G,D_Y,X,Y)表示，映射函数G不断求解Γ_GAN(G,D_Y,X,Y)的最小值，而判别器D_Y通过不断的迭代求解Γ_GAN(G,D_Y,X,Y)的最大值；

所述循环一致性损失函数如式(7)所示：

Γ(G,F,D_X,D_Y)＝Γ_GAN(G,D_Y,X,Y)+Γ_GAN(F,D_X,Y,X)+λΓ_cyc(G,F) (7)

式(7)中，Γ(G,F,D_X,D_Y)表示循环一致性损失函数；λ表示对抗损失函数Γ_GAN(G,D_Y,X,Y)和Γ_GAN(F,D_X,Y,X)重要性的比值，为预设值，取值范围为0到1；Γ_cyc(G,F)表示目标域图像数据与源域图像数据之间的损失；当minΓ_cyc(G,F)，即目标域图像数据与源域图像数据之间的损失最小时，即得到源域图像和目标域图像之间的最优映射关系。

本发明提供的技术方案带来的有益效果是：从文本数据逐层生成高分辨率图像，极大地提高了文本到图像的生成精度，弥补了文本数据进行风格转换的空缺。

附图说明

图1是本发明一种基于文本数据的遥感图像风格转换方法的流程图；

图2是本发明一种基于文本数据的遥感图像风格转换方法的遥感图像风格转移实现流程；

图3是本发明一种基于文本数据的遥感图像风格转换方法的文本到遥感图像的生成；

图4是本发明一种基于文本数据的遥感图像风格转换方法的由源域到目标域的生成判别结构。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1和图2，本发明的实施例提供了一种基于文本数据的遥感图像风格转换方法的流程图，具体包括：

S101：根据用户需求，获取文本数据集和源域图像数据集；

进一步地，步骤S102具体为：

步骤S103具体为：

步骤S104具体为：

表示c_i的转置；

S405：采用softmax loss作为损失函数，如式(3):

式(3)中，

全局损失函数如式(4)：

式(4)中，

S501：对所述匹配程度最高的高分辨率遥感图像采用实例归一化，得到实例归一化后的遥感图像；

步骤S106具体为：

步骤S107具体为：

所述对抗损失函数如式(5)：

式(5)中，Γ_GAN(G,D_Y,X,Y)、Γ_GAN(F,D_X,Y,X)表示对抗损失函数；

所述对抗损失函数最小，满足以下条件，如式(6)：

式(6)中，

表示，映射函数G不断求解Γ_GAN(G,D_Y,X,Y)的最小值，而判别器D_Y通过不断的迭代求解Γ_GAN(G,D_Y,X,Y)的最大值；

所述循环一致性损失函数如式(7)所示：

Γ(G,F,D_X,D_Y)＝Γ_GAN(G,D_Y,X,Y)+Γ_GAN(F,D_X,Y,X)+λΓ_cyc(G,F) (7)

式(7)中，Γ(G,F,D_X,D_Y)表示循环一致性损失函数；λ表示对抗损失函数Γ_GAN(G,D_Y,X,Y)和Γ_GAN(F,D_X,Y,X)重要性的比值，为预设值；Γ_cyc(G,F)表示目标域图像数据与源域图像数据之间的损失；当minΓ_cyc(G,F)，即目标域图像数据与源域图像数据之间的损失最小时，即得到源域图像和目标域图像之间的最优映射关系。

本发明实施例中，请参考图3，图3本发明一种基于文本数据的遥感图像风格转换方法的文本到遥感图像的生成。

S21：首先将事先获取的文本数据集分成若干批次，通过双向LSTM网络，提取全局整句和单词的特征表示；

S22：将句子特征进行降维处理，并结合文本噪声，通过条件GAN，生成图像特征，再经过卷积层生成低分辨率遥感图像。

S23：将提取出的单词特征通过注意力模型，并结合步骤S22的图像特征作为条件GAN的条件向量；

S24：经过条件GAN生成图像特征，再经过卷积层生成中分辨率遥感图像；

S25：与S23类似，将单词特征通过注意力模型，并结合步骤S24的图像特征通过条件GAN，生成高分辨率遥感图像；

S26：将步骤S25生成的高分辨率图像经过Inception-v3网络处理，提取图像的每个区域以及全局的特征表示，然后再通过线性操作压缩特征到文本相同的维度。

S27：根据文本到图像的匹配程度，计算全局特征对应的全局损失函数，使损失函数达到最小值，生成效果最佳的高分辨率遥感图像。

请参考图4，图4是本发明一种基于文本数据的遥感图像风格转换方法的由源域到目标域的生成判别结构。

S51：将数据集A(源域数据集)中的数据输入第1个生成模型GA2B，经一系列卷积、转置卷积后，输出数据FakeB；

S52：将FakeB输入判别模型D_B中，由判别模型D_B来判断该数据的所属标签(如果和B(目标域数据集)中的数据相似，则标签为1，否则为0)；

S53：将FakeB输入第2个生成模型GB2A，生成cycA；

S54：将样本集B中的数据输入第2个生成模型GB2A，输出FakeA；

S55：将FakeA输入D_A，按照与D_B类相同的方法判断FakeA的标签；

S56：将FakeA输入第1个生成模型GA2B，生成cycB；

S57：根据上一步中，当FakeA与A、FakeB与B、cycA与A、cycB与B之间的差异达到最小，即两个生成模型生成的图像数据与真实样本无差别，同时两个判别模型也无法正确区分真实样本和生成样本时，也即各损失函数取得最小值时，整个训练流程结束，得到最优映射关系。

S58：保存上步获取的最优映射关系对应的网络模型及参数；

S59：根据需求，向模型中输入文本数据集和图像数据集，经过模型的处理，会输出具有文本数据风格的遥感图像数据。

最后给出本发明的一个具体实施例：

本发明中的文本数据为一句可清晰描述一张遥感图像的句子，将其48条数据分为一个批次，并将其通过句子的特征提取和生成器，最终生成64×64×3的低分辨率遥感图像。

以此低分辨率遥感图像的特征作为条件GAN的条件向量输入，以文本数据的单词特征作为噪声输入，最终生成128×128×3的中分辨率遥感图像。

以同样的方式，以此中分辨率遥感图像的特征作为条件GAN的条件向量输入，以文本数据的单词特征作为噪声输入，最终生成256×256×3的高分辨率遥感图像。

将此高分辨率遥感图像经过Inception-v3网络的mixed_6e层下采样操作后，形成一个768×17×17的三维特征矩阵，为了度量图像与文本的相似性，文本与图像的特征维度应保持一致，将其特征矩阵转换成768×289的特征矩阵，特征矩阵的每一列是一个子区域的特征向量，因此，一个图像被分成289个子区域。

将这些子区域分别与文本的单词特征向量进行相似性的计算，并迭代600次寻找损失函数最小的模型参数，据此得到效果最佳的高分辨率遥感图像。

此发明中需要预先准备的图像数据集是256×256×3的遥感图像，将其作为风格转换的源域数据，而将上述生成的256×256×3的高分辨率遥感图像作为风格转换的参考风格图像(即目标域)。

将源域数据(记为A)中的数据输入第1个生成模型GA2B，经过特征提取，将图像转换成128个64×64的特征向量，再经过残差网络和反卷积操作，最终生成类似于B的数据FakeB(256×256×3)；将FakeB输入判别模型D_B中，由判别模型D_B来判断该数据的所属标签(如果和B(目标域数据集)中的数据相似，则标签为1，否则为0)；将FakeB输入第2个生成模型GB2A，以第一个生成器同样的方式生成256×256×3的cycA数据；将样本集B中的数据输入第2个生成模型GB2A，输出256×256×3的FakeA数据；将FakeA输入D_A，按照与D_B类相同的方法判断FakeA的标签；将FakeA输入第1个生成模型GA2B，生成256×256×3的cycB数据；当FakeA与A、FakeB与B、cycA与A、cycB与B之间的差异达到最小，即两个生成模型生成的图像数据与真实样本无差别，同时两个判别模型也无法正确区分真实样本和生成样本时，也即各损失函数取得最小值时，获得效果最佳的风格转换图像，即具有文本数据风格的源域图像的风格转换图像。

本发明的有益效果是：从文本数据逐层生成高分辨率图像，极大地提高了文本到图像的生成精度，弥补了文本数据进行风格转换的空缺。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本数据的遥感图像风格转换方法，其特征在于：具体包括以下步骤：

S101：根据用户需求，获取文本数据集和源域图像数据集；

2.如权利要求1所述的一种基于文本数据的遥感图像风格转换方法，其特征在于：步骤S102具体为：

3.如权利要求2所述的一种基于文本数据的遥感图像风格转换方法，其特征在于：步骤S103具体为：

4.如权利要求3所述的一种基于文本数据的遥感图像风格转换方法，其特征在于：步骤S104具体为：

表示c_i的转置；

S405：采用softmax loss作为损失函数，如式(3):

式(3)中，Γ₁ ^w、

全局损失函数如式(4)：

式(4)中，

分别为句子与整个高分辨率遥感图像之间的全局损失函数和整个高分辨率遥感图像与句子之间的全局损失函数；

5.如权利要求4所述的一种基于文本数据的遥感图像风格转换方法，其特征在于：步骤S105具体为：

6.如权利要求5所述的一种基于文本数据的遥感图像风格转换方法，其特征在于：步骤S106具体为：

7.如权利要求6所述的一种基于文本数据的遥感图像风格转换方法，其特征在于：步骤S107具体为：

所述对抗损失函数如式(5)：

式(5)中，Γ_GAN(G,D_Y,X,Y)、Γ_GAN(F,D_X,Y,X)表示对抗损失函数；

X表示源域图像集合；Y表示目标域图像集合；x表示源域图像集合X中的一个样本，即

y表示目标域图像集合Y中的一个样本，即

G表示所述源域图像和目标域图像之间的映射函数G：X→Y；D_Y表示映射函数G的判定器，用于区分由映射函数G将源域图像集合X中的样本x映射转换后的G(x)和目标域图像集合Y中的样本y之间的区别；F表示目标域图像和源域图像之间的映射函数F：Y→X；D_X表示映射函数F的判定器，用于区分由映射函数F将目标域图像集合Y中的样本y映射转换后的F(y)和源域图像集合X中的样本x之间的区别；

所述对抗损失函数最小，满足以下条件，如式(6)：

式(6)中，

所述循环一致性损失函数如式(7)所示：

Γ(G,F,D_X,D_Y)＝Γ_GAN(G,D_Y,X,Y)+Γ_GAN(F,D_X,Y,X)+λΓ_cyc(G,F) (7)