CN111325660B - 一种基于文本数据的遥感图像风格转换方法 - Google Patents
一种基于文本数据的遥感图像风格转换方法 Download PDFInfo
- Publication number
- CN111325660B CN111325660B CN202010104072.6A CN202010104072A CN111325660B CN 111325660 B CN111325660 B CN 111325660B CN 202010104072 A CN202010104072 A CN 202010104072A CN 111325660 B CN111325660 B CN 111325660B
- Authority
- CN
- China
- Prior art keywords
- image
- remote sensing
- sensing image
- text data
- resolution remote
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013507 mapping Methods 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 239000011541 reaction mixture Substances 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 101100174785 Bacillus subtilis (strain 168) ganS gene Proteins 0.000 description 4
- 101100382166 Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) cycA3 gene Proteins 0.000 description 4
- 101150052102 cycA gene Proteins 0.000 description 4
- 101150108006 cycB gene Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 208000036912 glutaric acidemia IIb Diseases 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 101150106538 pscC gene Proteins 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 241001647769 Mirza Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于文本数据的遥感图像风格转换方法,包括:构建数据集,获取文本数据集和待转换图像数据集;生成低分辨率的图像,根据文本数据提取句子特征,然后结合噪声生成低分辨率的遥感图像和对应的图像特征;生成高分辨率的图像,根据文本数据提取单词特征,然后结合上一层低分辨率的特征生成下一层的高分辨率的遥感图像和图像特征;计算损失函数,检测生成的图像和文本的匹配程度,生成相应的损失函数;图像风格转换,以生成的高分辨率图像作为参考风格图像,依据循环一致性原理和对抗损失函数进行风格转换。本发明的有益效果是:从文本数据逐层生成高分辨率图像,极大地提高了文本到图像的生成精度,弥补了文本数据进行风格转换的空缺。
Description
技术领域
本发明涉及图像生成领域,尤其涉及一种基于文本数据的遥感图像风格转换方法。
背景技术
图像生成是人工智能领域研究热点之一。当前,生成对抗网络(GAN)的应用延伸至视频、图像、文字、语音等众多领域,尤其在图像生成领域取得了良好效果。但是,利用文本数据对图像进行风格转换仍然存在研究空缺。
当前,图像生成主要包括图像到图像的生成和文本到图像的生成。在原始GAN中,因为输出仅依赖于随机噪声,无法控制要生成的内容,因此M.Mirza等人于2014年提出了CGAN算法。而对于文本到图像的生成,其生成的合理性、真实性成为算法的评判标准和研究中的难点。H.Zhang等人于2016年提出了StackGAN算法,算法使用两个不同的生成器进行文本到图像的合成,而不是只使用一个生成器。虽然StackGAN可以基于文本描述生成图像,但是它们无法捕获图像中对象的定位约束。图像的转换方面主要是通过已有的图像进行转换,比如Phillip Isola等人于2018年提出的基于pix2pix的数据生成技术,该技术采用生成对抗网络的思想实现数据的风格转换,但是该技术的核心原理是利用了相同场景图像的像素之间的映射关系,所以这也就要求训练数据必须是成对输入的,这对于遥感图像来说是根本无法实现的。
发明内容
有鉴于此,本发明将文本生成的图像作为参考风格图像进行风格转换,充分利用了生成图像的不足,克服了风格转换的局限性,并且弥补了文本数据进行风格转换的空缺,提供了一种基于文本数据的遥感图像风格转换方法。
本发明提供一种基于文本数据的遥感图像风格转换方法,包括以下步骤:
S101:根据用户需求,获取文本数据集和源域图像数据集;
S102:利用所述文本数据集中的文本数据提取句子特征,并结合文本数据噪声生成低分辨率遥感图像特征和低分辨率遥感图像;
S103:利用所述文本数据提取单词特征,结合所述低分辨率遥感图像对应的图像特征生成高分辨率遥感图像;
S104:检测所述高分辨率遥感图像和所述文本数据的匹配程度,并生成对应的损失函数;利用损失函数评估所述高分辨率遥感图像和所述文本数据的匹配程度,生成匹配程度最高的高分辨率图像;
S105:根据所述匹配程度最高的高分辨率图像,利用生成对抗原理生成具有所述匹配程度最高的高分辨率图像风格的目标域图像;
S106:利用生成对抗原理将所述目标域图像重构成源域图像,获得源域图像和目标域图像之间的映射关系;
S107:根据所述源域图像和目标域图像之间的映射关系,利用对抗损失函数和循环一致性损失函数使生成损失达到最小,获得源域图像和目标域图像之间的最优映射关系;
S108:利用所述最优映射关系生成具有文本数据风格的源域图像数据。
进一步地,步骤S102具体为:
S201:采用双向LSTM网络,从所述文本数据中提取全局整句的特征表示,得到句子特征;
S202:对所述句子特征进行降维转换,作为生成器的条件向量;
S203:将所述条件向量结合所述文本数据噪声进行上采样操作,生成低分辨率图像特征,在经过卷积层生成低分辨率遥感图像。
进一步地,步骤S103具体为:
S301:采用双向LSTM网络,从所述文本数据中提取单词特征表示,得到单词特征;
S302:所述单词特征通过注意力模型,并结合步骤S102的低分辨率图像特征作为生成器的条件向量;
S303:经过生成器生成中分辨率遥感图像特征,经过卷积层处理生成中分辨率遥感图像;
S304:所述单词特征通过注意力模型,结合所述中分辨率遥感图像特征,作为生成器的条件向量;
S305:经过生成器生成高分辨率遥感图像特征,经过卷积层处理生成高分辨率遥感图像。
进一步地,步骤S104具体为:
S401:将步骤S103生成的高分辨率遥感图像经过Inception-v3网络处理,提取高分辨率遥感图像的每个区域以及全局的特征表示,然后再通过线性操作压缩特征到文本相同的维度;
S402:对于高分辨率遥感图像的每个区域和所述文本数据的每个单词特征使用点乘的方式表示相似性;
S403:对每个单词特征匹配对应的高分辨率遥感图像每一个区域的概率进行归一化,使用注意力模型计算高分辨率遥感图像所有区域在单词引导下的特征表示ci;
S404:采用监督的方式训练注意力模型,其中每个单词特征和整个高分辨率遥感图像每个区域之间的相似性用余弦距离表示;所述注意力模型的得分函数如式(1)所示:
式(1)中,γi表示注意力模型的依赖程度;Q表示高分辨率遥感图像数据;ei为第i个单词D的特征表示;ci为高分辨率遥感图像每个区域在对应单词引导下的特征表示;γ1用来调节注意力模型的依赖程度,根据实际情况预设;T为文本的单词总数; 表示ci的转置;
所述句子和所述高分辨率遥感图像数据对之间的后验概率如式(2)所示:
式(2)中,M为高分辨率遥感图像区域的个数,j代表高分辨率遥感图像区域的编号;γ2用来调节注意力模型的依赖程度,根据实际情况预设;Di指第i个单词对应的句子;Dj指第j个图像区域对应的句子;
S405:采用softmax loss作为损失函数,如式(3):
全局损失函数如式(4):
S406:利用局部损失函数和全局损失函数评估所述文本数据和所述高分辨率遥感图像数据对之间的匹配程度,生成匹配程度最高的高分辨率遥感图像;所述匹配程度最高,具体指:式(3)中,只有Di匹配Qi,其余的都不匹配。
进一步地,S501:对所述匹配程度最高的高分辨率遥感图像采用实例归一化,得到实例归一化后的遥感图像;
S502:利用3个卷积层从所述实例归一化后的遥感图像中提取特征,得到特征向量;
S503:将所述特征向量输入6个残差模块层中,通过所述源域图像和目标域数据的不相近特征,将数据在源域中的特征向量转换为目标域中的特征向量,从而得到所述匹配程度最高的高分辨率图像风格的目标域图像。
进一步地,步骤S106具体为:
S601:采用1个全卷积网络作为判别模型;所述全卷积网络由5个卷积层构成,前4层提取特征,最后1层产生1个一维的输出;除第1层和最后1层外,也均采用InstanceNormalization函数来实现归一化;
S602:训练所述判别模型;建立了一个历史生成图像缓冲池,把缓存的历史生成图像作为判别器的训练数据;
S603:利用所述判别模型,在生成和重构时,将步骤S502中的特征向量输入到2个反卷积网络层中,还原出低级的特征,得到重构的源域图像,从而得到源域图像和目标域图像之间的映射关系。
步骤S107具体为:
所述对抗损失函数如式(5):
式(5)中,ΓGAN(G,DY,X,Y)、ΓGAN(F,DX,Y,X)表示对抗损失函数;
X表示源域图像集合;Y表示目标域图像集合;x表示源域图像集合X中的一个样本,即Ιx~ρdata(x);y表示目标域图像集合Y中的一个样本,即Ιy~ρdata(y);G表示所述源域图像和目标域图像之间的映射函数G:X→Y;DY表示映射函数G的判定器,用于区分由映射函数G将源域图像集合X中的样本x映射转换后的G(x)和目标域图像集合Y中的样本y之间的区别;F表示目标域图像和源域图像之间的映射函数F:Y→X;DX表示映射函数F的判定器,用于区分由映射函数F将目标域图像集合Y中的样本y映射转换后的F(y)和源域图像集合X中的样本x之间的区别;
所述对抗损失函数最小,满足以下条件,如式(6):
式(6)中,minGmaxDYΓGAN(G,DY,X,Y)表示,映射函数G不断求解ΓGAN(G,DY,X,Y)的最小值,而判别器DY通过不断的迭代求解ΓGAN(G,DY,X,Y)的最大值;
所述循环一致性损失函数如式(7)所示:
Γ(G,F,DX,DY)=ΓGAN(G,DY,X,Y)+ΓGAN(F,DX,Y,X)+λΓcyc(G,F) (7)
式(7)中,Γ(G,F,DX,DY)表示循环一致性损失函数;λ表示对抗损失函数ΓGAN(G,DY,X,Y)和ΓGAN(F,DX,Y,X)重要性的比值,为预设值,取值范围为0到1;Γcyc(G,F)表示目标域图像数据与源域图像数据之间的损失;当minΓcyc(G,F),即目标域图像数据与源域图像数据之间的损失最小时,即得到源域图像和目标域图像之间的最优映射关系。
本发明提供的技术方案带来的有益效果是:从文本数据逐层生成高分辨率图像,极大地提高了文本到图像的生成精度,弥补了文本数据进行风格转换的空缺。
附图说明
图1是本发明一种基于文本数据的遥感图像风格转换方法的流程图;
图2是本发明一种基于文本数据的遥感图像风格转换方法的遥感图像风格转移实现流程;
图3是本发明一种基于文本数据的遥感图像风格转换方法的文本到遥感图像的生成;
图4是本发明一种基于文本数据的遥感图像风格转换方法的由源域到目标域的生成判别结构。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1和图2,本发明的实施例提供了一种基于文本数据的遥感图像风格转换方法的流程图,具体包括:
S101:根据用户需求,获取文本数据集和源域图像数据集;
S102:利用所述文本数据集中的文本数据提取句子特征,并结合文本数据噪声生成低分辨率遥感图像特征和低分辨率遥感图像;
S103:利用所述文本数据提取单词特征,结合所述低分辨率遥感图像对应的图像特征生成高分辨率遥感图像;
S104:检测所述高分辨率遥感图像和所述文本数据的匹配程度,并生成对应的损失函数;利用损失函数评估所述高分辨率遥感图像和所述文本数据的匹配程度,生成匹配程度最高的高分辨率图像;
S105:根据所述匹配程度最高的高分辨率图像,利用生成对抗原理生成具有所述匹配程度最高的高分辨率图像风格的目标域图像;
S106:利用生成对抗原理将所述目标域图像重构成源域图像,获得源域图像和目标域图像之间的映射关系;
S107:根据所述源域图像和目标域图像之间的映射关系,利用对抗损失函数和循环一致性损失函数使生成损失达到最小,获得源域图像和目标域图像之间的最优映射关系;
S108:利用所述最优映射关系生成具有文本数据风格的源域图像数据。
进一步地,步骤S102具体为:
S201:采用双向LSTM网络,从所述文本数据中提取全局整句的特征表示,得到句子特征;
S202:对所述句子特征进行降维转换,作为生成器的条件向量;
S203:将所述条件向量结合所述文本数据噪声进行上采样操作,生成低分辨率图像特征,在经过卷积层生成低分辨率遥感图像。
步骤S103具体为:
S301:采用双向LSTM网络,从所述文本数据中提取单词特征表示,得到单词特征;
S302:所述单词特征通过注意力模型,并结合步骤S102的低分辨率图像特征作为生成器的条件向量;
S303:经过生成器生成中分辨率遥感图像特征,经过卷积层处理生成中分辨率遥感图像;
S304:所述单词特征通过注意力模型,结合所述中分辨率遥感图像特征,作为生成器的条件向量;
S305:经过生成器生成高分辨率遥感图像特征,经过卷积层处理生成高分辨率遥感图像。
步骤S104具体为:
S401:将步骤S103生成的高分辨率遥感图像经过Inception-v3网络处理,提取高分辨率遥感图像的每个区域以及全局的特征表示,然后再通过线性操作压缩特征到文本相同的维度;
S402:对于高分辨率遥感图像的每个区域和所述文本数据的每个单词特征使用点乘的方式表示相似性;
S403:对每个单词特征匹配对应的高分辨率遥感图像每一个区域的概率进行归一化,使用注意力模型计算高分辨率遥感图像所有区域在单词引导下的特征表示ci;
S404:采用监督的方式训练注意力模型,其中每个单词特征和整个高分辨率遥感图像每个区域之间的相似性用余弦距离表示;所述注意力模型的得分函数如式(1)所示:
式(1)中,γi表示注意力模型的依赖程度;Q表示高分辨率遥感图像数据;ei为第i个单词D的特征表示;ci为高分辨率遥感图像每个区域在对应单词引导下的特征表示;γ1用来调节注意力模型的依赖程度,根据实际情况预设;T为文本的单词总数; 表示ci的转置;
所述句子和所述高分辨率遥感图像数据对之间的后验概率如式(2)所示:
式(2)中,M为高分辨率遥感图像区域的个数,j代表高分辨率遥感图像区域的编号;γ2用来调节注意力模型的依赖程度,根据实际情况预设;Di指第i个单词对应的句子;Dj指第j个图像区域对应的句子;
S405:采用softmax loss作为损失函数,如式(3):
全局损失函数如式(4):
S406:利用局部损失函数和全局损失函数评估所述文本数据和所述高分辨率遥感图像数据对之间的匹配程度,生成匹配程度最高的高分辨率遥感图像;所述匹配程度最高,具体指:式(3)中,只有Di匹配Qi,其余的都不匹配。
S501:对所述匹配程度最高的高分辨率遥感图像采用实例归一化,得到实例归一化后的遥感图像;
S502:利用3个卷积层从所述实例归一化后的遥感图像中提取特征,得到特征向量;
S503:将所述特征向量输入6个残差模块层中,通过所述源域图像和目标域数据的不相近特征,将数据在源域中的特征向量转换为目标域中的特征向量,从而得到所述匹配程度最高的高分辨率图像风格的目标域图像。
步骤S106具体为:
S601:采用1个全卷积网络作为判别模型;所述全卷积网络由5个卷积层构成,前4层提取特征,最后1层产生1个一维的输出;除第1层和最后1层外,也均采用InstanceNormalization函数来实现归一化;
S602:训练所述判别模型;建立了一个历史生成图像缓冲池,把缓存的历史生成图像作为判别器的训练数据;
S603:利用所述判别模型,在生成和重构时,将步骤S502中的特征向量输入到2个反卷积网络层中,还原出低级的特征,得到重构的源域图像,从而得到源域图像和目标域图像之间的映射关系。
步骤S107具体为:
所述对抗损失函数如式(5):
式(5)中,ΓGAN(G,DY,X,Y)、ΓGAN(F,DX,Y,X)表示对抗损失函数;
X表示源域图像集合;Y表示目标域图像集合;x表示源域图像集合X中的一个样本,即Ιx~ρdata(x);y表示目标域图像集合Y中的一个样本,即Ιy~ρdata(y);G表示所述源域图像和目标域图像之间的映射函数G:X→Y;DY表示映射函数G的判定器,用于区分由映射函数G将源域图像集合X中的样本x映射转换后的G(x)和目标域图像集合Y中的样本y之间的区别;F表示目标域图像和源域图像之间的映射函数F:Y→X;DX表示映射函数F的判定器,用于区分由映射函数F将目标域图像集合Y中的样本y映射转换后的F(y)和源域图像集合X中的样本x之间的区别;
所述对抗损失函数最小,满足以下条件,如式(6):
所述循环一致性损失函数如式(7)所示:
Γ(G,F,DX,DY)=ΓGAN(G,DY,X,Y)+ΓGAN(F,DX,Y,X)+λΓcyc(G,F) (7)
式(7)中,Γ(G,F,DX,DY)表示循环一致性损失函数;λ表示对抗损失函数ΓGAN(G,DY,X,Y)和ΓGAN(F,DX,Y,X)重要性的比值,为预设值;Γcyc(G,F)表示目标域图像数据与源域图像数据之间的损失;当minΓcyc(G,F),即目标域图像数据与源域图像数据之间的损失最小时,即得到源域图像和目标域图像之间的最优映射关系。
本发明实施例中,请参考图3,图3本发明一种基于文本数据的遥感图像风格转换方法的文本到遥感图像的生成。
S21:首先将事先获取的文本数据集分成若干批次,通过双向LSTM网络,提取全局整句和单词的特征表示;
S22:将句子特征进行降维处理,并结合文本噪声,通过条件GAN,生成图像特征,再经过卷积层生成低分辨率遥感图像。
S23:将提取出的单词特征通过注意力模型,并结合步骤S22的图像特征作为条件GAN的条件向量;
S24:经过条件GAN生成图像特征,再经过卷积层生成中分辨率遥感图像;
S25:与S23类似,将单词特征通过注意力模型,并结合步骤S24的图像特征通过条件GAN,生成高分辨率遥感图像;
S26:将步骤S25生成的高分辨率图像经过Inception-v3网络处理,提取图像的每个区域以及全局的特征表示,然后再通过线性操作压缩特征到文本相同的维度。
S27:根据文本到图像的匹配程度,计算全局特征对应的全局损失函数,使损失函数达到最小值,生成效果最佳的高分辨率遥感图像。
请参考图4,图4是本发明一种基于文本数据的遥感图像风格转换方法的由源域到目标域的生成判别结构。
S51:将数据集A(源域数据集)中的数据输入第1个生成模型GA2B,经一系列卷积、转置卷积后,输出数据FakeB;
S52:将FakeB输入判别模型D_B中,由判别模型D_B来判断该数据的所属标签(如果和B(目标域数据集)中的数据相似,则标签为1,否则为0);
S53:将FakeB输入第2个生成模型GB2A,生成cycA;
S54:将样本集B中的数据输入第2个生成模型GB2A,输出FakeA;
S55:将FakeA输入D_A,按照与D_B类相同的方法判断FakeA的标签;
S56:将FakeA输入第1个生成模型GA2B,生成cycB;
S57:根据上一步中,当FakeA与A、FakeB与B、cycA与A、cycB与B之间的差异达到最小,即两个生成模型生成的图像数据与真实样本无差别,同时两个判别模型也无法正确区分真实样本和生成样本时,也即各损失函数取得最小值时,整个训练流程结束,得到最优映射关系。
S58:保存上步获取的最优映射关系对应的网络模型及参数;
S59:根据需求,向模型中输入文本数据集和图像数据集,经过模型的处理,会输出具有文本数据风格的遥感图像数据。
最后给出本发明的一个具体实施例:
本发明中的文本数据为一句可清晰描述一张遥感图像的句子,将其48条数据分为一个批次,并将其通过句子的特征提取和生成器,最终生成64×64×3的低分辨率遥感图像。
以此低分辨率遥感图像的特征作为条件GAN的条件向量输入,以文本数据的单词特征作为噪声输入,最终生成128×128×3的中分辨率遥感图像。
以同样的方式,以此中分辨率遥感图像的特征作为条件GAN的条件向量输入,以文本数据的单词特征作为噪声输入,最终生成256×256×3的高分辨率遥感图像。
将此高分辨率遥感图像经过Inception-v3网络的mixed_6e层下采样操作后,形成一个768×17×17的三维特征矩阵,为了度量图像与文本的相似性,文本与图像的特征维度应保持一致,将其特征矩阵转换成768×289的特征矩阵,特征矩阵的每一列是一个子区域的特征向量,因此,一个图像被分成289个子区域。
将这些子区域分别与文本的单词特征向量进行相似性的计算,并迭代600次寻找损失函数最小的模型参数,据此得到效果最佳的高分辨率遥感图像。
此发明中需要预先准备的图像数据集是256×256×3的遥感图像,将其作为风格转换的源域数据,而将上述生成的256×256×3的高分辨率遥感图像作为风格转换的参考风格图像(即目标域)。
将源域数据(记为A)中的数据输入第1个生成模型GA2B,经过特征提取,将图像转换成128个64×64的特征向量,再经过残差网络和反卷积操作,最终生成类似于B的数据FakeB(256×256×3);将FakeB输入判别模型D_B中,由判别模型D_B来判断该数据的所属标签(如果和B(目标域数据集)中的数据相似,则标签为1,否则为0);将FakeB输入第2个生成模型GB2A,以第一个生成器同样的方式生成256×256×3的cycA数据;将样本集B中的数据输入第2个生成模型GB2A,输出256×256×3的FakeA数据;将FakeA输入D_A,按照与D_B类相同的方法判断FakeA的标签;将FakeA输入第1个生成模型GA2B,生成256×256×3的cycB数据;当FakeA与A、FakeB与B、cycA与A、cycB与B之间的差异达到最小,即两个生成模型生成的图像数据与真实样本无差别,同时两个判别模型也无法正确区分真实样本和生成样本时,也即各损失函数取得最小值时,获得效果最佳的风格转换图像,即具有文本数据风格的源域图像的风格转换图像。
本发明的有益效果是:从文本数据逐层生成高分辨率图像,极大地提高了文本到图像的生成精度,弥补了文本数据进行风格转换的空缺。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于文本数据的遥感图像风格转换方法,其特征在于:具体包括以下步骤:
S101:根据用户需求,获取文本数据集和源域图像数据集;
S102:利用所述文本数据集中的文本数据提取句子特征,并结合文本数据噪声生成低分辨率遥感图像特征和低分辨率遥感图像;
S103:利用所述文本数据提取单词特征,结合所述低分辨率遥感图像对应的图像特征生成高分辨率遥感图像;
S104:检测所述高分辨率遥感图像和所述文本数据的匹配程度,并生成对应的损失函数;利用损失函数评估所述高分辨率遥感图像和所述文本数据的匹配程度,生成匹配程度最高的高分辨率图像;
S105:根据所述匹配程度最高的高分辨率图像,利用生成对抗原理生成具有所述匹配程度最高的高分辨率图像风格的目标域图像;
S106:利用生成对抗原理将所述目标域图像重构成源域图像,获得源域图像和目标域图像之间的映射关系;
S107:根据所述源域图像和目标域图像之间的映射关系,利用对抗损失函数和循环一致性损失函数使生成损失达到最小,获得源域图像和目标域图像之间的最优映射关系;
S108:利用所述最优映射关系生成具有文本数据风格的源域图像数据。
2.如权利要求1所述的一种基于文本数据的遥感图像风格转换方法,其特征在于:步骤S102具体为:
S201:采用双向LSTM网络,从所述文本数据中提取全局整句的特征表示,得到句子特征;
S202:对所述句子特征进行降维转换,作为生成器的条件向量;
S203:将所述条件向量结合所述文本数据噪声进行上采样操作,生成低分辨率图像特征,在经过卷积层生成低分辨率遥感图像。
3.如权利要求2所述的一种基于文本数据的遥感图像风格转换方法,其特征在于:步骤S103具体为:
S301:采用双向LSTM网络,从所述文本数据中提取单词特征表示,得到单词特征;
S302:所述单词特征通过注意力模型,并结合步骤S102的低分辨率图像特征作为生成器的条件向量;
S303:经过生成器生成中分辨率遥感图像特征,经过卷积层处理生成中分辨率遥感图像;
S304:所述单词特征通过注意力模型,结合所述中分辨率遥感图像特征,作为生成器的条件向量;
S305:经过生成器生成高分辨率遥感图像特征,经过卷积层处理生成高分辨率遥感图像。
4.如权利要求3所述的一种基于文本数据的遥感图像风格转换方法,其特征在于:步骤S104具体为:
S401:将步骤S103生成的高分辨率遥感图像经过Inception-v3网络处理,提取高分辨率遥感图像的每个区域以及全局的特征表示,然后再通过线性操作压缩特征到文本相同的维度;
S402:对于高分辨率遥感图像的每个区域和所述文本数据的每个单词特征使用点乘的方式表示相似性;
S403:对每个单词特征匹配对应的高分辨率遥感图像每一个区域的概率进行归一化,使用注意力模型计算高分辨率遥感图像所有区域在单词引导下的特征表示ci;
S404:采用监督的方式训练注意力模型,其中每个单词特征和整个高分辨率遥感图像每个区域之间的相似性用余弦距离表示;所述注意力模型的得分函数如式(1)所示:
式(1)中,γi表示注意力模型的依赖程度;Q表示高分辨率遥感图像数据;ei为第i个单词D的特征表示;ci为高分辨率遥感图像每个区域在对应单词引导下的特征表示;γ1用来调节注意力模型的依赖程度,根据实际情况预设;T为文本的单词总数; 表示ci的转置;
所述句子和所述高分辨率遥感图像数据对之间的后验概率如式(2)所示:
式(2)中,M为高分辨率遥感图像区域的个数,j代表高分辨率遥感图像区域的编号;γ2用来调节注意力模型的依赖程度,根据实际情况预设;Di指第i个单词对应的句子;Dj指第j个图像区域对应的句子;
S405:采用softmax loss作为损失函数,如式(3):
全局损失函数如式(4):
S406:利用局部损失函数和全局损失函数评估所述文本数据和所述高分辨率遥感图像数据对之间的匹配程度,生成匹配程度最高的高分辨率遥感图像;所述匹配程度最高,具体指:式(3)中,只有Di匹配Qi,其余的都不匹配。
5.如权利要求4所述的一种基于文本数据的遥感图像风格转换方法,其特征在于:步骤S105具体为:
S501:对所述匹配程度最高的高分辨率遥感图像采用实例归一化,得到实例归一化后的遥感图像;
S502:利用3个卷积层从所述实例归一化后的遥感图像中提取特征,得到特征向量;
S503:将所述特征向量输入6个残差模块层中,通过所述源域图像和目标域数据的不相近特征,将数据在源域中的特征向量转换为目标域中的特征向量,从而得到所述匹配程度最高的高分辨率图像风格的目标域图像。
6.如权利要求5所述的一种基于文本数据的遥感图像风格转换方法,其特征在于:步骤S106具体为:
S601:采用1个全卷积网络作为判别模型;所述全卷积网络由5个卷积层构成,前4层提取特征,最后1层产生1个一维的输出;除第1层和最后1层外,也均采用InstanceNormalization函数来实现归一化;
S602:训练所述判别模型;建立了一个历史生成图像缓冲池,把缓存的历史生成图像作为判别器的训练数据;
S603:利用所述判别模型,在生成和重构时,将步骤S502中的特征向量输入到2个反卷积网络层中,还原出低级的特征,得到重构的源域图像,从而得到源域图像和目标域图像之间的映射关系。
7.如权利要求6所述的一种基于文本数据的遥感图像风格转换方法,其特征在于:步骤S107具体为:
所述对抗损失函数如式(5):
式(5)中,ΓGAN(G,DY,X,Y)、ΓGAN(F,DX,Y,X)表示对抗损失函数;
X表示源域图像集合;Y表示目标域图像集合;x表示源域图像集合X中的一个样本,即y表示目标域图像集合Y中的一个样本,即G表示所述源域图像和目标域图像之间的映射函数G:X→Y;DY表示映射函数G的判定器,用于区分由映射函数G将源域图像集合X中的样本x映射转换后的G(x)和目标域图像集合Y中的样本y之间的区别;F表示目标域图像和源域图像之间的映射函数F:Y→X;DX表示映射函数F的判定器,用于区分由映射函数F将目标域图像集合Y中的样本y映射转换后的F(y)和源域图像集合X中的样本x之间的区别;
所述对抗损失函数最小,满足以下条件,如式(6):
所述循环一致性损失函数如式(7)所示:
Γ(G,F,DX,DY)=ΓGAN(G,DY,X,Y)+ΓGAN(F,DX,Y,X)+λΓcyc(G,F) (7)
式(7)中,Γ(G,F,DX,DY)表示循环一致性损失函数;λ表示对抗损失函数ΓGAN(G,DY,X,Y)和ΓGAN(F,DX,Y,X)重要性的比值,为预设值,取值范围为0到1;Γcyc(G,F)表示目标域图像数据与源域图像数据之间的损失;当minΓcyc(G,F),即目标域图像数据与源域图像数据之间的损失最小时,即得到源域图像和目标域图像之间的最优映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104072.6A CN111325660B (zh) | 2020-02-20 | 2020-02-20 | 一种基于文本数据的遥感图像风格转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104072.6A CN111325660B (zh) | 2020-02-20 | 2020-02-20 | 一种基于文本数据的遥感图像风格转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325660A CN111325660A (zh) | 2020-06-23 |
CN111325660B true CN111325660B (zh) | 2021-01-29 |
Family
ID=71172855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010104072.6A Active CN111325660B (zh) | 2020-02-20 | 2020-02-20 | 一种基于文本数据的遥感图像风格转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325660B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931496B (zh) * | 2020-07-08 | 2022-11-15 | 广东工业大学 | 一种基于递归神经网络模型的文本风格转换系统及方法 |
CN112487999A (zh) * | 2020-12-02 | 2021-03-12 | 西安邮电大学 | 一种基于CycleGAN的遥感图像鲁棒特征提取方法 |
CN113158630B (zh) * | 2021-03-15 | 2024-02-06 | 苏州科技大学 | 一种文本编辑图像方法、存储介质、电子设备及系统 |
CN113792526B (zh) * | 2021-09-09 | 2024-02-09 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644212B (zh) * | 2017-10-19 | 2019-12-17 | 中国地质大学(武汉) | 一种高光谱遥感图像分类方法、设备及存储设备 |
CN108537742B (zh) * | 2018-03-09 | 2021-07-09 | 天津大学 | 一种基于生成对抗网络的遥感图像全色锐化方法 |
US10810767B2 (en) * | 2018-06-12 | 2020-10-20 | Siemens Healthcare Gmbh | Machine-learned network for Fourier transform in reconstruction for medical imaging |
CN109410239B (zh) * | 2018-11-07 | 2021-11-16 | 南京大学 | 一种基于条件生成对抗网络的文本图像超分辨率重建方法 |
CN110516202B (zh) * | 2019-08-20 | 2023-05-30 | Oppo广东移动通信有限公司 | 文档生成器的获取方法、文档生成方法、装置及电子设备 |
-
2020
- 2020-02-20 CN CN202010104072.6A patent/CN111325660B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111325660A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325660B (zh) | 一种基于文本数据的遥感图像风格转换方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
Anderson et al. | Bottom-up and top-down attention for image captioning and visual question answering | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN109191382B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111783705B (zh) | 一种基于注意力机制的文字识别方法及系统 | |
CN110084734B (zh) | 一种基于物体局部生成对抗网络的大数据权属保护方法 | |
CN109146064A (zh) | 神经网络训练方法、装置、计算机设备和存储介质 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN112084841B (zh) | 跨模态的图像多风格字幕生成方法及系统 | |
CN112052906B (zh) | 一种基于指针网络的图像描述优化方法 | |
CN113362416B (zh) | 基于目标检测的文本生成图像的方法 | |
CN113221879A (zh) | 文本识别及模型训练方法、装置、设备及存储介质 | |
CN109993702B (zh) | 基于生成对抗网络的满文图像超分辨率重建方法 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
US11978141B2 (en) | Generating images using sequences of generative neural networks | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN113869007B (zh) | 一种基于深度学习的文本生成图像学习方法 | |
CN110851627A (zh) | 一种用于描述全日面图像中太阳黑子群的方法 | |
CN114022582A (zh) | 一种文本生成图像方法 | |
CN111339734A (zh) | 一种基于文本生成图像的方法 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |