CN109740471A

CN109740471A - 基于联合潜在语义嵌入的遥感图像描述方法

Info

Publication number: CN109740471A
Application number: CN201811584864.7A
Authority: CN
Inventors: 卢孝强; 王斌强
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-10
Anticipated expiration: 2038-12-24
Also published as: CN109740471B

Abstract

为解决现有的遥感图像描述方法无法充分利用数据库当中的标注、在一些复杂场景不能有效适用的问题，本发明提供了一种基于联合潜在语义嵌入的遥感图像描述方法。包括步骤：1)构建训练样本集和测试样本集：2)对训练样本集中的原始遥感图像和其对应的标注文本进行联合表达：3)学习潜在语义空间：4)生成遥感图像的描述。本发明将描述原始遥感图像的五句标注文本进行联合文本特征提取，综合不同标注文本中的信息，尽量完整的对应原始遥感图像中所包含的内容；通过添加约束表达，得到联合文本特征和遥感图像特征距离最近的样本对；最终利用联合文本特征中包含的五句标注来共同描述遥感图像，使得遥感图像描述地更为充分。

Description

基于联合潜在语义嵌入的遥感图像描述方法

技术领域

本发明属于信息处理技术领域，特别涉及一种遥感图像描述方法，可用于地震灾害评估以及海洋监测等领域。本发明针对的是空对地的遥感图像，这些遥感图像是采取自上而下的拍摄方式捕捉的地面的物体的图像。

背景技术

高分辨率遥感图像已应用于地震灾害的分级评估、海洋观测等领域。随着遥感以及相关技术的不断发展，更高分辨率遥感图像的获取越来越方便。每时每刻，都在产生大量的遥感图像，这些遥感图像从生成到传输都要耗费巨大的人力物力，如何能够更详尽地挖掘遥感图像中的信息，以更有效地发挥遥感图像的重要作用具有重要意义。

为了挖掘遥感图像中的信息，需要研究基于遥感图像的语义理解，对高分辨率遥感图像进行描述，将高分辨率的遥感图像信息转化成为人类能够理解的文本信息。遥感图像不同于普通的自然图像：首先，遥感图像是利用传感器(卫星，航空航天器等)从远处来感知物体的手段；其次，传感器位置不同，对相同的物质会呈现出不同的大小和相对位置，使得遥感图像的语义理解更加困难；最后，因为遥感图像对于普通人而言不熟悉，在标注的时候存在一个不完全标注的问题，更使得遥感图像的语义理解与自然图像的语义理解大有不同。

为了利用有监督的机器学习手段解决遥感图像语义理解的问题，业内研究人员标注了相应的机器学习数据库。文献“B.Qu,X.Li,D.Tao,and X.Lu,“Deep semanticunderstanding of high resolution remote sensing image,”in Proceedings of theInternational Conference on Computer,Information and TelecommunicationSystems,2016,pp.124–128”首次提出基于机器学习来研究遥感图像的语义理解方法，并提出了两个遥感语义理解方法的数据库，这两个数据库分别是UCM-captions和Sydney-captions。其中，UCM-captions包含2100张遥感图像，每张图像对应五句不同的文本标注，Sydney-captions包含613遥感图像，每张图像对应五句不同的文本标注。文献“X.Lu,B.Wang,X.Zheng,and X.Li,“Exploring models and data for remote sensing imagecaption generation,”IEEE Transactions on Geoscience and Remote Sensing,vol.56,no.4,pp.2183–2195,2017.”针对遥感图像不同于自然图像的类别模糊，尺度多变等特点，推出了数据库RSICD(Remote Sensing Image Caption Dataset)，其中包含10921张遥感图像，并邀请不同的志愿者对图像进行了标注，每个图像对应五句不同的文本标注。

由于从数据库中通过图像检索句子是非常困难的，为了有效利用上述遥感图像数据库中的信息，技术人员采用了以下两类方法，构建了从数据库中获取遥感图像对应的句子：

一是基于循环神经网络生成遥感图像描述的方法，这种方法通过循环神经网络逐词生成对应遥感图像的描述。B.Qu等人在文献“B.Qu,X.Li,D.Tao,and X.Lu,“Deepsemantic understanding ofhigh resolution remote sensing image,”InternationalConference onComputer,Information and Telecommunication Systems,pp.124–128,2016.”中提出一种句子生成的框架，该框架基于两种不同的循环神经网络来进行句子的生成。利用神经网络的强大表征能力，图像使用预训练的深度模型来提取图像特征，然后利用循环神经网络来逐个单词地生成最终的描述。对一张遥感图像而言，这种方法最终生成的是一个句子，该句子偏向于数据库中该遥感图像对应五句文本标注当中的某一个句子，无法充分利用数据库当中的标注。

二是基于目标检测的方法，这种方法是通过目标检测算法获取图像中存在的目标，然后将目标填充到预定义的句子模板(句子模板是缺乏部分单词的句子)中进行句子的生成。Z.Shi等人在文献“Z.Shi and Z.Zou,“Can a machine generate humanlikelanguage descriptionsfor a remote sensing image？”IEEE Transactions onGeoscienceand Remote Sensing,vol.55,no.6,pp.3623–3634,2017.”中提出一种方法，不同于传统卷积神经网络，这个方法使用全卷积网络来编码图像的特征，并将目标按照视野大小分为三个等级：单个目标级别，小场景级别和大场景级别。在获取到目标之后，再将这些获取到的目标填充到预定义的句子模板当中。虽然句子模板在预定义时考虑了人的用法习惯，但是这种生成方式生成的句子相对比较固化，在一些复杂场景并不能有效适用。

发明内容

为解决现有的遥感图像描述方法无法充分利用数据库当中的标注、在一些复杂场景不能有效适用的问题，本发明提供了一种基于联合潜在语义嵌入的遥感图像描述方法。

本发明的技术方案是：

基于联合潜在语义嵌入的遥感图像描述方法，其特殊之处在于，包括以下步骤：

1)构建训练样本集和测试样本集：

将数据库中的原始遥感图像及其对应的标注进行划分，将一部分原始遥感图像及其对应的标注划入训练样本集，其余划入测试样本集；

2)对训练样本集中的原始遥感图像和其对应的标注文本进行联合表达：

2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征；

2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句标注文本的联合文本特征；

2.3)将步骤2.1)提取的图像特征和步骤2.2)提取的联合文本特征进行融合，得到每张遥感图像及其对应标注文本的融合特征；

3)学习潜在语义空间：

利用添加约束的度量学习，学习所述融合特征的潜在语义空间，将所述融合特征映射到要学习的潜在语义空间内；

4)生成遥感图像的描述：

4.1)从测试样本集中任意选取一张原始遥感图像作为测试图像；

4.2)利用预训练好的深度神经网络提取所述测试图像的图像特征；

4.3)在步骤3)得到的潜在语义空间里，度量步骤4.2)提取的测试图像的图像特征与步骤2.2)提取的联合文本特征的距离，将距离最小的联合文本特征对应的五句标注文本作为所述测试图像的描述文本。

进一步地，步骤1)在划分时，将数据库中90％的原始遥感图像及其对应的标注划入训练样本集，10％的原始遥感图像及其对应的标注划入测试样本集。

进一步地，步骤2.1)中的所述深度神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet。

进一步地，步骤2.2)具体为：

2.2.1)找到训练样本集中所有标注文本中最长的标注文本，将它的长度作为标准长度；所述长度为句子中单词的个数；

2.2.2)将当前待进行特征提取的原始遥感图像所对应五句标注文本中，长度小于所述标准长度的标注文本的末尾用零填充，零的个数为当前标注文本与所述最长的标注文本相比所缺少的单词个数；

2.2.3)用预训练好的词向量分别提取五句标注文本中每个单词的特征，在提取特征过程中，当遇到步骤2.2.2)所填充的零时，将每一个步骤2.2.2)所填充的零用长度为词向量维度的零向量替代，得到五句标注文本的特征表达；

2.2.4)将步骤2.2.3)得到的五句标注文本的特征表达首尾相接，得到当前原始遥感图像对应的五句标注文本的联合文本特征x^ca：

x^ca＝(v₁₁,...,v_ij,...,v_5L)

其中：

v_ij代表提取的第i个标注文本的第j个单词的特征；

L是所述标准长度。

进一步地，步骤2.3)是采用降维方法，将训练样本集中每张原始遥感图像的图像特征和其对应的联合文本特征的维度调整为一致，并进行特征融合，得到融合特征。

进一步地，步骤3)具体为：

3.1)将训练样本集中每张原始遥感图像的图像特征和与其对应的联合文本特征作为集合M₁的元素将每张原始遥感图像的图像特征和与其不对应的联合文本特征作为集合M₂的元素其中：

为训练样本集中第n个原始遥感图像的图像特征；

为训练样本集中第m个原始遥感图像对应的标注文本的联合文本特征；

3.2)计算集合M₁和M₂中原始遥感图像的图像特征与联合文本特征之间的距离

其中：

P代表要学习的马氏矩阵；

Q代表一个转换矩阵，用于将融合特征投影到要学习的潜在语义空间内；

3.3)添加约束表达，使得集合M₁中原始遥感图像的图像特征与联合文本特征之间的距离小于集合M₂中原始遥感图像的图像特征与联合文本特征之间的距离；所述约束表达为：

其中，H的表达为：

3.4)利过梯度下降法来求解最终要优化的损失函数，所述损失函数表达式为：

3.5)将步骤3.2)中的距离代入步骤3.4)得到的损失函数表达式中，求解得到所述Q，从而将步骤2.3)得到的融合特征投影到要学习的潜在语义空间内。

与现有技术相比，本法具有如下有益效果：

1.本发明将描述原始遥感图像的五句标注文本进行联合文本特征提取，综合不同标注文本中的信息，尽量完整的对应原始遥感图像中所包含的内容；通过添加约束表达，得到联合文本特征和遥感图像特征距离最近的样本对；最终利用联合文本特征中包含的五句标注来共同描述遥感图像，使得遥感图像描述地更为充分。

2.采用本发明的方法，将需要检索的遥感图像划入测试样本集，即可实现该遥感图像的文本标注检索，也就是实现了该遥感图像的描述。

附图说明

图1为本发明的方法流程图。

具体实施方式

参照图1，本发明实现的步骤如下：

步骤1)构建训练样本集和测试样本集：

将数据库(UCM-captions、Sydney-captions或RSICD)中的原始遥感图像及其对应的标注进行划分；在划分时，最好将数据库中90％的原始遥感图像及其对应的标注划入训练样本集，10％的原始遥感图像及其对应的标注划入测试样本集，并且将想要检索的遥感图像划入测试样本集。

步骤2)对训练样本集中的原始遥感图像和其对应的标注文本进行联合表达：

步骤2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征；

步骤2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句标注文本的联合文本特征，具体方法为：

x^ca＝(v₁₁,...,v_ij,...,v_5L)

其中：

v_ij代表提取的第i个标注文本的第j个单词的特征；

L是所述标准长度；

为便于理解步骤2.2)，以下举例说明：

假设五句话分别是：An intersection with some cars on the road，Anintersection with some houses and plants at the corners，An intersection withsome houses and plants at the corners，This is a T-junction，Two roads verticalto each other constitute a T-junction。它们的长度分别是8，10，10，4，9。假设整个训练集最大的长度L就是10，那么第一个，第四个和第五个分别需要填充2，6，1个“0”。在使用预训练的词向量进行表达的时候，每个单词转化为300维的向量，我们将单词转化为对应的词向量，“0”对应的位置使用一个300维的零向量来填充。最终将句子的特征首尾相接，得到一个300*10*5＝15000维的联合文本特征。

步骤2.3)将步骤2.1)提取的图像特征和步骤2.2)提取的联合文本特征进行融合，得到每张遥感图像及其对应标注文本的融合特征；特征融合可以采用降维的方法，例如CCA(Canonical Correlation Analysis)

步骤3)学习潜在语义空间：

利用添加约束的度量学习，学习所述融合特征的潜在语义空间，即将融合特征映射到要学习的潜在语义空间内，具体方法为：

为训练样本集中第n个原始遥感图像的图像特征；

3.2)度量集合M₁和M₂中原始遥感图像的图像特征与联合文本特征之间的距离

其中：

P代表要学习的马氏矩阵；

其中，H的表达为：

4)生成遥感图像的描述：

4.3)在步骤3)得到的潜在语义空间里，度量步骤4.2)提取的测试图像的图像特征与步骤2.2)提取的联合文本特征的距离(度量方法与步骤3.2)相同)，将距离最小的联合文本特征对应的五句标注文本作为所述测试图像的描述文本并输出。

注：

1、上述步骤2.1)和步骤4.2)可以采用预训练好的深度神经网络VGG16、VGG19、AlexNet、GoogLeNet或ResNet等进行遥感图像特征提取，神经网络及提取方法具体参见文献“[K.Simonyan and A.Zisserman.(2014).“Very deep convolutional networks forlarge-scale image recognition.”[Online].Available:https://arxiv.org/abs/1409.1556],AlexNet[A.Krizhevsky,I.Sutskever,and G.E.Hinton,“ImageNetclassification with deep convolutional neural networks,”inProc.Int.Conf.Neural Inf.Process.Syst.,2012,pp.1097–1105.]，GoogLeNet[C.Szegedy et al.,“Going deeper with convolutions,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,Jun.2015,pp.1–9.],ResNet[K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”in Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2016,pp.770–778.]”。

2、上述步骤2.2.3)中采用的词向量为现有技术，例如文献“J.Pennington,R.Socher,and C.Manning,“Glove:Global vectors forword representation,”inProceedings of the Conference on EmpiricalMethods in Natural LanguageProcessing,2014,pp.1532–1543.”中所公开的词向量。

技术效果实验验证：

1.仿真条件

在中央处理器为Intel(R)Xeon(R)CPU E5-2650V4@2.20GHz、内存500G、Ubuntu14.04.5操作系统上，运用Python软件进行仿真。

实验中使用的遥感图像数据库为公开的数据集RSICD。

2.仿真内容

在RSICD数据集上，完成本发明的方法。RSICD数据集的划分标准为90％训练，10％测试。为了证明本发明的有效性，我们选取了四个对比方法进行比较，所选取的四个对比方法为：BOW+COS(Bag Of Words+Cosine)、G-ML(Glove+Metric Learning)、G-LSML(Glove+Least Square Metric Learning)和DeViSE(Deep Visual-Semantic Embedding)。其中，

1)BOW+COS是在文献“M.Hodosh,P.Young,and J.Hockenmaier,Framing imagedescription as a ranking task:Data,models and evaluation metrics,Journal ofArtificial Intelligence Research,vol.47,pp.853–899,2013.”中提出的。

2)G-ML在文献“J.Pennington,R.Socher,and C.Manning,Glove:Global vectorsfor word representation,in Proceedings of the Conference on Empirical Methodsin Natural Language Processing,2014,pp.1532–1543.”中有详细介绍。

3)G-LSML是在文献“E.Y.Liu,Z.Guo,X.Zhang,V.Jojic,and W.Wang,Metriclearning from relative comparisons by minimizing squared residual,inProceedings of the IEEE International Conference on Data Mining,Brussels,Belgium,2012,pp.978–983.”中提出的。

4)DeViSE在文献“A.Frome,G.S.Corrado,J.Shlens,S.Bengio,J.Dean,T.Mikolovet al.,Devise:A deep visual-semantic embeddingmodel,in Proceedingsof theAdvances in Neural Information Processing Systems,2013,pp.2121–2129.”中有详细介绍。

按照本发明的步骤进行试验，得到本方法的实验结果，再在同样的数据集上完成对比方法的实验。

使用的评价标准是针对图像描述算法公认的评价指标，包括BLEU-1、BLEU-2、BLEU-3、BLUE-4、METEOR、ROUGE_L、CIDEr和SPICE。BLEU代表的是生成句子中单词的数量和标准句子的单词重合度，其中后缀1、2、3、4分别代表连续多少个单词相似。METEORT通过学习生成句子和标准句子之间的映射来评价句子的生成质量。ROUGE_L通过计算准确率和召回率的加权调和平均来评价句子质量。CIDEr从词频和逆文本频率指数来衡量生成句子的好坏。SPICE从语义图结构的角度来评价生成句子的质量。指标得分越高，代表句子描述的效果越好，实验结果如下表所示：

	BOW+COS	gML	gLSML	DeViSE	本发明
						BLEU-1	29.65	29.52	29.52	30.68	57.59
BLEU-2	11.28	7.99	7.99	11.38	38.59
						BLEU-3	5.81	3.53	3.53	5.58	28.32
BLEU-4	3.39	1.57	1.57	3.07	22.17
						METEOR	9.61	11.35	11.35	9.73	21.28
ROUGE_L	25.09	25.97	25.97	25.63	44.55
						CIDEr	12.89	16.86	16.86	12.44	52.97
SPICE	6.47	7.00	7.00	5.64	19.85

。

Claims

1.基于联合潜在语义嵌入的遥感图像描述方法，其特征在于，包括以下步骤：

1)构建训练样本集和测试样本集：

3)学习潜在语义空间：

4)生成遥感图像的描述：

2.根据权利要求1所述的基于联合潜在语义嵌入的遥感图像描述方法，其特征在于：

步骤1)在划分时，将数据库中90％的原始遥感图像及其对应的标注划入训练样本集，10％的原始遥感图像及其对应的标注划入测试样本集。

3.根据权利要求1所述的基于联合潜在语义嵌入的遥感图像描述方法，其特征在于：步骤2.1)中的所述深度神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet。

4.根据权利要求1或2或3所述的基于联合潜在语义嵌入的遥感图像描述方法，其特征在于：步骤2.2)具体为：

x^ca＝(v₁₁,...,v_ij,...,v_5L)

其中：

v_ij代表提取的第i个标注文本的第j个单词的特征；

L是所述标准长度。

5.根据权利要求4所述的基于联合潜在语义嵌入的遥感图像描述方法，其特征在于：步骤2.3)是采用降维方法，将训练样本集中每张原始遥感图像的图像特征和其对应的联合文本特征的维度调整为一致，并进行特征融合，得到融合特征。

6.根据权利要求4所述的基于联合潜在语义嵌入的遥感图像描述方法，其特征在于，步骤3)具体为：

为训练样本集中第n个原始遥感图像的图像特征；

其中：

P代表要学习的马氏矩阵；

其中，H的表达为：