CN115272880A

CN115272880A - 基于度量学习的多模态遥感目标识别方法

Info

Publication number: CN115272880A
Application number: CN202210905640.1A
Authority: CN
Inventors: 赵文达; 杨瑞凯; 吕香竹; 王海鹏; 赵凡; 刘兴惠; 黄友澎; 马晓瑞; 孔雨秋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01
Anticipated expiration: 2042-07-29
Also published as: CN115272880B

Abstract

本发明属于计算机视觉图像信息处理技术领域，一种基于度量学习的多模态遥感目标识别方法。本发明的方法重新考虑了图像风格与深度模型泛化性之间的关系，并进一步提出了一种独特的端到端的三重风格内容度量网络，该网络可以减少域泛化问题的不利影响，提高深度模型的泛化能力。具体来说，分离输入图像的风格和内容，然后对用风格转换模块替换的风格特征施加约束，以迫使我们的模型学习与内容有关与风格无关的有判别力的特征。本发明利用三重度量学习的方法，增强了遥感目标别模型提取特征的能力。目前存在的遥感目标识别方法仅对一种域的数据集有良好的效果，对未知域的表现很差。本发明的方法解决了这一问题，使模型对不同域数据集均具有泛化性。

Description

基于度量学习的多模态遥感目标识别方法

技术领域

本发明属于计算机视觉图像信息处理技术领域，特别是涉及基于度量学习的多模态遥感目标识别方法。

背景技术

与本发明相关的方法包括三方面：一是遥感图像目标识别，二是域泛化问题，三是度量学习方法。

目标识别，也叫目标分类，受益于神经网络的发展，深度学习在一般的目标识别相关研究领域取得了最先进的成果。早期工作通常从现有的卷积神经网络中提取特征，比如VGG网络，GoogleNet和ResNet。对于遥感图像目标识别，最近提出了一些方法，通过融合不同层的特征，提高了卷积神经网络学习有判别力的特征的能力。Liu等人在文献《“Sceneclassification based on two-stage deep feature fusion》中融合了CaffeNet和VGG-Net中的卷积层和全连接层的特征，然后整合了两个cnn，从而进一步提高了分类性能。Ma等人在文献《A novel adaptive hybrid fusion network for multiresolution remotesensing images classification》将数据与自适应加权强度-色调饱和融合，并将特征与注意力融合，从而提供具有竞争力的结果。

域泛化问题旨在学习一种有判别力的通用表示，从而使模型对未知领域表现良好。2011年，Blanchard等人在文献《Generalizing from several relatedclassification tasks to a new unlabeled sample》中首次将域泛化问题引入深度学习中。Ghifary等人在文献《Domain generalization for object recognition with multi-task autoencoders》中以域对齐为理论基础，表明训练后的模型可以最小化源域之间的特征方差。Balaji等人在文献《Metareg:Towards domain generalization using meta-regularization》中寻找一个正则化器，使特征对域转移保持不变，使用一个新的正则化函数来元学习正则化参数。

度量学习将样本分为同属性类别的正样本对和不同属性类别的负样本对，并通过增大正样本对距离，减小负样本对距离来学习特征表示。Hadsell等人在文献《Dimensionality reduction by learning an invariant mapping》中对表示施加对比损失来训练网络，以更好地区分相似样本对和不同的样本对。Hoffer等人在文献《Deepmetric learning using triplet network》中对输入图像的正负样本之间的距离进行编码，并嵌入度量损失。Cheng等人在文献《When deep learning meets metric learning:Remote sensing image scene classification via learning discriminative cnns》中提出了判别目标函数和度量学习正则化来有效地学习判别卷积网络。

近来，遥感数据集的种类越来越多，地理位置、成像条件、传感器、时间周期的不同导致不同种类遥感数据集之间的风格差异很大。因此，针对某一个数据集训练的网络在其他不同风格的数据集上表现很差，导致模型缺乏泛化性。此外，用有限的数据集训练模型也容易使模型出现过拟合问题，因此模型在其他未知领域的数据集上效果并不好。因此本专利提出了一种基于度量学习的多模态遥感目标识别方法。在该方法中，我们重新考虑了图像风格与深度模型泛化性之间的关系，并进一步提出了一种独特的端到端的三重风格内容度量网络，该网络可以减少域泛化问题的不利影响，提高深度模型的泛化能力。具体来说，我们分离输入图像的风格和内容，然后对用风格转换模块替换的风格特征施加约束，以迫使我们的模型学习与内容有关与风格无关的有判别力的特征。

发明内容

针对提升遥感网络识别准确度的问题，提出了一种基于度量学习的多模态遥感目标识别方法。我们利用风格转换模块生成用于度量学习的正负样本对，并分别在类间与类内进行度量学习，从而使模型达到泛化性。

本发明的技术方案：

一种基于度量学习的多模态遥感目标识别方法，步骤如下：

多模态遥感目标识别方法基于模型来实现，模型的主体分为风格转换模块和风格内容度量学习模块两部分；模型整体是一个分类网络，分为特征提取器和目标识别分类器，在特征提取器中间是风格转换模块和风格内容度量学习模块，用于优化分类结果；

(1)风格转换模块

用图片风格迁移算法AdaIN作为风格转换模块来分离组合输入图像、正样本和负样本的风格和内容；从相同类别中采样输入图像x和正样本x⁺，从不同类别中采样负样本x^-，将其输入到特征提取器中分别得到它们对应的特征h、h⁺、

其中N是批量大小，C是通道数，H是图像高度，W是图像宽度；然后将特征的高和宽展平，得到其均值和方差：

其中，∈是一个避免σ为0的数；

得到三幅图像的均值和方差后，用AdaIN重组图像的风格和内容：

其中，μ(h)，σ(h)分别是特征h的均值和方差，

分别是特征

的均值和方差，h和

表示两个不同的特征，用“^”加以区分；通过公式(3)获取h的内容信息以及

的风格信息；通过组合不同风格和内容，得到

其中上角标是内容，下角标是风格；

通过技术方案的第一部分分解风格和内容，我们可以使网络更偏向于学习内容，这样更容易使网络推广到未知数据集，具有更好的泛化性。

(2)风格内容度量学习模块

首先，类间分离度量；用类间分离度量来学习更多偏向内容的特征，具体来说，用x的风格特征分别与x⁺,x^-的内容特征结合，也就是

和

将二者输入到目标识别分类器中，分散度量损失如下：

其中，N是批量，y是h通过目标识别分类器的输出结果，上标和下标分别是内容和风格，ε是一个防止分母为0的数；通过该损失可分离内容不同风格相同的图像，使模型不容易将风格相同，内容不同的图像识别为同一图像，而更偏向于将内容相同的图像识别为同一图像；

其次，类内聚合度量；类内聚合度量的两个损失如下：

通过公式(5)使模型识别更多内容相同但风格不同的图像，从而使模型泛化性更强；公式(6)进一步提高了使用来自同一类别但不同个体的特征的识别泛化能力，从而减轻了类别内风格差异的不利影响。

本发明的有益效果：本发明的基于度量学习的多模态遥感目标识别方法，利用三重度量学习的方法，增强了遥感目标别模型提取特征的能力。目前存在的遥感目标识别方法仅对一种域的数据集有良好的效果，对未知域的表现很差。本发明的三重度量学习方法有效解决了这一问题，使模型对不同域数据集均具有泛化性。

附图说明

图1为网络整体训练流程图。

图2为网络整体结构图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

所用到的数据集：四个遥感数据集NWPU VHR-10，DOTA，HRRSD，DIOR进行了实验。DOTA包含26278个用于训练的实例和23621个用于测试的实例。这些实例均来自GoogleEarth，GF-2和JL-1卫星。DIOR包含19730个用于训练的实例和113899个用于测试的实例，它们来自Google Earth。NWPU VHR-10包含大约3896个实例用于测试，它们来自Google Earth和Vaihingen数据。HRRSD包含10647个目标用于测试，它们来自Google Earth和百度地图。DOTA和DIOR的训练数据集用于训练网络，其余测试集用于评估模型的泛化性。用四个数据集中的十个公共类别进行实验，即飞艇、船、储蓄槽、棒球场、网球场、篮球场、田径场、港口、桥和汽车。

本发明要达到的目标：训练遥感图像目标识别模型，输入原图像、正样本、负样本，通过度量学习的训练方式训练出可以识别遥感目标类别的模型。

网络整体整体结构图如图1所示，网络训练流程图如图2所示。有输入图像x，正样本x⁺和负样本x^-三幅图像。首先将输入图像x输入到特征提取网络以及分类网络中得到输出结果

与真值y的损失作为主体损失函数。其次分别将输入图像x、正样本x⁺和负样本x^-输入到特征提取网络中分别得到它们的特征，再经过AdaIN模块将风格内容重新组合，得到

通过度量学习增大

与

的距离作为类间分离度量，来区分风格相同内容不同的类别。通过度量学习减小

与

的距离来拉近同一类别但不同风格间的距离，从而使模型对不同风格的图像具有泛化性。此外，通过

与

的度量损失进一步提高了使用来自同一类别但不同个体的特征的识别泛化能力，从而减轻了类别内风格差异的不利影响。

实验结果如表1所示。RN50表示用基线网络Resnet50训练出来的结果，其准确率是82.4％。TSCM表示用本发明的方法训练出来的结果，其准确率是85.6％，提高了3.9个百分点。此外，我们还在NWPUVHR-10、DIOR、HRRSD数据集上对不同的网络进行了测试，如表2所示。实验结果表明我们的TSCM方法的目标识别效果最好。

表1我们的TSCM与Resnet50(RN50)结果对比

表2我们的TSCM与不同方法在测试集NWPUVHR-10、DIOR和HRRSD上的识别准确率比较。所有方法在DOTA训练集上进行训练

数据集	MOEX	PDEN	SagNet	PMG	NTS	RIDE	TSCM
								NWPUVHR-10	82.4	86.0	84.9	76.2	83.8	82.2	86.2
DIOR	83.3	85.4	83.9	81.2	83.3	83.5	86.2
								HRRSD	71.4	62.6	68.5	50.0	57.3	69.7	71.9