CN111723675A

CN111723675A - 基于多重相似性度量深度学习的遥感图像场景分类方法

Info

Publication number: CN111723675A
Application number: CN202010454398.1A
Authority: CN
Inventors: 王鑫; 张之露; 吕国芳; 石爱业
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-29
Anticipated expiration: 2040-05-26
Also published as: CN111723675B

Abstract

本发明公开了一种基于多重相似性度量深度学习的遥感图像场景分类方法。首先，利用深度卷积网络对遥感图像场景进行分类训练，将最后一个全连接层的输出作为遥感场景图像的特征。其次，引入深度度量学习的知识，提出了一种新的损失函数，在传统交叉熵损失项的基础上，添加了多重相似性损失项。多重相似性损失项通过将提取到的全连接特征映射到度量距离空间，计算并约束输入图像样本之间的度量距离，从而使网络模型更具区别性，能够对遥感场景图像进行更有效的分类。本发明利用卷积神经网络对遥感图像进行特征提取，学习得到的深度特征涵盖信息完整且具有较强的鉴别性，将这些特征与度量学习结合，能达到良好的分类性能。

Description

基于多重相似性度量深度学习的遥感图像场景分类方法

技术领域

本发明属于图像处理领域，尤其涉及一种基于多重相似性度量深度学习的遥感图像场景分类方法。

背景技术

不同的地物具有不同的电磁波谱特征，实时记录这些地物的光谱以及时间空间特征的图像资料被称为遥感图像。遥感图像分类通常根据图像上不同地物所特有的电磁波谱特性，区分出地物的类别标签。目前遥感图像分类是遥感领域的一个重要的研究方向之一，被广泛用于地质勘测、灾害监测、交通监管以及全球气温变化等多个应用领域。因此，对遥感图像分类的深入研究对未来社会的发展有着重要的应用价值。

提取特征的有效性可以被认为是进行遥感图像分类的核心。传统的特征提取方法主要是手工提取图像的特定特征，例如光谱、颜色、纹理、形状信息等这些代表一个图像的主要浅层特征。尺度不变特征变换(Scale Invariant Feature Transform，SIFT)和局部二值模式(Local Binary Patterns，LBP)就利用了图像的点特征与纹理特征。然而这些手工提取特征的方法难以适应遥感图像具有复杂高层语义、多种抽象特征组合的情况。因此，研究人员把研究目光放在了可以自动提取更加抽象和更有识别力的高层语义特征的深度学习方法中。

深度学习是具有多层非线性结构的一种机器学习的方法，以深层神经网络为主要架构。而卷积神经网络因为权重共享，池化等操作，对平移、旋转、缩放、扭曲等操作具有一定的稳定性，使得模型具有更强的可训练性和鲁棒性，被许多国内外研究学者应用于遥感图像分类领域中。

公开号CN109829519A一种基于自适应空间信息的遥感图像分类方法及系统，首先采用基于马尔可夫随机场的模糊C均值算法对遥感图像进行初始分类，得到初始模糊隶属度矩阵。然后利用空间引力模型，计算当前迭代次数遥感图像中当前中心像元与每个邻域像元之间的空间吸引力。再采用Sobel算子对遥感图像进行边缘检测，得到空间结构特征。依据空间结构特征，采用梯度倒数平滑法计算当前中心像元的边缘系数。最后依据空间吸引力和边缘系数构建自适应权重的马尔可夫随机场，将自适应权重的马尔可夫随机场与模糊C均值算法结合，确认分类结果。该方法虽然有效地提高了分类的精度，但是引入了过多的人为操作，依靠不同的算法提取不同的低层特征，特征包含的语义信息不全面，算法复杂并且低效。

公开号CN109872331A一种基于深度学习的遥感图像数据自动识别方法。该方法利用色彩迁移、高斯滤波、非极大值抑制边缘无用响应、双阈值检测有用边缘等多个预处理增强数据，最后通过将处理过的边缘细节信息作为一个重要信息加入到深度学习网络之中提高识别分类的性能。该方法有效克服了神经网络由于遥感图像明暗拍摄角度不同造成的准确率不高的问题，但是仅仅关注于图像分割不足以克服遥感图像复杂的地物特征问题。

Gong Cheng等人在2018年IEEE上发表论文When Deep Learning Meets MetricLearning:Remote Sensing Image Scene Classification via LearningDiscriminative CNNs，该文献引入对比损失，结合卷积神经网络进行图像分类。但是考虑到对比损失基于采样的单一的样本对，没有考虑整体样本与局部样本的关系，同时还采用固定的阈值，对于多分类问题有一定的局限性。

综上，现有的遥感图像场景分类方法，存在的诸多局限性主要表现在：

(1)特征提取复杂且低效：传统的分类方法需要借助不同的图像特征提取算法，提取图像的各种类型的特征，过程繁琐复杂。同时这些分类算法一般只具有浅层的结构，学习到的表达特征不能全面涵盖遥感图像信息，存在冗余信息，其分类性能和泛化能力都明显不足；

(2)训练网络优化损失单一：现有的遥感图像场景分类方法通常仅仅依靠交叉熵损失来优化权重参数，当场景图像过于复杂、类别较多时，交叉熵损失不能全面表达不同类间的差异性，由此弱化了分类的性能。

(3)现有的度量学习的基本方法多采用单一的相似性，没有考虑局部和整体的关系，专注于局部的采样样本；同时对于包含不同信息量样本对之间加权的方法多采用固定的权重值，即硬加权方法，缺少灵活性。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于多重相似性度量深度学习的遥感图像场景分类方法。该方法可以避免传统复杂且低效的手工特征提取过程、单一损失等问题，增强模型的灵活性和类间的区别性，增加分类的准确性。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于多重相似性度量深度学习的遥感图像场景分类方法，包含训练阶段和测试阶段，具体步骤如下：

(1)构建遥感图像数据集，制作每个输入样本对应的标签类别，同时随机打乱数据集，将每类遥感场景图像数据集分为训练集Train和测试集Test；

(2)选择搭建合适的八层卷积神经网络，使用训练集对卷积神经网络进行训练；

(3)将训练集输入到步骤(2)中的卷积神经网络中得到每张图像的高层特征向量；

(4)将步骤(3)中高层特征向量映射到度量距离空间，计算改变度量距离空间中图像之间的特征距离，构造多重相似性损失项；

(5)将步骤(4)中的多重相似性损失项和交叉熵损失项结合，构成新的损失函数；

(6)利用梯度下降算法优化步骤(5)中的损失函数，进行卷积神经网络的训练；

(7)将测试集输入到步骤(6)中的训练好的卷积神经网络，得到每张图像的分类预测标签。

其中，步骤(1)中的，构建样本集合和集合分类方法如下：

(1.1)构建X＝{x_i|i＝1,2,...,N}为输入的遥感图像数据样本，Y＝{y_i|i＝1,2,...,N}为输入的遥感图像数据样本对应的类别标签集合，y_i∈R^c表示标签向量，C为总的标签类别，N为总的训练样本数量；

(1.2)将每类数据集分为训练集部分Train和测试集部分，假设数据集中每个类别的图片数量为n，从每个类别的遥感图像中随机抽取m张图片构建训练集

剩下的n-m张图片构成测试集

下标i表示图片属于哪一类别，下标j表示图片的数目排序。

其中，步骤(2)中的，卷积神经网络结构如下：

(2.1)在输入层中，将每一个遥感场景图像归一化为227×227×3大小的RGB三通道图像；

(2.2)在第一层的卷积层中，定义96个尺寸为11×11×3的卷积核，设定步长为4，不扩充边缘；在layer1的池化层，池化方法设为MAX pooling；

(2.3)在第二层layer2的卷积层中，定义256个尺寸为5×5×48的卷积核，步长定为1，填充值为2；在layer2的池化层，池化方法设为MAX pooling；

(2.4)在第三层的卷积层中，定义384个尺寸为3×3×256的卷积核，步长定为1；

(2.5)在第四层的卷积层中，定义384个尺寸为3×3×192的卷积核，步长定为1；

(2.6)在第五层的卷积层中，定义256个尺寸为3×3×128的卷积核，步长定为1；在layer5的池化层，池化方法设为MAX pooling；

(2.7)第六层为全连接层；

(2.8)第七层为全连接层；

(2.9)第八层为softmax分类层。

其中，步骤(3)中的，高层特征向量计算方法如下：

(3.1)设定整体网络模型为L+1层，L＝7，最后一层为softmax分类层，定义W＝{W_i|i＝1,2,...,L+1}为每一层权重，B＝{B_i|i＝1,2,...,L+1}为每一层的偏置，O＝{O_i|i＝1,2,...,L+1}为每一层的输出，x_i为输入的第i个图像样本，则网络模型每一层输出如下所示：

O_L+1＝f_L+1(W_L+1*O_L(x_i)+B_L+1)

O_j＝f_j(W_j*O_j-1(x_i)+B_j),j＝2,3,...,L

O₁＝x_i

其中，*表示卷积运算，f_j表示第j层的激励函数ReLu函数，f_L+1表示最后softmax层的函数运算；

(3.2)把样本输入到卷积神经网络中，通过前向传播算法计算出O₇的值，即fc7层的特征向量features_fc₇。

其中，步骤(4)将特征向量映射到度量距离空间，计算改变度量距离空间中图像之间的特征距离，构造多重相似性损失项的方法如下：

(4.1)第一个阶段是采样阶段，设定相同类别的两个样本称之为正样本对，不同类别的两个样本称之为负样本对；

首先，假设x_i是输入的一个样本，定义f(x_i)是样本x_i经过卷积神经网络得到的最后一层全连接层的特征向量，即features_fc₇，f(x_i)＝[a₁,a₂,...,a_d]，d表示fc7层的输出维度，然后再选择另一个样本x_j，得到f(x_j)＝[b₁,b₂,...,b_d]，定义相似度矩阵D_ij表示这一样本对{x_i,x_j}的特征距离，即自身相似度，<>代表点积操作：

D_ij＝<f(x_i),f(x_j)>

＝a₁b₁+a₂b₂+...+a_db_d

设置一个批次中样本数目为m，遍历当前批次的所有样本，根据样本对是正样本对还是负样本对，分别得到正样本对相似度矩阵集合S⁺和负样本对相似度矩阵集合S-

S⁺＝{D_ij|i＝1,2,...,mj＝1,2,...,m,i≠j,x_i与x_j属于同类}

S^-＝{D_ij|i＝1,2,...,mj＝1,2,...,m,i≠j,x_i与x_j不属于同类}

然后，设定σ代表阈值，遍历正样本对相似度矩阵集合S⁺中元素，当元素D_ij小于负样本对相似度矩阵集合S-的最大值加上阈值σ之和时，当前元素D_ij代表的正样本对就会被选中，设定正选择集合C+来表示这些被选中的正样本对，maxS-代表集合S-的最大值，批次中样本数目为m：

D_ij<max S^-+σ

C⁺＝{D_ij|i＝1,2,...,m,j＝1,2,...,m,i≠j,D_ij<max S^-+σ}

遍历负样本对相似度矩阵集合S⁺中元素，当元素D_ij大于正样本对相似度矩阵集合S⁺的最小值减去阈值σ之差时，当前元素D_ij代表的负样本对就会被选中，设定负选择集合C^-来表示这些被选中的负样本对，min S⁺代表集合S⁺中的最小值，批次中样本数目为m：

D_ij＞min S⁺-σ

C^-＝{D_ij|i＝1,2,...,m,j＝1,2,...,m,i≠j,D_ij＞min S⁺-σ}

(4.2)第二阶段为加权阶段，根据采样阶段得到的正负选择集合C⁺和C-，考虑两个集合元素之间的相对相似度进行加权操作；

首先，遍历正选择集合C⁺，设定元素D_ij对应的正样本对权重为w_ij ⁺，α⁺为参数常量，λ为阈值：

遍历负选择集合C^-，设定元素D_ij对应的负样本对权重为

α^-为参数常量，λ为阈值：

最后集成结果，设定C⁺和C^-代表正负选择集合，D_ij代表正负选择集合中的元素，

和

是对应的样本对权重，α⁺，α^-为参数常量，λ为阈值：

由此得到需要的多重相似性损失项L_MS。

其中，步骤(5)中，将多重相似性损失项和交叉熵损失项结合，构成新的损失函数方法如下：

设定p_i为第i个样本的预测标签值，m表示这一批次中的图片样本数量，y_i表示训练样本的真实标签，L_MS代表多重相似性损失项，C⁺和C^-代表正负选择集合，D_ij代表正负选择集合中的元素，α⁺，α^-为参数常量，λ为阈值，<>代表点积操作，总的损失函数L为

由此得到了总的损失函数L。

其中，步骤(6)中，进行卷积神经网络训练方法如下：

设定η代表学习率，

代表对梯度求导，θ代表训练的权重参数，训练时被更新为：

当损失函数的值收敛时，模型完成训练。

其中，步骤(7)中，利用训练好的卷积神经网络直接进行分类识别，得到图像的预测标签值，结果为0-N之间的正整数。

有益效果：本发明采用上述技术方案，具有以下有益效果：

(1)本发明的方法直接将原始遥感场景图像输入到深度卷积神经网络中，进行特征的自动学习，避免了对图像的复杂前期预处理和不同种类特征提取过程，减少了人为的干预过程，提取的特征具有更加丰富的语义性，涵盖了更多的图像信息，算法简单并且高效；

(2)引入了度量学习损失项，在考虑单一图像本身的高层语义特征预测标签与真实标签交差熵损失上，加入了不同图像样本之间的差异信息作为新的损失项，避免了对高层特征的过度依赖性，进一步加强算法的鲁棒性；

(3)采用多重相似性作为度量学习损失项，综合考虑了三种相似性，依次为自相似性、正相对相似性和负相对相似性，考虑了局部和整体的关系。同时采用软加权的方法，通过对总体相似度不同的样本对赋予不同的权重，加强了算法的灵活性，提高了分类性能。

附图说明

图1为本发明实施例的框架图。

图2为本发明算法实现具体结构图。

图3为AlexNet网络模型算法混淆矩阵图。

图4为本发明提出算法的混淆矩阵图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示，本发明的技术方案进一步的详细描述如下：

(1)采用深度卷积神经网络对遥感场景图像进行训练，在传统的交叉熵损失的基础上添加了一个多重相似度损失构成了新的损失函数。多重相似性损失项通过将提取到的全连接特征映射到度量距离空间，计算并约束输入图像样本之间的度量距离，从而使网络模型更具区别性，能够对遥感场景图像进行有效的分类。

(1.1)构建X＝{x_i|i＝1,2,...,N}为输入的遥感图像数据样本，Y＝{y_i|i＝1,2,...,N}为输入的遥感图像数据样本对应的类别标签集合，y_i∈R^c表示标签向量，C为总的标签类别，N为总的训练样本数量。本发明选用遥感场景图像公共数据集UCMerced_LandUse进行实验，该数据集包含21类遥感场景图像。

(1.2)将每类数据集分为训练集部分Train和测试集部分Test。假设数据集中每个类别的图片数量为n，从每个类别的遥感图像中随机抽取m张图片构建训练集

剩下的n-m张图片构成测试集

下标i表示图片属于哪一类别，下标j表示图片的数目排序。在本发明中取n＝100，m＝80。

(1.3)搭建一个八层的卷积神经网络，其中，前五层分别用layer1，layer2，layer3，layer4，layer5表示。layer1，layer2，和layer5又分别包括卷积层和池化层；layer3和layer4分别只有一个卷积层；第六层和第七层称为全连接层，分别用fc6、fc7表示，最后一层为softmax分类层，用fc8表示。

每层具体参数如下：

(a)在输入层中，将每一个遥感场景图像归一化为227×227×3大小的RGB三通道图像；

(b)在第一层layer1的卷积层中，定义96个尺寸为11×11×3的卷积核，设定步长为4，不扩充边缘；在layer1的池化层，池化方法设为MAX pooling；

(c)在第二层layer2的卷积层中，定义256个尺寸为5×5×48的卷积核，步长定为1，填充值为2；在layer2的池化层，池化方法设为MAX pooling；

(d)在第三层layer3的卷积层中，定义384个尺寸为3×3×256的卷积核，步长定为1；

(e)在第四层layer4的卷积层中，定义384个尺寸为3×3×192的卷积核，步长定为1；

(f)在第五层layer5的卷积层中，定义256个尺寸为3×3×128的卷积核，步长定为1；在layer5的池化层，池化方法设为MAX pooling；

(g)第六层fc6为全连接层；

(h)第七层fc7为全连接层；

(i)第八层fc8为softmax分类层。

在layer1、layer2、layer5层中所提到的池化的实质是采样操作，池化的目的是为了压缩特征图，一方面池化可以减少网络的参数，从而达到减小计算量的作用；另一方面池化层能够使训练得到的特征具有一定程度上的旋转不变性，增强模型的鲁棒性。池化层通常会放在卷积层的后面，对上一层得到的特征图进行独立的池化操作。全连接层能够把分布式特征结合映射为全局特征，即隐层特征空间映射到样本标记空间，是下一步分类层预测分类结果的基石。实际使用中可由卷积操作实现。

(1.4)将每类遥感场景图像训练集Train中的图像输入到上述构建的卷积神经网络中，对网络进行训练。训练一个卷积神经网络，实际意义上是在训练该网络每一个卷积层的卷积核，使这些卷积核能检测到图像中的各层特征，从而达到训练整个网络的目的。

在卷积神经网络的训练过程中，通常将其分为两个阶段。阶段一是前向传播阶段，在初始化各项参数权重后，输入的图像数据通过卷积层、池化层和全连接层的计算，由低层向高层进行传播，最后经过softmax分类层，得到预测的标签值。阶段二是反向传播阶段，把得到的预测标签值与实际标签进行误差计算，将误差从高层到低层进行反向传播，更新各项参数权重，通过这种方式来达到最小化误差的目的。

(1.5)基于前向传播算法依次得到卷积神经网络学习的各层特征，最后提取出fc7层特征。

(1.5.1)设定整体网络模型为L+1层，包括了卷积神经网络和最后一层softmax分类层，这里L＝8，定义W＝{W_i|i＝1,2,...,L+1}为每一层权重，B＝{B_i|i＝1,2,...,L+1}为每一层的偏置，O＝{O_i|i＝1,2,...,L+1}为每一层的输出，x_i为输入的第i个图像样本，则网络模型每一层输出如下所示：

O_L+1＝f_L+1(W_L+1*O_L(x_i)+B_L+1)

O_j＝f_j(W_j*O_j-1(x_i)+B_j),j＝2,3,...,L

O₁＝x_i

其中*表示卷积运算，f_j表示第j层的激励函数ReLu函数，f_L+1表示最后softmax层的函数运算。

(1.5.2)把样本输入到卷积神经网络中，按照前向传播算法得到需要的fc7层的特征向量features_fc₇。

(2)将高层特征向量映射到度量距离空间，计算改变度量距离空间中图像之间的特征距离，构造多重相似性损失项，将多重相似性损失项和交叉熵损失项结合，构成新的损失函数。

不同的损失函数可以被表示成用特定的力度来增大或缩短样本间的特征距离，而这个特定的力度可以用加权值来表示。例如在对比损失中，每一个成对样本对就都被赋予固定的权值来改变特征距离，即平均增大或缩短所有数据样本。然而不同的样本对往往不能一概而论，当出现包含丰富信息或者学习难度较大的样本对时，通常需要赋予较大的权重来增大学习的力度。因此，如何给不同的样本对设计特定的加权权重，成为度量学习中基于样本对损失函数的核心所在。

通常样本对的局部分布是给样本对加权的衡量标准。但是仅仅依靠单个样本对自身的特征距离和相似性来断定局部样本对的分布是片面的，还应当考虑当前选择的样本对和周围临近样本对的特征距离和它们之间的相似性关系。

本方法引入多重相似性的概念。多重相似性可以将其细分为三个部分，分别是自相似度、正相对相似度和负相对相似度。

(2.1)第一个阶段是采样阶段，设定相同类别的两个样本称之为正样本对，不同类别的两个样本称之为负样本对；

首先，假设x_i是输入的一个样本，定义f(x_i)是样本x_i经过卷积神经网络得到的最后一层全连接层的特征向量，即features_fc₇，f(x_i)＝[a₁,a₂,...,a_d]，d表示fc7层的输出维度，然后再选择另一个样本x_j，得到f(x_j)＝[b₁,b₂,...,b_d]，定义相似度矩阵D_ij表示这一样本对{x_i,x_j}的特征距离，即自身相似度，< >代表点积操作：

D_ij＝<f(x_i),f(x_j)>

＝a₁b₁+a₂b₂+...+a_db_d

S⁺＝{D_ij|i＝1,2,...,mj＝1,2,...,m,i≠j,x_i与x_j属于同类}

S^-＝{D_ij|i＝1,2,...,mj＝1,2,...,m,i≠j,x_i与x_j不属于同类}

然后，设定σ代表阈值，遍历正样本对相似度矩阵集合S⁺中元素，当元素D_ij小于负样本对相似度矩阵集合S-的最大值加上阈值σ之和时，当前元素D_ij代表的正样本对就会被选中，设定正选择集合C⁺来表示这些被选中的正样本对，max S^-代表集合S-的最大值，批次中样本数目为m：

D_ij<max S^-+σ

C⁺＝{D_ij|i＝1,2,...,m,j＝1,2,...,m,i≠j,D_ij<max S^-+σ}

D_ij＞min S⁺-σ

C^-＝{D_ij|i＝1,2,...,m,j＝1,2,...,m,i≠j,D_ij＞min S⁺-σ}

(2.2)第二阶段为加权阶段，根据采样阶段得到的正负选择集合C⁺和C^-，考虑两个集合元素之间的相对相似度进行加权操作；

遍历负选择集合C^-，设定元素D_ij对应的负样本对权重为

α^-为参数常量，λ为阈值：

和

是样本对权重，α⁺，α^-为参数常量，λ为阈值，得到多重相似性损失项L_MS的表达式：

(2.3)将多重相似性损失项和交叉熵损失项结合，构成新的损失函数，设定p_i为第i个样本的预测标签值，m表示这一批次中的图片样本数量，y_i表示训练样本的真实标签，L_MS代表多重相似性损失项，C⁺和C^-代表正负选择集合，D_ij代表正负选择集合中的元素，α⁺，α^-为参数常量，λ为阈值，< >代表点积操作，总的损失函数L为

设定η代表学习率，

当损失函数的值收敛时，模型完成训练。

(3)当损失函数达到收敛，卷积神经网络和分类器完成训练后，对测试图像进行分类。将测试集Test中的图像输入到训练好的神经网络模型中，每一幅测试图像都会得到一个预测标签值。将测试集中所有图像的预测值和它们的真实标签值相比，即可得到整个测试集的识别准确率。

本发明选用现有的AlexNet网络模型遥感图像场景分类方法与提出的方法进行比较，

表1是二种方法在遥感场景图像公共数据集UCMerced_LandUse上的三种性能指标比较。结果表明，本发明提出的方法对遥感图像场景分类效果最好。

表1二种方法分类准确率比较

指标	AlexNet网络模型算法	本发明提出算法
			Accuracy	78.33％	83.81％
Error	22.67％	16.19％
			Kappa系数	77.25％	83.00％

Claims

1.一种基于多重相似性度量深度学习的遥感图像场景分类方法，包含训练阶段和测试阶段，其特征在于，该方法包括如下步骤：

2.根据权利要求1的一种基于多重相似性度量深度学习的遥感图像场景分类方法，其特征在于，步骤(1)中的，构建样本集合和集合分类方法如下：

剩下的n-m张图片构成测试集

下标i表示图片属于哪一类别，下标j表示图片的数目排序。

3.根据权利要求1的一种基于多重相似性度量深度学习的遥感图像场景分类方法，其特征在于，步骤(2)中的，卷积神经网络结构如下：

(2.7)第六层为全连接层；

(2.8)第七层为全连接层；

(2.9)第八层为softmax分类层。

4.根据权利要求1的一种基于多重相似性度量深度学习的遥感图像场景分类方法，其特征在于，步骤(3)中的，高层特征向量计算方法如下：

O_L+1＝f_L+1(W_L+1*O_L(x_i)+B_L+1)

O_j＝f_j(W_j*O_j-1(x_i)+B_j),j＝2,3,...,L

O₁＝x_i

5.根据权利要求1的一种基于多重相似性度量深度学习的遥感图像场景分类方法，其特征在于，步骤(4)将特征向量映射到度量距离空间，计算改变度量距离空间中图像之间的特征距离，构造多重相似性损失项的方法如下：

(4.1)第一个阶段是采样阶段，设定相同类别的两个样本为正样本对，不同类别的两个样本为负样本对；

首先，假设x_i是输入的一个样本，定义f(x_i)是样本x_i经过卷积神经网络得到的最后一层全连接层的特征向量，即features_fc₇，f(x_i)＝[a₁,a₂,...,a_d]，d表示fc7层的输出维度，然后再选择另一个样本x_j，得到f(x_j)＝[b₁,b₂,...,b_d]，定义相似度矩阵D_ij表示这一样本对{x_i,x_j}的特征距离，即自身相似度，〈〉代表点积操作：

D_ij＝〈f(x_i),f(x_j)〉

＝a₁b₁+a₂b₂+...+a_db_d

设置一个批次中样本数目为m，遍历当前批次的所有样本，根据样本对是正样本对还是负样本对，分别得到正样本对相似度矩阵集合S⁺和负样本对相似度矩阵集合S^-：

S⁺＝{D_ij|i＝1,2,...,mj＝1,2,...,m,i≠j,x_i与x_j属于同类}

S^-＝{D_ij|i＝1,2,...,mj＝1,2,...,m,i≠j,x_i与x_j不属于同类}

然后，设定σ代表阈值，遍历正样本对相似度矩阵集合S⁺中元素，当元素D_ij小于负样本对相似度矩阵集合S^-的最大值加上阈值σ之和时，当前元素D_ij代表的正样本对就会被选中，设定正选择集合C⁺来表示这些被选中的正样本对，max S^-代表集合S^-的最大值，批次中样本数目为m：

D_ij<max S^-+σ

C⁺＝{D_ij|i＝1,2,...,m,j＝1,2,...,m,i≠j,D_ij<max S^-+σ}

D_ij＞min S⁺-σ

C^-＝{D_ij|i＝1,2,...,m,j＝1,2,...,m,i≠j,D_ij＞min S⁺-σ}

首先，遍历正选择集合C⁺，设定元素D_ij对应的正样本对权重为

α⁺为参数常量，λ为阈值：

遍历负选择集合C^-，设定元素D_ij对应的负样本对权重为

α^-为参数常量，λ为阈值：

和

是对应的样本对权重，α⁺，α^-为参数常量，λ为阈值：

由此得到需要的多重相似性损失项L_MS。

6.根据权利要求1的一种基于多重相似性度量深度学习的遥感图像场景分类方法，其特征在于，步骤(5)中，将多重相似性损失项和交叉熵损失项结合，构成新的损失函数方法如下：设定p_i为第i个样本的预测标签值，m表示这一批次中的图片样本数量，y_i表示训练样本的真实标签，L_MS代表多重相似性损失项，C⁺和C^-代表正负选择集合，D_ij代表正负选择集合中的元素，α⁺，α^-为参数常量，λ为阈值，<>代表点积操作：

由此得到了总的损失函数L。

7.根据权利要求1的一种基于多重相似性度量深度学习的遥感图像场景分类方法，其特征在于，步骤(6)中，进行卷积神经网络训练方法如下：

设定η代表学习率，

当损失函数的值收敛时，模型完成训练。

8.根据权利要求1的一种基于多重相似性度量深度学习的遥感图像场景分类方法，其特征在于，步骤(7)中，利用训练好的卷积神经网络直接进行分类识别，得到图像的预测标签值，结果为0-N之间的正整数。