CN105844287B

CN105844287B - 一种遥感影像分类的域自适应方法及系统

Info

Publication number: CN105844287B
Application number: CN201610147613.7A
Authority: CN
Inventors: 林月冠; 范一大; 徐楠; 王志强; 张薇; 温奇; 沈占锋; 王薇; 李苓苓; 王平; 黄河; 汤童; 崔燕
Original assignee: NATIONAL DISASTER REDUCTION CENTER OF CHINA; Institute of Remote Sensing and Digital Earth of CAS
Current assignee: NATIONAL DISASTER REDUCTION CENTER OF CHINA; Institute of Remote Sensing and Digital Earth of CAS
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2019-06-07
Anticipated expiration: 2036-03-15
Also published as: CN105844287A

Abstract

本发明涉及遥感影像技术领域，公开了一种遥感影像分类的域自适应方法及系统，所述域自适应方法包括：通过主动学习从目标领域选择出对于当前分类器最具有信息量的未标记样本进行标记，并根据标记后的样本和当前训练样本集来调整所述当前分类器；以及通过半监督学习调整经主动学习调整后的所述当前分类器。本发明的域自适应方法及系统适用于不同时间同一区域或者不同区域之间影像先验知识的迁移，通过主动学习和半监督学习的方法解决了域自适应性问题，使得不同影像之间的知识得以相互传递和利用。

Description

一种遥感影像分类的域自适应方法及系统

技术领域

本发明涉及遥感影像技术领域，具体地，涉及一种遥感影像分类的域自适应方法及系统。

背景技术

目前，利用遥感影像自动分类技术来获取土地覆盖类型图通常利用的是监督学习的方法和机器学习的方法。

监督学习通常依赖于一组标记过的参考样本训练分类算法。这些监督学习的方法在每次处理一个新的遥感影像时，都需要一套新的训练样本，导致产生较高的时间和人力成本。与此同时，对某些无法实施现场踏勘和没有历史资料可参考的区域进行分类时，训练样本的较难获取成为了采用监督学习实现分类的严苛限制。

机器学习对于某一景遥感影像的分析相对于监督学习，可以在一定程度上有所拓展，主要表面在两方面：1)既有先验知识可以应用于不同区域，但有相似的特征、类别的其它影像做分类；2)既有先验知识可以应用于更新土地覆盖图，即源影像和目标影像为同一地理区域但不同时间的影像。从而可知，在机器学习中，对既有先验知识的利用是非常重要的，源影像中的既有信息可以应用于目标影像中来减少相关的分类的成本。因此，机器学习对于某一景遥感影像的分析的问题都可以归结为迁移学习，特别是归结为域自适应(Domain Adaptation，简称为DA)学习。DA学习能够有效地解决训练样本和测试样本概率分布不一致的学习问题，其主要目的在于将分类器所学习到的知识从源领域向目标领域转移。因此，对于DA问题，需要应对由于空间和时间的变化所带来的地物类别的光谱特征变化，以实现将分类模型从源领域迁移到目标领域。

综上所述，在通常的工程应用中，进行遥感影像分类时，一般使用监督学习分类的方法来保证精度，但耗费了大量时间和人力，并产生了大量的冗余样本。而在机器学习的方法中，又需要有效地解决DA问题。

发明内容

本发明的目的是提供一种遥感影像分类的域自适应方法及系统，以有效地解决DA问题。

为了实现上述目的，本发明提供一种遥感影像分类的域自适应方法，该域自适应方法包括：通过主动学习从目标领域选择出对于当前分类器最具有信息量的未标记样本进行标记，并根据标记后的样本和当前训练样本集来调整所述当前分类器；以及通过半监督学习调整经主动学习调整后的所述当前分类器。

优选地，所述当前分类器为支持向量机SVM分类器和概率分类器中的任意一者；对于所述SVM分类器，所述主动学习包括：采用边缘采样MS方法进行主动学习；对于所述概率分类器，所述主动学习包括：采用熵查询采样EQS方法进行主动学习。

优选地，采用MS方法进行主动学习包括：确定各个未标记样本对应的支持向量和计算各个未标记样本到SVM分类超平面的距离；从目标领域选择未标记样本进行标记，其中，所选择的未标记样本对应的支持向量各不相同，且到SVM分类超平面的距离不超过设定阈值；以及将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整当前SVM分类器。

优选地，采用EQS方法进行主动学习包括：计算每个未标记样本被预测为各个可能的类别的概率，并基于计算出的概率计算每个未标记样本的熵；从目标领域选择具有最大熵的未标记样本进行标记；以及将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整所述概率分类器。

优选地，所述通过半监督学习调整经主动学习调整后的所述当前分类器包括：从通过主动学习后剩余的未标记样本中，选择出符合半监督学习的约束条件的样本；通过经主动学习调整后的所述当前分类器对选择出的样本进行标记；以及将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整经主动学习调整后的所述当前分类器。

优选地，当所述当前分类器为SVM分类器时，所述约束条件被设置为：要求未标记样本到对应的间隔边界的距离大于或等于设定阈值，且该未标记样本经分类器处理后得到的标签与该未标记样本的最近邻点的标签相同。

优选地，当所述当前分类器为概率分类器时，所述约束条件被设置为：要求未标记样本相对于当前分类器的熵小于或等于设定阈值，且该未标记样本经分类器处理后得到的标签与该未标记样本的最近邻点的标签相同。

优选地，该域自适应方法还包括：在主动学习的过程中，设置删除查询函数，并基于该删除查询函数从源领域的当前训练样本集中删除不适用于目标领域的样本。

本发明还提供了一种遥感影像分类的域自适应系统，该域自适应系统包括：主动学习模块，用于通过主动学习从目标领域选择出对于当前分类器最具有信息量的未标记样本进行标记，并结合标记后的样本和当前训练样本集来调整所述当前分类器；以及半监督学习模块，用于通过半监督学习调整经主动学习调整后的所述当前分类器。

优选地，所述主动学习模块包括针对SVM分类器的MS模块和针对概率分类器的EQS模块中的任意一者；其中，所述MS模块：用于确定各个未标记样本对应的支持向量和计算各个未标记样本到SVM分类超平面的距离；用于从目标领域选择未标记样本进行标记，其中，所选择的未标记样本对应的支持向量各不相同，且到SVM分类超平面的距离不超过设定阈值；以及用于将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整当前SVM分类器。

通过上述技术方案，本发明的有益效果是：本发明的域自适应方法及系统适用于不同时间同一区域或者不同区域之间影像先验知识的迁移，通过主动学习和半监督学习的方法解决了域自适应性问题，使得不同影像之间的知识得以相互传递和利用，利用已有知识解决未知问题，大大提高了遥感土地覆盖图的生产效率，解决了遥感影像样本选取过程中的人力和时间的重复投入问题。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明的总体设计思路的流程示意图；

图2是本发明的实施例中的域自适应方法的流程示意图；

图3是本发明的实施例中的主动学习过程的设计思路示意图；

图4是本发明的SVM分类器的初始分类示意图；

图5是本发明的实施例中基于改进的MS方法进行主动学习的流程示意图；

图6是本发明的实施例中采用改进的MS方法调整SVM分类器后的结果示意图；

图7是本发明的实施例中采用EQS方法进行主动学习的流程示意图；

图8是本发明的实施例中半监督学习过程的设计思路示意图；

图9是本发明的实施例中进行半监督学习的流程示意图；

图10是本发明的实施例中的域自适应系统的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本发明中，所述遥感影像包括有遥感多光谱影像和遥感高光谱影像等。

目前，主动学习在机器学习领域有着广泛应用，主动学习通过构造有效训练集，利用查询函数逐次迭代查找有利于最大化提升分类效果的样本，能够有效减少分类训练集的大小并控制人工标注成本，极大地提高了分类算法的效率。

另外，监督学习、无监督学习和半监督学习在机器学习领域也有着广泛应用。监督学习的中心思想在于通过对大量有标签(也称为类别标号)的训练样本进行学习，来推导出一个适用于这些训练样本的分类器，并用这个分类器来判断未知样本的标签。无监督学习是在完全没有标签的样本集中学习，得出样本集标签的方法。而半监督学习方法则是监督学习方法和无监督学习方法的结合，在利用有标签样本进行学习的同时，挖掘未标记样本中所包含的大量可用于调整分类器的信息，可以将未标记样本转化为有标记的样本，随后将转化后的样本加入到标签样本集中，达到扩大训练数据集、调整分类器性能和准确性的目的。半监督学习在遥感地面覆盖、地面利用信息提取的过程中，能够通过少量的标记样本训练分类器来实现大量未标记样本的自动分类，减少人工成本，对于遥感图像快速处理具有重要的实际意义。

因此，本发明综合主动学习和半监督学习所具备的优点，提出了结合主动学习算法和半监督学习算法的技术方案，以解决遥感影像分类中的域自适应问题。如图1所示，本发明的总体设计思路是：首先假设源影像与目标影像具有相似条件(或源领域与目标领域具有相同的特征空间)，并分别对源影像和目标影像进行预处理，再在源领域按比例选择初始训练样本，获得初始分类器；其次，通过主动学习按照一定的查询条件加入和删除训练样本以调整分类器；最后，通过基于约束条件的半监督学习对主动学习调整后的分类器进行后处理，将最终得到的分类器应用于目标影像，从而获得目标影像分类结果，完成了迁移学习。

下面介绍基于上述总体思路的具体实施例。

如图2所示，本发明的实施例提出了一种遥感影像分类的域自适应方法，该域自适应方法包括：

步骤S1，通过主动学习从目标领域选择出对于当前分类器最具有信息量的未标记样本进行标记，并结合标记后的样本和当前训练样本集来调整所述当前分类器。

其中，对于当前分类器最具有信息量即是指对于当前分类器而言具有最不确定分类结果。另外，调整所述当前分类器的同时，还要删除当前训练样本集中不符合目标领域特征分布的源领域样本，采用的删除策略将在下文中有详细描述，在此不再赘述。

步骤S2，通过半监督学习调整经主动学习调整后的所述当前分类器。

基于步骤S1和步骤S2，可知本实施例的域自适应方法主要包括主动学习和半监督学习两个过程，下面对这两个过程分别进行详细描述。

一、主动学习过程

本实施例中，为了让迁移学习之后的分类器更好地适用于目标影像的分类，在目标影像中应用主动学习的查询函数来选取最具信息量的未标记样本进行标记，该最具信息量的样本也即是对当前分类器的调整最有价值的样本。

假设初始的训练集来源于源影像中已知的n个样本，记为X＝{x₁,x₂,…,x_n}，它们有相应的标签Y＝{y₁,y₂,…,y_n}。主动学习的目的在于从来自于目标影像的m个未标记样本的集合Q＝{q₁,q₂,…,q_m}中选择候选样本加入到训练样本集中，其中m>>n，其中预先假设源领域和目标领域具有相同的特征空间。在主动学习的方法中，算法关注最难分类的样本，这是由于位于类别区域内部的样本的类别较为稳定，对于当前分类器的提升不具有价值，而位于类别边缘的样本才是对于当前分类器的调整最有价值的样本。

进一步地，本实施例对最具信息量的未标记样本进行标记时，采用人工标记的方式进行主动标记，人工标记的过程有利于保证分类器调整的过程中的准确性。

在处理分类问题时，主动学习的查询通常从下面三个方面进行创建：1)基于分类委员会(熵)；2)基于分类器边缘；3)基于后验概率。因此，考虑到可以从不同的方面创建查询函数，如图3所示，本实施例分类器的不同类型，提出了针对SVM(Support VectorMachine，支持向量机)分类器的MS(Margin Sampling，边缘采样)方法和针对概率分类器的EQS(Entropy Query Sampling，熵查询采样)方法，并进一步提出查询和删除源领域中不适用于目标领域的样本的方法，以获得最终需要的样本。

1、改进的MS方法

常规的MS方法是基于SVM分类器的主动学习算法，这种算法充分利用了SVM算法的几何特性。以二类问题的线性可分情况为例，两个不同的类别由SVM分类超平面区分开来，支撑向量是距离决策边界的距离正好为1的已标记样本，如图4所示，给出了SVM初始分类的示意过程，其中实线表示分离超平面，虚线表示间隔边界，而三角形和菱形表示两种不同类别的样本，填充的三角形和菱形则表示当前分类超平面所对应的支持向量，符号“×”表示待选未标记样本，最有信息量的样本位于SVM分类超平面的边缘。在主动学习过程中，假设最感兴趣的候选样本位于当前SVM分类超平面的边缘，这些分类不确定的样本最具有信息量，很有可能改变当前的分类平面。以二分类情况为例，给出SVM分类器的判别函数如下：

其中，K(s_j,x_i)是核矩阵，其定义了候选样本x_i和第j个支撑向量s_j之间的相似度；α_j为支撑向量的系数，y_j是对应候选样本的标签。当处理多类问题时，通常可以分解为多个一对多问题进行处理。

为了保证选出来的样本在类别之间具有均衡性，可以按比例对每一个类别选取一定的样本进行标记。此处的比例有两层意思：其一是按照在源领域中各个类别样本之间的比例α来选取新的样本；其二是新选取的样本总数占初始样本总数的比例β。

但是，当用SVM分类器处理遥感图像时，为了避免相似样本多次引入导致的信息冗余且计算量增加，在按比例选取的同时需要加入一些选择的策略。考虑到分类过程中可能会出现候选样本非均匀分布的情况，当同一个支持向量周围分布多个非常近邻的候选样本时，来自同一地区的多个候选样本将被选择。然而这种选择结果由于在一次迭代中选择了多个过于相似的样本，同样不能给当前分类器带来很好的改善。为此，本实施例对常规的MS方法进行了优化，提出了一种改进的MS方法，该改进的MS方法将每个候选样本相对于当前的支持向量的位置被储存起来，以用于选择最感兴趣的样本。

如图5所示，本实施例中，基于改进的MS方法进行主动学习包括以下步骤：

步骤S11A，确定各个未标记样本对应的支持向量和各个未标记样本到SVM分类超平面的距离。

具体地，考虑到候选样本在特征空间中的分布，本实施例提供了支持向量列表SV＝{(x₁,y₁),(x₂,y₂),…(x_n,y_n)}。基于该支持向量列表，对于每一个候选未标记样本x_u，可以计算该样本对应的支持向量的距离S_un以及到SVM分类超平面的距离d_n，得到一个列表{(x_u1,s_u1,dis₁),(x_u2,s_u2,dis₂),…，(x_un,s_un,dis_n)}，并进一步根据dis_n进行排序并选择最小的前m个值。

步骤S11B，从目标领域选择未标记样本进行标记，其中，所选择的未标记样本对应的支持向量各不相同，且到SVM分类超平面的距离不超过设定阈值。

具体地，对于上述距离dis_n最小前m个样本的选择，设定以下约束条件：1)给定一个阈值d_s，选择dis_n小于或等于该阈值的样本；2)S_un不能重复选择。对于约束条件2)，表明在每一次迭代过程中，同时添加进入训练样本集的候选样本之间不可能共享同一个支持向量。

步骤S11C，将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整当前SVM分类器。

如图6所示，其为在图4的基础上采用改进的MS方法调整SVM分类器后的结果示意图，完成了部分的迁移学习，其采用的符号与图4相一致。从图4可知，基于改进的MS方法的查询规则，从目标领域样本中选择所对应的支持向量各不相同，并且到分类面的距离不超过设定阈值的未标记样本进行标记。

2、EQS方法

前述的经过改进的MS方法更适用于SVM分类器，但是主动学习的过程需要在遥感影像分类中具有普适性，因此本发明的实施例还提出了适用于多种概率分类器(最大似然、神经网络、决策树等分类器)的EQS方法。该EQS方法是基于分类委员会的查询算法，候选样本的选择是基于不同分类委员会成员之间的分歧进行的。

如图7所示，采用针对概率分类器的EQS方法进行主动学习的具体步骤包括：

步骤S12A，计算每个未标记样本被预测为各个可能的类别的概率，并基于计算出的概率计算每个未标记样本的熵。

具体地，将初始训练样本集随机分为K个集合。然后，将K个集合分别用于训练各自的分类器并且预测m个候选样本的类别，计算每个候选样本x_i被预测为类别c的概率p(x_i,c)，并采用下述公式(2)，计算各未标记样本的熵：

步骤S12B，从目标领域选择具有最大熵的未标记样本进行标记。

步骤S12C，将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整所述概率分类器。

3、删除查询函数

在前两部分中，MS方法和EQS方法的目的均是在当前训练样本集中增加目标领域的新样本。与此同时，主动学习还可以学习出源领域中不适用于目标领域的样本进行删除，以保证训练样本集更向着目标领域的分布调整。实现删除源领域中不适用于目标领域的样本的方法具体包括：在主动学习过程中，设置删除查询函数，并基于该删除查询函数从源领域的当前训练样本集中删除不适用于目标领域的样本。

对于不同的分类器，需要删除的样本的类型可能也会不同，因此需要设置的删除查询函数也不相同。

就SVM分类器而言，以二类问题为例，样本的标签可以用{0,1}表示，若该样本的特征符合分类器所描述的正例特征则标签为1，否则标签为0，删除查询函数R_MS可以表示为：

由于主动学习的过程要经历多次循环，当循环次数t大于等于指定的t₀时，可以计算训练样本集Q_i中来自于源领域的训练样本x_i被判别函数f(x_i)划分为正例的累积次数与被划分到负例的累积次数的差值的绝对值。该差值越小表示该源领域训练样本相对于目标领域而言不稳定，不能提供很好信息的样本，因此可以予以删除。

对于使用EQS方法的其他分类器而言，可将源影像的样本带入分类器，选择不能代表稳定可传递信息的样本，予以删除。删除查询函数R_EQS可以表示为：

其中，I⁰表示初始训练集，pⁱ(x|c)表示第i次循环中训练样本x被判别为类别c的条件概率。通过以上的删除查询函数，查询到源领域中不适用于目标领域的样本，实现了训练样本集的再次更新。

二、半监督学习过程

上述主动学习过程的目的在于选取出对于当前分类器而言最具有信息量的样本，然后对这些挑选出来的未标记样本进行人工标记，以人为控制当前分类器朝着更适用于目标领域的方向进行调整。由于挑选出来的样本相对于整个样本集而言是最具有信息量的少量样本，因此也不会过多的增加人工标记的负担。因此上述主动学习过程既可以保证准确性，又可以有效降低人工标记的时间和人力成本。

由于主动学习之后在目标领域中仍存在大量的未标记样本，本实施例提出将半监督学习方法作为主动学习的后处理过程，使得经过主动学习之后目标领域中仍存在的大量未标记样本可以得到利用，并进一步调整了分类器，在不增加任何人工成本的情况下，使之朝着更适用于目标领域的方向发展，提高了不同领域之间的域自适应调整的精度。如图8所示，本实施例中设计半监督学习过程的主要思路是：基于SVM分类器和概率分类器分别设计带约束条件的半监督学习算法，前者基于距离阈值和最小距离标签相同两个约束条件选择样本，后者则基于熵阈值和最小距离标签相同两个约束条件选择样本。

本实施例中，如图9所示，半监督学习作为主动学习的后处理过程，其调整经主动学习调整后的分类器的主要步骤包括：

步骤21，从通过主动学习后剩余的未标记样本中，选择出符合半监督学习的约束条件的样本。

为了在样本的信息性和预测标号的准确性两者之间获得较好的平衡，本实施例中，使用CSS(Constrained Semi-supervised learning,带约束条件的半监督学习)。通过设置约束条件，可以提高自学习选出的样本的预测标号的准确性。针对前文所述的针对两种分类器的主动学习方法，本实施例的半监督学习设置了不同的约束条件。

1)对于SVM分类器，所述约束条件被设置为：要求未标记样本到对应的间隔边界的距离大于或等于设定阈值，且该未标记样本经分类器处理后得到的标签与该未标记样本的最近邻点的标签相同。

2)对于概率分类器，所述约束条件被设置为：要求未标记样本相对于当前分类器的熵小于或等于设定阈值，且该未标记样本经分类器处理后得到的标签与该未标记样本的最近邻点的标签相同。

步骤22，通过经主动学习调整后的分类器对选择出的样本进行标记。

具体地，通过已知的样本训练得到分类器，然后通过这个分类器对选择出的未标记样本进行标记。

步骤23，将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整经主动学习调整后的分类器。

具体地，将步骤S22中分类器的分类结果中较为确定的未标记样本，连同它们对应的由分类器预测得到的标签一起，加入到当前的训练样本集，再用扩充后的训练样本集重新训练分类器，对分类结果进行更新。

针对前文所述的针对两种分类器的主动学习方法，并结合半监督学习的约束条件和基本步骤21至步骤23，下面详细介绍针对两种分类器的具体的半监督学习过程。

1、SVM分类器的半监督学习过程

1)对于当前的每个未标注样本x_u，计算x_u相对于所对应的间隔边界的距离d，并记录经分类器处理后得到的标签y_d：

2)计算x_u到训练样本集L中所有样本的距离dis(x,x_u)，寻找x_u的最近邻点Next(x_u)：

并将该最近邻点的标签记为y_next。

3)约束条件

阈值约束：d≥threshold。其中，threshold为设置的阈值。

空间位置关系约束：y_d＝y_next。

4)设未标注样本集中满足上述约束条件的子集为S_satisfied，将S_satisfied中所有样本按照到间隔边界的大小进行排序，d最小的k个样本连同标签一起加入到当前的训练样本集里。

从CSS的具体步骤中可以看到，上面的两个约束条件保证了通过半监督学习添加到训练集里的样本标签具有较高的正确率。同时，在选择样本的时候，没有选择那些分类结果最确定的样本，从而使得选出的样本对于当前的分类模型也具有一定的信息量，在预测标签准确率和样本的信息量之间达到了一个较好的平衡。在本实施例中，将从目标领域中经过主动学习步骤之后剩余的未标记样本中选取不同比例(如20％、40％、60％等)进行半监督学习试验，以期找到合适的比例，实现时间花费和最终分类精度的平衡。

2、EQS方法涉及到的分类器的半监督学习过程

1)计算x_u相对于当前分类器的熵，并记录经分类器处理后得到的标签y_H：

2)计算x_u到训练样本集中所有样本的距离，寻找x_u的最近邻点，并将该最近邻点的类别标号记为y_next。

3)约束条件

阈值约束：H≤threshold。其中，H为熵值，threshold为设置的阈值。

空间位置关系约束：y_H＝y_next。

4)选择同时符合两个约束条件的未标记样本，按照H值由大到小排序，经分类器标记加入样本集。

综上所述，本实施例的域自适应方法提供了不同区域不同时相的影像知识之间的迁移学习，其实施过程主要包括以下组成部分：1)在SVM分类器和常规MS方法的基础上提出的基于最近邻支持向量的边缘采样的改进MS方法，以选取目标领域中对于当前分类器最具有信息量的样本；2)设置了适用于多种分类器的EQS方法，查询出对于分类委员会的分类结果具有最大分歧的样本，具体用熵来衡量信息量；3)主动学习的后处理过程——带有约束条件的半监督学习CSS，对经过主动学习之后目标领域中剩余的大量未标记样本进行进一步利用。

据此，本实施例的域自适应方法同现有技术相比较，能充分利用来自源影像的先验知识来指导目标领域的影像分类，只需要人工标记经过主动学习查询出来的少量未标记的目标领域样本，有效避免了对于影像处理过程中的大量工人标记所需要花费的时间和精力，并有效避免了已学到的先验知识的浪费。

基于与上述的遥感影像分类的域自适应方法的相同的发明思路，本发明的实施例还提出了一种遥感影像分类的域自适应系统，如图10所示，该域自适应系统包括：主动学习模块，用于通过主动学习从目标领域选择出对于源领域的当前分类器最具有信息量的未标记样本进行标记，并结合标记后的样本和当前训练样本集来调整当前分类器；以及半监督学习模块，用于通过半监督学习调整经主动学习调整后的分类器。

特别地，所述主动学习模块包括针对SVM分类器改进的MS模块和针对概率分类器的EQS模块中的任意一者。并且，所述改进的MS模块：用于计算各个未标记样本对应的支持向量和各个未标记样本到SVM分类器的分类面的距离；用于从目标领域中选择对应的支持向量各不相同，并且到分类面的距离不超过设定阈值的未标记样本进行标记；以及用于将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整当前分类器。

进一步地，该域自适应系统基于主动学习模块和半监督学习模块实现域自适应，其具体实施过程与上述的域自适应方法相同或相似，也主要包括以下组成部分：1)在SVM分类器和常规MS方法的基础上提出的基于最近邻支持向量的边缘采样的改进的MS模块，以选取目标领域中对于当前分类器最具有信息量的样本；2)设置了适用于多种分类器的EQS模块，查询出对于分类委员会的分类结果具有最大分歧的样本，具体用熵来衡量信息量；3)主动学习的后处理过程——带有约束条件的半监督学习CSS，对经过主动学习之后目标领域中剩余的大量未标记样本进行进一步利用。

对于该域自适应系统，其具体的实施过程及实现细节与上述的域自适应方法相同或相似，在此不再赘述。

综上所述，本实施例的域自适应方法及系统适用于不同时间同一区域或者不同区域之间影像先验知识的迁移，通过主动学习和半监督学习的方法解决了域自适应性问题，使得不同影像之间的知识得以相互传递和利用，利用已有知识解决未知问题，大大提高了遥感土地覆盖图的生产效率，解决了遥感影像样本选取过程中的人力和时间的重复投入问题。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种遥感影像分类的域自适应方法，其特征在于，该域自适应方法包括：

通过主动学习从目标领域选择出对于当前分类器最具有信息量的未标记样本进行标记，并设置删除查询函数以从源领域的当前训练样本集中删除不适用于目标领域的样本，并根据进行所述标记后的目标领域的样本和进行所述删除后的源领域的当前训练样本集来调整所述当前分类器；以及

通过半监督学习调整经主动学习调整后的所述当前分类器，具体包括；

从通过主动学习后剩余的未标记样本中，选择出符合半监督学习的约束条件的样本；

通过经主动学习调整后的所述当前分类器对选择出的样本进行标记；以及

将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整经主动学习调整后的所述当前分类器。

2.根据权利要求1所述的域自适应方法，其特征在于，所述当前分类器为支持向量机SVM分类器和概率分类器中的任意一者；

对于所述SVM分类器，所述主动学习包括：采用边缘采样MS方法进行主动学习；

对于所述概率分类器，所述主动学习包括：采用熵查询采样EQS方法进行主动学习。

3.根据权利要求2所述的域自适应方法，其特征在于，所述采用MS方法进行主动学习包括：

确定各个未标记样本对应的支持向量和计算各个未标记样本到SVM分类超平面的距离；

从目标领域选择未标记样本进行标记，其中，所选择的未标记样本对应的支持向量各不相同，且到SVM分类超平面的距离不超过设定阈值；以及

将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整当前SVM分类器。

4.根据权利要求2所述的域自适应方法，其特征在于，所述采用EQS方法进行主动学习包括：

计算每个未标记样本被预测为各个可能的类别的概率，并基于计算出的概率计算每个未标记样本的熵；

从目标领域选择具有最大熵的未标记样本进行标记；以及

将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整所述概率分类器。

5.根据权利要求1所述的域自适应方法，其特征在于，当所述当前分类器为SVM分类器时，所述约束条件被设置为：要求未标记样本到对应的间隔边界的距离大于或等于设定阈值，且该未标记样本经分类器处理后得到的标签与该未标记样本的最近邻点的标签相同。

6.根据权利要求1所述的域自适应方法，其特征在于，当所述当前分类器为概率分类器时，所述约束条件被设置为：要求未标记样本相对于当前分类器的熵小于或等于设定阈值，且该未标记样本经分类器处理后得到的标签与该未标记样本的最近邻点的标签相同。

7.一种遥感影像分类的域自适应系统，其特征在于，该域自适应系统包括：

主动学习模块，用于通过主动学习从目标领域选择出对于当前分类器最具有信息量的未标记样本进行标记，并设置删除查询函数以从源领域的当前训练样本集中删除不适用于目标领域的样本，并结合进行所述标记后的目标领域的样本和进行所述删除后的源领域的当前训练样本集来调整所述当前分类器；以及

半监督学习模块，用于通过半监督学习调整经主动学习调整后的所述当前分类器，包括：从通过主动学习后剩余的未标记样本中，选择出符合半监督学习的约束条件的样本；通过经主动学习调整后的所述当前分类器对选择出的样本进行标记；以及将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整经主动学习调整后的所述当前分类器。

8.根据权利要求7所述的域自适应系统，其特征在于，所述主动学习模块包括针对SVM分类器的MS模块和针对概率分类器的EQS模块中的任意一者；

其中，所述MS模块：

用于确定各个未标记样本对应的支持向量和计算各个未标记样本到SVM分类超平面的距离；

用于从目标领域选择未标记样本进行标记，其中，所选择的未标记样本对应的支持向量各不相同，且到SVM分类超平面的距离不超过设定阈值；以及

用于将标记后的样本添加至当前训练样本集以更新训练样本集，并基于更新后的训练样本集调整当前SVM分类器。