CN115272870A

CN115272870A - 基于地学信息和主动学习的遥感样本标注方法

Info

Publication number: CN115272870A
Application number: CN202211135861.1A
Authority: CN
Inventors: 陈婷; 段红伟; 李洁; 董铱斐; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-11-01
Also published as: WO2024061050A1

Abstract

本发明公开了一种基于地学信息和主动学习的遥感样本标注方法，属于遥感图像分类领域，包括：获取遥感样本集；对遥感样本集进行地学计算，得到地学信息；根据地学信息对遥感样本集进行聚类；结合主动学习方法得到已标注样本集和未标注样本集；通过已标注样本集对第一分类器模型进行模型训练，将未标注样本集输入第一分类器模型进行预测，并结合地学信息和样本查询策略进行筛选，得到价值样本集；将价值样本集交由专家进行标注后，将专家标注的价值样本集加入已标注样本集；通过第一分类器模型对未标注样本集进行标注，得到标注结果。本发明的标注方法能够提高标注的准确率。

Description

基于地学信息和主动学习的遥感样本标注方法

技术领域

本发明涉及到遥感图像分类领域，具体涉及一种基于地学信息和主动学习的遥感样本标注方法。

背景技术

本发明面向大区域场景下的遥感样本标注，传统的监督学习方法由于需要标注每个样本，因此，在大区域场景背景下难以得到实际应用，而主动学习作为一种在保证样本标注准确率的同时可以减少样本标注成本的方法。传统的监督学习方法需要专家对样本进行标注，实际上，专家对训练样本的标注过程通常是根据场景的视觉特征来完成的，因此，如果样本在未加筛选之前就直接交给专家进行标注，带来的后果是专家会花费大量的宝贵时间对具有类似信息量的样本进行充分标注，不但浪费大量人工资源，而且会使得训练集的信息非常冗余，这种冗余信息大大降低了训练速度，甚至会产生过拟合的现象。所以，对于卫星遥感图像而言，我们需要一个自动的定义有效训练集的过程，这个训练集的样本数量要尽可能的少而且能有效地提高分类模型的准确率，由此，主动学习应运而生。主动学习需要一些极少数的标注样本去进行分类器的初始化训练，这些标注样本的数量远远少于完整训练一个分类器所需的数量；之后，利用特定的筛选策略从当前待标注的样本中挑选出特定数量的样本，这些挑选出来的样本由人工进行标注；最后这些新标注的样本用于分类器的增量训练。

但是，在大区域或全球尺度下，即使使用主动学习的筛选策略进行标注样本的减量，需要人工标注的样本量依然比较大，导致人工成本非常高，数据处理量大，且训练出来的分类器模型准确率较低，难以完成大区域或全球尺度下的样本标注。主要原因是现有的主动学习方法不能充分利用遥感样本的信息。

发明内容

本发明要解决的技术问题在于综合利用遥感样本的空间特征和统计特征，有机结合地学信息与数据挖掘方法，增加样本标注的准确率。

为实现上述的发明目的，本发明提供了一种基于地学信息和主动学习的遥感样本标注方法，包括：

S1获取遥感样本集，遥感样本集由多个遥感样本组成，遥感样本分为未标注样本和已标注样本；

S2对遥感样本集进行地学计算，得到地学信息，其中，所述地学信息包括高程信息、光谱信息、纹理信息、形状信息、统计计量信息；

S3根据地学信息对遥感样本集进行聚类，得到k个聚类簇和k个聚类中心，其中，每个聚类簇均包括一个聚类中心，k≥1；

S4计算每个聚类中心与对应聚类簇中遥感样本之间的距离，每个聚类簇均选取离聚类中心最近的遥感样本和最远的遥感样本，得到2k个遥感样本；

S5将2k个遥感样本中的未标注样本交给专家进行标注，将专家标注的结果和遥感样本集中的已标注样本组成已标注样本集，并将遥感样本集分为已标注样本集和未标注样本集；

S6通过已标注样本集对第一分类器模型进行模型训练，并判断是否满足第一分类器模型训练终止的条件：

若满足，结束训练，执行步骤S9；

若不满足，执行步骤S7；

S7将未标注样本集输入第一分类器模型进行预测，并结合地学信息和样本查询策略进行筛选，得到价值样本集；

S8将价值样本集交由专家进行标注后，将专家标注的价值样本集加入已标注样本集，并更新未标注样本集后返回至步骤S6；

S9通过所述第一分类器模型对未标注样本集进行标注，得到标注结果。

于本发明一具体实施例中，步骤S3包括：

S31获取每个遥感样本的位置信息，并根据地学信息构建距离计算策略，距离计算策略包括空间距离方法和特征距离方法；

S32基于距离计算策略得到k个初始聚类中心；

S33结合遥感样本的位置信息和距离计算策略对k个初始聚类中心进行迭代优化，得到k个聚类簇和k个聚类中心。

于本发明一具体实施例中，步骤S32包括：

S321从遥感样本集中随机选择一个遥感样本，将该遥感样本作为初始聚类中心，并加入到初始聚类中心集；

S322基于距离计算策略计算单个遥感样本分别与所有的初始聚类中心之间的距离，将最大的距离作为该遥感样本的第一距离，将所有遥感样本的第一距离按从大到小排序，选择第一距离最大的遥感样本作为新的初始聚类中心，并加入初始聚类中心集；

S323 重复步骤S322，直至初始聚类中心集中的初始聚类中心个数达到k个。

于本发明一具体实施例中，步骤S33包括：

S331根据遥感样本的位置信息得到遥感样本的坐标值；

S332基于距离计算策略计算单个遥感样本分别与k个初始聚类中心之间的距离，将最小的距离作为该遥感样本的第二距离；

S333将单个初始聚类中心以及与该初始聚类中心的距离为其第二距离的遥感样本形成一个初始的聚类簇，并将该初始聚类中心作为该聚类簇的初始的聚类中心，得到初始的k个聚类簇和初始的k个聚类中心；

S334在当前的单个聚类簇内，对所有的遥感样本的坐标值求平均值，并计算每个遥感样本的坐标值与平均值之间的差值，将差值最小的坐标值对应的遥感样本作为新的聚类中心，得到新的k个聚类中心；

S335将单个新的聚类中心以及与该聚类中心的距离为其第二距离的遥感样本形成一个新的聚类簇，得到新的k个聚类簇；

S336根据距离计算策略计算每个遥感样本与对应的新的聚类中心之间的距离，并计算所有距离的平方和，得到新的k个聚类簇的误差平方和；

S337 迭代执行步骤S334-S336，每次迭代均得到k个聚类簇及其k个聚类中心、该k个聚类簇的误差平方和，根据相邻两次迭代的误差平方和计算变化值，判断变化值是否满足迭代停止条件，若满足，则停止迭代，得到最终的k个聚类簇和k个聚类中心。

于本发明一具体实施例中，所述距离计算策略为：

选定两个待计算的遥感样本，作为第一样本和第二样本；

根据空间距离方法得到第一样本和第二样本之间的空间距离

；

根据特征距离方法得到第一样本和第二样本之间的特征距离

；

将

和

进行归一化处理，得到归一化处理结果

和

，其中

和

的范围均为[0,1]；

计算

和

的和，作为第一样本和第二样本的距离。

于本发明一具体实施例中，所述空间距离方法为：

根据遥感样本的位置信息构建Delaunay三角网{Del}，{Del}包括多个Delaunay三角形，每个Delaunay三角形均包括三个顶点和相邻边；

获取第一样本和第二样本在Delaunay三角网{Del}中的Delaunay三角形Del¹和Del²；

获取Del¹在其相邻边上的顶点集合{Node1}，获取Del²在其相邻边上的顶点集合{Node2}；

根据{Node1}和{Node2}中每个顶点的坐标得到空间位置最远的两个顶点Node₁和Node₂；

根据空间拓扑关系计算Node₁和Node₂的距离，作为第一样本和第二样本的空间距离

。

于本发明一具体实施例中，Delaunay三角形的相邻边为该Delaunay三角形与其他Delaunay三角形共享的边，且每个Delaunay三角形的相邻边的数量不尽相同。

于本发明一具体实施例中，所述特征距离方法为：

根据地学信息得到第一样本和第二样本的地学信息向量f¹和f²；

计算f¹和f²的Euclidean距离，作为第一样本和第二样本的特征距离

：

。

于本发明一具体实施例中，步骤S7包括：

S71计算未标注样本集中每个未标注样本的信息熵和概率密度，并计算每个未标注样本的信息熵和概率密度的乘积，结合乘积和差异性约束条件筛选未标注样本，得到关键样本；

S72获取与关键样本在相同聚类簇中的已标注样本，作为重要样本；

S73计算每个关键样本与其对应的重要样本之间的特征距离，作为第三距离，将第三距离大于距离阈值的关键样本加入到价值样本集中。

于本发明一具体实施例中，其特征在于：

所述高程信息包括DEM信息、地面坡度信息、地形粗糙度信息；

所述光谱信息包括归一化植被指数、增强植被指数；

所述纹理信息包括灰度共生矩阵信息、灰度运行长度矩阵信息、邻域灰度差矩阵信息；

所述形状信息包括矩形度、伸长度、长轴长、最长直径；

所述统计计量信息包括最大值、最小值、范围、偏度。

本发明提供了一种基于地学信息和主动学习的遥感样本标注方法，综上所述，由于采用上述技术方案，本发明的有益效果是：

（1）本发明基于地学信息进行样本聚类，可以综合利用遥感样本的空间特征和统计特征，得到特征连续且空间连续的聚类簇，并从聚类簇中进行初始样本选择和标注，与现有的主动学习方法相比，可以更好的保证样本的多态性。

（2）本发明可以减少样本标注的成本，迅速提升分类器模型分类效果。

（3）本发明利用结合地学信息的样本查询策略来筛选未标记样本，得到价值样本集，能够得到即具有代表性、又具有信息量的价值样本。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例提供一种基于地学信息和主动学习的遥感样本标注方法，包括：

S1获取遥感样本集，遥感样本集由多个遥感样本组成，遥感样本分为未标注样本和已标注样本。

首先，获取多个遥感样本，包括未标注样本和已标注样本，组成遥感样本集，其中，未标注样本的数量远大于已标注样本的数量。

S2对遥感样本集进行地学计算，得到地学信息，其中，所述地学信息包括高程信息、光谱信息、纹理信息、形状信息、统计计量信息。

其中，所述高程信息包括DEM信息、地面坡度信息、地形粗糙度信息；所述光谱信息包括归一化植被指数、增强植被指数；所述纹理信息包括灰度共生矩阵信息、灰度运行长度矩阵信息、邻域灰度差矩阵信息；所述形状信息包括矩形度、伸长度、长轴长、最长直径；所述统计计量信息包括最大值、最小值、范围、偏度。

具体地，地学信息是用于反映遥感样本中地物实体空间位置分布特征、地物实体的属性等地理信息，通过地学计算方法，如地学数据提取及分析方法，可以得到遥感样本的地学信息。

S3根据地学信息对遥感样本集进行聚类，得到k个聚类簇和k个聚类中心，其中，每个聚类簇均包括一个聚类中心，k≥1。

具体地，在本发明一实施例中，步骤S3包括：

S31获取每个遥感样本的位置信息，并根据地学信息构建距离计算策略，距离计算策略包括空间距离方法和特征距离方法。

在本发明一实施例中，距离计算策略为：

选定两个待计算的遥感样本，作为第一样本和第二样本。

根据空间距离方法得到第一样本和第二样本之间的空间距离

。

具体地，空间距离方法为：

根据遥感样本的位置信息构建Delaunay三角网{Del}，{Del}包括多个Delaunay三角形，每个Delaunay三角形均包括三个顶点和相邻边。

需要说明的是，Delaunay三角网是一系列相连的但不重叠的Delaunay三角形的集合，且这些Delaunay三角形的外接圆不包含这个面域的其他任何点。在根据遥感样本的位置信息构建Delaunay三角网时，利用的是遥感样本在成像时的地理位置，如空间坐标、经纬度等，在Delaunay三角网中，每个遥感样本落在了对应Delaunay三角形的内部。

其中，每个Delaunay三角形均有三个顶点和三条边，当一个Delaunay三角形与另外的Delaunay三角形相连时，即两个Delaunay三角形会共享同一条边，将Delaunay三角形与其他Delaunay三角形共享的边作为该Delaunay三角形的相邻边。而一个Delaunay三角形存在多种情况，当其与一个另外的Delaunay三角形相连时，其相邻边为一条，当其与两个另外的Delaunay三角形相连时，其相邻边为两条，当其与三个另外的Delaunay三角形相连时，其相邻边为三条，因此，每个Delaunay三角形的相邻边的数量不尽相同。

获取第一样本和第二样本在Delaunay三角网{Del}中的Delaunay三角形Del¹和Del²。

获取Del¹在其相邻边上的顶点集合{Node1}，获取Del²在其相邻边上的顶点集合{Node2}。

根据{Node1}和{Node2}中每个顶点的坐标得到空间位置最远的两个顶点Node₁和Node₂。

具体地，根据每个顶点的坐标在空间坐标系中的位置来得到每两个顶点之间的空间位置。

。

具体地，Node₁和Node₂之间的距离为空间距离，不能根据二维平面的方法来进行计算，因此，本实施例采用空间拓扑的计算方法，同时利用Delaunay三角形的相邻边来得到两个点之间的距离，例如，Node₁所在的Del¹与Node₂所在的Del²之间隔了两个Delaunay三角形，记为Del³和Del⁴，Del¹与Del³相连，Del³与Del⁴相连，Del⁴与Del²相连，从Node₁开始出发，然后沿着Del¹的相邻边、Del³的相邻边、Del⁴的相邻边、Del²的相邻边，到Node₁为止，得到两个点的最短空间路径，通过拓扑计算得到两个点之间的距离。

根据特征距离方法得到第一样本和第二样本之间的特征距离

。

具体地，特征距离方法为：

：

其中，地学信息向量根据地学信息进行提取和计算得到，具体可以是高程信息向量、光谱信息向量、纹理信息向量、形状信息向量、统计计量信息向量中的一种或多种，当为多种时，可以对多种的向量进行拼接或融合得到地学信息向量。

将

和

进行归一化处理，得到归一化处理结果

和

，其中

和

的范围均为[0,1]。

计算

和

的和，作为第一样本和第二样本的距离。

S32基于距离计算策略得到k个初始聚类中心。

具体地，步骤S32可以包括：

S321从遥感样本集中随机选择一个遥感样本，将该遥感样本作为初始聚类中心，并加入到初始聚类中心集。

S322基于距离计算策略计算单个遥感样本分别与所有的初始聚类中心之间的距离，将最大的距离作为该遥感样本的第一距离，将所有遥感样本的第一距离按从大到小排序，选择第一距离最大的遥感样本作为新的初始聚类中心，并加入初始聚类中心集。

具体地，以一个实施例来说明步骤S32：

将遥感样本集记为X={X₁,X₂,...,X_n}，n为遥感样本集中遥感样本的数目，从X中随机的选择一个遥感样本X_i，分别计算剩下的n-1个遥感样本{X₁,X₂,...,X_i-1,X_i+1,...,X_n}与X_i之间的距离，将得到的该距离作为{X₁,X₂,...,X_i-1,X_i+1,...,X_n}各自的第一距离，对{X₁,X₂,...,X_i-1,X_i+1,...,X_n}的第一距离进行从大到小的排序，将排在第一个的遥感样本筛选出来，假设该遥感样本为X₁，则将X₁和X_i都作为初始聚类中心，并构建一个初始聚类中心集。

计算剩余的n-2个遥感样本{X₂,...,X_i-1,X_i+1,...,X_n}分别与X_i和X₁之间的距离，将最大的距离作为对应遥感样本的第一距离，例如，X₂与X_i的距离比X₂与X₁的距离大，则X₂的第一距离为其与X_i的距离，同样将{X₂,...,X_i-1,X_i+1,...,X_n}的第一距离进行从大到小的排序，将排在第一个的遥感样本筛选出来作为新的初始聚类中心并加入初始聚类中心集。

按照上述描述的规律依次选择初始聚类中心，直至初始聚类中心集中的初始聚类中心的个数达到k个，本实施例中，k可以取6。

在本发明一实施例中，步骤S33包括：

S331根据遥感样本的位置信息得到遥感样本的坐标值。

具体地，遥感样本的位置信息可以根据遥感样本的元数据得到，其是遥感样本成像时即得到的数据，指的是遥感样本在成像时的实际的地理位置信息，根据位置信息即可得到遥感样本在全球地理坐标系中的坐标值。

S332基于距离计算策略计算单个遥感样本分别与k个初始聚类中心之间的距离，将最小的距离作为该遥感样本的第二距离。

具体地，计算每个遥感样本与k个初始聚类中心之间的距离，即每个遥感样本均可得到k个距离，将这k个距离中最小的作为对应遥感样本的第二距离。

S333将单个初始聚类中心以及与该初始聚类中心的距离为其第二距离的遥感样本形成一个初始的聚类簇，并将该初始聚类中心作为该聚类簇的初始的聚类中心，得到初始的k个聚类簇和初始的k个聚类中心。

具体地，在一个初始的聚类簇中，包括一个初始聚类中心和多个遥感样本，在该初始的聚类簇内，每个遥感样本与初始聚类中心之间的距离均为其第二距离，则将该初始聚类中心记为该初始的聚类簇的初始的聚类中心，最后得到的是初始的k个聚类簇和初始的k个聚类中心。

S334在当前的单个聚类簇内，对所有的遥感样本的坐标值求平均值，并计算每个遥感样本的坐标值与平均值之间的差值，将差值最小的坐标值对应的遥感样本作为新的聚类中心，得到新的k个聚类中心。

具体地，以当前的聚类簇为目标，计算单独的聚类簇内，所有遥感样本的坐标值的平均值，需要说明的是，该处所述的所有的遥感样本指的是除当前聚类中心之外的遥感样本。之后计算每个遥感样本的坐标值与平均值之间的差值，将差值最小的遥感样本作为新的聚类中心，即进行聚类中心的替换，根据上述步骤对所有的当前的聚类中心均进行替换，得到新的k个聚类中心。

S335将单个新的聚类中心以及与该聚类中心的距离为其第二距离的遥感样本形成一个新的聚类簇，得到新的k个聚类簇。

具体地，在得到新的k个聚类中心后，依然根据第二距离来围绕新的k个聚类中心形成新的k个聚类簇，完成聚类簇的更新。

S336根据距离计算策略计算每个遥感样本与对应的新的聚类中心之间的距离，并计算所有距离的平方和，得到新的k个聚类簇的误差平方和。

可以理解的是，以单独的新的聚类簇为对象，计算遥感样本与对应的新的聚类中心之间的距离，即该遥感样本的第二距离，将所有新的聚类簇的遥感样本的第二距离一起计算平方和，得到新的k个聚类簇的误差平方和，即新的k个聚类簇的误差平方和为一个值，其计算公式如下：

其中，SSE表示误差平方和，k为聚类簇的数量，m_i为第i个簇中遥感样本的数量，

是第i个簇中遥感样本与聚类中心的距离。

具体地，迭代停止条件可以是相邻两次迭代得到的误差平方和之间的变化值为0，即误差平方和已经最小。或者迭代停止条件达到了最大迭代次数，例如最大迭代次数为6，则迭代6次后就停止迭代。又或者迭代停止条件为变化值达到阈值，该阈值可以设为0.2。

S4计算每个聚类中心与对应聚类簇中遥感样本之间的距离，每个聚类簇均选取离聚类中心最近的遥感样本和最远的遥感样本，得到2k个遥感样本。

具体地，以单个的聚类簇为对象，计算簇内每个遥感样本与聚类中心之间的距离，该距离仍根据距离计算策略进行计算得到，将距离按照从大到小进行排序，选择第一个遥感样本和最后一个遥感样本，最后可以在k个聚类簇中选取得到2k个遥感样本。

S5将2k个遥感样本中的未标注样本交给专家进行标注，将专家标注的结果和遥感样本集中的已标注样本组成已标注样本集，并将遥感样本集分为已标注样本集和未标注样本集。

具体地，若选取的这2k个遥感样本中包括有未标注样本，则先将其交给专家进行标注，转为已标注样本，然后将所有的遥感样本重新按照是否标注进行划分，得到已标注样本集和未标注样本集。

若满足，结束训练，执行步骤S9；

若不满足，执行步骤S7。

S7将未标注样本集输入第一分类器模型进行预测，并结合地学信息和样本查询策略进行筛选，得到价值样本集。

具体地，步骤S7包括：

S71计算未标注样本集中每个未标注样本的信息熵和概率密度，并计算每个未标注样本的信息熵和概率密度的乘积，结合乘积和差异性约束条件筛选未标注样本，得到关键样本。

S72获取与关键样本在相同聚类簇中的已标注样本，作为重要样本。

具体地，步骤S7采用的是主动学习的方式进行样本查询，本实施例选择用信息熵来测量未标注样本的信息性，定义如下：

其中，

表示未标注样本x属于第j个类别的概率。

另外，本实施例选择用概率密度来估计未标注样本的代表性，定义如下：

其中，m是未标注样本的数量，

是高斯核函数。

计算每个未标注样本的信息熵与概率密度的乘积，并按照从小到大排序，将第一个未标注样本直接选为关键样本，其余的未标注样本则需要满足差异性约束条件。差异性约束条件指的是当前查询的未标注样本与已有的关键样本之间的差异，具体的差异可根据最大的信息熵与概率密度的乘积之差来衡量，即当前查询的未标注样本的乘积与每个已有的关键样本的乘积的差值中最大的值作为该未标注样本的差异，该差异需低于差异性阈值，该差异性阈值可设为0.1。

在查询得到关键样本后，根据每个关键样本所在的聚类簇得到其对应的已标注样本，将这些已标注样本作为关键样本对应的重要样本。

根据地学信息得到关键样本和重要样本的地学信息向量，然后基于特征距离方法计算单个关键样本与其对应的重要样本之间的特征距离，选择最大的特征距离作为该关键样本的第三距离，将所有的关键样本的第三距离与距离阈值进行比较，大于距离阈值的关键样本则加入有价值样本集中。其中，距离阈值可以设为0.5。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。