CN115272870A - 基于地学信息和主动学习的遥感样本标注方法 - Google Patents

基于地学信息和主动学习的遥感样本标注方法 Download PDF

Info

Publication number
CN115272870A
CN115272870A CN202211135861.1A CN202211135861A CN115272870A CN 115272870 A CN115272870 A CN 115272870A CN 202211135861 A CN202211135861 A CN 202211135861A CN 115272870 A CN115272870 A CN 115272870A
Authority
CN
China
Prior art keywords
sample
remote sensing
information
distance
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211135861.1A
Other languages
English (en)
Inventor
陈婷
段红伟
李洁
董铱斐
邹圣兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuhui Spatiotemporal Information Technology Co ltd
Original Assignee
Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuhui Spatiotemporal Information Technology Co ltd filed Critical Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority to CN202211135861.1A priority Critical patent/CN115272870A/zh
Publication of CN115272870A publication Critical patent/CN115272870A/zh
Priority to PCT/CN2023/118178 priority patent/WO2024061050A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于地学信息和主动学习的遥感样本标注方法,属于遥感图像分类领域,包括:获取遥感样本集;对遥感样本集进行地学计算,得到地学信息;根据地学信息对遥感样本集进行聚类;结合主动学习方法得到已标注样本集和未标注样本集;通过已标注样本集对第一分类器模型进行模型训练,将未标注样本集输入第一分类器模型进行预测,并结合地学信息和样本查询策略进行筛选,得到价值样本集;将价值样本集交由专家进行标注后,将专家标注的价值样本集加入已标注样本集;通过第一分类器模型对未标注样本集进行标注,得到标注结果。本发明的标注方法能够提高标注的准确率。

Description

基于地学信息和主动学习的遥感样本标注方法
技术领域
本发明涉及到遥感图像分类领域,具体涉及一种基于地学信息和主动学习的遥感样本标注方法。
背景技术
本发明面向大区域场景下的遥感样本标注,传统的监督学习方法由于需要标注每个样本,因此,在大区域场景背景下难以得到实际应用,而主动学习作为一种在保证样本标注准确率的同时可以减少样本标注成本的方法。传统的监督学习方法需要专家对样本进行标注,实际上,专家对训练样本的标注过程通常是根据场景的视觉特征来完成的,因此,如果样本在未加筛选之前就直接交给专家进行标注,带来的后果是专家会花费大量的宝贵时间对具有类似信息量的样本进行充分标注,不但浪费大量人工资源,而且会使得训练集的信息非常冗余,这种冗余信息大大降低了训练速度,甚至会产生过拟合的现象。所以,对于卫星遥感图像而言,我们需要一个自动的定义有效训练集的过程,这个训练集的样本数量要尽可能的少而且能有效地提高分类模型的准确率,由此,主动学习应运而生。主动学习需要一些极少数的标注样本去进行分类器的初始化训练,这些标注样本的数量远远少于完整训练一个分类器所需的数量;之后,利用特定的筛选策略从当前待标注的样本中挑选出特定数量的样本,这些挑选出来的样本由人工进行标注;最后这些新标注的样本用于分类器的增量训练。
但是,在大区域或全球尺度下,即使使用主动学习的筛选策略进行标注样本的减量,需要人工标注的样本量依然比较大,导致人工成本非常高,数据处理量大,且训练出来的分类器模型准确率较低,难以完成大区域或全球尺度下的样本标注。主要原因是现有的主动学习方法不能充分利用遥感样本的信息。
发明内容
本发明要解决的技术问题在于综合利用遥感样本的空间特征和统计特征,有机结合地学信息与数据挖掘方法,增加样本标注的准确率。
为实现上述的发明目的,本发明提供了一种基于地学信息和主动学习的遥感样本标注方法,包括:
S1获取遥感样本集,遥感样本集由多个遥感样本组成,遥感样本分为未标注样本和已标注样本;
S2对遥感样本集进行地学计算,得到地学信息,其中,所述地学信息包括高程信息、光谱信息、纹理信息、形状信息、统计计量信息;
S3根据地学信息对遥感样本集进行聚类,得到k个聚类簇和k个聚类中心,其中,每个聚类簇均包括一个聚类中心,k≥1;
S4计算每个聚类中心与对应聚类簇中遥感样本之间的距离,每个聚类簇均选取离聚类中心最近的遥感样本和最远的遥感样本,得到2k个遥感样本;
S5将2k个遥感样本中的未标注样本交给专家进行标注,将专家标注的结果和遥感样本集中的已标注样本组成已标注样本集,并将遥感样本集分为已标注样本集和未标注样本集;
S6通过已标注样本集对第一分类器模型进行模型训练,并判断是否满足第一分类器模型训练终止的条件:
若满足,结束训练,执行步骤S9;
若不满足,执行步骤S7;
S7将未标注样本集输入第一分类器模型进行预测,并结合地学信息和样本查询策略进行筛选,得到价值样本集;
S8将价值样本集交由专家进行标注后,将专家标注的价值样本集加入已标注样本集,并更新未标注样本集后返回至步骤S6;
S9通过所述第一分类器模型对未标注样本集进行标注,得到标注结果。
于本发明一具体实施例中,步骤S3包括:
S31获取每个遥感样本的位置信息,并根据地学信息构建距离计算策略,距离计算策略包括空间距离方法和特征距离方法;
S32基于距离计算策略得到k个初始聚类中心;
S33结合遥感样本的位置信息和距离计算策略对k个初始聚类中心进行迭代优化,得到k个聚类簇和k个聚类中心。
于本发明一具体实施例中,步骤S32包括:
S321从遥感样本集中随机选择一个遥感样本,将该遥感样本作为初始聚类中心,并加入到初始聚类中心集;
S322基于距离计算策略计算单个遥感样本分别与所有的初始聚类中心之间的距离,将最大的距离作为该遥感样本的第一距离,将所有遥感样本的第一距离按从大到小排序,选择第一距离最大的遥感样本作为新的初始聚类中心,并加入初始聚类中心集;
S323 重复步骤S322,直至初始聚类中心集中的初始聚类中心个数达到k个。
于本发明一具体实施例中,步骤S33包括:
S331根据遥感样本的位置信息得到遥感样本的坐标值;
S332基于距离计算策略计算单个遥感样本分别与k个初始聚类中心之间的距离,将最小的距离作为该遥感样本的第二距离;
S333将单个初始聚类中心以及与该初始聚类中心的距离为其第二距离的遥感样本形成一个初始的聚类簇,并将该初始聚类中心作为该聚类簇的初始的聚类中心,得到初始的k个聚类簇和初始的k个聚类中心;
S334在当前的单个聚类簇内,对所有的遥感样本的坐标值求平均值,并计算每个遥感样本的坐标值与平均值之间的差值,将差值最小的坐标值对应的遥感样本作为新的聚类中心,得到新的k个聚类中心;
S335将单个新的聚类中心以及与该聚类中心的距离为其第二距离的遥感样本形成一个新的聚类簇,得到新的k个聚类簇;
S336根据距离计算策略计算每个遥感样本与对应的新的聚类中心之间的距离,并计算所有距离的平方和,得到新的k个聚类簇的误差平方和;
S337 迭代执行步骤S334-S336,每次迭代均得到k个聚类簇及其k个聚类中心、该k个聚类簇的误差平方和,根据相邻两次迭代的误差平方和计算变化值,判断变化值是否满足迭代停止条件,若满足,则停止迭代,得到最终的k个聚类簇和k个聚类中心。
于本发明一具体实施例中,所述距离计算策略为:
选定两个待计算的遥感样本,作为第一样本和第二样本;
根据空间距离方法得到第一样本和第二样本之间的空间距离
Figure 507146DEST_PATH_IMAGE001
根据特征距离方法得到第一样本和第二样本之间的特征距离
Figure 764952DEST_PATH_IMAGE002
Figure 663638DEST_PATH_IMAGE003
Figure 734624DEST_PATH_IMAGE004
进行归一化处理,得到归一化处理结果
Figure 9748DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
,其中
Figure 981115DEST_PATH_IMAGE007
Figure 785123DEST_PATH_IMAGE006
的范围均为[0,1];
计算
Figure 107519DEST_PATH_IMAGE008
Figure 920755DEST_PATH_IMAGE006
的和,作为第一样本和第二样本的距离。
于本发明一具体实施例中,所述空间距离方法为:
根据遥感样本的位置信息构建Delaunay三角网{Del},{Del}包括多个Delaunay三角形,每个Delaunay三角形均包括三个顶点和相邻边;
获取第一样本和第二样本在Delaunay三角网{Del}中的Delaunay三角形Del1和Del2
获取Del1在其相邻边上的顶点集合{Node1},获取Del2在其相邻边上的顶点集合{Node2};
根据{Node1}和{Node2}中每个顶点的坐标得到空间位置最远的两个顶点Node1和Node2
根据空间拓扑关系计算Node1和Node2的距离,作为第一样本和第二样本的空间距离
Figure 12207DEST_PATH_IMAGE009
于本发明一具体实施例中,Delaunay三角形的相邻边为该Delaunay三角形与其他Delaunay三角形共享的边,且每个Delaunay三角形的相邻边的数量不尽相同。
于本发明一具体实施例中,所述特征距离方法为:
根据地学信息得到第一样本和第二样本的地学信息向量f1和f2
计算f1和f2的Euclidean距离,作为第一样本和第二样本的特征距离
Figure 252696DEST_PATH_IMAGE010
Figure 937755DEST_PATH_IMAGE011
于本发明一具体实施例中,步骤S7包括:
S71计算未标注样本集中每个未标注样本的信息熵和概率密度,并计算每个未标注样本的信息熵和概率密度的乘积,结合乘积和差异性约束条件筛选未标注样本,得到关键样本;
S72获取与关键样本在相同聚类簇中的已标注样本,作为重要样本;
S73计算每个关键样本与其对应的重要样本之间的特征距离,作为第三距离,将第三距离大于距离阈值的关键样本加入到价值样本集中。
于本发明一具体实施例中,其特征在于:
所述高程信息包括DEM信息、地面坡度信息、地形粗糙度信息;
所述光谱信息包括归一化植被指数、增强植被指数;
所述纹理信息包括灰度共生矩阵信息、灰度运行长度矩阵信息、邻域灰度差矩阵信息;
所述形状信息包括矩形度、伸长度、长轴长、最长直径;
所述统计计量信息包括最大值、最小值、范围、偏度。
本发明提供了一种基于地学信息和主动学习的遥感样本标注方法,综上所述,由于采用上述技术方案,本发明的有益效果是:
(1)本发明基于地学信息进行样本聚类,可以综合利用遥感样本的空间特征和统计特征,得到特征连续且空间连续的聚类簇,并从聚类簇中进行初始样本选择和标注,与现有的主动学习方法相比,可以更好的保证样本的多态性。
(2)本发明可以减少样本标注的成本,迅速提升分类器模型分类效果。
(3)本发明利用结合地学信息的样本查询策略来筛选未标记样本,得到价值样本集,能够得到即具有代表性、又具有信息量的价值样本。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例提供一种基于地学信息和主动学习的遥感样本标注方法,包括:
S1获取遥感样本集,遥感样本集由多个遥感样本组成,遥感样本分为未标注样本和已标注样本。
首先,获取多个遥感样本,包括未标注样本和已标注样本,组成遥感样本集,其中,未标注样本的数量远大于已标注样本的数量。
S2对遥感样本集进行地学计算,得到地学信息,其中,所述地学信息包括高程信息、光谱信息、纹理信息、形状信息、统计计量信息。
其中,所述高程信息包括DEM信息、地面坡度信息、地形粗糙度信息;所述光谱信息包括归一化植被指数、增强植被指数;所述纹理信息包括灰度共生矩阵信息、灰度运行长度矩阵信息、邻域灰度差矩阵信息;所述形状信息包括矩形度、伸长度、长轴长、最长直径;所述统计计量信息包括最大值、最小值、范围、偏度。
具体地,地学信息是用于反映遥感样本中地物实体空间位置分布特征、地物实体的属性等地理信息,通过地学计算方法,如地学数据提取及分析方法,可以得到遥感样本的地学信息。
S3根据地学信息对遥感样本集进行聚类,得到k个聚类簇和k个聚类中心,其中,每个聚类簇均包括一个聚类中心,k≥1。
具体地,在本发明一实施例中,步骤S3包括:
S31获取每个遥感样本的位置信息,并根据地学信息构建距离计算策略,距离计算策略包括空间距离方法和特征距离方法。
在本发明一实施例中,距离计算策略为:
选定两个待计算的遥感样本,作为第一样本和第二样本。
根据空间距离方法得到第一样本和第二样本之间的空间距离
Figure 180780DEST_PATH_IMAGE001
具体地,空间距离方法为:
根据遥感样本的位置信息构建Delaunay三角网{Del},{Del}包括多个Delaunay三角形,每个Delaunay三角形均包括三个顶点和相邻边。
需要说明的是,Delaunay三角网是一系列相连的但不重叠的Delaunay三角形的集合,且这些Delaunay三角形的外接圆不包含这个面域的其他任何点。在根据遥感样本的位置信息构建Delaunay三角网时,利用的是遥感样本在成像时的地理位置,如空间坐标、经纬度等,在Delaunay三角网中,每个遥感样本落在了对应Delaunay三角形的内部。
其中,每个Delaunay三角形均有三个顶点和三条边,当一个Delaunay三角形与另外的Delaunay三角形相连时,即两个Delaunay三角形会共享同一条边,将Delaunay三角形与其他Delaunay三角形共享的边作为该Delaunay三角形的相邻边。而一个Delaunay三角形存在多种情况,当其与一个另外的Delaunay三角形相连时,其相邻边为一条,当其与两个另外的Delaunay三角形相连时,其相邻边为两条,当其与三个另外的Delaunay三角形相连时,其相邻边为三条,因此,每个Delaunay三角形的相邻边的数量不尽相同。
获取第一样本和第二样本在Delaunay三角网{Del}中的Delaunay三角形Del1和Del2
获取Del1在其相邻边上的顶点集合{Node1},获取Del2在其相邻边上的顶点集合{Node2}。
根据{Node1}和{Node2}中每个顶点的坐标得到空间位置最远的两个顶点Node1和Node2
具体地,根据每个顶点的坐标在空间坐标系中的位置来得到每两个顶点之间的空间位置。
根据空间拓扑关系计算Node1和Node2的距离,作为第一样本和第二样本的空间距离
Figure 2105DEST_PATH_IMAGE012
具体地,Node1和Node2之间的距离为空间距离,不能根据二维平面的方法来进行计算,因此,本实施例采用空间拓扑的计算方法,同时利用Delaunay三角形的相邻边来得到两个点之间的距离,例如,Node1所在的Del1与Node2所在的Del2之间隔了两个Delaunay三角形,记为Del3和Del4,Del1与Del3相连,Del3与Del4相连,Del4与Del2相连,从Node1开始出发,然后沿着Del1的相邻边、Del3的相邻边、Del4的相邻边、Del2的相邻边,到Node1为止,得到两个点的最短空间路径,通过拓扑计算得到两个点之间的距离。
根据特征距离方法得到第一样本和第二样本之间的特征距离
Figure 679074DEST_PATH_IMAGE013
具体地,特征距离方法为:
根据地学信息得到第一样本和第二样本的地学信息向量f1和f2
计算f1和f2的Euclidean距离,作为第一样本和第二样本的特征距离
Figure 710484DEST_PATH_IMAGE014
Figure 599943DEST_PATH_IMAGE015
其中,地学信息向量根据地学信息进行提取和计算得到,具体可以是高程信息向量、光谱信息向量、纹理信息向量、形状信息向量、统计计量信息向量中的一种或多种,当为多种时,可以对多种的向量进行拼接或融合得到地学信息向量。
Figure 931567DEST_PATH_IMAGE016
Figure 248279DEST_PATH_IMAGE017
进行归一化处理,得到归一化处理结果
Figure 766985DEST_PATH_IMAGE018
Figure 725714DEST_PATH_IMAGE019
,其中
Figure 521631DEST_PATH_IMAGE020
Figure 166502DEST_PATH_IMAGE019
的范围均为[0,1]。
计算
Figure 47870DEST_PATH_IMAGE021
Figure 403765DEST_PATH_IMAGE019
的和,作为第一样本和第二样本的距离。
S32基于距离计算策略得到k个初始聚类中心。
具体地,步骤S32可以包括:
S321从遥感样本集中随机选择一个遥感样本,将该遥感样本作为初始聚类中心,并加入到初始聚类中心集。
S322基于距离计算策略计算单个遥感样本分别与所有的初始聚类中心之间的距离,将最大的距离作为该遥感样本的第一距离,将所有遥感样本的第一距离按从大到小排序,选择第一距离最大的遥感样本作为新的初始聚类中心,并加入初始聚类中心集。
S323 重复步骤S322,直至初始聚类中心集中的初始聚类中心个数达到k个。
具体地,以一个实施例来说明步骤S32:
将遥感样本集记为X={X1,X2,...,Xn},n为遥感样本集中遥感样本的数目,从X中随机的选择一个遥感样本Xi,分别计算剩下的n-1个遥感样本{X1,X2,...,Xi-1,Xi+1,...,Xn}与Xi之间的距离,将得到的该距离作为{X1,X2,...,Xi-1,Xi+1,...,Xn}各自的第一距离,对{X1,X2,...,Xi-1,Xi+1,...,Xn}的第一距离进行从大到小的排序,将排在第一个的遥感样本筛选出来,假设该遥感样本为X1,则将X1和Xi都作为初始聚类中心,并构建一个初始聚类中心集。
计算剩余的n-2个遥感样本{X2,...,Xi-1,Xi+1,...,Xn}分别与Xi和X1之间的距离,将最大的距离作为对应遥感样本的第一距离,例如,X2与Xi的距离比X2与X1的距离大,则X2的第一距离为其与Xi的距离,同样将{X2,...,Xi-1,Xi+1,...,Xn}的第一距离进行从大到小的排序,将排在第一个的遥感样本筛选出来作为新的初始聚类中心并加入初始聚类中心集。
按照上述描述的规律依次选择初始聚类中心,直至初始聚类中心集中的初始聚类中心的个数达到k个,本实施例中,k可以取6。
S33结合遥感样本的位置信息和距离计算策略对k个初始聚类中心进行迭代优化,得到k个聚类簇和k个聚类中心。
在本发明一实施例中,步骤S33包括:
S331根据遥感样本的位置信息得到遥感样本的坐标值。
具体地,遥感样本的位置信息可以根据遥感样本的元数据得到,其是遥感样本成像时即得到的数据,指的是遥感样本在成像时的实际的地理位置信息,根据位置信息即可得到遥感样本在全球地理坐标系中的坐标值。
S332基于距离计算策略计算单个遥感样本分别与k个初始聚类中心之间的距离,将最小的距离作为该遥感样本的第二距离。
具体地,计算每个遥感样本与k个初始聚类中心之间的距离,即每个遥感样本均可得到k个距离,将这k个距离中最小的作为对应遥感样本的第二距离。
S333将单个初始聚类中心以及与该初始聚类中心的距离为其第二距离的遥感样本形成一个初始的聚类簇,并将该初始聚类中心作为该聚类簇的初始的聚类中心,得到初始的k个聚类簇和初始的k个聚类中心。
具体地,在一个初始的聚类簇中,包括一个初始聚类中心和多个遥感样本,在该初始的聚类簇内,每个遥感样本与初始聚类中心之间的距离均为其第二距离,则将该初始聚类中心记为该初始的聚类簇的初始的聚类中心,最后得到的是初始的k个聚类簇和初始的k个聚类中心。
S334在当前的单个聚类簇内,对所有的遥感样本的坐标值求平均值,并计算每个遥感样本的坐标值与平均值之间的差值,将差值最小的坐标值对应的遥感样本作为新的聚类中心,得到新的k个聚类中心。
具体地,以当前的聚类簇为目标,计算单独的聚类簇内,所有遥感样本的坐标值的平均值,需要说明的是,该处所述的所有的遥感样本指的是除当前聚类中心之外的遥感样本。之后计算每个遥感样本的坐标值与平均值之间的差值,将差值最小的遥感样本作为新的聚类中心,即进行聚类中心的替换,根据上述步骤对所有的当前的聚类中心均进行替换,得到新的k个聚类中心。
S335将单个新的聚类中心以及与该聚类中心的距离为其第二距离的遥感样本形成一个新的聚类簇,得到新的k个聚类簇。
具体地,在得到新的k个聚类中心后,依然根据第二距离来围绕新的k个聚类中心形成新的k个聚类簇,完成聚类簇的更新。
S336根据距离计算策略计算每个遥感样本与对应的新的聚类中心之间的距离,并计算所有距离的平方和,得到新的k个聚类簇的误差平方和。
可以理解的是,以单独的新的聚类簇为对象,计算遥感样本与对应的新的聚类中心之间的距离,即该遥感样本的第二距离,将所有新的聚类簇的遥感样本的第二距离一起计算平方和,得到新的k个聚类簇的误差平方和,即新的k个聚类簇的误差平方和为一个值,其计算公式如下:
Figure 319768DEST_PATH_IMAGE022
其中,SSE表示误差平方和,k为聚类簇的数量,mi为第i个簇中遥感样本的数量,
Figure 243862DEST_PATH_IMAGE023
是第i个簇中遥感样本与聚类中心的距离。
S337 迭代执行步骤S334-S336,每次迭代均得到k个聚类簇及其k个聚类中心、该k个聚类簇的误差平方和,根据相邻两次迭代的误差平方和计算变化值,判断变化值是否满足迭代停止条件,若满足,则停止迭代,得到最终的k个聚类簇和k个聚类中心。
具体地,迭代停止条件可以是相邻两次迭代得到的误差平方和之间的变化值为0,即误差平方和已经最小。或者迭代停止条件达到了最大迭代次数,例如最大迭代次数为6,则迭代6次后就停止迭代。又或者迭代停止条件为变化值达到阈值,该阈值可以设为0.2。
S4计算每个聚类中心与对应聚类簇中遥感样本之间的距离,每个聚类簇均选取离聚类中心最近的遥感样本和最远的遥感样本,得到2k个遥感样本。
具体地,以单个的聚类簇为对象,计算簇内每个遥感样本与聚类中心之间的距离,该距离仍根据距离计算策略进行计算得到,将距离按照从大到小进行排序,选择第一个遥感样本和最后一个遥感样本,最后可以在k个聚类簇中选取得到2k个遥感样本。
S5将2k个遥感样本中的未标注样本交给专家进行标注,将专家标注的结果和遥感样本集中的已标注样本组成已标注样本集,并将遥感样本集分为已标注样本集和未标注样本集。
具体地,若选取的这2k个遥感样本中包括有未标注样本,则先将其交给专家进行标注,转为已标注样本,然后将所有的遥感样本重新按照是否标注进行划分,得到已标注样本集和未标注样本集。
S6通过已标注样本集对第一分类器模型进行模型训练,并判断是否满足第一分类器模型训练终止的条件:
若满足,结束训练,执行步骤S9;
若不满足,执行步骤S7。
S7将未标注样本集输入第一分类器模型进行预测,并结合地学信息和样本查询策略进行筛选,得到价值样本集。
具体地,步骤S7包括:
S71计算未标注样本集中每个未标注样本的信息熵和概率密度,并计算每个未标注样本的信息熵和概率密度的乘积,结合乘积和差异性约束条件筛选未标注样本,得到关键样本。
S72获取与关键样本在相同聚类簇中的已标注样本,作为重要样本。
S73计算每个关键样本与其对应的重要样本之间的特征距离,作为第三距离,将第三距离大于距离阈值的关键样本加入到价值样本集中。
具体地,步骤S7采用的是主动学习的方式进行样本查询,本实施例选择用信息熵来测量未标注样本的信息性,定义如下:
Figure 737160DEST_PATH_IMAGE024
其中,
Figure 772112DEST_PATH_IMAGE025
表示未标注样本x属于第j个类别的概率。
另外,本实施例选择用概率密度来估计未标注样本的代表性,定义如下:
Figure 667256DEST_PATH_IMAGE026
其中,m是未标注样本的数量,
Figure 762251DEST_PATH_IMAGE027
是高斯核函数。
计算每个未标注样本的信息熵与概率密度的乘积,并按照从小到大排序,将第一个未标注样本直接选为关键样本,其余的未标注样本则需要满足差异性约束条件。差异性约束条件指的是当前查询的未标注样本与已有的关键样本之间的差异,具体的差异可根据最大的信息熵与概率密度的乘积之差来衡量,即当前查询的未标注样本的乘积与每个已有的关键样本的乘积的差值中最大的值作为该未标注样本的差异,该差异需低于差异性阈值,该差异性阈值可设为0.1。
在查询得到关键样本后,根据每个关键样本所在的聚类簇得到其对应的已标注样本,将这些已标注样本作为关键样本对应的重要样本。
根据地学信息得到关键样本和重要样本的地学信息向量,然后基于特征距离方法计算单个关键样本与其对应的重要样本之间的特征距离,选择最大的特征距离作为该关键样本的第三距离,将所有的关键样本的第三距离与距离阈值进行比较,大于距离阈值的关键样本则加入有价值样本集中。其中,距离阈值可以设为0.5。
S8将价值样本集交由专家进行标注后,将专家标注的价值样本集加入已标注样本集,并更新未标注样本集后返回至步骤S6;
S9通过所述第一分类器模型对未标注样本集进行标注,得到标注结果。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,包括以下步骤:
S1获取遥感样本集,遥感样本集由多个遥感样本组成,遥感样本分为未标注样本和已标注样本;
S2对遥感样本集进行地学计算,得到地学信息,其中,所述地学信息包括高程信息、光谱信息、纹理信息、形状信息、统计计量信息;
S3根据地学信息对遥感样本集进行聚类,得到k个聚类簇和k个聚类中心,其中,每个聚类簇均包括一个聚类中心,k≥1;
S4计算每个聚类中心与对应聚类簇中遥感样本之间的距离,每个聚类簇均选取离聚类中心最近的遥感样本和最远的遥感样本,得到2k个遥感样本;
S5将2k个遥感样本中的未标注样本交给专家进行标注,将专家标注的结果和遥感样本集中的已标注样本组成已标注样本集,并将遥感样本集分为已标注样本集和未标注样本集;
S6通过已标注样本集对第一分类器模型进行模型训练,并判断是否满足第一分类器模型训练终止的条件:
若满足,结束训练,执行步骤S9;
若不满足,执行步骤S7;
S7将未标注样本集输入第一分类器模型进行预测,并结合地学信息和样本查询策略进行筛选,得到价值样本集;
S8将价值样本集交由专家进行标注后,将专家标注的价值样本集加入已标注样本集,并更新未标注样本集后返回至步骤S6;
S9通过第一分类器模型对未标注样本集进行标注,得到标注结果。
2.如权利要求1所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,步骤S3包括:
S31获取每个遥感样本的位置信息,并根据地学信息构建距离计算策略,距离计算策略包括空间距离方法和特征距离方法;
S32基于距离计算策略得到k个初始聚类中心;
S33结合遥感样本的位置信息和距离计算策略对k个初始聚类中心进行迭代优化,得到k个聚类簇和k个聚类中心。
3.如权利要求2所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,步骤S32包括:
S321从遥感样本集中随机选择一个遥感样本,将该遥感样本作为初始聚类中心,并加入到初始聚类中心集;
S322基于距离计算策略计算单个遥感样本分别与所有的初始聚类中心之间的距离,将最大的距离作为该遥感样本的第一距离,将所有遥感样本的第一距离按从大到小排序,选择第一距离最大的遥感样本作为新的初始聚类中心,并加入初始聚类中心集;
S323 重复步骤S322,直至初始聚类中心集中的初始聚类中心个数达到k个。
4.如权利要求3所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,步骤S33包括:
S331根据遥感样本的位置信息得到遥感样本的坐标值;
S332基于距离计算策略计算单个遥感样本分别与k个初始聚类中心之间的距离,将最小的距离作为该遥感样本的第二距离;
S333将单个初始聚类中心以及与该初始聚类中心的距离为其第二距离的遥感样本形成一个初始的聚类簇,并将该初始聚类中心作为该聚类簇的初始的聚类中心,得到初始的k个聚类簇和初始的k个聚类中心;
S334在当前的单个聚类簇内,对所有的遥感样本的坐标值求平均值,并计算每个遥感样本的坐标值与平均值之间的差值,将差值最小的坐标值对应的遥感样本作为新的聚类中心,得到新的k个聚类中心;
S335将单个新的聚类中心以及与该聚类中心的距离为其第二距离的遥感样本形成一个新的聚类簇,得到新的k个聚类簇;
S336根据距离计算策略计算每个遥感样本与对应的新的聚类中心之间的距离,并计算所有距离的平方和,得到新的k个聚类簇的误差平方和;
S337 迭代执行步骤S334-S336,每次迭代均得到k个聚类簇及其k个聚类中心、该k个聚类簇的误差平方和,根据相邻两次迭代的误差平方和计算变化值,判断变化值是否满足迭代停止条件,若满足,则停止迭代,得到最终的k个聚类簇和k个聚类中心。
5.如权利要求2所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,所述距离计算策略为:
选定两个待计算的遥感样本,作为第一样本和第二样本;
根据空间距离方法得到第一样本和第二样本之间的空间距离
Figure 951570DEST_PATH_IMAGE001
根据特征距离方法得到第一样本和第二样本之间的特征距离
Figure 524634DEST_PATH_IMAGE002
Figure 775749DEST_PATH_IMAGE001
Figure 41645DEST_PATH_IMAGE002
进行归一化处理,得到归一化处理结果
Figure 509536DEST_PATH_IMAGE003
Figure 151870DEST_PATH_IMAGE004
,其中
Figure 896972DEST_PATH_IMAGE003
Figure 458403DEST_PATH_IMAGE004
的范围均为[0,1];
计算
Figure 23377DEST_PATH_IMAGE003
Figure 62877DEST_PATH_IMAGE005
的和,作为第一样本和第二样本的距离。
6.如权利要求5所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,所述空间距离方法为:
根据遥感样本的位置信息构建Delaunay三角网{Del},{Del}包括多个Delaunay三角形,每个Delaunay三角形均包括三个顶点和相邻边;
获取第一样本和第二样本在Delaunay三角网{Del}中的Delaunay三角形Del1和Del2
获取Del1在其相邻边上的顶点集合{Node1},获取Del2在其相邻边上的顶点集合{Node2};
根据{Node1}和{Node2}中每个顶点的坐标得到空间位置最远的两个顶点Node1和Node2
根据空间拓扑关系计算Node1和Node2的距离,作为第一样本和第二样本的空间距离
Figure 928065DEST_PATH_IMAGE001
7.如权利要求6所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,Delaunay三角形的相邻边为该Delaunay三角形与其他Delaunay三角形共享的边,且每个Delaunay三角形的相邻边的数量不尽相同。
8.如权利要求5所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,所述特征距离方法为:
根据地学信息得到第一样本和第二样本的地学信息向量f1和f2
计算f1和f2的Euclidean距离,作为第一样本和第二样本的特征距离
Figure 161862DEST_PATH_IMAGE002
Figure 479711DEST_PATH_IMAGE006
9.如权利要求8所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于,步骤S7包括:
S71计算未标注样本集中每个未标注样本的信息熵和概率密度,并计算每个未标注样本的信息熵和概率密度的乘积,结合乘积和差异性约束条件筛选未标注样本,得到关键样本;
S72获取与关键样本在相同聚类簇中的已标注样本,作为重要样本;
S73计算每个关键样本与其对应的重要样本之间的特征距离,作为第三距离,将第三距离大于距离阈值的关键样本加入到价值样本集中。
10.如权利要求1所述的一种基于地学信息和主动学习的遥感样本标注方法,其特征在于:
所述高程信息包括DEM信息、地面坡度信息、地形粗糙度信息;
所述光谱信息包括归一化植被指数、增强植被指数;
所述纹理信息包括灰度共生矩阵信息、灰度运行长度矩阵信息、邻域灰度差矩阵信息;
所述形状信息包括矩形度、伸长度、长轴长、最长直径;
所述统计计量信息包括最大值、最小值、范围、偏度。
CN202211135861.1A 2022-09-19 2022-09-19 基于地学信息和主动学习的遥感样本标注方法 Pending CN115272870A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211135861.1A CN115272870A (zh) 2022-09-19 2022-09-19 基于地学信息和主动学习的遥感样本标注方法
PCT/CN2023/118178 WO2024061050A1 (zh) 2022-09-19 2023-09-12 基于地学信息和主动学习的遥感样本标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211135861.1A CN115272870A (zh) 2022-09-19 2022-09-19 基于地学信息和主动学习的遥感样本标注方法

Publications (1)

Publication Number Publication Date
CN115272870A true CN115272870A (zh) 2022-11-01

Family

ID=83757662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211135861.1A Pending CN115272870A (zh) 2022-09-19 2022-09-19 基于地学信息和主动学习的遥感样本标注方法

Country Status (2)

Country Link
CN (1) CN115272870A (zh)
WO (1) WO2024061050A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024061050A1 (zh) * 2022-09-19 2024-03-28 北京数慧时空信息技术有限公司 基于地学信息和主动学习的遥感样本标注方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710894B (zh) * 2018-04-17 2022-06-28 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
WO2020202594A1 (en) * 2019-04-04 2020-10-08 Nec Corporation Learning system, method and program
CN110210534B (zh) * 2019-05-21 2022-09-02 河海大学 基于多包融合的高分遥感图像场景多标签分类方法
US11556742B2 (en) * 2020-08-03 2023-01-17 International Business Machines Corporation Training machine learning models to exclude ambiguous data samples
CN114627390B (zh) * 2022-05-12 2022-08-16 北京数慧时空信息技术有限公司 一种改进的主动学习遥感样本标记方法
CN115272870A (zh) * 2022-09-19 2022-11-01 北京数慧时空信息技术有限公司 基于地学信息和主动学习的遥感样本标注方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024061050A1 (zh) * 2022-09-19 2024-03-28 北京数慧时空信息技术有限公司 基于地学信息和主动学习的遥感样本标注方法

Also Published As

Publication number Publication date
WO2024061050A1 (zh) 2024-03-28

Similar Documents

Publication Publication Date Title
CN109410321B (zh) 基于卷积神经网络的三维重建方法
CN111191566B (zh) 基于像素分类的光学遥感图像多目标检测方法
CN111199214B (zh) 一种残差网络多光谱图像地物分类方法
CN112101278A (zh) 基于k近邻特征提取和深度学习的宅基地点云分类方法
CN112132818B (zh) 基于图卷积神经网络构建的肺结节检测和临床分析方法
CN109255781B (zh) 一种面向对象的多光谱高分辨率遥感影像变化检测方法
CN111401468B (zh) 一种基于共享近邻的权重自更新多视角谱聚类方法
CN108428220B (zh) 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法
Han et al. Parts4Feature: Learning 3D global features from generally semantic parts in multiple views
CN110309780A (zh) 基于bfd-iga-svm模型的高分辨率影像房屋信息快速监督识别
CN113177592B (zh) 一种图像分割方法、装置、计算机设备及存储介质
CN111611960B (zh) 一种基于多层感知神经网络大区域地表覆盖分类方法
WO2024061050A1 (zh) 基于地学信息和主动学习的遥感样本标注方法
CN112115806B (zh) 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法
CN109300115B (zh) 一种面向对象的多光谱高分辨率遥感影像变化检测方法
CN112241676A (zh) 一种地形杂物自动识别的方法
CN115082716A (zh) 一种面向道路精细重建的多源点云粗匹配算法
CN110136143A (zh) 基于admm算法的马氏场下多分辨率遥感图像分割方法
CN110580497B (zh) 一种基于旋转不变性的空间场景匹配方法
CN109800690B (zh) 一种非线性高光谱影像混合像元分解方法及装置
CN111210433A (zh) 一种基于各向异性势函数的马氏场遥感图像分割方法
CN107492101B (zh) 基于自适应构造最优图的多模态鼻咽肿瘤分割算法
Tao et al. Optimal selection from extremely redundant satellite images for efficient large-scale mapping
CN114626459A (zh) 使用粒子群优化多核支持向量机的高光谱图像空谱联合分类方法及系统
CN114511571A (zh) 一种点云数据语义分割方法、系统及相关组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination