CN114266932A - 一种基于自学习的遥感多光谱数据半监督标注方法 - Google Patents

一种基于自学习的遥感多光谱数据半监督标注方法 Download PDF

Info

Publication number
CN114266932A
CN114266932A CN202111492310.6A CN202111492310A CN114266932A CN 114266932 A CN114266932 A CN 114266932A CN 202111492310 A CN202111492310 A CN 202111492310A CN 114266932 A CN114266932 A CN 114266932A
Authority
CN
China
Prior art keywords
data
remote sensing
sensing multispectral
self
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111492310.6A
Other languages
English (en)
Inventor
曹禹
黄艳金
王生杰
蔡宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Forestry Star Beijing Technology Information Co ltd
Original Assignee
China Forestry Star Beijing Technology Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Forestry Star Beijing Technology Information Co ltd filed Critical China Forestry Star Beijing Technology Information Co ltd
Priority to CN202111492310.6A priority Critical patent/CN114266932A/zh
Publication of CN114266932A publication Critical patent/CN114266932A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

一种基于自学习的遥感多光谱数据半监督标注方法,涉及数据标注领域,包括:获取研究区域内的遥感多光谱影像数据,确定待分类目标的类别信息,将遥感多光谱影像数据进行图像融合;在研究区域内选择样地,记录样地内待分类目标的类别信息,结合融合遥感多光谱影像数据确定样地内待分类目标与融合遥感多光谱影像数据的像素对应关系,获取融合遥感多光谱影像数据的像素类别信息;将种子点数据作为初始带标签数据,利用主成分分析方法去除波段之间的多余信息;利用处理后的带标签数据采用随机森林算法构建分类模型;对无标签数据进行分类,剔除异常点,多次迭代后获得自标注数据集。本发明对手动标注数据量要求低,精度高,分类速度快,抗噪能力强。

Description

一种基于自学习的遥感多光谱数据半监督标注方法
技术领域
本发明涉及数据标注技术领域,具体涉及一种基于自学习的遥感多光谱数据半监督标注方法。
背景技术
传统地理学、环境科学、地球科学研究所需的数据都是由地面监测站或者实地考察获取的,存在周期长、耗时长、耗费高等问题。而遥感技术极大的改善了以上几点,具有较短周期的海洋卫星可以在几个小时内获取全球影像,而陆地资源卫星在10+天内即可获取全球地表信息。遥感技术的应用大大缩短了数据采集的时间,降低了数据采集的费用,同时所采集的多时相的数据对于演变的研究具有重要意义。
随着一系列技术上的突破,人工智能在世界科技领域已经渐渐的驶进了高速车道。人工智能的发展离不开数据标注,数据标注在人工智能的高速路上,作为基石,已成为了众多重要环节之中的重中之重。遥感影像目标检测是遥感图像处理领域中的研究热点,在军事和民用等领域应用广泛,遥感数据具有分辨率高、数据量增长快的特点,遥感数据的标注是遥感数据管理、理解的关键,为后续遥感自动解译算法的开发提供基础,保证算法释放AI和机器学习的全部潜力,帮助机器学习程序带来最大的价值。
数据标注在当前阶段仍属于劳动密集型产业,人工在整个流程中扮演着举足轻重的角色。遥感数据分辨率高,人工标注工作量大,地面真实情况的收集是一项非常繁琐和耗时的工作,有时也非常昂贵,特别是在通常依靠野外调查来收集地面真实情况的遥感领域,因此,人工标注方式较难实现大区域的数据标注。因此。想要提高数据标注的效率与质量,就需要减少人力在其中的工作量,这就需要依靠高效率与高质量的数据标注工具。公开号为CN113111716A的中国专利公开了“一种基于深度学习的遥感影像半自动标注方法和装置”,提出了一种半自动标注方法,该方法基于公开的遥感数据集训练全卷积神经网络,利用该网络进行数据的自动标注,根据标注的不确定行度量值确认是否需要人工干预,完成整个半自动标注流程。该方法受限于待标注数据需要与公开数据集波段一致,无法在波段不一致的数据上实现半自动标注,不具有普遍适用性。并且大多的标注方法仅是针对可见光的三波段数据进行标注,而针对多光谱数据进行标注的方法较少。公开号为CN111079847A的中国专利公开了“一种基于深度学习的遥感影像自动标注方法”,该方法将电子地图与遥感影像配准,再将从电子地图提取建筑物和道路的矢量数据映射到遥感影像上,基于映射的数据训练多任务深度学习模型,通过深度神经网络对测试集进行遥感影像分类完成数据集的自动标注。该方法基于电子地图提取目标,只适用于人工建筑、道路等城市目标,例如:道路、房屋、车辆、飞机等目标,而自然环境的目标种类较少,自动标注的类别受限。
发明内容
为了解决现有遥感数据标注方法存在的人工标注工作量大且难实现大区域的数据标注、目标种类受限、波段受限的问题,本发明提供一种基于自学习的遥感多光谱数据半监督标注方法。
本发明为解决技术问题所采用的技术方案如下:
本发明的一种基于自学习的遥感多光谱数据半监督标注方法,主要包括以下步骤:
步骤一、数据获取及融合
获取研究区域内的遥感多光谱影像数据,确定待分类目标的类别信息,将遥感多光谱影像数据进行图像融合,获得融合遥感多光谱影像数据;
步骤二、种子点获取
在研究区域内选择样地,记录样地内待分类目标的类别信息,结合融合遥感多光谱影像数据确定样地内待分类目标与融合遥感多光谱影像数据的像素对应关系,获取融合遥感多光谱影像数据的像素类别信息,完成种子点获取;
步骤三、带标签数据预处理
将步骤二生成的种子点数据作为初始带标签数据,融合遥感多光谱影像数据的每个像素点均包含多个波段的光谱信息,不同波段存在较高的相关性,利用主成分分析方法去除波段之间的多余信息;
步骤四、构建分类模型
利用步骤三中预处理后的带标签数据采用随机森林算法构建分类模型;
步骤五、异常点去除
利用步骤四构建的分类模型对无标签数据进行分类,同时获取分类类别的置信度,置信度小于设定值的被认为是异常点,剔除异常点后的数据作为新的带标签数据集进行下一轮迭代,重复步骤三至步骤五获取最终的自标注数据集。
进一步的,步骤二中,每块样地面积均为50*50平方米。
进一步的,步骤二中,所述样地覆盖所有感兴趣的类别。
进一步的,步骤二中,每块样地的位置均采用全球定位系统GPS进行测量,测量精度在1m以内。
进一步的,步骤三的具体操作流程如下:
1)利用带标签数据构建矩阵X=(X1,X2,...,Xp),X是一个n*p的矩阵,n为遥感多光谱影像数据谱段的数量,p为带标签数据的数量,Xj是一个n*1的列向量,表示第j个种子点的多光谱信息,1≤j≤p;
2)将X的每一行分别进行零均值化;
3)求出协方差矩阵
Figure BDA0003398860170000041
表示零均值化后的矩阵,T表示矩阵转置,
Figure BDA0003398860170000042
表示矩阵
Figure BDA0003398860170000043
的转置;
4)求解协方差矩阵的特征值及对应的特征向量;
5)将特征向量对应的特征值从大到小排序,取前k个特征值及特征向量,使得k为满足
Figure BDA0003398860170000044
的最小值,λi为排序后的特征值;
6)降维后的数据为
Figure BDA0003398860170000045
Q为k个特征值对应的特征向量,维度为k*n;该数据Y即为去除了波段之间多余信息的带标签数据。
更进一步的,步骤三的2)中,X的每一行均表示一个遥感多光谱影像数据谱段。
进一步的,步骤四中,所述随机森林算法中,随机森林中每棵树的生成规则为:
1)如果步骤三获取的带标签数据集大小为p,对于每棵树,采用有放回抽样方式随机抽取p个训练样本,作为该棵树的训练集;
2)每个训练样本的特征维度为k,利用袋外错误率确定常数m,随机地从k个特征值中选择m个特征子集,每次树分裂时,从这m个特征子集中选择最优的特征;
3)每棵树尽最大可能生长,不进行剪枝。
更进一步的,步骤四的2)中,m的确定步骤为:
a)对每个训练样本,计算作为袋外样本的分类结果;
b)利用投票方式简单确认该训练样本的分类类别;
c)用误分样本数量占训练样本总数的比例作为袋外错误率。
进一步的,步骤五中,所述置信度的设定值为0.4。
本发明的有益效果是:
本发明的一种基于自学习的遥感多光谱数据半监督标注方法,通过手动方式为每个待分类类别标注一些种子点,基于种子点及自学习算法实现数据集自动分类,再对分类后的数据进行清洗以获取更新的带标签数据集,从而完成遥感多光谱数据的半监督标注。
与现有的数据标注方法相比,本发明的一种基于自学习的遥感多光谱数据半监督标注方法为遥感多光谱数据标注带来了以下几个方面的效果:
1、本发明只需少量带标签样本点,可以在较少的标注数据基础上完成自动标注过程,对手动标注数据量要求较低。
2、本发明所涉及的类别丰富,手动标注涵盖的类别都可以完成后续的自动标注。
3、本发明去除了冗余信息,提高了标注精度:由于原始的多光谱数据不同波段通常存在较高的相关性,存在信息冗余,数据预处理中利用主成分分析方法去除波段之间的多余信息,从而提高标注精度。
4、本发明抗噪能力强:利用主成分分析降维的过程中,可以去除数据采集过程中的噪声数据,能够增大数据的信噪比,从而提高抗噪能力。
5、本发明分类速度快、精度高:基于自学习的分类算法训练速度快,可以快速实现无标签数据的标注,迭代训练及异常点去除过程可进一步提高分类精度。
附图说明
图1为本发明的一种基于自学习的遥感多光谱数据半监督标注方法的流程图。
具体实施方式
本发明的一种基于自学习的遥感多光谱数据半监督标注方法,通过各类别手动标注少量种子点,基于自学习算法及异常点检测算法完成无标签数据的分类,主要包括四个过程的多次循环迭代:1)获取带标签数据;2)带标签数据预处理;3)基于带标签数据完成自学习算法迭代;利用迭代后算法对无标签数据进行分类,获取更新的带标签数据;4)去除带标签数据中的异常点。
本发明可以实现任意类别的数据标注,对手动标注数据量要求较低,可以在较少的标注数据基础上完成自动标注过程,自学习的方式提高了标注精度以及标注速度快,避免了人工标注数据的经验差异。
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明的一种基于自学习的遥感多光谱数据半监督标注方法,具体包括以下步骤:
步骤一、数据获取及融合
获取研究区域内的遥感多光谱影像数据,确定待分类目标的类别信息,将遥感多光谱影像数据进行图像融合,获得融合遥感多光谱影像数据。
其中,所说的图像融合方法,主要包括以下步骤:
获取同一区域的遥感多光谱影像数据,确定分辨率最高波段的像素大小为Height*Weight,其中Height为该波段图像高度,Weight为该波段图像宽度,基于双线性插值算法将所有波段的数据插值到分辨率最高波段同一大小,创建3维矩阵,矩阵大小为n*Height*Weight,其中n为遥感多光谱影像数据波段数,每一切片为插值后的遥感多光谱影像数据。
步骤二、种子点获取
在研究区域内选择样地,每块样地面积为50*50平方米,样地可以覆盖所有感兴趣的类别,每块样地的位置均可采用全球定位系统(GPS)进行测量,测量精度在1m以内,记录样地内待分类目标的类别信息,结合融合遥感多光谱影像数据和待分类目标的类别信息确定样地内待分类目标与融合遥感多光谱影像数据的像素对应关系,获取融合遥感多光谱影像数据的像素类别信息,完成种子点获取。所说的种子点,是指取手动标注的带标签的数据样本,需要覆盖所有待分类的类别。
步骤三、带标签数据预处理
初始带标签数据为步骤二生成的种子点数据。融合遥感多光谱影像数据的每个像素点均包含了多个波段的光谱信息,不同波段通常存在较高的相关性,数据预处理中利用主成分分析方法去除波段之间的多余信息,具体操作流程如下:
7)利用带标签数据构建矩阵X=(X1,X2,...,Xp),X是一个n*p的矩阵,其中,n为遥感多光谱影像数据谱段的数量,p为带标签数据的数量,Xj是一个n*1的列向量,表示第j个种子点的多光谱信息,1≤j≤p。
8)将X的每一行(每一行均表示一个遥感多光谱影像数据谱段)分别进行零均值化,即减去这一行的均值。
9)求出协方差矩阵
Figure BDA0003398860170000071
其中,
Figure BDA0003398860170000072
表示零均值化后的矩阵,T表示矩阵转置,
Figure BDA0003398860170000073
表示矩阵
Figure BDA0003398860170000074
的转置。
10)求解协方差矩阵的特征值及对应的特征向量。
11)将特征向量对应的特征值从大到小排序,取前k个特征值及特征向量,使得k为满足
Figure BDA0003398860170000075
的最小值,其中,λi为排序后的特征值。
12)则降维后的数据为
Figure BDA0003398860170000081
其中,Q为k个特征值对应的特征向量,维度为k*n。该数据Y即为去除了波段之间多余信息的带标签数据。
步骤四、构建分类模型
利用步骤三中预处理后的带标签数据采用随机森林算法构建分类模型。其中,随机森林算法中,随机森林中每棵树的生成规则如下:
1)如果步骤三获取的带标签数据集大小为p,对于每棵树,采用有放回抽样方式随机抽取p个训练样本,作为该棵树的训练集。
2)每个训练样本的特征维度为k,利用袋外错误率确定常数m,随机地从k个特征值中选择m个特征子集,每次树分裂时,从这m个特征子集中选择最优的特征。
其中,m的确定步骤如下:
d)对每个训练样本,计算作为袋外样本的分类结果。
e)利用投票方式简单确认该训练样本的分类类别。
f)用误分样本数量占训练样本总数的比例作为袋外错误率。
3)每棵树尽最大可能生长,不进行剪枝。
步骤五、异常点去除
利用步骤四构建的分类模型对无标签数据进行分类,同时获取分类类别的置信度,置信度小于0.4的被认为是异常点,剔除异常点后的数据作为新的带标签数据集进行下一轮迭代,重复步骤三至步骤五获取最终的自标注数据集。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,包括以下步骤:
步骤一、数据获取及融合
获取研究区域内的遥感多光谱影像数据,确定待分类目标的类别信息,将遥感多光谱影像数据进行图像融合,获得融合遥感多光谱影像数据;
步骤二、种子点获取
在研究区域内选择样地,记录样地内待分类目标的类别信息,结合融合遥感多光谱影像数据确定样地内待分类目标与融合遥感多光谱影像数据的像素对应关系,获取融合遥感多光谱影像数据的像素类别信息,完成种子点获取;
步骤三、带标签数据预处理
将步骤二生成的种子点数据作为初始带标签数据,融合遥感多光谱影像数据的每个像素点均包含多个波段的光谱信息,不同波段存在较高的相关性,利用主成分分析方法去除波段之间的多余信息;
步骤四、构建分类模型
利用步骤三中预处理后的带标签数据采用随机森林算法构建分类模型;
步骤五、异常点去除
利用步骤四构建的分类模型对无标签数据进行分类,同时获取分类类别的置信度,置信度小于设定值的被认为是异常点,剔除异常点后的数据作为新的带标签数据集进行下一轮迭代,重复步骤三至步骤五获取最终的自标注数据集。
2.根据权利要求1所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤二中,每块样地面积均为50*50平方米。
3.根据权利要求1所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤二中,所述样地覆盖所有感兴趣的类别。
4.根据权利要求1所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤二中,每块样地的位置均采用全球定位系统GPS进行测量,测量精度在1m以内。
5.根据权利要求1所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤三的具体操作流程如下:
1)利用带标签数据构建矩阵X=(X1,X2,...,Xp),X是一个n*p的矩阵,n为遥感多光谱影像数据谱段的数量,p为带标签数据的数量,Xj是一个n*1的列向量,表示第j个种子点的多光谱信息,1≤j≤p;
2)将X的每一行分别进行零均值化;
3)求出协方差矩阵
Figure FDA0003398860160000021
Figure FDA0003398860160000022
表示零均值化后的矩阵,T表示矩阵转置,
Figure FDA0003398860160000023
表示矩阵
Figure FDA0003398860160000024
的转置;
4)求解协方差矩阵的特征值及对应的特征向量;
5)将特征向量对应的特征值从大到小排序,取前k个特征值及特征向量,使得k为满足
Figure FDA0003398860160000025
的最小值,λi为排序后的特征值;
6)降维后的数据为
Figure FDA0003398860160000026
Q为k个特征值对应的特征向量,维度为k*n;该数据Y即为去除了波段之间多余信息的带标签数据。
6.根据权利要求5所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤三的2)中,X的每一行均表示一个遥感多光谱影像数据谱段。
7.根据权利要求5所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤四中,所述随机森林算法中,随机森林中每棵树的生成规则为:
1)如果步骤三获取的带标签数据集大小为p,对于每棵树,采用有放回抽样方式随机抽取p个训练样本,作为该棵树的训练集;
2)每个训练样本的特征维度为k,利用袋外错误率确定常数m,随机地从k个特征值中选择m个特征子集,每次树分裂时,从这m个特征子集中选择最优的特征;
3)每棵树尽最大可能生长,不进行剪枝。
8.根据权利要求7所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤四的2)中,m的确定步骤为:
a)对每个训练样本,计算作为袋外样本的分类结果;
b)利用投票方式简单确认该训练样本的分类类别;
c)用误分样本数量占训练样本总数的比例作为袋外错误率。
9.根据权利要求1所述的一种基于自学习的遥感多光谱数据半监督标注方法,其特征在于,步骤五中,所述置信度的设定值为0.4。
CN202111492310.6A 2021-12-08 2021-12-08 一种基于自学习的遥感多光谱数据半监督标注方法 Pending CN114266932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111492310.6A CN114266932A (zh) 2021-12-08 2021-12-08 一种基于自学习的遥感多光谱数据半监督标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111492310.6A CN114266932A (zh) 2021-12-08 2021-12-08 一种基于自学习的遥感多光谱数据半监督标注方法

Publications (1)

Publication Number Publication Date
CN114266932A true CN114266932A (zh) 2022-04-01

Family

ID=80826586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111492310.6A Pending CN114266932A (zh) 2021-12-08 2021-12-08 一种基于自学习的遥感多光谱数据半监督标注方法

Country Status (1)

Country Link
CN (1) CN114266932A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035406A (zh) * 2022-06-08 2022-09-09 中国科学院空间应用工程与技术中心 遥感场景数据集的标注方法、系统、存储介质及电子设备
CN116612391A (zh) * 2023-07-21 2023-08-18 四川发展环境科学技术研究院有限公司 基于光谱遥感和多特征融合的土地非法侵占检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035406A (zh) * 2022-06-08 2022-09-09 中国科学院空间应用工程与技术中心 遥感场景数据集的标注方法、系统、存储介质及电子设备
CN115035406B (zh) * 2022-06-08 2023-08-04 中国科学院空间应用工程与技术中心 遥感场景数据集的标注方法、系统、存储介质及电子设备
CN116612391A (zh) * 2023-07-21 2023-08-18 四川发展环境科学技术研究院有限公司 基于光谱遥感和多特征融合的土地非法侵占检测方法
CN116612391B (zh) * 2023-07-21 2023-09-19 四川发展环境科学技术研究院有限公司 基于光谱遥感和多特征融合的土地非法侵占检测方法

Similar Documents

Publication Publication Date Title
CN109800736B (zh) 一种基于遥感影像和深度学习的道路提取方法
Borak Feature selection and land cover classification of a MODIS-like data set for a semiarid environment
CN110598784B (zh) 基于机器学习的建筑垃圾分类方法及装置
CN109871875B (zh) 一种基于深度学习的建筑物变化检测方法
CN112749627A (zh) 一种基于多源遥感影像的烟草动态监测的方法和装置
CN114266932A (zh) 一种基于自学习的遥感多光谱数据半监督标注方法
CN115546656A (zh) 一种基于深度学习的遥感影像养殖区域提取方法
Sugg et al. Mapping impervious surfaces using object-oriented classification in a semiarid urban region
CN115561181A (zh) 一种基于无人机多光谱数据的水质反演方法
CN111291818B (zh) 一种面向云掩膜的非均匀类别的样本均衡化方法
CN112800827A (zh) 高光谱图像分类实验方法
CN112906537A (zh) 一种基于卷积神经网络的农作物识别方法及系统
Riad et al. Prediction of soil nutrients using hyperspectral satellite imaging
Mõttus et al. TAIGA: A novel dataset for multitask learning of continuous and categorical forest variables from hyperspectral imagery
CN113158770A (zh) 一种改进的全卷积孪生神经网络的矿区变化检测方法
CN109344837B (zh) 一种基于深度卷积网络和弱监督学习的sar图像语义分割方法
Firoze et al. Urban tree generator: spatio-temporal and generative deep learning for urban tree localization and modeling
CN115205704A (zh) 高分辨率遥感影像小样本高精度建筑分割提取方法及装置
CN114971041A (zh) 一种基于残差网络的海冰面积预测方法及系统
Ouchra et al. Comparing Unsupervised Land Use Classification of Landsat 8 OLI Data Using K-means and LVQ Algorithms in Google Earth Engine: A Case Study of Casablanca.
Zhao et al. Robust shape extraction for automatically segmenting raw LiDAR data of outdoor scenes
Alimohammadi et al. A new approach for modeling uncertainty in remote sensing change detection process
CN114238217B (zh) 土地覆盖样本时空迁移方法、系统
Awuah Effects of spatial resolution, land-cover heterogeneity and different classification methods on accuracy of land-cover mapping
Aman et al. Comparative analysis of different methodologies for local climate zone classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination