CN115937681A - 一种遥感影像样本数据清洗方法 - Google Patents

一种遥感影像样本数据清洗方法 Download PDF

Info

Publication number
CN115937681A
CN115937681A CN202211588558.7A CN202211588558A CN115937681A CN 115937681 A CN115937681 A CN 115937681A CN 202211588558 A CN202211588558 A CN 202211588558A CN 115937681 A CN115937681 A CN 115937681A
Authority
CN
China
Prior art keywords
image
weight
images
remote sensing
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211588558.7A
Other languages
English (en)
Other versions
CN115937681B (zh
Inventor
夏旺
曹成度
费亮
李海亮
许诗旋
李昭熹
马龙
童思奇
王波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Railway Siyuan Survey and Design Group Co Ltd
Original Assignee
China Railway Siyuan Survey and Design Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Railway Siyuan Survey and Design Group Co Ltd filed Critical China Railway Siyuan Survey and Design Group Co Ltd
Priority to CN202211588558.7A priority Critical patent/CN115937681B/zh
Publication of CN115937681A publication Critical patent/CN115937681A/zh
Application granted granted Critical
Publication of CN115937681B publication Critical patent/CN115937681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种遥感影像样本数据清洗方法,属于遥感和计算机视觉领域;现有技术中,数据清洗非常耗费人力成本和时间成本,本发明提供的方法包括以下步骤:(1)基于数字线划图(DLG)的地物对象抽取,(2)标注影像生成,(3)标注影像切割与样本生成,(4)构建数据清洗神经网络模型,(5)模型训练与权重迭代,(6)确定数据清洗阈值;该方法避免了大量人工标注的过程,减少了人力、物力。

Description

一种遥感影像样本数据清洗方法
一种遥感影像样本数据清洗方法
技术领域
发明属于遥感和计算机视觉领域,特别是涉及一种遥感影像样本数据清洗方法。
背景技术
近年来,深度学习已成为遥感影像分类的主要方法,而深度学习方法需要海量样本作为训练数据。通过人工勾勒地物的方式进行遥感影像样本制作需要耗费大量人力、物力,因此许多研究者通过历史地形图(DLG,Digital Line Graphic)数据来自动生成遥感影像样本。
地形图的生产时间与用于样本制作的遥感影像的拍摄时间未必一致,由于地表场景、地物的变化(例如拆迁、新建建筑、退耕还林等),过去的地形图标注的地物类型会发生部分变化,进而导致基于地形图的样本自动标记出现错误,影响网络模型训练的精度。
在网络模型训练之前,对遥感影响样本数据的清洗很重要,需要在输入模型之前删除无效、错误的数据。目前的数据清洗一般需要人工参与进行检查,由于地形图数据量非常庞大,非常耗费人力成本和时间成本。本发明提出一种自动化的遥感影像样本数据清洗方法,自动化的删除无效、错误数据,降低人力和时间成本。
发明内容
针对现有技术的以上缺陷或改进需求中的一种或者多种,本发明提供了一种遥感影像样本数据清洗方法,其特征在于:所述方法包括以下步骤:
步骤S1:首先获取历史数字线划图,对所述数字线划图进行地物对象的抽取以获得所述地物对象的类别的图层,为不同的类别添加一个整数属性,记为Value,且用整数为不同类别进行编码;
步骤S2:创建一个跟真正影像大小和空间都一致的空影像,为所述空影像的所有像素赋值为0;之后对所述地物对象逐个进行判断,对于平面空间位置在所述地物对象内部的像素赋值为该所述地物对象的整数属性Value的值,生成的栅格影像即为标注影像;
步骤S3:将所述标注影像按照空间一致性进行固定大小的矩形切片,切片影像大小为D×D;
步骤S4:使用语义分割深度神经网络作为数据清洗网络模型,所述网络模型的损失计算公式为:
Figure BDA0003980998000000021
其中,第i幅影像的权重记为Wi,损失记为Li,N为影像的数量;
步骤S5:对所述数据清洗网络模型进行训练,然后对所有切片影像进行权重迭代;
步骤S6:为权重设定一个阈值T,将权重小于阈值T的样本剔除,得到高精度的遥感影像样本集。
优选地,抽取的所述地物对象的类别与所述数字线划图的比例尺有关,可以用于生成所述标注影像的所述地物对象的类别必须在所述数字线划图上有明确的边界。
优选地,在步骤S3中,按照横向纵向都是W个像素间隔对影像进行切片,其中W小于D以保证切片影像之间相互重叠。
优选地,在步骤S5中,具体包括以下步骤:
步骤S51:令每一副影像的权重为1,并开始网络模型训练;
步骤S52:根据训练好的模型结果计算每一副影像的权重,每一副影像的预测精度的计算公式如下:
Figure BDA0003980998000000022
其中D为样本影像的边长,Pj为该像素被预测正确的概率,
将第i幅影像的权重更新为Ai,即:wi=Ai
步骤S53:在所有影像的权重更新后,重新进行训练,此时根据所述损失计算公式计算的损失进行模型参数的改正;
步骤S54:重复进行步骤S52和步骤S53,将不断地重新训练更新权重,并利用更新的权重重新训练,直至得到精度稳定的训练模型。
优选地,在步骤S6中,阈值T的确定方法可以由人工进行判定,或者默认删除一定比例的样本。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有的有益效果包括:
(1)利用历史DLG和TDOM进行标注影像的生成,避免了大量人工标注的过程,减少了人力、物力;
(2)基于地形图的样本自动标记会出现错误,影响网络模型训练的精度,针对这个问题,提出了一种自动化的遥感影像样本数据清洗方法,构建了顾及样本权重的数据清洗网络模型,并通过权重迭代的模型训练方法计算每个样本的准确性,最终得到高精度的样本集。
附图说明
图1是本发明遥感影像样本数据清洗方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例:
(1)基于数字线划图(DLG)的地物对象抽取
首先获取历史DLG,从DLG中提取指定地物类别的图层,例如建筑、道路、水体等。然后,分图层处理的矢量要素,对于部分类别如建筑、湖泊等直接进行矢量闭合并转为面状元素;对于如道路、河流等类别需要人工进行矢量闭合并转换为面状元素。最后,为不同类别的矢量添加一个整数属性,记为Value,且用整数为不同类别进行编码,每个类别矢量的整数属性Value的值为对应的整数编码。
其中,提取的地物类别与DLG的比例尺有关,可以用于生成标注影像的地物类别必须在DLG上有明确的边界,在高比例尺的DLG上有更多地物的精确边界,而底比例尺上只会用示意的方式进行表达。因此需要实际情况,选择合适比例尺的DLG。
(2)标注影像生成
获取真正射影像(TDOM),通过坐标转换保证历史DLG和TDOM的坐标系统一致,以实现DLG和TDOM的空间一致性。
对DLG进行矢量栅格化。首先创建一个跟TDOM大小和空间都一致的空影像,为所有影像像素赋值为0;之后逐个矢量进行判断,对于平面空间位置在矢量内部的像素赋值为该矢量的整数属性Value的值。最后生成的栅格影像即为标注影像,标注影像上像素值代表地物类别,并且与遥感影像空间一致。
(3)标注影像切割与样本生成
将遥感影像和标注影像按照空间一致性进行固定大小的矩形切片,切片影像大小为D×D。按照横向纵向都是W个像素间隔对影像进行切片,W通常小于D以保证切片影像之间相互重叠。
优选的,D通常设为2的整数次方。由于深度神经网络模型的卷积和池化操作会导致边缘信息失真,因此影像边缘的语义分割精度会低于影像中心部分。针对这个问题,按照横向纵向都是W个像素间隔对影像进行切片,若W=D/4保证切片影像之间相互重叠,原始遥感影像的像素至少会出现在一个切片影像的中心部分。注意W不一定设置为D/4,W越小则切片之间的重叠度越高,样本数量越多,但是样本之间的重复性也越高。
(4)构建数据清洗神经网络模型
本发明使用语义分割深度神经网络作为数据清洗网络模型的基本框架;优选地,DenseNet-50网络,注意本方面可以适用于任意一种语义分割的网络模型。语义分割模型每一次迭代的损失函数计算的损失通常为输入网络的一批(batch)影像样本的损失的均值,即默认每一幅影像样本对损失函数的影响是相同的,没有考虑错误或者不准确的样本存在。针对这个问题,本发明设计了一种顾及样本权重的损失函数计算方法,为每一幅样本影像设置权重,第i幅影像的权重记为Wi,损失记为Li,N为影像的数量;那么网络模型最终计算的损失为:
Figure BDA0003980998000000051
(5)模型训练与权重迭代
步骤一:令每一副影像的权重为1,并开始网络模型训练。第一次模型训练不更新影响权重,直到获取稳定的模型训练结果。
步骤二:根据训练好的模型结果计算每一副影像的权重。首先利用训练好的模型计算每一副影像的预测精度,计算公式如下:
Figure BDA0003980998000000052
其中D为样本影像的边长,Pj为该像素被预测正确的概率,将第i幅影像的权重更新为Ai,即:
wi=Ai                 (3)
步骤三:在所有影像的权重更新后,重新进行训练,此时根据公式(1)计算的损失进行模型参数的改正。
步骤四:重复进行步骤二和步骤三,将不断地重新训练更新权重,并利用更新的权重重新训练,直至得到精度稳定的训练模型,即训练前后的分类精度变化小于给定的阈值,则停止训练,并记录此时每一幅样本影像的权重。
(6)确定数据清洗阈值
第(5)步计算得到权重可以反映样本的准确性。权重越高代表样本准确性越高,反之则准确性越低。因此为权重设定一个阈值T,那么将权重小于阈值T的样本剔除,保留下来的就是清洗后的高精度样本集。阈值T的确定方法可以由人工进行判定,或者默认删除一定比例的样本。
例如要删除10%的样本,则将所有影像的权重进行排序,选择从小到大的第10%的权重作为阈值T,这种方法是默认样本的错误率一般不超过10%,删除的比例根据实际情况确定。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种遥感影像样本数据清洗方法,其特征在于:所述方法包括以下步骤:
步骤S1:首先获取历史数字线划图,对所述数字线划图进行地物对象的抽取以获得所述地物对象的类别的图层,为不同的类别添加一个整数属性,记为Value,且用整数为不同类别进行编码;
步骤S2:创建一个跟真正影像大小和空间都一致的空影像,为所述空影像的所有像素赋值为0;之后对所述地物对象逐个进行判断,对于平面空间位置在所述地物对象内部的像素赋值为该所述地物对象的整数属性Value的值,生成的栅格影像即为标注影像;
步骤S3:将所述标注影像按照空间一致性进行固定大小的矩形切片,切片影像大小为D×D;
步骤S4:使用语义分割深度神经网络作为数据清洗网络模型,所述网络模型的损失计算公式为:
Figure FDA0003980997990000011
其中,第i幅影像的权重记为Wi,损失记为Li,N为影像的数量;
步骤S5:对所述数据清洗网络模型进行训练,然后对所有切片影像进行权重迭代;
步骤S6:为权重设定一个阈值T,将权重小于阈值T的样本剔除,得到高精度的遥感影像样本集。
2.根据权利要求1所述的方法,其特征在于:在步骤S1中,抽取的所述地物对象的类别与所述数字线划图的比例尺有关,可以用于生成所述标注影像的所述地物对象的类别必须在所述数字线划图上有明确的边界。
3.根据权利要求1所述的方法,其特征在于:在步骤S3中,按照横向纵向都是W个像素间隔对影像进行切片,其中W小于D以保证切片影像之间相互重叠。
4.根据权利要求1所述的方法,其特征在于:在步骤S5中,具体包括以下步骤:
步骤S51:令每一副影像的权重为1,并开始网络模型训练;
步骤S52:根据训练好的模型结果计算每一副影像的权重,每一副影像的预测精度的计算公式如下:
Figure FDA0003980997990000021
其中D为样本影像的边长,Pj为该像素被预测正确的概率,
将第i幅影像的权重更新为Ai,即:wii
步骤S53:在所有影像的权重更新后,重新进行训练,此时根据所述损失计算公式计算的损失进行模型参数的改正;
步骤S54:重复进行步骤S52和步骤S53,将不断地重新训练更新权重,并利用更新的权重重新训练,直至得到精度稳定的训练模型。
5.根据权利要求1所述的方法,其特征在于:在步骤S6中,阈值T的确定方法可以由人工进行判定,或者默认删除一定比例的样本。
CN202211588558.7A 2022-12-05 2022-12-05 一种遥感影像样本数据清洗方法 Active CN115937681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211588558.7A CN115937681B (zh) 2022-12-05 2022-12-05 一种遥感影像样本数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211588558.7A CN115937681B (zh) 2022-12-05 2022-12-05 一种遥感影像样本数据清洗方法

Publications (2)

Publication Number Publication Date
CN115937681A true CN115937681A (zh) 2023-04-07
CN115937681B CN115937681B (zh) 2024-04-19

Family

ID=86700444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211588558.7A Active CN115937681B (zh) 2022-12-05 2022-12-05 一种遥感影像样本数据清洗方法

Country Status (1)

Country Link
CN (1) CN115937681B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229273A (zh) * 2017-02-27 2018-06-29 北京市商汤科技开发有限公司 多层神经网络模型训练、道路特征识别的方法和装置
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN110163303A (zh) * 2019-06-03 2019-08-23 中国农业大学 一种基于格网的遥感影像并行分类方法及系统
CN111814597A (zh) * 2020-06-20 2020-10-23 南通大学 一种耦合多标签分类网络和yolo的城市功能分区方法
WO2020232905A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 基于超对象信息的遥感图像目标提取方法、装置、电子设备及介质
CN112132193A (zh) * 2020-09-10 2020-12-25 中国科学院深圳先进技术研究院 一种用于遥感图像分类的神经网络优化方法、终端以及存储介质
WO2021012891A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 车辆定损方法、装置、设备和存储介质
CN114661744A (zh) * 2022-05-24 2022-06-24 自然资源部第三地理信息制图院 一种基于深度学习的地形数据库更新方法及系统
CN114863153A (zh) * 2022-03-30 2022-08-05 国家电网有限公司大数据中心 一种基于深度学习的影像相似度数据清洗方法及系统
CN114898216A (zh) * 2022-06-14 2022-08-12 湖南省农林工业勘察设计研究总院 基于超像素与分水岭的遥感图像深度学习分割方法及系统
CN114973019A (zh) * 2022-06-14 2022-08-30 苏州深蓝空间遥感技术有限公司 一种基于深度学习的地理空间信息变化检测分类方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229273A (zh) * 2017-02-27 2018-06-29 北京市商汤科技开发有限公司 多层神经网络模型训练、道路特征识别的方法和装置
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
WO2020232905A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 基于超对象信息的遥感图像目标提取方法、装置、电子设备及介质
CN110163303A (zh) * 2019-06-03 2019-08-23 中国农业大学 一种基于格网的遥感影像并行分类方法及系统
WO2021012891A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 车辆定损方法、装置、设备和存储介质
CN111814597A (zh) * 2020-06-20 2020-10-23 南通大学 一种耦合多标签分类网络和yolo的城市功能分区方法
CN112132193A (zh) * 2020-09-10 2020-12-25 中国科学院深圳先进技术研究院 一种用于遥感图像分类的神经网络优化方法、终端以及存储介质
CN114863153A (zh) * 2022-03-30 2022-08-05 国家电网有限公司大数据中心 一种基于深度学习的影像相似度数据清洗方法及系统
CN114661744A (zh) * 2022-05-24 2022-06-24 自然资源部第三地理信息制图院 一种基于深度学习的地形数据库更新方法及系统
CN114898216A (zh) * 2022-06-14 2022-08-12 湖南省农林工业勘察设计研究总院 基于超像素与分水岭的遥感图像深度学习分割方法及系统
CN114973019A (zh) * 2022-06-14 2022-08-30 苏州深蓝空间遥感技术有限公司 一种基于深度学习的地理空间信息变化检测分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋佳晟: "基于海量红外视频的目标多维度关联挖掘与深度学习方法", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 1, 15 January 2022 (2022-01-15), pages 135 - 218 *

Also Published As

Publication number Publication date
CN115937681B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN109903304B (zh) 一种基于卷积神经元网络和多边形规则化的建筑物轮廓自动提取算法
CN108428220B (zh) 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法
CN112287807A (zh) 一种基于多分支金字塔神经网络的遥感影像道路提取方法
CN115641327B (zh) 一种基于大数据的建筑工程质量监理和预警系统
CN111027511B (zh) 基于感兴趣区块提取的遥感图像舰船检测方法
CN112884791B (zh) 一种构建大规模遥感影像语义分割模型训练样本集的方法
CN111914720B (zh) 一种输电线路绝缘子爆裂识别方法及装置
CN111709929B (zh) 一种肺部癌变区域分割与分类检测系统
CN112347550A (zh) 耦合式室内三维语义建图及建模方法
CN109635714B (zh) 文档扫描图像的矫正方法及装置
CN111241970A (zh) 基于yolov3算法与滑动窗口策略的SAR影像海面舰船检测方法
CN112347970A (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN111143588B (zh) 一种基于机器学习的图像时空索引快速检索方法
CN113223042A (zh) 一种遥感影像深度学习样本智能采集方法及设备
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN116071389A (zh) 一种基于前背景匹配的边界框弱监督图像分割方法
CN110363178B (zh) 基于局部和全局深度特征嵌入的机载激光点云分类方法
CN112241676A (zh) 一种地形杂物自动识别的方法
CN113657377B (zh) 一种机打票据图像结构化识别方法
CN114820668A (zh) 一种端到端的基于同心环卷积的建筑物规则轮廓自动提取方法
CN111144487B (zh) 一种遥感影像样本库的建立与更新方法
CN113034511A (zh) 基于高分辨率遥感影像与深度学习的乡村建筑识别算法
CN115937681A (zh) 一种遥感影像样本数据清洗方法
CN116721206A (zh) 一种实时的室内场景视觉同步定位与建图方法
CN111435537B (zh) 模型训练方法、装置及基于拼接图的位姿优化方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant