CN115561176A - 一种基于特征自适应运算和机器学习融合的水质反演方法 - Google Patents

一种基于特征自适应运算和机器学习融合的水质反演方法 Download PDF

Info

Publication number
CN115561176A
CN115561176A CN202211257813.XA CN202211257813A CN115561176A CN 115561176 A CN115561176 A CN 115561176A CN 202211257813 A CN202211257813 A CN 202211257813A CN 115561176 A CN115561176 A CN 115561176A
Authority
CN
China
Prior art keywords
water quality
monitoring station
fusion
machine learning
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211257813.XA
Other languages
English (en)
Inventor
郭欣
宋文韬
万伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electric Rice Information System Co ltd
Original Assignee
China Electric Rice Information System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electric Rice Information System Co ltd filed Critical China Electric Rice Information System Co ltd
Priority to CN202211257813.XA priority Critical patent/CN115561176A/zh
Publication of CN115561176A publication Critical patent/CN115561176A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • G01N21/94Investigating contamination, e.g. dust
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N2021/1793Remote sensing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Immunology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于特征自适应运算和机器学习融合的水质反演方法,为了保证数据源准确性和可靠性,对实测水质指标进行异常检测和处理,对遥感图像进行辐射定标、大气校正、重投影、剪裁等预处理,获得WGS84坐标系下标准归一化反射率,将监测站实测指标数据和遥感光谱反射率进行关联;为更充分挖掘光谱特征与污染物相关性,提升算法的精度,将各光谱特征进行随机组合,采用多种运算方式进行特征自适应运算,再通过特征间均衡化处理去除特征冗余,最后通过相关性分析,剔除无效特征,确定最优特征组合;为提高方法泛化能力,建立多种机器学习融合的水质反演模型,实现高精度的水质指标反演,支撑环境监测与溯源。

Description

一种基于特征自适应运算和机器学习融合的水质反演方法
技术领域
本发明涉及一种水质反演方法,特别是一种基于特征自适应运算和机器学习融合的水质反演方法。
背景技术
水资源是重要的生产生活材料,是决定社会发展和人类生活质量的重要因素之一。目前,我国水资源总量丰富,但人均占用量明显较低,一方面需要大量消耗满足生产生活需要,另一方面还要积极应对各种水质污染,进行水环境治理,促进重复利用。
水质监测是水环境治理的前提,通过问题水域发现和溯源,有助于提出针对性地解决方案,大大提高治理效率。传统水质监测主要采用化学分析法,采用严格的水质采样方法,通过实验室化学试验,获得较精确的水质指标,但大量的采样工作、严格的实验条件控制和漫长的监测周期,会造成大量的资源浪费,无法满足大面积和高时效的水质监测需求;随着遥感技术的应用,水质监测开始向大面积监测过渡,取得了一些成果,但对光谱信息的利用主要停留在原始光谱层面,并未进行进一步的挖掘,一定程度上限制了水质反演的效果。
例如:《一种基于多源遥感和机器学习的水环境监测方法》(申请(专利)号:CN202210031899)从提高多源遥感影像时空分辨率角度实现水质反演,并未充分利用光谱特征,实现更可靠的多种水质指标反演,也未采用波段自适应运算和特征筛选,获取最优光谱特征组合,并通过机器学习融合模型实现水质反演。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于特征自适应运算和机器学习融合的水质反演方法。
为了解决上述技术问题,本发明公开了一种基于特征自适应运算和机器学习融合的水质反演方法。包括如下步骤:
步骤1:数据获取和预处理;所述数据获取包括:获取历史遥感多光谱影像、待反演多光谱影像和监测站实测指标数据;所述预处理包括:对获取到的历史遥感多光谱影像和待反演多光谱影像进行预处理和对监测站实测指标数据中的异常值进行处理;
步骤2:利用遥感图像的光谱特性,进行待反演多光谱影像的水域提取;
步骤3:将历史遥感多光谱影像的反射率与监测站实测指标数据进行匹配,制作数据集;
步骤4:利用波段自适应运算和筛选,进行所述数据集的特征扩充,再利用均衡化处理和特征自动筛选,确定最优特征组合,更新所述数据集;
步骤5:构建多机器学习融合模型,进行水质反演,获取待反演多光谱影像水域范围内的水质反演成果图并进行输出。
步骤1中所述的预处理包括:
对所述的历史遥感多光谱影像和待反演多光谱影像进行辐射定标、大气校正、剪裁、重采样和重投影,再进行归一化,获得目标区域的WGS84坐标系下的归一化反射率影像;监测站实测指标数据中的异常值进行处理,去除空值和异常值。
步骤2中所述的水域提取的方法包括:
利用归一化水指数NDWI(Normalized Difference Water Index,NDWI)指标进行待反演多光谱影像的水域提取,NDWI>0的区域为水域,否则为非水域。
步骤2中所述的NDWI指标的计算方法包括:
Figure BDA0003888299190000021
其中,ρgreen和ρnir分别为待反演多光谱影像的绿光波段和近红外波段的反射率。
步骤3中所述的制作数据集的方法包括如下步骤:
步骤3-1:监测站经纬度投影变换;将所述的监测站实测指标数据中监测站的经纬度转化为WGS84投影坐标,过程如下:
Figure BDA0003888299190000022
其中,L和B分别为监测站转换前的经度和纬度;X和Y分别为监测站转换后的横坐标和纵坐标;R为地球半长轴长;e为自然常数;
步骤3-2:历史遥感多光谱影像的反射率与监测站实测指标数据进行匹配,进行数据集制作,具体方法包括:
利用WGS84坐标关系,确定监测站对应的图像像元,关联反射率特征和水质指标,进行数据集制作;设历史遥感多光谱影像左上角像元在WGS84坐标系下的横纵坐标分别为X0和Y0,横纵方向空间分辨率分别为dx和dy,实测的监测站点所在WGS84坐标为X和Y,则监测站对应的图像像元的图像坐标(x,y)为:
Figure BDA0003888299190000031
获取多光谱遥感图像坐标即上述监测站对应的图像像元的图像坐标(x,y)处的反射率,与该监测站的实测指标数据进行关联,进行数据集制作。
步骤4中所述的更新数据集的方法包括:
步骤4-1:特征扩充;
步骤4-2:特征相关性分析;
步骤4-3:获取最优特征组合。
其中,步骤4-1中所述的特征扩充的方法包括:
将步骤3中所述的数据集中的多光谱影像的反射率特征随机组合,通过如下方法进行特征扩充:
Figure BDA0003888299190000032
其中,bi和bj分别为第i和第j个反射率特征;Bi+j、Bi-j、Bi/j和Bi,j为bi和bj经过所述特征扩充后获得的新特征;
将所述新特征扩充至步骤3中所述的数据集中,得到更新后的特征。
步骤4-2中所述的特征相关性分析,包括:
计算步骤4-1中更新后的特征与所述目标区域的监测站实测指标数据的皮尔逊相关系数;所述皮尔逊相关系数的计算过程如下:
Figure BDA0003888299190000033
其中,rh为更新后的特征中的第h个特征与监测站实测指标数据之间的皮尔逊相关系数;xh为更新后的特征中的第h个特征,
Figure BDA0003888299190000041
为xh的均值;y为监测站实测指标数据,
Figure BDA0003888299190000042
为y的均值;剔除相关性较低即皮尔逊相关系数低于0.3的特征,更新特征。
步骤4-3中所述的获取最优特征组合的方法包括:
将步骤4-2中得到特征两两组合,计算皮尔逊相关系数,将高度相关即特征间皮尔逊相关系数大于0.85的特征分为一组,选择各组中与监测站实测指标数据相关性最强的特征,组成最优特征组合,更新数据集。
步骤5中所述的获取待反演影像水域范围内的水质反演成果图的方法,包括如下步骤:
步骤5-1:构建多机器学习融合模型,并对所述模型进行训练;将步骤4中更新后的数据集按照3:1的比例随机划分为训练集和测试集,利用线性回归、支持向量机回归、ExtraTree回归、决策树回归、Bagging回归(参考:王立,朱学峰.一种基于迭代Bagging的回归算法[J].控制工程,2009,16(1):59-61.)、AdaBoost回归、梯度增强回归、K近邻回归以及随机森林回归共9种机器学习算法(参考:孙驷阳.基于多源遥感与机器学习的密云水库水质参数反演研究[D].北京林业大学,2019.),对所述模型进行训练,并利用均方根误差RMSE(Root Mean Square Error,RMSE)进行精度评价:
Figure BDA0003888299190000043
其中,l为模型编号;n为模型总数量;RMSEl为模型l对应的均方根误差RMSE;yl为实测水质指标;
Figure BDA0003888299190000044
为多机器学习融合模型预测得到的水质指标;
步骤5-2:模型融合;保留均方根误差RMSE最小的5个模型,采用权重融合方式获得最终水质反演模型,实现水质反演,输出反演成果图,主要过程如下:
Figure BDA0003888299190000045
Figure BDA0003888299190000046
其中,Model为融合后的最终水质反演模型;m为参与融合的模型数量;Modelk为第k个模型,RMSEk为对应的均方根误差RMSE指标,βk为对应权值;
步骤5-3:水质反演;计算待反演多光谱影像的最优特征组合,利用步骤5-2中最终水质反演模型进行水质反演,输出目标区域范围内水质反演成果图,即待反演多光谱影像水域范围内的水质反演成果图。
有益效果:
相对传统化学水质方法的无法区域化监测和低效率的问题,本发明利用遥感影像大面积观测的特点,实现区域化监测,提高时效性;针对现阶段遥感水质反演方法无法充分利用光谱特征的问题,本发明利用特征自适应运算和自动化筛选,对遥感光谱特征进行进一步挖掘,获取针对性的最优水质反演特征组合,再利用机器学习融合算法,实现水质更高质量的反演,输出成果图像。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的具体实施流程示意图。
图2是本发明研究水域提取结果示意图。
图3是本发明水质反演实施专题示意图。
具体实施方式
本发明提出一种基于特征自适应运算和机器学习融合的水质反演方法,如图1所示,通过特征自适应运算和筛选,实现特征扩展和最优特征组合自动筛选,再利用机器学习融合模型,进行水质反演。
技术方案:本发明利用Sentinel-2A L1B多光谱数据和测站实测水质指标数据构建数据集,通过特征自适应运算和筛选获取最佳特征组合,利用多种机器集成融合模型,进行水域范围内水质指标反演,输出成果图。
(1)数据获取和处理。
获取研究区域水质要素的监站站实测指标数据,进行异常处理,剔除因设备异常或环境因素造成的空指标、异常大和异常负值数据记录。
选择阳澄湖研究区域Sentinel-2A L1B影像和待反演Sentinel-2A L1B影像,历史影像拍摄日期要求与实测指标日期接近,利用SNAP工具箱进行辐射定标、大气校正、剪裁、重投影、重采样、剪裁等预处理工作,再进行归一化,获得研究区域WGS84坐标系下的归一化反射率影像。
(2)待反演影像水域提取
为减少干扰非水域要素干扰,并对研究范围进一步细化,利用归一化水指数NDWI对待反演影像进行水域提取,NDWI>0的区域为水域,否则为非水域。NDWI计算过程如下:
Figure BDA0003888299190000061
其中,ρgreen、ρnir分别为绿光波段和近红外波段反射率,对应Sentinl-2A影像的第3、8波段。
(3)数据集制作
通过监测站经纬度和历史遥感影像关联,获取水质指标和反射率特征对应关系,制作数据集(表1)。主要过程如下:
步骤3-1:监测站经纬度投影变换。监测站经纬度映射到WGS84坐标系中,过程如下:
Figure BDA0003888299190000062
其中,L和B分别为转换前的经度和纬度;X和Y分别为转换后的横坐标和纵坐标;R为地球半长轴长;e为自然常数。
步骤3-2:影像反射率与实测水质指标匹配。利用WGS84坐标系下位置关系,确定各监测站对应的图像像元,进行反射率特征和水质指标关联,实现数据集制作。若遥感影像左上角像元再WGS84坐标系下的横纵坐标分别为X0、Y0,横纵方向空间分辨率分别为dx和dy,监测站所在WGS84坐标为X和Y,则对应像元的图像坐标(x,y)为:
Figure BDA0003888299190000063
获取多光谱遥感图像坐标即上述对应像元的图像坐标(x,y)处的反射率,与该监测站的实测指标数据进行关联,进行数据集制作。
表1数据集示例表
Figure BDA0003888299190000071
(4)特征自适应运算筛选
为更充分利用光谱特征,并保证特征的质量,利用光谱特征随机组合和自适应运算方式,实现特征扩展,再通过均衡化处理,去除冗余特征,获取最优特征组合,更新数据集,用于模型训练和水质反演。
步骤4-1:特征扩充。将(3)中数据集中各反射率特征随机组合,进行一系列运算,实现特征扩充:
Figure BDA0003888299190000072
其中,bi和bj分别为第i和第j波段特征;Bi+j、Bi-j、Bi/j和Bi,j分别为bi和bj经过上述运算方法获得的新特征。
将所述新特征扩充至(3)中所述的数据集中,得到更新后的特征。
步骤4-2:特征均衡化处理。计算步骤4-1中更新后特征与监测站实测指标数据的皮尔逊相关系数,去除低相关性特征(皮尔逊相关系数低于0.3)),提高特征质量,更新数据集。皮尔逊相关系数计算过程如下:
Figure BDA0003888299190000081
其中,rh为第h个特征与实测指标之间的皮尔逊相关系数;xh为第h个特征,
Figure BDA0003888299190000082
为其均值;y为第实测水质指标,
Figure BDA0003888299190000083
为其均值。
步骤4-3:获取最优特征组合,更新数据集。将步骤4-2中得到特征两两组合,计算皮尔逊相关系数,将高度相关的特征(特征间皮尔逊相关系数大于0.85)分为一组,选择各组中与实测水质指标相关性最强的特征,组成最优特征组合,用于模型训练和水质反演。
(5)基于机器学习集成的水质反演
利用步骤(4)中更新最优特征组合后的数据集,利用多种机器学习模型进行训练,将训练后的模型进行加权融合,获得融合水质反演模型。再输入待反演影像,通过最佳特征组合计算和筛选,利用融合水质反演模型实现水质反演,输出成果图。
步骤5-1:模型训练。将步骤(4)中获得的最终训练数据集按照3:1的比例随机划分为训练集和测试集,利用线性回归、支持向量机回归、ExtraTree回归、决策树回归、Bagging回归(参考:王立,朱学峰.一种基于迭代Bagging的回归算法[J].控制工程,2009,16(1):59-61.)、AdaBoost回归、梯度增强回归、K近邻回归[1]和随机森林回归共9种机器学习算法模进行型训练(参考:孙驷阳.基于多源遥感与机器学习的密云水库水质参数反演研究[D].北京林业大学,2019.),利用均方根误差RMSE进行精度评价:
Figure BDA0003888299190000084
其中,l为模型编号;n为模型总数量;RMSEl为模型l对应的RMSE;yl为监测站实测指标数据;
Figure BDA0003888299190000085
为模型预测水质指标。
步骤5-2:保留RMSE最小的5个的模型,采用权重融合方式获得最终水质反演模型:
Figure BDA0003888299190000091
Figure BDA0003888299190000092
其中,Model为融合后的最终水质反演模型;m为参与融合的模型数量;Modelk为第k各模型,RMSEk为对应的RMSE指标,βk为对应权值。
步骤5-3:水质反演。计算待反演遥感影像最优特征组合,利用步骤5-2中融合模型进行水质反演,输出水域范围内水质反演成果图。
本发明利用Sentinel-2A多光谱数据和监测站实测指标数据构建数据集,通过特征自适应运算和筛选获取最佳特征组合,利用多种机器集成融合模型,对阳澄湖国考断面及水源水质保护区水环境污染要素进行全面的监测,对PH、溶解氧、高锰酸盐指数、化学需氧量、五日生化需氧量、氨氮、总磷、总氮、叶绿素a、透明度、悬浮物等11种水质要素进行定量反演。主要过程如下:
(1)数据获取和处理。
步骤1-1:获取苏州阳澄湖保护区内2020-2021年11种水质要素的监测站实测指标数据,并进行异常处理,剔除因设备异常或环境因素造成的空指标、异常大和异常负值数据记录。
步骤1-2:选择阳澄湖保护区2020-2021年Sentinel-2A MSI L1B图像,日期要求与实测指标日期接近,利用SNAP工具箱进行辐射定标、大气校正、剪裁、重投影、剪裁等预处理工作,再进行归一化,获得研究区域WGS84坐标系下的归一化反射率影像。
步骤1-3:选择阳澄湖保护区2022年3月Sentinel-2A MSI L1B图像作为待反演图像,进行步骤1-2中预处理处理,再进行归一化,获得研究区域WGS84坐标系下的归一化反射率影像。
(2)带反演影像水域提取
利用归一化水指数NDWI对研究区进行带反演影像水域提取,NDWI>0的区域为水域,否则为非水域。NDWI计算过程如下:
Figure BDA0003888299190000093
其中,ρgreen、ρnir分别为绿光波段和近红外波段反射率,对应Sentinl-2A影像的第3、8波段。如图2所示,图中2022年3月阳澄湖保护区水域提取面积为144.72km2,其中阳澄湖湖体水域面积为113.89km2
(3)数据集制作
通过监测站经纬度和历史遥感图像关联,获取水质指标和反射率特征对应关系,进行数据集制作(表1)。主要过程如下:
步骤3-1:监测站经纬度投影变换。监测站经纬度映射到WGS84坐标系中,过程如下:
Figure BDA0003888299190000101
其中,L、B分别为转换前的监测站经度和纬度;X、Y分别为转换后的监测站对应的横坐标和纵坐标;R为地球半长轴长;e为自然常数。
步骤3-2:影像反射率与实测水质指标匹配。利用WGS84坐标系下位置关系,确定各监测站对应的图像像元,进行反射率特征和水质指标关联,实现数据集制作。若遥感影像左上角像元再WGS84坐标系下的横纵坐标分别为X0、Y0,横纵方向空间分辨率分别为dx和dy,监测站所在WGS84坐标为X和Y,则对应像元的图像坐标(x,y)为:
Figure BDA0003888299190000102
获取多光谱遥感图像坐标即上述对应像元的图像坐标(x,y)处的反射率,与该监测站的实测指标数据进行关联,进行数据集制作。
(4)特征自适应运算筛选
为更充分利用光谱特征,并保证特征的质量,利用光谱特征随机组合和自适应运算方式,实现特征扩展,再通过均衡化处理,去除冗余特征,获取最优特征组合,用于模型训练和水质反演。
步骤4-1:特征扩充。将(3)中数据集中各反射率特征随机组合,进行一系列运算,实现特征扩充:
Figure BDA0003888299190000103
其中,bi和bj分别为第i和第j个反射率特征;Bi+j、Bi-j、Bi/j、Bi,j分别为bi和bj经过上述运算方法获得的新特征。将所述新特征扩充至(3)中所述的数据集中,得到更新后的特征。
步骤4-2:特征均衡化处理。计算步骤4-1中更新后特征与监测站实测指标数据的皮尔逊相关系数,去除低相关性特征(皮尔逊相关系数小于0.3),提高特征质量,更新数据集。皮尔逊相关系数计算过程如下:
Figure BDA0003888299190000111
其中,rh为第h个特征与实测指标之间的皮尔逊相关系数;xh为第h个特征,
Figure BDA0003888299190000112
为其均值;y为第实测水质指标,
Figure BDA0003888299190000113
为其均值。
步骤4-3:获取最优特征组合,更新数据集。将步骤4-2中得到特征两两组合,计算皮尔逊相关系数,将高度相关的特征(特征间皮尔逊相关系数大于0.85)分为一组,选择各组中与实测水质指标相关性最强的特征,组成最优特征组合,用于模型训练和水质反演。
(5)基于机器学习集成的水质反演
利用步骤(4)中更新最优特征组合后的数据集,利用多种机器学习模型进行训练,将训练后的模型进行加权融合,获得融合水质反演模型。再输入待反演影像,通过最佳特征组合计算和筛选,利用融合水质反演模型实现水质反演,输出成果图。
步骤5-1:模型训练。将步骤(4)中获得的最终训练数据集按照3:1的比例随机划分为训练集和测试集,利用线性回归、支持向量机回归、ExtraTree回归、决策树回归、Bagging回归、AdaBoost回归、梯度增强回归、K近邻回归和随机森林回归共9种机器学习算法模进行型训练,利用均方根误差RMSE进行精度评价:
Figure BDA0003888299190000114
其中,l为模型编号;n为模型总数量;RMSEl为模型l对应的RMSE;yl为监测站实测指标数据;
Figure BDA0003888299190000115
为模型预测水质指标。
步骤5-2:利用RMSE剔除精度较差的模型,剩余模型采用权重融合方式获得最终水质反演模型:
Figure BDA0003888299190000121
Figure BDA0003888299190000122
其中,Model为融合后的最终水质反演模型;m为参与融合的模型数量;Modelk为第k各模型,RMSEk为对应的RMSE指标,βk为对应权值。
步骤5-3:水质反演。利用步骤5-2中融合模型对待反演遥感影像进行预测,输出水质反演成果图。
如图3所示,阳澄湖流域水环境参数反演结果具体情况如下:
(1)PH值:监测区域PH值整体范围在7.551到8.758之间,大部分水域PH值在7.9到8.6之间,阳澄中湖区域PH值相对较高。
(2)氨氮浓度:监测区域氨氮浓度整体在0.001到0.465mg/L之间,大部分水域氨氮浓度在0.04到0.32mg/L之间,水质无明显异常。
(3)高锰酸盐指数:阳澄湖监测区域高锰酸盐指数整体范围在1.975到4.457mg/L之间,大部分水域高锰酸盐浓度在2到3.5mg/L之间,整体水质较好。
(4)化学需氧量浓度:阳澄湖监测区域化学需氧量浓度整体在5.223到17.312mg/L之间,大部分区域化学需氧量浓度在6到16mg/L之间,整体水质较好。
(5)五日生化需氧量浓度:阳澄湖监测区域五日生化需氧量浓度整体在0.94到3.992mg/L之间,整体水质较好。
(6)溶解氧浓度:阳澄湖监测区域溶解氧浓度整体在7.523到11.875mg/L之间,整体水质较好。
(7)叶绿素a:阳澄湖监测区域叶绿素a整体浓度在0.0005到0.0292mg/L之间,大部分区域叶绿素a在0.005到0.01mg/L之间。阳澄湖湖中养殖区域叶绿素a浓度高于其他区域。
(8)总氮浓度:阳澄湖监测区域总氮浓度在0.999到2.189mg/L之间,大部分区域总氮浓度在1到2mg/L之间。
(9)总磷浓度:阳澄湖监测区域总磷浓度整体值在0.024到0.06mg/L之间,局少部门区域水质情况较差。
(10)透明度:阳澄湖监测区域透明度整体在39.813到81.625cm之间,阳澄湖湖中区域透明度低于周围水域,沿岸区域透明度较差。
(11)悬浮物浓度:阳澄湖监测区域悬浮物浓度在4.957到27.984mg/L之间。其中,阳澄中湖、阳澄西湖悬浮物浓度较高,阳澄东湖养殖区和靠岸区域悬浮物浓度也较高。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于特征自适应运算和机器学习融合的水质反演方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机,MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种基于特征自适应运算和机器学习融合的水质反演方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,包括如下步骤:
步骤1:数据获取和预处理;所述数据获取包括:获取历史遥感多光谱影像、待反演多光谱影像和监测站实测指标数据;所述预处理包括:对获取到的历史遥感多光谱影像和待反演多光谱影像进行预处理和对监测站实测指标数据中的异常值进行处理;
步骤2:利用遥感图像的光谱特性,进行待反演多光谱影像的水域提取;
步骤3:将历史遥感多光谱影像的反射率与监测站实测指标数据进行匹配,制作数据集;
步骤4:利用波段自适应运算和筛选,进行所述数据集的特征扩充,再利用均衡化处理和特征自动筛选,确定最优特征组合,更新所述数据集;
步骤5:构建多机器学习融合模型,进行水质反演,获取待反演多光谱影像水域范围内的水质反演成果图并进行输出。
2.根据权利要求1所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤1中所述的预处理包括:
对所述的历史遥感多光谱影像和待反演多光谱影像进行辐射定标、大气校正、剪裁、重采样和重投影,再进行归一化,获得目标区域的WGS84坐标系下的归一化反射率影像;监测站实测指标数据中的异常值进行处理,去除空值和异常值。
3.根据权利要求2所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤2中所述的水域提取的方法包括:
利用归一化水指数NDWI指标进行待反演多光谱影像的水域提取,NDWI>0的区域为水域,否则为非水域。
4.根据权利要求3所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤2中所述的NDWI指标的计算方法包括:
Figure FDA0003888299180000011
其中,ρgreen和ρnir分别为待反演多光谱影像的绿光波段和近红外波段的反射率。
5.根据权利要求4所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤3中所述的制作数据集的方法包括如下步骤:
步骤3-1:监测站经纬度投影变换;将所述的监测站实测指标数据中监测站的经纬度转化为WGS84投影坐标,过程如下:
Figure FDA0003888299180000021
其中,L和B分别为监测站转换前的经度和纬度;X和Y分别为监测站转换后的横坐标和纵坐标;R为地球半长轴长;e为自然常数;
步骤3-2:历史遥感多光谱影像的反射率与监测站实测指标数据进行匹配,进行数据集制作,具体方法包括:
利用WGS84坐标关系,确定监测站对应的图像像元,关联反射率特征和水质指标,进行数据集制作;设历史遥感多光谱影像左上角像元在WGS84坐标系下的横纵坐标分别为X0和Y0,横纵方向空间分辨率分别为dx和dy,实测的监测站点所在WGS84坐标为X和Y,则监测站对应的图像像元的图像坐标(x,y)为:
Figure FDA0003888299180000022
获取多光谱遥感图像坐标即上述监测站对应的图像像元的图像坐标(x,y)处的反射率,与该监测站的实测指标数据进行关联,进行数据集制作。
6.根据权利要求5所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤4中所述的更新数据集的方法包括:
步骤4-1:特征扩充;
步骤4-2:特征相关性分析;
步骤4-3:获取最优特征组合。
7.根据权利要求6所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤4-1中所述的特征扩充的方法包括:
将步骤3中所述的数据集中的多光谱影像的反射率特征随机组合,通过如下方法进行特征扩充:
Figure FDA0003888299180000031
其中,bi和bj分别为第i和第j个反射率特征;Bi+j、Bi-j、Bi/j和Bi,j为bi和bj经过所述特征扩充后获得的新特征;
将所述新特征扩充至步骤3中所述的数据集中,得到更新后的特征。
8.根据权利要求7所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤4-2中所述的特征相关性分析,包括:
计算步骤4-1中更新后的特征与所述目标区域的监测站实测指标数据的皮尔逊相关系数;所述皮尔逊相关系数的计算过程如下:
Figure FDA0003888299180000032
其中,rh为更新后的特征中的第h个特征与监测站实测指标数据之间的皮尔逊相关系数;xh为更新后的特征中的第h个特征,
Figure FDA0003888299180000033
为xh的均值;y为监测站实测指标数据,
Figure FDA0003888299180000034
为y的均值;剔除相关性较低即皮尔逊相关系数低于0.3的特征,更新特征。
9.根据权利要求8所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤4-3中所述的获取最优特征组合的方法包括:
将步骤4-2中得到特征两两组合,计算皮尔逊相关系数,将高度相关即特征间皮尔逊相关系数大于0.85的特征分为一组,选择各组中与监测站实测指标数据相关性最强的特征,组成最优特征组合,更新数据集。
10.根据权利要求9所述的一种基于特征自适应运算和机器学习融合的水质反演方法,其特征在于,步骤5中所述的获取待反演影像水域范围内的水质反演成果图的方法,包括如下步骤:
步骤5-1:构建多机器学习融合模型,并对所述模型进行训练;将步骤4中更新后的数据集按照3:1的比例随机划分为训练集和测试集,利用线性回归、支持向量机回归、ExtraTree回归、决策树回归、Bagging回归、AdaBoost回归、梯度增强回归、K近邻回归以及随机森林回归共9种机器学习算法,对所述模型进行训练,并利用均方根误差RMSE进行精度评价:
Figure FDA0003888299180000041
其中,l为模型编号;n为模型总数量;RMSEl为模型l对应的均方根误差RMSE;yl为实测水质指标;
Figure FDA0003888299180000042
为多机器学习融合模型预测得到的水质指标;
步骤5-2:模型融合;保留均方根误差RMSE最小的5个模型,采用权重融合方式获得最终水质反演模型,实现水质反演,输出反演成果图,主要过程如下:
Figure FDA0003888299180000043
Figure FDA0003888299180000044
其中,Model为融合后的最终水质反演模型;m为参与融合的模型数量;Modealk为第k个模型,RMSEk为对应的均方根误差RMSE指标,βk为对应权值;
步骤5-3:水质反演;计算待反演多光谱影像的最优特征组合,利用步骤5-2中最终水质反演模型进行水质反演,输出目标区域范围内水质反演成果图,即待反演多光谱影像水域范围内的水质反演成果图。
CN202211257813.XA 2022-10-13 2022-10-13 一种基于特征自适应运算和机器学习融合的水质反演方法 Pending CN115561176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211257813.XA CN115561176A (zh) 2022-10-13 2022-10-13 一种基于特征自适应运算和机器学习融合的水质反演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211257813.XA CN115561176A (zh) 2022-10-13 2022-10-13 一种基于特征自适应运算和机器学习融合的水质反演方法

Publications (1)

Publication Number Publication Date
CN115561176A true CN115561176A (zh) 2023-01-03

Family

ID=84745334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211257813.XA Pending CN115561176A (zh) 2022-10-13 2022-10-13 一种基于特征自适应运算和机器学习融合的水质反演方法

Country Status (1)

Country Link
CN (1) CN115561176A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151136A (zh) * 2023-04-24 2023-05-23 浙江大学 基于概率误差补偿的全球表层海水pH反演方法及系统
CN116738734A (zh) * 2023-06-19 2023-09-12 中国人民解放军国防科技大学 一种基于正则化约束的水体透明度融合计算方法及系统
CN117664888A (zh) * 2024-01-31 2024-03-08 北京英视睿达科技股份有限公司 基于水质预测模型库的水质监测方法、装置、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151136A (zh) * 2023-04-24 2023-05-23 浙江大学 基于概率误差补偿的全球表层海水pH反演方法及系统
CN116151136B (zh) * 2023-04-24 2023-06-27 浙江大学 基于概率误差补偿的全球表层海水pH反演方法及系统
CN116738734A (zh) * 2023-06-19 2023-09-12 中国人民解放军国防科技大学 一种基于正则化约束的水体透明度融合计算方法及系统
CN116738734B (zh) * 2023-06-19 2024-04-09 中国人民解放军国防科技大学 一种基于正则化约束的水体透明度融合计算方法及系统
CN117664888A (zh) * 2024-01-31 2024-03-08 北京英视睿达科技股份有限公司 基于水质预测模型库的水质监测方法、装置、设备及介质
CN117664888B (zh) * 2024-01-31 2024-05-03 北京英视睿达科技股份有限公司 基于水质预测模型库的水质监测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN115561176A (zh) 一种基于特征自适应运算和机器学习融合的水质反演方法
CN109580003B (zh) 一种静止气象卫星热红外数据估算近地面大气温度方法
Zheng et al. Prediction of harmful algal blooms in large water bodies using the combined EFDC and LSTM models
CN112734694A (zh) 一种基于大数据的水质监测方法
Taylor et al. Monitoring landscape change in the National Parks of England and Wales using aerial photo interpretation and GIS
Liu et al. RS and GIS supported urban LULC and UHI change simulation and assessment
CN111598942A (zh) 一种用于对电力设施仪表进行自动定位的方法及系统
Lian et al. Sensitivity to the sources of uncertainties in the modeling of atmospheric CO 2 concentration within and in the vicinity of Paris
CN112215525A (zh) 一种湖库水质反演及可视化评价方法
CN106528788A (zh) 基于gis技术分析地面雨径流污染空间分布特征的方法
CN116148188A (zh) 空天地一体化湖泊水质溯源方法、系统、设备及存储介质
CN114880933A (zh) 一种基于再分析资料的无探空站点地基微波辐射计大气温湿廓线反演方法及系统
CN1884969A (zh) 移动式海洋地理信息海上水文环境监控方法及其系统
CN115758074A (zh) 基于多源数据的高空间分辨率海水二氧化碳分压重构方法
WO2024041560A1 (zh) 基于高空间分辨率卫星的地面水质监测方法
Lu et al. Global prediction of gross primary productivity under future climate change
CN116912704A (zh) 一种基于遥感及地面核查技术的地表水磷污染物溯源方法
CN116167003A (zh) 一种近地面人为源二氧化氮高精细产品估算方法及系统
Rosa et al. Fire Hotspots Mapping and Forecasting in Indonesia Using Deep Learning Algorithm
CN116029378A (zh) 一种基于随机森林的海洋数值模式单点偏差订正方法与系统
CN115711838A (zh) 基于人工神经网络和高分1号卫星反演水体悬浮泥沙的方法及其应用
CN114758237A (zh) 一种输水隧洞缺陷自动识别模型的构建方法、检测方法、构建装置、计算机及存储介质
CN108563674B (zh) 基于rs和gis的海域地理要素测量方法、系统及装置
CN116596198B (zh) 城市绿地生物量计算方法、装置、电子设备及存储介质
CN117852418B (zh) 基于地理集成机器学习的海洋中深层流速数据重构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination