CN111368939A - 一种基于随机森林集成的河流浊度软测量方法 - Google Patents

一种基于随机森林集成的河流浊度软测量方法 Download PDF

Info

Publication number
CN111368939A
CN111368939A CN202010204791.5A CN202010204791A CN111368939A CN 111368939 A CN111368939 A CN 111368939A CN 202010204791 A CN202010204791 A CN 202010204791A CN 111368939 A CN111368939 A CN 111368939A
Authority
CN
China
Prior art keywords
random forest
learner
base random
ith
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010204791.5A
Other languages
English (en)
Other versions
CN111368939B (zh
Inventor
顾锞
乔俊飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010204791.5A priority Critical patent/CN111368939B/zh
Priority claimed from CN202010204791.5A external-priority patent/CN111368939B/zh
Publication of CN111368939A publication Critical patent/CN111368939A/zh
Application granted granted Critical
Publication of CN111368939B publication Critical patent/CN111368939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N2021/1793Remote sensing
    • G01N2021/1797Remote sensing in landscape, e.g. crops

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于随机森林集成的河流浊度软测量方法属于水体环境保护领域和机器学习领域。本发明利用免费提供高光谱遥感数据的Google地球引擎,建立了一种基于随机森林集合的河流浑浊度测量模型。通过充分利用每个光谱及其调谐的光谱信息,利用新提出的全组合子空间方法,生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。本发明较现有方法在预测河流浊度和数据来源难易程度上有明显提升,可以协助政府进行水污染防治和监测等。

Description

一种基于随机森林集成的河流浊度软测量方法
技术领域
本发明利用免费提供高光谱遥感数据的Google Earth Engine(GEE)平台,建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱及其调谐的光谱信息,利用新提出的全组合子空间方法,生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。
背景技术
随着全球人口的快速增长和经济的高速发展,水资源的污染和短缺对我们日常生活中的水安全造成了越来越严重的影响。在许多国家和地区,仍然存在将大量未经处理的工业废水直接排入河流或补充地下水的现象,这造成了严重的水体污染问题。这是极其危险的,因为如果水受到污染,不及时净化,很可能造成巨大的风险,例如导致大规模的传染病爆发,进而影响生物生存。此外,水污染对生态环境也产生了重要影响。因此,建立一套有效的水污染防治监测体系已迫在眉睫。浊度是一个重要的水质评价指标,特别是对于饮用水、烹饪水和高标准工业用水。浊度本质上是指水中悬浮物(如沙、土、无机物和有机物、微生物和胶体物质等)对光透射的阻碍程度。悬浮物,特别是微生物,会严重危害人们的健康。此外,河流的浊度会改变山间河流和海洋的反射率,这可能导致河流表面温度的变化,破坏水生生态系统的平衡。
河流的浊度随时间变化很大,主要受以下因素的影响,包括水流速度和水量、河床地形、天气条件以及工业和城镇生活污水。因此,对浊度监测的研究具有十分重要的意义,特别是在生态安全评价、船舶安全管理和饮用水处理等方面的分析上。现有对河流浊度测量方法主要是基于廉价性和易用性的接触式浊度传感器进行测量,其在早期的浊度检测中得到了广泛的应用。然而,基于传感器的浊度测量需要进行现场水样采集和随后的实验室分析,这使得基于传感器的浊度测量方法劳动力需求大且成本高昂。更重要的是,基于传感器的河流浊度监测方法还存在着灵活性差的缺点,如若采用基于传感器的方法来完全覆盖整个河流进行监测是非常不合理的。
针对现有方法所存在的种种不足,本发明基于随机森林的方法提出,主要分为三阶段实现。首先,以著名的随机森林方法的为基础,区别于算法中的随机子空间特征选取过程,设计了一种新的全组合子空间方法来生成所有可能的特征组合,以此来训练基随机森林学习器。其次,为了进一步选出所有组合中对浊度预测有用的部分,提出了一种基于误差最小化的循环剪枝算法。根据误差的动态阈值去除有害基随机森林学习器,以保留那些与浊度值高度相关的基随机森林学习器。最后,采用正则化线性回归加权平均法对所有保留的有益基随机森林学习器的浊度预测结果进行融合,进而得到河流浊度的最终测量结果。本发明较之现有的方法在预测误差和数据来源的难易程度上有明显的提升。
发明内容
通过Google Earth Engine(GEE)平台获得的高光谱遥感数据由13个波段组成,可以充分反映河流的浊度。然而,迄今还没有明确的证据表明哪些波段或它们的组合与河流浊度有很强的相关性,以及如何有效地融合它们的问题。为了解决这一问题,我们将收集到河流浊度的高光谱遥感图像作为输入的训练样本,其波段作为输入特征,提出了一种基于随机森林集成的河流浑浊度测量的新方法RFE-GEE方法。我们提出的RFE-GEE方法检测河流浊度的步骤如下:
(1)提出新的全组合子空间方法来提取所有样本特征组合,从而构建随机森林的基学习器
传统的随机森林算法首先是建立多个基学习器,并将它们的预测结果合并在一起以获得更准确和稳定的预测。所以,第一步通常是利用随机子空间方法挑选每一个基学习器的输入特征,从而决定随机森林的基学习器的个数。而随机子空间作为一种流行的集成方法,巧妙地融合了自举和聚合两种方法的优点,可以随机生成一些与河流浊度高度相关的正确特征组,为河流浊度软测量提供了一个很好的解决方案。然而,随机子空间的随机性太高,无法满足河流浊度监测的需求。因此,利用随机子空间的思想,本发明提出了一种新的特征选择集成算法—全组合子空间,主要用于实现特征的筛选。
全组合子空间就是将所有的特征进行排列组合。再将每一种组合方式作为输入分别构建基学习器。本文是将河流浊度的高光谱图像作为输入样本,每个样本有13个波段作为13个输入特征。将13个输入特征进行排列组合,共有8191种组合方式。每一种组合作为每一个基学习器的输入特征,共构建8191个基学习器。
(2)基于误差最小化剪枝算法剔除有害基随机森林学习器
为了对上述产生的8191个基随机森林学习器进行筛选,本发明提出了一种新的基于误差最小化的剪枝算法进行循环剪枝,来去除有害基随机森林学习器。一般情况下,由与河流浊度相关性较低的特征组或相似特征组训练的基随机森林学习器不可避免地会破坏集合的整体输出。因此,剪枝算法对于在给定的全组合特征子空间中获得特征组的稀疏表示起着至关重要的作用,从而只保留了与河流浊度有较强的相关性,但相互之间相关性较弱的特征组。此外,修剪也是降低模型复杂度和加快模型执行速度的重要手段。与大多数现有的基于误差减小的修剪算法不同,本发明提出了一种新的剪枝算法,该算法通过循环剪枝的方式将误差降到最小,直到没有基随机森林学习器被删除为止。我们的剪枝算法的实现细节如下所示。
先近似一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样。输出y的期望输出是
Figure BDA0002420702980000031
假设第i个基随机森林学习器的输出是Gi(y),就可以将集成的输出表示为:
Figure BDA0002420702980000032
其中,i=1,2,…,k表示第i个基随机森林学习器;k是基随机森林学习器的总个数;gi是第i个基随机森林学习器的权重,其值属于区间[0,1],并有
Figure BDA0002420702980000033
定义第i个基随机森林学习器在输出y上的泛化误差为Ei(y),和在y上的集成泛化误差为
Figure BDA0002420702980000034
Figure BDA0002420702980000035
Figure BDA0002420702980000036
其中,y的期望输出是
Figure BDA0002420702980000037
Gi(y)是第i个基随机森林学习器的输出;
Figure BDA0002420702980000038
为集成的输出。
然后进一步推导第i个基随机森林学习器在分布P(y)上的泛化误差为Ei和集成泛化误差为
Figure BDA0002420702980000041
Ei=∫Ei(y)P(y)dy (4)
Figure BDA0002420702980000042
将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:
Figure BDA0002420702980000043
其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差。
结合公式(2)和公式(4),可以得到集成泛化误差为:
Figure BDA0002420702980000044
其中,gi,gj为取值区间[0,1]的权重;Gi(y)与Gj(y)是对应的第i和第j个基随机森林学习器的输出;输出y的期望的输出是
Figure BDA0002420702980000045
进一步结合公式(6)和公式(7)可以推导出集成误差表示为:
Figure BDA0002420702980000046
其中,gi,gj为取值区间[0,1]的权重;Cij为第i和第j个基随机森林学习器的相关性。
为了简单起见,假设所有基随机森林学习器都具有相同的重要性,因此将公式(8)重写为:
Figure BDA0002420702980000047
其中,k是基随机森林学习器的总个数;Cij为第i和第j个基随机森林学习器的相关性。
观察公式(2)-(9),如果第l个基随机森林学习器被删除的话,将会得到新的集成泛化误差
Figure BDA0002420702980000048
Figure BDA0002420702980000049
其中,Cij为第i和第j个基随机森林学习器的相关性。
综合公式(9)和公式(10),我们可以得到以下结论,如果集成泛化误差
Figure BDA0002420702980000051
小于
Figure BDA0002420702980000052
表示误差在减小,那么认为去掉了第l个基随机森林学习器的集成是完成一个很好工作,可以将这个过程定义为:
Figure BDA0002420702980000053
其中,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
进一步合并公式(9)和公式(11):
Figure BDA0002420702980000054
其中,Cij为第i和第j个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
如果在移除第l个基随机森林学习器后,公式(12)仍然成立,那么就可以确定这个基随机森林学习器很差,应该被移除。为了方便起见,通过设置一个动态阈值TH来选择效果很差的基随机森林学习器,所以,第l个基随机森林学习器的泛化误差重写为:
Figure BDA0002420702980000055
其中,THl为第l个基随机森林学习器的动态阈值;Cij为第i和第j个基随机森林学习器的相关性,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
根据公式(1)-(13),对于由全组合子空间生成的每个基随机森林学习器,当其泛化误差El和相关的动态阈值THl满足公式(13)所定义的关系时,就对其进行删除。为了减小误差,在8191个基随机森林学习器上循环应用上述修剪算法,直到没有基随机森林学习器可以修剪为止。最后,只保留了7个基随机森林学习器作为有益基学习器,删除了99.9%以上的基随机森林学习器,这在很大程度上降低了基随机森林学习器的冗余度,提高了测试或执行过程中的计算速度。
(3)利用权重正则化集成所有有益基学习器预测河流浊度
在得到了所有有益基学习器之后,为了更准确的预测河流浊度,我们将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值。具体步骤如下:
使用s=[s1,s2,…,sn]T表示经过上述修剪后保留的基随机森林学习器的输出,其中,设m=1,2,…,n表示经剪枝后保留的第m个基随机森林学习器,n为保留的基随机森林学习器的总数。然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值。定义河流浊度为S:
Figure BDA0002420702980000061
其中,w是一个用来进行集成的权重向量;wT表示向量w的转置;
Figure BDA0002420702980000062
是一个映射函数。
设计过程中,共考虑了公式(14)的权重w的三种解法,最终选择了第三种方案。具体分析内容如下:
第一个典型的解决方案是直接平均法。直接令w=[w1,w2,…,wn]T为[1/n,1/n,…,1/n]T:
Figure BDA0002420702980000063
其中,S为河流浊度预测值;n为保留的基随机森林学习器的总数;sm为第m个基随机森林学习器的浊度预测值。
第二个典型的解决方案是加权平均法,其效果一般优于直接平均法。通过设置不同的系数w对公式(14)进行重写,则总的河流浊度预测值S可表达为:
Figure BDA0002420702980000064
其中,wm为待确定的未知权值;n为保留的基随机森林学习器的总数;sm和sn分别表示第m个和第n个基随机森林学习器的浊度预测值。
求解公式(16)中权值的一种方法是直接用最小二乘法,得到损失函数为:
Figure BDA0002420702980000065
其中,w是一个用来进行集成的权重向量,wT表示向量w的转置;损失函数为L′(w);s=[s1,s2,…,sn]T表示经过剪枝后保留的基随机森林学习器的输出;
Figure BDA0002420702980000066
表示河流浊度的真实值。
最终对权重w的求解过程表示为:
Figure BDA0002420702980000071
其中,w′为权重的最终解;sT为s的转置;
Figure BDA0002420702980000079
表示河流浊度的真实值。
但是,公式(18)可能会产生病态和过拟合问题。因此,我们考虑添加一些约束条件,如L0,L1(拉索回归),L2(岭回归),以同时解决未知权值和避免上述两个问题。此外,与L2相比,L0与L1之间存在着显著的差异:1)基于L0的正则化是一个困难的问题,难以实现;2)Lasso回归的求解过程非常缓慢;3)L0和L1正则化应该稀疏,这使得权值接近于0;4)基于L2的正则化非常适合解决多重共线性问题(即输入变量之间存在高相关性)。本发明利用修剪后的全基随机森林学习器对河流浊度进行了测量;也就是说,它们都不应该被赋值为零。因此,最终使用岭回归来求解w。
所以,本文最终采用第三种方案,也就是使用岭回归来求解w。具体来说,通过添加L2约束‖·‖2来定义损失函数:
Figure BDA0002420702980000072
其中,λ是一个正则化参数,将其值设置为le5;s为保留的基随机森林学习器的输出;
Figure BDA0002420702980000073
表示河流浊度的真实值。
通过最小化这个损失函数,可以得到如下的权重求解公式:
Figure BDA0002420702980000074
其中,w*为要得到的最优权重;正则化参数λ=le5;
Figure BDA0002420702980000075
为第m个基随机森林学习器对应的河流浊度真实值;sm表示第m个基随机森林学习器的浊度预测值。
对于w*的求解,是通过对公式(19)进行求导,使其等于0:
Figure BDA0002420702980000076
其中,I是一个单位矩阵;sT为s的转置;
Figure BDA0002420702980000077
表示河流浊度的真实值。
最后,将最优的w代入公式(16),得到河流浊度的最终预测值为:
Figure BDA0002420702980000078
其中,
Figure BDA0002420702980000081
为最终求解得到的第m个基学习器的最优权重值;sm表示第m个基随机森林学习器的浊度预测值。
每个基本随机森林学习器的输出占集成的不同比例。
图1是RFE-GEE方法的基本流程图。
本发明的创造性主要体现在:
(1)提出了一种利用高光谱遥感数据进行河流浑浊度测量的新策略,因为与目前主流方法相比,这些数据更灵活、更便宜;
(2)提出了一种基于全组合子空间的集成算法,以保证各谱信息及其调谐谱信息的充分利用;
(3)提出了一种新的基于误差最小化的剪枝算法,该算法通过循环消除较差的基随机森林,以获得最紧凑表示能力的基随机森林为目标;
(4)提出的RFE-GEE模型具有较好的性能,明显优于现代竞争对手,可以为河流污染控制提供更好的指导。
附图说明
图1是本发明设计的全组合子空间集成算法流程图;
图2是本发明的结构图。
具体实施方式
本发明利用免费提供高光谱遥感数据的Google Earth Engine(GEE),建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱信息及其调谐的光谱信息,利用新提出的全组合子空间,生成所有可能的基随机森林学习器。通过新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。通过采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。
1.利用免费提供高光谱遥感数据的GEE进行数据收集。GEE是在Google Cloud上运行的,因此它具有非凡的处理能力,而不受空间和时间的限制。同时,Google地球引擎也继承了传统卫星遥感技术的一些优点,不仅可以用于大规模、实时的河流浊度监测,而且可以用于反映河流浊度在时空上的分布和变化。通过上述分析,我们利用Google地球引擎云平台获得了高光谱遥感数据,该平台采用Sentinel-2卫星采集主要源数据,然后根据图像可视化环境测量的位置坐标和选择的时间精确选择所需数据。
2.一种基于随机森林集成的河流浊度测量方法,包括以下步骤:
(1)提出新的全组合子空间方法来提取所有样本特征组合,从而构建随机森林的基学习器
全组合子空间就是将所有的特征进行排列组合。再将每一种组合方式作为输入分别构建基学习器。本文是将河流浊度的高光谱图像作为输入样本,每个样本有13个波段作为13个输入特征。将13个输入特征进行排列组合,共有8191种组合方式。每一种组合作为每一个基学习器的输入特征,共构建了8191个基学习器。
(2)基于误差最小化剪枝算法剔除有害基随机森林学习器
为了对上述产生的8191个基随机森林学习器进行筛选,本发明提出了一种新的基于误差最小化的剪枝算法进行循环剪枝,来去除有害基随机森林学习器。一般情况下,由与河流浊度相关性较低的特征组或相似特征组训练的基随机森林学习器不可避免地会破坏集合的整体输出。因此,剪枝算法对于在给定的全组合特征子空间中获得特征组的稀疏表示起着至关重要的作用,从而只保留了与河流浊度有较强的相关性,但相互之间相关性较弱的特征组。此外,修剪也是降低模型复杂度和加快模型执行速度的重要手段。与大多数现有的基于误差减小的修剪算法不同,本发明提出了一种新的剪枝算法,该算法通过循环剪枝的方式将误差降到最小,直到没有基随机森林学习器被删除为止。我们的剪枝算法的实现细节如下所示。
先近似一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样。输出y的期望输出是
Figure BDA0002420702980000091
假设第i个基随机森林学习器的输出是Gi(y),就可以将集成的输出表示为:
Figure BDA0002420702980000092
其中,i=1,2,…,k表示第i个基随机森林学习器;k是基随机森林学习器的总个数;gi是第i个基随机森林学习器的权重,其值属于区间[0,1],并有
Figure BDA0002420702980000101
本发明定义了第i个基随机森林学习器在输出y上的泛化误差为Ei(y),和在y上的集成泛化误差为
Figure BDA0002420702980000102
Figure BDA0002420702980000103
Figure BDA0002420702980000104
其中,y的期望输出是
Figure BDA0002420702980000105
Gi(y)是第i个基随机森林学习器的输出;
Figure BDA0002420702980000106
为集成的输出。
然后进一步推导第i个基随机森林学习器在分布P(y)上的泛化误差为Ei和集成泛化误差为
Figure BDA0002420702980000107
Ei=∫Ei(y)P(y)dy (26)
Figure BDA0002420702980000108
将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:
Figure BDA0002420702980000109
其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差。
结合公式(24)和公式(26),可以得到集成泛化误差为:
Figure BDA00024207029800001010
其中,gi,gj为取值区间[0,1]的权重;Gi(y)与Gj(y)是对应的第i和第j个基随机森林学习器的输出;输出y的期望的输出是
Figure BDA00024207029800001011
进一步结合公式(28)和公式(29)可以推导出集成误差表示为:
Figure BDA00024207029800001012
其中,gi,gj为取值区间[0,1]的权重;Cij为第i和第j个基随机森林学习器的相关性。
为了简单起见,假设所有基随机森林学习器都具有相同的重要性,因此将公式(30)重写为:
Figure BDA0002420702980000111
其中,k是基随机森林学习器的总个数;Cij为第i和第j个基随机森林学习器的相关性。
观察公式(24)-(31),如果第l个基随机森林学习器被删除的话,将会得到新的集成泛化误差
Figure BDA0002420702980000112
Figure BDA0002420702980000113
其中,Cij为第i和第j个基随机森林学习器的相关性。
综合公式(31)和公式(32),我们可以得到以下结论,如果集成泛化误差
Figure BDA0002420702980000114
小于
Figure BDA0002420702980000115
表示误差在减小,那么认为去掉了第l个基随机森林学习器的集成是完成一个很好工作,可以将这个过程定义为:
Figure BDA0002420702980000116
其中,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
进一步合并公式(31)和公式(33):
Figure BDA0002420702980000117
其中,Cij为第i和第j个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
如果在移除第l个基随机森林学习器后,公式(34)仍然成立,那么就可以确定这个基随机森林学习器很差,应该被移除。为了方便起见,通过设置一个动态阈值TH来选择效果很差的基随机森林学习器,所以,第l个基随机森林学习器的泛化误差重写为:
Figure BDA0002420702980000118
其中,THl为第l个基随机森林学习器的动态阈值,Cij为第i和第j个基随机森林学习器的相关性,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
根据公式(23)-(35),对于由全组合子空间生成的每个基随机森林学习器,当其泛化误差El和相关的动态阈值THl满足公式(35)所定义的关系时,就对其进行删除。为了减小误差,在8191个基随机森林学习器上循环应用上述修剪算法,直到没有基随机森林学习器可以修剪为止。最后,只保留了7个基随机森林学习器作为有益基学习器,删除了99.9%以上的基随机森林学习器,这在很大程度上降低了基随机森林学习器的冗余度,提高了测试或执行过程中的计算速度。
(3)利用权重正则化集成所有有益基学习器预测河流浊度
在得到了所有有益基学习器之后,为了更准确的预测河流浊度,我们将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值。具体步骤如下:
使用s=[s1,s2,…,sn]T表示经过上述修剪后保留的基随机森林学习器的输出,其中,设m=1,2,…,n表示经剪枝后保留的第m个基随机森林学习器,n为保留的基随机森林学习器的总数。然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值。定义河流浊度为S:
Figure BDA0002420702980000121
其中,w是一个用来进行集成的权重向量;wT表示向量w的转置;
Figure BDA0002420702980000122
是一个映射函数。
设计过程中,共考虑了公式(36)的权重w的三种解法,最终选择了第三种方案。具体分析内容如下:
第一个典型的解决方案是直接平均法。直接令w=[w1,w2,…,wn]T为[1/n,1/n,…,1/n]T:
Figure BDA0002420702980000123
其中,S为河流浊度预测值;n为保留的基随机森林学习器的总数;sm为第m个基随机森林学习器的浊度预测值。
第二个典型的解决方案是加权平均法,其效果一般优于直接平均法。通过设置不同的系数w对公式(36)进行重写,则总的河流浊度预测值S可表达为:
Figure BDA0002420702980000124
其中,wm为待确定的未知权值;n为保留的基随机森林学习器的总数;sm和sn分别表示第m个和第n个基随机森林学习器的浊度预测值。
求解公式(38)中权值的一种方法是直接用最小二乘法,得到损失函数为:
Figure BDA0002420702980000131
其中,w是一个用来进行集成的权重向量,wT表示向量w的转置;损失函数为L′(w);s=[s1,s2,…,sn]T表示经过剪枝后保留的基随机森林学习器的输出;
Figure BDA0002420702980000137
表示河流浊度的真实值。
最终对权重w的求解过程表示为:
Figure BDA0002420702980000132
其中,w′为权重的最终解;sT为s的转置;
Figure BDA0002420702980000133
表示河流浊度的真实值。
但是,公式(40)可能会产生病态和过拟合问题。因此,我们考虑添加一些约束条件,如L0,L1(拉索回归),L2(岭回归),以同时解决未知权值和避免上述两个问题。此外,与L2相比,L0与L1之间存在着显著的差异:1)基于L0的正则化是一个困难的问题,难以实现;2)Lasso回归的求解过程非常缓慢;3)L0和L1正则化应该稀疏,这使得权值接近于0;4)基于L2的正则化非常适合解决多重共线性问题(即输入变量之间存在高相关性)。本发明利用修剪后的全基随机森林学习器对河流浊度进行了测量;也就是说,它们都不应该被赋值为零。因此,最终使用岭回归来求解w。
所以,本文最终采用第三种方案,也就是使用岭回归来求解w。具体来说,通过添加L2约束‖·‖2来定义损失函数:
Figure BDA0002420702980000134
其中,λ是一个正则化参数,将其值设置为le5;s为保留的基随机森林学习器的输出;
Figure BDA0002420702980000138
表示河流浊度的真实值。
通过最小化这个损失函数,可以得出如下的权重解:
Figure BDA0002420702980000135
其中,正则化参数λ=le5;
Figure BDA0002420702980000136
为第m个基随机森林学习器对应的河流浊度真实值;sm表示第m个基随机森林学习器的浊度预测值。
对于w*的求解,是通过对公式(41)进行求导,使其等于0:
Figure BDA0002420702980000141
其中,I是一个单位矩阵;sT为s的转置;
Figure BDA0002420702980000142
表示河流浊度的真实值。
最后,将最优的w代入公式(38),得到河流浊度的最终预测值为:
Figure BDA0002420702980000143
其中,
Figure BDA0002420702980000144
为最终求解得到的第m个基学习器的最优权重值;sm表示第m个基随机森林学习器的浊度预测值。
每个基本随机森林学习器的输出占集成的不同比例。
此处使用两个典型的评价指标,即均方误差(MSE)和峰值信噪比(PSNR)来评价模型的性能:
Figure BDA0002420702980000145
Figure BDA0002420702980000146
其中,am和bm分别是模型对第m个样本的河流浊度估计值和其真值,M是样本总数。
在上述三个评价指标中,MSE和NMGE中值较小,而且PSNR值越大,说明模型的效果越好。本发明与现有的Random forest模型[1],Stacked Selective Ensemble-BackedPredictor(SSEP)模型[2],Radial Basis Function(RBF)neural network模型[3],Fuzzyneural network模型[4],Support Vector Regressor(SVR)模型[5],Extreme LearningMachine(ELM)模型[6],Deep belief network模型[7],Bidirectional ELM(BELM)模型[8],and Broad Learning System(BLS)模型[9]的模型测量效果对比见表1,本发明与其子部件的对比效果见表2。从表格中不难看出,提出的RFE-GEE模型在MSE和PSNR指标上都取得了高于其他9位学习者的结果。
表1
Figure BDA0002420702980000151
表2
Figure BDA0002420702980000152
引用:
[1]L.Breiman,“Random forests,”Machine Learning,vol.45,no.1,pp.5-32,Oct.2001.
[2]K.Gu,Z.Xia,and J.Qiao,“Stacked selective ensemble for PM2.5forecast,”IEEE Trans.Instrumentation&Measurement,2020.
[3]J.Park and I.W.Sandberg,“Universal approximation using radial-basis function networks,”Neural Computation,vol.3,no.2,pp.246-257,1991.
[4]L.H.Tsoukalas and R.E.Uhrig,“Fuzzy and neural approaches inengineering,”Jun.1996.[5]A.J.Smola and B.Scholkopf,“A tutorial on supportvector regression,”Statistics and Computing,vol.14,pp.199-222,Aug.2004.
[6]G.B.Huang,Q.Y.Zhu,and C.K.Siew,“Extreme learning machine:Theoryand applications,”Neurocomputing,vol.70,pp.489-501,2006.
[7]R.Salakhutdinov and G.E.Hinton,“Deep belief networks,”Scholarpediavol.4,no.5,Jan.2009.
[8]Y.Yang,Y.Wang,and X.Yuan,“Bidirectional extreme learning machinefor regression problem and its learning effectiveness,”IEEE Trans.NeuralNetworks&Learning Systems,vol.23,no.9,pp.1498-1505,2012.
[9]C.L.P.Chen and Z.Liu,“Broad learning system:An effective andefficient incremental learning system without the need for deeparchitecture,”IEEE Trans.Neural Networks&Learning Systems,vol.29,no.1,pp.10-24,2018.

Claims (1)

1.一种基于随机森林集成的河流浊度软测量方法,其特征在于:
先用一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα为域的维度,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样;输出y的期望输出是
Figure FDA0002420702970000011
假设第i个基随机森林学习器的输出是Gi(y),将集成的输出表示为:
Figure FDA0002420702970000012
其中,i=1,2,…,k表示第i个基随机森林学习器;k是基随机森林学习器的总个数;gi是第i个基随机森林学习器的权重,其值属于区间[0,1],并有
Figure FDA0002420702970000013
定义第i个基随机森林学习器在输出y上的泛化误差为Ei(y),和在y上的集成泛化误差为
Figure FDA0002420702970000014
Figure FDA0002420702970000015
Figure FDA0002420702970000016
其中,y的期望输出是
Figure FDA0002420702970000017
Gi(y)是第i个基随机森林学习器的输出;
Figure FDA0002420702970000018
为集成的输出。为集成的输出。
第i个基随机森林学习器在分布P(y)上的泛化误差为Ei和集成泛化误差为
Figure FDA0002420702970000019
Ei=∫Ei(y)P(y)dy (4)
Figure FDA00024207029700000110
将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:
Figure FDA00024207029700000111
其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei表示第i个基学习器的自相关性和其泛化误差相等;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差;
结合公式(2)和公式(4),得到集成泛化误差为:
Figure FDA0002420702970000021
其中,gi,gj为取值区间[0,1]的权重的权重;Gi(y)与Gj(y)是对应的第i和第j个基随机森林学习器的输出;输出y的期望的输出是
Figure FDA0002420702970000022
进一步结合公式(6)和公式(7)推导出集成误差表示为:
Figure FDA0002420702970000023
其中,gi,gj为取值区间[0,1]的权重的权重;Cij为第i为第i和第j个基随机森林学习器的相关性;
设定所有基随机森林学习器都具有相同的重要性,因此将公式(8)重写为:
Figure FDA0002420702970000024
其中,k是基随机森林学习器的总个数;Cij为第i为第i和第j个基随机森林学习器的相关性;
观察公式(2)-(9),如果第l个基随机森林学习器被删除的话,将会得到新的集成泛化误差
Figure FDA0002420702970000025
Figure FDA0002420702970000026
其中,Cij为第i为第i和第j个基随机森林学习器的相关性;
综合公式(9)和公式(10),得到以下结论,如果集成泛化误差
Figure FDA0002420702970000027
小于
Figure FDA0002420702970000028
表示误差在减小,那么认为去掉了第l个基随机森林学习器的集成是完成一个很好工作,将这个过程定义为:
Figure FDA0002420702970000029
其中,Cil为第i和第l个基随机森林学习器的相关性为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器表示第l个基随机森林学习器的泛化误差;合并公式(9)和公式(11):
Figure FDA00024207029700000210
其中,Cij为第i为第i和第j个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差;
通过设置一个动态阈值TH来选择效果很差的基随机森林学习器,所以,第l个基随机森林学习器的泛化误差重写为:
Figure FDA0002420702970000031
其中,THl为第l个基随机森林学习器的动态阈值;Cij为第i为第i和第j个基随机森林学习器的相关性Cil为第i和第l个基随机森林学习器的相关性为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差;
根据公式(1)-(13),对于由全组合子空间生成的每个基随机森林学习器,当其泛化误差El和相关的动态阈值THl满足公式(13)所定义的关系时,就对其进行删除;
(3)利用权重正则化集成所有有益基学习器预测河流浊度
在得到了所有有益基学习器之后,为了更准确的预测河流浊度,将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值;具体步骤如下:
使用s=[s1,s2,…,sn]T表示经过上述修剪后保留的基随机森林学习器的输出,其中,设m=1,2,…,n表示经剪枝后保留的第m个基随机森林学习器,n为保留的基随机森林学习器的总数;然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值;定义河流浊度为S:
Figure FDA0002420702970000032
其中,w是一个用来进行集成的权重向量;wT表示向量w的转置;
Figure FDA0002420702970000033
是一个映射函数;
使用岭回归来求解w;具体来说,通过添加L2约束‖·‖2来定义损失函数:
Figure FDA0002420702970000034
其中,λ是一个正则化参数,将其值设置为le5;s为保留的基随机森林学习器的输出;
Figure FDA0002420702970000035
表示河流浊度的真实值;
通过最小化这个损失函数,得到如下的权重求解公式:
Figure FDA0002420702970000036
其中,w*为要得到的最优权重;
Figure FDA0002420702970000037
为第m个基随机森林学习器对应的河流浊度真实值;sm表示第m个基随机森林学习器的浊度预测值;
对于w*的求解,是通过对公式(19)进行求导,使其等于0:
Figure FDA0002420702970000041
其中,I是一个单位矩阵;sT为s的转置;
Figure FDA0002420702970000042
表示河流浊度的真实值;
最后,将最优的w代入公式(16),得到河流浊度的最终预测值为:
Figure FDA0002420702970000043
其中,
Figure FDA0002420702970000044
为最终求解得到的第m个基学习器的最优权重值;sm表示第m个基随机森林学习器的浊度预测值。
CN202010204791.5A 2020-03-22 一种基于随机森林集成的河流浊度软测量方法 Active CN111368939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010204791.5A CN111368939B (zh) 2020-03-22 一种基于随机森林集成的河流浊度软测量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010204791.5A CN111368939B (zh) 2020-03-22 一种基于随机森林集成的河流浊度软测量方法

Publications (2)

Publication Number Publication Date
CN111368939A true CN111368939A (zh) 2020-07-03
CN111368939B CN111368939B (zh) 2024-07-16

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344043A (zh) * 2021-05-21 2021-09-03 北京工业大学 一种基于自组织多通道深度学习网络的河流浊度监测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748736A (zh) * 2017-10-13 2018-03-02 河海大学 一种基于随机森林的多因子遥感地表温度空间降尺度方法
US20200074306A1 (en) * 2018-08-31 2020-03-05 Ca, Inc. Feature subset evolution by random decision forest accuracy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748736A (zh) * 2017-10-13 2018-03-02 河海大学 一种基于随机森林的多因子遥感地表温度空间降尺度方法
US20200074306A1 (en) * 2018-08-31 2020-03-05 Ca, Inc. Feature subset evolution by random decision forest accuracy

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VANESSA SARI 等: "Estimate of Suspended Sediment Concentration from Monitored Data of Turbidity and Water Level Using Artificial Neural Networks", WATER RESOUR MANAGE, 26 July 2017 (2017-07-26), pages 1 - 13 *
方馨蕊 等: "随机森林回归模型的悬浮泥沙浓度遥感估算", 遥感学报, 31 December 2019 (2019-12-31), pages 756 - 772 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344043A (zh) * 2021-05-21 2021-09-03 北京工业大学 一种基于自组织多通道深度学习网络的河流浊度监测方法
CN113344043B (zh) * 2021-05-21 2024-05-28 北京工业大学 一种基于自组织多通道深度学习网络的河流浊度监测方法

Similar Documents

Publication Publication Date Title
Rajaee et al. Artificial intelligence-based single and hybrid models for prediction of water quality in rivers: A review
Callens et al. Using Random forest and Gradient boosting trees to improve wave forecast at a specific location
Park et al. Interpretation of ensemble learning to predict water quality using explainable artificial intelligence
Sharifi et al. Estimation of daily global solar radiation using wavelet regression, ANN, GEP and empirical models: A comparative study of selected temperature-based approaches
Li et al. Combining multivariate statistical techniques and random forests model to assess and diagnose the trophic status of Poyang Lake in China
Coad et al. Proactive management of estuarine algal blooms using an automated monitoring buoy coupled with an artificial neural network
Luo et al. Dynamic monitoring and prediction of Dianchi Lake cyanobacteria outbreaks in the context of rapid urbanization
Gu et al. Random forest ensemble for river turbidity measurement from space remote sensing data
Tarwidi et al. An optimized XGBoost-based machine learning method for predicting wave run-up on a sloping beach
CN112666328B (zh) 基于遗传神经网络模型的叶绿素a遥感反演方法和装置
Kulshreshtha et al. Assessment of trophic state and water quality of coastal-inland lakes based on Fuzzy Inference System
CN105115883A (zh) 土壤水蚀量的检测方法和装置
Mojtahedi et al. Assessing climate and human activity effects on lake characteristics using spatio-temporal satellite data and an emotional neural network
Dilipkumar et al. Fuzzy-based global water quality assessment and water quality cells identification using satellite data
CN114595631A (zh) 一种基于efdc模型和机器学习算法的水质预测方法
CN111368939A (zh) 一种基于随机森林集成的河流浊度软测量方法
Santos et al. Drought forecast using an artificial neural network for three hydrological zones in San Francisco River basin, Brazil
CN111368939B (zh) 一种基于随机森林集成的河流浊度软测量方法
Guo et al. Mineral content estimation for salt lakes on the Tibetan plateau based on the genetic algorithm-based feature selection method using Sentinel-2 imagery: A case study of the Bieruoze Co and Guopu Co lakes
Jang et al. Spatiotemporal algal bloom prediction of geum river, Korea using the deep learning models in company with the EFDC model
Strapazan et al. A comparative assessment of different loss methods available in Mike Hydro River-UHM
Adamowski et al. Drought forecasting: artificial intelligence methods
Zerouali et al. Change-point detection in monsoon rainfall of Narmada River (central India) during 1901–2015
Busari et al. Chlorophyll a predictions in a Piedmont Lake in Upstate South Carolina using machine-learning approaches
Wang et al. Applying artificial neural networks and remote sensing to estimate chlorophyll-a concentration in water body

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant