CN111368939A - 一种基于随机森林集成的河流浊度软测量方法 - Google Patents
一种基于随机森林集成的河流浊度软测量方法 Download PDFInfo
- Publication number
- CN111368939A CN111368939A CN202010204791.5A CN202010204791A CN111368939A CN 111368939 A CN111368939 A CN 111368939A CN 202010204791 A CN202010204791 A CN 202010204791A CN 111368939 A CN111368939 A CN 111368939A
- Authority
- CN
- China
- Prior art keywords
- random forest
- learner
- base random
- ith
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 193
- 230000010354 integration Effects 0.000 title claims abstract description 31
- 238000000691 measurement method Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000013138 pruning Methods 0.000 claims abstract description 32
- 230000009286 beneficial effect Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 11
- 230000000717 retained effect Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 25
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 12
- 238000005259 measurement Methods 0.000 abstract description 8
- 238000001228 spectrum Methods 0.000 abstract description 7
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 238000012417 linear regression Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000003911 water pollution Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003651 drinking water Substances 0.000 description 2
- 235000020188 drinking water Nutrition 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003673 groundwater Substances 0.000 description 1
- 231100000206 health hazard Toxicity 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000010842 industrial wastewater Substances 0.000 description 1
- 239000008235 industrial water Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N2021/1793—Remote sensing
- G01N2021/1797—Remote sensing in landscape, e.g. crops
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于随机森林集成的河流浊度软测量方法属于水体环境保护领域和机器学习领域。本发明利用免费提供高光谱遥感数据的Google地球引擎,建立了一种基于随机森林集合的河流浑浊度测量模型。通过充分利用每个光谱及其调谐的光谱信息,利用新提出的全组合子空间方法,生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。本发明较现有方法在预测河流浊度和数据来源难易程度上有明显提升,可以协助政府进行水污染防治和监测等。
Description
技术领域
本发明利用免费提供高光谱遥感数据的Google Earth Engine(GEE)平台,建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱及其调谐的光谱信息,利用新提出的全组合子空间方法,生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。
背景技术
随着全球人口的快速增长和经济的高速发展,水资源的污染和短缺对我们日常生活中的水安全造成了越来越严重的影响。在许多国家和地区,仍然存在将大量未经处理的工业废水直接排入河流或补充地下水的现象,这造成了严重的水体污染问题。这是极其危险的,因为如果水受到污染,不及时净化,很可能造成巨大的风险,例如导致大规模的传染病爆发,进而影响生物生存。此外,水污染对生态环境也产生了重要影响。因此,建立一套有效的水污染防治监测体系已迫在眉睫。浊度是一个重要的水质评价指标,特别是对于饮用水、烹饪水和高标准工业用水。浊度本质上是指水中悬浮物(如沙、土、无机物和有机物、微生物和胶体物质等)对光透射的阻碍程度。悬浮物,特别是微生物,会严重危害人们的健康。此外,河流的浊度会改变山间河流和海洋的反射率,这可能导致河流表面温度的变化,破坏水生生态系统的平衡。
河流的浊度随时间变化很大,主要受以下因素的影响,包括水流速度和水量、河床地形、天气条件以及工业和城镇生活污水。因此,对浊度监测的研究具有十分重要的意义,特别是在生态安全评价、船舶安全管理和饮用水处理等方面的分析上。现有对河流浊度测量方法主要是基于廉价性和易用性的接触式浊度传感器进行测量,其在早期的浊度检测中得到了广泛的应用。然而,基于传感器的浊度测量需要进行现场水样采集和随后的实验室分析,这使得基于传感器的浊度测量方法劳动力需求大且成本高昂。更重要的是,基于传感器的河流浊度监测方法还存在着灵活性差的缺点,如若采用基于传感器的方法来完全覆盖整个河流进行监测是非常不合理的。
针对现有方法所存在的种种不足,本发明基于随机森林的方法提出,主要分为三阶段实现。首先,以著名的随机森林方法的为基础,区别于算法中的随机子空间特征选取过程,设计了一种新的全组合子空间方法来生成所有可能的特征组合,以此来训练基随机森林学习器。其次,为了进一步选出所有组合中对浊度预测有用的部分,提出了一种基于误差最小化的循环剪枝算法。根据误差的动态阈值去除有害基随机森林学习器,以保留那些与浊度值高度相关的基随机森林学习器。最后,采用正则化线性回归加权平均法对所有保留的有益基随机森林学习器的浊度预测结果进行融合,进而得到河流浊度的最终测量结果。本发明较之现有的方法在预测误差和数据来源的难易程度上有明显的提升。
发明内容
通过Google Earth Engine(GEE)平台获得的高光谱遥感数据由13个波段组成,可以充分反映河流的浊度。然而,迄今还没有明确的证据表明哪些波段或它们的组合与河流浊度有很强的相关性,以及如何有效地融合它们的问题。为了解决这一问题,我们将收集到河流浊度的高光谱遥感图像作为输入的训练样本,其波段作为输入特征,提出了一种基于随机森林集成的河流浑浊度测量的新方法RFE-GEE方法。我们提出的RFE-GEE方法检测河流浊度的步骤如下:
(1)提出新的全组合子空间方法来提取所有样本特征组合,从而构建随机森林的基学习器
传统的随机森林算法首先是建立多个基学习器,并将它们的预测结果合并在一起以获得更准确和稳定的预测。所以,第一步通常是利用随机子空间方法挑选每一个基学习器的输入特征,从而决定随机森林的基学习器的个数。而随机子空间作为一种流行的集成方法,巧妙地融合了自举和聚合两种方法的优点,可以随机生成一些与河流浊度高度相关的正确特征组,为河流浊度软测量提供了一个很好的解决方案。然而,随机子空间的随机性太高,无法满足河流浊度监测的需求。因此,利用随机子空间的思想,本发明提出了一种新的特征选择集成算法—全组合子空间,主要用于实现特征的筛选。
全组合子空间就是将所有的特征进行排列组合。再将每一种组合方式作为输入分别构建基学习器。本文是将河流浊度的高光谱图像作为输入样本,每个样本有13个波段作为13个输入特征。将13个输入特征进行排列组合,共有8191种组合方式。每一种组合作为每一个基学习器的输入特征,共构建8191个基学习器。
(2)基于误差最小化剪枝算法剔除有害基随机森林学习器
为了对上述产生的8191个基随机森林学习器进行筛选,本发明提出了一种新的基于误差最小化的剪枝算法进行循环剪枝,来去除有害基随机森林学习器。一般情况下,由与河流浊度相关性较低的特征组或相似特征组训练的基随机森林学习器不可避免地会破坏集合的整体输出。因此,剪枝算法对于在给定的全组合特征子空间中获得特征组的稀疏表示起着至关重要的作用,从而只保留了与河流浊度有较强的相关性,但相互之间相关性较弱的特征组。此外,修剪也是降低模型复杂度和加快模型执行速度的重要手段。与大多数现有的基于误差减小的修剪算法不同,本发明提出了一种新的剪枝算法,该算法通过循环剪枝的方式将误差降到最小,直到没有基随机森林学习器被删除为止。我们的剪枝算法的实现细节如下所示。
先近似一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样。输出y的期望输出是假设第i个基随机森林学习器的输出是Gi(y),就可以将集成的输出表示为:
Ei=∫Ei(y)P(y)dy (4)
将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:
其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差。
结合公式(2)和公式(4),可以得到集成泛化误差为:
进一步结合公式(6)和公式(7)可以推导出集成误差表示为:
其中,gi,gj为取值区间[0,1]的权重;Cij为第i和第j个基随机森林学习器的相关性。
为了简单起见,假设所有基随机森林学习器都具有相同的重要性,因此将公式(8)重写为:
其中,k是基随机森林学习器的总个数;Cij为第i和第j个基随机森林学习器的相关性。
其中,Cij为第i和第j个基随机森林学习器的相关性。
其中,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
进一步合并公式(9)和公式(11):
其中,Cij为第i和第j个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
如果在移除第l个基随机森林学习器后,公式(12)仍然成立,那么就可以确定这个基随机森林学习器很差,应该被移除。为了方便起见,通过设置一个动态阈值TH来选择效果很差的基随机森林学习器,所以,第l个基随机森林学习器的泛化误差重写为:
其中,THl为第l个基随机森林学习器的动态阈值;Cij为第i和第j个基随机森林学习器的相关性,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
根据公式(1)-(13),对于由全组合子空间生成的每个基随机森林学习器,当其泛化误差El和相关的动态阈值THl满足公式(13)所定义的关系时,就对其进行删除。为了减小误差,在8191个基随机森林学习器上循环应用上述修剪算法,直到没有基随机森林学习器可以修剪为止。最后,只保留了7个基随机森林学习器作为有益基学习器,删除了99.9%以上的基随机森林学习器,这在很大程度上降低了基随机森林学习器的冗余度,提高了测试或执行过程中的计算速度。
(3)利用权重正则化集成所有有益基学习器预测河流浊度
在得到了所有有益基学习器之后,为了更准确的预测河流浊度,我们将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值。具体步骤如下:
使用s=[s1,s2,…,sn]T表示经过上述修剪后保留的基随机森林学习器的输出,其中,设m=1,2,…,n表示经剪枝后保留的第m个基随机森林学习器,n为保留的基随机森林学习器的总数。然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值。定义河流浊度为S:
设计过程中,共考虑了公式(14)的权重w的三种解法,最终选择了第三种方案。具体分析内容如下:
第一个典型的解决方案是直接平均法。直接令w=[w1,w2,…,wn]T为[1/n,1/n,…,1/n]T:
其中,S为河流浊度预测值;n为保留的基随机森林学习器的总数;sm为第m个基随机森林学习器的浊度预测值。
第二个典型的解决方案是加权平均法,其效果一般优于直接平均法。通过设置不同的系数w对公式(14)进行重写,则总的河流浊度预测值S可表达为:
其中,wm为待确定的未知权值;n为保留的基随机森林学习器的总数;sm和sn分别表示第m个和第n个基随机森林学习器的浊度预测值。
求解公式(16)中权值的一种方法是直接用最小二乘法,得到损失函数为:
最终对权重w的求解过程表示为:
但是,公式(18)可能会产生病态和过拟合问题。因此,我们考虑添加一些约束条件,如L0,L1(拉索回归),L2(岭回归),以同时解决未知权值和避免上述两个问题。此外,与L2相比,L0与L1之间存在着显著的差异:1)基于L0的正则化是一个困难的问题,难以实现;2)Lasso回归的求解过程非常缓慢;3)L0和L1正则化应该稀疏,这使得权值接近于0;4)基于L2的正则化非常适合解决多重共线性问题(即输入变量之间存在高相关性)。本发明利用修剪后的全基随机森林学习器对河流浊度进行了测量;也就是说,它们都不应该被赋值为零。因此,最终使用岭回归来求解w。
所以,本文最终采用第三种方案,也就是使用岭回归来求解w。具体来说,通过添加L2约束‖·‖2来定义损失函数:
通过最小化这个损失函数,可以得到如下的权重求解公式:
对于w*的求解,是通过对公式(19)进行求导,使其等于0:
最后,将最优的w代入公式(16),得到河流浊度的最终预测值为:
每个基本随机森林学习器的输出占集成的不同比例。
图1是RFE-GEE方法的基本流程图。
本发明的创造性主要体现在:
(1)提出了一种利用高光谱遥感数据进行河流浑浊度测量的新策略,因为与目前主流方法相比,这些数据更灵活、更便宜;
(2)提出了一种基于全组合子空间的集成算法,以保证各谱信息及其调谐谱信息的充分利用;
(3)提出了一种新的基于误差最小化的剪枝算法,该算法通过循环消除较差的基随机森林,以获得最紧凑表示能力的基随机森林为目标;
(4)提出的RFE-GEE模型具有较好的性能,明显优于现代竞争对手,可以为河流污染控制提供更好的指导。
附图说明
图1是本发明设计的全组合子空间集成算法流程图;
图2是本发明的结构图。
具体实施方式
本发明利用免费提供高光谱遥感数据的Google Earth Engine(GEE),建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱信息及其调谐的光谱信息,利用新提出的全组合子空间,生成所有可能的基随机森林学习器。通过新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。通过采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。
1.利用免费提供高光谱遥感数据的GEE进行数据收集。GEE是在Google Cloud上运行的,因此它具有非凡的处理能力,而不受空间和时间的限制。同时,Google地球引擎也继承了传统卫星遥感技术的一些优点,不仅可以用于大规模、实时的河流浊度监测,而且可以用于反映河流浊度在时空上的分布和变化。通过上述分析,我们利用Google地球引擎云平台获得了高光谱遥感数据,该平台采用Sentinel-2卫星采集主要源数据,然后根据图像可视化环境测量的位置坐标和选择的时间精确选择所需数据。
2.一种基于随机森林集成的河流浊度测量方法,包括以下步骤:
(1)提出新的全组合子空间方法来提取所有样本特征组合,从而构建随机森林的基学习器
全组合子空间就是将所有的特征进行排列组合。再将每一种组合方式作为输入分别构建基学习器。本文是将河流浊度的高光谱图像作为输入样本,每个样本有13个波段作为13个输入特征。将13个输入特征进行排列组合,共有8191种组合方式。每一种组合作为每一个基学习器的输入特征,共构建了8191个基学习器。
(2)基于误差最小化剪枝算法剔除有害基随机森林学习器
为了对上述产生的8191个基随机森林学习器进行筛选,本发明提出了一种新的基于误差最小化的剪枝算法进行循环剪枝,来去除有害基随机森林学习器。一般情况下,由与河流浊度相关性较低的特征组或相似特征组训练的基随机森林学习器不可避免地会破坏集合的整体输出。因此,剪枝算法对于在给定的全组合特征子空间中获得特征组的稀疏表示起着至关重要的作用,从而只保留了与河流浊度有较强的相关性,但相互之间相关性较弱的特征组。此外,修剪也是降低模型复杂度和加快模型执行速度的重要手段。与大多数现有的基于误差减小的修剪算法不同,本发明提出了一种新的剪枝算法,该算法通过循环剪枝的方式将误差降到最小,直到没有基随机森林学习器被删除为止。我们的剪枝算法的实现细节如下所示。
先近似一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样。输出y的期望输出是假设第i个基随机森林学习器的输出是Gi(y),就可以将集成的输出表示为:
Ei=∫Ei(y)P(y)dy (26)
将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:
其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差。
结合公式(24)和公式(26),可以得到集成泛化误差为:
进一步结合公式(28)和公式(29)可以推导出集成误差表示为:
其中,gi,gj为取值区间[0,1]的权重;Cij为第i和第j个基随机森林学习器的相关性。
为了简单起见,假设所有基随机森林学习器都具有相同的重要性,因此将公式(30)重写为:
其中,k是基随机森林学习器的总个数;Cij为第i和第j个基随机森林学习器的相关性。
其中,Cij为第i和第j个基随机森林学习器的相关性。
其中,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
进一步合并公式(31)和公式(33):
其中,Cij为第i和第j个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
如果在移除第l个基随机森林学习器后,公式(34)仍然成立,那么就可以确定这个基随机森林学习器很差,应该被移除。为了方便起见,通过设置一个动态阈值TH来选择效果很差的基随机森林学习器,所以,第l个基随机森林学习器的泛化误差重写为:
其中,THl为第l个基随机森林学习器的动态阈值,Cij为第i和第j个基随机森林学习器的相关性,Cil为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差。
根据公式(23)-(35),对于由全组合子空间生成的每个基随机森林学习器,当其泛化误差El和相关的动态阈值THl满足公式(35)所定义的关系时,就对其进行删除。为了减小误差,在8191个基随机森林学习器上循环应用上述修剪算法,直到没有基随机森林学习器可以修剪为止。最后,只保留了7个基随机森林学习器作为有益基学习器,删除了99.9%以上的基随机森林学习器,这在很大程度上降低了基随机森林学习器的冗余度,提高了测试或执行过程中的计算速度。
(3)利用权重正则化集成所有有益基学习器预测河流浊度
在得到了所有有益基学习器之后,为了更准确的预测河流浊度,我们将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值。具体步骤如下:
使用s=[s1,s2,…,sn]T表示经过上述修剪后保留的基随机森林学习器的输出,其中,设m=1,2,…,n表示经剪枝后保留的第m个基随机森林学习器,n为保留的基随机森林学习器的总数。然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值。定义河流浊度为S:
设计过程中,共考虑了公式(36)的权重w的三种解法,最终选择了第三种方案。具体分析内容如下:
第一个典型的解决方案是直接平均法。直接令w=[w1,w2,…,wn]T为[1/n,1/n,…,1/n]T:
其中,S为河流浊度预测值;n为保留的基随机森林学习器的总数;sm为第m个基随机森林学习器的浊度预测值。
第二个典型的解决方案是加权平均法,其效果一般优于直接平均法。通过设置不同的系数w对公式(36)进行重写,则总的河流浊度预测值S可表达为:
其中,wm为待确定的未知权值;n为保留的基随机森林学习器的总数;sm和sn分别表示第m个和第n个基随机森林学习器的浊度预测值。
求解公式(38)中权值的一种方法是直接用最小二乘法,得到损失函数为:
最终对权重w的求解过程表示为:
但是,公式(40)可能会产生病态和过拟合问题。因此,我们考虑添加一些约束条件,如L0,L1(拉索回归),L2(岭回归),以同时解决未知权值和避免上述两个问题。此外,与L2相比,L0与L1之间存在着显著的差异:1)基于L0的正则化是一个困难的问题,难以实现;2)Lasso回归的求解过程非常缓慢;3)L0和L1正则化应该稀疏,这使得权值接近于0;4)基于L2的正则化非常适合解决多重共线性问题(即输入变量之间存在高相关性)。本发明利用修剪后的全基随机森林学习器对河流浊度进行了测量;也就是说,它们都不应该被赋值为零。因此,最终使用岭回归来求解w。
所以,本文最终采用第三种方案,也就是使用岭回归来求解w。具体来说,通过添加L2约束‖·‖2来定义损失函数:
通过最小化这个损失函数,可以得出如下的权重解:
对于w*的求解,是通过对公式(41)进行求导,使其等于0:
最后,将最优的w代入公式(38),得到河流浊度的最终预测值为:
每个基本随机森林学习器的输出占集成的不同比例。
此处使用两个典型的评价指标,即均方误差(MSE)和峰值信噪比(PSNR)来评价模型的性能:
其中,am和bm分别是模型对第m个样本的河流浊度估计值和其真值,M是样本总数。
在上述三个评价指标中,MSE和NMGE中值较小,而且PSNR值越大,说明模型的效果越好。本发明与现有的Random forest模型[1],Stacked Selective Ensemble-BackedPredictor(SSEP)模型[2],Radial Basis Function(RBF)neural network模型[3],Fuzzyneural network模型[4],Support Vector Regressor(SVR)模型[5],Extreme LearningMachine(ELM)模型[6],Deep belief network模型[7],Bidirectional ELM(BELM)模型[8],and Broad Learning System(BLS)模型[9]的模型测量效果对比见表1,本发明与其子部件的对比效果见表2。从表格中不难看出,提出的RFE-GEE模型在MSE和PSNR指标上都取得了高于其他9位学习者的结果。
表1
表2
引用:
[1]L.Breiman,“Random forests,”Machine Learning,vol.45,no.1,pp.5-32,Oct.2001.
[2]K.Gu,Z.Xia,and J.Qiao,“Stacked selective ensemble for PM2.5forecast,”IEEE Trans.Instrumentation&Measurement,2020.
[3]J.Park and I.W.Sandberg,“Universal approximation using radial-basis function networks,”Neural Computation,vol.3,no.2,pp.246-257,1991.
[4]L.H.Tsoukalas and R.E.Uhrig,“Fuzzy and neural approaches inengineering,”Jun.1996.[5]A.J.Smola and B.Scholkopf,“A tutorial on supportvector regression,”Statistics and Computing,vol.14,pp.199-222,Aug.2004.
[6]G.B.Huang,Q.Y.Zhu,and C.K.Siew,“Extreme learning machine:Theoryand applications,”Neurocomputing,vol.70,pp.489-501,2006.
[7]R.Salakhutdinov and G.E.Hinton,“Deep belief networks,”Scholarpediavol.4,no.5,Jan.2009.
[8]Y.Yang,Y.Wang,and X.Yuan,“Bidirectional extreme learning machinefor regression problem and its learning effectiveness,”IEEE Trans.NeuralNetworks&Learning Systems,vol.23,no.9,pp.1498-1505,2012.
[9]C.L.P.Chen and Z.Liu,“Broad learning system:An effective andefficient incremental learning system without the need for deeparchitecture,”IEEE Trans.Neural Networks&Learning Systems,vol.29,no.1,pp.10-24,2018.
Claims (1)
1.一种基于随机森林集成的河流浊度软测量方法,其特征在于:
先用一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα为域的维度,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样;输出y的期望输出是假设第i个基随机森林学习器的输出是Gi(y),将集成的输出表示为:
Ei=∫Ei(y)P(y)dy (4)
将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:
其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei表示第i个基学习器的自相关性和其泛化误差相等;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差;
结合公式(2)和公式(4),得到集成泛化误差为:
进一步结合公式(6)和公式(7)推导出集成误差表示为:
其中,gi,gj为取值区间[0,1]的权重的权重;Cij为第i为第i和第j个基随机森林学习器的相关性;
设定所有基随机森林学习器都具有相同的重要性,因此将公式(8)重写为:
其中,k是基随机森林学习器的总个数;Cij为第i为第i和第j个基随机森林学习器的相关性;
其中,Cij为第i为第i和第j个基随机森林学习器的相关性;
其中,Cil为第i和第l个基随机森林学习器的相关性为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器表示第l个基随机森林学习器的泛化误差;合并公式(9)和公式(11):
其中,Cij为第i为第i和第j个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差;
通过设置一个动态阈值TH来选择效果很差的基随机森林学习器,所以,第l个基随机森林学习器的泛化误差重写为:
其中,THl为第l个基随机森林学习器的动态阈值;Cij为第i为第i和第j个基随机森林学习器的相关性Cil为第i和第l个基随机森林学习器的相关性为第i和第l个基随机森林学习器的相关性;El表示第l个基随机森林学习器的泛化误差;
根据公式(1)-(13),对于由全组合子空间生成的每个基随机森林学习器,当其泛化误差El和相关的动态阈值THl满足公式(13)所定义的关系时,就对其进行删除;
(3)利用权重正则化集成所有有益基学习器预测河流浊度
在得到了所有有益基学习器之后,为了更准确的预测河流浊度,将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值;具体步骤如下:
使用s=[s1,s2,…,sn]T表示经过上述修剪后保留的基随机森林学习器的输出,其中,设m=1,2,…,n表示经剪枝后保留的第m个基随机森林学习器,n为保留的基随机森林学习器的总数;然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值;定义河流浊度为S:
使用岭回归来求解w;具体来说,通过添加L2约束‖·‖2来定义损失函数:
通过最小化这个损失函数,得到如下的权重求解公式:
对于w*的求解,是通过对公式(19)进行求导,使其等于0:
最后,将最优的w代入公式(16),得到河流浊度的最终预测值为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010204791.5A CN111368939B (zh) | 2020-03-22 | 一种基于随机森林集成的河流浊度软测量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010204791.5A CN111368939B (zh) | 2020-03-22 | 一种基于随机森林集成的河流浊度软测量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368939A true CN111368939A (zh) | 2020-07-03 |
CN111368939B CN111368939B (zh) | 2024-07-16 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344043A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 一种基于自组织多通道深度学习网络的河流浊度监测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748736A (zh) * | 2017-10-13 | 2018-03-02 | 河海大学 | 一种基于随机森林的多因子遥感地表温度空间降尺度方法 |
US20200074306A1 (en) * | 2018-08-31 | 2020-03-05 | Ca, Inc. | Feature subset evolution by random decision forest accuracy |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748736A (zh) * | 2017-10-13 | 2018-03-02 | 河海大学 | 一种基于随机森林的多因子遥感地表温度空间降尺度方法 |
US20200074306A1 (en) * | 2018-08-31 | 2020-03-05 | Ca, Inc. | Feature subset evolution by random decision forest accuracy |
Non-Patent Citations (2)
Title |
---|
VANESSA SARI 等: "Estimate of Suspended Sediment Concentration from Monitored Data of Turbidity and Water Level Using Artificial Neural Networks", WATER RESOUR MANAGE, 26 July 2017 (2017-07-26), pages 1 - 13 * |
方馨蕊 等: "随机森林回归模型的悬浮泥沙浓度遥感估算", 遥感学报, 31 December 2019 (2019-12-31), pages 756 - 772 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344043A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 一种基于自组织多通道深度学习网络的河流浊度监测方法 |
CN113344043B (zh) * | 2021-05-21 | 2024-05-28 | 北京工业大学 | 一种基于自组织多通道深度学习网络的河流浊度监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rajaee et al. | Artificial intelligence-based single and hybrid models for prediction of water quality in rivers: A review | |
Callens et al. | Using Random forest and Gradient boosting trees to improve wave forecast at a specific location | |
Park et al. | Interpretation of ensemble learning to predict water quality using explainable artificial intelligence | |
Sharifi et al. | Estimation of daily global solar radiation using wavelet regression, ANN, GEP and empirical models: A comparative study of selected temperature-based approaches | |
Li et al. | Combining multivariate statistical techniques and random forests model to assess and diagnose the trophic status of Poyang Lake in China | |
Coad et al. | Proactive management of estuarine algal blooms using an automated monitoring buoy coupled with an artificial neural network | |
Luo et al. | Dynamic monitoring and prediction of Dianchi Lake cyanobacteria outbreaks in the context of rapid urbanization | |
Gu et al. | Random forest ensemble for river turbidity measurement from space remote sensing data | |
Tarwidi et al. | An optimized XGBoost-based machine learning method for predicting wave run-up on a sloping beach | |
CN112666328B (zh) | 基于遗传神经网络模型的叶绿素a遥感反演方法和装置 | |
Kulshreshtha et al. | Assessment of trophic state and water quality of coastal-inland lakes based on Fuzzy Inference System | |
CN105115883A (zh) | 土壤水蚀量的检测方法和装置 | |
Mojtahedi et al. | Assessing climate and human activity effects on lake characteristics using spatio-temporal satellite data and an emotional neural network | |
Dilipkumar et al. | Fuzzy-based global water quality assessment and water quality cells identification using satellite data | |
CN114595631A (zh) | 一种基于efdc模型和机器学习算法的水质预测方法 | |
CN111368939A (zh) | 一种基于随机森林集成的河流浊度软测量方法 | |
Santos et al. | Drought forecast using an artificial neural network for three hydrological zones in San Francisco River basin, Brazil | |
CN111368939B (zh) | 一种基于随机森林集成的河流浊度软测量方法 | |
Guo et al. | Mineral content estimation for salt lakes on the Tibetan plateau based on the genetic algorithm-based feature selection method using Sentinel-2 imagery: A case study of the Bieruoze Co and Guopu Co lakes | |
Jang et al. | Spatiotemporal algal bloom prediction of geum river, Korea using the deep learning models in company with the EFDC model | |
Strapazan et al. | A comparative assessment of different loss methods available in Mike Hydro River-UHM | |
Adamowski et al. | Drought forecasting: artificial intelligence methods | |
Zerouali et al. | Change-point detection in monsoon rainfall of Narmada River (central India) during 1901–2015 | |
Busari et al. | Chlorophyll a predictions in a Piedmont Lake in Upstate South Carolina using machine-learning approaches | |
Wang et al. | Applying artificial neural networks and remote sensing to estimate chlorophyll-a concentration in water body |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |