CN111368939A

CN111368939A - 一种基于随机森林集成的河流浊度软测量方法

Info

Publication number: CN111368939A
Application number: CN202010204791.5A
Authority: CN
Inventors: 顾锞; 乔俊飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-03-22
Filing date: 2020-03-22
Publication date: 2020-07-03
Anticipated expiration: 2040-03-22

Abstract

一种基于随机森林集成的河流浊度软测量方法属于水体环境保护领域和机器学习领域。本发明利用免费提供高光谱遥感数据的Google地球引擎，建立了一种基于随机森林集合的河流浑浊度测量模型。通过充分利用每个光谱及其调谐的光谱信息，利用新提出的全组合子空间方法，生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法，根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法，融合有益基随机森林学习器，得到河流浊度的最终测量结果。本发明较现有方法在预测河流浊度和数据来源难易程度上有明显提升，可以协助政府进行水污染防治和监测等。

Description

一种基于随机森林集成的河流浊度软测量方法

技术领域

本发明利用免费提供高光谱遥感数据的Google Earth Engine(GEE)平台，建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱及其调谐的光谱信息，利用新提出的全组合子空间方法，生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法，根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法，融合有益基随机森林学习器，得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。

背景技术

随着全球人口的快速增长和经济的高速发展，水资源的污染和短缺对我们日常生活中的水安全造成了越来越严重的影响。在许多国家和地区，仍然存在将大量未经处理的工业废水直接排入河流或补充地下水的现象，这造成了严重的水体污染问题。这是极其危险的，因为如果水受到污染，不及时净化，很可能造成巨大的风险，例如导致大规模的传染病爆发，进而影响生物生存。此外，水污染对生态环境也产生了重要影响。因此，建立一套有效的水污染防治监测体系已迫在眉睫。浊度是一个重要的水质评价指标，特别是对于饮用水、烹饪水和高标准工业用水。浊度本质上是指水中悬浮物(如沙、土、无机物和有机物、微生物和胶体物质等)对光透射的阻碍程度。悬浮物，特别是微生物，会严重危害人们的健康。此外，河流的浊度会改变山间河流和海洋的反射率，这可能导致河流表面温度的变化，破坏水生生态系统的平衡。

河流的浊度随时间变化很大，主要受以下因素的影响，包括水流速度和水量、河床地形、天气条件以及工业和城镇生活污水。因此，对浊度监测的研究具有十分重要的意义，特别是在生态安全评价、船舶安全管理和饮用水处理等方面的分析上。现有对河流浊度测量方法主要是基于廉价性和易用性的接触式浊度传感器进行测量，其在早期的浊度检测中得到了广泛的应用。然而，基于传感器的浊度测量需要进行现场水样采集和随后的实验室分析，这使得基于传感器的浊度测量方法劳动力需求大且成本高昂。更重要的是，基于传感器的河流浊度监测方法还存在着灵活性差的缺点，如若采用基于传感器的方法来完全覆盖整个河流进行监测是非常不合理的。

针对现有方法所存在的种种不足，本发明基于随机森林的方法提出，主要分为三阶段实现。首先，以著名的随机森林方法的为基础，区别于算法中的随机子空间特征选取过程，设计了一种新的全组合子空间方法来生成所有可能的特征组合，以此来训练基随机森林学习器。其次，为了进一步选出所有组合中对浊度预测有用的部分，提出了一种基于误差最小化的循环剪枝算法。根据误差的动态阈值去除有害基随机森林学习器，以保留那些与浊度值高度相关的基随机森林学习器。最后，采用正则化线性回归加权平均法对所有保留的有益基随机森林学习器的浊度预测结果进行融合，进而得到河流浊度的最终测量结果。本发明较之现有的方法在预测误差和数据来源的难易程度上有明显的提升。

发明内容

通过Google Earth Engine(GEE)平台获得的高光谱遥感数据由13个波段组成，可以充分反映河流的浊度。然而，迄今还没有明确的证据表明哪些波段或它们的组合与河流浊度有很强的相关性，以及如何有效地融合它们的问题。为了解决这一问题，我们将收集到河流浊度的高光谱遥感图像作为输入的训练样本，其波段作为输入特征，提出了一种基于随机森林集成的河流浑浊度测量的新方法RFE-GEE方法。我们提出的RFE-GEE方法检测河流浊度的步骤如下：

(1)提出新的全组合子空间方法来提取所有样本特征组合，从而构建随机森林的基学习器

传统的随机森林算法首先是建立多个基学习器，并将它们的预测结果合并在一起以获得更准确和稳定的预测。所以，第一步通常是利用随机子空间方法挑选每一个基学习器的输入特征，从而决定随机森林的基学习器的个数。而随机子空间作为一种流行的集成方法，巧妙地融合了自举和聚合两种方法的优点，可以随机生成一些与河流浊度高度相关的正确特征组，为河流浊度软测量提供了一个很好的解决方案。然而，随机子空间的随机性太高，无法满足河流浊度监测的需求。因此，利用随机子空间的思想，本发明提出了一种新的特征选择集成算法—全组合子空间，主要用于实现特征的筛选。

全组合子空间就是将所有的特征进行排列组合。再将每一种组合方式作为输入分别构建基学习器。本文是将河流浊度的高光谱图像作为输入样本，每个样本有13个波段作为13个输入特征。将13个输入特征进行排列组合，共有8191种组合方式。每一种组合作为每一个基学习器的输入特征，共构建8191个基学习器。

(2)基于误差最小化剪枝算法剔除有害基随机森林学习器

为了对上述产生的8191个基随机森林学习器进行筛选，本发明提出了一种新的基于误差最小化的剪枝算法进行循环剪枝，来去除有害基随机森林学习器。一般情况下，由与河流浊度相关性较低的特征组或相似特征组训练的基随机森林学习器不可避免地会破坏集合的整体输出。因此，剪枝算法对于在给定的全组合特征子空间中获得特征组的稀疏表示起着至关重要的作用，从而只保留了与河流浊度有较强的相关性，但相互之间相关性较弱的特征组。此外，修剪也是降低模型复杂度和加快模型执行速度的重要手段。与大多数现有的基于误差减小的修剪算法不同，本发明提出了一种新的剪枝算法，该算法通过循环剪枝的方式将误差降到最小，直到没有基随机森林学习器被删除为止。我们的剪枝算法的实现细节如下所示。

先近似一个集成函数G(y):R^α→R^β用来表示基学习器的学习过程，R为函数的域，α和β为域的维度，y∈R^α是从分布函数P(y)中进行取样。输出y的期望输出是

假设第i个基随机森林学习器的输出是G_i(y)，就可以将集成的输出表示为：

其中，i＝1,2,…,k表示第i个基随机森林学习器；k是基随机森林学习器的总个数；g_i是第i个基随机森林学习器的权重，其值属于区间[0,1]，并有

定义第i个基随机森林学习器在输出y上的泛化误差为E_i(y)，和在y上的集成泛化误差为

其中，y的期望输出是

G_i(y)是第i个基随机森林学习器的输出；

为集成的输出。

然后进一步推导第i个基随机森林学习器在分布P(y)上的泛化误差为E_i和集成泛化误差为

E_i＝∫E_i(y)P(y)dy (4)

将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下：

其中，C_ij＝C_ji；C_ii＝E_i表示第i个基学习器的自相关性和其泛化误差相等；E_i，E_j分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差。

结合公式(2)和公式(4)，可以得到集成泛化误差为：

其中，g_i，g_j为取值区间[0,1]的权重；G_i(y)与G_j(y)是对应的第i和第j个基随机森林学习器的输出；输出y的期望的输出是

进一步结合公式(6)和公式(7)可以推导出集成误差表示为：

其中，g_i，g_j为取值区间[0,1]的权重；C_ij为第i和第j个基随机森林学习器的相关性。

为了简单起见，假设所有基随机森林学习器都具有相同的重要性，因此将公式(8)重写为：

其中，k是基随机森林学习器的总个数；C_ij为第i和第j个基随机森林学习器的相关性。

观察公式(2)-(9)，如果第l个基随机森林学习器被删除的话，将会得到新的集成泛化误差

其中，C_ij为第i和第j个基随机森林学习器的相关性。

综合公式(9)和公式(10)，我们可以得到以下结论，如果集成泛化误差

小于

表示误差在减小，那么认为去掉了第l个基随机森林学习器的集成是完成一个很好工作，可以将这个过程定义为：

其中，C_il为第i和第l个基随机森林学习器的相关性；E_l表示第l个基随机森林学习器的泛化误差。

进一步合并公式(9)和公式(11):

其中，C_ij为第i和第j个基随机森林学习器的相关性；E_l表示第l个基随机森林学习器的泛化误差。

如果在移除第l个基随机森林学习器后，公式(12)仍然成立，那么就可以确定这个基随机森林学习器很差，应该被移除。为了方便起见，通过设置一个动态阈值TH来选择效果很差的基随机森林学习器，所以，第l个基随机森林学习器的泛化误差重写为：

其中，TH_l为第l个基随机森林学习器的动态阈值；C_ij为第i和第j个基随机森林学习器的相关性，C_il为第i和第l个基随机森林学习器的相关性；E_l表示第l个基随机森林学习器的泛化误差。

根据公式(1)-(13)，对于由全组合子空间生成的每个基随机森林学习器，当其泛化误差E_l和相关的动态阈值TH_l满足公式(13)所定义的关系时，就对其进行删除。为了减小误差，在8191个基随机森林学习器上循环应用上述修剪算法，直到没有基随机森林学习器可以修剪为止。最后，只保留了7个基随机森林学习器作为有益基学习器，删除了99.9％以上的基随机森林学习器，这在很大程度上降低了基随机森林学习器的冗余度，提高了测试或执行过程中的计算速度。

(3)利用权重正则化集成所有有益基学习器预测河流浊度

在得到了所有有益基学习器之后，为了更准确的预测河流浊度，我们将每一个有益基学习器的输出进行集成来得到最终的河流浊度预测值。具体步骤如下：

使用s＝[s₁,s₂,…,s_n]^T表示经过上述修剪后保留的基随机森林学习器的输出，其中，设m＝1,2,…,n表示经剪枝后保留的第m个基随机森林学习器，n为保留的基随机森林学习器的总数。然后将保留的基随机森林学习器的输出汇总进行集成来最终确定预测的河流浊度值。定义河流浊度为S：

其中，w是一个用来进行集成的权重向量；w^T表示向量w的转置；

是一个映射函数。

设计过程中，共考虑了公式(14)的权重w的三种解法，最终选择了第三种方案。具体分析内容如下：

第一个典型的解决方案是直接平均法。直接令w＝[w₁,w₂,…,w_n]^T为[1/n,1/n,…,1/n]^T:

其中，S为河流浊度预测值；n为保留的基随机森林学习器的总数；s_m为第m个基随机森林学习器的浊度预测值。

第二个典型的解决方案是加权平均法，其效果一般优于直接平均法。通过设置不同的系数w对公式(14)进行重写，则总的河流浊度预测值S可表达为：

其中，w_m为待确定的未知权值；n为保留的基随机森林学习器的总数；s_m和s_n分别表示第m个和第n个基随机森林学习器的浊度预测值。

求解公式(16)中权值的一种方法是直接用最小二乘法，得到损失函数为：

其中，w是一个用来进行集成的权重向量，w^T表示向量w的转置；损失函数为L′(w)；s＝[s₁,s₂,…,s_n]^T表示经过剪枝后保留的基随机森林学习器的输出；

表示河流浊度的真实值。

最终对权重w的求解过程表示为：

其中，w′为权重的最终解；s^T为s的转置；

表示河流浊度的真实值。

但是，公式(18)可能会产生病态和过拟合问题。因此，我们考虑添加一些约束条件，如L0,L1(拉索回归)，L2(岭回归)，以同时解决未知权值和避免上述两个问题。此外，与L2相比，L0与L1之间存在着显著的差异：1)基于L0的正则化是一个困难的问题，难以实现；2)Lasso回归的求解过程非常缓慢；3)L0和L1正则化应该稀疏，这使得权值接近于0；4)基于L2的正则化非常适合解决多重共线性问题(即输入变量之间存在高相关性)。本发明利用修剪后的全基随机森林学习器对河流浊度进行了测量；也就是说，它们都不应该被赋值为零。因此，最终使用岭回归来求解w。

所以，本文最终采用第三种方案，也就是使用岭回归来求解w。具体来说，通过添加L2约束‖·‖₂来定义损失函数：

其中，λ是一个正则化参数，将其值设置为le5；s为保留的基随机森林学习器的输出；

表示河流浊度的真实值。

通过最小化这个损失函数，可以得到如下的权重求解公式：

其中，w*为要得到的最优权重；正则化参数λ＝le5；

为第m个基随机森林学习器对应的河流浊度真实值；s_m表示第m个基随机森林学习器的浊度预测值。

对于w^*的求解，是通过对公式(19)进行求导，使其等于0:

其中，I是一个单位矩阵；s^T为s的转置；

表示河流浊度的真实值。

最后，将最优的w代入公式(16)，得到河流浊度的最终预测值为：

其中，

为最终求解得到的第m个基学习器的最优权重值；s_m表示第m个基随机森林学习器的浊度预测值。

每个基本随机森林学习器的输出占集成的不同比例。

图1是RFE-GEE方法的基本流程图。

本发明的创造性主要体现在：

(1)提出了一种利用高光谱遥感数据进行河流浑浊度测量的新策略，因为与目前主流方法相比，这些数据更灵活、更便宜；

(2)提出了一种基于全组合子空间的集成算法，以保证各谱信息及其调谐谱信息的充分利用；

(3)提出了一种新的基于误差最小化的剪枝算法，该算法通过循环消除较差的基随机森林，以获得最紧凑表示能力的基随机森林为目标；

(4)提出的RFE-GEE模型具有较好的性能，明显优于现代竞争对手，可以为河流污染控制提供更好的指导。

附图说明

图1是本发明设计的全组合子空间集成算法流程图；

图2是本发明的结构图。

具体实施方式

本发明利用免费提供高光谱遥感数据的Google Earth Engine(GEE)，建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱信息及其调谐的光谱信息，利用新提出的全组合子空间，生成所有可能的基随机森林学习器。通过新提出的基于误差最小化的剪枝算法，根据动态阈值循环去除有害基随机森林学习器。通过采用正则化线性回归加权平均法，融合有益基随机森林学习器，得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。

1.利用免费提供高光谱遥感数据的GEE进行数据收集。GEE是在Google Cloud上运行的，因此它具有非凡的处理能力，而不受空间和时间的限制。同时，Google地球引擎也继承了传统卫星遥感技术的一些优点，不仅可以用于大规模、实时的河流浊度监测，而且可以用于反映河流浊度在时空上的分布和变化。通过上述分析，我们利用Google地球引擎云平台获得了高光谱遥感数据，该平台采用Sentinel-2卫星采集主要源数据，然后根据图像可视化环境测量的位置坐标和选择的时间精确选择所需数据。

2.一种基于随机森林集成的河流浊度测量方法，包括以下步骤：

全组合子空间就是将所有的特征进行排列组合。再将每一种组合方式作为输入分别构建基学习器。本文是将河流浊度的高光谱图像作为输入样本，每个样本有13个波段作为13个输入特征。将13个输入特征进行排列组合，共有8191种组合方式。每一种组合作为每一个基学习器的输入特征，共构建了8191个基学习器。

(2)基于误差最小化剪枝算法剔除有害基随机森林学习器

本发明定义了第i个基随机森林学习器在输出y上的泛化误差为E_i(y)，和在y上的集成泛化误差为

其中，y的期望输出是

G_i(y)是第i个基随机森林学习器的输出；

为集成的输出。

E_i＝∫E_i(y)P(y)dy (26)

结合公式(24)和公式(26)，可以得到集成泛化误差为：

进一步结合公式(28)和公式(29)可以推导出集成误差表示为：

为了简单起见，假设所有基随机森林学习器都具有相同的重要性，因此将公式(30)重写为：

观察公式(24)-(31)，如果第l个基随机森林学习器被删除的话，将会得到新的集成泛化误差

其中，C_ij为第i和第j个基随机森林学习器的相关性。

综合公式(31)和公式(32)，我们可以得到以下结论，如果集成泛化误差

小于

进一步合并公式(31)和公式(33)：

如果在移除第l个基随机森林学习器后，公式(34)仍然成立，那么就可以确定这个基随机森林学习器很差，应该被移除。为了方便起见，通过设置一个动态阈值TH来选择效果很差的基随机森林学习器，所以，第l个基随机森林学习器的泛化误差重写为：

其中，TH_l为第l个基随机森林学习器的动态阈值，C_ij为第i和第j个基随机森林学习器的相关性，C_il为第i和第l个基随机森林学习器的相关性；E_l表示第l个基随机森林学习器的泛化误差。

根据公式(23)-(35)，对于由全组合子空间生成的每个基随机森林学习器，当其泛化误差E_l和相关的动态阈值TH_l满足公式(35)所定义的关系时，就对其进行删除。为了减小误差，在8191个基随机森林学习器上循环应用上述修剪算法，直到没有基随机森林学习器可以修剪为止。最后，只保留了7个基随机森林学习器作为有益基学习器，删除了99.9％以上的基随机森林学习器，这在很大程度上降低了基随机森林学习器的冗余度，提高了测试或执行过程中的计算速度。

(3)利用权重正则化集成所有有益基学习器预测河流浊度

是一个映射函数。

设计过程中，共考虑了公式(36)的权重w的三种解法，最终选择了第三种方案。具体分析内容如下：

第二个典型的解决方案是加权平均法，其效果一般优于直接平均法。通过设置不同的系数w对公式(36)进行重写，则总的河流浊度预测值S可表达为：

求解公式(38)中权值的一种方法是直接用最小二乘法，得到损失函数为：

表示河流浊度的真实值。

最终对权重w的求解过程表示为：

其中，w′为权重的最终解；s^T为s的转置；

表示河流浊度的真实值。

但是，公式(40)可能会产生病态和过拟合问题。因此，我们考虑添加一些约束条件，如L0,L1(拉索回归)，L2(岭回归)，以同时解决未知权值和避免上述两个问题。此外，与L2相比，L0与L1之间存在着显著的差异：1)基于L0的正则化是一个困难的问题，难以实现；2)Lasso回归的求解过程非常缓慢；3)L0和L1正则化应该稀疏，这使得权值接近于0；4)基于L2的正则化非常适合解决多重共线性问题(即输入变量之间存在高相关性)。本发明利用修剪后的全基随机森林学习器对河流浊度进行了测量；也就是说，它们都不应该被赋值为零。因此，最终使用岭回归来求解w。

表示河流浊度的真实值。

通过最小化这个损失函数，可以得出如下的权重解：

其中，正则化参数λ＝le5；

对于w^*的求解，是通过对公式(41)进行求导，使其等于0:

其中，I是一个单位矩阵；s^T为s的转置；

表示河流浊度的真实值。

最后，将最优的w代入公式(38)，得到河流浊度的最终预测值为：

其中，

每个基本随机森林学习器的输出占集成的不同比例。

此处使用两个典型的评价指标，即均方误差(MSE)和峰值信噪比(PSNR)来评价模型的性能：

其中，a_m和b_m分别是模型对第m个样本的河流浊度估计值和其真值，M是样本总数。

在上述三个评价指标中，MSE和NMGE中值较小，而且PSNR值越大，说明模型的效果越好。本发明与现有的Random forest模型[1],Stacked Selective Ensemble-BackedPredictor(SSEP)模型[2],Radial Basis Function(RBF)neural network模型[3],Fuzzyneural network模型[4],Support Vector Regressor(SVR)模型[5],Extreme LearningMachine(ELM)模型[6],Deep belief network模型[7],Bidirectional ELM(BELM)模型[8],and Broad Learning System(BLS)模型[9]的模型测量效果对比见表1，本发明与其子部件的对比效果见表2。从表格中不难看出，提出的RFE-GEE模型在MSE和PSNR指标上都取得了高于其他9位学习者的结果。

表1

表2

引用：

[1]L.Breiman,“Random forests,”Machine Learning,vol.45,no.1,pp.5-32,Oct.2001.

[2]K.Gu,Z.Xia,and J.Qiao,“Stacked selective ensemble for PM2.5forecast,”IEEE Trans.Instrumentation&Measurement,2020.

[3]J.Park and I.W.Sandberg,“Universal approximation using radial-basis function networks,”Neural Computation,vol.3,no.2,pp.246-257,1991.

[4]L.H.Tsoukalas and R.E.Uhrig,“Fuzzy and neural approaches inengineering,”Jun.1996.[5]A.J.Smola and B.Scholkopf,“A tutorial on supportvector regression,”Statistics and Computing,vol.14,pp.199-222,Aug.2004.

[6]G.B.Huang,Q.Y.Zhu,and C.K.Siew,“Extreme learning machine:Theoryand applications,”Neurocomputing,vol.70,pp.489-501,2006.

[7]R.Salakhutdinov and G.E.Hinton,“Deep belief networks,”Scholarpediavol.4,no.5,Jan.2009.

[8]Y.Yang,Y.Wang,and X.Yuan,“Bidirectional extreme learning machinefor regression problem and its learning effectiveness,”IEEE Trans.NeuralNetworks&Learning Systems,vol.23,no.9,pp.1498-1505,2012.

[9]C.L.P.Chen and Z.Liu,“Broad learning system:An effective andefficient incremental learning system without the need for deeparchitecture,”IEEE Trans.Neural Networks&Learning Systems,vol.29,no.1,pp.10-24,2018.