CN115859195A

CN115859195A - 一种基于随机森林算法模型的河道水质指标软测量方法

Info

Publication number: CN115859195A
Application number: CN202310012053.4A
Authority: CN
Inventors: 刘小梅; 孙艳; 赵洁; 成志轩
Original assignee: Beijing North Control Yuehui Environmental Technology Co ltd
Current assignee: Beijing North Control Yuehui Environmental Technology Co ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-03-28

Abstract

本发明提供的一种基于随机森林算法模型的河道水质指标软测量方法，涉及污水处理技术领域，所述方法包括如下步骤：S1：获取待检测点的历史水质指标数据，并对数据进行预处理；S2：基于预处理后的数据构建Randomforeat算法模型；S3：对Randomforest模型进行训练；S4：通过所建立的Randomforest算法模型对水质指标进行预估。本发明通过历史数据训练模型，建立输入输出间复杂的数学关系，可以实现使用pH、水温、浑浊度、溶解氧和电导率作为输入特征，模拟总氮、总磷、COD指标，可以节省硬件监测设备与耗材的投入，提高水质测量效率。

Description

一种基于随机森林算法模型的河道水质指标软测量方法

技术领域

本发明涉及污水处理技术领域，尤其是涉及一种基于随机森林算法模型的河道水质指标软测量方法。

背景技术

在现代化工业高速发展的情况下，我国对水质检测结果的正确性越来越重视。水质检测是为了对水处理工艺过程的控制提供依据性。然而在水厂、河道等场景中，存在一些较难测量的水质指标，例如：总氮、总磷和COD指标，是衡量水质的重要指标，这些指标与常规的指标有着密切的联系，但是这种联系无法用一般的数学公式表达。现有技术对于这些较难测量的水质指标通常是对采样水体进行处理后通过硬件检测设备进行测量，需要增加硬件监测设备与耗材的投入，对水质测量效率较低。

随机森林(Randomforest)是一种以决策树为基础的集成学习算法，可用来解决分类和回归问题，本身属于非线性拟合的集成算法，可以处理非线性数据，在模型训练过程中既能获取特征间的相互影响，也能获得各个特征的重要性。随机森林构造了多个决策树，当需要对某个样本进行预测时，统计森林中的每棵树对该样本的预测结果，然后通过投票法从这些预测结果中选出最后的结果。因此，本申请旨在提供一种基于随机森林算法模型的河道水质指标软测量方法，以更加直观、准确、高效的实现对水质指标的测量。

发明内容

本发明的目的在于提供一种基于随机森林算法模型的河道水质指标软测量方法，以解决现有技术中存在的对较难测量的水质指标的测量效率较低的技术问题。本发明提供的诸多技术方案中的优选技术方案所能产生的诸多技术效果详见下文阐述。

为实现上述目的，本发明提供了以下技术方案：

本发明提供的一种基于随机森林算法模型的河道水质指标软测量方法，包括如下步骤：

S1：获取待检测点的历史水质指标数据，并对数据进行预处理；

S2：基于预处理后的数据构建Randomforeat算法模型；

S3：对Randomforest模型进行训练；

S4：通过所建立的Randomforest算法模型对水质指标进行预估。

根据一种优选实施方式，所述的获取待检测点的水质指标数据，并对数据进行预处理的步骤包括：

S11：对所获取的历史水质指标数据进行现状分析，对数据缺失值、数据总量时间间隔进行描述；

S12：异常值处理：首先对属性值进行描述性的统计，以查看不合理的数据以及数据是否服从正态分布，当样本距离平均值大于3个标准差，则认定该样本为异常值，将该异常值从数据集中进行删除；

S13：时间间隔处理：将每条数据根据检测时间进行排序，计算出每条数据与上一条数据的时间间隔，并进行记录，统计数据中所有时间间隔对应数据量并展示给用户，由用户选择需要的时间间隔后，将数据处理成只含有用户选择的时间间隔对应的数据，并删除数据中其他时间间隔对应的数据，保证每条数据的时间间隔保持一致；

S14：缺失值处理：索引到数据集中含有缺失值的数据，将索引到的缺失值按照其上一个时间点的数据进行填充。

根据一种优选实施方式，所述的基于预处理后的数据构建Randomforeat算法模型的步骤包括：

S21：将预处理后的数据集按照80％、10％、10％的比例划分为训练集、验证集和测试集；

S22：将pH、水温、浑浊度、溶解氧和电导率指标作为输入，以总氮、总磷、COD指标作为输出；

S23：定义Randomforest多项式模型。

根据一种优选实施方式，所述的定义Randomforest多项式模型的步骤包括：

随机在原始训练数据中有放回的选取等量的数据作为训练样本；

建立决策树时，随机的选择特征中选取一部分特征建立决策树。

根据一种优选实施方式，所述的对Randomforest模型进行训练的步骤包括：

将pH、水温、浑浊度、溶解氧和电导率指标作为输入，将总氮、总磷和COD指标作为输出，使用RandomForest算法进行模型迭代；然后在加载训练好的模型后进行预测，使用预测数据集预测出总氮、总磷和COD指标。

根据一种优选实施方式，所述方法还包括在对Randomforest模型进行训练之后对模型验证结果进行分析。

根据一种优选实施方式，所述的对模型验证结果进行分析的步骤包括：

利用所建立的模型计算总氮、总磷和COD指标的NSE系数；

绘制损失函数曲线；

绘制模型拟合效果图，以通过可视化效果得到模拟效果。

基于上述技术方案，本发明的基于随机森林算法模型的河道水质指标软测量方法至少具有如下技术效果：

本发明的基于随机森林算法模型的河道水质指标软测量方法是运用Randonforest算法模型，通过历史数据训练模型，建立输入输出间复杂的数学关系，可以实现使用pH、水温、浑浊度、溶解氧和电导率作为输入特征，模拟总氮、总磷、COD指标，可以节省硬件监测设备与耗材的投入，提高水质测量效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于随机森林算法模型的河道水质指标软测量方法中Randomforest的构建过程；

图2是本发明实施例中绘制损失函数曲线；

图3是本发明实施例中总氮拟合效果图；

图4是本发明实施例中总磷拟合效果图；

图5是本发明实施例中COD指标拟合效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面对本发明的技术方案进行详细说明。

本发明提供了一种基于随机森林算法模型的河道水质指标软测量方法，具体包括如下步骤：

S1：获取待检测点的历史水质指标数据，并对数据进行预处理。

具体步骤包括：

S11：首先对数据进行现状分析，对数据缺失值、数据总量时间间隔进行基本描述。

在本实施例中选择新增水质监测站02(station_id＝06)的水质指标数据作为案例，其缺失值占比情况如表1：

表1水质监测站02的水质指标数据

通过数据筛选处理，新增水质监测站02数据中占比最大的时间间隔为60分钟，数据量为6143，见下表2。

表2数据筛选处理结果

数据来源	新增水质监测站02(station_id＝06)
		监测站点	1个
通过筛选数据	6143条

S12：异常值处理：首先属性值进行一个描述性的统计，从而查看哪些值是不合理的；而后查看数据是否服从正态分布，在默认情况下我们可以认定，距离超过平均值3个标准差的样本是不存在的，当样本距离平均值大于3个标准差，则认定该样本为异常值，将该异常值从数据集中进行删除。

S13：时间间隔处理：:将每条数据根据检测时间进行排序，计算出每条数据与上一条数据的时间间隔(15min，30min...)，并进行记录，统计数据中所有时间间隔对应数据量并展示给用户，用户选择需要的时间间隔后，将数据处理成只含有用户选择的时间间隔对应的数据，并删除数据中其他时间间隔对应的数据，保证每条数据的时间间隔保持一致，保持数据的连续性。

数据预处理结果如表3所示。

表3数据预处理结果

数据来源	新增水质监测站02(station_id＝06)
		监测站点	1个
通过筛选数据	4005条

S2：算法开发，基于预处理后的数据构建Randomforeat算法模型。

具体包括如下步骤：

S21：将数据集按照80％、10％、10％的比例分为训练集、验证集、测试集。

S22：将pH、水温、浑浊度、溶解氧、电导率指标作为输入，总氮、总磷、COD指标作为输出。

S23：定义Randomforest多项式模型。随机在原始训练数据中有放回的选取等量的数据作为训练样本；建立决策树时，随机的选择特征中选取一部分特征建立决策树。通过随机的选择样本、特征，降低了决策树之间的相关性。使用Randomforest中的两个方法，一是随机在原始训练数据中有放回的选取等量的数据作为训练样本，二是在建立决策树时，随机的选择特征中选取一部分特征建立决策树。这两种随机使得各个决策树之间的相关性小，进一步提高模型的准确性。

S3：对Randomforest模型进行训练；将pH、水温、浑浊度、溶解氧、电导率作为输入，总氮、总磷、COD指标作为输出，使用RandomForest算法进行模型迭代；预测则是加载训练好的模型后，使用预测数据集预测出总氮、总磷、COD指标，训练阶段点击训练后输入数据集地址与模型保存地址，而后可以进行训练，预测阶段需要输入调用的模型所在地址。

S4：模型验证结果分析。

具体的包括：

(1)计算总氮、总磷、COD指标的NSE系数。

数据来源使用新增水质监测站02(station_id＝06)进行测试，通过‘pH’，‘水温’、‘浑浊度’、‘溶解氧’、‘电导率’作为输入特征，预测‘总氮’、‘总磷’、‘COD’指标，使用Randomforest模型进行测试，各指标NSE系数如下表4。

表4

模型	总氮NSE	总磷NSE	COD NSE
				Randomforest	0.82699303	0.86082527	0.73702441

(2)绘制损失函数曲线，如图2所示。

图2示出了损失函数表示的真实值与预测值的误差，图2中可以看出表示随着模型迭代损失函数逐渐减小，即模型的泛化能力良好。

(3)模型拟合效果图，见图3至图5，其中图3为总氮拟合效果图，图4为总磷指标拟合效果图，图5为COD拟合效果图。其中，蓝色(黑色)曲线表示真实值，橙色(灰色)曲线表示预测值，从可视化效果可以看到模拟效果。从图3至图5可以看出，本实施例所构建的Randomforest模型对总氮、总磷和COD指标的预测效果较好。

S5：通过所建立的Randomforest算法模型对水质指标进行预估。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于随机森林算法模型的河道水质指标软测量方法，其特征在于，包括如下步骤：

S2：基于预处理后的数据构建Randomforeat算法模型；

S3：对Randomforest模型进行训练；

S4：通过所建立的Randomforest算法模型对水质指标进行预估。

2.根据权利要求1所述的基于随机森林算法模型的河道水质指标软测量方法，其特征在于，所述的获取待检测点的水质指标数据，并对数据进行预处理的步骤包括：

3.根据权利要求1所述的基于随机森林算法模型的河道水质指标软测量方法，其特征在于，所述的基于预处理后的数据构建Randomforeat算法模型的步骤包括：

S23：定义Randomforest多项式模型。

4.根据权利要求3所述的基于随机森林算法模型的河道水质指标软测量方法，其特征在于，所述的定义Randomforest多项式模型的步骤包括：

5.根据权利要求1所述的基于随机森林算法模型的河道水质指标软测量方法，其特征在于，所述的对Randomforest模型进行训练的步骤包括：

6.根据权利要求5所述的基于随机森林算法模型的河道水质指标软测量方法，其特征在于，所述方法还包括在对Randomforest模型进行训练之后对模型验证结果进行分析。

7.根据权利要求6所述的基于随机森林算法模型的河道水质指标软测量方法，其特征在于，所述的对模型验证结果进行分析的步骤包括：

利用所建立的模型计算总氮、总磷和COD指标的NSE系数；

绘制损失函数曲线；

绘制模型拟合效果图，以通过可视化效果得到模拟效果。