CN115600810A - 一种基于随机森林优选水质指标的水质综合评价方法 - Google Patents
一种基于随机森林优选水质指标的水质综合评价方法 Download PDFInfo
- Publication number
- CN115600810A CN115600810A CN202211286570.2A CN202211286570A CN115600810A CN 115600810 A CN115600810 A CN 115600810A CN 202211286570 A CN202211286570 A CN 202211286570A CN 115600810 A CN115600810 A CN 115600810A
- Authority
- CN
- China
- Prior art keywords
- water quality
- quality index
- indexes
- training
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于随机森林优选水质指标的水质综合评价方法,包括:确定河流断面和水质指标,获取实测数据集,并计算水质指数数据集;将水质指数数据集划分为训练集和预测集;基于训练集构建训练模型;基于预测集构建预测模型,预测水质指数并评价训练模型性能;基于训练结果和评价结果,依据贡献度的排序,确定优选水质指标;基于优选水质指标计算水质指数数据集;逐步减少优选水质指标的个数,计算水质指标数据集;逐一评价不同个数优选水质指标的预测结果,确定最优水质指标;利用最优水质指标计算河流的水质指数,即实现水质综合评价。所述方法兼顾了水质评价的准确性和经济性,尽可能减少了对非关键指标的观测,降低了评价成本。
Description
技术领域
本发明属于水质监测技术领域,涉及一种水质综合评价方法,尤其涉及一种基于随机森林优选水质指标的水质综合评价方法。
背景技术
社会和经济快速发展过程中造成的环境问题,已经严重制约了我国的可持续发展。水作为万物之源,其污染最为严重,面临的污染形式也十分严峻。为了遏制水环境恶化趋势并实现好转,各级政府出台了一系列控制和管理措施。制定科学有效的水管理措施需要综合水质评价、定量识别污染物来源与迁移路径、污染源控制与截留和水环境决策支持系统开发等。其中,水质综合评价是水环境管理措施制定的基础。
关于河流水质评价方法,目前国内外学者已经进行了大量研究,包括单因子评价法、综合污染指数法、分级评价法、模糊评价法、灰色评价法以及水质指数法等方法。这些方法各有优缺点,比如单因子评价法简单明了,操作简便且安全,可直接反映水质是否满足功能要求,但不能综合反映水质状况。综合污染指数法可以确定污染程度和主要污染物,并对水质变化趋势进行判断,但同样不能综合反映水质状况。模糊综合评价法可以很好地考虑水体中不确定的因素,较好地解决模糊的、难以量化的问题,适合非确定问题。但是,结果容易出现失真、失效、均化、跳跃等现象,使得评判结果不准确。水质指数法通过将多种指标浓度转化为标准因子,并对各因子的影响力赋予权重,能实现对水质的综合评价,其评价结果较为准确。但是,水质指数法通常需要大量水质指标,大大提高了水质评价费用。因此,减少水质指数综合评价过程中的指标数量,降低成本,同时确保水质指数法评价结果的准确性显得尤为重要。
由此可见,如何提供一种水质综合评价方法,兼顾水质评价的准确性和经济性,尽可能减少对非关键指标的观测,降低评价成本,成为了目前本领域技术人员迫切需要解决的问题。
发明内容
本发明的目的在于提供一种基于随机森林优选水质指标的水质综合评价方法,所述水质综合评价方法兼顾了水质评价的准确性和经济性,尽可能减少了对非关键指标的观测,从而显著降低了评价成本。
为达到此发明目的,本发明采用以下技术方案:
本发明提供了一种基于随机森林优选水质指标的水质综合评价方法,所述水质综合评价方法包括以下步骤:
(1)确定河流断面和水质指标,并获取河流断面上水质指标的实测数据集;
(2)基于步骤(1)所得实测数据集,计算得到对应的水质指数数据集;
(3)将步骤(2)所得水质指数数据集随机划分为训练集和预测集;
(4)基于步骤(3)所得训练集,利用随机森林算法,构建训练模型;
(5)结合步骤(3)所得预测集和步骤(4)所得训练模型,构建预测模型,对水质指数进行预测,并基于预测结果评价训练模型性能;
(6)基于步骤(4)所得训练模型的训练结果和步骤(5)所得评价结果,依据贡献度的排序,确定优选水质指标;
(7)基于步骤(6)所得优选水质指标,计算得到预测的水质指数数据集;
(8)逐步减少步骤(6)所得优选水质指标的个数,重复步骤(3)-(7),计算得到预测的水质指标数据集;
(9)逐一评价不同个数优选水质指标的预测结果,确定最优水质指标;
(10)利用步骤(9)所得最优水质指标计算河流的水质指数,即实现水质综合评价。
本发明建立了一套完整的河流水质综合评价系统,采用随机森林算法对众多水质指标进行训练、预测和优选,并基于最优水质指标对河流水质进行综合评价,不仅考虑到水质评价的综合性,优选出影响水质的关键指标,保证了水质评价结果的准确性,而且尽可能减少了对非关键指标的观测,从而显著降低了观测及测试费用。
优选地,步骤(2)所述计算涉及的公式包括:
式中,WQI为水质指数;n为水质指标的总数;Ci为第i个水质指标的标准化值;Pi为第i个水质指标的权重。
本发明中,所述标准化值Ci的确定方法具体如下:
(A)当对应的水质指标属于地表水环境质量标准(GB 3838-2002)中的基本项目之一时,所述标准化值Ci的计算公式为:
式中,Ti为第i个水质指标的实测数据;Si,k和Si,k+n为第i个水质指标对应第k类和第k+n类水质标准浓度;Ii,k为第k类水质标准浓度对应的标准化值;n为水质标准浓度相同的个数,若是没有相同的浓度则取n=1。
具体地,所述Ii,k可采用Ii,1=20,Ii,2=40,Ii,3=60,Ii,4=80,Ii,5=100,分别对应地表水环境质量标准中的I类、II类、III类、IV类和V类标准化值。
(B)当对应的水质指标不属于地表水环境质量标准(GB 3838-2002)中的基本项目之一时,所述标准化值Ci的确定可参考下表1:
表1
优选地,步骤(3)所述训练集的数据量比例为60-80%,例如可以是60%、62%、64%、66%、68%、70%、72%、74%、76%、78%或80%,但并不仅限于所列举的数值,该数值范围内其他未列举的数值同样适用。
优选地,步骤(4)所述训练模型的构建基于R语言中的randomForest包。
优选地,步骤(4)所述训练模型的表达式为:
(D,θn)=(x1,y1)……(xn,yn) (2)
式中,x为自变量;y为因变量;n为元素的总数。
以g(D,θn)组成的N颗CART回归树构成随机森林预测器,并以决策g(D,θn),n=1,2,3,…,N为基础的回归器,对所得回归结果取均值。
优选地,步骤(5)所述预测模型由训练模型构建并用于验证训练模型。
本发明基于训练集,利用随机森林算法构建了训练模型,其本质上是建立了水质指标与水质指数之间的一种映射关系,即Y=f(X1,X2,X3,…Xn),而预测模型则是将预测集中的水质指标X1,X2,X3,…Xn代入上述训练模型(即映射关系)中,从而得到预测的水质指数Y,然后将预测的水质指数Y与实际的水质指数Y进行比较,即可验证训练模型性能是否满足要求。
优选地,步骤(6)所述优选水质指标的个数占水质指标总个数的比例≤50%,例如可以是5%、10%、15%、20%、25%、30%、35%、40%、45%或50%,但并不仅限于所列举的数值,该数值范围内其他未列举的数值同样适用。
优选地,步骤(8)所述重复直至优选水质指标的个数为2-4个,例如可以是2个、3个或4个。
优选地,步骤(9)所述评价涉及的参数包括均方根误差和/或平均绝对百分比误差。
本发明中,所述均方根误差(RMSE)的计算公式为:
式中,X实测值,i为实测数据集中的水质指数;X预测值,i为根据优选水质指标预测的水质指数;n为数据总量。
本发明中,所述平均绝对百分比误差(MAPE)的计算公式为:
式中,X实测值,i为实测数据集中的水质指数;X预测值,i为根据优选水质指标预测的水质指数;n为数据总量。
优选地,步骤(7)、步骤(8)与步骤(10)所述计算涉及的公式与步骤(2)所述计算涉及的公式相同。
相对于现有技术,本发明具有以下有益效果:
本发明建立了一套完整的河流水质综合评价系统,采用随机森林算法对众多水质指标进行训练、预测和优选,并基于最优水质指标对河流水质进行综合评价,不仅考虑到水质评价的综合性,优选出影响水质的关键指标,保证了水质评价结果的准确性,而且尽可能减少了对非关键指标的观测,从而显著降低了观测及测试费用。
附图说明
图1是本发明提供的水质综合评价方法流程示意图;
图2是实施例1提供的水质综合评价方法中不同个数优选水质指标的预测结果及评价结果;
图3是实施例2提供的水质综合评价方法中不同个数优选水质指标的预测结果及评价结果。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。
本发明提供一种基于随机森林优选水质指标的水质综合评价方法,如图1所示,所述水质综合评价方法包括以下步骤:
(1)确定河流断面和水质指标,并获取河流断面上水质指标的实测数据集;
(2)基于步骤(1)所得实测数据集,计算得到对应的水质指数数据集;所述计算涉及的公式包括:
式中,WQI为水质指数;n为水质指标的总数;Ci为第i个水质指标的标准化值;Pi为第i个水质指标的权重;
(3)将步骤(2)所得水质指数数据集随机划分为训练集和预测集,且所述训练集的数据量比例为60-80%;
(4)基于步骤(3)所得训练集,利用R语言中的randomForest包构建训练模型,且所述训练模型的表达式为:
(D,θn)=(x1,y1)……(xn,yn) (2)
式中,x为自变量;y为因变量;n为元素的总数;
以g(D,θn)组成的N颗CART回归树构成随机森林预测器,并以决策g(D,θn),n=1,2,3,…,N为基础的回归器,对所得回归结果取均值;
(5)结合步骤(3)所得预测集和步骤(4)所得训练模型,构建预测模型,对水质指数进行预测,并基于预测结果评价训练模型性能;
(6)基于步骤(4)所得训练模型的训练结果和步骤(5)所得评价结果,依据贡献度的排序,确定优选水质指标,且所述优选水质指标的个数占水质指标总个数的比例≤50%;
(7)基于步骤(6)所得优选水质指标,计算得到预测的水质指数数据集;
(8)逐步减少步骤(6)所得优选水质指标的个数,重复步骤(3)-(7),直至优选水质指标的个数为2-4个,计算得到预测的水质指标数据集;
(9)根据均方根误差和/或平均绝对百分比误差逐一评价不同个数优选水质指标的预测结果,确定最优水质指标;
具体地,所述均方根误差(RMSE)的计算公式为:
具体地,所述平均绝对百分比误差(MAPE)的计算公式为:
式中,X实测值,i为实测数据集中的水质指数;X预测值,i为根据优选水质指标预测的水质指数;n为数据总量;
(10)利用步骤(9)所得最优水质指标计算河流的水质指数,即实现水质综合评价;
其中,步骤(7)、步骤(8)与步骤(10)所述计算涉及的公式与步骤(2)所述计算涉及的公式相同。
实施例1
本实施例提供一种基于随机森林优选水质指标的水质综合评价方法,所述水质综合评价方法包括以下步骤:
(1)选取长江干流3个季度共304组实测数据,且实测数据集包括TP、NH4 +-N、TN、NO3 --N、Mg2+、Ca2+、Cl-、SO4 2-、Cu、Zn、As、Se、Cd和Pb共14个水质指标;
(2)利用公式(1)计算得到对应的水质指数,并与水质指标构成水质指数数据集,鉴于篇幅有限,本实施例仅选取部分水质指数数据集见下表2。
表2
(3)本实施例将上表2中的水质指数数据集随机划分为训练集和预测集,且所述训练集的数据量比例为60%,所述预测集的数据量比例为40%;
(4)基于步骤(3)所得训练集,利用R语言中的randomForest包构建训练模型;
(5)结合步骤(3)所得预测集和步骤(4)所得训练模型,构建预测模型,对水质指数进行预测,并基于预测结果评价训练模型性能;
(6)基于步骤(4)所得训练模型的训练结果和步骤(5)所得评价结果,依据贡献度的排序,确定7个优选水质指标,分别为Pb、TN、Cd、Zn、NO3 --N、AS和TP;
(7)基于步骤(6)所得优选水质指标,计算得到预测的水质指数数据集;
(8)逐步减少步骤(6)所得优选水质指标的个数,重复步骤(3)-(7),直至优选水质指标的个数为2个,计算得到预测的水质指标数据集;
(9)根据均方根误差和平均绝对百分比误差逐一评价不同个数优选水质指标的预测结果,相关预测结果及评价结果见图2,从而确定最优水质指标为TN、Pb、Cd、Zn、NO3 --N和As;
(10)利用步骤(9)所得最优水质指标计算河流的水质指数,即实现水质综合评价。
实施例2
本实施例提供一种基于随机森林优选水质指标的水质综合评价方法,选取文献(Mueller,B.,et al."How polluted is the Yangtze River?Water quality downstreamfrom the Three Gorges Dam."Science of the Total Environment 402.2-3(2008).)中记载的2006年长江中下游水质19组数据,将实施例1确定的7个优选水质指标TN、Pb、Cd、Zn、NO3 --N、As和TP作为水质指标,计算得到预测的水质指数数据集;逐步减少优选水质指标的个数,重复实施例1中的步骤(3)-(7),直至优选水质指标的个数为2个,计算得到预测的水质指标数据集。
本实施例根据均方根误差和平均绝对百分比误差逐一评价不同个数优选水质指标的预测结果,相关预测结果及评价结果见图3,从而确定最优水质指标为TN、Pb、Cd、Zn、NO3 --N和As,与实施例1所得最优水质指标相一致;利用所得最优水质指标计算河流的水质指数,即实现水质综合评价。
由此可见,本发明建立了一套完整的河流水质综合评价系统,采用随机森林算法对众多水质指标进行训练、预测和优选,并基于最优水质指标对河流水质进行综合评价,不仅考虑到水质评价的综合性,优选出影响水质的关键指标,保证了水质评价结果的准确性,而且尽可能减少了对非关键指标的观测,从而显著降低了观测及测试费用。
申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。
Claims (10)
1.一种基于随机森林优选水质指标的水质综合评价方法,其特征在于,所述水质综合评价方法包括以下步骤:
(1)确定河流断面和水质指标,并获取河流断面上水质指标的实测数据集;
(2)基于步骤(1)所得实测数据集,计算得到对应的水质指数数据集;
(3)将步骤(2)所得水质指数数据集随机划分为训练集和预测集;
(4)基于步骤(3)所得训练集,利用随机森林算法,构建训练模型;
(5)结合步骤(3)所得预测集和步骤(4)所得训练模型,构建预测模型,对水质指数进行预测,并基于预测结果评价训练模型性能;
(6)基于步骤(4)所得训练模型的训练结果和步骤(5)所得评价结果,依据贡献度的排序,确定优选水质指标;
(7)基于步骤(6)所得优选水质指标,计算得到预测的水质指数数据集;
(8)逐步减少步骤(6)所得优选水质指标的个数,重复步骤(3)-(7),计算得到预测的水质指标数据集;
(9)逐一评价不同个数优选水质指标的预测结果,确定最优水质指标;
(10)利用步骤(9)所得最优水质指标计算河流的水质指数,即实现水质综合评价。
3.根据权利要求1或2所述的水质综合评价方法,其特征在于,步骤(3)所述训练集的数据量比例为60-80%。
4.根据权利要求1-3任一项所述的水质综合评价方法,其特征在于,步骤(4)所述训练模型的构建基于R语言中的randomForest包。
5.根据权利要求1-4任一项所述的水质综合评价方法,其特征在于,步骤(4)所述训练模型的表达式为:
(D,θn)=(x1,y1)……(xn,yn) (2)
式中,x为自变量;y为因变量;n为元素的总数;
以g(D,θn)组成的N颗CART回归树构成随机森林预测器,并以决策g(D,θn),n=1,2,3,…,N为基础的回归器,对所得回归结果取均值。
6.根据权利要求1-5任一项所述的水质综合评价方法,其特征在于,步骤(5)所述预测模型由训练模型构建并用于验证训练模型。
7.根据权利要求1-6任一项所述的水质综合评价方法,其特征在于,步骤(6)所述优选水质指标的个数占水质指标总个数的比例≤50%。
8.根据权利要求1-7任一项所述的水质综合评价方法,其特征在于,步骤(8)所述重复直至优选水质指标的个数为2-4个。
9.根据权利要求1-8任一项所述的水质综合评价方法,其特征在于,步骤(9)所述评价涉及的参数包括均方根误差和/或平均绝对百分比误差。
10.根据权利要求1-9任一项所述的水质综合评价方法,其特征在于,步骤(7)、步骤(8)与步骤(10)所述计算涉及的公式与步骤(2)所述计算涉及的公式相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211286570.2A CN115600810A (zh) | 2022-10-20 | 2022-10-20 | 一种基于随机森林优选水质指标的水质综合评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211286570.2A CN115600810A (zh) | 2022-10-20 | 2022-10-20 | 一种基于随机森林优选水质指标的水质综合评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115600810A true CN115600810A (zh) | 2023-01-13 |
Family
ID=84849371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211286570.2A Pending CN115600810A (zh) | 2022-10-20 | 2022-10-20 | 一种基于随机森林优选水质指标的水质综合评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600810A (zh) |
-
2022
- 2022-10-20 CN CN202211286570.2A patent/CN115600810A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12105075B2 (en) | Total nitrogen intelligent detection method based on multi-objective optimized fuzzy neural network | |
CN112069567A (zh) | 基于随机森林和智能算法预测混凝土抗压强度的方法 | |
CN112070356B (zh) | 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法 | |
CN107358021A (zh) | 一种基于优化bp神经网络的do预测模型建立方法 | |
CN105510546A (zh) | 一种基于自组织递归rbf神经网络的生化需氧量bod智能检测方法 | |
CN107895100B (zh) | 一种流域水质综合评价方法及系统 | |
CN113077039B (zh) | 基于任务驱动rbf神经网络的出水总氮tn软测量方法 | |
CN106096847A (zh) | 一种模糊变权工程地质环境质量评价方法 | |
CN111784114A (zh) | 一种客户侧分布式储能系统运行性能评估方法及系统 | |
CN112861436A (zh) | 一种发动机排放实时预测方法 | |
CN107247888B (zh) | 基于储备池网络的污水处理出水总磷tp软测量方法 | |
CN112765902B (zh) | 一种基于TentFWA-GD的RBF神经网络的农村生活污水处理过程中COD浓度的软测量建模方法 | |
CN114858207A (zh) | 一种基于软测量的河道排污口网格化溯源排查方法 | |
CN112183935A (zh) | 一种河流水质综合评价方法及系统 | |
CN110163537B (zh) | 基于梯形云模型的水体富营养化评价方法 | |
CN113850516A (zh) | 基于t-s模糊神经网络的水质评价方法 | |
CN114997503A (zh) | 一种城市碳达峰时域的预测方法及系统 | |
CN104063609B (zh) | 一种利用神经网络辅助判定污染源监测数据有效性的方法 | |
CN110851784A (zh) | 一种现场运行电能表的预警方法 | |
CN114862035A (zh) | 一种基于迁移学习的组合式海湾水温预测方法 | |
CN109359741A (zh) | 一种废水处理进水水质时序变化智能预测方法 | |
CN112446168A (zh) | 一种基于mic及rbfnn的出水bod浓度软测量方法 | |
CN115600810A (zh) | 一种基于随机森林优选水质指标的水质综合评价方法 | |
CN117350146A (zh) | 一种基于ga-bp神经网络的排水管网健康性评价方法 | |
CN111353707A (zh) | 基于数据包络分析和bp神经网络的科技投入绩效评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |