CN110751176A - 一种基于决策树算法的湖泊水质预测方法 - Google Patents
一种基于决策树算法的湖泊水质预测方法 Download PDFInfo
- Publication number
- CN110751176A CN110751176A CN201910871974.XA CN201910871974A CN110751176A CN 110751176 A CN110751176 A CN 110751176A CN 201910871974 A CN201910871974 A CN 201910871974A CN 110751176 A CN110751176 A CN 110751176A
- Authority
- CN
- China
- Prior art keywords
- water quality
- decision tree
- lake
- node
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Food Science & Technology (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于决策树算法的湖泊水质预测方法,涉及水质检测技术领域。该预测方法通过获取样本数据,并将样本数据分为训练集和验证集,并确定对应的水质数据所属的类别;然后利用训练集的样本数据和输出水质类别建立决策树模型,并以站点的水位作为叶节点判别标准;在建好的决策树模型和叶节点判别标准基础上,输入验证集的样本数据,输出预测的水质类别;将该预测的水质类别与实测的水质类别进行对比,以验证决策树模型的水质预测效果。本方法创新地构建站点水位与湖泊水质类别的相关关系,和传统水质预报方法相比,该方法较好地预测未来情况下的湖泊水质类别,而且结果可靠且更具有实际意义。
Description
技术领域
本发明涉及水质检测技术领域,尤其涉及一种基于决策树算法的湖泊水质预测方法。
背景技术
湖泊是水资源的重要贮藏地之一,不但给人类提供了防洪、灌溉、供水、航运、调节径流的便利,在调节气候、维护生物多样性以及改善生态环境方面,也起到重要作用。因此,对于整个流域经济、社会和环境的协调发展,合理开发利用湖泊资源具有重要意义。
水质评价则是开展水环境保护不可或缺的重要内容,水位是湖泊的重要水文特征参数之一。分析目前常用的水质评价预测方法存在的缺陷,笔者认为存在以下不足之处:大部分传统水质评价方法本质上都是通过建立线性模型来实现水质评价以及对水质进行预测,简单易用,但在实际预测中存在着一定的不足。因为影响水质的因素较多,评价因子与标准级别之间的关系是极其复杂和非线性的,实际预测中不能进行有针对性的模拟预测。此外,在以往方法中,未深入探讨湖泊水位、湖区面积、湖区容积变化特征等方面对湖泊水质的影响。
目前,国内外在湖泊水质预测的研究中,水质预测模型多为简单的线性模型,并且并未深入探讨站点水位、湖区容积、湖区面积等数据对水质的影响。此外,在基于决策树模型构建站点水位、湖区容积、湖区面积等数据与水质的相关关系的研究方面,目前少有文献报道。
发明内容
本发明的目的在于提供一种基于决策树算法的湖泊水质预测方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于决策树算法的湖泊水质预测方法,包括以下步骤:
S1,获取样本数据,并将样本数据分为训练集和验证集,并确定训练集、验证期对应的水质数据所属的类别,包括I类、II类、III类等水质评价类别;
S2,利用训练集的样本数据和输出水质类别建立决策树模型,并以站点的水位作为叶节点判别标准;
S3,在建好的决策树模型和叶节点判别标准基础上,输入验证集的样本数据,输出预测的水质类别;
S4,将该预测的水质类别与实测的水质类别进行对比,以验证决策树模型的水质预测效果。
优选地,步骤S1中的样本数据包括站点水位、湖区容积和湖区面积。
优选地,步骤S2中的建立的决策树模型用于生成叶节点判别标准和预测模型,通过对数据样本的归纳学习,从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。
优选地,叶节点判别标准具体为:
S21,采用决策树CART算法计算Gini指数;
S22,判断Gini指数的大小,若Gini指数越小,则新的数据划分分类合理性越高;否则,则新的数据划分分类合理性越低。
优选地,步骤S21中,计算Gini指数的方法包括:
对于分类与回归树中的任意一个节点t,其Gini指数g(t)的计算公式如下:
其中,i和j表示目标变量的两个不同分类,其中有:
其中,π(j)是类别j的先验概率,Nj(t)是节点t中类别j的例数,Nj则是根节点中类别j的例数。
优选地,使用自变量的不同取值对节点t进行拆分,根据自变量的不同取值情况,确定水质预测模型的不同节点判别标准。
优选地,使用拆分方法s将原来的节点t拆分为两个子节点,改变量相应为:
φ(s,t)=g(t)-pLg(tL)-pRg(tR) (3)
其中,PL和PR分别表示案例被拆分到左、右子节点中的比例,而最佳的拆分方法就是使得因变量改变达到最大的一个,公式表达如下:
其中,Ω是所有可能的分枝的集合。
本发明的有益效果是:
本发明提供的基于决策树算法的湖泊水质预测方法,首先,将站点水位、湖区容积、湖区面积的样本数据分为率定集和验证集,随后,根据输入训练集的样本数据和输出水质类别建立决策树模型,构建站点水位与水质类别的相关分析,并通过CART算法的Gini指数改进叶节点判别标准,提高决策树模型的合理性,最后,将验证集的样本数据输入到建好的决策树模型中,输出预测的水质类别,并与实测的水质类别进行对比,检验模型预测水质类别的准确性。基于决策树算法的湖泊水质预测方法,创新地构建站点水位与湖泊水质类别的相关关系,和传统水质预报方法(回归分析方法、相关关系法等)相比,该方法较好地预测未来情况下的湖泊水质类别,而且结果可靠且更具有实际意义。
附图说明
图1是实施例1中提供的基于决策树算法的湖泊水质预测方法流程图;
图2是实施例2中鄱阳湖星子站点模拟期的水质分类结果;
图3是实施例2中鄱阳湖典型站点预测期的水质分类结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供一种基于决策树算法的湖泊水质预测方法,如图1所示,包括以下步骤:
S1,首先,将样本数据(站点水位、湖区容积、湖区面积)分为训练集和验证集,并确定训练期、验证期对应的水质数据所属的类别。训练集的样本数据用于建立决策树模型,验证集的样本数据用于检验决策树模型的泛化能力。
S2,其次,利用训练集的样本数据来建立决策树模型,通过输入样本数据(站点水位、湖区容积、湖区面积)、输出水质类别来构造决策树模型,并确定叶节点判别标准。决策树可以用于生成分类器和预测模型,通过对数据样本的归纳学习,从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。
S3,最后,在建好的决策树模型和叶节点判别标准基础上,输入验证集的样本数据(站点水位、湖区容积、湖区面积),输出预测的水质类别,并将该预测的水质类别与实测的水质类别进行对比,以验证决策树模型的水质预测效果。
为了验证分类标准是否合适,采用决策树模型中常见的分割方法Gini指数进行判断,本实施例中计算Gini指数的方法包括:
对于分类与回归树中的任意一个节点t,其Gini指数g(t)的计算公式如下:
其中,i和j表示目标变量的两个不同分类,其中有:
其中,π(j)是类别j的先验概率,Nj(t)是节点t中类别j的例数,Nj则是根节点中类别j的例数。
如果希望使用自变量的不同取值对此节点进行拆分,则可能的拆分方式有很多种。
根据自变量的不同取值情况,确定水质预测模型的不同节点判别标准,使用自变量的不同取值对节点t进行拆分,其目的为改进判别标准,以寻求其最优的判别标准(站点水位),则可能的拆分方式有很多种;本实施例中使用的拆分方法为:s将原来的节点t拆分为两个子节点时,改变量相应为:
φ(s,t)=g(t)-pLg(tL)-pRg(tR) (3)
其中,PL和PR分别表示案例被拆分到左、右子节点中的比例,而最佳的拆分方法就是使得因变量改变达到最大的一个,公式表达如下:
其中,Ω是所有可能的分枝的集合。
实施例2
本实施例以将从鄱阳湖水位、湖区面积、湖区容积变化对水质的影响关系出发,基于决策树算法,建立了鄱阳湖水位、湖区面积、湖区容积与主要水质参数之间的联系,并对今后鄱阳湖水位变化条件下水质参数进行预测模拟。
建模及模拟预测的具体过程如下:
S1,获取鄱阳湖水位、湖区面积、湖区容积等样本数据,并将样本数据分为训练集和验证集,并确定训练集、验证期对应的水质数据所属的类别,包括I类、II类、III类等水质评价类别;
S2,利用训练集的样本数据和输出水质类别建立决策树模型,将模拟期的水质、湖泊水位、湖区面积、湖区容积数据输入到决策树模型中,进行训练学习,并以站点的水位作为叶节点判别标准;
S3,在建好的决策树模型和叶节点判别标准基础上,输入验证集的水质、湖泊水位、湖区面积、湖区容积数据等样本数据,输出预测的水质类别;
S4,将该预测的水质类别与实测的水质类别进行对比,以验证决策树模型的水质预测效果。
将预测期的鄱阳湖水位、湖区面积、湖区容积数据输入到决策树模型中,根据叶子节点的判别标准,对预测期的水质类别进行分类,具体应用如下:
S1,鄱阳湖典型站点水质参数CODMn模拟分类结果
将2002-2008年的水质、水文、面积、容积数据作为训练集数据输入并建立决策树模型,生成多个判别节点的决策树模型,依据叶子节点的判别标准对水质类别进行判别。以星子站为例(见图2),节点0处显示目标变量CODMn数据中,满足I类标准的水质数据有17个,占总样本的81.0%;满足II类标准的水质数据有4个,占总样本的19.0%。接下来,根据星子水位进行判别:叶节点1表明当星子水位小于等于10.54m时,有3个样本CODMn均满足I类标准(在叶节点1中,占总样本的60%),有2个样本CODMn满足II类标准(在叶节点1中,占总样本的40%)。可以看出,根据10.54m这一判别标准来判别划分CODMn的水质类别,显示效果并不是很好,故模型对判别标准进行改进。当判别标准改为9.57m,从节点4可以看出,改进后的判别标准,很好地区分了水质类别。在其他节点上的分析也同样如此。
星子站CODMn水质类别生成的叶节点判别标准为:星子水位10.54m、星子水位9.57m、星子水位9.06m、星子水位18.655m。叶节点的判别结果为:(1)星子水位小于等于9.06m时,100%概率满足I类标准;(2)星子水位介于9.06m与9.57m时,有50.0%的概率满足I类标准,50.0%概率满足II类标准;(3)星子水位介于9.57m与10.54m时,100%的概率满足I类标准;(4)星子水位介于10.54m与18.655m时,100%的概率满足II类标准;(5)星子水位大于18.655m时,100%的概率满足I类标准。
此外,对每次样本集的判别划分,CART算法都要计算Gini指数,如果Gini指数越小,则说明判别划分越合理。图中“改进=0.105”、“改进=0.051”、“改进=0.016”、“改进=0.089”,表示按此判别标准默认的Gini指数下降了“0.105”、“0.051”、“0.016”、“0.089”,因此说明判别划分的越来越合理。
S2,鄱阳湖典型站点水质参数CODMn预测分类结果
选用上述步骤建立的决策树模型对2009年鄱阳湖典型站点的水质进行预测,将2009年星子、都昌、棠荫、康山、湖口五个典型站点的水位、湖区面积、湖区容积等数据输入到决策树模型中,对水质类别进行预测判别。再将预测的水质类别和实际的水质类别进行对比分析,检验预测结果的准确程度。
从图3中可以看出,棠荫、康山、湖口三个站点的预测结果较好,水质类别均预测正确;星子、都昌两个站点,预测结果不如其他三个站点好,正确率分别为86.7%和73.6%。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
研究湖泊水质预测方法具有重要的理论和实际意义。它对于掌握未来湖泊水质状况,解决湖泊水资源污染问题具有十分重要的指导作用。由于湖泊水文和水质的关系是复杂非线性关系,传统水质预报方法(回归分析方法、相关关系法等)不能很好揭示和刻画这种关系,预报结果精度有待提高,而且没有考虑湖泊面积以及湖泊容积等因素的影响。本文建立的基于决策树算法的湖泊水质预测模型,可以预测未来不同湖泊特征参数下的水质类别,结果可靠且更具有实际意义。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (7)
1.一种基于决策树算法的湖泊水质预测方法,其特征在于,包括以下步骤:
S1,获取样本数据,并将样本数据分为训练集和验证集,并确定训练集、验证集对应的水质数据所属的类别;
S2,利用训练集的样本数据和输出水质类别建立决策树模型,并以站点的水位作为叶节点判别标准;
S3,在建好的决策树模型和叶节点判别标准基础上,输入验证集的样本数据,输出预测的水质类别;
S4,将该预测的水质类别与实测的水质类别进行对比,以验证决策树模型的水质预测效果。
2.根据权利要求1所述的基于决策树算法的湖泊水质预测方法,其特征在于,步骤S1中的样本数据包括站点水位、湖区容积和湖区面积。
3.根据权利要求1所述的基于决策树算法的湖泊水质预测方法,其特征在于,步骤S2中的建立的决策树模型用于生成叶节点判别标准和预测模型,通过对数据样本的归纳学习,从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。
4.根据权利要求3所述的基于决策树算法的湖泊水质预测方法,其特征在于,叶节点判别标准具体为:
S21,采用决策树CART算法计算Gini指数;
S22,判断Gini指数的大小,若Gini指数越小,则新的数据划分分类合理性越高;否则,则新的数据划分分类合理性越低。
6.根据权利要求5中所述的基于决策树算法的湖泊水质预测方法,其特征在于,使用自变量的不同取值对节点t进行拆分,根据自变量的不同取值情况,确定水质预测模型的不同节点判别标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871974.XA CN110751176A (zh) | 2019-09-16 | 2019-09-16 | 一种基于决策树算法的湖泊水质预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871974.XA CN110751176A (zh) | 2019-09-16 | 2019-09-16 | 一种基于决策树算法的湖泊水质预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110751176A true CN110751176A (zh) | 2020-02-04 |
Family
ID=69276486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910871974.XA Pending CN110751176A (zh) | 2019-09-16 | 2019-09-16 | 一种基于决策树算法的湖泊水质预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751176A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101789A (zh) * | 2020-09-16 | 2020-12-18 | 清华大学合肥公共安全研究院 | 一种基于人工智能的水污染报警等级识别方法 |
CN112561205A (zh) * | 2020-12-25 | 2021-03-26 | 郑州大学 | 一种考虑淤地坝和梯田对径流影响的定量测量方法 |
CN113344130A (zh) * | 2021-06-30 | 2021-09-03 | 广州市河涌监测中心 | 差异化巡河策略的生成方法及装置 |
WO2023134626A1 (zh) * | 2022-01-11 | 2023-07-20 | 北华航天工业学院 | 一种基于cart分类模型的黑臭水体提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102550455A (zh) * | 2012-01-13 | 2012-07-11 | 厦门大学 | 一种大黄鱼刺激隐核虫病害程度的判别方法 |
CN106991437A (zh) * | 2017-03-20 | 2017-07-28 | 浙江工商大学 | 基于随机森林预测污水水质数据的方法及系统 |
CN107132266A (zh) * | 2017-06-21 | 2017-09-05 | 佛山科学技术学院 | 一种基于随机森林的水质分类方法及系统 |
CN109242203A (zh) * | 2018-09-30 | 2019-01-18 | 中冶华天南京工程技术有限公司 | 一种河流水质预测及水质影响因素评估方法 |
-
2019
- 2019-09-16 CN CN201910871974.XA patent/CN110751176A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102550455A (zh) * | 2012-01-13 | 2012-07-11 | 厦门大学 | 一种大黄鱼刺激隐核虫病害程度的判别方法 |
CN106991437A (zh) * | 2017-03-20 | 2017-07-28 | 浙江工商大学 | 基于随机森林预测污水水质数据的方法及系统 |
CN107132266A (zh) * | 2017-06-21 | 2017-09-05 | 佛山科学技术学院 | 一种基于随机森林的水质分类方法及系统 |
CN109242203A (zh) * | 2018-09-30 | 2019-01-18 | 中冶华天南京工程技术有限公司 | 一种河流水质预测及水质影响因素评估方法 |
Non-Patent Citations (1)
Title |
---|
李诒路: "鄱阳湖水位变化对水质的影响研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101789A (zh) * | 2020-09-16 | 2020-12-18 | 清华大学合肥公共安全研究院 | 一种基于人工智能的水污染报警等级识别方法 |
CN112561205A (zh) * | 2020-12-25 | 2021-03-26 | 郑州大学 | 一种考虑淤地坝和梯田对径流影响的定量测量方法 |
CN112561205B (zh) * | 2020-12-25 | 2023-01-24 | 郑州大学 | 一种考虑淤地坝和梯田对径流影响的定量测量方法 |
CN113344130A (zh) * | 2021-06-30 | 2021-09-03 | 广州市河涌监测中心 | 差异化巡河策略的生成方法及装置 |
CN113344130B (zh) * | 2021-06-30 | 2022-01-11 | 广州市河涌监测中心 | 差异化巡河策略的生成方法及装置 |
WO2023134626A1 (zh) * | 2022-01-11 | 2023-07-20 | 北华航天工业学院 | 一种基于cart分类模型的黑臭水体提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751176A (zh) | 一种基于决策树算法的湖泊水质预测方法 | |
Jin et al. | An improved ID3 decision tree algorithm | |
Goh et al. | Incorporating the rough sets theory into travel demand analysis | |
CN103353923B (zh) | 基于空间特征分析的自适应空间插值方法及其系统 | |
CN109541172B (zh) | 土壤属性值的计算方法及装置 | |
Haverkamp et al. | Assessment of the effect of land use patterns on hydrologic landscape functions: A comprehensive GIS‐based tool to minimize model uncertainty resulting from spatial aggregation | |
CN111815184B (zh) | 一种耕地土壤环境质量类别划分方法 | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
CN105678481A (zh) | 一种基于随机森林模型的管线健康状态评估方法 | |
CN112506990A (zh) | 一种基于时空信息的水文数据异常检测方法 | |
CN102902985A (zh) | 基于二类支持向量机和粒子群算法的近海水质评价方法 | |
Tigkas et al. | Comparative study of evolutionary algorithms for the automatic calibration of the Medbasin-D conceptual hydrological model | |
CN112348290B (zh) | 河流水质预测方法、装置、存储介质及设备 | |
CN111126865B (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN112785450A (zh) | 一种土壤环境质量分区方法及系统 | |
CN111784084B (zh) | 基于梯度提升决策树的出行生成预测方法、系统及装置 | |
CN110428270A (zh) | 基于逻辑回归算法的渠道潜在偏好客户识别方法 | |
Ghimire et al. | Development of stage-discharge rating curve in river using genetic algorithms and model tree | |
Mohammad-Azari et al. | State-of-art of genetic programming applications in water-resources systems analysis | |
CN109919356A (zh) | 一种基于bp神经网络区间需水预测方法 | |
CN112712268A (zh) | 一种海绵城市优化布局与综合效益评价方法 | |
CN112765902A (zh) | 基于TentFWA-GD的RBF神经网络软测量建模方法及其应用 | |
CN112149922A (zh) | 高速公路隧道下行线出入口区域事故严重程度预测方法 | |
CN116227692B (zh) | 一种农作物重金属富集风险量化方法、系统及可存储介质 | |
CN111914488A (zh) | 一种基于对抗神经网络的有资料地区水文参数率定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200204 |