CN113468821B - 一种基于决策回归算法的坡面产流产沙阈值确定方法 - Google Patents
一种基于决策回归算法的坡面产流产沙阈值确定方法 Download PDFInfo
- Publication number
- CN113468821B CN113468821B CN202110828165.8A CN202110828165A CN113468821B CN 113468821 B CN113468821 B CN 113468821B CN 202110828165 A CN202110828165 A CN 202110828165A CN 113468821 B CN113468821 B CN 113468821B
- Authority
- CN
- China
- Prior art keywords
- data
- sample set
- slope
- sand
- abortion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000004576 sand Substances 0.000 title claims abstract description 79
- 206010000210 abortion Diseases 0.000 title claims abstract description 56
- 231100000176 abortion Toxicity 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000002689 soil Substances 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 12
- 238000002474 experimental method Methods 0.000 claims abstract description 5
- 238000004519 manufacturing process Methods 0.000 claims description 22
- 238000013138 pruning Methods 0.000 claims description 16
- 230000035945 sensitivity Effects 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 9
- 238000007418 data mining Methods 0.000 claims description 7
- 238000005192 partition Methods 0.000 claims description 6
- 238000001556 precipitation Methods 0.000 claims description 6
- 230000007812 deficiency Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000011160 research Methods 0.000 description 10
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
- Y02A40/22—Improving land use; Improving water use or availability; Controlling erosion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Geometry (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于决策回归算法的坡面产流产沙阈值确定方法,属于水土流失调控技术领域,该方法包括:通过试验场的坡面产流产沙实验获得坡面产流产沙数据集;将得到的坡面产流产沙数据集进行预处理,得到待用数据集;将所述待用数据集进行决策回归算法处理,得到二叉树树状模型结果;根据树状模型结果的最大值和最小值得到坡面产流产沙的阈值。本发明解决了对试验场采集到的坡面产流产沙数据集进行预处理且根据预处理结果建立二叉树树状模型,得到坡面产流产沙阈值的问题,在大量数据中寻找敏感参数,依据敏感参数建立二叉树树状模型;随着各地建立数据采集的试验场,数据越来越多,利用大数据技术可以更有效地挖掘海量数据中的信息。
Description
技术领域
本发明属于水土流失综合调控技术领域,尤其涉及一种基于决策回归算法的坡面产流产沙阈值的确定方法。
背景技术
随着水土流失调控技术研究的开展,以坡面产流产沙过程为主的实验观测研究广泛开展,形成了长期的历时数据积累。一方面,在不同区域、不同水土保持措施和环境下开展了许多坡面产流产沙实验观测研究,可以从不同角度回答水土流失过程和水土保持措施效应等问题。另一方面,由于单点研究的局限性,得出的研究结果只在特定的条件下适用,不能从宏观上指导区域性水土流失综合治理决策,如不能厘清区域产流产沙的关键因子及其环境响应阈值。基于传统的物理法、水文法、数理统计法等研究方法,又难以从纷繁冗杂的历史数据中全面挖掘更多有效信息,降低了数据利用率。随着大数据和计算机技术的发展,在海量的数据包挖掘出有效信息的技术得以实现。尤其是利用决策回归算法,在处理这些包含众多分类变量和连续变量的海量数据信息,对变量进行分类、回归,实现关键因子识别和阈值分析等问题方面具有显著的效果。因此在确定坡面产流产沙的阈值时引入人工智能、机器学习等处理大数据的新技术可以促进对当下困难的解决。
以决策回归算法为代表的大数据技术是从不完整的、随机的、模糊的海量数据中通过算法挖掘出隐藏在数据中常规方法难以获得的潜在的有价值信息的方法。本发明中决策回归算法是利用CART树来建立决策树,CART树的特点是二分叉状。其中可以分为两部分,描述和预测,前者是寻找出数据中潜在关系的概括模式,后者是基于当前数据做出预测。决策回归算法的模型属于“白盒”模型,样本数据和属性之间的关系比较清晰。
发明内容
针对现有技术中的上述不足,本发明通过试验场采集获得坡面产流产沙数据集,坡面产流产沙数据集包含不同条件下的坡面产流产沙数据,对坡面产流产沙数据集预处理后得到待用数据集,利用待用进行数据挖掘形成清晰的树状模型,得到坡面产流产沙阈值。本发明提供的一种基于决策回归算法的坡面产流产沙阈值的确定方法解决了对试验场采集到的坡面产流产沙数据集进行预处理且根据预处理结果建立二叉树树状模型,得到坡面产流产沙阈值的问题。
为了达到上述发明目的,本发明采用的技术方案为:
本发明提供的一种基于决策回归算法的坡面产流产沙阈值的确定方法,包括如下步骤:
S1、通过试验场的坡面产流产沙实验获得坡面产流产沙数据集;
S2、将得到的坡面产流产沙数据集进行预处理,得到待用数据集;
S3、利用决策回归算法对所述待用数据集进行数据挖掘,得到二叉树树状模型结果;
S4、根据树状模型结果的最大值和最小值得到坡面产流产沙的阈值。
本发明的有益效果为:采用本方案建立的确定坡面产流产沙阈值的二叉树模型,可以有效获取坡面产流产沙的阈值,此方法在相关研究提供了新的解决问题的思路:在大量数据中寻找敏感参数,依据敏感参数建立二叉树树状模型;随着各地建立数据采集的试验场,数据越来越多,形成海量的数据,利用数据挖掘可以分析出数据中的规律,帮助相关的研究。
进一步地,所述坡面产流产沙数据集包括下垫面数据、降水数据、径流数据以及产流产沙数据。
进一步地,所述步骤S1中坡面产流产沙数据集的获得方法步骤如下:
所述步骤S1中坡面产流产沙数据集的获得方法步骤如下:
A1、通过试验场观测不同下垫面和不同降水条件下实验小区的产流产沙数据;
A2、建立产流产沙数据分别与下垫面参数数据、降水参数数据和径流参数数据的相关关系,形成坡面产流产沙数据集,其中下垫面参数数据、降水参数数据和径流参数数据中参数包括坡长、坡向、面积、坡位、土壤种类、植被覆盖度、降雨时长、降雨量、平均降雨强度、30分钟最大降雨强度、雨前土壤含水量、径流深、径流系数。
进一步地,所述步骤S2中预处理步骤如下;
B1、对坡面产流产沙数据集中的所有数据进行归类整理、数据补缺、数据标准化和去除不合理值处理,得到归类补缺后数据;
B2、分析归类补缺后数据,筛选出其中分类型参数数据,并统计各分类型参数数据的种类数;
B3、根据所述分类型参数数据和分类型参数数据种类数,对分类型参数数据进行one-hot编码处理,完成预处理坡面产流产沙数据集。
采用上述进一步方案的有益效果为:在试验场进行数据观测时容易产生偏离常规的数据或缺少检测的重点数据,清除不合理数据点可以提高确定坡面产流产沙的阈值精度,并且对分类型参数数据进行one-hot编码处理,使得分类参数数据可以提供计算机识别。
进一步地,所述步骤S3的具体步骤如下:
C1、利用嵌入法计算待用数据集中每个参数的权值系数;
C2、根据权值系数从小到大进行参数的敏感性从大到小的排列,并将敏感性大的参数确定为敏感性参数;
C3、根据敏感性参数利用CART树自上而下建立递归二叉树树状模型,并根据划分准则将递归二叉树树状模型每一个分叉点的样本集划分为两个区域,完成二叉树树状模型的构建。
采用上述进一步方案的有益效果为:根据决策回归算法的内容,决策回归算法利用嵌入法得到各个特征的权重和参数的敏感度;坡面产流产沙包括复杂的关系,通过数理方式难以有效反映流沙之间的关系,但利用决策回归算法通过自组织和自学习能够有效的表征参数与流沙之间的关系。
进一步地,所述递归二叉树树状模型包括用于预测分类离散型数据的分类树和用于预测回归连续型数据的回归树;
所述递归二叉树的构建方法为:在待用数据集的输入空间中,将每个区域递归地划分为两个子区域并决定各子区域上的输出值,完成递归二叉树的构建。
进一步地,所述划分准则包括:分类树分叉点样本集划分采用基尼指数最小准则,回归树分叉点样本集划分采用方差最小化准则;
所述回归树中采用Gain_σ作为评价分裂特征指标,且取其最小值作为回归树二分的最优分裂特征值;所述Gain_σ越小表明划分的子样本的差异越小。
进一步地,所述分类树分叉点样本集采用基尼指数最小准则划分步骤如下:
D1:计算分类样本集D的基尼指数系数:
所述基尼指数系数Gini(·)表达式如下:
其中,D表示分类样本集,|D|表示样本个数,k表示样本类别数,Ci表示第i个类别,|Ci|表示第i个类别的数量;
D2:计算分类样本集D在特征A条件下的基尼指数系数:
所述分类样本集D在特征A条件下的基尼指数系数表达式如下:
其中,D表示分类样本集,根据特征A的特征值a将分类样本集D划分为第一子样本集D1和第二子样本集D2,|D1|表示第一子样本集的样本个数,|D2|表示第二子样本集的样本个数;
D3:选择特征A的最优二分方案:分别计算特征A的任意特征值将分类样本集D划分为两个子样本集后的基尼指数系数,选取其中最小值作为特征A的最优二分方案;
所述特征A的最优二分方案表达式如下:
其中,D表示分类样本集,A表示特征A,Gini(·)表示基尼指数系数,i表示特征A的特征值;
D4:选择分类样本集D的最优二分方案:分别计算任意特征的最优二分方案,选取其中最小值作为分类样本集D的最优二分方案;
所述分类样本集D的最优二分方案表达式如下:
其中,D表示分类样本集,A表示特征A,Gini(·)表示基尼指数系数,i表示特征A的特征值,Attribute表示特征;
进一步地,所述回归树分叉点样本集采用方差最小化准则划分步骤如下:
E1:计算含有连续型预测值的样本集S的总方差:
所述含有连续型预测值的样本集S的总方差表达式如下:
σ(S)=∑(yk-μ)2
其中,μ表示样本集S中预测值的均值,yk表示第k个样本预测结果;
E2:计算所述样本集S在特征A下的Gain_σ值:
根据特征A的第i个特征值,将数据集S划分为第一样本子集S1和第二样本子集S2,且Gain_σ的表达式如下:
其中,S表示样本集S,S1表示第一样本子集,S2表示第二样本子集,A表示特征A,i表示第i个特征值;
E3:选择特征A划分的最优二分方案:分别计算任意特征值划分为两部分的Gain_σ,选取其中最小值作为特征A划分的最优二分方案;
所述特征A划分的最优二分方案表达式如下:
其中,表示分裂特征指标,S表示样本集S,A表示特征A,i表示第i个特征值;
E4:选择所述样本集S划分的最优二分方案:计算所有特征的最优二分方案,选取其中的最小值作为样本集S划分的最优二分方案;
所述样本集S的最优二分方案表达式如下:
其中,表示分裂特征指标,S表示样本集S,A表示特征A,i表示第i个特征值,Attribute表示特征;得到的属性A和第i个特征值为样本S的最优分裂特征以及最优分裂特征值;
进一步地,所述CART树剪枝方法采用代价复杂度剪枝算法,防止过度拟化;CART树剪枝分为两部分,分别是生成子树序列和交叉验证;
所述代价复杂度剪枝算法采用损失函数最小作为剪枝标准,所述损失函数定义表达式如下:
Cα(T)=C(T)+α|T|
其中,T表示任意子树,|T|表示子树T的叶子节点树,α表示参数,且用于权衡拟合程度与树的复杂度,C(T)表示预测误差,且可采用平方误差或基尼指数。
采用上述进一步方案的有益效果为:采用确定的参数权重分析进而能够优选出对流沙敏感的参数,故而二叉树模型不仅可以提高确定产流产沙阈值的精度,同时能够提高对样本的泛化能力。
附图说明
图1为本发明实施例中基于决策回归算法的坡面产流产沙阈值的确定方法的步骤流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,本发明提供一种基于决策回归算法的坡面产流产沙阈值的确定方法,包括如下步骤:
S1、通过试验场的坡面产流产沙实验获得坡面产流产沙数据集;
S2、将得到的坡面产流产沙数据集进行预处理,得到待用数据集;
S3、利用决策回归算法对所述待用数据集进行数据挖掘,得到二叉树树状模型结果;
S4、根据树状模型结果的最大值和最小值得到坡面产流产沙的阈值。
所述坡面产流产沙数据集包括下垫面数据、降水数据、径流数据以及产流产沙数据。
所述步骤S1中坡面产流产沙数据集的获得方法步骤如下:
A1、通过试验场观测不同下垫面和不同降水条件下实验小区的产流产沙数据;
A2、建立产流产沙数据分别与下垫面参数数据、降水参数数据和径流参数数据的相关关系,形成坡面产流产沙数据集,其中下垫面参数数据、降水参数数据和径流参数数据中参数包括坡长、坡向、面积、坡位、土壤种类、植被覆盖度、降雨时长、降雨量、平均降雨强度、30分钟最大降雨强度、雨前土壤含水量、径流深、径流系数。
所述步骤S2中预处理步骤如下;
B1、对坡面产流产沙数据集中的所有数据进行归类整理、数据补缺、数据标准化和去除不合理值处理,得到归类补缺后数据;
B2、分析归类补缺后数据,筛选出其中分类型参数数据,并统计各分类型参数数据的种类数;
B3、根据所述分类型参数数据和分类型参数数据种类数,对分类型参数数据进行one-hot编码处理,完成预处理坡面产流产沙数据集。
所述步骤S3的具体步骤如下:
C1、利用嵌入法计算待用数据集中每个参数的权值系数;
C2、根据权值系数从小到大进行参数的敏感性从大到小的排列,并将敏感性大的参数确定为敏感性参数;
C3、根据敏感性参数利用CART树自上而下建立递归二叉树树状模型,并根据划分准则将递归二叉树树状模型每一个分叉点的样本集划分为两个区域,完成二叉树树状模型的构建。
进一步地,所述递归二叉树树状模型包括用于预测分类离散型数据的分类树和用于预测回归连续型数据的回归树;
所述递归二叉树的构建方法为:在待用数据集的输入空间中,将每个区域递归地划分为两个子区域并决定各子区域上的输出值,完成递归二叉树的构建。
所述划分准则包括:分类树分叉点样本集划分采用基尼指数最小准则,回归树分叉点样本集划分采用方差最小化准则;
所述回归树中采用Gain_σ作为评价分裂特征指标,且取其最小值作为回归树二分的最优分裂特征值;所述Gain_σ越小表明划分的子样本的差异越小。
所述分类树分叉点样本集采用基尼指数最小准则划分步骤如下:
D1:计算分类样本集D的基尼指数系数:
所述基尼指数系数Gini(·)表达式如下:
其中,D表示分类样本集,|D|表示样本个数,k表示样本类别数,Ci表示第i个类别,|Ci|表示第i个类别的数量;
D2:计算分类样本集D在特征A条件下的基尼指数系数:
所述分类样本集D在特征A条件下的基尼指数系数表达式如下:
其中,D表示分类样本集,根据特征A的特征值a将分类样本集D划分为第一子样本集D1和第二子样本集D2,|D1|表示第一子样本集的样本个数,|D2|表示第二子样本集的样本个数;
D3:选择特征A的最优二分方案:分别计算特征A的任意特征值将分类样本集D划分为两个子样本集后的基尼指数系数,选取其中最小值作为特征A的最优二分方案;
所述特征A的最优二分方案表达式如下:
其中,D表示分类样本集,A表示特征A,Gini(·)表示基尼指数系数,i表示特征A的特征值;
D4:选择分类样本集D的最优二分方案:分别计算任意特征的最优二分方案,选取其中最小值作为分类样本集D的最优二分方案;
所述分类样本集D的最优二分方案表达式如下:
其中,D表示分类样本集,A表示特征A,Gini(·)表示基尼指数系数,i表示特征A的特征值,Attribute表示特征。
所述回归树分叉点样本集采用方差最小化准则划分步骤如下:
E1:计算含有连续型预测值的样本集S的总方差:
所述含有连续型预测值的样本集S的总方差表达式如下:
σ(S)=∑(yk-μ)2
其中,μ表示样本集S中预测值的均值,yk表示第k个样本预测结果;
E2:计算所述样本集S在特征A下的Gain_σ值:
根据特征A的第i个特征值,将数据集S划分为第一样本子集S1和第二样本子集S2,且Gain_σ的表达式如下:
其中,S表示样本集S,S1表示第一样本子集,S2表示第二样本子集,A表示特征A,i表示第i个特征值;
E3:选择特征A划分的最优二分方案:分别计算任意特征值划分为两部分的Gain_σ,选取其中最小值作为特征A划分的最优二分方案;
所述特征A划分的最优二分方案表达式如下:
其中,表示分裂特征指标,S表示样本集S,A表示特征A,i表示第i个特征值;
E4:选择所述样本集S划分的最优二分方案:计算所有特征的最优二分方案,选取其中的最小值作为样本集S划分的最优二分方案;
所述样本集S的最优二分方案表达式如下:
其中,表示分裂特征指标,S表示样本集S,A表示特征A,i表示第i个特征值,Attribute表示特征;得到的属性A和第i个特征值为样本S的最优分裂特征以及最优分裂特征值。
所述CART树剪枝方法采用代价复杂度剪枝算法,防止过度拟化;CART树剪枝分为两部分,分别是生成子树序列和交叉验证;
所述代价复杂度剪枝算法采用损失函数最小作为剪枝标准,所述损失函数定义表达式如下:
Cα(T)=C(T)+α|T|
其中,T表示任意子树,|T|表示子树T的叶子节点树,α表示参数,且用于权衡拟合程度与树的复杂度,C(T)表示预测误差,且可采用平方误差或基尼指数。
在本发明的一个实施实例中,以北京径流场所获得坡面产流产沙的数据为例,数据集中次降雨有关产流产沙数据包含监测小区的面积、坡位、坡度、坡向、坡长、植被覆盖度、土壤厚度和土壤种类,以及降雨量、降雨历时、平均降雨强度、30分钟最大降雨强度、产流量和产沙量等信息。
具体的,根据132个监测小区所获得的数据,建立坡面产流产沙和与其相关参数的对应关系,形成6517组数据的数据集。
对建立的数据集进行处理方式主要包含数据补缺、数据标准化、去除不正常值等;所述数据标准化是对数据进行统一规格化以及表头字母化,使得数据可以让系统更好地识别;所述数据异常产生的原因主要有数据监测操作失误造成数据极大偏离实际值、其他监测意外造成的数据偏差以及数据背离基本的物理依据,删除这些异常点的数据。
具体的,利用算法对数据集的处理需要的字段选择主要分为两部分,产流和产沙。产流部分的字符选择为坡长(pc)、小区面积(pa)、坡度(pd)、坡向(px)、坡位(pw)、植被覆盖度(veg_cov)、降雨历时(time)、降雨量(rainfall)、平均降雨强度(intens)、30分钟最大降雨强度(intens(30))以及雨前土壤含水量(pre_soil)共11个参数;产沙部分的字符选择为坡长(pc)、小区面积(pa)、坡度(pd)、坡向(px)、坡位(pw)、植被覆盖度(veg_cov)、降雨历时(time)、降雨量(rainfall)、平均降雨强度(intens)、30分钟最大降雨强度(intens(30))、雨前土壤含水量(pre_soil)、径流深(R)以及径流系数(RC)共13个参数。
本实例采用决策回归算法对待用数据集进行数据处理。
具体的,决策回归算法利用CART树进行数据挖掘。其中,CART分类树预测分类离散型数据,CART回归树预测回归连续性数据。
在分裂属性和剪枝确定以后,利用算法对数据集进行处理。通过决策算法可以得到每个参数的权重,根据每个参数的权重选择较敏感的参数进行建模;对于敏感度较低的参数,不参与建模过程。确定建模参数后,建立二叉树树状模型。每一个分叉点代表将样本集按照准则分为两部分。
具体的,根据权重选择敏感参数。对于产流而言选取敏感参数为径流深、30分钟最大降雨强度、坡位、植被覆盖度、平均降雨强度、产沙量等参数建立模型;对于产沙而言,选取的敏感的参数径流深、30分钟最大降雨强度、坡位、植被覆盖度、平均降雨强度、产沙量、坡向等参数建立模型。其他参数由于敏感性较低,未参与模型建立。通过选取的敏感参数,利用决策回归算法建立二叉树树状模型,通过建立的二叉树树状模型确定坡面产流产沙的阈值。
本发明采用本方案建立的确定坡面产流产沙阈值的二叉树模型,可以有效获取坡面产流产沙的阈值,此方法在相关研究提供了新的解决问题的思路:在大量数据中寻找敏感参数,依据敏感参数建立二叉树树状模型;随着各地建立数据采集的试验场,数据越来越多,形成海量的数据,利用数据挖掘可以分析出数据中的规律,帮助相关的研究。
Claims (4)
1.一种基于决策回归算法的坡面产流产沙阈值确定方法,其特征在于,包括如下步骤:
S1、通过试验场的坡面产流产沙实验获得坡面产流产沙数据集;
S2、将得到的坡面产流产沙数据集进行预处理,得到待用数据集;
S3、利用决策回归算法对所述待用数据集进行数据挖掘,得到二叉树树状模型结果;
S4、根据树状模型结果的最大值和最小值得到坡面产流产沙的阈值;
所述步骤S1中坡面产流产沙数据集包括下垫面参数数据、降水参数数据、径流参数数据以及产流产沙数据;
所述步骤S1中坡面产流产沙数据集的获得方法步骤如下:
A1、通过试验场观测不同下垫面和不同降水条件下实验小区的产流产沙数据;
A2、建立产流产沙数据与下垫面参数数据、降水参数数据和径流参数数据的相关关系,形成坡面产流产沙数据集,其中,下垫面参数数据、降水参数数据和径流参数数据中参数包括坡长、坡向、面积、坡位、土壤种类、植被覆盖度、降雨时长、降雨量、平均降雨强度、30分钟最大降雨强度、雨前土壤含水量、径流深和径流系数;
所述步骤S2中预处理步骤如下:
B1、对坡面产流产沙数据集中的所有数据进行归类整理、数据补缺、数据标准化和去除不合理值处理,得到归类补缺后数据;
B2、分析归类补缺后数据,筛选出其中分类型参数数据,并统计各分类型参数数据的种类数;
B3、根据所述分类型参数数据和分类型参数数据种类数,对分类型参数数据进行one-hot编码处理,完成预处理坡面产流产沙数据集;
所述步骤S3的具体步骤如下:
C1、利用嵌入法计算待用数据集中每个参数的权值系数;
C2、根据权值系数从小到大进行参数的敏感性从大到小的排列,并将敏感性大的参数确定为敏感性参数;
C3、根据敏感性参数利用CART树自上而下建立递归二叉树树状模型,并根据划分准则将递归二叉树树状模型每一个分叉点的样本集划分为两个区域,完成二叉树树状模型的构建;
所述递归二叉树树状模型包括用于预测分类离散型数据的分类树和用于预测回归连续型数据的回归树;
所述递归二叉树的构建方法为:在待用数据集的输入空间中,将每个区域递归地划分为两个子区域并决定各子区域上的输出值,完成递归二叉树的构建;
所述划分准则包括:分类树分叉点样本集划分采用基尼指数最小准则,回归树分叉点样本集划分采用方差最小化准则;
所述回归树中采用Gain_σ作为评价分裂特征指标,且取其最小值作为回归树二分的最优分裂特征值;所述Gain_σ越小表明划分的子样本的差异越小。
2.根据权利要求1所述的基于决策回归算法的坡面产流产沙阈值确定方法,其特征在于,所述分类树分叉点样本集采用基尼指数最小准则划分步骤如下:
D1:计算分类样本集D的基尼指数系数:
所述基尼指数系数Gini(·)表达式如下:
其中,D表示分类样本集,|D|表示样本个数,k表示样本类别数,Ci表示第i个类别,|Ci|表示第i个类别的数量;
D2:计算分类样本集D在特征A条件下的基尼指数系数:
所述分类样本集D在特征A条件下的基尼指数系数表达式如下:
其中,D表示分类样本集,根据特征A的特征值a将分类样本集D划分为第一子样本集D1和第二子样本集D2,|D1|表示第一子样本集的样本个数,|D2|表示第二子样本集的样本个数;
D3:选择特征A的最优二分方案:分别计算特征A的任意特征值将分类样本集D划分为两个子样本集后的基尼指数系数,选取其中最小值作为特征A的最优二分方案;
所述特征A的最优二分方案表达式如下:
其中,D表示分类样本集,A表示特征A,Gini(·)表示基尼指数系数,i表示特征A的特征值;
D4:选择分类样本集D的最优二分方案:分别计算任意特征的最优二分方案,选取其中最小值作为分类样本集D的最优二分方案;
所述分类样本集D的最优二分方案表达式如下:
其中,D表示分类样本集,A表示特征A,Gini(·)表示基尼指数系数,i表示特征A的特征值,Attribute表示特征。
3.根据权利要求1所述的基于决策回归算法的坡面产流产沙阈值确定方法,其特征在于,所述回归树分叉点样本集采用方差最小化准则划分步骤如下:
E1:计算含有连续型预测值的样本集S的总方差:
所述含有连续型预测值的样本集S的总方差表达式如下:
σ(S)=∑(yk-μ)2
其中,μ表示样本集S中预测值的均值,yk表示第k个样本预测结果;
E2:计算所述样本集S在特征A下的Gain_σ值:
根据特征A的第i个特征值,将数据集S划分为第一样本子集S1和第二样本子集S2,且Gain_σ的表达式如下:
其中,S表示样本集S,S1表示第一样本子集,S2表示第二样本子集,A表示特征A,i表示第i个特征值;
E3:选择特征A划分的最优二分方案:分别计算任意特征值划分为两部分的Gain_σ,选取其中最小值作为特征A划分的最优二分方案;
所述特征A划分的最优二分方案表达式如下:
其中,表示分裂特征指标,S表示样本集S,A表示特征A,i表示第i个特征值;
E4:选择所述样本集S划分的最优二分方案:计算所有特征的最优二分方案,选取其中的最小值作为样本集S划分的最优二分方案;
所述样本集S的最优二分方案表达式如下:
其中,表示分裂特征指标,S表示样本集S,A表示特征A,i表示第i个特征值,Attribute表示特征;得到的属性A和第i个特征值为样本S的最优分裂特征以及最优分裂特征值。
4.根据权利要求1所述的基于决策回归算法的坡面产流产沙阈值确定方法,其特征在于,所述CART树剪枝方法采用代价复杂度剪枝算法,防止过度拟化;CART树剪枝分为两部分,分别是生成子树序列和交叉验证;
所述代价复杂度剪枝算法采用损失函数最小作为剪枝标准,所述损失函数定义表达式如下:
Cα(T)=C(T)+α|T|
其中,T表示任意子树,|T|表示子树T的叶子节点树,α表示拟合程度参数,C(T)表示预测误差,且可采用平方误差或基尼指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828165.8A CN113468821B (zh) | 2021-07-22 | 2021-07-22 | 一种基于决策回归算法的坡面产流产沙阈值确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828165.8A CN113468821B (zh) | 2021-07-22 | 2021-07-22 | 一种基于决策回归算法的坡面产流产沙阈值确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468821A CN113468821A (zh) | 2021-10-01 |
CN113468821B true CN113468821B (zh) | 2024-03-19 |
Family
ID=77881665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110828165.8A Active CN113468821B (zh) | 2021-07-22 | 2021-07-22 | 一种基于决策回归算法的坡面产流产沙阈值确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468821B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116500296B (zh) * | 2023-04-28 | 2023-11-17 | 杭州开闳流体科技有限公司 | 针对生态基流监测的智能增强测流方法、系统及其应用 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942408A (zh) * | 2014-02-19 | 2014-07-23 | 西北农林科技大学 | 黄土高原中尺度流域年侵蚀产沙模型计算方法 |
CN107516104A (zh) * | 2017-07-11 | 2017-12-26 | 合肥工业大学 | 一种基于二分法的优化cart决策树生成方法及其装置 |
CN107729651A (zh) * | 2017-10-17 | 2018-02-23 | 黄河水利委员会黄河水利科学研究院 | 基于多维度的坡面细沟发育形态特征综合量化方法 |
CN109146195A (zh) * | 2018-09-06 | 2019-01-04 | 北方爆破科技有限公司 | 一种基于cart树回归算法的爆破块度预测方法 |
CN111680828A (zh) * | 2020-05-21 | 2020-09-18 | 广州鑫泓设备设计有限公司 | 一种基于时空变源混合产流进行山洪预警的方法 |
AU2020101854A4 (en) * | 2020-08-17 | 2020-09-24 | China Communications Construction Co., Ltd. | A method for predicting concrete durability based on data mining and artificial intelligence algorithm |
WO2020247949A1 (en) * | 2019-06-07 | 2020-12-10 | The Regents Of The University Of California | General form of the tree alternating optimization (tao) for learning decision trees |
CN112434441A (zh) * | 2020-12-03 | 2021-03-02 | 中国水利水电科学研究院 | 一种水文模型参数区域化方法 |
-
2021
- 2021-07-22 CN CN202110828165.8A patent/CN113468821B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942408A (zh) * | 2014-02-19 | 2014-07-23 | 西北农林科技大学 | 黄土高原中尺度流域年侵蚀产沙模型计算方法 |
CN107516104A (zh) * | 2017-07-11 | 2017-12-26 | 合肥工业大学 | 一种基于二分法的优化cart决策树生成方法及其装置 |
CN107729651A (zh) * | 2017-10-17 | 2018-02-23 | 黄河水利委员会黄河水利科学研究院 | 基于多维度的坡面细沟发育形态特征综合量化方法 |
CN109146195A (zh) * | 2018-09-06 | 2019-01-04 | 北方爆破科技有限公司 | 一种基于cart树回归算法的爆破块度预测方法 |
WO2020247949A1 (en) * | 2019-06-07 | 2020-12-10 | The Regents Of The University Of California | General form of the tree alternating optimization (tao) for learning decision trees |
CN111680828A (zh) * | 2020-05-21 | 2020-09-18 | 广州鑫泓设备设计有限公司 | 一种基于时空变源混合产流进行山洪预警的方法 |
AU2020101854A4 (en) * | 2020-08-17 | 2020-09-24 | China Communications Construction Co., Ltd. | A method for predicting concrete durability based on data mining and artificial intelligence algorithm |
CN112434441A (zh) * | 2020-12-03 | 2021-03-02 | 中国水利水电科学研究院 | 一种水文模型参数区域化方法 |
Non-Patent Citations (2)
Title |
---|
不同坡度对大别山区产流产沙的影响研究;尹金帆;汪军红;江雯;王星;乔欣瑞;夏敏;孙鹏;;人民珠江(04);全文 * |
多参数非线性降雨产流阈值模型试验研究;黄俊;吴普特;赵西宁;;北京林业大学学报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113468821A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223196B (zh) | 基于典型行业特征库和反窃电样本库的反窃电分析方法 | |
CN110263846B (zh) | 基于故障数据深度挖掘及学习的故障诊断方法 | |
CN112506990B (zh) | 一种基于时空信息的水文数据异常检测方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN115271255B (zh) | 基于知识图谱和机器学习的雨洪相似性分析方法和系统 | |
CN115829120A (zh) | 基于机器学习方法的水质预测预警系统 | |
CN113255986A (zh) | 一种基于气象信息和深度学习算法的多步日径流预报方法 | |
CN115495991A (zh) | 一种基于时间卷积网络的降水区间预测方法 | |
CN113468821B (zh) | 一种基于决策回归算法的坡面产流产沙阈值确定方法 | |
CN113435124A (zh) | 一种基于长短时记忆和径向基函数神经网络的水质时空关联预测方法 | |
CN113408659A (zh) | 一种基于数据挖掘的建筑能耗集成分析方法 | |
CN116432123A (zh) | 一种基于cart决策树算法的电能表故障预警方法 | |
CN113033081A (zh) | 一种基于som-bpnn模型的径流模拟方法及系统 | |
Zhang | Decision Trees for Objective House Price Prediction | |
Tosunoğlu et al. | Monthly streamflow forecasting using machine learning | |
Wei et al. | Data mining methods for hydroclimatic forecasting | |
Júnior et al. | An approach for evolving neuro-fuzzy forecasting of time series based on parallel recursive singular spectrum analysis | |
Biruntha et al. | Rainfall prediction using kNN and decision tree | |
CN115438823A (zh) | 一种井壁失稳机制分析与预测方法及系统 | |
CN117370813A (zh) | 一种基于k线模式匹配算法的大气污染深度学习预测方法 | |
CN112132334A (zh) | 一种用于城市生活垃圾产量的预测方法 | |
CN115423146A (zh) | 一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法 | |
CN116090696A (zh) | 适用于山区铁路沿线的滑坡地质灾害风险分类预测方法 | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN | |
MEHR et al. | Electrical energy demand prediction: A comparison between genetic programming and decision tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |