CN113468821B

CN113468821B - 一种基于决策回归算法的坡面产流产沙阈值确定方法

Info

Publication number: CN113468821B
Application number: CN202110828165.8A
Authority: CN
Inventors: 吕锡芝; 张秋芬; 李依哲; 秦天玲; 荐圣淇; 王慧亮; 刘姗姗
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2024-03-19
Anticipated expiration: 2041-07-22
Also published as: CN113468821A

Abstract

本发明公开了一种基于决策回归算法的坡面产流产沙阈值确定方法，属于水土流失调控技术领域，该方法包括：通过试验场的坡面产流产沙实验获得坡面产流产沙数据集；将得到的坡面产流产沙数据集进行预处理，得到待用数据集；将所述待用数据集进行决策回归算法处理，得到二叉树树状模型结果；根据树状模型结果的最大值和最小值得到坡面产流产沙的阈值。本发明解决了对试验场采集到的坡面产流产沙数据集进行预处理且根据预处理结果建立二叉树树状模型，得到坡面产流产沙阈值的问题，在大量数据中寻找敏感参数，依据敏感参数建立二叉树树状模型；随着各地建立数据采集的试验场，数据越来越多，利用大数据技术可以更有效地挖掘海量数据中的信息。

Description

一种基于决策回归算法的坡面产流产沙阈值确定方法

技术领域

本发明属于水土流失综合调控技术领域，尤其涉及一种基于决策回归算法的坡面产流产沙阈值的确定方法。

背景技术

随着水土流失调控技术研究的开展，以坡面产流产沙过程为主的实验观测研究广泛开展，形成了长期的历时数据积累。一方面，在不同区域、不同水土保持措施和环境下开展了许多坡面产流产沙实验观测研究，可以从不同角度回答水土流失过程和水土保持措施效应等问题。另一方面，由于单点研究的局限性，得出的研究结果只在特定的条件下适用，不能从宏观上指导区域性水土流失综合治理决策，如不能厘清区域产流产沙的关键因子及其环境响应阈值。基于传统的物理法、水文法、数理统计法等研究方法，又难以从纷繁冗杂的历史数据中全面挖掘更多有效信息，降低了数据利用率。随着大数据和计算机技术的发展，在海量的数据包挖掘出有效信息的技术得以实现。尤其是利用决策回归算法，在处理这些包含众多分类变量和连续变量的海量数据信息，对变量进行分类、回归，实现关键因子识别和阈值分析等问题方面具有显著的效果。因此在确定坡面产流产沙的阈值时引入人工智能、机器学习等处理大数据的新技术可以促进对当下困难的解决。

以决策回归算法为代表的大数据技术是从不完整的、随机的、模糊的海量数据中通过算法挖掘出隐藏在数据中常规方法难以获得的潜在的有价值信息的方法。本发明中决策回归算法是利用CART树来建立决策树，CART树的特点是二分叉状。其中可以分为两部分，描述和预测，前者是寻找出数据中潜在关系的概括模式，后者是基于当前数据做出预测。决策回归算法的模型属于“白盒”模型，样本数据和属性之间的关系比较清晰。

发明内容

针对现有技术中的上述不足，本发明通过试验场采集获得坡面产流产沙数据集，坡面产流产沙数据集包含不同条件下的坡面产流产沙数据，对坡面产流产沙数据集预处理后得到待用数据集，利用待用进行数据挖掘形成清晰的树状模型，得到坡面产流产沙阈值。本发明提供的一种基于决策回归算法的坡面产流产沙阈值的确定方法解决了对试验场采集到的坡面产流产沙数据集进行预处理且根据预处理结果建立二叉树树状模型，得到坡面产流产沙阈值的问题。

为了达到上述发明目的，本发明采用的技术方案为：

本发明提供的一种基于决策回归算法的坡面产流产沙阈值的确定方法，包括如下步骤：

S1、通过试验场的坡面产流产沙实验获得坡面产流产沙数据集；

S2、将得到的坡面产流产沙数据集进行预处理，得到待用数据集；

S3、利用决策回归算法对所述待用数据集进行数据挖掘，得到二叉树树状模型结果；

S4、根据树状模型结果的最大值和最小值得到坡面产流产沙的阈值。

本发明的有益效果为：采用本方案建立的确定坡面产流产沙阈值的二叉树模型，可以有效获取坡面产流产沙的阈值，此方法在相关研究提供了新的解决问题的思路：在大量数据中寻找敏感参数，依据敏感参数建立二叉树树状模型；随着各地建立数据采集的试验场，数据越来越多，形成海量的数据，利用数据挖掘可以分析出数据中的规律，帮助相关的研究。

进一步地，所述坡面产流产沙数据集包括下垫面数据、降水数据、径流数据以及产流产沙数据。

进一步地，所述步骤S1中坡面产流产沙数据集的获得方法步骤如下：

所述步骤S1中坡面产流产沙数据集的获得方法步骤如下：

A1、通过试验场观测不同下垫面和不同降水条件下实验小区的产流产沙数据；

A2、建立产流产沙数据分别与下垫面参数数据、降水参数数据和径流参数数据的相关关系，形成坡面产流产沙数据集，其中下垫面参数数据、降水参数数据和径流参数数据中参数包括坡长、坡向、面积、坡位、土壤种类、植被覆盖度、降雨时长、降雨量、平均降雨强度、30分钟最大降雨强度、雨前土壤含水量、径流深、径流系数。

进一步地，所述步骤S2中预处理步骤如下；

B1、对坡面产流产沙数据集中的所有数据进行归类整理、数据补缺、数据标准化和去除不合理值处理，得到归类补缺后数据；

B2、分析归类补缺后数据，筛选出其中分类型参数数据，并统计各分类型参数数据的种类数；

B3、根据所述分类型参数数据和分类型参数数据种类数，对分类型参数数据进行one-hot编码处理，完成预处理坡面产流产沙数据集。

采用上述进一步方案的有益效果为：在试验场进行数据观测时容易产生偏离常规的数据或缺少检测的重点数据，清除不合理数据点可以提高确定坡面产流产沙的阈值精度，并且对分类型参数数据进行one-hot编码处理，使得分类参数数据可以提供计算机识别。

进一步地，所述步骤S3的具体步骤如下：

C1、利用嵌入法计算待用数据集中每个参数的权值系数；

C2、根据权值系数从小到大进行参数的敏感性从大到小的排列，并将敏感性大的参数确定为敏感性参数；

C3、根据敏感性参数利用CART树自上而下建立递归二叉树树状模型，并根据划分准则将递归二叉树树状模型每一个分叉点的样本集划分为两个区域，完成二叉树树状模型的构建。

采用上述进一步方案的有益效果为：根据决策回归算法的内容，决策回归算法利用嵌入法得到各个特征的权重和参数的敏感度；坡面产流产沙包括复杂的关系，通过数理方式难以有效反映流沙之间的关系，但利用决策回归算法通过自组织和自学习能够有效的表征参数与流沙之间的关系。

进一步地，所述递归二叉树树状模型包括用于预测分类离散型数据的分类树和用于预测回归连续型数据的回归树；

所述递归二叉树的构建方法为：在待用数据集的输入空间中，将每个区域递归地划分为两个子区域并决定各子区域上的输出值，完成递归二叉树的构建。

进一步地，所述划分准则包括：分类树分叉点样本集划分采用基尼指数最小准则，回归树分叉点样本集划分采用方差最小化准则；

所述回归树中采用Gain_σ作为评价分裂特征指标，且取其最小值作为回归树二分的最优分裂特征值；所述Gain_σ越小表明划分的子样本的差异越小。

进一步地，所述分类树分叉点样本集采用基尼指数最小准则划分步骤如下：

D1：计算分类样本集D的基尼指数系数：

所述基尼指数系数Gini(·)表达式如下：

其中，D表示分类样本集，|D|表示样本个数，k表示样本类别数，C_i表示第i个类别，|C_i|表示第i个类别的数量；

D2：计算分类样本集D在特征A条件下的基尼指数系数：

所述分类样本集D在特征A条件下的基尼指数系数表达式如下：

其中，D表示分类样本集，根据特征A的特征值a将分类样本集D划分为第一子样本集D₁和第二子样本集D₂，|D₁|表示第一子样本集的样本个数，|D₂|表示第二子样本集的样本个数；

D3：选择特征A的最优二分方案：分别计算特征A的任意特征值将分类样本集D划分为两个子样本集后的基尼指数系数，选取其中最小值作为特征A的最优二分方案；

所述特征A的最优二分方案表达式如下：

其中，D表示分类样本集，A表示特征A，Gini(·)表示基尼指数系数，i表示特征A的特征值；

D4：选择分类样本集D的最优二分方案：分别计算任意特征的最优二分方案，选取其中最小值作为分类样本集D的最优二分方案；

所述分类样本集D的最优二分方案表达式如下：

其中，D表示分类样本集，A表示特征A，Gini(·)表示基尼指数系数，i表示特征A的特征值，Attribute表示特征；

进一步地，所述回归树分叉点样本集采用方差最小化准则划分步骤如下：

E1：计算含有连续型预测值的样本集S的总方差：

所述含有连续型预测值的样本集S的总方差表达式如下：

σ(S)＝∑(y_k-μ)²

其中，μ表示样本集S中预测值的均值，y_k表示第k个样本预测结果；

E2：计算所述样本集S在特征A下的Gain_σ值：

根据特征A的第i个特征值，将数据集S划分为第一样本子集S₁和第二样本子集S₂，且Gain_σ的表达式如下：

其中，S表示样本集S，S₁表示第一样本子集，S₂表示第二样本子集，A表示特征A，i表示第i个特征值；

E3：选择特征A划分的最优二分方案：分别计算任意特征值划分为两部分的Gain_σ，选取其中最小值作为特征A划分的最优二分方案；

所述特征A划分的最优二分方案表达式如下：

其中，表示分裂特征指标，S表示样本集S，A表示特征A，i表示第i个特征值；

E4：选择所述样本集S划分的最优二分方案：计算所有特征的最优二分方案，选取其中的最小值作为样本集S划分的最优二分方案；

所述样本集S的最优二分方案表达式如下：

其中，表示分裂特征指标，S表示样本集S，A表示特征A，i表示第i个特征值，Attribute表示特征；得到的属性A和第i个特征值为样本S的最优分裂特征以及最优分裂特征值；

进一步地，所述CART树剪枝方法采用代价复杂度剪枝算法，防止过度拟化；CART树剪枝分为两部分，分别是生成子树序列和交叉验证；

所述代价复杂度剪枝算法采用损失函数最小作为剪枝标准，所述损失函数定义表达式如下：

C_α(T)＝C(T)+α|T|

其中，T表示任意子树，|T|表示子树T的叶子节点树，α表示参数，且用于权衡拟合程度与树的复杂度，C(T)表示预测误差，且可采用平方误差或基尼指数。

采用上述进一步方案的有益效果为：采用确定的参数权重分析进而能够优选出对流沙敏感的参数，故而二叉树模型不仅可以提高确定产流产沙阈值的精度，同时能够提高对样本的泛化能力。

附图说明

图1为本发明实施例中基于决策回归算法的坡面产流产沙阈值的确定方法的步骤流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，本发明提供一种基于决策回归算法的坡面产流产沙阈值的确定方法，包括如下步骤：

所述坡面产流产沙数据集包括下垫面数据、降水数据、径流数据以及产流产沙数据。

所述步骤S1中坡面产流产沙数据集的获得方法步骤如下：

所述步骤S2中预处理步骤如下；

所述步骤S3的具体步骤如下：

C1、利用嵌入法计算待用数据集中每个参数的权值系数；

所述划分准则包括：分类树分叉点样本集划分采用基尼指数最小准则，回归树分叉点样本集划分采用方差最小化准则；

所述分类树分叉点样本集采用基尼指数最小准则划分步骤如下：

D1：计算分类样本集D的基尼指数系数：

所述基尼指数系数Gini(·)表达式如下：

D2：计算分类样本集D在特征A条件下的基尼指数系数：

所述特征A的最优二分方案表达式如下：

所述分类样本集D的最优二分方案表达式如下：

其中，D表示分类样本集，A表示特征A，Gini(·)表示基尼指数系数，i表示特征A的特征值，Attribute表示特征。

所述回归树分叉点样本集采用方差最小化准则划分步骤如下：

E1：计算含有连续型预测值的样本集S的总方差：

所述含有连续型预测值的样本集S的总方差表达式如下：

σ(S)＝∑(y_k-μ)²

E2：计算所述样本集S在特征A下的Gain_σ值：

所述特征A划分的最优二分方案表达式如下：

所述样本集S的最优二分方案表达式如下：

其中，表示分裂特征指标，S表示样本集S，A表示特征A，i表示第i个特征值，Attribute表示特征；得到的属性A和第i个特征值为样本S的最优分裂特征以及最优分裂特征值。

所述CART树剪枝方法采用代价复杂度剪枝算法，防止过度拟化；CART树剪枝分为两部分，分别是生成子树序列和交叉验证；

C_α(T)＝C(T)+α|T|

在本发明的一个实施实例中，以北京径流场所获得坡面产流产沙的数据为例，数据集中次降雨有关产流产沙数据包含监测小区的面积、坡位、坡度、坡向、坡长、植被覆盖度、土壤厚度和土壤种类，以及降雨量、降雨历时、平均降雨强度、30分钟最大降雨强度、产流量和产沙量等信息。

具体的，根据132个监测小区所获得的数据，建立坡面产流产沙和与其相关参数的对应关系，形成6517组数据的数据集。

对建立的数据集进行处理方式主要包含数据补缺、数据标准化、去除不正常值等；所述数据标准化是对数据进行统一规格化以及表头字母化，使得数据可以让系统更好地识别；所述数据异常产生的原因主要有数据监测操作失误造成数据极大偏离实际值、其他监测意外造成的数据偏差以及数据背离基本的物理依据，删除这些异常点的数据。

具体的，利用算法对数据集的处理需要的字段选择主要分为两部分，产流和产沙。产流部分的字符选择为坡长(pc)、小区面积(pa)、坡度(pd)、坡向(px)、坡位(pw)、植被覆盖度(veg_cov)、降雨历时(time)、降雨量(rainfall)、平均降雨强度(intens)、30分钟最大降雨强度(intens(30))以及雨前土壤含水量(pre_soil)共11个参数；产沙部分的字符选择为坡长(pc)、小区面积(pa)、坡度(pd)、坡向(px)、坡位(pw)、植被覆盖度(veg_cov)、降雨历时(time)、降雨量(rainfall)、平均降雨强度(intens)、30分钟最大降雨强度(intens(30))、雨前土壤含水量(pre_soil)、径流深(R)以及径流系数(RC)共13个参数。

本实例采用决策回归算法对待用数据集进行数据处理。

具体的，决策回归算法利用CART树进行数据挖掘。其中，CART分类树预测分类离散型数据，CART回归树预测回归连续性数据。

在分裂属性和剪枝确定以后，利用算法对数据集进行处理。通过决策算法可以得到每个参数的权重，根据每个参数的权重选择较敏感的参数进行建模；对于敏感度较低的参数，不参与建模过程。确定建模参数后，建立二叉树树状模型。每一个分叉点代表将样本集按照准则分为两部分。

具体的，根据权重选择敏感参数。对于产流而言选取敏感参数为径流深、30分钟最大降雨强度、坡位、植被覆盖度、平均降雨强度、产沙量等参数建立模型；对于产沙而言，选取的敏感的参数径流深、30分钟最大降雨强度、坡位、植被覆盖度、平均降雨强度、产沙量、坡向等参数建立模型。其他参数由于敏感性较低，未参与模型建立。通过选取的敏感参数，利用决策回归算法建立二叉树树状模型，通过建立的二叉树树状模型确定坡面产流产沙的阈值。

本发明采用本方案建立的确定坡面产流产沙阈值的二叉树模型，可以有效获取坡面产流产沙的阈值，此方法在相关研究提供了新的解决问题的思路：在大量数据中寻找敏感参数，依据敏感参数建立二叉树树状模型；随着各地建立数据采集的试验场，数据越来越多，形成海量的数据，利用数据挖掘可以分析出数据中的规律，帮助相关的研究。

Claims

1.一种基于决策回归算法的坡面产流产沙阈值确定方法，其特征在于，包括如下步骤：

S4、根据树状模型结果的最大值和最小值得到坡面产流产沙的阈值；

所述步骤S1中坡面产流产沙数据集包括下垫面参数数据、降水参数数据、径流参数数据以及产流产沙数据；

所述步骤S1中坡面产流产沙数据集的获得方法步骤如下：

A2、建立产流产沙数据与下垫面参数数据、降水参数数据和径流参数数据的相关关系，形成坡面产流产沙数据集，其中，下垫面参数数据、降水参数数据和径流参数数据中参数包括坡长、坡向、面积、坡位、土壤种类、植被覆盖度、降雨时长、降雨量、平均降雨强度、30分钟最大降雨强度、雨前土壤含水量、径流深和径流系数；

所述步骤S2中预处理步骤如下：

B3、根据所述分类型参数数据和分类型参数数据种类数，对分类型参数数据进行one-hot编码处理，完成预处理坡面产流产沙数据集；

所述步骤S3的具体步骤如下：

C1、利用嵌入法计算待用数据集中每个参数的权值系数；

C3、根据敏感性参数利用CART树自上而下建立递归二叉树树状模型，并根据划分准则将递归二叉树树状模型每一个分叉点的样本集划分为两个区域，完成二叉树树状模型的构建；

所述递归二叉树树状模型包括用于预测分类离散型数据的分类树和用于预测回归连续型数据的回归树；

所述递归二叉树的构建方法为：在待用数据集的输入空间中，将每个区域递归地划分为两个子区域并决定各子区域上的输出值，完成递归二叉树的构建；

2.根据权利要求1所述的基于决策回归算法的坡面产流产沙阈值确定方法，其特征在于，所述分类树分叉点样本集采用基尼指数最小准则划分步骤如下：

D1：计算分类样本集D的基尼指数系数：

所述基尼指数系数Gini(·)表达式如下：

D2：计算分类样本集D在特征A条件下的基尼指数系数：

所述特征A的最优二分方案表达式如下：

所述分类样本集D的最优二分方案表达式如下：

3.根据权利要求1所述的基于决策回归算法的坡面产流产沙阈值确定方法，其特征在于，所述回归树分叉点样本集采用方差最小化准则划分步骤如下：

E1：计算含有连续型预测值的样本集S的总方差：

所述含有连续型预测值的样本集S的总方差表达式如下：

σ(S)＝∑(y_k-μ)²

E2：计算所述样本集S在特征A下的Gain_σ值：

所述特征A划分的最优二分方案表达式如下：

所述样本集S的最优二分方案表达式如下：

4.根据权利要求1所述的基于决策回归算法的坡面产流产沙阈值确定方法，其特征在于，所述CART树剪枝方法采用代价复杂度剪枝算法，防止过度拟化；CART树剪枝分为两部分，分别是生成子树序列和交叉验证；

C_α(T)＝C(T)+α|T|

其中，T表示任意子树，|T|表示子树T的叶子节点树，α表示拟合程度参数，C(T)表示预测误差，且可采用平方误差或基尼指数。