CN113689004A

CN113689004A - 基于机器学习的地下管网承载力评价方法及系统

Info

Publication number: CN113689004A
Application number: CN202111014782.0A
Authority: CN
Inventors: 汪宙峰; 曾义龙; 樊尚杰; 张炎菁
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-23

Abstract

本发明涉及一种基于机器学习的地下管网承载力评价方法及系统，包括通过随机森林算法对采集的数据进行预处理，完成对整个采集数据特征矩阵X缺失值的填充；采用梯度提升决策树进行影响因子的筛选；将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习，得到精度最高的最终评价模型；将待评价数据输入最终评价模型得到地下管网承载力的评价结果。本发明深挖了数据之间内在的联系，然后结合实际情况综合分析给出评价结果，高效的利用了数据,而且在评价方法上也避免现有专家评价法所带来的片面性和主观影响以及仅仅依靠数据所带来的过于量化影响。

Description

基于机器学习的地下管网承载力评价方法及系统

技术领域

本发明涉及管网承载力分析技术领域，尤其涉及一种基于机器学习的地下管网承载力评价方法及系统。

背景技术

随着我国城市建设的与日俱增，城市地下管网问题日渐突出。城市地下管网与人们生活和安全息息相关，被称为“城市生命线”。近年来，与地下管网相关的事故逐年攀升，造成大量财产损失和人员伤亡。因此，开展对地下管网承载力研究，对于市政辅助决策和地下管网信息化建设具有重要的实践意义。

地下管网有电力、信息、给水、排水和燃气五种类型，其中地下排水管网因为其铺设年代久远规划不足、雨污分离和产生有害气体等问题尤为复杂。目前对于地下管网承载力的研究方法模式较为相似，基本可以分为三个阶段：数据处理、指标选取和评价方法。数据处理阶段用的较为传统的方法，例如平均值法或者众数法进行数据缺失的处理；指标选取阶段主要根据相关文献和专家意见进行选取，然后也是利用传统方法进行指标权重的确定，例如层次分析法、熵值法等等；评价方法阶段也多利用模糊综合评判法等传统方法。

但是目前是大数据的时代，随着科学技术的发展，地下管网方面的数据也得到的越来越多，而传统方法对于大数据的处理能力较差；而且传统方法主观性较强，不能深挖出数据之间内在的联系，精确度有待提高，且过多通过专家意见进行选取的主观性太强。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于机器学习的地下管网承载力评价方法及系统，解决了传统方法存在的不足。

本发明的目的通过以下技术方案来实现：一种基于机器学习的地下管网承载力评价方法，所述评价方法包括：

S1、缺失数据填充步骤：通过随机森林算法对采集的数据进行预处理，完成对整个采集数据特征矩阵X缺失值的填充；

S2、影响因子筛选步骤：采用梯度提升决策树进行影响因子的筛选，避免样本变化和不同属性数据对模型稳定性及评估准确性的影响；

S3、模型训练选择步骤：将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习，得到精度最高的最终评价模型；

S4、承载力评价步骤：将待评价数据输入最终评价模型得到地下管网承载力的评价结果。

所述缺失数据填充步骤具体包括：

S11、将列举的每一个影响因子作为一项特征，并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵；

S12、将特征矩阵的第一列特征，即缺失值最少的特征作为标签Y，剩下的特征缺失值全部设为0，组成新的特征矩阵X；

S13、利用python对特征矩阵进行随机森林学习，求解标签Y₁，对比标签Y和Y₁，将Y₁中与Y中缺失值相同位置处的值填充到Y中，完成特征X₁缺失值的填充；

S14、重复步骤S12和S13完成特征X₂缺失值的填充，并遍历所有的特征X_n，完成整个特征矩阵X缺失值的填充。

所述影响因子筛选步骤具体包括：

S21、将地下管网承载力的各个影响因子数据集输入到梯度提升决策树模型中，根节点选择分裂前后基尼指数最小的特征作为特征变量，子节点重复相同的分裂方式，依次选择次相对重要特征变量建立弱学习器；

S22、通过损失函数评价模型的效果，当函数值未达到设定结果时，以残差为基础，误差反向传播建立新的模型，通过反复迭代建立最终的强学习器，使模型误差最小；

S23、根据建立的强学习器，以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。

所述模型训练选择步骤具体包括：。

S31、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集，并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习；

S32、利用R-square决定系数对三种模型进行评价，选出精度最高的模型作为最终评价模型，R-square决定系数评价公式为

其中，Y_actual表示原始数据集均值，Y_predict表示预测数据集，即分子为预测数据和原始数据均值差的平方和，Y_mean表示原始数据集，即分母为原始数据与原始数据均值差的平方和。

所述利用R-square决定系数对三种模型进行评价具体包括：当R-square决定系数越接近1，表明特征变量对预测数据集Yy的解释能力越强，这个模型对数据拟合的也较好，即模型精度较高；当R-square决定系数越接近0，表明模型精度越差，从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。

所述承载力评价步骤具体包括：将待评价数据输入训练好的最终评价模型中，得到一个在[0，1]区间之间的均方误差，当均方误差大于预设值时，表明地下管网承载力好，小于预设值时，表明地下管网承载力差。

一种基于机器学习的地下管网承载力评价方法的系统，它包括缺失填充模块、影响因子筛选模块、模型训练选择模块和承载力评价模块；

所述缺失填充模块：用于通过随机森林算法对采集的数据进行预处理，完成对整个采集数据特征矩阵X缺失值的填充；

所述影响因子筛选模块：用于通过采用梯度提升决策树进行影响因子的筛选，避免样本变化和不同属性数据对模型稳定性及评估准确性的影响；

所述模型训练选择模块：用于将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习，得到精度最高的最终评价模型；

所述承载力评价模块：用于将待评价数据输入最终评价模型得到地下管网承载力的评价结果。

所述缺失填充模块实现的具体步骤包括：

A1、将列举的每一个影响因子作为一项特征，并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵；

A2、将特征矩阵的第一列特征，即缺失值最少的特征作为标签Y，剩下的特征缺失值全部设为0，组成新的特征矩阵X；

A3、利用python对特征矩阵进行随机森林学习，求解标签Y₁，对比标签Y和Y₁，将Y₁中与Y中缺失值相同位置处的值填充到Y中，完成特征X₁缺失值的填充；

A4、重复步骤A2和A3完成特征X₂缺失值的填充，并遍历所有的特征X_n，完成整个特征矩阵X缺失值的填充。

所述影响因子筛选模块实现的具体步骤包括：

B1、将地下管网承载力的各个影响因子数据集输入到模型中，根节点选择分裂前后基尼指数最小的特征作为特征变量，子节点重复相同的分裂方式，依次选择次相对重要特征变量建立弱学习器；

B2、通过损失函数评价模型的效果，当函数值未达到设定结果时，以残差为基础，误差反向传播建立新的模型，通过反复迭代建立最终的强学习器，使模型误差最小；

B3、根据建立的强学习器，以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。

所述模型训练选择模块实现的具体步骤包括：

C1、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集，并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习；

C2、利用R-square决定系数对三种模型进行评价，选出精度最高的模型作为最终评价模型，R-square决定系数评价公式为

本发明具有以下优点：一种基于机器学习的地下管网承载力评价方法及系统，深挖数据之间内在的联系，然后结合实际情况综合分析给出评价结果，高效的利用了数据,而且在评价方法上也避免现在主流的专家评价法所带来的片面性和主观影响以及仅仅依靠数据所带来的过于量化影响。在地下管网承载力评价方法上也区别于传统的评价方法，该评价模型系统利用大数据进行三种机器学习训练出相关模型，再对训练出的模型进行精度确定，选择出最佳训练模型，然后再利用评价数据集输入最佳训练模型进行承载力的评价。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明的一种实施例涉及一种基于机器学习的地下管网承载力评价方法，所述评价方法包括：

地下管网铺设再地下,利用现有技术一般能够采集到相关数据,但是由于一些管网年代久远以及特殊情况,使得收集到的数据并不准确,经常会出现异常值和缺失值.本专利使用随机森林的方法代替传统的平均值或者众数法进行数据的清洗,使得结果精度大幅提升。

本发明采用随机顺利的基本思想是：如果随机森林中的每棵cart树是回归树，那么它也属于回归算法。任何回归都是从特征矩阵X中学习，然后求解标签Y的过程，之所以能够实现这个过程，是因为回归算法认为，特征矩阵和标签之前存在着某种联系，它们之间是可以相互转换的。对于有n个特征的数据集来说，其中特征X₁有缺失值，我们就把特征X₁当作标签，其他的n-1个特征和原本的标签组成新的特征矩阵。那对于X₁来说，它没有缺失的部分，就是我们的测试集，这部分数据既有标签也有特征，而它缺失的部分，只有特征没有标签，就是我们需要预测的部分，也即我们需要填充的缺失值。

因此，进一步地，缺失数据填充步骤具体包括：

由于地下管网本身以及所处环境的复杂性，影响地下管网承载力的因子有很多，但是各个因子的影响程度并不相同，为了提高结果评估的准确性和区分各个因子的影响程度，采用梯度提升决策树进行因子的筛选有效避免样本变化和不同属性数据对模型稳定性及评估准确性的影响

进一步地，影响因子筛选步骤具体包括：

进一步地，模型训练选择步骤具体包括：。

所述利用R-square决定系数对三种模型进行评价具体包括：当R-square决定系数越接近1，表明特征变量对预测数据集Y的解释能力越强，这个模型对数据拟合的也较好，即模型精度较高；当R-square决定系数越接近0，表明模型精度越差，从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。

所述承载力评价步骤具体包括：将待评价数据输入训练好的最终评价模型中，得到一个在[0，1]区间之间的均方误差，当均方误差大于0.5时，表明地下管网承载力较好，小于0.5时，表明地下管网承载力较差。

本发明的另一实施例涉及一种基于机器学习的地下管网承载力评价方法的系统，它包括缺失填充模块、影响因子筛选模块、模型训练选择模块和承载力评价模块；

进一步地，当R-square决定系数越接近1，表明特征变量对y的解释能力越强，这个模型对数据拟合的也较好，即模型精度较高；当R-square决定系数越接近0，表明模型精度越差，从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。

所述缺失填充模块实现的具体步骤包括：

所述影响因子筛选模块实现的具体步骤包括：

所述模型训练选择模块实现的具体步骤包括：

当R-square决定系数越接近1，表明特征变量对y的解释能力越强，这个模型对数据拟合的也较好，即模型精度较高；当R-square决定系数越接近0，表明模型精度越差，从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于机器学习的地下管网承载力评价方法，其特征在于：所述评价方法包括：

2.根据权利要求1所述的一种基于机器学习的地下管网承载力评价方法，其特征在于：所述缺失数据填充步骤具体包括：

3.根据权利要求1所述的一种基于机器学习的地下管网承载力评价方法，其特征在于：所述影响因子筛选步骤具体包括：

4.根据权利要求1所述的一种基于机器学习的地下管网承载力评价方法，其特征在于：所述模型训练选择步骤具体包括：。

5.根据权利要求4所述的一种基于机器学习的地下管网承载力评价方法，其特征在于：所述利用R-square决定系数对三种模型进行评价具体包括：当R-square决定系数越接近1，表明特征变量对预测数据集Y的解释能力越强，这个模型对数据拟合的也较好，即模型精度较高；当R-square决定系数越接近0，表明模型精度越差，从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。

6.根据权利要求4所述的一种基于机器学习的地下管网承载力评价方法，其特征在于：所述承载力评价步骤具体包括：将待评价数据输入训练好的最终评价模型中，得到一个在[0，1]区间之间的均方误差，当均方误差大于预设值时，表明地下管网承载力好，小于预设值时，表明地下管网承载力差。

7.根据权利要求1-6中任意一项所述的一种基于机器学习的地下管网承载力评价方法的系统，其特征在于：它包括缺失填充模块、影响因子筛选模块、模型训练选择模块和承载力评价模块；

8.根据权利要求7所述的一种基于机器学习的地下管网承载力评价方法的系统，其特征在于：所述缺失填充模块实现的具体步骤包括：

9.根据权利要求7所述的一种基于机器学习的地下管网承载力评价方法的系统，其特征在于：所述影响因子筛选模块实现的具体步骤包括：

10.根据权利要求7所述的一种基于机器学习的地下管网承载力评价方法的系统，其特征在于：所述模型训练选择模块实现的具体步骤包括：