CN113689004A - 基于机器学习的地下管网承载力评价方法及系统 - Google Patents

基于机器学习的地下管网承载力评价方法及系统 Download PDF

Info

Publication number
CN113689004A
CN113689004A CN202111014782.0A CN202111014782A CN113689004A CN 113689004 A CN113689004 A CN 113689004A CN 202111014782 A CN202111014782 A CN 202111014782A CN 113689004 A CN113689004 A CN 113689004A
Authority
CN
China
Prior art keywords
model
evaluation
bearing capacity
data
underground pipe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111014782.0A
Other languages
English (en)
Inventor
汪宙峰
曾义龙
樊尚杰
张炎菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202111014782.0A priority Critical patent/CN113689004A/zh
Publication of CN113689004A publication Critical patent/CN113689004A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明涉及一种基于机器学习的地下管网承载力评价方法及系统,包括通过随机森林算法对采集的数据进行预处理,完成对整个采集数据特征矩阵X缺失值的填充;采用梯度提升决策树进行影响因子的筛选;将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习,得到精度最高的最终评价模型;将待评价数据输入最终评价模型得到地下管网承载力的评价结果。本发明深挖了数据之间内在的联系,然后结合实际情况综合分析给出评价结果,高效的利用了数据,而且在评价方法上也避免现有专家评价法所带来的片面性和主观影响以及仅仅依靠数据所带来的过于量化影响。

Description

基于机器学习的地下管网承载力评价方法及系统
技术领域
本发明涉及管网承载力分析技术领域,尤其涉及一种基于机器学习的地下管网承载力评价方法及系统。
背景技术
随着我国城市建设的与日俱增,城市地下管网问题日渐突出。城市地下管网与人们生活和安全息息相关,被称为“城市生命线”。近年来,与地下管网相关的事故逐年攀升,造成大量财产损失和人员伤亡。因此,开展对地下管网承载力研究,对于市政辅助决策和地下管网信息化建设具有重要的实践意义。
地下管网有电力、信息、给水、排水和燃气五种类型,其中地下排水管网因为其铺设年代久远规划不足、雨污分离和产生有害气体等问题尤为复杂。目前对于地下管网承载力的研究方法模式较为相似,基本可以分为三个阶段:数据处理、指标选取和评价方法。数据处理阶段用的较为传统的方法,例如平均值法或者众数法进行数据缺失的处理;指标选取阶段主要根据相关文献和专家意见进行选取,然后也是利用传统方法进行指标权重的确定,例如层次分析法、熵值法等等;评价方法阶段也多利用模糊综合评判法等传统方法。
但是目前是大数据的时代,随着科学技术的发展,地下管网方面的数据也得到的越来越多,而传统方法对于大数据的处理能力较差;而且传统方法主观性较强,不能深挖出数据之间内在的联系,精确度有待提高,且过多通过专家意见进行选取的主观性太强。
发明内容
本发明的目的在于克服现有技术的缺点,提供了一种基于机器学习的地下管网承载力评价方法及系统,解决了传统方法存在的不足。
本发明的目的通过以下技术方案来实现:一种基于机器学习的地下管网承载力评价方法,所述评价方法包括:
S1、缺失数据填充步骤:通过随机森林算法对采集的数据进行预处理,完成对整个采集数据特征矩阵X缺失值的填充;
S2、影响因子筛选步骤:采用梯度提升决策树进行影响因子的筛选,避免样本变化和不同属性数据对模型稳定性及评估准确性的影响;
S3、模型训练选择步骤:将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习,得到精度最高的最终评价模型;
S4、承载力评价步骤:将待评价数据输入最终评价模型得到地下管网承载力的评价结果。
所述缺失数据填充步骤具体包括:
S11、将列举的每一个影响因子作为一项特征,并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵;
S12、将特征矩阵的第一列特征,即缺失值最少的特征作为标签Y,剩下的特征缺失值全部设为0,组成新的特征矩阵X;
S13、利用python对特征矩阵进行随机森林学习,求解标签Y1,对比标签Y和Y1,将Y1中与Y中缺失值相同位置处的值填充到Y中,完成特征X1缺失值的填充;
S14、重复步骤S12和S13完成特征X2缺失值的填充,并遍历所有的特征Xn,完成整个特征矩阵X缺失值的填充。
所述影响因子筛选步骤具体包括:
S21、将地下管网承载力的各个影响因子数据集输入到梯度提升决策树模型中,根节点选择分裂前后基尼指数最小的特征作为特征变量,子节点重复相同的分裂方式,依次选择次相对重要特征变量建立弱学习器;
S22、通过损失函数评价模型的效果,当函数值未达到设定结果时,以残差为基础,误差反向传播建立新的模型,通过反复迭代建立最终的强学习器,使模型误差最小;
S23、根据建立的强学习器,以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。
所述模型训练选择步骤具体包括:。
S31、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集,并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习;
S32、利用R-square决定系数对三种模型进行评价,选出精度最高的模型作为最终评价模型,R-square决定系数评价公式为
Figure BDA0003240030010000031
其中,Yactual表示原始数据集均值,Ypredict表示预测数据集,即分子为预测数据和原始数据均值差的平方和,Ymean表示原始数据集,即分母为原始数据与原始数据均值差的平方和。
所述利用R-square决定系数对三种模型进行评价具体包括:当R-square决定系数越接近1,表明特征变量对预测数据集Yy的解释能力越强,这个模型对数据拟合的也较好,即模型精度较高;当R-square决定系数越接近0,表明模型精度越差,从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。
所述承载力评价步骤具体包括:将待评价数据输入训练好的最终评价模型中,得到一个在[0,1]区间之间的均方误差,当均方误差大于预设值时,表明地下管网承载力好,小于预设值时,表明地下管网承载力差。
一种基于机器学习的地下管网承载力评价方法的系统,它包括缺失填充模块、影响因子筛选模块、模型训练选择模块和承载力评价模块;
所述缺失填充模块:用于通过随机森林算法对采集的数据进行预处理,完成对整个采集数据特征矩阵X缺失值的填充;
所述影响因子筛选模块:用于通过采用梯度提升决策树进行影响因子的筛选,避免样本变化和不同属性数据对模型稳定性及评估准确性的影响;
所述模型训练选择模块:用于将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习,得到精度最高的最终评价模型;
所述承载力评价模块:用于将待评价数据输入最终评价模型得到地下管网承载力的评价结果。
所述缺失填充模块实现的具体步骤包括:
A1、将列举的每一个影响因子作为一项特征,并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵;
A2、将特征矩阵的第一列特征,即缺失值最少的特征作为标签Y,剩下的特征缺失值全部设为0,组成新的特征矩阵X;
A3、利用python对特征矩阵进行随机森林学习,求解标签Y1,对比标签Y和Y1,将Y1中与Y中缺失值相同位置处的值填充到Y中,完成特征X1缺失值的填充;
A4、重复步骤A2和A3完成特征X2缺失值的填充,并遍历所有的特征Xn,完成整个特征矩阵X缺失值的填充。
所述影响因子筛选模块实现的具体步骤包括:
B1、将地下管网承载力的各个影响因子数据集输入到模型中,根节点选择分裂前后基尼指数最小的特征作为特征变量,子节点重复相同的分裂方式,依次选择次相对重要特征变量建立弱学习器;
B2、通过损失函数评价模型的效果,当函数值未达到设定结果时,以残差为基础,误差反向传播建立新的模型,通过反复迭代建立最终的强学习器,使模型误差最小;
B3、根据建立的强学习器,以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。
所述模型训练选择模块实现的具体步骤包括:
C1、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集,并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习;
C2、利用R-square决定系数对三种模型进行评价,选出精度最高的模型作为最终评价模型,R-square决定系数评价公式为
Figure BDA0003240030010000051
其中,Yactual表示原始数据集均值,Ypredict表示预测数据集,即分子为预测数据和原始数据均值差的平方和,Ymean表示原始数据集,即分母为原始数据与原始数据均值差的平方和。
本发明具有以下优点:一种基于机器学习的地下管网承载力评价方法及系统,深挖数据之间内在的联系,然后结合实际情况综合分析给出评价结果,高效的利用了数据,而且在评价方法上也避免现在主流的专家评价法所带来的片面性和主观影响以及仅仅依靠数据所带来的过于量化影响。在地下管网承载力评价方法上也区别于传统的评价方法,该评价模型系统利用大数据进行三种机器学习训练出相关模型,再对训练出的模型进行精度确定,选择出最佳训练模型,然后再利用评价数据集输入最佳训练模型进行承载力的评价。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。
如图1所示,本发明的一种实施例涉及一种基于机器学习的地下管网承载力评价方法,所述评价方法包括:
S1、缺失数据填充步骤:通过随机森林算法对采集的数据进行预处理,完成对整个采集数据特征矩阵X缺失值的填充;
S2、影响因子筛选步骤:采用梯度提升决策树进行影响因子的筛选,避免样本变化和不同属性数据对模型稳定性及评估准确性的影响;
S3、模型训练选择步骤:将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习,得到精度最高的最终评价模型;
S4、承载力评价步骤:将待评价数据输入最终评价模型得到地下管网承载力的评价结果。
地下管网铺设再地下,利用现有技术一般能够采集到相关数据,但是由于一些管网年代久远以及特殊情况,使得收集到的数据并不准确,经常会出现异常值和缺失值.本专利使用随机森林的方法代替传统的平均值或者众数法进行数据的清洗,使得结果精度大幅提升。
本发明采用随机顺利的基本思想是:如果随机森林中的每棵cart树是回归树,那么它也属于回归算法。任何回归都是从特征矩阵X中学习,然后求解标签Y的过程,之所以能够实现这个过程,是因为回归算法认为,特征矩阵和标签之前存在着某种联系,它们之间是可以相互转换的。对于有n个特征的数据集来说,其中特征X1有缺失值,我们就把特征X1当作标签,其他的n-1个特征和原本的标签组成新的特征矩阵。那对于X1来说,它没有缺失的部分,就是我们的测试集,这部分数据既有标签也有特征,而它缺失的部分,只有特征没有标签,就是我们需要预测的部分,也即我们需要填充的缺失值。
因此,进一步地,缺失数据填充步骤具体包括:
S11、将列举的每一个影响因子作为一项特征,并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵;
S12、将特征矩阵的第一列特征,即缺失值最少的特征作为标签Y,剩下的特征缺失值全部设为0,组成新的特征矩阵X;
S13、利用python对特征矩阵进行随机森林学习,求解标签Y1,对比标签Y和Y1,将Y1中与Y中缺失值相同位置处的值填充到Y中,完成特征X1缺失值的填充;
S14、重复步骤S12和S13完成特征X2缺失值的填充,并遍历所有的特征Xn,完成整个特征矩阵X缺失值的填充。
由于地下管网本身以及所处环境的复杂性,影响地下管网承载力的因子有很多,但是各个因子的影响程度并不相同,为了提高结果评估的准确性和区分各个因子的影响程度,采用梯度提升决策树进行因子的筛选有效避免样本变化和不同属性数据对模型稳定性及评估准确性的影响
进一步地,影响因子筛选步骤具体包括:
S21、将地下管网承载力的各个影响因子数据集输入到梯度提升决策树模型中,根节点选择分裂前后基尼指数最小的特征作为特征变量,子节点重复相同的分裂方式,依次选择次相对重要特征变量建立弱学习器;
S22、通过损失函数评价模型的效果,当函数值未达到设定结果时,以残差为基础,误差反向传播建立新的模型,通过反复迭代建立最终的强学习器,使模型误差最小;
S23、根据建立的强学习器,以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。
进一步地,模型训练选择步骤具体包括:。
S31、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集,并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习;
S32、利用R-square决定系数对三种模型进行评价,选出精度最高的模型作为最终评价模型,R-square决定系数评价公式为
Figure BDA0003240030010000081
其中,Yactual表示原始数据集均值,Ypredict表示预测数据集,即分子为预测数据和原始数据均值差的平方和,Ymean表示原始数据集,即分母为原始数据与原始数据均值差的平方和。
所述利用R-square决定系数对三种模型进行评价具体包括:当R-square决定系数越接近1,表明特征变量对预测数据集Y的解释能力越强,这个模型对数据拟合的也较好,即模型精度较高;当R-square决定系数越接近0,表明模型精度越差,从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。
所述承载力评价步骤具体包括:将待评价数据输入训练好的最终评价模型中,得到一个在[0,1]区间之间的均方误差,当均方误差大于0.5时,表明地下管网承载力较好,小于0.5时,表明地下管网承载力较差。
本发明的另一实施例涉及一种基于机器学习的地下管网承载力评价方法的系统,它包括缺失填充模块、影响因子筛选模块、模型训练选择模块和承载力评价模块;
所述缺失填充模块:用于通过随机森林算法对采集的数据进行预处理,完成对整个采集数据特征矩阵X缺失值的填充;
所述影响因子筛选模块:用于通过采用梯度提升决策树进行影响因子的筛选,避免样本变化和不同属性数据对模型稳定性及评估准确性的影响;
所述模型训练选择模块:用于将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习,得到精度最高的最终评价模型;
所述承载力评价模块:用于将待评价数据输入最终评价模型得到地下管网承载力的评价结果。
进一步地,当R-square决定系数越接近1,表明特征变量对y的解释能力越强,这个模型对数据拟合的也较好,即模型精度较高;当R-square决定系数越接近0,表明模型精度越差,从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。
所述缺失填充模块实现的具体步骤包括:
A1、将列举的每一个影响因子作为一项特征,并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵;
A2、将特征矩阵的第一列特征,即缺失值最少的特征作为标签Y,剩下的特征缺失值全部设为0,组成新的特征矩阵X;
A3、利用python对特征矩阵进行随机森林学习,求解标签Y1,对比标签Y和Y1,将Y1中与Y中缺失值相同位置处的值填充到Y中,完成特征X1缺失值的填充;
A4、重复步骤A2和A3完成特征X2缺失值的填充,并遍历所有的特征Xn,完成整个特征矩阵X缺失值的填充。
所述影响因子筛选模块实现的具体步骤包括:
B1、将地下管网承载力的各个影响因子数据集输入到模型中,根节点选择分裂前后基尼指数最小的特征作为特征变量,子节点重复相同的分裂方式,依次选择次相对重要特征变量建立弱学习器;
B2、通过损失函数评价模型的效果,当函数值未达到设定结果时,以残差为基础,误差反向传播建立新的模型,通过反复迭代建立最终的强学习器,使模型误差最小;
B3、根据建立的强学习器,以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。
所述模型训练选择模块实现的具体步骤包括:
C1、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集,并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习;
C2、利用R-square决定系数对三种模型进行评价,选出精度最高的模型作为最终评价模型,R-square决定系数评价公式为
Figure BDA0003240030010000111
其中,Yactual表示原始数据集均值,Ypredict表示预测数据集,即分子为预测数据和原始数据均值差的平方和,Ymean表示原始数据集,即分母为原始数据与原始数据均值差的平方和。
当R-square决定系数越接近1,表明特征变量对y的解释能力越强,这个模型对数据拟合的也较好,即模型精度较高;当R-square决定系数越接近0,表明模型精度越差,从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于机器学习的地下管网承载力评价方法,其特征在于:所述评价方法包括:
S1、缺失数据填充步骤:通过随机森林算法对采集的数据进行预处理,完成对整个采集数据特征矩阵X缺失值的填充;
S2、影响因子筛选步骤:采用梯度提升决策树进行影响因子的筛选,避免样本变化和不同属性数据对模型稳定性及评估准确性的影响;
S3、模型训练选择步骤:将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习,得到精度最高的最终评价模型;
S4、承载力评价步骤:将待评价数据输入最终评价模型得到地下管网承载力的评价结果。
2.根据权利要求1所述的一种基于机器学习的地下管网承载力评价方法,其特征在于:所述缺失数据填充步骤具体包括:
S11、将列举的每一个影响因子作为一项特征,并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵;
S12、将特征矩阵的第一列特征,即缺失值最少的特征作为标签Y,剩下的特征缺失值全部设为0,组成新的特征矩阵X;
S13、利用python对特征矩阵进行随机森林学习,求解标签Y1,对比标签Y和Y1,将Y1中与Y中缺失值相同位置处的值填充到Y中,完成特征X1缺失值的填充;
S14、重复步骤S12和S13完成特征X2缺失值的填充,并遍历所有的特征Xn,完成整个特征矩阵X缺失值的填充。
3.根据权利要求1所述的一种基于机器学习的地下管网承载力评价方法,其特征在于:所述影响因子筛选步骤具体包括:
S21、将地下管网承载力的各个影响因子数据集输入到梯度提升决策树模型中,根节点选择分裂前后基尼指数最小的特征作为特征变量,子节点重复相同的分裂方式,依次选择次相对重要特征变量建立弱学习器;
S22、通过损失函数评价模型的效果,当函数值未达到设定结果时,以残差为基础,误差反向传播建立新的模型,通过反复迭代建立最终的强学习器,使模型误差最小;
S23、根据建立的强学习器,以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。
4.根据权利要求1所述的一种基于机器学习的地下管网承载力评价方法,其特征在于:所述模型训练选择步骤具体包括:。
S31、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集,并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习;
S32、利用R-square决定系数对三种模型进行评价,选出精度最高的模型作为最终评价模型,R-square决定系数评价公式为
Figure FDA0003240029000000021
其中,Yactual表示原始数据集均值,Ypredict表示预测数据集,即分子为预测数据和原始数据均值差的平方和,Ymean表示原始数据集,即分母为原始数据与原始数据均值差的平方和。
5.根据权利要求4所述的一种基于机器学习的地下管网承载力评价方法,其特征在于:所述利用R-square决定系数对三种模型进行评价具体包括:当R-square决定系数越接近1,表明特征变量对预测数据集Y的解释能力越强,这个模型对数据拟合的也较好,即模型精度较高;当R-square决定系数越接近0,表明模型精度越差,从中选择三个模型的R-square决定系数最大值的模型作为最终评价模型。
6.根据权利要求4所述的一种基于机器学习的地下管网承载力评价方法,其特征在于:所述承载力评价步骤具体包括:将待评价数据输入训练好的最终评价模型中,得到一个在[0,1]区间之间的均方误差,当均方误差大于预设值时,表明地下管网承载力好,小于预设值时,表明地下管网承载力差。
7.根据权利要求1-6中任意一项所述的一种基于机器学习的地下管网承载力评价方法的系统,其特征在于:它包括缺失填充模块、影响因子筛选模块、模型训练选择模块和承载力评价模块;
所述缺失填充模块:用于通过随机森林算法对采集的数据进行预处理,完成对整个采集数据特征矩阵X缺失值的填充;
所述影响因子筛选模块:用于通过采用梯度提升决策树进行影响因子的筛选,避免样本变化和不同属性数据对模型稳定性及评估准确性的影响;
所述模型训练选择模块:用于将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习,得到精度最高的最终评价模型;
所述承载力评价模块:用于将待评价数据输入最终评价模型得到地下管网承载力的评价结果。
8.根据权利要求7所述的一种基于机器学习的地下管网承载力评价方法的系统,其特征在于:所述缺失填充模块实现的具体步骤包括:
A1、将列举的每一个影响因子作为一项特征,并将所有影响因子的数据集按缺失值由少到多的顺序组成特征矩阵;
A2、将特征矩阵的第一列特征,即缺失值最少的特征作为标签Y,剩下的特征缺失值全部设为0,组成新的特征矩阵X;
A3、利用python对特征矩阵进行随机森林学习,求解标签Y1,对比标签Y和Y1,将Y1中与Y中缺失值相同位置处的值填充到Y中,完成特征X1缺失值的填充;
A4、重复步骤A2和A3完成特征X2缺失值的填充,并遍历所有的特征Xn,完成整个特征矩阵X缺失值的填充。
9.根据权利要求7所述的一种基于机器学习的地下管网承载力评价方法的系统,其特征在于:所述影响因子筛选模块实现的具体步骤包括:
B1、将地下管网承载力的各个影响因子数据集输入到模型中,根节点选择分裂前后基尼指数最小的特征作为特征变量,子节点重复相同的分裂方式,依次选择次相对重要特征变量建立弱学习器;
B2、通过损失函数评价模型的效果,当函数值未达到设定结果时,以残差为基础,误差反向传播建立新的模型,通过反复迭代建立最终的强学习器,使模型误差最小;
B3、根据建立的强学习器,以特征变量在所有弱学习器中的重要度的平均值作为模型中影响因子的重要度。
10.根据权利要求7所述的一种基于机器学习的地下管网承载力评价方法的系统,其特征在于:所述模型训练选择模块实现的具体步骤包括:
C1、根据筛选出的指标将相关数据集随机分成测试数据集和评价数据集,并将测试数据集分别输入逻辑回归模型、BP神经网络模型和支持向量机模型进行模型的训练学习;
C2、利用R-square决定系数对三种模型进行评价,选出精度最高的模型作为最终评价模型,R-square决定系数评价公式为
Figure FDA0003240029000000041
其中,Yactual表示原始数据集均值,Ypredict表示预测数据集,即分子为预测数据和原始数据均值差的平方和,Ymean表示原始数据集,即分母为原始数据与原始数据均值差的平方和。
CN202111014782.0A 2021-08-31 2021-08-31 基于机器学习的地下管网承载力评价方法及系统 Pending CN113689004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111014782.0A CN113689004A (zh) 2021-08-31 2021-08-31 基于机器学习的地下管网承载力评价方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111014782.0A CN113689004A (zh) 2021-08-31 2021-08-31 基于机器学习的地下管网承载力评价方法及系统

Publications (1)

Publication Number Publication Date
CN113689004A true CN113689004A (zh) 2021-11-23

Family

ID=78584729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111014782.0A Pending CN113689004A (zh) 2021-08-31 2021-08-31 基于机器学习的地下管网承载力评价方法及系统

Country Status (1)

Country Link
CN (1) CN113689004A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154725A (zh) * 2021-12-06 2022-03-08 南京工业大学 一种基于机器学习算法的地基承载力特征值预测方法
CN114595781A (zh) * 2022-03-17 2022-06-07 南京星环智能科技有限公司 一种辛烷值损失预测方法、装置、设备及存储介质
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733515B1 (en) * 2017-02-21 2020-08-04 Amazon Technologies, Inc. Imputing missing values in machine learning models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733515B1 (en) * 2017-02-21 2020-08-04 Amazon Technologies, Inc. Imputing missing values in machine learning models

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
一窗星乱银河静: "统计参数 SSE,MSE,RMSE,R-square 详解", 《CSDN》 *
一窗星乱银河静: "统计参数 SSE,MSE,RMSE,R-square 详解", 《CSDN》, 24 April 2018 (2018-04-24), pages 1 *
周毓萍,陈官羽: "基于机器学习方法的个人信用评价研究", 《金融理论与实践》 *
周毓萍,陈官羽: "基于机器学习方法的个人信用评价研究", 《金融理论与实践》, 31 December 2019 (2019-12-31), pages 1 - 8 *
李杉杉: "基于机器学习的市政管网运维风险评估", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅱ辑》, 15 January 2021 (2021-01-15), pages 6 *
程志伟: "Python 利用随机森林算法对缺失值填补", 《CSDN》 *
程志伟: "Python 利用随机森林算法对缺失值填补", 《CSDN》, 14 March 2020 (2020-03-14), pages 1 - 4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154725A (zh) * 2021-12-06 2022-03-08 南京工业大学 一种基于机器学习算法的地基承载力特征值预测方法
CN114595781A (zh) * 2022-03-17 2022-06-07 南京星环智能科技有限公司 一种辛烷值损失预测方法、装置、设备及存储介质
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Similar Documents

Publication Publication Date Title
CN111639237B (zh) 一种基于聚类和关联规则挖掘的电力通信网风险评估系统
Wu et al. An intuitionistic fuzzy multi-criteria framework for large-scale rooftop PV project portfolio selection: Case study in Zhejiang, China
CN113689004A (zh) 基于机器学习的地下管网承载力评价方法及系统
Nadiri et al. Assessment of groundwater vulnerability using supervised committee to combine fuzzy logic models
CN110009226B (zh) 一种场地污染风险等级评测及敏感受体影响识别系统
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN109033497B (zh) 一种面向高并发的多阶段数据挖掘算法智能选择方法
CN105469196A (zh) 一种矿井建设项目过程后评价的综合评价方法及系统
CN105678481A (zh) 一种基于随机森林模型的管线健康状态评估方法
CN106897826A (zh) 一种交通事故风险评估方法及系统
CN112016175B (zh) 一种基于树状层次聚类的供水管网测压点优化布置方法
CN112163371B (zh) 一种变压器套管状态评估方法
CN116150897A (zh) 一种基于数字孪生的机床主轴性能测评方法及系统
CN107480808B (zh) 一种高海拔山区引水工程线路规划方法
CN107295537A (zh) 一种测评无线传感器网络可靠性的方法及系统
CN112966871A (zh) 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统
CN111178585A (zh) 基于多算法模型融合的故障接报量预测方法
CN115049124A (zh) 一种基于贝叶斯网络的深长隧道突涌水预测方法
CN111199298A (zh) 基于神经网络的洪水预报方法与系统
CN114021758A (zh) 一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法和装置
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN112365082A (zh) 一种基于机器学习的公共能源消耗预测方法
CN111612054A (zh) 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法
CN116611785A (zh) 一种基于大数据的输变电工程造价模型构建方法、系统、设备及介质
CN115796665A (zh) 一种绿色能源发电项目多指标碳效分级评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211123

RJ01 Rejection of invention patent application after publication