CN111861264A - 一种基于数据挖掘和智能算法预测混凝土耐久性方法 - Google Patents

一种基于数据挖掘和智能算法预测混凝土耐久性方法 Download PDF

Info

Publication number
CN111861264A
CN111861264A CN202010756905.7A CN202010756905A CN111861264A CN 111861264 A CN111861264 A CN 111861264A CN 202010756905 A CN202010756905 A CN 202010756905A CN 111861264 A CN111861264 A CN 111861264A
Authority
CN
China
Prior art keywords
concrete
index
intelligent algorithm
predicting
data mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010756905.7A
Other languages
English (en)
Inventor
陈虹宇
吴贤国
杨赛
刘琼
刘茜
邓婷婷
张立茂
王帆
张浩蔚
吴霁峰
王雷
刘惠涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010756905.7A priority Critical patent/CN111861264A/zh
Publication of CN111861264A publication Critical patent/CN111861264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于数据挖掘和智能算法预测混凝土耐久性方法,包括如下步骤:构建混凝土早期抗裂性指标体系,采集属于所述指标体系的样本数据,用于构建随机森林(RF)输入模型,以选取指标集;基于随机森林作变量重要性排序,对所述指标体系的影响因子进行特征选择,筛除不重要的指标,选出最优特征变量集实现降维;输入最优特征集,利用参数寻优后的支持向量机SVM建模,得出混凝土早期总开裂面积,并对结果进行验证。本发明将随机森林特征选择与支持向量机结合,能在保证结果准确性的前提下提取关键特征,提高了预测模型的精度,使得预测结果更加精确、稳定,可作为快速预测混凝土早期抗裂性的有效的工具。

Description

一种基于数据挖掘和智能算法预测混凝土耐久性方法
技术领域
本发明涉及建筑材料检测技术领域,特别是涉及一种基于数据挖掘和智能算法预测混凝土耐久性方法。
背景技术
近些年来,随着钢筋混凝土结构被广泛应用于建筑工程中,由于混凝土自身的耐久性问题而严重危害建筑工程的结构安全和正常使用的事件屡见不鲜,混凝土结构日益突出的耐久性问题,越来越受到国内外的广泛关注。混凝土早期抗裂性作为影响耐久性的重要因素之一,解决混凝土早期开裂问题对提高混凝土耐久性具有重要意义,因此开展对混凝土早期抗裂性的快速预测研究具有重要的工程应用价值。
目前,国内外学术界和工程界从不同角度对混凝土的抗裂性能进行了理论与试验研究,但这些研究主要采用的是传统的因素试验方法,需要展开大量试验,统计观测数据,存在试验周期长,不确定因素多,系统误差大等问题。随着机器学习算法的兴起,一些专家开始尝试使用智能算法开展研究但并没有获得理想的效果。原因在于混凝土早期抗裂性预测的影响因素较多,找准合适的切入点,选择抗干扰能力强、数据依赖性小、泛化性能好的合适可靠的算法模型显得尤为重要。
发明内容
本发明的目的是提供一种基于数据挖掘和智能算法预测混凝土耐久性方法,利用随机森林特征选择,能在过多影响因素中,剔除与预测值相关性小的变量,筛选出用于建模的关键变量得到最优变量组合,降低支持向量机训练模型的维度,提高预测精度,得到更贴近实际的预测结果,以解决上述现有技术存在的问题,用以解实际工程中混凝土早期抗裂性快速预测问题。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于数据挖掘和智能算法预测混凝土耐久性方法,包括如下步骤:
构建混凝土早期抗裂性指标体系,采集属于所述指标体系的样本数据,用于构建随机森林输入模型,以选取指标集;
基于随机森林作变量重要性排序,对所述指标体系的影响因子进行特征选择,筛除不重要的指标,选出最优特征变量集实现降维;
输入最优特征集,利用参数寻优后的支持向量机建模,得出混凝土早期总开裂面积,并对结果进行验证。
优选地,所述混凝土早期抗裂性指标体系需要从混凝土材料和配合比出发,分析混凝土早期开裂机理。
优选地,所述变量重要性的计算方法为:对于随机森林模型中每一棵树,利用与树对应的袋外数据计算袋外数据误差,记为errOOB1;随机对袋外数据所有样本的特征X加入噪声干扰,再次计算特征X的袋外数据误差,记为errOOB2;假设随机森林里有Ntree棵树,那么特征X的重要性为:Importance=∑(errOOB2-errOOB1)/Ntree。
优选地,重要变量排序方法为:利用Pearson函数计算各影响因素与总开裂面积之间的相关性来验证重要性排序,然后基于此依据使用5折交叉验证方法,不断建模逐次迭代以一定的比例筛除不重要的指标,最终找到OBB误差率最小的最优指标集。
依据特征重要性排序从指标集中逐次去除不重要指标,每次去除得到一个新的指标集,用新的特征集重复上述过程,直到剩下一个指标;比较得到的各个指标集对应的OOB误差率,将误差率最小的指标集作为最优指标集并作为支持向量机模型的输入变量。
优选地,所述支持向量机模型中选取高斯核函数将训练样本数据映射至高维的Hilbert空间,将低维非线性问题变换成高维线性问题,实现回归预测。
优选地,所述参数的选择中采用十折交叉验证进行参数寻优,确定模型的最优参数组合。
优选地,所述支持向量机建模过程中选择映射能力强、泛化性能优、适用性好的高斯核函数建立支持向量机模型,采用十折交叉验证进行参数寻优。
本发明公开了以下技术效果:
1.本发明中提供的基于数据挖掘和智能算法预测混凝土耐久性方法充分利用了随机森林能够有效处理有多个指标、噪声干扰的样本数据,筛选有用特征变量的特点,创新性地提高了支持向量机模型的预测精度,使得混凝土总开裂面积的预测结果更加准确、可靠。
2.本发明提供的基于数据挖掘和智能算法预测混凝土耐久性方法将随机森林与支持向量机结合建立混合智能模型,充分利用了不同智能算法的特点,规避了现有方法的缺陷,降低模型维度,加快训练速度且解决了预测结果不稳定的问题,为实现混凝土早期抗裂性预测提供了一种快捷有效的工具。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图。
图2是本发明实施例中各变量重要性排序。
图3是本发明实施例中影响因素相关性大小。
图4是本发明实施例中不同变量组合时RMSE变化趋势图。
图5是本发明实施例中支持向量机模型训练集拟合结果。
图6是本发明实施例中支持向量机模型测试集预测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1-3,本发明提供一种基于数据挖掘和智能算法预测混凝土耐久性方法,包括如下步骤:
步骤1,基于混凝土材料和配合比,选取影响混凝土早期抗裂性的主要因素,构建指标体系,收集对应样本数据,作为随机森林模型的输入
影响因素指标体系样本数据采集:以水泥强度(X1)、水泥用量(X2)、粉煤灰用量(X3)、外加剂用量(X4)、细集料用量(X5)、粗集料用量(X6)、混凝土强度(X7)、砂率(X8)、硅灰用量(X9)、水胶比(X10)、氯离子含量(X11)、含泥量(X12)、针片状颗粒总含量(X13)、平均粒径(X14)等14个影响因素,作为输入变量,以松通项目七个标段的混凝土总开裂面积作为输出变量,选取监测的14组数据作为原始训练集,数据如表1:
表1样本数据
Figure BDA0002611875010000051
Figure BDA0002611875010000061
步骤2,随机森林特征选择:将全部数据样本划分为容量为11的训练数据集和容量为3的测试数据集两部分,输入mtry=4,ntree=800,建模。
通过R软件中Random Forest程序包来实现Importance函数的重要性评价指标可视化绘图,并将不同变量的重要性降序排列,其排列分布如图2所示,节点纯度的增加值越大(IncNodePurity),说明该变量重要性越强;均方误差增加值越大(IncMSE),说明该变量重要性越强。由图2可知,水泥用量、水泥强度、氯离子含量、水胶比、混凝土强度、硅灰用量等因素重要性度量值比较大,说明这些变量对混凝土开裂程度有较大的影响。
利用Pearson函数分析影响因素与总开裂面积之间的相关性,对上述的重要性排序做一个验证。调用R软件ggplot2程序包输出绘图结果,如图3。由图3可以看出,水泥用量、水泥强度、混凝土强度、水胶比、硅灰用量与总开裂面积的相关性明显高于其他因素,说明这些因素与混凝土早期总开裂面积高度相关。
经过5折交叉验证重复10次得到不同变量组合的RMSE和R2的数值,如表2。
表2不同变量组合时RMSE和R2变化表
Figure BDA0002611875010000062
Figure BDA0002611875010000071
根据表2作出均方根误差变化趋势折现图,如图4。当变量个数达到7个时,均方根误差值达到最小,拟合优度也达到了最小,此时模型精度最高。利用递归特征消除法(RFE)依托重要性排序,通过交叉组合,不断建立模型,依次剔除不重要变量,直到遍历所有的特征变量,最终得到最佳变量组合。确定最优指标集为水泥用量、水泥强度、硅灰用量、水胶比、混凝土强度、氯离子含量、粗集料用量将用于支持向量机模型的构建。
步骤3,支持向量机建模和评估
随机选取11组数据作为支向量机的训练集,剩余3组数据作为测试集,以水泥用量、水泥强度、硅灰用量、水胶比、混凝土强度、氯离子含量、粗集料用量7个影响因素作为模型的输入变量,总开裂面积作为输出变量。加载R语言中e1071 1.6-7程序,采用10-CV方法进行参数寻优,输出寻优结果如表3所示。
表3参数优选表
Figure BDA0002611875010000072
Figure BDA0002611875010000081
参数优化的结果为:best c=0.1,best g=100,bestperformance=45.43(最小),输入该参数建立支持向量机模型,对训练样本训练拟合结果如图5所示,对测试样本的预测结果如图6所示。从图5可以看出,模拟值和实际值很接近,模拟效果较好。利用训练好的随机森林模型对测试集进行预测,如图6,可以看出随机森林模型测试集上的预测值曲线较贴近真实值。
步骤4,预测结果评价
为了检验随机森林融合支持向量机模型(RF-SVM)的优越性,选择未进行特征选择的支持向量机以及人工神经网络进行建模并做对比分析,选用公式(2)均方根误差RMSE和公式(3)确定性系数R2和来衡量模型的预测精度,得到误差对比结果如表4。
表4误差比较
Figure BDA0002611875010000082
Figure BDA0002611875010000091
从结果显示可以看出RF-SVM模型预测结果的均方根误差无限接近于0且确定性系数最为接近1,说明RF-SVM模型的预测准确率优于单纯的支持向量机与人工神经网络模型,在基于材料和配合比的混凝土早期抗裂性预测研究领域有良好应用前景。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种基于数据挖掘和智能算法预测混凝土耐久性方法,其特征在于,包括如下步骤:
构建混凝土早期抗裂性指标体系,采集属于所述指标体系的样本数据,用于构建随机森林RF输入模型,以选取指标集;
基于随机森林作变量重要性排序,对所述指标体系的影响因子进行特征选择,筛除不重要的指标,选出最优特征变量集实现降维;
输入最优特征集,利用参数寻优后的支持向量机SVM建模,得出混凝土早期总开裂面积,并对结果进行验证。
2.根据权利要求1所述的基于数据挖掘和智能算法预测混凝土耐久性方法,其特征在于:所述混凝土早期抗裂性指标体系需要从混凝土材料和配合比出发,分析混凝土早期开裂机理。
3.根据权利要求1所述的基于数据挖掘和智能算法预测混凝土耐久性方法,其特征在于:所述变量重要性的计算方法为:对于随机森林RF模型中每一棵树,利用与树对应的袋外数据计算袋外数据误差,记为errOOB1;随机对袋外数据所有样本的特征X加入噪声干扰,再次计算特征X的袋外数据误差,记为errOOB2;假设随机森林里有Ntree棵树,那么特征X的重要性为:Importance=∑(errOOB2-errOOB1)/Ntree。
4.根据权利要求1所述的基于数据挖掘和智能算法预测混凝土耐久性方法,其特征在于:重要变量排序方法为:利用Pearson函数计算各影响因素与总开裂面积之间的相关性来验证重要性排序,然后基于此依据使用5折交叉验证方法,不断建模逐次迭代以一定的比例筛除不重要的指标,最终找到OBB误差率最小的最优指标集。
依据特征重要性排序从指标集中逐次去除不重要指标,每次去除得到一个新的指标集,用新的特征集重复上述过程,直到剩下一个指标;比较得到的各个指标集对应的OOB误差率,将误差率最小的指标集作为最优指标集并作为支持向量机模型的输入变量。
5.根据权利要求1所述的基于数据挖掘和智能算法预测混凝土耐久性方法,其特征在于:所述支持向量机模型中选取高斯核函数将训练样本数据映射至高维的Hilbert空间,将低维非线性问题变换成高维线性问题,实现回归预测。
6.根据权利要求5所述的基于数据挖掘和智能算法预测混凝土耐久性方法,其特征在于:所述参数的选择中采用十折交叉验证进行参数寻优,确定模型的最优参数组合。
7.根据权利要求1所述的基于数据挖掘和智能算法预测混凝土耐久性方法,其特征在于:所述支持向量机建模过程中选择映射能力强、泛化性能优、适用性好的高斯核函数建立SVM模型,采用十折交叉验证进行参数寻优。
CN202010756905.7A 2020-07-31 2020-07-31 一种基于数据挖掘和智能算法预测混凝土耐久性方法 Pending CN111861264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010756905.7A CN111861264A (zh) 2020-07-31 2020-07-31 一种基于数据挖掘和智能算法预测混凝土耐久性方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010756905.7A CN111861264A (zh) 2020-07-31 2020-07-31 一种基于数据挖掘和智能算法预测混凝土耐久性方法

Publications (1)

Publication Number Publication Date
CN111861264A true CN111861264A (zh) 2020-10-30

Family

ID=72952604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010756905.7A Pending CN111861264A (zh) 2020-07-31 2020-07-31 一种基于数据挖掘和智能算法预测混凝土耐久性方法

Country Status (1)

Country Link
CN (1) CN111861264A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033081A (zh) * 2021-03-10 2021-06-25 中国科学院地理科学与资源研究所 一种基于som-bpnn模型的径流模拟方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737967A (zh) * 2019-09-10 2020-01-31 上海交通大学 一种混凝土结构耐久性预测方法、系统及终端
CN111144051A (zh) * 2019-12-13 2020-05-12 桂林理工大学 一种基于支持向量机和改进布谷鸟算法的地聚物混凝土强度预测方法
CN111310122A (zh) * 2020-02-07 2020-06-19 北京鸿天宇科技有限公司 一种模型的数据处理方法、电子设备及存储介质
CN111382472A (zh) * 2020-01-16 2020-07-07 华中科技大学 随机森林融合svm预测盾构引起近接结构变形方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737967A (zh) * 2019-09-10 2020-01-31 上海交通大学 一种混凝土结构耐久性预测方法、系统及终端
CN111144051A (zh) * 2019-12-13 2020-05-12 桂林理工大学 一种基于支持向量机和改进布谷鸟算法的地聚物混凝土强度预测方法
CN111382472A (zh) * 2020-01-16 2020-07-07 华中科技大学 随机森林融合svm预测盾构引起近接结构变形方法及装置
CN111310122A (zh) * 2020-02-07 2020-06-19 北京鸿天宇科技有限公司 一种模型的数据处理方法、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴贤国等: "基于随机森林的混凝土早期碳化预测", 《土木工程与管理学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033081A (zh) * 2021-03-10 2021-06-25 中国科学院地理科学与资源研究所 一种基于som-bpnn模型的径流模拟方法及系统

Similar Documents

Publication Publication Date Title
CN111985796B (zh) 基于随机森林和智能算法预测混凝土结构耐久性的方法
AU2020101854A4 (en) A method for predicting concrete durability based on data mining and artificial intelligence algorithm
CN112069567B (zh) 基于随机森林和智能算法预测混凝土抗压强度的方法
Oreta et al. Neural network modeling of confined compressive strength and strain of circular concrete columns
CN111507518A (zh) 一种基于随机森林的小波神径网络混凝土抗渗预测的方法
CN111209708B (zh) 基于机器学习的桩-土相互作用预测分析方法
CN111488713A (zh) 一种混凝土早期碳化预测的方法、预测系统及存储介质
CN112070356B (zh) 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法
CN108287808B (zh) 一种面向结构可靠性分析的通用动态追踪序列采样方法
CN112016244B (zh) 基于svm与智能算法的耐久性混凝土多目标配合比优化方法
CN112506990A (zh) 一种基于时空信息的水文数据异常检测方法
CN107423217B (zh) 基于变异树的黑盒模糊测试方法及系统
CN108876021A (zh) 一种中长期径流预报方法及系统
CN115221675A (zh) 一种氦气资源规模序列的确定方法、装置和设备
CN112434890A (zh) 基于CEEMDAN-BiLSTM的隧道沉降时间序列的预测方法
CN110096805A (zh) 一种有限观测数据下基于改进自助法的结构参数不确定性量化及传递方法
Kafaei Mohammadnejad et al. Robust attenuation relations for peak time-domain parameters of strong ground motions
CN101976307A (zh) 印染流程污水监测指标时间约束关联规则挖掘算法
CN111861264A (zh) 一种基于数据挖掘和智能算法预测混凝土耐久性方法
CN110598914B (zh) 一种多因素影响下矿井灾害气体浓度区间预测方法及系统
Nesamatha et al. Numerical modeling for prediction of compression index from soil index properties
CN112002380A (zh) 基于机器学习的高生成热含能材料的自适应设计方法
CN117251926B (zh) 一种地震响应预测的地震动强度指标优选方法
CN114819178A (zh) 一种铁路施工进度指标预测和在线更新方法
CN113808681A (zh) 基于SHAP-CatBoost快速预测ABO3型钙钛矿材料比表面积的方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030

RJ01 Rejection of invention patent application after publication