CN112329939A - 一种基于随机森林机器学习算法的未取样点岩土参数评估方法 - Google Patents
一种基于随机森林机器学习算法的未取样点岩土参数评估方法 Download PDFInfo
- Publication number
- CN112329939A CN112329939A CN202011153295.8A CN202011153295A CN112329939A CN 112329939 A CN112329939 A CN 112329939A CN 202011153295 A CN202011153295 A CN 202011153295A CN 112329939 A CN112329939 A CN 112329939A
- Authority
- CN
- China
- Prior art keywords
- random forest
- machine learning
- pile
- sample
- sampling point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 55
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 28
- 238000010801 machine learning Methods 0.000 title claims abstract description 28
- 238000005070 sampling Methods 0.000 title claims abstract description 27
- 239000002689 soil Substances 0.000 title claims abstract description 27
- 238000011156 evaluation Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 20
- 238000003066 decision tree Methods 0.000 claims description 15
- 238000012800 visualization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000035515 penetration Effects 0.000 claims description 3
- 239000011435 rock Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明公开了一种基于随机森林机器学习算法的未取样点岩土参数评估方法。根据有限的实测岩土参数数据样本点,基于随机森林算法搭建机器学习模型,预测未取样点的岩土参数,进而更好地进行土体分层,承载力分析、液化评价等潜在应用。本发明能够提高工程勘测效率和勘测质量,显著降低工程勘测成本,与传统预测方法相比,本方法具有良好的计算准确性,不需要对模型参数进行重调,也不需要对数据进行缩放,同时又适用于高维问题,并且不需要对其降维处理,还能弥补数据缺失的不足。
Description
技术领域
本发明属于岩土工程领域,涉及一种岩土参数评估方法,具体涉及一种基于随机森林机器学习算法的未取样点岩土参数评估方法
背景技术
岩土结构的设计在很大程度上取决于工程场地的岩土性质,岩土性质一般通过实地采样获取岩土参数。然而,采样点的数量有限,对未采样地点土体性质的估计仍然具有挑战性,主要集中在两个方面:
1.由于经费、人力等问题,实际勘测范围有很大局限性,缺少原始的勘察数据;
2.由于其不同的土体母质、沉积物环境和加载历史,岩土性质在三维空间上表现出很大的复杂性。因此,由于空间变异性,不能简单地从现有测量参数中插值得到未采样点的岩土参数,在数学上还缺乏可靠算法。
静力触探是有效获得岩土参数的重要手段,但取点有限,对于未取样点的参数,只能采用估算的形式。常规方法有:Kring插值、支持向量机SVM、Bayesian update、条件随机场等。
随机森林是用于回归和分类目前应用最广泛的机器学习方法之一。随机森林有良好的计算准确性,通常工作良好且不需要像SVM对参数进行重调,也不需要对数据进行缩放,同时又适用于高维问题,并且不需要对其降维处理,还能弥补数据缺失的不足。从本质上讲,随机森林共享决策树的所有优点,同时弥补了它的一些不足。虽然在大型数据集上构建随机森林可能有点耗时,但它很容易在计算机中跨多个CPU核心并行化,即使在非常大的数据集上,随机森林通常也能很好地工作。
在本发明中,根据有限实测样本点的岩土参数数据,基于随机森林算法搭建机器学习模型,预测未取样点的各种岩土参数,进而开展更多潜在的应用,降低了岩土工程中勘测难度和成本,促进不同学科领域之间的融合,取两者之长,显著提高工程勘测效率和质量,减少实际工程运作成本,具有巨大的应用价值和意义。
发明内容
本发明提供一种基于随机森林算法的对三维土体未取样点力学性能评估的方法,以解决现有技术中岩土工程参数勘测范围有限且计算困难不稳定的问题。同时,该发明实现方法简便,模型结构易懂,且不需要对其参数有很大的调整,既降低了计算难度又提高了预测精度。
为达到上述目的,本发明采用的技术方案如下:
一种基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于,包括如下步骤:
(1)建立样本集
对原始测试样本点数据进行预处理,提取样本特征与样本标签,形成样本集,样本特征为土体的三维坐标(X,Y,Z),样本标签为待测土体的岩土参数,记为(S1,S2…Sn),Sn为第n 个岩土参数,n为大于或等于1的正整数;
(2)模型训练
将样本集划分为训练集和测试集,利用训练集样本代入随机森林算法中进行机器学习训练,由训练集的样本特征(Xtrain,Ytrain,Ztrain)和样本标签(S1train,S2train…Sntrain)初步形成随机森林模型;
(3)测试模型
将测试集的样本特征(Xtest,Ytest,Ztest)代入上步骤形成的随机森林模型中,求得预测标签 (S1spredict,S2spredict…Snspredict),与实际测试集的样本标签(S1test,S2test…Sntest)进行对比,针对预测效果进行评分反馈,调整随机森林模型的参数直到训练出预期精度分数;
(4)未取样点预测
将未取样点特征即三维坐标参数(Xpredict,Ypredict,Zpredict)代入到已测试过的随机森林模型中,得到预测标签,即为相应的岩土参数。
作为优选,步骤(4)中,获取岩土参数采用图形处理工具进行可视化处理,图形工具包括Matplotlib、Mayavi和Paraview,其中Matplotlib用于二维可视化,Mayavi和Paraview用来三维的可视化。
作为优选,步骤(2)中,采用随机抽取方式将样本集划分为训练集和测试集,其中训练集占65-80%,测试集占20-35%。
作为优选,步骤(2)和步骤(3)中,将样本集采用随机的方式多次划分为训练集和测试集,重复测试并取平均值的方法进行精度计算。
作为优选,步骤(2)中,通过选择构建决策树模型的数据和特征两种方式对随机森林中的每棵决策树进行随机化,以确保随机森林算法中的每个子决策树模型都不同。
作为优选,步骤(2)中,通过n_estimators参数来调整随机森林模型中决策树的数量, n_estimators参数默认值取100。
作为优选,步骤(2)中,通过控制子决策树模型深度、最大特征、最小特征和分裂次数的sklearn参数来调节随机森林模型的性能。
作为优选,步骤(1)中,对于采集的原始测试样本点数据缺失的采用均值插补补全。
作为优选,步骤(1)中,所述岩土参数包括有效粘聚力c(kPa),有效摩擦角水平地面刚度kh(kN/m3),竖向地面刚度kv(kN/m3),静力触探试验桩端阻力qc(MPa)和桩侧摩擦力fs(kPa)。
作为优选,根据预测的桩端阻力qc和桩侧摩擦力fs,可确定土体分层,承载力分析,液化评价等,下面为极限承载力分析计算:
通过步骤(4)获取的桩端阻力和桩侧摩擦力进行桩基的极限承载力计算,具体公式如下:
其中,Qu为桩轴向的极限承载力,Qb是桩端的承载力,Qs是轴摩擦力,qp是单元桩端承载力,Ap为桩端面积,As是延桩轴的表面积,fp是单元桩摩擦力;
单元桩端承载力qp和元桩摩擦力fp的求解公式如下:
qp=(qc1+qc2)/2≤15MPa
fp=kcfs≤120kPa,kc=0.2-1.25
D为桩径,其中qc1是桩尖以下0.7到4D范围内的区域的单位平均最小qc值,qc2为桩尖以上8D的单位平均最小qc值,kc为系数。
本发明有益效果是:
随机森林是用于回归和分类目前应用最广泛的机器学习方法之一。与其他算法相比,随机森林具有良好的计算准确性,通常工作良好且不需要像SVM对参数进行重调,也不需要对数据进行缩放,同时又适用于高维问题并且不需要对其降维处理,还能弥补数据缺失的不足。从本质上讲,随机森林共享决策树的所有优点,同时弥补了它们的一些不足。虽然在大型数据集上构建随机森林可能有点耗时,但它很容易在计算机中跨多个CPU核心并行化,即使在非常大的数据集上,随机森林通常也能很好地工作。因而,利用Python工具,基于随机森林算法搭建的机器学习模型非常适合解决未取样点岩土参数预测问题,通过不同学科领域的结合,取两者之长,显著提高实际工作中的测量效率和工程质量,降低勘测难度和成本,在实际工程中具有重大意义。
附图说明
图1为本发明实施例中基于随机森林机器学习算法的未取样点岩土参数评估方法流程图。
图2为本发明实施例中机器学习模型搭建流程图。
图3为本发明实施例中单一决策树模型图。
图4为本发明实施例中模型复杂性与精确度关系图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实例,而不是全部的实例。基于本发明中的实例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本发明保护的范围。
下面以Python环境下运行随机森林模型,以桩端阻力qc和桩侧摩擦力fs作为样本标签为例进行说明。具体如下:
如图1至图3所示,一种基于随机森林机器学习算法的未取样点岩土参数评估方法,包括:
步骤一、从Python中导入本发明所需要用到的第三方库,其中包括pandas,numpy,matplotlib。
步骤二、从机器学习库sklearn.model_selection中导入train_test_split模块,验证方式选择留一法。
步骤三、从机器学习库sklearn.ensemble中导入RandomForestRegressor模块。
步骤四、为不同类型数据编号,分别给三维坐标(X,Y,Z)和目标岩土参数桩端阻力qc和桩侧摩擦力fs设置不同的编号。
步骤五、为qc引入原始数据集,并设定预测场地尺寸和文件标号。
步骤六、为fs引入原始数据集,并设定预测场地尺寸和文件标号。
原始数据集的采集需进行静力触探试验(CPT),具体实验细节和步骤参考相关规范。
步骤七、导入已测点数据,输入已测点名称,然后依次输入已测点x坐标和y坐标,深度z坐标以及对应的qc(MPa)和fs(kPa),运用numpy生成特征集矩阵(样本特征)和标签集矩阵(样本标签)。
对于缺失值以缺失值补全的方式进行处理,补全方法为均值插补。
步骤八、选择模型,预测标签qc和fs模型均选择随机森林模型。
步骤九、初步设定随机森林算法相关的参数。
n_estimators设置为100,子决策树参数criterion、max_features、max_depth、min_samples_leaf设置为默认值。
步骤十、利用train_test_split函数将原始样本划分为训练集和测试集,训练集占原始数据集的75%,测试集占25%。
步骤十一、利用已经分配好的训练集进行训练模型。
所有决策树预测回归结果以简单平均法进行汇总:
步骤十二、利用已经分配好的测试集进行模型测试,将测试集的特征组(Xtest,Ytest,Ztest) 代入上步骤中初步建立的随机森林模型,得到预测标签集(Qcpredict,Fspredict),并与实际测试集 (Qctest,Fstest)进行对比打分,根据分值调整模型参数。
步骤十三、根据总体测试结果进行模型参数调整,如图3所示,防止过拟合和欠拟合,找到最适合的参数使模型到达合适的复杂度,以得到最大预测精度的随机森林预测模型。
步骤十四、利用上一步骤得到的有精度保证的随机森林模型,输入未取样点的特征 (Xpredict,Ypredict,Zpredict)(三维坐标)即可得到该点的标签(Qcpredict,Fspredict)(目标岩土参数桩端阻力qc和桩侧摩擦力fs。)
步骤十五、利用绘图软件进行可视化处理,将预测结果以二维或三维的方式输出。
Python绘图模块利用Matplotlib、Mayavi和Paraview。
步骤十六、利用预测出的岩土参数,根据实际工程需要,进行诸如确定土层分层、承载力分析、液化评价等应用。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实例对本发明进行了详细的说明,对于本领域的技术人员而言,其依然可以对前述各实例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于,包括如下步骤:
(1)建立样本集
对原始测试样本点数据进行预处理,提取样本特征与样本标签,形成样本集,样本特征为土体的三维坐标(X,Y,Z),样本标签为待测土体的岩土参数,记为(S1,S2…Sn),Sn为第n个岩土参数,n为大于或等于1的正整数;
(2)模型训练
将样本集划分为训练集和测试集,利用训练集样本代入随机森林算法中进行机器学习训练,由训练集的样本特征(Xtrain,Ytrain,Ztrain)和样本标签(S1train,S2train…Sntrain)初步形成随机森林模型;
(3)测试模型
将测试集的样本特征(Xtest,Ytest,Ztest)代入上步骤形成的随机森林模型中,求得预测标签(S1spredict,S2spredict…Snspredict),与实际测试集的样本标签(S1test,S2test…Sntest)进行对比,针对预测效果进行评分反馈,调整随机森林模型的参数直到训练出预期精度分数;
(4)未取样点预测
将未取样点特征即三维坐标参数(Xpredict,Ypredict,Zpredict)代入到已测试过的随机森林模型中,得到预测标签,即为相应的岩土参数。
2.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于:步骤(4)中,获取岩土参数采用图形处理工具进行可视化处理,图形工具包括Matplotlib、Mayavi和Paraview,其中Matplotlib用于二维可视化,Mayavi和Paraview用来三维的可视化。
3.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于:步骤(2)中,采用随机抽取方式将样本集划分为训练集和测试集,其中训练集占65-80%,测试集占20-35%。
4.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于:步骤(2)和步骤(3)中,将样本集采用随机的方式多次划分为训练集和测试集,重复测试并取平均值的方法进行精度计算。
5.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于:步骤(2)中,通过选择构建决策树模型的数据和特征两种方式对随机森林中的每棵决策树进行随机化,以确保随机森林算法中的每个子决策树模型都不同。
6.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于:步骤(2)中,通过n_estimators参数来调整随机森林模型中决策树的数量,n_estimators参数默认值取100。
7.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于:步骤(2)中,通过控制子决策树模型深度、最大特征、最小特征和分裂次数的sklearn参数来调节随机森林模型的性能。
8.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法,其特征在于:步骤(1)中,对于采集的原始测试样本点数据缺失的采用均值插补补全。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153295.8A CN112329939A (zh) | 2020-10-26 | 2020-10-26 | 一种基于随机森林机器学习算法的未取样点岩土参数评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153295.8A CN112329939A (zh) | 2020-10-26 | 2020-10-26 | 一种基于随机森林机器学习算法的未取样点岩土参数评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329939A true CN112329939A (zh) | 2021-02-05 |
Family
ID=74311609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011153295.8A Pending CN112329939A (zh) | 2020-10-26 | 2020-10-26 | 一种基于随机森林机器学习算法的未取样点岩土参数评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329939A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505816A (zh) * | 2021-06-16 | 2021-10-15 | 浙江大学 | 一种基于金纳米粒子和机器学习算法的微生物鉴定方法 |
CN114067545A (zh) * | 2021-11-15 | 2022-02-18 | 浙江时空智子大数据有限公司 | 一种基于遥感大数据的森林火灾监测方法及系统 |
CN114880886A (zh) * | 2022-07-08 | 2022-08-09 | 北京科技大学 | 基于正交试验的轧机纵向刚度末端分析和维护方法及装置 |
CN115169111A (zh) * | 2022-07-04 | 2022-10-11 | 中北大学 | 基于随机森林的含能材料力学性能预测方法及存储设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109238803A (zh) * | 2018-10-22 | 2019-01-18 | 哈尔滨工业大学(深圳) | 一种制备可控空间变异性土样的方法 |
CN110414580A (zh) * | 2019-07-19 | 2019-11-05 | 东南大学 | 基于随机森林算法的钢筋混凝土深梁承载力评估方法 |
-
2020
- 2020-10-26 CN CN202011153295.8A patent/CN112329939A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109238803A (zh) * | 2018-10-22 | 2019-01-18 | 哈尔滨工业大学(深圳) | 一种制备可控空间变异性土样的方法 |
CN110414580A (zh) * | 2019-07-19 | 2019-11-05 | 东南大学 | 基于随机森林算法的钢筋混凝土深梁承载力评估方法 |
Non-Patent Citations (2)
Title |
---|
NITISH PURI11等: ""Prediction of Geotechnical Parameters Using Machine Learning Techniques", 《PROCEDIA COMPUTER SCIENCE》 * |
龚申: "基于CPTU的海相软土刚性桩复合地基承载特性与变形研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑(月刊)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505816A (zh) * | 2021-06-16 | 2021-10-15 | 浙江大学 | 一种基于金纳米粒子和机器学习算法的微生物鉴定方法 |
CN113505816B (zh) * | 2021-06-16 | 2023-10-31 | 浙江大学 | 一种基于金纳米粒子和机器学习算法的微生物鉴定方法 |
CN114067545A (zh) * | 2021-11-15 | 2022-02-18 | 浙江时空智子大数据有限公司 | 一种基于遥感大数据的森林火灾监测方法及系统 |
CN114067545B (zh) * | 2021-11-15 | 2023-05-12 | 浙江时空智子大数据有限公司 | 一种基于遥感大数据的森林火灾监测方法及系统 |
CN115169111A (zh) * | 2022-07-04 | 2022-10-11 | 中北大学 | 基于随机森林的含能材料力学性能预测方法及存储设备 |
CN114880886A (zh) * | 2022-07-08 | 2022-08-09 | 北京科技大学 | 基于正交试验的轧机纵向刚度末端分析和维护方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329939A (zh) | 一种基于随机森林机器学习算法的未取样点岩土参数评估方法 | |
CN110779795B (zh) | 裂缝性储层地质力学建模网格单元大小确定方法 | |
CN107301282B (zh) | 基于多源监测时序数据的混凝土坝力学参数反演方法 | |
Wang et al. | Prediction of material fatigue parameters for low alloy forged steels considering error circle | |
CN104834806A (zh) | 结构面粗糙度系数尺寸效应取样代表性评价方法 | |
CN108445188B (zh) | 基于中智区间函数的岩体结构面粗糙度系数尺寸效应下边坡稳定性表达方法 | |
CN113553763A (zh) | 一种隧道围岩快速分级方法和系统 | |
CN112150582B (zh) | 一种面向多模态数据的地质剖面图近似表达方法 | |
CN104833333A (zh) | 结构面粗糙度系数尺寸效应试样表征单元确定方法 | |
CN108733952B (zh) | 一种基于序贯模拟的土壤含水量空间变异性三维表征方法 | |
CN110705178A (zh) | 一种基于机器学习的隧道/地铁施工全过程围岩变形动态预测方法 | |
CN113158315B (zh) | 一种基于静力触探数据的岩土体参数三维非平稳条件随机场建模方法 | |
CN108560619B (zh) | 基桩动测承载力的分析方法及系统 | |
CN114488297A (zh) | 一种断层识别方法及装置 | |
CN116402339A (zh) | 一种盾构隧道施工风险等级评估方法、系统、设备及介质 | |
CN115982826A (zh) | 一种深埋长大隧道纵剖面地应力参数值估计方法、装置、设备及存储介质 | |
Chen et al. | Probabilistic back analysis for geotechnical engineering based on Bayesian and support vector machine | |
CN116049941A (zh) | 装配式环桁架结构构件装配前多维度状态提取及分析方法 | |
CN107340159B (zh) | 三维结构面抗剪强度代表性试样的选取方法 | |
CN104213548B (zh) | 输电杆塔基础地基破裂面的简易测量方法 | |
AU2015259067A1 (en) | Geomechanical modeling using dynamic boundary conditions from time-lapse data | |
He et al. | Accurate and Generalizable Soil Liquefaction Prediction Model Based on the CatBoost Algorithm | |
CN116258071A (zh) | 一种围岩监测指标效力评估方法 | |
CN112379437B (zh) | 页岩储层各向异性参数求取方法及装置 | |
Wan et al. | Study on the application of improved DIC method in deformation testing of geotechnical materials |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210205 |