CN112329939A

CN112329939A - 一种基于随机森林机器学习算法的未取样点岩土参数评估方法

Info

Publication number: CN112329939A
Application number: CN202011153295.8A
Authority: CN
Inventors: 裴尧尧; 郑志刚; 李丽华; 肖衡林; 马强; 陶高梁; 刘永莉; 李文涛; 周鑫隆; 钟楚珩
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-05

Abstract

本发明公开了一种基于随机森林机器学习算法的未取样点岩土参数评估方法。根据有限的实测岩土参数数据样本点，基于随机森林算法搭建机器学习模型，预测未取样点的岩土参数，进而更好地进行土体分层，承载力分析、液化评价等潜在应用。本发明能够提高工程勘测效率和勘测质量，显著降低工程勘测成本，与传统预测方法相比，本方法具有良好的计算准确性，不需要对模型参数进行重调，也不需要对数据进行缩放，同时又适用于高维问题，并且不需要对其降维处理，还能弥补数据缺失的不足。

Description

一种基于随机森林机器学习算法的未取样点岩土参数评估方法

技术领域

本发明属于岩土工程领域，涉及一种岩土参数评估方法，具体涉及一种基于随机森林机器学习算法的未取样点岩土参数评估方法

背景技术

岩土结构的设计在很大程度上取决于工程场地的岩土性质，岩土性质一般通过实地采样获取岩土参数。然而，采样点的数量有限，对未采样地点土体性质的估计仍然具有挑战性，主要集中在两个方面：

1.由于经费、人力等问题，实际勘测范围有很大局限性，缺少原始的勘察数据；

2.由于其不同的土体母质、沉积物环境和加载历史，岩土性质在三维空间上表现出很大的复杂性。因此，由于空间变异性，不能简单地从现有测量参数中插值得到未采样点的岩土参数，在数学上还缺乏可靠算法。

静力触探是有效获得岩土参数的重要手段，但取点有限，对于未取样点的参数，只能采用估算的形式。常规方法有：Kring插值、支持向量机SVM、Bayesian update、条件随机场等。

随机森林是用于回归和分类目前应用最广泛的机器学习方法之一。随机森林有良好的计算准确性，通常工作良好且不需要像SVM对参数进行重调，也不需要对数据进行缩放，同时又适用于高维问题，并且不需要对其降维处理，还能弥补数据缺失的不足。从本质上讲，随机森林共享决策树的所有优点，同时弥补了它的一些不足。虽然在大型数据集上构建随机森林可能有点耗时，但它很容易在计算机中跨多个CPU核心并行化，即使在非常大的数据集上，随机森林通常也能很好地工作。

在本发明中，根据有限实测样本点的岩土参数数据，基于随机森林算法搭建机器学习模型，预测未取样点的各种岩土参数，进而开展更多潜在的应用，降低了岩土工程中勘测难度和成本，促进不同学科领域之间的融合，取两者之长，显著提高工程勘测效率和质量，减少实际工程运作成本，具有巨大的应用价值和意义。

发明内容

本发明提供一种基于随机森林算法的对三维土体未取样点力学性能评估的方法，以解决现有技术中岩土工程参数勘测范围有限且计算困难不稳定的问题。同时，该发明实现方法简便，模型结构易懂，且不需要对其参数有很大的调整，既降低了计算难度又提高了预测精度。

为达到上述目的，本发明采用的技术方案如下：

一种基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于，包括如下步骤：

(1)建立样本集

对原始测试样本点数据进行预处理，提取样本特征与样本标签，形成样本集，样本特征为土体的三维坐标(X,Y,Z)，样本标签为待测土体的岩土参数，记为(S₁,S₂…S_n)，S_n为第n 个岩土参数，n为大于或等于1的正整数；

(2)模型训练

将样本集划分为训练集和测试集，利用训练集样本代入随机森林算法中进行机器学习训练，由训练集的样本特征(X_train,Y_train,Z_train)和样本标签(S_1train,S_2train…S_ntrain)初步形成随机森林模型；

(3)测试模型

将测试集的样本特征(X_test,Y_test,Z_test)代入上步骤形成的随机森林模型中，求得预测标签 (S_1spredict,S_2spredict…S_nspredict)，与实际测试集的样本标签(S_1test,S_2test…S_ntest)进行对比，针对预测效果进行评分反馈，调整随机森林模型的参数直到训练出预期精度分数；

(4)未取样点预测

将未取样点特征即三维坐标参数(X_predict,Y_predict,Z_predict)代入到已测试过的随机森林模型中，得到预测标签，即为相应的岩土参数。

作为优选，步骤(4)中，获取岩土参数采用图形处理工具进行可视化处理，图形工具包括Matplotlib、Mayavi和Paraview，其中Matplotlib用于二维可视化，Mayavi和Paraview用来三维的可视化。

作为优选，步骤(2)中，采用随机抽取方式将样本集划分为训练集和测试集，其中训练集占65-80％，测试集占20-35％。

作为优选，步骤(2)和步骤(3)中，将样本集采用随机的方式多次划分为训练集和测试集，重复测试并取平均值的方法进行精度计算。

作为优选，步骤(2)中，通过选择构建决策树模型的数据和特征两种方式对随机森林中的每棵决策树进行随机化，以确保随机森林算法中的每个子决策树模型都不同。

作为优选，步骤(2)中，通过n_estimators参数来调整随机森林模型中决策树的数量， n_estimators参数默认值取100。

作为优选，步骤(2)中，通过控制子决策树模型深度、最大特征、最小特征和分裂次数的sklearn参数来调节随机森林模型的性能。

作为优选，步骤(1)中，对于采集的原始测试样本点数据缺失的采用均值插补补全。

作为优选，步骤(1)中，所述岩土参数包括有效粘聚力c(kPa)，有效摩擦角

水平地面刚度k_h(kN/m³)，竖向地面刚度k_v(kN/m³)，静力触探试验桩端阻力q_c(MPa)和桩侧摩擦力f_s(kPa)。

作为优选，根据预测的桩端阻力q_c和桩侧摩擦力f_s，可确定土体分层，承载力分析，液化评价等，下面为极限承载力分析计算：

通过步骤(4)获取的桩端阻力和桩侧摩擦力进行桩基的极限承载力计算，具体公式如下：

其中，Q_u为桩轴向的极限承载力，Q_b是桩端的承载力，Q_s是轴摩擦力，q_p是单元桩端承载力，A_p为桩端面积，A_s是延桩轴的表面积，f_p是单元桩摩擦力；

单元桩端承载力q_p和元桩摩擦力f_p的求解公式如下：

q_p＝(q_c1+q_c2)/2≤15MPa

f_p＝k_cf_s≤120kPa,k_c＝0.2-1.25

D为桩径，其中q_c1是桩尖以下0.7到4D范围内的区域的单位平均最小q_c值，q_c2为桩尖以上8D的单位平均最小q_c值，k_c为系数。

本发明有益效果是：

随机森林是用于回归和分类目前应用最广泛的机器学习方法之一。与其他算法相比，随机森林具有良好的计算准确性，通常工作良好且不需要像SVM对参数进行重调，也不需要对数据进行缩放，同时又适用于高维问题并且不需要对其降维处理，还能弥补数据缺失的不足。从本质上讲，随机森林共享决策树的所有优点，同时弥补了它们的一些不足。虽然在大型数据集上构建随机森林可能有点耗时，但它很容易在计算机中跨多个CPU核心并行化，即使在非常大的数据集上，随机森林通常也能很好地工作。因而，利用Python工具，基于随机森林算法搭建的机器学习模型非常适合解决未取样点岩土参数预测问题，通过不同学科领域的结合，取两者之长，显著提高实际工作中的测量效率和工程质量，降低勘测难度和成本，在实际工程中具有重大意义。

附图说明

图1为本发明实施例中基于随机森林机器学习算法的未取样点岩土参数评估方法流程图。

图2为本发明实施例中机器学习模型搭建流程图。

图3为本发明实施例中单一决策树模型图。

图4为本发明实施例中模型复杂性与精确度关系图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实例，而不是全部的实例。基于本发明中的实例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本发明保护的范围。

下面以Python环境下运行随机森林模型，以桩端阻力q_c和桩侧摩擦力f_s作为样本标签为例进行说明。具体如下：

如图1至图3所示，一种基于随机森林机器学习算法的未取样点岩土参数评估方法，包括：

步骤一、从Python中导入本发明所需要用到的第三方库，其中包括pandas，numpy，matplotlib。

步骤二、从机器学习库sklearn.model_selection中导入train_test_split模块，验证方式选择留一法。

步骤三、从机器学习库sklearn.ensemble中导入RandomForestRegressor模块。

步骤四、为不同类型数据编号，分别给三维坐标(X,Y,Z)和目标岩土参数桩端阻力q_c和桩侧摩擦力f_s设置不同的编号。

步骤五、为q_c引入原始数据集，并设定预测场地尺寸和文件标号。

步骤六、为f_s引入原始数据集，并设定预测场地尺寸和文件标号。

原始数据集的采集需进行静力触探试验(CPT)，具体实验细节和步骤参考相关规范。

步骤七、导入已测点数据，输入已测点名称，然后依次输入已测点x坐标和y坐标，深度z坐标以及对应的q_c(MPa)和f_s(kPa)，运用numpy生成特征集矩阵(样本特征)和标签集矩阵(样本标签)。

对于缺失值以缺失值补全的方式进行处理，补全方法为均值插补。

步骤八、选择模型，预测标签q_c和f_s模型均选择随机森林模型。

步骤九、初步设定随机森林算法相关的参数。

n_estimators设置为100，子决策树参数criterion、max_features、max_depth、min_samples_leaf设置为默认值。

步骤十、利用train_test_split函数将原始样本划分为训练集和测试集，训练集占原始数据集的75％，测试集占25％。

步骤十一、利用已经分配好的训练集进行训练模型。

所有决策树预测回归结果以简单平均法进行汇总：

步骤十二、利用已经分配好的测试集进行模型测试，将测试集的特征组(X_test,Y_test,Z_test) 代入上步骤中初步建立的随机森林模型，得到预测标签集(Q_cpredict,F_spredict)，并与实际测试集 (Q_ctest,F_stest)进行对比打分，根据分值调整模型参数。

步骤十三、根据总体测试结果进行模型参数调整，如图3所示，防止过拟合和欠拟合，找到最适合的参数使模型到达合适的复杂度，以得到最大预测精度的随机森林预测模型。

步骤十四、利用上一步骤得到的有精度保证的随机森林模型，输入未取样点的特征 (X_predict,Y_predict,Z_predict)(三维坐标)即可得到该点的标签(Q_cpredict，F_spredict)(目标岩土参数桩端阻力q_c和桩侧摩擦力f_s。)

步骤十五、利用绘图软件进行可视化处理，将预测结果以二维或三维的方式输出。

Python绘图模块利用Matplotlib、Mayavi和Paraview。

步骤十六、利用预测出的岩土参数，根据实际工程需要，进行诸如确定土层分层、承载力分析、液化评价等应用。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实例对本发明进行了详细的说明，对于本领域的技术人员而言，其依然可以对前述各实例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于，包括如下步骤：

(1)建立样本集

对原始测试样本点数据进行预处理，提取样本特征与样本标签，形成样本集，样本特征为土体的三维坐标(X,Y,Z)，样本标签为待测土体的岩土参数，记为(S₁,S₂…S_n)，S_n为第n个岩土参数，n为大于或等于1的正整数；

(2)模型训练

(3)测试模型

将测试集的样本特征(X_test,Y_test,Z_test)代入上步骤形成的随机森林模型中，求得预测标签(S_1spredict,S_2spredict…S_nspredict)，与实际测试集的样本标签(S_1test,S_2test…S_ntest)进行对比，针对预测效果进行评分反馈，调整随机森林模型的参数直到训练出预期精度分数；

(4)未取样点预测

2.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(4)中，获取岩土参数采用图形处理工具进行可视化处理，图形工具包括Matplotlib、Mayavi和Paraview，其中Matplotlib用于二维可视化，Mayavi和Paraview用来三维的可视化。

3.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(2)中，采用随机抽取方式将样本集划分为训练集和测试集，其中训练集占65-80％，测试集占20-35％。

4.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(2)和步骤(3)中，将样本集采用随机的方式多次划分为训练集和测试集，重复测试并取平均值的方法进行精度计算。

5.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(2)中，通过选择构建决策树模型的数据和特征两种方式对随机森林中的每棵决策树进行随机化，以确保随机森林算法中的每个子决策树模型都不同。

6.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(2)中，通过n_estimators参数来调整随机森林模型中决策树的数量，n_estimators参数默认值取100。

7.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(2)中，通过控制子决策树模型深度、最大特征、最小特征和分裂次数的sklearn参数来调节随机森林模型的性能。

8.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(1)中，对于采集的原始测试样本点数据缺失的采用均值插补补全。

9.如权利要求1所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：步骤(1)中，所述岩土参数包括有效粘聚力c，有效摩擦角

水平地面刚度k_h，竖向地面刚度k_v，静力触探试验桩端阻力q_c和桩侧摩擦力f_s。

10.如权利要求9所述基于随机森林机器学习算法的未取样点岩土参数评估方法，其特征在于：通过步骤(4)获取的桩端阻力和桩侧摩擦力进行桩基的极限承载力计算，具体公式如下：

单元桩端承载力q_p和元桩摩擦力f_p的求解公式如下：

q_p＝(q_c1+q_c2)/2≤15MPa

f_p＝k_cf_s≤120kPa,k_c＝0.2-1.25