CN112396130A

CN112396130A - 静力触探试验岩层智能识别方法、系统、计算机设备及介质

Info

Publication number: CN112396130A
Application number: CN202011429462.7A
Authority: CN
Inventors: 任治军; 葛海明; 葛阳; 颜雪松; 李铭
Original assignee: China University of Geosciences; China Energy Engineering Group Jiangsu Power Design Institute Co Ltd
Current assignee: China University of Geosciences; China Energy Engineering Group Jiangsu Power Design Institute Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-02-23

Abstract

本发明属于岩层识别技术领域，公开了一种静力触探试验岩层智能识别方法、系统、计算机设备及介质，收集数据；数据预处理；数据集划分；机器学习模型构建；训练机器学习模型；分类模型评估；分类模型使用。本发明以国内某工程基地的土层分类为研究案例，综合探讨使用机器学习技术在静力触探试验中进行土层划分的应用，扩展静力触探试验中土层的类别，为静力触探试验提供基于机器学习的智能化土层分类技术，为国内在静力触探试验中进行土层识别的研究提供新的方向，验证机器学习技术在基于静力触探试验的超多类别土层划分中的优越性，证明基于机器学习技术的静力触探试验在国内使用的可行性。

Description

静力触探试验岩层智能识别方法、系统、计算机设备及介质

技术领域

本发明属于岩层识别技术领域，尤其涉及一种静力触探试验岩层智能识别方法、系统、计算机设备及介质。

背景技术

(一)基于静力触探试验的土层划分研究概况

(1)静力触探试验(Cone Penetration Test,CPT)基本原理

静力触探是使用准静力将一个内部装有传感器的触探头以匀速压入土中，由于地层中各种土的软硬不同，探头所受的阻力自然也不一样，传感器将这种大小不同的贯入阻力通过电信号输入到记录仪表中记录下来，再通过贯入阻力与土的工程地质特征之间的定性关系和统计相关关系，来实现取得土层剖面、提供浅基承载力、选择桩端持力层和预估单桩承载力等工程地质勘察目的。静力触探主要适用于粘性土、粉性土、砂性土。对于各类水利工程、工业与民用建筑工程、公路桥梁工程而言，静力触探适用于地面以下50m内的各种土层，特别是对于地层情况变化较大的复杂场地及不易取得原状土的饱和砂土和高灵敏度的软粘土地层的勘察，更适合采用静力触探进行勘察。

(2)静力触探试验分类

目前，国内工程界使用的静力触探探头有三种：单桥探头、双桥探头和孔压触探头。静力触探在工程上的应用主要体现在三个方面：划分土层判别土类、确定土的工程性质指标和岩土工程的设计参数。就勘察精度与功能来说，孔压静力触探优于双桥静力触探，双桥静力触探优于单桥静力触探。

1)单桥静力触探

单桥静力触探只能测试比贯入阻力PS，因此只能根据PS-h曲线形态变化和PS值的大小对土体进行定名、分层。工程实践中，对同一层土，由于其形成年代、成因、受荷历时不同，其PS值可相差很多。另外，不同土层也可能具有相同的PS值。因此只用一个指标PS对土层定名分层的分辨率是比较低的。工程实践中往往借助于钻孔取样来对比分析。

2)双桥静力触探

双桥静力触探可测得两个参数，即锥尖阻力qc和侧壁阻力fs。根据该项测试资料可获得两条曲线，即qc-h和fS-h关系曲线。两相对比，精度较高。侧壁阻力fS也是划分土层的极好的参数。

3)孔压静力触探

孔压静力触探可以测得三个指标，比双桥探头多测一个孔隙水压力u，因而其对土层的分辨率要比双桥静力触探高得多。孔压静力触探在岩土领域已得到广泛应用，其中主要包括四个方面：①修正锥尖阻力，使锥尖阻力真正反映土的性质；②评价渗流、固结特性；③区分排水、部分排水、不排水贯入方式；④提高土分层与土质分类的可靠性。

(3)静力触探试验在土层分类中的应用

从单桥静力触探发展到现在的孔压静力触探，划分土层和土类的方法也在不断地改进和完善，主要分为以下三种方法。

1)目测经验法

目测经验法主要是指运用单桥静力触探曲线的方法。因为单桥静力触探仪只能获得一个单数PS，单凭这一参数不足以准确判定土的种类，它仅适用于城市、工矿区等对当地底层已有概略了解的地方，且在规范或在规程中已建立了比贯入阻力PS与土的塑性指数IP的相关关系的地区。也有工程师在实践中根据自己的经验，结合对触探曲线形态的理解，以比贯入阻力为标准，进行定性的对比分层。

2)分类图法

双桥探头的使用使得静力触探可以同时测得锥尖阻力及侧壁摩阻力两个参数，因此采用双桥参数划分土层及土类比单桥触探曲线提高了精度与准确性。当触探过程中遇到相同的qc，而土性不同时，可以再用fs加以区分土类，因为不同土的qc相同时，fs会不同；反之，fs相同时，qc不同。触探参数与土类的关系受多种因素的相互制约，使触探参数交替重叠，但在复杂的关系中还是可以找出主要的趋势和规律。此时，摩阻比Rf是一个很重要的判别值，用它不但可以划分出粘性土和砂类土这两大类，而且还可以划分出两大类之间的过渡带即粉土等。当前，利用双桥静力触探参数划分土层和土类的方法标准主要有：北京铁路局标准、铁道部标准和施莫特曼标准。

3)统计分析方法

通过目测经验法和分类图法划分土层界限的方法是根据大量的静力触探资料，得出土类的某项分类系数，然后用实得静探曲线数据计算分类系数，并结合工程勘察资料进而划分土层的界限。这两种方法人工计算量大，且受经验数据影响大，同时还受钻孔资料的限制，极易漏掉厚度不大的夹层。另一方面，静力触探曲线数据充分反映地面以下地基土力学性质的变化特征，因而可把地基土力学性质相近或稳定的地质单元划分为一层，采用多变量统计分析中的最优分割理论，对静力触探的多个力学指标进行综合分析，聚类分割，从而划分统计均匀的土层界限。静探数据是一个随深度变化的有序数列，前后数据不可调换。最优分割法就是把这种有序数列进行有序分割从而实现土层划分，使得层内数据差别尽量的小，层间数据差别尽量的大。

(二)机器学习技术在基于静力触探试验的土层划分研究中的应用现状

使用目测经验法、分类图法和统计分析方法在静力触探实验中进行土层划分需要大量的人工参与，不仅费时费力，而且依靠人工经验的方法分类结果往往会存在较大偏差，其中基于统计学的统计分析方法已经能在一定程度上实现智能化的土层划分，不过这种方法采用多变量统计分析中的最优分割理论，仍然需要人工进行变量的选取等工作，自动化程度不高，且人工选取变量可能会造成分类结果不准确，因此研究如何使用智能化技术在静力触探试验中实现自动化的土层分类非常有必要。

使用智能化技术在静力触探试验中实现自动化土层分类属于人工智能的研究范畴。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，其主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作，人工智能的主要研究领域包括专家系统、多智能体系统、智能计算、机器学习、模糊逻辑和机器人等。基于静力触探试验的土层自动分类属于人工智能中的机器学习研究领域，机器学习是一种专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能的人工智能技术，其主要任务包括回归、分类、聚类、异常检测等，静力触探试验中的土层智能化分类即属于机器学习中的分类任务。

目前使用机器学习技术在静力触探试验中实现土层自动化分类的研究相对较少。B.Bhattacharya等人提出了一种实现土层分类过程自动化的方法。首先，提出了一种分割算法，并将其应用于测量数据的分割，然后利用边界能量法提取这些特征，基于实测数据和提取的特征，建立了基于决策树、人工神经网络和支持向量机的分类器。利用静力触探试验的实测数据，对该方法进行了亚表层土分类试验，取得了满意的结果。Thomas Oommen等人基于静力触探试验对经验液化模型(Empirical liquefaction models,ELMs)进行了研究，对于标准贯入试验(Standard Penetration Test,SPT)和静力触探试验数据建立了确定性和概率ELMs。对于确定性ELMs，作者比较了SPT和CPT数据的简化过程、贝叶斯更新方法和SVM模型。对于概率ELMs，将贝叶斯更新方法与支持向量机模型进行了比较。A.Saeedi等人分析了基于静力触探试验数据预测抗拔桩位移的机器学习模型，以及使用人工神经网络进行衰老分析，另外，作者还考察了输入参数和内部网络参数的不同选择以获得最优模型。Mahmood Ahmad等人研究了贝叶斯置信网络和C4.5决策树模型在基于更新的较大静力触探试验数据集(包括251个实例)的基础上评估地震土壤液化的性能，并与简化程序和基于进化的方法进行了比较。Kevin Duffy等人探讨了静力触探试验参数，如锥尖阻力和侧壁阻力如何用于评估荷兰各地细粒土的压缩性，研究发现使用机器学习中的梯度提升树方法获得CPT参数和Koppejan参数之间的关系具有很大的潜力。Melika Sajadian等人研究了基于InSAR数据和静力触探试验数据的土地变形预测，研究的主要目的是利用机器学习技术协调InSAR测量数据和CPT数据，以便更好地预测土地变形。胡越等人考虑到实际工程中，常常由于时间和预算的限制，工程场地中的CPT探测点数量有限且分布稀疏。准确推测CPT探测点之间未测区域的数据和分层情况非常困难。作者提出了一种贝叶斯学习算法来解决这一难题，该方法可使用少量CPT探测点来预测二维剖面中土的分类和分层。Cristian GODOY等人研究了应用逻辑回归、朴素贝叶斯和隐马尔可夫模型在快速高敏感度黏土分类中的应用，基于标准化孔压静力触探试验测量数据，在挪威的两个地点对快速和高度敏感的粘土进行分类。结果表明，尽管训练集有限，分类精度仍有相当大的提高。

综合以上使用机器学习技术在静力触探试验中进行土层划分的研究现状可以发现，目前这一研究还存在以下几方面的不足：

(1)对机器学习技术的探讨不够全面。当前的研究并未综合性的探讨机器学习技术在基于静力触探试验的土层分类中的研究；

(2)当前相关研究中的土层类别较少。从前文的分析可以发现，目前的研究主要探讨特定领域的土层分类或者分类技术的优化，而未着重关注土层类别这一部分；

(3)国内的相关研究案例稀少。目前大部分使用机器学习技术在静力触探试验中对土层分类的研究案例集中在国外，考虑到国内外土层性质的差异性，有必要集中探讨相关研究在国内的应用。

因此，亟需一种新的基于机器学习的静力触探试验岩层智能识别方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有技术对机器学习技术的探讨不够全面。当前的研究并未综合性的探讨机器学习技术在基于静力触探试验的土层分类中的研究。

(2)当前相关研究中的土层类别较少。从前文的分析可以发现，目前的研究主要探讨特定领域的土层分类或者分类技术的优化，而未着重关注土层类别这一部分。

(4)地质领域的传统技术面临新的挑战。当前地质行业发展不景气，将传统的地质问题与新兴人工智能技术结合可以为地质行业提供新的活力，从而为地质行业的研究发展和人才培养注入新的血液。

解决以上问题及缺陷的难度为：

(1)数据量不足。机器学习往往需要从大量数据中学习领域知识，而静力触探试验中可获取的数据往往有限，因此如何扩充原始数据是一大难点；(2)样本特征稀少。通过静力触探试验获取的岩层数据特征比较少(不超过5个)，如何用少量的特征学习到通用的岩层类别信息十分具有挑战性；(3)样本类别不平衡。静力触探试验中不同岩层类别的样本数往往差别很大，这样会使得机器学习算法对不同岩层的样本具有较大的偏差，如何解决类别不平衡问题是一个关键问题。

解决以上问题及缺陷的意义为：

通过将机器学习等人工智能技术引入基于静力触探试验的土层分类研究，一方面可以在传统人工分类的基础上大幅度提升勘探工程领域土层分类的准确性，降低传统人工分类的人力、物力消耗；另一方面可以为传统地质学提供新兴的研究领域和技术手段，促进人工智能技术在地质学领域的应用。

发明内容

针对现有技术存在的问题，本发明提供了一种静力触探试验岩层智能识别方法、系统、计算机设备及介质。

本发明是这样实现的，一种基于机器学习的静力触探试验岩层智能识别方法，所述基于机器学习的静力触探试验岩层智能识别方法包括以下步骤：

步骤一，收集数据：获取人工分层的静力触探试验原始数据；将原始数据整理成4列，分别表示试验点深度、锥尖阻力、侧壁阻力和土层类别。

步骤二，数据预处理：分别进行数据增强、数据标准化以及类别编码。

步骤三，数据集划分：分别进行训练数据集、验证数据集和测试数据集。

步骤四，机器学习模型构建：构建9种机器学习模型，在sklearn调用，并确定每个模型需要调节的超参数。

步骤五，训练机器学习模型：配置超参数的搜索范围，使用训练数据集训练模型，进行最优模型选择；获得9种最优机器学习分类模型，训练结束。

步骤六，分类模型评估：选择评估指标；使用测试数据集进行模型评估，并将模型进行保存。

步骤七，分类模型使用：分别进行数据整理和数据标准化后，制作模型人机接口，进行土层类别预测。

进一步，步骤二中，所述数据预处理，包括：

(1)数据增强：每个土层类别至少有1000个样本，不足1000的在该类别样本中通过随机算法复制已有样本扩充到1000，若存在某些类别样本数大于1000则将其他类别的样本全都随机扩充到与样本最多类别的数量一致即可；

(2)数据标准化：试验点深度、锥尖阻力和侧壁阻力是机器学习算法需训练的特征，这3种特征均为数值类型，且数量级均不相同。标准化的方法是将每一种特征都转换到均值为0，方差为1的范围：①计算同一种特征的均值；②计算同一种特征的标准差；③使用当前特征与当前特征均值的差除以当前特征的标准差；

(3)类别编码：静力触探试验原始数据中的土层类别表示每个样本所属的类别，根据土层类别的种类数依次编码为0、1、2、3…等，每一种土层类别由一个数字表示。

进一步，步骤三中，所述数据集划分，包括：

(1)训练数据集：训练数据集用于训练机器学习分类模型，占总数据集的60％-70％；

(2)验证数据集：验证数据集用于机器学习模型选择，占总数据集的10％-20％；

(3)测试数据集：测试数据集用于测试模型的泛化性能，即模型的分类精度，占总数据集的10％-20％。

进一步，步骤四中，所述9种机器学习模型包括：逻辑回归、支持向量机、决策树、K近邻、朴素贝叶斯、随机森林、AdaBoost、GBDT、XGBoost。

所述确定每个模型需要调节的超参数，包括：

(1)逻辑回归模型：逻辑回归模型的超参数包括正则化参数和优化算法，其中正则化参数可以选择的值包括‘l1’和‘l2’；优化算法可选择的方法包括liblinear、lbfgs、sag和newton-cg；

(2)支持向量机模型：支持向量机模型的超参数包括惩罚系数C和RBF核函数的系数γ，C的取值范围为0-10；γ的取值范围为0-1；

(3)K近邻模型：K近邻模型的超参数包括K值和距离度量方式。K值由小及大选取正整数做交叉验证；距离度量方式包括欧式距离、曼哈顿距离、切比雪夫距离和闵可夫斯基距离；

(4)朴素贝叶斯模型：朴素贝叶斯模型的超参数为样本特征的先验分布。先验分布的范围包括伯努利分布、多项式分布和高斯分布，选取高斯分布即可；

(5)决策树模型：决策树模型的超参数包括特征选择标准、决策树最大深度、叶子节点最少样本数、最大叶子节点数。特征选择标准包括信息熵、信息增益和基尼系数；决策树最大深度取10-100；叶子节点最少样本数限制了叶子节点最少的样本数，10万以上的样本可设置为5，否则不需要调节该值；

(6)随机森林模型：随机森林模型以决策树模型为子学习器，除了包含决策树模型的超参数之外，随机森林模型的超参数还包括子学习器数量，子学习器数量选择100；

(7)AdaBoost模型：AdaBoost模型的子学习器也是决策树，也包含决策树的左右超参数。AdaBoost模型的其他超参数包括分类算法、子学习器数量、子学习器的权重缩减系数v。分类算法包括SAMME和SAMME.R；子学习器数量选择50；权重缩减系数v的取值范围为(0,1]；

(8)GBDT模型：GBDT模型的子学习器是决策树，包含决策树的所有超参数，GBDT的超参数还包括子学习器的数量、子学习器的权重缩减系数v、子采样率。GBDT子学习器的数量取100；权重缩减系数v的取值范围为(0,1]；子采样率的取值范围为(0,1]；

(9)XGBoost模型。XGBoost与GBDT模型非常类似，除决策树的超参数之外XGBoost模型还包含booster参数、子学习器数量和objective三个超参数。booster决定XGBoost使用的弱学习器类型，是默认的gbtree,也就是CART决策树，还可以是线性弱学习器gblinear以及DART；子学习器数量与GBDT模型类似；objective代表要解决的问题是分类还是回归，或其他问题，以及对应的损失函数，回归问题objective使用reg:squarederror，即MSE均方误差，二分类问题使用binary:logistic，多分类问题使用multi:softmax。

进一步，步骤五中，所述训练机器学习模型，包括：

(1)为每个模型配置超参数的搜索范围；

(2)使用训练数据集开始训练模型；

(3)在训练的过程中使用网格搜索和验证数据集进行最优模型选择；

(4)获得9种最优的机器学习分类模型，训练结束。

进一步，步骤六中，所述分类模型评估，包括：

(1)选择评估指标：机器学习分类模型的评估指标包括分类精度、混淆矩阵、ROC曲线和AUC值；

(2)使用测试数据集进行模型评估：测试数据集未参与训练模型，模型不包含测试数据集的特征，可客观反映每个模型的实际分类性能；

(3)模型保存：通过序列化方法将训练好的模型包括结构和参数保存在硬盘中。

进一步，步骤七中，所述分类模型使用，包括：

(1)数据整理：将需要进行土层分类的静力触探试验数据整理成包含试验点深度、锥尖阻力和侧壁阻力3列特征的形式，此时数据不再包含土层类别列，模型需要预测的分类结果，由机器学习模型得出；

(2)数据标准化：使用步骤二中的算法完成数据标准化；

(3)制作模型人机接口：设计图形用户界面人机接口，读取静力触探试验数据和使用保存的分类模型；

(4)土层类别预测：将整理好的静力触探试验数据送入已保存好的9种机器学习模型中进行土层预测，选择分类效果最好的结果，完成土层分类。

本发明的另一目的在于提供一种应用所述的基于机器学习的静力触探试验岩层智能识别方法的基于机器学习的静力触探试验岩层智能识别系统，所述基于机器学习的静力触探试验岩层智能识别系统包括：

数据收集模块，用于获取人工分层的静力触探试验原始数据，并将原始数据整理成4列，分别表示试验点深度、锥尖阻力、侧壁阻力和土层类别。

数据预处理模块，用于分别进行数据增强、数据标准化以及类别编码。

数据集划分模块，用于分别进行训练数据集、验证数据集和测试数据集。

机器学习模型构建模块，用于构建9种机器学习模型，在sklearn调用，并确定每个模型需要调节的超参数。

训练机器学习模型模块，用于配置超参数的搜索范围，使用训练数据集训练模型，进行最优模型选择；获得9种最优机器学习分类模型，训练结束。

分类模型评估模块，用于选择评估指标，使用测试数据集进行模型评估，并将模型进行保存。

分类模型使用模块，用于分别进行数据整理和数据标准化后，制作模型人机接口，进行土层类别预测。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于机器学习的静力触探试验岩层智能识别方法。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行所述的基于机器学习的静力触探试验岩层智能识别方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于机器学习的静力触探试验岩层智能识别方法，以国内某工程基地的土层分类为研究案例，综合探讨了使用机器学习技术在静力触探试验中进行土层划分的应用，为静力触探试验提供一种全面的基于机器学习的智能化土层分类技术，为国内在静力触探试验中进行土层识别的研究提供新的方向。本发明主要包含以下几方面的优点：

(1)综合分析了9种机器学习技术在基于静力触探试验的土层分类中的应用。本发明共探讨了包括逻辑回归、支持向量机、决策树、K近邻、朴素贝叶斯、随机森林、AdaBoost、GBDT和XGBoost在内的9种机器学习模型的土层分类性能，从而得出最优的土层分类模型；

(2)扩展了静力触探试验中土层的类别。本发明研究案例中一共包含8种不同的土层类别，验证了机器学习技术在基于静力触探试验的超多类别土层划分中的优越性；

(3)为机器学习技术在静力触探试验中的国内使用提供了方向。考虑到现有相关分析集中于国外以及国内外土层性质的差异性，本发明以国内某变电站工程为案例，证明了基于机器学习技术的静力触探试验在国内使用的可行性。

对比的技术效果或者实验效果。包括：

目前已有的类似技术并无使用上述9种机器学习算法进行基于静力触探试验的土层分类的研究，并且相关研究中使用的数据集与本发明中的数据集并不一样，无法在数据集维度进行横向对比，同时由于并没有任何研究同时进行了本发明中9种算法的土层分类研究，也无法在分类算法维度进行纵向对比。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于机器学习的静力触探试验岩层智能识别方法流程图。

图2是本发明实施例提供的基于机器学习的静力触探试验岩层智能识别系统结构框图；

图中：1、数据收集模块；2、数据预处理模块；3、数据集划分模块；4、机器学习模型构建模块；5、训练机器学习模型模块；6、分类模型评估模块；7、分类模型使用模块。

图3是本发明实施例提供的实施案例数据点相对位置示意图。

图4是本发明实施例提供的程序框架图。

图5是本发明实施例提供的1C2测试点的最优模型分类混淆矩阵图。

图6是本发明实施例提供的1C3测试点的最优模型分类混淆矩阵图。

图7是本发明实施例提供的1S43测试点的最优模型分类混淆矩阵图。

图8是本发明实施例提供的1S45测试点的最优模型分类混淆矩阵图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种静力触探试验岩层智能识别方法、系统、计算机设备及介质，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于机器学习的静力触探试验岩层智能识别方法包括以下步骤：

S101，收集数据：获取人工分层的静力触探试验原始数据；将原始数据整理成4列，分别表示试验点深度、锥尖阻力、侧壁阻力和土层类别。

S102，数据预处理：分别进行数据增强、数据标准化以及类别编码。

S103，数据集划分：分别进行训练数据集、验证数据集和测试数据集。

S104，机器学习模型构建：构建9种机器学习模型，在sklearn调用，并确定每个模型需要调节的超参数。

S105，训练机器学习模型：配置超参数的搜索范围，使用训练数据集训练模型，进行最优模型选择；获得9种最优机器学习分类模型，训练结束。

S106，分类模型评估：选择评估指标；使用测试数据集进行模型评估，并将模型进行保存。

S107，分类模型使用：分别进行数据整理和数据标准化后，制作模型人机接口，进行土层类别预测。

如图2所示，本发明实施例提供的基于机器学习的静力触探试验岩层智能识别系统包括：数据收集模块1、数据预处理模块2、数据集划分模块3、机器学习模型构建模块4、训练机器学习模型模块5、分类模型评估模块6、分类模型使用模块7。

数据收集模块1，用于获取人工分层的静力触探试验原始数据，并将原始数据整理成4列，分别表示试验点深度、锥尖阻力、侧壁阻力和土层类别。

数据预处理模块2，用于分别进行数据增强、数据标准化以及类别编码。

数据集划分模块3，用于分别进行训练数据集、验证数据集和测试数据集。

机器学习模型构建模块4，用于构建9种机器学习模型，在sklearn调用，并确定每个模型需要调节的超参数。

训练机器学习模型模块5，用于配置超参数的搜索范围，使用训练数据集训练模型，进行最优模型选择；获得9种最优机器学习分类模型，训练结束。

分类模型评估模块6，用于选择评估指标，使用测试数据集进行模型评估，并将模型进行保存。

分类模型使用模块7，用于分别进行数据整理和数据标准化后，制作模型人机接口，进行土层类别预测。

下面结合术语解释对本发明作进一步描述。

(1)机器学习：一种专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能的人工智能技术；

(2)静力触探试验：工程地质勘探中一项用于确定岩层工程性质的原位测试方法；

(3)岩层智能识别：使用人工智能技术根据岩层的相关性质确定岩层类别的研究。

下面结合实施例对本发明作进一步描述。

实施例1

本发明的目的是为静力触探试验提供一种全面的基于机器学习的智能化土层分类技术，为国内在静力触探试验中进行土层识别的研究提供新的方向。

本发明的方法主要包含训练机器学习模型和使用机器学习模型两大部分，其中训练机器学习模型部分需要使用人工分层的静力触探试验数据以得到包含人工经验的土层分类模型，而使用机器学习模型部分便不再需要人工参与，直接将静力触探试验原始数据放入机器学习模型即可得到土层分类的结果。程序框图如图4所示，具体方法包含以下步骤：

A.收集数据

A1.获取人工分层的静力触探试验原始数据；

A2.将原始数据整理成4列，分别表示【试验点深度】【锥尖阻力】【侧壁阻力】【土层类别】。

B.数据预处理

B1.数据增强。静力触探试验的原始数据一般每个土层类别的样本数量并不一致，这样会造成机器学习中的类别不平衡问题，一般应保证每个土层类别至少有1000个样本，不足1000的可以在该类别样本中通过随机算法复制已有样本扩充到1000，若存在某些类别样本数大于1000则将其他类别的样本全都随机扩充到与样本最多类别的数量一致即可；

B2.数据标准化。【试验点深度】【锥尖阻力】【侧壁阻力】是机器学习算法需要训练的特征，这3种特征均为数值类型，且数量级均不相同，特征数量级的不一致会影响机器学习模型的分类精度，因此需要进行数据特征标准化。标准化的原理是将每一种特征都转换到均值为0，方差为1的范围，具体方法如下：①计算同一种特征的均值；②计算同一种特征的标准差；③使用当前特征与当前特征均值的差除以当前特征的标准差；

B3.类别编码。静力触探试验原始数据中的【土层类别】表示每个样本所属的类别，原始数据中这些类别为具体的类别名，训练机器学习模型不能直接使用这些类别名字，需要对每种类别的名字进行编码。具体方法是根据土层类别的种类数依次编码为0、1、2、3…等，每一种土层类别由一个数字表示。

C.数据集划分

C1.训练数据集。训练数据集用于训练机器学习分类模型，一般占总数据集的60％-70％；

C2.验证数据集。验证数据集用于机器学习模型选择，一般占总数据集的10％-20％；

C3.测试数据集。测试数据集用于测试模型的泛化性能，即模型的分类精度，一般占总数据集的10％-20％。

D.机器学习模型构建

D1.构建包括【逻辑回归】、【支持向量机】、【决策树】、【K近邻】、【朴素贝叶斯】、【随机森林】、【AdaBoost】、【GBDT】、【XGBoost】在内的9种机器学习模型。这些算法在机器学习库sklearn中已经实现，不需要再手动实现模型，直接在sklearn调用即可。需要我们关注的是每个模型的超参数调节部分。

D2.确定每个模型需要调节的超参数。

D2-1.逻辑回归模型。逻辑回归模型的超参数包括正则化参数和优化算法，其中正则化参数可以选择的值包括‘l1’和‘l2’；优化算法可选择的方法包括liblinear、lbfgs、sag和newton-cg；

D2-2.支持向量机模型。支持向量机模型的超参数包括惩罚系数C和RBF核函数的系数γ。C的取值范围一般为0-10；γ的取值范围一般为0-1；

D2-3.K近邻模型。K近邻模型的超参数包括K值和距离度量方式。K值可以由小及大选取正整数做交叉验证；距离度量方式主要包括欧式距离、曼哈顿距离、切比雪夫距离和闵可夫斯基距离；

D2-4.朴素贝叶斯模型。朴素贝叶斯模型的超参数为样本特征的先验分布。先验分布的范围包括伯努利分布、多项式分布和高斯分布，一般选取高斯分布即可；

D2-5.决策树模型。决策树模型的超参数包括特征选择标准、决策树最大深度、叶子节点最少样本数、最大叶子节点数。特征选择标准包括信息熵、信息增益和基尼系数；决策树最大深度可以限制树的深度，从而防止过拟合，一般取10-100；叶子节点最少样本数限制了叶子节点最少的样本数，如果样本量特别大，如10万以上的样本可以设置为5，否则不需要调节该值；最大叶子节点数通过限制最大叶子节点数，可以防止过拟合如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制；

D2-6.随机森林模型。随机森林模型以决策树模型为子学习器，除了包含决策树模型的超参数之外，随机森林模型的超参数还包括子学习器数量，子学习器数量过少，模型容易欠拟合，过大则计算量太大，一般选择100左右的值；

D2-7.AdaBoost模型。AdaBoost模型的子学习器也是决策树，因此也包含决策树的左右超参数。AdaBoost模型的其他超参数包括分类算法、子学习器数量、子学习器的权重缩减系数v。分类算法包括SAMME和SAMME.R；子学习器数量太小会欠拟合，太大会过拟合，一般选择50左右；权重缩减系数v的取值范围为(0,1]；

D2-8.GBDT模型。GBDT模型的子学习器是决策树，包含决策树的所有超参数，除此之外GBDT的超参数还包括子学习器的数量、子学习器的权重缩减系数v、子采样率。GBDT子学习器的数量一般取100左右；权重缩减系数v的取值范围为(0,1]；子采样率的取值范围为(0,1]，小于1可以防止过拟合，但太小模型会欠拟合，一般选择0.5以上；

D2-9.XGBoost模型。XGBoost与GBDT模型非常类似，除决策树的超参数之外XGBoost模型还包含booster参数、子学习器数量和objective三个超参数。booster决定了XGBoost使用的弱学习器类型，可以是默认的gbtree,也就是CART决策树，还可以是线性弱学习器gblinear以及DART。一般来说使用gbtree就可以了；子学习器数量与GBDT模型类似；objective代表了要解决的问题是分类还是回归，或其他问题，以及对应的损失函数，回归问题objective一般使用reg:squarederror，即MSE均方误差，二分类问题一般使用binary:logistic，多分类问题一般使用multi:softmax。

E.训练机器学习模型

E1.为每个模型配置超参数的搜索范围；

E1.使用训练数据集开始训练模型；

E2.在训练的过程中使用网格搜索和验证数据集进行最优模型选择；

E3.获得9种最优的机器学习分类模型，训练结束。

F.分类模型评估

F1.选择评估指标。机器学习分类模型的评估指标一般包括分类精度、混淆矩阵、ROC曲线和AUC值，实际使用时可灵活选取；

F2.使用测试数据集进行模型评估。由于测试数据集未参与训练模型，模型不包含测试数据集的特征，因此可以客观的反映每个模型的实际分类性能；

F3.模型保存。通过序列化方法将训练好的模型包括结构和参数保存在硬盘中，这样以后就可以重复使用这些模型进行土层分类了。

G.分类模型使用

G1.数据整理。将需要进行土层分类的静力触探试验数据整理成包含【试验点深度】【锥尖阻力】【侧壁阻力】3列特征的形式，此时数据不再包含【土层类别】列，因为这是模型需要预测的分类结果，由机器学习模型得出；

G2.数据标准化。使用B2中的算法完成数据标准化；

G3.制作模型人机接口。为了使用已保存的9种机器学习模型，可以设计图形用户界面人机接口，以方便的读取静力触探试验数据和使用保存的分类模型；

G4.土层类别预测。将整理好的静力触探试验数据送入已保存好的9种机器学习模型中进行土层预测，选择分类效果最好的结果，完成土层分类。

上述技术方案中包含了模型训练和模型使用两部分。其中A-F为模型训练部分，G为模型使用部分，在实际使用时一般模型训练部分只需要进行一次即可，主要是使用训练好的模型进行土层分类，如果研究区域出现了模型训练时未包含的土层类别，则需要重新训练包含新的土层类别的机器学习模型，具体的训练方法不会有任何变化。

作为一种优选方案，由于不存在某种机器学习模型在土层分类任务上具有绝对的优势，因此在步骤D1中同时使用了9种不同的机器学习模型，这样最终的土层分类结果只需要选择效果最优的模型结果即可，最大程度上消除机器学习算法本身对分类结果的影响。

实施例2

1、实施案例

实施案例以某变电站工程基地为研究区域，共选取了25个静力触探试验钻孔点，25个点的相对位置如图3所示。其中选取{1C1,1C4,1C5,1C6,1S5,1S7,1S9,1S20,1S22,1S26,1S28,1S29,1S33,1S34,1S35,1S36,1S37,1S39,1S40,1S42,1S44}共21个点的静力触探试验数据为训练数据集，{1C2,1C3,1S43,1S45}共4个点的数据为测试数据集，部分样本数据如表1所示。

表1部分样本数据

试验点深度(m)	锥尖阻力(MPa)	侧壁阻力(MPa)	土层类别
				0.1	1.13	0.0171	素填土
2.2	0.47	0.0135	粉质黏土(流塑-软塑)
				4	0.38	0.0106	粉质黏土(流塑-软塑)
5.5	6.33	0.0453	粉砂(松散)
				13	6.61	0.0697	粉砂夹粉土(中密)

实验过程中从原始数据点中提取出了8个不同岩性的岩层类别，分别是【素填土】、【粉质黏土(流塑-软塑)】、【粉砂(松散)】、【粉砂夹粉土(中密)】、【粉砂(中密)】、【粉质黏土(可塑)】、【粉质黏土(可塑-硬塑)】、【粉细砂(密实)】，具体的岩层类型及类别标签编码如表2所示。

表2土层类别编码

土层类型	标签编码
		素填土	0
粉质黏土(流塑-软塑)	1
		粉砂(松散)	2
粉砂夹粉土(中密)	3
		粉砂(中密)	4
粉质黏土(可塑)	5
		粉质黏土(可塑-硬塑)	6
粉细砂(密实)	7

训练数据集和测试数据集中各类别的样本数据量统计如表3和表4所示。

表3训练数据集不同类别土层样本量统计

土层类型	标签编码	样本数量
			素填土	0	59
粉质黏土(流塑-软塑)	1	848
			粉砂(松散)	2	1990
粉砂夹粉土(中密)	3	1072
			粉砂(中密)	4	961
粉质黏土(可塑)	5	584
			粉质黏土(可塑-硬塑)	6	136
粉细砂(密实)	7	150

表4测试数据集不同类别土层样本量统计

土层类型	标签编码	样本数量
			素填土	0	24
粉质黏土(流塑-软塑)	1	164
			粉砂(松散)	2	331
粉砂夹粉土(中密)	3	255
			粉砂(中密)	4	150
粉质黏土(可塑)	5	96
			粉质黏土(可塑-硬塑)	6	30
粉细砂(密实)	7	50

从表3中可以发现训练数据集中存在比较严重的类别不平衡问题，如果直接使用这些数据训练模型会使得模型更偏向识别那些样本量大的类别，样本量较少的类别识别效果则会较差。为了尽可能的消除类别不平衡引起的模型偏差问题，实验中使用B1提到的方式将每个土层类别的样本数据量都扩充到了2000。然后再使用B2中的方法对训练数据集和测试数据集进行了数据标准化，实验中验证数据集从训练数据集中随机选取了10％的样本。

2、机器学习模型超参数设置

(1)逻辑回归

逻辑回归模型包含正则化参数和优化算法两个超参数。在案例中正则化参数选择‘l2’，因为‘l1’正则化容易使参数变得过于稀疏；优化算法选择lbfgs，即拟牛顿法的一种。

(2)支持向量机

支持向量机模型的超参数包括惩罚系数C和RBF核函数的系数γ。案例中C的取值为[0.1,1,5,10]，γ的取值为[1,0.1,0.01]，实验中使用交叉验证对12组C和γ的取值进行最优选择。

(3)K近邻模型

K近邻模型的超参数包括K值和距离度量方式。在案例中K的取值为[5,10,15,20]，使用交叉验证方法选择最终的K值；距离度量方式使用默认的欧式距离即可。

(4)朴素贝叶斯模型

朴素贝叶斯模型的超参数为样本特征的先验分布。如果样本特征为离散值，先验分布选取伯努利分布或多项式分布，如果样本特征为连续值，先验分布选取高斯分布。本案例中的特征【试验点深度】【锥尖阻力】【侧壁阻力】均为连续值，因此先验分布选择高斯分布。

(5)决策树模型

决策树模型的超参数包括特征选择标准、决策树最大深度、叶子节点最少样本数、最大叶子节点数。本案例中特征选择标准设置为基尼系数；由于本案例中数据集特征较少，因此不用限制决策树最大深度，设置为None即可；叶子节点最少样本数使用默认值即可，因为本案例中样本比较少；同样由于本案例中数据集特征较少，最大叶子节点数也不用限制，否则模型会欠拟合。

(6)随机森林模型

随机森林模型子学习器为决策树，相关超参数与决策树模型保持一致。随机森林的其他超参数为子学习器数量，在案例中设置为100。

(7)AdaBoost模型

AdaBoost的子学习器超参数与决策树保持一致。AdaBoost模型的其他超参数包括分类算法、子学习器数量、子学习器的权重缩减系数v。案例中分类算法选择SAMME.R，因为其比SAMME迭代更快；子学习器数量设置为50；由于子学习器数量较多，因此将子学习器的权重缩减系数v设置为1。

(8)GBDT模型

GBDT模型的子学习器超参数和决策树相同。GBDT的超参数还包括子学习器的数量、子学习器的权重缩减系数v、子采样率。在本案例中子学习器的数量设置为100；子学习器的权重缩减系数v也为1；由于样本数量较少，本案例中子采样率设置为1，即采样所有样本。

(9)XGBoost模型

XGBoost模型的子学习器超参数和决策树一致。XGBoost模型还包含booster参数、子学习器数量和objective三个超参数。booster参数使用默认的gbtree即可；子学习器的数量设置为100；由于本案例为多分类问题，因此objective参数设置为multi:softmax。

3、案例实施效果

案例最后在{1C2,1C3,1S43,1S45}共4个测试点进行了土层分类效果测试，使用的评估指标为分类精度和混淆矩阵。9种机器学习分类模型在各测试点的分类精度结果如表5所示。混淆矩阵的横坐标表示预测的类别标签，纵坐标表示实际的类别标签，因此混淆矩阵中对角线的数值越大，表示预测精度越高，而其他非对角线位置的非零数值表示预测错误的样本数。每个测试点分类精度最高的机器学习模型混淆矩阵详见图5-图8。

从表5可以发现，各测试点表现最优的机器学习模型基本都能以90％左右的精度正确实现基于静力触探试验数据的土层分类。

表5 9种机器学习模型在各测试点的分类精度

4、根据以上案例实施效果，本发明的技术特征包含使用的9种机器学习分类技术以及基于静力触探试验数据的土层分类应用，任何将以上9种机器学习分类技术应用于基于静力触探试验数据的土层分类均属于本发明的技术特征范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习的静力触探试验岩层智能识别方法，其特征在于，所述基于机器学习的静力触探试验岩层智能识别方法包括：

获取人工分层的静力触探试验原始数据；将原始数据整理成多列，分别表示试验点深度、锥尖阻力、侧壁阻力和土层类别；

分别进行数据增强、数据标准化以及类别编码；

分别进行训练数据集、验证数据集和测试数据集；

构建多种机器学习模型，并确定每个模型需要调节的超参数；

配置超参数的搜索范围，使用训练数据集训练模型，进行最优模型选择；获得多种最优机器学习分类模型，训练结束；

选择评估指标；使用测试数据集进行模型评估，并将模型进行保存；

分别进行数据整理和数据标准化后，制作模型人机接口，进行土层类别预测。

2.如权利要求1所述的基于机器学习的静力触探试验岩层智能识别方法，其特征在于，所述数据预处理，包括：

(2)数据标准化：试验点深度、锥尖阻力和侧壁阻力是机器学习算法需训练的特征，这3种特征均为数值类型，且数量级均不相同；标准化的方法是将每一种特征都转换到均值为0，方差为1的范围包括：

计算同一种特征的均值；计算同一种特征的标准差；使用当前特征与当前特征均值的差除以当前特征的标准差；

(3)类别编码：静力触探试验原始数据中的土层类别表示每个样本所属的类别，根据土层类别的种类数依次编码为0、1、2、3…，每一种土层类别由一个数字表示。

3.如权利要求1所述的基于机器学习的静力触探试验岩层智能识别方法，其特征在于，所述数据集划分，包括：

4.如权利要求1所述的基于机器学习的静力触探试验岩层智能识别方法，其特征在于，所述多种机器学习模型包括：逻辑回归、支持向量机、决策树、K近邻、朴素贝叶斯、随机森林、AdaBoost、GBDT、XGBoost；

所述确定每个模型调节的超参数，包括：

(3)K近邻模型：K近邻模型的超参数包括K值和距离度量方式；K值由小及大选取正整数做交叉验证；距离度量方式包括欧式距离、曼哈顿距离、切比雪夫距离和闵可夫斯基距离；

(4)朴素贝叶斯模型：朴素贝叶斯模型的超参数为样本特征的先验分布；先验分布的范围包括伯努利分布、多项式分布和高斯分布，选取高斯分布即可；

(5)决策树模型：决策树模型的超参数包括特征选择标准、决策树最大深度、叶子节点最少样本数、最大叶子节点数；特征选择标准包括信息熵、信息增益和基尼系数；决策树最大深度取10-100；叶子节点最少样本数限制了叶子节点最少的样本数，10万以上的样本可设置为5，否则不需要调节该值；

(7)AdaBoost模型：AdaBoost模型的子学习器也是决策树，也包含决策树的左右超参数；AdaBoost模型的其他超参数包括分类算法、子学习器数量、子学习器的权重缩减系数v；分类算法包括SAMME和SAMME.R；子学习器数量选择50；权重缩减系数v的取值范围为(0,1]；

(8)GBDT模型：GBDT模型的子学习器是决策树，包含决策树的所有超参数，GBDT的超参数还包括子学习器的数量、子学习器的权重缩减系数v、子采样率；GBDT子学习器的数量取100；权重缩减系数v的取值范围为(0,1]；子采样率的取值范围为(0,1]；

(9)XGBoost模型：XGBoost与GBDT模型非常类似，除决策树的超参数之外XGBoost模型还包含booster参数、子学习器数量和objective三个超参数；booster决定XGBoost使用的弱学习器类型，是默认的gbtree,也就是CART决策树，还可以是线性弱学习器gblinear以及DART；子学习器数量与GBDT模型类似；objective代表要解决的问题是分类还是回归，或其他问题，以及对应的损失函数，回归问题objective使用reg:squarederror，即MSE均方误差，二分类问题使用binary:logistic，多分类问题使用multi:softmax。

5.如权利要求1所述的基于机器学习的静力触探试验岩层智能识别方法，其特征在于，所述训练机器学习模型，包括：

(1)为每个模型配置超参数的搜索范围；

(2)使用训练数据集开始训练模型；

(4)获得9种最优的机器学习分类模型，训练结束。

6.如权利要求1所述的基于机器学习的静力触探试验岩层智能识别方法，其特征在于，所述分类模型评估，包括：

7.如权利要求1所述的基于机器学习的静力触探试验岩层智能识别方法，其特征在于，所述分类模型使用，包括：

(2)数据标准化：使用B2中的算法完成数据标准化；

8.一种基于机器学习的静力触探试验岩层智能识别系统，其特征在于，所述基于机器学习的静力触探试验岩层智能识别系统包括：

数据收集模块，用于获取人工分层的静力触探试验原始数据，并将原始数据整理成4列，分别表示试验点深度、锥尖阻力、侧壁阻力和土层类别；

数据预处理模块，用于分别进行数据增强、数据标准化以及类别编码；

数据集划分模块，用于分别进行训练数据集、验证数据集和测试数据集；

机器学习模型构建模块，用于构建9种机器学习模型，在sklearn调用，并确定每个模型需要调节的超参数；

训练机器学习模型模块，用于配置超参数的搜索范围，使用训练数据集训练模型，进行最优模型选择；获得9种最优机器学习分类模型，训练结束；

分类模型评估模块，用于选择评估指标，使用测试数据集进行模型评估，并将模型进行保存；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～7任意一项所述的基于机器学习的静力触探试验岩层智能识别方法。

10.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1～7任意一项所述的基于机器学习的静力触探试验岩层智能识别方法。