CN109214084A

CN109214084A - 孔压静力触探海底土层划分方法及系统

Info

Publication number: CN109214084A
Application number: CN201811021219.4A
Authority: CN
Inventors: 宣耀伟; 何旭涛; 丁兆冈; 彭维龙; 李世强; 胡文侃; 马兴端; 沈耀军; 张志刚; 舒琪
Original assignee: ZHEJIANG ZHOUSHAN MARINE ELECTRIC POWER TRANSMISSION RESEARCH INSTITUTE Co Ltd; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Zhoushan Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: ZHEJIANG ZHOUSHAN MARINE ELECTRIC POWER TRANSMISSION RESEARCH INSTITUTE Co Ltd; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Zhoushan Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-01-15
Anticipated expiration: 2038-09-03
Also published as: CN109214084B

Abstract

本发明公开了一种孔压静力触探海底土层划分方法及系统，涉及一种土层划分领域。目前的分层方法在CPTU指标的选取上有较大的主观性，分层结果不很准确。本发明包括步骤：获取原始指标数据、数据处理、降维处理、聚类；在K均值聚类判层方法基础上，使用自编码器对投入聚类的海底孔压静力触探指标进行降维，去除冗余特征，优化特征间的权重，对得到的特征子集进行K均值聚类，发现聚类分层结果的轮廓系数等聚类评价指标都大为提高；本技术方案利用自编码器结合K均值聚类，海底土层分界面的准确度高，且土类个数、结果展示能够直观表现。

Description

孔压静力触探海底土层划分方法及系统

技术领域

本发明涉及土层划分领域，尤其涉及孔压静力触探海底土层划分方法及系统。

背景技术

孔压静力触探试验凭借其迅速、操作便捷、数据连续、功能齐全、良好的可扩展性等优点，近年来在陆上及海洋工程地质调查和岩土工程勘察中得到越来越多的使用，其数据指标已经逐渐成为海洋工程地质条件及地质灾害评价的重要依据。无论是工程地质调查还是岩土工程勘察，正确的划分地层和识别土类都是最基础且最重要的内容，影响着后续工作的质量。

相比于钻探结合室内试验的方法，孔压静力触探可以有效避免漏层，并且更为准确的识别土层边界。然而，孔压静力触探试验也会产生大量的数据，且受地层深度影响，数据会发生非线性变异。同时，试验的指标单从数值上与土类并不能直接对应，同一土类可能会有不同的力学响应，仅凭经验要想取得较好结果需要耗费很多时间与精力。因此国内外有相当的研究者提出了一些利用CPTU数据自动或半自动的判别土类、地层的方法。其中常规统计学方法有：Webster等提出采用组内相关系数指数R_I来识别均质土层边界；杨树荣采用多变量统计分析中的最优分割法理论，对静力触探3个力学指标的测试曲线，进行综合分析，聚类分割，划分出地基土的不同层；Hegazy等考虑不同土的组成和力学性质的不确定性，采用模糊理论，对静力触探测试数据曲线进行土层分界和分类。首先利用模糊理论中的区域估计和点估计等统计方法计算各类土的概率曲线，根据各点属于某类土的概率大小来判定土的分类和分层然后采用概率区域评价分类方法，基于土的组成和力学性状的相关关系，给出了各深度上不同土类出现的概率。

除了常规的统计学方法外，对于有临近钻孔资料可参考的，可以对CPTU数据手工标定土类标签后，使用有监督的机器学习方法训练模型和预测，或者使用已经训练好的模型预测土类，如蔡国军等采用广义回归神经网络对土层进行分类，并与国内外的土分类方法进行对比分析，发现广义回归神经网络可以对土层进行初步分类；苗永红等发现基于概率神经网络的孔压静力触探方法能够准确识别土层的类型以及厚度，并且对场地的均匀性、不良岩土层的评价具有一定效果。而在缺乏这类资料时，则只有借助无监督学习方法，聚类方法就是其中之一。Hegazy等评价了不同的聚类方法，建议使用最近邻法-谱系聚类方法对CPTU测试数据进行分析，并归纳总结了采用最近邻法-谱系聚类方法对CPTU测试数据进行统计分析划分土层和土类的步骤，提出了基于聚类分析的CPTU测试划分土层的准则。蔡国军、苗永红等采用上述方法对江苏多个场地进行土层划分，取得了较为理想的效果。

目前已有的地层土类划分方法主要依靠人工选择特征，虽然CPTU指标并不算多，但仍然存在冗余，还有些与土性类别相关性较低，选取这样的特征会造成干扰，选取指标过少又会导致信息遗漏。而且人工选取出来的特征依赖人的经验，不同人选择有差异，可靠性不高。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供孔压静力触探海底土层划分方法及系统，以达到分层准确的目的。为此，本发明采取以下技术方案。

孔压静力触探海底土层划分方法，包括步骤：

1)获取原始指标数据：包括实测的孔隙水压力u2、锥尖阻力q_c、侧壁摩阻力f_s、摩阻比R_f和考虑了上覆自重应力与静水孔压的影响的归一化锥尖阻力Q_t、孔压比B_q；

2)数据处理：对获取的数据进行均值归一化处理，使经过处理的数据符合标准正态分布；

3)降维处理：将处理好的数据输入自编码器，自编码器对投入聚类的海底孔压静力触探指标进行降维，去除冗余特征，优化特征间的权重，得到特征矩阵；

4)聚类：对降维处理后的特征矩阵进行K均值聚类；根据土的种类确定聚类初始数目，对聚类结果计算组内平方误差和，根据聚类数目与组内平方误差和，确定最佳聚类数目；将分类标签与深度关联，获得土层划分结果。

在已有的K均值聚类判层方法基础上，使用自编码神经网络对投入聚类的海底孔压静力触探指标进行降维，去除冗余特征，优化特征间的权重，对得到的特征子集进行K均值聚类，发现聚类分层结果的轮廓系数等聚类评价指标都大为提高。通过在舟山海域海底地层CPTU数据上的应用，证实了利用自编码神经网络结合K均值聚类在海底土层分界面的准确度、土类个数、结果展示的直观性方面都表现更好。

同时，通过特征选择算法从原始数据中来学习和抽取特征，促进特征工程的工作更加快速、有效，并最终提升划分效果。本技术方案对CPTU原始数据进行特征选择意在寻找与土性类别相关性强、而特征彼此间相关性弱的特征子集，特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精确度，减少程序运行时间的目的，本质上是一个组合优化的过程。

通过特征选择算法从原始数据中来学习和抽取特征，促进特征工程的工作更加快速、有效，并最终提升划分效果。自编码器采用自编码器神经网络进行深度学习中的无监督特征学习，利用自编码器作为特则选择的方法来改善土层聚类的效果。

作为优选技术手段：在步骤2)数据处理时，经过归一化处理的数据符合标准正态分布，即均值为0，标准差为1，归一化的转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差；

作为优选技术手段：在归一化处理前，对数据进行L2正则化以为防止过拟合，即对每个样本计算其范数，然后对该样本中每个元素除以该范数，使得每个处理后样本的范数等于1；L2-范数的计算公式：

其中n为样本个数，xi为第i个样本。

作为优选技术手段：在步骤3)降维处理时，选择3个维度进行输出。即输出三个特征。

作为优选技术手段：在步骤4)聚类时，采用聚类算法为K-means++，从数据中随机取一个点作为初始的聚类中心，接着对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)，然后选择一个新的数据点作为新的聚类中心，选择的原则是：选取D(x)最大的点作为新的聚类中心。

作为优选技术手段：根据组内平方误差和绘制聚类数目与组内平方误差和的关系图—拐点图来确定最佳聚类数目。

作为优选技术手段：在步骤4)中，将分类标签与深度关联时，将分类标签与深度作为横纵坐标成图即为土层划分结果，使用移动窗口法计算每50cm土层的标签均值来辅助分层，在夹层薄层超过设定值时，则计算每50cm土层的标签中位数。在缺乏可参考的钻井柱状图等地质资料的情况下，对CPTU数据首先经过自编码器的特征选择得到更具代表性的特征矩阵，之后再使用K均值法聚类可以明显提升土层划分的准确度，辅以窗口滑动法优化结果曲线可以实现准确直观地判层，同时可以划出薄层，夹层和透镜体等的位置。

作为优选技术手段：自编码器通过自编码器模型对投入聚类的海底孔压静力触探指标进行降维；所述自编码器模型由自编码器通过自编码器神经网络进行深度学习中的无监督特征学习得到；自编码器神经网络将数据的高维特征进行压缩降维编码，并对编码后的数据进行相应解码；将解码得到的最终结果与原数据进行比较，若两者的差值超过域值，则修正权重偏置参数，降低损失函数，以提高对原数据的复原能力；学习完成后，前半段的编码过程得到结果即可代表原数据的低维特征值。

作为优选技术手段：自编码器采用降噪自编码器，以二项分布概率去擦除原始输入矩阵。以二项分布概率去擦除原始输入矩阵，即每个值都随机置0，给训练数据加入噪声，自动编码器学习去除这种噪声而获得真正的没有被噪声污染过的输入。使得自编码器采用降噪自编码器提高泛化能力。

本发明的另一个目的是提供一种孔压静力触探海底土层划分系统，其包括：

原始指标数据获取模块：用于获取原始指标数据，获取的原始指标数据包括实测的孔隙水压力u2、锥尖阻力q_c、侧壁摩阻力f_s、摩阻比R_f和考虑了上覆自重应力与静水孔压的影响的归一化锥尖阻力Q_t、孔压比B_q；

数据处理模块：与原始指标数据获取模块相连，用于对获取的数据进行均值归一化处理，使经过处理的数据符合标准正态分布；

降维处理模块：用于将处理好的数据输入自编码器，对投入聚类的海底孔压静力触探指标进行降维，去除冗余特征，优化特征间的权重，得到特征矩阵；

4)聚类模块：用于对降维处理后的特征矩阵进行K均值聚类；根据土的种类确定聚类初始数目，对聚类结果计算组内平方误差和，根据聚类数目与组内平方误差和，确定最佳聚类数目；将分类标签与深度关联，获得土层划分结果。

有益效果：

1、本技术方案使用自编码神经网络对投入聚类的海底孔压静力触探指标进行降维，去除冗余特征，优化特征间的权重，对得到的特征子集进行K均值聚类，聚类分层结果的轮廓系数等聚类评价指标得到提高。利用自编码神经网络结合K均值聚类在海底土层分界面的准确度、土类个数、结果展示的直观性好。

2、通过特征选择算法从原始数据中来学习和抽取特征，促进特征工程的工作更加快速、有效，并最终提升划分效果。本技术方案对CPTU原始数据进行特征选择意在寻找与土性类别相关性强、而特征彼此间相关性弱的特征子集，特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精确度，减少程序运行时间的目的，本质上是一个组合优化的过程。

3、通过特征选择算法从原始数据中来学习和抽取特征，促进特征工程的工作更加快速、有效，并最终提升划分效果。自编码器采用自编码器神经网络进行深度学习中的无监督特征学习，利用自编码器作为特则选择的方法来改善土层聚类的效果。

附图说明

图1是本发明流程图。

图2是不同维度特征聚类结果图。

图3是拐点图。

图4(a)、4(b)、4(c)是分层结果比较图。

图5是采用窗口法处理的分层结果图。

图6(a)、6(b)、6(c)、6(d)是分层结果比较图。

图7(a)、7(b)、7(c)、7(d)是分层结果比较图。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，孔压静力触探海底土层划分方法包括步骤：

1)获取原始指标数据，包括实测的孔隙水压力u2、锥尖阻力q_c、侧壁摩阻力f_s、摩阻比R_f和考虑了上覆自重应力与静水孔压的影响的归一化锥尖阻力Q_t、孔压比B_q；

2)数据处理，对获取的数据进行均值归一化处理，使经过处理的数据符合标准正态分布；

3)降维处理，将处理好的数据输入自编码器，自编码器对投入聚类的海底孔压静力触探指标进行降维，去除冗余特征，优化特征间的权重，得到特征矩阵；自编码器通过自编码器神经网络进行深度学习中的无监督特征学习得到自编码器模型，自编码器通过自编码器模型实现将高维数据压缩至所期望的维度；

4)聚类，对降维处理后的特征矩阵进行K均值聚类；根据土的种类确定聚类初始数目，对聚类结果计算组内平方误差和，根据聚类数目与组内平方误差和，确定最佳聚类数目；将分类标签与深度关联，获得土层划分结果。

一种孔压静力触探海底土层划分系统，包括：

以下对涉及的原理、步骤等作进一步的说明：

A)自编码神经网络降维原理

自编码神经网络(Autoencoder)是一种多层神经网络,Hinton等人在1989年的工作就已经开始了对其的研究。它是一种无监督学习算法，使用反向传播，大致是一个将数据的高维特征进行压缩降维编码，再经过相反的解码过程的一种学习方法。学习过程中通过解码得到的最终结果与原数据进行比较，通过修正权重偏置参数降低损失函数，不断提高对原数据的复原能力。学习完成后，前半段的编码过程得到结果即可代表原数据的低维“特征值”。通过学习得到的自编码器模型可以实现将高维数据压缩至所期望的维度。

自编码神经网络试图逼近这样的一个恒等函数：h_w,b(x)＝x。使得神经网络的输出等于输入，不过单纯的使输入等于输出只能得到一个恒等变换，必须施加一些约束才可以学习到有用的东西。如果输入层神经元的个数n大于隐层神经元个数m，这样隐藏层可以看做对输入的压缩编码，使用压缩编码后的特征可以重构出原始特征,那么我们就相当于把数据从n维降到了m维。除此之外也可以使隐藏层神经元个数大于输入层，不管维度是变多还是变少，自编码器调整的是权重与偏置，最终学到新的特征，而不是简单的去掉某些原始特征。

自编码网络包含两个过程：

(1)从输入层-》隐藏层的原始数据X的编码过程：

h＝gθ₁(x)＝s_f(W₁x+b₁) (1)

(2)从隐藏层-》输出层的解码过程：

数据X的平均重构误差损失函数就是：

其中m是训练样本的个数,s_f和s_g为激活函数，通常为sigmoid函数，即其输出也在0-1之间，W₁与W₂为权值矩阵，vincent证明只需要令W₂＝W₁ ^T即可。

在利用CPTU得到的指标来划分地层及判定土类时，各项指标之间并非都是独立同分布的，存在一些冗余性，自编码器可以通过学习去掉这些冗余信息。

自编码器还有一些改进型，包括稀疏自编码、降噪自编码和变分自编码等等。

所谓降噪自编码器，就是以一定概率分布(通常使用二项分布)去擦除原始输入矩阵，即每个值都随机置0，给训练数据加入噪声，所以自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入。因此，这就迫使编码器去学习输入信号的更加鲁棒的表达，这也是它的泛化能力比一般编码器强的原因，本技术方案具体使用的即为此种自编码器。

B)结合自编码神经网络的聚类步骤

B1原始指标

CPTU数据包括实测的孔隙水压力u2、锥尖阻力q_c、侧壁摩阻力f_s、摩阻比R_f和考虑了上覆自重应力与静水孔压的影响的归一化锥尖阻力Q_t、孔压比B_q。

B2数据处理

由于神经元的输出只在0和1之间，因此输入的数据需要进行均值归一化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。此过程本质上是将所有数据的中心平移到原点，同时使得所有数据的不同特征都有相同的尺度(Scale)，在使用梯度下降法的时候，不同特征参数的影响程度就会一致了。

为防止过拟合，还需对数据进行L2正则化，即对每个样本计算其范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的范数等于1。L2-范数的计算公式：

B3特征工程(降维)

将处理好的数据输入自编码器，由于数据量比较小，因此神经网络中只设两个隐层。

降维后的特征数不同，聚类的结果当然是有差异的，需要确定较好的维数，基于多组不同数据，本技术方案对输出维数为2，3，4，5的聚类结果进行比较，综合来看，选择3个维度即输出为三个特征效果最好；如图2所示。

B4聚类

经过自编码器降维后的特征矩阵即可通过聚类算法进行聚类。具体来说，本技术方案所用聚类算法为K-means++，与K-means相比，不需要人为指定初始聚类中心，而是从数据中随机取一个点作为初始的聚类中心，接着对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)，然后选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大。

在聚类分析的时候确定最佳聚类数目是一个很重要的问题，K-means++方法就需要提供聚类数目这个参数。考虑到实际中土的种类，我们可以指定聚类数目为2，3，4，…，8等，分别进行聚类，然后对聚类结果计算组内平方误差和，绘制聚类数目与组内平方误差和的关系图—拐点图(肘部法)来确定最佳聚类数目。以图3为例，k超过4以后，平均畸变程度不再明显降低，故可取4为聚类数目，不过考虑到实际海底土种类一般为四到六个，故也可取6。

最终将分类标签与深度作为横纵坐标成图即为土层划分结果，由于孔压静力触探一般是每推进两公分收集一组数据，而地质分层时最小五十公分层厚，在地层较为复杂时，分层会过于细碎，因此使用移动窗口法计算每50公分土层的标签均值来辅助分层，在夹层薄层较多时，则计算每50公分土层的标签中位数，以下实例图表未加说明皆为取均值。

B5聚类结果评价

目前对于聚类效果评价有很多种方法，此处使用最常用的两个指标：轮廓系数(Silhouette系数)和簇评估系数(inertia_，越小越好)。

Silhouette系数是对聚类结果有效性的解释和验证，由Peter J.Rousseeuw于1986提出。计算方法：

1，计算样本i到同簇C其他样本的平均距离a_i。a_i越小，说明样本i越应该被聚类到该簇。将a_i称为样本i的簇内不相似度。簇C中所有样本的a_i均值称为簇C的簇不相似度。

2，计算样本i到其他某簇C_j的所有样本的平均距离b_i,j，称为样本i与簇C_j的不相似度。定义为样本i的簇间不相似度：b_i＝min{b_i,1,b_i,2,...,b_i,k}，b_i越大，说明样本i越不属于其他簇。

3，根据样本i的簇内不相似度a_i和簇间不相似度b_i，定义样本i的轮廓系数：

也即：

s_i接近1，则说明样本i聚类合理；s_i接近-1，则说明样本i更应该分类到另外的簇；若s_i近似为0，则说明样本i在两个簇的边界上。所有样本的s_i的均值称为聚类结果的轮廓系数。

C)土层识别结果对比

本技术方案所使用CPTU数据均采集自舟山群岛某海域地层，水底地面标高-10.0m～-15.0m左右，水下地形较平坦，局部近基岩礁石地段在潮流冲刷下可加深至-20.0m或更深。

本技术方案所用数据来自三个测试孔，水深分别为6.8m、10.5m和12.0m。所使用设备为荷兰辉固公司10T推力海床式CPTU系统，贯入速率2cm/s,采样间隔2cm，采取部分有效数据共3450组，探头10cm²。本技术方案将会对比分析普通的最近邻法(Kmeans)，深度神经网络(DNN)(因为使用一号孔数据作为训练集，故只在二、三号孔分层中使用)与经过自编码器降维后的最近邻法(AE-Kmeans)全指标聚类分层结果。

C1层间差异明显的地层

一号孔静力触探曲线如图4(c)所示，在30m以浅分为6层：一层为粉土，灰色，饱和，松散～稍密，混有粉砂，土质较差；二层为淤泥质粉质粘土灰色，流塑，厚层状，切面欠光滑，局部含有贝壳碎屑及粉土小团块，局部夹有粉土、粉砂薄层。干强度中等，韧性中等，无摇震反应，局部相变为淤泥。该层为近现代堆积，土性软弱，见于滩面及冲刷槽内，物理力学性质差；三层为粉砂，灰色，松散～稍密，饱和，厚层状，砂质不纯，含较多黏性土薄层及团块；四层为粉质粘土(可塑)，灰色，流塑～软塑，松散～稍密；五层为粉质粘土(硬塑)；六层为粉土，灰色～灰黄色，中密～密实，很湿，饱和，厚层状，切面粗糙，摇振反应迅速，呈现砂性土低峰林Q_C曲线特征。分界深度为1.8m，7.2m，10.2m，22m，24m。观察CPTU曲线，可以发现曲线变化比较简单，地层分界面很明显。拐点法确定最佳的簇数为4，实际也确实为四个主要土类。使用AE-Kmeans方法，见图4(b)，可以清晰准确的划分出所有地层分界面，同时可以识别出更多次级界面，如9.5m及26.5m处的隐含界面。而单独的K-means，见图4(a)，在使用无筛选的全指标时分层则不那么准确，同时存在漏层的情况。

实际上，如果用窗口法对聚类后的标签每五十公分取中值，得到的分层结果会更加直观。可以准确的显示主要层面，及未处理的标签，反映一些透镜体和夹层的存在，基本上取得与人工分层相当或更好的效果,如图5。

单独的Kmeans方法对一号孔CPTU数据的聚类效果一般，在聚类数目为4时，指标仅为：inertia_＝3430.84533496，si＝0.47910739501。而使用了自编码器之后，si则达到0.951376832564，inertia则降至70.7642772703，提升非常明显，因此才可以更准确的判别不同的土类，识别出夹层和透镜体等。

C2土性均匀变化的地层

二号孔静力触探曲线如图6(c)所示，在30m以浅分为6层：一层为褐灰色淤泥，饱和，流塑，含腐植质，近淤泥质粉质粘土；二层为粉砂(稍密)；三层为淤泥质粉质黏土，流塑，厚层状；四层为粉土(稍密)，厚层状，砂质不纯，含较多黏性土薄层及团块；五层为粉土(中密)；六层为粉质粘土夹粉土。分界深度为0.4m，2m，11.3m，20.5m，27.5m。拐点法确定的簇数目为6。由于第四层与第五层都是粉土，土性十分相近，在不严格的情况下，甚至可以划为一层。从图上看，单纯的Kmeans，见图5(a)；无法准确划分出20.2m深处粉土层内部边界，，而自编码之后的聚类则划出了这一层，同样在五六层的区分上也更明显一些，见图6(b)。根据图6(b)，还可看出，16.5m处似也可作一主分界面。此外图6(b)在2m-4.2m间也表现为一层。

岩土体的力学特征有很大的空间差异性，会影响预测的准确性。图6(d)为使用深度神经网络(DNN)给出的地层及土类预测结果，其中标签0为淤泥质粉质黏土，1为粉土，2为粉砂，3为粉质粘土，4为淤泥。DNN的原理与普通神经网络相近，只是隐藏层更多，网络结构有所改变，这里不再赘述。训练DNN所用到的数据集为本次该区域开展的所有孔压静力触探试验所获得的测试数据中最典型的部分，深度神经网络在测试集上获得了1.0的准确率，但是在测试集即二号孔上仅获得了0.83的准确率，在图像结果上反映为将较深的地层都判为了粉土层，没有识别出其中的粉质粘土夹层。不过在上部土层则划分的较为准确，同时反映出2m-4.2m为粉土层，证实图6(b)划分的准确性。通过与单纯的的K均值聚类方法以及有监督的深度神经网络方法预测结果的对比，可以看出使用自编码之后的K均值聚类方法在划分土层的准确性上是比较高的。尽管如此，也发现这几种方法在变化丰富的包含粉土与粉质粘土的土层划分与判别上都还差强人意。

二号孔经过自编码器降维后聚类结果评估值为si＝41.227200615，inertia＝0.975167404653，未降维使用Kmeans的聚类结果评估值si＝4378.34387068，inertia＝0.395030853142，降维的优势同样显而易见。

C3含厚层的地层

三号孔静力触探参数曲线如图7(c)所示，33m以浅主要分为三层：第一层粉砂，灰色，松散～稍密，饱和，厚层状，砂质不纯，含较多黏性土薄层及粉土团块，该层顶部揭露淤泥质粉质黏土，灰色，流塑；第二层为粉质黏土，灰色，软塑～可塑，鳞片状，切面较光滑，层位下半部有粉砂、粉土夹层或薄层；第三层粉质粘土，湿，可塑～硬塑，切面较光滑。分界深度为8.5m和22.5m。拐点法确定的簇数目为4。

对比图7(a)与图7(b)可以明显发现，单纯的Kmeans方法没有划分出表层的淤泥质粉质粘土，图7(a)，且将第二层的下半部分单独划分出一层。实际上从钻孔资料来看，下半部分虽然局部有粉砂薄层，但主要还是与上部性质类似的粉质粘土，没有必要单独划出。图6(d)为DNN分类的结果，标签值意义与图6(d)相同，正确率0.7，低于二号孔。DNN识别出了第一层中的粉土夹层，但是在二、三层中将多处划分为实际上并没有出现的淤泥质粉质黏土和粉土，同时还将第一层顶部错判为淤泥。此外，根据三种方法在二、三层处分界的一致性，应当将二、三层间的分界面定为23m。大体来看，对于厚层粉质粘土，三种方法在主层划分上都基本正确，但在局部划分上面，还是使用自编码后的聚类方法稍好一些，在三号孔数据上，未降维使用Kmeans的聚类结果评估值si＝327.860457115，inertia＝0.487784569594，经过自编码器降维后聚类结果评估值为si＝46.2816401077，inertia＝0.903258102982，提升基本反映在图上。

在缺乏可参考的钻井柱状图等地质资料的情况下，对CPTU数据首先经过自编码器的特征选择得到更具代表性的特征矩阵，之后再使用K均值法聚类可以明显提升土层划分的准确度，辅以窗口滑动法优化结果曲线可以实现准确直观地判层，同时可以划出薄层，夹层和透镜体等的位置。这说明了特征工程在土层分类问题中的重要性，而自编码神经网络确实是一种较为优越的特征选择方法。

以上图1所示的孔压静力触探海底土层划分方法是本发明的具体实施例，已经体现出本发明实质性特点和进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

Claims

1.孔压静力触探海底土层划分方法，其特征在于包括步骤：

2.根据权利要求1所述的孔压静力触探海底土层划分方法，其特征在于：在步骤2)数据处理时，经过归一化处理的数据符合标准正态分布，即均值为0，标准差为1，归一化的转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

3.根据权利要求2所述的孔压静力触探海底土层划分方法，其特征在于：在步骤3)降维处理时，选择3个维度进行输出。

4.根据权利要求3所述的孔压静力触探海底土层划分方法，其特征在于：在步骤4)聚类时，采用聚类算法为K-means++，从数据中随机取一个点作为初始的聚类中心，接着对于数据集中的每一个点x，计算它与最近聚类中心的距离D(x)，然后选择一个新的数据点作为新的聚类中心，选择的原则是：选取D(x)最大的点作为新的聚类中心。

5.根据权利要求4所述的孔压静力触探海底土层划分方法，其特征在于：在步骤4)聚类时，根据组内平方误差和绘制聚类数目与组内平方误差和的关系图-拐点图来确定最佳聚类数目。

6.根据权利要求4所述的孔压静力触探海底土层划分方法，其特征在于：在步骤4)中，将分类标签与深度关联时，将分类标签与深度作为横纵坐标成图即为土层划分结果，使用移动窗口法计算每50cm土层的标签均值来辅助分层，在夹层薄层超过设定值时，则计算每50cm土层的标签中位数。

7.根据权利要求2所述的孔压静力触探海底土层划分方法，其特征在于：在归一化处理前，对数据进行L2正则化以为防止过拟合，即对每个样本计算其范数，然后对该样本中每个元素除以该范数，使得每个处理后样本的范数等于1；L2-范数的计算公式：

其中n为样本个数，xi为第i个样本。

8.根据权利要求1-7任一权利要求所述的孔压静力触探海底土层划分方法，其特征在于：自编码器通过自编码器模型对投入聚类的海底孔压静力触探指标进行降维；所述自编码器模型由自编码器通过自编码器神经网络进行深度学习中的无监督特征学习得到；自编码器神经网络将数据的高维特征进行压缩降维编码，并对编码后的数据进行相应解码；将解码得到的最终结果与原数据进行比较，若两者的差值超过域值，则修正权重偏置参数，降低损失函数，以提高对原数据的复原能力；学习完成后，前半段的编码过程得到结果即可代表原数据的低维特征值。

9.根据权利要求8所述的孔压静力触探海底土层划分方法，其特征在于：自编码器采用降噪自编码器，以二项分布概率去擦除原始输入矩阵。

10.孔压静力触探海底土层划分系统，其特征在于包括：

聚类模块：用于对降维处理后的特征矩阵进行K均值聚类；根据土的种类确定聚类初始数目，对聚类结果计算组内平方误差和，根据聚类数目与组内平方误差和，确定最佳聚类数目；将分类标签与深度关联，获得土层划分结果。