CN112836802A

CN112836802A - 一种半监督学习方法、岩性预测方法及存储介质

Info

Publication number: CN112836802A
Application number: CN202110150158.7A
Authority: CN
Inventors: 李泽瑞; 康宇; 汪萌; 吕文君
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-25

Abstract

本发明公开了一种半监督学习方法、岩性预测方法及存储介质，包括S1构建有标签数据集和无标签数据集；S2根据有标签数据集中的有标签样本数量，计算有标签样本的权重；S3设定模型参数值及最大迭代次数T_iter，计算特征图拉普拉斯矩阵及模型隐藏层的输出；S4初始化模型输出层的权重为零，设定当前的迭代次数ξ＝1；S5判断当前的迭代次数ξ是否小于最大迭代次数T_iter，若否执行S8，若是执行S6；S6利用有标签数据集中的样本数据、特征图拉普拉斯矩阵及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重；S7判断是否满足

若是ξ自增1，并执行S5，否则执行S8；S8输出当前迭代次数下的模型；S9利用模型对实时采集的数据进行预测。

Description

一种半监督学习方法、岩性预测方法及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种半监督学习方法、岩性预测方法及存储介质。

背景技术

机器学习方法试图利用任务的历史数据来改善任务的性能，为了得到好的学习性能，机器学习方法例如监督学习方法，通常要求有大量的有标记数据。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题，而半监督学习方法是该方面的主流技术之一。半监督学习的思路是在拥有少量有标记数据的条件下，通过引入无标记数据来进行模型训练，从而解决仅使用有标记数据进行训练的有监督学习方法中因训练数据稀缺而导致的模型泛化能力差的问题，相比于无监督学习方法而言，半监督学习方法可改善模型准确率不理想的问题。通常来讲，无标记样本的数据规模很大，而且被引入的无标记样本数据通常与原有的有标记样本数据出自于相同的数据源而采样获得，因此无标记的样本数据可为模型训练提供丰富的具有重要意义的数据分布信息。在2000年以后，半监督学习作为一个全新的概念体系明确出现，此后涌现出了一系列具有代表性的半监督学习方法，例如图论半监督学习方法、自训练方法、流形半监督学习方法等。

随着在很多领域中人们逐渐意识到有标记数据稀缺的情况，半监督学习方法显示出其广泛的应用潜力，诸如地下岩性识别、医学图像分类等，其中地下岩性识别是地质学中的一个重要问题，更是储层预测的基础，准确的岩性识别可为油气勘探与开发提供可靠依据。测井数据具有连续、分辨率高的特点，利用测井资料进行岩性识别是测井解释的主要内容。传统的测井解释是由人工综合分析测井曲线特征，根据解释专家的专业知识和对工区地质情况的了解，得出解释结果，这种方法需要大量的人力物力，且对解释人员有较高的专业和经验要求。

近年来，机器学习的方法被应用于地下岩性识别中，可实现根据已有的测井解释资料对未解释的深度段或井位的自动解释，从而很大程度上提升解释人员的工作效率。这方面的研究中，绝大多数研究采用有监督学习方法，例如：文献《人工神经网络岩性识别在地质建模中的应用》中，作者用神经网络方法预测岩性，选择POR和GR作为输入项,将岩性分为砂泥两类；针对传统深度神经网络复杂的网络模型和学习性能严重依赖对超参数调节的问题，文献《基于改进多粒度级联森林的测井岩性识别方法研究与应用》引入余弦相似度对多粒度级联森林方法进行改进，在大庆油田实际测井数据上使用该方法，综合自然伽马(GR)、声波时差(AC)、密度(DEN)、微梯度电阻率(RMN)、深侧向电阻率(PHIND)和浅侧向电阻率(RLLS)六种测井参数，对页岩、粉砂岩和砂岩进行识别，取得了较好的识别效果；文献《基于LSTM循环神经网络的岩性识别方法》考虑到常规机器学习方法在岩性识别中无法充分利用沉积岩石在深度域序列上的潜在信息，提出利用长短期记忆神经网络(LSTM)提高岩性识别效果的方法，以苏里格气田苏东地区下古生界碳酸盐岩储层为例，选取自然伽马、光电吸收截面指数、密度、声波时差、补偿中子和电阻率6种测井参数，构建了基于LSTM的岩性预测模型，与朴素贝叶斯、KNN、决策树、SVM和HMM等传统方法相比，LSTM的岩性识别准确率提升幅度介于1.40％～12.25％。

然而，需要考虑到的是，由于岩屑或岩心资料获取的难度大、成本高，上述基于有监督学习的岩性识别方法需要大量的有标记数据参与训练才能保证模型良好的泛化性能，所以这些方法的可行性较低。最近，一些研究也开始探讨半监督学习方法在岩性识别中的应用。例如：文献《基于标签传播的岩性预测半监督学习算法研究》研究了岩性预测的半监督学习问题，提出了“聚类—人工标注—伪标注—分类”的岩性预测框架。首先，利用聚类算法选取待标注样本；然后，基于数据在特征空间和地理空间的相似性，利用图半监督学习方法实现人工标注样本到无标注样本的标注传播；最后，基于伪标注的置信度，采用加权支持向量机算法实现分类模型的设计与训练。文献《一种改进的基于密度的半监督聚类及其在测井岩性识别中的应用》中针对DBSCAN算法对聚类参数敏感、在处理非均匀密度数据集时效果不理想等问题进行研究,提出了改进方法V-DBSCAN算法。该算法的主要思想是先找出高密度的类簇，然后改变参数值继续聚类，发现较低密度的类簇。并加入半监督的学习方法,用已知点的标签信息或者约束信息实现已生成的类簇的合并，提高合并过程的速度和精度。作者将本文改进的方法运用在岩性识别上，得到了较高的准确率。文献Improvedwell log classification using semi-supervised algorithms采用标签传播算法得到无标记数据的伪标签，然后用自训练策略训练分类模型。

然而，由于地质环境的异质性导致了测井数据的复杂性，有标注数据中可能存在同一测井曲线组合值对应多种岩性标签的现象，使得基于测井的岩性识别难度大大增加。已有方法未考虑数据中存在的噪声，可能使得岩性识别方法的鲁棒性较差，特别是当存在较大噪声时，可能导致模型失效。

发明内容

本发明的目的在于克服上述背景技术中的不足，提高半监督学习方法的识别性能。

为实现以上目的，一方面，采用一种半监督学习方法，包括如下步骤：

S1、收集待处理的序列数据，并对待处理序列数据中部分数据样本请求其对应的标签，得到有标签数据集和无标签数据集；

S2、根据有标签数据集中的有标签样本数量，计算有标签样本的权重；

S3、设定神经网络模型参数的值以及最大迭代次数T_iter，并根据有标签数据集和无标签数据集中的样本数据，计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出；

S4、初始化模型输出层的权重为零，并设定当前的迭代次数ξ＝1；

S5、判断当前的迭代次数ξ是否小于最大迭代次数T_iter，若否执行步骤S8，若是执行步骤S6；

S6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重；

S7、判断是否满足

ε为迭代停止阈值，若是则ξ自增1，并执行步骤S5，否则执行步骤S8；

S8、输出当前迭代次数下模型的输出层权重及对应的神经网络模型；

S9、利用当前迭代次数下的神经网络模型对实时采集的数据进行预测。

进一步地，所述根据有标签数据集中的有标签样本数量，计算有标签样本的权重，具体为：

其中，C_i表示第i个有标签样本的权重，

表示第i个有标签样本所属类别中包含的有标签样本数量，τ为控制加权程度的参数，

表示所述有标签样本集中的有标签样本数量。

进一步地，所述根据有标签数据集和无标签数据集中的样本数据，计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出，包括：

利用所述有标签数据集和无标签数据集中的样本数据，分别计算特征相似性矩阵A⁽¹⁾和A⁽²⁾；

计算第一特征图拉普拉斯矩阵L⁽¹⁾＝D⁽¹⁾-A⁽¹⁾，其中D⁽¹⁾为根据A⁽¹⁾求得的一个对角矩阵；

计算第二特征图拉普拉斯矩阵L⁽²⁾＝D⁽²⁾-A⁽²⁾，其中D⁽²⁾为根据A⁽²⁾求得的一个对角矩阵；

随机生成所述神经网络模型的隐藏层神经元的权重和偏置，并根据隐藏层神经元的权重和偏置计算隐藏层的输出H。

进一步地，所述利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重，包括：

计算所述有标签数据集中第i个样本数据的预测误差e_i；

根据预测误差e_i计算N维对角矩阵Λ，第

个元素

其余元素等于0，中表示高斯核函数的中心，

表示所述有标签样本集中的有标签样本数量，N表示总样本数量；

利用N维对角矩阵A、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重β^(ξ)；

其中，所述目标函数

为：

其中，||β||_F表示β的Frobenius范数，βT表示β的转置，ρ、λ₁、λ₂分别为权衡系数，Q表示高斯核函数的数量，γ_q表示第q个高斯核函数的权重，σ_q表示第q(q＝1，2，…，Q)个高斯核函数宽度，

即表示宽度为σ_q的高斯核函数，C_i表示第i个有标签样本的权重，e_i表示第i个样本数据的预测误差，Φ表示高斯核函数的中心，H表示隐藏层的输出，H^T表示隐藏层的输出的转置，L⁽¹⁾、L⁽²⁾分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵。

另一方面，采用一种岩性预测方法，包括：

T1、收集不同深度点的测井样本，并对部分深度点的测井样本请求其对应的岩性标签，得到有标签数据集和无标签数据集；

T2、根据有标签数据集中的有标签样本数量，计算有标签样本的权重；

T3、设定岩性预测模型参数的值以及最大迭代次数T_iter，并根据有标签数据集和无标签数据集中的样本数据，计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出；

T4、初始化模型输出层的权重为零，并设定当前的迭代次数ξ＝1；

T5、判断当前的迭代次数ξ是否小于最大迭代次数T_iter，若否执行步骤T8，若是执行步骤T6；

T6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重；

T7、判断是否满足

ε为迭代停止阈值，若是则ξ自增1，并执行步骤T5，否则执行步骤T8；

T8、输出当前迭代次数下模型的输出层权重及对应的岩性预测模型；

T9、利用岩性预测模型对实时采集的测井数据进行预测，识别出对应的岩性类别。

进一步地，所述收集不同深度点的测井样本，并对部分深度点的测井样本定义对应的岩性标签，得到有标签数据集和无标签数据集，包括：

收集工区的测井资料，设测井种类为N_I，同一深度点的N_I个测井数据组成一个测井样本

分析得到部分深度点对应的岩性种类，并将岩性种类作为岩性标签标记该深度点的测井样本，测井样本及其岩性标签组成有标签数据集

和无标签数据集

其中

表示有标签样本总数，u表示无标签样本总数，

表示测井样本

对应的岩性标签向量。

其中，C_i表示第i个有标签样本的权重，

表示所述有标签样本集中的有标签样本数量。

最小化得到当前迭代次数下模型的输出层权重，包括：

计算所述有标签数据集中第i个样本数据的预测误差e_i；

根据预测误差e_i计算N维对角矩阵Λ，第

个元素

其余元素等于0，Φ表示高斯核函数的中心，

最小化得到当前迭代次数下模型的输出层权重β^(ξ)；

其中，所述目标函数

为：

其中，||β||_F表示β的Frobenius范数，β^T表示β的转置，ρ、λ₁、λ₂分别为权衡系数，Q表示高斯核函数的数量，γ_q表示第q个高斯核函数的权重，σ_q表示第q(q＝1，2，…，Q)个高斯核函数宽度，

第三方面，采用一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现上述的岩性预测方法。

与现有技术相比，本发明存在以下技术效果：本发明考虑有标签样本和无标签样本数据分布的不均匀性，采用加权机制，缓解了数据不均衡现象引发的半监督学习方法识别性能下降的问题；考虑序列数据的样本连续性，引入两重流形假设，提升识别性能；另外，本发明采用相关熵准则，对于存在噪声的数据集同样可取得良好的预测性能。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是数据集构建示意图；

图2是一种半监督学习方法的流程图；

图3是一种岩性预测方法的流程图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图2所示，本实施例公开了一种半监督学习方法，包括如下步骤S1至S8：

S1、收集待处理的序列数据，并对待处理序列数据中部分数据样本请求对应的标签，得到有标签数据集和无标签数据集；

需要说明的是，所述待处理的序列数据可为测井数据或振动数据等，用于作为分类模型的输入数据。以图1作为说明，如果序列数据是测井数据，则序列类型可以为SP、GR、CNL、R25等；如果序列数据是振动数据，则序列类型可以为X/γ/Z轴的振动信号。

最小化得到当前迭代次数下模型的输出层权重；

S7、判断是否满足

需要说明的是，本实施例中在传统的半监督学习方法中引入加权机制，可缓解数据不均衡现象引发的识别性能下降；采用两重流形假设，挖掘序列数据的样本连续性以提升半监督学习性能；采用相关熵机制，以应对数据集存在噪声的情况。

作为进一步优选的技术方案，上述步骤S2中有标签样本的权重的计算公式具体为：

其中，C_i表示第i个有标签样本的权重，

表示所述有标签样本集中的有标签样本数量。

作为进一步优选的技术方案，上述步骤S3中神经网络模型参数包括参数τ＞0、λ＞0、0＜η＜1、p＞0、α₁＞0、α₂＞0、k₁≥1、k₂≥3、N_h＞1、Q＞1、σ_q＞0(q＝1，2，…，Q)、

0＜γ_q＜1(q＝1，2，…，Q)、ε＞0、T_iter＞2。

作为进一步优选的技术方案，上述步骤S3中，根据有标签数据集和无标签数据集中的样本数据，计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出，具体包括S31至S34：

S31、利用所述有标签数据集和无标签数据集中的样本数据，分别计算第一和第二特征相似性矩阵A⁽¹⁾和A⁽²⁾；

其中，第一特征相似性矩阵A⁽¹⁾的元素

为：

其中m，n＝1，2，…，

α₁＞0表示计算第一特征相似性的高斯核宽度，

表示测井样本x_n的k₁个最近邻集合；

第二特征相似性矩阵A⁽²⁾的元素

为：

其中，α₂＞0表示计算第二特征相似性的高斯核宽度，

k₂为大于等于3的奇数。

S32、计算第一特征图拉普拉斯矩阵L⁽¹⁾＝D⁽¹⁾-A⁽¹⁾，其中D⁽¹⁾为一个对角矩阵，其第m个对角元素值

S33、计算第二特征图拉普拉斯矩阵L⁽²⁾＝D⁽²⁾-A⁽²⁾，其中D⁽²⁾为一个对角矩阵，D⁽²⁾的第m个对角元素值

S34、随机生成所述神经网络模型的隐藏层神经元的权重和偏置，并根据隐藏层神经元的权重和偏置计算隐藏层的输出H。

需要说明的是，随机生成神经网络模型的隐藏层神经元的权重

和偏置b_p，其中p＝1，2，…，N_h，N_h表示隐藏神经元数量，则对于第

个测井样本，隐藏层的输出为h_m＝sigmoid(w^Tx_m+b)，其中

对于

个测井样本，隐藏层的输出为

作为进一步优选的技术方案，上述步骤S6：利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重，具体包括如下细分步骤S61至S63：

S61、计算所述有标签数据集中第i个样本数据的预测误差e_i；

其中，第i个有标签样本的误差

S62、根据预测误差e_i计算N维对角矩阵Λ，第

个元素

Φ表示高斯核函数的中心，

其中，计算

维对角矩阵Λ，其中第

个元素

其余元素等于0；其中Q表示此处使用的高斯核函数数量，σ_q表示第q(q＝1，2，…，Q)个高斯核函数宽度，

即表示宽度为σ_q的高斯核函数，Φ表示高斯核函数的中心，γ_q(0≤γ_q≤1)表示第q个高斯核函数的权重，满足

S63、利用N维对角矩阵Λ、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重β^(ξ)；

其中，所述目标函数

为：

其中，||β||_F表示β的Frobenius范数，β^T表示β的转置，ρ、λ₁、λ₂分别为权衡系数，λ₁＝λη，λ₂＝λ(1-η)，Q表示高斯核函数的数量，γ_q表示第q个高斯核函数的权重，σ_q表示第q(q＝1，2，…，Q)个高斯核函数宽度，

即表示宽度为σ_q的高斯核函数，C_i表示第i个有标签样本的权重，e_i表示第i个样本数据的预测误差，Φ表示高斯核函数的中心，H表示隐藏层的输出，H^T表示隐藏层的输出的转置，L⁽¹⁾、L⁽²⁾分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵，η为取值在0-1之间的常数，决定两个特征相似性在目标函数中的贡献。

需要说明的是，令

则有：

则：

其中，类别权重矩阵C为

维对角矩阵，前

个对角元素分别为

后u个对角元素均为0；输出偏移矩阵

的第

行

后u行均为0。

作为进一步优选的技术方案，上述步骤S8中输出的当前迭代次数下的模型输出层权重β^(ξ)，并得到参数为w、b、β^(ξ)的神经网络模型，以用于对数据进行预测。

如图3所示，本实施例公开了一种岩性预测方法，采用上述实施例中公开的半监督学习方法对岩性进行预测，具体步骤包括T1至T9：

需要说明的是，岩性标签可根据其岩心或岩屑分析数据得到。

最小化得到当前迭代次数下模型的输出层权重；

T7、判断是否满足

作为进一步优选的技术方案，上述步骤T1：收集不同深度点的测井样本，并对部分深度点的测井样本定义对应的岩性标签，得到有标签数据集和无标签数据集，包括：

同时由岩心或岩屑样本分析得到某些深度点的对应岩性种类，并将其作为岩性标签标记该深度点的测井样本，测井样本及其岩性标签组成有标签数据集

其中

表示有标签样本总数，

表示测井样本

对应的岩性标签向量，记岩性种类的总数为N_O，则y_i为N_O维独热向量，第j(j＝1，2，…，N_O)个元素等于1则表示测井样本x_i的岩性标签为第j种岩性；测井资料中没有对应岩性标签的测井样本组成无标签数据集

其中u表示无标签样本总数。

需要说明的是，所述测井种类指的是测井数据的类别，如一般包括自然电位、自然伽马、补偿声波、补偿中子；所述岩性类别包括砂岩、泥岩、石灰岩、页岩。

作为进一步优选的技术方案，上述步骤T2中有标签样本的权重的计算公式具体为：

其中，C_i表示第i个有标签样本的权重，

表示所述有标签样本集中的有标签样本数量。

作为进一步优选的技术方案，上述步骤T3中神经网络模型参数包括参数τ、λ、η、ρ、α₁、α₂、k₁、k₂、N_h、Q、σ_g(q＝1，2，…，Q)、Φ、γ_q(q＝1，2，…，Q)、ε。

具体地，一组可用参数如下：τ＝2、λ＝1、η＝0.8、p＝30、α₁＝1、α₂＝1、k₁＝5、k₂＝7、N_h＝100、Q＝2、σ₁＝1、σ₂＝1、

γ₁＝0.5、γ₂＝0.5、ε＝0.001、T_iter＝200.

作为进一步优选的技术方案，上述步骤T3中，根据有标签数据集和无标签数据集中的样本数据，计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出，具体包括T31至T34：

T31、利用所述有标签数据集和无标签数据集中的样本数据，分别计算特征相似性矩阵A⁽¹⁾和A⁽²⁾；

其中，第一特征相似性矩阵A⁽¹⁾的元素

为：

其中m，n＝1，2，…，

α₁＞0表示计算第一特征相似性的高斯核宽度，

表示测井样本xn的k₁个最近邻集合；

第二特征相似性矩阵A⁽²⁾的元素

为：

其中，α₂＞0表示计算第二特征相似性的高斯核宽度，

k₂为大于等于3的奇数。

T32、计算第一特征图拉普拉斯矩阵L⁽¹⁾＝D⁽¹⁾-A⁽¹⁾，其中D⁽¹⁾为一个对角矩阵；

其中，D⁽¹⁾为一个对角矩阵，其第m个对角元素值

T33、计算第二特征图拉普拉斯矩阵L⁽²⁾＝D⁽²⁾-A⁽²⁾，其中D⁽²⁾为一个对角矩阵，D⁽²⁾的第m个对角元素值

T34、随机生成所述神经网络模型的隐藏层神经元的权重和偏置，并根据隐藏层神经元的权重和偏置计算隐藏层的输出H。

和偏置b_p，其中p＝1，2，…，N_h，N_h表示隐藏神经元数量，N_h＜(l+u)，则对于第

个测井样本，隐藏层的输出为h_m＝sigmoid(w^Tx_m+b)，其中

对于

个测井样本，隐藏层的输出为

所述隐藏层权重和偏置随机生成的方法可以是从0-1均匀分布中采样。

作为进一步优选的技术方案，上述步骤T6：利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重，具体包括如下细分步骤T61至T63：

T61、计算所述有标签数据集中第i个样本数据的预测误差e_i；

其中，第i个有标签样本的误差

T62、根据预测误差e_i计算N维对角矩阵Λ，第

个元素

Φ表示高斯核函数的中心，

其中，计算

维对角矩阵Λ，其中第

个元素

T63、利用N维对角矩阵A、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重β^(ξ)；

其中，所述目标函数

为：

其中，||β||_F表示β的Frobenius范数，β^T表示β的转置，ρ、λ₁、λ₂分别为权衡系数，λ₁＝λη，λ₂＝λ(1-q)，Q表示高斯核函数的数量，γ_q表示第q个高斯核函数的权重，σ_q表示第q(q＝1，2，…，Q)个高斯核函数宽度，

即表示宽度为σ_q的高斯核函数，C_i表示第i个有标签样本的权重，e_i表示第i个样本数据的预测误差，Φ表示高斯核函数的中心，H表示隐藏层的输出，HT表示隐藏层的输出的转置，L⁽¹⁾、L⁽²⁾分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵，η为取值在0-1之间的常数，决定两个特征相似性在目标函数中的贡献。

需要说明的是，令

则有：

则：

其中，

为N_h维单位矩阵，类别权重矩阵C为

维对角矩阵，前

个对角元素分别为

后u个对角元素均为0；输出偏移矩阵

的第

行

后u行均为0。

作为进一步优选的技术方案，上述步骤T8中输出的当前迭代次数下的模型输出层权重β^(ξ)，并得到参数为w、b、β^(ξ)的岩性预测模型，以用于预测出实时采集的测井数据所对应的岩性类别。

本实施例提供的一种岩性预测方法，具有如下有益效果：

考虑地下环境的复杂性以及岩石分布的不均匀性，引入加权机制，可缓解数据不均衡现象引发的识别性能下降；

考虑地下岩石分布的连续性，引入两重流形假设，提升识别性能；

采用相关熵准则，可缓解数据噪声对识别性能的影响。

另外，本实施例还公开了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现如上所述的岩性预测方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种半监督学习方法，其特征在于，包括：

最小化得到当前迭代次数下模型的输出层权重；

S7、判断是否满足

2.如权利要求1所述的半监督学习方法，其特征在于，所述根据有标签数据集中的有标签样本数量，计算有标签样本的权重，具体为：

其中，C_i表示第i个有标签样本的权重，

表示第i个有标签样本所属类别中包含的有标签样本数量，τ为控制加权程度的参数，i＝1，2，…，l，l表示所述有标签样本集中的有标签样本数量。

3.如权利要求1所述的半监督学习方法，其特征在于，所述根据有标签数据集和无标签数据集中的样本数据，计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出，包括：

4.如权利要求3所述的半监督学习方法，其特征在于，所述利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重，包括：

计算所述有标签数据集中第i个样本数据的预测误差e_i；

根据预测误差e_i计算N维对角矩阵Λ，第i(i＝1，2，…，l)个元素

Φ表示高斯核函数的中心，l表示所述有标签样本集中的有标签样本数量，N表示总样本数量；

表小化得到当前迭代次数下模型的输出层权重β^(ξ)；

其中，所述目标函数

为：

其中，||β||_F表示β的Frobenius范数，

表示β的转置，ρ、λ₁、λ₂分别为权衡系数，Q表示高斯核函数的数量，γ_q表示第q个高斯核函数的权重，σ_q表示第q(q＝1，2，…，Q)个高斯核函数宽度，

即表示宽度为σ_q的高斯核函数，C_i表示第i个有标签样本的权重，e_i表示第i个样本数据的预测误差，Φ表示高斯核函数的中心，H表示隐藏层的输出，

表示隐藏层的输出的转置，L⁽¹⁾、L⁽²⁾分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵。

5.一种岩性预测方法，其特征在于，包括：

T 4、初始化模型输出层的权重为零，并设定当前的迭代次数ξ＝1；

T 5、判断当前的迭代次数ξ是否小于最大迭代次数T_iter，若否执行步骤T 8，若是执行步骤T 6；

T 6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重；

T 7、判断是否满足

ε为迭代停止阈值，若是则ξ自增1，并执行步骤T 5，否则执行步骤T 8；

T 8、输出当前迭代次数下模型的输出层权重及对应的岩性预测模型；

T 9、利用岩性预测模型对实时采集的测井数据进行预测，识别出对应的岩性类别。

6.如权利要求5所述的岩性预测方法，其特征在于，所述收集不同深度点的测井样本，并对部分深度点的测井样本请求对应的岩性标签，得到有标签数据集和无标签数据集，包括：

和无标签数据集

其中l表示有标签样本总数，u表示无标签样本总数，y_i(i＝1，2，…，l)表示测井样本x_i(i＝1，2，…，l)对应的岩性标签向量。

7.如权利要求5所述的岩性预测方法，其特征在于，所述根据有标签数据集中的有标签样本数量，计算有标签样本的权重，具体为：

其中，C_i表示第i个有标签样本的权重，

8.如权利要求5所述的岩性预测方法，其特征在于，所述根据有标签数据集和无标签数据集中的样本数据，计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出，包括：

9.如权利要求8所述的岩性预测方法，其特征在于，所述利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出，基于目标函数

最小化得到当前迭代次数下模型的输出层权重，包括：

计算所述有标签数据集中第i个样本数据的预测误差e_i；

其余元素等于0，中表示高斯核函数的中心，l表示所述有标签样本集中的有标签样本数量，N表示总样本数量；

最小化得到当前迭代次数下模型的输出层权重β^(ξ)；

其中，所述目标函数

为：

其中，||β||_F表示β的Frobenius范数，

即表示宽度为σ_q的高斯核函数，C_i表示第i个有标签样本的权重，e_i表示第i个样本数据的预测误差，Φ表示高斯核函数的中心，H表示隐藏层的输出，HT表示隐藏层的输出的转置，L⁽¹⁾、L⁽²⁾分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行可实现如权利要求5-9中任意一项所述的岩性预测方法。