CN112836802B - 一种半监督学习方法、岩性预测方法及存储介质 - Google Patents

一种半监督学习方法、岩性预测方法及存储介质 Download PDF

Info

Publication number
CN112836802B
CN112836802B CN202110150158.7A CN202110150158A CN112836802B CN 112836802 B CN112836802 B CN 112836802B CN 202110150158 A CN202110150158 A CN 202110150158A CN 112836802 B CN112836802 B CN 112836802B
Authority
CN
China
Prior art keywords
labeled
samples
weight
calculating
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110150158.7A
Other languages
English (en)
Other versions
CN112836802A (zh
Inventor
李泽瑞
康宇
汪萌
吕文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202110150158.7A priority Critical patent/CN112836802B/zh
Publication of CN112836802A publication Critical patent/CN112836802A/zh
Application granted granted Critical
Publication of CN112836802B publication Critical patent/CN112836802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种半监督学习方法、岩性预测方法及存储介质,包括S1构建有标签数据集和无标签数据集;S2根据有标签数据集中的有标签样本数量,计算有标签样本的权重;S3设定模型参数值及最大迭代次数Titer,计算特征图拉普拉斯矩阵及模型隐藏层的输出;S4初始化模型输出层的权重为零,设定当前的迭代次数ξ=1;S5判断当前的迭代次数ξ是否小于最大迭代次数Titer,若否执行S8,若是执行S6;S6利用有标签数据集中的样本数据、特征图拉普拉斯矩阵及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重;S7判断是否满足若是ξ自增1,并执行S5,否则执行S8;S8输出当前迭代次数下的模型;S9利用模型对实时采集的数据进行预测。

Description

一种半监督学习方法、岩性预测方法及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种半监督学习方法、岩性预测方法及存储介质。
背景技术
机器学习方法试图利用任务的历史数据来改善任务的性能,为了得到好的学习性能,机器学习方法例如监督学习方法,通常要求有大量的有标记数据。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题,而半监督学习方法是该方面的主流技术之一。半监督学习的思路是在拥有少量有标记数据的条件下,通过引入无标记数据来进行模型训练,从而解决仅使用有标记数据进行训练的有监督学习方法中因训练数据稀缺而导致的模型泛化能力差的问题,相比于无监督学习方法而言,半监督学习方法可改善模型准确率不理想的问题。通常来讲,无标记样本的数据规模很大,而且被引入的无标记样本数据通常与原有的有标记样本数据出自于相同的数据源而采样获得,因此无标记的样本数据可为模型训练提供丰富的具有重要意义的数据分布信息。在2000年以后,半监督学习作为一个全新的概念体系明确出现,此后涌现出了一系列具有代表性的半监督学习方法,例如图论半监督学习方法、自训练方法、流形半监督学习方法等。
随着在很多领域中人们逐渐意识到有标记数据稀缺的情况,半监督学习方法显示出其广泛的应用潜力,诸如地下岩性识别、医学图像分类等,其中地下岩性识别是地质学中的一个重要问题,更是储层预测的基础,准确的岩性识别可为油气勘探与开发提供可靠依据。测井数据具有连续、分辨率高的特点,利用测井资料进行岩性识别是测井解释的主要内容。传统的测井解释是由人工综合分析测井曲线特征,根据解释专家的专业知识和对工区地质情况的了解,得出解释结果,这种方法需要大量的人力物力,且对解释人员有较高的专业和经验要求。
近年来,机器学习的方法被应用于地下岩性识别中,可实现根据已有的测井解释资料对未解释的深度段或井位的自动解释,从而很大程度上提升解释人员的工作效率。这方面的研究中,绝大多数研究采用有监督学习方法,例如:文献《人工神经网络岩性识别在地质建模中的应用》中,作者用神经网络方法预测岩性,选择POR和GR作为输入项,将岩性分为砂泥两类;针对传统深度神经网络复杂的网络模型和学习性能严重依赖对超参数调节的问题,文献《基于改进多粒度级联森林的测井岩性识别方法研究与应用》引入余弦相似度对多粒度级联森林方法进行改进,在大庆油田实际测井数据上使用该方法,综合自然伽马(GR)、声波时差(AC)、密度(DEN)、微梯度电阻率(RMN)、深侧向电阻率(PHIND)和浅侧向电阻率(RLLS)六种测井参数,对页岩、粉砂岩和砂岩进行识别,取得了较好的识别效果;文献《基于LSTM循环神经网络的岩性识别方法》考虑到常规机器学习方法在岩性识别中无法充分利用沉积岩石在深度域序列上的潜在信息,提出利用长短期记忆神经网络(LSTM)提高岩性识别效果的方法,以苏里格气田苏东地区下古生界碳酸盐岩储层为例,选取自然伽马、光电吸收截面指数、密度、声波时差、补偿中子和电阻率6种测井参数,构建了基于LSTM的岩性预测模型,与朴素贝叶斯、KNN、决策树、SVM和HMM等传统方法相比,LSTM的岩性识别准确率提升幅度介于1.40%~12.25%。
然而,需要考虑到的是,由于岩屑或岩心资料获取的难度大、成本高,上述基于有监督学习的岩性识别方法需要大量的有标记数据参与训练才能保证模型良好的泛化性能,所以这些方法的可行性较低。最近,一些研究也开始探讨半监督学习方法在岩性识别中的应用。例如:文献《基于标签传播的岩性预测半监督学习算法研究》研究了岩性预测的半监督学习问题,提出了“聚类—人工标注—伪标注—分类”的岩性预测框架。首先,利用聚类算法选取待标注样本;然后,基于数据在特征空间和地理空间的相似性,利用图半监督学习方法实现人工标注样本到无标注样本的标注传播;最后,基于伪标注的置信度,采用加权支持向量机算法实现分类模型的设计与训练。文献《一种改进的基于密度的半监督聚类及其在测井岩性识别中的应用》中针对DBSCAN算法对聚类参数敏感、在处理非均匀密度数据集时效果不理想等问题进行研究,提出了改进方法V-DBSCAN算法。该算法的主要思想是先找出高密度的类簇,然后改变参数值继续聚类,发现较低密度的类簇。并加入半监督的学习方法,用已知点的标签信息或者约束信息实现已生成的类簇的合并,提高合并过程的速度和精度。作者将本文改进的方法运用在岩性识别上,得到了较高的准确率。文献Improvedwell log classification using semi-supervised algorithms采用标签传播算法得到无标记数据的伪标签,然后用自训练策略训练分类模型。
然而,由于地质环境的异质性导致了测井数据的复杂性,有标注数据中可能存在同一测井曲线组合值对应多种岩性标签的现象,使得基于测井的岩性识别难度大大增加。已有方法未考虑数据中存在的噪声,可能使得岩性识别方法的鲁棒性较差,特别是当存在较大噪声时,可能导致模型失效。
发明内容
本发明的目的在于克服上述背景技术中的不足,提高半监督学习方法的识别性能。
为实现以上目的,一方面,采用一种半监督学习方法,包括如下步骤:
S1、收集待处理的序列数据,并对待处理序列数据中部分数据样本请求其对应的标签,得到有标签数据集和无标签数据集;
S2、根据有标签数据集中的有标签样本数量,计算有标签样本的权重;
S3、设定神经网络模型参数的值以及最大迭代次数Titer,并根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出;
S4、初始化模型输出层的权重为零,并设定当前的迭代次数ξ=1;
S5、判断当前的迭代次数ξ是否小于最大迭代次数Titer,若否执行步骤S8,若是执行步骤S6;
S6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重;
S7、判断是否满足ε为迭代停止阈值,若是则ξ自增1,并执行步骤S5,否则执行步骤S8;
S8、输出当前迭代次数下模型的输出层权重及对应的神经网络模型;
S9、利用当前迭代次数下的神经网络模型对实时采集的数据进行预测。
进一步地,所述根据有标签数据集中的有标签样本数量,计算有标签样本的权重,具体为:
其中,Ci表示第i个有标签样本的权重, 表示第i个有标签样本所属类别中包含的有标签样本数量,τ为控制加权程度的参数, 表示所述有标签样本集中的有标签样本数量。
进一步地,所述根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出,包括:
利用所述有标签数据集和无标签数据集中的样本数据,分别计算特征相似性矩阵A(1)和A(2)
计算第一特征图拉普拉斯矩阵L(1)=D(1)-A(1),其中D(1)为根据A(1)求得的一个对角矩阵;
计算第二特征图拉普拉斯矩阵L(2)=D(2)-A(2),其中D(2)为根据A(2)求得的一个对角矩阵;
随机生成所述神经网络模型的隐藏层神经元的权重和偏置,并根据隐藏层神经元的权重和偏置计算隐藏层的输出H。
进一步地,所述利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重,包括:
计算所述有标签数据集中第i个样本数据的预测误差ei
根据预测误差ei计算N维对角矩阵Λ,第个元素其余元素等于0,中表示高斯核函数的中心,表示所述有标签样本集中的有标签样本数量,N表示总样本数量;
利用N维对角矩阵A、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重β(ξ)
其中,所述目标函数为:
其中,||β||F表示β的Frobenius范数,βT表示β的转置,ρ、λ1、λ2分别为权衡系数,Q表示高斯核函数的数量,γq表示第q个高斯核函数的权重,σq表示第q(q=1,2,…,Q)个高斯核函数宽度,即表示宽度为σq的高斯核函数,Ci表示第i个有标签样本的权重,ei表示第i个样本数据的预测误差,Φ表示高斯核函数的中心,H表示隐藏层的输出,HT表示隐藏层的输出的转置,L(1)、L(2)分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵。
另一方面,采用一种岩性预测方法,包括:
T1、收集不同深度点的测井样本,并对部分深度点的测井样本请求其对应的岩性标签,得到有标签数据集和无标签数据集;
T2、根据有标签数据集中的有标签样本数量,计算有标签样本的权重;
T3、设定岩性预测模型参数的值以及最大迭代次数Titer,并根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出;
T4、初始化模型输出层的权重为零,并设定当前的迭代次数ξ=1;
T5、判断当前的迭代次数ξ是否小于最大迭代次数Titer,若否执行步骤T8,若是执行步骤T6;
T6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重;
T7、判断是否满足ε为迭代停止阈值,若是则ξ自增1,并执行步骤T5,否则执行步骤T8;
T8、输出当前迭代次数下模型的输出层权重及对应的岩性预测模型;
T9、利用岩性预测模型对实时采集的测井数据进行预测,识别出对应的岩性类别。
进一步地,所述收集不同深度点的测井样本,并对部分深度点的测井样本定义对应的岩性标签,得到有标签数据集和无标签数据集,包括:
收集工区的测井资料,设测井种类为NI,同一深度点的NI个测井数据组成一个测井样本
分析得到部分深度点对应的岩性种类,并将岩性种类作为岩性标签标记该深度点的测井样本,测井样本及其岩性标签组成有标签数据集和无标签数据集其中表示有标签样本总数,u表示无标签样本总数,表示测井样本对应的岩性标签向量。
进一步地,所述根据有标签数据集中的有标签样本数量,计算有标签样本的权重,具体为:
其中,Ci表示第i个有标签样本的权重, 表示第i个有标签样本所属类别中包含的有标签样本数量,τ为控制加权程度的参数, 表示所述有标签样本集中的有标签样本数量。
进一步地,所述根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出,包括:
利用所述有标签数据集和无标签数据集中的样本数据,分别计算特征相似性矩阵A(1)和A(2)
计算第一特征图拉普拉斯矩阵L(1)=D(1)-A(1),其中D(1)为根据A(1)求得的一个对角矩阵;
计算第二特征图拉普拉斯矩阵L(2)=D(2)-A(2),其中D(2)为根据A(2)求得的一个对角矩阵;
随机生成所述神经网络模型的隐藏层神经元的权重和偏置,并根据隐藏层神经元的权重和偏置计算隐藏层的输出H。
进一步地,所述利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重,包括:
计算所述有标签数据集中第i个样本数据的预测误差ei
根据预测误差ei计算N维对角矩阵Λ,第个元素其余元素等于0,Φ表示高斯核函数的中心,表示所述有标签样本集中的有标签样本数量,N表示总样本数量;
利用N维对角矩阵A、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重β(ξ)
其中,所述目标函数为:
其中,||β||F表示β的Frobenius范数,βT表示β的转置,ρ、λ1、λ2分别为权衡系数,Q表示高斯核函数的数量,γq表示第q个高斯核函数的权重,σq表示第q(q=1,2,…,Q)个高斯核函数宽度,即表示宽度为σq的高斯核函数,Ci表示第i个有标签样本的权重,ei表示第i个样本数据的预测误差,Φ表示高斯核函数的中心,H表示隐藏层的输出,HT表示隐藏层的输出的转置,L(1)、L(2)分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵。
第三方面,采用一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现上述的岩性预测方法。
与现有技术相比,本发明存在以下技术效果:本发明考虑有标签样本和无标签样本数据分布的不均匀性,采用加权机制,缓解了数据不均衡现象引发的半监督学习方法识别性能下降的问题;考虑序列数据的样本连续性,引入两重流形假设,提升识别性能;另外,本发明采用相关熵准则,对于存在噪声的数据集同样可取得良好的预测性能。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是数据集构建示意图;
图2是一种半监督学习方法的流程图;
图3是一种岩性预测方法的流程图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图2所示,本实施例公开了一种半监督学习方法,包括如下步骤S1至S8:
S1、收集待处理的序列数据,并对待处理序列数据中部分数据样本请求对应的标签,得到有标签数据集和无标签数据集;
需要说明的是,所述待处理的序列数据可为测井数据或振动数据等,用于作为分类模型的输入数据。以图1作为说明,如果序列数据是测井数据,则序列类型可以为SP、GR、CNL、R25等;如果序列数据是振动数据,则序列类型可以为X/γ/Z轴的振动信号。
S2、根据有标签数据集中的有标签样本数量,计算有标签样本的权重;
S3、设定神经网络模型参数的值以及最大迭代次数Titer,并根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出;
S4、初始化模型输出层的权重为零,并设定当前的迭代次数ξ=1;
S5、判断当前的迭代次数ξ是否小于最大迭代次数Titer,若否执行步骤S8,若是执行步骤S6;
S6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重;
S7、判断是否满足ε为迭代停止阈值,若是则ξ自增1,并执行步骤S5,否则执行步骤S8;
S8、输出当前迭代次数下模型的输出层权重及对应的神经网络模型;
S9、利用当前迭代次数下的神经网络模型对实时采集的数据进行预测。
需要说明的是,本实施例中在传统的半监督学习方法中引入加权机制,可缓解数据不均衡现象引发的识别性能下降;采用两重流形假设,挖掘序列数据的样本连续性以提升半监督学习性能;采用相关熵机制,以应对数据集存在噪声的情况。
作为进一步优选的技术方案,上述步骤S2中有标签样本的权重的计算公式具体为:
其中,Ci表示第i个有标签样本的权重, 表示第i个有标签样本所属类别中包含的有标签样本数量,τ为控制加权程度的参数, 表示所述有标签样本集中的有标签样本数量。
作为进一步优选的技术方案,上述步骤S3中神经网络模型参数包括参数τ>0、λ>0、0<η<1、p>0、α1>0、α2>0、k1≥1、k2≥3、Nh>1、Q>1、σq>0(q=1,2,…,Q)、0<γq<1(q=1,2,…,Q)、ε>0、Titer>2。
作为进一步优选的技术方案,上述步骤S3中,根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出,具体包括S31至S34:
S31、利用所述有标签数据集和无标签数据集中的样本数据,分别计算第一和第二特征相似性矩阵A(1)和A(2)
其中,第一特征相似性矩阵A(1)的元素为:
其中m,n=1,2,…,α1>0表示计算第一特征相似性的高斯核宽度,表示测井样本xn的k1个最近邻集合;
第二特征相似性矩阵A(2)的元素为:
其中,α2>0表示计算第二特征相似性的高斯核宽度, k2为大于等于3的奇数。
S32、计算第一特征图拉普拉斯矩阵L(1)=D(1)-A(1),其中D(1)为一个对角矩阵,其第m个对角元素值
S33、计算第二特征图拉普拉斯矩阵L(2)=D(2)-A(2),其中D(2)为一个对角矩阵,D(2)的第m个对角元素值
S34、随机生成所述神经网络模型的隐藏层神经元的权重和偏置,并根据隐藏层神经元的权重和偏置计算隐藏层的输出H。
需要说明的是,随机生成神经网络模型的隐藏层神经元的权重和偏置bp,其中p=1,2,…,Nh,Nh表示隐藏神经元数量,则对于第个测井样本,隐藏层的输出为hm=sigmoid(wTxm+b),其中对于个测井样本,隐藏层的输出为
作为进一步优选的技术方案,上述步骤S6:利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重,具体包括如下细分步骤S61至S63:
S61、计算所述有标签数据集中第i个样本数据的预测误差ei
其中,第i个有标签样本的误差
S62、根据预测误差ei计算N维对角矩阵Λ,第个元素Φ表示高斯核函数的中心,表示所述有标签样本集中的有标签样本数量,N表示总样本数量;
其中,计算维对角矩阵Λ,其中第个元素其余元素等于0;其中Q表示此处使用的高斯核函数数量,σq表示第q(q=1,2,…,Q)个高斯核函数宽度,即表示宽度为σq的高斯核函数,Φ表示高斯核函数的中心,γq(0≤γq≤1)表示第q个高斯核函数的权重,满足
S63、利用N维对角矩阵Λ、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重β(ξ)
其中,所述目标函数为:
其中,||β||F表示β的Frobenius范数,βT表示β的转置,ρ、λ1、λ2分别为权衡系数,λ1=λη,λ2=λ(1-η),Q表示高斯核函数的数量,γq表示第q个高斯核函数的权重,σq表示第q(q=1,2,…,Q)个高斯核函数宽度,即表示宽度为σq的高斯核函数,Ci表示第i个有标签样本的权重,ei表示第i个样本数据的预测误差,Φ表示高斯核函数的中心,H表示隐藏层的输出,HT表示隐藏层的输出的转置,L(1)、L(2)分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵,η为取值在0-1之间的常数,决定两个特征相似性在目标函数中的贡献。
需要说明的是,令则有:
则:
其中,类别权重矩阵C为维对角矩阵,前个对角元素分别为后u个对角元素均为0;输出偏移矩阵的第后u行均为0。
作为进一步优选的技术方案,上述步骤S8中输出的当前迭代次数下的模型输出层权重β(ξ),并得到参数为w、b、β(ξ)的神经网络模型,以用于对数据进行预测。
如图3所示,本实施例公开了一种岩性预测方法,采用上述实施例中公开的半监督学习方法对岩性进行预测,具体步骤包括T1至T9:
T1、收集不同深度点的测井样本,并对部分深度点的测井样本请求其对应的岩性标签,得到有标签数据集和无标签数据集;
需要说明的是,岩性标签可根据其岩心或岩屑分析数据得到。
T2、根据有标签数据集中的有标签样本数量,计算有标签样本的权重;
T3、设定岩性预测模型参数的值以及最大迭代次数Titer,并根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出;
T4、初始化模型输出层的权重为零,并设定当前的迭代次数ξ=1;
T5、判断当前的迭代次数ξ是否小于最大迭代次数Titer,若否执行步骤T8,若是执行步骤T6;
T6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重;
T7、判断是否满足ε为迭代停止阈值,若是则ξ自增1,并执行步骤T5,否则执行步骤T8;
T8、输出当前迭代次数下模型的输出层权重及对应的岩性预测模型;
T9、利用岩性预测模型对实时采集的测井数据进行预测,识别出对应的岩性类别。
作为进一步优选的技术方案,上述步骤T1:收集不同深度点的测井样本,并对部分深度点的测井样本定义对应的岩性标签,得到有标签数据集和无标签数据集,包括:
收集工区的测井资料,设测井种类为NI,同一深度点的NI个测井数据组成一个测井样本同时由岩心或岩屑样本分析得到某些深度点的对应岩性种类,并将其作为岩性标签标记该深度点的测井样本,测井样本及其岩性标签组成有标签数据集其中表示有标签样本总数,表示测井样本对应的岩性标签向量,记岩性种类的总数为NO,则yi为NO维独热向量,第j(j=1,2,…,NO)个元素等于1则表示测井样本xi的岩性标签为第j种岩性;测井资料中没有对应岩性标签的测井样本组成无标签数据集其中u表示无标签样本总数。
需要说明的是,所述测井种类指的是测井数据的类别,如一般包括自然电位、自然伽马、补偿声波、补偿中子;所述岩性类别包括砂岩、泥岩、石灰岩、页岩。
作为进一步优选的技术方案,上述步骤T2中有标签样本的权重的计算公式具体为:
其中,Ci表示第i个有标签样本的权重, 表示第i个有标签样本所属类别中包含的有标签样本数量,τ为控制加权程度的参数, 表示所述有标签样本集中的有标签样本数量。
作为进一步优选的技术方案,上述步骤T3中神经网络模型参数包括参数τ、λ、η、ρ、α1、α2、k1、k2、Nh、Q、σg(q=1,2,…,Q)、Φ、γq(q=1,2,…,Q)、ε。
具体地,一组可用参数如下:τ=2、λ=1、η=0.8、p=30、α1=1、α2=1、k1=5、k2=7、Nh=100、Q=2、σ1=1、σ2=1、γ1=0.5、γ2=0.5、ε=0.001、Titer=200.
作为进一步优选的技术方案,上述步骤T3中,根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出,具体包括T31至T34:
T31、利用所述有标签数据集和无标签数据集中的样本数据,分别计算特征相似性矩阵A(1)和A(2)
其中,第一特征相似性矩阵A(1)的元素为:
其中m,n=1,2,…,α1>0表示计算第一特征相似性的高斯核宽度,表示测井样本xn的k1个最近邻集合;
第二特征相似性矩阵A(2)的元素为:
其中,α2>0表示计算第二特征相似性的高斯核宽度, k2为大于等于3的奇数。
T32、计算第一特征图拉普拉斯矩阵L(1)=D(1)-A(1),其中D(1)为一个对角矩阵;
其中,D(1)为一个对角矩阵,其第m个对角元素值
T33、计算第二特征图拉普拉斯矩阵L(2)=D(2)-A(2),其中D(2)为一个对角矩阵,D(2)的第m个对角元素值
T34、随机生成所述神经网络模型的隐藏层神经元的权重和偏置,并根据隐藏层神经元的权重和偏置计算隐藏层的输出H。
需要说明的是,随机生成神经网络模型的隐藏层神经元的权重和偏置bp,其中p=1,2,…,Nh,Nh表示隐藏神经元数量,Nh<(l+u),则对于第个测井样本,隐藏层的输出为hm=sigmoid(wTxm+b),其中 对于个测井样本,隐藏层的输出为
所述隐藏层权重和偏置随机生成的方法可以是从0-1均匀分布中采样。
作为进一步优选的技术方案,上述步骤T6:利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重,具体包括如下细分步骤T61至T63:
T61、计算所述有标签数据集中第i个样本数据的预测误差ei
其中,第i个有标签样本的误差
T62、根据预测误差ei计算N维对角矩阵Λ,第个元素Φ表示高斯核函数的中心,表示所述有标签样本集中的有标签样本数量,N表示总样本数量;
其中,计算维对角矩阵Λ,其中第个元素其余元素等于0;其中Q表示此处使用的高斯核函数数量,σq表示第q(q=1,2,…,Q)个高斯核函数宽度,即表示宽度为σq的高斯核函数,Φ表示高斯核函数的中心,γq(0≤γq≤1)表示第q个高斯核函数的权重,满足
T63、利用N维对角矩阵A、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重β(ξ)
其中,所述目标函数为:
其中,||β||F表示β的Frobenius范数,βT表示β的转置,ρ、λ1、λ2分别为权衡系数,λ1=λη,λ2=λ(1-q),Q表示高斯核函数的数量,γq表示第q个高斯核函数的权重,σq表示第q(q=1,2,…,Q)个高斯核函数宽度,即表示宽度为σq的高斯核函数,Ci表示第i个有标签样本的权重,ei表示第i个样本数据的预测误差,Φ表示高斯核函数的中心,H表示隐藏层的输出,HT表示隐藏层的输出的转置,L(1)、L(2)分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵,η为取值在0-1之间的常数,决定两个特征相似性在目标函数中的贡献。
需要说明的是,令则有:
则:
其中,为Nh维单位矩阵,类别权重矩阵C为维对角矩阵,前个对角元素分别为后u个对角元素均为0;输出偏移矩阵的第后u行均为0。
作为进一步优选的技术方案,上述步骤T8中输出的当前迭代次数下的模型输出层权重β(ξ),并得到参数为w、b、β(ξ)的岩性预测模型,以用于预测出实时采集的测井数据所对应的岩性类别。
本实施例提供的一种岩性预测方法,具有如下有益效果:
考虑地下环境的复杂性以及岩石分布的不均匀性,引入加权机制,可缓解数据不均衡现象引发的识别性能下降;
考虑地下岩石分布的连续性,引入两重流形假设,提升识别性能;
采用相关熵准则,可缓解数据噪声对识别性能的影响。
另外,本实施例还公开了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如上所述的岩性预测方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种半监督学习方法,其特征在于,包括:
S1、收集待处理的序列数据,并对待处理序列数据中部分数据样本请求其对应的标签,得到有标签数据集和无标签数据集;所述序列数据为测井数据;
S2、根据有标签数据集中的有标签样本数量,计算有标签样本的权重;
其中,Ci表示第i个有标签样本的权重, 表示第i个有标签样本所属类别中包含的有标签样本数量,τ为控制加权程度的参数, 表示所述有标签样本集中的有标签样本数量;
S3、设定神经网络模型参数的值以及最大迭代次数Titer,并根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出,具体包括:
S31:利用所述有标签数据集和无标签数据集中的样本数据,分别计算特征相似性矩阵A(1)和A(2)
S32:计算第一特征图拉普拉斯矩阵L(1)=D(1)-A(1),其中D(1)为根据A(1)求得的一个对角矩阵;
S33:计算第二特征图拉普拉斯矩阵L(2)=D(2)-A(2),其中D(2)为根据A(2)求得的一个对角矩阵;
S34:随机生成所述神经网络模型的隐藏层神经元的权重和偏置,并根据隐藏层神经元的权重和偏置计算隐藏层的输出H;
S4、初始化模型输出层的权重为零,并设定当前的迭代次数ξ=1;
S5、判断当前的迭代次数ξ是否小于最大迭代次数Titer,若否执行步骤S8,若是执行步骤S6;
S6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重,具体包括:
S61:计算所述有标签数据集中第i个样本数据的预测误差ei
S62:根据预测误差ei计算N维对角矩阵Λ,第个元素Φ表示高斯核函数的中心,表示所述有标签样本集中的有标签样本数量,N表示总样本数量,参量Q表示高斯核函数数量,σq表示第q个高斯核函数宽度,表示宽度为σq的高斯核函数,γq表示第q个高斯核函数的权重;
S63:利用N维对角矩阵Λ、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重β(ξ)
其中,所述目标函数为:
其中,||β||F表示β的Frobenius范数,表示β的转置,ρ、λ1、λ2分别为权衡系数,Ci表示第i个有标签样本的权重,ei表示第i个样本数据的预测误差,H表示隐藏层的输出,表示隐藏层的输出的转置,L(1)、L(2)分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵;
S7、判断是否满足ε为迭代停止阈值,若是则ξ自增1,并执行步骤S5,否则执行步骤S8;
S8、输出当前迭代次数下模型的输出层权重及对应的神经网络模型;
S9、利用当前迭代次数下的神经网络模型对实时采集的数据进行预测。
2.一种岩性预测方法,其特征在于,包括:
T1、收集不同深度点的测井样本,并对部分深度点的测井样本请求其对应的岩性标签,得到有标签数据集和无标签数据集;
T2、根据有标签数据集中的有标签样本数量,计算有标签样本的权重;
其中,Ci表示第i个有标签样本的权重, 表示第i个有标签样本所属类别中包含的有标签样本数量,τ为控制加权程度的参数, 表示所述有标签样本集中的有标签样本数量;
T3、设定岩性预测模型参数的值以及最大迭代次数Titer,并根据有标签数据集和无标签数据集中的样本数据,计算第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及计算模型隐藏层的输出;
T31:利用所述有标签数据集和无标签数据集中的样本数据,分别计算特征相似性矩阵A(1)和A(2)
T32:计算第一特征图拉普拉斯矩阵L(1)=D(1)-A(1),其中D(1)为根据A(1)求得的一个对角矩阵;
T33:计算第二特征图拉普拉斯矩阵L(2)=D(2)-A(2),其中D(2)为根据A(2)求得的一个对角矩阵;
T34:随机生成神经网络模型的隐藏层神经元的权重和偏置,并根据隐藏层神经元的权重和偏置计算隐藏层的输出H;
T4、初始化模型输出层的权重为零,并设定当前的迭代次数ξ=1;
T5、判断当前的迭代次数ξ是否小于最大迭代次数Titer,若否执行步骤T8,若是执行步骤T6;
T6、利用有标签数据集中的样本数据、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重;
T61:计算所述有标签数据集中第i个样本数据的预测误差ei
T62:根据预测误差ei计算N维对角矩阵Λ,第个元素Φ表示高斯核函数的中心,表示所述有标签样本集中的有标签样本数量,N表示总样本数量,表示高斯函数,参量 Q表示高斯核函数数量,σq表示第q个高斯核函数宽度,表示宽度为σq的高斯核函数,γq表示第q个高斯核函数的权重;
T63:利用N维对角矩阵Λ、第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵以及隐藏层的输出,基于目标函数最小化得到当前迭代次数下模型的输出层权重β(ξ)
其中,所述目标函数为:
其中,||β||F表示β的Frobenius范数,表示β的转置,ρ、λ1、λ2分别为权衡系数,Ci表示第i个有标签样本的权重,ei表示第i个样本数据的预测误差,Φ表示高斯核函数的中心,H表示隐藏层的输出,表示隐藏层的输出的转置,L(1)、L(2)分别为第一特征图拉普拉斯矩阵、第二特征图拉普拉斯矩阵;
T7、判断是否满足ε为迭代停止阈值,若是则ξ自增1,并执行步骤T5,否则执行步骤T8;
T8、输出当前迭代次数下模型的输出层权重及对应的岩性预测模型;
T9、利用岩性预测模型对实时采集的测井数据进行预测,识别出对应的岩性类别。
3.如权利要求2所述的岩性预测方法,其特征在于,所述收集不同深度点的测井样本,并对部分深度点的测井样本请求对应的岩性标签,得到有标签数据集和无标签数据集,包括:
收集工区的测井资料,设测井种类为NI,同一深度点的NI个测井数据组成一个测井样本
分析得到部分深度点对应的岩性种类,并将岩性种类作为岩性标签标记该深度点的测井样本,测井样本及其岩性标签组成有标签数据集和无标签数据集其中表示有标签样本总数,u表示无标签样本总数,表示测井样本 对应的岩性标签向量,xk表示无标签的测井样本。
4.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行可实现如权利要求2-3中任意一项所述的岩性预测方法。
CN202110150158.7A 2021-02-03 2021-02-03 一种半监督学习方法、岩性预测方法及存储介质 Active CN112836802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110150158.7A CN112836802B (zh) 2021-02-03 2021-02-03 一种半监督学习方法、岩性预测方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110150158.7A CN112836802B (zh) 2021-02-03 2021-02-03 一种半监督学习方法、岩性预测方法及存储介质

Publications (2)

Publication Number Publication Date
CN112836802A CN112836802A (zh) 2021-05-25
CN112836802B true CN112836802B (zh) 2024-07-12

Family

ID=75931868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110150158.7A Active CN112836802B (zh) 2021-02-03 2021-02-03 一种半监督学习方法、岩性预测方法及存储介质

Country Status (1)

Country Link
CN (1) CN112836802B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537458B (zh) * 2021-06-21 2022-12-30 中国科学技术大学 一种有理式函数神经网络构建方法、系统及可读存储介质
CN113780346B (zh) * 2021-08-06 2023-06-16 中国科学技术大学 一种先验约束分类器调整方法、系统及可读存储介质
CN113837394B (zh) * 2021-09-03 2024-07-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 多特征视图数据标签预测方法、系统与可读存储介质
CN114581666A (zh) * 2022-03-02 2022-06-03 盘锦中录油气技术服务有限公司 一种基于图像深度学习的岩样智能识别方法及系统
CN114896479B (zh) * 2022-06-09 2024-05-07 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种在线学习方法、系统及计算机可读存储介质
CN117950025A (zh) * 2022-10-26 2024-04-30 中国石油天然气股份有限公司 储层物性参数预测方法及装置
CN117173350B (zh) * 2023-08-09 2024-07-05 中国科学技术大学 基于主动领域适应学习的地质建模方法、系统及介质
CN117574258B (zh) * 2024-01-15 2024-04-26 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177267A (zh) * 2013-04-22 2013-06-26 山东师范大学 一种时频联合的支持向量机半监督学习方法
AU2020103335A4 (en) * 2020-11-09 2021-01-21 Southwest University Distributed semisupervised extreme learning machine algorithms for horizontally and vertically partitioned data

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120337B2 (en) * 2017-10-20 2021-09-14 Huawei Technologies Co., Ltd. Self-training method and system for semi-supervised learning with generative adversarial networks
CN109766583B (zh) * 2018-12-14 2023-06-20 南京航空航天大学 基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法
CN110097755B (zh) * 2019-04-29 2021-08-17 东北大学 基于深度神经网络的高速公路交通流量状态识别方法
CN110298392A (zh) * 2019-06-13 2019-10-01 北京工业大学 一种标签约束自权重多超图学习的半监督分类方法
CN110717390A (zh) * 2019-09-05 2020-01-21 杭州电子科技大学 基于图半监督宽度学习的脑电信号分类方法
CN111723666B (zh) * 2020-05-20 2022-11-18 同济大学 一种基于半监督学习的信号识别方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177267A (zh) * 2013-04-22 2013-06-26 山东师范大学 一种时频联合的支持向量机半监督学习方法
AU2020103335A4 (en) * 2020-11-09 2021-01-21 Southwest University Distributed semisupervised extreme learning machine algorithms for horizontally and vertically partitioned data

Also Published As

Publication number Publication date
CN112836802A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN112836802B (zh) 一种半监督学习方法、岩性预测方法及存储介质
Tang et al. A new ensemble machine-learning framework for searching sweet spots in shale reservoirs
Mishra et al. Evaluation and development of a predictive model for geophysical well log data analysis and reservoir characterization: Machine learning applications to lithology prediction
Min et al. Research and application of logging lithology identification for igneous reservoirs based on deep learning
Amirian et al. Artificial neural network modeling and forecasting of oil reservoir performance
Yang et al. Oil logging reservoir recognition based on TCN and SA-BiLSTM deep learning method
Wang et al. Missing well logs prediction using deep learning integrated neural network with the self-attention mechanism
Xie et al. Towards optimization of boosting models for formation lithology identification
Tang et al. A new tool for searching sweet spots by using gradient boosting decision trees and generative adversarial networks
Li et al. Research on reservoir lithology prediction method based on convolutional recurrent neural network
Brown et al. Machine learning on Crays to optimize petrophysical workflows in oil and gas exploration
Yuan et al. Lithology identification by adaptive feature aggregation under scarce labels
CN113780346B (zh) 一种先验约束分类器调整方法、系统及可读存储介质
Sharifinasab et al. Developing GAN-boosted artificial neural networks to model the rate of drilling bit penetration
Chen et al. Value-aware meta-transfer learning and convolutional mask attention networks for reservoir identification with limited data
CN116543237B (zh) 无源域无监督域适应的图像分类方法、系统、设备及介质
Jiang et al. Machine learning (ML) for fluvial lithofacies identification from well logs: A hybrid classification model integrating lithofacies characteristics, logging data distributions, and ML models applicability
Chen et al. Knowledge sharing-based multi-block federated learning for few-shot oil layer identification
Su et al. Seismic prediction of porosity in tight reservoirs based on transformer
Hu et al. Deep learning algorithm-enabled sediment characterization techniques to determination of water saturation for tight gas carbonate reservoirs in Bohai Bay Basin, China
Sun et al. Application of the dynamic transformer model with well logging data for formation porosity prediction
Tong et al. Learning to generate rock descriptions from multivariate well logs with hierarchical attention
Chen et al. Shear-Wave Velocity Prediction Method via a Gate Recurrent Unit Fusion Network Based on the Spatiotemporal Attention Mechanism
Klyuchnikov et al. Generative Adversarial Networks for synthetic wellbore data: Expert perception vs mathematical metrics
CN117173350B (zh) 基于主动领域适应学习的地质建模方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant