CN113378998B - 一种基于机器学习的地层岩性随钻识别方法 - Google Patents

一种基于机器学习的地层岩性随钻识别方法 Download PDF

Info

Publication number
CN113378998B
CN113378998B CN202110784665.6A CN202110784665A CN113378998B CN 113378998 B CN113378998 B CN 113378998B CN 202110784665 A CN202110784665 A CN 202110784665A CN 113378998 B CN113378998 B CN 113378998B
Authority
CN
China
Prior art keywords
different
clustering
drilling
stratum
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110784665.6A
Other languages
English (en)
Other versions
CN113378998A (zh
Inventor
李庆峰
彭炽
付建红
苏昱
张小敏
吴鹏程
钟成旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202110784665.6A priority Critical patent/CN113378998B/zh
Publication of CN113378998A publication Critical patent/CN113378998A/zh
Application granted granted Critical
Publication of CN113378998B publication Critical patent/CN113378998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的地层岩性随钻识别方法,包括首先获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集,随后分别使用不同算法对不同降维方法降维后的数据集进行聚类,根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,最后,将不同降维方法,不同聚类方法,不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出此地层区块最优的地层岩性随钻识别方法,解决了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点,本发明公开的方法识别精度高,能够根据钻井参数随钻识别地层岩性,为现场施工提高机械钻速提供参考。

Description

一种基于机器学习的地层岩性随钻识别方法
技术领域
本发明涉及地层岩性识别方法领域,特别涉及一种基于机器学习的地层岩性随钻识别方法。
背景技术
随钻识别地层岩性,根据识别结果及时调整钻井参数能够有效提高钻井效率。在钻井工程中,钻速是衡量各类岩石可钻性的基本指标,钻压、转速、泵压及排量是影响钻速的主控因素,可直接利用钻井参数对地层岩性进行随钻识别,根据识别结果实时调整钻井参数,提高机械钻速。随着机器学习技术的快速发展,基于机器学习,利用钻井参数驱动智能模型为随钻识别地层岩性提供了一种新思路和新方法。
起源于20世纪50年代初的机器学习依次经历了推理期、知识期和学习期3个历史阶段。1943年,皮兹对MCP(Master Content Provider)模型的提出,迎来了人工神经网络的发展时期,夯实了神经网络模型的理论基础,同时,也标志着深度学习的开端。21世纪以来,随着大数据技术的发展,机器学习算法在计算能力、图像识别等领域取得了快速的发展,机器学习方法主要包括:有监督学习,如决策树、回归、神经网络等;无监督学习,如降维、聚类等;强化学习,如策略迭代、蒙特卡洛等。目前机器学习已广泛应用于油气行业中,刘兆年等利用录井数据,结合神经网络和遗传算法,找出了适用于渤海某区域不同地层的最优机械钻速及其对应的钻井参数。谷建伟等利用支持向量机和长短期记忆神经网络模型分别开展见水波及识别和剩余油分布预测训练,搭建剩余油预测模型,实现了预测油藏平面剩余油分布。孙歧峰等基于长短期记忆神经网络设计地层识别分类器模型,判定轮廓点集合描述地层信息的真伪,提高地层识别的准确度。Ben等利用RF(Random Forest),CNN(Convolutional Neural Networks),CNN/RNN(Recursive Neural Network)混合模型3种机器学习方法,获得了对实时钻井状态的模式识别方法。赵艳红等针对套管损坏问题,采用机器学习技术,根据油水井历史生产数据,分别采用随机森林和支持向量机算法建立单井套损预测模型,提出预测套管损坏的方法。张瑞等基于多变量时间序列(MTS)及向量自回归(VAR)机器学习模型,用于预测水驱油藏的产量。Cao等开发了包括钻井导向系统模块、实时摩阻扭矩模块及实时水力学模块等7个模块的实时钻井分析系统,将人工智能方法与实时钻井分析相融合形成了钻井的实时决策支持工具,得到了现场作业队的认可。Aliyev等利用随机森林结合其他钻井参数建立径向基函数网络模型和多层感知机模型来预测机械钻速。Kiss等构建了一个32输入单输出的神经网络,对139个压裂施工数据的地层破裂压力进行学习,实现了地层破裂压力的预测。Bruyelle等利用人工神经网络来模拟注采关系,进而以NPV最大值来建立优化模型,实现了注采参数优化。邴绍强利用皮尔逊相关系数分析方法,确定了7项主控参数,并创建了结蜡预警规则模型,利用LSTM(Long Short-TermMemory)进行训练,预测抽油机井的结蜡程度。樊浩杰将卷积神经网络、栈式稀疏自编码神经网络与支持向量机相结合形成改进模型,应用于抽油机井故障智能诊断中,实现了自动学习示功图特征的能力,提高了油田作业效率。侯春华针对油田常用人工智能产油量预测方法无法考虑数据在时间上相关性的问题,提出了采用基于LSTM的油田新井产油量预测方法。段友祥等利用阻抗数据、采用K-Means聚类方法进行沉积相估计,获得储层的相带空间展布特征,然后对不同相带使用岭回归的方法对孔隙度进行预测。孙鑫蕾等通过在时域上提取信号的分散特征和形状分布特征,然后利用主成分分析法对时域特征进行降维处理,得到主要特征成分后,利用支持向量机对特征进行分类训练,实现对钻进地层和钻遇水泥环、套管的自动识别。檀朝东提出了一种具有动作自寻优能力的螺杆泵排采强化模型的框架和Q学习及Sarsa、Sarsa(lambda)算法,通过与环境的交互式学习,对动态环境进行灵活奖惩,实现智能体在复杂环境下智能决策和参数优化,可有效获取煤层气螺杆泵排采最优协调控制。
但各种机器学习的模型和原理不同,在问题求解时的适用条件和表现差异比较大,训练单一模型识别地层岩性,很难得到一个稳定、可靠的模型。因此,本发明公开了一种基于机器学习的地层岩性随钻识别方法,包括首先获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集,随后分别使用不同算法对不同降维方法降维后的数据集进行聚类,根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,最后,将不同降维方法,不同聚类方法,不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出此地层区块最优的地层岩性随钻识别方法,解决了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点,本发明公开的方法识别精度高,能够根据钻井参数随钻识别地层岩性,为现场施工提高机械钻速提供参考。
发明内容
本发明的目的在于克服现有技术的缺点,公开了一种基于机器学习的地层岩性随钻识别方法,包括首先获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集,随后分别使用不同算法对不同降维方法降维后的数据集进行聚类,根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,最后,将不同降维方法,不同聚类方法,不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出此地层区块最优的地层岩性随钻识别方法,解决了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点,本发明公开的方法识别精度高,能够根据钻井参数随钻识别地层岩性,为现场施工提高机械钻速提供参考。
为实现上述目的,本申请采用的技术方案为:
一种基于机器学习的地层岩性随钻识别方法,包括以下步骤:
步骤S1:获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集;
步骤S2:分别使用不同算法对步骤S1中得到的不同降维方法降维后的数据集进行聚类;
步骤S3:根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,统计识别结果与准确性;
步骤S4:将步骤S1中不同降维方法,步骤S2中不同聚类方法,步骤S3中不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出待识别地层区块最优的地层岩性随钻识别方法。
进一步的,所述步骤S1中对钻进特征参数进行降维的方法为线性核函数,所述线性核函数表达式为:
Figure GDA0003560033230000031
式中L是特征向量xi和xj的核函数,xi Txj是特征向量xi和xj之间的偏心协方差矩阵,即没有减去均值的协方差矩阵,衡量了特征向量xi和xj之间的相关关系,内积数值越大,相关关系越大,两个向量越相似;
进一步的,所述步骤S1中对钻进特征参数进行降维的方法为高斯核函数,所述高斯核函数表达式为:
L(xi,xj)=exp(-γ||xi-xj||2
式中L是特征向量xi和xj的核函数,参数γ>0,默认值是1/p,p是类别数,γ越大,支持向量越少,γ值越小,支持向量越多;
进一步的,所述步骤S1中对钻进特征参数进行降维的方法为多项式核函数,所述多项式核函数表达式为:
Figure GDA0003560033230000041
式中L是特征向量xi和xj的核函数,参数d用来设置多项式核函数的最高此项次数,d∈1,2,···,n;默认值为3,参数a>0,默认值是1/p(p是类别数),c是内核投影,默认值为0;
进一步的,所述步骤S2中对步骤S1中得到的不同降维方法降维后的数据集进行聚类的方法可以为K-Means算法,所述K-Means算法具体流程为:步骤a.在输入的数据对象集合中随机初始化k个点作为K-Means算法样本;步骤b.计算给定的数据集合分别到初始化聚类中心的几何距离后;步骤c.按照距离最短原则将没一点数据分配到最邻近的簇中;步骤d.使用每个簇中的样本数据几何中心作为新分类的聚类中心;e.反复迭代算法中步骤b、步骤c和步骤d直到算法收敛为止。
进一步的,所述步骤S2中对步骤S1中得到的不同降维方法降维后的数据集进行聚类的方法为FCM算法,即模糊C均值算法,所述FCM算法具体为:
FCM算法的聚类目标函数为:
Figure GDA0003560033230000042
约束条件为:
Figure GDA0003560033230000043
式中,k为划分的类别数;n为原始特征空间样本数量;xj为原始特征空间中第j个样本,j=1,2,…,n;μij为第j个样本xj对第i类的隶属度,μij∈[0,1];m为模糊度;vi为高维特征空间中第i类的聚类中心,i=1,2,…,k;
Figure GDA0003560033230000044
为高维特征空间中第j个样本xj与第i类的聚类中心vi之间的距离;则FCM算法的聚类中心vi为:
Figure GDA0003560033230000045
最小化目标函数通过令其对隶属度矩阵U的偏导数为0进行求导,则隶属度为μrs,μij为某次循环中计算出的隶属度:
Figure GDA0003560033230000046
式中,i=1,2,…,k;j=1,2,…,n;μij为某次循环中计算出的隶属度;通过vi和μij不断循环优化计算出聚类中心vi和隶属度μrs,从而得到聚类结果;
进一步的,所述步骤S2中对步骤S1中得到的不同降维方法降维后的数据集进行聚类的方法为MeanShift算法,即均值漂移算法,所述MeanShift算法具体为:
假设在Rd空间内,某一数据集S有o个数据点,每个数据点分别标记为x1,x2,…,xo,即:
xi∈Rd,i=1,2,...,o
均值漂移算法包括初始搜索中心确定、漂移向量求解、搜索中心更新和迭代条件判断4部分内容:
a.确定搜索起始点。自设定搜索起始点,或者随机设定起始点;
b.漂移向量求解.漂移向量求解如式所示,即
Figure GDA0003560033230000051
式中,Mj为样本点xi(i=1,2…,n)在x点的均值漂移向量;K为集合Sj的样本点总数,Sh是一个高维球区域,其半径为h,Sh满足其关系的y点集合:
Sh={y|(y-x)T(y-x)≤h2}
c.搜索中心更新.第j次迭代所得中心为第j-1次迭代所得中心加上均值漂移向量,即中心沿着Mj的方向移动,移动距离是||Mj||,即:
Figure GDA0003560033230000052
Figure GDA0003560033230000053
为当前簇的中心,
Figure GDA0003560033230000054
为已经存在的上一次迭代所得的簇的中心;
d.终止条件判断.当相邻两次迭代所得搜索中心的欧氏距离小于设定值τ时,退出迭代,即条件为:
Figure GDA0003560033230000055
确定搜索起始点后,迭代地更新搜索中心,直到满足终止条件后退出更新,即可定位数据集的稠密中心;
进一步的,所述步骤S3中使用支持向量机算法训练出地层岩性识别模型,所述支持向量机算法为给定训练样本,建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化,若样本线性不可分,支持向量机算法则使用核函数,通过非线性映射将样本映射到高维特征空间中,进行非线性分类;
进一步的,所述步骤S3中使用随机森林算法训练出地层岩性识别模型,所述随机森林算法为一种随机采样多棵决策树集成的分类器。
进一步的,所述步骤S3中使用极端随机森林算法训练出地层岩性识别模型,所述极端随机森林算法为一种使用所有样本,特征随机选取的多棵决策树集成的分类器
本发明的有益效果为:
本发明公开了一种基于机器学习的地层岩性随钻识别方法,包括首先获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集,随后分别使用不同算法对不同降维方法降维后的数据集进行聚类,根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,最后,将不同降维方法,不同聚类方法,不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出此地层区块最优的地层岩性随钻识别方法,解决了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点,本发明公开的方法识别精度高,能够根据钻井参数随钻识别地层岩性,为现场施工提高机械钻速提供参考。
附图说明
图1为本申请实施例中地层岩性识别方法示意图;
图2为本申请实施例中SVM原理示意图;
图3为本申请实施例中随机森林原理示意图;
图4为本申请实施例中极端随机森林原理示意图;
图5为本申请实施例中单一模型各模型在砂岩上的识别准确率对比;
图6为本申请实施例中单一模型各模型在泥岩上的识别准确率对比;
图7为本申请实施例中单一模型各模型在灰上的识别准确率对比;
图8为本申请实施例中单一模型各模型在页岩上的识别准确率对比;
图9为本申请实施例中K-Means方法对线性核函数降维后的数据进行聚类效果;
图10为本申请实施例中K-Means方法对高斯核函数降维后的数据进行聚类效果;
图11为本申请实施例中K-Means方法对多项式函数降维后的数据进行聚类效果;
图12为本申请实施例中基于K-means聚类结合不同模型在砂岩上的识别准确率对比;
图13为本申请实施例中基于K-means聚类结合不同模型在泥岩上的识别准确率对比;
图14为本申请实施例中基于K-means聚类结合不同模型在灰岩上的识别准确率对比;
图15为本申请实施例中基于K-means聚类结合不同模型在页岩上的识别准确率对比;
图16为本申请实施例中FCM方法对线性核函数降维后的数据进行聚类效果;
图17为本申请实施例中FCM方法对高斯核函数降维后的数据进行聚类效果;
图18为本申请实施例中FCM方法对多项式函数降维后的数据进行聚类效果;
图19为本申请实施例中基于FCM聚类结合不同模型在砂岩上的识别准确率对比;
图20为本申请实施例中基于FCM聚类结合不同模型在泥岩上的识别准确率对比;
图21为本申请实施例中基于FCM聚类结合不同模型在灰岩上的识别准确率对比;
图22为本申请实施例中基于FCM聚类结合不同模型在页岩上的识别准确率对比;
图23为本申请实施例中Mean Shift方法对线性核函数降维后的数据进行聚类效果;
图24为本申请实施例中Mean Shift方法对高斯核函数降维后的数据进行聚类效果;
图25为本申请实施例中Mean Shift方法对多项式函数降维后的数据进行聚类效果;
图26为本申请实施例中基于Mean Shift聚类结合不同模型在砂岩上的识别准确率对比;
图27为本申请实施例中基于Mean Shift聚类结合不同模型在泥岩上的识别准确率对比;
图28为本申请实施例中基于Mean Shift聚类结合不同模型在灰岩上的识别准确率对比;
图29为本申请实施例中基于Mean Shift聚类结合不同模型在页岩上的识别准确率对比;
具体实施方式
下面结合附图对本发明做进一步的描述,本发明的保护范围不局限于以下所述:
实施例:以YX区块部分井的钻井资料为例
如图1所示,首先获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集,随后分别使用不同算法对不同降维方法降维后的数据集进行聚类,根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,最后,将不同降维方法,不同聚类方法,不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出此地层区块最优的地层岩性随钻识别方法。
使用YX区块的钻进参数,包括转速、钻压、泵压、排量及钻速五个主要敏感钻进参数,分别使用K-Means、FCM及Mean Shift聚类算法,对经过KPCA方法降维处理后的数据进行聚类,根据聚类结果分别基于SVM、RF及ERF方法对每一类数据进行训练。
为了便于叙述,本实施例中的降维,聚类及识别模型均采用代号描述:
线性核函数:线性核
高斯核函数:高斯核
多项式核函数:多项式核
支持向量机算法:SVM
如图2所示,支持向量机(Support Vector Machine,SVM)是具有很多优秀性能的机器学习方法,其主要思想:给定训练样本,建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。如果样本线性不可分,SVM则使用核函数,通过非线性映射将样本映射到高维特征空间中,从而有效地进行非线性分类。
随机森林算法:RF
随机森林(Random Forest)算法是Breiman在Bagging算法之后提出的另一种组合预测算法。RF的原理如图3所示。
利用随机模拟的思想,构建出N棵随机决策树(一般N数量必须足够大,本研究中设置为1000)形成森林,并综合森林中各决策树的预测结果做出最终的预测。通过多棵决策树进行集成学习,有效地克服了单棵决策树容易出现过拟合、分类精度较低等问题,并且有效地降低了学习系统的泛化误差,具有不依赖任何模型假设、高维空间自适性、不易发生过拟合等优点。
极端随机森林算法:ERF
极端随机森林(Extratree Random Forest)同样是一种多棵决策树集成的分类器,如图4所示,与随机森林分类器比较,主要有两点不同:对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而ERF一般不采用随机采样,即每个决策树采用原始训练集。RF应用的是Bagging模型,ERF使用的所有的样本,只是特征是随机选取的,因为分裂是随机的,所以在某种程度上比随机森林得到的结果更加好;在选定了划分特征后,RF的决策树会基于信息增益,基尼系数,均方差之类的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是ERF比较激进,会随机的选择一个特征值来划分决策树。
1、样本生成
以YX区块部分井的钻井资料进行分析。YX区块位于川东薄皮挤压滑脱带,地层整体较平缓,主要出露侏罗系,南部永兴逐渐见白垩系地层。西山构造为北东-南西向狭长背斜,背斜核部出露三叠系嘉陵江组、雷口坡组、须家河组地层,向翼部地层逐渐过渡到侏罗系沙溪庙组。详细地层层序及地层岩性见表1。
表1 YX区块地层及岩性描述
Figure GDA0003560033230000081
Figure GDA0003560033230000091
由表1可知,YX区块地层主要岩性主要以砂岩、泥岩、灰岩及页岩为主。本文分别选取4个典型岩性的150组,共600组钻进参数作为训练数据集,见表2。
表2岩性预测训练数据集
Figure GDA0003560033230000092
另选取4类典型地层岩性钻进参数各10组,共40组数据作为测试数据集,见表3。
表3岩性预测测试集
Figure GDA0003560033230000093
Figure GDA0003560033230000101
注:钻压,kN;转速,r/min;泵压,MPa;机械钻速,m/s。
对单一模型和本发明提出的多模型分别使用训练样本集进行训练,得到岩性识别模型,然后用训练得到的模型在测试样本集上进行岩性识别实验,验证模型识别岩性的准确性。
对比例1:
使用单一模型识别地层岩性结果如表4所示。
表4单一模型岩性识别结果
Figure GDA0003560033230000102
由表4可知,单一模型分类结果很差,SVM+线性核组合下模型分类结果全为砂岩,RF+多项式核的组合下分类结果砂岩为16组、泥岩为19组,ERF+线性核的组合下模型分类结果砂岩为20组、泥岩为20组,并且所有组合下的模型均无法识别页岩。
图5是单一模型在识别不同的岩性时的表现。其中,图5是各模型在砂岩上的识别准确率对比;图6是各模型在泥岩上的识别准确率对比;图7是各模型在灰岩上的识别准确率对比;图8是各模型在页岩上的识别准确率对比。
由图5-图8可知,使用单一模型识别地层岩性时,分类结果往往更偏向于一类或两类岩性,无法识别所有的地层岩性。造成这一结果的原因在于,直接使用训练数据集训练,模型无法分辨出特征之间的差异,导致训练出的模型仅能识别某一类岩性。
实施例1:采用K-Means聚类的模型识别
使用K-Means方法对经不同核函数的PCA方法降维后的数据进行聚类,聚类结果如图9-图11所示。
如图9-图11可知,K-means算法能够很好的对使用三种不同核函数的PCA方法降维后的数据进行划分。线性核函数与高斯核函数划分后两个簇类的数据量大致相同,而基于多项式核函数降维后的数据划分后两个簇类的数据量相差较大。
使用K-means聚类结果训练的模型识别结果如表5所示。
表5基于K-means聚类结果训练模型岩性识别结果
Figure GDA0003560033230000111
由表5可知,除SVM+多项式核函数的组合下的模型无法识别灰岩外,其余组合下的模型均能够对4种岩性进行识别。但3种分类器于多项式核函数结合后分类的结果均较差。
图12-图15是基于K-means聚类结合不同方法下的模型在识别不同的岩性时的表现。图12是各模型在砂岩上的识别准确率对比;图13是各模型在泥岩上的识别准确率对比;图14是各模型在灰岩上的识别准确率对比;图15是各模型在页岩上的识别准确率对比。
由图12-图15可知,基于K-Means聚类,与线性核函数降维+SVM分类器组合下的模型效果较好,各类岩性识别的准确率均较高。而与其他核函数、分类器组合下的模型,对地层岩性的分类更偏向某一类岩性。
实施例2:采用FCM聚类的模型识别
使用FCM聚类算法对经不同核函数的PCA方法降维后的数据进行聚类,聚类结果如图16-图18所示。
如图16-图18可知,FCM算法能够很好的对使用线性核函数及高斯核函数的PCA方法降维后的数据进行划分,划分后的两个簇类数据量差别不大,而对使用多项式核函数降维后的数据划分效果一般,并且两个簇类的数据量也有一定的差别。
使用FCM聚类结果训练的模型识别结果如表6所示。
表6基于FCM聚类结果训练模型岩性识别结果
Figure GDA0003560033230000121
由表6可知,除SVM+多项式核函数与ERF+多项式核函数组合下的模型无法识别砂岩与灰岩外,其余组合下的模型均能够对4种岩性进行识别。
图19-图22是基于FCM聚类下结合不同方法下的模型在识别不同的岩性时的表现。其中,图19是各模型在砂岩上的识别准确率对比;图20是各模型在泥岩上的识别准确率对比;图21是各模型在灰岩上的识别准确率对比;图22是各模型在页岩上的识别准确率对比。
图19-图22可知,FCM对经过高斯核函数映射后的特征划分的效果要优于线性核函数与高斯核函数,但高斯核函数映射+FCM聚类+ERF分类组合下模型的识别的准确率最高为70%,仍然小于线性核函数映射+K-Means聚类+ERF分类组合下模型的识别准确率75%。一方面的原因在于高斯核函数映射的效果不如线性核函数,另一方面FCM属于软聚类,在对某些特性进行划分时出现了一定的偏差。
实施例3:采用Mean Shift聚类的模型识别
使用Mean Shift聚类算法对经不同核函数的PCA方法降维后的数据进行聚类,聚类结果如图23-图25所示。
由图23-图25可以看出,Mean Shift算法将使用线性核函数降维后的数据划分为3个类,分类效果一般。将使用高斯核函数降维后的数据划分为3个类,分类效果很好。对多项式核函数降维后的数据共聚出5个类,类别数较多,每个簇类的数据量较小,整体分类效果较差。
使用Mean Shift聚类结果训练的模型识别结果如表7所示。
表7基于MeanShift聚类结果训练模型岩性识别结果
Figure GDA0003560033230000131
Figure GDA0003560033230000141
由表7可知,所有组合下的模型均能下的模型均能够对4种岩性进行识别,这表明Mean Shift聚类能够将存在细微差异的特征进行有效的划分。相较于K-means聚类与FCM聚类,基于Mean Shift聚类结果训练出的模型,各种方法组合下的模型分类结果相对均匀,无明显的偏好。
图26-图29是在识别不同的岩性时各模型的表现。其中,图26是各模型在砂岩上的识别准确率对比;图27是各模型在泥岩上的识别准确率对比;图28是各模型在灰岩上的识别准确率对比;图29是各模型在页岩上的识别准确率对比。
由图26-图29可知,Mean Shift对经过线性核函数映射后的特征划分的效果要优高斯核函数与多项式核函数,但线性核函数映射+Mean Shift聚类+SVM分类组合下模型的识别的准确率最高也仅为70%。一方面的因为Mean Shift对经过线性核函数映射后的特征划分效果较差,另一方面由于本文训练数据量较小,数据不能支持Mean Shift自动寻找聚类中心,决定聚类簇类的个数的过程。
通过不同降维方法,不同聚类方法,不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出YX地层区块最优的地层岩性随钻识别方法为:线性核函数映射+K-means聚类+SVM分类的组合下的多模型识别方法,对各类岩性的识别准确率分别为:砂岩70%、泥岩90%、灰岩80%及页岩90%,平均岩性识别准确率达到82.5%。能够为现场基于钻井参数随钻识别地层岩性提供参考。
经过测试发现,单一模型在识别地层岩性时,分类结果偏向与某一类或两类岩性,识别准确率较差,并且无法识别4种地层岩性。根据聚类结果训练多模型识别地层岩性时,除少数几种组合方法下的模型无法完全识别4种岩性外,其余组合方法下的模型均能够识别4种地层岩性。但线性核函数映射+K-means聚类+SVM分类的组合下的多模型识别方法,对各类岩性的识别准确率分别为:砂岩70%、泥岩90%、灰岩80%及页岩90%,平均岩性识别准确率达到82.5%,因此,YX地层区块最优的地层岩性随钻识别方法为:线性核函数映射+K-means聚类+SVM。
综上所述,本发明公开了一种基于机器学习的地层岩性随钻识别方法,包括首先获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集,随后分别使用不同算法对不同降维方法降维后的数据集进行聚类,根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,最后,将不同降维方法,不同聚类方法,不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出此地层区块最优的地层岩性随钻识别方法,解决了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点,本发明公开的方法识别精度高,能够根据钻井参数随钻识别地层岩性,为现场施工提高机械钻速提供参考。
至此,本领域技术人员认识到,虽然本文已详尽展示和描述了本发明的实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导符合本发明原理的许多其他变形或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变形或修改。

Claims (1)

1.一种基于机器学习的地层岩性随钻识别方法,其特征在于,所述地层岩性随钻识别方法包括以下步骤:
步骤S1:获取待识别地层区块的钻进特征参数,然后使用不同核函数的PCA方法对钻进特征参数进行降维处理得到不同数据集;
步骤S2:分别使用不同算法对步骤S1中得到的不同降维方法降维后的数据集进行聚类;
步骤S3:根据不同聚类结果分别使用不同算法训练出不同的地层岩性识别模型分别进行地层岩性识别,统计识别结果与准确性;
步骤S4:将步骤S1中不同降维方法,步骤S2中不同聚类方法,步骤S3中不同地层岩性识别模型正交组合实验后的识别结果进行对比,筛选出待识别地层区块最优的地层岩性随钻识别方法;
所述步骤S2中对步骤S1中得到的不同降维方法降维后的数据集进行聚类的方法为K-Means算法,所述K-Means算法具体流程为:步骤a.在输入的数据对象集合中随机初始化k个点作为K-Means算法样本;步骤b.计算给定的数据集合分别到初始化聚类中心的几何距离后;步骤c.按照距离最短原则将没一点数据分配到最邻近的簇中;步骤d.使用每个簇中的样本数据几何中心作为新分类的聚类中心;e.反复迭代算法中步骤b、步骤c和步骤d直到算法收敛为止;
所述步骤S1中对钻进特征参数进行降维的方法为线性核函数,所述线性核函数表达式为:
Figure FDA0003560033220000011
式中L是特征向量xi和xj的核函数,xi Txj是特征向量xi和xj之间的偏心协方差矩阵,即没有减去均值的协方差矩阵,衡量了特征向量xi和xj之间的相关关系,内积数值越大,相关关系越大,两个向量越相似;
所述步骤S1中对钻进特征参数进行降维的方法为高斯核函数,所述高斯核函数表达式为:
L(xi,xj)=exp(-γ||xi-xj||2)
式中L是特征向量xi和xj的核函数,参数γ>0,默认值是1/p,p是类别数,γ越大,支持向量越少,γ值越小,支持向量越多;
所述步骤S1中对钻进特征参数进行降维的方法为多项式核函数,所述多项式核函数表达式为:
Figure FDA0003560033220000021
式中L是特征向量xi和xj的核函数,参数d用来设置多项式核函数的最高此项次数,d∈1,2,···,n;默认值为3,参数a>0,默认值是1/p(p是类别数),c是内核投影,默认值为0;
所述步骤S2中对步骤S1中得到的不同降维方法降维后的数据集进行聚类的方法为FCM算法,即模糊C均值算法,所述FCM算法具体为:
FCM算法的聚类目标函数为:
Figure FDA0003560033220000022
约束条件为:
Figure FDA0003560033220000023
式中,k为划分的类别数;n为原始特征空间样本数量;xj为原始特征空间中第j个样本,j=1,2,…,n;μij为第j个样本xj对第i类的隶属度,μij∈[0,1];m为模糊度;vi为高维特征空间中第i类的聚类中心,i=1,2,…,k;
Figure FDA0003560033220000024
Figure FDA0003560033220000031
为高维特征空间中第j个样本xj与第i类的聚类中心vi之间的距离;则FCM算法的聚类中心vi为:
Figure FDA0003560033220000032
最小化目标函数通过令其对隶属度矩阵U的偏导数为0进行求导,则隶属度为μrs,μij为某次循环中计算出的隶属度:
Figure FDA0003560033220000033
式中,i=1,2,…,k;j=1,2,…,n;μij为某次循环中计算出的隶属度;通过vi和μij不断循环优化计算出聚类中心vi和隶属度μrs,从而得到聚类结果;
所述步骤S2中对步骤S1中得到的不同降维方法降维后的数据集进行聚类的方法为MeanShift算法,即均值漂移算法,所述MeanShift算法具体为:
假设在Rd空间内,某一数据集S有o个数据点,每个数据点分别标记为x1,x2,…,xo,即:
xi∈Rd,i=1,2,...,o
均值漂移算法包括初始搜索中心确定、漂移向量求解、搜索中心更新和迭代条件判断4部分内容:
a.确定搜索起始点,自设定搜索起始点,或者随机设定起始点;
b.漂移向量求解.漂移向量求解如式所示,即
Figure FDA0003560033220000034
式中,Mj为样本点xi(i=1,2…,n)在x点的均值漂移向量;K为集合Sj的样本点总数,Sh是一个高维球区域,其半径为h,Sh满足其关系的y点集合:
Sh={y|(y-x)T(y-x)≤h2}
c.搜索中心更新.第j次迭代所得中心为第j-1次迭代所得中心加上均值漂移向量,即中心沿着Mj的方向移动,移动距离是||Mj||,即:
Figure FDA0003560033220000041
Figure FDA0003560033220000042
为当前簇的中心,
Figure FDA0003560033220000043
为已经存在的上一次迭代所得的簇的中心;
d.终止条件判断.当相邻两次迭代所得搜索中心的欧氏距离小于设定值τ时,退出迭代,即条件为:
Figure FDA0003560033220000044
确定搜索起始点后,迭代地更新搜索中心,直到满足终止条件后退出更新,即可定位数据集的稠密中心;
所述步骤S3中使用支持向量机算法训练出地层岩性识别模型,所述支持向量机算法为给定训练样本,建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化,若样本线性不可分,支持向量机算法则使用核函数,通过非线性映射将样本映射到高维特征空间中,进行非线性分类;
所述步骤S3中使用随机森林算法训练出地层岩性识别模型,所述随机森林算法为一种随机采样多棵决策树集成的分类器;
所述步骤S3中使用极端随机森林算法训练出地层岩性识别模型,所述极端随机森林算法为一种使用所有样本,特征随机选取的多棵决策树集成的分类器。
CN202110784665.6A 2021-07-12 2021-07-12 一种基于机器学习的地层岩性随钻识别方法 Active CN113378998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110784665.6A CN113378998B (zh) 2021-07-12 2021-07-12 一种基于机器学习的地层岩性随钻识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110784665.6A CN113378998B (zh) 2021-07-12 2021-07-12 一种基于机器学习的地层岩性随钻识别方法

Publications (2)

Publication Number Publication Date
CN113378998A CN113378998A (zh) 2021-09-10
CN113378998B true CN113378998B (zh) 2022-07-22

Family

ID=77581800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110784665.6A Active CN113378998B (zh) 2021-07-12 2021-07-12 一种基于机器学习的地层岩性随钻识别方法

Country Status (1)

Country Link
CN (1) CN113378998B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792936A (zh) * 2021-09-28 2021-12-14 中海石油(中国)有限公司 一种随钻岩性智能识别方法、系统、设备和存储介质
CN113689055B (zh) * 2021-10-22 2022-01-18 西南石油大学 一种基于贝叶斯优化的油气钻井机械钻速预测与优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679132A (zh) * 2013-07-15 2014-03-26 北京工业大学 一种敏感图像识别方法及系统
CN104502103A (zh) * 2014-12-07 2015-04-08 北京工业大学 一种基于模糊支持向量机的轴承故障诊断方法
CN108280415A (zh) * 2018-01-17 2018-07-13 武汉理工大学 基于智能移动终端的驾驶行为识别方法
CN111797899A (zh) * 2020-06-04 2020-10-20 国网江西省电力有限公司电力科学研究院 一种低压台区kmeans聚类方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096727B (zh) * 2016-06-02 2018-12-07 腾讯科技(深圳)有限公司 一种基于机器学习的网络模型构造方法及装置
US10417523B2 (en) * 2016-11-07 2019-09-17 Ayasdi Ai Llc Dimension grouping and reduction for model generation, testing, and documentation
US10430649B2 (en) * 2017-07-14 2019-10-01 Adobe Inc. Text region detection in digital images using image tag filtering
EP3451190B1 (en) * 2017-09-04 2020-02-26 Sap Se Model-based analysis in a relational database
US20190347567A1 (en) * 2018-03-13 2019-11-14 Genetic Intelligence, Inc. Methods for data segmentation and identification
CN110097069A (zh) * 2019-03-11 2019-08-06 西安科技大学 一种基于深度多核学习的支持向量机岩相识别方法及装置
CN110348516B (zh) * 2019-07-11 2021-05-11 同盾控股有限公司 数据处理方法、装置、存储介质及电子设备
WO2021055189A1 (en) * 2019-09-18 2021-03-25 Luminex Corporation Using machine learning algorithms to prepare training datasets
CN110674868A (zh) * 2019-09-23 2020-01-10 中煤科工集团西安研究院有限公司 一种基于高维钻进参数信息的地层岩性识别系统及其方法
CN111063393B (zh) * 2019-12-26 2023-04-07 青岛科技大学 基于信息融合和深度学习的原核生物乙酰化位点预测方法
CN111914478A (zh) * 2020-07-02 2020-11-10 中国地质大学(武汉) 一种综合地质钻孔测井岩性识别方法
CN112784722B (zh) * 2021-01-13 2022-08-09 南京邮电大学 基于YOLOv3和词袋模型的行为识别方法
CN112926502B (zh) * 2021-03-23 2022-07-29 南京邮电大学 基于核化双群稀疏学习的微表情识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679132A (zh) * 2013-07-15 2014-03-26 北京工业大学 一种敏感图像识别方法及系统
CN104502103A (zh) * 2014-12-07 2015-04-08 北京工业大学 一种基于模糊支持向量机的轴承故障诊断方法
CN108280415A (zh) * 2018-01-17 2018-07-13 武汉理工大学 基于智能移动终端的驾驶行为识别方法
CN111797899A (zh) * 2020-06-04 2020-10-20 国网江西省电力有限公司电力科学研究院 一种低压台区kmeans聚类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
井下环境中运动目标检测与跟踪研究;张辰;《中国博士学位论文全文数据库 信息科技辑》;20141215(第12期);第11-15、48-61页 *
基于机器视觉的桥梁裂纹检测算法研究;刘淑敏;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20210115(第1期);第4、48页 *

Also Published As

Publication number Publication date
CN113378998A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN112083498B (zh) 一种基于深度神经网络的多波地震油气储层预测方法
CN113378998B (zh) 一种基于机器学习的地层岩性随钻识别方法
CN107292350A (zh) 大规模数据的异常检测方法
CN112989708A (zh) 一种基于lstm神经网络的测井岩性识别方法及系统
CN114139458B (zh) 基于机器学习的钻井参数优化方法
CN113255573B (zh) 基于混合簇中心标签学习的行人重识别方法和存储介质
CN110472689B (zh) 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法
Liu et al. Dynamic local search based immune automatic clustering algorithm and its applications
CN110287985B (zh) 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法
CN103258147A (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
Cao et al. Density-based fuzzy C-means multi-center re-clustering radar signal sorting algorithm
Dong et al. How to improve machine learning models for lithofacies identification by practical and novel ensemble strategy and principles
CN113298184B (zh) 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN113033637B (zh) 一种基于岩石物理样本增强的集成学习岩相预测方法
CN115964667A (zh) 基于深度学习和重采样的河流-湖泊岩相测井识别方法
CN116303626A (zh) 一种基于特征优化和在线学习的固井泵压预测方法
Wang et al. Fuzzy C-means clustering algorithm for automatically determining the number of clusters
US20220284261A1 (en) Training-support-based machine learning classification and regression augmentation
Fattah et al. A mutual information based approach for evaluating the quality of clustering
Zhao et al. A hybrid method for incomplete data imputation
Shi et al. A study of support vector regression-based fuzzy c-means algorithm on incomplete data clustering
Liao et al. Predictive Analytics and Statistical Learning for Waterflooding Operations in Reservoir Simulations
Feder Machine-learning approach determines spatial variation in shale decline curves
Ramathilagam et al. Robust fuzzy clustering techniques for analyzing complicated colon cancer database
Chen Brain Tumor Prediction with LSTM Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant