CN111291097A - 一种基于决策树数据挖掘的钻井漏层位置实时预测方法 - Google Patents

一种基于决策树数据挖掘的钻井漏层位置实时预测方法 Download PDF

Info

Publication number
CN111291097A
CN111291097A CN202010382244.6A CN202010382244A CN111291097A CN 111291097 A CN111291097 A CN 111291097A CN 202010382244 A CN202010382244 A CN 202010382244A CN 111291097 A CN111291097 A CN 111291097A
Authority
CN
China
Prior art keywords
data
drilling
decision tree
real
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010382244.6A
Other languages
English (en)
Other versions
CN111291097B (zh
Inventor
苏俊霖
赵洋
李立宗
左富银
尹雨红
秦祖海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202010382244.6A priority Critical patent/CN111291097B/zh
Publication of CN111291097A publication Critical patent/CN111291097A/zh
Application granted granted Critical
Publication of CN111291097B publication Critical patent/CN111291097B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种基于决策树数据挖掘的钻井漏层位置实时预测方法。所述方法包括:采集目标区块相关历史钻井数据、历史钻井漏层位置真实值及实时钻井数据,并进行数据预处理;将预处理后的历史钻井数据划分为训练集和测试集,选取训练集中历史钻井数据为输入,历史钻井漏层位置真实值为标准,采用决策树算法进行数据挖掘,形成漏层位置预测初始决策树;通过测试集的数据对初始决策树进行剪枝,通过交叉验证选取最优子树并进行精度评估,若不满足精度要求则重新生成决策树;由最终决策树确定的分类规则生成钻井漏层位置实时预测模型,将该模型与正钻井数据即时采集平台相连接,从而达到钻井漏层位置实时预测的效果。

Description

一种基于决策树数据挖掘的钻井漏层位置实时预测方法
技术领域
本发明涉及一种基于决策树数据挖掘的钻井漏层位置实时预测方法,属于决策树数据挖掘领域以及钻井液漏失堵漏领域。
背景技术
井漏是影响钻井作业安全最严重的复杂情况之一,井漏不仅给钻井工程带来极大困难,还严重影响了油气资源的开发速度。而找准漏层位置,是制定防漏、堵漏技术措施,将井漏造成的损失降低到最低程度的关键。
目前国内外测量漏层位置的方法主要有井温法、声波测量法、涡轮流量计法、噪声法、传感器测量法、电磁式测量仪测量法和温度式测量仪测量法等。从目前的应用情况看,这些方法都存在一定不足:井温法测量精度受热传导速度慢的影响,当漏失量较小时温度变化不明显,不能精确判定漏层位置,只能确定大致范围;声波测量法具有多解性,且容易将不规则井段、没有漏失的裂缝及含气的层段误判为漏层;涡轮流量计法受钻井液参数影响较大,很容易产生测量偏差;噪声法易受仪器与井壁摩擦噪声的影响;传感器、电磁式测量仪、温度测量仪等仪器大多数都采用电缆下入井眼的方式,在很多的复杂漏失情况下,仪器的使用会受到较大限制。
总之,国内外对钻井过程中漏层位置预测方面的研究尚不完善,其主要疑难之处为:(1)目前的技术手段很难清楚的了解到钻井漏失井眼周围的地层结构;(2)影响漏层位置的因素过多,单一的凭借岩石力学模量、立管压力等因素无法准确的判断漏层位置;(3)漏层位置的机理研究还停留在定性或半定量的的描述阶段,缺乏比较准确的定量因素评价及分析模型。
发明内容
针对现有技术中获取漏层位置方法的不足,本发明的目的在于提出一种基于决策树数据挖掘的钻井漏层位置实时预测方法,该发明通过对目标区块相关历史钻井数据、历史钻井漏层位置真实值及实时钻井数据等数据资料进行数据分析与数据挖掘的方式,来提供一种便捷、精准,又能实现正钻井漏层位置实时预测的方法。
具体地说,本发明是采用以下的技术方案来实现的,包括下列步骤:
1)采集目标区块相关历史钻井数据、历史钻井漏层位置真实值及实时钻井数据,并进行数据预处理;
2)将预处理后的历史钻井数据划分为训练集和测试集,选取训练集中历史钻井数据为输入,历史钻井漏层位置真实值为标准,采用决策树算法进行数据挖掘,形成漏层位置预测初始决策树;
3)通过测试集的数据对初始决策树进行剪枝,通过交叉验证选取最优子树并进行精度评估,若不满足精度要求则重新生成决策树;
4)由最终决策树确定的分类规则生成钻井漏层位置实时预测模型,将该模型与正钻井数据即时采集平台相连接,从而达到钻井漏层位置实时预测的效果。
上述技术方案的进一步特征在于,所述步骤1)中,采集的相关历史钻井数据及实时钻井数据主要包括钻井液参数、地层压力参数、岩石力学参数和部分其它参数。
其中,钻井液参数主要包括钻井液密度、钻井液类型、漏斗粘度、钻井液初切及终切、3转读数、6转读数、100转读数、300转读数、钻井液漏失速度、漏失时间以及漏失量;地层压力参数主要包括立管压力、钻压;岩石力学参数特指地层岩性及特征;其它参数主要包括钻头类型、钻头尺寸、钻杆扭矩、钻头转速、钻速。
上述技术方案的进一步特征在于,所述步骤1)中,数据预处理的流程包括数据探索、清洗、集成、变换和规约,具体流程为:
1-1)数据探索:数据探索过程包括数据质量分析和数据特征分析,该过程主要利用SPSS软件完成,其中质量分析主要是利用SPSS画出数据集参数趋势图,从而发现偏远点,而数据特征分析则是用SPSS画出统计图、统计表的形式得到数据的分布特征;
1-2)数据清洗:首先采用箱型图法来进行异常值检测与处理,再将缺失率小于30%的字段进行补缺,按照字段所代表的参数在钻井现场能进行采集和取得的原则,尽可能多保留数据信息到清洗数据中进行下一步处理,并采用牛顿插值法来进行缺失值处理;
1-3)数据集成:将Excel、Access、Oracle等不同格式下的所有数据存到了一个包含有数据获得、数据统计、数据映射、分级抽取、错误恢复和安全性转换功能的数据平台仓库中;
1-4)数据变换:对所有包含层位信息的表进行了归一化处理,包括岩性记录数据、钻井液性能数据、钻井日志、井漏基本数据等;
1-5)数据规约:将漏失速度、漏失时间、漏失量三个数据进行属性规约,通过主成分分析来代替原始参数进行建模,并在原本的数据中筛选出不漏的井深,以十米为单位进行数据规约。
上述技术方案的进一步特征在于,所述步骤2)中划分历史钻井数据为训练集与测试集,并形成漏层位置预测初始决策树的具体方法为:
2-1)将钻井历史数据库中的历史数据进行划分,其中70%的数据分给训练集S,30%的数据分给测试集T;
2-2)依次遍历每个钻井漏层位置的相关特征A(如钻井液密度、钻压等)的可能取值a,对每一个切分点(A, a)计算其基尼指数:
Figure DEST_PATH_IMAGE002
其中,p代表样本输出的概率,pk代表样本属于第k类的概率,K代表样本的类别总数;
基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。
2-3)在计算出来的各个特征的各个特征值对数据集S的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分S1和S2,同时建立当前节点的左右节点,左节点的数据集为S1,右节点的数据集为S2
其中,选择特征A=a,将S划分为两部分,即S1为满足A=a的样本集合,S2为不满足A=a的样本集合。则在特征A=a的条件下S的基尼指数为:
Figure DEST_PATH_IMAGE004
2-4)对上步切出的两个子集分别递归调用2-2)和2-3),直至满足停止条件;
2-5)生成漏层位置预测初始决策树。
上述技术方案的进一步特征在于,所述步骤3)中通过测试集的数据对用训练集递归建立的漏层位置预测决策树进行剪枝的方法原理如下:
对于一个固定的参数特征值a,在初始决策树T0中一定存在一颗树Ta使得损失函数Ca(T)最小。也就是每一个固定的a,都存在一颗相应的使得损失函数最小的树。这样不同的a会产生不同的最优树,于是在最优树未知的情况下,需要将a在其取值空间内划分为一系列区域,在每个区域都取一个a然后得到相应的最优树,最终选择损失函数最小的最优树。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
附图1 数据处理框图;
附图2正钻井漏层位置预测决策树模型实例图;
附图3正钻井漏层位置预测决策树工作流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本发明技术方案中的数据预处理框图,由图1可知,数据预处理内容包括数据探索、清洗、集成、变换和规约,其中数据探索过程包括数据质量分析和数据特征分析,数据质量分析主要包括缺失值分析、异常值分析和一致性分析,而数据特征分析则包括分布分析、对比分析、统计量分析以及相关性分析;数据清洗、集成、变换和规约是为了克服目前数据挖掘工具的局限性,对选择的干净数据进行增强处理的过程,即解决数据中的缺值、冗余、数据的不一致、数据定义的不一致、过时的数据等问题,还包括对所有数据的整理和归并,以此保持数据的完整性和正确性。
图2是正钻井漏层位置预测决策树模型实例图,该图给出了一种节点较少的决策树模型实例,通过该实例可清楚的了解决策树的模型结构及分割方法。首先将经过预处理的历史钻井数据中的训练集进行特征分类,再以本次分类为基础,再次进行特征分类,直到历史钻井数据完全分类或者特征属性节点无法再次分类为止。
本实例设定的第一个相关特征(即基尼指数最小的特征)为井史参数A1,以井史参数A1为特征,得到切分点a后将所有历史钻井数据划分到了两个数据集S1、S2中,再次计算基尼系数得到第二个相关特征井史参数A2,并确定了切分点b和c,通过b和c两个切分点分别将S1、S2两个数据集划分为S1.1、S1.2、S2.1、S2.2四个数据集,其中数据集S1.2和S2.2在得到漏层位置分类结果后即可不必继续分类,而数据集S1.1和S2.1则由于漏层位置预测结果分类不明显需要继续分类。通过再次计算基尼系数可得第三个相关特征井史参数A3以及切分点d和e,利用切分点将数据集S1.1和S2.1切分为S1.1.1、S1.1.2和S2.1.1、S2.1.2四个数据集。四个数据集中每个数据集都可以得到漏层位置漏层位置分类结果,因此可以停止分类,并得到了一种节点较少的决策树模型。
上述技术方案的进一步特征在于,所述确定分类特征属性的方法如下:
1)依次遍历每个钻井漏层位置的相关特征A(如钻井液密度、立管压力等)的可能取值a,对每一个切分点(A, a)计算其基尼指数,选择基尼系数最小的特征A和对应的特征值a。
2)根据这个最优特征和最优特征值,把数据集划分成两部分S1和S2,并以此类推,最终得到漏层位置预测决策树模型。
图3是正钻井漏层位置预测决策树工作流程图,由图3可知,本发明一种基于决策树数据挖掘的钻井漏层位置预测方法的具体实现步骤为:
1)采集目标区块相关历史钻井数据、历史钻井漏层位置真实值及实时钻井数据,并进行数据预处理;
2)将预处理后的历史钻井数据划分为训练集和测试集,选取训练集中历史钻井数据为输入,历史钻井漏层位置真实值为标准,采用决策树算法进行数据挖掘,形成漏层位置预测初始决策树;
3)通过测试集的数据对初始决策树进行剪枝,通过交叉验证选取最优子树并进行精度评估,若不满足精度要求则重新生成决策树;
4)由最终决策树确定的分类规则生成钻井漏层位置实时预测模型,将该模型与正钻井数据即时采集平台相连接,从而达到钻井漏层位置实时预测的效果。
上述技术方案的进一步特征在于,所述步骤1)中,数据预处理内容包括数据探索、清洗、集成、变换和规约,具体过程如下:
1-1)数据探索过程包括数据质量分析和数据特征分析;
该过程主要利用SPSS软件完成。其中质量分析主要是利用SPSS画出数据集参数趋势图,从而发现偏远点,而数据特征分析则是用SPSS画出统计图、统计表的形式得到数据的分布特征;
1-2)数据清洗主要是删除钻井历史数据原始数据集中的漏层位置无关数据、重复数据,平滑噪声数据,同时筛选掉与钻井液漏层位置预测无关的数据,处理缺失值、异常值等;
本方法首先采用箱型图法来进行异常值检测与处理,再将缺失率小于30%的字段进行补缺,按照字段所代表的参数在钻井现场能进行采集和取得的原则,尽可能多保留数据信息到清洗数据中进行下一步处理,并采用牛顿插值法来进行缺失值处理;
1-3)数据集成是将多文件或多数据库运行环境中的钻井历史数据进行合并处理;
本方法将excel、access、oracle等不同格式下的所有数据存到了一个包含有数据获得、数据统计、数据映射、分级抽取、错误恢复和安全性转换功能的数据平台仓库中;
1-4)数据变换是对钻井历史数据进行规范化处理,将其转换成适合数据挖掘的形式;
本方法对所有包含层位信息的表进行了归一化处理,包括岩性记录数据、钻井液性能数据、钻井日志、井漏基本数据等;
1-5)数据规约是在保持钻井历史数据特征完整性的前提下减少数据范围及数据量;
本方法将漏失速度、漏失时间、漏失量三个数据进行属性规约,通过主成分分析来代替原始参数进行建模,并在原本的数据中筛选出不漏的井深,以十米为单位进行数据规约,以此为基础进行数据挖掘可以减少重要数据被淹没的可能性。
上述技术方案的进一步特征在于,所述步骤2)中划分历史钻井数据为训练集与测试集,并形成漏层位置预测初始决策树的具体方法为:
2-1)将钻井历史数据库中的历史数据进行划分,其中70%的数据分给训练集S,30%的数据分给测试集T。
2-2)依次遍历每个钻井漏层位置的相关特征A(例如钻井液密度、地层岩性等)的可能取值a,对每一个切分点(A, a)计算其基尼指数:
Figure DEST_PATH_IMAGE006
其中,p代表样本输出的概率,pk代表样本属于第k类的概率,K代表样本的类别总数;
基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。
2-3)在计算出来的各个特征的各个特征值对数据集S的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分S1和S2,同时建立当前节点的左右节点,左节点的数据集为S1,右节点的数据集为S2
其中,选择特征A=a,将S划分为两部分,即S1为满足A=a的样本集合,S2为不满足A=a的样本集合。则在特征A=a的条件下S的基尼指数为:
Figure DEST_PATH_IMAGE008
2-4)对上步切出的两个子集分别递归调用2-2)和2-3),直至满足停止条件;
2-5)最终得出的数据集划分依据即为初始决策树。
上述技术方案的进一步特征在于,所述步骤3)中通过测试集的数据对初始决策树进行剪枝,用python编程算法实现的具体方法如下:
3-1)输入训练集上调用生成算法所产生的原始决策树T,将测试集输入T中并从下往上地获取T中所有的Node节点,存入数据库的tmp_nodes列表中;
3-2)对tmp_nodes列表中所有地Node节点计算阈值,存入列表thresholds;其中,第t个Node节点的阈值
Figure DEST_PATH_IMAGE010
应满足以下公式:
Figure DEST_PATH_IMAGE012
其中,Tt代表以
Figure 588207DEST_PATH_IMAGE010
为阈值进行剪枝后的决策树,C(t)代表第t个Node自身数据的损失函数,C(Tt)代表Tt决策树剪枝前的总损失,
Figure DEST_PATH_IMAGE014
代表第t个Node节点进行局部剪枝前的新损失,
Figure DEST_PATH_IMAGE016
代表局部剪枝后的新损失。由上式可求出:
Figure DEST_PATH_IMAGE018
上式即为决策树剪枝算法的阈值计算公式;
3-3)进入循环体:
a.将当前决策树存入列表self.root;
b.对tmp_nodes[p]中该层所有节点进行裁剪并计算损失,若当前决策树裁剪到了根节点,则退出循环体;
c.否则,取p满足:
Figure DEST_PATH_IMAGE020
式中,p代表漏层位置预测初始决策树进行局部剪枝的次数;
d.在完成局部剪枝后,更新threshoulds、tmp_nodes等变量。具体而言,无需重新计算它们,只需更新“被影响到的”Node所对应的位置的值即可。
3-4)然后调用self.reduce_nodes方法,将被剪掉的Node从nodes中删除;
3-5)最后利用交叉验证,从self.roots中选出表现最好的决策树Tp,并输出。
上述技术方案的进一步特征在于,该方法克服了现有技术受制于井眼周围地层环境且不能实时预测漏层位置的缺点,通过对目标区块历史钻井数据进行数据挖掘并建立漏层位置预测决策树模型的方法来达到实时预测漏层位置的效果,为钻井堵漏技术人员和施工人员提供更加准确、有效的决策依据,从而提高了堵漏工作的效率,增加堵漏作业的一次成功率,避免了重复作业。
以上具体技术方案仅用以说明本发明,而非对其限制;尽管参照上述具体技术方案对本发明进行了详细的说明,本领域的普通技术人员应当理解。本发明依然可以对上述具体技术方案进行修改,或者对其中部分技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明的精神和范围。

Claims (4)

1.一种基于决策树数据挖掘的钻井漏层位置实时预测方法,其特征在于,该方法包括以下步骤:
1)采集目标区块相关历史钻井数据、历史钻井漏层位置真实值及实时钻井数据,并进行数据预处理;
具体步骤如下:
1-1)数据探索:数据探索过程包括数据质量分析和数据特征分析,其中质量分析主要是利用数据分析软件画出数据集参数趋势图,从而发现偏远点,而数据特征分析则是画出统计图、统计表的形式得到数据的分布特征;
1-2)数据清洗:首先采用箱型图法来进行异常值检测与处理,再将缺失率小于30%的字段进行补缺,按照字段所代表的参数在钻井现场能进行采集和取得的原则,尽可能多保留数据信息到清洗数据中进行下一步处理,并采用牛顿插值法来进行缺失值处理;
1-3)数据集成:将各种不同格式下的所有数据存到了一个包含有数据获得、数据统计、数据映射、分级抽取、错误恢复和安全性转换功能的数据平台仓库中;
1-4)数据变换:对所有包含层位信息的表进行了归一化处理,包括岩性记录数据、钻井液性能数据、钻井日志、井漏基本数据等;
1-5)数据规约:将漏失速度、漏失时间、漏失量三个数据进行属性规约,通过主成分分析来代替原始参数进行建模,并在原本的数据中筛选出不漏的井深,以十米为单位进行数据规约;
2)将预处理后的历史钻井数据划分为训练集和测试集,选取训练集中历史钻井数据为输入,历史钻井漏层位置真实值为标准,采用决策树算法进行数据挖掘,形成漏层位置预测初始决策树;
3)通过测试集的数据对初始决策树进行剪枝,通过交叉验证选取最优子树并进行精度评估,若不满足精度要求则重新生成决策树;
4)由最终决策树确定的分类规则生成钻井漏层位置实时预测模型,将该模型与正钻井数据即时采集平台相连接,从而达到钻井漏层位置实时预测的效果。
2.根据权利要求1所述钻井漏层位置实时预测方法,其特征在于,通过对历史钻井数据中的钻井液参数、地层压力参数、岩石力学参数等进行数据挖掘,来达到实时预测正钻井漏层位置的效果。
3.根据权利要求1所述钻井漏层位置实时预测方法,其特征在于,本方法步骤2)采用生成漏层位置预测初始决策树的具体方法为:
2-1)将钻井历史数据库中的历史数据进行划分,其中70%的数据分给训练集S,30%的数据分给测试集T;
2-2)将经过预处理的历史钻井数据中的训练集所有的漏层位置相关特征,例如钻井液密度、地层岩性等进行分析,依次遍历每个相关特征A的可能取值a,对每一个切分点(A,a)计算其基尼指数;
2-3)在计算出来的各个特征的特征值对数据集S的基尼系数中,选择基尼系数最小的特征A和对应的特征值a;根据这个最优特征和最优特征值,把数据集划分成两部分S1和S2,同时建立当前节点的左右节点,即下一次数据集的切分点;
2-4)根据2-3)得出的切分点对上步切出的两个子集重复递归调用2-2)和2-3),直至满足停止条件为止;
2-5)最终得出的数据集划分依据即为初始决策树。
4.根据权利要求1所述钻井漏层位置实时预测方法,其特征在于,本方法步骤3)采用的剪枝方法为:
先用训练集历史钻井数据生成决策树并保存该初始决策树,再将测试集数据输入决策树模型,并且在数据进入决策树并到达叶节点后,计算每个内部节点与下级节点间的损失并进行加权平均,得到该节点的损失,以阈值为参考,从最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并得到每个节点的新损失,将每个节点的损失进行比较,判断出裁剪前后的损失大小,并根据这一依据对保存的初始决策树中进行剪枝后损失较小的节点枝节进行裁剪,在完成最下层裁剪后保存,并利用相同的方法自下而上进行裁剪,直到根节点为止;
这种方法可以在每一层剪枝后得到一个决策树模型,最终从剪枝得到的众多决策树中选择一个性能最好的漏层位置预测决策树模型。
CN202010382244.6A 2020-05-08 2020-05-08 一种基于决策树数据挖掘的钻井漏层位置实时预测方法 Expired - Fee Related CN111291097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010382244.6A CN111291097B (zh) 2020-05-08 2020-05-08 一种基于决策树数据挖掘的钻井漏层位置实时预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010382244.6A CN111291097B (zh) 2020-05-08 2020-05-08 一种基于决策树数据挖掘的钻井漏层位置实时预测方法

Publications (2)

Publication Number Publication Date
CN111291097A true CN111291097A (zh) 2020-06-16
CN111291097B CN111291097B (zh) 2020-08-07

Family

ID=71022696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010382244.6A Expired - Fee Related CN111291097B (zh) 2020-05-08 2020-05-08 一种基于决策树数据挖掘的钻井漏层位置实时预测方法

Country Status (1)

Country Link
CN (1) CN111291097B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738620A (zh) * 2020-07-17 2020-10-02 西南石油大学 一种基于关联规则的井漏风险预测与堵漏决策系统及方法
CN111738371A (zh) * 2020-08-26 2020-10-02 西南石油大学 一种基于随机森林数据挖掘的地层裂缝条数预测方法
CN111861256A (zh) * 2020-07-30 2020-10-30 国网经济技术研究院有限公司 一种主动配电网重构决策方法及系统
CN112487033A (zh) * 2020-11-30 2021-03-12 国网山东省电力公司电力科学研究院 一种面向数据流及构建网络拓扑的业务可视化方法及系统
CN112487582A (zh) * 2020-12-10 2021-03-12 西南石油大学 一种基于cart算法的油气钻井机械钻速预测与优化方法
CN113073959A (zh) * 2021-02-24 2021-07-06 西南石油大学 一种基于模糊决策树的钻井漏失机理预测及辅助决策方法
CN113468822A (zh) * 2021-07-23 2021-10-01 中海石油(中国)有限公司 一种钻速预测方法及系统
CN113516297A (zh) * 2021-05-26 2021-10-19 平安国际智慧城市科技股份有限公司 基于决策树模型的预测方法、装置和计算机设备
CN113537706A (zh) * 2021-06-08 2021-10-22 中海油能源发展股份有限公司 一种基于智能集成的油田增产措施优选方法
CN113537585A (zh) * 2021-07-09 2021-10-22 中海石油(中国)有限公司天津分公司 基于随机森林和梯度提升决策树的油田增产措施推荐方法
CN113806371A (zh) * 2021-09-27 2021-12-17 重庆紫光华山智安科技有限公司 数据类型确定方法、装置、计算机设备及存储介质
CN113837865A (zh) * 2021-09-29 2021-12-24 重庆富民银行股份有限公司 多维度风险特征策略的提取方法
CN114526052A (zh) * 2021-12-31 2022-05-24 中国石油天然气集团有限公司 一种钻完井工程风险预测方法及装置
CN115094193A (zh) * 2022-06-27 2022-09-23 中冶华天南京工程技术有限公司 一种基于数据挖掘的铁水预处理脱硫智能系统
CN115907236A (zh) * 2023-02-17 2023-04-04 西南石油大学 基于改进决策树的井下复杂情况预测方法
CN116070767A (zh) * 2023-02-14 2023-05-05 西南石油大学 一种基于胶囊神经网络的钻井液漏失层位预测方法
CN116760723A (zh) * 2023-05-17 2023-09-15 广州天懋信息系统股份有限公司 基于预测树模型的数据预测方法、装置、设备及介质
CN111861256B (zh) * 2020-07-30 2024-05-14 国网经济技术研究院有限公司 一种主动配电网重构决策方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109779604A (zh) * 2018-12-17 2019-05-21 中国石油大学(北京) 用于诊断井漏的建模方法及诊断井漏的方法
CN110766192A (zh) * 2019-09-10 2020-02-07 中国石油大学(北京) 基于深度学习的钻井井漏预测系统及方法
CN110952978A (zh) * 2019-12-20 2020-04-03 西南石油大学 一种基于神经网络数据挖掘的钻井漏失裂缝宽度预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109779604A (zh) * 2018-12-17 2019-05-21 中国石油大学(北京) 用于诊断井漏的建模方法及诊断井漏的方法
CN110766192A (zh) * 2019-09-10 2020-02-07 中国石油大学(北京) 基于深度学习的钻井井漏预测系统及方法
CN110952978A (zh) * 2019-12-20 2020-04-03 西南石油大学 一种基于神经网络数据挖掘的钻井漏失裂缝宽度预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXANDRE LAVROV: "All microannuli are not created equal: Role of uncertainty and stochastic", 《INTERNATIONAL JOURNAL OF GREENHOUSE GAS CONTROL》 *
赵洋 等: "Griffiths 天然裂缝宽度预测模型研究与分析", 《钻采工艺》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738620A (zh) * 2020-07-17 2020-10-02 西南石油大学 一种基于关联规则的井漏风险预测与堵漏决策系统及方法
CN111738620B (zh) * 2020-07-17 2020-12-25 西南石油大学 一种基于关联规则的井漏风险预测与堵漏决策系统及方法
CN111861256A (zh) * 2020-07-30 2020-10-30 国网经济技术研究院有限公司 一种主动配电网重构决策方法及系统
CN111861256B (zh) * 2020-07-30 2024-05-14 国网经济技术研究院有限公司 一种主动配电网重构决策方法及系统
CN111738371A (zh) * 2020-08-26 2020-10-02 西南石油大学 一种基于随机森林数据挖掘的地层裂缝条数预测方法
CN111738371B (zh) * 2020-08-26 2020-11-27 西南石油大学 一种基于随机森林数据挖掘的地层裂缝条数预测方法
CN112487033A (zh) * 2020-11-30 2021-03-12 国网山东省电力公司电力科学研究院 一种面向数据流及构建网络拓扑的业务可视化方法及系统
CN112487582B (zh) * 2020-12-10 2021-09-14 西南石油大学 一种基于cart算法的油气钻井机械钻速预测与优化方法
CN112487582A (zh) * 2020-12-10 2021-03-12 西南石油大学 一种基于cart算法的油气钻井机械钻速预测与优化方法
CN113073959A (zh) * 2021-02-24 2021-07-06 西南石油大学 一种基于模糊决策树的钻井漏失机理预测及辅助决策方法
CN113073959B (zh) * 2021-02-24 2022-04-08 西南石油大学 一种基于模糊决策树的钻井漏失机理预测及辅助决策方法
CN113516297A (zh) * 2021-05-26 2021-10-19 平安国际智慧城市科技股份有限公司 基于决策树模型的预测方法、装置和计算机设备
CN113516297B (zh) * 2021-05-26 2024-03-19 平安国际智慧城市科技股份有限公司 基于决策树模型的预测方法、装置和计算机设备
CN113537706A (zh) * 2021-06-08 2021-10-22 中海油能源发展股份有限公司 一种基于智能集成的油田增产措施优选方法
CN113537585A (zh) * 2021-07-09 2021-10-22 中海石油(中国)有限公司天津分公司 基于随机森林和梯度提升决策树的油田增产措施推荐方法
CN113468822A (zh) * 2021-07-23 2021-10-01 中海石油(中国)有限公司 一种钻速预测方法及系统
CN113806371B (zh) * 2021-09-27 2024-01-19 重庆紫光华山智安科技有限公司 数据类型确定方法、装置、计算机设备及存储介质
CN113806371A (zh) * 2021-09-27 2021-12-17 重庆紫光华山智安科技有限公司 数据类型确定方法、装置、计算机设备及存储介质
CN113837865A (zh) * 2021-09-29 2021-12-24 重庆富民银行股份有限公司 多维度风险特征策略的提取方法
CN114526052B (zh) * 2021-12-31 2023-09-19 中国石油天然气集团有限公司 一种钻完井工程风险预测方法及装置
CN114526052A (zh) * 2021-12-31 2022-05-24 中国石油天然气集团有限公司 一种钻完井工程风险预测方法及装置
CN115094193A (zh) * 2022-06-27 2022-09-23 中冶华天南京工程技术有限公司 一种基于数据挖掘的铁水预处理脱硫智能系统
CN116070767A (zh) * 2023-02-14 2023-05-05 西南石油大学 一种基于胶囊神经网络的钻井液漏失层位预测方法
CN116070767B (zh) * 2023-02-14 2024-04-02 西南石油大学 一种基于胶囊神经网络的钻井液漏失层位预测方法
CN115907236B (zh) * 2023-02-17 2023-11-03 西南石油大学 基于改进决策树的井下复杂情况预测方法
CN115907236A (zh) * 2023-02-17 2023-04-04 西南石油大学 基于改进决策树的井下复杂情况预测方法
CN116760723A (zh) * 2023-05-17 2023-09-15 广州天懋信息系统股份有限公司 基于预测树模型的数据预测方法、装置、设备及介质
CN116760723B (zh) * 2023-05-17 2024-03-08 广州天懋信息系统股份有限公司 基于预测树模型的数据预测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111291097B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111291097B (zh) 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
US8374974B2 (en) Neural network training data selection using memory reduced cluster analysis for field model development
CA2640725C (en) Methods, systems, and computer-readable media for fast updating of oil and gas field production models with physical and proxy simulators
CN112529341B (zh) 一种基于朴素贝叶斯算法的钻井漏失机率预测方法
CN111738371B (zh) 一种基于随机森林数据挖掘的地层裂缝条数预测方法
CN114358427B (zh) 一种预测页岩气井最终可采储量的方法
CN112308269A (zh) 用于低渗透油气藏的产能预测方法及装置
CN111665560A (zh) 油气层识别方法、装置、计算机设备及可读存储介质
CN116644284A (zh) 一种地层分类特征因子确定方法、系统、电子设备及介质
CN116427915A (zh) 基于随机森林的常规测井曲线裂缝密度预测方法及系统
CN115809411A (zh) 一种基于测井数据的改进型决策树岩性识别方法
CN116432855A (zh) 一种基于掘进数据的隧道塌方情况的预测方法
Ashayeri et al. Using the Adaptive Variable Structure Regression Approach in Data Selection and Data Preparation for Improving Machine Learning-Based Performance Prediction in Unconventional Plays
CN117575106B (zh) 一种煤层气井产气剖面预测方法、系统、电子设备及介质
CN116011234B (zh) 一种融合地质力学和贝叶斯的压前套变风险等级判识方法
CN116956754B (zh) 一种结合深度学习的裂缝型漏失压力计算方法
CN114417536B (zh) 一种油气井钻井过程中钻井参数优选方法
WO2024040801A1 (zh) 横波时差预测方法及装置
Carpenter Machine-Learning Approach Optimizes Well Spacing
CN117648573A (zh) 基于元素录井数据和综合录井数据的地层可钻性预测方法
CN117687098A (zh) 缝洞型储层的预测方法、装置、设备及存储介质
CN116128162A (zh) 基于小样本的压裂井初期产能预测方法、系统及存储介质
CN113987416A (zh) 一种基于置信水平的油气资源量计算方法及系统
CN117540277A (zh) 一种基于WGAN-GP-TabNet算法的井漏预警方法
CN117634301A (zh) 一种预测碎屑岩储层流动单元类型的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200807

CF01 Termination of patent right due to non-payment of annual fee