CN116307010A - 一种基于随机森林算法的钻井工况识别方法 - Google Patents
一种基于随机森林算法的钻井工况识别方法 Download PDFInfo
- Publication number
- CN116307010A CN116307010A CN202111569868.XA CN202111569868A CN116307010A CN 116307010 A CN116307010 A CN 116307010A CN 202111569868 A CN202111569868 A CN 202111569868A CN 116307010 A CN116307010 A CN 116307010A
- Authority
- CN
- China
- Prior art keywords
- drilling
- working condition
- random forest
- sample
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005553 drilling Methods 0.000 title claims abstract description 136
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000003066 decision tree Methods 0.000 claims description 33
- 238000012544 monitoring process Methods 0.000 claims description 29
- 238000012795 verification Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005086 pumping Methods 0.000 claims description 2
- 230000001351 cycling effect Effects 0.000 claims 1
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 abstract description 10
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 239000003345 natural gas Substances 0.000 abstract description 5
- 239000003209 petroleum derivative Substances 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Agronomy & Crop Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Animal Husbandry (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Earth Drilling (AREA)
Abstract
本申请涉及石油天然气智能化钻井技术领域,尤其涉及一种基于随机森林算法的钻井工况识别方法,包括将获取的样本数据按照预设比例随机分为训练数据集样本和测试数据集样本;根据训练数据集样本和测试数据集样本,进行随机森林工况识别模型的训练和验证;将预处理后的实测钻井特征参数输入至随机森林工况识别模型,进行钻井工况模型预测,得到工况识别结果。该方法能够较好的表达样本数据中的特征参数和工况类别之间的关系,根据工况识别结果可实时了解钻井现场的钻进状况,以此通过调整钻井参数,有效保障生产安全和钻井效率。
Description
技术领域
本申请涉及石油天然气智能化钻井技术领域,尤其涉及一种基于随机森林算法的钻井工况识别方法。
背景技术
石油天然气钻井过程中的井下工况是钻进系统运行状态的直观反映,随着人工智能信息技术的发展与海量数据的存储,开展基于已有大数据和机器学习算法的钻井工况识别研究具有重要的理论和应用价值。
目前,现有技术对石油天然气钻井过程中的井下工况识别有所研究,但均存在不足。现有技术中对井下工况识别的方法有:基于程序工况识别方法,此方法消除了人员对钻井工况识别的影响;基于支持向量机工况识别方法,此方法采用训练测试的方式,应用的训练数据为综合录井的实时数据,解决了传统方法对人员依赖大的缺点;基于决策树工况识别等方法,此方法是基于钻进过程状态监测数据,通过数据驱动的方式,建立智能识别模型,为钻进过程智能控制奠定了基础;随钻工况识别方法,此方法利用历史数据以及对应的钻井工况构建工况识别模型,从而在井下即可实现对于钻井工况的实时识别;基于多时间尺度特征和神经网络的钻进过程工况识别方法,通过分析录井数据的变化情况,利用多时间尺度方法、最小二乘法和自适应阈值法提取特征,采用概率神经网络建立五类钻进过程工况识别模型;PDC钻头井下工况评价方法,此方法通过读取钻压、转速、钻速等参数来判断钻头在井下的工况。
现有技术对石油天然气钻井过程中的井下工况的识别是根据各自特定的需求,在一定基础上解决了某一井下工况识别问题,侧重点不同,具有各自的局限性,如存在数据量小、最优参数配置耗时、缺乏数据验证和泛化能力有待高等问题,而识别钻井工况对于减少钻井时间、保证钻进安全、提高钻进效率以及节约钻井成本具有十分重要的意义。
发明内容
本申请提供了一种基于随机森林算法的钻井工况识别方法,以解决传统钻井工况识别方法依赖于人员、数据波动大、需要交叉验证并确定最优参数等,对钻井工况识别的准确性不高的问题。
本申请解决上述技术问题所采取的技术方案如下:
一种基于随机森林算法的钻井工况识别方法,包括:
获取若干钻井监测数据和钻井工况参数,所述钻井工况参数与所述钻井监测数据相对应;
对所述钻井监测数据和所述钻井工况参数进行预处理,得到样本数据,所述样本数据包括特征参数和与所述特征参数对应的工况类别;
将所述样本数据按照预设比例随机分为训练数据集样本和测试数据集样本;
根据所述训练数据集样本和所述测试数据集样本,进行随机森林工况识别模型的训练和验证;
将预处理后的实测钻井特征参数输入至所述随机森林工况识别模型,进行钻井工况模型预测,得到工况识别结果。
进一步的,根据所述训练数据集样本和所述测试数据集样本,进行随机森林工况识别模型的训练和验证,包括:
S1:从所述训练数据集样本中随机且有放回地抽取与所述训练数据集样本的样本数量一致的样本特征;
S2:从所述样本特征中随机抽取预设数量的特征子集,构建N个CART决策树,所述特征子集包括特征参数和与所述特征参数对应的工况类别;
S3:将所述测试数据集样本输入由所述N个CART决策树组成的所述随机森林工况识别模型,统计所有所述CART决策树输出的工况识别结果,所述工况识别结果由所有所述CART决策树投票决定;
S4:统计所述工况识别结果正确率,若所述工况识别结果正确率大于或等于预设识别结果正确率,则结束所述随机森林工况识别模型的训练和验证;
否则,重新进行S1-S4,其中,S3中的N取N=N+1。
进一步的,所述随机森林工况识别模型的表达式为
T={Ki,i=1,…,N},
式中,T表示随机森林工况识别模型,Ki表示第i个决策树,N表示决策树的数量。
进一步的,所述构建CART决策树,包括:
S21:对所述特征子集中的连续型特征参数进行离散化,得到若干离散化特征参数;
S22:计算所有所述离散化特征参数对所述特征子集的基尼指数;
S23:确定基尼指数最小的所述离散化特征参数,将基尼指数最小的所述离散化特征参数设定为最优离散化特征参数,将所述最优离散化特征参数对应的切分点设定为最优切分点;
S24:根据所述最优离散化特征参数和所述最优切分点将所述特征子集切分为第一子特征子集和第二子特征子集;
S25:对所述第一子特征子集和所述第二子特征子集分别进行S21-S24,直至子特征子集不能再切分;
S26:生成CART决策树。
进一步的,所述特征子集的所述基尼指数表达式为
式中,D表示特征子集,k表示特征子集的类别数量,Ck表示第k个类别的数量。
进一步的,对所述钻井监测数据和所述钻井工况参数进行预处理,包括:
对所述钻井监测数据和所述钻井工况参数通过均值滤波算法进行数据平滑处理。
进一步的,对所述钻井监测数据和所述钻井工况参数进行预处理,还包括:
若所述钻井监测数据和所述钻井工况参数中存在数值为空值,则将所述空值设置为均值或0。
进一步的,所述预设比例为4:1。
进一步的,所述特征参数包括大钩高度、大钩负荷、立管压力、扭矩、转速和泵冲。
进一步的,所述工况类别包括起钻、下钻、钻进、划眼、循环、坐卡、离卡和接单根。
本申请提供的技术方案包括以下有益技术效果:
本申请提供的基于随机森林算法的钻井工况识别方法,包括获取若干钻井监测数据和钻井工况参数,钻井工况参数与钻井监测数据一一对应;对钻井监测数据和钻井工况参数进行预处理,得到样本数据,样本数据包括特征参数和与特征参数对应的工况类别,其中特征参数由钻进监测数据得到,工况类别由钻井工况参数得到;将样本数据按照预设比例随机分为训练数据集样本和测试数据集样本;根据训练数据集样本和测试数据集样本,进行随机森林工况识别模型的训练和验证;将预处理后的实测钻井特征参数输入至随机森林工况识别模型,进行钻井工况模型预测,得到工况识别结果。本申请提供的钻井工况识别方法,通过采集钻井作业现场的钻井监测数据和钻井工况参数,建立数据库,将长期积累的大量钻井监测数据和钻井工况参数作为样本数据进行预处理,可选择特征参数,如大钩负荷、立管压力、扭矩、转速与钻压作为样本输入,工况类别作为样本输出,建立工况识别模型对样本数据进行训练,得到基于随机森林算法的随机森林工况识别模型,将钻井现场实测的实测钻井特征参数输入随机森林工况识别模型,获得钻井工况的工况识别结果。该方法能够较好的表达样本数据中的特征参数和工况类别之间的关系,根据工况识别结果可实时了解钻井现场的钻进状况,以此通过调整钻井参数,有效保障生产安全和钻井效率。
附图说明
图1为本申请实施例提供的基于随机森林算法的钻井工况识别方法流程图;
图2为本申请实施例提供的随机森林工况识别模型的训练和验证流程图。
具体实施方式
为便于对申请的技术方案进行描述和理解,以下结合附图及实施例对本申请的技术方案作进一步的说明。
以下首先对本申请所涉及到的一些概念进行说明。
决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
随机森林是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间没有关联。在得到森林之后,当有一个新的输入样本进入的时候,让森林中的每一棵决策树分别对新的输入样本进行判断,即判断新的输入样本应该属于哪一类,若某一类被选择最多,则预测这一新的输入样本属于被选中最多的这一类。
参见图1,为本申请实施例提供的基于随机森林算法的钻井工况识别方法流程图。如图1中所示,该方法包括:
数据采集:在钻井过程,根据钻采工艺流程要求选取钻井作业关键部位作为实时监测点,使用测量仪器,如压力传感器、转速传感器、扭矩传感器、位置传感器等采集数据,并将采集的钻井监测数据与采集钻井监测数据时对应的工况类别信息保存至数据库。采集到数据库中的数据即为本方法的样本数据库。
选取与工况强相关的特征参数:采集的数据众多,为了使钻井工况模型预测的过程更为快速和准确,可以从样本数据库中众多的数据中选择与工况相关性强的部分特征参数作为样本数据的样本输入数据,如选择大钩高度、大钩负荷、立管压力、扭矩、转速、泵冲共六种特征参数作为样本数据中的样本输入数据,将工况类别y作为样本数据的样本输出数据,工况类别有八种类别,分别为:起钻、下钻、钻进、划眼、循环、坐卡、离卡、接单根。
样本数据预处理:在采用选择的样本数据进行模型训练前,需要先对样本数据进行预处理。在钻井作业现场,由于测量仪器受工作环境等因素的影响,采集的样本数据会出现噪声信号,可以通过均值滤波算法对样本数据进行平滑处理,去除样本数据中的噪声信号。
另外,采集的样本数据中某些特征参数会出现数据值为空的情况,即有些特征参数中的数据值会出现中断的情况,中断的这一部分数据值没有任何数值。在对样本数据进行预处理时,可将样本数据中某些特征参数的空值设置为该特征参数的均值或设置为0。对样本数据进行预处理后,将样本数据以一定比例随机抽取划分为训练数据集样本与测试数据集样本,例如可以以4:1的比率将样本数据随机抽取划分为训练数据集样本与测试数据集样本。
模型训练与验证:以样本数据中的特征参数与工况类别作为基于随机森林算法的随机森林工况识别模型的输入与输出,即以训练数据集样本中的特征参数作为随机森林工况识别模型的输入,以训练数据集样本中的工况类别作为随机森林工况识别模型的输出进行随机森林工况识别模型的训练。待随机森林工况识别模型训练完成后,再以测试数据集样本中的特征参数作为随机森林工况识别模型的输入,统计随机森林工况识别模型的工况识别结果,以测试数据集样本中的工况类别作为随机森林工况识别模型的工况识别结果的对照,验证该随机森林工况识别模型的工况识别结果是否满足预设要求。
钻井工况模型预测:将预处理后的实测钻井特征参数输入至完成训练和验证的随机森林工况识别模型中,即将预处理后的实测大钩高度、大钩负荷、立管压力、扭矩、转速、泵冲六种特征参数输入至完成训练和验证的随机森林工况识别模型中,对工况类别进行模型预测,则会得到起钻、下钻、钻进、划眼、循环、坐卡、离卡、接单根,这八种工况类别之一的工况识别结果。根据该工况识别结果可以实时了解钻井现场的钻进状况,以此通过调整钻井参数,有效保障生产安全和钻井效率。
具体的,参见图2,为本申请实施例提供的随机森林工况识别模型的训练和验证流程图。如图2中所示,基于随机森林算法的随机森林工况识别模型的训练和验证包括以下步骤:
S1:设训练数据集样本Tr的样本数量为M,从训练数据集样本Tr中随机且有放回地抽取M个样本数据的作为样本特征,即从训练数据集样本Tr中随机且有放回地抽取与训练数据集样本的样本数量一致的样本数据作为样本特征。
S2:从样本特征中随机抽取预设数量的样本数据作为特征子集,即从样本特征中随机抽取m个特征参数(m≤6)和与特征参数所对应的工况类别,构建N个CART决策树Ki(i=1,…,N,N=10),其中,特征子集包括特征参数和与特征参数对应的工况类别。
S3:将测试数据集样本Te输入由N个CART决策树Ki(i=1,…,N)组成的随机森林工况识别模型中,即将测试数据集样本Te中的特征参数作为输入值,输入至构建好的随机森林工况识别模型中,随机森林工况识别模型的表达式为
T={Ki,i=1,…,N},
式中,T表示随机森林工况识别模型,Ki表示第i个决策树,N表示决策树的数量。统计随机森林工况识别模型的输出值,即统计所有N个CART决策树输出的工况识别结果,该工况识别结果由所有N个CART决策树投票决定,即分别统计所有N个CART决策树中输出的不同工况类别的数量,以数量最多的工况类别作为工况识别结果。
S4:统计工况识别结果的正确率E,若E≥ε,ε为预设识别结果正确率,即工况识别结果正确率大于或等于预设识别结果正确率,则结束本次的随机森林工况识别模型的训练和验证;
否则,重新进行S1-S4,其中,S2中的N取N=N+1,即在进行S2时,新增一个CART决策树。
进一步的,构建CART决策树Ki包括下列步骤:
S21:设根节点(即初始最优特征参数)的特征子集为D,即D为从训练数据集样本中随机有放回地抽取的M个样本数据的样本特征中又随机提取的m个特征参数和与特征参数所对应的工况类别组成的数据集,对特征子集中连续型的特征参数进行离散化,计算现有m个特征参数对该特征子集的基尼指数Gini(D,A)。
对于给定的特征子集D,假设有k个类别,第k个类别的数量为Ck,则特征子集D的基尼指数表达式为:
式中,D表示特征子集,k表示特征子集的类别数量,Ck表示第k个类别的数量。
对于特征子集D,如果根据特征参数A的某个值a,把特征子集D分成第一子特征子集D1和第二子特征子集D2两部分,则在特征参数A的条件下,特征子集D的基尼指数表达式为:
式中,Gini(D,A)表示特征参数A不同分组的特征子集D的不确定性,D1表示将特征子集D分成的第一子特征子集,D2表示将特征子集D分成的第二子特征子集,Gini(D1)表示的第一子特征子集D1的基尼指数,Gini(D2)表示的第二子特征子集D2的基尼指数。
S22:计算所有离散化特征参数对特征子集的基尼指数。
S23:确定基尼指数最小的离散化特征参数,将基尼指数最小的离散化特征参数设定为最优离散化特征参数,将最优离散化特征参数对应的切分点设定为最优切分点。
S24:依据最优特征参数与最优切分点,将特征子集切分为两个子特征子集,即将特征子集D分为第一子特征子集D1与第二子特征子集D2。
S25:对第一子特征子集D1和第二子特征子集D2分别进行S21-S24,直至子特征子集不能再切分;
S26:生成CART决策树。
本申请实施例提供的基于随机森林算法的钻井工况识别方法,通过采集钻井作业现场的钻井监测数据和钻井工况参数,建立样本数据库,将长期积累的大量钻井监测数据和对应的钻井工况参进行预处理,选中部分特征参数作为样本输入,如选择大钩负荷、立管压力、扭矩、转速与钻压作为样本输入,工况类别作为样本输出,建立随机森林工况识别模型对样本数据进行训练,得到基于随机森林算法的随机森林工况识别模型。将钻井现场实时监测的特征参数预处理后输入训练好的随机森林工况识别模型,进行钻井工况模型预测,获得基于输入的实时监测特征参数对应的工况类别的工况识别结果,即得到该实时监测特征参数对应的上述八种工况类别之一,再以该工况类别为基础,调整钻井参数,确保钻井的生成安全和生产效率。本申请提供的基于随机森林算法的钻井工况识别方法能够较好的表达特征参数和工况类别之间的关系,根据工况识别结果可实时了解钻井现场的钻进状况,通过调整钻井参数,有效保障生产安全和钻井效率。
Claims (10)
1.一种基于随机森林算法的钻井工况识别方法,其特征在于,包括:
获取若干钻井监测数据和钻井工况参数,所述钻井工况参数与所述钻井监测数据相对应;
对所述钻井监测数据和所述钻井工况参数进行预处理,得到样本数据,所述样本数据包括特征参数和与所述特征参数对应的工况类别;
将所述样本数据按照预设比例随机分为训练数据集样本和测试数据集样本;
根据所述训练数据集样本和所述测试数据集样本,进行随机森林工况识别模型的训练和验证;
将预处理后的实测钻井特征参数输入至所述随机森林工况识别模型,进行钻井工况模型预测,得到工况识别结果。
2.根据权利要求1所述的基于随机森林算法的钻井工况识别方法,其特征在于,根据所述训练数据集样本和所述测试数据集样本,进行随机森林工况识别模型的训练和验证,包括:
S1:从所述训练数据集样本中随机且有放回地抽取与所述训练数据集样本的样本数量一致的样本特征;
S2:从所述样本特征中随机抽取预设数量的特征子集,构建N个CART决策树,所述特征子集包括特征参数和与所述特征参数对应的工况类别;
S3:将所述测试数据集样本输入由所述N个CART决策树组成的所述随机森林工况识别模型,统计所有所述CART决策树输出的工况识别结果,所述工况识别结果由所有所述CART决策树投票决定;
S4:统计所述工况识别结果正确率,若所述工况识别结果正确率大于或等于预设识别结果正确率,则结束所述随机森林工况识别模型的训练和验证;
否则,重新进行S1-S4,其中,S2中的N取N=N+1。
3.根据权利要求2所述的基于随机森林算法的钻井工况识别方法,其特征在于,所述随机森林工况识别模型的表达式为
T={Ki,1,…,N},
式中,T表示随机森林工况识别模型,Ki表示第i个决策树,N表示决策树的数量。
4.根据权利要求3所述的基于随机森林算法的钻井工况识别方法,其特征在于,所述构建CART决策树,包括:
S21:对所述特征子集中的连续型特征参数进行离散化,得到若干离散化特征参数;
S22:计算所有所述离散化特征参数对所述特征子集的基尼指数;
S23:确定基尼指数最小的所述离散化特征参数,将基尼指数最小的所述离散化特征参数设定为最优离散化特征参数,将所述最优离散化特征参数对应的切分点设定为最优切分点;
S24:根据所述最优离散化特征参数和所述最优切分点将所述特征子集切分为第一子特征子集和第二子特征子集;
S25:对所述第一子特征子集和所述第二子特征子集分别进行S21-S24,直至子特征子集不能再切分;
S26:生成CART决策树。
6.根据权利要求1-5任意一项所述的基于随机森林算法的钻井工况识别方法,其特征在于,对所述钻井监测数据和所述钻井工况参数进行预处理,包括:
对所述钻井监测数据和所述钻井工况参数通过均值滤波算法进行数据平滑处理。
7.根据权利要求6所述的基于随机森林算法的钻井工况识别方法,其特征在于,对所述钻井监测数据和所述钻井工况参数进行预处理,还包括:
若所述钻井监测数据和所述钻井工况参数中存在数值为空值,则将所述空值设置为均值或0。
8.根据权利要求7所述的基于随机森林算法的钻井工况识别方法,其特征在于,所述预设比例为4:1。
9.根据权利要求8所述的基于随机森林算法的钻井工况识别方法,其特征在于,所述特征参数包括大钩高度、大钩负荷、立管压力、扭矩、转速和泵冲。
10.根据权利要求9所述的基于随机森林算法的钻井工况识别方法,其特征在于,所述工况类别包括起钻、下钻、钻进、划眼、循环、坐卡、离卡和接单根。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111569868.XA CN116307010A (zh) | 2021-12-21 | 2021-12-21 | 一种基于随机森林算法的钻井工况识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111569868.XA CN116307010A (zh) | 2021-12-21 | 2021-12-21 | 一种基于随机森林算法的钻井工况识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116307010A true CN116307010A (zh) | 2023-06-23 |
Family
ID=86832825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111569868.XA Pending CN116307010A (zh) | 2021-12-21 | 2021-12-21 | 一种基于随机森林算法的钻井工况识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116307010A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118260675A (zh) * | 2024-05-29 | 2024-06-28 | 江西五十铃汽车有限公司 | 一种dpf系统强相关工况分析方法 |
CN118471404A (zh) * | 2024-07-10 | 2024-08-09 | 浙江七星纺织有限公司 | 抗静电面料的抗静电性能测试方法及装置 |
-
2021
- 2021-12-21 CN CN202111569868.XA patent/CN116307010A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118260675A (zh) * | 2024-05-29 | 2024-06-28 | 江西五十铃汽车有限公司 | 一种dpf系统强相关工况分析方法 |
CN118471404A (zh) * | 2024-07-10 | 2024-08-09 | 浙江七星纺织有限公司 | 抗静电面料的抗静电性能测试方法及装置 |
CN118471404B (zh) * | 2024-07-10 | 2024-10-11 | 浙江七星纺织有限公司 | 抗静电面料的抗静电性能测试方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635461B (zh) | 一种应用随钻参数来自动识别围岩级别的方法和系统 | |
CN112529341B (zh) | 一种基于朴素贝叶斯算法的钻井漏失机率预测方法 | |
CN107784325B (zh) | 基于数据驱动增量融合的螺旋式故障诊断方法 | |
CN102289585B (zh) | 基于数据挖掘的公共建筑能耗实时监测方法 | |
CN116307010A (zh) | 一种基于随机森林算法的钻井工况识别方法 | |
CN113807570B (zh) | 基于XGBoost的水库大坝风险等级评估方法及系统 | |
CN113570200B (zh) | 一种基于多维信息的电网运行状态监测方法及系统 | |
CN113344099B (zh) | 一种基于变分自编码器的机械设备退化点识别方法和系统 | |
CN108288092A (zh) | 一种利用核磁共振t2谱形态获取致密砂岩渗透率的方法 | |
CN114492642A (zh) | 一种多尺度元深度残差收缩网络的机械故障在线诊断方法 | |
CN107895092A (zh) | 一种基于复杂非线性注采建模的井间连通定量评价方法 | |
CN113326661B (zh) | 一种基于RS-XGBoost的隧道超前钻探定量解译方法及设备 | |
CN109594967A (zh) | 一种基于录井大数据的卡钻事故检测预警方法 | |
CN109886421B (zh) | 基于集成学习的群智能采煤机切割模式识别系统 | |
CN115660221B (zh) | 基于混合神经网络的油气藏经济可采储量评估方法及系统 | |
CN110674868A (zh) | 一种基于高维钻进参数信息的地层岩性识别系统及其方法 | |
CN114562236B (zh) | 一种基于集成学习模型的地质工程一体化井漏实时预警方法 | |
CN112528849B (zh) | 一种基于内积矩阵及深度学习的结构健康监测方法 | |
CN115906591B (zh) | 一种基于XGBoost网络的油井动液面计算方法 | |
Cao et al. | Study on inferring interwell connectivity of injection-production system based on decision tree | |
Feder | Machine-learning approach determines spatial variation in shale decline curves | |
CN117684947B (zh) | 一种基于深度学习的油井井底流压软测量方法 | |
CN114218862B (zh) | 基于hho-rcnn的石油测井油气层识别方法 | |
CN118332667B (zh) | 基于掌子面信息的隧道稳定性智能判定方法及系统 | |
CN118551322A (zh) | 一种钻井多工况在线监测方法、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |