CN116307010A

CN116307010A - 一种基于随机森林算法的钻井工况识别方法

Info

Publication number: CN116307010A
Application number: CN202111569868.XA
Authority: CN
Inventors: 刘胜娃; 曹湘华; 陈琪; 王建胜; 隗崇华; 叶红卫; 林海军; 王茗骏; 乔维; 张琦; 李庆华
Original assignee: China National Petroleum Corp; CNPC Chuanqing Drilling Engineering Co Ltd
Current assignee: China National Petroleum Corp; CNPC Chuanqing Drilling Engineering Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2023-06-23

Abstract

本申请涉及石油天然气智能化钻井技术领域，尤其涉及一种基于随机森林算法的钻井工况识别方法，包括将获取的样本数据按照预设比例随机分为训练数据集样本和测试数据集样本；根据训练数据集样本和测试数据集样本，进行随机森林工况识别模型的训练和验证；将预处理后的实测钻井特征参数输入至随机森林工况识别模型，进行钻井工况模型预测，得到工况识别结果。该方法能够较好的表达样本数据中的特征参数和工况类别之间的关系，根据工况识别结果可实时了解钻井现场的钻进状况，以此通过调整钻井参数，有效保障生产安全和钻井效率。

Description

一种基于随机森林算法的钻井工况识别方法

技术领域

本申请涉及石油天然气智能化钻井技术领域，尤其涉及一种基于随机森林算法的钻井工况识别方法。

背景技术

石油天然气钻井过程中的井下工况是钻进系统运行状态的直观反映，随着人工智能信息技术的发展与海量数据的存储，开展基于已有大数据和机器学习算法的钻井工况识别研究具有重要的理论和应用价值。

目前，现有技术对石油天然气钻井过程中的井下工况识别有所研究，但均存在不足。现有技术中对井下工况识别的方法有：基于程序工况识别方法，此方法消除了人员对钻井工况识别的影响；基于支持向量机工况识别方法，此方法采用训练测试的方式，应用的训练数据为综合录井的实时数据，解决了传统方法对人员依赖大的缺点；基于决策树工况识别等方法，此方法是基于钻进过程状态监测数据，通过数据驱动的方式，建立智能识别模型，为钻进过程智能控制奠定了基础；随钻工况识别方法，此方法利用历史数据以及对应的钻井工况构建工况识别模型，从而在井下即可实现对于钻井工况的实时识别；基于多时间尺度特征和神经网络的钻进过程工况识别方法，通过分析录井数据的变化情况，利用多时间尺度方法、最小二乘法和自适应阈值法提取特征，采用概率神经网络建立五类钻进过程工况识别模型；PDC钻头井下工况评价方法，此方法通过读取钻压、转速、钻速等参数来判断钻头在井下的工况。

现有技术对石油天然气钻井过程中的井下工况的识别是根据各自特定的需求，在一定基础上解决了某一井下工况识别问题，侧重点不同，具有各自的局限性，如存在数据量小、最优参数配置耗时、缺乏数据验证和泛化能力有待高等问题，而识别钻井工况对于减少钻井时间、保证钻进安全、提高钻进效率以及节约钻井成本具有十分重要的意义。

发明内容

本申请提供了一种基于随机森林算法的钻井工况识别方法，以解决传统钻井工况识别方法依赖于人员、数据波动大、需要交叉验证并确定最优参数等，对钻井工况识别的准确性不高的问题。

本申请解决上述技术问题所采取的技术方案如下：

一种基于随机森林算法的钻井工况识别方法，包括：

获取若干钻井监测数据和钻井工况参数，所述钻井工况参数与所述钻井监测数据相对应；

对所述钻井监测数据和所述钻井工况参数进行预处理，得到样本数据，所述样本数据包括特征参数和与所述特征参数对应的工况类别；

将所述样本数据按照预设比例随机分为训练数据集样本和测试数据集样本；

根据所述训练数据集样本和所述测试数据集样本，进行随机森林工况识别模型的训练和验证；

将预处理后的实测钻井特征参数输入至所述随机森林工况识别模型，进行钻井工况模型预测，得到工况识别结果。

进一步的，根据所述训练数据集样本和所述测试数据集样本，进行随机森林工况识别模型的训练和验证，包括：

S1：从所述训练数据集样本中随机且有放回地抽取与所述训练数据集样本的样本数量一致的样本特征；

S2：从所述样本特征中随机抽取预设数量的特征子集，构建N个CART决策树，所述特征子集包括特征参数和与所述特征参数对应的工况类别；

S3：将所述测试数据集样本输入由所述N个CART决策树组成的所述随机森林工况识别模型，统计所有所述CART决策树输出的工况识别结果，所述工况识别结果由所有所述CART决策树投票决定；

S4：统计所述工况识别结果正确率，若所述工况识别结果正确率大于或等于预设识别结果正确率，则结束所述随机森林工况识别模型的训练和验证；

否则，重新进行S1-S4，其中，S3中的N取N＝N+1。

进一步的，所述随机森林工况识别模型的表达式为

T＝{K_i，i＝1，…，N}，

式中，T表示随机森林工况识别模型，K_i表示第i个决策树，N表示决策树的数量。

进一步的，所述构建CART决策树，包括：

S21：对所述特征子集中的连续型特征参数进行离散化，得到若干离散化特征参数；

S22：计算所有所述离散化特征参数对所述特征子集的基尼指数；

S23：确定基尼指数最小的所述离散化特征参数，将基尼指数最小的所述离散化特征参数设定为最优离散化特征参数，将所述最优离散化特征参数对应的切分点设定为最优切分点；

S24：根据所述最优离散化特征参数和所述最优切分点将所述特征子集切分为第一子特征子集和第二子特征子集；

S25：对所述第一子特征子集和所述第二子特征子集分别进行S21-S24，直至子特征子集不能再切分；

S26：生成CART决策树。

进一步的，所述特征子集的所述基尼指数表达式为

式中，D表示特征子集，k表示特征子集的类别数量，C_k表示第k个类别的数量。

进一步的，对所述钻井监测数据和所述钻井工况参数进行预处理，包括：

对所述钻井监测数据和所述钻井工况参数通过均值滤波算法进行数据平滑处理。

进一步的，对所述钻井监测数据和所述钻井工况参数进行预处理，还包括：

若所述钻井监测数据和所述钻井工况参数中存在数值为空值，则将所述空值设置为均值或0。

进一步的，所述预设比例为4:1。

进一步的，所述特征参数包括大钩高度、大钩负荷、立管压力、扭矩、转速和泵冲。

进一步的，所述工况类别包括起钻、下钻、钻进、划眼、循环、坐卡、离卡和接单根。

本申请提供的技术方案包括以下有益技术效果：

本申请提供的基于随机森林算法的钻井工况识别方法，包括获取若干钻井监测数据和钻井工况参数，钻井工况参数与钻井监测数据一一对应；对钻井监测数据和钻井工况参数进行预处理，得到样本数据，样本数据包括特征参数和与特征参数对应的工况类别，其中特征参数由钻进监测数据得到，工况类别由钻井工况参数得到；将样本数据按照预设比例随机分为训练数据集样本和测试数据集样本；根据训练数据集样本和测试数据集样本，进行随机森林工况识别模型的训练和验证；将预处理后的实测钻井特征参数输入至随机森林工况识别模型，进行钻井工况模型预测，得到工况识别结果。本申请提供的钻井工况识别方法，通过采集钻井作业现场的钻井监测数据和钻井工况参数，建立数据库，将长期积累的大量钻井监测数据和钻井工况参数作为样本数据进行预处理，可选择特征参数，如大钩负荷、立管压力、扭矩、转速与钻压作为样本输入，工况类别作为样本输出，建立工况识别模型对样本数据进行训练，得到基于随机森林算法的随机森林工况识别模型，将钻井现场实测的实测钻井特征参数输入随机森林工况识别模型，获得钻井工况的工况识别结果。该方法能够较好的表达样本数据中的特征参数和工况类别之间的关系，根据工况识别结果可实时了解钻井现场的钻进状况，以此通过调整钻井参数，有效保障生产安全和钻井效率。

附图说明

图1为本申请实施例提供的基于随机森林算法的钻井工况识别方法流程图；

图2为本申请实施例提供的随机森林工况识别模型的训练和验证流程图。

具体实施方式

为便于对申请的技术方案进行描述和理解，以下结合附图及实施例对本申请的技术方案作进一步的说明。

以下首先对本申请所涉及到的一些概念进行说明。

决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

随机森林是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间没有关联。在得到森林之后，当有一个新的输入样本进入的时候，让森林中的每一棵决策树分别对新的输入样本进行判断，即判断新的输入样本应该属于哪一类，若某一类被选择最多，则预测这一新的输入样本属于被选中最多的这一类。

参见图1，为本申请实施例提供的基于随机森林算法的钻井工况识别方法流程图。如图1中所示，该方法包括：

数据采集：在钻井过程，根据钻采工艺流程要求选取钻井作业关键部位作为实时监测点，使用测量仪器，如压力传感器、转速传感器、扭矩传感器、位置传感器等采集数据，并将采集的钻井监测数据与采集钻井监测数据时对应的工况类别信息保存至数据库。采集到数据库中的数据即为本方法的样本数据库。

选取与工况强相关的特征参数：采集的数据众多，为了使钻井工况模型预测的过程更为快速和准确，可以从样本数据库中众多的数据中选择与工况相关性强的部分特征参数作为样本数据的样本输入数据，如选择大钩高度、大钩负荷、立管压力、扭矩、转速、泵冲共六种特征参数作为样本数据中的样本输入数据，将工况类别y作为样本数据的样本输出数据，工况类别有八种类别，分别为：起钻、下钻、钻进、划眼、循环、坐卡、离卡、接单根。

样本数据预处理：在采用选择的样本数据进行模型训练前，需要先对样本数据进行预处理。在钻井作业现场，由于测量仪器受工作环境等因素的影响，采集的样本数据会出现噪声信号，可以通过均值滤波算法对样本数据进行平滑处理，去除样本数据中的噪声信号。

另外，采集的样本数据中某些特征参数会出现数据值为空的情况，即有些特征参数中的数据值会出现中断的情况，中断的这一部分数据值没有任何数值。在对样本数据进行预处理时，可将样本数据中某些特征参数的空值设置为该特征参数的均值或设置为0。对样本数据进行预处理后，将样本数据以一定比例随机抽取划分为训练数据集样本与测试数据集样本，例如可以以4：1的比率将样本数据随机抽取划分为训练数据集样本与测试数据集样本。

模型训练与验证：以样本数据中的特征参数与工况类别作为基于随机森林算法的随机森林工况识别模型的输入与输出，即以训练数据集样本中的特征参数作为随机森林工况识别模型的输入，以训练数据集样本中的工况类别作为随机森林工况识别模型的输出进行随机森林工况识别模型的训练。待随机森林工况识别模型训练完成后，再以测试数据集样本中的特征参数作为随机森林工况识别模型的输入，统计随机森林工况识别模型的工况识别结果，以测试数据集样本中的工况类别作为随机森林工况识别模型的工况识别结果的对照，验证该随机森林工况识别模型的工况识别结果是否满足预设要求。

钻井工况模型预测：将预处理后的实测钻井特征参数输入至完成训练和验证的随机森林工况识别模型中，即将预处理后的实测大钩高度、大钩负荷、立管压力、扭矩、转速、泵冲六种特征参数输入至完成训练和验证的随机森林工况识别模型中，对工况类别进行模型预测，则会得到起钻、下钻、钻进、划眼、循环、坐卡、离卡、接单根，这八种工况类别之一的工况识别结果。根据该工况识别结果可以实时了解钻井现场的钻进状况，以此通过调整钻井参数，有效保障生产安全和钻井效率。

具体的，参见图2，为本申请实施例提供的随机森林工况识别模型的训练和验证流程图。如图2中所示，基于随机森林算法的随机森林工况识别模型的训练和验证包括以下步骤：

S1：设训练数据集样本T_r的样本数量为M,从训练数据集样本T_r中随机且有放回地抽取M个样本数据的作为样本特征，即从训练数据集样本T_r中随机且有放回地抽取与训练数据集样本的样本数量一致的样本数据作为样本特征。

S2：从样本特征中随机抽取预设数量的样本数据作为特征子集，即从样本特征中随机抽取m个特征参数(m≤6)和与特征参数所对应的工况类别，构建N个CART决策树K_i(i＝1，…，N，N＝10)，其中，特征子集包括特征参数和与特征参数对应的工况类别。

S3：将测试数据集样本T_e输入由N个CART决策树K_i(i＝1，…，N)组成的随机森林工况识别模型中，即将测试数据集样本T_e中的特征参数作为输入值，输入至构建好的随机森林工况识别模型中，随机森林工况识别模型的表达式为

T＝{K_i，i＝1，…，N}，

式中，T表示随机森林工况识别模型，K_i表示第i个决策树，N表示决策树的数量。统计随机森林工况识别模型的输出值，即统计所有N个CART决策树输出的工况识别结果，该工况识别结果由所有N个CART决策树投票决定，即分别统计所有N个CART决策树中输出的不同工况类别的数量，以数量最多的工况类别作为工况识别结果。

S4：统计工况识别结果的正确率E，若E≥ε，ε为预设识别结果正确率，即工况识别结果正确率大于或等于预设识别结果正确率，则结束本次的随机森林工况识别模型的训练和验证；

否则，重新进行S1-S4，其中，S2中的N取N＝N+1，即在进行S2时，新增一个CART决策树。

进一步的，构建CART决策树K_i包括下列步骤：

S21：设根节点(即初始最优特征参数)的特征子集为D，即D为从训练数据集样本中随机有放回地抽取的M个样本数据的样本特征中又随机提取的m个特征参数和与特征参数所对应的工况类别组成的数据集，对特征子集中连续型的特征参数进行离散化，计算现有m个特征参数对该特征子集的基尼指数Gini(D,A)。

对于给定的特征子集D，假设有k个类别，第k个类别的数量为C_k，则特征子集D的基尼指数表达式为：

对于特征子集D，如果根据特征参数A的某个值a，把特征子集D分成第一子特征子集D₁和第二子特征子集D₂两部分，则在特征参数A的条件下，特征子集D的基尼指数表达式为：

式中，Gini(D,A)表示特征参数A不同分组的特征子集D的不确定性，D₁表示将特征子集D分成的第一子特征子集，D₂表示将特征子集D分成的第二子特征子集，Gini(D₁)表示的第一子特征子集D₁的基尼指数，Gini(D₂)表示的第二子特征子集D₂的基尼指数。

S22：计算所有离散化特征参数对特征子集的基尼指数。

S23：确定基尼指数最小的离散化特征参数，将基尼指数最小的离散化特征参数设定为最优离散化特征参数，将最优离散化特征参数对应的切分点设定为最优切分点。

S24：依据最优特征参数与最优切分点，将特征子集切分为两个子特征子集，即将特征子集D分为第一子特征子集D₁与第二子特征子集D₂。

S25：对第一子特征子集D₁和第二子特征子集D₂分别进行S21-S24，直至子特征子集不能再切分；

S26：生成CART决策树。

本申请实施例提供的基于随机森林算法的钻井工况识别方法，通过采集钻井作业现场的钻井监测数据和钻井工况参数，建立样本数据库，将长期积累的大量钻井监测数据和对应的钻井工况参进行预处理，选中部分特征参数作为样本输入，如选择大钩负荷、立管压力、扭矩、转速与钻压作为样本输入，工况类别作为样本输出，建立随机森林工况识别模型对样本数据进行训练，得到基于随机森林算法的随机森林工况识别模型。将钻井现场实时监测的特征参数预处理后输入训练好的随机森林工况识别模型，进行钻井工况模型预测，获得基于输入的实时监测特征参数对应的工况类别的工况识别结果，即得到该实时监测特征参数对应的上述八种工况类别之一，再以该工况类别为基础，调整钻井参数，确保钻井的生成安全和生产效率。本申请提供的基于随机森林算法的钻井工况识别方法能够较好的表达特征参数和工况类别之间的关系，根据工况识别结果可实时了解钻井现场的钻进状况，通过调整钻井参数，有效保障生产安全和钻井效率。

Claims

1.一种基于随机森林算法的钻井工况识别方法，其特征在于，包括：

2.根据权利要求1所述的基于随机森林算法的钻井工况识别方法，其特征在于，根据所述训练数据集样本和所述测试数据集样本，进行随机森林工况识别模型的训练和验证，包括：

否则，重新进行S1-S4，其中，S2中的N取N＝N+1。

3.根据权利要求2所述的基于随机森林算法的钻井工况识别方法，其特征在于，所述随机森林工况识别模型的表达式为

T＝{K_i，1，…，N}，

4.根据权利要求3所述的基于随机森林算法的钻井工况识别方法，其特征在于，所述构建CART决策树，包括：

S26：生成CART决策树。

5.根据权利要求4所述的基于随机森林算法的钻井工况识别方法，其特征在于，所述特征子集的所述基尼指数表达式为

6.根据权利要求1-5任意一项所述的基于随机森林算法的钻井工况识别方法，其特征在于，对所述钻井监测数据和所述钻井工况参数进行预处理，包括：

7.根据权利要求6所述的基于随机森林算法的钻井工况识别方法，其特征在于，对所述钻井监测数据和所述钻井工况参数进行预处理，还包括：

8.根据权利要求7所述的基于随机森林算法的钻井工况识别方法，其特征在于，所述预设比例为4:1。

9.根据权利要求8所述的基于随机森林算法的钻井工况识别方法，其特征在于，所述特征参数包括大钩高度、大钩负荷、立管压力、扭矩、转速和泵冲。

10.根据权利要求9所述的基于随机森林算法的钻井工况识别方法，其特征在于，所述工况类别包括起钻、下钻、钻进、划眼、循环、坐卡、离卡和接单根。