CN111738371B

CN111738371B - 一种基于随机森林数据挖掘的地层裂缝条数预测方法

Info

Publication number: CN111738371B
Application number: CN202010869513.1A
Authority: CN
Inventors: 赵洋; 苏俊霖; 左富银; 李立宗; 尹雨红; 程瀚锐; 张爱
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-27
Anticipated expiration: 2040-08-26
Also published as: CN111738371A

Abstract

本申请实施例提供了一种基于随机森林数据挖掘的地层裂缝条数预测方法，属于数据挖掘领域以及钻井工作液漏失堵漏领域。所述方法包括：采集目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据；将预处理后的历史钻井数据随机划分，并将训练集中的所有数据随机划分为不同数据组；利用不同数据组形成不同的裂缝条数预测初始分类树；将每棵初始分类树根据训练数据集中的引导样本独立增长到最大大小并形成分类树；将形成的各个分类树进行集成，并用测试集进行模型测试；根据分类树的投票多少判定分类结果；将实时钻井数据导入裂缝条数预测随机森林模型，通过分类树投票得到裂缝条数预测结果，从而达到正钻井裂缝条数实时预测的效果。

Description

一种基于随机森林数据挖掘的地层裂缝条数预测方法

技术领域

本发明涉及一种基于随机森林数据挖掘的地层裂缝条数预测方法，属于数据挖掘领域以及钻井工作液漏失堵漏领域。

背景技术

井漏问题一直是困扰国内外石油勘探、开发的重大工程技术难题，而堵漏技术是钻井过程中发生井漏时用于封堵漏失地层和裂缝的方法，对钻井工程有着重要的意义。到目前为止，我国大部分井场的堵漏成功率并不理想。大部分油井在发生井漏后一次堵漏成功率不到30%，甚至反复漏失的情况也时有发生。对这类现象，很大一部分原因是裂缝条数的模糊不清，导致无法确定下放堵漏材料的大小、级配以及数量等因素，最终造成了堵漏失败以及反复漏失现象的发生。因此提前预测裂缝条数，是制定防漏、堵漏技术措施，预防反复漏失的关键。

当前我国测量裂缝条数的方法主要有三种：（1）根据岩心资料和压力参数对裂缝条数进行估算，该方法是目前最为常用的方法，该方法优点是小范围区块预测精度尚可，但由于不同地区地层岩性、地质构造差距较大，因此该方法缺乏通用性，难以普及；（2）根据数值模拟得出不同地区的裂缝条数，该方法仅对部分地质构造不复杂的地区适用，但随着石油勘探开发的深入，越来越复杂的地质条件对数值模拟提出了更高要求，这就导致了数值模拟对于一些裂缝较多、条数不确定、一旦钻遇就发生漏失的地层没有效果；（3）利用成像测井技术判断裂缝条数，该方法虽然准确率高、实用性强，但成像测井不仅需要价格高昂的精密仪器，还需要将仪器送至井下才能测得裂缝条数，因此工艺复杂、测量昂贵，对大多数井漏情况难以适用。

总之，国内外对钻井过程中裂缝条数预测方面的研究尚不完善，其主要疑难之处为：（1）钻井过程中地质构造情况复杂，难以根据建模或其他方法找到裂缝条数；（2）钻井裂缝中除了天然裂缝之外还有诱导裂缝，二者形成机理完全不同，因此难以根据统一的参数判断出结果。（3）当前已有的几种测量裂缝条数的方法在时效上都有缺陷，难以做到正钻井实时预测。

发明内容

针对现有技术中获取裂缝条数方法的不足，本发明的目的在于提出一种基于随机森林数据挖掘的地层裂缝条数预测方法，该发明通过对目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据等数据资料进行数据分析与数据挖掘的方式，来提供一种便捷、精准，又能实现裂缝条数实时预测的方法。

具体地说，本发明是采用以下的技术方案来实现的，包括下列步骤：

1）采集目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据，并进行数据预处理；

2）将预处理后的历史钻井数据随机划分为训练集和测试集，使用递归分区方法将训练集中的所有数据随机划分为不同数据组；

3）利用不同数据组的训练集数据对历史钻井裂缝条数真实值进行分析，每个数据组都形成一个裂缝条数预测初始分类树；

4）将每棵裂缝条数预测初始分类树根据训练数据集中的引导样本独立增长到最大大小，最终每棵裂缝条数预测初始分类树都能形成一棵裂缝条数预测分类树，在此过程中不进行任何修剪，即不会在每个节点上停止选择输入变量；

5）将形成的各个裂缝条数预测分类树进行集成，用集成得到的裂缝条数预测随机森林分类器对测试集钻井数据进行判别与分类；

6）根据裂缝条数预测分类树的投票多少判定分类结果，若测试集测试结果可满足施工精度要求则进行下一步，否则利用训练集重新进行分类；

7）将实时钻井数据导入裂缝条数预测随机森林模型，通过裂缝条数预测分类树投票得到裂缝条数预测结果，达到正钻井裂缝条数实时预测的效果。

所述步骤1）中，数据预处理的流程包括数据筛选、集成、清洗、规约，具体流程为：

1-1）数据筛选：首先采用箱型图法来进行异常值检测与处理，并将缺失率大于等于30%的钻井数据表予以删除；

1-2）数据集成：将各种不同格式下的所有数据存到了一个包含有数据获得、数据统计、数据映射、分级抽取、错误恢复和安全性转换功能的数据平台仓库中；

1-3）数据清洗：利用数据筛选过程得到的箱型图来判断缺失字段和异常字段，将缺失率小于30%的字段进行补缺，并按照字段所代表的参数在数据表中的先后顺序来依次除去异常字段；

1-4）数据规约：将钻井液随钻压力、立管压力、大钩负荷这三个参数进行属性规约，通过主成分分析得到的数据来代替原始的三个参数，并在原本的数据中筛选出不漏的井深，以二十米为单位进行数据规约；

所述步骤5）中将形成的各个裂缝条数预测分类树进行集成的具体过程如下：

将形成的各个裂缝条数预测分类树采用Bagging方法进行并行式集成，用ferq（c_k）表示类别c_k在M个裂缝条数预测分类树的决策中出现的频率，则集成最终得到的分类器g(x)有：

所述步骤6）中根据裂缝条数预测分类树的投票多少判定分类结果的具体过程如下：

6-1）计算每个裂缝条数预测分类树的投票和；

6-2）计算加权值，根据在部分中用于产生结果的每个测试的重要度进行加权；

6-3）计算加权和，一方面，根据生成结果每一个测试的重要度加权，另一方面，根据该部分与同一测试集匹配的训练数据的个数进行加权；

一种基于随机森林数据挖掘的地层裂缝条数预测方法，该方法克服了现有技术受制于地质环境的复杂性且不能实时预测钻井裂缝条数的缺点，通过对目标区块历史钻井数据进行数据挖掘并建立裂缝条数预测随机森林模型的方法来达到实时预测裂缝条数的效果，为钻井堵漏技术人员和堵漏现场施工人员制定防漏、堵漏技术措施以及预防反复漏失提供了辅助决策。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

附图1 数据处理框图；

附图2正钻井裂缝条数预测单一决策树模型实例图；

附图3正钻井裂缝条数预测随机森林工作流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图1是本发明技术方案中的数据预处理框图，由图1可知，数据预处理内容包括数据筛选、集成、清洗和规约，其中数据筛选主要是删去缺失量大、可信度不高的钻井数据表以及与钻井液裂缝条数预测无关的数据，数据集成是将多文件或多数据库运行环境中的钻井历史数据进行合并处理，数据清洗主要是删除钻井历史数据原始数据集中的无关数据、重复数据，平滑噪声数据，数据规约是在保持钻井历史数据特征完整性的前提下减少数据范围及数据量。完成数据预处理流程是为了克服目前数据挖掘工具的局限性，对选择的干净数据进行增强处理，即解决数据中的缺值、冗余、数据的不一致、数据定义的不一致、过时的数据等问题，最终从大量的、杂乱无章的、难以理解的钻井历史数据中抽取并推导出对于裂缝条数预测模型更有价值、更有意义的数据。

图2是正钻井裂缝条数预测单一决策树模型实例图，该图给出了一种节点较少的决策树模型实例，通过该实例可清楚的了解决策树的模型结构及分割方法。首先将经过预处理的历史钻井数据中的训练集进行特征分类，再以本次分类为基础，再次进行特征分类，直到历史钻井数据完全分类或者特征属性节点无法再次分类为止。

本实例设定的第一个相关特征（即基尼指数最小的特征）为井史参数A₁，以井史参数A₁为特征，得到切分点a后将所有历史钻井数据划分到了两个数据集S1、S2中，再次计算基尼系数得到第二个相关特征井史参数A₂，并确定了切分点b和c，通过b和c两个切分点分别将S1、S2两个数据集划分为S1.1、S1.2、S2.1、S2.2四个数据集，其中数据集S1.2和S2.2在得到裂缝条数分类结果后即可不必继续分类，而数据集S1.1和S2.1则由于裂缝条数预测结果分类不明显需要继续分类。以此类推，最终将该组数据划分为S1.1.1、S1.1.2、S1.2、S2.1.1、S2.1.2、S2.2这六个数据集，根据这六个数据集可以分别得出各个数据组中对应的裂缝条数h_i，其中i=1,…,n。通过这种方法即可得到裂缝条数随机森林模型中的单一决策树。

图3是正钻井裂缝条数预测决策树工作流程图，由图3可知，本发明一种基于随机森林数据挖掘的地层裂缝条数预测方法的具体实现步骤为：

所述步骤2）中随机划分历史钻井数据为训练集与测试集，并使用递归分区方法将训练集中的所有数据随机划分为不同数据组的具体方法为：

2-1）将钻井历史数据库中的历史数据进行随机划分，其中70％的数据分给训练集S，30％的数据分给测试集T；

2-2）开始随机递归进程，该进程将训练集中的所有数据随机划分为不同的组，直到训练集所有的数据都被分进组内为止。

所述步骤3）中每个数据组都形成一个裂缝条数预测初始分类树的具体方法为：

3-1）将训练集中的每个数据组输送到一个节点上；

3-2）开始进行逻辑判断，并在a、b、c中根据对应条件选择一项执行：

a. 若该数据组内的所有样本属于同一个类别，则该节点不再生成，并将该类别标记为c_k；

b. 若所有可选特征均已选择，则将此时整个数据组中样本个数最多的类别c_k作为该节点的类别；

c.否则，设某一参数在当前数据组中有S_j个取值

，且它们满足

，那么对于钻井历史数据来说有：

其中，A_jp代表第j维节点、概率p值下的特征，x^(j)代表第j维节点的特征向量，a_p为特征向量的第j个取值；

3-3）按照基尼系数定义的信息增益来计算第j维特征在这些二分标准下的信息增益，然后选择使得信息增益最大的特征

和相应的二分标准

作为划分标准。

其中，基尼系数定义的信息增益为：

其中，A_jp代表第j维节点、概率p值下的特征，y代表随机变量；

其中，选择使得信息增益最大的特征

和相应的二分标准

作为划分标准的函数为：

其中，j*、p*分别代表信息增益最大时的的维度值和概率值，A_jp代表第j维节点、概率p值下的特征。

所述步骤4）中将每棵裂缝条数预测初始分类树根据训练数据集中的引导样本独立增长到最大大小的具体方法为：

设置每个数组中历史钻井数据中裂缝条数明确的样本为引导样本，并利用每个数组中的所有数据进行引导训练，使每棵裂缝条数预测初始分类树增长到无法继续增长为止。

将形成的各个裂缝条数预测分类树采用Bagging方法进行并行式集成，用freq（ck）表示类别c_k在M个裂缝条数预测分类树的决策中出现的频率，则集成最终得到的分类器g(x)有：

6-1）计算每个裂缝条数预测分类树的投票和；

6-3）计算加权和，一方面，根据生成结果每一个测试的重要度加权，另一方面，根据该部分与同一测试集匹配的训练数据的个数进行加权。

以上具体技术方案仅用以说明本发明，而非对其限制；尽管参照上述具体技术方案对本发明进行了详细的说明，本领域的普通技术人员应当理解。本发明依然可以对上述具体技术方案进行修改，或者对其中部分技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明的精神和范围。