CN111738371B - 一种基于随机森林数据挖掘的地层裂缝条数预测方法 - Google Patents

一种基于随机森林数据挖掘的地层裂缝条数预测方法 Download PDF

Info

Publication number
CN111738371B
CN111738371B CN202010869513.1A CN202010869513A CN111738371B CN 111738371 B CN111738371 B CN 111738371B CN 202010869513 A CN202010869513 A CN 202010869513A CN 111738371 B CN111738371 B CN 111738371B
Authority
CN
China
Prior art keywords
data
drilling
classification tree
crack
number prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010869513.1A
Other languages
English (en)
Other versions
CN111738371A (zh
Inventor
赵洋
苏俊霖
左富银
李立宗
尹雨红
程瀚锐
张爱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202010869513.1A priority Critical patent/CN111738371B/zh
Publication of CN111738371A publication Critical patent/CN111738371A/zh
Application granted granted Critical
Publication of CN111738371B publication Critical patent/CN111738371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Agronomy & Crop Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mining & Mineral Resources (AREA)
  • Primary Health Care (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Animal Husbandry (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种基于随机森林数据挖掘的地层裂缝条数预测方法,属于数据挖掘领域以及钻井工作液漏失堵漏领域。所述方法包括:采集目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据;将预处理后的历史钻井数据随机划分,并将训练集中的所有数据随机划分为不同数据组;利用不同数据组形成不同的裂缝条数预测初始分类树;将每棵初始分类树根据训练数据集中的引导样本独立增长到最大大小并形成分类树;将形成的各个分类树进行集成,并用测试集进行模型测试;根据分类树的投票多少判定分类结果;将实时钻井数据导入裂缝条数预测随机森林模型,通过分类树投票得到裂缝条数预测结果,从而达到正钻井裂缝条数实时预测的效果。

Description

一种基于随机森林数据挖掘的地层裂缝条数预测方法
技术领域
本发明涉及一种基于随机森林数据挖掘的地层裂缝条数预测方法,属于数据挖掘领域以及钻井工作液漏失堵漏领域。
背景技术
井漏问题一直是困扰国内外石油勘探、开发的重大工程技术难题,而堵漏技术是钻井过程中发生井漏时用于封堵漏失地层和裂缝的方法,对钻井工程有着重要的意义。到目前为止,我国大部分井场的堵漏成功率并不理想。大部分油井在发生井漏后一次堵漏成功率不到30%,甚至反复漏失的情况也时有发生。对这类现象,很大一部分原因是裂缝条数的模糊不清,导致无法确定下放堵漏材料的大小、级配以及数量等因素,最终造成了堵漏失败以及反复漏失现象的发生。因此提前预测裂缝条数,是制定防漏、堵漏技术措施,预防反复漏失的关键。
当前我国测量裂缝条数的方法主要有三种:(1)根据岩心资料和压力参数对裂缝条数进行估算,该方法是目前最为常用的方法,该方法优点是小范围区块预测精度尚可,但由于不同地区地层岩性、地质构造差距较大,因此该方法缺乏通用性,难以普及;(2)根据数值模拟得出不同地区的裂缝条数,该方法仅对部分地质构造不复杂的地区适用,但随着石油勘探开发的深入,越来越复杂的地质条件对数值模拟提出了更高要求,这就导致了数值模拟对于一些裂缝较多、条数不确定、一旦钻遇就发生漏失的地层没有效果;(3)利用成像测井技术判断裂缝条数,该方法虽然准确率高、实用性强,但成像测井不仅需要价格高昂的精密仪器,还需要将仪器送至井下才能测得裂缝条数,因此工艺复杂、测量昂贵,对大多数井漏情况难以适用。
总之,国内外对钻井过程中裂缝条数预测方面的研究尚不完善,其主要疑难之处为:(1)钻井过程中地质构造情况复杂,难以根据建模或其他方法找到裂缝条数;(2)钻井裂缝中除了天然裂缝之外还有诱导裂缝,二者形成机理完全不同,因此难以根据统一的参数判断出结果。(3)当前已有的几种测量裂缝条数的方法在时效上都有缺陷,难以做到正钻井实时预测。
发明内容
针对现有技术中获取裂缝条数方法的不足,本发明的目的在于提出一种基于随机森林数据挖掘的地层裂缝条数预测方法,该发明通过对目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据等数据资料进行数据分析与数据挖掘的方式,来提供一种便捷、精准,又能实现裂缝条数实时预测的方法。
具体地说,本发明是采用以下的技术方案来实现的,包括下列步骤:
1)采集目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据,并进行数据预处理;
2)将预处理后的历史钻井数据随机划分为训练集和测试集,使用递归分区方法将训练集中的所有数据随机划分为不同数据组;
3)利用不同数据组的训练集数据对历史钻井裂缝条数真实值进行分析,每个数据组都形成一个裂缝条数预测初始分类树;
4)将每棵裂缝条数预测初始分类树根据训练数据集中的引导样本独立增长到最大大小,最终每棵裂缝条数预测初始分类树都能形成一棵裂缝条数预测分类树,在此过程中不进行任何修剪,即不会在每个节点上停止选择输入变量;
5)将形成的各个裂缝条数预测分类树进行集成,用集成得到的裂缝条数预测随机森林分类器对测试集钻井数据进行判别与分类;
6)根据裂缝条数预测分类树的投票多少判定分类结果,若测试集测试结果可满足施工精度要求则进行下一步,否则利用训练集重新进行分类;
7)将实时钻井数据导入裂缝条数预测随机森林模型,通过裂缝条数预测分类树投票得到裂缝条数预测结果,达到正钻井裂缝条数实时预测的效果。
所述步骤1)中,数据预处理的流程包括数据筛选、集成、清洗、规约,具体流程为:
1-1)数据筛选:首先采用箱型图法来进行异常值检测与处理,并将缺失率大于等于30%的钻井数据表予以删除;
1-2)数据集成:将各种不同格式下的所有数据存到了一个包含有数据获得、数据统计、数据映射、分级抽取、错误恢复和安全性转换功能的数据平台仓库中;
1-3)数据清洗:利用数据筛选过程得到的箱型图来判断缺失字段和异常字段,将缺失率小于30%的字段进行补缺,并按照字段所代表的参数在数据表中的先后顺序来依次除去异常字段;
1-4)数据规约:将钻井液随钻压力、立管压力、大钩负荷这三个参数进行属性规约,通过主成分分析得到的数据来代替原始的三个参数,并在原本的数据中筛选出不漏的井深,以二十米为单位进行数据规约;
所述步骤5)中将形成的各个裂缝条数预测分类树进行集成的具体过程如下:
将形成的各个裂缝条数预测分类树采用Bagging方法进行并行式集成,用ferq(ck)表示类别ck在M个裂缝条数预测分类树的决策中出现的频率,则集成最终得到的分类器g(x)有:
Figure 100002_DEST_PATH_IMAGE002
所述步骤6)中根据裂缝条数预测分类树的投票多少判定分类结果的具体过程如下:
6-1)计算每个裂缝条数预测分类树的投票和;
6-2)计算加权值,根据在部分中用于产生结果的每个测试的重要度进行加权;
6-3)计算加权和,一方面,根据生成结果每一个测试的重要度加权,另一方面,根据该部分与同一测试集匹配的训练数据的个数进行加权;
一种基于随机森林数据挖掘的地层裂缝条数预测方法,该方法克服了现有技术受制于地质环境的复杂性且不能实时预测钻井裂缝条数的缺点,通过对目标区块历史钻井数据进行数据挖掘并建立裂缝条数预测随机森林模型的方法来达到实时预测裂缝条数的效果,为钻井堵漏技术人员和堵漏现场施工人员制定防漏、堵漏技术措施以及预防反复漏失提供了辅助决策。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
附图1 数据处理框图;
附图2正钻井裂缝条数预测单一决策树模型实例图;
附图3正钻井裂缝条数预测随机森林工作流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本发明技术方案中的数据预处理框图,由图1可知,数据预处理内容包括数据筛选、集成、清洗和规约,其中数据筛选主要是删去缺失量大、可信度不高的钻井数据表以及与钻井液裂缝条数预测无关的数据,数据集成是将多文件或多数据库运行环境中的钻井历史数据进行合并处理,数据清洗主要是删除钻井历史数据原始数据集中的无关数据、重复数据,平滑噪声数据,数据规约是在保持钻井历史数据特征完整性的前提下减少数据范围及数据量。完成数据预处理流程是为了克服目前数据挖掘工具的局限性,对选择的干净数据进行增强处理,即解决数据中的缺值、冗余、数据的不一致、数据定义的不一致、过时的数据等问题,最终从大量的、杂乱无章的、难以理解的钻井历史数据中抽取并推导出对于裂缝条数预测模型更有价值、更有意义的数据。
图2是正钻井裂缝条数预测单一决策树模型实例图,该图给出了一种节点较少的决策树模型实例,通过该实例可清楚的了解决策树的模型结构及分割方法。首先将经过预处理的历史钻井数据中的训练集进行特征分类,再以本次分类为基础,再次进行特征分类,直到历史钻井数据完全分类或者特征属性节点无法再次分类为止。
本实例设定的第一个相关特征(即基尼指数最小的特征)为井史参数A1,以井史参数A1为特征,得到切分点a后将所有历史钻井数据划分到了两个数据集S1、S2中,再次计算基尼系数得到第二个相关特征井史参数A2,并确定了切分点b和c,通过b和c两个切分点分别将S1、S2两个数据集划分为S1.1、S1.2、S2.1、S2.2四个数据集,其中数据集S1.2和S2.2在得到裂缝条数分类结果后即可不必继续分类,而数据集S1.1和S2.1则由于裂缝条数预测结果分类不明显需要继续分类。以此类推,最终将该组数据划分为S1.1.1、S1.1.2、S1.2、S2.1.1、S2.1.2、S2.2这六个数据集,根据这六个数据集可以分别得出各个数据组中对应的裂缝条数hi,其中i=1,…,n。通过这种方法即可得到裂缝条数随机森林模型中的单一决策树。
图3是正钻井裂缝条数预测决策树工作流程图,由图3可知,本发明一种基于随机森林数据挖掘的地层裂缝条数预测方法的具体实现步骤为:
1)采集目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据,并进行数据预处理;
2)将预处理后的历史钻井数据随机划分为训练集和测试集,使用递归分区方法将训练集中的所有数据随机划分为不同数据组;
3)利用不同数据组的训练集数据对历史钻井裂缝条数真实值进行分析,每个数据组都形成一个裂缝条数预测初始分类树;
4)将每棵裂缝条数预测初始分类树根据训练数据集中的引导样本独立增长到最大大小,最终每棵裂缝条数预测初始分类树都能形成一棵裂缝条数预测分类树,在此过程中不进行任何修剪,即不会在每个节点上停止选择输入变量;
5)将形成的各个裂缝条数预测分类树进行集成,用集成得到的裂缝条数预测随机森林分类器对测试集钻井数据进行判别与分类;
6)根据裂缝条数预测分类树的投票多少判定分类结果,若测试集测试结果可满足施工精度要求则进行下一步,否则利用训练集重新进行分类;
7)将实时钻井数据导入裂缝条数预测随机森林模型,通过裂缝条数预测分类树投票得到裂缝条数预测结果,达到正钻井裂缝条数实时预测的效果。
所述步骤1)中,数据预处理的流程包括数据筛选、集成、清洗、规约,具体流程为:
1-1)数据筛选:首先采用箱型图法来进行异常值检测与处理,并将缺失率大于等于30%的钻井数据表予以删除;
1-2)数据集成:将各种不同格式下的所有数据存到了一个包含有数据获得、数据统计、数据映射、分级抽取、错误恢复和安全性转换功能的数据平台仓库中;
1-3)数据清洗:利用数据筛选过程得到的箱型图来判断缺失字段和异常字段,将缺失率小于30%的字段进行补缺,并按照字段所代表的参数在数据表中的先后顺序来依次除去异常字段;
1-4)数据规约:将钻井液随钻压力、立管压力、大钩负荷这三个参数进行属性规约,通过主成分分析得到的数据来代替原始的三个参数,并在原本的数据中筛选出不漏的井深,以二十米为单位进行数据规约;
所述步骤2)中随机划分历史钻井数据为训练集与测试集,并使用递归分区方法将训练集中的所有数据随机划分为不同数据组的具体方法为:
2-1)将钻井历史数据库中的历史数据进行随机划分,其中70%的数据分给训练集S,30%的数据分给测试集T;
2-2)开始随机递归进程,该进程将训练集中的所有数据随机划分为不同的组,直到训练集所有的数据都被分进组内为止。
所述步骤3)中每个数据组都形成一个裂缝条数预测初始分类树的具体方法为:
3-1)将训练集中的每个数据组输送到一个节点上;
3-2)开始进行逻辑判断,并在a、b、c中根据对应条件选择一项执行:
a. 若该数据组内的所有样本属于同一个类别,则该节点不再生成,并将该类别标记为ck
b. 若所有可选特征均已选择,则将此时整个数据组中样本个数最多的类别ck作为该节点的类别;
c.否则,设某一参数在当前数据组中有Sj个取值
Figure 100002_DEST_PATH_IMAGE004
,且它们满足
Figure 100002_DEST_PATH_IMAGE006
,那么对于钻井历史数据来说有:
Figure 100002_DEST_PATH_IMAGE008
其中,Ajp代表第j维节点、概率p值下的特征,x(j)代表第j维节点的特征向量,ap为特征向量的第j个取值;
3-3)按照基尼系数定义的信息增益来计算第j维特征在这些二分标准下的信息增益,然后选择使得信息增益最大的特征
Figure 100002_DEST_PATH_IMAGE010
和相应的二分标准
Figure 100002_DEST_PATH_IMAGE012
作为划分标准。
其中,基尼系数定义的信息增益为:
Figure 100002_DEST_PATH_IMAGE014
其中,Ajp代表第j维节点、概率p值下的特征,y代表随机变量;
其中,选择使得信息增益最大的特征
Figure 805867DEST_PATH_IMAGE010
和相应的二分标准
Figure 404339DEST_PATH_IMAGE012
作为划分标准的函数为:
Figure 100002_DEST_PATH_IMAGE016
其中,j*、p*分别代表信息增益最大时的的维度值和概率值,Ajp代表第j维节点、概率p值下的特征。
所述步骤4)中将每棵裂缝条数预测初始分类树根据训练数据集中的引导样本独立增长到最大大小的具体方法为:
设置每个数组中历史钻井数据中裂缝条数明确的样本为引导样本,并利用每个数组中的所有数据进行引导训练,使每棵裂缝条数预测初始分类树增长到无法继续增长为止。
所述步骤5)中将形成的各个裂缝条数预测分类树进行集成的具体过程如下:
将形成的各个裂缝条数预测分类树采用Bagging方法进行并行式集成,用freq(ck)表示类别ck在M个裂缝条数预测分类树的决策中出现的频率,则集成最终得到的分类器g(x)有:
Figure 687553DEST_PATH_IMAGE002
所述步骤6)中根据裂缝条数预测分类树的投票多少判定分类结果的具体过程如下:
6-1)计算每个裂缝条数预测分类树的投票和;
6-2)计算加权值,根据在部分中用于产生结果的每个测试的重要度进行加权;
6-3)计算加权和,一方面,根据生成结果每一个测试的重要度加权,另一方面,根据该部分与同一测试集匹配的训练数据的个数进行加权。
一种基于随机森林数据挖掘的地层裂缝条数预测方法,该方法克服了现有技术受制于地质环境的复杂性且不能实时预测钻井裂缝条数的缺点,通过对目标区块历史钻井数据进行数据挖掘并建立裂缝条数预测随机森林模型的方法来达到实时预测裂缝条数的效果,为钻井堵漏技术人员和堵漏现场施工人员制定防漏、堵漏技术措施以及预防反复漏失提供了辅助决策。
以上具体技术方案仅用以说明本发明,而非对其限制;尽管参照上述具体技术方案对本发明进行了详细的说明,本领域的普通技术人员应当理解。本发明依然可以对上述具体技术方案进行修改,或者对其中部分技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明的精神和范围。

Claims (4)

1.一种基于随机森林数据挖掘的地层裂缝条数预测方法,其特征在于,该方法包括以下步骤:
1)采集目标区块相关历史钻井数据、历史钻井裂缝条数真实值及实时钻井数据,并进行数据预处理;
所述步骤1)中,数据预处理的流程包括数据筛选、集成、清洗、规约,具体流程为:
1-1)数据筛选:首先采用箱型图法来进行异常值检测与处理,并将缺失率大于等于30%的钻井数据表予以删除;
1-2)数据集成:将各种不同格式下的所有数据存到了一个包含有数据获得、数据统计、数据映射、分级抽取、错误恢复和安全性转换功能的数据平台仓库中;
1-3)数据清洗:利用数据筛选过程得到的箱型图来判断缺失字段和异常字段,将缺失率小于30%的字段进行补缺,并按照字段所代表的参数在数据表中的先后顺序来依次除去异常字段;
1-4)数据规约:将钻井液随钻压力、立管压力、大钩负荷这三个参数进行属性规约,通过主成分分析得到的数据来代替原始的三个参数,并在原本的数据中筛选出不漏的井深,以二十米为单位进行数据规约;
2)将预处理后的历史钻井数据随机划分为训练集和测试集,使用递归分区方法将训练集中的所有数据随机划分为不同数据组;
3)利用不同数据组的训练集数据对历史钻井裂缝条数真实值进行分析,每个数据组都形成一个裂缝条数预测初始分类树;
4)将每棵裂缝条数预测初始分类树根据训练数据集中的引导样本独立增长到最大大小,最终每棵裂缝条数预测初始分类树都能形成一棵裂缝条数预测分类树,在此过程中不进行任何修剪,即不会在每个节点上停止选择输入变量;
5)将形成的各个裂缝条数预测分类树进行集成,用集成得到的裂缝条数预测随机森林分类器对测试集钻井数据进行判别与分类;
所述步骤5)中将形成的各个裂缝条数预测分类树进行集成的具体过程如下:
将形成的各个裂缝条数预测分类树采用Bagging方法进行并行式集成,用ferq(ck)表示类别ck在M个裂缝条数预测分类树的决策中出现的频率,则集成最终得到的分类器g(x)有:
Figure DEST_PATH_IMAGE002
6)根据裂缝条数预测分类树的投票多少判定分类结果,若测试集测试结果可满足施工精度要求则进行下一步,否则利用训练集重新进行分类;
所述步骤6)中根据裂缝条数预测分类树的投票多少判定分类结果的具体过程如下:
6-1)计算每个裂缝条数预测分类树的投票和;
6-2)计算加权值,根据在部分中用于产生结果的每个测试的重要度进行加权;
6-3)计算加权和,一方面,根据生成结果每一个测试的重要度加权,另一方面,根据该部分与同一测试集匹配的训练数据的个数进行加权;
7)将实时钻井数据导入裂缝条数预测随机森林模型,通过裂缝条数预测分类树投票得到裂缝条数预测结果,达到正钻井裂缝条数实时预测的效果。
2.根据权利要求1所述地层裂缝条数预测方法,其特征在于,本方法步骤2)中随机划分历史钻井数据为训练集与测试集,并使用递归分区方法将训练集中的所有数据随机划分为不同数据组的具体方法为:
2-1)将钻井历史数据库中的历史数据进行随机划分,其中70%的数据分给训练集S,30%的数据分给测试集T;
2-2)开始随机递归进程,该进程将训练集中的所有数据随机划分为不同的组,直到训练集所有的数据都被分进组内为止。
3.根据权利要求1所述地层裂缝条数预测方法,其特征在于,本方法步骤3)中每个数据组都形成一个裂缝条数预测初始分类树的具体方法为:
3-1)将训练集中的每个数据组输送到一个节点上;
3-2)开始进行逻辑判断,并在a、b、c中根据对应条件选择一项执行:
a. 若该数据组内的所有样本属于同一个类别,则该节点不再生成,并将该类别标记为ck
b. 若所有可选特征均已选择,则将此时整个数据组中样本个数最多的类别ck作为该节点的类别;
c.否则,设某一参数在当前数据组中有Sj个取值
Figure DEST_PATH_IMAGE004
,且它们满足
Figure DEST_PATH_IMAGE006
,那么对于钻井历史数据来说有:
Figure DEST_PATH_IMAGE008
其中,Ajp代表第j维节点、概率p值下的特征,x(j)代表第j维节点的特征向量,ap为特征向量的第j个取值;
3-3)按照基尼系数定义的信息增益来计算第j维特征在这些二分标准下的信息增益,然后选择使得信息增益最大的特征
Figure DEST_PATH_IMAGE010
和相应的二分标准
Figure DEST_PATH_IMAGE012
作为划分标准;
其中,基尼系数定义的信息增益为:
Figure DEST_PATH_IMAGE014
其中,Ajp代表第j维节点、概率p值下的特征,y代表随机变量;
其中,选择使得信息增益最大的特征
Figure 624493DEST_PATH_IMAGE010
和相应的二分标准
Figure 276054DEST_PATH_IMAGE012
作为划分标准的函数为:
Figure DEST_PATH_IMAGE016
其中,j*、p*分别代表信息增益最大时的的维度值和概率值,Ajp代表第j维节点、概率p值下的特征。
4.根据权利要求1所述地层裂缝条数预测方法,其特征在于,本方法步骤4)中将每棵裂缝条数预测初始分类树根据训练数据集中的引导样本独立增长到最大大小的具体方法为:
设置每个数组中历史钻井数据中裂缝条数明确的样本为引导样本,并利用每个数组中的所有数据进行引导训练,使每棵裂缝条数预测初始分类树增长到无法继续增长为止。
CN202010869513.1A 2020-08-26 2020-08-26 一种基于随机森林数据挖掘的地层裂缝条数预测方法 Active CN111738371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010869513.1A CN111738371B (zh) 2020-08-26 2020-08-26 一种基于随机森林数据挖掘的地层裂缝条数预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010869513.1A CN111738371B (zh) 2020-08-26 2020-08-26 一种基于随机森林数据挖掘的地层裂缝条数预测方法

Publications (2)

Publication Number Publication Date
CN111738371A CN111738371A (zh) 2020-10-02
CN111738371B true CN111738371B (zh) 2020-11-27

Family

ID=72658861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010869513.1A Active CN111738371B (zh) 2020-08-26 2020-08-26 一种基于随机森林数据挖掘的地层裂缝条数预测方法

Country Status (1)

Country Link
CN (1) CN111738371B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529092A (zh) * 2020-12-21 2021-03-19 浙江省交通运输科学研究院 一种基于语义分割的沥青路面裂缝快速分类方法
CN116427915A (zh) * 2023-02-27 2023-07-14 东北石油大学三亚海洋油气研究院 基于随机森林的常规测井曲线裂缝密度预测方法及系统
CN116663203B (zh) * 2023-07-28 2023-10-27 昆仑数智科技有限责任公司 钻进参数优化方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520278A (zh) * 2018-04-10 2018-09-11 陕西师范大学 一种基于随机森林的路面裂缝检测方法及其评价方法
CN109164459A (zh) * 2018-08-01 2019-01-08 南京林业大学 一种结合激光雷达和高光谱数据对森林树种分类的方法
CN110007364A (zh) * 2018-11-21 2019-07-12 中国石油大学(华东) 一种基于地质模式指导的天然裂缝测井综合识别方法
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109424348B (zh) * 2017-09-05 2021-01-05 中国石油化工股份有限公司 水平井多簇射孔压裂裂缝条数的判断方法及系统
CN108166362B (zh) * 2017-12-23 2020-04-07 长安大学 一种沥青路面裂缝类型的自动识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520278A (zh) * 2018-04-10 2018-09-11 陕西师范大学 一种基于随机森林的路面裂缝检测方法及其评价方法
CN109164459A (zh) * 2018-08-01 2019-01-08 南京林业大学 一种结合激光雷达和高光谱数据对森林树种分类的方法
CN110007364A (zh) * 2018-11-21 2019-07-12 中国石油大学(华东) 一种基于地质模式指导的天然裂缝测井综合识别方法
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Griffiths天然裂缝宽度预测模型研究与分析》;赵洋 等;《钻采工艺》;20170930;第40卷(第05期);第102-105页 *
《井下裂缝几何参数预测及堵漏规律研究》;赵洋;《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》;20190715(第07期);第B019-239页 *
《利用随机森林算法预测裂缝发育带》;何健 等;《石油地球物理勘探》;20200229;第55卷(第1期);第161-163页0-2节 *
《基于随机森林回归算法的感应电机驱动控制》;彭喜英 等;《电气传动》;20180620;第48卷(第6期);第13-18页 *

Also Published As

Publication number Publication date
CN111738371A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111291097B (zh) 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
CN111738371B (zh) 一种基于随机森林数据挖掘的地层裂缝条数预测方法
US8374974B2 (en) Neural network training data selection using memory reduced cluster analysis for field model development
US7983885B2 (en) Method and apparatus for multi-dimensional data analysis to identify rock heterogeneity
Corina et al. Automatic lithology prediction from well logging using kernel density estimation
CN104747185A (zh) 非均质油藏储层综合分类评价方法
CN111665560B (zh) 油气层识别方法、装置、计算机设备及可读存储介质
CN107895092B (zh) 一种基于复杂非线性注采建模的井间连通定量评价方法
Mahjour et al. Developing a workflow to represent fractured carbonate reservoirs for simulation models under uncertainties based on flow unit concept
CN114358427A (zh) 一种预测页岩气井最终可采储量的方法
CN115586086A (zh) 一种基于大数据的井壁失稳分析方法
CN111523796A (zh) 非煤隧道有害气体危害评价方法
CN112576238B (zh) 一种低渗透油藏剩余油位置与含量测定系统、方法及应用
US11704333B2 (en) Form text extraction of key/value pairs
CN106934725A (zh) 岩石储层中值半径预测模型建立方法、装置及系统
Song et al. Classifying the surrounding rock of tunnel face using machine learning
CN114328475A (zh) 一种城市地质数据清洗方法
Darcel et al. Development of the statistical fracture domain methodology–application to the Forsmark site
CN111767323A (zh) 一种基于核smo算法的地层裂缝长度实时预测方法
Ashayeri et al. Using the Adaptive Variable Structure Regression Approach in Data Selection and Data Preparation for Improving Machine Learning-Based Performance Prediction in Unconventional Plays
CN116011234B (zh) 一种融合地质力学和贝叶斯的压前套变风险等级判识方法
CN104933282A (zh) 多层圈闭含油气概率的获取方法和系统
Damasceno et al. Source rock evaluation from rock to seismic: Integrated machine learning based workflow
Toktarov et al. Hydrocarbon Index Identification in Lateral Section of Horizontal Wells Using Machine Learning
Li et al. A systematic review of machine learning modeling processes and applications in ROP prediction in the past decade

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant