CN110344824B - 一种基于随机森林回归的声波曲线生成方法 - Google Patents

一种基于随机森林回归的声波曲线生成方法 Download PDF

Info

Publication number
CN110344824B
CN110344824B CN201910556061.9A CN201910556061A CN110344824B CN 110344824 B CN110344824 B CN 110344824B CN 201910556061 A CN201910556061 A CN 201910556061A CN 110344824 B CN110344824 B CN 110344824B
Authority
CN
China
Prior art keywords
data
random forest
forest regression
sample
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910556061.9A
Other languages
English (en)
Other versions
CN110344824A (zh
Inventor
师素珍
谷剑英
郭家成
刘中元
冯健
冯国旭
李明轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology Beijing CUMTB
Original Assignee
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology Beijing CUMTB filed Critical China University of Mining and Technology Beijing CUMTB
Priority to CN201910556061.9A priority Critical patent/CN110344824B/zh
Publication of CN110344824A publication Critical patent/CN110344824A/zh
Application granted granted Critical
Publication of CN110344824B publication Critical patent/CN110344824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • EFIXED CONSTRUCTIONS
    • E21EARTH OR ROCK DRILLING; MINING
    • E21BEARTH OR ROCK DRILLING; OBTAINING OIL, GAS, WATER, SOLUBLE OR MELTABLE MATERIALS OR A SLURRY OF MINERALS FROM WELLS
    • E21B47/00Survey of boreholes or wells
    • EFIXED CONSTRUCTIONS
    • E21EARTH OR ROCK DRILLING; MINING
    • E21BEARTH OR ROCK DRILLING; OBTAINING OIL, GAS, WATER, SOLUBLE OR MELTABLE MATERIALS OR A SLURRY OF MINERALS FROM WELLS
    • E21B49/00Testing the nature of borehole walls; Formation testing; Methods or apparatus for obtaining samples of soil or well fluids, specially adapted to earth drilling or wells

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Geology (AREA)
  • Mining & Mineral Resources (AREA)
  • Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Fluid Mechanics (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Geochemistry & Mineralogy (AREA)
  • Geophysics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于随机森林回归的声波曲线生成方法,包括如下具体步骤:收集研究区及研究区周围全部测井资料;选取资料齐全的测井,对其数据进行归一化处理,得到样本数据;将样本数据运用主成分分析法,筛选特征值对应的特征向量组建成数据集;将筛选后的样本数据按照固定比例,运用bootstrap方法从样本数据中有放回的抽取数据,分为训练数据集和测试样本集;构建基于随机森林回归算法的曲线生成模型;将待生成处测井的数据集输入构建好的模型得到缺失的测井曲线。本发明提供了一种基于随机森林回归的声波曲线生成方法能够解决现在曲线生成技术中存在的问题,在保证模型精度质量的情况下,拥有更强的泛化能力及更快的计算速度。

Description

一种基于随机森林回归的声波曲线生成方法
技术领域
本发明涉及测井技术领域,更具体的说是涉及一种基于随机森林回归的声波曲线生成方法。
背景技术
测井数据在岩性预测中具有十分重要的作用,但在实际施工时,由于仪器问题、井径变化等因素,经常出现局部井段测井资料缺失情况,甚至由于技术及成本考虑从而不能获取完整测井数据,同时重新测井需要的成本很高,对于完成测井操作的井孔,重新操作很难实现。出于节约成本的目的,可以采用多样的方法人工利用已获得测井数据生成测井曲线,然后补全缺失井段位置的信息。Krygowski D.等和Bateman R.M.直接依据地质信息利用物理模型从而反演测井曲线,但是常用的物理模型有许多假设前提,很大程度上简化了现实中的地层情况,研究者主观经验对模型选择影响较大。Wendt W.A. 等和Eskandari H.等采用交会图和多元回归等传统分析手段和方法,根据各种测井曲线数据间的内在联系生成测井曲线,但是因为地层非均质性较强以及地下情况复杂,测井数据间常常表现成很强的非线性关系,同时数据间存在的映射关系也很复杂,测井数据生成结果效果较差。随着在工程领域中机器学习算法的广泛应用,大量学者,如Rolon L.等、Alizadeh B.等、Xiuwen,Mo等、Wennan,Long等和Salehi M.M.等尝试利用人工神经网络生成测井曲线。
传统的测井生成技术通常采用人工神经网络算法,这种算法对于数据有较好的拟合作用,但是在测井数据较少时,会发生过拟合问题,其模型泛化能力较差,并且模型输入数据采用多种地震属性,计算量大,计算速度慢。
因此,如何提供一种保证精度的前提下,泛化能力强,计算快的声波曲线生成方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于随机森林回归的声波曲线生成方法能够解决现在曲线生成技术中存在的问题,在保证模型精度质量的情况下,拥有更强的泛化能力及更快的计算速度。
为了实现上述目的,本发明提供如下技术方案:
一种基于随机森林回归的声波曲线生成方法,包括如下具体步骤:
步骤一:收集研究区及研究区周围全部测井资料;
步骤二:选取资料齐全的测井,对其数据进行归一化处理,得到样本数据;
步骤三:将预处理后的数据运用主成分分析法,筛选出对模型构建有用的特征并组建成数据集;
步骤四:将筛选完的样本数据按照一定比例,运用bootstrap方法从样本数据中有放回的抽取数据,分为训练样本集和测试样本集;
步骤五:构建基于随机森林回归算法的曲线生成模型;
步骤六:将待生成处测井的数据集输入构建好的模型得到缺失的测井曲线。
优选的,在上述的一种基于随机森林回归的声波曲线生成方法中,所述步骤一中,所述测井资料包括但不限于:声波曲线,自然伽马曲线、密度曲线、自然电位曲线和视电阻率曲线。
优选的,在上述的一种基于随机森林回归的声波曲线生成方法中,所述步骤二中,所述归一化公式:
Figure BDA0002106914900000031
通过上述技术方案,本发明的技术效果:由于测井施工及信号接收等过程存在偏差,测井曲线中可能会产生野值。因此需要去除测井曲线中的野值,最终得到最大值及最小值。
优选的,在上述的一种基于随机森林回归的声波曲线生成方法中,所述步骤三中,具体的步骤包括:
将样本数据按行排列构成数据矩阵,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k 个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
通过上述技术方案,本发明的技术效果:在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
优选的,在上述的一种基于随机森林回归的声波曲线生成方法中,所述步骤五中,具体的步骤包括:
S51:将训练数据集D作为输入;
S52:训练数据集位于的输入空间内,将每个区域递归地划分成两个子区域并且决定在每个子区域内的输出值,从而创建二叉决策树;
S53:对每个子区域,选用均方误差作为分割效果的评判因子,找到最优的切分变量j和最优的切分点s,并求解划分的每个子区域的输出值yi与实际值ci的偏差总和最小化;
Figure BDA0002106914900000032
其中,yi表示输出值,ci表示实际值;找到使上式最小化的(j,s);
S54:利用选择的(j,s)进行划分区域然后求取对应的输出值: R1={x|xj≤s},R2={x|xj>s};其中xj是第j个变量;s为xj的最优切分点值;
Figure BDA0002106914900000041
S55:不断对两个子区域应用以上步骤,直到满足条件停止,将输入空间划成m个区域即R1,R2,…,Rm,最终生成回归树:
Figure BDA0002106914900000042
其中I表示当满足条件时I为1,当不满足条件时I为0的函数;对于每个训练集,构造一棵决策树,通过组合多棵决策树,构建基于随机森林回归算法的声波曲线模型,模型最终的输出值为所有回归树输出值的均值。
通过上述技术方案,本发明的技术效果:模型的优化主要通过改变模型参数中决策树个数和子树深度实现,并利用决定系数R^2评价回归模型的精度,其值在0-1之间,越接近1,代表模型越好。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于随机森林回归的声波曲线生成方法能够解决现在曲线生成技术中存在的问题,在保证模型精度质量的情况下,拥有更强的泛化能力及更快的计算速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的流程图;
图2附图为本发明的实施例实施例声波曲线生成结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于随机森林回归的声波曲线生成方法能够解决现在曲线生成技术中存在的问题,在保证模型精度质量的情况下,拥有更强的泛化能力及更快的计算速度。
一种基于随机森林回归的声波曲线生成方法,具体的实施例如下:
第一步:收集XJ煤矿的测井数据,测井数据包括密度、自然伽马、视电阻率、自然电位和声波测井曲线,得到表1示例数据。
表1归一化前测井数据示意表
Figure BDA0002106914900000051
第二步:所述归一化处理过程,首先去除数据中的野值,得到各测井曲线的最大值和最小值,并根据归一化公式,将所有测井曲线归一化到0和1 之间,下表为数据预处理结果。
表2归一后前测井数据示意表
Figure BDA0002106914900000052
Figure BDA0002106914900000061
第三步:计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的2个特征所对应的特征向量组成的矩阵。
第四步:样本数据划分过程中,选择样本数据的80%作为训练样本集, 20%作为测试样本集。
第五步:在构建曲线生成模型过程中,设置决策树的最大深度设置为20,选用均方误差作为分割效果的评判因子,找到最优的切分变量j和最优的切分点s,并求解
Figure BDA0002106914900000062
对于切分变量j遍历切分点s,找到使上式最小化的(j,s)。
利用选择的(j,s)进行划分区域然后求取对应的输出值:
R1={x|xj≤s},R2={x|xj>s}
Figure BDA0002106914900000063
不断对两个子区域应用以上步骤,当均方误差最小或者最大深度到达20 时,停止,设置决策树个数为20个,通过组合多棵决策树,降低模型方差。最终模型的决定系数R^2达到0.95以上。
第六步:将待生成处测井数据集输入曲线生成模型中,并反向利用归一化公式,最终得到缺失的声波测井曲线如下。
表3声波缺失测井数据
Figure BDA0002106914900000064
Figure BDA0002106914900000071
表4生成的声波数据
Figure BDA0002106914900000072
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于随机森林回归的声波曲线生成方法,其特征在于,包括如下具体步骤:
步骤一:收集研究区及研究区周围全部测井资料;
步骤二:选取资料齐全的测井,对其数据进行归一化处理,得到样本数据;
步骤三:将样本数据运用主成分分析法,筛选特征值对应的特征向量组建成数据集;
步骤四:将筛选后的样本数据按照固定比例,运用bootstrap方法从样本数据中有放回的抽取数据,分为训练数据集和测试样本集;
步骤五:构建基于随机森林回归算法的曲线生成模型;
步骤六:将待生成处测井的数据集输入构建好的模型得到缺失的测井曲线;
样本数据划分过程中,选择样本数据的80%作为训练样本集,20%作为测试样本集;
所述步骤五中,具体的步骤包括:
S51:将训练数据集D作为输入;
S52:训练数据集位于的输入空间内,将每个区域递归地划分成两个子区域并且决定在每个子区域内的输出值,从而创建二叉决策树;
S53:对于每个子区域,选用均方误差作为分割效果的评判因子,找到最优的切分变量j和最优的切分点s,并求解
Figure FDF0000011208540000011
其中,yi表示输出值,ci表示实际值;找到使上式最小化的(j,s);
S54:利用选择的(j,s)进行划分区域然后求取对应的输出值:
R1={x|xj≤s},R2={x|xj>s};其中xj是第j个变量;s为xj的最优切分点值;
Figure FDF0000011208540000021
Figure FDF0000011208540000022
为回归树的预测结果;
S55:对两个子区域应用以上S52-S54,直到找到最优的切分变量j和最优的切分点s停止,将输入空间划成M个区域即R1,R2,…,RM,最终生成回归树:
Figure FDF0000011208540000023
其中I表示当满足条件时I为1,当不满足条件时I为0的函数;对于每个训练数据集,构造一棵决策树,通过组合多棵决策树,构建基于随机森林回归算法的声波曲线模型,模型最终的输出值为所有回归树输出值的均值。
2.根据权利要求1所述的一种基于随机森林回归的声波曲线生成方法,其特征在于,所述步骤一中,所述测井资料包括但不限于:声波曲线,自然伽马曲线、密度曲线、自然电位曲线和视电阻率曲线。
3.根据权利要求1所述的一种基于随机森林回归的声波曲线生成方法,其特征在于,所述步骤二中,所述归一化公式:
Figure FDF0000011208540000024
其中x为测井数据。
4.根据权利要求1所述的一种基于随机森林回归的声波曲线生成方法,其特征在于,所述步骤三中,具体的步骤包括:将样本数据组成数据矩阵,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大的k个特征所对应的特征向量组成的矩阵。
CN201910556061.9A 2019-06-25 2019-06-25 一种基于随机森林回归的声波曲线生成方法 Active CN110344824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910556061.9A CN110344824B (zh) 2019-06-25 2019-06-25 一种基于随机森林回归的声波曲线生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910556061.9A CN110344824B (zh) 2019-06-25 2019-06-25 一种基于随机森林回归的声波曲线生成方法

Publications (2)

Publication Number Publication Date
CN110344824A CN110344824A (zh) 2019-10-18
CN110344824B true CN110344824B (zh) 2023-02-10

Family

ID=68183025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910556061.9A Active CN110344824B (zh) 2019-06-25 2019-06-25 一种基于随机森林回归的声波曲线生成方法

Country Status (1)

Country Link
CN (1) CN110344824B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242206B (zh) * 2020-01-08 2022-06-17 吉林大学 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
CN112489736A (zh) * 2020-12-09 2021-03-12 中国石油大学(北京) 一种矿物含量分析方法、装置、设备及存储介质
US20230142937A1 (en) * 2021-11-10 2023-05-11 Rupak Kumar Jha Electronic stethoscope
CN116305850A (zh) * 2023-02-23 2023-06-23 青岛海洋地质研究所 一种基于随机森林模型的地层热导率预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204246A (zh) * 2016-08-18 2016-12-07 易联众信息技术股份有限公司 一种基于主成分分析法的bp神经网络信用评估方法
CN109697447A (zh) * 2017-10-20 2019-04-30 富士通株式会社 基于随机森林的分类模型构建装置、方法及电子设备
CN108732559B (zh) * 2018-03-30 2021-09-24 北京邮电大学 一种定位方法、装置、电子设备及可读存储介质
CN108898050A (zh) * 2018-05-17 2018-11-27 广东工业大学 一种柔性材料加工设备辊轴性能指标计算方法
CN108985335B (zh) * 2018-06-19 2021-04-27 中国原子能科学研究院 核反应堆包壳材料辐照肿胀的集成学习预测方法
CN109168177B (zh) * 2018-09-19 2022-01-04 广州丰石科技有限公司 基于软采信令的经纬度回填方法
CN109492682A (zh) * 2018-10-30 2019-03-19 桂林电子科技大学 一种多分枝随机森林数据分类方法
CN109657721A (zh) * 2018-12-20 2019-04-19 长沙理工大学 一种结合模糊集和随机森林树的多类别决策方法
CN109919184A (zh) * 2019-01-28 2019-06-21 中国石油大学(北京) 一种基于测井数据的多井复杂岩性智能识别方法及系统

Also Published As

Publication number Publication date
CN110344824A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110344824B (zh) 一种基于随机森林回归的声波曲线生成方法
Zhu et al. Intelligent logging lithological interpretation with convolution neural networks
CN107688201B (zh) 基于rbm地震叠前信号聚类方法
CN109345007B (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法
CN109409647A (zh) 一种基于随机森林算法的薪资水平影响因素的分析方法
CN113642698B (zh) 地球物理测井智能解释方法、系统及存储介质
CN109597129B (zh) 基于目标检测的缝洞型油藏串珠状反射特征识别方法
CN104047598A (zh) 非均质古岩溶碳酸盐岩储层产能预测方法
CN110568483A (zh) 基于卷积神经网络的地震线性噪声压制效果自动评估方法
CN108952699A (zh) 一种复杂地质钻进过程地层岩性智能识别方法
CN110988997A (zh) 一种基于机器学习的烃源岩三维空间展布定量预测技术
CN107194468A (zh) 面向情报大数据的决策树增量学习方法
CN117473305A (zh) 一种近邻信息增强的储层参数预测方法及系统
CN113505877A (zh) 一种基于多任务学习的回归预测方法及应用
CN113111927A (zh) 一种基于地球物理数据使用堆叠法的三维地质建模方法
CN112286996A (zh) 一种基于网络链接和节点属性信息的节点嵌入方法
CN117453764A (zh) 一种数据挖掘分析方法
CN112214524A (zh) 一种基于深度数据挖掘的数据评估系统及评估方法
CN113762394B (zh) 一种爆破块度预测方法
CN115905188A (zh) 一种基于知识图谱的数据质量提升方法
CN112801073B (zh) 基于深度神经网络的声发射初至信号分类与识别方法
CN113419278B (zh) 一种基于状态空间模型与支持向量回归的井震联合多目标同时反演方法
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN115144900A (zh) 一种基于地震多属性聚类融合的碳酸盐岩储层厚度识别方法、系统、装置及存储介质
CN111749675A (zh) 一种基于级联模型算法的地层可钻性预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant