CN109447158A - 一种基于不平衡数据的Adaboost有利储层发育区预测方法 - Google Patents

一种基于不平衡数据的Adaboost有利储层发育区预测方法 Download PDF

Info

Publication number
CN109447158A
CN109447158A CN201811281446.0A CN201811281446A CN109447158A CN 109447158 A CN109447158 A CN 109447158A CN 201811281446 A CN201811281446 A CN 201811281446A CN 109447158 A CN109447158 A CN 109447158A
Authority
CN
China
Prior art keywords
adaboost
weight
favorable
classifier
weak classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811281446.0A
Other languages
English (en)
Inventor
李克文
周广悦
刘文英
苏兆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201811281446.0A priority Critical patent/CN109447158A/zh
Publication of CN109447158A publication Critical patent/CN109447158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

本发明公开了一种基于不平衡数据的Adaboost有利储层发育区预测方法,其特征在于能够解决不平衡数据分类偏向多数类的问题,将能够反应分类器综合性能的AUC指标引入Adaboost弱分类器的权重计算,通过误差以及AUC共同决定弱分类的权重,实现了Adaboost的有效改进;针对Adaboost迭代过程中会产生具有较大权重的冗余或无用弱分类器的问题,采用PSO优化算法,进一步修正弱分类器的权重产生强分类器,实现了未知区域有利区的高效预测。本发明提供的方法可以有效的提高有利区预测的准确率,辅助地质人员快速地圈定有利目标。

Description

一种基于不平衡数据的Adaboost有利储层发育区预测方法
技术领域
本发明属于地球物理勘探领域和人工智能领域,具体涉及一种基于不平衡数据的Adaboost有利储层发育区预测方法。
背景技术
随着勘探技术的发展,岩性地层的油气藏数量在不断增加,无论是在东部高成熟探区还是中西部的低程度探区,油气藏的比例仍在持续扩大,具有巨大的勘探潜力。而有利区预测则是油气藏开发的关键环节之一,但由于地质条件复杂,受限于现有的理论和方法,传统有利区预测常用的地震属性相关性差,导致预测精度低。
机器学习中分类预测的相关技术可应用到有利区预测,通过分类算法能够得到地震属性与类别标签的映射关系,快速解决多解性问题,为地质人员圈定有利储层发育区起到了辅助作用,但由于标记为有利储层发育区的样本数量远少于标记为非有利储层发育区的样本数量,所以在预测过程中需要考虑数据不平衡问题。虽然现有的分类方法已经相对成熟,可以很好的解决大多数分类问题,然而对于不平衡数据,分类结果往往偏向于多数类,导致少数类的准确率很低。
综上,解决有利区预测中的不平衡性,提出一种高效的预测模型对有利储层发育区进行圈定,是迫切需要解决的问题。
发明内容
为了克服有利区预测过程中遇到的样本不平衡问题,辅助地质人员快速圈定有利储层发育区,本发明提供了一种基于不平衡数据的Adaboost有利储层发育区预测方法,对有利区数据进行建模,能有效地对有利区进行分类识别。
Adaboost算法通过将多个弱分类器组合成一个强分类器,大大提升了分类的精确度,但是弱分类的系数都是在每一次迭代的过程中就已经确定下来的,且后期无法更改,难免会产生冗余或者无用的弱分类器拥有较大权重的现象。针对Adaboost存在的问题,可利用PSO算法优化Adaboost弱分类器权重。
为实现上述目的,本发明技术方案主要包括以下四个步骤:
A.数据采集及处理:
从勘探数据库、地震数据体等数据源中提取地震属性以及岩性剖面数据,采用规范化方法对地震属性进行预处理,通过时深转换,匹配地震属性对应的岩性数据,获得带有类别标签的样本集。
B.训练基于改进的Adaboost的分类器:
(1)初始化训练数据的权值分布
其中,N为样本数,w1i为样本在第1轮迭代中的权重;
(2)对m=1,2,…,M
(a)使用具有权值分布Dm的训练数据集学习,得到基本分类器
Gm(x)={-1,+1}
(b)计算Gm(x)在训练数据集上的分类误差率em
其中yi表示第i个样本的真实标签值;
(c)计算Gm(x)的系数,针对Adaboost算法更加关注于错误分类的样本,而不是少数类样本,将可以从整体上评估分类器性能的AUC指标引入弱分类器的权值计算中,重新定义弱分类器的权值函数
(d)更新训练数据集的权值分布
这里Zm是规范化因子,使得Dm成为一个概率分布;
(3)构建基本分类器的线性组合
得到最终分类器
C.采用PSO优化Adaboost弱分类器系数:
针对弱分类系数在每一次迭代过程中一旦确定,后期无法更改,难免会产生冗余或者无用的弱分类器拥有较大权重的问题,采用PSO算法优化Adaboost弱分类器权重,使得精确度高的弱分类器得到较大的权重,无用或者冗余的弱分类器得到很小权重,从而进一步提升Adaboost的准确率和可读性。
通过计算Adaboost的误差率ei作为每个粒子的适应度值:
Q表示样本的个数,ei表示第i个粒子的误差率即适应度值,m是弱分类器的个数,xik表示第i个例子的第k个权重值,ys表示第s个样本的真实类别。
通过PSO优化,得到修正后的强分类器,对有利区进行预测。
本发明的有益效果是:Adboost是一种集成算法,具有很高的分类精度,但不能很好的处理不平衡数据下的分类问题,通过引入AUC指标,修正弱分类器权重,使其更关注于错误分类的少数类样本;采用PSO算法进一步优化弱分类器的权重,利用修正后的强分类器训练得到地震属性与类别标签的映射关系,大大提高了有利区预测的准确率,为地质人员快速圈定有利区提供了辅助作用。
附图说明
图1是本发明的流程图
上图中:11.井震数据,12.弱分类器,13.Adaboost强分类器,14.PSO优化算法,15.优化后的Adaboost强分类器,16.未标记的地震属性样本。
具体实施方式
下面结合图1对本发明作进一步详细的描述:
A.数据采集预处理:
从勘探数据库、地震数据体等数据源中提取地震属性以及岩性剖面数据等井震数据11,因井震数据获取手段不同,导致数据存储格式多样化,数据的衡量尺度有很大不同,于是采用规范化方法对地震属性进行预处理,将属性数值映射到[0,1]区间,通过时深转换,匹配地震属性对应的岩性数据,获得带有类别标签的样本集。本发明采用十折交叉验证,将数据集划分为十份,其中九份用于训练,一份用于测试。
B.训练基于改进的Adaboost的分类器:
(1)初始化训练数据的权值分布
其中,N为样本数,w1i为样本在第1轮迭代中的权重;
(2)进行M次循环训练弱分类器Gm(x),迭代次数m=1,2,…,M
(a)使用具有权值分布Dm的训练数据集学习,得到基本弱分类器12,其中将有利储层发育区标记为1,非有利储层发育区标记为-1;
Gm(x)={-1,+1}
(b)计算Gm(x)在训练数据集上的分类误差率em
其中yi表示第i个样本的真实标签值,I(Gm(x)≠yi)说明参与分类错误率em计算的是被误分类的样本;
(c)计算Gm(x)的系数,针对Adaboost算法更加关注于错误分类的样本,而不是少数类样本,将可以从整体上评估分类器性能的AUC指标引入弱分类器的权值计算中,重新定义弱分类器的权值函数
(d)更新训练数据集的权值分布
这里Zm是规范化因子,使得Dm成为一个概率分布;
(3)构建基本分类器的线性组合
得到最终Adaboost强分类器13
C.采用PSO优化Adaboost弱分类器系数:
针对弱分类系数在每一次迭代过程中一旦确定,后期无法更改,难免会产生冗余或者无用的弱分类器拥有较大权重的问题,采用PSO算法14优化Adaboost弱分类器权重,使得精确度高的弱分类器得到较大的权重,无用或者冗余的弱分类器得到很小权重,从而进一步提升Adaboost的准确率和可读性。
(1)PSO优化的原理:每一个弱分类器的权重看作是一只鸟,称之为“粒子”,每个粒子都有一个适应值,代表自身解的优劣。在每次迭代的过程中,每个粒子根据全局最优解以及粒子本身所找到的最优解,调整自己的移动方向和速度大小,逐渐向最优粒子靠近。
(2)通过计算Adaboost的误差率ei作为每个粒子的适应度值:
Q表示样本的个数,ei表示第i个粒子的误差率即适应度值,m是弱分类器的个数,xik表示第i个例子的第k个权重值,ys表示第s个样本的真实类别。
通过PSO优化,得到修正后的强分类器15,以未标记的地震属性样本16为输入,对有利区进行预测。
以上所述,仅是本发明的较佳实施例,任何熟悉本专业的技术人员可能利用上述阐述的技术方案加以改型或变更为等同变化的等同实例。凡未脱离本发明技术方案内容,依据发明的技术方案对上述实施例进行的任何简单修改、变更或改型,均属于发明技术方案的保护范围。

Claims (1)

1.一种基于不平衡数据的Adaboost有利储层发育区预测方法,其特征在于,包括以下步骤:
从勘探数据库、地震数据体等数据源中提取地震属性以及岩性剖面数据,对其进行规范化处理,将地震属性数值映射到[0,1]区间,有利区划分为有利储层发育区和非有利储层发育区两类,通过时深匹配,获得带有类别标签的样本集;通过将分类器综合评价指标AUC引入Adaboost弱分类器的权重计算,综合分类误差以及AUC指标的共同作用决定弱分类的权重,从而解决了不平衡数据分类偏向于多数类的问题,提高了Adaboost的分类准确率;通过引入PSO算法,进一步优化Adaboost弱分类器的权重,实现优质弱分类器具有较高的权重,以经过规范化处理的样本集作为输入,采用修正后的Adaboost强分类器用于未知区域的有利区的预测。
CN201811281446.0A 2018-10-31 2018-10-31 一种基于不平衡数据的Adaboost有利储层发育区预测方法 Pending CN109447158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811281446.0A CN109447158A (zh) 2018-10-31 2018-10-31 一种基于不平衡数据的Adaboost有利储层发育区预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811281446.0A CN109447158A (zh) 2018-10-31 2018-10-31 一种基于不平衡数据的Adaboost有利储层发育区预测方法

Publications (1)

Publication Number Publication Date
CN109447158A true CN109447158A (zh) 2019-03-08

Family

ID=65550317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811281446.0A Pending CN109447158A (zh) 2018-10-31 2018-10-31 一种基于不平衡数据的Adaboost有利储层发育区预测方法

Country Status (1)

Country Link
CN (1) CN109447158A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059755A (zh) * 2019-04-22 2019-07-26 中国石油大学(华东) 一种多特征评价准则融合的地震属性优选方法
CN112581265A (zh) * 2020-12-23 2021-03-30 百维金科(上海)信息科技有限公司 一种基于AdaBoost的互联网金融客户申请欺诈检测方法
CN112733913A (zh) * 2020-12-31 2021-04-30 浙江禾连网络科技有限公司 一种基于成本Adaboost算法的子女协同老年人财产安全检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110229025A1 (en) * 2010-02-10 2011-09-22 Qi Zhao Methods and systems for generating saliency models through linear and/or nonlinear integration
CN102650702A (zh) * 2012-05-03 2012-08-29 中国石油天然气股份有限公司 一种地震波形分析及储层预测方法和装置
KR101254177B1 (ko) * 2011-10-07 2013-04-19 위아코퍼레이션 주식회사 방사형 기저 함수 신경회로망 알고리즘을 이용한 실시간 얼굴 인식 시스템
CN104570109A (zh) * 2013-10-29 2015-04-29 中国石油天然气集团公司 一种储层油气预测的方法
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
CN108460421A (zh) * 2018-03-13 2018-08-28 中南大学 不平衡数据的分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110229025A1 (en) * 2010-02-10 2011-09-22 Qi Zhao Methods and systems for generating saliency models through linear and/or nonlinear integration
KR101254177B1 (ko) * 2011-10-07 2013-04-19 위아코퍼레이션 주식회사 방사형 기저 함수 신경회로망 알고리즘을 이용한 실시간 얼굴 인식 시스템
CN102650702A (zh) * 2012-05-03 2012-08-29 中国石油天然气股份有限公司 一种地震波形分析及储层预测方法和装置
CN104570109A (zh) * 2013-10-29 2015-04-29 中国石油天然气集团公司 一种储层油气预测的方法
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
CN108460421A (zh) * 2018-03-13 2018-08-28 中南大学 不平衡数据的分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KEWEN LI 等: "An Improved Adaboost Algorithm for Imbalanced Data Based on Weighted KNN", 《2017 IEEE 2ND INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS 》 *
任克强 等: "基于AFSA和PSO融合优化的AdaBoost人脸检测算法", 《小型微型计算机系统》 *
李军: "不平衡数据学习的研究", 《中国博士学位论文全文数据库-信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059755A (zh) * 2019-04-22 2019-07-26 中国石油大学(华东) 一种多特征评价准则融合的地震属性优选方法
CN110059755B (zh) * 2019-04-22 2023-10-13 中国石油大学(华东) 一种多特征评价准则融合的地震属性优选方法
CN112581265A (zh) * 2020-12-23 2021-03-30 百维金科(上海)信息科技有限公司 一种基于AdaBoost的互联网金融客户申请欺诈检测方法
CN112733913A (zh) * 2020-12-31 2021-04-30 浙江禾连网络科技有限公司 一种基于成本Adaboost算法的子女协同老年人财产安全检测方法

Similar Documents

Publication Publication Date Title
Luo et al. Attention-based relation extraction with bidirectional gated recurrent unit and highway network in the analysis of geological data
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN109947963A (zh) 一种基于深度学习的多尺度哈希检索方法
CN107545577B (zh) 基于神经网络的沉积相图像分割方法
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
Liu et al. Quantum-enhanced deep learning-based lithology interpretation from well logs
CN109736790A (zh) 基于深度信念网络的测井岩性识别方法
Zhang et al. Natural language description of remote sensing images based on deep learning
CN109447158A (zh) 一种基于不平衡数据的Adaboost有利储层发育区预测方法
CN105184298A (zh) 一种快速局部约束低秩编码的图像分类方法
CN104881689A (zh) 一种多标签主动学习分类方法及系统
CN101276420A (zh) 一种融合光谱信息和多点模拟空间信息的分类方法
Lin et al. Mineral potential mapping using a conjugate gradient logistic regression model
CN108447057A (zh) 基于显著性和深度卷积网络的sar图像变化检测方法
CN109345007A (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法
CN110097069A (zh) 一种基于深度多核学习的支持向量机岩相识别方法及装置
CN107038505A (zh) 基于机器学习的找矿模型预测方法
CN109948825A (zh) 基于改进PSO与Adaboost结合的有利储层发育区预测方法
CN109902390A (zh) 一种基于小样本扩充的有利储层发育区预测方法
CN111191741A (zh) 一种岩石识别深度学习模型岩石分类约束继承性损失方法
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
CN113344050A (zh) 一种基于深度学习的岩性智能化识别方法及系统
CN109272029B (zh) 井控稀疏表征大规模谱聚类地震相划分方法
CN110298392A (zh) 一种标签约束自权重多超图学习的半监督分类方法
CN108920446A (zh) 一种工程文本的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190308

WD01 Invention patent application deemed withdrawn after publication