CN114548306A - 一种基于误分类代价的钻井早期溢流智能监测方法 - Google Patents
一种基于误分类代价的钻井早期溢流智能监测方法 Download PDFInfo
- Publication number
- CN114548306A CN114548306A CN202210189947.6A CN202210189947A CN114548306A CN 114548306 A CN114548306 A CN 114548306A CN 202210189947 A CN202210189947 A CN 202210189947A CN 114548306 A CN114548306 A CN 114548306A
- Authority
- CN
- China
- Prior art keywords
- cost
- data
- early
- data set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000005553 drilling Methods 0.000 title claims abstract description 48
- 238000012544 monitoring process Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 17
- 239000012530 fluid Substances 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000035945 sensitivity Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 9
- 238000011161 development Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007636 ensemble learning method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于误分类代价的钻井早期溢流智能监测方法,该方法选择立管压力差、总池体积差、进出口流量差、进出口钻井液密度差、进出口钻井液温度差、进出口钻井液电导率、钻时这7个参数作为溢流预警的特征参数,以误分类代价最低为模型的优化目标,构建基于代价敏感的早期溢流监测模型;该模型由依次进行的特征转换模块、代价敏感数据集构建模块、集成学习模块这三个模块构成;特征转换模块用于将输入数据集进行归一化处理及转换原始的特征空间;代价敏感数据集构建模块用于构建包含代价信息的训练数据集;集成学习模块用于集成多个弱分类器以得到强分类器。该方法克服了传统的机器学习算法存在的精度低、泛化能力差问题。
Description
技术领域
本发明涉及油气开采技术领域,尤其是一种基于误分类代价的钻井早期溢流智能监测方法。
背景技术
作为井控安全的第一道屏障,早期溢流监测技术应用与发展对预防井喷具有重要理论及实践意义。随着机器学习技术的高速发展,根据溢流发生时井口各参数响应时间,优选特征参数结合智能算法实现快速发现溢流,是早期溢流监测技术发展的趋势。目前众多学者通过选取不同的特征参数搭配各类机器学习算法,训练出多种智能模型应用于早期溢流监测中。
可将早期溢流监测视为一个二元分类的问题,我们将发生溢流的样本称为正类样本,未发生溢流的样本称为负类样本。在现实中,我们用于训练模型的数据集中,负类样本数量远大于正类样本,这是显而易见的。因此,早期溢流监测属于典型的不平衡小样本数据集二元分类问题。传统的机器学习是在特定的、拥有大量数据的数据集中,假定各类样本数目是均衡的,以误分率最小或预测准确率最高作为优化目标,学习出一个分类模型,使得模型对于测试数据集上的数据的分类准确率最高。因此,传统的机器学习算法应用于早期溢流监测领域中存在以下问题:1)需要大量的数据才能够保障传统的机器学习算法获得一个高性能的模型,而在现实中难以提供足够的正类样本数据,尤其是在区块的早期开发中;2)不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,模型在测试数据上的泛化能力受到极大的限制。针对不平衡的小样本数据集分类问题,已有很多学者提出了不同的解决方案。现有的方法可以分为采样方法、集成学习方法及代价敏感学习方法。采样方法包括欠采样(Liu,Wu,and Zhou 2009;Zheng et al.2021;)和过采样(Chawla et al.2002;Barua et al.2014;Li and Xiong 2020)。欠采样方法通过删除负类样本实现正负类样本的平衡,但可能会将一些重要的样本从多数类中删除。过采样方法多次复制少数样本,容易造成模型过拟合;集成学习方法(Seiffert et al.2010;Alam etal.2018;Fang et al.2019;Niu andZhang 2020)通常采用多数投票,但可能会因为“不稳定样本”的存在而导致结果有偏差。
发明内容
本发明的目的是针对传统的机器学习算法在早期溢流监测领域中难以克服数据量不足带来的分类精度低、泛化能力差的问题,提供一种基于误分类代价的钻井早期溢流智能监测方法。
本发明提供的基于误分类代价的钻井早期溢流智能监测方法,选择选择立管压力差、总池体积差、进出口流量差、进出口钻井液密度差、进出口钻井液温度差、进出口钻井液电导率、钻时这7个参数作为溢流预警的特征参数,以误分类代价最低为模型的优化目标,将代价敏感引入到早期溢流监测中,构建基于代价敏感的早期溢流监测模型,用于监测早期溢流。该模型由依次进行的特征转换模块、代价敏感数据集构建模块、集成学习模块这三个模块构成。其中,所述特征转换模块,用于将输入数据集进行归一化处理及转换原始的特征空间;所述代价敏感数据集构建模块,用于构建包含代价信息的训练数据集;所述集成学习模块,用于集成多个弱分类器以得到强分类器。
本发明的钻井早期溢流智能监测方法,步骤如下:
S1、选择立管压力差、总池体积差、进出口流量差、进出口钻井液密度差、进出口钻井液温度差、进出口钻井液电导率、钻时这7个参数作为溢流预警的特征参数。
S2、建立基于代价敏感的早期溢流监测模型,其中,
所述特征转换模块,将各特征参数下一时刻相对于上一时刻的累积变化量作为输入参数输入到特征转换模块进行预处理,获得归一化及特征降维处理后的数据集。
所述代价敏感数据集构建模块,将预处理后的数据集送入代价敏感数据集构建模块中,正类样本得到扩增,扩增后的正类样本与负类样本构成代价敏感的训练集。
所述集成学习模块,用于集成多个弱分类器以得到强分类器。
S3、以某区块真实的钻井数据对基于代价敏感的早期溢流监测模型进行训练及测试。该步骤中使用误分类总代价、准确率、召回率、精确率、F-measure及AUC这六个指标评估基于代价敏感的早期溢流监测模型性能。
上述方法中,所述特征转换模块,对原始数据进行线性变换,转换函数如下:
式中,max和min分别为原始数据的最大值和最小值,一个原始值x通过min-max标准化映射成区间[0,1]中的值x’。
采用KPCA算法转换特征,通过非线性映射Φ,将低维输入空间每一个X=(x1,x2,…,xp)(xi∈Rn,i=1,2,…,p)中不可分的数据映射到高维特征空间Y,即:
式中,Rn—原始低维空间,Y—映射后的高维空间;Φ是一个非线性映射,Φ将X中所有样本都映射到特征空间Y中,得到一个新矩阵Φ(X)。
在高维特征空间中进行数据处理,使输入空间中不可分的数据在高维特征空间中变得可分,再在这个更高的维度空间中利用特征的协方差矩阵判断变量间的方差一致性,寻找出变量之间的最佳的线性组合,来代替特征,从而达到降维的目的。
KPCA算法中,采用的多项式核函数如下:
k(x,y)=(axty+c)d (3)
式中,d—多项式函数的最高此项次数,a—用来设置核函数中的gamma参数设置,c—系数。
所述代价敏感数据集构建模块包括以下操作:
(1)代价敏感采用代价矩阵表示分类器错分时需要付出的代价,c0为正类样本,c1为负类样本,C(i,j)表示将i错分为j要付出的代价;
(2)通过代价矩阵获取代价信息后,根据代价嵌入过程的不同,将代价敏感学习分为三类方法:数据前处理方法、直接的代价敏感学习方法与结果后处理方法;
(3)通过扩增数据集中正类样本的数量,改变数据集不平衡比,将代价信息嵌入到数据集中。扩增正类样本数量采用GAN模型,具体方法如下:
GAN模型由生成器G与判别器D构成;GAN模型的目标函数定义为:
式中,E—数学期望;logD(x)—判别器D的损失;z—随机输入;G(z)—新生成的样本;Pdata(x)—真实样本的分布;Pz(z)—生成样本的分布。
在每一轮的训练中,G随机从噪声分布Pz(z)中采集m个向量作为输入,生成m个假数据G(zi)(i=1,2…m),其概率分布为PG;D接受G生成的m个假数据作为输入的同时,随机在真实数据中选取m个样本作为输入,真实数据的概率分布为Pdata;D通过PG与Pdata之间的差异判断输入数据是来自真实数据还是生成器,并输出D认定输入是真实分布的概率,并将输出反馈给G,用于指导G的训练;Ex~Pdata(x)[logD(x)]代表判别器对真实样本判断结果的期望,Ez~pz(z)[log(1-D(G(z)))]代表判别器对虚假样本判断结果的期望;经过多轮对抗训练,直至,D对真实样本判断结果D(x)为1,logD(x)为0,即Ex~Pdata(x)[logD(x)]越大越好;对虚假样本判断结果D(G(z))为0,1-D(G(z))为1,log(1-D(G(z)))为0,即Ez~Pz(z)[log(1-D(G(z)))]越大越好;最终D无法判别输入数据是来自真实数据x还是生成数据G(zi)(i=1,2…m),即D每次的输出概率值都为1/2,此时模型达到最优。
所述集成学习模块中,采用Stacking方法首先根据原始训练集训练出若干个基分类器后,再将多个基分类器的预测结果作为新的训练集,来训练出一个新的分类器,作为最终分类器。
与现有技术相比,本发明的有益之处在于:
本发明将代价敏感学习引入到早期溢流监测中,选择了立管压力、总池体积、进出口流量、进出口钻井液密度差等7个参数作为特征,以误分类代价最低为模型的优化目标,构建了一种全新的智能模型用于早期溢流监测。该模型在各种规模的数据集上均有极好的表现,由此可以证明我们的模型可靠、分类性能强、泛化能力高,能够为现场施工提供指导。本发明的方法避免了传统机器学习在早期溢流监测中存在的难以克服数据量不足带来的精度低、泛化能力差的问题。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1、FCE-Kick Detection示意图。
图2、KPCA实现样本分离的原理示意图。
图3、代价敏感学习示意图。
图4、GAN网络结构。
图5、四种算法分类性能对比。
图6、最优代价与正类样本个数间的关系。
图7、Real IR随正类样本及不平衡比之间的关系。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
在实际钻井过程中,由于地层情况复杂、现场施工环境较差,工具测量时会产生一定的误差,增加了早期溢流监测的难度,基于单因素的早期溢流监测受误差噪声的影响极大。因此,通过对文献资料及大量现场资料的调研,本发明优选并总结出与溢流密切相关的特征参数及其表征规律如表1所示,基于多参数监测早期溢流,提高识别溢流的准确性。
表1溢流预警特征参数及其表征规律
本发明中并未直接将每一时刻各个特征参数的数值作为输入,而是将特征参数下一时刻相对于上一时刻的累积变化量作为输入参数,时刻的长短可根据实际情况适当调整,再通过智能模型分析特征参数的变化量与早期溢流间的关系,对早期溢流进行智能监测。
本发明以误分类代价最小为优化目标,使用数据前处理方法构建了基于代价敏感的早期溢流监测模型,将该模型命名为FCE-Kick Detection(见图1)。由图1可知,模型主要由三个模块构成:1)特征转换模块(F:Feature Transformation),负责将输入数据集进行归一化处理及转换原始的特征空间;2)代价敏感数据集构建模块(C:Cost-sensitive DataConstruction),负责构建包含代价信息的训练数据集;3)集成学习模块(E:EnsembleLearning),用于集成多个弱分类器以得到强分类器。
该模型的工作流程:首先,将原始数据集送入数据预处理模块,获得归一化及特征降维处理后的数据集。然后,将预处理后的数据集送入CDC模块中,正类样本将得到扩增,扩增后的正类样本与负类样本构成代价敏感的训练集。最后,在EL模块中,我们集成了多个弱分类器组成强分类器,作为最终的分类器。模型的构建、训练及测试是基于Python-keras深度学习库构建、训练和测试。Keras是一个高级神经网络API,用Python编写,能够在TensorFlow,CNTK或Theano之上运行,能够实现快速实验。
下面分别对三个模块进行说明:
(1)特征转换模块
特征转换旨在增强特征参数与溢流间的联系。在转换特征空间前,对数据集进行了归一化处理。数据归一化将预处理的数据限定在一定的范围内,从而消除奇异样本数据导致的不良影响。本发明使用了min-maxNormalization对原始数据进行线性变换,转换函数如下:
采用KPCA(Kernel Principal ComponentAnalysis)算法转换特征。PCA是在保证样本数据信息损失最小的前提下,运用降维的思想将多个指标问题转换为新的指标问题,并且这些新的指标既互不相关,又能综合反映原指标所包含信息的一种分析方法。PCA运算实际上是一种确定一个坐标系统的正交变换,在这个新的坐标系统下,变换数据点的方差沿新的坐标轴得到了最大化,这些坐标轴经常被称为是主成分。利用主成分分析可以较好地处理变量间的线性关系,但处理非线性关系时会导致各主成分的贡献率过于分散,不能找到能够有效代表原样本的综合变量,处理效果较差。KPCA利用核化的思想,通过非线性映射Φ,将低维输入空间每一个X=(x1,x2,…,xp)(xi∈Rn,i=1,2,…,p)中不可分的数据映射到高维特征空间Y,即:
在高维特征空间中进行数据处理,使输入空间中不可分的数据在高维特征空间中变得可分,再在这个更高的维度空间中利用特征的协方差矩阵判断变量间的方差一致性,寻找出变量之间的最佳的线性组合,来代替特征,从而达到降维的目的(图2)。
多项式核函数非常适合于正交归一化后的数据,是一种常用的核函数,在处理二元分类问题上有很好的效果,其数学公式如下:
k(x,y)=(axty+c)d (3)
(2)代价敏感数据集构建模块
代价敏感学习为不同的分类错误分配不同的代价,避免产生高代价的分类错误,以达到最小化分类代价的目标。代价敏感一般用代价矩阵(见表2)表示分类器错分时需要付出的代价,c0为正类样本,c1为负类样本,C(i,j)表示将i错分为j要付出的代价。
表2混淆矩阵
通过代价矩阵获取代价信息后,根据代价嵌入过程的不同,可将代价敏感学习分为三类方法:数据前处理方法、直接的代价敏感学习方法与结果后处理方法,如图3所示。
通过扩增数据集中正类样本的数量,改变数据集不平衡比,实现将代价信息嵌入到数据集中。在具体的实现过程中,选择GAN(Generative Adversarial Networks,GAN)扩增正类样本。GAN是Goodfellow等人在2014年提出的一种新的生成式模型(Goodfellow2014),GAN独特的对抗性思想使得它在众多生成器模型中脱颖而出。由于GAN并不是单纯地对真实数据的复现,而是具备一定的数据内插和外插作用,能够有效的增加样本的多样性,这与我们希望生成的数据与真实数据存在一定差异的想法完美契合,非常适用于早期溢流监测扩增样本。GAN由生成网络和判别网络组成,网络结构如图4所示。
GAN由生成器G(Generate network)与判别器D(Discriminant network)构成。GAN的目标函数定义为:
在每一轮的训练中,G随机从噪声分布Pz(z)中采集m个向量作为输入,生成m个假数据G(zi)(i=1,2…m),其概率分布为PG。D接受G生成的m个假数据作为输入的同时,随机在真实数据中选取m个样本作为输入,真实数据的概率分布为Pdata。D通过PG与Pdata之间的差异判断输入来自真实数据或生成器,并输出D认定输入是真实分布的概率,并将输出反馈给G,用于指导G的训练。Ex~Pdata(x)[logD(x)]代表判别器对真实样本判断结果的期望,Ez~pz(z)[log(1-D(G(z)))]代表判别器对虚假样本判断结果的期望。经过多轮对抗训练,理想情况下的D对真实样本判断结果D(x)应为1,logD(x)为0,即Ex~Pdata(x)[logD(x)]越大越好。对虚假样本判断结果D(G(z))应为0,1-D(G(z))为1,log(1-D(G(z)))为0,即Ez~pz(z)[log(1-D(G(z)))]越大越好。最终D无法判别输入数据是来自真实数据x还是生成数据G(zi)(i=1,2…m),即D每次的输出概率值都为1/2,此时模型达到最优。
(3)集成学习模块
集成学习是组合多个弱分类模型以得到一个更好更全面的强分类器,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
本发明采用Stacking方法训练一个模型用于组合其他各个基模型,在实际中我们选择了RF、AdBoost、GradientBoost、ET及SVM五种基分类器。Stacking方法首先根据原始训练集训练出若干个基分类器后,再将多个基分类器的预测结果作为新的训练集,来训练出一个新的分类器。Stacking方法具体步骤如下:
1)对Model1,将训练集DC分为k份,对于每一份,用剩余数据集训练模型,然后预测出这一份的结果;
2)重复上面步骤,直到每一份都预测出来,得到次级模型的训练集。得到k份测试集,平均后得到次级模型的测试集;
3)对于剩余Model重复以上步骤,得到M维数据;
4)选定次级模型,作为最终的预测模型,我们使用了Logistic Regression。
本发明的基于误分类代价的钻井早期溢流智能监测方法的应用案例如下:
步骤1、数据集
选取LZ区块的实钻数据作为原始数据,以特征参数在30s左右的累积变化量,构建了多种规模的数据集,用以模拟区块开发的不同时期及测试模型的泛化能力。我们首先构建了测试数据集A用于验证模型,具体信息见表3。
表3、数据集A(数据集不平衡比=9)
数据集中样本数量共1000组,其中正类样本共100组,负类样本900组。样本不平衡率达到了9,属于典型的不平衡数据集。对于溢流而言,即使在区块开发的后期也难以获得大量的数据。
步骤2、评价指标
由于正类样本远少于负类样本,负类样本的分类性能更重要,此时准确率不能合理的衡量模型对不平衡数据的分类性能,为了更有意义的评估分类算法的性能,通常采用混淆矩阵的方法评估模型性能,混淆矩阵如表4所示。
表4、混淆矩阵
模型预测正确的正样本数为TP,预测正确的负样本数为TN,预测为正的负样本数为FP,预测为负的正样本数为FN。这里选择混淆矩阵下的二级指标包括:Accuracy、Recall、Precision、F-measure、ROC曲线下面积(AUC),以及模型分类错误产生的Total Cost作为评价准则衡量算法性能。
F-measure是Precision和Recall加权调和平均,Precision计算的是所有被检索到的TP+FP中,TP占的比例,Recall计算的是所有检索到的TP占所有TP+FN的比例,评价指标公式:
ROC曲线下面积(AUC)是衡量模型识别能力的重要指标,面积为0.5为随机分类,识别能力为0,面积越接近于1识别能力越强,面积等于1为完全识别。
将分类正确的代价设置为0,将负类划分正类的代价设置为1,则模型误分类的总代价为:
Total Cost=FP·1+FN·C(c1,c0) (9)
步骤3、测试结果及对比分析
这里设置了多种不同的代价以测试模型的性能。值得注意的是,当C(C0,C1)=C(C1,C0)时,模型退化为传统的分类模型。我们进行了多次测试以验证模型的性能,以下结果均为多次测试后的平均值。数据集A在被转换至不同维度下的分类性能测试结果见表5。
表5、数据集A分类结果
由表5可知,当C(C1,C0)=1,即模型退化为传统的分类模型时,虽然模型的分类准确率超过了0.95,但F-measure值极低,这表明模型对正类样本的分类准确率极低,即使是在维度为6时,F-measure值最高,但也仅为0.79。由此可知,传统的分类模型,无法有效识别不平衡样本集中的正类样本。当误分类代价设置在2-5之间时,模型展现出极强的分类性能。模型对正类、负类数据均有较高的分类精度。在误分类代价设置为3、维度为6时,模型误分类产生的总代价仅为0.9,此时相对于传统的分类模型,模型对正类数据的识别准确率提升了48.9%。随着误分类代价进一步提高,此时模型产生了较高的误分类总代价,可以发现模型对正类样本的分类准确率极高,但对负类样本的分类准确率有所降低,由于对负类样本的错误分类较多而产生了较高的误分类总代价。究其原因在于,误分类代价设置过高时,为了避免产生更高的代价,模型倾向于将更多的样本划分为正类样本。基于此特点,我们认为在区块开发的前期或钻遇复杂地层时,可以适当提高误分类的代价,以保障模型对溢流的预测准确率,即使是在一定程度上牺牲对正常钻井的分类准确率也是值得的。从整个测试结果来看,我们的模型准确、可靠,能够应用于早期溢流监测中。
发明人对比了在数据集A中,模型误分类产生的总代价与误分类代价、转换后的特征维度之间的关系。结果可知,当误分类代价设置在2-4之间,维度在4-6之间时,模型产生的误分类总代价最小。结合表5可知,转换后的特征维度介于4-6之间时,模型的分类性能最优。其原因在于,转换后的特征维度过小,转换特征后的数据集中包含的有用信息过少,此时训练出的模型出现了欠拟合的情况。转换后的特征维度过大,转换特征后的数据集中包含了过多的冗余信息,导致模型出现了过拟合的情况。因为本发明的原始溢流数据集中特征的维度已经确定,无法对比原始特征维度与转后的特征维度之间的关系,从而得出最优维度计算方法。
发明人还对比了本发明的模型与其他方法的分类性能,包括过采样方法、欠采样方法与Smote方法。过采样方法、欠采样方法与Smote方法的测试结果见表6-表8。
表6过采样方法测试结果
这几种算法各自训练出的最佳模型的分类性能对比如图5所示。由图可以看出,SMOTE、过采样及欠采样三种模型对负类样本的分类准确率较高,但对正类样本的分类准确率极低,由此产生了较高的误分类总代价。FDE模型(即本发明建立的模型)的分类性能明显优于其他三种模型。由此可以得出,通过简单的复制或者删除数据集中的样本及简单在数据集样本间进行插值增加样本数量的方法,均不能够解决早期溢流数据集正类样本量不足与不平衡的问题,训练出的模型无法应用于早期溢流监测中。而我们的模型能够有效解决数据集不平衡及正类样本量不足的问题。
误分类代价属于先验信息,但在实际中,我们很难确定合适的代价。因此,我们以模型性能最优为前提,对最优代价进行了分析。我们将正类样本数量设置在20-100之间,数据集的不平衡比设置在5-15之间,构建了多个数据集。将数据集转换后的特征维度设置为5,进行了多次实验。实验结果见表9。
表9不同正类样本数量及数据集不平衡比下模型分类性能
由表9可知,不同不平衡比及正类样本数量下的模型分类性能相差较大。
对比了最优代价随数据集不平衡比及正类样本数量变化的趋势,如图6所示。由图可知:1)最优代价随着不平衡比的增加而增加;2)最优代价随正类样本个数的变化差异较大,规律性不强;3)整体来看,最优代价保持在3-11之间。将扩增后的数据集的不平衡定义为Real IR,对比了最优代价对应的Real IR在不同正类样本量及不平衡比间的变化规律,如图7所示。
由图7可以看出,当不平衡比为5时,最优的代价对应的Real IR介于1-1.7之间;当不平衡比为7.5时,最优的代价对应的Real IR介于1.25-1.9之间;当不平衡比为10时,最优的代价对应的Real IR介于1.25-2之间;当不平衡比为12.5时,最优的代价对应的Real IR介于1.4-2.1之间;当不平衡比为15时,最优的代价对应的Real IR介于1.3-1.9之间。整体来看,最优代价对应的Real IR介于1-2.5之间,由此,给出了模型最优代价计算公式:
式(9)中:C,最优代价;IR,数据集不平衡比;c,系数。
综上所述,本发明提供了一种基于误分类代价的钻井早期溢流智能监测方法,克服了传统机器学习算法在溢流样本过少时分类精度低、泛化能力差的问题。并且使用LZ区块的真实钻井数据对模型性能进行了测试,测试结果一致表明,模型拥有极强的分类性能。并且在与采样方法及Smote方法的对比中,展现出极强的竞争力。详细对比了转换后的特征维度介于2-7之间时,模型的分类性能,经过多次测试得出:维度在4-6之间时,模型的性能最佳。尤其是在维度为6、误分类代价为3时,模型产生的误分类代价仅为0.9,对应的Accuracy到达0.998,Recall到达0.990,Precision为0.986,F-measure为0.998,AUC为0.997,模型展现出极强的分类性能。最后我们构建了多个正类样本量在20-100之间,数据集不平衡比在5-15之间的数据集。在验证了模型的泛化能力的同时,发现误分类代价对应的真实数据集不平衡比介于1-2.5之间,并由此推导出模型最优代价取值公式,为工程师提供参考。研究发现在代价过高时,模型对溢流样本的分类准确率极高,但在一定程度上,降低了对正常钻井样本的分类准确率。因此,在区块开发的前期或钻遇复杂地层时,可以基于此特点适当提高误分类代价,以保障钻井安全。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种基于误分类代价的钻井早期溢流智能监测方法,其特征在于,该方法选择选择立管压力差、总池体积差、进出口流量差、进出口钻井液密度差、进出口钻井液温度差、进出口钻井液电导率、钻时这7个参数作为溢流预警的特征参数,以误分类代价最低为模型的优化目标,将代价敏感引入到早期溢流监测中,构建基于代价敏感的早期溢流监测模型,用于监测早期溢流;该模型由依次进行的特征转换模块、代价敏感数据集构建模块、集成学习模块这三个模块构成;其中,所述特征转换模块,用于将输入数据集进行归一化处理及转换原始的特征空间;所述代价敏感数据集构建模块,用于构建包含代价信息的训练数据集;所述集成学习模块,用于集成多个弱分类器以得到强分类器。
2.如权利要求1所述的基于误分类代价的钻井早期溢流智能监测方法,其特征在于,步骤如下:
S1、选择立管压力差、总池体积差、进出口流量差、进出口钻井液密度差、进出口钻井液温度差、进出口钻井液电导率、钻时这7个参数作为溢流预警的特征参数;
S2、建立基于代价敏感的早期溢流监测模型,其中,
所述特征转换模块,将各特征参数下一时刻相对于上一时刻的累积变化量作为输入参数输入到特征转换模块进行预处理,获得归一化及特征降维处理后的数据集;
所述代价敏感数据集构建模块,将预处理后的数据集送入代价敏感数据集构建模块中,正类样本得到扩增,扩增后的正类样本与负类样本构成代价敏感的训练集;
所述集成学习模块,用于集成多个弱分类器以得到强分类器;
S3、以某区块真实的钻井数据对基于代价敏感的早期溢流监测模型进行训练及测试。
4.如权利要求3所述的基于误分类代价的钻井早期溢流智能监测方法,其特征在于,KPCA算法中,采用的多项式核函数如下:
k(x,y)=(axty+c)d (3)
5.如权利要求2所述的基于误分类代价的钻井早期溢流智能监测方法,其特征在于,所述代价敏感数据集构建模块包括以下操作:
(1)代价敏感采用代价矩阵表示分类器错分时需要付出的代价,c0为正类样本,c1为负类样本,C(i,j)表示将i错分为j要付出的代价;
(2)通过代价矩阵获取代价信息后,根据代价嵌入过程的不同,将代价敏感学习分为三类方法:数据前处理方法、直接的代价敏感学习方法与结果后处理方法;
(3)通过扩增数据集中正类样本的数量,改变数据集不平衡比,将代价信息嵌入到数据集中。
6.如权利要求5所述的基于误分类代价的钻井早期溢流智能监测方法,其特征在于,扩增正类样本数量采用GAN模型,具体方法如下:
GAN模型由生成器G与判别器D构成;GAN模型的目标函数定义为:
在每一轮的训练中,G随机从噪声分布Pz(z)中采集m个向量作为输入,生成m个假数据G(zi)(i=1,2…m),其概率分布为PG;D接受G生成的m个假数据作为输入的同时,随机在真实数据中选取m个样本作为输入,真实数据的概率分布为Pdata;D通过PG与Pdata之间的差异判断输入数据是来自真实数据还是生成器,并输出D认定输入是真实分布的概率,并将输出反馈给G,用于指导G的训练;Ex~Pdata(x)[logD(x)]代表判别器对真实样本判断结果的期望,Ez~pz(z)[log(1-D(G(z)))]代表判别器对虚假样本判断结果的期望;经过多轮对抗训练,直至,D对真实样本判断结果D(x)为1,logD(x)为0,即Ex~Pdata(x)[logD(x)]越大越好;对虚假样本判断结果D(G(z))为0,1-D(G(z))为1,log(1-D(G(z)))为0,即Ez~Pz(z)[log(1-D(G(z)))]越大越好;最终D无法判别输入数据是来自真实数据x还是生成数据G(zi)(i=1,2…m),即D每次的输出概率值都为1/2,此时模型达到最优。
7.如权利要求2所述的基于误分类代价的钻井早期溢流智能监测方法,其特征在于,所述集成学习模块中,采用Stacking方法首先根据原始训练集训练出若干个基分类器后,再将多个基分类器的预测结果作为新的训练集,来训练出一个新的分类器,作为最终分类器。
8.如权利要求2所述的基于误分类代价的钻井早期溢流智能监测方法,其特征在于,步骤S3中,使用误分类总代价、准确率、召回率、精确率、F-measure及AUC这六个指标评估基于代价敏感的早期溢流监测模型性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210189947.6A CN114548306A (zh) | 2022-02-28 | 2022-02-28 | 一种基于误分类代价的钻井早期溢流智能监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210189947.6A CN114548306A (zh) | 2022-02-28 | 2022-02-28 | 一种基于误分类代价的钻井早期溢流智能监测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114548306A true CN114548306A (zh) | 2022-05-27 |
Family
ID=81661466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210189947.6A Pending CN114548306A (zh) | 2022-02-28 | 2022-02-28 | 一种基于误分类代价的钻井早期溢流智能监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548306A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116796647A (zh) * | 2023-07-13 | 2023-09-22 | 辽宁石油化工大学 | 一种钻井溢流工况智能预测模型的训练、预测方法及井下溢流风险概率预测系统 |
CN117648633A (zh) * | 2024-01-29 | 2024-03-05 | 西南石油大学 | 一种基于增强图注意力网络的敏感信息识别方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
US20190042938A1 (en) * | 2017-05-19 | 2019-02-07 | Tata Consultancy Services Limited | Simultaneous multi-class learning for data classification |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
CN111860658A (zh) * | 2020-07-24 | 2020-10-30 | 华北电力大学(保定) | 一种基于代价敏感和集成学习的变压器故障诊断方法 |
WO2020244771A1 (en) * | 2019-06-06 | 2020-12-10 | NEC Laboratories Europe GmbH | Diversity-aware weighted majority vote classifier for imbalanced datasets |
CN112069310A (zh) * | 2020-06-18 | 2020-12-11 | 中国科学院计算技术研究所 | 基于主动学习策略的文本分类方法及系统 |
CN112465040A (zh) * | 2020-12-01 | 2021-03-09 | 杭州电子科技大学 | 一种基于类不平衡学习算法的软件缺陷预测方法 |
CN115910324A (zh) * | 2022-11-25 | 2023-04-04 | 西南石油大学 | 基于特征转换和数据增强的微生物疾病诊断方法 |
CN117035197A (zh) * | 2023-08-25 | 2023-11-10 | 成都理工大学 | 一种代价最低化的井漏智能预测方法 |
-
2022
- 2022-02-28 CN CN202210189947.6A patent/CN114548306A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190042938A1 (en) * | 2017-05-19 | 2019-02-07 | Tata Consultancy Services Limited | Simultaneous multi-class learning for data classification |
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
WO2020244771A1 (en) * | 2019-06-06 | 2020-12-10 | NEC Laboratories Europe GmbH | Diversity-aware weighted majority vote classifier for imbalanced datasets |
CN112069310A (zh) * | 2020-06-18 | 2020-12-11 | 中国科学院计算技术研究所 | 基于主动学习策略的文本分类方法及系统 |
CN111860658A (zh) * | 2020-07-24 | 2020-10-30 | 华北电力大学(保定) | 一种基于代价敏感和集成学习的变压器故障诊断方法 |
CN112465040A (zh) * | 2020-12-01 | 2021-03-09 | 杭州电子科技大学 | 一种基于类不平衡学习算法的软件缺陷预测方法 |
CN115910324A (zh) * | 2022-11-25 | 2023-04-04 | 西南石油大学 | 基于特征转换和数据增强的微生物疾病诊断方法 |
CN117035197A (zh) * | 2023-08-25 | 2023-11-10 | 成都理工大学 | 一种代价最低化的井漏智能预测方法 |
Non-Patent Citations (6)
Title |
---|
BARTOSZ KRAWCZYK ET AL.: "Cost-sensitive decision tree ensembles for effective imbalanced classification", APPLIED SOFT COMPUTING, vol. 14, 12 September 2013 (2013-09-12), pages 554, XP028782481, DOI: 10.1016/j.asoc.2013.08.014 * |
ENLU LIN ET AL.: "Deep Reinforcement Learning for Imbalanced Classification", ARXIV, 5 January 2019 (2019-01-05) * |
LIANG HAIBO ET AL.: "Application of an intelligent early-warningmethod based on DBSCAN clustering for drilling overflow accident", CLUSTER COMPUTING, vol. 22, 6 February 2018 (2018-02-06), pages 12599, XP036949843, DOI: 10.1007/s10586-017-1687-5 * |
PENG CHI ET AL.: "An intelligent model for early kick detection based on cost-sensitive learning", PROCESS SAFETY AND ENVIRONMENTAL PROTECTION, vol. 169, 31 October 2022 (2022-10-31), pages 398 * |
任胜兵;廖湘荡;: "基于代价敏感支持向量机的软件缺陷预测研究", 计算机工程与科学, no. 10, 15 October 2018 (2018-10-15) * |
张涛等: "基于样本依赖代价矩阵的小微企业信用评估方法", 同济大学学报(自然科学版), no. 01, 15 January 2020 (2020-01-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116796647A (zh) * | 2023-07-13 | 2023-09-22 | 辽宁石油化工大学 | 一种钻井溢流工况智能预测模型的训练、预测方法及井下溢流风险概率预测系统 |
CN117648633A (zh) * | 2024-01-29 | 2024-03-05 | 西南石油大学 | 一种基于增强图注意力网络的敏感信息识别方法及系统 |
CN117648633B (zh) * | 2024-01-29 | 2024-04-19 | 西南石油大学 | 一种基于增强图注意力网络的敏感信息识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967502B (zh) | 一种基于条件变分自编码器的网络入侵检测方法 | |
CN110213287B (zh) | 一种基于集成机器学习算法的双模式入侵检测装置 | |
CN108023876B (zh) | 基于可持续性集成学习的入侵检测方法及入侵检测系统 | |
Dai et al. | Using random forest algorithm for breast cancer diagnosis | |
CN112784881B (zh) | 网络异常流量检测方法、模型及系统 | |
CN104539484B (zh) | 一种动态评估网络连接可信度的方法及系统 | |
CN112101426A (zh) | 基于自编码器的无监督学习图像异常检测方法 | |
CN114548306A (zh) | 一种基于误分类代价的钻井早期溢流智能监测方法 | |
CN109783879B (zh) | 一种雷达辐射源信号识别效能评估方法及系统 | |
CN112557034B (zh) | 一种基于pca_cnns的轴承故障诊断方法 | |
CN109993229A (zh) | 一种严重不平衡数据分类方法 | |
CN106326915A (zh) | 一种基于改进核Fisher的化工过程故障诊断方法 | |
CN116433333B (zh) | 基于机器学习的数字商品交易风险防控方法及装置 | |
CN111428790A (zh) | 基于粒子群优化的双准确度加权随机森林算法 | |
CN113889198A (zh) | 一种基于油色谱时频域信息和残差注意力网络的变压器故障诊断方法及设备 | |
CN113674862A (zh) | 一种基于机器学习的急性肾功能损伤发病预测方法 | |
CN116776260A (zh) | 基于机器学习的岩爆等级双模型分步预测方法 | |
Paul et al. | Identification of statistically significant features from random forests | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
Chelvan et al. | A comparative analysis of feature selection stability measures | |
CN117637080A (zh) | 一种基于充填料浆差异性分析的屈服应力预测方法 | |
Lakara et al. | Evaluating predictive uncertainty and robustness to distributional shift using real world data | |
CN113792141B (zh) | 基于协方差度量因子的特征选择方法 | |
CN114968647A (zh) | 基于闪蒸汽压缩机组故障诊断的监测数据深度挖掘方法 | |
Cai et al. | Fuzzy criteria in multi-objective feature selection for unsupervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |