CN116644284A - 一种地层分类特征因子确定方法、系统、电子设备及介质 - Google Patents
一种地层分类特征因子确定方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN116644284A CN116644284A CN202310627102.5A CN202310627102A CN116644284A CN 116644284 A CN116644284 A CN 116644284A CN 202310627102 A CN202310627102 A CN 202310627102A CN 116644284 A CN116644284 A CN 116644284A
- Authority
- CN
- China
- Prior art keywords
- drilling
- stratum
- drilling data
- data set
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005553 drilling Methods 0.000 claims abstract description 274
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 238000013145 classification model Methods 0.000 claims abstract description 19
- 238000010220 Pearson correlation analysis Methods 0.000 claims abstract description 16
- 238000009499 grossing Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 239000003208 petroleum Substances 0.000 abstract description 3
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000005484 gravity Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- E—FIXED CONSTRUCTIONS
- E21—EARTH OR ROCK DRILLING; MINING
- E21B—EARTH OR ROCK DRILLING; OBTAINING OIL, GAS, WATER, SOLUBLE OR MELTABLE MATERIALS OR A SLURRY OF MINERALS FROM WELLS
- E21B45/00—Measuring the drilling time or rate of penetration
-
- E—FIXED CONSTRUCTIONS
- E21—EARTH OR ROCK DRILLING; MINING
- E21B—EARTH OR ROCK DRILLING; OBTAINING OIL, GAS, WATER, SOLUBLE OR MELTABLE MATERIALS OR A SLURRY OF MINERALS FROM WELLS
- E21B47/00—Survey of boreholes or wells
-
- E—FIXED CONSTRUCTIONS
- E21—EARTH OR ROCK DRILLING; MINING
- E21B—EARTH OR ROCK DRILLING; OBTAINING OIL, GAS, WATER, SOLUBLE OR MELTABLE MATERIALS OR A SLURRY OF MINERALS FROM WELLS
- E21B49/00—Testing the nature of borehole walls; Formation testing; Methods or apparatus for obtaining samples of soil or well fluids, specially adapted to earth drilling or wells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mining & Mineral Resources (AREA)
- Geology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Environmental & Geological Engineering (AREA)
- Fluid Mechanics (AREA)
- General Life Sciences & Earth Sciences (AREA)
- Geochemistry & Mineralogy (AREA)
- Probability & Statistics with Applications (AREA)
- Geophysics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种地层分类特征因子确定方法、系统、电子设备及介质,涉及石油钻井工程领域,方法包括:获取历史钻井数据时间序列矩阵以及对应的地层种类;对历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集;基于局部离群因子算法和卷积平滑算法,对钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集;基于最小描述长度原则和皮尔逊相关性分析,确定预处理后的钻井数据集中多个地层分类特征因子;基于不同地层种类的多个所述地层分类特征因子,对深度神经网络模型进行训练,得到地层分类模型;并利用地层分类模型,确定当前钻进时刻的多个地层分类特征因子所处的地层种类。本发明提高了地层分类数据质量。
Description
技术领域
本发明涉及石油钻井工程领域,特别是涉及一种地层分类特征因子确定方法、系统、电子设备及介质。
背景技术
随着微型计算机的出现和计算性能的不断提高,综合录井技术不断完善,综合录井技术是在石油钻探作业中,利用循环钻井液作为录取信息的载体,使用各种检测仪器,记录钻井液中的地质、油气、压力、岩石物性等信息随深度变化的一种综合录井作业。综合录井仪中传感器每五秒钟采集一组数据,每组数据有接近百个特征因子,在钻井过程中积累了海量的数据。然而由于环境、测量方式、系统噪声的影响,钻井数据存在着大量的异常值和缺失值,钻井数据曲线毛刺明显,数据质量难以保证,影响后续数据分析与挖掘。因此钻井数据预处理是进行科学研究的基础。
单口井综合录井数据有数百万余行,中间夹杂各种非钻进工况下的数据段,增加了数据存储成本,降低了数据分析运算效率,且钻井工况时段划分精确度低下,各种地层对应数据集划分不清晰,从而影响对地层分类模型的训练,导致最终得到的地层分类模型的分类准确性低。
发明内容
本发明的目的是提供一种地层分类特征因子确定方法、系统、电子设备及介质,以提高地层分类数据质量。
为实现上述目的,本发明提供了如下方案:
一种地层分类特征因子确定方法,包括:
获取历史钻井数据时间序列矩阵以及历史钻井数据对应的地层种类;历史钻井数据时间序列矩阵为a×b阶的时间序列矩阵;a为历史钻井数据的种类总数;b为获取钻井数据的时刻总数;获取钻井数据的时刻包括钻进时刻和非钻进时刻;
对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集;
针对任一地层种类的钻进时刻钻井数据集:
基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集;
基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子;
基于不同地层种类的多个所述地层分类特征因子,对深度神经网络模型进行训练,得到地层分类模型;
获取当前钻进时刻的多个地层分类特征因子,并利用所述地层分类模型,确定当前地层种类。
可选地,对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集,具体包括:
根据所述历史钻井数据中的井深,筛选出所述历史钻井数据时间序列矩阵中钻进时刻的历史钻井数据;
根据所述历史钻井数据对应的地层种类,对所述钻进时刻的历史钻井数据进行分类,得到不同地层种类的钻进时刻钻井数据集。
可选地,基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集,具体包括:
利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到修正后的钻井数据集;
利用Savitzky-Golay卷积平滑算法,对所述修正后的钻井数据集进行滤波处理,得到预处理后的钻井数据集。
可选地,利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到修正后的钻井数据集,具体包括:
利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到离群点集合;
根据所述离群点集合对所述钻进时刻钻井数据集进行异常值修正,得到修正后的钻井数据集。
可选地,基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子,具体包括:
利用最小描述长度原则,确定所述预处理后的钻井数据集中多个地层分类因子;
根据多个地层分类因子,利用皮尔逊相关性分析,确定多个地层分类特征因子。
一种地层分类特征因子确定系统,包括:
历史数据获取模块,用于获取历史钻井数据时间序列矩阵以及历史钻井数据对应的地层种类;历史钻井数据时间序列矩阵为a×b阶的时间序列矩阵;a为历史钻井数据的种类总数;b为获取钻井数据的时刻总数;获取钻井数据的时刻包括钻进时刻和非钻进时刻;
筛选模块,用于对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集;
特征因子确定模块,用于:
针对任一地层种类的钻进时刻钻井数据集:
基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集;
基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子;
模型训练模块,用于基于不同地层种类的多个所述地层分类特征因子,对深度神经网络模型进行训练,得到地层分类模型;
分类模块,用于获取当前钻进时刻的多个地层分类特征因子,并利用所述地层分类模型,确定当前地层种类。
一种电子设备,包括:存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的地层分类特征因子确定方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的地层分类特征因子确定方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明的地层分类特征因子确定方法、系统、电子设备及介质,通过对历史钻井数据时间序列矩阵进行筛选、重组,显著提高数据可解释性与利用率。另外,采用的局部离群因子算法可以有效检测数据集中的异常值;选取的Savitzky-Golay平滑滤波方法在滤除钻井数据噪声的同时可以确保信号的形状、宽度不变,提高钻井数据曲线的平滑性。最后,结合最小描述长度方法与皮尔逊相关性分析手段,对预处理后的钻井数据集中的因子进行特征选择,并剖析因子之间的相关信息,最终获取具有可靠性、强独立性的地层分类特征因子,实现特征空间维数压缩,有助于后续地层分类模型的选择与模型运算效率和精确度的提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的地层分类特征因子确定方法流程图;
图2为本发明的地层分类特征因子确定方法在实际应用中的流程图;
图3为最小描述长度模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种地层分类特征因子确定方法、系统、电子设备及介质,以提高地层分类数据质量。
本发明提供了基于数据驱动的钻井地层分类因子抽取方法(即地层分类特征因子确定方法),以解决上述钻井工程中数据质量不高、数据利用率低下、数据可解释性不强、特征因子冗余、地层分类相关因子模糊不清的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
本发明依托数据切割方法对原始钻井数据(历史钻井数据时间序列矩阵)进行划分,得到与各类地层对应的钻进工况下特征数据集合(钻进时刻钻井数据集),增强钻井数据的可解释性。同时,由于钻井数据有近百个,因子之间相关性复杂,其中不乏一些无效因子与冗余因子,通过有效的地层分类因子抽取方法,选取地层种类高质量相关因子,可以减少钻井数据维度,消除钻井数据特征因子冗余,大幅缩短数据挖掘时间,降低存储成本,提高地层分类模型的准确性与训练速度。
如图1和图2所示,本发明提供的地层分类特征因子确定方法,包括:
步骤101:获取历史钻井数据时间序列矩阵以及历史钻井数据对应的地层种类;历史钻井数据时间序列矩阵为a×b阶的时间序列矩阵;a为历史钻井数据的种类总数;b为获取钻井数据的时刻总数;获取钻井数据的时刻包括钻进时刻和非钻进时刻。
步骤102:对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集。
作为一种可选的实施方式,步骤102,具体包括:
根据所述历史钻井数据中的井深,筛选出所述历史钻井数据时间序列矩阵中钻进时刻的历史钻井数据。
根据所述历史钻井数据对应的地层种类,对所述钻进时刻的历史钻井数据进行分类,得到不同地层种类的钻进时刻钻井数据集。
在实际应用中,依托数据切割手段对原始钻井数据进行切割划分:通过分析综合录井仪数据,结合钻井日报和录井日报,钻井工程工况除钻进之外还有很多非钻进工况,工况记录起始时间不明确,各种地层种类、复杂工况下数据段交错。通过数据切割重组,可以得到各地层种类下,各种钻井工况对应的数据集,增强原始钻井数据的可解释性,减少数据浪费,提高了钻井数据可用性,为地层分类识别等数据驱动的研究打下坚实的基础。具体如下:
建立综合录井时间序列矩阵(史钻井数据时间序列矩阵),包含井深、钻压、扭矩、钻时、气体含量等近百个特征因子与其参数值。
由于井深每五秒测量一次,钻进过程中井深会产生变化,删除井深数据重复段,获得理想钻进数据集(包括钻进时刻的历史钻井数据)。综合录井时间序列矩阵是全部时间段的,里面包含钻进和非钻进工况,非钻进工况井深不会变,删除井深数据重复段,即删除了非钻进段。
对理想钻进数据集中时间产生跳变的数据点进行标注,便于快速确认钻进与非钻进时序界面。
根据钻井日报与录井日报,提取钻进工况与非钻进工况大致时间区段,更正日报钻进时间,记录工况信息。钻井工程现场记录反馈生成的钻井日报和录井日报,分别包含井场综合信息、钻井施工简况与录井施工简况,其中包含井动态、井深地层类型、施工简况等信息。
结合钻井运行特征因子数据规律,对钻井时间序列数据进行工况属性划分。结合钻压是否为零、井深是否产生变化等特征因子数据规律,判断钻进与非钻进工况。
对于同种类别地层下,不同钻进时段下的数据进行重组,并打上地层类型标签,得到每种地层种类下的特征因子数据集合(钻进时刻钻井数据集)。在实际应用中,一口井中地层类型包括:蓬莱镇组、遂宁组、上沙溪庙组、下沙溪庙组、千佛崖组、自流井组大安寨段、自流井组马鞍山段、自流井组东岳庙段、自流井组珍珠冲段、须家河组五段、须家河组四段、须家河组三段、须家河组二段、小塘子组、马鞍塘组、雷口坡组四段、雷口坡组三段、雷口坡组二段、雷口坡组一段、嘉陵江组。
针对任一地层种类的钻进时刻钻井数据集:
步骤103:基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集。
作为一种可选的实施方式,步骤103,具体包括:
步骤1031:利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到修正后的钻井数据集。步骤1031具体包括:
S1、利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到离群点集合。
在实际应用中,局部离群因子(LOF)算法的基本思想是根据数据点周围的数据密集情况,首先计算每个数据点的一个局部可达密度,然后通过局部可达密度进一步计算得到每个数据点的一个离群因子,该离群因子即标识了一个数据点的离群程度,因子值越大,表示离群程度越高,因子值越小,表示离群程度越低。最后,输出离群程度最大的top(n)个点。具体包括:
输入钻井数据各特征因子数据点集合(特征因子数据集合中的每列数据点构成的子集)。
计算每个数据点的第k距离邻域内各数据点的第k可达距离:
reach_distk(o,p)=max{dk(o),d(o,p)}。
其中,dk(o)为邻域点o的第k距离,d(o,p)为邻域点o到数据点p的距离。
计算每个数据点局部的第k局部可达密度:
其中,Nk(p)为p点的第k距离邻域。
计算每个点的第k局部离群因子:
对最大的n个局部离群因子所属数据点,输出离群点集合:
O={o1,o2,...,on}。
S2根据所述离群点集合对所述钻进时刻钻井数据集进行异常值修正,得到修正后的钻井数据集。
对上述异常值检测方法检验出的特征因子离群值,采用前后两个观测值的平均值修正该异常值,或者根据实际情况删除异常值。
步骤1032:利用Savitzky-Golay卷积平滑算法,对所述修正后的钻井数据集进行滤波处理,得到预处理后的钻井数据集。
Savitzky-Golay卷积平滑算法的核心思想是对一定长度窗口内的数据点进行p阶多项式拟合,从而得到拟合后的结果。对它进行离散化处理后,移动窗口最小二乘多项式平滑滤波其实是一种移动窗口的加权平均算法,但其加权系数不是简单的常数窗口,而是通过在滑动窗口内对给定高阶多项式的最小二乘拟合得出。
对上述经过初步数据预处理的钻井数据集设置宽度为q=2m+1的滤波窗口,各测量点为x=(-m,-m+1,...,0,...,m-1,m)。
采用p-1次多项式对窗口内的数据点进行拟合:
y=a0+a1x+a2x2+...+ap-1xp-1。
q个方程构成了p元线性方程组,考虑方程组解的存在性应保证n>k:
将钻井数据预测方程组用矩阵表示为:
Y(2m+1)×1=X(2m+1)×k·Ak×1+E(2m+1)×1。
通过最小二乘法拟合确定拟合参数A:
A的最小二乘解为:/>
因此得到综合录井特征因子平滑滤波预测值从而减少噪声影响。
其中,B=X·(XT·X)-1·XT。
步骤104:基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子。
作为一种可选的实施方式,步骤104,具体包括:
步骤1041:利用最小描述长度原则,确定所述预处理后的钻井数据集中多个地层分类因子。
在实际应用中,最小描述长度原则(MDL)的基本思想为:对于一个给定的数据集D(Data Set),为了最大限度地节省数据集的存储空间,试图从a个可能的模型(或程序/或算法)中寻找一个模型Mi(1≤i≤a),Mi能最大限度地提取数据集D中所有的规律,并将其进行数据压缩,然后将模型Mi本身连带压缩后的数据Ci一同存储起来,其总存储大小为Si(Size)。由于不同的模型对D的压缩效率不同,一般来说D的压缩率越高模型的复杂度就越高。因此我们从可行的诸多压缩方案中,将最小的Si称为D的最小描述长度。最小描述长度的原理就是要选择总描述长度最小的模型Mi。最小描述长度模型,如图3所示。
将MDL原理应用于地层分类数据集特征因子选择,MDL算法将地层分类数据集中的每一个特征因子都看作是目标属性(地层种类)的一个简单预测模型。使用其相应的MDL度量对这些单一预测模型进行比较和评分。使用MDL算法,模型选择问题变成了数据通信问题。属性评分使用两部分代码来传送数据。前一部分传送模型,模型参数是与每个预测值相关联的目标概率。后一部分传送的是使用该模型后预测错误的原始数据。公式如下:
Si(MODELi,D)=S(MODELi)+S(Ci)。
Si(MODELi,D)为预处理后的钻井数据集上应用第i个钻井数据对地层种类建立简单预测模型后得到的总大小,S(MODELi)为应用第i个钻井数据属性对地层种类目标属性建立简单预测模型(MODELi)的大小,S(Ci)是对第i个钻井数据属性应用MODELi后,所有预测错误的原始数据大小总和。
分别应用预处理后的钻井数据集中的a个钻井数据作为预测属性X1,X2,…,Xa,将地层种类“label”列作为目标属性Y,建立预测模型。
其中X1的预测正确率(压缩率,准确样本与总样本数量比即为准确率)为c%,即X1可以正确描述Y数据的c%,剩余的(1-c%)Y数据(压缩后数据)没能由X1正确地描述,因此其总长度L1为:
Length(Model(X1,Y))+Length(Y)*(1-c%)。
其余X2,...,Xa的预测模型的总长度为L2,...,La。最小描述长度模型即从L1,L2,...,La中找到最小的一个所对应的分类属性(地层分类因子)。
针对预处理后的钻井数据集D,取最小的Si(MODELi,D),应用MDL算法得到目标属性的一个相对最优特性,即该地层分类因子属性含有与目标属性相关的最多的信息。
按照MDL评分的排序,依次得到不同钻井数据相对于地层种类的特征评分,选择评分较高的钻井数据作为皮尔逊相关性分析的输入。
步骤1042:根据多个地层分类因子,利用皮尔逊相关性分析,确定多个地层分类特征因子。
在上述特性选择中评分阶段得到的一组地层分类因子是单独对预处理后的钻井数据集中每个因子属性与目标属性的预测重要性进行评价,但并没有考虑这些地层分类因子属性之间的关系,因此需要基于皮尔逊相关性分析对地层分类因子之间的相关性进行探索,以考察它们之间的独立性。
根据皮尔逊(Pearson)相关性分析,获取预处理后的钻井数据集中特征因子之间的相关系数,r表示样本相关系数,ρ为总体相关系数,其是未知的,通常用样本相关系数r进行估计:
其中X1和X2为地层分类数据集中的两个特征因子,为X1和X2的离均差交叉乘积和,/>和/>分别是X1和X2的离均差平方和。
根据MDL算法选择出来的分类因子组合,进行皮尔逊相关性分析,最终确立独立性较好的地层分类特征因子组合,作为输入应用于深度神经网络模型。
步骤105:基于不同地层种类的多个所述地层分类特征因子,对深度神经网络模型进行训练,得到地层分类模型。
步骤106:获取当前钻进时刻的多个地层分类特征因子,并利用所述地层分类模型,确定当前地层种类。
与现有技术相比,本发明具有以下优点:
本发明采用数据筛选重组方法对原始综合录井仪数据进行筛选划分并标签分类,显著提高数据可解释性与利用率,夯实了后续数据挖掘的基础。
本发明采用的局部离群因子算法同时考虑钻井数据集的局部和全局属性,相对于邻域点密度确定异常值,当数据集中存在不同密度的不同集群时,通过LOF可以有效检测异常值;选取的Savitzky-Golay平滑滤波方法在滤除钻井数据噪声的同时可以确保信号的形状、宽度不变,提高钻井数据曲线的平滑性。
本发明结合最小描述长度方法与因子相关性分析手段,对处理后的钻井地层分类数据集中的特征因子进行特征选择,并剖析特征因子之间的相关信息,最终获取具有可靠性、强独立性的地层分类因子,实现特征空间维数压缩,有助于后续地层分类模型的选择与模型运算效率和精确度的提升。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种地层分类特征因子确定系统,包括:
历史数据获取模块,用于获取历史钻井数据时间序列矩阵以及历史钻井数据对应的地层种类;历史钻井数据时间序列矩阵为a×b阶的时间序列矩阵;a为历史钻井数据的种类总数;b为获取钻井数据的时刻总数;获取钻井数据的时刻包括钻进时刻和非钻进时刻。
筛选模块,用于对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集。
特征因子确定模块,用于:
针对任一地层种类的钻进时刻钻井数据集:
基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集。
基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子。
模型训练模块,用于基于不同地层种类的多个所述地层分类特征因子,对深度神经网络模型进行训练,得到地层分类模型。
分类模块,用于获取当前钻进时刻的多个地层分类特征因子,并利用所述地层分类模型,确定当前地层种类。
实施例三
一种电子设备,包括:存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行实施例一的地层分类特征因子确定方法。
实施例四
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现实施例一的地层分类特征因子确定方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种地层分类特征因子确定方法,其特征在于,包括:
获取历史钻井数据时间序列矩阵以及历史钻井数据对应的地层种类;历史钻井数据时间序列矩阵为a×b阶的时间序列矩阵;a为历史钻井数据的种类总数;b为获取钻井数据的时刻总数;获取钻井数据的时刻包括钻进时刻和非钻进时刻;
对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集;
针对任一地层种类的钻进时刻钻井数据集:
基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集;
基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子;
基于不同地层种类的多个所述地层分类特征因子,对深度神经网络模型进行训练,得到地层分类模型;
获取当前钻进时刻的多个地层分类特征因子,并利用所述地层分类模型,确定当前地层种类。
2.根据权利要求1所述的地层分类特征因子确定方法,其特征在于,对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集,具体包括:
根据所述历史钻井数据中的井深,筛选出所述历史钻井数据时间序列矩阵中钻进时刻的历史钻井数据;
根据所述历史钻井数据对应的地层种类,对所述钻进时刻的历史钻井数据进行分类,得到不同地层种类的钻进时刻钻井数据集。
3.根据权利要求1所述的地层分类特征因子确定方法,其特征在于,基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集,具体包括:
利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到修正后的钻井数据集;
利用Savitzky-Golay卷积平滑算法,对所述修正后的钻井数据集进行滤波处理,得到预处理后的钻井数据集。
4.根据权利要求3所述的地层分类特征因子确定方法,其特征在于,利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到修正后的钻井数据集,具体包括:
利用局部离群因子算法,对所述钻进时刻钻井数据集进行处理,得到离群点集合;
根据所述离群点集合对所述钻进时刻钻井数据集进行异常值修正,得到修正后的钻井数据集。
5.根据权利要求1所述的地层分类特征因子确定方法,其特征在于,基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子,具体包括:
利用最小描述长度原则,确定所述预处理后的钻井数据集中多个地层分类因子;
根据多个地层分类因子,利用皮尔逊相关性分析,确定多个地层分类特征因子。
6.一种地层分类特征因子确定系统,其特征在于,包括:
历史数据获取模块,用于获取历史钻井数据时间序列矩阵以及历史钻井数据对应的地层种类;历史钻井数据时间序列矩阵为a×b阶的时间序列矩阵;a为历史钻井数据的种类总数;b为获取钻井数据的时刻总数;获取钻井数据的时刻包括钻进时刻和非钻进时刻;
筛选模块,用于对所述历史钻井数据时间序列矩阵进行筛选,得到不同地层种类的钻进时刻钻井数据集;
特征因子确定模块,用于:
针对任一地层种类的钻进时刻钻井数据集:
基于局部离群因子算法和Savitzky-Golay卷积平滑算法,对所述钻进时刻钻井数据集进行预处理,得到预处理后的钻井数据集;
基于最小描述长度原则和皮尔逊相关性分析,确定所述预处理后的钻井数据集中多个地层分类特征因子;
模型训练模块,用于基于不同地层种类的多个所述地层分类特征因子,对深度神经网络模型进行训练,得到地层分类模型;
分类模块,用于获取当前钻进时刻的多个地层分类特征因子,并利用所述地层分类模型,确定当前地层种类。
7.一种电子设备,其特征在于,包括:存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-5任一项所述的地层分类特征因子确定方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的地层分类特征因子确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310627102.5A CN116644284A (zh) | 2023-05-30 | 2023-05-30 | 一种地层分类特征因子确定方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310627102.5A CN116644284A (zh) | 2023-05-30 | 2023-05-30 | 一种地层分类特征因子确定方法、系统、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116644284A true CN116644284A (zh) | 2023-08-25 |
Family
ID=87643094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310627102.5A Pending CN116644284A (zh) | 2023-05-30 | 2023-05-30 | 一种地层分类特征因子确定方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644284A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117009910A (zh) * | 2023-10-08 | 2023-11-07 | 湖南工程学院 | 一种环境温度异常变化智能监测方法 |
CN117077068A (zh) * | 2023-10-18 | 2023-11-17 | 中国科学院地质与地球物理研究所 | 深地油气精准导航随钻声波测井数据实时标定方法与系统 |
CN117189071A (zh) * | 2023-11-07 | 2023-12-08 | 克拉玛依市远山石油科技有限公司 | 岩心钻探钻机运行的自动化控制方法 |
-
2023
- 2023-05-30 CN CN202310627102.5A patent/CN116644284A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117009910A (zh) * | 2023-10-08 | 2023-11-07 | 湖南工程学院 | 一种环境温度异常变化智能监测方法 |
CN117009910B (zh) * | 2023-10-08 | 2023-12-15 | 湖南工程学院 | 一种环境温度异常变化智能监测方法 |
CN117077068A (zh) * | 2023-10-18 | 2023-11-17 | 中国科学院地质与地球物理研究所 | 深地油气精准导航随钻声波测井数据实时标定方法与系统 |
CN117077068B (zh) * | 2023-10-18 | 2024-03-08 | 中国科学院地质与地球物理研究所 | 深地油气精准导航随钻声波测井数据实时标定方法与系统 |
CN117189071A (zh) * | 2023-11-07 | 2023-12-08 | 克拉玛依市远山石油科技有限公司 | 岩心钻探钻机运行的自动化控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116644284A (zh) | 一种地层分类特征因子确定方法、系统、电子设备及介质 | |
CN104533400B (zh) | 一种重构测井曲线的方法 | |
CN111291097A (zh) | 一种基于决策树数据挖掘的钻井漏层位置实时预测方法 | |
EP1984860A2 (en) | Methods, systems, and computer-readable media for fast updating of oil and gas field production models with physical and proxy simulators | |
CN110397402B (zh) | 钻井方法及装置 | |
CN112784980B (zh) | 一种智能化测井层位划分方法 | |
CN113670616B (zh) | 一种轴承性能退化状态检测方法及系统 | |
CN111767674A (zh) | 一种基于主动域适应的测井岩性识别方法 | |
CN115860197A (zh) | 一种基于数据驱动的煤层气产量预测方法及系统 | |
CN111626377B (zh) | 一种岩相识别方法、装置、设备及存储介质 | |
Vrabie et al. | Digital twin for downhole pressure gauges: model and field case study | |
CN117009900A (zh) | 一种基于图神经网络的物联网信号异常检测方法和系统 | |
CN115809411A (zh) | 一种基于测井数据的改进型决策树岩性识别方法 | |
CN110552693A (zh) | 一种基于深度神经网络的感应测井曲线的层界面识别方法 | |
Kovacevic et al. | The use of neural networks to develop CPT correlations for soils in northern Croatia | |
CN113627640A (zh) | 一种针对缝洞型油藏油气井的产能试井预测方法及系统 | |
CN115438823A (zh) | 一种井壁失稳机制分析与预测方法及系统 | |
Ambrus et al. | Rate of Penetration Prediction Using Quantile Regression Deep Neural Networks | |
CN112990320A (zh) | 一种岩性的分类方法、装置、电子设备及存储介质 | |
WO2024040801A9 (zh) | 横波时差预测方法及装置 | |
CN115576028B (zh) | 基于支持向量机的地质特征层预测方法及系统 | |
CN116226623B (zh) | 基于SegNet分段模型的标志层划分方法、装置和计算机设备 | |
CN117574269B (zh) | 陆相页岩储层天然裂缝智能识别方法及系统 | |
CN109614584B (zh) | 一种资源测井数据的重建方法 | |
CN112950016B (zh) | 基于深度学习的多参数融合非常规油气资源甜点评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |