CN110348510B - 一种基于深水油气钻井过程阶段性特征的数据预处理方法 - Google Patents
一种基于深水油气钻井过程阶段性特征的数据预处理方法 Download PDFInfo
- Publication number
- CN110348510B CN110348510B CN201910609726.8A CN201910609726A CN110348510B CN 110348510 B CN110348510 B CN 110348510B CN 201910609726 A CN201910609726 A CN 201910609726A CN 110348510 B CN110348510 B CN 110348510B
- Authority
- CN
- China
- Prior art keywords
- data
- parameter
- parameters
- basic
- drilling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Earth Drilling (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于深水油气钻井过程阶段性特征的数据预处理方法,包括以下步骤:1)取得完整原始油气钻井过程数据流后,筛选剔除数据流中的无效数据,得到一次清理数据;2)针对实际油气钻井过程的停钻、工况发生情况,清理一次清理数据中的离群数据和冗余数据,得到二次清理数据;3)对二次清理数据进行特征工程提取:针对基本钻井监测数据和静态数据,对数据进行量化处理和归一化处理,得到基本特征归一化参数;对非基本钻井监测数据进行特征分类,对类内参数采用熵权法确定权重,同时采用滑窗法进行阶段性特征提取,得到五个类别特征归一化参数;4)将基本特征归一化参数和类别特征归一化参数输入到相应的钻速优化模型或工况预测模型中进行拟合,得到最终的预测/优化结果。
Description
技术领域
本发明涉及一种数据挖掘方法,具体是关于一种基于深水油气钻井过程阶段性特征的数据预处理方法,属于海洋油气开发及大数据应用领域。
背景技术
深水油气钻井过程中由于环境和地质的复杂性,往往会造成较大的风险性和不确定性,在钻速优化和预测方面需要进一步深入钻井过程分析,此时可以考虑借助数据挖掘的手段进行钻井过程的优化。同时,在钻井过程中会伴随着海量的监测数据产生,这为数据分析提供了便利的基础条件。
由于钻井数据监测指标众多且相关性较强,因而利于数据分析中的关联分析和模型构建。但是,钻井数据受到监测设备和复杂钻井环境的影响,会产生很大的数据误差和遗漏数据,阶段间的不连贯性也增加了分析的难度。另外,动态数据和静态数据的不协调同步更新也是亟需解决的问题。
发明内容
针对上述问题,本发明的目的是提供一种基于深水油气钻井过程阶段性特征的数据预处理方法。
为实现上述目的,本发明采取以下技术方案:一种基于深水油气钻井过程阶段性特征的数据预处理方法,包括以下步骤:
步骤一:取得完整原始油气钻井过程数据流后,针对监测设备的运行情况和实际钻井过程的影响因素,根据参数概念和专家经验筛选剔除数据流中的无效数据,得到一次清理数据;
步骤二:针对实际油气钻井过程的停钻、工况发生情况,清理一次清理数据中的离群数据和冗余数据,得到二次清理数据;
步骤三:对二次清理数据进行特征工程提取;
步骤四:将基本特征归一化参数和类别特征归一化参数输入到相应的钻速优化模型或工况预测模型中进行拟合,并应用拟合后的模型得到最终的预测/优化结果。
所述的数据预处理方法,优选的,在进行上述步骤三时,具体包括如下步骤:
步骤1:将二次清理数据划分为基本钻井监测数据与静态数据以及非基本钻井监测数据两大类;
步骤2:对基本钻井监测数据与静态数据进行one-hot量化处理和归一化处理,得到基本特征归一化参数;
步骤3:对非基本钻井监测数据进行特征分类,并对分类后的类内参数采用熵权法确定权重,同时采用滑窗法进行阶段性特征提取,得到类别特征归一化参数。
所述的数据预处理方法,优选的,在进行上述步骤3时,具体包括如下步骤:
步骤①:采用聚类算法对非基本钻井监测数据进行特征分类,并结合各监测指标的实际含义,将非基本钻井监测数据划分为钻压系列指标、转速系列指标、水利参数、牙齿磨损量和压差参数五个聚类类别;
步骤②:熵权法确定权重,在五个聚类类别中,对每个类内参数进行归一化处理:
其中,Xij表示第i个聚类类别Ci中第j个参数的具体数据;Yij表示Xij归一化后的类内参数;
得到归一化的类内参数后,分别计算五个聚类类别中每个参数Xij的信息熵Eij:
其中,n表示表示第i个聚类类别Ci中第j个参数的数据个数;pij表示聚类过程中每个参数对该类别的贡献率,范围在[0,1]之间;
根据每个参数的信息熵确定类内ki个参数的权重Wij及最终的类别特征归一化参数Ei:
步骤③:采用滑窗法进行阶段性特征提取,设定滑动窗口大小winl,根据实际的时间序列数据tv计算出滑动窗口中的当前值cv:
所述的数据预处理方法,优选的,在上述步骤①中,使用聚类算法进行特征分类的目标是减小每个监测指标数据x与第i个聚类类别Ci中心μi之间距离的均方误差E:
其中,i表示类别序号;k表示类别总数;μi表示第i个类别Ci的聚类中心。
本发明由于采取以上技术方案,其具有以下优点:本发明通过规范化石油钻井数据处理流程,构建了完善的深水石油钻井过程数据处理框架,采用滑动窗的方法,在原始数据的基础上进一步提取了深层次的时序特征,同时考虑了监测参数之间的类别关联关系,并采用熵权法为类别参数的影响因子提供了参考,由此实现了深水石油钻井过程深层次的信息挖掘,进而为深水石油钻井过程的钻速优化、工况预警等需求提供帮助。
附图说明
图1是本发明的流程框图;
图2是滑窗法的原理示意图;
图3(a)-(c)是不同滑动窗口进行监测参数TVA特征提取的结果示意图。
具体实施方式
以下将结合附图对本发明的较佳实施例进行详细说明,以便更清楚理解本发明的目的、特点和优点。应理解的是,附图所示的实施例并不是对本发明范围的限制,而只是为了说明本发明技术方案的实质精神。
如图1所示,本发明提供的基于深水油气钻井过程阶段性特征的数据预处理方法,包括以下步骤:
步骤一:取得完整原始油气钻井过程数据流后,针对监测设备的运行情况和实际钻井过程的影响因素,根据参数概念和专家经验筛选剔除数据流中的无效数据,得到一次清理数据;
步骤二:针对实际油气钻井过程的停钻、工况发生情况,清理一次清理数据中的离群数据和冗余数据,以减少数据建模分析过程中带来的系统误差,得到二次清理数据;
步骤三:对二次清理数据进行特征工程提取,具体包括如下步骤:
步骤1:将二次清理数据划分为基本钻井监测数据与静态数据以及非基本钻井监测数据两大类;
步骤2:对基本钻井监测数据与静态数据(如钻头型号、地质情况等)进行one-hot量化处理和归一化处理,得到基本特征归一化参数;
步骤3:对非基本钻井监测数据进行特征分类,并对分类后的类内参数采用熵权法确定权重,同时采用滑窗法进行阶段性特征提取,得到类别特征归一化参数,具体包括如下步骤:
步骤①:采用聚类算法对非基本钻井监测数据进行特征分类,并结合各监测指标的实际含义,将非基本钻井监测数据划分为钻压系列指标、转速系列指标、水利参数、牙齿磨损量和压差参数五个聚类类别;
在本实施例中,使用聚类算法进行特征分类的目标是减小每个监测指标数据x与第i个聚类类别Ci中心μi之间距离的均方误差E:
其中,i表示类别序号;k表示类别总数;μi表示第i个聚类类别Ci的聚类中心。
步骤②:熵权法确定权重,在五个聚类类别中,对每个类内参数进行归一化处理:
其中,Xij表示第i个聚类类别Ci中第j个参数的具体数据;Yij表示Xij归一化后的类内参数。
得到归一化的类内参数后,分别计算五个聚类类别中每个参数Xij的信息熵Eij:
其中,n表示表示第i个聚类类别Ci中第j个参数的数据个数;pij表示聚类过程中每个参数对该类别的贡献率,范围在[0,1]之间。
根据每个参数的信息熵确定类内ki个参数的权重Wij及最终的类别特征归一化参数Ei:
步骤③:采用滑窗法进行阶段性特征提取,设定滑动窗口大小winl,根据实际的时间序列数据tv计算出滑动窗口中的当前值cv:
如图2、图3(a)-(c) 所示,由于油气钻井过程是一个具有明显周期性的时间序列过程,因此根据滑动窗口技术进行周期性时序特征的提取和挖掘,可以减小监测设备误差带来的系统误差。图3(a)-(c)中是将TVA参数根据不同的滑动窗口大小进行特征提取得到的结果,选定的滑动窗大小分别为1、2、20,可以发现在窗口大小为20时已经能够显著的观察出钻井过程的周期性特点。
步骤四:将基本特征归一化参数和类别特征归一化参数输入到相应的钻速优化模型或工况预测模型中进行拟合,并应用拟合后的模型得到最终的预测/优化结果。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (2)
1.一种基于深水油气钻井过程阶段性特征的数据预处理方法,其特征在于,包括以下步骤:
步骤一:取得完整原始油气钻井过程数据流后,针对监测设备的运行情况和实际钻井过程的影响因素,根据参数概念和专家经验筛选剔除数据流中的无效数据,得到一次清理数据;
步骤二:针对实际油气钻井过程的停钻、工况发生情况,清理一次清理数据中的离群数据和冗余数据,得到二次清理数据;
步骤三:对二次清理数据进行特征工程提取,具体包括如下步骤:
步骤1:将二次清理数据划分为基本钻井监测数据与静态数据以及非基本钻井监测数据两大类;
步骤2:对基本钻井监测数据与静态数据进行one-hot量化处理和归一化处理,得到基本特征归一化参数;
步骤3:对非基本钻井监测数据进行特征分类,并对分类后的类内参数采用熵权法确定权重,同时采用滑窗法进行阶段性特征提取,得到类别特征归一化参数,具体包括如下步骤:
步骤①:采用聚类算法对非基本钻井监测数据进行特征分类,并结合各监测指标的实际含义,将非基本钻井监测数据划分为钻压系列指标、转速系列指标、水利参数、牙齿磨损量和压差参数五个聚类类别;
步骤②:熵权法确定权重,在五个聚类类别中,对每个类内参数进行归一化处理:
其中,Xij表示第i个聚类类别Ci中第j个参数的具体数据;Yij表示Xij归一化后的类内参数;
得到归一化的类内参数后,分别计算五个聚类类别中每个参数Xij的信息熵Eij:
其中,n表示第i个聚类类别Ci中第j个参数的数据个数;pij表示聚类过程中每个参数对该类别的贡献率,范围在[0,1]之间;
根据每个参数的信息熵确定类内ki个参数的权重Wij及最终的类别特征归一化参数Ei:
步骤③:采用滑窗法进行阶段性特征提取,设定滑动窗口大小winl,根据实际的时间序列数据tv计算出滑动窗口中的当前值cv:
步骤四:将基本特征归一化参数和类别特征归一化参数输入到相应的钻速优化模型或工况预测模型中进行拟合,并应用拟合后的模型得到最终的预测/优化结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910609726.8A CN110348510B (zh) | 2019-07-08 | 2019-07-08 | 一种基于深水油气钻井过程阶段性特征的数据预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910609726.8A CN110348510B (zh) | 2019-07-08 | 2019-07-08 | 一种基于深水油气钻井过程阶段性特征的数据预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348510A CN110348510A (zh) | 2019-10-18 |
CN110348510B true CN110348510B (zh) | 2021-08-03 |
Family
ID=68178340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910609726.8A Active CN110348510B (zh) | 2019-07-08 | 2019-07-08 | 一种基于深水油气钻井过程阶段性特征的数据预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348510B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527789A (zh) * | 2020-12-17 | 2021-03-19 | 北京中恒博瑞数字电力科技有限公司 | 变电设备在线监测数据中的重复数据检测方法及装置 |
CN113610314A (zh) * | 2021-08-17 | 2021-11-05 | 中海石油(中国)有限公司 | 基于粒子群算法的钻井参数优化方法、系统、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636146A (zh) * | 2018-11-28 | 2019-04-16 | 东南大学 | 一种用户需求响应潜力画像方法 |
CN109657011A (zh) * | 2018-11-26 | 2019-04-19 | 山东师范大学 | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统 |
CN109685321A (zh) * | 2018-11-26 | 2019-04-26 | 山东师范大学 | 基于数据挖掘的事件风险预警方法、电子设备及介质 |
-
2019
- 2019-07-08 CN CN201910609726.8A patent/CN110348510B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657011A (zh) * | 2018-11-26 | 2019-04-19 | 山东师范大学 | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统 |
CN109685321A (zh) * | 2018-11-26 | 2019-04-26 | 山东师范大学 | 基于数据挖掘的事件风险预警方法、电子设备及介质 |
CN109636146A (zh) * | 2018-11-28 | 2019-04-16 | 东南大学 | 一种用户需求响应潜力画像方法 |
Non-Patent Citations (2)
Title |
---|
Offshore Platform Extraction Using RadarSat-2 SAR Imagery: A Two-Parameter CFAR Method Based on Maximum Entropy;Qi Wang 等;《Entropy 2019》;20190602;第1-22页 * |
现代机械设备液压系统状态评估及故障诊断综述;杨正强 等;《西安航空学院学报》;20150930;第33卷(第5期);第47-53页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110348510A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106888205B (zh) | 一种非侵入式基于功耗分析的plc异常检测方法 | |
CN109489977B (zh) | 基于KNN-AdaBoost的轴承故障诊断方法 | |
CN112529341B (zh) | 一种基于朴素贝叶斯算法的钻井漏失机率预测方法 | |
CN107038167A (zh) | 基于模型评估的大数据挖掘分析系统及其分析方法 | |
CN106372799B (zh) | 一种电网安全风险预测方法 | |
CN110348510B (zh) | 一种基于深水油气钻井过程阶段性特征的数据预处理方法 | |
CN110674841A (zh) | 一种基于聚类算法的测井曲线识别方法 | |
CN110738355A (zh) | 一种基于神经网络的城市内涝预测方法 | |
CN111966076A (zh) | 基于有限状态机和图神经网络的故障定位方法 | |
CN110633371A (zh) | 一种日志分类方法及系统 | |
CN110636066A (zh) | 基于无监督生成推理的网络安全威胁态势评估方法 | |
CN109542884B (zh) | 采用大数据耦合参数以优化破岩效率的方法和系统 | |
CN111325410A (zh) | 基于样本分布的通用故障预警系统及其预警方法 | |
CN106446081B (zh) | 基于变化一致性挖掘时序数据关联关系的方法 | |
CN111738371B (zh) | 一种基于随机森林数据挖掘的地层裂缝条数预测方法 | |
CN112926839A (zh) | 一种用于油气井钻井过程的溢漏风险协同监测方法及系统 | |
CN114021620B (zh) | 基于bp神经网络特征提取的电潜泵故障诊断方法 | |
CN106644035B (zh) | 一种基于时频变换特性的振动源识别方法及系统 | |
CN109325470A (zh) | 基于瓦斯浓度参数的井下工作面作业类型智能识别方法 | |
CN111737993B (zh) | 一种配电网设备的故障缺陷文本提取设备健康状态方法 | |
CN110888850B (zh) | 一种基于电力物联网平台的数据质量检测方法 | |
CN109857783B (zh) | 基于深度学习的声纳渗流运动规律发现方法 | |
CN110838073A (zh) | 一种基于聚类算法的钻井溢流数据异常值处理方法 | |
CN116383645A (zh) | 一种基于异常检测的系统健康度智能监测评估方法 | |
CN115526407A (zh) | 基于因果机器学习的电网大数据安全检测预警方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |