CN110796155A - 一种基于聚类算法的原油含水数据分析方法 - Google Patents

一种基于聚类算法的原油含水数据分析方法 Download PDF

Info

Publication number
CN110796155A
CN110796155A CN201910631281.3A CN201910631281A CN110796155A CN 110796155 A CN110796155 A CN 110796155A CN 201910631281 A CN201910631281 A CN 201910631281A CN 110796155 A CN110796155 A CN 110796155A
Authority
CN
China
Prior art keywords
differential pressure
clustering algorithm
data
value
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910631281.3A
Other languages
English (en)
Inventor
任桂山
李红艳
葛党科
徐国安
米立飞
孙凯
王存博
徐津民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Petroleum Corp
Dagang Oilfield Group Co Ltd
Original Assignee
Dagang Oilfield Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dagang Oilfield Group Co Ltd filed Critical Dagang Oilfield Group Co Ltd
Priority to CN201910631281.3A priority Critical patent/CN110796155A/zh
Publication of CN110796155A publication Critical patent/CN110796155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于聚类算法的原油含水数据分析方法,根据已知的油井产出流体的压差‑电值规律,将不同油井的压差‑电值特征点做为聚类数据点,选用聚类算法将数据点分为三类,液相、气相和混合相,其中,液相流体的压差‑电值规律是压差高电值低,气相流体的压差‑电值规律是压差低电值高,混合相流体介于中间。本发明通过聚类算法建立和分析了油井产出流体在液相、气相和混合相三种流体特性下的数据点分布规律,有效的解决了传统数据分析可能无法获得良好的聚类结果的问题。

Description

一种基于聚类算法的原油含水数据分析方法
技术领域
本发明涉及油井诊断技术领域,尤其是涉及一种基于聚类算法的原油含水数据分析方法。
背景技术
聚类是一种常用的数据挖掘方法,可以识别数据中潜在的相关联的分布和模式。由于聚类的无监督性质,如何测量算法的性能和正确性至关重要。而常见的聚类算法有K-MEANS算法、K-Medoids算法、凝聚层次聚类、最大期望算法等。
在聚类分析中,处理不同数据类型时的算法不一样,因此也存在着各种类型的算法。由于几乎没有聚类的先验知识,仅基于经验的聚类算法可能无法获得良好的聚类结果。因此,如何选择最优的聚类算法,得到良好的聚类结果,尚缺乏有效的解决方案。
在原油含水数据分析中,不同油井产出物的含水率不同且油井产出物的组分也不同,适用于液相、气相及混合相的油井产出物含水率数据分析的最佳方法或模型的普遍性并不存在。
发明内容
为实现本发明的目的,本发明提供了一种基于聚类算法的原油含水数据分析方法,
根据已知的油井产出流体的压差-电值规律,将不同油井的压差-电值特征点做为聚类数据点,选用聚类算法将数据点分为三类,液相、气相和混合相,其中,液相流体的压差-电值规律是压差高电值低,气相流体的压差-电值规律是压差低电值高,混合相流体介于中间。
优选地,
所述聚类算法为K-MEANS聚类算法和EM聚类算法,
利用所述K-MEANS聚类算法对采集的每口油井的压差和电值,按液相簇、气相簇和混合簇三类对所有数据点进行K-MEANS聚类分组,并随机或给定初始化每个簇的数值。
优选地,
使用所述K-MEANS聚类算法的聚类过程具体如下:
(1)根据一定时间段内RTU传输的压差-电值,数据划分为三类:液相类(压差高电值低)、气相类(压差低电值高)、混相类(压差电值均处于中值范围),给定3个类簇的中心,液相初始中心为最高压差最低电值,气相类初始中心为最高电值最低压差,混相类中心为压差均值电值均值;
(2)以压差-电值组成一个二维数据点,计算每一个数据点到三类簇中心的距离并比较,根据数据点与类中心距离最小值,将该数据点划分为该类;
(3)将各数据点分类结束后,根据各类的数据点重新计算3个类簇的中心坐标;
(4)再次重复(2)(3)直到达到簇中心收敛;
(5)基于上述概率计算高斯分布参数使得数据点的概率最大化,使用数据点的概率的加权来计算这些新的参数,权重就是数据点属于该类簇的概率;
(6)根据K-MEANS聚类结果计算各个集群的高斯分布,计算每个数据点属于每个簇的概率。
(7)基于上述概率计算高斯分布参数使得数据点的概率最大化,使用数据点的概率的加权来计算这些新的参数,权重就是数据点属于该类簇的概率。
优选地,
在上述步骤(4)和(5)之间还包括如下步骤:
数据点经过K-MEANS聚类分组后,对于飘离于三类之外的数据点,进行EM聚类算法;
在上述步骤(5)中,还包括计算每个飘离于三类之外的数据点属于每个簇的概率的步骤。
与现有技术相比,本发明的有益效果为,本发明通过聚类算法建立和分析了油井产出流体在液相、气相和混合相三种流体特性下的数据点分布规律,有效的解决了传统数据分析可能无法获得良好的聚类结果的问题,可配合实时采集设备和在线分析软件,完成油井产出流体含水数据分析预测和油井运行工况调整等优化策略。同时,基于聚类算法的原油含水数据分析过程节省大量一线人员工作量和劳动强度,大幅提升数据实时性和准确度,为智能油井分析奠定基础。
附图说明
图1所示为本申请的方法步骤示意图;
图2所示为本申请使用K-MEANS聚类算法中聚类过程的步骤(1)示意图;
图3所示为本申请使用K-MEANS聚类算法中聚类过程的步骤(2)示意图;
图4所示为本申请使用K-MEANS聚类算法中聚类过程的步骤(3)示意图;
图5所示为本申请使用K-MEANS聚类算法中聚类过程的步骤(4)示意图;
图6所示为本申请使用K-MEANS聚类算法中聚类过程的步骤(7)示意图;
图7所示为本申请压差曲线示意图;
图8所示为本申请电值的衰减曲线示意图;
图9所示为利用本申请得到的液相、气相和混合相的聚类算法数据特征分布图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用属于“包含”和/或“包括”时,其指明存在特征、步骤、操作、部件或者模块、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1-图6所示,本申请根据已掌握的油井产出流体的压差-电值规律,将不同油井的压差-电值特征点做为聚类数据点,选用两种聚类算法将数据点分为三类,液相、气相和混合相。液相流体的压差-电值规律是压差高电值低,气相流体的压差-电值规律是压差低电值高,混合相流体介于中间。
首先,采集每口油井的压差和电值,按液相簇、气相簇和混合簇三类对所有数据点进行K-MEANS聚类分组,并随机或给定初始化每个簇的数值,类簇的有效性评价指标为压差、电值、油井产出液体积、油井产出液矿化度、原油密度。
含水K-MEANS聚类过程:
(1)根据该时间段内RTU传输的压差-电值数据划分为三类:液相类(压差高电值低)、气相类(压差低电值高)、混相类(压差电值均处于中值范围),给定3个类簇的中心,液相初始中心为最高压差最低电值,气相类初始中心为最高电值最低压差,混相类中心为压差均值电值均值;
(2)以压差电值组成一个二维数据点,计算每一个数据点到三类簇中心的距离并比较,根据数据点与类中心距离最小值,将该数据点划分为该类;
(3)将各数据点分类结束后,根据各类的数据点重新计算3个类簇的中心坐标;
(4)再次重复(2)(3)直到达到簇中心收敛;
(5)经过计算后仍有少数点特征不明显,这是由于k-means的一个主要缺点是它简单地使用了集群中心的平均值造成的,其对异常偏离值不太敏感,可在含水K-MEANS聚类算法得出类簇中心的基础上进一步进行EM聚类算法,根据k-means聚类结果计算各个集群的高斯分布,计算每个数据点尤其是异常点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。
(6)基于上述概率计算高斯分布参数使得数据点的概率最大化,使用数据点的概率的加权来计算这些新的参数,权重就是数据点属于该类簇的概率。
(7)取参数的初始值开始迭代,反复计算直到收敛。
本申请利用含水k-means聚类算法可以得到液相、气相及混相的三类簇中心,为减小气相的对含水计算的影响,可以以液相类簇中心的电值作为计算含水的参考电值,但该方法有少数点飘离在三类之外,考虑到数据为现场实际数据不能轻易作为异常点处理,可在其基础上进一步利用含水EM聚类算法获得飘离点的类簇特征,从而获得所有液相类簇内的点,提高计算含水的可靠性。
如图7-9所示,根据实时采集的电值、压差值,以K-MEANS和EM聚类算法进行了数据点的类簇划分,并经过数据的反复迭代回归直至数据收敛,形成液相、气相和混合相的聚类算法数据特征分布图,此分布图中回归的数据点与压差-电值的衰减曲线相吻合。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于聚类算法的原油含水数据分析方法,其特征是:
根据已知的油井产出流体的压差-电值规律,将不同油井的压差-电值特征点做为聚类数据点,选用聚类算法将数据点分为三类,液相、气相和混合相,其中,液相流体的压差-电值规律是压差高电值低,气相流体的压差-电值规律是压差低电值高,混合相流体介于中间。
2.根据权利要求1所述的一种基于聚类算法的原油含水数据分析方法,其特征是:
所述聚类算法为K-MEANS聚类算法和EM聚类算法,
利用所述K-MEANS聚类算法对采集的每口油井的压差和电值,按液相簇、气相簇和混合簇三类对所有数据点进行K-MEANS聚类分组,并随机或给定初始化每个簇的数值。
3.根据权利要求2所述的一种基于聚类算法的原油含水数据分析方法,其特征是:
使用所述K-MEANS聚类算法的聚类过程具体如下:
(1)根据一定时间段内RTU传输的压差-电值,数据划分为三类:液相类(压差高电值低)、气相类(压差低电值高)、混相类(压差电值均处于中值范围),给定3个类簇的中心,液相初始中心为最高压差最低电值,气相类初始中心为最高电值最低压差,混相类中心为压差均值电值均值;
(2)以压差-电值组成一个二维数据点,计算每一个数据点到三类簇中心的距离并比较,根据数据点与类中心距离最小值,将该数据点划分为该类;
(3)将各数据点分类结束后,根据各类的数据点重新计算3个类簇的中心坐标;
(4)再次重复(2)(3)直到达到簇中心收敛;
(5)基于上述概率计算高斯分布参数使得数据点的概率最大化,使用数据点的概率的加权来计算这些新的参数,权重就是数据点属于该类簇的概率;
(6)根据K-MEANS聚类结果计算各个集群的高斯分布,计算每个数据点属于每个簇的概率。
(7)基于上述概率计算高斯分布参数使得数据点的概率最大化,使用数据点的概率的加权来计算这些新的参数,权重就是数据点属于该类簇的概率。
4.根据权利要求3所述的一种基于聚类算法的原油含水数据分析方法,其特征是:
在上述步骤(4)和(5)之间还包括如下步骤:
数据点经过K-MEANS聚类分组后,对于飘离于三类之外的数据点,进行EM聚类算法;
在上述步骤(5)中,还包括计算每个飘离于三类之外的数据点属于每个簇的概率的步骤。
CN201910631281.3A 2019-07-12 2019-07-12 一种基于聚类算法的原油含水数据分析方法 Pending CN110796155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910631281.3A CN110796155A (zh) 2019-07-12 2019-07-12 一种基于聚类算法的原油含水数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910631281.3A CN110796155A (zh) 2019-07-12 2019-07-12 一种基于聚类算法的原油含水数据分析方法

Publications (1)

Publication Number Publication Date
CN110796155A true CN110796155A (zh) 2020-02-14

Family

ID=69427389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910631281.3A Pending CN110796155A (zh) 2019-07-12 2019-07-12 一种基于聚类算法的原油含水数据分析方法

Country Status (1)

Country Link
CN (1) CN110796155A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117763466A (zh) * 2024-02-22 2024-03-26 中石化经纬有限公司 一种基于聚类算法的地层可钻性评价方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6102113A (en) * 1997-09-16 2000-08-15 B/E Aerospace Temperature control of individual tools in a cluster tool system
US20100274754A1 (en) * 2009-02-24 2010-10-28 International Road Dynamics Cluster and discriminant analysis for vehicles detection
US20140208826A1 (en) * 2011-08-16 2014-07-31 Gushor Inc. Reservoir Sampling Tools and Methods
CN104807589A (zh) * 2015-04-17 2015-07-29 西安交通大学 一种集输-立管系统内气液两相流流型的在线识别方法
CN105631554A (zh) * 2016-02-22 2016-06-01 渤海大学 一种基于时间序列的油井油液含水率多模型预测方法
CN107066731A (zh) * 2017-04-13 2017-08-18 中南大学 根据数值模拟结果识别两相流中气体分布形态的方法
CN108104807A (zh) * 2017-12-16 2018-06-01 中国石油大学(华东) 一种海洋油气资源勘探系统及其使用方法
CN108412481A (zh) * 2018-03-05 2018-08-17 中国石油天然气股份有限公司 超声波多普勒多相流分相流量测井资料解释方法和装置
US20180371905A1 (en) * 2016-11-04 2018-12-27 Halliburton Energy Services, Inc. Automated downhole fluid classification using principal spectroscopy component data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6102113A (en) * 1997-09-16 2000-08-15 B/E Aerospace Temperature control of individual tools in a cluster tool system
US20100274754A1 (en) * 2009-02-24 2010-10-28 International Road Dynamics Cluster and discriminant analysis for vehicles detection
US20140208826A1 (en) * 2011-08-16 2014-07-31 Gushor Inc. Reservoir Sampling Tools and Methods
CN104807589A (zh) * 2015-04-17 2015-07-29 西安交通大学 一种集输-立管系统内气液两相流流型的在线识别方法
CN105631554A (zh) * 2016-02-22 2016-06-01 渤海大学 一种基于时间序列的油井油液含水率多模型预测方法
US20180371905A1 (en) * 2016-11-04 2018-12-27 Halliburton Energy Services, Inc. Automated downhole fluid classification using principal spectroscopy component data
CN107066731A (zh) * 2017-04-13 2017-08-18 中南大学 根据数值模拟结果识别两相流中气体分布形态的方法
CN108104807A (zh) * 2017-12-16 2018-06-01 中国石油大学(华东) 一种海洋油气资源勘探系统及其使用方法
CN108412481A (zh) * 2018-03-05 2018-08-17 中国石油天然气股份有限公司 超声波多普勒多相流分相流量测井资料解释方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李琨等: "基于自动谱聚类与多极端学习机模型的油井油液含水率软测量" *
王丽娜等: "基于CPN 网络井口计量原油含水率预测模型" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117763466A (zh) * 2024-02-22 2024-03-26 中石化经纬有限公司 一种基于聚类算法的地层可钻性评价方法及系统

Similar Documents

Publication Publication Date Title
CN108616120B (zh) 一种基于rbf神经网络的非侵入式电力负荷分解方法
CN109465676B (zh) 一种刀具寿命预测方法
Marwan Encounters with neighbours: current developments of concepts based on recurrence plots and their applications
CN105205112A (zh) 一种时序数据异常特征的挖掘系统及方法
CN106940281A (zh) 一种基于信息融合技术智能模型的航空油液分析方法
CN111967378A (zh) 拉剪倾倒式岩溶危岩失稳预警的声发射多前兆方法及装置
CN108171142A (zh) 一种确定复杂工业过程中关键变量因果关系的方法
CN113496440B (zh) 一种用户异常用电检测方法及系统
CN103729444B (zh) 一种基于设备监测数据间潜在关系的异常数据检测方法
CN102867115A (zh) 一种基于模糊c均值聚类的农田划分方法
CN110020680B (zh) 一种基于随机矩阵理论和模糊c均值聚类算法的pmu数据分类方法
CN104155245B (zh) 一种基于模式识别与谱图映射的油品多类性质的检测方法
Fortuna et al. Fractal order evidences in wind speed time series
CN116681186B (zh) 一种基于智能终端的用电质量分析方法及装置
CN116862081A (zh) 一种污染治理设备运维方法及系统
CN106375156A (zh) 电力网络流量异常检测方法及装置
CN114397569A (zh) 基于vmd参数优化、样本熵的断路器故障电弧检测方法
CN110796155A (zh) 一种基于聚类算法的原油含水数据分析方法
CN109408498B (zh) 基于特征矩阵决策树的时间序列特征识别与分解方法
CN110287237A (zh) 一种基于社会网络结构分析高效社团数据挖掘方法
CN117909112A (zh) 应用程序故障自动诊断方法、装置、设备及存储介质
CN118035815A (zh) 压缩机健康状态劣化识别方法、装置及存储介质
CN116030955A (zh) 基于物联网的医疗设备状态监测方法及相关装置
CN115310499B (zh) 一种基于数据融合的工业设备故障诊断系统及方法
CN107622251B (zh) 一种飞机燃油泵信号退化特征提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201104

Address after: 300000 No. three, Dagang Oilfield, Binhai New Area, Tianjin

Applicant after: DAGANG OILFIELD GROUP Co.,Ltd.

Applicant after: CHINA NATIONAL PETROLEUM Corp.

Address before: 300280 Dagang three, Binhai New Area, Tianjin

Applicant before: DAGANG OILFIELD GROUP Co.,Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200214

WD01 Invention patent application deemed withdrawn after publication