CN117113127B - 基于k均值聚类的抽油机井能耗分析方法 - Google Patents

基于k均值聚类的抽油机井能耗分析方法 Download PDF

Info

Publication number
CN117113127B
CN117113127B CN202311131629.5A CN202311131629A CN117113127B CN 117113127 B CN117113127 B CN 117113127B CN 202311131629 A CN202311131629 A CN 202311131629A CN 117113127 B CN117113127 B CN 117113127B
Authority
CN
China
Prior art keywords
well
energy consumption
clustering
oil
oil pumping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311131629.5A
Other languages
English (en)
Other versions
CN117113127A (zh
Inventor
刘向斌
董巧玲
孙延安
孙春龙
侯宇
高宇
郭振超
戚兴
张凯波
周录方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daqing Petroleum Administration Bureau
China National Petroleum Corp
Original Assignee
Daqing Petroleum Administration Bureau
China National Petroleum Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daqing Petroleum Administration Bureau, China National Petroleum Corp filed Critical Daqing Petroleum Administration Bureau
Priority to CN202311131629.5A priority Critical patent/CN117113127B/zh
Publication of CN117113127A publication Critical patent/CN117113127A/zh
Application granted granted Critical
Publication of CN117113127B publication Critical patent/CN117113127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及抽油机能耗分析技术领域,尤其涉及一种基于K均值聚类的抽油机井能耗分析方法,该方法包括:获取抽油机井的生产运行数据以确定抽油机的能耗因素集;开展主成分分析,确定影响抽油机井能耗的主成分特征;采用K均值聚类方法对抽油机井进行聚类,计算不同的聚类数目下的聚类指标,确定最优的抽油机井的聚类数目;根据聚类分析获取的分类结果,从机采节能的角度对各类井给予合理的治理措施;本发明使用的K均值聚类方法聚类速度快,适合挖掘大规模数据集且计算效率高,可以根据油井能耗数据间的相近相似关系,实现对油井的分类,从宏观上把握各类油井的能耗情况,为油井的治理调整提供方向指导。

Description

基于K均值聚类的抽油机井能耗分析方法
技术领域
本发明涉及抽油机能耗分析技术领域,尤其涉及一种基于K均值聚类的抽油机井能耗分析方法。
背景技术
随着油田数字化的快速发展,抽油机井系统的数据自动化采集及存储基本实现,大量油田数据背后的应用价值有待开发和挖掘。抽油机是油田机采井的主体部分,其能耗水平直接决定机采系统能耗高低。目前抽油机井能耗评价以运用传统理论分析方法或是凭借人工经验处理能耗问题为主,存在着“任务量大、模型复杂、针对性差、主观性强”等不足,对于能耗分析工作指导应用效果差。
中国专利公开号:CN110107275B公开了一种高能耗抽油机井的筛选方法,该方法选取预定数量的实验抽油机井,获取每个实验抽油机井的实际吨液百米耗电量和实际单井系统效率,以单井系统效率和吨液百米耗电量作为x轴和y轴,建立散点图;在散点图左、右两侧选取第一组散点和第二组散点,分别根据第一组和第二组散点确定第一线性回归方程和第二线性回归方程,并在散点图中作出两条曲线,两条线性回归方程的曲线相交;交点所对应的单井系统效率为模拟单井系统效率临界值,实际单井系统效率小于模拟单井系统效率临界值时,所对应的抽油机井为优先增效的高能耗抽油机井,该筛选方法简单,能够容易地筛选、明确需要优先增效的高能耗抽油机井;但上述高能耗抽油机井的筛选方法计算速度慢,计算效率不高。
发明内容
为此,本发明提供一种基于K均值聚类的抽油机井能耗分析方法,用以克服现有技术中抽油机井能耗评价存在的油井运行数据量大,进行全数据分析时分析工作量大且针对性不强的问题。
为实现上述目的,本发明提供一种基于K均值聚类的抽油机井能耗分析方法,包括:
步骤S1,获取各抽油机井的生产运行数据及对应的系统效率,并根据各所述生产运行数据与系统效率的相关性分析结果确定抽油机的能耗因素,并形成能耗因素数据集;
步骤S2,根据主成分分析方法在所述能耗因素数据集中确定主成分特征,并根据所述成分特征形成抽油机井能耗的主成分数据集;
步骤S3,采用K均值聚类方法对主成分数据集进行聚类分析以对抽油机井进行聚类,计算不同的聚类数目下的聚类指标,并根据各聚类指标的大小关系确定抽油机井聚类中心的数量;
步骤S4,根据所述各聚类中心计算抽油机井的均衡中心及均衡范围;
步骤S5,根据聚类分析获取的分类结果确定需调整的单个抽油机井的调整方法,并根据需调整的单个抽油机井距均衡中心的距离确定单个抽油机井生产抽汲参数的调整值;
步骤S6,根据调整后的单个抽油机井的各生产运行数据与所述均衡范围的关系,确定单个抽油机井的调整有效性;
其中,所述抽油机井生产抽汲参数包括冲程和冲次;所述生产运行数据包括日产液、动液面、冲程、冲次、泵径、泵效、日耗电、含水率、油压和套压。
进一步地,在所述步骤S1中,根据所述系统效率与所述各抽油机能耗因素之间的皮尔逊相关系数确定所述生产运行数据中与能耗数据相关的变量,将相关变量对应的数据记为能耗因素数据并形成对应的能耗因素数据集;
若单个生产运行数据的变量与能耗数据的皮尔逊相关系数满足第一条件,判定单个生产运行数据的变量为能耗因素变量,并将能耗因素变量对应的数据记为能耗因素数据;
所述第一条件为所述相关系数的绝对值大于预设值。
进一步地,在所述步骤S2中,将所述能耗数据因素集的数据进行矩阵化,并根据能耗因素数据矩阵确定相关系数矩阵,以求取相关系数矩阵的特征值和相应的特征向量,根据特征值计算每个成分的方差贡献率,将所述方差贡献率按从大到小的顺序进行排列,并根据累计方差贡献率的限定标准确定特征值数量,以提取所述特征值数量对应的影响抽油机能耗的主成分特征,并根据主成分特征确定主成分特征数据集;
其中,累计方差贡献率的限定标准为大于等于80%。
进一步地,在所述步骤S3中,采用所述K均值聚类方法对所述主成分特征数据集进行抽油机井聚类分析的步骤如下:
步骤S31,从所述主成分特征数据集中选取k个中心作为初始聚类中心,设定迭代终止条件;
步骤S32,计算每个抽油机井样本到聚类中心的欧式距离,按照最近距离原则将样本分配到最相近的簇中,每个聚类中心是由该簇中所有样本的平均值来表示;
步骤S33,重新计算各类井的平均值,作为每类井新的聚类中心,若聚类中心没有发生改变或已达到最大迭代次数,则输出聚类结果,否则重复步骤S31至S32,直到数据的划分不再改变,实现抽油机井的分类;
步骤S34,根据聚类效果评价指标确定所述聚类中心的数量并确定聚类中心;
其中,所述聚类效果评价指标包括样本与聚类中心的距离DE、样本类间距离DA和轮廓系数S。
进一步地,在步骤S4中,根据所述步骤S34确定的各所述聚类中心计算均衡中心及均衡范围,所述均衡中心为以各聚类中心为顶点组成的聚类多边形的中心,所述均衡范围为以所述均衡中心为中心,面积为小于等于5%的各聚类中心组成的多边形面积的面积。
进一步地,在所述步骤S5中,对各类抽油机井进行能耗调整的方式包括:
参数偏小型油井采用调大抽油机井所述生产抽汲参数的调整方式;
供液不足型油井的调整方式采用变频方式控制抽油机进行工作;
机型偏大型油井的调整方式为将抽油机更换为小于当前使用的机型的抽油机和/或更换且使用节能电机;
高耗低效型油井的调整方式为采取检泵用以监测和调节井口流量和压力和/或使用小于当前泵径的泵以提高油井的效率;
其中,抽油机井的分类包括参数偏小型油井、供液不足型油井、机型偏大型油井和高耗低效型油井。
进一步地,在所述步骤S6中,判断调整后的单个抽油机井的生产运行数据对应的样本到所述均衡中心的距离与调整前的单个抽油机井到所述均衡中心的距离的大小关系以判断所述调整方式是否有效,
若所述调整后的单个抽油机井到所述均衡中心的距离小于调整前的单个抽油机井到所述均衡中心的距离,则判定采用的调整方式有效。
进一步地,在所述步骤S6中,在有效条件下,判断调整后的单个抽油机井的生产运行数据对应的样本是否处于所述均衡范围内以判断该调整方式下的调整量是否符合标准,
若调整后的单个抽油机井处于所述均衡范围内,则判定该调整方式下的调整量符合标准;
若调整后的单个抽油机井仍不处于所述均衡范围内,则判定该调整方式下的调整量不符合标准,调整量不足,则需要继续调整;
所述有效条件为调整后的单个抽油机井到所述均衡中心的距离小于调整前的单个抽油机井到所述均衡中心的距离。
进一步地,在所述步骤S31中,所述初始聚类中心的确定方式包括:
随机初始化法,随机选择K个样本作为初始聚类中心;
均匀分布法,根据数据集的特征进行均匀分布,选择K个样本作为初始聚类中心;
K-Means++算法,首先随机选择一个样本作为第一个聚类中心,然后依次根据每个样本与已有聚类中心之间的距离选择下一个聚类中心,距离较大的样本具有更高的选择概率。
进一步地,在所述步骤S6中,在继续调整条件下,根据调整后的抽油机井的运行数据重新确定抽油机聚类的分类类型,并根据重新确定的分类类型确定抽油机井的调整方法,以及,根据调整后的单个抽油机井距均衡中心的距离确定单个抽油机井生产抽汲参数的调整值。
与现有技术相比,本发明的有益效果在于,本发明所述基于K均值聚类的抽油机井能耗分析方法通过对影响系统效率的抽油机井的生产运行数据根据变量与能耗的相关性进行筛选,降低了用于进行分析的数据变量,并通过主成分分析方式进行进一步地降低数据维度,提取影响较大的成分特征进行聚类,提高了油井能耗分析数据分类的效率,在对油井分类后,能够通过对主成分特征进行对应的油井参数或油井运行数据进行调整,指导各类油井对应至系统效率提高的方法,针对性的提高油井系统效率。
进一步地,本发明提供的抽油机井能耗分析方法,通过对油井的生产运行数据及系统效率进行数据分析,解决采用传统人工经验法进行能耗分析时存在的主观性强、适用性差的问题。
进一步地,本发明采用的数据挖掘方法中K均值聚类方法聚类速度比较快,适合挖掘大规模数据集且计算效率高,可以根据油井能耗数据间的相近相似关系,实现对油井的分类,从宏观上把握各类油井的能耗情况,为油井的治理调整提供方向指导。
附图说明
图1为本发明基于K均值聚类的抽油机井能耗分析方法的流程图;
图2为本发明K均值聚类分析方法流程图;
图3为本发明抽油机井K均值聚类分布效果图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1-3所示,图1为本发明基于K均值聚类的抽油机井能耗分析方法的流程图,图2为本发明K均值聚类分析方法流程图,图3为本发明抽油机井K均值聚类分布效果图。
本发明提供一种基于K均值聚类的抽油机井能耗分析方法,包括:
步骤S1,获取各抽油机井的生产运行数据及对应的系统效率,并根据各所述生产运行数据与系统效率的相关性分析结果确定抽油机的能耗因素,并形成能耗因素数据集;
步骤S2,根据主成分分析方法在所述能耗因素数据集中确定主成分特征,并根据所述成分特征形成抽油机井能耗的主成分数据集;
步骤S3,采用K均值聚类方法对主成分数据集进行聚类分析以对抽油机井进行聚类,计算不同的聚类数目下的聚类指标,并根据各聚类指标的大小关系确定抽油机井聚类中心的数量;
步骤S4,根据所述各聚类中心计算抽油机井的均衡中心及均衡范围;
步骤S5,根据聚类分析获取的分类结果确定需调整的单个抽油机井的调整方法,并根据需调整的单个抽油机井距均衡中心的距离确定单个抽油机井生产抽汲参数的调整值;
步骤S6,根据调整后的单个抽油机井的各生产运行数据与所述均衡范围的关系,确定单个抽油机井的调整有效性;
其中,所述抽油机井生产抽汲参数包括冲程和冲次;所述生产运行数据包括日产液、动液面、冲程、冲次、泵径、泵效、日耗电、含水率、油压和套压。
本发明所述基于K均值聚类的抽油机井能耗分析方法通过获取抽油机井的生产运行数据,并确定能耗因素集,结合相关性分析方法确定主因素变量和低产能耗特征,然后采用K均值聚类方法对抽油机井进行聚类分析,计算不同聚类数目下的聚类指标,并确定最优的聚类数目。通过聚类分析的分类结果,针对不同类别的抽油机井提出了针对性的治理措施,如对参数偏小型油井采用调大抽油机井所述生产抽汲参数的调整方式,对供液不足型油井采用变频方式控制抽油机进行工作等。同时,对调整方法的有效性进行评估,并对聚类指标的中心进行动态调整。整体而言,该方法可以有效优化抽油机井的能耗,降低能源消耗,并提高生产效率和经济效益。
具体而言,在所述步骤S1中,根据所述系统效率与所述各抽油机能耗因素之间的皮尔逊相关系数确定所述生产运行数据中与能耗数据相关的变量,将相关变量对应的数据记为能耗因素数据并形成对应的能耗因素数据集;
若单个生产运行数据的变量与能耗数据的皮尔逊相关系数满足第一条件,判定单个生产运行数据的变量为能耗因素变量,并将能耗因素变量对应的数据记为能耗因素数据;
所述第一条件为所述相关系数的绝对值大于预设值,所述预设值根据各生产运行数据的变量的皮尔逊相关系数的实际值确定,一般的预设值根据筛选变量的个数确定,例如从相关系数的最大值开始筛选4~8个变量,或设定预设值大于0.2以上的任一数值作为预设值。
2个n维向量x、y的Pearson相关系数rxy计算公式为:
其中,rxy是[-1,1]中的实数,rxy取值为1时,表示两个随机变量之间呈完全正相关关系;取值为-1时,表示两个随机变量之间呈完全负相关关系;取值为0时,表示两个随机变量之间线性无关。
本发明所述的基于K均值聚类的抽油机井能耗分析方法通过准确确定能耗因素,使得聚类分析能够更加准确地划分井的不同类别,进而提出相应的治理措施,以降低能耗并优化能源利用效果。
具体而言,将所述能耗数据因素集的数据进行矩阵化,并根据能耗因素数据矩阵确定相关系数矩阵,以求取相关系数矩阵的特征值和相应的特征向量,根据特征值计算每个成分的方差贡献率,将所述方差贡献率按从大到小的顺序进行排列,并根据累计方差贡献率的限定标准确定特征值数量,以提取所述特征值数量对应的影响抽油机能耗的主成分特征,并根据主成分特征确定主成分特征数据集;
其中,累计方差贡献率的限定标准为大于等于80%。
假定有n口油井,因素集为X,则样本数据矩阵为
首先确定因素集X的相关系数矩阵,求取特征值λi1,λ2,...,λp)和相应的特征向量ai(ai1,ai2,...,aip),计算方差贡献率和累计方差贡献率。
每个成分的贡献率指各成分所包含的信息占总信息的比例,用方差作为变量所包含的信息,则每个成分所提供方差占总方差的百分比即该成分的贡献率。设y1,y2,…,ym为提取的主成分,即第i个主成分yi的方差所占的比例为主成分yi的贡献率。前m(m≤p)个主成分的贡献率之和/>为前m个主成分的累积贡献率。
根据累计贡献率的限定标准确定特征值数量m,提取对应的参数占比得到影响抽油机能耗的主成分特征。提取的主成分计算表达式如下:
本发明通过设定累计贡献率的限定标准,可以确定保留的特征值数量m,进而提取对应的参数占比,得到影响抽油机能耗的主成分特征。主成分分析能够将原始数据转化为少数几个主成分,这些主成分保留了原始数据中最重要的信息,能够更好地描述和解释数据的变异性,从而帮助我们理解和分析抽油机井的能耗情况,并为后续的聚类分析提供更有效的数据基础。
具体而言,在所述步骤S3中,采用所述K均值聚类方法对所述主成分特征数据集进行抽油机井聚类分析的步骤如下:
步骤S31,从所述抽油机井能耗主成分特征数据集中选取k个中心作为初始聚类中心,设定迭代终止条件;
步骤S32,计算每个抽油机井样本到聚类中心的欧式距离,按照最近距离原则将样本分配到最相近的簇中,每个聚类中心是由该簇中所有样本的平均值来表示;
步骤S33,重新计算各类井的平均值,作为每类井新的聚类中心,若聚类中心没有发生改变或已达到最大迭代次数,则输出聚类结果,否则重复步骤S31至S32,直到数据的划分不再改变,实现抽油机井的分类;
步骤S34,根据聚类效果评价指标确定所述聚类中心的数量并确定聚类中心;
其中,所述聚类效果评价指标包括样本与聚类中心的距离DE、样本类间距离DA和轮廓系数S计算见以下公式:
其中,xi为油井主成分数据;mj为油井所在类的中心,ωj为油井xi所在的类,K为油井能耗的聚类数目,为总样本的均值,nj为每类的油井数,N为总井数;
其中,a是第i个样本与同类的其他样本之间的平均距离;b为一个向量,其元素是第i个样本与不同类的类内各样本之间的平均距离;
DE数值越小,代表同一类中的井相似度越高;DA数值越大,则不同类的区分度越高;S数值越大,分类效果越明显。
本发明所述基于K均值聚类的抽油机井能耗分析方法通过主成分分析和聚类分析相结合,能够实现对抽油机井能耗数据的有效分类和分析,为能耗管理和优化决策提供有力支撑。
具体而言,在步骤S4中,根据所述步骤S34确定的各所述聚类中心计算均衡中心及均衡范围,所述均衡中心为以各聚类中心为顶点组成的聚类多边形的中心,所述均衡范围为以所述均衡中心为中心,面积为小于等于5%的聚类多边形面积。
具体而言,在所述步骤S5中,对各类抽油机井进行能耗调整的方式包括:
参数偏小型油井采用调大抽油机井所述生产抽汲参数的调整方式;
供液不足型油井采用变频方式控制抽油机进行工作,如采取间抽的工作制度保证泵入井中的液体量足够以提高供油效率或采用提捞措施以增加供液到井底的量;
机型偏大型油井的调整方式为采取更换为小于当前使用的机型的抽油机和/或更换且使用节能电机;
高耗低效型油井的调整方式为安装一个泵站或泵组以监测和调节井口流量和压力、使用小于当前泵径的泵来提高油井的效率,还可以采用高效的电机、变频调速、节流调节等技术将节能率提高,如使用变频驱动电机;
其中,抽油机井的分类包括参数偏小型油井、供液不足型油井、机型偏大型油井和高耗低效型油井。
本发明基于K均值聚类的抽油机井能耗分析方法通过对各类井进行针对性的能耗调整,采用高效节能设备和技术,能够有效降低能源消耗,提高能源利用效率,从而实现对抽油机井能耗的优化和节约。
具体而言,判断调整后的单个抽油机井的生产运行数据对应的样本到所述均衡中心的距离与调整前的单个抽油机井到所述均衡中心的距离的大小关系以判断所述调整方式是否有效,
若所述调整后的单个抽油机井到所述均衡中心的距离小于调整前的单个抽油机井到所述均衡中心的距离,判定采用的调整方式有效。
具体而言,在所述步骤S6中,在有效条件下,对经调整后的单个抽油机井的运行数据经所述主成分数据转换后,判断转换后的数据是否处于所述均衡范围内以判断该调整方式下的调整量是否符合标准;
若调整后的单个抽油机井处于所述均衡范围内,则判定该调整方式下的调整量符合标准,调整量足够;
若调整后的单个抽油机井仍不处于所述均衡范围内,则判定该调整方式下的调整量不符合标准,调整量不足,则需要继续调整;
所述有效条件为调整后的单个抽油机井到所述均衡中心的距离小于调整前的单个抽油机井到所述均衡中心的距离。
本发明通过以上判断和评估策略,该方法能够有效地进行能耗分析和调整,优化抽油机井的能耗分布,减少能源浪费,提高整个系统的能效和工作效率。同时,通过实时监测和调整,可以快速响应井的能耗波动,确保系统在动态工况下能够保持稳定和高效的运行。该基于K均值聚类的抽油机井能耗分析方法能够有效地改善能耗平衡,提高能效,并且具有实时性和自适应性,适用于实际的抽油机运行管理。
具体而言,在所述步骤S31中,所述初始聚类中心的确定方式包括:
随机初始化法:随机选择K个样本作为初始聚类中心;
均匀分布法:根据数据集的特征进行均匀分布,选择K个样本作为初始聚类中心;
K-Means++算法:首先随机选择一个样本作为第一个聚类中心,然后依次根据每个样本与已有聚类中心之间的距离选择下一个聚类中心,距离较大的样本具有更高的选择概率。
本发明随机初始化法通过在数据集中随机选择K个样本作为初始聚类中心,这种方式简单直观,可以快速进行初始中心的确定,但可能受到随机性的影响,导致得到不同的结果;均匀分布法根据数据集的特征进行均匀分布,选择K个样本作为初始聚类中心,这种方法在样本分布较为均匀的情况下,可以较好地选择初始中心,能够避免聚类中心过于聚拢或过于分散的问题;K-Means++算法首先随机选择一个样本作为第一个聚类中心,然后根据每个样本与已有聚类中心之间的距离选择下一个聚类中心,其中距离较大的样本具有更高的选择概率,这种方法能够提高初始聚类中心的分布性,使得聚类结果更加稳定和准确。这三种初始聚类中心确定方式的应用可以在基于K均值聚类的抽油机井能耗分析方法中改善聚类结果的质量,提高算法的效果和准确性,从而为能耗分析和调整提供更有益的信息和指导。
具体而言,在所述步骤S6中,在继续调整条件下,根据调整后的抽油机井的运行数据重新确定抽油机聚类的分类类型,并根据重新确定的分类类型确定抽油机井的调整方法,以及,根据调整后的单个抽油机井距均衡中心的距离确定单个抽油机井生产抽汲参数的调整值。
在实施中,通过调整后的单个抽油机井距均衡中心的距离确定单次抽油机井的各生产抽汲参数的单次调整量,当单个抽油机井距均衡中心的距离越大,单次的生产抽汲参数的调整量越大,当单个抽油机井距均衡中心的距离越小,单次的生产抽汲参数的调整量越小,单个抽油机井距均衡中心的距离与生产抽汲参数的调整量单个为正相关关系。可以理解的是,生产抽汲参数调整的趋势(向增大调整或向减小调整)根据所述调整方法确定,此处的调整量仅仅认定为调整的间隔,与生产抽汲参数调整的趋势相符。调整量确定后,生产抽汲参数的调整值相应的通过当前值与调整量计算确定。
实施例1:在所述步骤S33中,对确定的最终聚类中心与所述初始聚类中心进行相关性分析,确定初始聚类中心的调整量;如果相关性低于预设相关性标准,说明初始聚类中心选择效果较差,可以尝试调整初始聚类中心的选择方法或重新选择聚类中心;在所述步骤S33中,所述初始聚类中心的确定步骤如下:
步骤S331,选择随机初始化法确定初始聚类中心,判断与确定的最终聚类中心的相关性是否达到预设相关性标准;
若相关性大于等于预设相关性标准时选用随机初始化法确定初始聚类中心;若相关性小于预设相关性标准时选用均匀分布法确定初始聚类中心;
步骤S332,判断均匀分布法确定的初始聚类中心与最终聚类中心的相关性是否达到预设相关性标准;
若相关性大于等于预设相关性标准时选用均匀分布法确定初始聚类中心;若相关性小于预设相关性标准时调整均匀分布法中数据空间划分网格的大小和/或方法;
步骤S333,判断调整后均匀分布法确定的初始聚类中心与最终聚类中心的相关性;
若二者的相关性大于等于预设相关性标准则选用调整后的均匀分布法确定初始聚类中心;若二者的相关性仍小于预设相关性标准则选用K-Means++算法确定初始聚类中心。
实施例2:以下基于实施例对本发明进行描述,但是值得说明的是,本发明并不限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。然而,对于没有详尽描述的部分,本领域技术人员也可以完全理解本发明。本发明所能产生的效果,配合附图及实施例详细说明如下:
选取某油田产液量在20方以下的1167口低产抽油机井为例,参见表1,获取对应的抽汲参数、生产及能耗数据进行相关性分析处理,通过计算系统效率与各参数之间的Pearson相关系数,结果显示系统效率与日产液、冲次、日耗电、动液面等几个因素相关性较强,筛选相关系数绝对值大于0.3的参数作为能耗分析的主要影响因素,分别为日产液、动液面、冲程、冲次、泵径、泵效、日耗电和系统效率,形成油井能耗因素集。
表1油井系统效率相关性分析计算结果
开展因素集数据的主成分分析处理,首先根据油井能耗因素集相关系数矩阵求取特征值和特征向量,计算方差贡献率和累计方差贡献率。其中累计贡献率大于80%的标准确定主成分,参见表2,在85.9359%包含了前五个特征值,提取对应的参数占比,确定影响低产抽油机能耗的主成分特征。
表2主成分分析贡献率结果表
特征值 差值 贡献率 累计贡献率
1.9582 0.3941 24.4770 24.4770
1.5640 0.3622 19.5502 44.0272
1.2018 0.0207 15.0229 59.0501
1.1811 0.2113 14.7636 73.8137
0.9698 0.2121 12.1222 85.9359
0.7577 0.4397 9.4716 95.4075
0.3181 0.2687 3.9759 99.3834
0.0493 0 0.6166 100
表3每个主成分对应的变量参数占比
利用计算机程序创建K均值聚类算法,根据主成分分析所提取的五个样本特征主成分作为聚类分析数据,按现场经验将分类数K值控制在3~5类,计算样本与聚类中心之间的距离平均值、类间距离平均值,所有样本的轮廓系数平均值如表4所示,经指标数值对比,当聚类分为四类时效果最好,各类井数分别为:271、585、96和215口,K均值聚类分布效果图见图3所示,各类样本对应参数的平均值如表5所示。
表4不同聚类数目下的K均值聚类指标评价结果
表5聚类分析各类井对应参数的平均值
结合四类井的生产数据特征,依次定义为参数偏小型、供液不足型、机型偏大型和高耗低效型,由此可结合现场实际给出相应的机采节能降耗的合理措施及调整方式,为抽油机井的能耗分析治理及节能挖潜提供方向指导。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于K均值聚类的抽油机井能耗分析方法,其特征在于,包括:
步骤S1,获取各抽油机井的生产运行数据及对应的系统效率,并根据各所述生产运行数据与系统效率的相关性分析结果确定抽油机的能耗因素,并形成能耗因素数据集;
步骤S2,根据主成分分析方法在所述能耗因素数据集中确定主成分特征,并根据所述成分特征形成机井能耗的主成分数据集;
步骤S3,采用K均值聚类方法对主成分数据集进行聚类分析以对抽油机井进行聚类,计算不同的聚类数目下的聚类指标,并根据各聚类指标的大小关系确定抽油机井聚类中心的数量;
步骤S4,根据所述各聚类中心计算抽油机井的均衡中心及均衡范围;
步骤S5,根据聚类分析获取的分类结果确定需调整的单个抽油机井的调整方法,并根据需调整的单个抽油机井距均衡中心的距离确定单个抽油机井生产抽汲参数的调整值;
步骤S6,根据调整后的单个抽油机井的各生产运行数据与所述均衡范围的关系,确定单个抽油机井的调整有效性;
其中,所述抽油机井生产抽汲参数包括冲程和冲次;所述生产运行数据包括日产液、动液面、冲程、冲次、泵径、泵效、日耗电、含水率、油压和套压;所述均衡中心为以各聚类中心为顶点组成的聚类多边形的中心,所述均衡范围为以所述均衡中心为中心,面积为小于等于5%的聚类多边形面积。
2.根据权利要求1所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S1中,根据所述系统效率与所述各抽油机能耗因素之间的皮尔逊相关系数确定所述生产运行数据中与能耗数据相关的变量,将相关变量对应的数据记为能耗因素数据并形成对应的能耗因素数据集;
若单个生产运行数据的变量与能耗数据的皮尔逊相关系数满足第一条件,判定单个生产运行数据的变量为能耗因素变量,并将能耗因素变量对应的数据记为能耗因素数据;
所述第一条件为所述相关系数的绝对值大于预设值。
3.根据权利要求2所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S2中,将所述能耗数据因素集的数据进行矩阵化,并根据能耗因素数据矩阵确定相关系数矩阵,以求取相关系数矩阵的特征值和相应的特征向量,根据特征值计算每个成分的方差贡献率,将所述方差贡献率按从大到小的顺序进行排列,并根据累计方差贡献率的限定标准确定特征值数量,以提取所述特征值数量对应的影响抽油机能耗的主成分特征,并根据主成分特征确定主成分特征数据集;
其中,累计方差贡献率的限定标准为大于等于80%。
4.根据权利要求3所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S3中,采用所述K均值聚类方法对所述主成分特征数据集进行抽油机井聚类分析的步骤如下:
步骤S31,从所述主成分特征数据集中选取k个中心作为初始聚类中心,设定迭代终止条件;
步骤S32,计算每个抽油机井样本到聚类中心的欧式距离,按照最近距离原则将样本分配到最相近的簇中,每个聚类中心是由该簇中所有样本的平均值来表示;
步骤S33,重新计算各类井的平均值,作为每类井新的聚类中心,若聚类中心没有发生改变或已达到最大迭代次数,则输出聚类结果,否则重复步骤S31至S32,直到数据的划分不再改变,实现抽油机井的分类;
步骤S34,根据聚类效果评价指标确定所述聚类中心的数量并确定聚类中心;
其中,所述聚类效果评价指标包括样本与聚类中心的距离DE、样本类间距离DA和轮廓系数S。
5.根据权利要求4所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在步骤S4中,根据所述步骤S34确定的各所述聚类中心计算均衡中心及均衡范围。
6.根据权利要求5所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S5中,对各类抽油机井进行能耗调整的方式包括:
参数偏小型油井采用调大抽油机井所述生产抽汲参数的调整方式;
供液不足型油井的调整方式为采用变频方式控制抽油机进行工作;
机型偏大型油井的调整方式为采取更换为小于当前使用的机型的抽油机和/或更换且使用节能电机;
高耗低效型油井的调整方式为采取检泵用以监测和调节井口流量和压力和/或使用小于当前泵径的泵以提高油井的效率;
其中,抽油机井的分类包括参数偏小型油井、供液不足型油井、机型偏大型油井和高耗低效型油井。
7.根据权利要求6所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S6中,判断调整后的单个抽油机井的生产运行数据对应的样本到所述均衡中心的距离与调整前的单个抽油机井到所述均衡中心的距离的大小关系以判断所述调整方式是否有效,
若所述调整后的单个抽油机井到所述均衡中心的距离小于调整前的单个抽油机井到所述均衡中心的距离,判定采用的调整方式有效。
8.根据权利要求7所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S6中,在有效条件下,判断调整后的单个抽油机井的生产运行数据对应的样本是否处于所述均衡范围内以判断该调整方式下的调整量是否符合标准;
若调整后的单个抽油机井处于所述均衡范围内,则判定该调整方式下的调整量符合标准;
若调整后的单个抽油机井仍不处于所述均衡范围内,则判定该调整方式下的调整量不符合标准,调整量不足,则需要继续调整;
所述有效条件为调整后的单个抽油机井到所述均衡中心的距离小于调整前的单个抽油机井到所述均衡中心的距离。
9.根据权利要求4所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S31中,所述初始聚类中心的确定方式包括:
随机初始化法,随机选择K个样本作为初始聚类中心;
均匀分布法,根据数据集的特征进行均匀分布,选择K个样本作为初始聚类中心;
K-Means++算法,首先随机选择一个样本作为第一个聚类中心,然后依次根据每个样本与已有聚类中心之间的距离选择下一个聚类中心。
10.根据权利要求8所述的基于K均值聚类的抽油机井能耗分析方法,其特征在于,在所述步骤S6中,在继续调整条件下,根据调整后的抽油机井的运行数据重新确定抽油机聚类的分类类型,并根据重新确定的分类类型确定抽油机井的调整方法,以及,根据调整后的单个抽油机井距均衡中心的距离确定单个抽油机井所述生产抽汲参数的调整值。
CN202311131629.5A 2023-09-04 2023-09-04 基于k均值聚类的抽油机井能耗分析方法 Active CN117113127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311131629.5A CN117113127B (zh) 2023-09-04 2023-09-04 基于k均值聚类的抽油机井能耗分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311131629.5A CN117113127B (zh) 2023-09-04 2023-09-04 基于k均值聚类的抽油机井能耗分析方法

Publications (2)

Publication Number Publication Date
CN117113127A CN117113127A (zh) 2023-11-24
CN117113127B true CN117113127B (zh) 2024-03-29

Family

ID=88808967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311131629.5A Active CN117113127B (zh) 2023-09-04 2023-09-04 基于k均值聚类的抽油机井能耗分析方法

Country Status (1)

Country Link
CN (1) CN117113127B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764530A (zh) * 2018-04-27 2018-11-06 中国石油天然气股份有限公司 油井抽油机的工作参数配置方法及装置
CN110070145A (zh) * 2019-04-30 2019-07-30 天津开发区精诺瀚海数据科技有限公司 基于增量聚类的lstm轮毂单品能耗预测
CN111369539A (zh) * 2020-03-06 2020-07-03 浙江大学 一种基于多特征图融合的建筑立面窗户检测系统
CN114429073A (zh) * 2020-09-21 2022-05-03 中国石油化工股份有限公司 抽油机井耗电量影响因素敏感性的分析方法
CN114688009A (zh) * 2022-04-07 2022-07-01 北京雅丹石油技术开发有限公司 一种游梁式抽油机智能间抽控制系统及其控制方法
CN115059455A (zh) * 2022-06-28 2022-09-16 东北石油大学 一种基于机器学习的有杆抽油机井下故障诊断方法
CN115146690A (zh) * 2021-03-16 2022-10-04 中国石油天然气股份有限公司 一种抽油机井智能化分析方法及装置
CN116011351A (zh) * 2023-03-28 2023-04-25 中国石油大学(华东) 一种基于聚类算法和WideDeep网络的油井合理沉没度确定方法
CN116303626A (zh) * 2023-05-18 2023-06-23 西南石油大学 一种基于特征优化和在线学习的固井泵压预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10036233B2 (en) * 2015-01-21 2018-07-31 Baker Hughes, A Ge Company, Llc Method and system for automatically adjusting one or more operational parameters in a borehole

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764530A (zh) * 2018-04-27 2018-11-06 中国石油天然气股份有限公司 油井抽油机的工作参数配置方法及装置
CN110070145A (zh) * 2019-04-30 2019-07-30 天津开发区精诺瀚海数据科技有限公司 基于增量聚类的lstm轮毂单品能耗预测
CN111369539A (zh) * 2020-03-06 2020-07-03 浙江大学 一种基于多特征图融合的建筑立面窗户检测系统
CN114429073A (zh) * 2020-09-21 2022-05-03 中国石油化工股份有限公司 抽油机井耗电量影响因素敏感性的分析方法
CN115146690A (zh) * 2021-03-16 2022-10-04 中国石油天然气股份有限公司 一种抽油机井智能化分析方法及装置
CN114688009A (zh) * 2022-04-07 2022-07-01 北京雅丹石油技术开发有限公司 一种游梁式抽油机智能间抽控制系统及其控制方法
CN115059455A (zh) * 2022-06-28 2022-09-16 东北石油大学 一种基于机器学习的有杆抽油机井下故障诊断方法
CN116011351A (zh) * 2023-03-28 2023-04-25 中国石油大学(华东) 一种基于聚类算法和WideDeep网络的油井合理沉没度确定方法
CN116303626A (zh) * 2023-05-18 2023-06-23 西南石油大学 一种基于特征优化和在线学习的固井泵压预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Selection of optimal operating modes for a block cluster pumping station;R I Suleimanov等;《IOP Conference Series: Materials Science and Engineering》;20211231;1-6 *
基于抽油机井能耗数据的聚类分析方法的研究及应用;王辉萍;《中国优秀硕士学位论文全文数据库_工程科技Ⅰ辑》;20190215;B019-491 *
基于聚类分析的煤层气抽油机井能耗特征研究;梅永贵等;《中国煤气层》;20200815;第17卷(第04期);8-12 *

Also Published As

Publication number Publication date
CN117113127A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN108616120B (zh) 一种基于rbf神经网络的非侵入式电力负荷分解方法
CN107305601B (zh) 一种抽油机井系统效率因素分析方法
CN109977464B (zh) 一种基于bp神经网络的活塞切削加工变形量的预测方法
CN104809658B (zh) 一种低压配网台区线损的快速分析方法
CN111489188B (zh) 一种居民可调负荷潜力挖掘方法及系统
US20210109140A1 (en) Method for identifying parameters of 10 kv static load model based on similar daily load curves
CN105787271B (zh) 基于大数据分析技术的供热机组可调出力区间评估方法
CN113604840A (zh) 一种制氢系统的压力控制方法及制氢系统
CN113156817A (zh) 一种泵站智能配泵方法
CN113902304A (zh) 一种基于总负荷曲线相似性的可控负荷筛选方法
GB2614005A (en) Core-level high resolution petrophysical characterization method
CN117113127B (zh) 基于k均值聚类的抽油机井能耗分析方法
CN111325485A (zh) 计及物联带宽约束的轻量级梯度提升机电能质量扰动识别方法
CN116701919B (zh) 一种陀螺式氢燃料发电机的优化监测方法及系统
CN105863607A (zh) 基于整体区块抽油机井运行状况评价与整改方法
CN114298080A (zh) 一种基于摆度数据挖掘的水轮发电机组的监测方法
CN108491893A (zh) 一种基于深层森林算法的家庭用电负荷分类识别方法
CN116974234A (zh) 一种火电厂碳资产的监测控制方法及系统
CN116778272A (zh) 基于多通道信息融合的水电机组小样本工况辨识方法
CN109470954B (zh) 一种基于大数据的电网运行状态监测系统及其监测方法
CN114970766A (zh) 一种基于线性拟合的电站机组运行参数基准值获取方法
CN114880944A (zh) 一种基于Lasso算法的脱硫系统运行优化方法及系统
CN106530130A (zh) 油田机采过程动态演化建模与节能优化方法
CN113627640A (zh) 一种针对缝洞型油藏油气井的产能试井预测方法及系统
CN114781685B (zh) 基于大数据挖掘技术的大用户用电负荷预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant