CN110472689B - 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法 - Google Patents

基于集成高斯过程回归的有杆泵抽油井动液面软测量方法 Download PDF

Info

Publication number
CN110472689B
CN110472689B CN201910762684.1A CN201910762684A CN110472689B CN 110472689 B CN110472689 B CN 110472689B CN 201910762684 A CN201910762684 A CN 201910762684A CN 110472689 B CN110472689 B CN 110472689B
Authority
CN
China
Prior art keywords
training
gaussian process
sample
data
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910762684.1A
Other languages
English (en)
Other versions
CN110472689A (zh
Inventor
高宪文
赵荣昌
王明顺
张逸帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910762684.1A priority Critical patent/CN110472689B/zh
Publication of CN110472689A publication Critical patent/CN110472689A/zh
Application granted granted Critical
Publication of CN110472689B publication Critical patent/CN110472689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法,涉及油田软测量技术领域。本方法为:采集数据;将数据归一化后得到训练集和测试集;设置分类个数k,根据模糊C均值聚类算法得到训练集T的k个聚类划分后的训练样本集T′;依次求取训练样本集中每个子集的平均值,根据平均值获得k个簇的中心点;对每个训练样本子集建立高斯过程回归动液面预测模型;将测试样本集中xq作为动液面预测模型的输入,计算出xq与k个簇的中心点的欧氏距离,将欧氏距离最小的作为xq的归属簇,建立的N个高斯过程回归动液面预测模型得到动液面预测结果。本方法易于实际工程实现,经济成本低,进一步提高了软测量模型的最终估计精度。

Description

基于集成高斯过程回归的有杆泵抽油井动液面软测量方法
技术领域
本发明涉及油田软测量技术领域,尤其涉及一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法。
背景技术
油井动液面深度的测量是油田生产中非常重要的一个环节,动液面深度测量的精度影响着油井工作制度主要参数的确定,准确测量油井动液面深度对提高采收率十分重要。通过油井的油井动液面深度,可以了解油井的供液能力,确定抽油泵的沉没深度和合理冲次等抽汲参数,进而提高油田采收率,降低开采成本。
目前各大油田中,大都利用回声仪进行测量。这种测量方法自动化程度低,受人为因素影响大,不能连续测量。当井下液面较深或套压为零时,回声法受到仪器的性能限制,难以测定井下液面的准确深度。另外油井出现泡沫段或者结蜡时,易得到“假液面”。同时因为油井数量非常多,工作量十分大,效率低,不能及时掌握油井的工作状况,已经不能满足油田的生产发展需求。因此有必要将软测量技术引入到油井动液面高度测量中,建立泛化能力强的软测量模型实现对油井动液面高度的间接测量。
近年来,相关领域专家学者陆续提出采用各种方法来实现对动液面的测量,特别是以统计学和运筹学为基础的数学方法更是倍受关注。使用统计学理论对大量的历史生产数据进行分析,采用软测量建模技术对动液面高度进行预测。只需要一些容易测得的辅助变量数据,受测量环境限制影响小,经济成本低,实时性好。当地层能量波动、油井工况发生变化时,单一模型训练时间较长,预测精度降低。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法,本方法易于实际工程实现,经济成本低,且综合考虑样本点隶属度和子模型预测可信度,进一步提高了软测量模型的最终估计精度。
为解决上述技术问题,本发明所采取的技术方案是:
本发明提供一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法,包括如下步骤:
步骤1:采集有杆泵抽油井的井口套压、日产液量、含水率、产气量、抽油机示功图数据、冲次时间及实测动液面高度数据;计算得到下冲程平均载荷、日产油量、日产水量和冲次;对井口套压、日产油量、日产水量、产气量、下冲程平均载荷和冲次进行归一化处理,得到初始样本集S;将初始样本集S分为训练集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xE,yE)}和测试集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)};其中,
Figure BDA0002170883260000021
Figure BDA0002170883260000022
代表集合X中第α个d维输入变量,所述输入变量即油井辅助变量,其中,X={T,M},α代表集合X内的数据编号;
Figure BDA0002170883260000023
Figure BDA0002170883260000024
代表集合X中第α个与油井辅助变量相对应的实测动液面值;
步骤2:设置分类个数k,根据模糊C均值聚类算法对训练集T进行划分,得到k个聚类划分后的训练样本集T′={TD1,TD2,…,TDj,…,TDk},其中TDj代表训练样本集内第j簇训练样本子集;
具体方法为:
聚类中心矩阵集合V=[v1,v2,..,vj,..,vk]迭代公式如下:
Figure BDA0002170883260000025
其中,vj代表第j个样本子集的聚类中心矩阵,uj(xi)代表第i个样本对于第j簇的隶属度,b为隶属度矩阵指数,b≥1;
隶属度矩阵U=[u1(xi),u2(xi),...,uj(xi)...,uk(xi)]的迭代公式为:
Figure BDA0002170883260000026
且uj(xi)满足以下约束条件:
Figure BDA0002170883260000027
其中,uj(xi)∈[0,1];
根据隶属度矩阵U将样本xi归入隶属度值最大的一簇中,令i=i+1重复本步骤,直至完成训练集T的划分,得到k个聚类划分后的训练样本集T′;
步骤3:依次求取训练样本集T′中每个子集的平均值,根据每个子集的平均值获得k个簇的中心点C1,C2,…,Cj,…,Ck
第j簇中心点Cj的计算公式为:
Figure BDA0002170883260000031
其中sum_feature(j)表示簇j中所有样本点的特征和,sum_number(j)表示簇j中所有样本的数目;
步骤4:对聚类划分后的k个训练样本子集{TD1},{TD2},…,{TDj},…,{TDk}分别采用Bagging算法建立高斯过程回归动液面预测模型;
具体步骤为:
步骤4.1:确定Bagging集成学习算法的基学习器个数N,根据Bootstrapping算法对训练样本子集{TDj}进行N轮重取样,获得有差异的Bagging训练集Dj={Dj1,Dj2,…,Djn,…,DjN};
步骤4.2:依次求取N个Bagging训练子集{Dj1},{Dj2},…,{Djn},…,{DjN}每个簇的平均值,获得N个Bagging训练子集的中心点Cj1,Cj2,…、Cjn,...,CjN,其中Cjn表示第j簇样本子集在进行第n轮Bootstrapping重取样后获得Bagging训练子集{Djn}的中心点;
中心点Cjn计算公式为:
Figure BDA0002170883260000032
其中sum_featurej(n)表示簇{Djn}中所有样本点的特征和,sum_numberj(n)表示簇{Djn}中所有样本的数目;
步骤4.3:使用平方指数函数作为高斯过程回归的协方差函数,建立Bagging训练集Dj的N个高斯过程回归动液面预测模型;
建立训练集Dj中第n个高斯过程回归动液面预测模型,具体步骤如下:
获取Bagging训练子集{Djn}={(xp,yp)|p=1,2,...,H},其中,xp∈Rd是d维输入变量即辅助变量的值,xp作为高斯过程回归动液面预测模型输入数据,yp是与xp相对应的动液面值,yp作为高斯过程回归动液面预测模型输出数据;H表示{Djn}中样本的个数;高斯过程为:
f(x)~GP(m(x),k(xp,xφ))
其中f(x)为Rd→R隐函数,GP(*)表示高斯过程,k(xp,xφ)为协方差函数,xp和xφ是Bagging训练子集Djn内的d维输入变量即辅助变量,m(x)为均值函数,取值为0;
将噪声ε考虑到观测目标值y=[y1,y2,...,yq,...,yH]T时,可建立高斯过程回归模型,如下所示:
y=f(x)+ε
其中ε为与f(x)不相关的独立高斯白噪声,ε服从均值为0、方差为σd2的正态分布;
高斯回归过程选用平方指数协方差函数,表示如下:
Figure BDA0002170883260000041
其中M=diag(l2),l为方差尺度,σf 2为信号方差;θ={M,σf 2,σd 2}为超参数;
步骤4.4:建立训练样本条件概率的负对数似然函数L(θ)
Figure BDA0002170883260000042
其中θ为超参数,y=[y1,y2,...,yq,...,yH]T,C=k+σd 2Id,k为协方差函数,σd 2为方差,Id是d阶单位矩阵,log(*)表示取对数,det(C)为C的行列式,d为输入变量的维数,对L(θ)求偏导数,使用共轭梯度法对步骤4.3中建立的N个高斯回归模型中的超参数θ进行优化;
步骤4.5:令j=j+1,重复步骤4.1至步骤4.4,直至将训练样本集T′中的所有训练样本子集都得到优化超参数后的N个高斯过程回归动液面预测模型;
步骤5:将测试样本集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)}中xq作为高斯过程回归动液面预测模型的输入,计算出xq与步骤3中k个簇的中心点的欧氏距离,将与xq欧氏距离最小的第w簇作为xq的归属簇,通过步骤4.3中第w簇建立的N个高斯过程回归动液面预测模型得到动液面预测结果。
所述步骤1的具体步骤如下:
步骤1.1:根据采集到的示功图数据计算下冲程平均载荷;由日产液量和含水率计算得到日产油量和日产水量;将冲次时间转化为冲次;
根据几何平均法计算下冲程平均载荷F,公式为:
Figure BDA0002170883260000051
其中,m为下冲程中数据采集个数,fi为第i个采样点的载荷数据,li为第i个采样点对应的位移,L为冲程;
日产水量Qwater和日产油量Qoil计算公式:
Qwater=η*Qliquid
Qoil=(1-η)*Qliquid
其中Qliouid为日产液量,η为含水率;
根据冲次时间Ts计算冲次s的公式为
s=60/Ts
步骤1.2:使用箱形图法剔除原始样本集中的异常数据,并对剔除异常数据后的所有数据进行归一化处理,得到初始样本集S;
归一化公式为:
Figure BDA0002170883260000052
其中x′为待处理的数据,即油井辅助变量或动液面数据,所述油井辅助变量包括井口套压、日产水量、日产油量、日产气量、下冲程平均载荷和冲次时间,x′min为待处理数据的最小值,即油井辅助变量或动液面数据的最小值,x′max为待处理数据的最大值,即油井辅助变量或动液面数据的最大值,x*为归一化之后的数据;
步骤1.3:将初始样本集S分为训练样本和测试样本,构成训练集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xE,yE)}和测试集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)}。
所述步骤5的具体步骤为:
步骤5.1:计算样本点xq与步骤3中k个簇的中心点C1,C2,…,Cj,…,Ck的欧式距离distfcmq1,distfcmq2…,distfcmqj,…,distfcmqk,由距离最小的中心点确定样本点xq归属于第w簇,其中w∈k;欧式距离distfcmqj计算公式为
distfcmqj=||x′q-C′j||2
其中x′q代表xq的属性值,C′j代表Cj的属性值,||*||2表示求取2范数;
步骤5.2:使用步骤4.3中第w簇的N个高斯过程回归动液面预测模型得到N个预测值
Figure BDA0002170883260000061
和N个方差
Figure BDA0002170883260000062
其中
Figure BDA0002170883260000063
为第n个高斯过程模型对于样本xq的预测值,
Figure BDA0002170883260000064
为第n个高斯过程模型对于样本xq的预测方差;
步骤5.3:计算样本xq和步骤4.2中N个Bagging训练子集的中心点Cw1,Cw2,…,Cwn,…,CwN的欧式距离distbagw1,distbagw2,…,distbagwn,…,distbagwN
步骤5.4:计算加权集成高斯过程模型的权重系数Wn,计算公式如下:
Figure BDA0002170883260000065
步骤5.5:由步骤5.4中的权重系数Wn,计算集成模型的动液面预测值:
Figure BDA0002170883260000066
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法,本方法使用模糊C均值聚类算法对原始样本划分,建立多个高斯过程回归子模型,从而减小地层能量波动、油井工况发生变化引起的误差,提高了模型的预测精度和稳定性。在Bagging算法集成输出预测值时,使用高斯过程模型预测方差与样本点距样本集中心点距离参与权重系数计算,综合考虑样本点隶属度和子模型预测可信度,进一步提高了软测量模型的最终估计精度。且本方法仅需要动液面历史数据和相关辅助变量信息,不需要增加硬件设备,易于实际工程实现,经济成本低。
附图说明
图1为本发明实施例提供的模糊C均值聚类集成高斯过程回归动液面软测量模型结构图;
图2为本发明实施例提供的Bagging算法集成高斯过程回归结构图;
图3为本发明实施例提供的基于集成高斯过程回归的有杆泵抽油井动液面软测量方法流程图;
图4为本发明实施例提供的输入测试集预测模型应用阶段流程图;
图5为本发明实施例提供的单一高斯过程回归模型动液面预测值与实际值对比图;
图6为本发明实施例提供的模糊C均值聚类高斯过程回归多模型预测值与实际值对比图;
图7为本发明实施例提供的模糊C均值聚类Bagging方差加权高斯过程回归集成模型预测值与实际值对比图;
图8为本发明实施例提供的模糊C均值聚类Bagging距离加权高斯过程回归集成模型预测值与实际值对比图;
图9为本发明实施例提供的模糊C均值聚类划分Bagging距离方差加权高斯过程回归集成模型预测值与实际值对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图3所示,本实施例的方法如下所述。
本发明提供一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法,包括如下步骤:
步骤1:采集有杆泵抽油井的井口套压、日产液量、含水率、产气量、抽油机示功图数据、冲次时间及实测动液面高度数据;计算得到下冲程平均载荷、日产油量、日产水量和冲次;对井口套压、日产油量、日产水量、产气量、下冲程平均载荷和冲次进行归一化处理,得到初始样本集S;将初始样本集S分为训练集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xE,yE)}和测试集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)};其中,
Figure BDA0002170883260000071
Figure BDA0002170883260000072
代表集合X中第α个d维输入变量,所述输入变量即油井辅助变量,其中,X={T,M},α代表集合X内的数据编号;
Figure BDA0002170883260000073
Figure BDA0002170883260000074
代表集合X中第α个与油井辅助变量相对应的实测动液面值;
本发明中井口套压由油井树上的压力表测量得到,日产液量由玻璃管量油法测出,取样化验液柱测得含水率;由天然气计量仪表计量出产气量;根据示功图采集仪获得示功图数据,由接近开关获得冲次时间;本实施实例中,由油井综合记录报表和示功图采集仪选取了966组数据;
具体步骤如下:
步骤1.1:根据采集到的示功图数据计算下冲程平均载荷;由日产液量和含水率计算得到日产油量和日产水量;将冲次时间转化为冲次;
根据几何平均法计算下冲程平均载荷F,公式为:
Figure BDA0002170883260000081
其中,m为下冲程中数据采集个数,fi为第i个采样点的载荷数据,li为第i个采样点对应的位移,L为冲程;
日产水量Qwater和日产油量Qoil计算公式:
Qwater=η*Qliquid
Qoil=(1-η)*Qliquid
其中Qliquid为日产液量,η为含水率;
根据冲次时间Ts计算冲次s的公式为
s=60/Ts
步骤1.2:使用箱形图法剔除原始样本集中的异常数据,并对剔除异常数据后的所有数据进行归一化处理,消除数据之间量纲和取值范围差值的影响,得到初始样本集S;
归一化公式为:
Figure BDA0002170883260000082
其中x′为待处理的数据,即油井辅助变量或动液面数据,所述油井辅助变量包括井口套压、日产水量、日产油量、日产气量、下冲程平均载荷和冲次时间,x′min为待处理数据的最小值,即油井辅助变量或动液面数据的最小值,x′max为待处理数据的最大值,即油井辅助变量或动液面数据的最大值,x*为归一化之后的数据;
本实施例中966组数据中的异常数据后得到748组数据;
步骤1.3:将初始样本集S分为训练样本和测试样本,构成训练集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xE,yE)}和测试集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)};
Figure BDA0002170883260000091
Figure BDA0002170883260000092
代表集合X中第α个d维输入变量,所述输入变量即油井辅助变量,其中,X={T,M},α代表集合X内的数据编号;
Figure BDA0002170883260000093
Figure BDA0002170883260000094
代表集合X中第α个与油井辅助变量相对应的实测动液面值;
本实施例中从748组数据的原始样本集S中选取599数据作为训练集T,149组数据作为测试集M。
步骤2:设置分类个数k,根据模糊C均值聚类(FCM)算法对训练集T进行划分,得到k个聚类划分后的训练样本集T′={TD1,TD2,…,TDj,…,TDk},其中TDj代表训练样本集内第j簇训练样本子集;如图1所示;
具体方法为:
聚类中心矩阵集合V=[v1,v2,..,vj,..,vk]迭代公式如下:
Figure BDA0002170883260000095
其中,vj代表第j个样本子集的聚类中心矩阵,uj(xi)代表第i个样本对于第j簇的隶属度,b为隶属度矩阵指数,b≥1;
隶属度矩阵U=[u1(xi),u2(xi),...,uj(xi)...,uk(xi)]的迭代公式为:
Figure BDA0002170883260000096
且uj(xi)满足以下约束条件:
Figure BDA0002170883260000097
其中,uj(xi)∈[0,1];
根据隶属度矩阵U将样本xi归入隶属度值最大的一簇中,令i=i+1重复本步骤,直至完成训练集T的划分,得到k个聚类划分后的训练样本集T′;。
步骤3:依次求取训练样本集T′中每个子集的平均值,即聚类划分后的训练子集{TD2},{TD2},...,{TDj},...,{TDk}中每个子集的平均值,根据每个子集的平均值获得k个簇的中心点C1,C2,…,Cj,…,Ck
第j簇中心点Cj的计算公式为:
Figure BDA0002170883260000101
其中sum_feature(j)表示簇j中所有样本点的特征和,sum_number(j)表示簇j中所有样本的数目;
步骤4:对聚类划分后的k个训练样本子集{TD1},{TD2},…,{TDj},…,{TDk}分别采用Bagging算法建立高斯过程回归动液面预测模型,Bagging算法集成高斯过程回归结构图如图2所示;
具体步骤为:
步骤4.1:确定Bagging集成学习算法的基学习器个数N,根据Bootstrapping算法对训练样本子集{TDi}进行N轮重取样,获得具有一定差异的Bagging训练集Dj={Dj1,Dj2,…,Djn,…,DjN};。
步骤4.2:依次求取N个Bagging训练子集{Dj1},{Dj2},…,{Djn},…,{DjN}每个簇的平均值,获得N个Bagging训练子集的中心点Cj1,Cj2,…、Cjn,…,CjN,其中Cjn表示第j簇样本子集在进行第n轮Bootstrapping重取样后获得Bagging训练子集{Din}的中心点;
中心点Cjn计算公式为:
Figure BDA0002170883260000102
其中sum_featurej(n)表示簇{Djn}中所有样本点的特征和,sum_numberj(n)表示簇{Djn}中所有样本的数目;
步骤4.3:使用平方指数函数作为高斯过程回归的协方差函数,建立Bagging训练集Dj的N个高斯过程回归动液面预测模型;
建立训练集Dj中第n个高斯过程回归动液面预测模型,具体步骤如下:
获取Bagging训练子集{Djn}={(xp,yp)|p=1,2,...,H},其中,xp∈Rd是d维输入变量即辅助变量的值,xp作为高斯过程回归动液面预测模型输入数据,yp是与xp相对应的动液面值,yp作为高斯过程回归动液面预测模型输出数据;H表示{Djn}中样本的个数;根据高斯过程的定义可知,高斯过程为:
f(x)~GP(m(x),k(xp,xφ))
其中f(x)为Rd→R隐函数,GP(*)表示高斯过程,k(xp,xφ)为协方差函数,xp和xφ是Bagging训练子集Djn内的d维输入变量即辅助变量,m(x)为均值函数,取值为0;
将噪声ε考虑到观测目标值y=[y1,y2,...,yq,...,yH]T时,可建立高斯过程回归模型,如下所示:
y=f(x)+ε
其中ε为与f(x)不相关的独立高斯白噪声,ε服从均值为0、方差为σd 2的正态分布;
新输入点处预测高斯回归过程需要选择合适的协方差函数,这里选用平方指数协方差函数,表示如下:
Figure BDA0002170883260000111
其中M=diag(l2),l为方差尺度,σf 2为信号方差;θ={M,σf 2,σd 2}为超参数。
步骤4.4:建立训练样本条件概率的负对数似然函数L(θ)
Figure BDA0002170883260000112
其中θ为超参数,y=[y1,y2,...,yq,...,yH]T,C=k+σd 2Id,k为协方差函数,σd 2为方差,Id是d阶单位矩阵,log(*)表示取对数,det(C)为C的行列式,d为输入变量的维数,对L(θ)求偏导数,使用共轭梯度法对步骤4.3中建立的N个高斯回归模型中的超参数θ进行优化;
步骤4.5:令j=j+1,重复步骤4.1至步骤4.4,直至将训练样本集T′中的所有训练样本子集都得到优化超参数后的N个高斯过程回归动液面预测模型;
步骤5:将测试样本集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)}中xq即辅助变量的值作为高斯过程回归动液面预测模型的输入,计算出xq与步骤3中k个簇的中心点的欧氏距离,将与xq欧氏距离最小的第w簇(即第w类)作为xq的归属簇,通过步骤4.3中第w簇建立的N个高斯过程回归动液面预测模型得到动液面预测结果,如图4所示;
根据贝叶斯定理计算得到测试样本点xq处预测的均值和方差:
mq=kq T(k+σd 2Id)-1y
cov(fq)=kqq-kq T(k+σd 2Id)-1kq
其中k是k(X,X)的缩写,kq是k(X,xq)的缩写,kq T是kq的转置即k(xq,X)的缩写,kqq是k(xq,xq)的缩写,X=[x1,x2,...,xp,…,xH]T,xp为训练子集{Djn}={(xp,yp)|p=1,2,...,H}中的输入变量。
具体步骤为:
步骤5.1:计算样本点xq与步骤3中k个簇的中心点C1,C2,…,Cj,…,Ck的欧式距离distfcmq1,distfcmq2…,distfcmqj,…,distfcmqk,由距离最小的中心点确定样本点xq归属于第w簇,其中w∈k;欧式距离distfcmqj计算公式为
distfcmqj=||x′q-C′j||2
其中x′q代表xq的属性值,C′j代表Cj的属性值,||*||2表示求取2范数;
步骤5.2:使用步骤4.3中第w簇的N个高斯过程回归动液面预测模型得到N个预测值
Figure BDA0002170883260000121
和N个方差
Figure BDA0002170883260000122
其中
Figure BDA0002170883260000123
为第n个高斯过程模型对于样本xq的预测值,
Figure BDA0002170883260000124
为第n个高斯过程模型对于样本xq的预测方差;
步骤5.3:计算样本xq和步骤4.2中N个Bagging训练子集的中心点Cw1,Cw2,…,Cwn,…,CwN的欧式距离distbagw1,distbagw2,…,distbagwn,…,distbagwN。;
步骤5.4:计算加权集成高斯过程模型的权重系数Wn,计算公式如下:
Figure BDA0002170883260000131
步骤5.5:由步骤5.4中的权重系数Wn,计算集成模型的动液面预测值:
Figure BDA0002170883260000132
根据动液面预测值
Figure BDA0002170883260000133
和动液面实测值yq使用平均绝对误差MAE、均方根误差RMSE和平均误差百分率MAPE进行误差分析。计算公式如下所示:
Figure BDA0002170883260000134
Figure BDA0002170883260000135
Figure BDA0002170883260000136
其中B为测试样本个数,q为正整数。
为更好地评估本发明所建立的集成高斯过程回归的动液面软测量模型的预测效果,如图5-图9所示,分别建立了单一高斯过程回归模型(GPR)、模糊C均值聚类高斯过程回归多模型(FCM-GPR)、模糊C均值聚类Bagging方差加权高斯过程回归集成模型(FCM-VAR-GPR)、模糊C均值聚类Bagging距离加权高斯过程回归集成模型(FCM-DIST-GPR)和本发明建立的模糊C均值聚类Bagging距离方差加权高斯过程回归集成模型(FCM-DISTVAR-GPR)。
模糊C均值聚类Bagging方差加权高斯过程回归集成模型中重系数Wi,计算公式如下:
Figure BDA0002170883260000137
模糊C均值聚类Bagging距离加权高斯过程回归集成模型中权重系数Wi,计算公式为:
Figure BDA0002170883260000141
5种模型预测结果对比见表1:
表1 5种模型预测评价指标对比
Figure BDA0002170883260000142
从表1中可以看出本发明建立的模糊C均值聚类Bagging距离方差加权高斯过程回归集成模型的预测性能优于其他模型。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法,其特征在于:包括如下步骤:
步骤1:采集有杆泵抽油井的井口套压、日产液量、含水率、产气量、抽油机示功图数据、冲次时间及实测动液面高度数据;计算得到下冲程平均载荷、日产油量、日产水量和冲次;对井口套压、日产油量、日产水量、产气量、下冲程平均载荷和冲次进行归一化处理,得到初始样本集S;将初始样本集S分为训练集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xE,yE)}和测试集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)};其中,
Figure FDA0002170883250000011
Figure FDA0002170883250000012
代表集合X中第α个d维输入变量,所述输入变量即油井辅助变量,其中,X={T,M},α代表集合X内的数据编号;
Figure FDA0002170883250000013
Figure FDA0002170883250000014
代表集合X中第α个与油井辅助变量相对应的实测动液面值;
步骤2:设置分类个数k,根据模糊C均值聚类算法对训练集T进行划分,得到k个聚类划分后的训练样本集T′={TD1,TD2,…,TDj,…,TDk},其中TDj代表训练样本集内第j簇训练样本子集;
具体方法为:
聚类中心矩阵集合V=[v1,v2,...,vj,...,vk]迭代公式如下:
Figure FDA0002170883250000015
其中,vj代表第j个样本子集的聚类中心矩阵,uj(xi)代表第i个样本对于第j簇的隶属度,b为隶属度矩阵指数,b≥1;
隶属度矩阵U=[u1(xi),u2(xi),...,uj(xi)...,uk(xi)]的迭代公式为:
Figure FDA0002170883250000016
且uj(xi)满足以下约束条件:
Figure FDA0002170883250000017
其中,uj(xi)∈[0,1];
根据隶属度矩阵U将样本xi归入隶属度值最大的一簇中,令i=i+1重复本步骤,直至完成训练集T的划分,得到k个聚类划分后的训练样本集T′;
步骤3:依次求取训练样本集T′中每个子集的平均值,根据每个子集的平均值获得k个簇的中心点C1,C2,…,Cj,…,Ck
第j簇中心点Cj的计算公式为:
Figure FDA0002170883250000021
其中sum_feature(j)表示簇j中所有样本点的特征和,sum_number(j)表示簇j中所有样本的数目;
步骤4:对聚类划分后的k个训练样本子集{TD1},{TD2},…,{TDj},…,{TDk}分别采用Bagging算法建立高斯过程回归动液面预测模型;
具体步骤为:
步骤4.1:确定Bagging集成学习算法的基学习器个数N,根据Bootstrapping算法对训练样本子集{TDj}进行N轮重取样,获得有差异的Bagging训练集Dj={Dj1,Dj2,…,Djn,…,DjN};
步骤4.2:依次求取N个Bagging训练子集{Dj1},{Dj2},…,{Djn},…,{DjN}每个簇的平均值,获得N个Bagging训练子集的中心点Cj1,Cj2,…、Cjn,…,CjN,其中Cjn表示第j簇样本子集在进行第n轮Bootstrapping重取样后获得Bagging训练子集{Djn}的中心点;
中心点Cjn计算公式为:
Figure FDA0002170883250000022
其中sum_featurej(n)表示簇{Djn}中所有样本点的特征和,sum_numberj(n)表示簇{Djn}中所有样本的数目;
步骤4.3:使用平方指数函数作为高斯过程回归的协方差函数,建立Bagging训练集Dj的N个高斯过程回归动液面预测模型;
建立训练集Dj中第n个高斯过程回归动液面预测模型,具体步骤如下:
获取Bagging训练子集{Djn}={(xp,yp)|p=1,2,...,H},其中,xp∈Rd是d维输入变量即辅助变量的值,xp作为高斯过程回归动液面预测模型输入数据,yp是与xp相对应的动液面值,yp作为高斯过程回归动液面预测模型输出数据;H表示{Djn}中样本的个数;高斯过程为:
f(x)~GP(m(x),k(xp,xφ))
其中f(x)为Rd→R隐函数,GP(*)表示高斯过程,k(xp,xφ)为协方差函数,xp和xφ是Bagging训练子集Djn内的d维输入变量即辅助变量,m(x)为均值函数,取值为0;
将噪声ε考虑到观测目标值y=[y1,y2,...,yq,...,yH]T时,可建立高斯过程回归模型,如下所示:
y=f(x)+ε
其中ε为与f(x)不相关的独立高斯白噪声,ε服从均值为0、方差为σd 2的正态分布;
高斯回归过程选用平方指数协方差函数,表示如下:
Figure FDA0002170883250000031
其中M=diag(l2),l为方差尺度,σf 2为信号方差;θ={M,σf 2,σd 2}为超参数;
步骤4.4:建立训练样本条件概率的负对数似然函数L(θ)
Figure FDA0002170883250000032
其中θ为超参数,y=[y1,y2,...,yq,...,yH]T,C=k+σd 2Id,k为协方差函数,σd 2为方差,Id是d阶单位矩阵,log(*)表示取对数,det(C)为C的行列式,d为输入变量的维数,对L(θ)求偏导数,使用共轭梯度法对步骤4.3中建立的N个高斯回归模型中的超参数θ进行优化;
步骤4.5:令j=j+1,重复步骤4.1至步骤4.4,直至将训练样本集T′中的所有训练样本子集都得到优化超参数后的N个高斯过程回归动液面预测模型;
步骤5:将测试样本集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)}中xq作为高斯过程回归动液面预测模型的输入,计算出xq与步骤3中k个簇的中心点的欧氏距离,将与xq欧氏距离最小的第w簇作为xq的归属簇,通过步骤4.3中第w簇建立的N个高斯过程回归动液面预测模型得到动液面预测结果。
2.根据权利要求1所述的一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法,其特征在于:所述步骤1的具体步骤如下:
步骤1.1:根据采集到的示功图数据计算下冲程平均载荷;由日产液量和含水率计算得到日产油量和日产水量;将冲次时间转化为冲次;
根据几何平均法计算下冲程平均载荷F,公式为:
Figure FDA0002170883250000041
其中,m为下冲程中数据采集个数,fi为第i个采样点的载荷数据,li为第i个采样点对应的位移,L为冲程;
日产水量Qwater和日产油量Qoil计算公式:
Qwater=η*Qliquid
Qoil=(1-η)*Qliquid
其中Qliquid为日产液量,η为含水率;
根据冲次时间Ts计算冲次s的公式为
s=60/Ts
步骤1.2:使用箱形图法剔除原始样本集中的异常数据,并对剔除异常数据后的所有数据进行归一化处理,得到初始样本集S;
归一化公式为:
Figure FDA0002170883250000042
其中x′为待处理的数据,即油井辅助变量或动液面数据,所述油井辅助变量包括井口套压、日产水量、日产油量、日产气量、下冲程平均载荷和冲次时间,x′min为待处理数据的最小值,即油井辅助变量或动液面数据的最小值,x′max为待处理数据的最大值,即油井辅助变量或动液面数据的最大值,x*为归一化之后的数据;
步骤1.3:将初始样本集S分为训练样本和测试样本,构成训练集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xE,yE)}和测试集M={(x1,y1),(x2,y2),…,(xq,yq),…,(xB,yB)}。
3.根据权利要求1所述的一种基于集成高斯过程回归的有杆泵抽油井动液面软测量
方法,其特征在于:所述步骤5的具体步骤为:
步骤5.1:计算样本点xq与步骤3中k个簇的中心点C1,C2,…,Cj,…,Ck的欧式距离distfcmq1,distfcmq2…,distfcmqj,…,distfcmqk,由距离最小的中心点确定样本点xq归属于第w簇,其中w∈k;欧式距离distfcmqj计算公式为
distfcmqj=||x′q-C′j||2
其中x′q代表xq的属性值,C′j代表Cj的属性值,||*||2表示求取2范数;
步骤5.2:使用步骤4.3中第w簇的N个高斯过程回归动液面预测模型得到N个预测值
Figure FDA0002170883250000051
和N个方差
Figure FDA0002170883250000052
其中
Figure FDA0002170883250000053
为第n个高斯过程模型对于样本xq的预测值,
Figure FDA0002170883250000054
为第n个高斯过程模型对于样本xq的预测方差;
步骤5.3:计算样本xq和步骤4.2中N个Bagging训练子集的中心点Cw1,Cw2,…,Cwn,…,CwN的欧式距离distbagw1,distbagw2,…,distbagwn,…,distbagwN
步骤5.4:计算加权集成高斯过程模型的权重系数Wn,计算公式如下:
Figure FDA0002170883250000055
步骤5.5:由步骤5.4中的权重系数Wn,计算集成模型的动液面预测值:
Figure FDA0002170883250000056
CN201910762684.1A 2019-08-19 2019-08-19 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法 Active CN110472689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910762684.1A CN110472689B (zh) 2019-08-19 2019-08-19 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910762684.1A CN110472689B (zh) 2019-08-19 2019-08-19 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法

Publications (2)

Publication Number Publication Date
CN110472689A CN110472689A (zh) 2019-11-19
CN110472689B true CN110472689B (zh) 2022-11-15

Family

ID=68511045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910762684.1A Active CN110472689B (zh) 2019-08-19 2019-08-19 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法

Country Status (1)

Country Link
CN (1) CN110472689B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395730A (zh) * 2019-08-12 2021-02-23 北京国双科技有限公司 一种确定抽油机井的动液面深度参数的方法及装置
CN112943224B (zh) * 2019-12-11 2023-02-07 中国石油化工股份有限公司 稠油井动液面的计算方法
CN113012766B (zh) * 2021-04-27 2022-07-19 昆明理工大学 一种基于在线选择性集成的自适应软测量建模方法
CN115434690B (zh) * 2021-06-04 2024-05-14 中国科学院沈阳自动化研究所 基于贝叶斯的抽油机无监督在线突变点检测及融合方法
CN117689913A (zh) * 2022-12-14 2024-03-12 中国科学院沈阳自动化研究所 一种大数据驱动的油井动液面软测量方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012050262A1 (ko) * 2010-10-15 2012-04-19 한국전력공사 에프에스브이알과 지엘알티를 이용한 발전소 계측기 성능감시 방법 및 시스템
CN107451101A (zh) * 2017-07-21 2017-12-08 江南大学 一种分层集成的高斯过程回归软测量建模方法
CN108805215A (zh) * 2018-06-19 2018-11-13 东北大学 基于改进果蝇算法的有杆泵抽油井动态液位软测量方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205224B (zh) * 2015-08-28 2018-10-30 江南大学 基于模糊曲线分析的时间差高斯过程回归软测量建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012050262A1 (ko) * 2010-10-15 2012-04-19 한국전력공사 에프에스브이알과 지엘알티를 이용한 발전소 계측기 성능감시 방법 및 시스템
CN107451101A (zh) * 2017-07-21 2017-12-08 江南大学 一种分层集成的高斯过程回归软测量建模方法
CN108805215A (zh) * 2018-06-19 2018-11-13 东北大学 基于改进果蝇算法的有杆泵抽油井动态液位软测量方法

Also Published As

Publication number Publication date
CN110472689A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472689B (zh) 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法
CN112001270B (zh) 基于一维卷积神经网络的地面雷达自动目标分类识别方法
CN110029986B (zh) 基于粒子群极限学习机的游梁式抽油机的动液面预测方法
CN107463993B (zh) 基于互信息-核主成分分析-Elman网络的中长期径流预报方法
CN112083498B (zh) 一种基于深度神经网络的多波地震油气储层预测方法
CN111768000A (zh) 在线自适应微调深度学习的工业过程数据建模方法
CN104807589B (zh) 一种集输-立管系统内气液两相流流型的在线识别方法
CN111122162B (zh) 基于欧氏距离多尺度模糊样本熵的工业系统故障检测方法
CN111985610A (zh) 一种基于时序数据的抽油机井泵效预测系统和方法
CN115758212A (zh) 一种基于并行网络和迁移学习的机械设备故障诊断方法
CN114564982A (zh) 雷达信号调制类型的自动识别方法
CN111915022B (zh) 滑移式岩溶危岩稳定系数快速识别的高斯过程方法及装置
CN114662414A (zh) 一种基于图小波神经网络模型的油藏生产预测方法
CN110260914B (zh) 一种基于测点时空特征的工程安全监测系统区域划分方法
CN114358434A (zh) 基于lstm循环神经网络模型的钻井机械钻速预测方法
CN113378998B (zh) 一种基于机器学习的地层岩性随钻识别方法
Gond et al. A survey of machine learning-based approaches for missing value imputation
CN113344099B (zh) 一种基于变分自编码器的机械设备退化点识别方法和系统
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置
CN116303626B (zh) 一种基于特征优化和在线学习的固井泵压预测方法
CN110701487B (zh) 一种基于KPCA和Cas-SVDD的多工况管道泄漏检测方法
CN114819260A (zh) 一种水文时间序列预测模型动态生成方法
CN109630092B (zh) 一种基于数据的抽油井泵效多模型软测量方法
CN113449920A (zh) 一种风电功率预测方法、系统及计算机可读介质
CN112749807A (zh) 一种基于生成模型的量子态层析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant