CN110472689B

CN110472689B - 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法

Info

Publication number: CN110472689B
Application number: CN201910762684.1A
Authority: CN
Inventors: 高宪文; 赵荣昌; 王明顺; 张逸帆
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-11-15
Anticipated expiration: 2039-08-19
Also published as: CN110472689A

Abstract

本发明提供一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法，涉及油田软测量技术领域。本方法为：采集数据；将数据归一化后得到训练集和测试集；设置分类个数k，根据模糊C均值聚类算法得到训练集T的k个聚类划分后的训练样本集T′；依次求取训练样本集中每个子集的平均值，根据平均值获得k个簇的中心点；对每个训练样本子集建立高斯过程回归动液面预测模型；将测试样本集中x_q作为动液面预测模型的输入，计算出x_q与k个簇的中心点的欧氏距离，将欧氏距离最小的作为x_q的归属簇，建立的N个高斯过程回归动液面预测模型得到动液面预测结果。本方法易于实际工程实现，经济成本低，进一步提高了软测量模型的最终估计精度。

Description

基于集成高斯过程回归的有杆泵抽油井动液面软测量方法

技术领域

本发明涉及油田软测量技术领域，尤其涉及一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法。

背景技术

油井动液面深度的测量是油田生产中非常重要的一个环节，动液面深度测量的精度影响着油井工作制度主要参数的确定，准确测量油井动液面深度对提高采收率十分重要。通过油井的油井动液面深度，可以了解油井的供液能力，确定抽油泵的沉没深度和合理冲次等抽汲参数，进而提高油田采收率，降低开采成本。

目前各大油田中，大都利用回声仪进行测量。这种测量方法自动化程度低，受人为因素影响大，不能连续测量。当井下液面较深或套压为零时，回声法受到仪器的性能限制，难以测定井下液面的准确深度。另外油井出现泡沫段或者结蜡时，易得到“假液面”。同时因为油井数量非常多，工作量十分大，效率低，不能及时掌握油井的工作状况，已经不能满足油田的生产发展需求。因此有必要将软测量技术引入到油井动液面高度测量中，建立泛化能力强的软测量模型实现对油井动液面高度的间接测量。

近年来，相关领域专家学者陆续提出采用各种方法来实现对动液面的测量，特别是以统计学和运筹学为基础的数学方法更是倍受关注。使用统计学理论对大量的历史生产数据进行分析，采用软测量建模技术对动液面高度进行预测。只需要一些容易测得的辅助变量数据，受测量环境限制影响小，经济成本低，实时性好。当地层能量波动、油井工况发生变化时，单一模型训练时间较长，预测精度降低。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法，本方法易于实际工程实现，经济成本低，且综合考虑样本点隶属度和子模型预测可信度，进一步提高了软测量模型的最终估计精度。

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法，包括如下步骤：

步骤1：采集有杆泵抽油井的井口套压、日产液量、含水率、产气量、抽油机示功图数据、冲次时间及实测动液面高度数据；计算得到下冲程平均载荷、日产油量、日产水量和冲次；对井口套压、日产油量、日产水量、产气量、下冲程平均载荷和冲次进行归一化处理，得到初始样本集S；将初始样本集S分为训练集T＝{(x₁，y₁)，(x₂，y₂)，…，(x_i，y_i)，…，(x_E，y_E)}和测试集M＝{(x₁，y₁)，(x₂，y₂)，…，(x_q，y_q)，…，(x_B，y_B)}；其中，

代表集合X中第α个d维输入变量，所述输入变量即油井辅助变量，其中，X＝{T，M}，α代表集合X内的数据编号；

代表集合X中第α个与油井辅助变量相对应的实测动液面值；

步骤2：设置分类个数k，根据模糊C均值聚类算法对训练集T进行划分，得到k个聚类划分后的训练样本集T′＝{TD₁，TD₂，…，TD_j，…，TD_k}，其中TD_j代表训练样本集内第j簇训练样本子集；

具体方法为：

聚类中心矩阵集合V＝[v₁，v₂，..，v_j，..，v_k]迭代公式如下：

其中，v_j代表第j个样本子集的聚类中心矩阵，u_j(x_i)代表第i个样本对于第j簇的隶属度，b为隶属度矩阵指数，b≥1；

隶属度矩阵U＝[u₁(x_i)，u₂(x_i)，...，u_j(x_i)...，u_k(x_i)]的迭代公式为：

且u_j(x_i)满足以下约束条件：

其中，u_j(x_i)∈[0，1]；

根据隶属度矩阵U将样本x_i归入隶属度值最大的一簇中，令i＝i+1重复本步骤，直至完成训练集T的划分，得到k个聚类划分后的训练样本集T′；

步骤3：依次求取训练样本集T′中每个子集的平均值，根据每个子集的平均值获得k个簇的中心点C₁，C₂，…，C_j，…，C_k；

第j簇中心点C_j的计算公式为：

其中sum_feature(j)表示簇j中所有样本点的特征和，sum_number(j)表示簇j中所有样本的数目；

步骤4：对聚类划分后的k个训练样本子集{TD₁}，{TD₂}，…，{TD_j}，…，{TD_k}分别采用Bagging算法建立高斯过程回归动液面预测模型；

具体步骤为：

步骤4.1：确定Bagging集成学习算法的基学习器个数N，根据Bootstrapping算法对训练样本子集{TD_j}进行N轮重取样，获得有差异的Bagging训练集D_j＝{D_j1，D_j2，…，D_jn，…，D_jN}；

步骤4.2：依次求取N个Bagging训练子集{D_j1}，{D_j2}，…，{D_jn}，…，{D_jN}每个簇的平均值，获得N个Bagging训练子集的中心点C_j1，C_j2，…、C_jn，...，C_jN，其中C_jn表示第j簇样本子集在进行第n轮Bootstrapping重取样后获得Bagging训练子集{D_jn}的中心点；

中心点C_jn计算公式为：

其中sum_featurej(n)表示簇{D_jn}中所有样本点的特征和，sum_numberj(n)表示簇{D_jn}中所有样本的数目；

步骤4.3：使用平方指数函数作为高斯过程回归的协方差函数，建立Bagging训练集D_j的N个高斯过程回归动液面预测模型；

建立训练集D_j中第n个高斯过程回归动液面预测模型，具体步骤如下：

获取Bagging训练子集{D_jn}＝{(x_p，y_p)|_p＝1，2，...，H}，其中，x_p∈R^d是d维输入变量即辅助变量的值，x_p作为高斯过程回归动液面预测模型输入数据，y_p是与x_p相对应的动液面值，y_p作为高斯过程回归动液面预测模型输出数据；H表示{D_jn}中样本的个数；高斯过程为：

f(x)～GP(m(x)，k(x_p，x_φ))

其中f(x)为R^d→R隐函数，GP(*)表示高斯过程，k(x_p，x_φ)为协方差函数，x_p和x_φ是Bagging训练子集D_jn内的d维输入变量即辅助变量，m(x)为均值函数，取值为0；

将噪声ε考虑到观测目标值y＝[y₁，y₂，...，y_q，...，y_H]^T时，可建立高斯过程回归模型，如下所示：

y＝f(x)+ε

其中ε为与f(x)不相关的独立高斯白噪声，ε服从均值为0、方差为σd²的正态分布；

高斯回归过程选用平方指数协方差函数，表示如下：

其中M＝diag(l²)，l为方差尺度，σ_f ²为信号方差；θ＝{M，σ_f ²，σ_d ²}为超参数；

步骤4.4：建立训练样本条件概率的负对数似然函数L(θ)

其中θ为超参数，y＝[y₁，y₂，...，y_q，...，y_H]^T，C＝k+σ_d ²I_d，k为协方差函数，σ_d ²为方差，I_d是d阶单位矩阵，log(*)表示取对数，det(C)为C的行列式，d为输入变量的维数，对L(θ)求偏导数，使用共轭梯度法对步骤4.3中建立的N个高斯回归模型中的超参数θ进行优化；

步骤4.5：令j＝j+1，重复步骤4.1至步骤4.4，直至将训练样本集T′中的所有训练样本子集都得到优化超参数后的N个高斯过程回归动液面预测模型；

步骤5：将测试样本集M＝{(x₁，y₁)，(x₂，y₂)，…，(x_q，y_q)，…，(x_B，y_B)}中x_q作为高斯过程回归动液面预测模型的输入，计算出x_q与步骤3中k个簇的中心点的欧氏距离，将与x_q欧氏距离最小的第w簇作为x_q的归属簇，通过步骤4.3中第w簇建立的N个高斯过程回归动液面预测模型得到动液面预测结果。

所述步骤1的具体步骤如下：

步骤1.1：根据采集到的示功图数据计算下冲程平均载荷；由日产液量和含水率计算得到日产油量和日产水量；将冲次时间转化为冲次；

根据几何平均法计算下冲程平均载荷F，公式为：

其中，m为下冲程中数据采集个数，f_i为第i个采样点的载荷数据，l_i为第i个采样点对应的位移，L为冲程；

日产水量Q_water和日产油量Q_oil计算公式：

Q_water＝η*Q_liquid

Q_oil＝(1-η)*Q_liquid

其中Q_liouid为日产液量，η为含水率；

根据冲次时间Ts计算冲次s的公式为

s＝60/Ts

步骤1.2：使用箱形图法剔除原始样本集中的异常数据，并对剔除异常数据后的所有数据进行归一化处理，得到初始样本集S；

归一化公式为：

其中x′为待处理的数据，即油井辅助变量或动液面数据，所述油井辅助变量包括井口套压、日产水量、日产油量、日产气量、下冲程平均载荷和冲次时间，x′_min为待处理数据的最小值，即油井辅助变量或动液面数据的最小值，x′_max为待处理数据的最大值，即油井辅助变量或动液面数据的最大值，x^*为归一化之后的数据；

步骤1.3：将初始样本集S分为训练样本和测试样本，构成训练集T＝{(x₁，y₁)，(x₂，y₂)，…，(x_i，y_i)，…，(x_E，y_E)}和测试集M＝{(x₁，y₁)，(x₂，y₂)，…，(x_q，y_q)，…，(x_B，y_B)}。

所述步骤5的具体步骤为：

步骤5.1：计算样本点x_q与步骤3中k个簇的中心点C₁，C₂，…，C_j，…，C_k的欧式距离distfcm_q1，distfcm_q2…，distfcm_qj，…，distfcm_qk，由距离最小的中心点确定样本点x_q归属于第w簇，其中w∈k；欧式距离distfcm_qj计算公式为

distfcm_qj＝||x′_q-C′_j||₂

其中x′_q代表x_q的属性值，C′_j代表C_j的属性值，||*||₂表示求取2范数；

步骤5.2：使用步骤4.3中第w簇的N个高斯过程回归动液面预测模型得到N个预测值

和N个方差

其中

为第n个高斯过程模型对于样本x_q的预测值，

为第n个高斯过程模型对于样本x_q的预测方差；

步骤5.3：计算样本x_q和步骤4.2中N个Bagging训练子集的中心点C_w1，C_w2，…，C_wn，…，C_wN的欧式距离distbagw₁，distbag_w2，…，distbag_wn，…，distbag_wN；

步骤5.4：计算加权集成高斯过程模型的权重系数W_n，计算公式如下：

步骤5.5：由步骤5.4中的权重系数W_n，计算集成模型的动液面预测值：

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法，本方法使用模糊C均值聚类算法对原始样本划分，建立多个高斯过程回归子模型，从而减小地层能量波动、油井工况发生变化引起的误差，提高了模型的预测精度和稳定性。在Bagging算法集成输出预测值时，使用高斯过程模型预测方差与样本点距样本集中心点距离参与权重系数计算，综合考虑样本点隶属度和子模型预测可信度，进一步提高了软测量模型的最终估计精度。且本方法仅需要动液面历史数据和相关辅助变量信息，不需要增加硬件设备，易于实际工程实现，经济成本低。

附图说明

图1为本发明实施例提供的模糊C均值聚类集成高斯过程回归动液面软测量模型结构图；

图2为本发明实施例提供的Bagging算法集成高斯过程回归结构图；

图3为本发明实施例提供的基于集成高斯过程回归的有杆泵抽油井动液面软测量方法流程图；

图4为本发明实施例提供的输入测试集预测模型应用阶段流程图；

图5为本发明实施例提供的单一高斯过程回归模型动液面预测值与实际值对比图；

图6为本发明实施例提供的模糊C均值聚类高斯过程回归多模型预测值与实际值对比图；

图7为本发明实施例提供的模糊C均值聚类Bagging方差加权高斯过程回归集成模型预测值与实际值对比图；

图8为本发明实施例提供的模糊C均值聚类Bagging距离加权高斯过程回归集成模型预测值与实际值对比图；

图9为本发明实施例提供的模糊C均值聚类划分Bagging距离方差加权高斯过程回归集成模型预测值与实际值对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图3所示，本实施例的方法如下所述。

代表集合X中第α个与油井辅助变量相对应的实测动液面值；

本发明中井口套压由油井树上的压力表测量得到，日产液量由玻璃管量油法测出，取样化验液柱测得含水率；由天然气计量仪表计量出产气量；根据示功图采集仪获得示功图数据，由接近开关获得冲次时间；本实施实例中，由油井综合记录报表和示功图采集仪选取了966组数据；

具体步骤如下：

根据几何平均法计算下冲程平均载荷F，公式为：

日产水量Q_water和日产油量Q_oil计算公式：

Q_water＝η*Q_liquid

Q_oil＝(1-η)*Q_liquid

其中Q_liquid为日产液量，η为含水率；

根据冲次时间Ts计算冲次s的公式为

s＝60/Ts

步骤1.2：使用箱形图法剔除原始样本集中的异常数据，并对剔除异常数据后的所有数据进行归一化处理，消除数据之间量纲和取值范围差值的影响，得到初始样本集S；

归一化公式为：

本实施例中966组数据中的异常数据后得到748组数据；

步骤1.3：将初始样本集S分为训练样本和测试样本，构成训练集T＝{(x₁，y₁)，(x₂，y₂)，…，(x_i，y_i)，…，(x_E，y_E)}和测试集M＝{(x₁，y₁)，(x₂，y₂)，…，(x_q，y_q)，…，(x_B，y_B)}；

代表集合X中第α个与油井辅助变量相对应的实测动液面值；

本实施例中从748组数据的原始样本集S中选取599数据作为训练集T，149组数据作为测试集M。

步骤2：设置分类个数k，根据模糊C均值聚类(FCM)算法对训练集T进行划分，得到k个聚类划分后的训练样本集T′＝{TD₁，TD₂，…，TD_j，…，TD_k}，其中TD_j代表训练样本集内第j簇训练样本子集；如图1所示；

具体方法为：

且u_j(x_i)满足以下约束条件：

其中，u_j(x_i)∈[0，1]；

根据隶属度矩阵U将样本x_i归入隶属度值最大的一簇中，令i＝i+1重复本步骤，直至完成训练集T的划分，得到k个聚类划分后的训练样本集T′；。

步骤3：依次求取训练样本集T′中每个子集的平均值，即聚类划分后的训练子集{TD₂}，{TD₂}，...，{TD_j}，...，{TD_k}中每个子集的平均值，根据每个子集的平均值获得k个簇的中心点C₁，C₂，…，C_j，…，C_k；

第j簇中心点C_j的计算公式为：

步骤4：对聚类划分后的k个训练样本子集{TD₁}，{TD₂}，…，{TD_j}，…，{TD_k}分别采用Bagging算法建立高斯过程回归动液面预测模型，Bagging算法集成高斯过程回归结构图如图2所示；

具体步骤为：

步骤4.1：确定Bagging集成学习算法的基学习器个数N，根据Bootstrapping算法对训练样本子集{TD_i}进行N轮重取样，获得具有一定差异的Bagging训练集D_j＝{D_j1，D_j2，…，D_jn，…，D_jN}；。

步骤4.2：依次求取N个Bagging训练子集{D_j1}，{D_j2}，…，{D_jn}，…，{D_jN}每个簇的平均值，获得N个Bagging训练子集的中心点C_j1，C_j2，…、C_jn，…，C_jN，其中C_jn表示第j簇样本子集在进行第n轮Bootstrapping重取样后获得Bagging训练子集{D_in}的中心点；

中心点C_jn计算公式为：

获取Bagging训练子集{D_jn}＝{(x_p，y_p)|p＝1，2，...，H}，其中，x_p∈R^d是d维输入变量即辅助变量的值，x_p作为高斯过程回归动液面预测模型输入数据，y_p是与x_p相对应的动液面值，y_p作为高斯过程回归动液面预测模型输出数据；H表示{D_jn}中样本的个数；根据高斯过程的定义可知，高斯过程为：

f(x)～GP(m(x)，k(x_p，x_φ))

y＝f(x)+ε

其中ε为与f(x)不相关的独立高斯白噪声，ε服从均值为0、方差为σ_d ²的正态分布；

新输入点处预测高斯回归过程需要选择合适的协方差函数，这里选用平方指数协方差函数，表示如下：

其中M＝diag(l²)，l为方差尺度，σ_f ²为信号方差；θ＝{M，σ_f ²，σ_d ²}为超参数。

步骤4.4：建立训练样本条件概率的负对数似然函数L(θ)

步骤5：将测试样本集M＝{(x₁，y₁)，(x₂，y₂)，…，(x_q，y_q)，…，(x_B，y_B)}中x_q即辅助变量的值作为高斯过程回归动液面预测模型的输入，计算出x_q与步骤3中k个簇的中心点的欧氏距离，将与x_q欧氏距离最小的第w簇(即第w类)作为x_q的归属簇，通过步骤4.3中第w簇建立的N个高斯过程回归动液面预测模型得到动液面预测结果，如图4所示；

根据贝叶斯定理计算得到测试样本点x_q处预测的均值和方差：

m_q＝k_q ^T(k+σ_d ²I_d)^-1y

cov(f_q)＝k_qq-k_q ^T(k+σ_d ²I_d)^-1k_q

其中k是k(X，X)的缩写，k_q是k(X，x_q)的缩写，k_q ^T是k_q的转置即k(x_q，X)的缩写，k_qq是k(x_q，x_q)的缩写，X＝[x₁，x₂，...，x_p，…，x_H]^T，x_p为训练子集{D_jn}＝{(x_p，y_p)|p＝1，2，...，H}中的输入变量。

具体步骤为：

distfcm_qj＝||x′_q-C′_j||₂

和N个方差

其中

为第n个高斯过程模型对于样本x_q的预测值，

为第n个高斯过程模型对于样本x_q的预测方差；

步骤5.3：计算样本x_q和步骤4.2中N个Bagging训练子集的中心点C_w1，C_w2，…，C_wn，…，C_wN的欧式距离distbag_w1，distbag_w2，…，distbag_wn，…，distbag_wN。；

根据动液面预测值

和动液面实测值y_q使用平均绝对误差MAE、均方根误差RMSE和平均误差百分率MAPE进行误差分析。计算公式如下所示：

其中B为测试样本个数，q为正整数。

为更好地评估本发明所建立的集成高斯过程回归的动液面软测量模型的预测效果，如图5-图9所示，分别建立了单一高斯过程回归模型(GPR)、模糊C均值聚类高斯过程回归多模型(FCM-GPR)、模糊C均值聚类Bagging方差加权高斯过程回归集成模型(FCM-VAR-GPR)、模糊C均值聚类Bagging距离加权高斯过程回归集成模型(FCM-DIST-GPR)和本发明建立的模糊C均值聚类Bagging距离方差加权高斯过程回归集成模型(FCM-DISTVAR-GPR)。

模糊C均值聚类Bagging方差加权高斯过程回归集成模型中重系数W_i，计算公式如下：

模糊C均值聚类Bagging距离加权高斯过程回归集成模型中权重系数W_i，计算公式为：

5种模型预测结果对比见表1：

表1 5种模型预测评价指标对比

从表1中可以看出本发明建立的模糊C均值聚类Bagging距离方差加权高斯过程回归集成模型的预测性能优于其他模型。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法，其特征在于：包括如下步骤：

步骤1：采集有杆泵抽油井的井口套压、日产液量、含水率、产气量、抽油机示功图数据、冲次时间及实测动液面高度数据；计算得到下冲程平均载荷、日产油量、日产水量和冲次；对井口套压、日产油量、日产水量、产气量、下冲程平均载荷和冲次进行归一化处理，得到初始样本集S；将初始样本集S分为训练集T＝{(x₁,y₁)，(x₂,y₂),…,(x_i,y_i),…,(x_E,y_E)}和测试集M＝{(x₁,y₁)，(x₂,y₂),…,(x_q,y_q),…,(x_B,y_B)}；其中，

代表集合X中第α个d维输入变量，所述输入变量即油井辅助变量，其中，X＝{T,M}，α代表集合X内的数据编号；

代表集合X中第α个与油井辅助变量相对应的实测动液面值；

步骤2：设置分类个数k，根据模糊C均值聚类算法对训练集T进行划分，得到k个聚类划分后的训练样本集T′＝{TD₁,TD₂,…,TD_j,…,TD_k}，其中TD_j代表训练样本集内第j簇训练样本子集；

具体方法为：

聚类中心矩阵集合V＝[v₁，v₂，...，v_j，...，v_k]迭代公式如下：

且u_j(x_i)满足以下约束条件：

其中，u_j(x_i)∈[0，1]；

第j簇中心点C_j的计算公式为：

具体步骤为：

步骤4.2：依次求取N个Bagging训练子集{D_j1}，{D_j2}，…，{D_jn}，…，{D_jN}每个簇的平均值，获得N个Bagging训练子集的中心点C_j1，C_j2，…、C_jn，…，C_jN,其中C_jn表示第j簇样本子集在进行第n轮Bootstrapping重取样后获得Bagging训练子集{D_jn}的中心点；

中心点C_jn计算公式为：

获取Bagging训练子集{D_jn}＝{(x_p，y_p)|p＝1，2，...，H}，其中，x_p∈R^d是d维输入变量即辅助变量的值，x_p作为高斯过程回归动液面预测模型输入数据，y_p是与x_p相对应的动液面值，y_p作为高斯过程回归动液面预测模型输出数据；H表示{D_jn}中样本的个数；高斯过程为：

f(x)～GP(m(x)，k(x_p，x_φ))

y＝f(x)+ε

高斯回归过程选用平方指数协方差函数，表示如下：

步骤4.4：建立训练样本条件概率的负对数似然函数L(θ)

步骤5：将测试样本集M＝{(x₁,y₁)，(x₂,y₂),…,(x_q,y_q),…,(x_B,y_B)}中x_q作为高斯过程回归动液面预测模型的输入，计算出x_q与步骤3中k个簇的中心点的欧氏距离，将与x_q欧氏距离最小的第w簇作为x_q的归属簇，通过步骤4.3中第w簇建立的N个高斯过程回归动液面预测模型得到动液面预测结果。

2.根据权利要求1所述的一种基于集成高斯过程回归的有杆泵抽油井动液面软测量方法，其特征在于：所述步骤1的具体步骤如下：

根据几何平均法计算下冲程平均载荷F，公式为：