CN116187178A

CN116187178A - 产量公式与机器学习双驱动的油井产量预测方法及系统

Info

Publication number: CN116187178A
Application number: CN202310060712.1A
Authority: CN
Inventors: 董银涛; 丁祖鹏; 卢川; 宋来明; 邱凌; 陈冠中; 王帅; 杨烁; 种秦婉
Original assignee: Beijing Research Center of CNOOC China Ltd; CNOOC China Ltd
Current assignee: Beijing Research Center of CNOOC China Ltd; CNOOC China Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-05-30

Abstract

本发明公开了一种产量公式与机器学习双驱动的油井产量预测方法，本发明基于机器学习算法eXtreme Gradient Boosting(XGBoost)，结合边水油藏定向井产量公式，推导具有产量公式约束的XGBoost算法目标函数，形成一种产量公式与机器学习双驱动的油井产量预测方法。本发明通过优选目标函数中的权重因子λ，可使产量预测模型根据数据集的数据分布特点，在完全基于渗流理论的产量公式以及完全由数据驱动的XGBoost算法两者间取得平衡，并获得最优预测精度，指导油井产量的高效、准确预测。

Description

产量公式与机器学习双驱动的油井产量预测方法及系统

技术领域

本发明涉及油气田开发领域，具体是关于一种产量公式与机器学习双驱动的油井产量预测方法及系统。

背景技术

油井产量是决定油田开发方案制定与配套工程设施建设规模的关键指标。目前，预测油井产量的方法可分为两类：基于渗流理论的产量公式、数值模拟、试井测试等方法，以及数据驱动的机器学习等方法。其中，基于渗流理论的产量预测方法，运用数学模型直接表征已知渗流机理，从而预测油井产量，此类方法严格遵循公式表征的渗流规律，且具有明确的物理意义。数据驱动的机器学习方法，基于油田开发积累的丰富数据直接建立模型，可以准确、高效地表征产量及其影响因素间的非线性关系，并实现油井产量预测。

但是，单一基于渗流理论或数据驱动的产量预测方法均存在局限性。油井产量的影响因素众多，且各因素与产量间呈较强的非线性关系，基于渗流机理难以建立精确的数学表征模型，对复杂现实情况的适用性有限。而基于数据驱动的机器学习方法的，一般直接拟合数据并建立其规律表征模型，从而预测油井产量，但该模型无法用渗流理论解释，导致该方法的可解释性较差，降低了其可信度。

发明内容

本发明的目的是提供产量公式与机器学习双驱动的油井产量预测方法及系统，以解决上述背景技术中基于渗流理论的油井产量预测方法对复杂现实情况适用性有限的问题，以及数据驱动的油井产量预测方法可信度低的问题。

为实现上述目的，本发明采取以下技术方案：

一种产量公式与机器学习双驱动的油井产量预测方法，包括如下步骤：

选定符合油藏类型及井型适用的油井产量公式；

采集总数据集，将所述总数据集分为训练集、验证集与测试集；

用所述油井产量公式替换XGBoost算法的损失函数中的产量实际值，得到所述油井产量公式与所述XGBoost算法的损失函数相结合的公式；

引入权重因子λ，将所述油井产量公式与所述XGBoost算法的损失函数结合后获得的公式与XGBoost算法的损失函数加权求和，并结合正则项，得到适用于油井产量预测的XGBoost算法目标函数；

基于所述训练集的数据，使用所述适用于油井产量预测的XGBoost算法目标函数，训练产量预测模型；

使用所述验证集的数据检验模型精度，采用网格搜索方法，确定模型的最优超参数，采用最优的超参数组合建立油井产量预测模型，其中，所述最优超参数包括：决策树的个数、每棵决策树的最大深度和所述权重因子λ；

将所述测试集的数据输入所述油井产量预测模型，预测油井产量。

所述的产量公式与机器学习双驱动的油井产量预测方法，优选地，所述的油藏类型及井型为边水油藏定向井。

所述的产量公式与机器学习双驱动的油井产量预测方法，优选地，所述总数据集包括水平方向渗透率、油层有效厚度、生产压差、综合校正系数、地层原油粘度、地层原油体积系数、供液半径、油井半径、油井表皮系数和油井产量。

所述产量公式与机器学习双驱动的油井产量预测方法，优选地，所述的油井产量公式为：

式中：

q——油井产量，m³/d；

K_h——水平方向渗透率，mD；

h——油层有效厚度，m；

ΔP——生产压差，MPa；

C——综合校正系数，小数；

μ_o——地层原油粘度，mPa·s；

B_o——地层原油体积系数，小数；

r_e——供液半径，m；

r_w——油井半径，m；

S——油井表皮系数，小数。

所述产量公式与机器学习双驱动的油井产量预测方法，优选地，所述的XGBoost算法的损失函数为：

油井产量公式与所述XGBoost算法的损失函数相结合的公式为：

式中：

i——数据的序号；

k——回归树的序号；

l——损失函数；

y——真实值；

——预测值；

K_hi——第i组数据的水平方向渗透率，mD；

B_oi——第i组数据的地层原油体积系数，小数；

r_ei——第i组数据的供液半径，m；

r_wi——第i组数据的油井半径，m；

μ_oi——第i组数据的地层原油粘度，mPa·s。

所述产量公式与机器学习双驱动的油井产量预测方法，优选地，所述的油井产量预测的XGBoost算法目标函数为：

式中：

λ——权重因子；

L_D——结合产量公式的目标函数；

Ω(f_k)——正则项，是模型复杂度的惩罚项。

一种产量公式与机器学习双驱动的油井产量预测系统，包括：

第一处理单元，用于选定符合油藏类型及井型适用的油井产量公式；

第二处理单元，采集总数据集，将所述总数据集分为训练集、验证集与测试集；

第三处理单元，用于利用所述油井产量公式替换XGBoost算法的损失函数中的产量实际值，得到所述油井产量公式与所述XGBoost算法的损失函数相结合的公式；

第四处理单元，用于引入权重因子λ，将所述油井产量公式与所述XGBoost算法的损失函数结合后获得的公式与XGBoost算法的损失函数加权求和，并结合正则项，得到适用于油井产量预测的XGBoost算法目标函数；

第五处理单元，基于所述训练集的数据，使用所述适用于油井产量预测的XGBoost算法目标函数，训练产量预测模型；

第六处理单元，使用所述验证集的数据检验模型精度，采用网格搜索方法，确定模型的最优超参数，采用最优的超参数组合建立油井产量预测模型，其中，所述最优超参数包括：决策树的个数、每棵决策树的最大深度和所述权重因子λ；

第七处理单元，将所述测试集的数据输入所述油井产量预测模型，预测油井产量。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现所述的产量公式与机器学习双驱动的油井产量预测方法。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的产量公式与机器学习双驱动的油井产量预测方法。

本发明由于采取以上技术方案，其具有以下优点：

1、运用油井产量公式推导XGBoost算法的目标函数，建立数据驱动的油井产量预测模型，形成一套具有渗流理论引导的机器学习算法，可实现油井产量的高效、准确预测。

2、通过优选目标函数中的权重因子λ，可使产量预测模型根据数据集的数据分布特点，在完全遵循渗流理论的产量公式以及完全由数据驱动的XGBoost算法两者间取得平衡，并获得最优预测精度。

附图说明

图1a是决策树的个数为200时，不同超参数组合的模型对验证集的误差分布图；

图1b是决策树的个数为300时，不同超参数组合的模型对验证集的误差分布图；

图1c是决策树的个数为400时，不同超参数组合的模型对验证集的误差分布图；

图1d是决策树的个数为500时，不同超参数组合的模型对验证集的误差分布图；

图1e是决策树的个数为600时，不同超参数组合的模型对验证集的误差分布图；

图1f是决策树的个数为700时，不同超参数组合的模型对验证集的误差分布图；

图2是产量预测模型的学习曲线；

图3油井产量预测值与真实值对比；

图4a权重因子λ值为1时，油井产量预测值与真实值对比；

图4b权重因子λ值为0，油井产量预测值与真实值对比。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的基于渗流理论的油井产量预测方法对复杂现实情况适用性有限的问题，以及数据驱动的油井产量预测方法可信度低的问题。本发明提出了一种产量公式与机器学习双驱动的油井产量预测方法，通过将基于渗流机理的产量公式与数据驱动的eXtreme Gradient Boosting(XGBoost)算法相结合，用产量公式改进XGBoost算法原有的目标函数，并采用产量公式的公式参数为模型输入参数，建立油井产量预测模型，使模型既遵循已有渗流理论又可拟合数据规律，实现油井产量的高效准确预测。

实施例：

以720口边水油藏定向井为预测对象。

1、方法原理

1.1边水油藏定向井产量公式

不同的油藏类型与井型所适用的产量公式不同，针对边水油藏定向井，使用该油藏类型与井型条件下的产量公式：

式中：

q——油井产量，m³/d；

K_h——水平方向渗透率，mD；

h——油层有效厚度，m；

ΔP——生产压差，MPa；

C——综合校正系数，小数；

μ_o——地层原油粘度，mPa·s；

B_o——地层原油体积系数，小数；

r_e——供液半径，m；

r_w——油井半径，m；

S——油井表皮系数，小数；

1.2XGBoost算法基本原理

XGBoost算法属于集成算法，是处理回归问题时使用较为广泛的机器学习算法之一。该算法以决策树(弱学习器)为基础，通过不断添加新的树构建集成决策树模型(强学习器)，从而实现更准确的预测。每次添加新的树即学习一个新函数，用来拟合上一棵树的计算结果的残差；累加各棵树的计算结果，逐步降低模型整体的残差使其预测值逐渐逼近真实值，实现其回归与预测功能。该算法主要超参数为决策树的个数、每棵决策树的最大深度等。

1.3XGBoost算法的常用损失函数

XGBoost算法的损失函数，如式(2)所示。

油井产量公式与所述XGBoost算法的损失函数相结合的公式为：

式中：

i——数据的序号；

k——回归树的序号；

l——损失函数；

y——真实值；

——预测值；

K_hi——第i组数据的水平方向渗透率，mD；

B_oi——第i组数据的地层原油体积系数，小数；

r_ei——第i组数据的供液半径，m；

r_wi——第i组数据的油井半径，m；

μ_oi——第i组数据的地层原油粘度，mPa·s。

1.4结合产量公式的XGBoost算法的损失函数

本发明将油井产量公式与XGBoost算法的损失函数相结合，给出适用于油井产量预测的XGBoost算法目标函数。

用边水油藏定向井产量公式，即公式(1)，替换公式(2)中的产量实际值y_i，得公式(3)。引入权重因子λ，将公式(2)与公式(3)加权求和，并结合正则项，得公式(4)。公式(4)即为针对边水油藏定向井推导的XGBoost算法目标函数，式中的λ作为XGBoost模型的超参数之一。

式中：

λ——权重因子；

L_D——结合产量公式的目标函数；

Ω(f_k)——正则项，是模型复杂度的惩罚项。

2、实施步骤：

S1：准备720口边水油藏定向井数据，包括：油井产量q，水平方向渗透率K_h，油层有效厚度h，生产压差ΔP，综合校正系数C，地层原油粘度μ_o，地层原油体积系数B_o，供液半径r_e，油井半径r_w，油井表皮系数S，如表1所示(因数据较多，仅截取部分展示)。将总数据集按70％、17.5％、12.5％的比例分为训练集、验证集与测试集。

表1数据集

S2：使用训练集数据建立XGBoost模型，使用验证集数据检验模型精度。采用网格搜索方法，以模型在验证集数据上取得相对误差最小为目标，确定决策树的个数、每棵决策树的最大深度及目标函数中的权重因子λ，共3个超参数的最优值。

由图1a、图1b、图1c、图1d、图1e、图1f可知，随决策树的最大深度的取值变化，各模型均在权重因子为0.4、决策树最大深度为6处取得最小相对误差。由图2可知，在权重因子为0.4、决策树最大深度为6时，随决策树个数增加，模型预测误差呈先逐渐减小、后小幅波动的变化趋势，拐点出现在决策树个数取500处。

因此，通过网格搜索方法确定最优的决策树的个数为500，每棵决策树的最大深度为6，目标函数中的权重因子λ为0.4。由该最优超参数组合与训练集数据完成模型训练，建立边水油藏定向井的产量预测模型。该模型对训练集的预测精度为87.3％，对验证集的预测精度为81.8％。

3、模型预测验证：

3.1将预测值与实际值对比

将测试集的9项输入参数共90组数据输入已建立的产量模型，由模型预测得到油井产量，将预测值与实际值对比，如图3所示，可得结合产量公式的XGBoost模型的产量预测精度为80.3％。

3.2权重因子λ的取值对比

当公式(4)中的权重因子λ值为1时，损失函数与XGBoost常用的均方误差(MSE)损失函数相同，即公式(2)，此时模型完全由数据驱动。在该条件下，基于相同的数据集与模型超参数，以相同步骤建立XGBoost产量预测模型，并用相同测试集测试模型精度。可得模型的预测精度为78.8％，预测油井产量与实际值对比如图4a所示。当公式(4)中的权重因子λ值为0时，损失函数为公式(3)，此时模型完全受产量公式约束。在该条件下，基于相同的数据集与模型超参数，以相同步骤建立XGBoost产量预测模型，并用相同测试集测试模型精度。可得模型的预测精度为78.5％，预测油井产量与实际值对比如图4b所示。

对比权重因子λ取值不同条件下，产量预测模型的预测精度可知，引入权重因子λ作为模型超参数，并由网格搜索方法确定该超参数的最优值，可有效提升模型的预测精度。因此，产量公式与机器学习双驱动的XGBoost油井产量预测模型具有最优的精度，其精度优于单一使用产量公式或MSE损失函数的XGBoost模型。

本案例中，决策树的个数搜索范围为200～700，步长为100；每棵决策树的最大深度搜索范围为5～9，步长为1；目标函数中的权重因子λ搜索范围为0～1，步长为0.1。根据不同的超参数组合，使用训练集数据训练模型，并采用验证集检验模型精度，可得所建立模型的误差分布图与学习曲线，分别如图1、图2所示。

第二处理单元，用于利用所述油井产量公式替换XGBoost算法的损失函数中的产量实际值，得到所述油井产量公式与所述XGBoost算法的损失函数相结合的公式；

第三处理单元，用于引入权重因子λ，将所述油井产量公式与所述XGBoost算法的损失函数结合后获得的公式与XGBoost算法的损失函数加权求和，并结合正则项，得到适用于油井产量预测的XGBoost算法目标函数。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种产量公式与机器学习双驱动的油井产量预测方法，其特征在于，包括如下步骤：

选定符合油藏类型及井型适用的油井产量公式；

2.根据权利要求1所述的产量公式与机器学习双驱动的油井产量预测方法，其特征在于，所述的油藏类型及井型为边水油藏定向井。

3.根据权利要求1所述的产量公式与机器学习双驱动的油井产量预测方法，其特征在于，所述总数据集包括水平方向渗透率、油层有效厚度、生产压差、综合校正系数、地层原油粘度、地层原油体积系数、供液半径、油井半径、油井表皮系数和油井产量。

4.根据权利要求3所述的产量公式与机器学习双驱动的油井产量预测方法，其特征在于，所述的油井产量公式为：

式中：

q——油井产量；

K_h——水平方向渗透率；

h——油层有效厚度；

ΔP——生产压差；

C——综合校正系数；

μ_o——地层原油粘度；

B_o——地层原油体积系数；

r_e——供液半径；

r_w——油井半径；

S——油井表皮系数。

5.根据权利要求4所述的产量公式与机器学习双驱动的油井产量预测方法，其特征在于，所述的XGBoost算法的损失函数为：

油井产量公式与所述XGBoost算法的损失函数相结合的公式为：

式中：

i——数据的序号；

k——回归树的序号；

l——损失函数；

y——真实值；

——预测值；

K_hi——第i组数据的水平方向渗透率；

B_oi——第i组数据的地层原油体积系数；

r_ei——第i组数据的供液半径；

r_wi——第i组数据的油井半径；

μ_oi——第i组数据的地层原油粘度。

6.根据权利要求5所述的产量公式与机器学习双驱动的油井产量预测方法，其特征在于，所述的油井产量预测的XGBoost算法目标函数为：

式中：

λ——权重因子；

L_D——结合产量公式的目标函数；

Ω(f_k)——正则项，是模型复杂度的惩罚项。

7.一种产量公式与机器学习双驱动的油井产量预测系统，其特征在于，包括：

8.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现如权利要求1至7中任一项所述的产量公式与机器学习双驱动的油井产量预测方法。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的产量公式与机器学习双驱动的油井产量预测方法。