CN115563856A - 一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法 - Google Patents

一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法 Download PDF

Info

Publication number
CN115563856A
CN115563856A CN202211119337.5A CN202211119337A CN115563856A CN 115563856 A CN115563856 A CN 115563856A CN 202211119337 A CN202211119337 A CN 202211119337A CN 115563856 A CN115563856 A CN 115563856A
Authority
CN
China
Prior art keywords
data
model
profile
prediction
xgboost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211119337.5A
Other languages
English (en)
Inventor
陈凯
姚为英
张强
张震
张海勇
胡云亭
赵云斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CNOOC Energy Technology and Services Ltd
Original Assignee
CNOOC Energy Technology and Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CNOOC Energy Technology and Services Ltd filed Critical CNOOC Energy Technology and Services Ltd
Priority to CN202211119337.5A priority Critical patent/CN115563856A/zh
Publication of CN115563856A publication Critical patent/CN115563856A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,包括以下步骤:对区块内相应油水井的静、动态数据进行筛选和提取,构建多源数据集;挑选出与产液剖面相关性较强的影响因素;对数据集中数据进行处理,建立产液剖面预测样本数据集;对比三种机器学习算法建立的分层产液剖面预测模型,选择使用XGBoost算法进行分层产液剖面预测模型的搭建;对选择的模型进行相应的模型训练及调参优化;将模型预测结果与KH劈分结果进行对比,选择二者的均值作为模型的最终输出;基于训练好的预测模型,进行油田现场多层合采生产井产液剖面的预测。本发明可充分利用油田现场数据和计算资源,实现对多层合采产量进行低成本且准确的劈分预测。

Description

一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分 方法
技术领域
本发明属于石油技术领域,尤其是涉及一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法。
背景技术
油田开发过程中,剖面测试相关资料在动态分析中扮演重要角色,但对于海上油田,测试费用高昂,且影响实际生产,因此针对海上油田实际产液剖面测试数据少。同时,现有劈分方法考虑因素少,准确度低,纵向多层合采产液剖面难以准确判别,如何充分利用现有剖面测试数据及海上油田地质开发资料,实现对纵向多层合采产液剖面的准确预测,从而指导提出有效的调整措施,是目前海上油田面临的一个难点问题。因此,如何对分层合采产量进行低成本且准确的劈分成为研究热点,但现有方法对油藏分层产液情况认识不全面,注水受效情况不明确。
发明内容
有鉴于此,本发明旨在提出一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,可充分利用油田现场数据和计算资源,实现对多层合采产量进行低成本且准确的劈分预测。
为达到上述目的,本发明的技术方案是这样实现的:一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,包括以下步骤:
步骤一:对区块内相应油水井的静态数据及动态数据进行筛选和提取,构建多源数据集;
步骤二:进行影响因素相关性分析,然后结合油田现场数据可获得的难易程度与油藏工程知识,挑选出与产液剖面相关性较强的影响因素;
步骤三:对数据集中数据进行油藏工程预处理以及异常值和标准化处理,建立产液剖面预测样本数据集;
步骤四:对比三种机器学习算法建立的分层产液剖面预测模型,选择使用XGBoost算法进行分层产液剖面预测模型的搭建;
步骤五:对选择的模型进行相应的模型训练及调参优化;
步骤六:将模型预测结果与KH劈分结果进行对比,选择二者的均值作为模型的最终输出;
步骤七:基于训练好的油藏纵向多层合采产液剖面预测模型,进行油田现场多层合采生产井产液剖面的预测。
进一步的,所述步骤一包括:
(11)静态数据包括待预测井、有产液剖面测试的井及其周围井点的小层孔隙度、渗透率、有效厚度、变异系数、井距、完井方式、合采合注信息和射孔数据;
(12)动态数据包括待预测井、有产液剖面测试的井及其周围井点的井口压力、日产液量、日注入量、累产液量、含水率和产液剖面测试数据。
进一步的,所述步骤2具体为:
(21)进行变量间相关性的描述;
变量间的相关性是用来度量变量间变动状况一致性的重要指标,变量间的相关性越强,说明两变量的变动状况一致,即变量L1可以用变量L表示,见下式:
L1=f(L)
a.使用距离相关系数来进行变量间相关性的描述;
距离相关系数着重衡量了变量间的非线性相关程度,变量X、Y的距离相关系数的计算方法见下式:
Figure BDA0003845234520000031
式中,dCor(X,Y):变量X,Y的距离协方差;dVar(X):变量X所有元素的距离方差;dVar(Y):变量Y所有元素的距离方差;
b.使用Pearson相关系数来进行变量间相关性的描述:
可以描述两个变量间的线性关系,两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近;
数据通常假设来自于正态分布,并且实验数据之间的差距不能太大,Pearson相关性系数受异常值的影响比较大,计算方法见下式:
Figure BDA0003845234520000032
c.使用Spearman秩相关系数来进行变量间相关性的描述:
Spearman秩相关系数,相关系数范围为-1到1,负值为负相关,0为不相关,见下式:
Figure BDA0003845234520000033
(22)计算相关系数后采用热力图来表示各变量间相关系数。
进一步的,所述步骤三的具体步骤为:
(31)基于油藏工程知识的预处理;
a.选择将小层的分层产液强度作为模型学习的目标,采用如下公式对小层分层产液量进行处理后作为样本学习的标签值:
Figure BDA0003845234520000041
式中,Istr表示小层的分层产液强度,Ivol表示小层的分层产液量,h表示小层的砂厚;
b.小层压力
小层压力的计算根据井口压力和静液柱压力折算得到,具体计算公式如下:
Pi=PI+ρghi
式中,Pi表示小层i的压力,PI表示井口压力,ρ表示井筒流体密度,g表示重力参数,hi表示小层i的油藏中深;
(32)数据标准化处理;
数据标准化处理是用于构建一个模型样本数据库的一项数据基础性处理工作,以消除在学习样本时由于不同的数量级及单位的影响;
min-max归一化方法是对原始数据进行线性变换,其作用是将原始值映射到[0-1]之间,具体的转换函数见下式:
Figure BDA0003845234520000042
式中,x0为归一化之前数据;X为将X0归一化之后的数据;Max为样本数据的最大值;Min为样本数据的最小值;
(33)异常值处理;
判断异常值时以四分位数和四分位间距作为判断标准,多达25%的数据可以变得任意远而不会扰动这个标准;
首先计算数据的上四分位数、中位数以及下四分位数,分别是将数据点按照大小排列后的四分之一、二分之一、四分之三处的数据,其中,上四分位数和下四分位数之差被称为分位距;而后计算上下边缘,分别指非异常范围内的最大值和最小值,计算如下:
上边缘=上四分位数+1.5×分位距;
下边缘=下四分位数-1.5×分位距。
进一步的,所述步骤四的具体方法为:
最终选择XGBoost算法进行预测模型的搭建,其原理如下:
XGBoost核心思想是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差,当训练完成得到k棵树,需要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值,预测模型表示如下:
Figure BDA0003845234520000051
其中k为树的总个数,fk表示第k棵树,
Figure BDA0003845234520000052
表示对样本xi的预测值;
模型的预测精度由模型的偏差和方差共同决定,损失函数代表了模型的偏差,想要方差小则需要在目标函数中添加正则项,用于防止过拟合,所以目标函数由模型的损失函数与抑制模型复杂度的正则项组成,目标函数最终可以简化如下:
Figure BDA0003845234520000061
式中,
Figure BDA0003845234520000062
表示叶子节点j所包含的一阶偏导数累加和;
Figure BDA0003845234520000063
Figure BDA0003845234520000064
表示叶子节点j所包含的二阶偏导数累加和;T为叶子节点的个数;γ用于控制叶子节点的个数;ω为叶子节点的权重;λ用于控制权重大小。
进一步的,所述步骤五的具体步骤为:
(51)以模型回归R2_score以及误差MSE为模型评价指标:
Figure BDA0003845234520000065
Figure BDA0003845234520000066
(52)采用CV交叉验证函数来训练模型;
整个数据集被划分为K个相等大小的部分;每个分区称为一个“折叠”,有K个部分,称之为K折叠,其中1折用作验证集,其余K-1折用作训练集,该技术重复K次,直到每个折叠用作验证集,其余折叠用作训练集,模型的最终精度是通过取k-models验证数据的平均精度来计算;
使用CV交叉验证函数进行分层产液剖面预测模型参数的优化,对其中的gamma、max_depth、n_estimators以及learning_rate进行优化,优化范围分别设置为:
n_estimators∈[x,y]
max_depth∈[m,n]
gamma∈[a,b]
learning_rate∈[l,k]
优化步骤如下:
第一步:其他参数取模型默认值,确定学习速率和tree_based参数调优的估计器数目;第二步:max_depth和min_child_weight参数调优;第三步:gamma参数调优。
进一步的,所述步骤六的具体步骤为:
(61)根据小层的渗透率、有效厚度值以及总产液量计算各层的KH劈分产量;
KH劈分法,其公式为:
Figure BDA0003845234520000071
式中:qi为劈分后i层产量,m3;q为单井总产量,m3;Ki为第i层地层平均渗透率,10-3μm2;Hi为i层地层有效厚度,m;
(62)将计算得到的KH劈分结果与XGBoost预测结果进行加和求取均值,作为模型的最终输出结果;
Figure BDA0003845234520000072
式中,qi为第i层产量最终输出结果,m3;qmodel为第i层XGBoost模型输出结果,m3;qKH为第i层KH计算劈分产量,m3
进一步的,所述步骤七的具体步骤为:
(71)按照前述方法对测试集数据进行特征提取、特征融合,构建出{(X_test,Y_test)|xi_test=(特征向量),yi_test=(单层产液量)}的数据集合,对集合进行标准化,将X_test作为输入,经过分层产液剖面预测模型后得到各小层劈分产量Y_pred;
(72)针对预测模型输出的Y_pred,进行最终预测结果计算,最终输出各小层分层产液剖面预测结果。
相对于现有技术,本发明所述的一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法具有以下优势:本发明通过对油田现有静、动态资料进行数据挖掘,从而得到产液剖面与静动态数据之间的关系,进而得到产液剖面预测模型,相比传统劈分方法考虑因素多,准确度高;与测试方法相比,成本更低,效率更高,为识别纵向多层合采产液剖面提供支持,从而为减少层间矛盾、合理生产配置、注采策略调整提供高质量的基础数据,为动态分析、油藏数值模拟、分层智能注采、层系优化等提供技术支撑。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的总体流程图;
图2为箱型图示意图;
图3为CV交叉验证示意图;
图4为本发明的相关性分析结果图;
图5为本发明的异常值分析及处理图;
图6为本发明的产液剖面预测结果(测试集)图;
图7为本发明的产液剖面预测结果(全部)图;
图8为本发明的单井产液剖面预测结果对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
如图1-图8所示,本发明为一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,包括以下步骤:
步骤一:对区块内相应油水井的静态数据及动态数据进行筛选和提取,构建多源数据集;
其中,静态数据主要包括待预测井、有产液剖面测试的井及其周围井点的小层孔隙度、渗透率、有效厚度、变异系数、井距、完井方式、合采合注信息和射孔数据等;
动态数据主要包括待预测井、有产液剖面测试的井及其周围井点的井口压力、日产液量、日注入量、累产液量、含水率和产液剖面测试数据等。
步骤二:进行影响因素相关性分析,然后结合油田现场数据可获得的难易程度与油藏工程知识,挑选出与产液剖面相关性较强的影响因素,具体如下:
(21)进行变量间相关性的描述;
变量间的相关性是用来度量变量间变动状况一致性的重要指标,变量间的相关性越强,说明两变量的变动状况一致,即变量L1可以用变量L表示,见下式:
L1=f(L)
a.使用距离相关系数来进行变量间相关性的描述;
距离相关系数在一定程度上能够反映变量的线性相关性,着重衡量了变量间的非线性相关程度,变量X、Y的距离相关系数的计算方法见下式:
Figure BDA0003845234520000101
式中,dCor(X,Y):变量X,Y的距离协方差;dVar(X):变量X所有元素的距离方差;dVar(Y):变量Y所有元素的距离方差;
b.使用Pearson相关系数来进行变量间相关性的描述:
计算简单,可以描述两个变量间的线性关系,两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近;
对数要求较高,数据通常假设来自于正态分布,并且实验数据之间的差距不能太大,Pearson相关性系数受异常值的影响比较大,计算方法见下式:
Figure BDA0003845234520000102
c.使用Spearman秩相关系数来进行变量间相关性的描述:
Spearman秩相关系数,也称等级相关系数,主要用来描述存在等级变量或者无法用均数和标准差描述其分布特征时两个变量间关联的程度和方向,相关系数范围为-1到1,负值为负相关,0为不相关,见下式:
Figure BDA0003845234520000111
(22)计算相关系数后采用热力图来表示各变量间相关系数,利用热力图可以观察数据表里多个特征两两之间的相关系数,其通过色差、亮度来展示数据的差异,如图4所示,颜色越深,则相关性越强。变量相关性与相关系数绝对值之间的对应关系,见下表:
表1相关系数与变量间相关程度关系
Figure BDA0003845234520000112
变量间存在相关性将会导致存在冗余变量,增大样本维度,在选择变量一定的情况下,减少了影响预测值的因素,延长了模型的运行时间,又不能提高模型的预测精确度。
步骤三:对数据集中数据进行必要的油藏工程预处理以及异常值和标准化处理,建立产液剖面预测样本数据集,针对数据集的处理,具体如下:
(31)基于油藏工程知识的预处理;
a.结合油田现场实际经验来看,小层分层产液量的数值与小层厚度之间具有重要关系,因此选择将小层的分层产液强度作为模型学习的目标,小层的分层产液强度可以进一步准确刻画单位小层的分层产液能力,采用如下公式对小层分层产液量进行处理后作为样本学习的标签值:
Figure BDA0003845234520000113
式中,Istr表示小层的分层产液强度,Ivol表示小层的分层产液量,h表示小层的砂厚;
b.小层压力
小层压力的计算根据井口压力和静液柱压力折算得到,具体计算公式如下:
Pi=PI+ρghi
式中,Pi表示小层i的压力,PI表示井口压力,ρ表示井筒流体密度,g表示重力参数,hi表示小层i的油藏中深;
(32)数据标准化处理;
数据标准化处理(归一化)是用于构建一个模型样本数据库的一项数据基础性处理工作,以消除在学习样本时由于不同的数量级及单位的影响;
min-max归一化方法是对原始数据进行线性变换,原理简单,其作用是将原始值映射到[0-1]之间,具体的转换函数见下式:
Figure BDA0003845234520000121
式中,X0为归一化之前数据;X为将X0归一化之后的数据;Max为样本数据的最大值;Min为样本数据的最小值;
(33)异常值处理;
离群点又被称为异常值,它是指在一个样本中的各种个别值,突出表现为其数值明显地偏离了其余样本的正常值,判断异常值时以四分位数和四分位间距作为判断标准,多达25%的数据可以变得任意远而不会扰动这个标准,该判断方法的鲁棒性更强。
采用了如图2展示的箱型图分析进行异常值分析,首先计算数据的上四分位数、中位数以及下四分位数,分别是将数据点按照大小排列后的四分之一、二分之一、四分之三处的数据,其中,上四分位数和下四分位数之差被称为分位距;而后计算上下边缘,分别指非异常范围内的最大值和最小值,计算如下:
上边缘=上四分位数+1.5×分位距;
下边缘=下四分位数-1.5×分位距。
步骤四:对比三种机器学习算法建立的分层产液剖面预测模型,选择使用XGBoost算法进行分层产液剖面预测模型的搭建;最终选择XGBoost算法进行预测模型的搭建,其原理如下:
目标:建立K个回归树,使得树群的预测值尽量接近真实值。
XGBoost核心思想是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差,当训练完成得到k棵树,需要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值,预测模型表示如下:
Figure BDA0003845234520000131
其中k为树的总个数,fk表示第k棵树,
Figure BDA0003845234520000132
表示对样本xi的预测值;
模型的预测精度由模型的偏差和方差共同决定,损失函数代表了模型的偏差,想要方差小则需要在目标函数中添加正则项,用于防止过拟合,所以目标函数由模型的损失函数与抑制模型复杂度的正则项组成,目标函数最终可以简化如下:
Figure BDA0003845234520000141
式中,
Figure BDA0003845234520000142
表示叶子节点j所包含的一阶偏导数累加和;
Figure BDA0003845234520000143
Figure BDA0003845234520000144
表示叶子节点j所包含的二阶偏导数累加和;T为叶子节点的个数;γ用于控制叶子节点的个数;ω为叶子节点的权重;λ用于控制权重大小。
XGBoost的目标函数是关于ω的二次方程,所以目标函数关于ω的导数是线性的,通过导数等于零即可求得最优解(ω*)。通过训练模型找到一组能使目标函数最小化的系数ω*,由此构建出产液剖面的XGBoost预测模型,从而得到油藏纵向多层合采产液剖面结果。
步骤五:对选择的模型进行相应的模型训练及调参优化,具体为;
(51)以模型回归R2_score以及误差MSE为模型评价指标:
Figure BDA0003845234520000145
Figure BDA0003845234520000146
(52)产液剖面数据来源于油田实际矿场测试,实际数据量少,如果将原始数据分为3个数据集合,将大大减少可用于模型学习的样本数量,故采用CV交叉验证函数来训练模型,该方法计算代价高,在处理样本数据集较少的问题时比较有优势;
具体地,如图3所示,整个数据集被划分为K个相等大小的部分(图3中分为5份);每个分区称为一个“折叠”。因此,有K个部分,称之为K折叠。其中1折用作验证集,其余K-1折用作训练集。该技术重复K次,直到每个折叠用作验证集,其余折叠用作训练集。模型的最终精度是通过取k-models验证数据的平均精度来计算。
使用CV交叉验证函数进行分层产液剖面预测模型参数的优化,主要对其中的gamma、max_depth、n_estimators以及learning_rate进行优化,优化范围分别设置为:
n_estimators∈[x,y]
max_depth∈[m,n]
gamma∈[a,b]
learning_rate∈[l,k]
优化步骤如下:
第一步:其他参数取模型默认值,确定学习速率和tree_based参数调优的估计器数目;第二步:max_depth和min_child_weight参数调优;第三步:gamma参数调优。
步骤六:将模型预测结果与KH劈分结果进行对比,选择二者的均值作为模型的最终输出,具体步骤为:
(61)根据小层的渗透率、有效厚度值以及总产液量计算各层的KH劈分产量;
KH劈分法,又称地层系数法,主要是利用地层静态资料进行产量劈分的一种简便方法,其公式为:
Figure BDA0003845234520000151
式中:qi为劈分后i层产量,m3;q为单井总产量,m3;Ki为第i层地层平均渗透率,10-3μm2;Hi为i层地层有效厚度,m;
(62)将计算得到的KH劈分结果与XGBoost预测结果进行加和求取均值,作为模型的最终输出结果;
Figure BDA0003845234520000161
式中,qi为第i层产量最终输出结果,m3;qmodel为第i层XGBoost模型输出结果,m3;qKH为第i层KH计算劈分产量,m3
步骤七:基于训练好的油藏纵向多层合采产液剖面预测模型,进行油田现场多层合采生产井产液剖面的预测,具体步骤为:
(71)按照前述方法对测试集数据进行特征提取、特征融合,构建出{(X_test,Y_test)|xi_test=(特征向量),yi_test=(单层产液量)}的数据集合,对集合进行标准化,将X_test作为输入,经过分层产液剖面预测模型后得到各小层劈分产量Y_pred;
(72)针对预测模型输出的Y_pred,进行最终预测结果计算,最终输出各小层分层产液剖面预测结果。
该方法基于海上油田的地质数据、开发动态以及历年来产液剖面和产液剖面的测试数据,对纵向多层合采井在不同层位的产液量分别进行预测。首先根据油藏各开发井之间的注入产出量确定注采井间平面连通性,明确邻井对目标井的影响,依托油藏工程知识对油藏的静态地质参数和劈分后的动态开发参数进行预处理,通过监督学习综合分析油藏产液剖面的变化规律,搭建并训练产液剖面预测模型,最终实现对纵向多层合采井产液剖面较为准确的预测,降低海上油田生产测试成本,丰富海上油田进行生产调控的数据资料,具有很好的实际应用价值。
本发明具体包括如图1所示步骤流程,下面结合实施例进一步描述。
本实例数据来自某油田的某区块,该区块共有产液剖面测试63条,按照一定比例(训练集:测试集=9:1)将数据集随机划分为训练集与测试集。
本实施例中,使用python编程软件,进行产液剖面预测模型的程序编写,从而得到油藏的纵向多层合采产液剖面结果。
模型建立的具体步骤为:
步骤一:对油藏区块静、动态数据进行筛选,为产液剖面预测模型的训练做准备,整理数据如下表中示例所示,其中,静态数据主要包括待预测井、有产液剖面测试的井及其周围井点的小层孔隙度、渗透率、有效厚度、变异系数、井距、完井方式、合采合注信息、射孔数据等;动态数据主要包括待预测井、有产液剖面测试的井及其周围井点的井口压力、单井日产量、含水率、产液剖面测试数据等。
表2样本数据集示例
Figure BDA0003845234520000171
Figure BDA0003845234520000181
表2样本数据集示例(续)
Figure BDA0003845234520000182
步骤二:进行相关性分析,结合油田现场数据可获得的难易程度与油藏工程知识,挑选与产液剖面相关性较强的影响因素;计算相关系数后采用热力图来表示各变量间相关系数,利用热力图可以观察数据表里多个特征两两之间的相关系数,其通过色差、亮度来展示数据的差异。相关性热力图见附图4,具体数值见下表,其中,前两行为皮尔逊相关系数,后两行为斯皮尔曼相关系数。
表3相关系数计算示例
Figure BDA0003845234520000183
Figure BDA0003845234520000191
表3相关系数计算示例(续)
Figure BDA0003845234520000192
变量间存在相关性将会导致存在冗余变量,增大样本维度,在选择变量一定的情况下,减少了影响预测值的因素,延长了模型的运行时间,又不能提高模型的预测精确度。
步骤三:根据所获得的产液剖面及邻井资料,对相关数据进行油藏工程预处理,得到产液剖面训练数据集,根据建立的数据进行标准化和异常值处理,建立产液剖面预测样本数据集;
(31)通过小层分层产液量数据计算小层的分层产液强度,采用如下公式对小层分层产液量进行处理后作为样本学习的标签值。
Figure BDA0003845234520000193
式中,Istr表示小层的分层产液强度,Ivol表示小层的分层产液量,h表示小层的砂厚。
(32)小层压力的计算根据井口压力和静液柱压力折算得到,具体计算公式如下:
Pi=PI+ρghi
式中,Pi表示小层i的压力,PI表示井口压力,ρ表示井筒流体密度,g表示重力参数,hi表示小层i的油藏中深。
(33)采用了箱形图分析进行异常值分析,并对异常值进行了均值修正,分析结果见附图5。
(34)针对两个数据集,对X分别进行标准化,标准化方法见下式:
Figure BDA0003845234520000201
步骤四:对比SVM、XGBoost、DNN三种机器学习算法建立的分层产液剖面预测模型,选择使用XGBoost算法建立剖面预测模型,并进行模型训练;进一步地,步骤四中所述模型建立的具体步骤为:
(41)最终建立的产液剖面预测数据可以表示为:
{(X,Y)|xi=(输入特征),yi=(单层产液量)}
(42)再按照一定比例(训练集:测试集=9:1)进行训练集与测试集的划分;
(43)以归一化处理后的训练集的X_std与标签Y为输入,输入到模型中,并再次按照一定比例(训练集:验证集=9:1)划分训练集与验证集,对比三种模型效果,最终选择使用XGBoost算法默认参数值进行预测模型的初步建立;
步骤五:针对搭建的XGBoost模型进行参数的优选,设定n_estimators,max_depth,gamma,learning_rate等参数的取值范围,并借助交叉验证方法进行参数值的优化;
n_estimators∈[1,100];max_depth∈[1,50]
gamma∈[0,0.5];learning_rate∈[0,0.5]
进行参数优选时,每次仅针对一个参数类型进行优选,设置参数变化的步长,进行搜索。最终优化得到模型的各参数,XGBoost的参数取值如下表所示。
表4优选后参数
Figure BDA0003845234520000211
步骤六:将模型预测结果与KH劈分结果进行对比,选择二者的均值作为模型的最终输出。
步骤七:将该预测模型运用到油田生产现场中,从而判断油藏纵向多层合采产液剖面;
(71)按照前述方法对测试集数据进行特征提取、特征融合,构建出{(X_test,Y_test)|xi_test=(特征向量),yi_test=(单层产液量)}的数据集合,对集合进行标准化,将X_test作为输入,经过优化后的预测模型进行预测后得到Y_pred;
(72)针对模型输出的Y_pred,即井的单层产液量,判断油藏的纵向多层合采产液剖面情况,从而指导生产。应用在油田某区块中,其测试集的产液剖面预测结果如图6所示;图7是测试区块中的产液剖面预测拟合效果图,可以看出其预测效果较好;图8展示了部分单井产液剖面预测结果对比图,其预测准确度在85%以上。
通过本发明的方法,可以为减少层间矛盾、合理生产配置、注采策略调整提供高质量的基础数据,为动态分析、油藏数值模拟、分层智能注采、层系优化等提供技术支撑。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,包括以下步骤:
步骤一:对区块内相应油水井的静态数据及动态数据进行筛选和提取,构建多源数据集;
步骤二:进行影响因素相关性分析,然后结合油田现场数据可获得的难易程度与油藏工程知识,挑选出与产液剖面相关性较强的影响因素;
步骤三:对数据集中数据进行油藏工程预处理以及异常值和标准化处理,建立产液剖面预测样本数据集;
步骤四:对比三种机器学习算法建立的分层产液剖面预测模型,选择使用XGBoost算法进行分层产液剖面预测模型的搭建;
步骤五:对选择的模型进行相应的模型训练及调参优化;
步骤六:将模型预测结果与KH劈分结果进行对比,选择二者的均值作为模型的最终输出;
步骤七:基于训练好的油藏纵向多层合采产液剖面预测模型,进行油田现场多层合采生产井产液剖面的预测。
2.根据权利要求1所述的基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,所述步骤一包括:
(11)静态数据包括待预测井、有产液剖面测试的井及其周围井点的小层孔隙度、渗透率、有效厚度、变异系数、井距、完井方式、合采合注信息和射孔数据;
(12)动态数据包括待预测井、有产液剖面测试的井及其周围井点的井口压力、日产液量、日注入量、累产液量、含水率和产液剖面测试数据。
3.根据权利要求1所述的基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,所述步骤2具体为:
(21)进行变量间相关性的描述;
变量间的相关性是用来度量变量间变动状况一致性的重要指标,变量间的相关性越强,说明两变量的变动状况一致,即变量L1可以用变量L表示,见下式:
L1=f (L)
a.使用距离相关系数来进行变量间相关性的描述;
距离相关系数着重衡量了变量间的非线性相关程度,变量X、Y的距离相关系数的计算方法见下式:
Figure FDA0003845234510000021
式中,dCor(X,Y):变量X,Y的距离协方差;dVar(X):变量X所有元素的距离方差;dVar(Y):变量Y所有元素的距离方差;
b.使用Pearson相关系数来进行变量间相关性的描述:
可以描述两个变量间的线性关系,两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近;
数据通常假设来自于正态分布,并且实验数据之间的差距不能太大,Pearson相关性系数受异常值的影响比较大,计算方法见下式:
Figure FDA0003845234510000031
c.使用Spearman秩相关系数来进行变量间相关性的描述:
Spearman秩相关系数,相关系数范围为-1到1,负值为负相关,0为不相关,见下式:
Figure FDA0003845234510000032
(22)计算相关系数后采用热力图来表示各变量间相关系数。
4.根据权利要求1所述的基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,所述步骤三的具体步骤为:
(31)基于油藏工程知识的预处理;
a.选择将小层的分层产液强度作为模型学习的目标,采用如下公式对小层分层产液量进行处理后作为样本学习的标签值:
Figure FDA0003845234510000033
式中,Istr表示小层的分层产液强度,Ivol表示小层的分层产液量,h表示小层的砂厚;
b.小层压力
小层压力的计算根据井口压力和静液柱压力折算得到,具体计算公式如下:
Pi=PI+ρghi
式中,Pi表示小层i的压力,PI表示井口压力,ρ表示井筒流体密度,g表示重力参数,hi表示小层i的油藏中深;
(32)数据标准化处理;
数据标准化处理是用于构建一个模型样本数据库的一项数据基础性处理工作,以消除在学习样本时由于不同的数量级及单位的影响;
min-max归一化方法是对原始数据进行线性变换,其作用是将原始值映射到[0-1]之间,具体的转换函数见下式:
Figure FDA0003845234510000041
式中,X0为归一化之前数据;X为将X0归一化之后的数据;Max为样本数据的最大值;Min为样本数据的最小值;
(33)异常值处理;
判断异常值时以四分位数和四分位间距作为判断标准,多达25%的数据可以变得任意远而不会扰动这个标准;
首先计算数据的上四分位数、中位数以及下四分位数,分别是将数据点按照大小排列后的四分之一、二分之一、四分之三处的数据,其中,上四分位数和下四分位数之差被称为分位距;而后计算上下边缘,分别指非异常范围内的最大值和最小值,计算如下:
上边缘=上四分位数+1.5×分位距;
下边缘=下四分位数-1.5×分位距。
5.根据权利要求1所述的基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,所述步骤四的具体方法为:
最终选择XGBoost算法进行预测模型的搭建,其原理如下:
XGBoost核心思想是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差,当训练完成得到k棵树,需要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值,预测模型表示如下:
Figure FDA0003845234510000051
其中k为树的总个数,fk表示第k棵树,
Figure FDA0003845234510000052
表示对样本xi的预测值;
模型的预测精度由模型的偏差和方差共同决定,损失函数代表了模型的偏差,想要方差小则需要在目标函数中添加正则项,用于防止过拟合,所以目标函数由模型的损失函数与抑制模型复杂度的正则项组成,目标函数最终可以简化如下:
Figure FDA0003845234510000053
式中,
Figure FDA0003845234510000055
表示叶子节点j所包含的一阶偏导数累加和;Hj
Figure FDA0003845234510000056
表示叶子节点j所包含的二阶偏导数累加和;T为叶子节点的个数;γ用于控制叶子节点的个数;ω为叶子节点的权重;λ用于控制权重大小。
6.根据权利要求1所述的基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,所述步骤五的具体步骤为:
(51)以模型回归R2_score以及误差MSE为模型评价指标:
Figure FDA0003845234510000054
Figure FDA0003845234510000061
(52)采用CV交叉验证函数来训练模型;
整个数据集被划分为K个相等大小的部分;每个分区称为一个“折叠”,有K个部分,称之为K折叠,其中1折用作验证集,其余K-1折用作训练集,该技术重复K次,直到每个折叠用作验证集,其余折叠用作训练集,模型的最终精度是通过取k-models验证数据的平均精度来计算;
使用CV交叉验证函数进行分层产液剖面预测模型参数的优化,对其中的gamma、max_depth、n_estimators以及learning_rate进行优化,优化范围分别设置为:
n_estimators∈[x,y]
max_depth∈[m,n]
gamma∈[a,b]
learning_rate∈[l,k]
优化步骤如下:
第一步:其他参数取模型默认值,确定学习速率和tree_based参数调优的估计器数目;第二步:max_depth和min_child_weight参数调优;第三步:gamma参数调优。
7.根据权利要求1所述的基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,所述步骤六的具体步骤为:
(61)根据小层的渗透率、有效厚度值以及总产液量计算各层的KH劈分产量;
KH劈分法,其公式为:
Figure FDA0003845234510000071
式中:qi为劈分后i层产量,m3;q为单井总产量,m3;Ki为第i层地层平均渗透率,10-3μm2;Hi为i层地层有效厚度,m;
(62)将计算得到的KH劈分结果与XGBoost预测结果进行加和求取均值,作为模型的最终输出结果;
Figure FDA0003845234510000072
式中,qi为第i层产量最终输出结果,m3;qmodel为第i层XGBoost模型输出结果,m3;qKH为第i层KH计算劈分产量,m3
8.根据权利要求1所述的基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法,其特征在于,所述步骤七的具体步骤为:
(71)按照前述方法对测试集数据进行特征提取、特征融合,构建出{(X_test,Y_test)|xi_test=(特征向量),yi_test=(单层产液量)}的数据集合,对集合进行标准化,将X_test作为输入,经过分层产液剖面预测模型后得到各小层劈分产量Y_pred;
(72)针对预测模型输出的Y_pred,进行最终预测结果计算,最终输出各小层分层产液剖面预测结果。
CN202211119337.5A 2022-09-14 2022-09-14 一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法 Pending CN115563856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211119337.5A CN115563856A (zh) 2022-09-14 2022-09-14 一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211119337.5A CN115563856A (zh) 2022-09-14 2022-09-14 一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法

Publications (1)

Publication Number Publication Date
CN115563856A true CN115563856A (zh) 2023-01-03

Family

ID=84741556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211119337.5A Pending CN115563856A (zh) 2022-09-14 2022-09-14 一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法

Country Status (1)

Country Link
CN (1) CN115563856A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541070A (zh) * 2023-10-24 2024-02-09 北京科技大学 基于机器学习与博弈论的油井多层合采产量劈分方法
CN117577226A (zh) * 2024-01-16 2024-02-20 中国石油大学(华东) 一种基于CV-XGBoost算法的油井含水率计算方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541070A (zh) * 2023-10-24 2024-02-09 北京科技大学 基于机器学习与博弈论的油井多层合采产量劈分方法
CN117541070B (zh) * 2023-10-24 2024-04-12 北京科技大学 基于机器学习与博弈论的油井多层合采产量劈分方法
CN117577226A (zh) * 2024-01-16 2024-02-20 中国石油大学(华东) 一种基于CV-XGBoost算法的油井含水率计算方法

Similar Documents

Publication Publication Date Title
CN115563856A (zh) 一种基于XGBoost与CV交叉函数的多层合采产液剖面劈分方法
CN110400006B (zh) 基于深度学习算法的油井产量预测方法
CN109611087B (zh) 一种火山岩油藏储层参数智能预测方法及系统
CN112901137B (zh) 基于深度神经网络Sequential模型的深井钻井机械钻速预测方法
CN111441767A (zh) 油藏生产动态预测方法及装置
CN104747185A (zh) 非均质油藏储层综合分类评价方法
CN115345378B (zh) 一种基于机器学习的页岩气井产量评价方法
CN106150477A (zh) 一种确定单井控制储量的方法
CN110287516B (zh) 一种页岩气藏压裂水平井可压性综合评价方法
CN115906675B (zh) 基于时序多目标预测模型的井位及注采参数联合优化方法
CN108595803A (zh) 基于递归神经网络的页岩气井生产压力预测方法
CN114818076B (zh) 一种基于机器学习的断层封闭烃柱高度评价方法
CN104899411A (zh) 一种储层产能预测模型建立方法和系统
CN106803010A (zh) 用于低渗透储层定量评价的模糊灰色综合评判方法和装置
CN112541571A (zh) 基于双并联神经网络的机器学习的注采连通性确定方法
CN114896903A (zh) 一种基于强制学习的油田生产系统决策优化方法
CN117252374A (zh) 一种基于机器学习的致密气合采气井多层合采产量分配方法
CN116910638A (zh) 一种基于大数据的优势渗流通道智能识别方法
Gudmundsdottir et al. Inferring interwell connectivity in fractured geothermal reservoirs using neural networks
CN113705917A (zh) 一种致密油藏压裂水平井初期产能预测方法
CN113762559A (zh) 多层合采气井智能产量劈分方法及系统
Guo et al. Application of improved multiple linear regression method in oilfield output forecasting
CN111706323A (zh) 一种综合gwo-lssvm算法的水淹层精细解释评价方法
Wilson New method for predicting production boosts accuracy for carbonate reservoirs
CN113344729B (zh) 一种基于小样本学习的剩余油挖潜方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination