CN115481577A

CN115481577A - 一种基于随机森林和遗传算法的油藏自动历史拟合方法

Info

Publication number: CN115481577A
Application number: CN202211388304.0A
Authority: CN
Inventors: 龚斌; 徐凤强; 石欣; 侯壮
Original assignee: Zhongke Shuzhi Energy Technology Shenzhen Co ltd
Current assignee: Zhongke Shuzhi Energy Technology Shenzhen Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2022-12-16
Anticipated expiration: 2042-11-08
Also published as: CN115481577B

Abstract

本发明提供了一种基于随机森林和遗传算法的油藏自动历史拟合方法，包括：步骤1：对油藏信息中的不确定性参数进行随机采样，生成数据集；步骤2：将生成的每个数据集输入到油藏数值模拟器，并将实际结果与计算结果之间的误差作为每颗决策树的根节点；步骤3：采用随机森林方法进行敏感性因素排序，生成各不确定性参数的龙卷风图；步骤4：基于龙卷风图筛选当下敏感性大于预设敏感性的参数，并结合遗传算法辅助历史拟合，获取历史拟合结果。通过进行参数随机采样、随机森林方法以及遗传算法的结合，可以有效的对参数的重要性排序，提高计算效率，与现有的油藏辅助历史拟合工作对比，有效的降低模拟例子以及有效的减少计算耗时。

Description

一种基于随机森林和遗传算法的油藏自动历史拟合方法

技术领域

本发明涉及油田开发技术领域，特别涉及一种基于随机森林和遗传算法的油藏自动历史拟合方法。

背景技术

在油田开发过程中，油藏数值模拟是一种认识油藏并解决油田问题的有效方法。历史拟合作为油藏数值模拟过程中最为关键的环节，是一个通过动态资料及数值模拟方法对油藏不断再认识的过程。建模数据源均存在其自身不可克服的不确定性，如地质模型（结构和地层学），储层性质（孔隙度和渗透率场）和流体性质等。因此，需要通过历史拟合来减小不确定性，保证油藏模拟的合理性和准确性。历史拟合的过程主要是通过不断地调整模型参数使模拟计算得到的生产数据与实际观测数据相一致。传统的人工历史拟合由于调试过程中具有很大的随意性、盲目性和主观性，拟合精度受油藏工程师经验影响，通常难以取得较好的效果。人工历史拟合过程十分耗时且经常无法得到满意的结果，近年来研究者引入多种方法以实现拟合过程中部分任务的自动化。辅助历史拟合即将历史拟合问题转换为优化问题，其目标是将实际数据（如压力、产量和饱和度分布）与模拟数据之间的差值降至最小，其工作流通常包括实验设计、代理建模和优化。

近些年，多种优化算法被应用到历史拟合中，油藏历史拟合的效率得到很大提升，但由于每个算法都有其自身的特点，因此所获得的拟合结果也大不相同。

Agbalaka和Oliver（2008年）将截断多重高斯模型应用于三维油藏中，该方法适用于具有两点统计的几何，它能较好地反映相的比例和指示变量图，但是，对于曲线几何，如河流相储层中的曲折河道，截断高斯不是一个合适的选择。

Jiang Xie等人（2011年）利用马尔科夫链水平集方法进行历史拟合的不确定量化，但马尔科夫链中对应的每一个模型都需要一次数值模拟，计算成本巨大。

Dickstein等人（2010年）在观测数据中加入4维地震数据，并研究了地震数据的整合对参数降维的影响。Rezaie（2012年）指出利用4维地震数据进行历史拟合，最大的困难在于数据的高维性，这对自动历史拟合的计算量带来了巨大挑战，并可能会造成模型的过度拟合。

Sarma和Chen（2009年）将EnKF引入到油藏数值模拟中，但由于观测数据随时间步实时持续吸收，EnKF每次都须重启动模型，需要读取数百万维的数据，运行效率低；EnKF拟合过程是线性的，对于具有很强非线性的油藏数值模拟问题拟合效果较差对于地质条件复杂的油藏，多模型计算可能导致油藏数值模拟器计算不收敛，无法预测最终效果。

综上存在如下问题：

1）现有人工历史拟合耗时，耗力；

2）现有人工历史拟合工作具有较大的盲目性，依赖于油藏工程师对油藏生产动态的分析与认识，具有较强的主观性；

3）以梯度算法为基础的优化算法，求解Hessian矩阵时需要进行大量的计算，特别是当油藏复杂时，计算耗时比较长。

因此，本发明提出一种基于随机森林和遗传算法的油藏自动历史拟合方法。

发明内容

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，用以通过进行参数随机采样、随机森林方法以及遗传算法的结合，可以有效的对参数的重要性排序，提高计算效率，与现有的油藏辅助历史拟合工作对比，有效的降低模拟例子以及有效的减少计算耗时。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，包括：

步骤1：对油藏信息中的不确定性参数进行随机采样，生成数据集；

步骤2：将生成的每个数据集输入到油藏数值模拟器，并将实际结果与计算结果之间的误差作为每颗决策树的根节点；

步骤3：采用随机森林方法进行敏感性因素排序，生成各不确定性参数的龙卷风图；

步骤4：基于所述龙卷风图筛选当下敏感性大于预设敏感性的参数，并结合遗传算法辅助历史拟合，获取历史拟合结果。

优选的，对油藏信息中的不确定性参数进行随机采样，生成数据集的过程中，包括：确定所述数据集的样本个数：

其中，F为不确定性参数个数，且任意m,n∊Z，m<n，Z为自然数；

表示获取的最终样本个数；其中，N _PB={12,20,24,28,...}，且N _PB表示样本集的个数，且取样个数为4的倍数。

优选的，还包括：

根据关系式

确定所述数据集的样本个数；

其中，L为每个参数的级别数，k为不确定性参数的个数，p为完全因子设计的大小。

优选的，将实际结果与计算结果之间的误差作为每颗决策树的根节点的过程中，还包括：

构建历史拟合目标函数：

其中，Q(x)为计算结果与实际结果之间的历史拟合误差；W _i为单井或油藏属性的权重向量；i为时间角标；j为单井或油藏角标；

为第i时刻第j单井或油藏模拟器的计算结果；

为第i时刻第j单井或油藏的实际结果；σ为模拟结果与实际结果误差的标准差；N _i为向量W _i的元素个数。

优选的，还包括：

根据地质统计学、地震解释和测井解释结果，并结合所述油藏信息中不同油井的生产动态特征，获取到不确定性参数、不确定性参数的目标函数以及不确定性参数的参数分布。

优选的，采用随机森林方法进行敏感性因素排序，包括：

对随机森林的超参数进行设置；

根据设置的超参数，构建随机森林模型得到参数重要性排序结果；

根据参数重要性的排序结果，保留前k1个不确定性参数，并将剩余不确定性参数丢弃；

其中，所述参数重要性排序结果即为敏感性因素排序结果。

优选的，获取历史拟合结果之后，还包括：

对所述历史拟合结果进行结果验证，具体包括：

提取所述历史拟合结果中存在的影响参数，并基于历史拟合日志构建每个影响参数的拟合参与线程；

分析同个拟合参与线程上相邻的拟合参与切入点以及拟合参与切出点，得到切入切出对，并构建得到切入切出数组，其中，所述切入切出对包括：切入时间点、切出时间以及对应的拟合参数的影响因子，且所述影响因子与对应影响参数的参数值大小有关；

根据所述切入切出数组，基于时间顺序判断切入切出数组中的相邻切入切出对中的第一切入切出对的切入值是否大于或等于第二切入切出对的切入值以及第一切入切出对的切出值是否大于或等于第二切入切出对的切出值；

若都是，则判定对应的拟合参与线程满足预设关系，并判定对应拟合参与线程合格；

当所有拟合参与线程都合格时，则判定所述历史拟合结果合格；

若存在不满足判断条件的情况，则锁定不满足判断条件的切入切出对，并对不满足数量进行标定，根据标定结果得到与所述切入切出数组一致的标定显示数组；

根据所述标定显示数组，确定与数量相关的第一不合格指数以及与参数值相关的第二不合格指数；

按照所述第一不合格指数以及第二不合格指数，构建不合格数组；

基于所述不合格数组与数组-优化数据库进行匹配分析，得到调整所述切入切出数组的优化策略，进而得到调整数组；

根据影响消除模型，并结合所述切入切出数组以及调整数组，获取得到消除因子，对所述历史拟合结果进行优化。

优选的，根据所述标定显示数组，确定与数量相关的第一不合格指数，包括：

其中，n1表示所述标定显示数组中的切入切出对的对数；u_i1表示所述标定显示数组中第i1个切入切出对的标定个数，且u_i1的取值为1或2，当所述标定显示数组中第i1个切入切出对中只对切入点或者切出点进行标定时，取值为1，否则，取值为2；m1表示对应切入切出数组的切入点与切出点的总个数；ln表示对数函数的符号；e表示常数，取值为2.7；

表示所述标定显示数组中第i1个切入切出对的拟合权重，且

；D1表示第一不合格指数。

优选的，确定与参数值相关的第二不合格指数，包括：

其中，y_i1+1表示所述标定显示数组中第i1+1个切入切出对中切入点的参数值与切出点的参数值的和；y_i1表示所述标定显示数组中第i1个切入切出对中切入点的参数值与切出点的参数值的和；D2表示第二不合格指数。

与现有技术相比，本申请的有益效果如下：

1、采用随机森林和Plackett-Burman采样的方法分析参数的重要性排序，由于随机森林模型待优化超参数数量少，计算效率高，可以避免过拟合的问题；

2、采用遗传算法法，减少了Hessian矩阵求解的巨大计算量；

3、与现有的油藏辅助历史拟合工作对比，模拟例子少，计算耗时大大减少。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于随机森林和遗传算法的油藏自动历史拟合方法的流程图；

图2为本发明实施例中某碳酸盐油藏断层模型的结构图；

图3为本发明实施例中随机森林模型示意图；

图4为本发明实施例中不确定性参数敏感性排序图；

图5为本发明实施例中决策树的树目为500时的误差图；

图6为本发明实施例中遗传迭代算法全局值变化图；

图7为本发明实施例中PROD2井底流压拟合曲线图；

图8为本发明实施例中PROD2井含水率拟合曲线图；

图9为本发明实施例中PROD3井含水率拟合曲线图；

图10为本发明实施例中PROD1井含水率拟合曲线图；

图11为本发明实施例中拟合线程的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，如图1所示，包括：

该实施例中，在构建数据集的过程中首先是需要确定不确定性参数的、步确定参数的分布以及相关的目标函数在内的，其中，根据地质统计学、地震解释和测井解释结果，并结合所述油藏信息中不同油井的生产动态特征，获取到不确定性参数、不确定性参数的目标函数以及不确定性参数的参数分布，具体参见表1和表2。

其中，表1为历史拟合步确定参数及其描述

参数	描述
		F1	1号断层传导率乘数
F2	2号断层传导率乘数
		F3	3号断层传导率乘数
F4	4号断层传导率乘数
		(K<sub>V</sub>/K<sub>H</sub>)<sub>1</sub>	1号区域的permz乘数
(K<sub>V</sub>/K<sub>H</sub>)<sub>1</sub>	2号区域的permz乘数
		K<sub>x,A</sub>	A小层permx乘数
K<sub>x,B</sub>	B小层permx乘数
		K<sub>x,C</sub>	C小层permx乘数
S<sub>w</sub><sup>*</sup>	临界含水饱和度

表2为不确定性参数分布及取样

参数名称	最小值	最大值	步长	分布
					F1	0.0001	1	0.125	对数正态分布
F2	0.0001	1	0.125	对数正态分布
					F3	0.0001	1	0.125	对数正态分布
F4	0.0001	1	0.125	对数正态分布
					(K<sub>V</sub>/K<sub>H</sub>)<sub>1</sub>	0.0001	10	0.175	对数正态分布
(K<sub>V</sub>/K<sub>H</sub>)<sub>1</sub>	0.0001	10	0.175	对数正态分布
					K<sub>x,A</sub>	0.1	2.8	0.1	均匀分布
K<sub>x,B</sub>	0.1	2.8	0.1	均匀分布
					K<sub>x,C</sub>	0.1	2.8	0.1	均匀分布
S<sub>w</sub><sup>*</sup>	0.2	0.36	0.03	均匀分布

其次，是需要确定该数据集中的样本个数在内的，且是采用2级Plackett-Burman方法进行实验设计来确定的样本个数。

在步骤4中，结合遗传算法辅助历史拟合的过程中，包括：

采用遗传算法对随机森林模型确定的不确定性参数进行更新，计算拟合误差，当最新的若干个模拟案例的误差改进行小于0.1%时，遗传算法停止参数更新，停止更新时的参数所对应的模型为最佳拟合模型。

采用的例子为国内某碳酸盐岩油藏，网格数为110670。该油藏西部有1口注水井，东部有3口采油井，存在4条不确定性断层，如图2所示；油藏中深为2020m，原始地层压力为398bar，饱和压力为80bar，油水界面为1950m，油藏西部有一个较大的水体；纵向上分为3个小层，分别是A层、B层、C层；该油藏于2005年投产，投产初期INJ1井配注量为800m³/d，生产井PROD1、PROD2、PROD3平均日产油为350m³/d、131m³/d、300m³/d。

该实施例中，采用基于随机森林和随机采样的方法确定的参数敏感性排，如图4所示，对于本例10个不确定性参数只需要16个样本集。

在本次历史拟合中，随机森林模型采用的决策树的树的数量为500，测试集误差小于6%，如图5所示，只有在极端情况下，我们发现树的数量是线性或非线性地依赖于输入数据中的属性数量。

根据敏感性分析结果，采用一种全局优化算法即遗传算法进行不确定性参数更新。遗传算法采用随机全局搜索算法模拟了生物自然进化的物理过程，其基本原理在于模拟出潜在解的种群，在初始个体的基础上，采用选择、交叉和变异来搜索最优解。遗传算法的种群规模设置为15，替换率为0.25，最大模拟次数为200次。最新的5个模拟案例的误差改进行小于0.1%时，遗传算法停止参数更新。

经过迭代28次之后，达到了终止条件，总共生成了104个模型，全局目标最小值为12左右，如图6所示，此最小全局目标值模型即为最佳拟合模型，此时的井底流压和含水率拟合非常良好，如图7-10所示，这也证明遗传算法在油藏自动历史拟合中是有效的。

该实施例中，基于随机森林和遗传算法提出的无梯度自动历史拟合方法，可以较快地寻找到敏感性参数，大大减少矩阵计算量，并解决多模型计算油藏数值模拟器不收敛的问题，是现阶段技术条件下能够用于油田实际的一种高效自动历史拟合技术。

自动历史拟合方法省时省力，对工作人员的经验要求低，拟合效果与人工历史拟合结果具有相似的精度，是一种高效易操作的多参数调参技术。

上述技术方案的有益效果是：采用随机森林和Plackett-Burman采样的方法分析参数的重要性排序，由于随机森林模型待优化超参数数量少，计算效率高，可以避免过拟合的问题；采用遗传算法法，减少了Hessian矩阵求解的巨大计算量；与现有的油藏辅助历史拟合工作对比，模拟例子少，计算耗时大大减少。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，对油藏信息中的不确定性参数进行随机采样，生成数据集的过程中，包括：确定所述数据集的样本个数：

优选的，还包括：

根据关系式

确定所述数据集的样本个数；

该实施例中，采用2级Plackett-Burman方法进行实验设计。Plackett-Burman设计是一种特殊的两水平的部分因子试验设计方法，针对因子变量较多时，从中筛选出少数重要变量的试验设计方法。Plackett-Burman试验通过对每个因子取两水平来进行分析，通过比较各个因子两水平的差异与整体的差异来确定因子的显著性。筛选试验设计不能区分主效应与交互作用的影响，但对显著影响的因子可以确定出来，从而达到筛选的目的，避免在后期的优化试验中由于因子数太多或部分因子不显著而浪费试验资源。

该实施例中，采用Plackett-Burman设计确定所需数据样本个数。

该实施例中，比如所采用的某低渗透油藏示例不确定性参数有10个，因此，相应的 Plackett-Burman设计样本集的个数为12。本专利还采用部分因子设计的方法进行样本设计，样本个数由关系式

决定，L为每个参数的级别数，k为不确定性参数的个数，p为完全因子设计的大小。对于10个不确定性参数的历史拟合，完全因子设计需要产生

个样本，采用部分因子设计方法产生的样本数为

（L = 2, k = 10, p = 6），与完全因子设计方法对比，部分因子设计方法产生的样本数量减少了98%左右。

上述技术方案的有益效果是：通过确定样本的个数，可以有效的提高计算效率，为后续进行拟合提供有效基础。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，将实际结果与计算结果之间的误差作为每颗决策树的根节点的过程中，还包括：

构建历史拟合目标函数：

为第i时刻第j单井或油藏模拟器的计算结果；

为第i时刻第j单井或油藏的实际结果；σ为模拟结果与实际结果误差的标准差；N _i 为向量W _i的元素个数。

该实施例中，权重向量W _i的设置是比较主观的，例如拟合含水率和井底流压时，如果含水率曲线拟合符合率比较高，可将井底压力的权重系数设置为比含水率权重系数较大的值。

上述技术方案的有益效果是：通过构建历史拟合目标函数，为后续进行拟合提供有效基础。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，采用随机森林方法进行敏感性因素排序，包括：

对随机森林的超参数进行设置；

其中，所述参数重要性排序结果即为敏感性因素排序结果。

该实施例中，随机森林是一种由多棵决策树联合构成的集成算法，在进行分类或回归任务时，每一棵决策树都会针对样本的某个属性做出选择，最后通过投票或求平均等方式对结果进行整合输出，如图3所示。

该实施例中，在构建随机森林模型之前，需要对随机森林的超参数进行设置，树的数量和因素排序方法对预测的稳定性和参数重要性排序影响比较大。随机森林树的最优数目为数的个数最小且历史拟合误差收敛到全局最小。根据输入的超参数，构建随机森林模型得到参数重要性排序结果。根据参数重要性的排序结果，保留前几个影响比较大的不确定性参数，丢弃重要性较低的不确定性参数。

假定不确定性参数之间没有相关性，而渗透率和孔隙度之间存在明显的相关性，因此本专利的不确定性参数不包括孔隙度。

上述技术方案的有益效果是：通过采用随机森林方法，可以对参数进行有效的筛选，保证获取不确定性参数的可靠性，为后续自动历史拟合以及辅助拟合提供有效基础。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，获取历史拟合结果之后，还包括：

对所述历史拟合结果进行结果验证，具体包括：

该实施例中，影响参数指的是在进行历史拟合过程中对实际结果起到拟合作用的参数，比如，在拟合的过程中，实际结果与计算结果针对不确定参数1存在差异，此时，就会针对该差异进行拟合，在拟合过程中起到针对不确定参数1进行实际结果与计算结果拟合的因素即为影响参数，比如，实际结果与计算结果针对参数1在时间点1之间存在差异0.2，按理说，按照实际结果与计算结果进行拟合之后，需要达到0.1，但是，达到的结果为0.13，此时影响0.03结果的即为影响参数，由于历史拟合日志中会记录影响拟合日志，因此，获取与该影响参数参与同个不确定参数所拟合的整个过程，来得到拟合参与线程。

该实施例中，比如，线程1为对不确定参数1的拟合线程，但是在该线程中会存在多个拟合段，如图11所示，p01表示切入点，p02表示切出点，p01-p02即为对应的拟合段，且该拟合段的首尾点构成切入切出对，且相邻的拟合段所对应的切入切出对即为相邻切入切出对。

该实施例中，切入值与切出值指的是该影响参数在参与拟合过程中所起到的影响程度，因此，当相邻切入切出对中的第一切入切出对的切入值大于或等于第二切入切出对的切入值以及第一切入切出对的切出值大于或等于第二切入切出对的切出值，视为满足预设关系，则判断拟合参与线程合格，也就是影响参数才来的影响不作为参考。

该实施例中，判断条件即为相邻切入切出对中的第一切入切出对的切入值是否大于或等于第二切入切出对的切入值以及第一切入切出对的切出值是否大于或等于第二切入切出对的切出值。

该实施例中，切入切出对中只对切入点与切出点进行分析，所以切入点不满足判断条件时，对切入点进行标定，切出点不满足判断条件时，对切出点进行标定，进而可以得到标定数组，也就是：[10 01 11]，10表示切入点进行标点给，01表示切出点进行标定，11表示切入点与切出点进行标定。

该实施例中，数量也就是指的标定数量，参数值指的是影响拟合的值。

该实施例中，不合格数组=[第一不合格指数第二不合格指数]。

该实施例中，数组-优化数据库是包括不同的不合格数组以及与该数据匹配的优化策略在内的，且优化策略主要是针对影响拟合过程干扰的消除。

该实施例中，优化策略对切入切出数组进行调整主要是对该数组中存在的参数值进行调整，使其尽量满足判断条件，进而可以得到调整数组。

该实施例中，影响消除模型是基于原始数组与调整数组的差异以及与该差异匹配的消除因子为样本训练得到的，因此可以得到消除因子，主要是为了对存在的不合理影响进行消除。

上述技术方案的有益效果是：通过提取拟合结果中存在的影响参数，并构建线程，通过分析线程上的切入切出点，获取该影响是否会对拟合结果造成干扰，在其过程中，通过进行切入值与切出值的比较判断，分析线程是否合理进而分析拟合结果是否合理，保证拟合结果的可靠性，且通过进行数量与参数值来计算相关的不合格指数，有效的获取得到优化策略，通过调整，实现对结果的优化，进一步保证结果的可靠性。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，根据所述标定显示数组，确定与数量相关的第一不合格指数，包括：

表示所述标定显示数组中第i1个切入切出对的拟合权重，且

；D1表示第一不合格指数。

该实施例中，m1的取值至少大于2，且为2的倍数，且n1小于m1。

上述技术方案的有益效果是：通过确定标定显示数组的对数，便于以数量为基础计算得到不合格指数，且在计算过程中，以对应点的权重为辅助，对数量的比值结果进行优化，可以进一步保证不合格指数计算的合理性，为后续优化拟合结果提供基础。

本发明提供一种基于随机森林和遗传算法的油藏自动历史拟合方法，确定与参数值相关的第二不合格指数，包括：

该实施例中，参数值的和的取值范围为[0,1]，其中，y_i1+1＞y_i1。

上述技术方案的有益效果是：通过以切入切出点中的参数值的和为基础，来计算不合格指数，进而为后续优化拟合结果提供基础。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。