CN115935834B

CN115935834B - 一种基于深度自回归网络和持续学习策略的历史拟合方法

Info

Publication number: CN115935834B
Application number: CN202310152341.XA
Authority: CN
Inventors: 付文豪; 张凯; 张黎明; 刘丕养; 严侠; 张华清; 张文娟; 杨永飞; 孙海; 姚军
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-09
Anticipated expiration: 2043-02-23
Also published as: CN115935834A

Abstract

本发明公开了一种基于深度自回归网络和持续学习策略的历史拟合方法，属于油藏开发技术领域，包括如下步骤：确定需要反演的不确定油藏参数；生成样本库；构建嵌入卷积门控循环单元的自回归神经网络模型；基于集成持续学习策略，将不同的时间段划分为不同的任务，分别训练代理模型以适应不同阶段的预测任务，并通过经验传递提高后续训练任务的训练效率；测试自回归神经网络在不同任务中的预测性能；结合随机极大似然算法校准油藏不确定参数，最终给出油藏不确定参数的一组后验油藏参数；进行数值模拟，验证后验模型对生产观测的历史拟合效果，然后利用验证效果良好的后验模型进行油藏动态预测。本发明有效提高历史拟合任务的计算速度。

Description

一种基于深度自回归网络和持续学习策略的历史拟合方法

技术领域

本发明属于油藏开发技术领域，具体涉及一种基于深度自回归网络和持续学习策略的历史拟合方法。

背景技术

数值模拟是预测油藏动态的有效手段，是实现资源高效开发的保障。数值模拟的准确性依赖于油藏模型参数准确性。然而，建立油藏数值模型所依赖观测数据在空间上是十分稀疏的，因此，初始数值模型往往具有很大的不确定性，无法准确反映真实的油藏情况。历史拟合的目的在于通过油藏生产的观测数据校准初始油藏参数，使得数值模拟结果能够再现历史数据，进而为油藏的生产提供合理的动态预测。历史拟合算法通常基于迭代校准油藏参数，需要运行大量耗时的数值模拟。解决历史拟合算法所需的巨大计算成本的一个方法是使用代理模型。代理模型是数值模拟的近似值，因此，运行所需的时间要少得多。得益于非侵入性特征和易于实现的特征，基于数据驱动的代理模型被广泛引用于历史拟合问题。凭借其强大的非线性拟合能力，神经网络在油藏历史拟合领域取得了显著的成就。神经网络模型可以通过大量的训练数据建立一个由油藏不确定参数到油藏动态的映射，以牺牲部分精度为代价，实现快速的油藏动态预测。

此外，在油藏的整个生产周期内，历史拟合需要不断的实施以适应最新的生产观测数据。特别是当将历史拟合视为油藏闭环管理的一个步骤时，确保经过训练的代理模型能够通过从先前任务中转移经验来快速学习最近的数据是十分必要的。然而，当前的代理模型往往聚焦于某一确定时间段，无法快速更新以适应新的油藏动态数据。

发明内容

为了解决上述问题，本发明提出了一种基于深度自回归网络和持续学习策略的历史拟合方法，构建了基于持续学习策略的自回归网络模型，在自回归网络模型中嵌入了卷积门控循环单元以提高代理模型的预测性能，引入了基于集成思想的持续学习策略以实现代理模型快速更新适应新的动态数据，同时选用随机极大似然方法对油藏参数进行反演，适应于历史拟合问题的多解性，在历史拟合任务中有效地提高计算速度并节省了计算时间。

本发明的技术方案如下：

一种基于深度自回归网络和持续学习策略的历史拟合方法，包括如下步骤：

步骤1、确定需要反演的不确定油藏参数；

步骤2、生成若干组步骤1中选择的需要反演的参数作为输入数据，然后运行数值模拟得到油藏模拟动态数据，进而构建训练代理模型的样本库，并将样本库按比例随机划分训练集与测试集；

步骤3、构建嵌入卷积门控循环单元的自回归神经网络模型，以实现由油藏参数到油藏动态的端到端映射；

步骤4、基于集成持续学习策略，将不同的时间段划分为不同的任务，通过训练集中的数据分别训练代理模型以适应不同阶段的预测任务，并通过经验传递快速提高后续训练任务的训练效率；

步骤5、使用测试集中的数据测试嵌入卷积门控循环单元的自回归神经网络在不同任务中的预测性能；

步骤6、基于训练完成的代理模型，结合随机极大似然算法校准油藏不确定参数，最终给出油藏不确定参数的一组后验油藏参数；

步骤7、对得到的一组后验油藏参数进行数值模拟，验证后验模型对生产观测的历史拟合效果，然后利用验证效果良好的后验模型进行油藏动态预测。

进一步地，步骤1中，以控制流体流动的基本渗流微分方程中的参数为方向，选择在地质建模过程中不确定程度较大的参数作为需要反演的不确定参数，具体过程为：

考察多孔介质的基本渗流微分方程，分析其中的基本参数，确定影响流体在多孔介质中渗流的参数，基本渗流微分方程如下：

（1）；

（2）；

其中，

表示散度算子；

表示梯度算子；

表示水相密度；

表示水相粘度；

表示多孔介质的渗透率；

表示水相相对渗透率；

表示水相压力；

表示重力加速度；

表示深度；

表示水相源汇项；

表示偏微分运算；

表示多孔介质的孔隙度；

表示含水饱和度；

表示时间；

表示油相密度；

表示油相粘度；

表示油相相对渗透率；

表示油相压力；

表示油相源汇项；

表示含油饱和度；

通过分析渗流微分方程，得到影响油藏动态的不确定参数包括渗透率、孔隙度、相对渗透率曲线、流体密度，其中渗透率及相对渗透率曲线的测定不确定程度较大，需要根据生产观测数据进行校准。

进一步地，步骤2的具体过程为：

首先，针对渗透率采用开源的地质建模软件SGeMS直接生成，针对相对渗透率曲线采用修正Brooks-Corey数学模型直接生成；生成初始样本后，对每组油藏参数运行数值模拟计算相应的油藏动态，而后构成一组特征-标签的完整样本；最后将样本按比例划分训练集与测试集。

进一步地，步骤3的具体过程为：

步骤3.1、建立由油藏参数预测油藏动态的数学模型，油藏状态图预测是一个由给定的油藏不确定参数和生产制度控制的近似过程，基于马尔可夫假设将模型描述为：

（4）；

其中，

表示在已知初始油藏饱和度图

、油藏参数

、从第0步到第

步这一时间段内生产制度

的条件下第1步到第

步饱和度图集合

的概率分布；

表示在已知第

步饱和度图

、油藏参数

和第

步到第

步这一时间段内生产制度

的条件下第

步饱和度图

的概率分布；

结合条件自回归模型，直接近似预测过程；该自回归模型的训练为最小化负对数似然：

（5）；

其中，

表示计算均值，

表示自回归模型的参数，

表示在输入初始油藏饱和度图

、油藏参数

和第0步到第1步这一时间段内生产制度

的条件时自回归模型预测目标为第1步饱和度图

，

表示在输入模型预测第

步饱和度图

、油藏参数

和第

步到第

步这一时间段内生产制度

的条件时自回归模型预测目标为第

步饱和度图

；

步骤3.2、设计嵌入门控循环单元的自回归网络模型结构，实现油藏参数到油藏动态端到端的代理；

自回归网络模型包括嵌入卷积门控循环单元的编码模块和解码模块，输入数据首先通过嵌入卷积门控循环单元的编码模块以捕获时间动态并输出提取的特征图；然后，解码模块将提取的特征图映射到实际油藏状态图；

其中，嵌入卷积门控循环单元的编码模块由基本卷积单元和交替的两组卷积门控循环单元和下采样卷积块组成；解码模块由两个上采样卷积块组成。

进一步地，步骤4的具体过程为：

基于集成持续学习策略，建立一个显式的集成框架，针对每一个任务建立一个代理模型进行预测，每一个代理模型具有相同的结构不同的模型参数，且串联在一起承担较长周期的油藏动态预测；

使用当前阶段的预训练模型的参数初始化下一阶段的模型，从而将经验从当前阶段转移到下一阶段；

将当前阶段中由自回归模型的门控循环单元模块最后一步输出的隐藏层视为下一阶段中的初始隐藏层；该集成框架通过传递不同任务的经验，共同处理一系列类似的任务。

进一步地，步骤5的具体过程为：

步骤5.1、将测试数据输入由不同样本大小的训练数据训练的自回归网络模型，得到测试集的饱和度图预测结果；

步骤5.2、使用确定系数

评估测试集的预测效果，计算公式为：

（7）；

其中，

表示第

个样本，

为测试集样本总数，

与

分别表示数值模拟器的计算结果和代理模型的预测结果，

表示数值模拟器的计算结果的均值；

步骤5.3、根据步骤5.2计算得到

值，综合考虑计算成本因素，最终选择达到预测精度要求且计算成本相对较低的模型。

进一步地，步骤6的具体过程为：

步骤6.1、采用主成分分析算法对先验油藏集合进行参数化，主成分分析的公式为：

（8）；

其中，

为还原矩阵，

代表降维后的变量，

代表先验油藏参数的均值，

代表重构的油藏参数；

步骤6.2、借助Pytorch框架自动微分功能，直接通过基于梯度算法对后验参数的后验分布进行采样，结合随机极大似然的历史拟合优化目标函数为：

（9）；

其中，

表示代理模型的预测过程，

表示由低维变量到高维油藏参数的重构过程，对应公式（8），

表示扰动观测数据，

为衡量观测误差的协方差矩阵，

代表降维后的变量，

从和

维度相同的标准正太分布采样得到；

多次优化公式（9）得到一组后验油藏参数，用于预测油藏动态的范围。

本发明所带来的有益技术效果。

本发明针对历史拟合这一计算成本巨大且需要在油藏生产开发的不同阶段不断实施的优化问题，提出了一种由油藏模型参数到油藏动态图的端到端的代理模型。本发明提出的代理模型基于嵌入卷积门控循环单元的自回归模型，能够在保证预测精度的前提下降低数值模拟的计算成本。此外，在油藏的整个生产周期内，必须多次进行历史拟合，以适应最新的生产观测结果。因此，基于所提出的代理模型实现了一种基于集成的持续学习策略，以确保经过训练的代理模型能够通过从先前任务中转移经验来快速学习最新的数据。结合上述基于神经网络的代理模型，引入主成分分析对高维油藏参数进行参数化，引入随机最大似然来校准不确定参数，形成了一个高效的历史拟合框架，具有很好的推广应用价值。

附图说明

图1为本发明基于深度自回归网络和持续学习策略的历史拟合方法流程示意图。

图2为本发明提出的嵌入卷积门控循环单元自回归代理模型的预测过程示意图。

图3为本发明提出的代理模型详细结构示意图。

图4为本发明自回归网络模型中卷积门控循环单元的结构示意图。

图5为本发明基于集成策略的持续学习代理框架的流程示意图。

图6为本发明实施例中针对不同规模训练集训练的代理模型在测试样本上的精度。

图7为本发明实施例中通过迁移任务一中经验后任务二精度随迭代轮数的变化结果。

图8为本发明实施例中科里指数箱型图。

图9为本发明实施例中相对渗透率曲线图。

图10为本发明实施例中后验油藏模型模拟生产数据针对油藏累计产水量的拟合和预测效果图。

图11为本发明实施例中后验油藏模型模拟生产数据针对油藏累计产油量的拟合和预测效果图。

图12为本发明实施例中后验油藏模型模拟生产数据针对油藏产液含水率的拟合和预测效果图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种基于深度自回归网络和持续学习策略的历史拟合方法，包括如下步骤：

步骤1、确定需要反演的不确定油藏参数。本发明以控制流体流动的基本渗流微分方程中的参数为方向，选择在地质建模过程中不确定程度较大的参数作为需要反演的不确定参数，具体过程为：

（1）；

（2）；

其中，

表示散度算子，用于计算括号中矢量的散度；

表示梯度算子，用于计算标量的梯度；

表示水相密度；

表示水相粘度；

表示多孔介质的渗透率；

表示水相相对渗透率；

表示水相压力；

表示重力加速度；

表示深度；

表示水相源汇项；

表示偏微分运算；

表示多孔介质的孔隙度；

表示含水饱和度；

表示时间；

表示油相密度；

表示油相粘度；

表示油相相对渗透率；

表示油相压力；

表示油相源汇项；

表示含油饱和度；

分析渗流微分方程可知，影响油藏动态的参数包括渗透率、相对渗透率曲线、孔隙度、流体密度等。在数值模拟工作中，为预测未来产量，必须指定上述参数，这些参数往往通过局部采样的方式进行测量。由于观测位置相对于整个油藏往往十分稀疏，部分参数的测量往往具有较大的不确定性（如渗透率、相对渗透率曲线）。在历史拟合工作中，需要校准这些具有较大不确定性的参数以近似匹配油藏的生产观测数据。因此，后续代理模型构建的目标即为建立一个由上述具有较大不确定性的不确定参数到油藏动态的端到端的映射。

步骤2、生成若干组步骤1中选择的需要反演的参数作为输入数据，然后运行数值模拟得到油藏模拟动态数据，进而构建训练代理模型的样本库，并将样本库按比例随机划分训练集与测试集。具体过程为：

针对空间类型的数据（如渗透率），可以用开源的地质建模软件SGeMS直接生成；针对向量类型的数据（如相对渗透率曲线），可以使用相应的数学模型直接生成，如可以通过修正Brooks-Corey模型生成相对渗透率曲线。生成初始样本后，对每组油藏参数运行数值模拟计算相应的油藏动态（油藏动态结果实质为饱和度图），而后可以构成一组特征-标签的完整样本。将样本按照合适的比例划分训练集与测试集。

步骤3、构建嵌入卷积门控循环单元的自回归神经网络模型，以实现由油藏参数到油藏动态的端到端映射。具体过程为：

步骤3.1、建立由油藏参数预测油藏动态的数学模型，油藏状态图预测是一个由给定的油藏不确定参数和生产制度控制的近似过程，模型可以描述为：

（3）；

其中，

表示在已知初始油藏饱和度图

、油藏参数

、从第0步到第

步这一时间段内生产制度

的条件下第1步到第

步饱和度图集合

的概率分布；

表示在已知初始油藏饱和度图

、油藏参数

、从第0步到第

步这一时间段内生产制度

的条件下第1步饱和度图

的概率分布；

表示在第0步到第

步饱和度图集合

、油藏参数

、从第0步到第

步这一时间段内生产制度

的条件下第

步饱和度图

的概率分布。

为减少模型复杂度，基于马尔可夫假设给出一个简化近似过程，模型可以描述为：

（4）；

其中，

表示在已知第

步饱和度图

、油藏参数

和第

步到第

步这一时间段内生产制度

的条件下第

步饱和度图

的概率分布。

结合条件自回归模型，可以直接近似上述预测过程。该自回归模型的训练可被视为最小化负对数似然：

（5）；

其中，

表示计算均值，

表示自回归模型的参数，

表示在输入初始油藏饱和度图

、油藏参数

和第0步到第1步这一时间段内生产制度

的条件时自回归模型预测目标为第1步饱和度图

，

表示在输入模型预测第

步饱和度图

、油藏参数

和第

步到第

步这一时间段内生产制度

的条件时自回归模型预测目标为第

步饱和度图

。图2给出了所提出的嵌入卷积门控循环单元自回归代理模型的预测过程，通过将卷积门控循环单元结构引入自回归模型中捕获时序特征，以确保自回归过程的稳定性。

图2的预测过程具体为：首先，初始化一个全零张量

作为卷积门控循环单元的初始隐藏层；然后，将初始油藏饱和度图

、第0步到第1步这一时间段内生产制度

以及油藏参数

输入到嵌入卷积门控循环单元的编码模块中提取时序特征，得到多通道特征图；该特征图通过解码模块进行解码预测得到第1步饱和度图

。紧接着，将预测得到的第1步饱和度图

、第1步到第2步时间段内生产制度

、油藏参数

，以及含有时序特征的第1步的输出的隐藏层

输入到嵌入卷积门控循环单元的编码模块，得到多通道特征图；而后通过解码模块预测得到第2步饱和度图

。而后以此类推，将预测得到的第

步饱和度图

、油藏参数

、第

步到第

步这一时间段内生产制度

，含有时序特征的第

步的输出的隐藏层

输入到嵌入卷积门控循环单元的编码模块，得到多通道特征图；而后通过解码模块预测得到第

步饱和度图

，同时得到含有时序特征的第

步的输出的隐藏层

。

步骤3.2、设计嵌入门控循环单元的自回归网络模型结构，实现油藏参数到油藏动态端到端的代理。

自回归网络的基本预测思路为，输入油藏参数，上一时间步预测的饱和度图及上一时间步到本时间步这段时间的生产制度预测当前时间步的饱和度图。本发明提出的嵌入卷积门控循环单元的自回归网络模型的基本结构如图3所示，由两个不同的模块组成：嵌入卷积门控循环单元的编码模块和解码模块，输入数据首先通过嵌入卷积门控循环单元的编码模块以捕获时间动态并输出提取的特征图。然后，解码模块将提取的特征图映射到实际油藏状态图。图3展示了所提出模型的基本架构，输入数据通过嵌入卷积循环单元编码模块以捕获时间序列特征，并逐渐压缩为长高较小的特征图，然后特征图通过解码模块解码为油藏饱和度图，实现对油藏动态的预测。嵌入卷积门控循环单元的编码模块由基本卷积单元（

卷积层、批归一化层、ReLU激活函数）和交替的两组卷积门控循环单元和下采样卷积块组成；解码模块由两个上采样卷积块组成。

其中，在嵌入卷积门控循环单元的编码模块中，卷积门控循环单元同步输入隐藏层

；下采样卷积块的具体流程为：输入分为两路进行处理，一路依次通过批归一化层、ReLU激活函数层、下采样层、

卷积层、批归一化层、ReLU激活函数层、

卷积层一系列复杂操作，以提取更深层的特征；另一路只通过下采样层和

卷积层，只提取浅层的特征；而后两路进行求和作为输出。

在解码模块中，上采样卷积块的具体流程为：输入分为两路进行处理，一路依次通过批归一化层、ReLU激活函数层、上采样层、

卷积层、批归一化层、ReLU激活函数层、

卷积层一系列复杂操作，以提取更深层的特征；另一路只通过上采样层和

卷积层，只提取浅层的特征；而后两路进行求和作为输出。上/下采样卷积块通过引入残差模型，可以有效防止神经网络模型深度较深时的退化现象，保证深度神经网络模型近似地准确性。

本发明在编码模块中嵌入了卷积门控循环单元以有效捕捉油藏饱和度图的时序特征，卷积门控循环单元将传统的全连接层替换为卷积层以适应于处理时间序列的图像数据。卷积门控循环单元的具体结构如图4所示，卷积门控循环单元由隐藏层、候选隐藏层、重置门及更新门四部分组成。重置门用于重置上一步骤的隐藏层，确定候选隐藏层上一步骤的隐藏层的作用权重。候选隐藏层表示当前提取的特征。更新门的作用为确定候选隐藏层中上一步骤的隐藏层和当前提取的特征的权重。门控循环单元通过重置门及更新门有效克服了循环神经网络更新时中得梯度消失问题。

图4中

表示重置门，用于控制前一步的隐藏层有多大程度更新到当前候选隐藏层；

表示更新门，用于控制前一步的隐藏层有多大程度更新到当前隐藏层。

表示第

步输入的信息，

和

分别表示第

和第

步的隐藏层状态，

表示第

步的候选隐藏层状态，

表示第

步的候选隐藏层状态，

表示sigmoid激活函数，tanh表示双曲正切激活函数，

表示Hadamard乘积运算，

表示加和运算，“1-”表示1减去某项。卷积门控循环单元的方程式如下所示：

（6）；

其中，

表示卷积运算；

、

、

分别表示重置门、更新门、候选隐藏层中用于提取

特征卷积神经网络的权重；

、

、

分别表示重置门、更新门、候选隐藏层中用于提取

特征卷积神经网络的权重；

、

、

分别表示重置门、更新门、候选隐藏层中用于提取

特征卷积神经网络的偏置；

、

、

分别表示重置门、更新门、候选隐藏层中用于提取

特征卷积神经网络的偏置。

本发明所有卷积操作只改变特征图的通道数，特征图的长和高通过上/下采样改变，神经网络模型的构建通过深度学习库Pytorch实现。

步骤4、基于集成持续学习策略，将不同的时间段划分为不同的任务，通过训练集中的数据分别训练代理模型以适应不同阶段的预测任务，并通过经验传递快速提高后续训练任务的训练效率。

将门控循环单元结构集成到自回归模型中将使该模型具有一定的时间序列预测能力。当有一个经过训练的模型时，理论上，这个模型可以预测比训练数据中给出的步长更多的时间步长状态。这种能力提供了一种将从以前的数据中学习到的经验转移到下一阶段来学习新数据的方法。如果已经训练用于预测当前阶段状态图的模型在下一阶段数据上进行训练，则基于神经网络的模型将忘记如何执行当前任务。这是神经网络模型的内在局限性，即“灾难性遗忘”现象。一种可行的方法是在每个阶段重新访问所有以前的数据，但随着任务的累积，这种方法会导致不可接受的时间消耗。因此，基于集成的持续学习策略，本发明建立了一系列子代理模型来拟合不同阶段的数据，即一个代理模型承担一个阶段的预测任务。本发明通过两种策略协同作用实现经验传递，第一种策略为使用当前阶段的预训练模型在下一阶段训练模型；第二种策略为将当前阶段中最后一步的隐藏层视为下一阶段中的初始隐藏层，通过这些隐藏层反映任务图的内在结构。

步骤4的具体过程为：

为实现代理模型能够快速学习后续时间段的数据，基于集成持续学习策略，本发明建立了一个显式的集成框架，即针对每一个任务（不同的时间段）建立一个代理模型进行预测。这些代理模型具有相同的结构不同的模型参数，且可以串联在一起承担较长周期的油藏动态预测。

为了将经验从当前阶段转移到下一阶段，使用当前阶段的预训练模型的参数初始化下一阶段的模型。此外，本发明中的自回归模型结合了门控循环单元模块，该模块将大量信息存储到隐藏层中。这些隐藏层反映了任务图的内在结构，并且对于所捕获的时间特征至关重要，这些时间特征传递知识以帮助学习新数据。因此，将当前阶段中最后一步输出的隐藏层视为下一阶段中的初始隐藏层。该框架通过传递不同任务的经验，共同处理一系列类似的任务，其流程如图5所示，具体流程为：针对阶段1训练一个自回归模型，实现输入初始油藏饱和度图

，对阶段1任务进行预测（即输出第1步到第

步饱和度图

）。然后用阶段1数据训练的模型（即预训练模型）的参数初始化阶段2自回归模型；此外，阶段1最后输出的隐藏层

作为阶段2自回归模型的初始隐藏层；针对阶段2的数据通过微调自回归模型参数，实现输入饱和度图

，对阶段2任务进行预测（即输出第

步到第

步的饱和度图

），同步输出阶段2的隐藏层

。以此类推，将阶段k-1最后输出的隐藏层

作为阶段k自回归模型的初始隐藏层，针对阶段k的数据通过微调自回归模型参数，实现输入饱和度图

，对阶段k任务进行预测（即输出第

步到第

步的饱和度图

），同步输出阶段k的隐藏层

。本发明可以针对

的阶段建立

个自回归模型，分别预测不同阶段的饱和度图，并实现经验传递减少训练时间。这对于预测随时间不断演变的储层状态至关重要。

步骤5、使用测试集中的数据测试嵌入卷积门控循环单元的自回归神经网络在不同任务中的预测性能。具体过程为：

步骤5.1、将测试数据输入由不同样本大小的训练数据训练的自回归网络模型，得到测试集的饱和度图预测结果。

步骤5.2、使用常用的性能评价标准确定系数

评估测试集的预测效果，计算公式为：

（7）；

其中，

表示第

个样本，

为测试集样本总数，

与

分别表示数值模拟器的计算结果和代理模型的预测结果，

表示数值模拟器的计算结果的均值。

的值越接近1，表示预测精度越高。

步骤5.3、根据步骤5.2计算得到

步骤6、基于训练完成的代理模型，结合随机极大似然算法来校准油藏不确定参数，最终给出油藏不确定参数的一组后验油藏参数。

本发明实施例中，基于上述的代理模型形成了一个基于代理的地震数据历史拟合框架。由于观测地点的数量有限，以及流动的扩散性质，大多数生产数据集的信息含量相当低。这导致井间的非均质储层参数不受井观测的约束。地震数据可以提供关于储层动态变化的足够的空间信息。因此，本发明通过4D地震数据反演到饱和度场作为历史观测数据。

历史拟合可以视为参数空间中的一个优化问题。因此，基于Pytorch建立的代理模型，可以利用Pytorch框架中自动差分功能，通过梯度下降直接实施历史拟合。为了有效地对不确定油藏参数的后验概率密度函数进行采样，并给出合理的不确定性量化结果，将极大随机似然作为历史拟合目标函数。

步骤6的具体过程为：

步骤6.1、由于不相关和冗余的高维油藏参数，很难有效地实现基于优化过程的历史拟合。因此，历史拟合前首先需要对高维油藏参数实施降维以减少优化任务中搜索空间的维度。为实现高效准确的参数化，本发明采用主成分分析算法对先验油藏集合进行参数化，主成分分析的公式为：

（8）；

其中，

为还原矩阵，可以将低维变量还原为高维参数，

代表降维后的变量，一般服从多元标准正太分布，

代表先验油藏参数的均值，

代表重构的油藏参数。

主成分分析降维只针对油藏参数中的高维空间参数。其余向量类型参数由于维度较低，一般不需要降维。

步骤6.2、借助Pytorch框架自动微分功能，可以直接通过基于梯度算法对后验参数的后验分布进行采样。随机极大似然是一种高效的采样方法，针对线性或非线性系统，都能给出后验参数的合理分布。结合参数化技术的随机极大似然的优化目标为：

（9）；

其中，

表示代理模型的预测过程，

表示扰动观测数据，

为衡量观测误差的协方差矩阵，

代表降维后的变量，为待优化变量，

从和

维度相同的标准正太分布采样得到。

步骤7、对得到的一组后验油藏参数进行数值模拟，验证后验模型对生产观测的拟合效果，然后利用验证效果良好的后验模型进行油藏动态预测。

为了验证本发明方法的可行性，采集某油田区块真实数据进行了验证实验。

该油田区块有34口井，其中12口注水井，22口生产井。该油藏被离散为26880个（

）网格单元，垂向共离散为4层，每层离散为6720个网格单元。每个网格的尺寸为

，其中20220个网格单元处于激活状态。

基于上述数据采用本发明方法进行剩余油藏动态预测的具体步骤为：

步骤1、确定需要反演的油藏参数，以控制流体流动的基本渗流微分方程中的参数为方向，选择在地质建模过程中不确定程度较大的参数作为需要反演的不确定参数。在油藏实际开采中，孔隙度、数流体密度的测定是比较精确的，一般不需要进行校准。渗透率、相对渗透率曲线等参数的测定有较大的不确定性，需要通过实际的生产观测数据进行校准。因此这里将渗透率和相对渗透率曲线作为需要反演的油藏参数。

步骤2、构建训练代理模型的样本库。针对渗透率，可利用开源的地质建模软件SGeMS直接生成，渗透率由各向异性指数相关函数生成，最大相关长度为25（相关长度指网格数），中值相关长度为14，最小相关长度为4，最大相关长度的各向异性方向为30°，中值相关长度和最小相关长度的各向异性方向为0°。对于所有网格块，先验对数渗透率均值设置为4，标准差设置为0.6。针对相对渗透率曲线数据，通过修正Brooks-Corey模型生成，这里设定油相和水相科里指数的范围都为2~6，通过均匀分布采样得到相应的相对渗透率曲线。本实施例共生成了1200组先验样本，调用数值模拟器对1200组先验样本进行模拟，得到相应的油藏动态。针对构建的1200组样本，随机按照5：1的比例划分为训练集和测试集，即1000个训练样本，200个测试样本。

步骤3、构建图3所示的由油藏参数（渗透率，相对渗透率曲线）到油藏饱和度图的端到端的代理模型。即通过输入初始的油藏饱和度图，油藏渗透率及相对渗透率曲线，不同阶段的生产制度，通过自回归的方式预测出油藏在不同时间步的饱和度图。本实施例设置不同时间步的间隔为90天，油藏生产的历史时期共1800天。

步骤4、为实现代理模型能够快速学习后续时间段的数据，基于集成持续学习策略，本发明建立了一个显式的集成框架，该持续学习框架如图5所示。本实施例中，将前900天作为第一个任务，后900天作为第二个任务，分别训练不同代理模型，并通过将学习任务一中的经验迁移到任务二中加速任务二的学习效率。然后将两个代理模型串联在一起承担全历史周期的油藏饱和度图预测。

步骤5、使用测试集中的数据测试嵌入卷积门控循环单元的自回归神经网络在不同任务中的预测性能。选择Adam算法作为优化器更新模型参数。在本实施例中，初始学习率设置为0.0002，然后每20个时期将学习率除以2。衰减学习率可以加速早期训练阶段的模型学习，并确保模型在后期训练阶段不会出现太多波动，从而更接近最优解。选择L1函数作为损失函数。自回归网络被训练轮数设置为200。

针对第一个任务，分别采用200、400、600、800个不同规模的训练样本训练代理模型，然后利用测试集分别测试不同训练样本训练代理模型的预测精度，如图6所示。从图6中可以观察到，代理模型在测试集上的预测精度随训练样本数的增多而提高，但提高速率逐渐下降。对比训练样本数由400增加到600时预测准确率的增幅，训练样本数由600增加到800时的增幅明显下降。因此再增加训练样本数的收益是十分有限的，这里直接使用由800个训练样本训练地神经网络作为历史拟合的代理模型。

针对第二个任务，利用任务一中已训练的参数初始化模型参数，并将任务一中最后一步卷积门控循环单元输出的隐藏层状态作为任务二中的初始隐藏层状态。在此基础上训练新的神经网络适应任务二的数据，如图7所示。从图7中不难看出，经过几轮迭代即可使确定系数

较高，从而达到较高精度，因此通过迁移任务一中的经验，可以使得神经网络模型快速学习以适应任务二中的数据。

步骤6、基于步骤5训练好地代理模型，结合随机极大似然算法来校准油藏不确定参数，最终给出油藏不确定参数的后验分布。本实施例中，历史数据包含前1800天的观测结果，即总共404400个测量数据。这里通过将噪声添加到“真实”数据中来模拟4D地震观测值，噪声级别设置为5%。在本实施例中，用于量化不确定性的先验集合大小为100。利用主成分分析方法并将累积能量损失设置为0.01，将渗透率的维数减少到94。综合表征相对渗透率曲线的2个MBC模型参数，降维后变量的最终维数为96。然后，使用基于代理的随机极大似然来优化降维后变量，并最终获得100个后验模型。利用平均均方根误差作为评价指标，对比后验渗透率和先验渗透率同真实渗透率的差异。平均均方根误差指的是求出先验/后验集合中每个样本和真实渗透率的均方根误差，然后对均方根误差集合取均值。下面分别给出油藏垂向上四层先验渗透率和真实渗透率平均均方根误差（先验平均均方根误差），以及后验渗透率和真实渗透率的平均均方根误差（后验平均均方根误差）。

油藏模型每一层的先验与后验平均均方根误差对比结果为：第一层先验平均均方根误差为1.3220，第一层后验平均均方根误差为0.2540；第二层先验平均均方根误差为1.3334，后验平均均方根误差为0.2782；第三层先验平均均方根误差为1.3201，第三层后验平均均方根误差为0.2863；第四层先验平均均方根误差为1.3139，第四层后验平均均方根误差为0.2794。从这些数据可以看出，对油藏模型的每一层，相比于先验渗透率后验渗透率都大大降低了同真实渗透率的差异。

此外，图8给出了100个后验模型的科里指数箱型图，图8通过箱型图的方式量化了后验科里指数的不确定性，黑点表示真实值（例如，图中箱型结构右侧的3和4表示科里指数的真实值），每个框内的黑色线表示中位数，每个框的底部和顶部表示上四分位和下四分位结果，从框延伸的线的末端对应于上边缘和下边缘结果。可以看出后验科里指数分布很好地覆盖了真实的科里指数。

图9给出了后验相对渗透率曲线均值和真实相对渗透率曲线的拟合效果，可以看出后验相对渗透率曲线均值能较好地拟合上真实相对渗透率曲线。

步骤7、对100个经过校准得后验油藏模型进行数值模拟，如图10-图12所示（其中垂直的虚线表示历史时期和预测时期的分界，垂直的虚线左侧为历史时间，右侧为预测时期）。图10-图12分别展示了油藏累积产水量、油藏累积产油量、油藏产液含水率的模拟对比结果，可以看出，在历史时期，后验模型的模拟数据能够很好地拟合历史数据；在预测时期，后验模型的模拟数据能对油藏的动态给出合理的预测范围，相比于先验模型，显著降低了预测得不确定性。

针对在油藏开发周期中，需要不断校准储层参数以适应新的观测结果这一问题，本发明建立了一个基于集成策略的持续学习框架。利用这种连续学习框架，有效地降低了代理模型学习新任务数据的计算成本，提升了油藏在整个生产开发周期中的历史拟合效率。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。