CN118095667A

CN118095667A - 一种近期经验引导的油藏多类措施流场调控强化学习方法

Info

Publication number: CN118095667A
Application number: CN202410524678.3A
Authority: CN
Inventors: 张凯; 孙子峰; 张黎明; 刘丕养; 严侠; 张华清; 张文娟; 王阳; 姚军; 孙海; 杨永飞
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2024-04-29
Filing date: 2024-04-29
Publication date: 2024-05-28
Anticipated expiration: 2044-04-29
Also published as: CN118095667B

Abstract

本发明公开了一种近期经验引导的油藏多类措施流场调控强化学习方法，属于油藏生产优化技术领域，主要包括以下步骤：确定需要优化的层位及注采优化变量；构建油藏离散和连续调控措施混合动作空间；基于混合动作空间，构建油藏多类措施流场调控混合深度强化学习智能体模型；将智能体模型与流场调控数值模拟器持续交互，生成油藏多类措施流场调控经验样本库；结合近期经验采样机制从样本库中采集近期调控经验，训练更新智能体模型，输出最优的油藏多类措施流场调控方案。本发明通过构建混合深度强化学习智能体可以对层位封堵和注采制度进行高精度调控，同时基于近期调控经验可实现更高效的优化。

Description

一种近期经验引导的油藏多类措施流场调控强化学习方法

技术领域

本发明属于油藏生产优化技术领域，具体涉及一种近期经验引导的油藏多类措施流场调控强化学习方法。

背景技术

由于我国油藏具有强非均质性，在油藏开发过程中平面矛盾和层间矛盾突出。注入水通常会沿高渗通道快速突进到生产井中，导致低渗区域富集大量的剩余油难以采出，油藏各层之间剩余油驱替不均匀。因此亟需采取多类调控措施以提高剩余油动用程度，实现均衡驱替。

在实际生产过程中通常需要同时进行层位封堵和注采优化措施以缓解层间矛盾和平面矛盾。因此对特定层位进行封堵并同时调控各井的注采制度显得尤为重要。但现有的生产优化方法大多只对各井的注采制度进行调控，措施调控方式单一，且优化效率较低，难以实现层位和注采制度高效优化。因此如何实现油藏多类措施流场调控，并提高层位及注采制度优化效率是一项亟待解决的问题。

发明内容

为了解决现有生产优化方法仅聚焦于注采制度的调控，措施调控方式单一，难以实现层位封堵及注采制度高效联调的问题，本发明提出了一种近期经验引导的油藏多类措施流场调控强化学习方法。该方法针对层位封堵优化变量离散化和注采制度优化变量连续化的特点，构建了油藏离散和连续调控措施混合动作空间，基于混合动作空间构建油藏多类措施流场调控混合深度强化学习智能体模型，并利用智能体与流场调控数值模拟器交互产生大量的调控经验样本，进而生成油藏多类措施流场调控经验样本库，采用近期经验采样机制从样本库中采集近期调控经验以训练更新智能体，进而得到最优的油藏多类措施流场调控方案。

本发明的技术方案如下：

一种近期经验引导的油藏多类措施流场调控强化学习方法，包括如下步骤：

步骤1、确定需要优化的层位及注采优化变量；

步骤2、结合油藏多类措施中层位封堵离散优化变量和注采制度连续优化变量，构建油藏离散和连续调控措施混合动作空间；

步骤3、基于混合动作空间，构建油藏多类措施流场调控混合深度强化学习智能体模型；

步骤4、将智能体模型与流场调控数值模拟器持续交互，生成油藏多类措施流场调控经验样本库；

步骤5、结合近期经验采样机制从样本库中采集近期调控经验，训练更新智能体模型，输出最优的油藏多类措施流场调控方案。

进一步地，所述步骤1中，根据目标油藏确定各个调控时间步内需要调控注采制度的油水井以及需要封堵的层位数量，需要优化的层位及注采优化变量表示为：

(1)；

式中，是所有需要封堵的层位数量；/>是优化的注水井数；/>是优化的生产井数；/>是调控时间步数，每个调控时间步为一个优化周期；/>是第/>个时间步下第/>个需要封堵的层位；/>是第/>个时间步下第/>口优化的注水井的注水速率；/>是第/>个时间步下第/>口优化的生产井的生产速率。

进一步地，所述步骤2的具体过程如下：

步骤2.1、根据油藏多类措施中层位优化变量离散化的特点，构建层位离散动作空间：

(2)；

(3)；

(4)；

式中，表示层位离散动作空间，一个层位调控井对应一个子离散动作空间，因此/>中共包含/>个子离散动作空间；/>表示第/>个子离散动作空间；/>为层位编号；/>表示第/>个子离散动作空间对应的层位调控井所钻遇的油藏层数；/>表示第/>个时间步下的所有层位离散动作；/>为第/>个时间步下第/>个子离散动作空间对应的层位离散动作；/>为层位离散动作空间的维度；/>为第/>个子离散动作空间的维度；

步骤2.2、根据注采优化变量连续化的特点，构建注采连续动作空间：

(5)；

式中，表示第/>个时间步下的注采连续动作；/>为第/>个时间步下的第/>个注采制度调控井对应的第/>个注采连续动作；/>表示连续动作空间；

步骤2.3、根据构建的层位离散动作空间和注采连续动作空间，整合为油藏离散和连续调控措施混合动作空间：

(6)；

式中，表示油藏离散和连续调控措施混合动作空间；/>表示第/>个时间步下的油藏多类措施流场调控混合动作，包括各调控井的层位优化变量和注采连续优化变量。

进一步地，所述步骤3中，油藏多类措施流场调控混合深度强化学习智能体模型包括策略网络模型、动作价值网络模型、目标动作价值网络模型；

所述步骤3的具体过程为：

步骤3.1、基于油藏离散和连续调控措施混合动作空间，构建策略网络模型；策略网络模型包括卷积神经网络、离散动作全连接网络、连续动作全连接网络；其中，卷积神经网络负责处理油藏饱和度场和压力场输入状态；离散动作全连接网络输出层神经元个数为，负责决策层位优化变量；连续动作全连接网络输出层神经元个数为/>，包括用于构建高斯分布的/>个均值和/>个方差，连续动作全连接网络负责决策注采优化变量的；/>为连续动作空间的维度；

输入的油藏饱和度场和压力场数据首先通过卷积神经网络以提取油藏隐式状态特征，然后将提取的油藏隐式状态特征分别输入到离散动作全连接网络和连续动作全连接网络中，生成离散动作概率分布和连续动作的高斯分布，最后输出油藏多类措施流场调控混合动作；

步骤3.2、基于油藏状态和注采连续动作空间，构建动作价值网络模型和目标动作价值网络模型；

动作价值网络模型和目标动作价值网络模型结构相同，均包括负责处理油藏饱和度场和压力场输入状态的卷积神经网络和负责输出动作Q值的全连接网络；对于动作价值网络模型和目标动作价值网络模型，输入的油藏饱和度场和压力场数据首先通过卷积神经网络以提取油藏隐式状态特征，然后将油藏隐式状态特征和连续动作同时输入到全连接网络中，分别得到动作Q值和目标动作Q值。

进一步地，所述步骤4的具体过程为：

步骤4.1、将第个时间步下的油藏模型的饱和度场和压力场数据作为油藏状态输入到策略网络模型中，得到层位离散动作概率分布和注采连续动作高斯分布，然后分别采样得到/>和/>，最后输出第/>个时间步下的油藏多类措施流场调控混合动作/>，其中层位离散动作概率分布和注采连续动作高斯分布分别通过下式计算得到：

(7)；

(8)；

(9)；

式中，为层位离散动作策略，/>为权重；/>为第/>个时间步下的油藏状态，油藏状态包括油藏模型的饱和度场和压力场数据；/>表示第/>个子离散动作空间的离散动作概率分布；/>表示离散动作全连接网络输出的第/>个值；/>为softmax函数；/>为注采连续动作策略；/>表示第/>个注采连续动作对应的高斯分布；

步骤4.2、调用流场调控数值模拟器计算当前时间步下的累产油和累产水以及累注水量，然后结合奖励函数评估的优劣，其中奖励函数表示为：

(10)；

式中，为第/>个时间步下的奖励；/>和/>分别表示油藏模型的生产井和注水井总数；/>表示原油价格，/>和/>分别表示产水处理成本和注水成本；/>、分别是第/>个时间步下第/>口生产井的日产油量、日产水量；/>是第/>个时间步下第/>口注水井的注水速率；/>是单个时间步长的时间间隔；

步骤4.3、获取油藏模型第时间步下的油藏状态/>，并将第/>个时间步下的油藏多类措施流场调控经验/>保存在油藏多类措施流场调控经验样本库/>中；

步骤4.4、重复步骤4.1-步骤4.3，收集油藏开发个调控时间步下的油藏多类措施流场调控经验。

进一步地，所述步骤5的具体过程如下：

步骤5.1、采用模拟退火机制动态调整近期经验样本重视程度，具体如下所示：

(11)；

式中，表示对近期经验样本的重视程度；/>为/>的初始值；/>和/>分别表示当前迭代次数和总迭代次数，随着迭代次数的增加，/>逐渐增加到1并最终退火为均匀采样；

步骤5.2、根据中油藏多类措施流场调控经验样本的数量，计算当前迭代轮次下每次更新时的近期经验样本采样范围，并在该采样范围内小批量采样，得到近期调控经验，其中近期经验样本采样范围的计算公式如下所示：

(12)；

式中，表示第/>次更新时近期经验采样范围；/>为每次采样范围的最小值；为第/>次更新时经验缓存区的大小；/>为每个迭代轮次下的更新次数；

步骤5.3、根据近期调控经验计算动作价值损失，并更新动作价值网络模型参数，具体如下所示：

(13)；

(14)；

(15)；

式中，表示动作价值损失，/>为权重；/>表示计算期望；/>表示动作价值网络模型输出；/>表示折扣因子；/>为目标动作价值，/>为权重；/>为第/>个时间步下的所有层位离散动作；/>表示转置操作；/>表示目标动作价值网络模型输出；/>为第/>个时间步下的注采连续动作；/>为混合动作的策略熵；/>和/>分别表示连续动作和离散动作的温度系数；

步骤5.4、根据近期调控经验计算混合动作策略损失，并更新策略网络模型参数，具体如下所示：

(16)；

(17)；

(18)；

式中，表示混合动作策略损失；/>表示离散动作策略损失；表示连续动作策略损失；/>为/>的策略；

步骤5.5、重复步骤4.1-步骤5.4，完成轮训练，得到训练后的智能体模型；

步骤5.6、将油藏各个时间步的饱和度场和压力场数据分别输入到训练后的智能体模型中，得到最优的油藏多类措施流场调控方案。

本发明所带来的有益技术效果：本发明针对现有生产优化方法仅聚焦于注采制度的调控，措施调控方式单一，难以实现层位封堵及注采制度高效联调的问题，提出一种近期经验引导的油藏多类措施流场调控强化学习方法。本发明所提出的方法通过构建油藏离散和连续调控措施混合动作空间可耦合层位封堵和注采制度优化变量，基于混合动作空间构建的油藏多类措施流场调控混合深度强化学习智能体模型，能够对层位封堵和注采制度进行精确的联合调控，同时引入模拟退火机制动态调整近期经验采样范围并从中采集近期经验样本，使智能体能够高效利用调控经验样本，迅速找到最优的调控策略，具有很好的推广应用价值。

附图说明

图1是本发明近期经验引导的油藏多类措施流场调控强化学习方法的流程图。

图2是本发明近期经验引导的油藏多类措施流场调控强化学习方法框架示意图。

图3是本发明实施例中采用近期经验引导的油藏多类措施流场调控强化学习方法与不采用近期经验引导的混合深度强化学习层位及注采联调方法、DE方法、PSO方法优化后的经济净现值收敛曲线对比图。

图4是本发明实施例中采用近期经验引导的油藏多类措施流场调控强化学习方法与不采用近期经验引导的油藏多类措施流场调控强化学习方法、DE方法、PSO方法优化后的方案累积产油量对比图。

图5是本发明实施例中采用近期经验引导的油藏多类措施流场调控强化学习方法与不采用近期经验引导的油藏多类措施流场调控强化学习方法、DE方法、PSO方法优化后的方案的累积产水量对比图。

图6是本发明实施例中随着退火到1，近期经验采样范围随每个回合更新次数的变化曲线图。

图7是本发明实施例中随着退火到1，经验缓存区中各个经验样本对应的采样概率的变化图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

以某河流沉积相水驱非均质油藏模型作为实施例进行测试，同时与传统优化方法进行对比分析，模型大小为25×25×5，网格尺寸大小为30.48×30.48×6.10m，该油藏井网由4口注水井和9口生产井组成，所有生产井由产液量控制，注水井由注入速率控制。油藏开发生命周期为10年，每个时间步为720天，共有5个时间步。每个时间步对各生产井的产液量和层位进行调控。设定所有注水井的注入速率均为178.9，注采比为1：1，即各生产井总产液量为715.6/>，本实施例中，采用Eclipse流场调控数值模拟软件进行数值模拟。一共训练迭代4000次。层位及注采优化变量总优化维数为（9+9*6）*5=315，属于复杂高维优化问题。

本发明提出一种近期经验引导的油藏多类措施流场调控强化学习方法，基于上述实施例油藏模型的数据，如图1和图2所示，具体步骤如下：

步骤1、确定需要优化的层位及注采优化变量；具体过程如下：

根据目标油藏确定各个调控时间步内需要调控注采制度的油水井以及需要封堵的层位数量，需要优化的层位及注采优化变量可表示为：

(1)；

式中，是所有需要封堵的层位数量；/>是优化的注水井数；/>是优化的生产井数；/>是调控时间步数，每个调控时间步为一个优化周期；/>是第/>个时间步下第/>个需要封堵的层位；/>是第/>个时间步下第/>口优化的注水井的注水速率，；/>是第/>个时间步下第/>口优化的生产井的生产速率，/>。

本实施例中，设为9；/>设为0；/>设为9；/>设为5； />设为178.9/>。

步骤2、结合油藏多类措施中层位封堵离散优化变量和注采制度连续优化变量，构建油藏离散和连续调控措施混合动作空间；具体过程如下：

步骤2.1、根据油藏多类措施中层位优化变量离散化的特点，构建层位离散动作空间。各调控井在各个调控时间步内需要选择是否封堵层位，如果选择封堵层位，需要进一步确定具体封堵的层位编号，因此层位离散动作空间可表示为：

(2)；

(3)；

(4)；

式中，表示层位离散动作空间，一个层位调控井对应一个子离散动作空间，因此/>中共包含/>个子离散动作空间；/>表示第/>个子离散动作空间；/>为层位编号，/>，其中0表示选择不封堵层位；/>表示第/>个子离散动作空间对应的层位调控井所钻遇的油藏层数；/>表示第/>个时间步下的所有层位离散动作；/>为第/>个时间步下第/>个子离散动作空间对应的层位离散动作；

本实施例中，每一个子离散动作空间对应一个生产井的层位调控范围；设为5。

(5)；

式中，表示第/>个时间步下的注采连续动作，/>中每个连续动作/>对应一口井的注采优化变量；/>为第/>个时间步下的第/>个注采制度调控井对应的第/>个注采连续动作；/>表示连续动作空间，其维度为/>。

本实施例中，设为9。

(6)；

油藏多类措施流场调控混合深度强化学习智能体模型包括由权重参数化的策略网络模型、由权重/>参数化的动作价值网络模型以及由权重/>参数化的目标动作价值网络模型。

具体地，步骤3包括以下步骤：

步骤3.1、基于上述构建的油藏离散和连续调控措施混合动作空间，构建策略网络模型，实现油藏状态到油藏多类措施流场调控混合动作的端到端映射：

策略网络模型包括负责处理油藏饱和度场和压力场输入状态的卷积神经网络和负责决策层位优化变量的离散动作全连接网络以及负责决策注采优化变量的连续动作全连接网络。其中离散动作全连接网络输出层神经元个数为。连续动作全连接网络输出层神经元个数为/>，包括用于构建高斯分布的/>个均值和/>个方差。输入的油藏饱和度场和压力场数据首先通过卷积神经网络以提取油藏隐式状态特征，然后将提取的油藏隐式状态特征分别输入到离散动作全连接网络和连续动作全连接网络中，生成离散动作概率分布和连续动作的高斯分布，最后输出油藏多类措施流场调控混合动作。

本实施例中，设为54； />设为18，包括用于构建高斯分布的9个均值和9个方差。

其中卷积神经网络分别由4个3D卷积层依次搭建而成，4个3D卷积层输入通道数依次为2、32、64、128，输出通道数依次为32、64、128、256，卷积核数依次为4、4、3、3；负责决策层位优化变量的离散动作全连接网络由3个全连接层组成，输入神经元大小依次为1024、256、256，输出神经元大小依次为256、256、54；负责决策注采优化变量的连续动作全连接网络由3个全连接层组成，输入神经元大小依次为1024、256、256，输出神经元大小依次为256、256、9。

步骤3.2、基于油藏状态和注采连续动作空间，构建动作价值网络模型和目标动作价值网络模型，实现对油藏多类措施流场调控混合动作的评估：

动作价值网络模型和目标动作价值网络模型结构相同，均包括负责处理油藏饱和度场和压力场输入状态的卷积神经网络和负责输出动作Q值的全连接网络。对于动作价值网络模型和目标动作价值网络模型，输入的油藏饱和度场和压力场数据首先通过卷积神经网络以提取油藏隐式状态特征，然后将油藏隐式状态特征和连续动作同时输入到全连接网络中，分别得到动作Q值和目标动作Q值。

其中卷积神经网络与策略网络模型中的卷积网络模型结构相同，分别由4个3D卷积层依次搭建而成，4个3D卷积层输入通道数依次为2、32、64、128，输出通道数依次为32、64、128、256，卷积核数依次为4、4、3、3；负责输出动作Q值的全连接网络由4层全连接层组成，输入神经元个数依次为1024、365、256、128，输出神经元个数依次为256、256、128、54。

步骤4、将智能体模型与流场调控数值模拟器持续交互，生成油藏多类措施流场调控经验样本库；具体过程如下：

步骤4.1、将第个时间步下的油藏模型的饱和度场和压力场数据作为油藏状态输入到策略网络模型中，得到层位离散动作概率分布和注采连续动作高斯分布，然后分别采样得到/>和/>，最后输出油藏多类措施流场调控混合动作/>，其中层位离散动作概率分布和注采连续动作高斯分布分别可通过下式计算得到：

(7)；

(8)；

(9)；

式中，为层位离散动作策略；/>为第/>个时间步下的油藏状态，油藏状态包括油藏模型的饱和度场和压力场数据；/>表示第/>个子离散动作空间的离散动作概率分布；/>表示离散动作全连接网络输出的第/>个值；/>为softmax函数，；/>为以e为底的指数函数，/>为/>之间的正整数；为注采连续动作策略；/>表示第/>个注采连续动作对应的高斯分布。

步骤4.2、调用流场调控数值模拟器计算当前时间步下的累产油和累产水以及累注水量，然后结合奖励函数评估油藏多类措施流场调控混合动作的优劣，其中奖励函数可以表示为：

(10)；

式中，为第/>个时间步下的奖励；/>和/>分别表示油藏模型的生产井和注水井总数；/>表示原油价格，/>和/>分别表示产水处理成本和注水成本，元/m³；、/>分别是第/>个时间步下第/>口生产井的日产油量、日产水量，/>；是第/>个时间步下第/>口注水井的注水速率，/>；/>是单个时间步长的时间间隔，/>。

本实施例中，和/>分别设为9和4；原油价格/>设定为3522元/m³； />和/>分别设为220元/m³和132元/m³；/>和/>由流场调控数值模拟器计算得到；设为178.9/>；/>设为720/>。

步骤4.3、获取油藏模型第时间步下的油藏状态/>，并将第/>个时间步下的油藏多类措施流场调控经验/>保存在油藏多类措施流场调控经验样本库/>中。

步骤5、结合近期经验采样机制从样本库中采集近期调控经验，训练更新智能体模型，输出最优的油藏多类措施流场调控方案；

具体地，步骤S5包括以下步骤：

(11)；

式中，表示对近期经验样本的重视程度；/>为/>的初始值；/>和/>分别表示当前迭代次数和总迭代次数，随着迭代次数的增加，/>逐渐增加到1并最终退火为均匀采样。

本实施例中，设为0.996；/>设为4000次。

(12)；

式中，表示第/>次更新时近期经验采样范围，该值会随着每次更新而逐渐减小；/>为每次采样范围的最小值；/>为第/>次更新时经验缓存区的大小；/>为每个迭代轮次下的更新次数。

本实施例中，设为2500；/>设为25。

(13)；

(14)；

(15)；

式中，表示动作价值损失，/>为权重；/>表示计算期望；/>表示动作价值网络模型输出；/>表示折扣因子，用来反映当前奖励和未来奖励的相对重要性；/>为目标动作价值，/>为权重；/>为第/>个时间步下的所有层位离散动作；/>表示转置操作；/>表示目标动作价值网络模型输出；/>为第/>个时间步下的注采连续动作；/>为混合动作的策略熵；/>和/>分别表示连续动作和离散动作的温度系数；

(16)；

(17)；

(18)；

式中，表示混合动作策略损失；/>表示离散动作策略损失；表示连续动作策略损失；/>为/>的策略。

步骤5.5、重复步骤4.1-步骤5.4，完成轮训练，得到训练后的智能体模型。

最终优化结果对比分析如下所示：

图3是本发明实施例中采用近期经验引导的油藏多类措施流场调控强化学习方法与不采用近期经验引导的油藏多类措施流场调控强化学习方法、DE方法、PSO方法优化后的经济净现值收敛曲线对比图，横坐标为数值模拟次数，纵坐标为当前最优方案的经济净现值。其中，DE方法为差分进化算法。PSO方法为粒子群算法。根据曲线收敛情况可以看出，相比于其他方法，本发明所提出的方法优化后的方案达到了最大的经济净现值NPV，且采用近期经验引导后能够更快地找到更优的油藏多类措施流场调控方案。

图4是本发明实施例中采用近期经验引导的油藏多类措施流场调控强化学习方法与不采用近期经验引导的油藏多类措施流场调控强化学习方法、DE方法、PSO方法优化后的累积产油量对比图，可以看出，本发明所提出的方法优化后的方案累积产油量（即累产油）最大，有效地实现了增油。

图5是本发明实施例中采用近期经验引导的油藏多类措施流场调控强化学习方法与不采用近期经验引导的油藏多类措施流场调控强化学习方法、DE方法、PSO方法优化后的累积产水量对比图，可以看出，本发明所提出的方法优化后的累积产水量（即累产水）相比其他方法优化后更低，有效地实现了控水。

图6是本发明实施例中随着退火到1，近期经验采样范围随每个回合（即每个迭代轮次）下的更新次数的变化曲线图，可以看出随着模型不断更新，采样范围逐渐缩小，即表示更倾向于从近期经验中采样，且随着/>的逐渐增大，采样范围逐渐扩大到整个经验缓存区，实现了采样范围的动态调整。

图7是本发明实施例中随着退火到1，经验缓存区中各个经验样本索引对应的采样概率的变化图，其中经验样本索引越小表示经验越新，即更接近近期的经验。可以看出随着/>的逐渐增大，越新的经验采样概率逐渐减小，越旧的经验采样概率逐渐减增大，最后变为均匀采样。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种近期经验引导的油藏多类措施流场调控强化学习方法，其特征在于，包括如下步骤：

步骤1、确定需要优化的层位及注采优化变量；

2.根据权利要求1所述近期经验引导的油藏多类措施流场调控强化学习方法，其特征在于，所述步骤1中，根据目标油藏确定各个调控时间步内需要调控注采制度的油水井以及需要封堵的层位数量，需要优化的层位及注采优化变量表示为：

(1)；

3.根据权利要求2所述近期经验引导的油藏多类措施流场调控强化学习方法，其特征在于，所述步骤2的具体过程如下：

(2)；

(3)；

(4)；

式中，表示层位离散动作空间，一个层位调控井对应一个子离散动作空间，因此中共包含/>个子离散动作空间；/>表示第/>个子离散动作空间；/>为层位编号；/>表示第/>个子离散动作空间对应的层位调控井所钻遇的油藏层数；/>表示第/>个时间步下的所有层位离散动作；/>为第/>个时间步下第/>个子离散动作空间对应的层位离散动作；/>为层位离散动作空间的维度；/>为第/>个子离散动作空间的维度；

(5)；

(6)；

4.根据权利要求3所述近期经验引导的油藏多类措施流场调控强化学习方法，其特征在于，所述步骤3中，油藏多类措施流场调控混合深度强化学习智能体模型包括策略网络模型、动作价值网络模型、目标动作价值网络模型；

所述步骤3的具体过程为：

5.根据权利要求4所述近期经验引导的油藏多类措施流场调控强化学习方法，其特征在于，所述步骤4的具体过程为：

(7)；

(8)；

(9)；

式中，为层位离散动作策略，/>为权重；/>为第/>个时间步下的油藏状态，油藏状态包括油藏模型的饱和度场和压力场数据；/>表示第/>个子离散动作空间的离散动作概率分布；/>表示离散动作全连接网络输出的第/>个值；/>为softmax函数；为注采连续动作策略；/>表示第/>个注采连续动作对应的高斯分布；

(10)；

式中，为第/>个时间步下的奖励；/>和/>分别表示油藏模型的生产井和注水井总数；/>表示原油价格，/>和/>分别表示产水处理成本和注水成本；/>、/>分别是第/>个时间步下第/>口生产井的日产油量、日产水量；/>是第/>个时间步下第/>口注水井的注水速率；/>是单个时间步长的时间间隔；

6.根据权利要求5所述近期经验引导的油藏多类措施流场调控强化学习方法，其特征在于，所述步骤5的具体过程如下：

(11)；

步骤5.2、根据中油藏多类措施流场调控经验样本的数量，计算当前迭代轮次下每次更新时的近期经验样本采样范围，并在该采样范围内小批量采样，得到近期调控经验/>，其中近期经验样本采样范围的计算公式如下所示：

(12)；

式中，表示第/>次更新时近期经验采样范围；/>为每次采样范围的最小值；/>为第/>次更新时经验缓存区的大小；/>为每个迭代轮次下的更新次数；

(13)；

(14)；

(15)；

式中，表示动作价值损失，/>为权重；/>表示计算期望；/>表示动作价值网络模型输出；/>表示折扣因子；/>为目标动作价值，/>为权重；/>为第/>个时间步下的所有层位离散动作；/>表示转置操作；/>表示目标动作价值网络模型输出；为第/>个时间步下的注采连续动作；/>为混合动作的策略熵；/>和/>分别表示连续动作和离散动作的温度系数；

(16)；

(17)；

(18)；