CN116663654B - 基于历史调控经验的时间窗口迁移强化学习注采优化方法 - Google Patents

基于历史调控经验的时间窗口迁移强化学习注采优化方法 Download PDF

Info

Publication number
CN116663654B
CN116663654B CN202310942706.9A CN202310942706A CN116663654B CN 116663654 B CN116663654 B CN 116663654B CN 202310942706 A CN202310942706 A CN 202310942706A CN 116663654 B CN116663654 B CN 116663654B
Authority
CN
China
Prior art keywords
production
model
target
time
oil reservoir
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310942706.9A
Other languages
English (en)
Other versions
CN116663654A (zh
Inventor
辛国靖
张凯
张黎明
孙子峰
王中正
刘丕养
张华清
严侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202310942706.9A priority Critical patent/CN116663654B/zh
Publication of CN116663654A publication Critical patent/CN116663654A/zh
Application granted granted Critical
Publication of CN116663654B publication Critical patent/CN116663654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Animal Husbandry (AREA)
  • Mining & Mineral Resources (AREA)
  • Agronomy & Crop Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Injection Moulding Of Plastics Or The Like (AREA)

Abstract

本发明公开了一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,属于油藏注采技术领域,包括如下步骤:步骤1、确定当前油藏目标任务时间窗口的优化井数和优化时间步;步骤2、获取现有源模型,冻结源模型中的特征提取层权重进行目标智能体的初始化操作;步骤3、通过梯度反向传播的方式训练得到最优目标智能体,完成目标模型的构建;步骤4、基于目标模型,读取当前油藏的状态信息,得到完整的生产制度,实现实时注采优化。本发明结合强化学习算法,借鉴源模型通过策略迁移,实现新时间窗口的快速优化,减少所需的数值模拟迭代次数。

Description

基于历史调控经验的时间窗口迁移强化学习注采优化方法
技术领域
本发明属于油藏注采技术领域,具体涉及一种基于历史调控经验的时间窗口迁移强化学习注采优化方法。
背景技术
在实际油藏优化过程中,常常通过按时间序列窗口进行分阶段优化以获取最优方案。每个历史窗口都积累了丰富的历史数据,其中包含有益的油藏领域知识和优化经验。然而,在面对新阶段的优化任务时,大多数方法抛弃了这些历史数据,从零开始进行优化,需要依靠大量数值模拟重复进行对油藏知识的学习,通过试错过程寻找正确的优化方向,导致了时间和资源的巨大浪费,严重限制了优化性能。
因此,现有注采优化方法存在以下问题:对已有信息的利用率较低,优化一次需要进行多次迭代;优化变量发生变化时,需从头进行优化过程,重新采样构建模型耗时长。
发明内容
为了解决上述问题,本发明提出了一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,将油藏的不同生产开发阶段视为一系列时间窗口。通过对历史调控经验的重新利用,指导智能体学习油藏领域知识和优化经验,将其应用于当前的优化任务中,以辅助指导当前时间窗口注采方案的制定。通过这种方式,实现求解速度的提升。
本发明的技术方案如下:
一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,将油藏的不同生产阶段视为一系列的时间窗口,通过对历史调控经验的重新利用,指导智能体学习油藏领域知识和优化经验,将其应用于当前的优化任务中,以辅助指导当前时间窗口注采方案的制定;具体包括如下步骤:
步骤1、确定当前油藏目标任务时间窗口的优化井数和优化时间步;
步骤2、获取现有源模型,冻结源模型中的特征提取层权重进行目标智能体的初始化操作;
步骤3、通过梯度反向传播的方式训练得到最优目标智能体,完成目标模型的构建;
步骤4、基于目标模型,读取当前油藏的状态信息,得到完整的生产制度,实现实时注采优化。
进一步地,步骤1中,目标任务基于目标模型实现,源任务基于源模型实现,源模型的核心结构为最优源智能体,目标模型的核心结构为最优目标智能体;目标任务区别于源任务,假设源任务中油藏整个生产周期为,井的总数为/>,则源模型的动作空间为/>,在经过/>个周期的训练结束后得到最优源智能体,源模型的输出为/>口井的生产制度;目标任务中,优化时间步为/>,在后续/>个时间步内,根据生产要求进行加密井设计,新打井/>口,此时目标模型的动作空间为/>,即对应优化井数/>为/>,目标模型的输出为口井的生产制度。
进一步地,步骤3的具体过程如下:
步骤3.1、借助目标任务时间窗口的油藏数值模拟模型,搭建强化学习环境模块;
步骤3.2、在个时间步内,目标模型与强化学习环境模块依次进行每个时间步的交互,模拟实际油藏注采制度调控过程;
步骤3.3、将交互过程中采集到的相关样本数据加入经验缓冲区;
步骤3.4、从经验缓冲区中采样条样本数据,更新目标智能体的输出层;
步骤3.5、重复步骤3.2至步骤3.4,直到达到最大数值模拟次数,此时训练得到最优目标智能体,输出最优目标智能体对应的目标模型及最优控制方案。
进一步地,步骤3.1中,搭建的强化学习环境模块包括状态读取部分、奖励计算部分以及制度写入部分;状态读取部分用于饱和度场、压力场及模型渗透率场的读取和存储;奖励计算部分用于奖励值的计算和存储;制度写入部分用于输出动作的转换及油藏数值模拟模型文件的写入;具体工作过程为:
步骤3.1.1、读取油藏模型时刻的饱和度场、压力场及模型渗透率场,并计算/>时刻状态/>;然后,对读取的数据进行相应的归一化处理,将状态数据限定在[0,1]范围内,归一化处理采用Z-score归一化函数,计算公式为:
(1);
式中,为归一化后的结果;/>为状态变量值,/>为原始数据的均值,/>为原始数据的标准差;
步骤3.1.2、读取油藏模型时刻的产油量、产水量、注水量,并通过经济净现值NPV计算公式计算得到相应的奖励值,NPV计算公式如下:
(2);
式中,表示/>时刻状态/>下执行动作/>的奖励值;/>为原油价格,/>和/>分别是水处理成本和注水成本;/>、/>和/>分别是第/>口生产井产油速率、第/>口生产井产水速率和第/>口注水井的注水速率;/>为生产井总数;/>为注水井总数;
步骤3.1.3、将智能体输出动作转化为实际油水井制度上下限范围,并写入油藏数值模拟模型文件中;动作/>是一个集合,对集合里的每一个值进行线性变换,通过线性变换将相应的值转化为[-1,1]的实际生产界限范围下,具体公式如下:
(3);
其中,表示动作/>中的一个元素,/>;/>、/>分布代表对应该井的实际生产上、下限;/>表示线性变换后的实际生产数据。
进一步地,步骤3.2的具体过程如下:
步骤3.2.1、在时刻,观测到油藏/>时刻状态/>,目标智能体根据/>输出动作/>,动作/>即对应/>时刻注采制度,制度写入部分写入制度后执行油藏数值模拟,根据/>时刻注采制度,油藏状态由/>时刻状态/>转到/>时刻状态/>,奖励计算部分计算得到单步的奖励值/>
步骤3.2.2、继续读取下一时刻,在的范围内,循环执行步骤3.2.1,并记录回合奖励/>
进一步地,步骤3.3中,采集到的相关样本为,经验缓冲区为/>
进一步地,步骤3.4的具体过程如下:
当经验缓冲区中样本数量大于/>后,用批处理方式对目标智能体的价值评价网络和策略网络进行采样更新,其中,价值评价网络采用式(4)所示损失进行更新,策略网络采用式(5)所示损失进行更新,此时,网络权重仅更新最后输出层,特征提取层冻结源模型权重参数;
(4);
(5);
其中,表示价值评价网络损失;/>表示价值评价网络权重;/>表示对目标值取期望;/>表示/>时刻的价值评价网络;/>表示/>下执行/>的奖励值;/>表示折扣因子;/>表示/>时刻的价值评价网络;/>表示温度系数;表示/>时刻的策略网络;/>表示策略网络损失;/>表示策略网络权重;/>表示噪声向量;/>表示自然数集合;/>表示/>时刻的策略网络。
本发明所带来的有益技术效果:
本发明结合强化学习算法,借鉴源模型通过策略迁移,实现新时间窗口的快速优化,减少所需的数值模拟迭代次数;当面对优化变量不一致时,可实现快速优化,避免从头进行优化过程;本发明方法的主要用途为进行井网加密后油藏模型进行快速优化,具有较好的科学和实际推广应用价值。
附图说明
图1为本发明基于历史调控经验的时间窗口迁移强化学习注采优化方法的总体设计程图。
图2为本发明的迁移过程示意图。
图3为本发明中策略网络的结构示意图。
图4为本发明对比实验中迁移优化方案与从头方案的收敛效果对比图。
图5为本发明对比实验中迁移优化方案与从头优化方案的累产油示意图。
图6为本发明对比实验中迁移优化方案与与从头优化方案的含水率示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
油藏开发过程需要不断调整井网井位,对于传统注采优化方法,优化变量发生变化,需从头进行优化过程。本发明采用基于迁移学习的策略微调方法,以解决重新采样构建模型耗时长的问题。借鉴历史问题源模型搭建目标模型,可针对后续阶段井网调整后的油藏模型进行快速优化,目标模型冻结源模型中的特征提取层网络权重,对输出层权重进行更新,通过与油藏数值模拟器的不断交互迭代,目标模型可以快速学习到新阶段的优化经验。源模型的核心结构为最优源智能体,目标模型的核心结构为最优目标智能体。
本发明实施例以某油藏模型为例对本发明所提出的方法进行测试。该油藏模型为二维三通道模型,模型大小为25*25*1,储层厚度为20ft,,/>为模型在x方向的长度,/>为模型在y方向的长度,孔隙度为0.2,模型的初始压力是6000psi,初始含水饱和度是0.2。源问题中初始生产共有4口注水井,5口生产井。目标问题中进行加密井设计,新打5口生产井,即共有4口注水井,9口生产井。即源模型的输出为9口井的生产制度,而目标模型的输出应为13口井的生产制度,在此背景下,源模型无法进行应用,因此采用本发明所述方法进行目标问题下的优化计算可以达到与对目标问题进行从头优化相同的效果,进而证明本发明的有效性。
如图1所示,本发明提出了一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,将油藏的不同生产阶段视为一系列的时间窗口,在进行目标任务的优化时借鉴源任务的历史调控经验进行快速训练,以复用某个生产阶段的调控策略;本发明方法具体包括以下步骤:
步骤1、确定当前油藏目标任务时间窗口的优化井数及优化时间步/>
目标任务区别于源任务,假设源任务中油藏整个生产周期为,井的总数为/>,则源模型的动作空间为/>,在经过/>个周期的训练结束后得到最优源智能体,最优源智能体的输出为/>口井的生产制度。目标任务中,优化时间步为/>,在后续/>个时间步内,根据生产要求进行加密井设计,新打井/>口,此时目标模型的动作空间为/>,即对应优化井数/>为/>,目标模型的输出应为/>口井的生产制度。
本实施例具体设置如下,假设源任务中油藏整个生产周期为,共有9口井,其中源模型的动作空间/>=9,在经过/>个周期的训练结束后得到最优源智能体。目标任务中,在后续/>个时间步内,根据目标生产要求进行了加密井设计,新打井4口,输出的动作空间由原来9口井变为13口井,因此,目标模型的输出为13口井的生产制度。
步骤2、获取现有源模型,冻结源模型中的特征提取层权重进行目标智能体的初始化操作。
本发明采用迁移学习的思想进行目标模型的搭建,迁移学习的过程即为基于源模型学习得到目标模型的过程,如图2所示,源模型中,经过初始化、训练等过程后会得到最优源智能体。在目标模型的迁移学习中,从最优源智能体中获取源模型网络权重,借鉴源智能体权重参数搭建目标智能体,从而获得最优目标智能体,具体为:初始化目标智能体模型时,采用源模型的网络权重进行初始化,以借鉴源智能体的历史调控经验,在针对目标问题进行训练时,采用策略微调方式,冻结输出层外的网络权重,仅更新最后一层的网络权重,实现目标智能体的快速训练,从而得到最优目标智能体。
源智能体和目标智能体均由价值评价网络和策略网络组成。价值评价网络和策略网络均包括特征提取层和后续输出层,其中特征提取层采用卷积网络,提取输入信息,后续输出层为全连接神经网络,具体结构如图3所示。采取将特征提取层参数进行冻结,对后续输出层设置较小的学习率。
策略网络的结果如图3所示,给定油井压力场、饱和度场、渗透率场等状态,然后将状态/>转换为大小为25*25*3的输入数据传递到策略网络,策略网络的特征提取层采用四层卷积变换,经过卷积变换后每层输出的数据大小分别为25*25*6、12*12*6、8*8*16、4*4*16。而后展平进入全连接层,输入数据的大小逐层变为256、120、84,最终输出均值和方差,根据均值和方差进行重采样得到动作/>
步骤3、通过梯度反向传播的方式训练得到最优目标智能体,完成目标模型的构建。训练时,实质上只需要优化最优源智能体中的输出层,即可得到最优目标智能体。具体过程如下:
步骤3.1、借助目标任务时间窗口油藏数值模拟模型,搭建强化学习环境模块。
强化学习环境模块主要包括状态读取部分、奖励计算部分以及制度写入部分。状态读取部分用于饱和度场、压力场及模型渗透率场的读取和存储;奖励计算部分用于奖励值的计算和存储;制度写入部分用于输出动作的转换及油藏数值模拟模型文件的写入。
强化学习环境模块的具体工作过程为:
步骤3.1.1、读取油藏模型时刻的饱和度场、压力场及模型渗透率场,并计算/>时刻状态/>。由于饱和度场一般在[0,1]范围内,压力场及渗透率场数据一般是千的数量级,所以需要对读取的数据进行相应的归一化处理,将状态数据限定在一定的范围内,从而消除奇异样本数据导致的不良影响,使特征具有相同的度量尺度。本发明归一化处理采用Z-score归一化函数,计算公式为:
(1);
式中,为归一化后的结果;/>为状态变量值,/>为原始数据的均值,/>为原始数据的标准差。
步骤3.1.2、读取油藏模型时刻的产油量、产水量、注水量,并通过经济净现值NPV计算公式计算得到相应的奖励值,NPV计算公式如下:
(2);
式中,表示/>时刻状态/>下执行动作/>的奖励值;/>为原油价格,/>和/>分别是水处理成本和注水成本,单位均为元/m3;/>、/>和/>分别是第/>口生产井产油速率、第/>口生产井产水速率和第/>口注水井的注水速率,单位均为m3/d;/>为生产井总数;为注水井总数。
步骤3.1.3、将智能体输出动作转化为实际油水井制度上下限范围,并写入油藏数值模拟模型文件中。智能体实际输出动作范围为[-1,1],动作/>是一个集合,对集合里的每一个值进行线性变换,通过线性变换将相应的值转化为实际生产界限范围下,具体公式如下:
(3);
其中,表示动作/>中的一个元素,/>;/>、/>分布代表对应该井的实际生产上、下限;/>表示线性变换后的实际生产数据。对于注水井,设置其注入速率范围在0~1000STB/天,生产井井底流压范围在3000~6000psi。
步骤3.2、在个时间步内,目标模型与强化学习环境模块依次进行每个时间步的交互,模拟实际油藏注采制度调控过程。具体过程如下:
步骤3.2.1、在时刻,观测到油藏/>时刻状态/>,目标智能体根据/>输出动作/>,动作/>即对应/>时刻注采制度,制度写入部分写入制度后执行油藏数值模拟,根据/>时刻注采制度,油藏状态由/>时刻状态/>转到/>时刻状态/>,奖励计算部分计算得到单步的奖励值/>
步骤3.2.2、继续读取下一时刻,在的范围内,循环执行步骤3.2.1,并记录回合奖励/>
步骤3.3、将交互过程中采集到的相关样本数据加入经验缓冲区,即将步骤3.2中产生的/>加入经验缓冲区/>,其中,将同一时刻/>下得到的四个元素定义为一条样本。
步骤3.4、从经验缓冲区中采样/>条样本数据,更新目标智能体的输出层,/>为一次训练所选取的样本数,即batch_size。具体过程如下:
当经验缓冲区中样本数量大于/>后,用批处理方式对目标智能体的价值评价网络和策略网络进行采样更新,本发明中/>设置为128。其中,价值评价网络采用式(4)所示损失进行更新,策略网络采用式(5)所示损失进行更新,此时,网络权重仅更新最后输出层,特征提取层冻结源模型权重参数;
(4);
(5);
其中,表示价值评价网络损失;/>表示价值评价网络权重;/>表示对目标值取期望;/>表示/>时刻的价值评价网络;/>表示/>下执行/>的奖励值;/>表示折扣因子;/>表示/>时刻的价值评价网络;/>表示温度系数;表示/>时刻的策略网络;/>表示策略网络损失;/>表示策略网络权重;/>表示噪声向量;/>表示自然数集合;/>表示/>时刻的策略网络。
步骤3.5、重复步骤3.2至步骤3.4,直到达到最大数值模拟次数,此时训练得到最优目标智能体,输出最优目标智能体对应的目标模型及最优控制方案。其中,最大数值模拟次数预先人为设定。
步骤4、基于目标模型,读取当前油藏的状态信息,即能够输出完整的生产制度,实现实时注采优化。
为了证明本发明的可行性和优越性,进行了收敛速率对比实验和累产油、含水率的对比实验。
图4为本发明借鉴源模型的迁移优化方案与从头优化方案的收敛曲线对比,从图4看出,本发明中提出的迁移优化方案在50次数值模拟时收敛到最大奖励且奖励值更高,而从头优化需要接近300次数值模拟,本发明方法收敛速率更快效果更好。
图5和图6展示了从头优化方案、本发明迁移优化方案的区块累产油和含水率的对比效果。从图5可以看出,本发明迁移优化方案的累产油量与从头优化模型的累产油量基本一致,但本发明迁移优化方案所耗费数值模拟次数大大减少。从图6可以看出,本发明迁移优化方案的含水率与从头优化相近。综合图5和图6,迁移优化方案可以实现与从头优化相似的效果,同时大大减少了训练所用时间。因此,通过本发明的方法,可以为合理生产配置、注采策略调整提供高质量的决策方案,从而实现油田多产油、少产水的目的。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (2)

1.一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,将油藏的不同生产阶段视为一系列的时间窗口,通过对历史调控经验的重新利用,指导智能体学习油藏领域知识和优化经验,将其应用于当前的优化任务中,以辅助指导当前时间窗口注采方案的制定;具体包括如下步骤:
步骤1、确定当前油藏目标任务时间窗口的优化井数和优化时间步;
步骤2、获取现有源模型,冻结源模型中的特征提取层权重进行目标智能体的初始化操作;
步骤3、通过梯度反向传播的方式训练得到最优目标智能体,完成目标模型的构建;
所述步骤3的具体过程如下:
步骤3.1、借助目标任务时间窗口的油藏数值模拟模型,搭建强化学习环境模块;
所述步骤3.1中,搭建的强化学习环境模块包括状态读取部分、奖励计算部分以及制度写入部分;状态读取部分用于饱和度场、压力场及模型渗透率场的读取和存储;奖励计算部分用于奖励值的计算和存储;制度写入部分用于输出动作的转换及油藏数值模拟模型文件的写入;具体工作过程为:
步骤3.1.1、读取油藏模型时刻的饱和度场、压力场及模型渗透率场,并计算/>时刻状态/>;然后,对读取的数据进行相应的归一化处理,将状态数据限定在[0,1]范围内,归一化处理采用Z-score归一化函数,计算公式为:
(1);
式中,为归一化后的结果;/>为状态变量值,/>为原始数据的均值,/>为原始数据的标准差;
步骤3.1.2、读取油藏模型时刻的产油量、产水量、注水量,并通过经济净现值NPV计算公式计算得到相应的奖励值,NPV计算公式如下:
(2);
式中,表示/>时刻状态/>下执行动作/>的奖励值;/>为原油价格,/>和/>分别是水处理成本和注水成本;/>、/>和/>分别是第/>口生产井产油速率、第/>口生产井产水速率和第/>口注水井的注水速率;/>为生产井总数;/>为注水井总数;
步骤3.1.3、将智能体输出动作转化为实际油水井制度上下限范围,并写入油藏数值模拟模型文件中;动作/>是一个集合,对集合里的每一个值进行线性变换,通过线性变换将相应的值转化为[-1,1]的实际生产界限范围下,具体公式如下:
(3);
其中,表示动作/>中的一个元素,/>;/>、/>分布代表对应该井的实际生产上、下限;/>表示线性变换后的实际生产数据;
步骤3.2、在个时间步内,目标模型与强化学习环境模块依次进行每个时间步的交互,模拟实际油藏注采制度调控过程;
所述步骤3.2的具体过程如下:
步骤3.2.1、在时刻,观测到油藏/>时刻状态/>,目标智能体根据/>输出动作/>,动作即对应/>时刻注采制度,制度写入部分写入制度后执行油藏数值模拟,根据/>时刻注采制度,油藏状态由/>时刻状态/>转到/>时刻状态/>,奖励计算部分计算得到单步的奖励值/>
步骤3.2.2、继续读取下一时刻,在的范围内,循环执行步骤3.2.1,并记录回合奖励/>
步骤3.3、将交互过程中采集到的相关样本数据加入经验缓冲区;
所述步骤3.3中,采集到的相关样本为,经验缓冲区为/>
步骤3.4、从经验缓冲区中采样条样本数据,更新目标智能体的输出层;
所述步骤3.4的具体过程如下:
当经验缓冲区中样本数量大于/>后,用批处理方式对目标智能体的价值评价网络和策略网络进行采样更新,其中,价值评价网络采用式(4)所示损失进行更新,策略网络采用式(5)所示损失进行更新,此时,网络权重仅更新最后输出层,特征提取层冻结源模型权重参数;
(4);
(5);
其中,表示价值评价网络损失;/>表示价值评价网络权重;/>表示对目标值取期望;/>表示/>时刻的价值评价网络;/>表示/>下执行/>的奖励值;/>表示折扣因子;/>表示/>时刻的价值评价网络;/>表示温度系数;表示/>时刻的策略网络;/>表示策略网络损失;/>表示策略网络权重;/>表示噪声向量;/>表示自然数集合;/>表示/>时刻的策略网络;
步骤3.5、重复步骤3.2至步骤3.4,直到达到最大数值模拟次数,此时训练得到最优目标智能体,输出最优目标智能体对应的目标模型及最优控制方案;
步骤4、基于目标模型,读取当前油藏的状态信息,得到完整的生产制度,实现实时注采优化。
2.根据权利要求1所述基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,目标任务基于目标模型实现,目标模型的核心结构为最优目标智能体;目标任务区别于源任务,源任务基于源模型实现,源模型的核心结构为最优源智能体,假设源任务中油藏整个生产周期为,井的总数为/>,则源模型的动作空间为/>,在经过/>个周期的训练结束后得到最优源智能体,源模型的输出为/>口井的生产制度;目标任务中,优化时间步为,在后续/>个时间步内,根据生产要求进行加密井设计,新打井/>口,此时目标模型的动作空间为/>,即对应优化井数/>为/>,目标模型的输出为/>口井的生产制度。
CN202310942706.9A 2023-07-31 2023-07-31 基于历史调控经验的时间窗口迁移强化学习注采优化方法 Active CN116663654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310942706.9A CN116663654B (zh) 2023-07-31 2023-07-31 基于历史调控经验的时间窗口迁移强化学习注采优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310942706.9A CN116663654B (zh) 2023-07-31 2023-07-31 基于历史调控经验的时间窗口迁移强化学习注采优化方法

Publications (2)

Publication Number Publication Date
CN116663654A CN116663654A (zh) 2023-08-29
CN116663654B true CN116663654B (zh) 2023-11-21

Family

ID=87715676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310942706.9A Active CN116663654B (zh) 2023-07-31 2023-07-31 基于历史调控经验的时间窗口迁移强化学习注采优化方法

Country Status (1)

Country Link
CN (1) CN116663654B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447532A (zh) * 2018-12-28 2019-03-08 中国石油大学(华东) 一种基于数据驱动的油藏井间连通性确定方法
CN111625922A (zh) * 2020-04-15 2020-09-04 中国石油大学(华东) 一种基于机器学习代理模型的大规模油藏注采优化方法
CN113158470A (zh) * 2020-11-25 2021-07-23 中国石油大学(华东) 基于迁移学习的油藏自动历史拟合系统与方法
CN114154820A (zh) * 2021-11-22 2022-03-08 南京航空航天大学 基于增量简单循环单元和双重注意力的生产瓶颈预测方法
CN114444402A (zh) * 2022-04-08 2022-05-06 中国石油大学(华东) 一种基于深度强化学习的油藏注采优化方法
CN115345358A (zh) * 2022-08-04 2022-11-15 常州大学 一种基于强化学习的油井参数自适应性调控方法
CN115906675A (zh) * 2023-03-09 2023-04-04 中国石油大学(华东) 基于时序多目标预测模型的井位及注采参数联合优化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860236B2 (en) * 2019-05-03 2020-12-08 EMC IP Holding Company LLC Method and system for proactive data migration across tiered storage
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447532A (zh) * 2018-12-28 2019-03-08 中国石油大学(华东) 一种基于数据驱动的油藏井间连通性确定方法
CN111625922A (zh) * 2020-04-15 2020-09-04 中国石油大学(华东) 一种基于机器学习代理模型的大规模油藏注采优化方法
CN113158470A (zh) * 2020-11-25 2021-07-23 中国石油大学(华东) 基于迁移学习的油藏自动历史拟合系统与方法
CN114154820A (zh) * 2021-11-22 2022-03-08 南京航空航天大学 基于增量简单循环单元和双重注意力的生产瓶颈预测方法
CN114444402A (zh) * 2022-04-08 2022-05-06 中国石油大学(华东) 一种基于深度强化学习的油藏注采优化方法
CN115345358A (zh) * 2022-08-04 2022-11-15 常州大学 一种基于强化学习的油井参数自适应性调控方法
CN115906675A (zh) * 2023-03-09 2023-04-04 中国石油大学(华东) 基于时序多目标预测模型的井位及注采参数联合优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Improving the efficiency of RMSProp optimizer by utilizing Nestrove in deep learning;Elshamy, Reham 等;《SCIENTIFIC REPORTS》;第1-16页 *
基于深度卷积神经网络的地震震相拾取方法研究;李健;王晓明;张英海;王卫东;商杰;盖磊;;地球物理学报(04);第页 *
基于连通性方法的油藏分层精细注水优化;赵辉;张兴凯;王春友;何宏;许凌飞;张贵玲;王硕亮;;长江大学学报(自科版)(23);第页 *

Also Published As

Publication number Publication date
CN116663654A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN108900346B (zh) 基于lstm网络的无线网络流量预测方法
CN110084424A (zh) 一种基于lstm与lgbm的电力负荷预测方法
CN110930016A (zh) 一种基于深度q学习的梯级水库随机优化调度方法
CN101583147B (zh) 一种应用于话务量预测的分段在线支持向量回归方法
CN113255206B (zh) 一种基于深度强化学习的水文预报模型参数率定方法
CN106295199A (zh) 基于自动编码器和多目标优化的自动历史拟合方法及系统
CN109522602A (zh) 一种基于代理模型的Modelica模型参数优化方法
CN111553118B (zh) 基于强化学习的多维连续型优化变量全局优化方法
CN104504442A (zh) 神经网络优化方法
CN107230349A (zh) 一种在线式实时短时间交通流预测方法
CN111652425A (zh) 一种基于粗糙集和长短期记忆网络的河流水质预测方法
CN114444402A (zh) 一种基于深度强化学习的油藏注采优化方法
CN111191785A (zh) 一种基于拓展搜索空间的结构搜索方法
CN116663654B (zh) 基于历史调控经验的时间窗口迁移强化学习注采优化方法
CN114692830A (zh) 晋级网络自强化的图像语音深度学习模型
CN112541254A (zh) 优化深度学习降维重构参数的油藏自动历史拟合方法
CN117252292A (zh) 基于Aqua Crop模型与优化LSTM算法的作物灌溉需水量预测方法
CN116502774A (zh) 一种基于时间序列分解和勒让德投影的时间序列预测方法
CN116565876A (zh) 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质
CN115222140A (zh) 一种继承历史经验的生产优化机器学习离线模型构建方法
CN110598326A (zh) 一种基于人工智能的试井解释方法
CN113221446B (zh) 盐渍土水肥策略的获取方法、系统、存储介质和电子设备
CN114881338A (zh) 基于最大互信息系数与深度学习的配电网线损预测方法
CN116384712B (zh) 一种联动智能注采装置的差异化实时注采优化调控方法
CN115222024B (zh) 基于深度特征选择网络的短期光伏发电预测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Kai

Inventor after: Xin Guojing

Inventor after: Zhang Liming

Inventor after: Sun Zifeng

Inventor after: Wang Zhongzheng

Inventor after: Liu Piyang

Inventor after: Zhang Huaqing

Inventor after: Yan Xia

Inventor before: Xin Guojing

Inventor before: Zhang Kai

Inventor before: Zhang Liming

Inventor before: Sun Zifeng

Inventor before: Wang Zhongzheng

Inventor before: Liu Piyang

Inventor before: Zhang Huaqing

Inventor before: Yan Xia