CN114444402A - 一种基于深度强化学习的油藏注采优化方法 - Google Patents

一种基于深度强化学习的油藏注采优化方法 Download PDF

Info

Publication number
CN114444402A
CN114444402A CN202210362472.6A CN202210362472A CN114444402A CN 114444402 A CN114444402 A CN 114444402A CN 202210362472 A CN202210362472 A CN 202210362472A CN 114444402 A CN114444402 A CN 114444402A
Authority
CN
China
Prior art keywords
production
oil reservoir
actor
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210362472.6A
Other languages
English (en)
Inventor
张凯
王中正
张金鼎
姚为英
周文胜
任宜伟
刘晨
冯高城
姚军
张黎明
张华清
严侠
刘丕养
杨勇飞
孙海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202210362472.6A priority Critical patent/CN114444402A/zh
Publication of CN114444402A publication Critical patent/CN114444402A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/23Design optimisation, verification or simulation using finite element methods [FEM] or finite difference methods [FDM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/08Fluids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的油藏注采优化方法,属于油气田开发工程领域,包括如下步骤:采集油田地质数据建立油藏数值模拟模型;构建深度强化学习Actor‑Critic算法框架;读取当前时刻油藏的状态,并做归一化处理;利用策略网络执行一次动作,实时改变井的决策方案;计算当前的奖励,训练更新策略网络和动作价值网络的参数;根据最终训练的策略网络得到不同开发时刻的最优生产方案。本发明中的深度强化学习方法能够根据不同的油藏状态自适应地设计生产方案,可以在有限的时间和计算资源下实现更高的经济效益;同时还可以用于油田开发过程中的井位优化、历史拟合等问题,具有很好的推广应用价值。

Description

一种基于深度强化学习的油藏注采优化方法
技术领域
本发明属于油气田开发工程领域,具体涉及一种基于深度强化学习的油藏注采优化方法。
背景技术
水驱是国内油田开发的主体技术,其适应性广泛,成本低廉。但是受储层非均质性的影响,驱替不均衡,注入水沿高渗层位快速突破流向生产井,而中低渗区域的原油无法被波及,导致开发效果较差。如何制定合理的注采策略,缓解注采矛盾是水驱油田保持稳定开发的中心任务之一。传统的方法通常由工程师人工设计不同的方案进行对比,这种基于经验的方法耗时长且难以得到最优的方案。随着计算机技术的发展,结合优化控制理论的数值模拟方法成为解决这一难题的有效途径。在优化的过程中,商业数值模拟器被用于模拟地下流体的渗流过程,评估不同注采方案的经济效益。然而,取决于油藏模型的规模,单次数值模拟运行就需要花费昂贵的时间和计算成本。由于决策变量的高维和目标函数的非线性,优化算法通常需要数以千计的寻优才能得到高经济效益的注采方案。因此,如何在保证方案效果的前提下提高优化速度是目前需要解决的关键难题。
在实际问题的驱动下,近年兴起的机器学习技术在注采优化领域得到了广泛的研究。数据驱动的代理模型方法通过少量的样本构建近似的数学模型来代替数值模拟模型,显著减少了模拟器的调用次数。但这类方法更适用于低维度的问题,当决策变量的维度高时,代理模型的精度急剧下降。多保真优化方法通过结合不同尺度的油藏模型,显著地提高了优化速度。但其依赖手动设计复杂的规则来平衡不同保真度级别模型,因此难以在现场得到应用。
发明内容
针对当前水驱开发油田油水井注采方案制定耗时长,现有的注采优化方法效率低的问题,本发明提出一种基于深度强化学习的油藏注采优化方法,可以通过学习历史调控经验,在不同的油藏状态下自适应地设计决策方案。
本发明的技术方案如下:
一种基于深度强化学习的油藏注采优化方法,包括如下步骤:
步骤1、采集油田地质数据,建立油藏数值模拟模型,设置注采优化的控制变量、约束边界及数值模拟最大调用次数;
步骤2、构建深度强化学习算法Actor-Critic框架,初始化训练参数及油藏状态信息;
步骤3、读取当前时刻油藏状态信息,并进行归一化处理;
步骤4、利用策略网络Actor执行动作,实时改变决策方案;
步骤5、调用油藏数值模拟器模拟油藏生产,计算当前奖励,确定下一时刻油藏状态信息;
步骤6、训练更新策略网络Actor和动作价值网络Critic的参数;
步骤7、判断是否完成一个完整的生产周期的模拟,如果完成,则计算整个生产周期的总奖励,否则转到步骤3继续计算;
步骤8、判断是否达到最大数值模拟次数,如果达到,则终止计算,输出最优控制方案,保存模型;否则转到步骤2继续计算;
步骤9、根据最优的策略网络输出完整的生产制度,投入现场实施。
进一步地,控制变量包括井底压力和注水速率;所述约束边界为单井控制变量的上边界和下边界。
进一步地,井底压力控制的生产井:上边界设为油藏平均压力,下边界为油藏泡点压力;流量控制的注水井:上边界设为最大注水速率,下边界设为0。
进一步地,所构建的深度强化学习Actor-Critic算法框架包含策略网络Actor和动作价值网络Critic两个部分;其中,Actor是执行模块,输入环境状态s t ,输出动作a t ;Critic是评判模块,根据环境反馈奖励r t 进行自我调整,然后指导Actor模块的更新。
进一步地,步骤2的具体内容如下:
步骤2.1、使用
Figure 564346DEST_PATH_IMAGE001
参数化的神经网络
Figure 18461DEST_PATH_IMAGE002
表示策略网络Actor,Actor的输入 为状态s t ,输出为动作a t ;使用
Figure 62640DEST_PATH_IMAGE003
参数化的神经网络
Figure 336627DEST_PATH_IMAGE004
表示动作价值网络Critic, Critic的输入为状态s t ,输出为价值;
步骤2.2、状态s t 设置为油藏数值模拟模型每个网格点的压力值p i 和油饱和度值s o,i ,如公式(1)所示,
Figure 858875DEST_PATH_IMAGE005
(1)
其中,p i s o,i 中的i=1,…,nn代表油藏数值模拟模型的网格数量;
步骤2.3、动作a t 设置为当前控制步的各井决策方案,包括第i口生产井的井底压力BHP prd,i ,和第i口注水井的注水速率W inj,i ,如公式(2)所示,
Figure 167497DEST_PATH_IMAGE006
(2)
其中,BHP prd,i 中的i=1,…,N prd N prd 表示生产井的数量;W inj,i 中的i=1,…,N inj N inj 表示注水井的数量;
步骤2.4、奖励函数r t 设置为当前时间步的经济净现值NPV,利用下式计算:
Figure 116998DEST_PATH_IMAGE007
(3)
式中,r o 为原油价格;r w r i 分别是水处理成本和注水成本,单位均为元/m 3q o,j q w,j q wi,i 分别是第j口生产井产油速率、第j口生产井产水速率和第i口注水井的注水速率,单位均为m 3/d
步骤2.5、初始化训练参数:设置折扣因子
Figure 409439DEST_PATH_IMAGE008
,设置策略网络Actor和动作价值网络 Critic的学习率
Figure 469799DEST_PATH_IMAGE009
Figure 898506DEST_PATH_IMAGE010
,二者的神经网络均为四层全连接层,设置各层神经元个数;设置 一个生产周期的训练步数。
进一步地,步骤3中,归一化处理采用min-max归一化函数,计算公式为:
Figure 284488DEST_PATH_IMAGE011
(4)
式中,x为状态变量值。
进一步地,步骤5的具体内容如下:
步骤5.1、将当前t时刻井的决策变量a t 按照模拟器规定的格式写入生产制度文件;
步骤5.2、调用黑油数值模拟器Eclipse加载当前模型,模拟生产过程,获得生产数据以及下一时刻油藏状态信息。
进一步地,步骤6的具体内容如下:
步骤6.1、根据油藏当前时刻的状态信息s t 、决策变量a t 、奖励值r t+1、下一时刻油藏 状态信息s t+1和下一刻油藏决策变量a t+1,评估当前Actor执行策略的好坏
Figure 267488DEST_PATH_IMAGE012
并更新Critic 的参数
Figure 397118DEST_PATH_IMAGE013
Figure 680332DEST_PATH_IMAGE014
(5)
Figure 237215DEST_PATH_IMAGE015
(6)
其中,
Figure 984809DEST_PATH_IMAGE012
被称为TD误差,衡量当前时刻s t 的估计值与更好的估计
Figure 652550DEST_PATH_IMAGE016
之间的差异;
Figure 55850DEST_PATH_IMAGE017
表示对
Figure 518055DEST_PATH_IMAGE013
求梯度;
步骤6.2、根据当前时刻油藏状态s t ,决策变量a t 以及Critic返回的
Figure 6805DEST_PATH_IMAGE012
更新Actor 的参数
Figure 478238DEST_PATH_IMAGE018
Figure 736044DEST_PATH_IMAGE019
(7)
其中,
Figure 369151DEST_PATH_IMAGE020
表示对
Figure 345197DEST_PATH_IMAGE018
求梯度。
进一步地,步骤9中,在使用最优的策略网络与油藏模拟器环境交互时,保存从初始时刻起每一个时间步的各生产井和注水井的决策变量值,形成完整的生产制度,进而投入现场实施。
本发明所带来的有益技术效果:
本发明提供了结合神经网络和强化学习的优化框架,将生产优化问题建模为序列决策问题,与现有的方法相比,本发明提供的方法能够通过学习历史调控经验,在不同的油藏状态下自适应地设计决策方案,实现高效率高精度的方案优化,在保证生产方案能够获得高经济效益的前提下显著地提高优化效率;
本发明提供的优化框架,易于与任意的数值模拟模型相结合,能够在不同的油藏状态下自适应地设计决策变量;此过程不依赖于任何补充的结构或者手动设计复杂的规则,更能满足油田现场和实际开发的需求。
附图说明
图1是本发明基于深度强化学习的油藏注采优化方法的总体设计流程图;
图2是本发明深度强化学习Actor-Critic算法框架示意图;
图3是本发明实施例中基于深度强化学习的Actor-Critic算法与差分进化算法DE的油田经济净现值收敛曲线对比图;
图4是本发明实施例中基于深度强化学习的Actor-Critic算法与差分进化算法DE的油田累积产油量对比图;
图5是本发明实施例中基于深度强化学习的Actor-Critic算法与差分进化算法DE的油田累积产水量对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实例仅仅是本发明一部分实例,而不是全部的实例。
参照图1,本发明提出一种基于深度强化学习的油藏注采优化方法,具体步骤如下:
步骤1、采集油田地质数据,建立油藏数值模拟模型,设置注采优化控制变量、约束边界及数值模拟最大调用次数;
其中,控制变量包括井底压力和注水速率;约束边界为单井控制变量的上边界和下边界;井底压力控制的生产井:上边界设为油藏平均压力,下边界设为油藏泡点压力;流量控制的注水井:上边界设为最大注水速率,下边界设为0;
步骤2、构建深度强化学习Actor-Critic算法框架,初始化训练参数及油藏状态信息;
如图2所示,构建的深度强化学习Actor-Critic算法框架包含策略网络Actor和动作价值网络Critic两个部分。其中Actor是执行模块,输入环境状态s t ,输出动作a t 。而Critic是评判模块,根据环境反馈奖励r t 进行自我调整,然后指导Actor模块的更新。
具体步骤如下:
步骤2.1、使用
Figure 354741DEST_PATH_IMAGE001
参数化的神经网络
Figure 935895DEST_PATH_IMAGE002
表示策略网络Actor,Actor的输入 为状态s t ,输出为动作a t ;使用
Figure 271062DEST_PATH_IMAGE003
参数化的神经网络
Figure 203245DEST_PATH_IMAGE004
表示动作价值网络Critic, Critic的输入为状态s t ,输出为价值;
步骤2.2、状态s t 设置为油藏数值模拟模型每个网格点的压力值p i 和油饱和度值s o,i ,即
Figure 16481DEST_PATH_IMAGE005
(1)
其中,p i s o,i 中的i=1,…,nn代表油藏数值模拟模型的网格数量;
步骤2.3、动作a t 设置为当前控制步的各井决策方案,包括第i口生产井的井底压力BHP prd,i ,和第i口注水井的注水速率W inj,i ,如公式(2)所示,
Figure 717720DEST_PATH_IMAGE006
(2)
其中,BHP prd,i 中的i=1,…,N prd N prd 表示生产井的数量;W inj,i 中的i=1,…,N inj N inj 表示注水井的数量;
步骤2.4、奖励函数r t 设置为当前时间步的经济净现值NPV,利用下式计算:
Figure 223788DEST_PATH_IMAGE007
(3)
式中,r o 为原油价格;r w r i 分别是水处理成本和注水成本,单位均为元/m 3q o,j q w,j q wi,i 分别是第j口生产井产油速率、第j口生产井产水速率和第i口注水井的注水速率,单位均为m 3/d
步骤2.5、初始化训练参数:设置折扣因子
Figure 643268DEST_PATH_IMAGE008
,设置策略网络Actor和动作价值网络 Critic的学习率
Figure 994615DEST_PATH_IMAGE009
Figure 81520DEST_PATH_IMAGE010
,二者的神经网络均为四层全连接层,设置各层神经元个数;设置 一个生产周期的训练步数;
步骤3、读取当前时刻油藏状态数据信息(压力和饱和度) s t ,并使用下式min-max归一化函数进行归一化处理,
Figure 492910DEST_PATH_IMAGE021
(4)
式中,x为油藏状态变量值;
步骤4、利用策略网络Actor执行动作(决策变量) a t ,实时改变井的决策方案;
步骤5、调用油藏数值模拟器模拟油藏生产,计算当前的奖励r t ,确定下一时刻油藏状态信息s t+1,具体步骤为:
步骤5.1、将当前t时刻井的决策变量a t 按照模拟器规定的格式写入生产制度文件;
步骤5.2、调用黑油数值模拟器Eclipse加载当前模型,模拟生产过程,获得生产数据以及下一时刻油藏状态信息;
步骤6、训练更新策略网络Actor和动作价值网络Critic的参数,具体步骤为:
步骤6.1、根据油藏当前时刻的状态信息s t 、决策变量a t 、奖励值r t+1、下一时刻油藏 状态信息s t+1和下一刻油藏决策变量a t+1,评估当前Actor执行策略的好坏
Figure 399686DEST_PATH_IMAGE012
并更新Critic 的参数
Figure 554724DEST_PATH_IMAGE013
Figure 496135DEST_PATH_IMAGE014
(5)
Figure 78426DEST_PATH_IMAGE015
(6)
其中,
Figure 472498DEST_PATH_IMAGE012
被称为TD误差,衡量当前时刻s t 的估计值与更好的估计
Figure 165648DEST_PATH_IMAGE016
之间的差异;
Figure 227144DEST_PATH_IMAGE017
表示对
Figure 714758DEST_PATH_IMAGE013
求梯度。
步骤6.2、根据当前时刻油藏状态s t ,决策变量a t 以及Critic返回的
Figure 596126DEST_PATH_IMAGE012
更新Actor 的参数
Figure 358546DEST_PATH_IMAGE018
Figure 8970DEST_PATH_IMAGE019
(7)
其中,
Figure 933063DEST_PATH_IMAGE020
表示对
Figure 301728DEST_PATH_IMAGE018
求梯度。
步骤7、判断是否完成一个完整的生产周期的模拟,如果完成,则将生产周期内每一步的奖励累加,计算得到总的奖励,否则转到步骤3继续计算;
步骤8、判断是否达到最大数值模拟次数,如果达到,则终止计算,输出最优控制方案,保存模型;否则转到步骤2继续计算;
步骤9、根据最优的策略网络输出完整的生产制度,投入现场实施。
在使用最优的策略网络与油藏模拟器环境交互时,保存从初始时刻起每一个时间步的各生产井和注水井的决策变量值,形成完整的生产制度,进而投入现场实施。
实施例
本发明方法的优点可通过以下油藏数值模拟实验进一步说明:
该实施例数据来自某待研究区块,待研究区块含有9口井,其中3口注水井,6口生产井。生产井的优化变量为日产液量,注水井的优化变量为日注水量,日产液量和日注水量的上边界和下边界分别为1000m 3 /d和0m 3 /d。本实施例中,采用商业数值模拟器Eclipse进行数值模拟。该区块的总生产周期为5760天,时间步长设为360天。优化变量的总数为井的数量乘以时间步数。因此,总的优化变量数位(3+6)×16=144。数值模拟最大调用次数设置为2000次。
基于上述待研究区块的数据,本发明油藏注采优化方法的具体步骤如下:
步骤1、基于该研究区块采集到的油田地质数据,建立油藏数值模拟模型,设置注采优化控制变量为日产液量和日注水量,设置约束边界(即设置日产液量和日注水量的上边界和下边界分别为1000m 3 /d和0m 3 /d),设置数值模拟最大调用次数为2000;
步骤2、根据公式(1)至公式(3)构建深度强化学习Actor-Critic算法框架,同时初 始化训练参数及油藏状态;其中,初始化训练参数中,分别设置折扣因子
Figure 336680DEST_PATH_IMAGE022
=0.96,Actor和 Critic的学习率分别为
Figure 372769DEST_PATH_IMAGE023
=0.003和
Figure 467764DEST_PATH_IMAGE024
=0.005,二者的神经网络均为四层全连接层,各层 神经元个数为256-256-128-64,一个生产周期的训练步数为20步;
步骤3、读取当前时刻油藏状态信息(压力和饱和度) s t ,使用公式(4)进行归一化处理;
步骤4、利用策略网络Actor执行动作(决策变量) a t ,实时改变井的决策方案;
步骤5、调用油藏数值模拟器Eclipse模拟油藏生产,计算当前的奖励r t ,确定下一时刻油藏状态信息s t+1
步骤6、根据油藏当前时刻的状态信息s t 、决策变量a t 、奖励值r t+1以及下一时刻油 藏状态信息s t+1,利用公式(5)至公式(7)训练更新策略网络Actor的参数
Figure 323725DEST_PATH_IMAGE018
和动作价值网络 Critic的参数
Figure 162368DEST_PATH_IMAGE013
步骤7、判断是否完成一个完整的生产周期的模拟,即如果训练步数达到20步,则计算生产周期总的奖励,否则转到步骤3继续计算;
步骤8、判断是否达到最大数值模拟次数,即模拟次数如果达到2000次,则终止计算,输出最优控制方案,保存模型;否则转到步骤2继续计算;
步骤9、使用最优的策略网络与油藏模拟器环境交互,保存从初始时刻起每一个时间步的各生产井和注水井的决策变量值,形成完整的生产制度,投入现场实施。
基于上述待研究区的采集数据,将本发明方法(Actor-Critic算法)和传统的进化算法(差分进化算法DE)进行对比实验,包括经济效益结果、累积产油量和累计产水量结构的对比。
图3为本发明所提出方法(Actor-Critic算法)和传统的进化算法(差分进化算法DE)在应用实例中注采优化的经济效益结果对比图,横坐标为油藏数值模拟器的调用次数,纵坐标为当前最优方案的经济净现值。可以看出,整个优化过程中以及最终的结果,本发明所提出的方法稳定收敛时需要的模拟次数更少,得到的经济效益要优于使用差分进化算法DE得到的经济效益。
图4和图5分别为累积产油量和累计产水量结果对比图。从图中可以看出,本发明提出的方法在生产周期内累积产油量更高,但累计产水量更低,达到了“增油控水”的效果。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (9)

1.一种基于深度强化学习的油藏注采优化方法,其特征在于,包括如下步骤:
步骤1、采集油田地质数据,建立油藏数值模拟模型,设置注采优化的控制变量、约束边界及数值模拟最大调用次数;
步骤2、构建深度强化学习算法Actor-Critic框架,初始化训练参数及油藏状态信息;
步骤3、读取当前时刻油藏状态信息,并进行归一化处理;
步骤4、利用策略网络Actor执行动作,实时改变决策方案;
步骤5、调用油藏数值模拟器模拟油藏生产,计算当前奖励,确定下一时刻油藏状态信息;
步骤6、训练更新策略网络Actor和动作价值网络Critic的参数;
步骤7、判断是否完成一个完整的生产周期的模拟,如果完成,则计算整个生产周期的总奖励,否则转到步骤3继续计算;
步骤8、判断是否达到最大数值模拟次数,如果达到,则终止计算,输出最优控制方案,保存模型;否则转到步骤2继续计算;
步骤9、根据最优的策略网络输出完整的生产制度,投入现场实施。
2.根据权利要求1所述基于深度强化学习的油藏注采优化方法,其特征在于,所述控制变量包括井底压力和注水速率;所述约束边界为单井控制变量的上边界和下边界。
3.根据权利要求2所述基于深度强化学习的油藏注采优化方法,其特征在于,井底压力控制的生产井:上边界设为油藏平均压力,下边界为油藏泡点压力;流量控制的注水井:上边界设为最大注水速率,下边界设为0。
4.根据权利要求1所述基于深度强化学习的油藏注采优化方法,其特征在于,所构建的深度强化学习Actor-Critic算法框架包含策略网络Actor和动作价值网络Critic两个部分;其中,Actor是执行模块,输入环境状态s t ,输出动作a t ;Critic是评判模块,根据环境反馈奖励r t 进行自我调整,然后指导Actor模块的更新。
5.根据权利要求4所述基于深度强化学习的油藏注采优化方法,其特征在于,所述步骤2的具体内容如下:
步骤2.1、使用
Figure 5810DEST_PATH_IMAGE001
参数化的神经网络
Figure 391792DEST_PATH_IMAGE002
表示策略网络Actor,Actor的输入为状 态s t ,输出为动作a t ;使用
Figure 781316DEST_PATH_IMAGE003
参数化的神经网络
Figure 645367DEST_PATH_IMAGE004
表示动作价值网络Critic,Critic的 输入为状态s t ,输出为价值;
步骤2.2、状态s t 设置为油藏数值模拟模型每个网格点的压力值p i 和油饱和度值s o,i ,如公式(1)所示,
Figure 194160DEST_PATH_IMAGE005
(1)
其中,p i s o,i 中的i=1,…,nn代表油藏数值模拟模型的网格数量;
步骤2.3、动作a t 设置为当前控制步的各井决策方案,包括第i口生产井的井底压力BHP prd,i ,和第i口注水井的注水速率W inj,i ,如公式(2)所示,
Figure 875677DEST_PATH_IMAGE006
(2)
其中,BHP prd,i 中的i=1,…,N prd N prd 表示生产井的数量;W inj,i 中的i=1,…,N inj N inj 表示注水井的数量;
步骤2.4、奖励函数r t 设置为当前时间步的经济净现值NPV,利用下式计算:
Figure 345973DEST_PATH_IMAGE007
(3)
式中,r o 为原油价格;r w r i 分别是水处理成本和注水成本,单位均为元/m 3q o,j q w,j q wi,i 分别是第j口生产井产油速率、第j口生产井产水速率和第i口注水井的注水速率,单位均为m 3/d
步骤2.5、初始化训练参数:设置折扣因子
Figure 154660DEST_PATH_IMAGE008
,设置策略网络Actor和动作价值网络 Critic的学习率
Figure 557959DEST_PATH_IMAGE009
Figure 285744DEST_PATH_IMAGE010
,二者的神经网络均为四层全连接层,设置各层神经元个数;设置 一个生产周期的训练步数。
6.根据权利要求5所述基于深度强化学习的油藏注采优化方法,其特征在于,所述步骤3中,归一化处理采用min-max归一化函数,计算公式为:
Figure 633549DEST_PATH_IMAGE011
(4)
式中,x为状态变量值。
7.根据权利要求6所述基于深度强化学习的油藏注采优化方法,其特征在于,所述步骤5的具体内容如下:
步骤5.1、将当前t时刻井的决策变量a t 按照模拟器规定的格式写入生产制度文件;
步骤5.2、调用黑油数值模拟器Eclipse加载当前模型,模拟生产过程,获得生产数据以及下一时刻油藏状态信息。
8.根据权利要求7所述基于深度强化学习的油藏注采优化方法,其特征在于,所述步骤6的具体内容如下:
步骤6.1、根据油藏当前时刻的状态信息s t 、决策变量a t 、奖励值r t+1、下一时刻油藏状态 信息s t+1和下一刻油藏决策变量a t+1,评估当前Actor执行策略的好坏
Figure 104981DEST_PATH_IMAGE012
并更新Critic的参 数
Figure 362787DEST_PATH_IMAGE013
Figure 527052DEST_PATH_IMAGE014
(5)
Figure 112886DEST_PATH_IMAGE015
(6)
其中,
Figure 122430DEST_PATH_IMAGE012
被称为TD误差,衡量当前时刻s t 的估计值与更好的估计
Figure 500322DEST_PATH_IMAGE016
之间的差异;
Figure 694543DEST_PATH_IMAGE017
表示对
Figure 892306DEST_PATH_IMAGE013
求梯度;
步骤6.2、根据当前时刻油藏状态s t ,决策变量a t 以及Critic返回的
Figure 705541DEST_PATH_IMAGE012
更新Actor的参数
Figure 813305DEST_PATH_IMAGE018
Figure 53794DEST_PATH_IMAGE019
(7)
其中,
Figure 738853DEST_PATH_IMAGE020
表示对
Figure 480413DEST_PATH_IMAGE018
求梯度。
9.根据权利要求1所述基于深度强化学习的油藏注采优化方法,其特征在于,所述步骤9中,在使用最优的策略网络与油藏模拟器环境交互时,保存从初始时刻起每一个时间步的各生产井和注水井的决策变量值,形成完整的生产制度,进而投入现场实施。
CN202210362472.6A 2022-04-08 2022-04-08 一种基于深度强化学习的油藏注采优化方法 Pending CN114444402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210362472.6A CN114444402A (zh) 2022-04-08 2022-04-08 一种基于深度强化学习的油藏注采优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210362472.6A CN114444402A (zh) 2022-04-08 2022-04-08 一种基于深度强化学习的油藏注采优化方法

Publications (1)

Publication Number Publication Date
CN114444402A true CN114444402A (zh) 2022-05-06

Family

ID=81359544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210362472.6A Pending CN114444402A (zh) 2022-04-08 2022-04-08 一种基于深度强化学习的油藏注采优化方法

Country Status (1)

Country Link
CN (1) CN114444402A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384712A (zh) * 2023-06-05 2023-07-04 青岛理工大学 一种联动智能注采装置的差异化实时注采优化调控方法
CN116663654A (zh) * 2023-07-31 2023-08-29 中国石油大学(华东) 基于历史调控经验的时间窗口迁移强化学习注采优化方法
WO2024046086A1 (zh) * 2022-08-31 2024-03-07 中国石油天然气股份有限公司 基于RU-Net和LSTM神经网络模型的自动历史拟合方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948836A (zh) * 2019-03-01 2019-06-28 北京国双科技有限公司 油田的注水数据的处理方法、装置、存储介质和处理器
CN112861423A (zh) * 2021-01-08 2021-05-28 中国石油大学(北京) 数据驱动的注水油藏优化方法和系统
US20210398002A1 (en) * 2020-06-22 2021-12-23 China University Of Petroleum (East China) Parallel proxy model based machine learning method for oil reservoir production

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948836A (zh) * 2019-03-01 2019-06-28 北京国双科技有限公司 油田的注水数据的处理方法、装置、存储介质和处理器
US20210398002A1 (en) * 2020-06-22 2021-12-23 China University Of Petroleum (East China) Parallel proxy model based machine learning method for oil reservoir production
CN112861423A (zh) * 2021-01-08 2021-05-28 中国石油大学(北京) 数据驱动的注水油藏优化方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAARNOJA,T等: "Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
ZHANG KAI等: "Training effective deep reinforcement learning agents for real-time life-cycle production optimization", 《JOURNAL OF PETROLEUM SCIENCE AND ENGINEERING》 *
罗韦尔·阿蒂恩扎: "《Keras高级深度学习》", 31 March 2020 *
金亚杰等: "通过量化生产中的不确定性加强西伯利亚地区的油田管理", 《国外油田工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024046086A1 (zh) * 2022-08-31 2024-03-07 中国石油天然气股份有限公司 基于RU-Net和LSTM神经网络模型的自动历史拟合方法及装置
CN116384712A (zh) * 2023-06-05 2023-07-04 青岛理工大学 一种联动智能注采装置的差异化实时注采优化调控方法
CN116384712B (zh) * 2023-06-05 2023-09-15 青岛理工大学 一种联动智能注采装置的差异化实时注采优化调控方法
CN116663654A (zh) * 2023-07-31 2023-08-29 中国石油大学(华东) 基于历史调控经验的时间窗口迁移强化学习注采优化方法
CN116663654B (zh) * 2023-07-31 2023-11-21 中国石油大学(华东) 基于历史调控经验的时间窗口迁移强化学习注采优化方法

Similar Documents

Publication Publication Date Title
CN114444402A (zh) 一种基于深度强化学习的油藏注采优化方法
CN111625922B (zh) 一种基于机器学习代理模型的大规模油藏注采优化方法
CN111861774B (zh) 一种基于并行代理模型的油藏生产机器学习方法
CN109543828B (zh) 一种基于小样本条件下的吸水剖面预测方法
CN112836349B (zh) 基于井筒参数的注采联调智能决策方法及系统
CN112861423B (zh) 数据驱动的注水油藏优化方法和系统
CN112282714B (zh) 基于深度学习和图论的全井网注水开发优化方法
US11308413B2 (en) Intelligent optimization of flow control devices
US20230358123A1 (en) Reinforcement learning-based decision optimization method of oilfield production system
CN115146446A (zh) 基于近似梯度算法和嵌入式离散裂缝模型的油藏优化方法
CN104732091A (zh) 基于自然选择蚁群算法的元胞自动机河床演变预测方法
Salehian et al. Multi-solution well placement optimization using ensemble learning of surrogate models
CN114492211A (zh) 一种基于自回归网络模型的剩余油分布预测方法
CN115860197A (zh) 一种基于数据驱动的煤层气产量预测方法及系统
CN112539054B (zh) 地面管网与地下油藏复杂系统生产优化方法
CN109948836B (zh) 油田的注水数据的处理方法、装置、存储介质和处理器
CN111861129B (zh) 一种基于多尺度油藏模型的多保真注采优化方法
Zhuang et al. Multi-objective optimization of reservoir development strategy with hybrid artificial intelligence method
Takahashi et al. Optimal perennial yield planning for complex nonlinear aquifers: Methods and examples
CN115222140A (zh) 一种继承历史经验的生产优化机器学习离线模型构建方法
CN108133286B (zh) 一种基于地面沉降替代模型的地下水多目标计算方法
CN115288646B (zh) 一种压裂水平井的连通性分析方法、装置、介质和终端
Mirzaei-Paiaman et al. Optimization of design variables and control rules in field development under uncertainty: A case of intelligent wells and CO2 water alternating gas injection
CN116384712B (zh) 一种联动智能注采装置的差异化实时注采优化调控方法
Xu et al. Efficient production optimization for naturally fractured reservoir using EDFM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220506

RJ01 Rejection of invention patent application after publication