CN115222140A - 一种继承历史经验的生产优化机器学习离线模型构建方法 - Google Patents

一种继承历史经验的生产优化机器学习离线模型构建方法 Download PDF

Info

Publication number
CN115222140A
CN115222140A CN202210902133.2A CN202210902133A CN115222140A CN 115222140 A CN115222140 A CN 115222140A CN 202210902133 A CN202210902133 A CN 202210902133A CN 115222140 A CN115222140 A CN 115222140A
Authority
CN
China
Prior art keywords
production
network
strategy
reservoir
oil
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210902133.2A
Other languages
English (en)
Other versions
CN115222140B (zh
Inventor
张凯
辛国靖
王中正
张黎明
严侠
刘丕养
张华清
杨永飞
孙海
姚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202210902133.2A priority Critical patent/CN115222140B/zh
Publication of CN115222140A publication Critical patent/CN115222140A/zh
Application granted granted Critical
Publication of CN115222140B publication Critical patent/CN115222140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Agronomy & Crop Science (AREA)
  • Primary Health Care (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)

Abstract

本发明公开了一种继承历史经验的生产优化机器学习离线模型构建方法,属于石油技术领域。本发明利用强化学习近端策略优化算法以及遗传算法,可以将计算分配到多个CPU中完成并行计算,各进程间进行数据池共享,提高采样效率,通过提供多样化的探索经验来训练强化学习智能体,提高稳定性和鲁棒性;同时训练后的策略网络可在再次优化时直接给出最优的生产制度,无需重复进行高昂的优化过程。

Description

一种继承历史经验的生产优化机器学习离线模型构建方法
技术领域
本发明属于石油技术领域,具体涉及一种继承历史经验的生产优化机器学习离线模型构建方法。
背景技术
在过去的几十年里,石油和天然气行业在国际经济中发挥着不可思议的影响,并将在未来几年继续成为全球能源的支柱。目前我国相当多的油田已经进入成熟期。因此,在国际油价持续波动的背景下,努力提高现有油气藏的油气生产效率至关重要。随着数字油田和智能油田的技术发展,生产优化作为一种系统化的工作流程,已经引起了油藏工作者越来越多的关注。生产优化的目的是获得每口井的最佳开发方案(如流量、位置和压力),以实现经济效益或累积油气产量的最大化。然而,实际生产中的优化问题并不是一项简单的任务,受到决策变量和目标函数之间的强非线性的挑战。此外,优化的解决方案必须满足所需的物理和操作约束,以确保其可行性。不幸的是,一次模拟运行可能会花费相对较长的时间,而一个完整的优化一般需要数千次模拟运行。因此,急于开发具有高效率的算法来应对这些挑战。
尽管强化学习成功地提高了实时生产优化的性能,但仍然有两个缺点阻碍了它的性能。首先,强化学习在面对大的状态空间和动作空间时缺乏有效且多样化的探索策略。一般来说,实际的油藏模型包含大量的网格并涉及大量的决策变量,很难学习到一种能够很好地建立油藏状态与井控之间映射关系的策略。其次,强化学习具有脆弱的收敛特性,尤其是在交互过程中奖励不均匀时。所提出方法的主要创新是引入基于种群的遗传算法,以提供多样化的探索经验来训练强化学习智能体并提高稳定性和鲁棒性。
发明内容
针对现有技术中存在的上述技术问题,本发明提出了一种继承历史经验的生产优化机器学习离线模型构建方法,设计合理,克服了现有技术的不足,具有良好的效果。
为了实现上述目的,本发明采用如下技术方案:
一种继承历史经验的生产优化机器学习离线模型构建方法,包括以下步骤:
步骤1:建立待优化区域油藏数值模型,获取模型中需调控注入井及其注入量约束、生产井及其产量约束、以及油藏的含水率或地层压力约束;
步骤2:初始化种群G以及经验存放数据池Ω;种群G包括Ne个策略网络;
步骤3:采用近端策略优化算法,搭建深度强化学习框架,初始化Nr个智能体;
步骤4:初始化训练参数及油藏状态信息,包括油藏地层压力及剩余油饱和度信息;
步骤5:根据种群G中不同策略网络生成的当前状态St下的动作空间at,与环境模型数值模拟器进行交互,得到奖励rt和下一状态St+1,计算整个生产周期的总收益作为种群G内个体适应度值,强化学习策略以相同方法计算整个生产周期内的总收益;
步骤6:采用遗传算法进行种群中的参数更新;
步骤7:进行近端策略优化算法的策略更新;
当共享经验池中样本数量足够多时,在经验池内选取一定数量样本{St,A,rt,St+1}进行策略网络和动作价值网络的更新;
步骤8:定期将通过近端策略优化算法训练的策略网络,复制到遗传算法种群G中,以替换最弱的个体;
步骤9:重复步骤4~步骤8,直至满足迭代收敛条件;
步骤10:根据保存的最优策略网络,输入油藏的状态信息,即能够输出完整的生产制度。
优选地,步骤1中获取模型约束变量的具体步骤为:
步骤1.1:注入井为线性约束,注入井采用流量控制:
单井日注入量∈[x,y];
其中,x为下边界;y为上边界设为最大注水速率;
步骤1.2:生产井为线性约束,采用井底压力控制:
井底压力∈[m,n];
其中,m下边界为油藏泡点压力,n上边界设为油藏平均压力;
步骤1.3:同时考虑包括油藏的含水率或地层压力在内的非线性约束。
优选地,在步骤3中,具体包括如下步骤:
步骤3.1:强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏;采用近端策略优化算法,将注采优化问题建模为马尔可夫决策,并定义如下关键要素:策略、状态、动作以及奖励函数;
步骤3.2:使用θ参数化的神经网络πθ(at|st)表示策略网络,该网络的输入为状态st,输出为动作at;使用ω参数化的神经网络Vω(st)表示动作价值网络,游客成为Q网络,动作价值网络的输入为状态st,输出为价值。
优选地,在步骤5中,具体包括如下步骤:
步骤5.1:对油藏数值模拟的RSM输出文件进行读取,以矩阵形式作为网格的输入;
st={so,1,···,so,n;p1,···,pn} (1);
式中,st表示第t时刻状态,pi表示油藏模型每个网格点的压力值,so,i表示含油饱和度值;
步骤5.2:动作at设置为第t时间步内各井的井控方案,如公式(2)所示:
Figure BDA0003771262030000031
式中,Wprd,i表示第i口生产井的产液量,Winj,i表示第i口注水井的注水速率;
步骤5.3:奖励rt采用当前时间步的经济净现值NPV表示,如公式(3)所示:
Figure BDA0003771262030000032
式中,qo,j,qw,j和qwi,i分别是第j口生产井日产油、第j口生产井日产水和第i口注水井的日注入量,单位为m3/d,ro为原油价格,rw和ri分别是水处理成本和注水成本,单位为元/m3
步骤5.4:循环进行以下步骤5.4.1-5.4.2,直至完成整个生产周期的数值模拟过程,
步骤5.4.1:读取当前状态下的油藏地层压力和饱和度信息,将油藏状态信息输入策略网络,输出将当前t时刻井的控制变量at,并写入生产制度文件;
步骤5.4.2:按照策略网络得到的生产制度,调用油藏数值模拟器模拟该制度下的生产过程,获得该制度下的产油量、产液量等生产动态以及下一时刻的油藏压力和油藏状态信息st+1
优选地,步骤6中,具体包括如下步骤:
步骤6.1:种群内每个个体策略网络在整个生产周期内通过与油藏数值模拟器的交互的进行评估,其适应度值采用累计净现值,即整个生产周期的净现值,计算如下:
Figure BDA0003771262030000033
式中,NPV为净现值,n为控制时间步数;Qo,t,Qw,t和Qi,t分别是时间步t的产油速度、产水速度和注水速度,m3/d;ro是原油价格,rw和ri分别是水处理成本价格和注水成本价格,元/m3;b是平均年利率;pt是年利率;
步骤6.2:将部分个体保留为精英;
步骤6.3:通过选择、交叉和变异操作对策略网络的权重进行概率扰动,以产生新个体作为子代;
步骤6.4:定期将强化学习使用梯度信息更新的策略网络与遗传算法种群个体进行替换,遗传算法作为外循环进行优化,内循环中使用梯度信息进行训练。
优选地,步骤7中,具体包括如下步骤:
步骤7.1:根据油藏当前时刻的状态信息st、决策变量at、奖励值rt+1以及下一时刻油藏状态信息st+1,评估当前策略网络执行策略的好坏δt并更新动作价值网络的参数ω:
δt←rt+1+γVω(st+1,at+1)-Vω(st,at) (5);
Figure BDA0003771262030000041
其中,δt被称为TD误差,衡量当前时刻st的估计值与更好的估计rt+1+γVω(st+1,at+1)之间的差异;
Figure BDA0003771262030000042
表示对ω求梯度;
步骤7.2:根据当前时刻油藏状态st,决策变量at以及动作价值网络返回的δt更新策略网络的参数θ:
Figure BDA0003771262030000043
其中,
Figure BDA0003771262030000044
表示对θ求梯度;
步骤7.3:优化过程中,最初为每个智能体分配相同数量的CPU内核以与油藏环境进行交互,CPU内核的分配不仅考虑智能体的当前估计值,还考虑它们被选择的次数,保证探索和利用之间的平衡,并避免耗时的超参数优化。
优选地,步骤9中迭代收敛条件为:运行的总的数值模拟器次数达到设定上限;如果满足预设停止标准,则终止计算,转到步骤10,如未满足,则进行重复步骤4~步骤8。
优选地,在步骤10中,保存最优的策略网络,即最优的策略;输入当前时刻油藏状态,得到该时刻下对应的生产方案,循环所有决策时间步,保存各生产井和注水井的决策变量,以形成完整的生产制度,最优生产方案包括油水井注采量或井底压力;同时训练后的策略网络能够在再次优化时直接给出最优的生产制度,无需重复进行高昂的优化过程。
本发明所带来的有益技术效果:
本发明利用强化学习近端策略优化算法以及遗传算法,可以将计算分配到多个CPU中完成并行计算,各进程间进行数据池共享,提高采样效率,通过提供多样化的探索经验来训练强化学习智能体,提高稳定性和鲁棒性。同时训练后的策略网络可在再次优化时直接给出最优的生产制度,无需重复进行高昂的优化过程;此过程不依赖于任何补充的结构或者手动设计复杂的规则,更能满足油田现场和实际开发的需求。
附图说明
图1是本发明的总体设计流程图;
图2是训练最优策略的高性能和数据高效架构图;
图3是迭代过程净现值优化曲线示意图;
图4是部分生产井优化后调控时间步示意图;
图5是部分注水井优化后调控时间步示意图;
图6是优化前后累产油对比图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本发明具体包括如图1所示步骤流程,结合以下实施例进一步描述。
以某油藏模型为例对所提出的技术进行测试,并与传统的优化算法进行对比分析。该油藏模型是在水驱生产下的非均质油藏模型,模型大小为163*88*163,选择其中主力层进行优化。选取该模型中58口井的生产制度进行调控,每口注入井注入速率允许的上限设置为最大注入速率,下限为目前注入量的0.5倍。生产井类似上限设置为最大产液速率,下限为目前产液量的0.5倍;模型已生产6971天,生产到当前阶段,累产油4259038立方米,累注水49521.45立方米,油田含水率0.965。原油价格为80.0元/m3;注水成本5.0元/m3;水处理成本为19.0元/m3;平均年利率为0%。一季度进行一次调控,一个生产周期的训练步数设为20步,总的优化变量维数:20*58=1160,属于复杂的超高维优化难题。
表1生产制度约束示例
Figure BDA0003771262030000051
步骤一:建立待优化区域油藏数值模型,每口注入井注入速率允许的上限设置为最大注入速率,下限为目前注入量的0.5倍。生产井类似上限设置为最大产液速率,下限为目前产液量的0.5倍。具体约束示例如表1所示。
步骤二:初始化种群G,其包括25个策略网络,其网络参数为随机初始化;初始化经验存放数据池Ω;
步骤三:搭建深度强化学习算法近端策略优化框架,初始化一组Nr个智能体,策略网络和动作价值网络的学习率均为λθ=0.004和λω=0.004,策略网络为3d卷积神经网络,用以提取油藏的多层状态信息;
步骤四:初始化训练参数及油藏状态信息,状态st设置为油藏模型每个网格点的压力值pi和油饱和度值so,i,以如下形式作为模型的输入。
st={so,1,···,so,n;p1,···,pn} (8);
步骤五:根据种群G中不同策略网络生成的当前状态St下的动作空间at修改油藏生产制度,通过并行计算调用油藏数值模拟软件进行真实的数值模拟得到响应集,即奖励R和下一状态St+1,各并行进程内得到的{St,at,r,St+1}加入经验池,计算整个生产周期的总收益作为种群G内各个个体适应度值,按照适应度值进行种群个体的排序,得到遗传算法中最大的适应度值,并保存相应的保存最优的策略;强化学习策略以相同方法计算整个生产周期内的总收益;
步骤六:采用遗传算法进行种群中的参数更新。
种群内每个个体策略网络在整个生产周期内通过与油藏数值模拟器的交互的进行评估,其适应度值采用累计净现值。一部分具有较高适应度的个体被保留为精英,然后通过选择、交叉和变异操作对策略网络的权重进行概率扰动,以产生新个体作为子代。
步骤七:进行强化学习方法的策略更新。
当经验池中样本数量足够多时,在经验池内选取一定数量样本{St,A,r,St+1}进行策略网络和动作价值网络的更新。
步骤八:定期将通过强化学习训练的策略网络复制到遗传算法种群G中以替换最弱的个体。
步骤九:重复步骤(4)~(8),直到达到最大迭代次数;
步骤十:根据保存的最优的策略网络输出完整的生产制度,投入现场实施。
最终优化结果对比,初始方案相关井生产制度按照关井前进行生产。初始方案累计产油:4998261立方米。最终优化后方案累计产油:5137461立方米,相比原方案提升139200,2.78%。
通过本发明的方法,可以为合理生产配置、注采策略调整提供高质量的基础数据,为动态分析、智能注采、层系优化等提供技术支撑。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (8)

1.一种继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:包括以下步骤:
步骤1:建立待优化区域油藏数值模型,获取模型中需调控注入井及其注入量约束、生产井及其产量约束、以及油藏的含水率或地层压力约束;
步骤2:初始化种群G以及经验存放数据池Ω;种群G包括Ne个策略网络;
步骤3:采用近端策略优化算法,搭建深度强化学习框架,初始化Nr个智能体;
步骤4:初始化训练参数及油藏状态信息,包括油藏地层压力及剩余油饱和度信息;
步骤5:根据种群G中不同策略网络生成的当前状态St下的动作空间at,与环境模型数值模拟器进行交互,得到奖励rt和下一状态St+1,计算整个生产周期的总收益作为种群G内个体适应度值,强化学习策略以相同方法计算整个生产周期内的总收益;
步骤6:采用遗传算法进行种群中的参数更新;
步骤7:进行近端策略优化算法的策略更新;
当共享经验池中样本数量足够多时,在经验池内选取一定数量样本{St,A,rt,St+1}进行策略网络和动作价值网络的更新;
步骤8:定期将通过近端策略优化算法训练的策略网络,复制到遗传算法种群G中,以替换最弱的个体;
步骤9:重复步骤4~步骤8,直至满足迭代收敛条件;
步骤10:根据保存的最优策略网络,输入油藏的状态信息,即能够输出完整的生产制度。
2.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:步骤1中获取模型约束变量的具体步骤为:
步骤1.1:注入井为线性约束,注入井采用流量控制:
单井日注入量∈[x,y];
其中,x为下边界;y为上边界设为最大注水速率;
步骤1.2:生产井为线性约束,采用井底压力控制:
井底压力∈[m,n];
其中,m下边界为油藏泡点压力,n上边界设为油藏平均压力;
步骤1.3:同时考虑包括油藏的含水率或地层压力在内的非线性约束。
3.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:在步骤3中,具体包括如下步骤:
步骤3.1:强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏;采用近端策略优化算法,将注采优化问题建模为马尔可夫决策,并定义如下关键要素:策略、状态、动作以及奖励函数;
步骤3.2:使用θ参数化的神经网络πθ(at|st)表示策略网络,该网络的输入为状态st,输出为动作at;使用ω参数化的神经网络Vω(st)表示动作价值网络,游客成为Q网络,动作价值网络的输入为状态st,输出为价值。
4.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:在步骤5中,具体包括如下步骤:
步骤5.1:对油藏数值模拟的RSM输出文件进行读取,以矩阵形式作为网格的输入;
st={so,1,···,so,n;p1,···,pn} (1);
式中,st表示第t时刻状态,pi表示油藏模型每个网格点的压力值,so,i表示含油饱和度值;
步骤5.2:动作at设置为第t时间步内各井的井控方案,如公式(2)所示:
Figure FDA0003771262020000021
式中,Wprd,i表示第i口生产井的产液量,Winj,i表示第i口注水井的注水速率;
步骤5.3:奖励rt采用当前时间步的经济净现值NPV表示,如公式(3)所示:
Figure FDA0003771262020000022
式中,qo,j,qw,j和qwi,i分别是第j口生产井日产油、第j口生产井日产水和第i口注水井的日注入量,单位为m3/d,ro为原油价格,rw和ri分别是水处理成本和注水成本,单位为元/m3
步骤5.4:循环进行以下步骤5.4.1-5.4.2,直至完成整个生产周期的数值模拟过程,
步骤5.4.1:读取当前状态下的油藏地层压力和饱和度信息,将油藏状态信息输入策略网络,输出将当前t时刻井的控制变量at,并写入生产制度文件;
步骤5.4.2:按照策略网络得到的生产制度,调用油藏数值模拟器模拟该制度下的生产过程,获得该制度下的产油量、产液量等生产动态以及下一时刻的油藏压力和油藏状态信息st+1
5.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:步骤6中,具体包括如下步骤:
步骤6.1:种群内每个个体策略网络在整个生产周期内通过与油藏数值模拟器的交互的进行评估,其适应度值采用累计净现值,即整个生产周期的净现值,计算如下:
Figure FDA0003771262020000031
式中,NPV为净现值,n为控制时间步数;Qo,t,Qw,t和Qi,t分别是时间步t的产油速度、产水速度和注水速度,m3/d;ro是原油价格,rw和ri分别是水处理成本价格和注水成本价格,元/m3;b是平均年利率;pt是年利率;
步骤6.2:将部分个体保留为精英;
步骤6.3:通过选择、交叉和变异操作对策略网络的权重进行概率扰动,以产生新个体作为子代;
步骤6.4:定期将强化学习使用梯度信息更新的策略网络与遗传算法种群个体进行替换,遗传算法作为外循环进行优化,内循环中使用梯度信息进行训练。
6.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:步骤7中,具体包括如下步骤:
步骤7.1:根据油藏当前时刻的状态信息st、决策变量at、奖励值rt+1以及下一时刻油藏状态信息st+1,评估当前策略网络执行策略的好坏δt并更新动作价值网络的参数ω:
δt←rt+1+γVω(st+1,at+1)-Vω(st,at) (5);
ω←ω+λω·δt·▽ωVω(st) (6);
其中,δt被称为TD误差,衡量当前时刻st的估计值与更好的估计rt+1+γVω(st+1,at+1)之间的差异;▽ω表示对ω求梯度;
步骤7.2:根据当前时刻油藏状态st,决策变量at以及动作价值网络返回的δt更新策略网络的参数θ:
θ←θ+λθ·δt·▽θlogπθ(at|st) (7);
其中,▽θ表示对θ求梯度;
步骤7.3:优化过程中,最初为每个智能体分配相同数量的CPU内核以与油藏环境进行交互,CPU内核的分配不仅考虑智能体的当前估计值,还考虑它们被选择的次数,保证探索和利用之间的平衡,并避免耗时的超参数优化。
7.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:步骤9中迭代收敛条件为:运行的总的数值模拟器次数达到设定上限;如果满足预设停止标准,则终止计算,转到步骤10,如未满足,则进行重复步骤4~步骤8。
8.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:在步骤10中,保存最优的策略网络,即最优的策略;输入当前时刻油藏状态,得到该时刻下对应的生产方案,循环所有决策时间步,保存各生产井和注水井的决策变量,以形成完整的生产制度,最优生产方案包括油水井注采量或井底压力;同时训练后的策略网络能够在再次优化时直接给出最优的生产制度,无需重复进行高昂的优化过程。
CN202210902133.2A 2022-07-29 2022-07-29 一种继承历史经验的生产优化机器学习离线模型构建方法 Active CN115222140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210902133.2A CN115222140B (zh) 2022-07-29 2022-07-29 一种继承历史经验的生产优化机器学习离线模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210902133.2A CN115222140B (zh) 2022-07-29 2022-07-29 一种继承历史经验的生产优化机器学习离线模型构建方法

Publications (2)

Publication Number Publication Date
CN115222140A true CN115222140A (zh) 2022-10-21
CN115222140B CN115222140B (zh) 2024-09-27

Family

ID=83613280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210902133.2A Active CN115222140B (zh) 2022-07-29 2022-07-29 一种继承历史经验的生产优化机器学习离线模型构建方法

Country Status (1)

Country Link
CN (1) CN115222140B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384712A (zh) * 2023-06-05 2023-07-04 青岛理工大学 一种联动智能注采装置的差异化实时注采优化调控方法
US12123292B1 (en) 2023-06-05 2024-10-22 Qingdao university of technology Differentiated real-time injection-production optimization adjustment method of intelligent injection-production linkage device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109358A (zh) * 2019-05-17 2019-08-09 电子科技大学 一种基于反馈的混合多智能体协同控制方法
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN114444402A (zh) * 2022-04-08 2022-05-06 中国石油大学(华东) 一种基于深度强化学习的油藏注采优化方法
US20220147897A1 (en) * 2020-11-12 2022-05-12 SparkCognition, Inc. Machine learning for predictive optmization
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109358A (zh) * 2019-05-17 2019-08-09 电子科技大学 一种基于反馈的混合多智能体协同控制方法
US20220147897A1 (en) * 2020-11-12 2022-05-12 SparkCognition, Inc. Machine learning for predictive optmization
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN114444402A (zh) * 2022-04-08 2022-05-06 中国石油大学(华东) 一种基于深度强化学习的油藏注采优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张凯 等: "智能油田开发中的大数据及智能优化理论和方法研究现状及展望", 《中国石油大学学报( 自然科学版)》, 20 August 2020 (2020-08-20), pages 28 - 38 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384712A (zh) * 2023-06-05 2023-07-04 青岛理工大学 一种联动智能注采装置的差异化实时注采优化调控方法
CN116384712B (zh) * 2023-06-05 2023-09-15 青岛理工大学 一种联动智能注采装置的差异化实时注采优化调控方法
US12123292B1 (en) 2023-06-05 2024-10-22 Qingdao university of technology Differentiated real-time injection-production optimization adjustment method of intelligent injection-production linkage device

Also Published As

Publication number Publication date
CN115222140B (zh) 2024-09-27

Similar Documents

Publication Publication Date Title
CN111861774B (zh) 一种基于并行代理模型的油藏生产机器学习方法
CN111625922B (zh) 一种基于机器学习代理模型的大规模油藏注采优化方法
CN107578124B (zh) 基于多层改进gru神经网络的短期电力负荷预测方法
Vanegas et al. Inverse design of urban procedural models
Dragoi et al. Optimization methodology based on neural networks and self-adaptive differential evolution algorithm applied to an aerobic fermentation process
CN114444402A (zh) 一种基于深度强化学习的油藏注采优化方法
CN114896903A (zh) 一种基于强制学习的油田生产系统决策优化方法
CN116644662B (zh) 一种基于知识嵌入神经网络代理模型的布井优化方法
CN115222140A (zh) 一种继承历史经验的生产优化机器学习离线模型构建方法
CN118036477B (zh) 一种基于时空图神经网络的井位及井控参数优化方法
CN116611350A (zh) 一种基于迁移学习的油井酸化措施效果预测方法
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN102279419A (zh) 一种基于遗传算法提高缝洞型油藏自动历史拟合效率的方法
Sharifipour et al. Well placement optimization using shuffled frog leaping algorithm
CN109408896B (zh) 一种污水厌氧处理产气量多元智能实时监控方法
CN110222847A (zh) 一种机器学习方法与装置
CN116882323B (zh) 一种考虑时序性及细分任务的自适应代理策略优化方法
CN116384712B (zh) 一种联动智能注采装置的差异化实时注采优化调控方法
CN113032953A (zh) 一种多井系统水驱油藏注采参数智能优化方法
Preis et al. Online hydraulic state prediction for water distribution systems
CN112488868B (zh) 一种基于闭环框架的表面活性剂驱油集成调度优化与控制方法
CN116128013A (zh) 基于多样性种群训练的临机协同方法、装置和计算机设备
CN115618497A (zh) 一种基于深度强化学习的翼型优化设计方法
CN105069323A (zh) 基于Memetic算法的微生物发酵控制优化方法
CN115510752A (zh) 一种基于数据驱动的侧钻井井位优选方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant