CN116562127A - 一种基于离线强化学习的高炉冶炼操作优化方法及系统 - Google Patents

一种基于离线强化学习的高炉冶炼操作优化方法及系统 Download PDF

Info

Publication number
CN116562127A
CN116562127A CN202310398123.4A CN202310398123A CN116562127A CN 116562127 A CN116562127 A CN 116562127A CN 202310398123 A CN202310398123 A CN 202310398123A CN 116562127 A CN116562127 A CN 116562127A
Authority
CN
China
Prior art keywords
blast furnace
network
furnace smelting
output
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310398123.4A
Other languages
English (en)
Inventor
蒋朝辉
蒋珂
谢永芳
桂卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310398123.4A priority Critical patent/CN116562127A/zh
Publication of CN116562127A publication Critical patent/CN116562127A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manufacture Of Iron (AREA)

Abstract

本发明公开了一种基于离线强化学习的高炉冶炼操作优化方法及系统,通过获取高炉历史数据,建立专家数据库,基于DDPG算法,建立高炉冶炼操作优化模型,利用专家数据库输出的动作与策略网络输出的动作之间的差异构造安全信号,根据安全信号和评价网络的输出,获得策略网络的参数更新规则以及基于专家数据库和策略网络的参数更新规则训练高炉冶炼操作优化模型,从而获得高炉冶炼优化操作,解决了强化学习应用在高炉冶炼操作优化上无法保证可靠性和安全性的技术问题,不需要任何数据模型或机理模型作为支撑,基于专家操作轨迹训练的策略网络提供的决策方案能为炉长实现高炉精细化调控提供合理的操作指导与支持,保障高炉的顺行和提高铁水的质量。

Description

一种基于离线强化学习的高炉冶炼操作优化方法及系统
技术领域
本发明主要涉及高炉冶炼技术领域,特指一种基于离线强化学习的高炉冶炼操作优化方法及系统。
背景技术
高炉炼铁过程操作参数的实时优化是冶炼优质铁水的关键,高炉的复杂性使得现有的调控手段主要以专家经验为主,但这种方式容易受到专家自身能力,主观性和认知偏差的影响,且适应能力和可移植性有限。此外,冶炼过程的滞后性和矿源的波动性使得铁水质量难以一步调整到位,需要多次序贯调整操作变量,其调控范围的连续性使得决策方案是无穷的。因此,在外界环境的波动和内在调控方案的无穷的条件下,实现高炉冶炼操作优化对提高铁水质量和保障高炉顺行具有重要的意义。
高炉炼铁是一个连续鼓风、周期性加料和周期性出铁、具有大惯性和强耦合的生产过程,实现高炉操作过程的最优决策是钢铁制造业取得长期成功和盈利的关键因素。然而,高炉尺寸的差异,矿源的波动以及订单的需求使得现有的操作优化主要以高炉炉长的经验为主,其他智能决策方法为辅助。为了实现冶炼过程的实时监控,与冶炼过程相关的状态变量,专家的操作变量和对应的铁水质量信息被存储在历史数据库中。这些海量的信息积累了大量的优质冶炼规律,为高炉冶炼的操作优化提供了数据基础。强化学习在自动驾驶、交通控制,医疗保健等序列决策任务方面展示了惊人的效果,高炉的冶炼优化过程是一个明显的序列决策任务,因此利用强化学习基于专家操作轨迹训练自主决策的智能体是可行的。标准的强化学习需要智能体与真实的高炉冶炼环境进行实时互动和试错进行探索,出于安全性的考虑,其错误探索带来的后果是不被允许的。为此,本专利抛弃了强化学习的标准范式,利用离线强化学习从收集的专家决策轨迹中自动推断出高炉冶炼操作的最佳决策方案。
公开号为CN 104899463 A的发明专利公开了一种高炉多元铁水质量预测控制方法及系统,基于历史数据库中记录的过程变量和铁水质量信息,采用支持向量机建立质量指标预测模型,通过非线性预测控制理论提出了相对于的控制器,实现对多元铁水质量的有效控制和优化。
但该专利建立的预测模型在动态炉况下会存在模型失配的问题,从而导致预测控制性能下降和控制系统不稳定,需要较长的时间收敛到稳态点。
公开号为CN 107390524B的发明专利公开了一种基于双线性子空间辨识的高炉铁水质量优化控制方法,采用双线性子空间辨识方法提出了一种高炉铁水质量指标在线预测模型,基于模型预测控制的框架,利用滚动预测和实时优化的核心思想实现了高炉铁水质量参数对设定期望值的快速跟踪。
但该发明采用的双线性子空间模型对高炉的非线性逼近能力有限,不能充分描述过程的非线性特点,且该模型也无法捕捉过程的动态性,动态的变化会导致模型的性能逐渐降低。
公开号为CN 109001979B的发明专利公开了一种基于懒惰学习的高炉铁水质量自适应鲁棒预测控制方法,利用懒惰学习从数据库中查询相似样本组成学习样本集,采用多输出最小二乘支持向量回归机建立局部预测器。根据未来输出期望值与经过多步校正后的预测值构建控制性能指标,通过序贯二次规划计算得到最优控制向量。
但该发明需要查询相似的样本构建数据集来实时训练数据模型,高炉的稳定顺行操作原则会使得波动炉况下的样本较少导致该情况下建立的模型精度欠佳,进而影响该情况下决策的可靠性。
综上所述,现有的高炉操作优化大部分是基于模型预测控制框架,而该方法的控制效果与建立的预测模型有直接的关系。矿源的不确定性和市场订单的动态变化可能导致数据驱动模型与实际高炉炼铁过程不匹配,从而导致控制器性能损失。此外,模型预测控制依靠准确和实时的数据进行预测和优化控制,高炉冶炼过程采集的数据包含的噪声是无法消除的,这也会影响控制器的性能。
发明内容
本发明提供的基于离线强化学习的高炉冶炼操作优化方法及系统,解决了现有高炉冶炼操作优化方法无法保证可靠性和安全性的技术问题。
为解决上述技术问题,本发明提出的基于离线强化学习的高炉冶炼操作优化方法包括:
获取高炉历史数据,建立专家数据库,高炉历史数据包括高炉状态数据和与高炉状态数据对应的动作数据。
基于DDPG算法,建立高炉冶炼操作优化模型,高炉冶炼操作优化模型包括评价网络和策略网络。
利用专家数据库输出的动作与策略网络输出的动作之间的差异构造安全信号。
根据安全信号和评价网络输出的状态-动作价值,获得策略网络的参数更新规则。
基于专家数据库和策略网络的参数更新规则训练高炉冶炼操作优化模型,利用训练好的高炉冶炼操作优化模型获得高炉冶炼优化操作。
进一步地,安全信号的具体公式为:
其中θt表示第t时刻策略网络的参数,lSLt)表示策略网络中安全信号指导的损失函数,K表示操作变量的维度,表示专家在第t时刻给出第K个操作变量的设定值,μθ,k(s)表示策略网络μθ(s)输出的第K个操作变量预测值,st表示第t时刻采集的状态向量,表示安全信号指导的损失函数在专家操作轨迹上的期望。
进一步地,评价网络包括:
第一评价网络和第二评价网络,且评价网络的输出为第一评价网络和第二评价网络输出的均值。
进一步地,策略网络的参数更新规则为:
其中θt+1和θt分别表示第t+1时刻和第t时刻策略网络的参数,α为学习率,λ表示权重因子,s为状态向量,a为操作向量,Qω(s,a)为评价网络的输出,为对Qω(s,a)中策略网络的参数求梯度,st为第t时刻的状态,μθ(st)为第t时刻策略网络输出的决策,K表示操作变量的维度,/>为采集的专家在第t时刻给出第K个操作变量的设定值,μθ,k(s)为策略网络μθ(s)输出的第K个操作变量预测值,/>为对策略网络的参数求梯度,μθ(s)表示由参数为θ的多层神经网络组成的策略网络。
进一步地,评价网络的输出计算公式为:
其中Qω(st,at)为评价网络的输出,st和at分别为t时刻的状态和策略网络输出的决策,和/>分别为第一评价网络和第二评价网络的输出。
进一步地,评价网络和策略网络的第一个全连接层均为长短期记忆单元。
进一步地,当评价网络和策略网络的第一个全连接层均为长短期记忆单元时,第t时刻的状态的计算公式为:
其中st为第t时刻的状态,ot表示第t时刻专家数据库中记录的状态变量,表示第t-1时刻专家数据库中记录的操作变量。
本发明提供的基于离线强化学习的高炉冶炼操作优化系统包括:
存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本发明提供的基于离线强化学习的高炉冶炼操作优化方法的步骤。
本发明提出了一种基于离线强化学习的高炉冶炼操作优化方法及系统,通过获取高炉历史数据,建立专家数据库,基于DDPG算法,建立高炉冶炼操作优化模型,利用专家数据库输出的动作与策略网络输出的动作之间的差异构造安全信号,根据安全信号和评价网络输出的状态-动作价值,获得策略网络的参数更新规则以及基于专家数据库和策略网络的参数更新规则训练高炉冶炼操作优化模型,利用训练好的高炉冶炼操作优化模型获得高炉冶炼优化操作,解决了强化学习应用在高炉冶炼操作优化上无法保证可靠性和安全性的技术问题,不需要任何数据模型或者机理模型作为支撑,基于专家操作轨迹训练的策略网络提供的决策方案能为炉长实现高炉精细化调控提供合理的操作指导与支持,保障高炉的顺行和提高铁水的质量。
本发明的有益效果具体包括:
(1)提出了基于离线强化学习的高炉冶炼操作优化方法,不需要任何的机理或数据模型,仅利用专家的操作轨迹训练策略网络给出调控方案,为保障炉况的顺行和铁水的质量提供备用解决方案。
(2)通过专家动作与策略网络动作的差异构造安全信号,基于安全信号和多元铁水质量奖赏信号协同训练策略网络获得决策长期收益最大化,该操作保障了策略网络决策的安全性和高回报性。
(3)改变了标准的DDPG算法对策略网络输出动作的评价标准,引入了2个评价网络同时预测状态-动作价值函数,并使用2个网络输出的均值作为最终评价指标,能有效的解决过高估计状态-动作价值函数的问题。
(4)利用长短期记忆网络汇总历史的状态和决策信息来表征当前的状态信息,该操作能模仿专家操作时对高炉冶炼信息汇总后进行决策,时序上更丰富的信息能帮助策略网络做出更符合现场实际情况的决策。
(5)通过发明的高炉冶炼操作优化方法,能为高炉炉长提供最优的决策支持,辅助炉长更好地精细化调控高炉。
附图说明
图1为本发明实施例二的高炉冶炼操作优化整体思路图;
图2为本发明实施例二的深度确定性策略梯度算法示意图;
图3为本发明实施例二的带有循环机制的离线强化学习示意图;
图4为本发明实施例三的基于不同方法测试样本回报;
图5为本发明实施例的基于离线强化学习的高炉冶炼操作优化系统的结构框图。
附图标记:
10、存储器;20、处理器。
具体实施方式
为了便于理解本发明,下文将结合说明书附图和较佳的实施例对本发明作更全面、细致地描述,但本发明的保护范围并不限于以下具体的实施例。
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一
本发明实施例一提供的基于离线强化学习的高炉冶炼操作优化方法,包括:
步骤S101,获取高炉历史数据,建立专家数据库,高炉历史数据包括高炉状态数据和与高炉状态数据对应的动作数据。
步骤S102,基于DDPG算法,建立高炉冶炼操作优化模型,高炉冶炼操作优化模型包括评价网络和策略网络。
步骤S103,利用专家数据库输出的动作与策略网络输出的动作之间的差异构造安全信号。
步骤S104,根据安全信号和评价网络输出的状态-动作价值,获得策略网络的参数更新规则。
步骤S105,基于专家数据库和策略网络的参数更新规则训练高炉冶炼操作优化模型,利用训练好的高炉冶炼操作优化模型获得高炉冶炼优化操作。
本发明实施例提供的基于离线强化学习的高炉冶炼操作优化方法,通过获取高炉历史数据,建立专家数据库,基于DDPG算法,建立高炉冶炼操作优化模型,利用专家数据库输出的动作与策略网络输出的动作之间的差异构造安全信号,根据安全信号和评价网络输出的状态-动作价值,获得策略网络的参数更新规则以及基于专家数据库和策略网络的参数更新规则训练高炉冶炼操作优化模型,利用训练好的高炉冶炼操作优化模型获得高炉冶炼优化操作,解决了强化学习应用在高炉冶炼操作优化上无法保证可靠性和安全性的技术问题,不需要任何数据模型或者机理模型作为支撑,基于专家操作轨迹训练的策略网络提供的决策方案能为炉长实现高炉精细化调控提供合理的操作指导与支持,保障高炉的顺行和提高铁水的质量。
实施例二
本发明实施例二提出了一种基于离线强化学习的高炉冶炼操作优化方法,,整体思路如图1所示,具体包括以下步骤:
(1)获取现场数据,并对数据进行预处理,包括异常值剔除、缺失值填补、均值化处理和标准化处理;
(2)通过专家动作与策略网络动作的差异构造安全信号,在策略网络的目标函数中同时考虑安全因素和回报奖励,基于安全信号和多元铁水质量奖赏信号协同训练策略网络获得决策长期收益最大化;
(3)引入2个评价网络同时预测状态-动作价值函数,并使用2个网络输出的均值作为策略网络的最终评价指标,解决训练不稳定和状态-动作价值函数过高估计的问题;
(4)替换策略网络和评价网络的第一个全连接层为长短期记忆单元,通过汇总历史的状态和决策信息来表征当前的状态信息,指导策略网络和评价网络给出更合理的预测输出;
(5)随机采样经验回放池中的操作轨迹训练离线强化学习框架,保存训练好的策略网络结构和参数,利用训练好的模型为炉长提供实时的操作优化决策辅助。
具体的实现方案如下:
(1)数据预处理
高炉历史数据库中记录的数据由于设备退化或者人工操作失误等多种原因会造成数据有误,因此,需要对数据进行相关预处理提高数据的准确度和可信度,具体步骤如下:
1)异常值处理
当高炉出现受高温高压、故障等以及高炉减风、休风等非正常生产的影响时,采集到的数据可能会偏离正常范围,另外,一些需要手工录入计算机中的数据也会由于人为失误造成数据异常,使用箱线图对异常值进行剔除。
2)缺失值处理
步骤1)删除的异常值,人工失误、休风以及设备故障等原因都会造成数据的缺失,若直接删除缺失值会丢失部分关键信息,因此应对缺失值进行相应的填补。假设第l时刻的数据缺失,利用该数据前一时刻xiq和后一时刻的数据xip进行估算:
3)均值化处理
高炉的状态变量和操作变量在历史数据库中的采样频率是秒级的,而对应的铁水质量信息(铁水温度,硅含量,硫含量,磷含量)只有出铁的时候才会进行离线检测,为了在时间戳上对状态变量、操作变量和铁水质量信息进行匹配,需要分别对这三个文件进行均值化处理再按时间戳进行配对。
4)标准化处理
现场采集的数据量纲相差较大,为消除量纲大的数据对模型产生的较大的影响,需要对过程数据进行标准化处理。需要注意的是这里只标准化处理状态变量和操作变量。
(2)基于安全信号和多元铁水质量奖赏信号协同训练的强化学习
深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)是一种被广泛应用的强化学习算法,主要用于解决连续动作空间的问题。它将深度学习应用于确定性策略优化,其模型框架如图2所示。DDPG算法主要由策略网络和评价网络组成。策略网络μθ(s)由参数为θ的多层的神经网络组成,接收当前状态st=(st,1,st,2,…,st,n)作为输入,输出一个确定性的动作at=μθ(st),为了评价该策略网络的输出动作的价值,将策略网络输出的动作at和当前的状态st输入到评价网络中得到一个预测的状态-动作价值Qω(st,at),其中评价网络由参数为ω的多层的神经网络组成。策略网络的目标就是使得输出的动作能获得尽量高的价值,其优化目标为:
为了达到这个目标,采用梯度上升的方法更新策略网络的参数,即:
其中,θ是只与策略网络有关的参数,因此偏导部分计算如下:
考虑到随机初始化的评价网络在初期会对策略网络输出动作进行随机评价,为了使评价与真实情况接近,评价网络的训练引入了时序差分(Temporal Differencelearning,TD)作为模型的损失函数。为了达到这一目的,引入了目标策略网络和目标评价网络,这两个网络是策略网络和评价网络的备份。具体来说,TD误差是当前状态下执行动作获得的即时回报加上下一状态的期望回报(也就是评价网络对下一状态的Q值)与当前状态下执行动作的Q值之差。TD误差可以表示为:
其中和/>是对应的目标策略网络和目标评价网络,/>是采集的专家轨迹中真实采取的动作,γ是折扣因子。为了最小化TD误差,采用梯度下降的方法更新评价网络的参数,即:
假设偏导部分/>计算如下:
将公式(7)带入公式(6)中,得到评价网络的最终更新规则如下:
标准的强化学习在训练的过程中为了追求最大的回报会给出危险的决策,为了对策略网络的动作进行限制,本专利利用专家动作与策略网络动作的差异构造安全信号来共同指导策略网络的学习。这是因为专家操作的第一准则是保证高炉冶炼的稳定顺行,其次才是提高铁水的质量,专家的决策可能不是最优的但安全性能是有保障的。因此,安全信号主要是考虑策略网络输出的动作跟实际专家动作之间的距离,其定义如下:
其中θt表示第t时刻策略网络的参数,lSLt)表示策略网络中安全信号指导的损失函数,K表示操作变量的维度,表示专家在第t时刻给出第K个操作变量的设定值,μθ,k(s)表示策略网络μθ(s)输出的第K个操作变量预测值,st表示第t时刻采集的状态向量,表示安全信号指导的损失函数在专家操作轨迹上的期望。为了达到最小化差异的目标,采用梯度下降的方法更新策略网络的参数,即:
其中偏导部分计算如下:
在考虑了操作的安全性能之后,策略网络的优化目标应该兼顾两个方面,即:最大化期望回报和最小化策略网络输出与专家决策之间的差异。考虑了安全信号和奖励信号的优化目标如下:
ltotalt)=(1-λ)lRLt)+λ(-SLt)) (12)
其中λ是用来平衡这两个任务的权重因子,安全信息引导的损失函数取了一个负号为了达到最大化(差异最小化)整体损失的目的。将公式(4)和公式(11)带入公式(12)中,得到策略网络的最终更新规则如下:
其中θt+1和θt分别表示第t+1时刻和第t时刻策略网络的参数,α为学习率,λ表示权重因子,s为状态向量,a为操作向量,Qω(s,a)为评价网络的输出,为对Qω(s,a)中策略网络的参数求梯度,st为第t时刻的状态,μθ(st)为第t时刻策略网络输出的决策,K表示操作变量的维度,/>为采集的专家在第t时刻给出第K个操作变量的设定值,μθ,k(s)为策略网络μθ(s)输出的第K个操作变量预测值,/>为对策略网络的参数求梯度,μθ(s)表示由参数为θ的多层神经网络组成的策略网络。
此外,考虑到传统的DDPG算法中评价网络训练容易震荡和过高估计状态-动作价值函数的问题,本发明实施例提出使用2个随机初始化的评价网络输出的均值来评价同一状态下采取相同动作的价值函数,即:
假设那么对应的2个评价网络的参数更新规则如下:
对应目标策略网络和目标评价网络的软更新策略如下:
θtar←τθ+(1-τ)θtar (19)
其中τ为更新步长。
(3)引入循环机制的离线强化学习操作优化模型
高炉冶炼过程由于冶炼环境的恶劣和复杂(高温,高压,强辐射),使得某些状态变量无法被检测或者检测成本和技术要求极高,导致现有的状态变量无法完全表征高炉的冶炼状态,为此需要设计合适的策略来利用当前的可观测状态和历史信息尽可能地推测未观测的状态信息,从而做出最优的决策。炉长在做出决策之前,不仅会考虑当前时刻高炉的冶炼状态,还会结合前几个时刻的冶炼状态和决策给出当前时刻的操作策略。为了模仿炉长的调控行为,我们引入了具有记忆性和递归性长短期记忆网络从时序上汇总历史的状态和决策信息。
由于历史数据库中没有记录完备的高炉冶炼状态变量,我们使用ot来表示在第t时刻数据库中记录的状态变量,为了达到μθ(ot)≈μθ(st)和Qω(ot,at)≈Qω(st,at)的目的,将策略网络和评价网络的第一个全连接层替换为长短期记忆单元,且模型的输入需要整合更多历史时刻的状态和决策信息,即:
带有循环机制的离线强化学习框架如图3所示,需要注意的是策略网络跟评价网络输入的状态变量引入了以前的状态和操作信息,因此,网络参数采用时域反向传播的方式更新,策略网络的更新规则为:
同样的道理,2个评价网络的更新规则为:
(4)基于离线强化学习的高炉冶炼操作优化
为了提高强化学习的稳定性和收敛速度,将预处理好的数据按专家操作的规则存储在经验回放池中,训练过程随机采样减少样本之间的相关性和提高数据的多样性。炉长调控冶炼参数的过程是一个明显的序列决策的过程,即,炉长观察到高炉的冶炼状态基于多年累积的经验给出一个决策/>此时根据铁水质量信息得到的回报记为rt,并转移到下一个状态st+1,对应的专家操作轨迹为/>
铁水质量信息是衡量专家操作“好”或者“坏”的重要指标,因此需要基于炉长经验对铁水质量进行等级划分,并给出一个综合评价体系。基于铁水质量指标计算出每个操作的回报后,训练强化学习的样本集就准备完成了,考虑到炉长都是按班次对高炉进行操作,因此选择一个班次(8个小时)内的数据组成一个回合,为了提高数据的利用效率,采用长度为8,步长为1的滑动窗口截取操作轨迹,即:将准备好的轨迹存储在经验回放区便于后续的训练。
模型训练好后,只需要保存策略网络μθ(s)的相关参数和网络结构。在线测试时,只需要给模型提供当前的状态变量和前期状态变量和操作变量信息,就能提供实时的操作策略。
本发明实施例以高炉冶炼过程为研究对象,提出了一种基于离线强化学习的高炉冶炼操作优化方法。标准强化学习需要与环境进行实时地探索和试错来学习最优策略,出于高炉冶炼的安全性考虑,模型的训练仅依靠离线的专家操作轨迹。为了保证策略网络输出动作的安全性,基于专家动作与策略网络动作的差异构造安全信号,利用安全信号和多元铁水质量奖赏信号协同训练策略网络获得决策长期收益最大化,并采用2个评价网络输出的均值来缓解传统DDPG算法中状态-动作价值函数过高估计的问题。此外,为了解决传感器的限制导致高炉冶炼状态部分可观测问题,提出了使用具有记忆性和递归性长短期记忆网络从时序上汇总历史的状态和决策信息来表征当前的状态,更完备的信息能更好的辅助策略网络做出符合现场实际情况的决策。本发明提出的高炉冶炼操作优化方法不需要任何数据模型或者机理模型作为支撑,基于专家操作轨迹训练的策略网络提供的决策方案能为炉长实现高炉精细化调控提供合理的操作指导与支持,保障高炉的顺行和提高铁水的质量。
实施例三
本实施例以某炼铁厂中的2650m3大型高炉进行验证。
一种基于离线强化学习的高炉冶炼操作优化方法,具体包括如下步骤:
1)数据预处理。将高炉检测装置上的采集来的数据进行相关处理提高数据的质量,具体包括异常值剔除、缺失值填补、均值化处理和标准化处理。
2)回报函数的设计。为了评价多元铁水质量信息(铁水温度,硅含量,硫含量,磷含量),根据现场专家经验将铁水质量指标进行等级划分,其详细信息如表1所示:
表1:铁水质量指标等级划分规则表
根据不同的划分等级对应的回报定义如下:
考虑到铁水的质量需要综合考虑多个指标之间的影响,基于专家经验的定量的评价规则如公式(25)所示:
其中q1,q2,q3,q4分别代表铁水温度,硅含量,硫含量,磷含量的回报,w1,w2,w3,w4是基于专家经验给出的权重。
3)基于离线强化学习的高炉冶炼操作优化方法。本专利的策略网络结构为输入层-LSTM层-全连接层-输出层,其神经元个数和激活函数为:33-256-128(R)-3(S)。2个评价网络的结构为输入层-LSTM层-全连接层-输出层,其神经元个数和激活函数为:36-256-128(R)-1(S)。对应的目标策略网络和目标评价网络的结构与对应的策略网络和评价网络相同。经过处理后的5882条轨迹用于训练离线强化学习框架,100条轨迹用于测试模型效果。为了定量评价训练后的策略网络输出的决策的可信度,将策略网络输出的决策向量与对应的状态向量输入到前期工作建立的多元铁水质量参数预报模型中,并根据表1的规则统计对应的回报。为了评价模型给出操作策略的安全性,我们以专家经验为基准,以均方误差(mean squared error,MSE)为衡量标准,计算策略网络提供的决策与专家经验给出的决策之间的差异。需要指出的是决策变量都进行了归一化处理来消除量纲的影响,详细结果如表2所示:
表2:不同决策方法的性能指标
方法 专家操作 离线强化学习
平均回报 1.9410 2.1160
MSE 0 0.0281
从表2可以看出本专利提出的方法在测试集上比专家操作能获得更高的平均回报,且与专家操作的差异较小,这说安全信号和循环机制的引入能指导策略网络给出的动作有更好的回报和更低的风险。为了展示更详细的信息,图4给出了测试样本的回报详情,可以看出在大部分情况下,本发明实施例提出的方法能获得优于专家操作的回报,这也进一步说明了基于离线强化学习的决策方法在高炉冶炼操作优化上的可行性。
本发明实施例旨在提出一种基于离线强化学习的高炉冶炼操作优化方法。考虑到高炉安全性操作要求使得无法满足标准强化学习与环境进行交互来学习最优策略网络的问题,提出了基于离线强化学习的高炉冶炼操作优化方法。具体来说,标准强化学习通过最大化期望奖励的训练方式并不能保证学习到的策略的可靠性和安全性,这是因为智能体为了获得更高的奖励往往会给出偏离安全范围的动作进行随机探索,而这在实际工业过程是不被允许的,不恰当的操作轻则会影响铁水的质量,重则会造成重大的安全事故。因此,本发明实施例利用专家动作与策略网络动作的差异构造安全信号,基于安全信号和多元铁水质量奖赏信号协同训练策略网络获得决策长期收益最大化,此外考虑到高炉环境的限制导致现有的传感器采集的变量无法完全表征冶炼状态,利用长短期记忆网络汇总历史的状态和决策信息来解决状态部分可观测下的决策建模问题。本发明实施例的目的在于利用专家操作的轨迹,训练一个策略网络模型为高炉的冶炼提供最优的决策支持。
本发明实施例以高炉冶炼过程为研究对象,提出了一种基于离线强化学习的高炉冶炼操作优化方法。标准强化学习需要与环境进行实时地探索和试错来学习最优策略,出于高炉冶炼的安全性考虑,模型的训练仅依靠离线的专家操作轨迹。为了保证策略网络输出动作的安全性,基于专家动作与策略网络动作的差异构造安全信号,利用安全信号和多元铁水质量奖赏信号协同训练策略网络获得决策长期收益最大化,并采用2个评价网络输出的均值来缓解传统DDPG算法中状态-动作价值函数过高估计的问题。此外,为了解决传感器的限制导致高炉冶炼状态部分可观测问题,提出了使用具有记忆性和递归性长短期记忆网络从时序上汇总历史的状态和决策信息来表征当前的状态,更完备的信息能更好的辅助策略网络做出符合现场实际情况的决策。本发明实施例提出的高炉冶炼操作优化方法不需要任何数据模型或者机理模型作为支撑,基于专家操作轨迹训练的策略网络提供的决策方案能为炉长实现高炉精细化调控提供合理的操作指导与支持,保障高炉的顺行和提高铁水的质量。
参照图5,本发明实施例提出的基于离线强化学习的高炉冶炼操作优化系统,包括存储器10、处理器20以及存储在存储器10上并可在处理器20上运行的计算机程序,其中,处理器20执行计算机程序时实现本实施例提出的基于离线强化学习的高炉冶炼操作优化方法的步骤。
本实施例的基于离线强化学习的高炉冶炼操作优化系统的具体工作过程和工作原理可参照本实施例的基于离线强化学习的高炉冶炼操作优化方法的工作过程和工作原理。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于离线强化学习的高炉冶炼操作优化方法,其特征在于,所述方法包括:
获取高炉历史数据,建立专家数据库,所述高炉历史数据包括高炉状态数据和与高炉状态数据对应的动作数据;
基于DDPG算法,建立高炉冶炼操作优化模型,所述高炉冶炼操作优化模型包括评价网络和策略网络;
利用专家数据库输出的动作与策略网络输出的动作之间的差异构造安全信号;
根据安全信号和评价网络输出的状态-动作价值,获得策略网络的参数更新规则;
基于专家数据库和策略网络的参数更新规则训练高炉冶炼操作优化模型,利用训练好的高炉冶炼操作优化模型获得高炉冶炼优化操作。
2.根据权利要求1所述的基于离线强化学习的高炉冶炼操作优化方法,其特征在于,所述安全信号的具体公式为:
其中θt表示第t时刻策略网络的参数,lSLt)表示策略网络中安全信号指导的损失函数,K表示操作变量的维度,表示专家在第t时刻给出第K个操作变量的设定值,μθ,k(s)表示策略网络μθ(s)输出的第K个操作变量预测值,st表示第t时刻采集的状态向量,/>表示安全信号指导的损失函数在专家操作轨迹上的期望。
3.根据权利要求2所述的基于离线强化学习的高炉冶炼操作优化方法,其特征在于,所述评价网络包括:
第一评价网络和第二评价网络,且所述评价网络的输出为第一评价网络和第二评价网络输出的均值。
4.根据权利要求1-3任一所述的基于离线强化学习的高炉冶炼操作优化方法,其特征在于,所述策略网络的参数更新规则为:
其中θt+1和θt分别表示第t+1时刻和第t时刻策略网络的参数,α为学习率,λ表示权重因子,s为状态向量,a为操作向量,Qω(s,a)为评价网络的输出,为对Qω(s,a)中策略网络的参数求梯度,st为第t时刻的状态,μθ(st)为第t时刻策略网络输出的决策,K表示操作变量的维度,/>为采集的专家在第t时刻给出第K个操作变量的设定值,μθ,k(s)为策略网络μθ(s)输出的第K个操作变量预测值,/>为对策略网络的参数求梯度,μθ(s)表示由参数为θ的多层神经网络组成的策略网络。
5.根据权利要求4所述的基于离线强化学习的高炉冶炼操作优化方法,其特征在于,所述评价网络的输出计算公式为:
其中Qω(st,at)为评价网络的输出,st和at分别为t时刻的状态和策略网络输出的决策,和/>分别为第一评价网络和第二评价网络的输出。
6.根据权利要求5所述的基于离线强化学习的高炉冶炼操作优化方法,其特征在于,所述评价网络和策略网络的第一个全连接层均为长短期记忆单元。
7.根据权利要求6所述的基于离线强化学习的高炉冶炼操作优化方法,其特征在于,当所述评价网络和策略网络的第一个全连接层均为长短期记忆单元时,第t时刻的状态的计算公式为:
其中st为第t时刻的状态,ot表示第t时刻专家数据库中记录的状态变量,表示第t-1时刻专家数据库中记录的操作变量。
8.一种基于离线强化学习的高炉冶炼操作优化系统,所述系统包括:
存储器(10)、处理器(20)以及存储在存储器(10)上并可在处理器(20)上运行的计算机程序,其特征在于,所述处理器(20)执行所述计算机程序时实现上述权利要求1至7任一所述方法的步骤。
CN202310398123.4A 2023-04-14 2023-04-14 一种基于离线强化学习的高炉冶炼操作优化方法及系统 Pending CN116562127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310398123.4A CN116562127A (zh) 2023-04-14 2023-04-14 一种基于离线强化学习的高炉冶炼操作优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310398123.4A CN116562127A (zh) 2023-04-14 2023-04-14 一种基于离线强化学习的高炉冶炼操作优化方法及系统

Publications (1)

Publication Number Publication Date
CN116562127A true CN116562127A (zh) 2023-08-08

Family

ID=87490732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310398123.4A Pending CN116562127A (zh) 2023-04-14 2023-04-14 一种基于离线强化学习的高炉冶炼操作优化方法及系统

Country Status (1)

Country Link
CN (1) CN116562127A (zh)

Similar Documents

Publication Publication Date Title
CN108764517B (zh) 一种高炉铁水硅含量变化趋势预测方法、设备和存储介质
Chai et al. Optimal operational control for complex industrial processes
US11755976B2 (en) Method for predicting oxygen load in iron and steel enterprises based on production plan
CN111949700B (zh) 用于石化装置的智能安全保障实时优化方法及系统
CN106249724B (zh) 一种高炉多元铁水质量预测控制方法及系统
CN108676955A (zh) 一种转炉炼钢终点碳含量和温度控制方法
CN107368125B (zh) 一种基于cbr与rbr并行混合推理的高炉炉温控制系统及方法
CN113536670B (zh) 一种群体产品剩余寿命预测的联邦迁移学习方法
CN103246801B (zh) 一种基于改进案例推理的竖炉炉况故障预报方法
CN110874616A (zh) 基于lstm网络与马尔科夫链修正误差的变压器运行预测方法
Wu et al. Integrated soft sensing of coke-oven temperature
CN111537888A (zh) 一种数据驱动的梯次电池soc预测方法
CN111340269B (zh) 用于流程工业过程的实时优化方法
CN111290282B (zh) 火电机组协调系统的预见式预测控制方法
CN107706938B (zh) 一种基于分位点回归的风电功率波动区间分析方法
An et al. Two-layer fault diagnosis method for blast furnace based on evidence-conflict reduction on multiple time scales
CN113536671B (zh) 一种基于lstm的锂电池寿命预测方法
Chen et al. A semi-supervised linear-nonlinear prediction system for tumbler strength of iron ore sintering process with imbalanced data in multiple working modes
CN112819224B (zh) 基于深度学习融合模型的机组出力预测及置信评估方法
CN116562127A (zh) 一种基于离线强化学习的高炉冶炼操作优化方法及系统
KR20200013143A (ko) 고로의 용선온도 예측 장치 및 방법
Xinqing et al. A neurofuzzy approach for the anticipatory control of complex systems
CN116258266A (zh) 一种管理环保设备的方法、系统、设备及介质
CN115441475A (zh) 一种电网输电线路功率紧急控制方法
CN112182854B (zh) 一种高炉异常炉况智能监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination