CN110187727B - 一种基于深度学习和强化学习的玻璃熔炉温度控制方法 - Google Patents
一种基于深度学习和强化学习的玻璃熔炉温度控制方法 Download PDFInfo
- Publication number
- CN110187727B CN110187727B CN201910522327.8A CN201910522327A CN110187727B CN 110187727 B CN110187727 B CN 110187727B CN 201910522327 A CN201910522327 A CN 201910522327A CN 110187727 B CN110187727 B CN 110187727B
- Authority
- CN
- China
- Prior art keywords
- temperature
- model
- furnace
- oxygen
- natural gas
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000011521 glass Substances 0.000 title claims abstract description 25
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000002844 melting Methods 0.000 title claims abstract description 18
- 230000008018 melting Effects 0.000 title claims abstract description 18
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 claims abstract description 74
- 239000001301 oxygen Substances 0.000 claims abstract description 45
- 229910052760 oxygen Inorganic materials 0.000 claims abstract description 45
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims abstract description 44
- 239000003345 natural gas Substances 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 39
- 238000004088 simulation Methods 0.000 claims abstract description 13
- 239000000446 fuel Substances 0.000 claims abstract description 12
- 230000008859 change Effects 0.000 claims abstract description 11
- 238000003723 Smelting Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 26
- 238000004519 manufacturing process Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 239000007788 liquid Substances 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 239000002994 raw material Substances 0.000 claims description 3
- 230000001932 seasonal effect Effects 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 2
- 239000007789 gas Substances 0.000 claims description 2
- 238000000889 atomisation Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000002485 combustion reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D23/00—Control of temperature
- G05D23/19—Control of temperature characterised by the use of electric means
- G05D23/30—Automatic controllers with an auxiliary heating device affecting the sensing element, e.g. for anticipating change of temperature
- G05D23/32—Automatic controllers with an auxiliary heating device affecting the sensing element, e.g. for anticipating change of temperature with provision for adjustment of the effect of the auxiliary heating device, e.g. a function of time
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种基于深度学习和强化学习的玻璃窑炉温度控制方法,用于以天然气和氧气为燃料的全氧玻璃窑炉熔炉,建立温度仿真模型和温度控制模型,通过调节燃料阀门,使熔窑温度保持稳定;通过传感器收集窑炉各关键位点的温度、氧气流量、天然气流量、天然气阀门开度、天然气阀门开度和窑炉压力,使用深度神经网络,建立窑炉温度仿真模型,用来对窑炉温度变化环境进行仿真;基于深度学习和强化学习建立窑炉温度控制模型,利用建立好的两个模型,根据当前熔炉状态,实时输出天然气和氧气阀门应该采取的偏移量。并利用历史窑炉数据,对温度仿真模型和温度控制模型进行在线或周期性更新,以达到精准温度控制。
Description
技术领域
本发明涉及玻璃熔炉的温度智能控制技术领域,特别涉及一种基于深度学习和强化学习的玻璃熔炉温度控制方法。
背景技术
玻璃熔窑的生成过程兼具大量的物理反应和化学反正,若要对此建模,将会是一个复杂的拥有多分布参数的非线性系统,并且过程非常困难,因此难以精确地进行控制。当前我国玻璃熔窑控制各参数的方法是单回路PID控制,PID表示比例-积分-微分控制器。传统的PID控制器由于其对线性系统的有效性,易于设计和成本低廉而广泛用于工业。Yamamoto和Hashimoto在1991年报道,例如在日本,所有控制回路中有90%以上是PID型的。传统的PID控制器虽然对线性系统有效,但不适用于非线性、高阶和时滞系统。由于这些原因,许多研究人员试图将传统的PID控制器与模糊逻辑控制器(Fuzzy Logic Controller,FLC)相结合,以实现比传统的PID控制器更好的系统性能。Jianling Q和Zhenjie D等人如法炮制,将模糊PID控制法应用在玻璃熔炉的温度控制系统上,并通过实验证明FLC系统确实能为玻璃熔炉提高高质量的生产,减轻劳动者的劳动强度。Sardeshpande V等人使用质量、能量平衡,以及不同区域的热损失方程和基于操作实践的经验公式来开发玻璃熔炉的仿真模型。该模型与印度末端工业玻璃熔炉的现场数据进行核对,能够计算给定炉子设计的能量性能。模型结果显示了如此改进的潜力以及不同的运营和设计偏好对具体能源消耗的影响。在实际生产规模下运行的熔炉具有大概20%-25%的能耗降低潜力。
受过去落后的生产技术影响,传统的玻璃生产过程存在着诸多弊端,因此有学者在解决蓄热式马蹄焰玻璃熔炉生产问题时,基于现场总线技术,引入神经网络控制算法,实现了对生产过程的实时监控、分析和优化。人工神经网络本质上是并行的,并且由于其具有学习非线性关系的能力而有很大的应用前景。从理论上讲,它不需要对系统的先验知识,从而绕开了第一原理建模的困难。Kumaran Rajarathinam等人实现了一个使用人工神经网络的决策支持系统,称为“FUNN”(使用神经网络的熔炉处理系统),它具有处理模型识别、设定点控制和解释输入因子等功能。
但是,现有的使用的这些神经网络方法主要有以下两点弊端,不适应工业化生产的需求:
一是不能处理大规模复杂的窑炉环境。神经网络的结构太单一,深度不够,导致模型对环境预测和决策控制的拟合能力不够,即深度学习中的欠拟合问题突出。
二是模型不能适应环境随时间产生的概念漂移(concept drift)。而本专利提出的方法,能在线实时学习更新模型,克服概念漂移问题。
发明内容
本发明要解决的技术问题,在于提供一种基于深度学习和强化学习的玻璃熔炉温度控制方法,自动实时给出燃料阀门开度调节策略,将熔炉温度稳定在设定值附近。同时能解决人工调节不及时不准确等问题。
本发明解决其技术问题所采用的技术方案是一种基于深度学习和强化学习的玻璃窑炉温度控制方法,用于以天然气和氧气为燃料的全氧玻璃窑炉熔炉,建立温度仿真模型和温度控制模型,通过调节燃料阀门,使熔窑温度保持稳定;
基于深度学习的窑炉温度模型建立过程为,通过传感器收集窑炉各关键位点的温度、氧气流量、天然气流量、天然气阀门开度、天然气阀门开度和窑炉压力,作为深度神经网络的输入,以预测未来某时间段的温度趋势;将未来某时间段的实际温度作为神经网络输出的标签值,通过损失函数,反向传播更新神经网络的参数;
基于深度学习和强化学习的窑炉温度控制模型建立过程为,将窑炉环境的关键变量,输入深度强化学习模型,输出燃料阀门开度的偏移量;将开度偏移量和当前窑炉环境的关键变量输入温度模型,预测未来温度变化趋势;根据预测的温度趋势和温度设定值的差值,建立温度控制模型的损失函数;通过反向传播的方法,更新模型参数;所述窑炉环境的关键变量包括温度变化趋势、氧气流量、氧气开度、天然气流量、天然气开度和温度设定值。
而且,选择长短时双向循环神经网络作为深度神经网络。
而且,传感器数据采集频率为10秒/次~300秒/次的固定频率。
而且,温度采集包括采用温度传感器和红外摄像机,红外摄像机从熔炉的6个方向拍摄获取区域温度。
而且,采集熔窑顶部和底部关键位置的温度和窑压。
而且,采用在线学习方式,通过实时收集的数据,增量实时在线更新模型,以适应季节变化、窑炉损耗变化和原料变化因素带来的模型偏移。
本发明和现有技术的区别以及相应产生的技术效果是:
1)对于不同工厂不同生产线的窑炉环境,都能做到很好的预测和控制。半小时内的温度预测温度误差在6摄氏度以内,10分钟内预测误差在2摄氏度以内。
2)能在线实时学习更新模型,克服概念漂移问题。
附图说明
图1为本发明实施例的熔炉温度仿真模型使用的神经网络结构图。
图2为本发明实施例的温度控制模型的网络结构示意图,其中玻璃熔炉在实现过程中代表图1的温度仿真模型。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
本发明提供一种基于深度学习和强化学习的窑炉温度控制方法,根据各关键温度点的设定值,调节窑炉氧气和天然气的阀门开度,使得窑炉温度环境保持稳定。本方法根据窑炉历史温度、压力、天然气和氧气流量、各阀门开度等关键特征量,使用深度神经网络,建立窑炉温度仿真模型,用来对窑炉温度变化环境进行仿真。基于温度仿真模型,根据当前窑炉温度、压力、燃料浓度等实时环境,结合深度神经网络和强化学习算法,建立窑炉温度控制模型。利用建立好的两个模型,根据当前熔炉状态,实时输出天然气和氧气阀门应该采取的偏移量。并利用历史窑炉数据,对温度仿真模型和温度控制模型进行在线或周期性更新,以达到精准温度控制。
本专利的玻璃窑炉温度控制方法,用于以天然气和氧气为燃料的全氧玻璃窑炉熔炉,其设备主要包括天然气和氧气的输送液压装置、燃烧枪、多点位的温度传感器、窑压传感器、流量传感器等。具体实施时,可直接基于现有设备长时间采集窑底玻璃液面温度、碹顶温度、吊墙温度、水包温度、烟道温度、天然气流量、天然气阀门开度、天然气阀门设定值、氧气流量、氧气阀门开度、氧气阀门设定值、窑压等。还可以在传统的温度传感器基础上,加入红外摄像机,从熔炉的6个方向拍摄获取区域温度。
本发明实施例中,首先根据长期采集的窑炉环境数据建立基于深度学习的窑炉温度模型,用来进行窑炉温度环境仿真。然后基于温度仿真模型建立基于深度学习和强化学习的窑炉温度控制模型。实施例中,提供基于深度学习的窑炉温度模型建立方法具体是:
1)通过传感器收集熔炉各关键位点的温度T,氧气流量Qo,天然气流量Qg,氧气阀门开度So,天然气阀门开度Sg,窑炉压力P。各关键位点的温度T可包括传感器采集的采集窑底玻璃液面温度、碹顶温度、吊墙温度、水包温度、烟道温度和红外摄像机采集的区域温度。具体实施时,为了降低模型复杂度,可选择只利用碹顶温度和窑底温度等关键点温度进行仿真建模。
传感器数据采集频率可为10秒/次~300秒/次的固定频率。推荐采集频率不低于每分钟一次,优选是每10秒一次。将这些关键量作为深度神经网络的输入。以预测未来某时间段(例如半小时)的温度趋势。将未来半小时的温度作为神经网络输出的标签值(GroundTruth),通过损失函数,反向传播更新神经网络的参数。
2)数据预处理阶段:如果有数据丢失,超过3个及以上的连续丢失数据,则应该放弃该时段的样本,否则应该用算法进行缺失值填充。通过高斯滤波方法,删除噪声数据,这些数据可能是由于传感器采集等原因造成的。
3)将采集的数据传入具有输入层、隐藏层和输出层的RNN结构,其中RNN表示循环神经网络。如图1所示,隐藏层包括后向反馈层和前向反馈层,隐藏层中的节点是全联接状态,隐藏层的输出也是在下一时刻隐藏层的输入。图1中,所有的箭头都表示数据传输方向,圆圈表示计算单元,指向圆圈的箭头所代表的值表示这个计算单元的输入,离开圆圈的箭头表示这个计算单元的输出。他的输出可能被多个下一个计算单元利用。xt是在第t时刻的输入,代表第t时刻熔炉各关键位点的温度T,氧气流量Qo,天然气流量Qg,氧气阀门开度So,天然气阀门开度Sg,窑炉压力P等。yt是在第t时刻的输出,对应预测的未来某时刻的温度值,ht是在第t时刻隐藏层的状态。相应的,相应上标t-1和t+1用于标识第t-1时刻、第t+1时刻的相应变量。给定一个输入序列x=(x0,…,xN-1),一个循环层的隐藏状态h=(h0,…,hN-1),那么一个单一隐藏层RNN的输出y=(y0,…,yN-1)能根据下式推导:
ht=H(Wxhxt+Whhht-1+bn)
yt=O(Whoht+bo)
其中,N为预设的序列长度,具体实施时,可根据任务需要设置取值。
这里Wxh,Whh,Who分别表示从输入层x到隐藏层h,隐藏层h到自己和隐藏层到输出层y的连接权重。bh和bo是两个偏置矢量。H()和O()分别是隐藏层和输出层的激活函数。
基于以上基于深度学习的窑炉温度模型,设计该深度神经网络的损失函数为
其中yt表示预测的t+1时刻的温度,xt+1表示t+1时刻的真实温度。通过该损失函数,反向更新窑炉温度模型,完成模型的训练。
更进一步地,这里的RNN结构采用双向循环长短时神经网络更佳。双向循环长短时神经网络是为了充分利用序列中每个点的过去和未来的上下文信息,Schuster和Paliwal提出了双向循环神经网络(Bidirectional Recurrent Neural Network,BRNN),它将序列向前和向后呈现为两个分离的循环隐藏层。这两个循环隐藏层共享同一个输出层。BRNN的结构如图1所示。只需要将图中的非线性单元替换为LSTM模块(Longshort-term Memory,长短时循环神经网络),可以得到LSTM-BRNN。
实施例中,窑炉温度控制模型建立实现方式为,将温度变化趋势、氧气流量、氧气开度、天然气流量、天然气开度和温度设定值等相关反应窑炉环境的关键变量,输入深度强化学习模型,模型输出推荐的氧气和天然气阀门开度的偏移量。将开度偏移量和当前窑炉环境的关键变量输入温度模型,预测未来温度变化趋势。根据预测的未来温度和实际温度设定值的差值建立温度控制模型的损失函数。通过反向传播的方法,更新模型参数。
实时计算氧气和天然气阀门调整偏移量的计算方式如下。
使用深度学习和强化学习,即深度强化学习模型,建立温度控制模型有三个基本要素,即状态,动作和奖励。状态表示一切能描述产线生产状态的监测量,如熔窑温度、熔窑压力、雾化气压力等;动作表示能真正控制生产线的控制器,如窑温、窑压对应的控制量。在定义评估系统运行好坏的奖励函数奖励时,由于工艺专家设定了每个点,如温度等的标准值,即传感器标识为“SL”的值,SL表示设定值。本发明将计算各点实际值与标准值的差值,以差值的均方差的负数为最终奖励值,公式如下:
实施例的窑炉温度控制模型采用DDPG方式实现。整个DDPG程序过程如图2所示。其中,DDPG表示Deep Deterministic Policy Gradient,深层确定性策略梯度网络。设Actor网络(动作网络)是一个参数为θμ和θμ′的DNN,评价网络是另一个参数为θQ和θQ′的DNN。这些参数可以随机0-1初始化或全0初始化,模型训练的过程中会不断更新这些参数。其中,DDN表示深度神经网络。为便于实施参考起见,提供实施例中DDPG算法流程如下:
[1]初始化熔炉环境St并输入到动作网络。
[2]动作网络接收状态St作为输入,经过计算后产生一个推荐动作at作为输出并将其返回到熔炉环境:
at=μ(st|θμ)
其中,函数μ()代表动作网络的功能,其中θμ是神经网络的参数。
[3]熔炉采取步骤[2]中的推荐动作,产一个奖励rt并到达下一个状态st+1,将元组<st,at,rt,st+1>存储到记忆池M中,记为M(st,at,rt,st+1)。
[4]在记忆池中,随机选取一批N条元组,使用元组来学习策略。
其中,N表示预设的数量,具体实施时,可取64或128。
[5]按下式计算损失函数(如TD误差,其中TD表示时间差分):
其中,
L为损失函数,
N为计算损失的样本数量;
si和ai就是内存池中的状态和动作变量;
i为从记忆池中取的元组的序号,取值为1到N;
Q()为评价网络,输入si,ai|θQ是状态和在该状态下采取的动作,输出是采取这个策略的收益;
ri为奖励值,是在某个状态下采取某个动作后,环境直接反馈的奖励值,具体实施时用户可以预设奖励函数;
γ为0-1的系数,一般取0.9或0.8。也有策略是根据训练情况动态选择。
μ′()表示正在训练的动作网络,Q′()表示正在训练的评价网络。
[6]通过最小化损失函数L来更新评价网络。
[7]使用确定性策略梯度定理来更新动作网络:
其中,
s表示状态值;
a表示动作值;
以上动作网络和评价网络都是采用本发明设计的双向循环-长短时循环神经网络。
在模型训练完成后,最终输出的推荐动作at,以指令形式传到天然气和氧气的控制阀门上。实际生产中,氧气和天然气燃烧按固定比例可达到燃烧最优。所以一般是直接控制氧气的阀门,天然气阀门可以选择直接按照理论最优比例跟随氧气阀门的值。
一般情况下,都是离线把模型训练好,神经网络的参数是固定不变的,直接利用训练好的模型做计算。而本发明提出的策略是,模型在使用的时候,参数仍然不是固定的,例如当检测到最近几小时的数据分布发生较大变化,则开始训练改变神经网络参数,在线训练好后直接投入使用,不用停机。
具体实施时,可采用在线学习方式,通过实时收集的数据,增量实时在线更新模型,以适应季节变化、窑炉损耗变化和原料变化等因素带来的模型偏移。可采用软件技术实现本方法的自动运行,运行本方法的装置也应当在本发明的保护范围内。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (1)
1.一种基于深度学习和强化学习的玻璃熔炉温度控制方法,用于以天然气和氧气为燃料的全氧玻璃熔炉,其特征在于:针对大规模复杂的熔炉环境模型对环境预测和决策控制的拟合能力不够和模型不能适应环境随时间产生的概念漂移的问题,建立温度仿真模型和温度控制模型,通过调节燃料阀门,使熔窑温度保持稳定;
基于深度学习的熔炉温度模型建立过程为,通过传感器收集熔炉各关键位点的温度、氧气流量、天然气流量、天然气阀门开度和熔炉压力,作为深度神经网络的输入,以预测未来某时间段的温度趋势,所述深度神经网络采用双向循环长短时神经网络,通过将双向循环神经网络中的非线性单元替换为长短时循环神经网络模块得到;收集的数据具体包括长时间采集窑底玻璃液面温度、碹顶温度、吊墙温度、水包温度、烟道温度、天然气流量、天然气阀门开度、天然气阀门设定值、氧气流量、氧气阀门开度、氧气阀门设定值和窑压,并加入红外摄像机,从熔炉的6个方向拍摄获取区域温度;传感器数据采集频率为10秒/次~300秒/次的固定频率,将未来半小时的温度作为神经网络输出的标签值,以预测未来半小时的温度趋势,通过损失函数,反向传播更新神经网络的参数;
基于深度学习和强化学习的熔炉温度控制模型建立过程为,将熔炉环境的关键变量输入采用深层确定性策略梯度网络实现的深度强化学习模型,输出燃料阀门开度的偏移量;将开度偏移量和当前熔炉环境的关键变量输入温度模型,预测未来温度变化趋势;根据预测的温度趋势和温度设定值的差值,建立温度控制模型的损失函数;通过反向传播的方法,更新模型参数;所述熔炉环境的关键变量包括温度变化趋势、氧气流量、氧气开度、天然气流量、天然气开度和温度设定值;
使用深度强化学习模型实时计算燃料阀门开度的偏移量实现如下,
深度强化学习模型基于三个基本要素状态、动作和奖励,初始化熔炉环境并输入到动作网络,动作网络接收相应状态St作为输入,经过计算后产生一个推荐动作at作为输出并返回到熔炉环境,熔炉采取的推荐动作,产生一个奖励rt并到达下一个状态st+1,将元组<st,at,rt,st+1>存储到记忆池M中;基于记忆池更新评价网络和动作网络,在模型训练完成后,最终输出的推荐动作at,以指令形式传到天然气和氧气的控制阀门;
选择长短时双向循环神经网络作为深度神经网络,设xt是在第t时刻的输入,代表第t时刻熔炉各关键位点的温度T,氧气流量Qo,天然气流量Qg,氧气阀门开度So,天然气阀门开度Sg,熔炉压力P,yt是在第t时刻的输出,对应预测的未来某时刻的温度值,ht是在第t时刻隐藏层的状态;
实时计算氧气和天然气阀门调整偏移量的计算方式如下,
使用深度学习和强化学习,建立温度控制模型有三个基本要素,即状态,动作和奖励,状态表示一切能描述生产线生产状态的监测量,包括熔窑温度、熔窑压力和雾化气压力;动作表示能真正控制生产线的控制量,包括窑温和窑压对应的控制量;在定义评估系统运行好坏的奖励函数奖励时,采用温度的标准值,即传感器标识为“SL”的值,SL表示设定值;
采用深层确定性策略梯度网络实现的过程如下,
[1]初始化熔炉环境St并输入到动作网络;
[2]动作网络接收状态St作为输入,经过计算后产生一个推荐动作at作为输出并将其返回到熔炉环境:
at=μ(st|θμ)
其中,函数μ( )代表动作网络的功能,其中θμ是神经网络的参数;
[3]熔炉采取步骤[2]中的推荐动作,产一个奖励rt并到达下一个状态st+1,将元组<st,at,rt,st+1>存储到记忆池M中,记为M(st,at,rt,st+1);
[4]在记忆池中,随机选取一批N条元组,使用元组来学习策略;
其中,N表示预设的数量;
[5]按下式计算损失函数:
其中,
L为损失函数,
N为计算损失的样本数量;
si和ai就是内存池中的状态和动作变量;
i为从记忆池中取的元组的序号,取值为1到N;
Q( )为评价网络,输入si,ai|θQ是状态和在该状态下采取的动作,输出是采取这个策略的收益;
ri为奖励值,是在某个状态下采取某个动作后,环境直接反馈的奖励值,具体实施时用户可以预设奖励函数;
γ为0-1的系数;
μ′( )表示正在训练的动作网络,Q′( )表示正在训练的评价网络;
[6]通过最小化损失函数L来更新评价网络;
[7]使用确定性策略梯度定理来更新动作网络:
其中,
s表示状态值;
a表示动作值;
以上动作网络和评价网络都是采用双向循环-长短时循环神经网络;
在模型训练完成后,最终输出的推荐动作at,以指令形式传到天然气和氧气的控制阀门上,直接控制氧气的阀门,天然气阀门选择直接按照理论最优比例跟随氧气阀门的值;
采用在线学习方式,通过实时收集的数据,增量实时在线更新模型,以适应季节变化、熔炉损耗变化和原料变化因素带来的模型偏移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522327.8A CN110187727B (zh) | 2019-06-17 | 2019-06-17 | 一种基于深度学习和强化学习的玻璃熔炉温度控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522327.8A CN110187727B (zh) | 2019-06-17 | 2019-06-17 | 一种基于深度学习和强化学习的玻璃熔炉温度控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110187727A CN110187727A (zh) | 2019-08-30 |
CN110187727B true CN110187727B (zh) | 2021-08-03 |
Family
ID=67722165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910522327.8A Active CN110187727B (zh) | 2019-06-17 | 2019-06-17 | 一种基于深度学习和强化学习的玻璃熔炉温度控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110187727B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110686377A (zh) * | 2019-09-20 | 2020-01-14 | 珠海格力电器股份有限公司 | 一种空调温度自适应调节的控制方法、计算机可读存储介质及空调 |
CN110643485A (zh) * | 2019-09-24 | 2020-01-03 | 天津科技大学 | 一种具有智能预测补偿器的粮食发酵过程温度场自动控制系统与方法 |
JP7222344B2 (ja) * | 2019-12-06 | 2023-02-15 | 横河電機株式会社 | 判定装置、判定方法、判定プログラム、学習装置、学習方法、および、学習プログラム |
CN111460738B (zh) * | 2020-04-16 | 2023-06-16 | 中南大学 | 磁悬浮系统的rnn-arx建模方法、rnn-arx模型 |
CN111377595B (zh) * | 2020-05-08 | 2022-04-22 | 蚌埠凯盛工程技术有限公司 | 实时控制玻璃窑炉燃气供给量的方法、系统 |
CN112101556B (zh) * | 2020-08-25 | 2021-08-10 | 清华大学 | 识别与去除环境观测量中冗余信息的方法及装置 |
CN112100916B (zh) * | 2020-09-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 用于构建强化学习模型的方法、装置、电子设备及介质 |
CN112068004A (zh) * | 2020-09-16 | 2020-12-11 | 北京嘀嘀无限科技发展有限公司 | 一种电池异常、电池充电剩余时间的确定方法及装置 |
CN112231492B (zh) * | 2020-10-22 | 2023-07-07 | 北京天地和兴科技有限公司 | 一种智能供热阀门控制知识图谱的构建方法和系统 |
CN112279507B (zh) * | 2020-10-23 | 2021-09-17 | 南京玻璃纤维研究设计院有限公司 | 温度控制方法、装置、电子设备及系统 |
CN112359159B (zh) * | 2020-11-10 | 2022-05-03 | 中冶东方工程技术有限公司 | 一种基于深度强化学习的热风炉自动烧炉方法及系统 |
CN112817289A (zh) * | 2021-02-09 | 2021-05-18 | 上海凯盛朗坤信息技术股份有限公司 | 一种玻璃工厂数据分析与智能预测系统 |
CN113418632B (zh) * | 2021-05-20 | 2024-02-09 | 南昌大学 | 一种油浸式变压器油温预测的概念漂移检测方法 |
CN113253364B (zh) * | 2021-06-30 | 2021-10-08 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种对站点风速预报结果进行订正的方法及装置 |
CN113204061B (zh) * | 2021-07-06 | 2021-10-08 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种构建格点风速订正模型的方法及装置 |
CN113325721B (zh) * | 2021-08-02 | 2021-11-05 | 北京中超伟业信息安全技术股份有限公司 | 一种工业系统无模型自适应控制方法及系统 |
CN113435129B (zh) * | 2021-08-25 | 2021-11-23 | 南栖仙策(南京)科技有限公司 | 减温水阀控制策略的优化方法、装置以及减温水阀 |
CN114275997B (zh) * | 2021-12-03 | 2023-10-24 | 蚌埠凯盛工程技术有限公司 | 一种基于发卡水包控制的流液道温度控制系统和方法 |
CN114943173B (zh) * | 2022-04-13 | 2024-06-28 | 东北大学 | 一种基于深度强化学习和燃烧仿真耦合的钢包烘烤系统及优化方法 |
WO2024164235A1 (en) * | 2023-02-09 | 2024-08-15 | Siemens Aktiengesellschaft | Method and system for controlling float glass furnace and storage medium |
CN118192211B (zh) * | 2024-04-16 | 2024-10-01 | 重庆大学 | 基于强化学习和pid策略的电缆耐火性能检测炉温度控制方法、系统和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106773682A (zh) * | 2016-12-05 | 2017-05-31 | 清华大学 | 基于时滞动态确定的玻璃窑炉池底温度智能预测控制方法 |
CN109034365A (zh) * | 2018-07-06 | 2018-12-18 | 电子科技大学 | 深度学习模型的训练方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1293436C (zh) * | 2005-01-06 | 2007-01-03 | 桂林电子工业学院 | 玻璃窑炉综合智能熔炉温度控制方法 |
CN106600001B (zh) * | 2016-12-05 | 2019-04-05 | 清华大学 | 基于混合高斯分布相关学习机的玻璃窑炉温度预报方法 |
US10604814B2 (en) * | 2017-09-27 | 2020-03-31 | International Business Machines Coporation | Manufacturing process control with deep learning-based predictive model for hot metal temperature of blast furnace |
CN109109863B (zh) * | 2018-07-28 | 2020-06-16 | 华为技术有限公司 | 智能设备及其控制方法、装置 |
-
2019
- 2019-06-17 CN CN201910522327.8A patent/CN110187727B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106773682A (zh) * | 2016-12-05 | 2017-05-31 | 清华大学 | 基于时滞动态确定的玻璃窑炉池底温度智能预测控制方法 |
CN109034365A (zh) * | 2018-07-06 | 2018-12-18 | 电子科技大学 | 深度学习模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
深度强化学习综述;刘全等;《计算机学报》;20180131;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110187727A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110187727B (zh) | 一种基于深度学习和强化学习的玻璃熔炉温度控制方法 | |
CN112817354B (zh) | 一种畜禽舍养殖环境温度预测控制系统及其调控方法 | |
Li et al. | Modeling for indoor temperature prediction based on time-delay and Elman neural network in air conditioning system | |
Le et al. | Self-evolving type-2 fuzzy brain emotional learning control design for chaotic systems using PSO | |
Han et al. | Knowledge-data-driven model predictive control for a class of nonlinear systems | |
CN111650834B (zh) | 基于极限学习机的污水处理过程预测控制方法 | |
CN111829003B (zh) | 一种电厂燃烧控制系统及控制方法 | |
CN101763036A (zh) | 基于模糊神经网络的赖氨酸发酵过程补料预测控制系统及方法 | |
Han et al. | Intelligent optimal control system with flexible objective functions and its applications in wastewater treatment process | |
CN109581870A (zh) | 含能材料反应釜的釜内温度动态矩阵控制方法 | |
CN108932567A (zh) | 一种基于卷积神经网络的水泥烧成过程多能耗指标预测方法 | |
CN110386768B (zh) | 水泥烧成过程中能耗动态实时控制方法 | |
CN110347192B (zh) | 基于注意力机制和自编码器的玻璃炉温智能预测控制方法 | |
Tian et al. | TS fuzzy neural network predictive control for burning zone temperature in rotary kiln with improved hierarchical genetic algorithm | |
CN110097929A (zh) | 一种高炉铁水硅含量在线预测方法 | |
CN102540879A (zh) | 基于群决策检索策略的多目标评价优化方法 | |
Suárez et al. | Nonlinear MPC for fed-batch multiple stages sugar crystallization | |
Zhao et al. | Stepped generalized predictive control of test tank temperature based on backpropagation neural network | |
CN106950824A (zh) | 基于模糊神经网络的秸秆发酵燃料乙醇过程补料预测控制系统及方法 | |
CN113009832A (zh) | 一种基于数据驱动的液态介质熔铝炉模型预测控制方法 | |
CN114609986A (zh) | 基于预测控制的水泥分解炉脱硝调控优化系统和方法 | |
Arpaia et al. | Model predictive control strategy based on differential discrete particle swarm optimization | |
Wang et al. | A new model based on improved ACA and BP to predict Silicon content in hot metal | |
Jiang et al. | Reinforcement learning for blast furnace ironmaking operation with safety and partial observation considerations | |
Pina et al. | A glass furnace operation system using fuzzy modelling and genetic algorithms for performance optimisation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |