CN110187727B

CN110187727B - 一种基于深度学习和强化学习的玻璃熔炉温度控制方法

Info

Publication number: CN110187727B
Application number: CN201910522327.8A
Authority: CN
Inventors: 邹承明; 杨鹏程; 姜德生
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2021-08-03
Anticipated expiration: 2039-06-17
Also published as: CN110187727A

Abstract

本发明提供一种基于深度学习和强化学习的玻璃窑炉温度控制方法，用于以天然气和氧气为燃料的全氧玻璃窑炉熔炉，建立温度仿真模型和温度控制模型，通过调节燃料阀门，使熔窑温度保持稳定；通过传感器收集窑炉各关键位点的温度、氧气流量、天然气流量、天然气阀门开度、天然气阀门开度和窑炉压力，使用深度神经网络，建立窑炉温度仿真模型，用来对窑炉温度变化环境进行仿真；基于深度学习和强化学习建立窑炉温度控制模型，利用建立好的两个模型，根据当前熔炉状态，实时输出天然气和氧气阀门应该采取的偏移量。并利用历史窑炉数据，对温度仿真模型和温度控制模型进行在线或周期性更新，以达到精准温度控制。

Description

一种基于深度学习和强化学习的玻璃熔炉温度控制方法

技术领域

本发明涉及玻璃熔炉的温度智能控制技术领域，特别涉及一种基于深度学习和强化学习的玻璃熔炉温度控制方法。

背景技术

玻璃熔窑的生成过程兼具大量的物理反应和化学反正，若要对此建模，将会是一个复杂的拥有多分布参数的非线性系统，并且过程非常困难，因此难以精确地进行控制。当前我国玻璃熔窑控制各参数的方法是单回路PID控制，PID表示比例-积分-微分控制器。传统的PID控制器由于其对线性系统的有效性，易于设计和成本低廉而广泛用于工业。Yamamoto和Hashimoto在1991年报道，例如在日本，所有控制回路中有90％以上是PID型的。传统的PID控制器虽然对线性系统有效，但不适用于非线性、高阶和时滞系统。由于这些原因，许多研究人员试图将传统的PID控制器与模糊逻辑控制器(Fuzzy Logic Controller，FLC)相结合，以实现比传统的PID控制器更好的系统性能。Jianling Q和Zhenjie D等人如法炮制，将模糊PID控制法应用在玻璃熔炉的温度控制系统上，并通过实验证明FLC系统确实能为玻璃熔炉提高高质量的生产，减轻劳动者的劳动强度。Sardeshpande V等人使用质量、能量平衡，以及不同区域的热损失方程和基于操作实践的经验公式来开发玻璃熔炉的仿真模型。该模型与印度末端工业玻璃熔炉的现场数据进行核对，能够计算给定炉子设计的能量性能。模型结果显示了如此改进的潜力以及不同的运营和设计偏好对具体能源消耗的影响。在实际生产规模下运行的熔炉具有大概20％-25％的能耗降低潜力。

受过去落后的生产技术影响，传统的玻璃生产过程存在着诸多弊端，因此有学者在解决蓄热式马蹄焰玻璃熔炉生产问题时，基于现场总线技术，引入神经网络控制算法，实现了对生产过程的实时监控、分析和优化。人工神经网络本质上是并行的，并且由于其具有学习非线性关系的能力而有很大的应用前景。从理论上讲，它不需要对系统的先验知识，从而绕开了第一原理建模的困难。Kumaran Rajarathinam等人实现了一个使用人工神经网络的决策支持系统，称为“FUNN”(使用神经网络的熔炉处理系统)，它具有处理模型识别、设定点控制和解释输入因子等功能。

但是，现有的使用的这些神经网络方法主要有以下两点弊端，不适应工业化生产的需求：

一是不能处理大规模复杂的窑炉环境。神经网络的结构太单一，深度不够，导致模型对环境预测和决策控制的拟合能力不够，即深度学习中的欠拟合问题突出。

二是模型不能适应环境随时间产生的概念漂移(concept drift)。而本专利提出的方法，能在线实时学习更新模型，克服概念漂移问题。

发明内容

本发明要解决的技术问题，在于提供一种基于深度学习和强化学习的玻璃熔炉温度控制方法，自动实时给出燃料阀门开度调节策略，将熔炉温度稳定在设定值附近。同时能解决人工调节不及时不准确等问题。

本发明解决其技术问题所采用的技术方案是一种基于深度学习和强化学习的玻璃窑炉温度控制方法，用于以天然气和氧气为燃料的全氧玻璃窑炉熔炉，建立温度仿真模型和温度控制模型，通过调节燃料阀门，使熔窑温度保持稳定；

基于深度学习的窑炉温度模型建立过程为，通过传感器收集窑炉各关键位点的温度、氧气流量、天然气流量、天然气阀门开度、天然气阀门开度和窑炉压力，作为深度神经网络的输入，以预测未来某时间段的温度趋势；将未来某时间段的实际温度作为神经网络输出的标签值，通过损失函数，反向传播更新神经网络的参数；

基于深度学习和强化学习的窑炉温度控制模型建立过程为，将窑炉环境的关键变量，输入深度强化学习模型，输出燃料阀门开度的偏移量；将开度偏移量和当前窑炉环境的关键变量输入温度模型，预测未来温度变化趋势；根据预测的温度趋势和温度设定值的差值，建立温度控制模型的损失函数；通过反向传播的方法，更新模型参数；所述窑炉环境的关键变量包括温度变化趋势、氧气流量、氧气开度、天然气流量、天然气开度和温度设定值。

而且，选择长短时双向循环神经网络作为深度神经网络。

而且，传感器数据采集频率为10秒/次～300秒/次的固定频率。

而且，温度采集包括采用温度传感器和红外摄像机，红外摄像机从熔炉的6个方向拍摄获取区域温度。

而且，采集熔窑顶部和底部关键位置的温度和窑压。

而且，采用在线学习方式，通过实时收集的数据，增量实时在线更新模型，以适应季节变化、窑炉损耗变化和原料变化因素带来的模型偏移。

本发明和现有技术的区别以及相应产生的技术效果是：

1)对于不同工厂不同生产线的窑炉环境，都能做到很好的预测和控制。半小时内的温度预测温度误差在6摄氏度以内，10分钟内预测误差在2摄氏度以内。

2)能在线实时学习更新模型，克服概念漂移问题。

附图说明

图1为本发明实施例的熔炉温度仿真模型使用的神经网络结构图。

图2为本发明实施例的温度控制模型的网络结构示意图，其中玻璃熔炉在实现过程中代表图1的温度仿真模型。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明提供一种基于深度学习和强化学习的窑炉温度控制方法，根据各关键温度点的设定值，调节窑炉氧气和天然气的阀门开度，使得窑炉温度环境保持稳定。本方法根据窑炉历史温度、压力、天然气和氧气流量、各阀门开度等关键特征量，使用深度神经网络，建立窑炉温度仿真模型，用来对窑炉温度变化环境进行仿真。基于温度仿真模型，根据当前窑炉温度、压力、燃料浓度等实时环境，结合深度神经网络和强化学习算法，建立窑炉温度控制模型。利用建立好的两个模型，根据当前熔炉状态，实时输出天然气和氧气阀门应该采取的偏移量。并利用历史窑炉数据，对温度仿真模型和温度控制模型进行在线或周期性更新，以达到精准温度控制。

本专利的玻璃窑炉温度控制方法，用于以天然气和氧气为燃料的全氧玻璃窑炉熔炉，其设备主要包括天然气和氧气的输送液压装置、燃烧枪、多点位的温度传感器、窑压传感器、流量传感器等。具体实施时，可直接基于现有设备长时间采集窑底玻璃液面温度、碹顶温度、吊墙温度、水包温度、烟道温度、天然气流量、天然气阀门开度、天然气阀门设定值、氧气流量、氧气阀门开度、氧气阀门设定值、窑压等。还可以在传统的温度传感器基础上，加入红外摄像机，从熔炉的6个方向拍摄获取区域温度。

本发明实施例中，首先根据长期采集的窑炉环境数据建立基于深度学习的窑炉温度模型，用来进行窑炉温度环境仿真。然后基于温度仿真模型建立基于深度学习和强化学习的窑炉温度控制模型。实施例中，提供基于深度学习的窑炉温度模型建立方法具体是：

1)通过传感器收集熔炉各关键位点的温度T，氧气流量Q_o，天然气流量Q_g，氧气阀门开度S_o，天然气阀门开度S_g，窑炉压力P。各关键位点的温度T可包括传感器采集的采集窑底玻璃液面温度、碹顶温度、吊墙温度、水包温度、烟道温度和红外摄像机采集的区域温度。具体实施时，为了降低模型复杂度，可选择只利用碹顶温度和窑底温度等关键点温度进行仿真建模。

传感器数据采集频率可为10秒/次～300秒/次的固定频率。推荐采集频率不低于每分钟一次，优选是每10秒一次。将这些关键量作为深度神经网络的输入。以预测未来某时间段(例如半小时)的温度趋势。将未来半小时的温度作为神经网络输出的标签值(GroundTruth)，通过损失函数，反向传播更新神经网络的参数。

2)数据预处理阶段：如果有数据丢失，超过3个及以上的连续丢失数据，则应该放弃该时段的样本，否则应该用算法进行缺失值填充。通过高斯滤波方法，删除噪声数据，这些数据可能是由于传感器采集等原因造成的。

3)将采集的数据传入具有输入层、隐藏层和输出层的RNN结构，其中RNN表示循环神经网络。如图1所示，隐藏层包括后向反馈层和前向反馈层，隐藏层中的节点是全联接状态，隐藏层的输出也是在下一时刻隐藏层的输入。图1中，所有的箭头都表示数据传输方向，圆圈表示计算单元，指向圆圈的箭头所代表的值表示这个计算单元的输入，离开圆圈的箭头表示这个计算单元的输出。他的输出可能被多个下一个计算单元利用。x^t是在第t时刻的输入，代表第t时刻熔炉各关键位点的温度T，氧气流量Q_o，天然气流量Q_g，氧气阀门开度S_o，天然气阀门开度S_g，窑炉压力P等。y^t是在第t时刻的输出，对应预测的未来某时刻的温度值，h^t是在第t时刻隐藏层的状态。相应的，相应上标t-1和t+1用于标识第t-1时刻、第t+1时刻的相应变量。给定一个输入序列x＝(x⁰,…,x^N-1)，一个循环层的隐藏状态h＝(h⁰,…,h^N-1)，那么一个单一隐藏层RNN的输出y＝(y⁰,…,y^N-1)能根据下式推导：

h^t＝H(W_xhx^t+W_hhh^t-1+b_n)

y^t＝O(W_hoh^t+b_o)

其中，N为预设的序列长度，具体实施时，可根据任务需要设置取值。

这里W_xh，W_hh，W_ho分别表示从输入层x到隐藏层h，隐藏层h到自己和隐藏层到输出层y的连接权重。b_h和b_o是两个偏置矢量。H()和O()分别是隐藏层和输出层的激活函数。

基于以上基于深度学习的窑炉温度模型，设计该深度神经网络的损失函数为

其中y^t表示预测的t+1时刻的温度，x^t+1表示t+1时刻的真实温度。通过该损失函数，反向更新窑炉温度模型，完成模型的训练。

更进一步地，这里的RNN结构采用双向循环长短时神经网络更佳。双向循环长短时神经网络是为了充分利用序列中每个点的过去和未来的上下文信息，Schuster和Paliwal提出了双向循环神经网络(Bidirectional Recurrent Neural Network，BRNN)，它将序列向前和向后呈现为两个分离的循环隐藏层。这两个循环隐藏层共享同一个输出层。BRNN的结构如图1所示。只需要将图中的非线性单元替换为LSTM模块(Longshort-term Memory,长短时循环神经网络)，可以得到LSTM-BRNN。

实施例中，窑炉温度控制模型建立实现方式为，将温度变化趋势、氧气流量、氧气开度、天然气流量、天然气开度和温度设定值等相关反应窑炉环境的关键变量，输入深度强化学习模型，模型输出推荐的氧气和天然气阀门开度的偏移量。将开度偏移量和当前窑炉环境的关键变量输入温度模型，预测未来温度变化趋势。根据预测的未来温度和实际温度设定值的差值建立温度控制模型的损失函数。通过反向传播的方法，更新模型参数。

实时计算氧气和天然气阀门调整偏移量的计算方式如下。

使用深度学习和强化学习，即深度强化学习模型，建立温度控制模型有三个基本要素，即状态，动作和奖励。状态表示一切能描述产线生产状态的监测量，如熔窑温度、熔窑压力、雾化气压力等；动作表示能真正控制生产线的控制器，如窑温、窑压对应的控制量。在定义评估系统运行好坏的奖励函数奖励时，由于工艺专家设定了每个点，如温度等的标准值，即传感器标识为“SL”的值，SL表示设定值。本发明将计算各点实际值与标准值的差值，以差值的均方差的负数为最终奖励值，公式如下：

实施例的窑炉温度控制模型采用DDPG方式实现。整个DDPG程序过程如图2所示。其中，DDPG表示Deep Deterministic Policy Gradient，深层确定性策略梯度网络。设Actor网络(动作网络)是一个参数为θ^μ和θ^μ′的DNN，评价网络是另一个参数为θ^Q和θ^Q′的DNN。这些参数可以随机0-1初始化或全0初始化，模型训练的过程中会不断更新这些参数。其中，DDN表示深度神经网络。为便于实施参考起见，提供实施例中DDPG算法流程如下：

[1]初始化熔炉环境S_t并输入到动作网络。

[2]动作网络接收状态S_t作为输入，经过计算后产生一个推荐动作a_t作为输出并将其返回到熔炉环境：

a_t＝μ(s_t|θ^μ)

其中，函数μ()代表动作网络的功能，其中θ^μ是神经网络的参数。

[3]熔炉采取步骤[2]中的推荐动作，产一个奖励r_t并到达下一个状态s_t+1，将元组<s_t,a_t,r_t,s_t+1>存储到记忆池M中，记为M(s_t,a_t,r_t,s_t+1)。

[4]在记忆池中，随机选取一批N条元组，使用元组来学习策略。

其中，N表示预设的数量，具体实施时，可取64或128。

[5]按下式计算损失函数(如TD误差，其中TD表示时间差分)：

其中，

L为损失函数，

N为计算损失的样本数量；

为评价网络的输出；

s_i和a_i就是内存池中的状态和动作变量；

i为从记忆池中取的元组的序号，取值为1到N；

Q()为评价网络，输入s_i,a_i|θ^Q是状态和在该状态下采取的动作，输出是采取这个策略的收益；

r_i为奖励值，是在某个状态下采取某个动作后，环境直接反馈的奖励值，具体实施时用户可以预设奖励函数；

γ为0-1的系数，一般取0.9或0.8。也有策略是根据训练情况动态选择。

μ′()表示正在训练的动作网络，Q′()表示正在训练的评价网络。

[6]通过最小化损失函数L来更新评价网络。

[7]使用确定性策略梯度定理来更新动作网络：

其中，

表示函数μ在输入为s_i这个点的所有参数\θ^μ的梯度算子。可以理解为求θ^μ这个向量里每个参数在s_i这个点的偏导数；

s表示状态值；

a表示动作值；

表示动作网络的梯度算子；

表示评价网络的梯度算子；

以上动作网络和评价网络都是采用本发明设计的双向循环-长短时循环神经网络。

在模型训练完成后，最终输出的推荐动作a_t，以指令形式传到天然气和氧气的控制阀门上。实际生产中，氧气和天然气燃烧按固定比例可达到燃烧最优。所以一般是直接控制氧气的阀门，天然气阀门可以选择直接按照理论最优比例跟随氧气阀门的值。

一般情况下，都是离线把模型训练好，神经网络的参数是固定不变的，直接利用训练好的模型做计算。而本发明提出的策略是，模型在使用的时候，参数仍然不是固定的，例如当检测到最近几小时的数据分布发生较大变化，则开始训练改变神经网络参数，在线训练好后直接投入使用，不用停机。

具体实施时，可采用在线学习方式，通过实时收集的数据，增量实时在线更新模型，以适应季节变化、窑炉损耗变化和原料变化等因素带来的模型偏移。可采用软件技术实现本方法的自动运行，运行本方法的装置也应当在本发明的保护范围内。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于深度学习和强化学习的玻璃熔炉温度控制方法，用于以天然气和氧气为燃料的全氧玻璃熔炉，其特征在于：针对大规模复杂的熔炉环境模型对环境预测和决策控制的拟合能力不够和模型不能适应环境随时间产生的概念漂移的问题，建立温度仿真模型和温度控制模型，通过调节燃料阀门，使熔窑温度保持稳定；

基于深度学习的熔炉温度模型建立过程为，通过传感器收集熔炉各关键位点的温度、氧气流量、天然气流量、天然气阀门开度和熔炉压力，作为深度神经网络的输入，以预测未来某时间段的温度趋势，所述深度神经网络采用双向循环长短时神经网络，通过将双向循环神经网络中的非线性单元替换为长短时循环神经网络模块得到；收集的数据具体包括长时间采集窑底玻璃液面温度、碹顶温度、吊墙温度、水包温度、烟道温度、天然气流量、天然气阀门开度、天然气阀门设定值、氧气流量、氧气阀门开度、氧气阀门设定值和窑压，并加入红外摄像机，从熔炉的6个方向拍摄获取区域温度；传感器数据采集频率为10秒/次～300秒/次的固定频率，将未来半小时的温度作为神经网络输出的标签值，以预测未来半小时的温度趋势，通过损失函数，反向传播更新神经网络的参数；

基于深度学习和强化学习的熔炉温度控制模型建立过程为，将熔炉环境的关键变量输入采用深层确定性策略梯度网络实现的深度强化学习模型，输出燃料阀门开度的偏移量；将开度偏移量和当前熔炉环境的关键变量输入温度模型，预测未来温度变化趋势；根据预测的温度趋势和温度设定值的差值，建立温度控制模型的损失函数；通过反向传播的方法，更新模型参数；所述熔炉环境的关键变量包括温度变化趋势、氧气流量、氧气开度、天然气流量、天然气开度和温度设定值；

使用深度强化学习模型实时计算燃料阀门开度的偏移量实现如下，

深度强化学习模型基于三个基本要素状态、动作和奖励，初始化熔炉环境并输入到动作网络，动作网络接收相应状态S_t作为输入，经过计算后产生一个推荐动作a_t作为输出并返回到熔炉环境，熔炉采取的推荐动作，产生一个奖励r_t并到达下一个状态s_t+1，将元组<s_t，a_t，r_t，s_t+1>存储到记忆池M中；基于记忆池更新评价网络和动作网络，在模型训练完成后，最终输出的推荐动作a_t，以指令形式传到天然气和氧气的控制阀门；

选择长短时双向循环神经网络作为深度神经网络，设x^t是在第t时刻的输入，代表第t时刻熔炉各关键位点的温度T，氧气流量Q_o，天然气流量Q_g，氧气阀门开度S_o，天然气阀门开度S_g，熔炉压力P，y^t是在第t时刻的输出，对应预测的未来某时刻的温度值，h^t是在第t时刻隐藏层的状态；

实时计算氧气和天然气阀门调整偏移量的计算方式如下，

使用深度学习和强化学习，建立温度控制模型有三个基本要素，即状态，动作和奖励，状态表示一切能描述生产线生产状态的监测量，包括熔窑温度、熔窑压力和雾化气压力；动作表示能真正控制生产线的控制量，包括窑温和窑压对应的控制量；在定义评估系统运行好坏的奖励函数奖励时，采用温度的标准值，即传感器标识为“SL”的值，SL表示设定值；

采用深层确定性策略梯度网络实现的过程如下，

[1]初始化熔炉环境S_t并输入到动作网络；

a_t＝μ(s_t|θ^μ)

其中，函数μ( )代表动作网络的功能，其中θ^μ是神经网络的参数；

[3]熔炉采取步骤[2]中的推荐动作，产一个奖励r_t并到达下一个状态s_t+1，将元组<s_t，a_t，r_t，s_t+1>存储到记忆池M中，记为M(s_t，a_t，r_t，s_t+1)；

[4]在记忆池中，随机选取一批N条元组，使用元组来学习策略；

其中，N表示预设的数量；

[5]按下式计算损失函数：