CN116842856B

CN116842856B - 一种基于深度强化学习的工业过程优化方法

Info

Publication number: CN116842856B
Application number: CN202311126264.7A
Authority: CN
Inventors: 李慧; 马钰民; 姜志宇; 罗明月; 王学中; 王岩; 李勇; 刘越; 张秀梅
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-11-14
Anticipated expiration: 2043-09-04
Also published as: CN116842856A

Abstract

本发明公开一种基于深度强化学习的工业过程优化方法，涉及基于特定计算模型的计算机系统、机器学习及工业过程控制领域。针对工业过程控制中参数优化存在精度差、鲁棒性较差等问题，首先，进行数据采集及预处理，建立训练集和测试集；其次，构建LSTM（Long Short‑Term Memory）循环神经网络模型；最后，使用DPPO（Distributed Proximal Policy Optimization）深度强化学习算法对模型进行参数优化。与现有技术相比，本发明可以提升传统工业过程控制中参数控制精度与可控性，更易提高系统运行效率与鲁棒性，本方法可广泛应用于生物制药、工业自动化等工业制造和生产领域。

Description

一种基于深度强化学习的工业过程优化方法

技术领域

本发明涉及基于特定计算模型的计算机系统、机器学习及工业过程控制领域，具体涉及一种基于深度强化学习的工业过程优化方法。

背景技术

在如今的工业生产中，自动化技术被广泛应用于生产线，以提高生产效率和降低成本。然而，由于制造业的生产过程异常繁琐，需要实时监控和调整多个参数，因此单一的自动化系统已经无法满足复杂的生产需求。因此，引入机器学习技术，以提升自动化水平。通过分析生产数据和模式识别，机器学习可以优化参数和决策，实现智能化控制和优化，使生产过程更智能化、灵活化和高效化。

在制药工业中，制药用水是生物制药过程中的重要组成部分。为保证其达到水质要求，世界各国在药典规范中都制定了相关质量标准。注射用水制备系统在医药行业中应用极为广泛，通过对蒸馏过程最佳工况点优化技术以及对温度和压力的精准控制技术研究的研究，经过蒸馏的过程优化，得到最佳工艺参数，提高合格产水效率和控制精度，并得到显著的节能效果。由于系统控制参数的强耦合特性，制药用水设备运行性能极易受到各项参数干扰，导致运行平衡被打破，对制药用水设备的高效、稳定运行提出了极大的挑战。因此，通过对制药用水系统的有效调控，提高其工作效率，成为保障运行稳定性与可靠性亟待解决的问题。制药用水设备控制参数优化不仅是简单的寻优问题，也是大规模、多目标、多参数之间的平衡问题，其节能增效与稳定运行相关研究也成为重点和难点。现有技术在解决此类工业过程控制的参数优化问题，要么存在精度不足、难以解决连续动作问题，如传统基于值的深度强化学习方法；要么存在步长敏感、不易收敛等问题，如基于行为的深度强化学习方法。

针对上述现有技术的不足，对此提出一种可以实现对连续状态进行控制的深度强化学习算法分布式近端策略优化（Distributed Proximal Policy Optimization，DPPO）算法进行运行优化。能够实现对连续状态进行控制，有助于解决系统控制参数优化问题，并且在近端策略优化（Proximal Policy Optimization，PPO）算法的基础之上实现对多个场景同时学习，使训练更易收敛，提高训练效果。

发明内容

本发明提出了一种基于深度强化学习的工业过程优化方法，该方法使用长短期记忆（Long Short-Term Memory，LSTM）循环神经网络通过DPPO算法训练来得到系统控制参数的最优阈值。LSTM网络适用于处理时间顺序列表数据，在DPPO算法中，LSTM可以处理以往的观察结果并更好地预测未来动作。另外LSTM网络可以解决长期依赖关系，即过去的决策如何影响未来的决策。本方法可将系统运行轨迹约束在一个指定的范围内并显著提高其控制精度，提高系统运行效率，保证系统运行稳定。

为实现上述目的，通过如下技术方案来实现：

步骤1：基于LSTM建立深度学习模型，根据预测过程训练数据，测试数据；

步骤1.1：根据实际模型选取系统内实时温度、系统内水汽压、蒸发器内相对湿度、系统循环冷凝水流速、产水电导率、总有机碳、微生物限度、细菌内毒素作为待优化的参数，具体为8组数据，设置优化目标；

步骤1.2：根据制药用水模型中系统控制参数的预设取值范围随机产生控制参数，对数据进行异常排查，对于异常数据进行中值填补处理，其中，异常数据通常数值或数值变化率超出合理范围的数据，利用异常时刻前后各10秒的同类数据构成序列的中值对异常时刻数据进行填补并建立训练集和测试集；

步骤2：对所述LSTM网络模型进行训练，设置二层LSTM，一层全连接层，一层正则化dropout层，最后连接一层全连接层，每个门结构的神经网络层的神经元数量为128。设置优化算法为Adam，Adam是一种基于梯度下降的优化算法，用于训练神经网络；

步骤2.1：LSTM核心部分单元状态可表示为：

，

遗忘门决定系统丢弃信息，表示单元状态，表示单元状态更新值，为输入层储存的新信息，为保留信息量，通过以下计算得到：

，

遗忘门的输入为和，为短期记忆，为事件信息，输出的矩阵中每个元素为[0，1]区间的数字，其中输出1表示完全保留，输出0表示完全遗忘。为随机权重参数，即权值向量。为sigmoid激活函数，为偏置参数即遗忘门阈值。

输入门更新单元状态，存储新记忆信息，计算输入新信息为：

，

其中表示单元状态更新值，使用softsign激活函数作为更新单元状态值，输入层为储存的新信息，用于控制更新当前时刻的状态变量。为随机权重参数，、为偏置参数。是一个[0，1]的向量，通过单位乘运算，将上个单元的的部分特征信息保留到中。选取sigmoid激活函数输出一个[0，1]区间内的值。

输出门决定输出的单元状态，计算过程如下：

，

其中输出的短期记忆由和单元状态计算得到，为输出门控，的计算方式和相同，为随机权重参数，为激活函数，为偏置参数。

步骤3：采用DPPO算法进行系统参数优化；

步骤3.1：所述DPPO算法基于Actor-Critic强化学习框架，Actor（策略）网络根据价值函数训练策略，选择输出动作得到反馈，Critic（价值估计）网络根据状态训练价值函数，用于评价策略的优劣。

所述Critic的输入为状态空间，对状态进行简化表达为，其中为系统内实时温度，为系统内水汽压，为蒸发器内相对湿度，为系统循环冷凝水流速。

奖励值的作用是指导模型学习，最终学习到最优策略。奖励函数一般基于目标函数进行设计。由状态空间根据以下奖励函数计算奖励。，

其中为某一时刻产水电导率，为系统目标产水电导率。为某一时刻系统温度，为系统目标稳定温度。为某一时刻系统内水汽压值，为系统内目标最优水汽压值。、、为权重系数，用于约束奖励函数数值范围。

优势函数表示在状态，选取动作的优势有多大，评估在某个状态采取各动作相对于平均回报的好坏，也就是采取这个动作的优势；为n个时间步的累计优势函数估计值，计算方式如下：

，

其中表示当前状态下做动作时未来累积奖励的优劣程度；为折扣系数，通常取0.9，折扣系数可以作为强化学习模型的一个超参数进行调整，从而得到不同行为；为t时刻状态下奖励值，为从状态开始的累积奖励的预期折扣奖励，从训练主体网络输出的参数近似计算得到；表示在状态选择动作的概率，为 t时刻状态下的预期折扣奖励，为T时刻状态下的预期折扣奖励；

基于随机梯度算法推导出损失函数，通过网络模型训练优化更新参数，目标函数的梯度是策略梯度估计量；选取剪辑代理目标的方法，梯度通过下述计算方法得到：

，

其中min是在第一项与第二项里面选择比较小的项；是一个随机策略，为新旧策略概率比，用于限制模型与实际上学习的模型在优化以后的差距；clip函数指裁剪函数，clip函数中，如果第一项小于第二项，输出为；如果第一项大于第三项，输出为，是一个超参数，设置为0.1至0.2；

步骤3.2：基于LSTM神经网络模型采用DPPO算法具体训练流程如下：①基于LSTM神经网络构建模型，根据预测过程建立训练集和测试集，对数据进行预处理；②初始化DPPO网络，DPPO主线程，即Global PPO（主线程）网络作为训练主体，子线程从Global PPO网络获取网络参数，策略网络中使用新旧策略概率比限制计算步长。设置训练次数N；③采用12子线程执行策略探索环境，获得，并更新状态；④子线程中PPO网络作为单独的模块收集数据后存入经验池；⑤主线程使用经验池中数据进行训练，更新Global PPO网络参数，输出动作；⑥根据经验池数据通过近似计算得到，，；⑦将现有数据输入PPO网络中，更新现有策略；⑧重复m={1，2，…，N}，进行梯度计算得到；⑨优化算法损失，更新策略和价值估计网络参数，更新DPPO策略网络参数，训练 N回合后停止训练，此时经验池中8组待调优参数稳定的范围即为优化结果。

本发明的有益效果如下：

该系统参数优化方法首先通过建立LSTM循环神经网络模型，可以解决长期时序信息处理时梯度消失的问题，使得网络具备记忆功能。采用DPPO算法优化系统参数，设置合理奖励参数指导模型学习，更易学习到最优策略。在使用DPPO算法更新策略时，通过新策略和旧策略的比例，来限制新策略的更新幅度，以此来提升学习效率。可将系统运行轨迹约束在一个指定的范围内并显著提高其控制精度。

附图说明

图1是本发明用于制药用水设备参数优化控制方法的流程示意图；

图2是LSTM神经网络模型单元结构图；

图3是本发明采用的DPPO算法流程示意图。

具体实施方式

以下结合附图，具体说明本发明的详细实施方式。

一种基于深度强化学习的制药用水设备参数优化控制方法，请参见附图1，包括如下步骤：

步骤1：基于LSTM建立神经网络模型，建立训练集和测试集，根据预测过程训练数据，测试数据，根据实际模型选出需要被优化的参数及数量，设置优化目标；

步骤2：对所述LSTM网络模型进行训练，设置二层LSTM，一层全连接层，一层正则化dropout层，最后连接一层全连接层，每个门结构的神经网络层的神经元数量为128。设置优化算法为Adam；

步骤3：采用DPPO算法进行系统参数优化，基于Actor-Critic强化学习框架，构建奖励函数，优势函数，并基于随机梯度算法选取剪辑代理目标的方法推导出损失函数；

具体实施说明如下：

实施步骤1：基于LSTM建立神经网络模型，根据预测过程训练数据，测试数据，并对数据进行预处理；

步骤1.2：根据制药用水模型中系统控制参数的预设取值范围随机产生控制参数，对数据进行异常排查，对于异常数据进行中值填补处理，其中，异常数据通常数值或数值变化率超出合理范围的数据，利用异常时刻前后各10秒的同类数据构成序列的中值对异常时刻数据进行填补并建立训练集和测试集。

实施步骤2：数据初始化，对所述LSTM网络模型进行训练，通过其结构设计来避免长期依赖问题，设置二层LSTM，一层全连接层，一层正则化dropout层，最后一层全连接层。每个门结构的神经网络层的神经元数量为128。设置优化函数为Adam，Adam是一种基于梯度下降的优化算法，用于训练神经网络；

步骤2.1：参见附图2，遗忘门决定系统丢弃信息，为保留信息量，通过以下计算得到：

，

遗忘门的输入为和，为短期记忆，为事件信息，输出的矩阵中每个元素为[0，1]区间的数字，其中输出1表示完全保留，输出0表示完全遗忘。为随机权重参数，即权值向量。为sigmoid激活函数。为偏置参数即遗忘门阈值。

，

其中表示单元状态，表示单元状态更新值，使用softsign激活函数作为更新单元状态值，输入层为储存的新信息，用于控制更新当前时刻的状态变量。为随机权重参数，、为偏置参数。是一个[0，1]的向量，通过单位乘运算，将上个单元的的部分特征信息保留到中。选取sigmoid激活函数输出一个[0，1]区间内的值。

输出门决定输出的单元状态，计算过程如下：

，

实施步骤3：采用DPPO算法进行系统参数优化，基于Actor-Critic强化学习框架，构建奖励函数，优势函数，并基于随机梯度算法选取剪辑代理目标的方法推导出损失函数；

步骤3.1：参见附图3，DPPO算法基于Actor-Critic强化学习框架，Actor（策略）根据价值函数训练策略，选择输出动作得到反馈，Critic（价值估计）根据状态训练价值函数，用于评价策略的优劣。DPPO主线程作为训练主体，即Global PPO（主线程）网络；12个子线程作为单独的模块探索环境收集数据后传入主线程网络，主线程使用数据进行训练，子线程中的PPO网络共用Global PPO网络参数，不断更新Global PPO参数，子线程再依据新的Global PPO进行数据采集，直到所有线程训练结束，收集的数据会稳定在一定范围，将其中的待优化参数范围取出即为参数优化后的结果。

使用实施步骤2的LSTM神经网络模型构建训练环境。训练环境模拟控制过程，训练环境的输入为制备系统当前环境参数，即实施步骤1训练数据集，作为当前状态。将当前状态输入Actor网络得到各行为的概率分布，根据概率分布随机取值从而得到动作，使用动作更新制备系统当前参数后得到新的制备系统参数，预测得到新状态下的结果，按照以下奖励函数使用当前预测结果和实际落点位置相关的目标结果计算得到奖励值。

，

其中表示当前状态下做动作时未来累积奖励的优劣程度；为折扣系数，通常取0.9，折扣系数可以作为强化学习模型的一个超参数进行调整，从而得到不同行为；为t时刻状态下奖励值，为从状态开始的累积奖励的预期折扣奖励，从主线程网络输出的参数近似计算得到；表示在状态选择动作的概率，为 t时刻状态下的预期折扣奖励，为T时刻状态下的预期折扣奖励；

，

其中min是在第一项与第二项里面选择比较小的项；是一个随机策略，为新旧策略概率比，用于限制模型与实际上学习的模型在优化以后的差距；clip函数指裁剪函数，clip函数中，如果第一项小于第二项，输出为；第一项如果大于第三项，输出为，是一个超参数，设置为0.1至0.2；

步骤3.2：基于LSTM神经网络模型采用DPPO算法具体训练流程如下：①基于LSTM神经网络构建模型，根据预测过程建立训练集和测试集，对数据进行预处理；②初始化DPPO网络，DPPO主线程，即Global PPO（主线程）网络作为训练主体，子线程从Global PPO网络获取网络参数，策略网络中使用新旧策略概率比限制计算步长。设置训练次数N；③采用12子线程执行策略探索环境，获得，并更新状态；④子线程中PPO网络作为单独的模块收集数据后存入经验池；⑤主线程使用经验池中数据进行训练，更新Global PPO网络参数，输出动作；⑥根据经验池数据通过近似计算得到，，；⑦将现有数据输入PPO网络中，更新现有策略；⑧重复m={1，2，…，N}，进行梯度计算得到；⑨优化算法损失，更新策略和价值估计网络参数，更新DPPO策略网络参数，训练N回合后停止训练，此时经验池中8组待调优参数稳定的范围即为优化结果。

Claims

1.一种基于深度强化学习的工业过程优化方法，其特征在于，包括以下步骤：

步骤1：建立LSTM网络模型，根据预测过程训练数据，测试数据，据制药用水系统模型选出需要被优化的参数及数量，设置优化目标，并建立训练集和测试集；

步骤2：对所述LSTM网络模型进行训练，设置二层LSTM，一层全连接层，一层dropout层，最后连接一层全连接层，每个门结构的神经网络层的神经元数量为128；设置优化算法为Adam；

步骤3：采用DPPO算法进行系统参数优化，基于Actor-Critic强化学习框架，构建奖励函数、优势函数，并基于随机梯度算法选取剪辑代理目标的方法推导出损失函数；具体包括以下步骤：

步骤3.1：所述DPPO算法基于Actor-Critic强化学习框架；DPPO主线程作为训练主体，包含一个Global PPO网络，所述Critic的输入为状态空间S，对状态进行简化表达为其中T为系统内实时温度，P为系统内水汽压，/>为蒸发器内相对湿度，τ为系统循环冷凝水流速；

奖励函数基于目标函数进行设计，由状态空间S根据以下奖励函数计算奖励r：

r＝-[α*|μ_i-μ|+β*|T_i-T|+δ*|P_i-P|]，

其中μ_i为某一时刻产水电导率，μ为系统目标产水电导率；T_i为某一时刻系统温度，T为系统目标稳定温度；P_i为某一时刻系统内水汽压值，P为系统内目标最优水汽压值；α、β、δ为权重系数，用于约束奖励函数数值范围；

步骤3.2：采用DPPO深度强化学习算法训练LSTM神经网络模型，寻优的具体流程如下：

①基于LSTM网络构建系统模型，根据预测过程建立训练集和测试集，对数据进行预处理；

②初始化DPPO网络，DPPO主线程，即Global PPO网络作为训练主体，子线程从GlobalPPO网络获取网络参数，Actor网络中使用新旧策略概率比限制计算步长，设置训练次数N；

③采用12子线程执行策略π_θ探索环境，获得s_t，并更新状态s_t←s′_t；

④子线程中PPO网络作为单独的模块收集数据后存入经验池；

⑤主线程使用经验池中数据进行训练，更新Global PPO网络参数，输出动作a′_t；

⑥根据经验池数据通过近似计算得到Q_π(s,a)，V_π(s)，A_π(s,a_t)；

Q_π(s,a)表示当前状态s下做动作a时未来累积奖励的优劣程度；

V_π(s)从状态s开始的累积奖励的预期折扣奖励；

A_π(s,a_t)表示在状态s，选取动作a的优势有多大；

⑦将现有数据输入PPO网络中，更新现有策略π_θ←π′_θ；

⑧重复m＝{1,2,…,N}，进行梯度计算得到

表示根据当前策略参数θ′选取剪辑代理目标的方法PPO2计算关于更新后策略参数θ的目标函数J的梯度值；

⑨优化算法损失，更新策略和价值估计网络参数，更新DPPO策略网络参数，训练N回合后停止训练，此时经验池中8组待调优参数稳定的范围即为优化结果。

2.根据权利要求1所述的一种基于深度强化学习的工业过程优化方法，其特征在于，步骤1所述的建立LSTM网络模型，根据预测过程训练数据，测试数据，据系统模型选出需要被优化的参数及数量，设置优化目标，并建立训练集和测试集，具体步骤如下：

步骤2.1：根据制药用水系统模型选取系统内实时温度、系统内水汽压、蒸发器内相对湿度、系统循环冷凝水流速、产水电导率、总有机碳、微生物限度、细菌内毒素作为待优化的参数，具体为8组数据集；

步骤2.2：根据制药用水模型中系统控制参数的预设取值范围随机产生控制参数，对于异常数据进行中值填补处理，其中，异常数据是数值或数值变化率超出合理范围的数据，利用异常时刻前后各10秒的同类数据构成序列的中值对异常时刻数据进行填补，再建立训练集和测试集。