CN116842856B - 一种基于深度强化学习的工业过程优化方法 - Google Patents
一种基于深度强化学习的工业过程优化方法 Download PDFInfo
- Publication number
- CN116842856B CN116842856B CN202311126264.7A CN202311126264A CN116842856B CN 116842856 B CN116842856 B CN 116842856B CN 202311126264 A CN202311126264 A CN 202311126264A CN 116842856 B CN116842856 B CN 116842856B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- network
- parameters
- optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000005457 optimization Methods 0.000 title claims abstract description 40
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 26
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 49
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 31
- YFPJFKYCVYXDJK-UHFFFAOYSA-N Diphenylphosphine oxide Chemical compound C=1C=CC=CC=1[P+](=O)C1=CC=CC=C1 YFPJFKYCVYXDJK-UHFFFAOYSA-N 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 12
- 239000008238 pharmaceutical water Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 3
- 229910052799 carbon Inorganic materials 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 239000002158 endotoxin Substances 0.000 claims description 3
- 244000005700 microbiome Species 0.000 claims description 3
- 108020001991 Protoporphyrinogen Oxidase Proteins 0.000 claims 6
- 101001091423 Agaricus bisporus Polyphenol oxidase 2 Proteins 0.000 claims 1
- 101000611523 Arabidopsis thaliana Protoporphyrinogen oxidase 2, chloroplastic/mitochondrial Proteins 0.000 claims 1
- 230000006403 short-term memory Effects 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 4
- 229960000074 biopharmaceutical Drugs 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 12
- 230000008901 benefit Effects 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开一种基于深度强化学习的工业过程优化方法,涉及基于特定计算模型的计算机系统、机器学习及工业过程控制领域。针对工业过程控制中参数优化存在精度差、鲁棒性较差等问题,首先,进行数据采集及预处理,建立训练集和测试集;其次,构建LSTM(Long Short‑Term Memory)循环神经网络模型;最后,使用DPPO(Distributed Proximal Policy Optimization)深度强化学习算法对模型进行参数优化。与现有技术相比,本发明可以提升传统工业过程控制中参数控制精度与可控性,更易提高系统运行效率与鲁棒性,本方法可广泛应用于生物制药、工业自动化等工业制造和生产领域。
Description
技术领域
本发明涉及基于特定计算模型的计算机系统、机器学习及工业过程控制领域,具体涉及一种基于深度强化学习的工业过程优化方法。
背景技术
在如今的工业生产中,自动化技术被广泛应用于生产线,以提高生产效率和降低成本。然而,由于制造业的生产过程异常繁琐,需要实时监控和调整多个参数,因此单一的自动化系统已经无法满足复杂的生产需求。因此,引入机器学习技术,以提升自动化水平。通过分析生产数据和模式识别,机器学习可以优化参数和决策,实现智能化控制和优化,使生产过程更智能化、灵活化和高效化。
在制药工业中,制药用水是生物制药过程中的重要组成部分。为保证其达到水质要求,世界各国在药典规范中都制定了相关质量标准。注射用水制备系统在医药行业中应用极为广泛,通过对蒸馏过程最佳工况点优化技术以及对温度和压力的精准控制技术研究的研究,经过蒸馏的过程优化,得到最佳工艺参数,提高合格产水效率和控制精度,并得到显著的节能效果。由于系统控制参数的强耦合特性,制药用水设备运行性能极易受到各项参数干扰,导致运行平衡被打破,对制药用水设备的高效、稳定运行提出了极大的挑战。因此,通过对制药用水系统的有效调控,提高其工作效率,成为保障运行稳定性与可靠性亟待解决的问题。制药用水设备控制参数优化不仅是简单的寻优问题,也是大规模、多目标、多参数之间的平衡问题,其节能增效与稳定运行相关研究也成为重点和难点。现有技术在解决此类工业过程控制的参数优化问题,要么存在精度不足、难以解决连续动作问题,如传统基于值的深度强化学习方法;要么存在步长敏感、不易收敛等问题,如基于行为的深度强化学习方法。
针对上述现有技术的不足,对此提出一种可以实现对连续状态进行控制的深度强化学习算法分布式近端策略优化(Distributed Proximal Policy Optimization,DPPO)算法进行运行优化。能够实现对连续状态进行控制,有助于解决系统控制参数优化问题,并且在近端策略优化(Proximal Policy Optimization,PPO)算法的基础之上实现对多个场景同时学习,使训练更易收敛,提高训练效果。
发明内容
本发明提出了一种基于深度强化学习的工业过程优化方法,该方法使用长短期记忆(Long Short-Term Memory,LSTM)循环神经网络通过DPPO算法训练来得到系统控制参数的最优阈值。LSTM网络适用于处理时间顺序列表数据,在DPPO算法中,LSTM可以处理以往的观察结果并更好地预测未来动作。另外LSTM网络可以解决长期依赖关系,即过去的决策如何影响未来的决策。本方法可将系统运行轨迹约束在一个指定的范围内并显著提高其控制精度,提高系统运行效率,保证系统运行稳定。
为实现上述目的,通过如下技术方案来实现:
步骤1:基于LSTM建立深度学习模型,根据预测过程训练数据,测试数据;
步骤1.1:根据实际模型选取系统内实时温度、系统内水汽压、蒸发器内相对湿度、系统循环冷凝水流速、产水电导率、总有机碳、微生物限度、细菌内毒素作为待优化的参数,具体为8组数据,设置优化目标;
步骤1.2:根据制药用水模型中系统控制参数的预设取值范围随机产生控制参数,对数据进行异常排查,对于异常数据进行中值填补处理,其中,异常数据通常数值或数值变化率超出合理范围的数据,利用异常时刻前后各10秒的同类数据构成序列的中值对异常时刻数据进行填补并建立训练集和测试集;
步骤2:对所述LSTM网络模型进行训练,设置二层LSTM,一层全连接层,一层正则化dropout层,最后连接一层全连接层,每个门结构的神经网络层的神经元数量为128。设置优化算法为Adam,Adam是一种基于梯度下降的优化算法,用于训练神经网络;
步骤2.1:LSTM核心部分单元状态可表示为:
,
遗忘门决定系统丢弃信息,表示单元状态,表示单元状态更新值,为输入
层储存的新信息,为保留信息量,通过以下计算得到:
,
遗忘门的输入为和,为短期记忆,为事件信息,输出的矩阵中
每个元素为[0,1]区间的数字,其中输出1表示完全保留,输出0表示完全遗忘。为随机权
重参数,即权值向量。为sigmoid激活函数,为偏置参数即遗忘门阈值。
输入门更新单元状态,存储新记忆信息,计算输入新信息为:
,
,
其中表示单元状态更新值,使用softsign激活函数作为更新单元状态值,输入
层为储存的新信息,用于控制更新当前时刻的状态变量。为随机权重参数,、为偏
置参数。是一个[0,1]的向量,通过单位乘运算,将上个单元的的部分特征信息保留
到中。选取sigmoid激活函数输出一个[0,1]区间内的值。
输出门决定输出的单元状态,计算过程如下:
,
,
其中输出的短期记忆由和单元状态计算得到,为输出门控,的计算
方式和相同,为随机权重参数,为激活函数,为偏置参数。
步骤3:采用DPPO算法进行系统参数优化;
步骤3.1:所述DPPO算法基于Actor-Critic强化学习框架,Actor(策略)网络根据价值函数训练策略,选择输出动作得到反馈,Critic(价值估计)网络根据状态训练价值函数,用于评价策略的优劣。
所述Critic的输入为状态空间,对状态进行简化表达为,其中为
系统内实时温度,为系统内水汽压,为蒸发器内相对湿度,为系统循环冷凝水流速。
奖励值的作用是指导模型学习,最终学习到最优策略。奖励函数一般基于目标函
数进行设计。由状态空间根据以下奖励函数计算奖励。,
其中为某一时刻产水电导率,为系统目标产水电导率。为某一时刻系统
温度,为系统目标稳定温度。为某一时刻系统内水汽压值,为系统内目标最优水汽
压值。、、为权重系数,用于约束奖励函数数值范围。
优势函数表示在状态,选取动作的优势有多大,评估在某个状态采
取各动作相对于平均回报的好坏,也就是采取这个动作的优势;为n个时间步的累计优
势函数估计值,计算方式如下:
,
,
,
其中表示当前状态下做动作时未来累积奖励的优劣程度;为折
扣系数,通常取0.9,折扣系数可以作为强化学习模型的一个超参数进行调整,从而得到不
同行为;为t时刻状态下奖励值,为从状态开始的累积奖励的预期折扣奖励,从训
练主体网络输出的参数近似计算得到;表示在状态选择动作的概率,为
t时刻状态下的预期折扣奖励,为T时刻状态下的预期折扣奖励;
基于随机梯度算法推导出损失函数,通过网络模型训练优化更新参数,目标函数
的梯度是策略梯度估计量;选取剪辑代理目标的方法,梯度通过下述计算方法得
到:
,
其中min是在第一项与第二项里面选择比较小的项;是一个随机策略,为新旧策略概率比,用于限制模型与实际上学习的模型在优化以后的差
距;clip函数指裁剪函数,clip函数中,如果第一项小于第二项,输出为;如果第一项大
于第三项,输出为,是一个超参数,设置为0.1至0.2;
步骤3.2:基于LSTM神经网络模型采用DPPO算法具体训练流程如下:①基于LSTM神
经网络构建模型,根据预测过程建立训练集和测试集,对数据进行预处理;②初始化DPPO网
络,DPPO主线程,即Global PPO(主线程)网络作为训练主体,子线程从Global PPO网络获取
网络参数,策略网络中使用新旧策略概率比限制计算步长。设置训练次数N;③采用12子线
程执行策略探索环境,获得,并更新状态;④子线程中PPO网络作为单独的模
块收集数据后存入经验池;⑤主线程使用经验池中数据进行训练,更新Global PPO网络参
数,输出动作;⑥根据经验池数据通过近似计算得到,,;⑦将现
有数据输入PPO网络中,更新现有策略;⑧重复m={1,2,…,N},进行梯度计算得到;⑨优化算法损失,更新策略和价值估计网络参数,更新DPPO策略网络参数,训练
N回合后停止训练,此时经验池中8组待调优参数稳定的范围即为优化结果。
本发明的有益效果如下:
该系统参数优化方法首先通过建立LSTM循环神经网络模型,可以解决长期时序信息处理时梯度消失的问题,使得网络具备记忆功能。采用DPPO算法优化系统参数,设置合理奖励参数指导模型学习,更易学习到最优策略。在使用DPPO算法更新策略时,通过新策略和旧策略的比例,来限制新策略的更新幅度,以此来提升学习效率。可将系统运行轨迹约束在一个指定的范围内并显著提高其控制精度。
附图说明
图1是本发明用于制药用水设备参数优化控制方法的流程示意图;
图2是LSTM神经网络模型单元结构图;
图3是本发明采用的DPPO算法流程示意图。
具体实施方式
以下结合附图,具体说明本发明的详细实施方式。
一种基于深度强化学习的制药用水设备参数优化控制方法,请参见附图1,包括如下步骤:
步骤1:基于LSTM建立神经网络模型,建立训练集和测试集,根据预测过程训练数据,测试数据,根据实际模型选出需要被优化的参数及数量,设置优化目标;
步骤2:对所述LSTM网络模型进行训练,设置二层LSTM,一层全连接层,一层正则化dropout层,最后连接一层全连接层,每个门结构的神经网络层的神经元数量为128。设置优化算法为Adam;
步骤3:采用DPPO算法进行系统参数优化,基于Actor-Critic强化学习框架,构建奖励函数,优势函数,并基于随机梯度算法选取剪辑代理目标的方法推导出损失函数;
具体实施说明如下:
实施步骤1:基于LSTM建立神经网络模型,根据预测过程训练数据,测试数据,并对数据进行预处理;
步骤1.1:根据实际模型选取系统内实时温度、系统内水汽压、蒸发器内相对湿度、系统循环冷凝水流速、产水电导率、总有机碳、微生物限度、细菌内毒素作为待优化的参数,具体为8组数据,设置优化目标;
步骤1.2:根据制药用水模型中系统控制参数的预设取值范围随机产生控制参数,对数据进行异常排查,对于异常数据进行中值填补处理,其中,异常数据通常数值或数值变化率超出合理范围的数据,利用异常时刻前后各10秒的同类数据构成序列的中值对异常时刻数据进行填补并建立训练集和测试集。
实施步骤2:数据初始化,对所述LSTM网络模型进行训练,通过其结构设计来避免长期依赖问题,设置二层LSTM,一层全连接层,一层正则化dropout层,最后一层全连接层。每个门结构的神经网络层的神经元数量为128。设置优化函数为Adam,Adam是一种基于梯度下降的优化算法,用于训练神经网络;
步骤2.1:参见附图2,遗忘门决定系统丢弃信息,为保留信息量,通过以下计算
得到:
,
遗忘门的输入为和,为短期记忆,为事件信息,输出的矩阵中
每个元素为[0,1]区间的数字,其中输出1表示完全保留,输出0表示完全遗忘。为随机权
重参数,即权值向量。为sigmoid激活函数。为偏置参数即遗忘门阈值。
输入门更新单元状态,存储新记忆信息,计算输入新信息为:
,
,
,
,
其中表示单元状态,表示单元状态更新值,使用softsign激活函数作为更新
单元状态值,输入层为储存的新信息,用于控制更新当前时刻的状态变量。为随机权重
参数,、为偏置参数。是一个[0,1]的向量,通过单位乘运算,将上个单元的的
部分特征信息保留到中。选取sigmoid激活函数输出一个[0,1]区间内的值。
输出门决定输出的单元状态,计算过程如下:
,
,
其中输出的短期记忆由和单元状态计算得到,为输出门控,的计算
方式和相同,为随机权重参数,为激活函数,为偏置参数。
实施步骤3:采用DPPO算法进行系统参数优化,基于Actor-Critic强化学习框架,构建奖励函数,优势函数,并基于随机梯度算法选取剪辑代理目标的方法推导出损失函数;
步骤3.1:参见附图3,DPPO算法基于Actor-Critic强化学习框架,Actor(策略)根据价值函数训练策略,选择输出动作得到反馈,Critic(价值估计)根据状态训练价值函数,用于评价策略的优劣。DPPO主线程作为训练主体,即Global PPO(主线程)网络;12个子线程作为单独的模块探索环境收集数据后传入主线程网络,主线程使用数据进行训练,子线程中的PPO网络共用Global PPO网络参数,不断更新Global PPO参数,子线程再依据新的Global PPO进行数据采集,直到所有线程训练结束,收集的数据会稳定在一定范围,将其中的待优化参数范围取出即为参数优化后的结果。
所述Critic的输入为状态空间,对状态进行简化表达为,其中为
系统内实时温度,为系统内水汽压,为蒸发器内相对湿度,为系统循环冷凝水流速。
使用实施步骤2的LSTM神经网络模型构建训练环境。训练环境模拟控制过程,训练
环境的输入为制备系统当前环境参数,即实施步骤1训练数据集,作为当前状态。将当前
状态输入Actor网络得到各行为的概率分布,根据概率分布随机取值从而得到动作,使
用动作更新制备系统当前参数后得到新的制备系统参数,预测得到新状态下的结果,按
照以下奖励函数使用当前预测结果和实际落点位置相关的目标结果计算得到奖励值。
奖励值的作用是指导模型学习,最终学习到最优策略。奖励函数一般基于目标函
数进行设计。由状态空间根据以下奖励函数计算奖励。,
其中为某一时刻产水电导率,为系统目标产水电导率。为某一时刻系统
温度,为系统目标稳定温度。为某一时刻系统内水汽压值,为系统内目标最优水汽
压值。、、为权重系数,用于约束奖励函数数值范围。
优势函数表示在状态,选取动作的优势有多大,评估在某个状态采
取各动作相对于平均回报的好坏,也就是采取这个动作的优势;为n个时间步的累计优
势函数估计值,计算方式如下:
,
,
,
其中表示当前状态下做动作时未来累积奖励的优劣程度;为折
扣系数,通常取0.9,折扣系数可以作为强化学习模型的一个超参数进行调整,从而得到不
同行为;为t时刻状态下奖励值,为从状态开始的累积奖励的预期折扣奖励,从
主线程网络输出的参数近似计算得到;表示在状态选择动作的概率,为
t时刻状态下的预期折扣奖励,为T时刻状态下的预期折扣奖励;
基于随机梯度算法推导出损失函数,通过网络模型训练优化更新参数,目标函数
的梯度是策略梯度估计量;选取剪辑代理目标的方法,梯度通过下述计算方法得
到:
,
其中min是在第一项与第二项里面选择比较小的项;是一个随机策略,为新旧策略概率比,用于限制模型与实际上学习的模型在优化以后
的差距;clip函数指裁剪函数,clip函数中,如果第一项小于第二项,输出为;第一项如
果大于第三项,输出为,是一个超参数,设置为0.1至0.2;
步骤3.2:基于LSTM神经网络模型采用DPPO算法具体训练流程如下:①基于LSTM神
经网络构建模型,根据预测过程建立训练集和测试集,对数据进行预处理;②初始化DPPO网
络,DPPO主线程,即Global PPO(主线程)网络作为训练主体,子线程从Global PPO网络获取
网络参数,策略网络中使用新旧策略概率比限制计算步长。设置训练次数N;③采用12子线
程执行策略探索环境,获得,并更新状态;④子线程中PPO网络作为单独的模
块收集数据后存入经验池;⑤主线程使用经验池中数据进行训练,更新Global PPO网络参
数,输出动作;⑥根据经验池数据通过近似计算得到,,;⑦将现
有数据输入PPO网络中,更新现有策略;⑧重复m={1,2,…,N},进行梯度计算得到;⑨优化算法损失,更新策略和价值估计网络参数,更新DPPO策略网络参数,训
练N回合后停止训练,此时经验池中8组待调优参数稳定的范围即为优化结果。
Claims (2)
1.一种基于深度强化学习的工业过程优化方法,其特征在于,包括以下步骤:
步骤1:建立LSTM网络模型,根据预测过程训练数据,测试数据,据制药用水系统模型选出需要被优化的参数及数量,设置优化目标,并建立训练集和测试集;
步骤2:对所述LSTM网络模型进行训练,设置二层LSTM,一层全连接层,一层dropout层,最后连接一层全连接层,每个门结构的神经网络层的神经元数量为128;设置优化算法为Adam;
步骤3:采用DPPO算法进行系统参数优化,基于Actor-Critic强化学习框架,构建奖励函数、优势函数,并基于随机梯度算法选取剪辑代理目标的方法推导出损失函数;具体包括以下步骤:
步骤3.1:所述DPPO算法基于Actor-Critic强化学习框架;DPPO主线程作为训练主体,包含一个Global PPO网络,所述Critic的输入为状态空间S,对状态进行简化表达为其中T为系统内实时温度,P为系统内水汽压,/>为蒸发器内相对湿度,τ为系统循环冷凝水流速;
奖励函数基于目标函数进行设计,由状态空间S根据以下奖励函数计算奖励r:
r=-[α*|μi-μ|+β*|Ti-T|+δ*|Pi-P|],
其中μi为某一时刻产水电导率,μ为系统目标产水电导率;Ti为某一时刻系统温度,T为系统目标稳定温度;Pi为某一时刻系统内水汽压值,P为系统内目标最优水汽压值;α、β、δ为权重系数,用于约束奖励函数数值范围;
步骤3.2:采用DPPO深度强化学习算法训练LSTM神经网络模型,寻优的具体流程如下:
①基于LSTM网络构建系统模型,根据预测过程建立训练集和测试集,对数据进行预处理;
②初始化DPPO网络,DPPO主线程,即Global PPO网络作为训练主体,子线程从GlobalPPO网络获取网络参数,Actor网络中使用新旧策略概率比限制计算步长,设置训练次数N;
③采用12子线程执行策略πθ探索环境,获得st,并更新状态st←s′t;
④子线程中PPO网络作为单独的模块收集数据后存入经验池;
⑤主线程使用经验池中数据进行训练,更新Global PPO网络参数,输出动作a′t;
⑥根据经验池数据通过近似计算得到Qπ(s,a),Vπ(s),Aπ(s,at);
Qπ(s,a)表示当前状态s下做动作a时未来累积奖励的优劣程度;
Vπ(s)从状态s开始的累积奖励的预期折扣奖励;
Aπ(s,at)表示在状态s,选取动作a的优势有多大;
⑦将现有数据输入PPO网络中,更新现有策略πθ←π′θ;
⑧重复m={1,2,…,N},进行梯度计算得到
表示根据当前策略参数θ′选取剪辑代理目标的方法PPO2计算关于更新后策略参数θ的目标函数J的梯度值;
⑨优化算法损失,更新策略和价值估计网络参数,更新DPPO策略网络参数,训练N回合后停止训练,此时经验池中8组待调优参数稳定的范围即为优化结果。
2.根据权利要求1所述的一种基于深度强化学习的工业过程优化方法,其特征在于,步骤1所述的建立LSTM网络模型,根据预测过程训练数据,测试数据,据系统模型选出需要被优化的参数及数量,设置优化目标,并建立训练集和测试集,具体步骤如下:
步骤2.1:根据制药用水系统模型选取系统内实时温度、系统内水汽压、蒸发器内相对湿度、系统循环冷凝水流速、产水电导率、总有机碳、微生物限度、细菌内毒素作为待优化的参数,具体为8组数据集;
步骤2.2:根据制药用水模型中系统控制参数的预设取值范围随机产生控制参数,对于异常数据进行中值填补处理,其中,异常数据是数值或数值变化率超出合理范围的数据,利用异常时刻前后各10秒的同类数据构成序列的中值对异常时刻数据进行填补,再建立训练集和测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311126264.7A CN116842856B (zh) | 2023-09-04 | 2023-09-04 | 一种基于深度强化学习的工业过程优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311126264.7A CN116842856B (zh) | 2023-09-04 | 2023-09-04 | 一种基于深度强化学习的工业过程优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116842856A CN116842856A (zh) | 2023-10-03 |
CN116842856B true CN116842856B (zh) | 2023-11-14 |
Family
ID=88171101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311126264.7A Active CN116842856B (zh) | 2023-09-04 | 2023-09-04 | 一种基于深度强化学习的工业过程优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842856B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117241295B (zh) * | 2023-10-08 | 2024-04-19 | 江西山水光电科技股份有限公司 | 一种无线通信网络性能优化方法、装置及存储介质 |
CN117314370B (zh) * | 2023-11-30 | 2024-03-01 | 嘉兴市信达电子科技有限公司 | 一种基于智慧能源的数据驾驶舱系统及实现方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737288A (zh) * | 2012-06-20 | 2012-10-17 | 浙江大学 | 一种基于rbf神经网络参数自优化的水质多步预测方法 |
CN207002308U (zh) * | 2017-04-12 | 2018-02-13 | 上海格燊生物科技有限公司 | 一种制药用水分配系统 |
CN110163238A (zh) * | 2018-12-13 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息预测的方法、模型训练的方法以及服务器 |
CN110606620A (zh) * | 2019-08-15 | 2019-12-24 | 江苏如是地球空间信息科技有限公司 | 污水处理工艺及基于神经网络对其中生化环节控制的方法 |
CN111931418A (zh) * | 2020-07-21 | 2020-11-13 | 广东工业大学 | 一种基于进化神经网络的马蹄焰玻璃窑炉的热效率预测方法 |
CN112633772A (zh) * | 2021-01-05 | 2021-04-09 | 东华大学 | 一种纺织面料染色车间多智能体深度强化学习调度方法 |
CN113259657A (zh) * | 2021-05-18 | 2021-08-13 | 上海大学 | 基于视频质量分数的dppo码率自适应控制系统和方法 |
-
2023
- 2023-09-04 CN CN202311126264.7A patent/CN116842856B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737288A (zh) * | 2012-06-20 | 2012-10-17 | 浙江大学 | 一种基于rbf神经网络参数自优化的水质多步预测方法 |
CN207002308U (zh) * | 2017-04-12 | 2018-02-13 | 上海格燊生物科技有限公司 | 一种制药用水分配系统 |
CN110163238A (zh) * | 2018-12-13 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息预测的方法、模型训练的方法以及服务器 |
CN110606620A (zh) * | 2019-08-15 | 2019-12-24 | 江苏如是地球空间信息科技有限公司 | 污水处理工艺及基于神经网络对其中生化环节控制的方法 |
CN111931418A (zh) * | 2020-07-21 | 2020-11-13 | 广东工业大学 | 一种基于进化神经网络的马蹄焰玻璃窑炉的热效率预测方法 |
CN112633772A (zh) * | 2021-01-05 | 2021-04-09 | 东华大学 | 一种纺织面料染色车间多智能体深度强化学习调度方法 |
CN113259657A (zh) * | 2021-05-18 | 2021-08-13 | 上海大学 | 基于视频质量分数的dppo码率自适应控制系统和方法 |
Non-Patent Citations (2)
Title |
---|
Chengqing Liang,et al.Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network.《Neural Networks》.2023,正文第21-33页. * |
基于策略梯度的多热力站热量分配优化研究;谭梦媛;《中国优秀硕士学位论文全文数据库库》;正文第23-41页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116842856A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116842856B (zh) | 一种基于深度强化学习的工业过程优化方法 | |
CN111474965B (zh) | 基于模糊神经网络的串联输水渠道水位预测与控制方法 | |
CN110515411B (zh) | 一种水处理加药量控制方法及系统 | |
CN109472397B (zh) | 基于粘度变化的聚合工艺参数调节方法 | |
CN114925850B (zh) | 一种面向扰动奖励的深度强化学习对抗防御方法 | |
CN116560239B (zh) | 一种多智能体强化学习方法、装置及介质 | |
CN112163671A (zh) | 一种新能源场景生成方法及系统 | |
CN105630648A (zh) | 基于多维数据深度学习的数据中心智能控制方法及系统 | |
CN113141012A (zh) | 基于深度确定性策略梯度网络的电网潮流调控决策推理方法 | |
Chen et al. | Policy gradient from demonstration and curiosity | |
Zuo et al. | Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations | |
CN117195747B (zh) | 一种磁性材料烘干用均匀热分布优化方法 | |
CN113419424A (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
CN115938104A (zh) | 一种动态短时路网交通状态预测模型及预测方法 | |
CN111160170B (zh) | 一种自学习的人体行为识别与异常检测方法 | |
CN108523768A (zh) | 基于自适应策略优化的家庭清洁机器人控制系统 | |
Zhang et al. | Dynamics-adaptive continual reinforcement learning via progressive contextualization | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
CN116579233A (zh) | 一种机械设备的剩余寿命预测方法 | |
CN116224872A (zh) | 针对多物理场耦合大规模工业系统的知识引入预测控制方法、预测控制器、设备及介质 | |
CN115618497A (zh) | 一种基于深度强化学习的翼型优化设计方法 | |
CN114943277A (zh) | 一种综合能源系统运行工况识别与运行性能预测方法 | |
CN114118377A (zh) | 基于替代变量模型的决策效果评估方法、系统和计算机介质 | |
Wawrzyński | A cat-like robot real-time learning to run | |
CN113837443A (zh) | 基于深度BiLSTM的变电站线路负载预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |