CN111036044B

CN111036044B - 一种基于深度强化学习的零耗气吸附式干燥机的控制方法

Info

Publication number: CN111036044B
Application number: CN201911262083.0A
Authority: CN
Inventors: 陈仲华
Original assignee: Jiangxi Avis Machinery Co ltd
Current assignee: Jiangxi Avis Machinery Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-07-26
Anticipated expiration: 2039-12-10
Also published as: CN111036044A

Abstract

本发明提供了一种基于深度强化学习的零耗气吸附式干燥机控制方法，通过将空气湿度A_t，气体流量P_t，外部环境温度K_t以及该时刻t在所处流程中与本流程开始时刻所间隔的时间T_t作为深度强化学习神经网络的输入量，并构造相应的奖励函数，使得零耗气吸附式干燥机能够精确切换流程，能根据环境变化做出相应调整，保证干燥空气温度输出，高效率使用吸附剂且不需要知道吸附剂相关数据，减少整机不必要动作延长设备使用寿命。

Description

一种基于深度强化学习的零耗气吸附式干燥机的控制方法

技术领域

本发明涉及干燥机技术领域，尤其是涉及一种基于深度强化学习的零耗气吸附式干燥机的控制方法。

背景技术

零耗气吸附式干燥机是一种常见的压缩空气干燥设备，具有能耗低，循环过程中压力保持不变的优点。

现有技术中，对于零耗气吸附式干燥机的状态切换具有不够智能，难以和环境相应，切换时间不够精确的缺点，导致整机效率降低，能耗增加，设备寿命由于频繁的低效开关而缩短，带来诸多不利。

申请号为201220685053.8的一种零耗气吸附式干燥机的温度控制装置提供了一种以温度信号为基础，由智能化控制器控制阀门切换的控制方法，然而该方法需要提前知道吸附剂的完全解吸温度，同时也缺少对环境变化因素的考虑，使得智能化控制器在判断指令切换时并不精确。

通常，以申请号为201220685053.8公布的电路图为基础的零耗气吸附式干燥机包括下述流程：

①左吸附罐加热(解吸附)、右吸附罐干燥阶段流程；

②左吸附罐冷却(吸附)、右吸附罐干燥阶段流程；

③右吸附罐加热(解吸附)、左吸附罐干燥阶段流程；

④右吸附罐冷却(吸附)、左吸附罐干燥阶段流程。

那么，如何使控制程序发出指令精确切换流程，能根据环境变化做出相应调整，且没有多余能耗，同时高效率使用吸附剂，减少整机不必要动作延长寿命成为一个需要解决的问题。

发明内容

本发明所要解决的技术问题是提供一种能够精确切换流程，能根据环境变化做出相应调整，高效率使用吸附剂且不需要知道吸附剂相关数据，延长设备使用寿命的零耗气吸附式干燥机的控制方法。

本发明所采用的技术方案是，一种基于深度强化学习的零耗气吸附式干燥机的控制方法，包括：

S1、构建深度强化学习神经网络；

S2、采集每个时刻t干燥机输出的空气湿度A_t，气体流量P_t，外部环境温度 K_t以及该时刻t在所处流程中与本流程开始时刻所间隔的时间T_t作为神经网络的输入量，将输入量记为S_t；

S3、将t时刻输出动作a_t后获得的奖励记为r_t；

S4、构建损失函数，训练深度强化学习神经网络获得指令切换最优策略。

本发明的有益效果是：

(1)通过使用深度强化学习模型，将切换判断指标从具体的温度值变为湿度值的变化量，从而能够直接保证可以准确对湿度变化做出反应。

(2)通过深度强化学习探索最优策略，使得在流程切换时，吸附剂能够处于已经发挥最大限度作用的状态，使得整个设备的使用效率加强，不需要考虑吸附剂最大发挥作用时的温度值，延长流程切换间隔从而增加设备使用寿命。

(3)与一般的根据实时判断空气湿度进行流程实时切换的控制方法相比，将湿度、时长作为神经网络输入量的控制方法能够保证在训练后保证干燥空气的稳定输出，切换时间精确，而一般的方法在空气输出端感知到湿度增长时，往往意味着一部分未干燥气体已经泄露，难以保证系统流程精确切换。

(4)将气体流量和外部环境温度加入神经网络输入量中，使得白天黑夜以及季节变换所导致的环境参数能够作为判断依据之一，使干燥机能够根据环境变化进行精准切换。

作为优先，步骤S1中所述的深度强化学习神经网络使用DQN算法，包括动作价值输出神经网络和根据ξ-greedy方法得到的经验池，所述经验池记录的每组数据为(S_t，a_t，r_t，S_t+1)，通过ξ-greedy方法进行搜索，使得经验池能够获取执行动作在环境中所带来的真实奖励。

作为优先，步骤S2中所述的空气湿度A_t为绝对空气湿度，使用绝对空气湿度作为输入数据，能够更直观的呈现干燥机输出空气的干燥程度。

作为优先，步骤S3中所述的a_t包括切换工作状态指令

和保持当前工作状态指令

所述切换工作状态指令

是指按照常规的零耗气吸附式干燥机切换流程顺序进行切换，每一个

指令的发出都代表干燥机按照顺序切换至下一个流程，通过这样的设置，使得输出动作时只需要判断两个动作指令的价值，减小运算量，简化模型。

作为优先，步骤S3中所述的r_t＝1+γT-(1+A_t-A_t-1)^2η，当t时刻的动作指令为

时，T的取值为0，当t时刻的动作指令为

时，T为当前的

指令与上一个发出切换工作状态指令时刻之间的时长，γ是T的影响因子，γ＞0，η是空气湿度的放大系数，为正整数，将两个切换指令之间的时间作为奖励，使得在控制流程切换时，控制程序会尽可能的延长两个切换流程指令之间的时间，从而使吸附剂能够充分发挥作用；通过设置与空气湿度相关的负奖励，使得当吸附剂未发挥完作用，当前时刻与上一时刻的空气湿度变化量趋近于0，使得r_t的值趋近于T，仍然能够保持奖励的增长，从而增大最大累积奖励，而当空气湿度变化量增大时，在指数放大的作用下，负奖励将在极短时间内增长为一个较大的值使最大积累奖励在短时间内降低较大数值乃至直接变为负数，从而促使智能控制程序自主调节到在吸附剂用完时即切换流程的策略，使得总累积奖励能够在不检测到空气湿度产生较大变化的基础上达到最大值，使用1+A_t-A_t-1是因为湿度变化幅度偏小，不加1的话，控制程序容易忽视在较小幅度内变化的湿度，加1后控制程序能够更容易感知到在小幅度内变化的空气湿度。

作为优先，步骤S4中所述的损失函数为：

L＝(r_t+Qmax(S_t+1，a_t+1)-Q(S_t，a_t))²

其中，Q(S_t，a_t)为当前时刻以选择动作的前提下输出的该动作最大累积奖励期望，Qmax(S_t+1，a_t+1)为下一时刻可以选择的动作所对应的最大累积奖励期望中，数值最大的最大累积奖励期望，使用常规的DQN算法损失函数构造方式，运算量相对较小，节省运算资源。

作为优先，步骤S4中所述的训练深度强化学习神经网络的方法为从经验池中获取训练数据，使用梯度下降法对神经网络进行训练，通过梯度下降法对训练数据进行计算优化神经网络，使得神经网络能够求得最优策略。

具体实施方式

本发明公开了一种基于深度强化学习的零耗气吸附式干燥机的控制方法，包括：

S1、构建深度强化学习神经网络；

所述的深度强化学习神经网络使用DQN算法，包括动作价值输出神经网络和根据ξ-greedy方法得到的经验池，所述经验池记录的每组数据为(S_t，a_t，r_t，S_t+1)，通过ξ-greedy方法进行搜索，使得经验池能够获取执行动作在环境中所带来的真实奖励。

步骤S2中所述的空气湿度A_t为绝对空气湿度，使用绝对空气湿度作为输入数据，能够更直观的呈现干燥机输出空气的干燥程度。

将空气湿度A_t，气体流量P_t，外部环境温度K_t以及该时刻t在所处流程中与本流程开始时刻所间隔的时间T_t作为神经网络的输入量，使得该控制方法能够对不同环境做出灵活应对，使得流程切换更为精准，保证干燥机能够稳定输出干燥空气。

S3、将t时刻输出动作a_t后获得的奖励记为r_t；

所述的a_t包括切换工作状态指令

和保持当前工作状态指令

所述切换工作状态指令

步骤S3中所述的r_t＝1+γT-(1+A_t-A_t-1)^2η，当t时刻的动作指令为

时，T 的取值为0，当t时刻的动作指令为

时，T为当前的

指令与上一个发出切换工作状态指令时刻之间的时长，γ是T的影响因子，γ＞0，η是空气湿度的放大系数，为正整数，将两个切换指令之间的时间作为奖励，使得在控制流程切换时，控制程序会尽可能的延长两个切换流程指令之间的时间，从而使吸附剂能够充分发挥作用；通过设置与空气湿度相关的负奖励，使得当吸附剂未发挥完作用，当前时刻与上一时刻的空气湿度变化量趋近于0，使得r_t的值趋近于T，仍然能够保持奖励的增长，从而增大最大累积奖励，而当空气湿度变化量增大时，在指数放大的作用下，负奖励将在极短时间内增长为一个较大的值，使最大积累奖励在短时间内降低较大数值乃至直接变为负数，从而促使智能控制程序自主调节到在吸附剂用完时即切换流程的策略，使得总累积奖励能够在不检测到空气湿度产生较大变化的基础上达到最大值。

步骤S4中所述的损失函数为：

L＝(r_t+λQmax(S_t+1，a_t+1)-Q(S_t，a_t))²

其中，Q(A_t，a_t)为当前时刻以选择动作的前提下输出的该动作最大累积奖励期望，Qmax(A_t+1，a_t+1)为下一时刻可以选择的动作所对应的最大累积奖励期望中，数值最大的最大累积奖励期望，λ为折扣系数，使用常规的DQN算法损失函数构造方式，运算量相对较小，节省运算资源。

步骤S4中所述的训练深度强化学习神经网络的方法为从经验池中获取训练数据，使用梯度下降法对神经网络进行训练，通过梯度下降法对训练数据进行计算优化神经网络，使得神经网络能够求得最优策略。

本发明的有益效果是：

在具体的实施例中，γ、η和λ根据实际需求进行调整，如当希望空气湿度变化不超过0.1时，η可以取为50，此时当湿度变化在0.01数量级浮动时，指数放大后仍保持在较小值，当湿度变化为0.1数量级时，指数放大后放大幅度极大，γ为100，T的单位为秒，与放大后的负奖励相适应，该选取规律可由对公式进行数值调试获得，λ可以取为0.5，为深度强化学习折扣系数的常规取值。

在具体落地使用时，定期利用ξ-greedy方法对环境的实际情况进行探索，获得经验池，然后根据经验池对神经网络模型进行优化，得到一个相对最优的流程切换策略，随着使用时间的延长，神经网络的函数拟合将越来越接近真实环境变化，从而保证能够获得设备流程切换的最优策略，使得吸附式干燥机能够稳定输出干燥空气。

Claims

1.一种基于深度强化学习的零耗气吸附式干燥机控制方法，其特征在于，包括：

S1、构建深度强化学习神经网络；

S2、采集每个时刻t干燥机输出的空气湿度A_t，气体流量P_t，外部环境温度K_t以及该时刻t在所处流程中与本流程开始时刻所间隔的时间T_t作为神经网络的输入量，将输入量记为S_t；

S3、将t时刻输出动作a_t后获得的奖励记为r_t；

S4、构建损失函数，训练深度强化学习神经网络获得指令切换最优策略；

步骤S1中所述的深度强化学习神经网络使用DQN算法，包括动作价值输出神经网络和根据ξ-greedy方法得到的经验池，所述经验池记录的每组数据为(S_t，a_t，r_t，S_t+1)；

步骤S2中所述的空气湿度A_t为绝对空气湿度；

时，T的取值为0，当t时刻的动作指令为

时，T为当前的

指令与上一个发出切换工作状态指令时刻之间的时长，γ是T的影响因子，η是空气湿度的放大系数且为正整数；

步骤S3中所述的a_t包括切换工作状态指令

和保持当前工作状态指令

2.根据权利要求1所述的一种基于深度强化学习的零耗气吸附式干燥机控制方法，其特征在于，步骤S4中所述的损失函数为：

L＝(r_t+Qmax(A_t+1，a_t+1)-Q(A_t，a_t))²

其中，Q(A_t，a_t)为当前时刻以选择动作的前提下输出的该动作最大累积奖励期望，Qmax(A_t+1，a_t+1)为下一时刻可以选择的动作所对应的最大累积奖励期望中，数值最大的最大累积奖励期望。

3.根据权利要求1所述的一种基于深度强化学习的零耗气吸附式干燥机控制方法，其特征在于，步骤S4中所述的训练深度强化学习神经网络的方法为从经验池中获取训练数据，使用梯度下降法对神经网络进行训练。