CN112325447A

CN112325447A - 一种基于强化学习的制冷机组控制装置及控制方法

Info

Publication number: CN112325447A
Application number: CN202011201158.7A
Authority: CN
Inventors: 陈建平; 范晶晶; 傅启明
Original assignee: Zhuhai Mizao Intelligent Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Zhuhai Mizao Intelligent Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-05
Anticipated expiration: 2040-11-02
Also published as: CN112325447B

Abstract

本发明涉及一种基于强化学习的制冷机组控制装置及控制方法。主要包括数据采集模块和数据处理模块，所述数据采集模块用于获取环境数据，所述数据处理模块用于接收所述数据采集模块的环境数据，所述数据处理模块包括建模单元和决策单元，所述建模单元用于根据所述环境数据建立环境模型，所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。上述装置通过采集环境数据，并建立环境模型，然后通过DDPG算法求解最优控制策略，通过最优控制策略来控制各个相关设备的运转。这样可在保证中央空调系统正常运转的同时，使得总能耗较低。

Description

一种基于强化学习的制冷机组控制装置及控制方法

技术领域

本发明涉及控制领域，特别是涉及基于强化学习的制冷机组控制装置及控制方法。

背景技术

随着经济的发展，大型建筑内应用了中央空调系统来调节建筑物内部温度。中央空调系统的主要耗能设备包括冷冻泵、冷却泵以及制冷压缩机。这些设备可通过无极调节方式进行调节。但这些设备如何相互配合才能达到总能耗较低且保证中央空调系统正常运转，这已经成为一个难题。

发明内容

基于此，有必要提供一种基于强化学习的制冷机组控制装置。该装置有利于在保证中央空调系统正常运转的同时，使得总能耗较低。

一种基于强化学习的制冷机组控制装置，

包括数据采集模块和数据处理模块，

所述数据采集模块用于获取环境数据，

所述数据处理模块用于接收所述数据采集模块的环境数据，所述数据处理模块包括建模单元和决策单元，所述建模单元用于根据所述环境数据建立环境模型，所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。

上述装置通过采集环境数据，并建立环境模型，然后通过DDPG算法求解最优控制策略，通过最优控制策略来控制各个相关设备的运转。这样可在保证中央空调系统正常运转的同时，使得总能耗较低。

在其中一个实施例中，

所述根据所述数据建立环境模型，包括：

将制冷机组控制问题构建为一个马尔科夫决策过程模型，并定义其中的状态，动作和立即奖赏函数：

状态：用s表示，设t时刻，总能耗为P_q，冷冻水出水温度为T_o、冷却水进水温度为T_i、冷冻泵的出水口的冷冻水流量为V₀、冷却泵的出水口的冷却水流量为V_i，则此时刻的状态可表示为：

S_t＝(P_q,T_o,T_i,V_o,V_i)，

其中，冷冻水出水温度T_o的限制范围为：5≤T_o≤12，冷却水进水温度T_i的限制范围为：22≤T_i≤33，冷冻泵的冷冻水流量V₀的限制范围为：63≤V_o≤105，冷却泵的冷却水流量V_i的限制范围为：75≤V_i≤125，动作，用a表示，t时刻的动作a用[设置冷冻泵，设置冷却泵，设置制冷压缩机]表示，其中，设置冷冻泵用O_d表示，设置冷却泵用O_q表示，设置制冷压缩机用O_y表示，则t时刻可采取的动作集合为：

a＝{[O_d0,O_q0,O_y0],[O_d1,O_q1,O_y1],[O_d2,O_q2,O_y2],...}，

立即奖赏函数，用r表示，其中，若t时刻采用动作a后，冷冻水出水温度T_o在限制范围外，或冷却水进水温度T_i在限制范围外，或冷冻泵的冷冻水流量V₀在限制范围外，或冷却泵的冷却水流量V_i在限制范围外，则r＝-100P_q，否则，r＝-P_q，

建立值函数回报模型，设R(s,a)表示在状态s下采用动作a的回报值，值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]。

在其中一个实施例中，

所述DDPG算法的经验回放池的数量为两个，分别为B1经验回放池和B2经验回放池，具有高TD误差的经验存储在B2经验回放池，其他经验存储在B1经验回放池中，当进行采样时，从B1经验回放池中采样一部分，从B2经验回放池中采样一部分，且从B2经验回放池中采样的概率的初始值为8％到12％，且所述概率随着时间的后移逐渐降低。

在其中一个实施例中，

所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络，所述DDPG算法通过以下最小化损失函数来更新每个评论家网络：

L_MC(θ_i)＝αL_avg(θ)+βL_tar(θ_i)+η(Q_i(s,a,θ_i)-Q_avg(s,a,θ))²，其中，L_MC(θ_i)为平均评论家的损失函数平均值，α，β和η为权重，α，β和η都是0到1之间的浮点数，α和β加起来等于1，L_avg(θ)为评论家网络的损失函数平均值，L_tar(θ_i)为目标评论家网络的损失函数值，

其中，

是目标评论家网络的Q值平均值，Q_avg(s,a,θ)为K个在线评论家网络的Q值平均值，r(s,a)为立即奖赏，

其中，K为在线评论家网络的个数，Q_i(s,a,θ_i)为第i个在线评论家网络的Q值，

其中，K为目标评论家网络的个数，

为第i个目标评论家网络的Q值，

为K个目标评论家网络的Q值平均值，

其中，r(s,a)为立即奖赏，Q_i(s,a,θ_i)为第i个在线评论家网络的Q值。

在其中一个实施例中，

所述DDPG算法中，通过策略梯度来更新行动者的策略，具体应用以下公式：

其中

表示策略梯度，N为网络个数，

为EMA网络的策略梯度，

为策略网络的策略梯度，

通过EMA网络的Q网络和评论家网络里的目标Q网络合作来更新目标网络的参数，具体应用以下公式：

θ^μ′←qθ^μ+(1-q)θ^μ′，其中，θ^EMA为EMA网络的权重，

为评论家网络的权重，θ^μ为策略网络的权重，m，n，q都是0到1之间的浮点数。

一种基于强化学习的制冷机组控制方法，

首先，采集建筑物的环境数据，

然后，根据所述环境数据建立环境模型，根据所述环境模型并通过DDPG算法求解最优控制策略。

在其中一个实施例中，

其中

表示策略梯度，N为网络个数，

为EMA网络的策略梯度，

为策略网络的策略梯度，

θ^μ′←qθ^μ+(1-q)θ^μ′，其中，θ^EMA为EMA网络的权重，

在其中一个实施例中，

L_MC(θi_i)＝αL_avg(θ)+βL_tar(θ_i)+η(Q_i(s,a,θ_i)-Q_avg(s,a,θ))²，其中，L_MC(θ_i)为平均评论家的损失函数平均值，α，β和η为权重，α，β和η都是0到1之间的浮点数，α和β加起来等于1，L_avg(θ)为评论家网络的损失函数平均值，L_tar(θ_i)为目标评论家网络的损失函数值，

其中，

其中，K为目标评论家网络的个数，

为第i个目标评论家网络的Q值，

为K个目标评论家网络的Q值平均值，

一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的制冷机组控制方法对应的操作。

附图说明

图1为本发明的实施例的制冷机组控制装置的示意图。

图2为本发明的实施例的制冷机组的示意图。

图3为本发明的实施例的制冷机组控制装置中的DDPG算法的流程图，图中的策略网络也就是行动者网络，图中的值网络也就是评论家网络。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，本发明的实施例提供了一种基于强化学习的制冷机组控制装置，该装置包括数据采集模块和数据处理模块。

所述数据采集模块用于获取环境数据，例如，可获取总能耗(冷冻泵、冷却泵以及制冷压缩机的三个设备的总能耗)、冷冻水出水温度、冷却水进水温度、冷冻水泵流量、冷却水泵流量。

上述冷冻泵、冷却泵以及制冷压缩机可采用无极调节的设备。也就是各个设备的调节是连续变化的。

本实施例中，所述根据所述数据建立环境模型，包括：

状态：用s表示，设t时刻，总能耗为P_q，也就是冷冻泵、冷却泵以及制冷压缩机的三个设备的总能耗，冷冻水出水温度为T_o(℃)。这里的冷冻水出水温度就是由图3中的蒸发器换热后流出的冷冻水的温度。冷却水进水温度为T_i(℃)、这里的冷却水进水温度就是进入冷却装置的冷却水的温度，例如图3中，冷却水进水温度就是冷却塔入水口处的冷却水的温度。冷冻泵的出水口的冷冻水流量为V₀(m³/h)、冷却泵的出水口的冷却水流量为V_i(m³/h)，则此时刻的状态可表示为：

S_t＝(P_q,T_o,T_i,V_o,V_i)，

其中，冷冻水出水温度T_o的限制范围为：5≤T_o≤12，冷却水进水温度T_i的限制范围为：22≤T_i≤33，冷冻泵的冷冻水流量V₀的限制范围为：63≤V_o≤105，冷却泵的冷却水流量V_i的限制范围为：75≤V_i≤125。动作，用a表示，t时刻的动作a用[设置冷冻泵，设置冷却泵，设置制冷压缩机]表示，其中，设置冷冻泵用O_d表示，设置冷却泵用O_q表示，设置制冷压缩机用O_y表示，则t时刻可采取的动作集合为：

a＝{[O_d0,O_q0,O_y0],[O_d1,O_q1,O_y1],[O_d2,O_q2,O_y2],...}，

立即奖赏函数，用r表示，其中，若t时刻采用动作a后，冷冻水出水温度T_o在限制范围外，或冷却水进水温度T_i在限制范围外，或冷冻泵的冷冻水流量V₀在限制范围外，或冷却泵的冷却水流量V_i在限制范围外，则r＝-100P_q，否则，r＝-P_q。

也就是，如果冷冻水出水温度T_o在限制范围内，且冷却水进水温度T_i在限制范围内，且冷冻泵的冷冻水流量V₀在限制范围内，且冷却泵的冷却水流量V_i在限制范围内，则r＝-P_q，否则，如果有其中一个参数的取值超出对应的限制范围，则r＝-100P_q。

本实施例中，所述DDPG算法的经验回放池的数量为两个，分别为B1经验回放池和B2经验回放池，具有高TD误差(时间差分误差)的经验存储在B2经验回放池，其他经验存储在B1经验回放池中，当进行采样时，从B1经验回放池中采样一部分，从B2经验回放池中采样一部分，且从B2经验回放池中采样的概率的初始值为8％到12％，且所述概率随着时间的后移逐渐降低。

具体的，从B2经验回放池中采样的概率的初始值可为8％、10％和12％等。

传统的DDPG算法中的单样本池容易导致算法收敛速度慢。因此，本发明提出双样本池方法，也就是使用两个样本池B1和B2来存储Agent的样本。

使用两个样本池B1和B2来存储Agent的样本，其中B1和B2的工作方式相同，但B2的规模要比B1小。在双重经验回放中，非常好或者非常差的样本被视为具有高TD误差的样本，这样的样本存储在B2中。其他样本则存储在B1中。

具体的，可设置一个阈值，例如td误差阈值为0.4，td误差大于等于0.4就是好的样本，这些样本存储在B2经验池。td误差低于0.4就是普通样本，这些样本存储在B1经验池。

以上只是举例，可以根据实际的环境模型等来具体设置上述阈值的大小。也可以根据实际情况来调整阈值的大小。

当进行采样时，从B1中采样一部分，从B2中采样一小部分。随着训练过程的进行，Agent的学习的表现效果会更好，甚至取得最好的分数，因此B2中的经验不再具有高TD误差，所以对双重经验回放的需求随着训练过程的进行应该降低。

具体的，可应用概率函数P_der表示从B2中采样一小部分的概率。随着时间的后移，该概率随之降低，具体公式见下式:

其中，P是一个概率，δ是一个数值，当p_der≥P时，随时间后移，p_der逐渐减小。当小于P时，p_der为0。

本发明使用两个样本池B1和B2能在训练前期加快训练过程，并且在模型趋于收敛时降低自身的作用，进一步加快收敛。

进一步的是，传统的DDPG方法的训练对评论家学习的有效性过于敏感，为了提高评论家网络的准确性，本实施例中，所述DDPG算法中包括K个目标评论家网络(也就是图3中的目标值网络)和K个在线评论家网络(就是图3中的在线值网络)，所述DDPG算法通过以下最小化损失函数来更新每个评论家网络：

L_MC(θ_i)＝αL_avg(θ)+βL_tar(θ_i)+η(Q_i(s,a,θ_i)-Q_avg(s,a,θ))²，

其中，L_MC(θ_i)为平均评论家的损失函数平均值，α，β和η为权重，α，β和η都是0到1之间的浮点数，α和β加起来等于1，L_avg(θ)为评论家网络的损失函数平均值，L_tar(θ_i)为目标评论家网络的损失函数值。因为当K为1时，L_MC应该等于L_tar，即损失函数可以看作是三个两两相关部分的总和：两组评论家之间的全局平均误差、单个评论家和其对应的目标评论家之间的独立TD误差、用来减小评论家方差的单个评论家与K个评论家平均值的差值。

其中，

是K个目标评论家网络的Q值平均值，Q_avg(s,a,θ)为K个在线评论家网络的Q值平均值，r(s,a)为立即奖赏。

其中，K为在线评论家网络的个数，Q_i(s,a,θ_i)为第i个在线评论家网络的Q值。

其中，K为目标评论家网络的个数，

为第i个目标评论家网络的Q值，

为K个目标评论家网络的Q值平均值。

本实施例中，为了提高DDPG算法的稳定性，所述DDPG算法中，通过策略梯度来更新行动者的策略，具体应用以下公式：

其中

表示策略梯度，N为网络个数，

为EMA网络的策略梯度，

为策略网络的策略梯度。

θ^μ′←qθ^μ+(1-q)θ^μ′，

其中，θ^EMA为EMA网络的权重，

需要说明的是，在DDPG算法的动作探索部分是加入了噪声，其特点为噪声随机性很强，通过μ(s|θ^μ)函数对动作进一步探索，也就是在每一个状态s_t，根据a_t＝μ(s_t|θ^μ)+N_t来选择动作，目的是为了让探索的动作更具有目标性。

本发明在此基础上进行了改进，通过上述方法可以使算法随着进程逐渐收敛的同时稳定性也更好。

本发明的实施例还提供了一种基于强化学习的制冷机组控制方法，具体包括：

首先，采集建筑物的环境数据，

本实施例中，所述DDPG算法中，通过策略梯度来更新行动者的策略，具体应用以下公式：

其中

表示策略梯度，N为网络个数，

为EMA网络的策略梯度，

为策略网络的策略梯度。

θ^μ′←qθ^μ+(1-q)θ^μ′，

其中，θ^EMA为EMA网络的权重，

本实施例中，所述DDPG算法的经验回放池的数量为两个，分别为B1经验回放池和B2经验回放池，具有高TD误差的经验存储在B2经验回放池，其他经验存储在B1经验回放池中，当进行采样时，从B1经验回放池中采样一部分，从B2经验回放池中采样一部分，且从B2经验回放池中采样的概率的初始值为8％到12％，且所述概率随着时间的后移逐渐降低。

本实施例中，所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络，所述DDPG算法通过以下最小化损失函数来更新每个评论家网络：

L_MC(θ_i)＝αL_avg(θ)+βL_tar(θ_i)+η(Q_i(s,a,θ_i)-Q_avg(s,a,θ))²，

其中，L_MC(θ_i)为平均评论家的损失函数平均值，α，β和η为权重，α，β和η都是0到1之间的浮点数，α和β加起来等于1，L_avg(θ)为评论家网络的损失函数平均值，L_tar(θ_i)为目标评论家网络的损失函数值。

其中，

是目标评论家网络的Q值平均值，Q_avg(s,a,θ)为K个在线评论家网络的Q值平均值，r(s,a)为立即奖赏。

其中，K为目标评论家网络的个数，

为第i个目标评论家网络的Q值，

为K个目标评论家网络的Q值平均值。

以下是本发明改进后的DDPG算法的流程：

1)随机初始化K个在线评论家网络

在线行动者网络μ(s|θ^μ)及它们相对应的权重

和θ^μ,i＝0,1...k-1，初始化EMA网络Q^EMA，权重为θ^EMA，

K个目标评论家网络Q_i′，目标行动者网络μ′，权重为

和θ^μ′，

θ^μ′←θ^μ，原始样本池B1和高误差样本池B2初始为空，B2内存较小，时间步为T，

2)while episode do，

3)初始化一个随机过程N_t用于探索动作，

4)获得初始观察状态s₀，

5)while t＝0,T do，

6)根据当前策略和高斯噪声a_t＝μ(s_t|θ^μ)+N_t选择动作，

7)执行动作a_t，得到r_t，s_t+1，

8)将(s_t,a_t,r_t,s_t+1)存储在两个样本池B1,B2中，

9)从样本池B1中随机采样一部分，B2随机采样一小部分，约占10％，

10)通过最小化损失函数来更新每个评论家网络：

L_MC(θ_i)＝αL_avg(θ)+βL_tar(θ_i)+η(Q_i(s,a,θ_i)-Q_avg(s,a,θ))²，

11)通过策略梯度来更新行动者的策略：

12)更新目标网络的参数：

θ^μ′←qθ^μ+(1-q)θ^μ′，

13)end，

14)end。

本发明的实施例还提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的制冷机组控制方法对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的制冷机组控制装置，其特征在于，

包括数据采集模块和数据处理模块，

所述数据采集模块用于获取环境数据，

2.根据权利要求1所述的基于强化学习的制冷机组控制装置，其特征在于，

所述根据所述数据建立环境模型，包括：

S_t＝(P_q,T_o,T_i,V_o,V_i)，

其中，冷冻水出水温度T_o的限制范围为：5≤T_o≤12，冷却水进水温度T_i的限制范围为：22≤T_i≤33，冷冻泵的冷冻水流量V₀的限制范围为：63≤V_o≤105，冷却泵的冷却水流量V_i的限制范围为：75≤V_i≤125，

动作，用a表示，t时刻的动作a用[设置冷冻泵，设置冷却泵，设置制冷压缩机]表示，其中，设置冷冻泵用O_d表示，设置冷却泵用O_q表示，设置制冷压缩机用O_y表示，则t时刻可采取的动作集合为：

a＝{[O_d0,O_q0,O_y0],[O_d1,O_q1,O_y1],[O_d2,O_q2,O_y2],...}，

立即奖赏函数，用r表示，其中，若t时刻采用动作a后，冷冻水出水温度T_o在限制范围外，或冷却水进水温度T_i在限制范围外，或冷冻泵的冷冻水流量V₀在限制范围外，或冷却泵的冷却水流量V_i在限制范围外，

则r＝-100P_q，否则，r＝-P_q，

3.根据权利要求1所述的基于强化学习的制冷机组控制装置，其特征在于，所述DDPG算法的经验回放池的数量为两个，分别为B1经验回放池和B2经验回放池，具有高TD误差的经验存储在B2经验回放池，其他经验存储在B1经验回放池中，当进行采样时，从B1经验回放池中采样一部分，从B2经验回放池中采样一部分，且从B2经验回放池中采样的概率的初始值为8％到12％，且所述概率随着时间的后移逐渐降低。

4.根据权利要求1所述的基于强化学习的制冷机组控制装置，其特征在于，所述DDPG算法中包括K个目标评论家网络和K个在线评论家网络，所述DDPG算法通过以下最小化损失函数来更新每个评论家网络：