CN114707711A

CN114707711A - 园区制冷机组多时间尺度最优调度方法及系统

Info

Publication number: CN114707711A
Application number: CN202210288617.2A
Authority: CN
Inventors: 王海
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-07-05
Anticipated expiration: 2042-03-23
Also published as: CN114707711B

Abstract

本发明提供一种园区制冷机组多时间尺度最优调度方法及系统，属于智能控制技术领域。该方法包括：获取园区制冷机组中的调度可控对象作为状态；构建制冷机组调度强化学习模型，确定强化学习奖赏函数和可选择的动作空间；分别利用制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，回报值根据奖赏函数输出的奖赏值确定；根据多个时间尺度的回报值，确定当前状态下的最优动作；根据当前时刻园区制冷机组的状态和最优动作实施状态转移。本发明通过强化学习优化园区制冷机组的工作策略，使得园区制冷机组在实时满足制冷需求的情况下，最大程度降低功耗，实现低碳目标。

Description

园区制冷机组多时间尺度最优调度方法及系统

技术领域

本发明涉及智能控制技术领域，具体涉及一种园区制冷机组多时间尺度最优调度方法及系统。

背景技术

园区制冷机组在设计时未考虑制冷机组的动态特性，制冷机组的冷量负荷是时变的，但目前对机组的调控是非时变的，甚至是准静态的，由此在很大程度上影响了制冷系统冷量输配的效率。另外，制冷机组末端的冷量分配控制主要依靠手动完成，自动化程度偏低，阻碍了主动动态调控和人工智能运营技术的落地应用。最后，园区制冷机组设计时的假定工况往往和实际运行工况偏差较大，由此致使当前部分制冷机存在冷量供应不足，产生局部高温，而另一些制冷机出现冷量供应过剩，造成电能浪费，影响低碳目标的达成。

发明内容

因此，本发明实施例要解决的技术问题在于克服现有技术中的制冷机组需要手动控制、不能实时动态调节、易造成制冷需求不能得到满足和制冷过度导致电能浪费影响低碳目标的达成等缺陷，从而提供一种园区制冷机组多时间尺度最优调度方法及系统。

为此，本发明提供一种园区制冷机组多时间尺度最优调度方法，包括以下步骤：

获取园区制冷机组中的调度可控对象作为状态，所述调度可控对象包括制冷机组中的各个制冷机的各个功能部件的实际工作状态和工作功率，所述功能部件至少包括风机和压缩机；

构建制冷机组调度强化学习模型，确定强化学习奖赏函数和可选择的动作空间；所述奖赏函数至少与所述制冷机组的实际能耗和制冷对象的温度相关联；

分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，所述回报值根据所述奖赏函数输出的奖赏值确定，所述动作为所述功能部件的工作状态的转换和/或实际工作功率的调整；

根据多个时间尺度的所述回报值，确定当前状态下的最优动作；

根据当前时刻所述园区制冷机组的状态和所述最优动作实施状态转移，以改变所述功能部件的实际工作状态和/或工作功率。

可选的，所述分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，包括：

统计历史的制冷需求；

根据历史的制冷需求预测多个时间尺度的制冷需求；

根据多个时间尺度的制冷需求确定各个时间尺度的可选动作值；

基于可选动作值和当前状态预测制冷对象的温度变化；

根据预测的制冷对象的温度变化计算所述回报值。

可选的，分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，包括：

将选择的所述动作实施后的各个所述功能部件的状态值和所述奖赏值输入至长短期记忆人工神经网络；

根据所述长短期记忆人工神经网络的输出确定多个时间尺度的所述回报值。

可选的，所述根据多个时间尺度的所述回报值，确定当前状态下的最优动作，包括：

获取多个时间尺度的所述回报值的加权求和值，时间尺度越短对应的权重值越大；

根据所述加权求和值，确定当前状态下的最优动作。

可选的，所述构建制冷机组调度强化学习模型，包括：

根据训练样本构建预测网络，输入为状态，输出为要执行的动作；

构建评判网络，输入为状态和动作，输出为输入动作的动作回报值；

在评判网络中计算得到动作回报值在当前状态下对于动作的第一梯度；

在预测网络中得到动作对于预测网络参数的第二梯度；

将所述第一梯度和所述第二梯度相乘得到回报值对于预测网络参数的梯度；

根据所述梯度更新所述预测网络和所述评判网络。

可选的，分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值之前，还包括：

初始化所述制冷机组调度强化学习模型的各相关参数和当前状态；

确定当前状态下可选的动作值；

根据所述当前状态和所述动作值以及历史数据，预测每一所述动作值执行后制冷对象的温度变化，根据变化后的温度和执行该动作值后的状态变化确定奖惩值和Q值；

根据得到的最优的所述奖惩值和所述Q值确定损失函数值；

根据所述损失函数值调整所述制冷机组调度强化学习模型各个参数。

可选的，所述根据所述梯度更新所述预测网络和所述评判网络，包括：

利用贝叶斯神经网络，根据所述梯度更新所述预测网络和所述评判网络。

从经验池中选取历史动作；

对所述历史动作按照预设的算法进行调整得到新的动作；

将从所述经验池中选取的全部或部分历史动作以及所述新的动作作为当前状态下可选的动作。

可选的，所述根据多个时间尺度的所述回报值，确定当前状态下的最优动作之后，还包括：

将所述最优动作及其对应的当前状态和所述回报值，加入所述经验池；

所述从经验池中选取历史动作，包括：

计算当前状态与所述经验池中的历史动作对应的状态的相似度；

选取相似度高的状态对应的历史动作。

本发明还提供一种园区制冷机组多时间尺度最优调度系统，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的任一种方法。

本发明实施例的技术方案，具有如下优点：

本发明实施例提供的园区制冷机组多时间尺度最优调度方法及系统，通过强化学习优化园区制冷机组中的各个制冷机的各个功能部件的实际工作功率，从而使得园区制冷机组在实时满足制冷需求的情况下，能够最大程度降低功耗，进而实现低碳目标。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中园区制冷机组多时间尺度最优调度方法的一个具体示例的流程图；

图2为本发明实施例1中动作选择的一个具体示例的流程图；

图3为本发明实施例2中园区制冷机组多时间尺度最优调度系统的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，本文所用的术语仅用于描述特定实施例的目的，而并非旨在限制本发明。除非上下文明确指出，否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时，是意图说明存在该特征、整数、步骤、操作、元素和/或组件，而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通；可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种园区制冷机组多时间尺度最优调度方法，如图1所示，包括以下步骤：

S1：获取园区制冷机组中的调度可控对象作为状态，所述调度可控对象包括制冷机组中的各个制冷机的各个功能部件的实际工作状态和工作功率，所述功能部件至少包括风机和压缩机；

其中，各个功能部件的实际工作功率小于或等于其最大工作功率，实际工作状态包括待机、停机和运行。

S2：构建制冷机组调度强化学习模型，确定强化学习奖赏函数和可选择的动作空间；所述奖赏函数至少与所述制冷机组的实际能耗和制冷对象的温度相关联；

具体的，所述奖赏函数可以包括所述制冷机组的实际能耗的倒数和制冷对象的温度偏差的惩罚值。

S3：分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，所述回报值根据所述奖赏函数输出的奖赏值确定，所述动作为所述功能部件的工作状态的转换和/或实际工作功率的调整；

S4：根据多个时间尺度的所述回报值，确定当前状态下的最优动作；

S5：根据当前时刻所述园区制冷机组的状态和所述最优动作实施状态转移，以改变所述功能部件的实际工作状态和/或工作功率。

其中，所述制冷机组调度强化学习模型可以是基于DDPG(Deep DeterministicPolicy Gradient，深度确定性策略梯度模型)或Q-learning(Q学习)的模型。

本发明实施例中，通过强化学习优化园区制冷机组中的各个制冷机的各个功能部件的实际工作功率，从而使得园区制冷机组在实时满足制冷需求的情况下，能够最大程度降低功耗，进而实现低碳目标。

其中，最大的时间尺度可以是若干个小时，具体可以根据一天中气温变化的普遍规律(除了寒潮、降雨等造成的影响)确定。

可选的，所述奖赏函数为：

其中，r为奖惩值，a和b为权重值，n＝1,2,3,…,N,N为所述制冷机组中的所有所述制冷机的所有所述功能部件的个数，W_n为第n个所述功能部件的功率，E(T)为制冷对象的温度偏差；ρ为可变参数，按照选取的动作进行状态转移后每一所述功能部件的实际工作功率与最大工作功率的大小关系不同，ρ的取值不同。

其中，制冷对象包括某一空间内的空气、某容纳空间内的液体等。

可选的，所述回报值的计算公式为：

其中，所述预设条件为任一功能部件的实际工作功率均小于最大工作功率且制冷对象的温度偏差在正常范围，r为所述奖赏值。

进一步可选的，所述分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，包括：

统计历史的制冷需求；

根据历史的制冷需求预测多个时间尺度的制冷需求；

根据多个时间尺度的制冷需求确定各个时间尺度的可选动作值；基于可选动作值和当前状态预测制冷对象的温度变化；

根据预测的制冷对象的温度变化计算所述回报值。

预测温度变化可以基于一天中同一时间点的历史数据进行预测。

其他可选的具体实施方式中，所述分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，包括：

具体的，在将选择的所述动作实施后的各个所述功能部件的状态值和所述奖赏值输入至长短期记忆人工神经网络之前，还包括：

获取园区制冷机组工作时的相关历史数据；

从所述相关历史数据中提取出制冷机组中的各个制冷机的各个功能部件动作后(即切换工作状态和/或调整工作功率后)的实际工作状态和工作功率以及对应的奖赏值(具体可以根据上述方法计算得到)；另外，还获取对应的多个时间尺度的回报值作为样本标签；具体的，多个时间尺度的回报值可以由人工根据预设的规则计算得到；

利用获取的样本及对应的样本标签对所述长短期记忆人工神经网络进行训练直至收敛。

之后，即可利用训练好的长短期记忆人工神经网络确定当前状态下选择不同的动作时多个时间尺度的回报值。

本发明实施例中，针对制冷机组中的各个制冷机所包括的功能部件数量较多的情况下，利用神经网络进行多个时间尺度的回报值计算，使得回报值的计算更加合理和准确。

具体的，可以通过以下方式训练所述长短期记忆人工神经网络：

从所述园区制冷机组的历史运行数据中提取各个功能部件的实际工作状态和工作功率以及制冷对象的温度，包括功能部件的实际工作状态和工作功率发生变化前后制冷对象的温度变化；

对上述提取的数据进行处理，获取多个时刻各个功能部件的实际工作状态和/或工作功率所对应的制冷对象的温度作为训练样本，该温度是指稳定下来的温度，与功能部件的状态和工作功率的变化时刻存在一定的延后性；

按照时间的顺序将所述训练样本输入至所述长短期记忆人工神经网络进行训练。

根据所述加权求和值，确定当前状态下的最优动作。

可选的，所述构建制冷机组调度强化学习模型，包括：

在预测网络中得到动作对于预测网络参数的第二梯度；

根据所述梯度更新所述预测网络和所述评判网络。

可选的，训练所述制冷机组调度强化学习模型的过程具体可以是：

初始化各相关参数和当前状态；

确定当前状态下可选的动作值；

根据得到的最优的所述奖惩值和所述Q值确定损失函数值；

本发明实施例中，通过训练使得制冷机组调度强化学习模型更加适合于园区制冷机组工作的优化。

具体的，将所述预测网络和所述评判网络的当前参数、以及所述贝叶斯神经网络的当前参数输入至所述贝叶斯神经网络，所述贝叶斯神经网络的输出即为所述预测网络和所述评判网络更新后的参数。

进一步的，所述贝叶斯神经网络是通过预先建立与训练得到，另外在训练完成后还可以包括测试过程。

可选的，如图2所示，所述分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，即步骤S3，包括：

S31：从经验池中选取历史动作；

S32：对所述历史动作按照预设的算法进行调整得到新的动作；

S33：将从所述经验池中选取的全部或部分历史动作以及所述新的动作作为当前状态下可选的动作。

本发明实施例中，由于强化学习的动作对应多个功能部件的工作状态和工作功率，而且外界环境的变化对制冷对象的温度会产生的一定的影响，因此强化学的动作无法穷举，需要按照预设的算法产生新的动作。

所述从经验池中选取历史动作，包括：

选取相似度高的状态对应的历史动作。

实施例2

本实施例提供一种园区制冷机组多时间尺度最优调度系统30，如图3所示，包括：

一个或多个处理器301；

存储装置302，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器301执行时，使得所述一个或多个处理器301实现上述的任一种方法。

本发明实施例提供的园区制冷机组多时间尺度最优调度系统，通过强化学习优化园区制冷机组中的各个制冷机的各个功能部件的实际工作功率，从而使得园区制冷机组在实时满足制冷需求的情况下，能够最大程度降低功耗，进而实现低碳目标。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种园区制冷机组多时间尺度最优调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据多个时间尺度的所述回报值，确定当前状态下的最优动作，包括：

根据所述加权求和值，确定当前状态下的最优动作。

4.根据权利要求1所述的方法，其特征在于，所述构建制冷机组调度强化学习模型，包括：

在预测网络中得到动作对于预测网络参数的第二梯度；

根据所述梯度更新所述预测网络和所述评判网络。

5.根据权利要求4所述的方法，其特征在于，所述根据所述梯度更新所述预测网络和所述评判网络，包括：

6.根据权利要求1所述的方法，其特征在于，所述分别利用所述制冷机组调度强化学习模型确定当前状态下选择不同的动作时多个时间尺度的回报值，包括：

从经验池中选取历史动作；

对所述历史动作按照预设的算法进行调整得到新的动作；

7.根据权利要求6所述的方法，其特征在于，所述根据多个时间尺度的所述回报值，确定当前状态下的最优动作之后，还包括：

所述从经验池中选取历史动作，包括：

选取相似度高的状态对应的历史动作。

8.一种园区制冷机组多时间尺度最优调度系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。