CN115183419A

CN115183419A - 基于模仿学习和强化学习的暖通空调负荷优化控制方法

Info

Publication number: CN115183419A
Application number: CN202210635940.2A
Authority: CN
Inventors: 钟海旺; 何一鎏; 张广伦; 夏清; 康重庆
Original assignee: Tsinghua University; State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: Tsinghua University; State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-10-14

Abstract

本申请提出了一种基于模仿学习和强化学习的暖通空调负荷优化控制方法，涉及电力需求响应技术领域，其中，该方法包括：初始化深度Q网络；获取建筑暖通空调的历史运行数据，根据历史运行数据生成预训练数据；使用预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练；使用预训练后的深度Q网络根据实时天气数据给出最优的建筑暖通空调温度设定，完成负荷优化控制。采用上述方案的本申请考虑了实际应用场景中难以建立仿真环境的限制，能够快速应用于实时电价下的暖通空调温度设定在线优化，在保持室内温度在合理范围内的同时降低暖通空调用电成本。

Description

基于模仿学习和强化学习的暖通空调负荷优化控制方法

技术领域

本申请涉及电力需求响应技术领域，尤其涉及基于模仿学习和强化学习的暖通空调负荷优化控制方法和装置。

背景技术

随着全球城市化进程的加快，建筑业消耗了大量能源，其中暖通空调系统的占比达到了近50％。由于建筑的热惰性，暖通空调是一种典型的电热耦合负荷，可以在短时间内调整用电需求而几乎不影响用户舒适度，具有向电网提供灵活性的潜力。利用人工智能算法，可以根据实时电价对暖通空调负荷进行在线优化，从而在考虑用户舒适度的同时对实时电价进行响应，减少用电费用。

许多文献证实了强化学习在暖通空调负荷优化控制方面的应用，例如采用FittedQIteration算法对参数未知的异质空调负荷集群进行需求响应控制，采用深度确定性策略梯度算法控制暖通空调系统的温度设定以参与电力市场交易，采用深度确定性策略梯度算法协同优化暖通空调负荷与储能电池以应对新能源出力的波动。然而现有文献中，在应用强化学习算法前，必须先在仿真环境中进行长时间的训练，而仿真环境的构建往往是非常困难的。

综上，强化学习在暖通空调负荷的在线优化控制方面具有应用前景，但是强化学习算法对仿真环境的高度依赖限制了实际应用。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于模仿学习和强化学习的暖通空调负荷优化控制方法，解决了现有方法的强化学习应用于暖通空调负荷优化控制时高度依赖仿真环境的技术问题，实现了快速应用于实时电价下的暖通空调温度设定在线优化，在保持室内温度在合理范围内的同时降低暖通空调用电成本，从而为电网提供了调峰服务，提升了电网运行的经济性。

本申请的第二个目的在于提出一种基于模仿学习和强化学习的暖通空调负荷优化控制装置。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种基于模仿学习和强化学习的暖通空调负荷优化控制方法，包括：初始化深度Q网络；获取建筑暖通空调的历史运行数据，根据历史运行数据生成预训练数据；使用预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练；使用预训练后的深度Q网络根据实时天气数据给出最优的建筑暖通空调温度设定，完成负荷优化控制。

本申请实施例的基于模仿学习和强化学习的暖通空调负荷优化控制方法，通过采用模仿学习，利用暖通空调的历史运行数据对强化学习算法进行预训练，从而能够直接应用于实际场景，也能更好的完成对建筑暖通空调负荷的优化控制。

可选地，在本申请的一个实施例中，初始化深度Q网络，包括：

获取深度Q网络的输入输出维度；

获取深度Q网络的网络结构；

根据输入输出维度和深度Q网络的网络结构将深度Q网络中的所有参数进行随机初始化。

可选地，在本申请的一个实施例中，深度Q网络的输入为动作状态对(s,a)，其中动作a为暖通空调的温度设定，状态s包括实时电价、上一时刻温度设定、室外温度以及湿度；

深度Q网络输出的Q值为标量，其输出维度为固定值。

可选地，在本申请的一个实施例中，深度Q网络的网络结构包括隐藏层数量、每一层的神经元数量以及激活函数形式，其中，隐藏层数量以及每一层的神经元数量由暖通空调系统的复杂程度确定，激活函数为线性整流函数。

可选地，在本申请的一个实施例中，根据历史运行数据生成预训练数据，包括：

使用建筑暖通空调的历史运行数据构建示范经验回放池；

将示范经验回放池作为预训练数据，

其中，示范经验回放池由若干条历史经验构成，历史经验包括状态转移的数组，状态转移的数组表示为：

(S_k,A_k,R_k,S_k+1)

其中，S_k表示k时刻状态，S_k包括k时刻的实时电价、上一时刻温度设定、室外温度以及湿度，A_k表示k时刻动作，为k时刻暖通空调的温度设定，R_k表示k时刻动作的回报，为用电成本与温度偏离罚项之和的负值。

可选地，在本申请的一个实施例中，使用预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练，包括：

从示范经验回放池中随机抽取历史经验构建深度Q网络的损失函数；

计算损失函数对于深度Q网络参数的梯度，利用梯度下降法更新深度Q网络的参数；

在预训练期间重复从示范经验回放池中随机抽取一个批次的经验，对深度Q网络参数进行梯度下降，直至深度Q网络收敛，完成预训练。

为达上述目的，本申请第二方面实施例提出了一种基于模仿学习和强化学习的暖通空调负荷优化控制装置，包括初始化模块、数据处理模块、训练模块、负荷优化控制模块，其中，

初始化模块，用于初始化深度Q网络；

数据处理模块，用于获取建筑暖通空调的历史运行数据，根据历史运行数据生成预训练数据；

训练模块，用于使用预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练；

负荷优化控制模块，用于使用预训练后的深度Q网络根据实时天气数据给出最优的温度设定，完成负荷优化控制。

可选地，在本申请的一个实施例中，初始化模块，具体用于：

获取深度Q网络的输入输出维度；

获取深度Q网络的网络结构；

可选地，在本申请的一个实施例中，数据处理模块，具体用于：

使用建筑暖通空调的历史运行数据构建示范经验回放池；

将示范经验回放池作为预训练数据，

(S_k,A_k,R_k,S_k+1)

为了实现上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行上述基于模仿学习和强化学习的暖通空调负荷优化控制方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于模仿学习和强化学习的暖通空调负荷优化控制方法的流程示意图；

图2为本申请实施例的基于模仿学习和强化学习的暖通空调负荷优化控制方法框架图；

图3为本申请实施例提供的一种基于模仿学习和强化学习的暖通空调负荷优化控制装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于模仿学习和强化学习的暖通空调负荷优化控制方法和装置。

图1为本申请实施例一所提供的一种基于模仿学习和强化学习的暖通空调负荷优化控制方法的流程示意图。

如图1所示，该基于模仿学习和强化学习的暖通空调负荷优化控制方法包括以下步骤：

步骤101，初始化深度Q网络；

步骤102，获取建筑暖通空调的历史运行数据，根据历史运行数据生成预训练数据；

步骤103，使用预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练；

步骤104，使用预训练后的深度Q网络根据实时天气数据给出最优的建筑暖通空调温度设定，完成负荷优化控制。

本申请实施例的基于模仿学习和强化学习的暖通空调负荷优化控制方法，包括模仿学习与在线应用三个阶段，其中模仿学习阶段利用暖通空调的历史运行数据对深度Q网络进行预训练，使其不需要仿真环境即可获得较好的初始性能；在线应用阶段由深度Q网络给出最优的温度设定，并定期更新网络参数以获得更好的性能。本方法考虑了实际应用场景中难以建立仿真环境的限制，结合了模仿学习与强化学习，使得强化学习算法能够快速应用于实时电价下的暖通空调温度设定在线优化，在保持室内温度在合理范围内的同时降低暖通空调用电成本；这种对电价的需求响应行为也为电网提供了调峰服务，提升了电网运行的经济性。

本申请实施例的基于模仿学习和强化学习的暖通空调负荷优化控制方法框架图如图2所示，首先指定深度Q网络的输入输出维度、隐藏层数量及每一层的神经元数量，并随机初始化深度Q网络的参数；然后利用建筑暖通空调负荷的历史运行数据，基于模仿学习对深度Q网络进行预训练；最后，将深度Q网络算法投入建筑暖通空调负荷优化控制，由该算法根据实时的电价与天气数据给出最优的温度设定，并利用新产生的运行数据定期训练深度Q网络以提升算法效果。

指定深度Q网络的输入输出维度；

指定深度Q网络的网络结构；

初始化深度Q网络的参数，为避免神经网络中的对称权重现象，将深度Q网络中的所有参数进行随机初始化。

可选地，在本申请的一个实施例中，指定深度Q网络的输入输出维度，深度Q网络的输入为动作状态对(s，a)，其中动作a为暖通空调的温度设定，状态s包括实时电价、上一时刻温度设定、室外温度以及湿度，必要时可以添加其他的环境因素；深度Q网络输出的Q值是一个标量，其输出维度固定为1。

可选地，在本申请的一个实施例中，指定深度Q网络的网络结构包括隐藏层数量、每一层的神经元数量以及激活函数形式，其中深度Q网络隐藏层数量以及每一层的神经元数量需要根据暖通空调系统的复杂程度确定，必要时根据算法效果进行调整，激活函数一般采用线性整流函数。

使用建筑暖通空调的历史运行数据构建示范经验回放池

将示范经验回放池作为预训练数据，

其中，经验回放池由若干条历史经验构成，一条经验指一次状态转移的数组(S_k，Ak，R_k，S_k+1)，其中S_k表示k时刻状态、S_k+1表示k+1时刻状态，包括k时刻的实时电价、上一时刻温度设定、室外温度以及湿度，Ak表示k时刻动作，为k时刻暖通空调的温度设定，R_k表示k时刻动作的回报，由式(1)给出，为用电成本与温度偏离罚项之和的负值，其中r_k表示k时刻电价，P_k表示k时刻暖通空调的用电量，

表示k时刻室内温度，T^B表示室内温度的基准值，c为暖通空调管理者设定的常数，c越大表明管理者越不希望温度偏离基准值。

从示范经验回放池

中随机抽取经验(s，a，r，s′)，根据式(2)计算深度Q网络的损失函数L，其中γ是需要提前指定的折扣因子，取值在0到1之间，表示对长期收益的重视程度，Q(s，a；θ)表示深度Q网络参数为θ、输入为(s，a)时输出的Q值；根据式(3)计算损失函数L对于网络参数θ的梯度，利用梯度下降法更新深度Q网络的参数，如式(4)所示，θ⁽ⁱ⁾表示第i次梯度下降前的参数，θ⁽ⁱ⁺¹⁾表示第i+1次梯度下降后的参数，α为步长，是需要提前指定的常数；在预训练期间每次从示范经验回放池

中随机抽取一个批次的经验，对深度Q网络参数进行梯度下降，重复若干次直至收敛；

本申请还包括：应用预训练后的深度Q网络并定期更新参数：

将深度Q网络应用于暖通空调温度设定优化；

在t时刻，根据状态S_t计算使得Q值最大的动作

采用ε-贪婪方法基于Q值选择动作，即设定一个0到1之间的常数ε，以ε的概率选择Q值最大的动作

作为当前时刻的动作，以1-ε的概率在室内温度允许范围内随机选取一个动作；选取当前时刻的动作A_t后，将其作为暖通空调的温度设定值，保持到t+1时刻；根据式(1)计算R_t，并基于新观测到的天气、电价等数据构成状态S_t+1，将经验(S_t，A_t，R_t，S_t+1)放入一个新的经验回放池

用于存储应用深度Q网络后的经验，其容量是提前指定的，当经验回放池

的容量溢出时，用新的经验代替最旧的经验；

定期更新深度Q网络的参数；

在运行过程中，每隔一段时间，从示范经验回放池

与经验回放池

中分别随机抽取若干条经验，利用梯度下降法更新深度Q网络的参数，梯度下降的步骤与预训练中的过程相同。

为了实现上述实施例，本申请还提出一种基于模仿学习和强化学习的暖通空调负荷优化控制装置。

如图3所示，该基于模仿学习和强化学习的暖通空调负荷优化控制装置包括：初始化模块、数据处理模块、训练模块、负荷优化控制模块，其中，

初始化模块，用于初始化深度Q网络；

获取深度Q网络的输入输出维度；

获取深度Q网络的网络结构；

使用建筑暖通空调的历史运行数据构建示范经验回放池；

将示范经验回放池作为预训练数据，

(S_k，A_k，R_k，S_k+1)

其中，S_k表示k时刻状态，S_k包括k时刻的实时电价、上一时刻温度设定、室外温度以及湿度，Ak表示k时刻动作，为k时刻暖通空调的温度设定，R_k表示k时刻动作的回报，为用电成本与温度偏离罚项之和的负值。

需要说明的是，前述对基于模仿学习和强化学习的暖通空调负荷优化控制方法实施例的解释说明也适用于该实施例的基于模仿学习和强化学习的暖通空调负荷优化控制控制装置，此处不再赘述。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于模仿学习和强化学习的暖通空调负荷优化控制方法，其特征在于，包括以下步骤：

初始化深度Q网络；

获取建筑暖通空调的历史运行数据，根据所述历史运行数据生成预训练数据；

使用所述预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练；

使用预训练后的深度Q网络根据实时天气数据给出最优的建筑暖通空调温度设定，完成负荷优化控制。

2.如权利要求1所述的方法，其特征在于，所述初始化深度Q网络，包括：

获取深度Q网络的输入输出维度；

获取所述深度Q网络的网络结构；

根据所述输入输出维度和所述深度Q网络的网络结构将深度Q网络中的所有参数进行随机初始化。

3.如权利要求2所述的方法，其特征在于，所述深度Q网络的输入为动作状态对(s,a)，其中动作a为暖通空调的温度设定，状态s包括实时电价、上一时刻温度设定、室外温度以及湿度；

所述深度Q网络输出的Q值为标量，其输出维度为固定值。

4.如权利要求2所述的方法，其特征在于，所述深度Q网络的网络结构包括隐藏层数量、每一层的神经元数量以及激活函数形式，其中，隐藏层数量以及每一层的神经元数量由暖通空调系统的复杂程度确定，激活函数为线性整流函数。

5.如权利要求1所述的方法，其特征在于，所述根据所述历史运行数据生成预训练数据，包括：

使用所述建筑暖通空调的历史运行数据构建示范经验回放池；

将所述示范经验回放池作为所述预训练数据，

其中，所述示范经验回放池由若干条历史经验构成，所述历史经验包括状态转移的数组，所述状态转移的数组表示为：

(S_k,A_k,R_k,S_k+1)

6.如权利要求5所述的方法，其特征在于，所述使用所述预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练，包括：

从所述示范经验回放池中随机抽取历史经验构建深度Q网络的损失函数；

计算所述损失函数对于深度Q网络参数的梯度，利用梯度下降法更新深度Q网络的参数；

7.一种基于模仿学习和强化学习的暖通空调负荷优化控制装置，其特征在于，包括初始化模块、数据处理模块、训练模块、负荷优化控制模块，其中，

所述初始化模块，用于初始化深度Q网络；

所述数据处理模块，用于获取建筑暖通空调的历史运行数据，根据所述历史运行数据生成预训练数据；

所述训练模块，用于使用所述预训练数据、基于模仿学习对初始化后的深度Q网络进行预训练；

所述负荷优化控制模块，用于使用预训练后的深度Q网络根据实时天气数据给出最优的建筑暖通空调温度设定，完成负荷优化控制。

8.如权利要求7所述的方法，其特征在于，所述初始化模块，具体用于：

获取深度Q网络的输入输出维度；

获取所述深度Q网络的网络结构；

9.如权利要求7所述的方法，其特征在于，所述数据处理模块，具体用于：

将所述示范经验回放池作为所述预训练数据，

(S_k，A_k，R_k，S_k+1)

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。