CN112963946A

CN112963946A - 一种面向共享办公区域的暖通空调系统控制方法及装置

Info

Publication number: CN112963946A
Application number: CN202110214230.8A
Authority: CN
Inventors: 余亮; 陈海帆; 毕刚; 岳东
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-15
Anticipated expiration: 2041-02-26
Also published as: CN112963946B

Abstract

本发明公开了一种面向共享办公区域的暖通空调系统控制方法，步骤如下：（1）利用历史运行数据建立共享办公区域环境模型；（2）基于建立的环境模型，产生大量的经验进行存储；（3）基于产生的大量经验，并利用多目标深度强化学习算法训练得到暖通空调系统的最优运行策略集；（4）根据环境状态和多用户平均热舒适满意度目标设定值，自适应地调整暖通空调系统运行策略，并根据运行策略对暖通空调系统温度设置点进行控制。本发明提供的方法可实现多用户热舒适满意度和暖通空调系统能耗之间的灵活折中。相比固定温度设置点控制方法，本发明所提方法具有同时提升多用户热舒适满意度和降低能耗的潜力。

Description

一种面向共享办公区域的暖通空调系统控制方法及装置

技术领域

本发明涉及一种面向共享办公区域的暖通空调系统控制方法，属于建筑能量管理与人工智能交叉技术领域。

背景技术

2019年12月，联合国环境署负责的全球建筑建设联盟发布了《全球状况报告2019》。根据该报告可知，2018年建筑建设和运行相关的能耗占全球总能耗的36％，相应的碳排放量占全球与能源相关的碳排放量的39％。此外，随着人口进一步增长和新兴经济体购买力的快速提升，2050年建筑能源需求相比2016年将增加50％。在建筑能耗中，暖通空调系统能耗占40％左右。尽管暖通空调系统能耗非常高，但是多人共享办公区域内的用户热舒适满意度依然较低，例如：涉及351个办公建筑和52980个用户的大规模调查结果显示：用户热舒适满意度(即基本满意、满意和非常满意的投票数占总票数的比例)仅为38％。因此，非常有必要对共享区域内暖通空调系统进行智慧控制，使其在维持设定的多用户热舒适满意度的情况下最小化暖通空调系统能耗。

实现上述目标非常具有挑战性：(1)不同用户之间的舒适温度偏好具有差异性；(2)室外温度、室内温度、用户占用人数等呈现动态变化使得选择合适的固定温度设置点非常困难。针对上述挑战，现有研究主要采用基于模型的优化控制方法，如李雅普诺夫最优控制方法、模型预测控制方法。然而，考虑到建筑室内温度受多种因素和随机扰动影响，建立一种精准且易于暖通空调系统控制的室内温度热动态性模型非常有挑战；为此，一些研究提出了无需知晓室内温度热动态性模型的暖通空调系统控制方法，该类方法利用强化学习智能体与环境的真实交互数据学习出最优控制策略。然而，由于探索过程需要进行大量的尝试，此类方法具有非常高的探索成本，如时间成本和经济成本。为此，少数研究考虑利用建筑历史运行数据建立环境模型(即构建状态转移函数和奖励函数的预测模型)，但此类方法需要先对暖通空调系统能耗指标和热舒适相关的目标函数进行加权和处理，进而将其转化为单目标问题进行求解。考虑到暖通空调系统能耗指标和热舒适度量指标具有不同的量纲，如何选择合适的权重参数非常困难。而且，当共享区域室内外环境变化(如用户占用人数、占用模式)较大时，现有研究提出的学习方法需对运行策略进行重新学习。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种面向共享办公区域的可实时调整自身运行策略的暖通空调系统控制方法，该方法能够在维持多用户热舒适满意度要求的同时最小化暖通空调系统能耗。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种面向共享办公区域的暖通空调系统控制方法，包括以下步骤：

获取当前环境状态信息和多用户平均热舒适满意度目标设定值；

根据所述当前环境状态信息计算出多用户热舒适满意度；

根据对比当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值，对权重参数进行调整；

将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中，获取当前暖通空调系统的行为，即温度设置点。

进一步的，所述训练好的深度神经网络的获取方法包括：

利用历史运行数据建立环境模型；所述历史运行数据至少包含如下信息：室内外温度、用户占用状态、暖通空调系统温度设置点、暖通空调系统能耗、用户偏好温度、关联时间；

基于所述环境模型，生成大量经验并存储；

基于所述经验，利用多目标深度强化学习算法进行离线训练，获得训练好的深度神经网络。

进一步的，所述环境模型包含状态转移函数和奖励函数；其中，状态转移函数刻画了输入环境状态、行为与输出环境状态之间的关系，奖励函数刻画了输入环境状态、行为与奖励之间的关系；

所述环境状态s_t由如下多元组表示：

s_t＝(T_t ^out,T_t ⁱⁿ,Z_1,t,...,Z_n,t,t′) (1)

式中：T_t ^out表示t时隙的室外温度，T_t ⁱⁿ表示t时隙的室内温度，Z_i,t表示用户i(1≤i≤n)在t时隙的占用状态，t’表示t时隙的当前绝对时间在一天内的相对时间；

所述行为为温度设置点，其选择范围为a_t∈{0,T_low,L,T_high}，a_t为暖通空调系统在t时隙内的工作状态，a_t＝0意味着暖通空调系统为关闭状态，其他离散数值皆表示开启状态，a_t＝T_low意味着暖通空调系统为开启状态且温度设置点为T_low度，a_t＝T_high意味着暖通空调系统为开启状态且温度设置点为T_high度；所述奖励函数与暖通空调系统能耗和多用户热舒适满意度相关。

进一步的，所述经验由如下五元组进行表示：

{s_t,a_t,r_t+1,s_t+1,d_t} (2)

式中，s_t表示当前t时隙的环境状态，a_t表示当前t时隙的行为，r_t+1表示当前t时隙末的奖励，s_t+1表示t+1时隙的环境状态，d_t表示是否为一个训练片段结束状态；

当考虑系统能耗和用户热舒适满意度两个目标时，r_t+1＝(r_1,t+1,r_2,t+1)，r_1,t+1表示t时隙末与暖通空调系统能耗相关的奖励，r_2,t+1表示t时隙末与多用户热舒适满意度相关的奖励。

进一步的，所述对权重参数进行调整的方法包括：

比较当前多用户热舒适满意度与设定的目标值之间的大小，如果前者大于后者，则增加与系统能耗相关的权重系数w_1,t；否则，减小w_1,t；

根据w_1,t计算出w_2,t，即：w_2,t＝1-w_1,t。

进一步的，基于所述环境模型，生成大量经验并存储的方法包括：

利用环境模型进行下一环境状态和奖励的预测过程；

以片段为单位，产生大量经验存放在经验池中。

进一步的，所述多目标深度强化学习算法采用深度Q网络的架构，包括稳定性能的方法，所述稳定性能的方法包括经验回放和目标Q网络；所述深度Q网络为一种特殊的深度神经网络，所述深度Q网络的输入为环境状态和权重，输出为状态行为值函数，即Q函数，输出维度等于行为数目与多目标函数个数的乘积。

进一步的，所述利用多目标深度强化学习算法进行离线训练的方法包括：

通过批量抽取存储的经验，分别输入深度Q网络和目标网络，计算损失函数来对深度Q网络的网络参数进行梯度更新；所述目标网络与深度Q网络具有相同的网络结构；

根据损失函数对深度Q网络进行训练，得到训练好的深度神经网络，所述训练好的深度神经网络包括暖通空调系统的运行策略集，且运行策略与不同权重组合对应，其中，策略表示从环境状态到行为的概率映射；

所述损失函数计算公式如下：

式中，w_t＝(w_1,t,w_2,t)，w_1,t表示与暖通空调系统能耗相关的权重，w_2,t表示与共享办公区域中多用户热舒适满意度相关的权重，Q(s_t,a_t,w_t；θ)是深度Q网络得出的行为值函数，θ是深度Q网络的网络参数，

表示当输入为s_t+1和a,w_t时目标Q网络的输出值与权重矢量w_t的内积值遵循策略Π取得的Q值函数，γ是折扣因子，θ'是目标Q网络的网络参数。

进一步的，所述多用户平均热舒适满意度计算公式如下：

式中：G_t表示多用户平均热舒适满意度，M_i,t表示用户i(1≤i≤N_t)在t时隙的热舒适满意程度(0≤M_i,t≤1)，N_t表示共享办公区域内t时隙的总的占用人数。

第二方面，本发明提供了一种面向共享办公区域的暖通空调系统控制装置，其特征在于，所述装置包括：

信息获取模块：用于获取当前环境状态信息和多用户平均热舒适满意度目标设定值；

热舒适度模块：用于根据所述当前环境状态信息计算出多用户热舒适满意度；

参数调整模块：用于根据当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值之间的对比，对权重参数进行调整；

行为输出模块：用于将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中，获取当前暖通空调系统的行为，即温度设置点。

与现有技术相比，本发明所达到的有益效果：

1、本发明提出的方法在环境发生改变时能实时自适应地调整暖通空调系统运行策略，无需对策略进行重新学习或事先确定出合适的多目标值加权参数。

2、相比固定温度设置点方法，本发明提出的方法具备同时提升多用户平均热舒适满意度和节省暖通空调系统能耗的潜力，且支持两者之间的灵活折中。

附图说明

图1是本发明所提出的暖通空调系统控制方法的设计流程图；

图2是本方法与其他对比方案的性能图；

图3是本发明所提方法在某一天用户占用状态下不同多用户平均热舒适满意度目标值所对应的性能展示图；

图3(a)是不同设定值下能耗示意图；

图3(b)是不同设定值下累计能耗示意图；

图3(c)是不同设定值下多用户平均热舒适满意度示意图；

图3(d)是不同设定值下室内温度示意图；

图3(e)是不同设定值下能耗权重变化示意图；

图3(f)是不同设定值下温度设置点示意图；

图4是本发明所提控制方法的具体实现框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供了一种面向共享办公区域的暖通空调系统控制方法，其实施流程如图1所示，包括如下步骤：

根据所述当前环境状态信息计算出多用户热舒适满意度；

训练好的深度神经网络的获取方法包括：

基于所述环境模型，生成大量经验并存储；

所述环境模型包含状态转移函数和奖励函数；其中，状态转移函数刻画了输入环境状态、行为与输出环境状态之间的关系，奖励函数刻画了输入环境状态、行为与奖励之间的关系；

所述环境状态s_t由如下多元组表示：

s_t＝(T_t ^out,T_t ⁱⁿ,Z_1,t,...,Z_n,t,t′) (1)

所述行为为暖通空调系统温度设置点，其选择范围为a_t∈{0,T_low,L,T_high}，a_t为暖通空调系统在t时隙内的工作状态，a_t＝0意味着暖通空调系统为关闭状态，其他离散数值皆表示开启状态，a_t＝T_low意味着暖通空调系统为开启状态且温度设置点为T_low度，a_t＝T_high意味着暖通空调系统为开启状态且温度设置点为T_high度；所述奖励函数与暖通空调系统能耗和多用户热舒适满意度相关。

本实施例提出的方法在环境发生改变时能实时自适应地调整暖通空调系统运行策略，无需对策略进行重新学习或事先确定出合适的多目标值加权参数。相比固定温度设置点方法，本实施例提出的方法具备同时提升多用户平均热舒适满意度和节省暖通空调系统能耗的潜力，且支持两者之间的灵活折中。

实施例二：

步骤1：利用历史运行数据建立共享办公区域环境模型；

历史运行数据至少包含如下信息：室内外温度、用户占用状态、暖通空调系统温度设置点、暖通空调系统能耗、用户偏好温度、与上述信息关联的时间。

环境模型包含状态转移函数和奖励函数；其中，状态转移函数刻画输入环境状态、行为与输出环境状态之间的关系，奖励函数刻画了输入环境状态、行为与奖励之间的关系，上述关系均能够由长短时记忆(LSTM)网络进行建立。所述环境状态s_t由如下多元组表示：所述环境状态s_t由如下多元组表示：

s_t＝(T_t ^out,T_t ⁱⁿ,Z_1,t,...,Z_n,t,t′) (2)

其中：T_t ^out表示t时隙的室外温度，T_t ⁱⁿ表示t时隙的室内温度，Z_i,t表示用户i(1≤i≤n)在t时隙的占用状态，t’表示t时隙的当前绝对时间在一天内的相对时间(如第24小时相当于第0小时，第26小时相当于第2小时)；状态转移时，根据t时隙初的环境状态、以及t时隙初的控制行为，由共享办公区域的环境模型能够得出t+1时隙初的环境状态。

所述行为表示共享办公区域内暖通空调系统的温度设置点，其选择范围如下a_t∈{0,T_low,L,T_high}，a_t＝0意味着暖通空调系统处于关闭状态，其他离散数值皆表示暖通空调系统处于开启状态，a_t＝T_low意味着暖通空调系统为开启状态且温度设置点为T_low度，a_t＝T_high意味着暖通空调系统为开启状态且温度设置点为T_high度；

所述奖励函数的设计如下：

r_t＝(r_1,t,r_2,t) (3)

具体而言，r_t为奖惩值，r_1,t是t-1时隙末与暖通空调系统能耗相关的奖励，r_2,t是t-1时隙末与多用户平均温度偏离相关的奖励；

r_1,t＝-P_t ^hτ (4)

其中：τ表示时隙间隔，P_t ^h表示t时隙暖通空调系统的输入功率，其值由温度设置点T_set与室内温度T_t ⁱⁿ决定。当室内温度升高到

时，暖通空调系统功率为0；当室内温度降低到

时，暖通空调系统功率为P^h，其中

为一个常数。

N_t表示共享办公区域内t时隙的占用人数，

表示t时隙用户i对室内环境的期望温度，T_t ⁱⁿ表示t时隙室内环境真实温度。

步骤2：基于建立的环境模型，产生大量的经验进行存储；

所述经验由如下五元组表示：{s_t,a_t,r_t+1,s_t+1,d_t}，其中：s_t表示当前t时隙的环境状态，a_t表示当前t时隙的行为，r_t+1表示当前t时隙末的奖励，s_t+1表示t+1时隙的环境状态，d_t表示片段是否结束。此外，产生大量经验的过程是一系列利用环境模型(即训练得到的LSTM网络)进行下一环境状态和奖励的预测过程。以片段为单位，产生大量经验存放在经验池中。

步骤3：基于产生的大量经验，利用多目标深度强化学习算法进行离线训练，获得暖通空调系统最优运行策略集；

多目标深度强化学习算法采用深度Q网络架构，并采用了经验回放和目标Q网络等稳定性能的方法。所述深度Q网络的输入为环境状态和权重，输出为状态行为值函数(即Q函数)，输出维度等于行为数目与多目标函数个数的乘积。

行为的选择根据如下方式进行：以概率ε(ε∈(0,1))的方式随机选择一个行为。若随机生成的概率大于ε，则将权重矢量与Q函数矢量的内积值经过softmax操作后转化为概率矢量，然后依据该概率矢量随机产生一个行为。

此外，训练深度Q网络的损失函数计算如下：

具体而言，y的表示如下：

其中，(s_t,a_t,r_t+1,s_t+1,d_t)是从经验池里面抽取的一个五元组，w_t＝(w_1,t,w_2,t)，w_1,t表示与暖通空调系统能耗相关的权重，w_2,t表示与共享办公区域中多用户热舒适满意度相关的权重。Q(s_t,a_t,w_t；θ)是深度Q网络得出的行为值函数，θ是深度Q网络的网络参数，

表示当输入为s_t+1和a,w_t时目标Q网络的输出值与权重矢量w_t的内积值经过softmax操作后转化为概率矢量，然后依据该概率矢量随机产生一个Q值函数，γ是折扣因子，θ'是目标Q网络的网络参数。

根据上述损失函数对深度Q网络进行训练，最终得到暖通空调系统的运行策略集，且运行策略与不同权重组合对应，其中：策略表示从环境状态到行为的概率映射。

步骤4：根据环境状态和多用户平均热舒适满意度目标设定值，自适应地调整暖通空调系统运行策略，并根据调整的运行策略对暖通空调系统进行控制。

考虑到温度偏离在一定范围内时，用户对环境温度的敏感性较低，设计如下的用户满意度打分，具体如下：

其中，M_i,t表示用户i(1≤i≤N_t)在t时隙的热舒适满意程度(0≤M_i,t≤1)，N_t表示共享办公区域内t时隙的占用人数，

表示与用户i相关的期望温度偏离程度，β和γ(β>0，γ>0)是从温度偏差到用户热满意度映射的表征函数的常量，T_max和T_min是用户i(1≤i≤n)自身期望温度与室内实际温度相差的范围上下限。

自适应地调整暖通空调系统运行策略的过程如下：首先，收集环境状态信息并计算出多用户热舒适满意度。然后，比较当前多用户平均热舒适满意度与设定的目标值之间的大小。如果前者大于后者，则增加与系统能耗相关的权重系数w_1,t；否则，减小w_1,t。紧接着，根据w_1,t计算出w_2,t，即：w_2,t＝1-w_1,t。

最后，将环境状态和权重信息输入到训练好的深度神经网络中，输出当前暖通空调系统的行为，即温度设置点。

为了展示本发明所提方法的有效性，两种对比方案被引入。具体而言，对比方案一采用固定权重方式，且采用的状态信息、行为和奖励与所提方法相同。对比方案二采用固定温度设置点方式。具体而言，以制冷模式为例，当室内温度高于固定温度带上限(固定设置点加上一个偏离值)时，开启暖通空调系统；当室内温度低于设定温度带下限(固定设置点减去一个偏离值)时，关闭暖通空调系统。

图2～图3中的动态1表示多用户平均热舒适满意度目标设定值为0.7，动态2表示多用户平均热舒适满意度目标设定值为0.5，动态2表示多用户平均热舒适满意度目标设定值为0.3。

图2展示了所提方法与其他对比方案的性能。具体而言，图2展示了在某一天用户占用状态下不同多用户平均热舒适满意度目标值所对应的性能，其中：多用户平均热舒适满意度是上班时间(12个小时)多个占用用户每个人每小时的平均热舒适满意度。由图可知，相比方案一，本发明所提方法在相同能耗下具有更高的用户热舒适满意度；相比方案二中固定温度设置点为21-25摄氏度的情况，本发明所提方法可同时提升多用户平均热舒适满意度和降低暖通空调系统能耗。相比固定温度设置点为26和27摄氏度的情况，本发明所提方法可在能耗相同前提下提升多用户平均热舒适满意度。

图3展示了本发明所提方法在某一天用户占用状态下不同多用户平均热舒适满意度目标值所对应的性能。图3(a)是不同设定值下能耗示意图；图3(b)是不同设定值下累计能耗示意图；图3(c)是不同设定值下多用户平均热舒适满意度示意图；图3(d)是不同设定值下室内温度示意图；图3(e)是不同设定值下能耗权重变化示意图；图3(f)是不同设定值下温度设置点示意图。

当多用户平均热舒适满意度目标值设定值由高到低变化时，暖通空调系统总能耗降低(图3(a)和图3(b)所示)，区域内部热舒适性变差(图3(c)所示)。因此，所提方法可实现暖通空调系统能耗和多用户热舒适之间的灵活折中。由图3(d)-图3(f)可知，所提方法能自适应地调整权重系数和运行策略进而改变温度设置点，最终实现对设定的多用户平均热舒适满意度的跟踪。

实施例三：

本实施例给出了用于实现实施例一所述方法的系统，如图4所示，给出了本发明方法的具体实现系统框图。具体而言，该系统由暖通空调系统智慧控制器和暖通空调系统组成。其中：暖通空调系统智慧控制器是由本发明提出的方法训练得到的控制器，它能根据感知的环境状态以及收集的多用户平均热舒适满意度目标值自适应地调整运行策略并输出最优温度设置点，并将该信息发送给暖通空调系统。最后，暖通空调系统根据接收的温度设置点信息进行自动运行。

实施例四：

本实施例提供一种面向共享办公区域的暖通空调系统控制装置，可实现实施例一所述的方法，所述装置包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。