CN112540535B

CN112540535B - 一种基于深度强化学习的办公建筑热舒适控制系统及方法

Info

Publication number: CN112540535B
Application number: CN202011270260.2A
Authority: CN
Inventors: 余亮; 魏良兵; 岳东; 窦春霞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-08-30
Anticipated expiration: 2040-11-13
Also published as: CN112540535A

Abstract

本发明公开了一种基于深度强化学习的办公建筑热舒适控制系统及方法，所述系统包括：与暖通空调子系统、个人舒适子系统连接的深度强化学习智能体模块，所述深度强化学习智能体模块包括控制策略子模块和在线学习子模块；控制策略子模块能够基于环境状态信息，输出暖通空调子系统与个人舒适子系统的协同行为，将协同行为信息发送给所述暖通空调子系统和所述个人舒适子系统进行执行；在线学习子模块与控制策略子模块并行工作，利用环境状态信息和协同行为信息在线训练深度神经网络，定期将训练得到的深度神经网络模型拷贝至控制策略子模块用于决策。本发明能够提供个性化用户热舒适体验，能够优化系统总电费/能耗。

Description

一种基于深度强化学习的办公建筑热舒适控制系统及方法

技术领域

本发明涉及一种基于深度强化学习的办公建筑热舒适控制系统及方法，属于建筑能量管理与人工智能交叉技术领域。

背景技术

2019年12月，联合国环境署负责的全球建筑建设联盟发布了《全球状况报告2019》。根据该报告可知，2018年建筑建设和运行相关的能耗占全球总能耗的36％，相应的碳排放量占全球与能源相关的碳排放量的39％。此外，随着人口进一步增长和新兴经济体购买力的快速提升，2050年建筑能源需求相比2016年将增加50％。由于传统能源(如煤炭、石油、天然气)总量有限，不断增加的建筑能源需求将导致国家能源危机、环境恶化、建筑使用者的经济负担逐渐增大。在建筑能耗中，暖通空调(Heating,Ventilation,and AirConditioning,HVAC)系统能耗占40％左右。尽管暖通空调系统能耗非常高，但在多人共享的办公建筑中用户热舒适满意率依然较低。例如：涉及351个办公建筑和52980个用户的大规模调查结果显示：用户热舒适满意率(即基本满意、满意和非常满意的投票数占总票数的比例)仅为38％。因此，如何为共享办公建筑内的多个用户提供高满意率的热舒适环境并最小化能量成本或能耗具有重要意义。

实现共享区域多用户高热舒适满意率的有效方法是采用个人舒适系统(如桌面电风扇、加热椅、加热垫)。然而，由于个人舒适系统的温度调节能力有限(如正负3度)，无法实现较大温度范围内调节。由于现有办公建筑已部署有大量分体式暖通空调系统，如何充分利用现有资源并设计暖通空调系统与个人舒适系统最优协调运行方法最大化用户热舒适体验和最小化系统能耗/电费非常重要。现有研究主要考虑采用基于模型的优化方法，即建筑的热动态性模型需要事先给定。在实际中，建筑热动态性模型受众多因素影响(如建筑结构和材料、室外温度和湿度、太阳辐射强度、来自用户和设备的热增益等)，获得足够准确且易于控制的建筑热动态性模型非常有挑战。为此，部分研究基于强化学习提出了多个用户加热器的集中控制方法。虽然该方法不需要知晓建筑热动态性模型，但并未考虑暖通空调系统和个人舒适系统的联合控制。当直接将两类系统进行联合控制时，状态和动作维度呈现指数上升趋势，进而导致“维度灾难”问题。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于深度强化学习的办公建筑热舒适控制系统及方法，能够提供个性化用户热舒适体验。为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于深度强化学习的办公建筑热舒适控制系统，包括：

与暖通空调子系统、个人舒适子系统连接的深度强化学习智能体模块，所述深度强化学习智能体模块包括控制策略子模块和在线学习子模块；

所述控制策略子模块能够基于环境状态信息，输出暖通空调子系统与个人舒适子系统的协同行为，将协同行为信息发送给所述暖通空调子系统和所述个人舒适子系统进行执行；

所述在线学习子模块与控制策略子模块并行工作，不断训练自身的深度神经网络，定期将训练得到的深度神经网络模型拷贝至控制策略子模块。

结合第一方面，进一步地，所述深度强化学习智能体模块还包括信息采集子模块和信息存储子模块，

所述信息采集子模块与控制策略子模块和信息存储子模块通信连接，将采集的环境状态信息发送给控制策略子模块和信息存储子模块；

所述信息存储子模块与控制策略子模块和信息采集子模块通信连接，接受并存储信息采集子模块发送的环境状态信息和控制策略子模块发送的执行行为信息。

结合第一方面，优选地，暖通空调子系统由分体式室内机和室外机组成，具有用于自动设置空调温度设置点的无线执行器模块，暖通空调子系统用于调节多用户共享办公区域的内部温度。

结合第一方面，优选地，个人舒适子系统由具有无线执行器模块的桌面风扇或/和加热装置组成，个人舒适子系统用于调节其关联用户周围的微环境。

结合第一方面，优选地，控制策略子模块内部具有深度神经网络，接收来自信息采集子模块的环境状态信息，并将该信息作为其内部深度神经网络模型的输入，内部深度神经网络模型输出暖通空调子系统与个人舒适子系统的协同行为。控制策略子模块将执行行为信息发送给信息存储子模块、暖通空调子系统以及个人舒适子系统。控制策略子模块定期从在线学习子模块拷贝训练后的深度神经网络模型，能够保证输出暖通空调子系统与个人舒适子系统的协同行为决策更有效。

结合第一方面，优选地，信息存储子模块存储信息采集子模块发送的环境状态信息和控制策略子模块发送的执行行为信息时，将信息作为四元组进行存储，包括：时隙初的环境状态、时隙初的执行行为、时隙末由环境状态各行为信息计算得到的奖励和时隙末的环境状态。

结合第一方面，优选地，时隙指暖通空调子系统和个人舒适子系统执行连续两次决策的时间间隔。

结合第一方面，优选地，在线学习子模块部署在云端服务器或本地服务器，以暖通空调子系统与个人舒适子系统能量总成本最小、未来的期望折扣奖励最大化为目标，从信息存储子模块中定期抽取小批量数据并利用深度强化学习算法对其内部的深度神经网络进行训练。

结合第一方面，优选地，一个暖通空调子系统与一个或多个个人舒适子系统协同工作，共同为多用户提供差异化的热舒适体验。

第二方面，本发明提供了一种基于深度强化学习的办公建筑热舒适控制方法，包括：

根据采集到的各时隙初的环境状态信息，控制策略子模块输出各时隙的暖通空调子系统与个人舒适子系统的协同行为；

基于各时隙初的环境状态信息、采集暖通空调子系统和个人舒适子系统的协同行为信息以及奖励信息，在线学习子模块与控制策略子模块并行工作，采用预设的训练方法在线训练深度神经网络，得到训练后的深度神经网络模型；

定期将训练得到的深度神经网络模型拷贝给控制策略子模块，实现控制策略子模块的进化。

结合第二方面，进一步地，深度神经网络包括暖通空调子系统智能体和个人舒适子系统智能体，每个智能体包括行动者网络和评论家网络，各智能体通过注意力网络进行协同，

所述评论家网络包括状态与行为联合编码模块，用于在输入观测状态和行为后，输出观测状态和行为联合编码；

采用预设的训练方法训练各智能体的深度神经网络包括：

将所有智能体评论家网络的状态与行为联合编码模块输出的观测状态和行为联合编码输入注意力网络的输入端；

注意力网络输出所有其他智能体对某一待训练智能体的贡献值；

根据所述贡献值训练该待训练各智能体的行动者网络。

结合第二方面，优选地，各智能体的深度神经网络中还包括目标行动者网络，所述目标行动者网络和行动者网络的结构相同，目标行动者网络的参数不需要频繁迭代更新，每隔一段时间从行动者网络复制过来，即延时更新，能够减少网络中的参数相关性，提高神经网络的稳定性。

结合第二方面，优选地，各智能体的深度神经网络中还包括目标评论家网络，所述目标评论家网络和评论家网络的结构相同，目标评论家网络的参数不需要频繁迭代更新，每隔一段时间从评论家网络复制过来，即延时更新，能够减少网络中的参数相关性，提高神经网络的稳定性。

结合第二方面，优选地，各智能体的评论家网络包含3个感知机模块，分别为状态编码模块、状态与行为联合编码模块和多层感知机，其中：

状态编码模块为单层感知机，输入是本地观测状态，输出是观测状态编码输出；

状态与行为联合编码模块为单层感知机，输入是观测状态和行为，输出是观测状态和行为联合编码；

所有智能体的评论家网络中状态与行为联合编码模块的输出送入到注意力网络，注意力网络返回其他智能体对当前智能体的贡献值，所述贡献值和状态编码模块的输出，作为多层感知机的输入，多层感知机的输出是状态行为值函数。

结合第二方面，优选地，加权和中的加权系数反映了智能体i的评论家网络中状态与行为联合编码模块的输出值和其他智能体的评论家网络中状态与行为联合编码模块的输出值之间的相似性，相似性越高，则加权系数越大，当前的智能体i会重点关注注意力网络输出中贡献值较大的其他智能体，能够有效提高各智能体的深度神经网络的学习效率。

结合第二方面，优选地，预先设定的学习算法为基于各智能体的深度神经网络的行动者-注意力-评论家(Actor-Attention-Critic,AAC)深度强化学习方法。

结合第二方面，进一步地，还包括在首次输出各时隙的暖通空调子系统与个人舒适子系统的协同行为前，将多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题建模为马尔可夫博弈，多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题表示为：

式(1)中：1≤t≤N，N表示总时隙数，L_t(s_t,m_1,t,m_2,t,…,m_i,t,…,β_t)表示在t时隙暖通空调子系统与个人舒适子系统的总成本；m_i,t表示第i个用户在个人舒适子系统中t时隙下的个人舒适子系统工作状态；f(s_t,m_1,t,m_2,t,…,m_i,t,…,β_t)表示共享办公区域内系统的动态性；β_t表示暖通空调子系统在t时隙内的工作状态；s_t表示共享办公区域暖通空调子系统与个人舒适子系统的协同状态信息：

s_t＝(o_1,t,…,o_n,t,o′_t)

o′_t＝(λ_t,t′,N_t)

式(2)中：o_i,t表示与用户i(1≤i≤n)所关联的个人舒适子系统工作状态决策相关的智能体的观测状态，o_t’表示与暖通空调子系统空调状态决策相关的智能体的观测状态，T_t ^out表示t时隙的室外温度，T_t ⁱⁿ表示t时隙的室内温度，λ_t表示t时隙的电价，t’表示t时隙的当前绝对时间在一天内的相对时间，F_i,t-1表示用户i在t-1时隙的个人舒适子系统工作状态，Z_i,t表示用户i在t时隙的占用状态，

表示t时隙用户i对室内环境的期望温度，N_t表示共享办公区域内t时隙的占用人数。

结合第二方面，进一步地，还包括控制行为的表达式：

a_t＝(m_1,t,…,m_i,t,…,β_t) (3)

式(3)中：a_t表示暖通空调子系统与个人舒适子系统在t时隙的协同行为，m_i,t表示用户i在个人舒适子系统中t时隙下的个人舒适子系统状态，β_t为暖通空调子系统在t时隙内的工作状态。

结合第二方面，进一步地，还包括奖励的表达式：

R_1,i,t＝-[C_1,t(o_i,t,a_t)+αC_2,t(o_i,t,a_t)]

R_2,t＝-[C_3,t(o_i,t,a_t)+αC_4,t(o’_t,a_t)] (4)

式(4)中，R_1,i,t表示与用户i关联的个人舒适子系统状态决策相关的智能体在t-1时隙末所获得的奖励，R_2,t表示与暖通空调子系统工作状态决策相关的智能体在t-1时隙末所获得的奖励，α表示暖通空调子系统能量成本相对于期望温度偏离导致的惩罚成本的重要性系数，C_1,t(o_i,t,a_t)表示t时隙末用户i因违背自身期望温度导致的惩罚成本，C_2,t(o_i,t,a_t)表示t时隙末用户i对应个人舒适子系统能量成本相关的惩罚，C_3,t(o_i,t,a_t)表示t时隙末整体用户因违背自身期望温度导致的惩罚成本，C_4,t(o’_t,a_t)表示t时隙末共享办公区域对应暖通空调子系统能量成本相关的惩罚。

结合第二方面，优选地，t时隙末用户i因违背自身期望温度导致的惩罚成本C_1,t(o_i,t,a_t)表示为：

式(5)中，

表示t时隙用户i对室内环境的期望温度，

表示t时隙用户i对室内环境的期望温度，其表达式为：

式(6)中，T_t ⁱⁿ表示t时隙下室内环境的温度，F_i,t表示t时隙用户i所处的个人舒适子系统的工作状态，个人舒适子系统对人体感受温度影响范围为3℃。

结合第二方面，优选地，t时隙末用户i对应个人舒适子系统能量成本相关的惩罚C_2,t(o_i,t,a_t)表示为：

式(7)中，λ_t表示t时隙的电价，τ表示时隙间隔，

表示t时隙个人舒适子系统输入功率。

结合第二方面，优选地，t时隙末整体用户因违背自身期望温度导致的惩罚成本C_3,t(o_i,t,a_t)表示为：

式(8)中，N_t表示t时隙共享办公区域内的用户人数。

结合第二方面，优选地，t时隙末共享办公区域对应暖通空调子系统能量成本相关的惩罚C_4,t(o’_t,a_t)表示为：

C_4,t(o_i,t,a_t)＝P_t ^hλ_tτ (9)

式(9)中，P_t ^h表示t时隙暖通空调子系统的功率，由温度设置点T_set与室内温度T_t ⁱⁿ决定。

结合第二方面，进一步地，个人舒适子系统状态的取值如下：

m_i,t∈{0,1,…,K} (10)

式(10)中，m_i,t为t时隙初与用户i相关联的个人舒适子系统工作状态，当m_i,t＝0时，个人舒适子系统为关闭状态，当m_i,t＝K时，个人舒适子系统为开启状态且处于最大功率输出状态。

结合第二方面，进一步地，暖通空调子系统状态的取值如下：

β_t∈{0,T_low,…,T_high} (11)

式(11)中，β_t为暖通空调子系统在t时隙内的工作状态，当β_t＝0时，暖通空调子系统为关闭状态，其他离散数值为开启状态，β_t＝T_low时，暖通空调子系统为开启状态且温度设置在T_low摄氏度，β_t＝T_high时，暖通空调子系统为开启状态且温度设置在T_high摄氏度。

结合第二方面，优选地，智能体的奖励能够在训练各智能体的深度神经网络过程提高训练效率。

与现有技术相比，本发明实施例所提供的一种基于深度强化学习的办公建筑热舒适控制系统及方法所达到的有益效果包括：

本发明提供的控制策略子模块能够基于环境信息，输出暖通空调子系统与个人舒适子系统的协同行为，将协同行为信息发送给所述暖通空调子系统和所述个人舒适子系统进行执行，无需知晓建筑热动力学模型和不确定性系统参数先验知识，能够为用户提供更加个性化的热舒适体验并降低暖通空调子系统与个人舒适子系统的总能量成本/能耗；

本发明提出的热舒适控制方法在训练深度神经网络时采用了集中式训练和分布式执行的结构以及注意力网络，因而对共享区域内用户占用人数具有高可扩展性。

附图说明

图1是本发明一种基于深度强化学习的办公建筑热舒适控制系统的框图；

图2是本发明一种基于深度强化学习的办公建筑热舒适控制方法的工作流程图；

图3是本发明实施例3中采用本发明提供的一种基于深度强化学习的办公建筑热舒适控制方法与其它热舒适控制方法的性能对比图；

图4是本发明实施例3中在某一天用户占用状态下的用户感知温度和期望温度曲线图；

图5是本发明实施例3中在某一天用户占用状态下的系统参数变化图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，一种基于深度强化学习的办公建筑热舒适控制系统，包括如下模块：

与暖通空调子系统、个人舒适子系统连接的深度强化学习智能体模块，深度强化学习智能体模块包括信息采集子模块、信息存储子模块、在线学习子模块和控制策略子模块。

暖通空调子系统由分体式室内机和室外机组成，具有用于自动设置空调温度设置点的无线执行器模块，暖通空调子系统用于调节多用户共享办公区域的内部温度。

个人舒适子系统由具有无线执行器模块的桌面风扇或/和加热装置组成，个人舒适子系统用于调节其关联用户周围的微环境。值得注意的是，个人舒适子系统数量对应办公用户人数，即每一位室内用户身处环境皆配置有一套个人舒适子系统。

系统中包括一个暖通空调子系统与一个或多个个人舒适子系统，协同工作，共同为多用户提供差异化的热舒适体验。

信息采集子模块使用传感器等手段获取共享办公区域的当前室内外温度、每个用户座位占用情况、电价、时间等状态信息，将状态信息发送给控制策略子模块和信息存储子模块。

信息存储子模块接收信息采集子模块发送的环境状态信息和控制策略子模块发送的执行行为信息，将信息作为四元组进行存储，包括：时隙初的环境状态、时隙初的执行行为、时隙末由环境状态各行为信息计算得到的奖励和时隙末的环境状态。

需要说明的是，时隙指暖通空调子系统和个人舒适子系统执行连续两次决策的时间间隔。

控制策略子模块能够基于环境信息，输出暖通空调子系统与个人舒适子系统的协同行为，将协同行为信息发送给所述暖通空调子系统和所述个人舒适子系统进行执行。具体为：控制策略子模块内部具有深度神经网络，接收来自信息采集子模块的环境状态信息，并将该信息作为其内部深度神经网络模型的输入，内部深度神经网络模型输出暖通空调子系统与个人舒适子系统的协同行为。控制策略子模块将执行行为信息发送给信息存储子模块、暖通空调子系统以及个人舒适子系统。控制策略子模块定期从在线学习子模块拷贝训练后的深度神经网络模型，能够保证输出暖通空调子系统与个人舒适子系统的协同行为决策更有效。

在线学习子模块部署在云端服务器或本地服务器，以暖通空调子系统与个人舒适子系统能量总成本最小、未来的期望折扣奖励最大化为目标，从信息存储子模块中定期抽取小批量数据并利用深度强化学习算法对其内部的深度神经网络进行训练。

实施例二：

如图2、图3所示，本发明提供了一种基于深度强化学习的办公建筑热舒适控制方法，包括：

步骤1：信息采集子模块在每个时隙初获取状态信息并将其发送给信息存储子模块和控制策略子模块。

步骤2：控制策略子模块在每个时隙初接收状态信息后输出暖通空调子系统与个人舒适子系统的控制行为，并将控制行为信息发给信息存储子模块。同时，将控制行为实施信息发给暖通空调子系统和个人舒适子系统进行执行。然后判断是否需更新深度神经网络模型。如需更新，则从在线学习子模块获取深度神经网络训练模型参数。如果暂不更新，则流程转入步骤3。

步骤3：信息采集子模块在每个时隙末获取状态信息并发送给信息存储子模块。然后，信息存储子模块将状态行为对(由四部分组成，即：时隙初的状态、时隙初的控制行为、时隙末由状态和控制行为相关信息计算所得的奖励、时隙末的状态)作为一个四元组进行存储。值得说明的是，当前时隙末的状态信息等价于下一个时隙初的状态信息。因此，步骤3中采集的状态信息将直接作为步骤1中下一时隙初的状态信息。

步骤4-1：时隙序号加1，继续执行上述步骤1-3。

步骤4-2：在线学习子模块定期从信息存储子模块抽取小批量状态行为对数据，并以未来期望折扣奖励最大化为目标，利用多智能体行动者-注意力-评论家深度强化学习算法对模型进行训练。根据控制策略子模块的更新需求，定期将训练好的深度神经网络模型参数拷贝给控制策略子模块中的深度神经网络模型用于决策。

值得说明的是，上述步骤4-1和4-2是两个独立的步骤，可并行执行。

具体地，深度神经网络包括暖通空调子系统智能体和个人舒适子系统智能体，每个智能体包括行动者网络和评论家网络，各智能体通过注意力网络进行协同。

所述评论家网络包括包含3个感知机模块，分别为状态编码模块、状态与行为联合编码模块和多层感知机，其中：

采用预设的训练方法训练各智能体的深度神经网络包括：

根据所述贡献值训练该待训练各智能体的行动者网络与评论家网络。

加权和中的加权系数反映了智能体i的评论家网络中状态与行为联合编码模块的输出值和其他智能体的评论家网络中状态与行为联合编码模块的输出值之间的相似性，相似性越高，则加权系数越大，当前的智能体i会重点关注注意力网络输出中贡献值较大的其他智能体，能够有效提高各智能体的深度神经网络的学习效率。

各智能体的深度神经网络中还包括目标行动者网络，所述目标行动者网络和行动者网络的结构相同，目标行动者网络的参数不需要频繁迭代更新，每隔一段时间从行动者网络复制过来，即延时更新，有助于减少网络中的参数相关性，提高神经网络的稳定性。

各智能体的深度神经网络中还包括目标行动者网络，所述目标行动者网络和行动者网络的结构相同，目标评论家网络的参数不需要频繁迭代更新，每隔一段时间从评论家网络复制过来，即延时更新，有助于减少网络中的参数相关性，提高神经网络的稳定性。

预先设定的学习算法为基于各智能体的深度神经网络的行动者-注意力-评论家(Actor-Attention-Critic,AAC)深度强化学习方法。

如图2所示，在首次输出各时隙的暖通空调子系统与个人舒适子系统的协同行为前，将多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题建模为马尔可夫博弈，多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题表示为：

具体地，关于t’的取值，例如：第24小时相当于第0小时，第26小时相当于第2小时。

还包括控制行为的表达式：

a_t＝(m_1,t,…,m_i,t,…,β_t) (3)

还包括奖励的表达式：

R_1,i,t＝-[C_1,t(o_i,t,a_t)+αC_2,t(o_i,t,a_t)]

R_2,t＝-[C_3,t(o_i,t,a_t)+αC_4,t(o’_t,a_t)] (4)

具体地，t时隙末用户i因违背自身期望温度导致的惩罚成本C_1,t(o_i,t,a_t)表示为：

式(5)中，

表示t时隙用户i对室内环境的期望温度，

表示t时隙用户i对室内环境的期望温度，其表达式为：

具体地，t时隙末用户i对应个人舒适子系统能量成本相关的惩罚C_2,t(o_i,t,a_t)表示为：

式(7)中，λ_t表示t时隙的电价，τ表示时隙间隔，

表示t时隙个人舒适子系统输入功率。

具体地，t时隙末整体用户因违背自身期望温度导致的惩罚成本C_3,t(o_i,t,a_t)表示为：

式(8)中，N_t表示t时隙共享办公区域内的用户人数。

具体地，t时隙末共享办公区域对应暖通空调子系统能量成本相关的惩罚C_4,t(o’_t,a_t)表示为：

C_4,t(o_i,t,a_t)＝P_t ^hλ_tτ (9)

具体地，个人舒适子系统状态的取值如下：

m_i,t∈{0,1,…,K} (10)

具体地，暖通空调子系统状态的取值如下：

β_t∈{0,T_low,…,T_high} (11)

实施例三：

本实施例是基于实施例一提供的一种基于深度强化学习的办公建筑热舒适控制系统，采用实施例二提供的一种基于深度强化学习的办公建筑热舒适控制方法的具体应用场景，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本实施例中，状态、行为、奖励分别设计如下：

1.1状态：t时隙用户i与个人舒适子系统工作状态决策相关的智能体本地观测状态o_i,t表示为：

式(12)中，T_t ^out表示t时隙的室外温度，T_t ⁱⁿ表示t时隙的室内温度，λ_t表示t时隙的电价，t’表示t时隙的当前绝对时间在一天内的相对时间，F_i,t-1表示用户i在t-1时隙的个人舒适子系统工作状态，Z_i,t表示用户i在t时隙的占用状态，

表示t时隙用户i对室内环境的期望温度。

与暖通空调子系统空调状态决策相关的智能体的观测状态o_t’表示为：

o′_t＝(λ_t,t′,N_t) (13)

式(13)中，N_t表示共享办公区域内t时隙的占用人数。

由于本地观测信息仅包含状态信息的部分信息，状态信息设计如下：

s_t＝(o_1,t,…,o_n,t,o′_t) (14)

式(14)中，o_n,t表示用户n所关联的个人舒适子系统工作状态决策相关的智能体的观测状态。

1.2行为：暖通空调子系统与个人舒适子系统在t时隙的协同行为t时隙的行为用a_t表示为：

a_t＝(m_1,t,…,m_i,t,…,β_t) (15)

式(15)中，β_t表示暖通空调子系统在t时隙内的工作状态，m_i,t表示用户i在个人舒适子系统中t时隙下的个人舒适子系统状态。

用户i在个人舒适子系统中t时隙下的个人舒适子系统状态的取值如下：

m_i,t∈{0,1,…,K} (16)

式(16)中，当m_i,t＝0时，个人舒适子系统为关闭状态，当m_i,t＝K时，个人舒适子系统为开启状态且处于最大功率输出状态。

暖通空调子系统在t时隙内的工作状态的取值如下：

β_t∈{0,T_low,…,T_high} (17)

式(17)中，当β_t＝0时，暖通空调子系统为关闭状态，其他离散数值为开启状态，如β_t＝T_low时，暖通空调子系统为开启状态且温度设置在T_low摄氏度。

1.3奖励：各用户个人舒适子系统工作状态决心相关的智能体在t时隙的奖励用R_1,i,t表示，包括二个组成部分：

1.3.1：与用户i关联的个人舒适子系统状态决策相关的智能体在t-1时隙末所获得的奖励R_1,i,t表示为：

R_1,i,t＝-[C_1,t(o_i,t,a_t)+αC_2,t(o_i,t,a_t)] (18)

式(18)中，α表示暖通空调子系统能量成本相对于期望温度偏离导致的惩罚成本的重要性系数，C_1,t(o_i,t,a_t)表示t时隙末用户i因违背自身期望温度导致的惩罚成本，C_2,t(o_i,t,a_t)表示t时隙末用户i对应个人舒适子系统能量成本相关的惩罚。

t时隙末用户i因违背自身期望温度导致的惩罚成本C_1,t(o_i,t,a_t)表示为：

式(19)中，

表示t时隙用户i对室内环境的期望温度，

表示t时隙用户i对室内环境的期望温度，其表达式为：

式(20)中，T_t ⁱⁿ表示t时隙下室内环境的温度，F_it表示t时隙用户i所处的个人舒适子系统的工作状态，个人舒适子系统对人体感受温度影响范围为3℃。t时隙末用户i对应个人舒适子系统能量成本相关的惩罚C_2,t(o_i,t,a_t)表示为：

式(21)中，λ_t表示t时隙的电价，τ表示时隙间隔，

表示t时隙个人舒适子系统输入功率。

1.3.2：暖通空调子系统工作状态决策相关的智能体在t-1时隙末所获得的奖励R_2,t表示为：

R_2,t＝-[C_3,t(o_i,t,a_t)+αC_4,t(o’_t,a_t)] (22)

式(22)中，α表示暖通空调子系统能量成本相对于期望温度偏离导致的惩罚成本的重要性系数，C_3,t(o_i,t,a_t)表示t时隙末整体用户因违背自身期望温度导致的惩罚成本，C_4,t(o’_t,a_t)表示t时隙末共享办公区域对应暖通空调子系统能量成本相关的惩罚。

t时隙末整体用户因违背自身期望温度导致的惩罚成本C_3,t(o_i,t,a_t)表示为：

式(23)中，N_t表示t时隙共享办公区域内的用户人数。

t时隙末共享办公区域对应暖通空调子系统能量成本相关的惩罚C_4,t(o’_t,a_t)表示为：

C_4,t(o_i,t,a_t)＝P_t ^hλ_tτ (24)

式(24)中，P_t ^h表示t时隙暖通空调子系统的功率，由温度设置点T_set与室内温度T_t ⁱⁿ决定。

值得注意的是，暖通空调子系统在t时隙的输入功率P_t ^h由温度设置点T_set与室内温度T_t ⁱⁿ决定。当室内温度升高到

时，暖通空调子系统功率为0；当室内温度降低到

时，暖通空调子系统功率为P^h。其中

为暖通空调系统的工作温度带。

为了展示本发明所提方法的有效性，两种对比方案被引入。具体而言，对比方案一不考虑个人舒适子系统，且采用传统的开/关方式对暖通空调子系统进行控制。以制冷模式为例，暖通空调子系统固定温度设置点，当室内温度高于固定温度带上限(固定设置点加上一个偏离值)时，开启暖通空调子系统；当室内温度低于设定温度带下限(固定设置点减去一个偏离值)时，关闭暖通空调子系统。对比方案二不考虑个人舒适子系统，且使用深度Q学习网络(DeepQ-learningNetwork，DQN)对暖通空调子系统进行控制，其采用的状态信息、行为和奖励与所提方法相同，工作状态β_t可灵活选择。在本实施例中，β_t＝25度。

图3展示了所提方法与对比方案的性能。具体而言，图3(a)展示了不同方案下的平均能量成本对比图。平均能量成本为十次蒙特卡洛实验下的暖通空调子系统与个人舒适子系统的能量总成本的平均值。由图可知：相比对比方案，本发明所提方法具有最低的能量成本。图3(b)展示了不同方案下的平均温度偏离

对比图。由图可知：方案二比方案一具有更小的平均温度偏离和更大的标准差，这意味着室内用户舒适感受差异较大。相比其他方案，本发明所提方法具有更低的平均温度偏离和更小的标准差(这意味着室内用户热舒适差异较小)和更低的能量成本。

图4展示了本发明所提方法在某一天用户占用状态下的用户感知温度和期望温度变化图。子图(a)、(b)、(c)、(d)分别描绘了室内用户1、2、3、4的期望温度与不同方案下感知温度。由图可知，所提方法使得用户感知温度更近于用户期望温度。

图5展示了本发明所提方法在某一天用户占用状态下的系统参数变化图。第一张子图描绘了所有个人舒适子系统(Personal Comfort Subsystems,PCS)的工作状态；第二张子图描绘了不同方案下暖通空调子系统温度设置点的变化；第三张子图描绘了不同方案下共享办公区域中的能耗变化。由图可知，所提方法通过暖通空调子系统与个人舒适子系统协同运行使得系统能耗显著降低。相比对比方案，所提方案可降低能耗20.06％-23.37％。第四张子图描绘了本发明实施例中用户占用期间的电价曲线；第五张子图描绘了不同方案下共享办公区域中的能量总成本变化。可知在所提方法中通过暖通空调子系统与个人舒适子系统的协同运行使得系统能量成本最低。当电价为恒定时，本发明提出的热舒适控制方法及系统可为多用户提供差异化热舒适体验并节省能耗。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的办公建筑热舒适控制系统，其特征在于，包括：与暖通空调子系统、个人舒适子系统连接的深度强化学习智能体模块，所述深度强化学习智能体模块包括控制策略子模块和在线学习子模块；

所述控制策略子模块能够基于环境状态信息，输出暖通空调子系统与个人舒适子系统的协同行为，将协同行为信息发送给所述暖通空调子系统和所述个人舒适子系统进行执行；在首次输出各时隙的暖通空调子系统与个人舒适子系统的协同行为前，将多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题建模为马尔可夫博弈，多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题表示为：

式(1)中：1≤t≤N，N表示总时隙数，L_t(s_t,m_1,t,m_2,t,…,m_i,t,…,β_t)表示在t时隙暖通空调子系统与个人舒适子系统的总成本；m_i,t表示第i个用户在个人舒适子系统中t时隙下的个人舒适子系统工作状态，当m_i,t＝K时，个人舒适子系统为开启状态且处于最大功率输出状态；f(s_t,m_1,t,m_2,t,…,m_i,t,…,β_t)表示共享办公区域内系统的动态性；β_t表示暖通空调子系统在t时隙内的工作状态，β_t＝T_low时，暖通空调子系统为开启状态且温度设置在T_low摄氏度，β_t＝T_high时，暖通空调子系统为开启状态且温度设置在T_high摄氏度；s_t表示共享办公区域暖通空调子系统与个人舒适子系统的协同状态信息；

表示t时隙用户i对室内环境的期望温度，N_t表示共享办公区域内t时隙的占用人数；

所述在线学习子模块与控制策略子模块并行工作，不断自身的训练深度神经网络，定期将训练得到的深度神经网络模型拷贝至控制策略子模块。

2.根据权利要求1所述的热舒适控制系统，其特征在于，所述深度强化学习智能体模块还包括信息采集子模块和信息存储子模块，

3.一种基于深度强化学习的办公建筑热舒适控制方法，其特征在于，包括：

根据采集到的各时隙初的环境状态信息，控制策略子模块输出各时隙的暖通空调子系统与个人舒适子系统的协同行为；其中，在首次输出各时隙的暖通空调子系统与个人舒适子系统的协同行为前，将多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题建模为马尔可夫博弈，多用户共享办公区域内暖通空调子系统与个人舒适子系统总成本最小化问题表示为：

式(3)中：1≤t≤N，N表示总时隙数，L_t(s_t,m_1,t,m_2,t,…,m_i,t,…,β_t)表示在t时隙暖通空调子系统与个人舒适子系统的总成本；m_i,t表示第i个用户在个人舒适子系统中t时隙下的个人舒适子系统工作状态，m_i,t＝K表示个人舒适子系统为开启状态且处于最大功率输出状态；f(s_t,m_1,t,m_2,t,…,m_i,t,…,β_t)表示共享办公区域内系统的动态性；β_t表示暖通空调子系统在t时隙内的工作状态，β_t＝T_low表示暖通空调子系统为开启状态且温度设置在T_low摄氏度，β_t＝T_high表示暖通空调子系统为开启状态且温度设置在T_high摄氏度；s_t表示共享办公区域暖通空调子系统与个人舒适子系统的协同状态信息；

式(4)中：o_i,t表示与用户i(1≤i≤n)所关联的个人舒适子系统工作状态决策相关的智能体的观测状态，o_t’表示与暖通空调子系统空调状态决策相关的智能体的观测状态，T_t ^out表示t时隙的室外温度，T_t ⁱⁿ表示t时隙的室内温度，λ_t表示t时隙的电价，t’表示t时隙的当前绝对时间在一天内的相对时间，F_i,t-1表示用户i在t-1时隙的个人舒适子系统工作状态，Z_i,t表示用户i在t时隙的占用状态，

4.根据权利要求3所述的基于深度强化学习的办公建筑热舒适控制方法，其特征在于，深度神经网络包括暖通空调子系统智能体和个人舒适子系统智能体，每个智能体包括行动者网络和评论家网络，各智能体通过注意力网络进行协同，

采用预设的训练方法训练各智能体的深度神经网络包括：

根据所述贡献值训练该待训练各智能体的行动者网络。

5.根据权利要求3所述的基于深度强化学习的办公建筑热舒适控制方法，其特征在于，还包括控制行为的表达式：

a_t＝(m_1,t,…,m_i,t,…,β_t) (5)

式(5)中：a_t表示暖通空调子系统与个人舒适子系统在t时隙的协同行为，m_i,t表示用户i在个人舒适子系统中t时隙下的个人舒适子系统状态，β_t为暖通空调子系统在t时隙内的工作状态。

6.根据权利要求3所述的基于深度强化学习的办公建筑热舒适控制方法，其特征在于，还包括奖励的表达式：

R_1,i,t＝-[C_1,t(o_i,t,a_t)+αC_2,t(o_i,t,a_t)]

R_2,t＝-[C_3,t(o_i,t,a_t)+αC_4,t(o’_t,a_t)] (6)

式(6)中，R_1,i,t表示与用户i关联的个人舒适子系统状态决策相关的智能体在t-1时隙末所获得的奖励，R_2,t表示与暖通空调子系统工作状态决策相关的智能体在t-1时隙末所获得的奖励，α表示暖通空调子系统能量成本相对于期望温度偏离导致的惩罚成本的重要性系数，C_1,t(o_i,t,a_t)表示t时隙末用户i因违背自身期望温度导致的惩罚成本，C_2,t(o_i,t,a_t)表示t时隙末用户i对应个人舒适子系统能量成本相关的惩罚，C_3,t(o_i,t,a_t)表示t时隙末整体用户因违背自身期望温度导致的惩罚成本，C_4,t(o’_t,a_t)表示t时隙末共享办公区域对应暖通空调子系统能量成本相关的惩罚。

7.根据权利要求3所述的基于深度强化学习的办公建筑热舒适控制方法，其特征在于，个人舒适子系统状态的取值如下：

m_i,t∈{0,1,…,K} (7)

式(7)中，m_i,t为t时隙初与用户i相关联的个人舒适子系统工作状态，当m_i,t＝0时，个人舒适子系统为关闭状态，当m_i,t＝K时，个人舒适子系统为开启状态且处于最大功率输出状态。

8.根据权利要求3所述的基于深度强化学习的办公建筑热舒适控制方法，其特征在于，暖通空调子系统状态的取值如下：

β_t∈{0,T_low,…,T_high} (8)

式(8)中，β_t为暖通空调子系统在t时隙内的工作状态，当β_t＝0时，暖通空调子系统为关闭状态，其他离散数值为开启状态，β_t＝T_low时，暖通空调子系统为开启状态且温度设置在T_low摄氏度，β_t＝T_high时，暖通空调子系统为开启状态且温度设置在T_high摄氏度。