CN112963946A - 一种面向共享办公区域的暖通空调系统控制方法及装置 - Google Patents

一种面向共享办公区域的暖通空调系统控制方法及装置 Download PDF

Info

Publication number
CN112963946A
CN112963946A CN202110214230.8A CN202110214230A CN112963946A CN 112963946 A CN112963946 A CN 112963946A CN 202110214230 A CN202110214230 A CN 202110214230A CN 112963946 A CN112963946 A CN 112963946A
Authority
CN
China
Prior art keywords
heating
conditioning system
user
thermal comfort
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110214230.8A
Other languages
English (en)
Other versions
CN112963946B (zh
Inventor
余亮
陈海帆
毕刚
岳东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110214230.8A priority Critical patent/CN112963946B/zh
Publication of CN112963946A publication Critical patent/CN112963946A/zh
Application granted granted Critical
Publication of CN112963946B publication Critical patent/CN112963946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/50Control or safety arrangements characterised by user interfaces or communication
    • F24F11/54Control or safety arrangements characterised by user interfaces or communication using one central controller connected to several sub-controllers
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/70Control systems characterised by their outputs; Constructional details thereof
    • F24F11/80Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/10Temperature

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了一种面向共享办公区域的暖通空调系统控制方法,步骤如下:(1)利用历史运行数据建立共享办公区域环境模型;(2)基于建立的环境模型,产生大量的经验进行存储;(3)基于产生的大量经验,并利用多目标深度强化学习算法训练得到暖通空调系统的最优运行策略集;(4)根据环境状态和多用户平均热舒适满意度目标设定值,自适应地调整暖通空调系统运行策略,并根据运行策略对暖通空调系统温度设置点进行控制。本发明提供的方法可实现多用户热舒适满意度和暖通空调系统能耗之间的灵活折中。相比固定温度设置点控制方法,本发明所提方法具有同时提升多用户热舒适满意度和降低能耗的潜力。

Description

一种面向共享办公区域的暖通空调系统控制方法及装置
技术领域
本发明涉及一种面向共享办公区域的暖通空调系统控制方法,属于建筑能量管理与人工智能交叉技术领域。
背景技术
2019年12月,联合国环境署负责的全球建筑建设联盟发布了《全球状况报告2019》。根据该报告可知,2018年建筑建设和运行相关的能耗占全球总能耗的36%,相应的碳排放量占全球与能源相关的碳排放量的39%。此外,随着人口进一步增长和新兴经济体购买力的快速提升,2050年建筑能源需求相比2016年将增加50%。在建筑能耗中,暖通空调系统能耗占40%左右。尽管暖通空调系统能耗非常高,但是多人共享办公区域内的用户热舒适满意度依然较低,例如:涉及351个办公建筑和52980个用户的大规模调查结果显示:用户热舒适满意度(即基本满意、满意和非常满意的投票数占总票数的比例)仅为38%。因此,非常有必要对共享区域内暖通空调系统进行智慧控制,使其在维持设定的多用户热舒适满意度的情况下最小化暖通空调系统能耗。
实现上述目标非常具有挑战性:(1)不同用户之间的舒适温度偏好具有差异性;(2)室外温度、室内温度、用户占用人数等呈现动态变化使得选择合适的固定温度设置点非常困难。针对上述挑战,现有研究主要采用基于模型的优化控制方法,如李雅普诺夫最优控制方法、模型预测控制方法。然而,考虑到建筑室内温度受多种因素和随机扰动影响,建立一种精准且易于暖通空调系统控制的室内温度热动态性模型非常有挑战;为此,一些研究提出了无需知晓室内温度热动态性模型的暖通空调系统控制方法,该类方法利用强化学习智能体与环境的真实交互数据学习出最优控制策略。然而,由于探索过程需要进行大量的尝试,此类方法具有非常高的探索成本,如时间成本和经济成本。为此,少数研究考虑利用建筑历史运行数据建立环境模型(即构建状态转移函数和奖励函数的预测模型),但此类方法需要先对暖通空调系统能耗指标和热舒适相关的目标函数进行加权和处理,进而将其转化为单目标问题进行求解。考虑到暖通空调系统能耗指标和热舒适度量指标具有不同的量纲,如何选择合适的权重参数非常困难。而且,当共享区域室内外环境变化(如用户占用人数、占用模式)较大时,现有研究提出的学习方法需对运行策略进行重新学习。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种面向共享办公区域的可实时调整自身运行策略的暖通空调系统控制方法,该方法能够在维持多用户热舒适满意度要求的同时最小化暖通空调系统能耗。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种面向共享办公区域的暖通空调系统控制方法,包括以下步骤:
获取当前环境状态信息和多用户平均热舒适满意度目标设定值;
根据所述当前环境状态信息计算出多用户热舒适满意度;
根据对比当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值,对权重参数进行调整;
将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中,获取当前暖通空调系统的行为,即温度设置点。
进一步的,所述训练好的深度神经网络的获取方法包括:
利用历史运行数据建立环境模型;所述历史运行数据至少包含如下信息:室内外温度、用户占用状态、暖通空调系统温度设置点、暖通空调系统能耗、用户偏好温度、关联时间;
基于所述环境模型,生成大量经验并存储;
基于所述经验,利用多目标深度强化学习算法进行离线训练,获得训练好的深度神经网络。
进一步的,所述环境模型包含状态转移函数和奖励函数;其中,状态转移函数刻画了输入环境状态、行为与输出环境状态之间的关系,奖励函数刻画了输入环境状态、行为与奖励之间的关系;
所述环境状态st由如下多元组表示:
st=(Tt out,Tt in,Z1,t,...,Zn,t,t′) (1)
式中:Tt out表示t时隙的室外温度,Tt in表示t时隙的室内温度,Zi,t表示用户i(1≤i≤n)在t时隙的占用状态,t’表示t时隙的当前绝对时间在一天内的相对时间;
所述行为为温度设置点,其选择范围为at∈{0,Tlow,L,Thigh},at为暖通空调系统在t时隙内的工作状态,at=0意味着暖通空调系统为关闭状态,其他离散数值皆表示开启状态,at=Tlow意味着暖通空调系统为开启状态且温度设置点为Tlow度,at=Thigh意味着暖通空调系统为开启状态且温度设置点为Thigh度;所述奖励函数与暖通空调系统能耗和多用户热舒适满意度相关。
进一步的,所述经验由如下五元组进行表示:
{st,at,rt+1,st+1,dt} (2)
式中,st表示当前t时隙的环境状态,at表示当前t时隙的行为,rt+1表示当前t时隙末的奖励,st+1表示t+1时隙的环境状态,dt表示是否为一个训练片段结束状态;
当考虑系统能耗和用户热舒适满意度两个目标时,rt+1=(r1,t+1,r2,t+1),r1,t+1表示t时隙末与暖通空调系统能耗相关的奖励,r2,t+1表示t时隙末与多用户热舒适满意度相关的奖励。
进一步的,所述对权重参数进行调整的方法包括:
比较当前多用户热舒适满意度与设定的目标值之间的大小,如果前者大于后者,则增加与系统能耗相关的权重系数w1,t;否则,减小w1,t
根据w1,t计算出w2,t,即:w2,t=1-w1,t
进一步的,基于所述环境模型,生成大量经验并存储的方法包括:
利用环境模型进行下一环境状态和奖励的预测过程;
以片段为单位,产生大量经验存放在经验池中。
进一步的,所述多目标深度强化学习算法采用深度Q网络的架构,包括稳定性能的方法,所述稳定性能的方法包括经验回放和目标Q网络;所述深度Q网络为一种特殊的深度神经网络,所述深度Q网络的输入为环境状态和权重,输出为状态行为值函数,即Q函数,输出维度等于行为数目与多目标函数个数的乘积。
进一步的,所述利用多目标深度强化学习算法进行离线训练的方法包括:
通过批量抽取存储的经验,分别输入深度Q网络和目标网络,计算损失函数来对深度Q网络的网络参数进行梯度更新;所述目标网络与深度Q网络具有相同的网络结构;
根据损失函数对深度Q网络进行训练,得到训练好的深度神经网络,所述训练好的深度神经网络包括暖通空调系统的运行策略集,且运行策略与不同权重组合对应,其中,策略表示从环境状态到行为的概率映射;
所述损失函数计算公式如下:
Figure BDA0002953326370000051
Figure BDA0002953326370000052
式中,wt=(w1,t,w2,t),w1,t表示与暖通空调系统能耗相关的权重,w2,t表示与共享办公区域中多用户热舒适满意度相关的权重,Q(st,at,wt;θ)是深度Q网络得出的行为值函数,θ是深度Q网络的网络参数,
Figure BDA0002953326370000053
表示当输入为st+1和a,wt时目标Q网络的输出值与权重矢量wt的内积值遵循策略Π取得的Q值函数,γ是折扣因子,θ'是目标Q网络的网络参数。
进一步的,所述多用户平均热舒适满意度计算公式如下:
Figure BDA0002953326370000054
式中:Gt表示多用户平均热舒适满意度,Mi,t表示用户i(1≤i≤Nt)在t时隙的热舒适满意程度(0≤Mi,t≤1),Nt表示共享办公区域内t时隙的总的占用人数。
第二方面,本发明提供了一种面向共享办公区域的暖通空调系统控制装置,其特征在于,所述装置包括:
信息获取模块:用于获取当前环境状态信息和多用户平均热舒适满意度目标设定值;
热舒适度模块:用于根据所述当前环境状态信息计算出多用户热舒适满意度;
参数调整模块:用于根据当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值之间的对比,对权重参数进行调整;
行为输出模块:用于将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中,获取当前暖通空调系统的行为,即温度设置点。
与现有技术相比,本发明所达到的有益效果:
1、本发明提出的方法在环境发生改变时能实时自适应地调整暖通空调系统运行策略,无需对策略进行重新学习或事先确定出合适的多目标值加权参数。
2、相比固定温度设置点方法,本发明提出的方法具备同时提升多用户平均热舒适满意度和节省暖通空调系统能耗的潜力,且支持两者之间的灵活折中。
附图说明
图1是本发明所提出的暖通空调系统控制方法的设计流程图;
图2是本方法与其他对比方案的性能图;
图3是本发明所提方法在某一天用户占用状态下不同多用户平均热舒适满意度目标值所对应的性能展示图;
图3(a)是不同设定值下能耗示意图;
图3(b)是不同设定值下累计能耗示意图;
图3(c)是不同设定值下多用户平均热舒适满意度示意图;
图3(d)是不同设定值下室内温度示意图;
图3(e)是不同设定值下能耗权重变化示意图;
图3(f)是不同设定值下温度设置点示意图;
图4是本发明所提控制方法的具体实现框图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供了一种面向共享办公区域的暖通空调系统控制方法,其实施流程如图1所示,包括如下步骤:
获取当前环境状态信息和多用户平均热舒适满意度目标设定值;
根据所述当前环境状态信息计算出多用户热舒适满意度;
根据对比当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值,对权重参数进行调整;
将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中,获取当前暖通空调系统的行为,即温度设置点。
训练好的深度神经网络的获取方法包括:
利用历史运行数据建立环境模型;所述历史运行数据至少包含如下信息:室内外温度、用户占用状态、暖通空调系统温度设置点、暖通空调系统能耗、用户偏好温度、关联时间;
基于所述环境模型,生成大量经验并存储;
基于所述经验,利用多目标深度强化学习算法进行离线训练,获得训练好的深度神经网络。
所述环境模型包含状态转移函数和奖励函数;其中,状态转移函数刻画了输入环境状态、行为与输出环境状态之间的关系,奖励函数刻画了输入环境状态、行为与奖励之间的关系;
所述环境状态st由如下多元组表示:
st=(Tt out,Tt in,Z1,t,...,Zn,t,t′) (1)
式中:Tt out表示t时隙的室外温度,Tt in表示t时隙的室内温度,Zi,t表示用户i(1≤i≤n)在t时隙的占用状态,t’表示t时隙的当前绝对时间在一天内的相对时间;
所述行为为暖通空调系统温度设置点,其选择范围为at∈{0,Tlow,L,Thigh},at为暖通空调系统在t时隙内的工作状态,at=0意味着暖通空调系统为关闭状态,其他离散数值皆表示开启状态,at=Tlow意味着暖通空调系统为开启状态且温度设置点为Tlow度,at=Thigh意味着暖通空调系统为开启状态且温度设置点为Thigh度;所述奖励函数与暖通空调系统能耗和多用户热舒适满意度相关。
本实施例提出的方法在环境发生改变时能实时自适应地调整暖通空调系统运行策略,无需对策略进行重新学习或事先确定出合适的多目标值加权参数。相比固定温度设置点方法,本实施例提出的方法具备同时提升多用户平均热舒适满意度和节省暖通空调系统能耗的潜力,且支持两者之间的灵活折中。
实施例二:
本实施例提供了一种面向共享办公区域的暖通空调系统控制方法,其实施流程如图1所示,包括如下步骤:
步骤1:利用历史运行数据建立共享办公区域环境模型;
历史运行数据至少包含如下信息:室内外温度、用户占用状态、暖通空调系统温度设置点、暖通空调系统能耗、用户偏好温度、与上述信息关联的时间。
环境模型包含状态转移函数和奖励函数;其中,状态转移函数刻画输入环境状态、行为与输出环境状态之间的关系,奖励函数刻画了输入环境状态、行为与奖励之间的关系,上述关系均能够由长短时记忆(LSTM)网络进行建立。所述环境状态st由如下多元组表示:所述环境状态st由如下多元组表示:
st=(Tt out,Tt in,Z1,t,...,Zn,t,t′) (2)
其中:Tt out表示t时隙的室外温度,Tt in表示t时隙的室内温度,Zi,t表示用户i(1≤i≤n)在t时隙的占用状态,t’表示t时隙的当前绝对时间在一天内的相对时间(如第24小时相当于第0小时,第26小时相当于第2小时);状态转移时,根据t时隙初的环境状态、以及t时隙初的控制行为,由共享办公区域的环境模型能够得出t+1时隙初的环境状态。
所述行为表示共享办公区域内暖通空调系统的温度设置点,其选择范围如下at∈{0,Tlow,L,Thigh},at=0意味着暖通空调系统处于关闭状态,其他离散数值皆表示暖通空调系统处于开启状态,at=Tlow意味着暖通空调系统为开启状态且温度设置点为Tlow度,at=Thigh意味着暖通空调系统为开启状态且温度设置点为Thigh度;
所述奖励函数的设计如下:
rt=(r1,t,r2,t) (3)
具体而言,rt为奖惩值,r1,t是t-1时隙末与暖通空调系统能耗相关的奖励,r2,t是t-1时隙末与多用户平均温度偏离相关的奖励;
r1,t=-Pt hτ (4)
其中:τ表示时隙间隔,Pt h表示t时隙暖通空调系统的输入功率,其值由温度设置点Tset与室内温度Tt in决定。当室内温度升高到
Figure BDA0002953326370000091
时,暖通空调系统功率为0;当室内温度降低到
Figure BDA0002953326370000092
时,暖通空调系统功率为Ph,其中
Figure BDA0002953326370000093
为一个常数。
Figure BDA0002953326370000094
Nt表示共享办公区域内t时隙的占用人数,
Figure BDA0002953326370000095
表示t时隙用户i对室内环境的期望温度,Tt in表示t时隙室内环境真实温度。
步骤2:基于建立的环境模型,产生大量的经验进行存储;
所述经验由如下五元组表示:{st,at,rt+1,st+1,dt},其中:st表示当前t时隙的环境状态,at表示当前t时隙的行为,rt+1表示当前t时隙末的奖励,st+1表示t+1时隙的环境状态,dt表示片段是否结束。此外,产生大量经验的过程是一系列利用环境模型(即训练得到的LSTM网络)进行下一环境状态和奖励的预测过程。以片段为单位,产生大量经验存放在经验池中。
步骤3:基于产生的大量经验,利用多目标深度强化学习算法进行离线训练,获得暖通空调系统最优运行策略集;
多目标深度强化学习算法采用深度Q网络架构,并采用了经验回放和目标Q网络等稳定性能的方法。所述深度Q网络的输入为环境状态和权重,输出为状态行为值函数(即Q函数),输出维度等于行为数目与多目标函数个数的乘积。
行为的选择根据如下方式进行:以概率ε(ε∈(0,1))的方式随机选择一个行为。若随机生成的概率大于ε,则将权重矢量与Q函数矢量的内积值经过softmax操作后转化为概率矢量,然后依据该概率矢量随机产生一个行为。
此外,训练深度Q网络的损失函数计算如下:
Figure BDA0002953326370000101
具体而言,y的表示如下:
Figure BDA0002953326370000102
其中,(st,at,rt+1,st+1,dt)是从经验池里面抽取的一个五元组,wt=(w1,t,w2,t),w1,t表示与暖通空调系统能耗相关的权重,w2,t表示与共享办公区域中多用户热舒适满意度相关的权重。Q(st,at,wt;θ)是深度Q网络得出的行为值函数,θ是深度Q网络的网络参数,
Figure BDA0002953326370000103
表示当输入为st+1和a,wt时目标Q网络的输出值与权重矢量wt的内积值经过softmax操作后转化为概率矢量,然后依据该概率矢量随机产生一个Q值函数,γ是折扣因子,θ'是目标Q网络的网络参数。
根据上述损失函数对深度Q网络进行训练,最终得到暖通空调系统的运行策略集,且运行策略与不同权重组合对应,其中:策略表示从环境状态到行为的概率映射。
步骤4:根据环境状态和多用户平均热舒适满意度目标设定值,自适应地调整暖通空调系统运行策略,并根据调整的运行策略对暖通空调系统进行控制。
考虑到温度偏离在一定范围内时,用户对环境温度的敏感性较低,设计如下的用户满意度打分,具体如下:
Figure BDA0002953326370000111
其中,Mi,t表示用户i(1≤i≤Nt)在t时隙的热舒适满意程度(0≤Mi,t≤1),Nt表示共享办公区域内t时隙的占用人数,
Figure BDA0002953326370000112
表示与用户i相关的期望温度偏离程度,β和γ(β>0,γ>0)是从温度偏差到用户热满意度映射的表征函数的常量,Tmax和Tmin是用户i(1≤i≤n)自身期望温度与室内实际温度相差的范围上下限。
自适应地调整暖通空调系统运行策略的过程如下:首先,收集环境状态信息并计算出多用户热舒适满意度。然后,比较当前多用户平均热舒适满意度与设定的目标值之间的大小。如果前者大于后者,则增加与系统能耗相关的权重系数w1,t;否则,减小w1,t。紧接着,根据w1,t计算出w2,t,即:w2,t=1-w1,t
最后,将环境状态和权重信息输入到训练好的深度神经网络中,输出当前暖通空调系统的行为,即温度设置点。
为了展示本发明所提方法的有效性,两种对比方案被引入。具体而言,对比方案一采用固定权重方式,且采用的状态信息、行为和奖励与所提方法相同。对比方案二采用固定温度设置点方式。具体而言,以制冷模式为例,当室内温度高于固定温度带上限(固定设置点加上一个偏离值)时,开启暖通空调系统;当室内温度低于设定温度带下限(固定设置点减去一个偏离值)时,关闭暖通空调系统。
图2~图3中的动态1表示多用户平均热舒适满意度目标设定值为0.7,动态2表示多用户平均热舒适满意度目标设定值为0.5,动态2表示多用户平均热舒适满意度目标设定值为0.3。
图2展示了所提方法与其他对比方案的性能。具体而言,图2展示了在某一天用户占用状态下不同多用户平均热舒适满意度目标值所对应的性能,其中:多用户平均热舒适满意度是上班时间(12个小时)多个占用用户每个人每小时的平均热舒适满意度。由图可知,相比方案一,本发明所提方法在相同能耗下具有更高的用户热舒适满意度;相比方案二中固定温度设置点为21-25摄氏度的情况,本发明所提方法可同时提升多用户平均热舒适满意度和降低暖通空调系统能耗。相比固定温度设置点为26和27摄氏度的情况,本发明所提方法可在能耗相同前提下提升多用户平均热舒适满意度。
图3展示了本发明所提方法在某一天用户占用状态下不同多用户平均热舒适满意度目标值所对应的性能。图3(a)是不同设定值下能耗示意图;图3(b)是不同设定值下累计能耗示意图;图3(c)是不同设定值下多用户平均热舒适满意度示意图;图3(d)是不同设定值下室内温度示意图;图3(e)是不同设定值下能耗权重变化示意图;图3(f)是不同设定值下温度设置点示意图。
当多用户平均热舒适满意度目标值设定值由高到低变化时,暖通空调系统总能耗降低(图3(a)和图3(b)所示),区域内部热舒适性变差(图3(c)所示)。因此,所提方法可实现暖通空调系统能耗和多用户热舒适之间的灵活折中。由图3(d)-图3(f)可知,所提方法能自适应地调整权重系数和运行策略进而改变温度设置点,最终实现对设定的多用户平均热舒适满意度的跟踪。
实施例三:
本实施例给出了用于实现实施例一所述方法的系统,如图4所示,给出了本发明方法的具体实现系统框图。具体而言,该系统由暖通空调系统智慧控制器和暖通空调系统组成。其中:暖通空调系统智慧控制器是由本发明提出的方法训练得到的控制器,它能根据感知的环境状态以及收集的多用户平均热舒适满意度目标值自适应地调整运行策略并输出最优温度设置点,并将该信息发送给暖通空调系统。最后,暖通空调系统根据接收的温度设置点信息进行自动运行。
实施例四:
本实施例提供一种面向共享办公区域的暖通空调系统控制装置,可实现实施例一所述的方法,所述装置包括:
信息获取模块:用于获取当前环境状态信息和多用户平均热舒适满意度目标设定值;
热舒适度模块:用于根据所述当前环境状态信息计算出多用户热舒适满意度;
参数调整模块:用于根据当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值之间的对比,对权重参数进行调整;
行为输出模块:用于将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中,获取当前暖通空调系统的行为,即温度设置点。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种面向共享办公区域的暖通空调系统控制方法,其特征在于,包括以下步骤:
获取当前环境状态信息和多用户平均热舒适满意度目标设定值;
根据所述当前环境状态信息计算出多用户热舒适满意度;
根据对比当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值,对权重参数进行调整;
将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中,获取当前暖通空调系统的行为,即温度设置点。
2.根据权利要求1所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,所述训练好的深度神经网络的获取方法包括:
利用历史运行数据建立环境模型;所述历史运行数据至少包含如下信息:室内外温度、用户占用状态、暖通空调系统温度设置点、暖通空调系统能耗、用户偏好温度、关联时间;
基于所述环境模型,生成大量经验并存储;
基于所述经验,利用多目标深度强化学习算法进行离线训练,获得训练好的深度神经网络。
3.根据权利要求2所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,所述环境模型包含状态转移函数和奖励函数;其中,状态转移函数刻画了输入环境状态、行为与输出环境状态之间的关系,奖励函数刻画了输入环境状态、行为与奖励之间的关系;
所述环境状态st由如下多元组表示:
Figure FDA0002953326360000021
式中:Tt out表示t时隙的室外温度,Tt in表示t时隙的室内温度,Zi,t表示用户i(1≤i≤n)在t时隙的占用状态,t’表示t时隙的当前绝对时间在一天内的相对时间;
所述行为为暖通空调系统温度设置点,其选择范围为at∈{0,Tlow,L,Thigh},at为暖通空调系统在t时隙内的工作状态,at=0意味着暖通空调系统为关闭状态,其他离散数值皆表示开启状态,at=Tlow意味着暖通空调系统为开启状态且温度设置点为Tlow度,at=Thigh意味着暖通空调系统为开启状态且温度设置点为Thigh度;所述奖励函数与暖通空调系统能耗和多用户热舒适满意度相关。
4.根据权利要求3所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,所述经验由如下五元组进行表示:
{st,at,rt+1,st+1,dt} (2)
式中,st表示当前t时隙的环境状态,at表示当前t时隙的行为,rt+1表示当前t时隙末的奖励,st+1表示t+1时隙的环境状态,dt表示是否为一个训练片段结束状态;
当考虑系统能耗和用户热舒适满意度两个目标时,rt+1=(r1,t+1,r2,t+1),r1,t+1表示t时隙末与暖通空调系统能耗相关的奖励,r2,t+1表示t时隙末与多用户热舒适满意度相关的奖励。
5.根据权利要求3所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,所述对权重参数进行调整的方法包括:
比较当前多用户热舒适满意度与设定的目标值之间的大小,如果前者大于后者,则增加与系统能耗相关的权重系数w1,t;否则,减小w1,t
根据w1,t计算出w2,t,即:w2,t=1-w1,t
6.根据权利要求2所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,基于所述环境模型,生成大量经验并存储的方法包括:
利用环境模型进行下一环境状态和奖励的预测过程;
以片段为单位,产生大量经验存放在经验池中。
7.根据权利要求2所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,所述多目标深度强化学习算法采用深度Q网络的架构,包括稳定性能的方法;
所述深度Q网络的输入为环境状态和权重,输出为状态行为值函数,即Q函数,输出维度等于行为数目与多目标函数个数的乘积。
8.根据权利要求2所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,所述利用多目标深度强化学习算法进行离线训练的方法包括:
通过批量抽取存储的经验,分别输入深度Q网络和目标网络,计算损失函数来对深度Q网络的网络参数进行梯度更新;所述目标网络与深度Q网络具有相同的网络结构;
根据损失函数对深度Q网络进行训练,得到训练好的深度神经网络,所述训练好的深度神经网络包括暖通空调系统的运行策略集,且运行策略与不同权重组合对应,其中,策略表示从环境状态到行为的概率映射;
所述损失函数计算公式如下:
Figure FDA0002953326360000031
Figure FDA0002953326360000032
式中,wt=(w1,t,w2,t),w1,t表示与暖通空调系统能耗相关的权重,w2,t表示与共享办公区域中多用户热舒适满意度相关的权重,Q(st,at,wt;θ)是深度Q网络得出的行为值函数,θ是深度Q网络的网络参数,
Figure FDA0002953326360000041
表示当输入为st+1和a,wt时目标Q网络的输出值与权重矢量wt的内积值遵循策略Π取得的Q值函数,γ是折扣因子,θ'是目标Q网络的网络参数。
9.根据权利要求1所述的面向共享办公区域的暖通空调系统控制方法,其特征在于,所述多用户平均热舒适满意度计算公式如下:
Figure FDA0002953326360000042
式中:Gt表示多用户平均热舒适满意度,Mi,t表示用户i(1≤i≤Nt)在t时隙的热舒适满意程度(0≤Mi,t≤1),Nt表示共享办公区域内t时隙的总的占用人数。
10.一种面向共享办公区域的暖通空调系统控制装置,其特征在于,所述装置包括:
信息获取模块:用于获取当前环境状态信息和多用户平均热舒适满意度目标设定值;
热舒适度模块:用于根据所述当前环境状态信息计算出多用户热舒适满意度;
参数调整模块:用于根据当前多用户热舒适满意度与所述多用户平均热舒适满意度目标设定值之间的对比,对权重参数进行调整;
行为输出模块:用于将所述当前环境状态信息和权重参数输入到训练好的深度神经网络中,获取当前暖通空调系统的行为,即温度设置点。
CN202110214230.8A 2021-02-26 2021-02-26 一种面向共享办公区域的暖通空调系统控制方法及装置 Active CN112963946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110214230.8A CN112963946B (zh) 2021-02-26 2021-02-26 一种面向共享办公区域的暖通空调系统控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110214230.8A CN112963946B (zh) 2021-02-26 2021-02-26 一种面向共享办公区域的暖通空调系统控制方法及装置

Publications (2)

Publication Number Publication Date
CN112963946A true CN112963946A (zh) 2021-06-15
CN112963946B CN112963946B (zh) 2022-06-17

Family

ID=76275678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110214230.8A Active CN112963946B (zh) 2021-02-26 2021-02-26 一种面向共享办公区域的暖通空调系统控制方法及装置

Country Status (1)

Country Link
CN (1) CN112963946B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113983638A (zh) * 2021-10-29 2022-01-28 西安建筑科技大学 一种基于改进型dqn的室内热舒适控制方法及系统
CN114020079A (zh) * 2021-11-03 2022-02-08 北京邮电大学 一种室内空间温度和湿度调控方法及装置
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN115031394A (zh) * 2022-05-18 2022-09-09 深圳达实智能股份有限公司 一种基于个人热愉悦性聚类的区域空调调节方法
CN115183419A (zh) * 2022-06-07 2022-10-14 清华大学 基于模仿学习和强化学习的暖通空调负荷优化控制方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140450A (zh) * 2006-09-08 2008-03-12 香港中文大学精密工程研究所 节能型热舒适控制器及控制方法
CN107120782A (zh) * 2017-02-28 2017-09-01 上海交通大学 一种基于多用户热舒适度数据的暖通系统控制方法
CN108444080A (zh) * 2018-03-29 2018-08-24 广东美的制冷设备有限公司 空调器的控制方法以及空调器
CN108613332A (zh) * 2018-04-12 2018-10-02 南京信息工程大学 一种节能型建筑微区域人员交互式热舒适度调节方法
CN109961177A (zh) * 2019-03-11 2019-07-02 浙江工业大学 一种基于长短期记忆循环神经网络的通用水冷中央空调能耗预测方法
CN109959123A (zh) * 2019-03-11 2019-07-02 浙江工业大学 一种基于遗传算法和长短期记忆循环神经网络的空调节能方法
CN110398029A (zh) * 2019-07-25 2019-11-01 北京上格云技术有限公司 控制方法和计算机可读存储介质
CN110779132A (zh) * 2019-11-13 2020-02-11 垚控科技(上海)有限公司 一种基于强化学习的空调系统的水泵设备运行控制系统
CN110805997A (zh) * 2019-11-14 2020-02-18 中金新源(天津)科技有限公司 中央空调系统节能控制方法
CN110906519A (zh) * 2019-12-06 2020-03-24 创新奇智(重庆)科技有限公司 基于机器学习的风冷式冷水机组的能耗优化方法与系统
CN111365828A (zh) * 2020-03-06 2020-07-03 上海外高桥万国数据科技发展有限公司 结合机器学习实现数据中心节能温控的模型预测控制方法
US20200217544A1 (en) * 2019-01-09 2020-07-09 Samsung Electronics Co., Ltd. Electronic device and control method thereof
CN111649465A (zh) * 2020-06-05 2020-09-11 哈尔滨工业大学 一种空调设备自动控制方法及系统
CN111684370A (zh) * 2018-02-05 2020-09-18 三菱电机株式会社 用于控制操作的系统和方法
CN111932015A (zh) * 2020-08-12 2020-11-13 武汉中电节能有限公司 一种区域供冷供热冷热量负荷的预测方法及系统
US20210190362A1 (en) * 2019-06-04 2021-06-24 Lg Electronics Inc. Apparatus for generating temperature prediction model and method for providing simulation environment

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140450A (zh) * 2006-09-08 2008-03-12 香港中文大学精密工程研究所 节能型热舒适控制器及控制方法
CN107120782A (zh) * 2017-02-28 2017-09-01 上海交通大学 一种基于多用户热舒适度数据的暖通系统控制方法
CN111684370A (zh) * 2018-02-05 2020-09-18 三菱电机株式会社 用于控制操作的系统和方法
CN108444080A (zh) * 2018-03-29 2018-08-24 广东美的制冷设备有限公司 空调器的控制方法以及空调器
CN108613332A (zh) * 2018-04-12 2018-10-02 南京信息工程大学 一种节能型建筑微区域人员交互式热舒适度调节方法
US20200217544A1 (en) * 2019-01-09 2020-07-09 Samsung Electronics Co., Ltd. Electronic device and control method thereof
CN109961177A (zh) * 2019-03-11 2019-07-02 浙江工业大学 一种基于长短期记忆循环神经网络的通用水冷中央空调能耗预测方法
CN109959123A (zh) * 2019-03-11 2019-07-02 浙江工业大学 一种基于遗传算法和长短期记忆循环神经网络的空调节能方法
US20210190362A1 (en) * 2019-06-04 2021-06-24 Lg Electronics Inc. Apparatus for generating temperature prediction model and method for providing simulation environment
CN110398029A (zh) * 2019-07-25 2019-11-01 北京上格云技术有限公司 控制方法和计算机可读存储介质
CN110779132A (zh) * 2019-11-13 2020-02-11 垚控科技(上海)有限公司 一种基于强化学习的空调系统的水泵设备运行控制系统
CN110805997A (zh) * 2019-11-14 2020-02-18 中金新源(天津)科技有限公司 中央空调系统节能控制方法
CN110906519A (zh) * 2019-12-06 2020-03-24 创新奇智(重庆)科技有限公司 基于机器学习的风冷式冷水机组的能耗优化方法与系统
CN111365828A (zh) * 2020-03-06 2020-07-03 上海外高桥万国数据科技发展有限公司 结合机器学习实现数据中心节能温控的模型预测控制方法
CN111649465A (zh) * 2020-06-05 2020-09-11 哈尔滨工业大学 一种空调设备自动控制方法及系统
CN111932015A (zh) * 2020-08-12 2020-11-13 武汉中电节能有限公司 一种区域供冷供热冷热量负荷的预测方法及系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
李慧等: "基于数据的空调系统最优启停时间预测", 《山东建筑大学学报》, no. 02, 15 April 2012 (2012-04-15), pages 29 - 33 *
李慧等: "基于用户学习的智能动态热舒适控制系统", 《四川大学学报(工程科学版)》 *
李慧等: "基于用户学习的智能动态热舒适控制系统", 《四川大学学报(工程科学版)》, no. 02, 20 March 2011 (2011-03-20) *
李成利等: "神经网络在PMV指标控制中的应用研究", 《微型机与应用》 *
李成利等: "神经网络在PMV指标控制中的应用研究", 《微型机与应用》, no. 01, 10 January 2010 (2010-01-10) *
杨娜: "用户偏好的室内环境舒适度智能控制方法仿真研究", 《科学技术与工程》 *
杨娜: "用户偏好的室内环境舒适度智能控制方法仿真研究", 《科学技术与工程》, no. 25, 8 September 2013 (2013-09-08) *
王玉涛等: "基于树莓派的自适应空调控制系统设计", 《物联网技术》, no. 10, 20 October 2020 (2020-10-20), pages 82 - 84 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113983638A (zh) * 2021-10-29 2022-01-28 西安建筑科技大学 一种基于改进型dqn的室内热舒适控制方法及系统
CN114020079A (zh) * 2021-11-03 2022-02-08 北京邮电大学 一种室内空间温度和湿度调控方法及装置
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114017904B (zh) * 2021-11-04 2023-01-20 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN115031394A (zh) * 2022-05-18 2022-09-09 深圳达实智能股份有限公司 一种基于个人热愉悦性聚类的区域空调调节方法
CN115183419A (zh) * 2022-06-07 2022-10-14 清华大学 基于模仿学习和强化学习的暖通空调负荷优化控制方法

Also Published As

Publication number Publication date
CN112963946B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN112963946B (zh) 一种面向共享办公区域的暖通空调系统控制方法及装置
US11965666B2 (en) Control method for air conditioner, and device for air conditioner and storage medium
CN110458443B (zh) 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN111351180B (zh) 一种运用人工智能实现数据中心节能温控的系统及方法
CN111580382B (zh) 基于人工智能的单元级供热调节方法及系统
CN110598906B (zh) 一种基于深度强化学习的大型商场能耗实时控制方法和系统
CN111609534B (zh) 温度控制方法、装置及中央温度控制系统
Fu et al. ED-DQN: An event-driven deep reinforcement learning control method for multi-zone residential buildings
Baghaee et al. User comfort and energy efficiency in HVAC systems by Q-learning
CN113283156A (zh) 一种基于深度强化学习的地铁站空调系统节能控制方法
Li et al. Toward intelligent multizone thermal control with multiagent deep reinforcement learning
CN114357569A (zh) 一种基于进化深度强化学习的商业建筑hvac控制方法及系统
CN112696798A (zh) 空调的参数设置方法、空调设备以及计算机可读存储介质
CN112540535A (zh) 一种基于深度强化学习的办公建筑热舒适控制系统及方法
CN115682312A (zh) 一种空调节能控制方法、装置、设备及可读存储介质
CN114234381A (zh) 基于强化学习的中央空调控制方法和控制系统
Wang et al. A Comparison of Classical and Deep Reinforcement Learning Methods for HVAC Control
Fu et al. A Sarsa-based adaptive controller for building energy conservation
CN114526538A (zh) 空调器及其控制方法和计算机可读存储介质
CN113048626A (zh) 建筑能耗优化方法及设备、可读存储介质
CN114674061B (zh) 一种智能调节空调的方法
CN112944599A (zh) 空调系统的多参数耦合控制方法及装置
CN114841464B (zh) 一种基于黑猩猩算法的建筑节能管理方法、设备及介质
CN115031388B (zh) 基于热需求舒适需求的空调设定温度控制系统和方法
CN116085953A (zh) 基于动态空调运行数据的节能控制方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: No. 66, New Model Road, Gulou District, Nanjing City, Jiangsu Province, 210000

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: No.19, ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant