CN115950080A - 一种基于强化学习的暖通空调调控方法和装置 - Google Patents

一种基于强化学习的暖通空调调控方法和装置 Download PDF

Info

Publication number
CN115950080A
CN115950080A CN202310140498.0A CN202310140498A CN115950080A CN 115950080 A CN115950080 A CN 115950080A CN 202310140498 A CN202310140498 A CN 202310140498A CN 115950080 A CN115950080 A CN 115950080A
Authority
CN
China
Prior art keywords
reinforcement learning
reward
function
heating
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310140498.0A
Other languages
English (en)
Inventor
熊艺华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Telian Qizhi Technology Co ltd
Original Assignee
Chongqing Telian Qizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Telian Qizhi Technology Co ltd filed Critical Chongqing Telian Qizhi Technology Co ltd
Priority to CN202310140498.0A priority Critical patent/CN115950080A/zh
Publication of CN115950080A publication Critical patent/CN115950080A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B30/00Energy efficient heating, ventilation or air conditioning [HVAC]
    • Y02B30/70Efficient control or regulation technologies, e.g. for control of refrigerant flow, motor or heating

Landscapes

  • Air Conditioning Control Device (AREA)

Abstract

本公开提供一种基于强化学习的暖通空调调控方法和装置,方法包括:构建基于强化学习的暖通空调智能体的策略模型;根据状态参数和行为参数构建基于强化学习的暖通空调的奖励;根据奖励更新优化策略模型;智能体根据更新优化后的策略模型更新行为参数并作出对应的新的行为,环境根据新的行为得到新的状态参数,以完成暖通空调的调控。本公开的一种基于强化学习的暖通空调调控方法、装置、设备和介质中,将强化学习应用到HVAC调控系统,通过智能体与环境的交互过程,训练更新智能体的策略,使之能够达到维持适宜状态且减少能源消耗的目标,通过动态调控维持环境的长期适宜状态,即热舒适,同时一定程度上降低能源消耗。

Description

一种基于强化学习的暖通空调调控方法和装置
技术领域
本公开属于暖通空调调控技术领域,具体涉及一种基于强化学习的暖通空调调控方法、装置、设备和介质。
背景技术
暖通空调(Heating Ventilation and Air Conditioning,简称HVAC)指的是在室内或车内负责供暖、通风换气、调节空气的设备,常见于大型非住宅建筑。暖通空调设计的主要目的之一就是维持在建筑物(或是其他空间)之内的热舒适性,热舒适度为人体对温度、湿度、风速等物理环境的感受与喜好状态,因此热舒适性同时也是建筑性能模拟中的重要指标。
HVAC调控系统的目的是通过调控各个变量,比如制热、制冷、通风、湿度等等,来保证室内的热舒适和空气质量,以维持长期适宜状态。随着低碳节能环保观念的提出,HVAC调控系统在调控过程中,越来越重视减少能源消耗或碳排放量。然而,HVAC调控系统是非常复杂的,在调控过程中涉及很多变量,各变量之间存在相关性或者矛盾,因此控制领域的模型或方法在HVAC这类多维度控制系统上,存在准确性低、时效性弱、扩展性差的问题。
已有的HVAC调控系统的调控方法可以分为以下两类,一是基于规则的方法,二是基于模型的方法。
基于规则的方法,通常需要非常熟悉HVAC的热动力学原理。首先,根据这些知识人为地制定操控规范和准则。然后,在真实的环境下,根据制定的规范和准则进行HVAC运行状态的衡量评估和操纵调控。然而,基于规则的方法由于其本身对专业知识要求较强,导致该方法的技术门槛较高;此外,针对每一种不同的场景,都需要制定特定的规则,导致该方法的灵活性较差。
基于模型的方法,虽然无需熟知其中各个环节的作用原理,但通常也需要了解一定的HVAC的热动力学原理。此外,还需考虑到周围环境的影响,比如人流量、外部天气等,然后基于某个目标建立传统控制学模型、机器学习模型等,比如采用基于回归的方法预测室内温度变化。同时,还需要一些分析工具来进行模拟,或者进行真实的运行控制,以此来获取训练数据。然而,基于模型的方法存在误差,若是借助分析工具模拟进行运行控制,相比在真实环境控制而言,一定是存在误差的,导致训练数据是有偏的,故而训练的模型也是有偏的;此外,计算效率低。当采用传统控制学方法进行建模时,难以处理高维数据的情况,计算开销比较大;最后,长期调控下准确率低、可扩展性不足,实际场景的环境和设备情况是会随着时间发生变化的,这就导致固定不变的模型难以应对不断变化的环境和设备,从而长期来看,会存在预测的偏差导致准确率下降。当有环境和设备的增减时,需要重新训练模型,存在可扩展性不足的问题。
发明内容
本公开旨在至少解决现有技术中存在的技术问题之一,提供一种基于强化学习的暖通空调调控方法、装置、设备和介质。
本公开的一个方面提供一种基于强化学习的暖通空调调控方法,所述方法包括:
构建基于强化学习的暖通空调智能体的策略模型;
根据状态参数和行为参数构建基于强化学习的暖通空调的奖励;
根据所述奖励更新优化所述策略模型;
所述智能体根据所述更新优化后的策略模型更新行为参数并作出对应的新的行为,环境根据所述新的行为得到新的状态参数,以完成暖通空调的调控。
可选的,所述状态参数包括室内温度、室外温度和能源消耗,所述行为参数包括采暖温度设置值和制冷温度设置值。
可选的,所述根据状态参数和行为参数构建基于强化学习的暖通空调的奖励,包括:
根据所述室内温度和所述能源消耗构建奖励函数;
根据所述奖励函数和折扣因子构建所述累积奖励函数;
根据所述累积奖励函数和所述行为参数构建损失函数。
可选的,所述根据所述室内温度和所述能源消耗构建奖励函数,包括:
Figure BDA0004087315110000031
其中,r为奖励,en为能源消耗,n∈{1,2,3...},tempi为室内温度,,i∈{1,2,3,...},em为能源消耗最大值,tempo为最优温度,c1、c2均为系数。
可选的,所述根据所述奖励函数和折扣因子构建所述累积奖励函数,包括:
Figure BDA0004087315110000032
其中,R为累积奖励,E代表期望,γ为折扣因子,π为策略,θ为策略的参数,T为智能体与环境进行交互的次数,t为智能体与环境进行的第t次交互。
可选的,所述根据所述累积奖励函数构建损失函数,包括:
根据所述累积奖励函数构建clip损失函数、带KL惩罚的自适应损失函数、策略和价值函数的误差项;
根据所述clip损失函数、带KL惩罚的自适应损失函数、策略和价值函数的误差项之和构建所述损失函数。
可选的,所述根据所述累积奖励函数构建clip损失函数
Figure BDA0004087315110000033
包括:
Figure BDA0004087315110000034
其中,ht(θ)为策略与旧策略的比率,V(st)为累积奖励函数R在状态st处的期望值,为状态值函数,
Figure BDA0004087315110000035
为优势函数。
可选的,所述根据所述累积奖励函数构建clip损失函数,包括:
当所述优势函数为正时,对所述损失函数不设限制;
否则,则限制所述损失函数不超过阈值。
可选的,所述根据所述奖励更新优化所述策略模型,包括:
最小化所述损失函数,以完成对所述策略模型的训练;
多次训练所述策略模型,以实现对所述策略模型的更新优化。
本公开的另一个方面,提供一种基于强化学习的暖通空调调控装置,所述装置包括:
建模模块,用于构建基于强化学习的暖通空调智能体的策略模型;
奖励构建模块,用于根据状态参数和行为参数构建基于强化学习的暖通空调的奖励;
优化模型,用于根据所述奖励更新优化所述策略模型;
调控模块,用于所述智能体根据所述更新优化后的策略模型更新行为参数并作出对应的新的行为,环境根据所述新的行为得到新的状态参数,以完成暖通空调的调控。
本公开的另一个方面,提供一种电子设备,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现前文阐述的一种基于强化学习的暖通空调调控方法。
本公开的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,
所述计算机程序被处理器执行时能实现前文阐述的一种基于强化学习的暖通空调调控方法。
本公开实施例的一种基于强化学习的暖通空调调控方法、装置、设备和介质中,将强化学习应用到HVAC调控系统,通过智能体与环境的交互过程,训练更新智能体的策略,使之能够达到维持适宜状态且减少能源消耗的目标,通过动态调控维持环境的长期适宜状态,即热舒适,同时一定程度上降低能源消耗,整个系统相对更简单、灵活、计算高效,并且更适合处理高维数据的情况。
附图说明
图1为用于实现根据本公开一实施例的一种基于强化学习的暖通空调调控方法和装置的示例电子设备的示意性框图;
图2为本公开另一实施例的一种基于强化学习的暖通空调调控方法的流程示意图;
图3为本公开另一实施例的一种基于强化学习的暖通空调调控方法的强化学习的示意框图;
图4为本公开另一实施例的一种基于强化学习的暖通空调调控装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,本公开中使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等既不限定所提及的形状、数字、步骤、动作、操作、构件、原件和/或它们的组,也不排除出现或加入一个或多个其他不同的形状、数字、步骤、动作、操作、构件、原件和/或它们的组,或加入这些。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对设置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的,对于相关领域普通技术人员已知的技术,方法和设备可能不作详细讨论,但在适当情况下,所示技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体的其他示例可以具有不同的值。应注意到:相似的符号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进一步讨论。
在更加详细地讨论之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
首先,参照图1来描述用于实现本公开实施例的一种基于强化学习的暖通空调调控方法和装置的示例电子设备。
如图1所示,电子设备200包括一个或多个处理器210、一个或多个存储装置220、输入装置230、输出装置240等,这些组件通过总线系统和/或其他形式的连接机构250互连。应当注意,图1所示的电子设备的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
示例性的,处理器能够有效对多源异构的大规模实时数据进行数据接入、数据存储、数据处理、数据分析等系列操作。
所述处理器210可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制所述电子设备中的其他组件以执行期望的功能。
所述存储装置220可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如,所述应用程序使用和/或产生的各种数据等。
所述输入装置230可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置240可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
示例性地,用于实现根据本公开实施例的一种基于强化学习的暖通空调调控方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑。
下面,将参考图2和图3描述根据本公开实施例一种基于强化学习的暖通空调调控方法。
如图2所示,一种基于强化学习的暖通空调调控方法,包括:
S100:构建基于强化学习的暖通空调智能体的策略模型。
示例性的,如图3所示,强化学习指的是在智能体与环境不断交互的过程中,通过最大化奖励,不断优化策略的过程,在强化学习训练过程中,智能体需要不断与环境进行交互,即环境输出当前的状态给智能体,智能体根据这个状态输出下一时刻的行为,环境根据这一行为再更新输出新的状态,按此过程循环往复,策略定义了智能体对于给定状态所做出的行为,是一个从状态到行为的映射,在智能体与环境的交互过程中,得到环境当前的状态后,智能体会根据策略π选取下一步的行为。
具体地,在本步骤中,可根据实际的情况选择不同的策略π,示例性的,可以使用神经网络结构来构建智能体的策略模型,本公开实施例对此并不限制。
示例性的,在本步骤中,可使用策略的参数θ来构建策略模型,也就是说,策略的参数不同,策略模型不同,状态到行为的映射不同。
示例性的,本步骤中可选取不同的强化学习算法,例如。使用Proximal PolicyOptimization(PPO)算法,本公开实施例对此并不限制。
S200:根据状态参数和行为参数构建基于强化学习的暖通空调的奖励。
具体地,在本步骤中,在智能体与环境进行交互的过程中,智能体做出某一行为后,环境会做出相应的反应,其具体表现就是状态,在具体使用过程中,可根据实际情况选取不同的参数来表示状态,也就是选取不同的状态参数,示例性的,所述状态参数包括室内温度、室外温度和能源消耗。
具体地,在本步骤中,在智能体与环境的交互过程中,得到环境当前的状态后,智能体会根据策略π选取下一步的行为,在具体使用过程中,可根据实际情况选取不同的参数来表示行为,也就是选取不同的行为参数,示例性的,所述行为参数包括采暖温度设置值和制冷温度设置值。
具体地,在本步骤中,可根据实际的使用情况,选取不同的状态参数和行为参数来构建基于强化学习的暖通空调的奖励,例如,可根据室内温度来构建奖励,本公开实施例对此并不限制。
S300:根据所述奖励更新优化所述策略模型。
具体地,在本步骤中,可根据实际的使用情况选择不同的方法根据奖励更新优化策略模型,示例性的,可通过最大化奖励进行更新优化策略模型,本公开实施例对此并不限制。示例性的,在本实施例中,可通过更新优化策略的参数θ来实现更新优化策略模型。
S400:所述智能体根据所述更新优化后的策略模型更新行为参数并作出对应的新的行为,环境根据所述新的行为得到新的状态参数,以完成暖通空调的调控。
具体地,在本步骤中,由于策略是一个从状态到行为的映射,因此,策略模型更新后,状态参数输入到策略模型后,策略模型会输出更新后的行为参数,并根据更新后的行为参数作出对应的新的行为,例如,室内温度输入到策略模型后,策略模型输出更新后的采暖温度设置值和制冷温度设置值,并控制暖通空调系统根据采暖温度设置值和制冷温度设置值作出制冷或者制热的行为,从而实现对暖通空调的控制,此后,环境根据暖通空调上述制冷或者制热行为,得到新的状态参数,例如新的室内温度,环境将新的状态参数输入至智能体中,从而完成了环境向智能体状态参数的反馈,完成了暖通空调调控的闭环。
示例性的,在本步骤中,环境为仿真环境。在实际调控过程中,若要获取大量真实环境下的训练数据,需要人为在真实环境中安装传感器,长时间的记录传感器的数据作为状态,以及记录外部因素的数据作为行为,比如电灯的开关、空调温度的设定值等等。这一过程是非常耗时耗力的,因此主流方法通常是采用搭建仿真环境与智能体进行交互的方式,来获取数据进行后续的建模和训练。
示例性的,本实施例中利用EnergyPlus9.3.0软件进行仿真环境的搭建,这个软件能够搭建仿真建筑和获取其内部的各类传感器数据,非常适合作为强化学习的环境。示例性的,具体搭建流程如下:首先,利用软件自定义建筑的结构,比如建筑中某区域的位置、面积、楼层、人流量等等。然后,选取一段时间的真实天气数据,输入给软件,即可完成仿真环境的搭建。本实施例在实验中,选取西雅图2013年一整年的天气数据,搭建了包含15个区域的建筑的仿真环境,用于后续强化学习的训练。
示例性的,基于本步骤中所使用的仿真环境,本实施例中的状态由以下三个方面组成,并基于下述三个方面的状态构成状态空间S:
a)在上述搭建仿真环境时已提到,本实施例仿真环境的建筑由
15个区域组成,因此,状态空间S包含了这15个区域的室内温度tempi,i∈{1,2,3,...,15}。
b)除室内温度以外,在HVAC调控过程中还需考虑到室外环境的变化,因此,状态空间也包含了两处室外温度
Figure BDA0004087315110000101
Figure BDA0004087315110000102
c)为了衡量在HAVC调控过程中,能源的消耗情况,本实施例将三处能源消耗en,n∈{1,2,3}纳入状态空间S。
因此,状态空间
Figure BDA0004087315110000103
示例性的,基于本步骤中所使用的仿真环境,本实施例调控的是HVAC的运作,其中主要的操作是采暖温度设置值和制冷温度设置值,又由于本实施例的仿真环境的建筑包含15个区域。因此,本实施例的行为空间A由30个设置值组成,行为空间A={ap},p∈{1,2,3,...,30}。
需要说明的是,在具体使用过程中,可根据实际情况选择使用仿真环境或者使用真实环境,若使用仿真环境,可根据实际的实际情况选择不同的仿真环境搭建方法以及数据选取,上述仿真环境的搭建、数据的选取以及状态空间和行为空间的构建仅为示例性说明,本公开实施例对此并不限制。
本公开实施例的一种基于强化学习的暖通空调调控方法,将强化学习应用到HVAC调控系统,通过智能体与环境的交互过程,训练更新智能体的策略,使之能够达到维持适宜状态,此外,该方法适用于智能体与仿真环境的交互,可以通过搭建仿真环境来模拟真实环境,提高训练的准确性和效率,整个系统相对更简单、灵活、计算高效,并且更适合处理高维数据的情况。
下面将进一步阐述实施例的一种基于强化学习的暖通空调调控方法。
示例性的,在步骤S400后,还包括:
S500:智能体循环执行步骤S200至S400,或者智能体循环执行步骤S300至S400。
具体地,在本步骤中,智能体接收到所述新的状态参数后,通过步骤S300根据新的状态参数重新更新优化策略模型,再通过步骤S400重新更新行为参数,从而实现了智能体策略的持续更新。
示例性的,在本步骤中,可以通过步骤S200根据新的状态参数重新构建奖励,也可以不重新构建奖励,本公开实施例对此并不限制。
示例性的,在本步骤中,可根据实际的使用情况确定循环的停止方式,例如,限定固定的循环次数、设置循环停止命令等方式,本公开实施例对此并不限制。
本公开实施例的一种基于强化学习的暖通空调调控方法,通过智能体与环境的多次交互过程,不断训练更新智能体的策略,通过动态调控维持环境的长期适宜状态。
下面将进一步阐述实施例的一种基于强化学习的暖通空调调控方法中步骤S200的具体步骤。
示例性的,步骤S200中,所述根据状态参数和行为参数构建基于强化学习的暖通空调的奖励,包括:
S210:根据所述室内温度和所述能源消耗构建奖励函数。
示例性的,在本步骤中,奖励函数r为:
Figure BDA0004087315110000111
其中,r为奖励,en为能源消耗,n∈{1,2,3...},tempi为室内温度,,i∈{1,2,3,...},em为能源消耗最大值,tempo为最优温度,c1、c2均为系数,且c1>0,c2<0。
具体的,由于前文在进行环境仿真时示例性的搭建了包含15个区域的建筑的仿真环境,因此,此处i可示例性的选取,i∈{1,2,3,...15};n示例性的选取n∈{1,2,3},表示选取三处能源消耗。
由上式可知,奖励函数主要由能耗en和温度tempi两部分组成。前者限制总能耗不能过大,后者限制室内温度尽量接近最优温度。由于两者的量纲不一样,因此需要先进行标准化处理,即
Figure BDA0004087315110000112
Figure BDA0004087315110000113
然后,按照上式计算奖励即可。
S220:根据所述奖励函数和折扣因子构建所述累积奖励函数。
示例性的,在本步骤中,累积奖励函数R为:
Figure BDA0004087315110000121
其中,R为累积奖励,E代表期望,γ为折扣因子,π为策略,θ为策略的参数,T为智能体与环境进行交互的次数,t为智能体与环境进行的第t次交互。
在本步骤中,在步骤S210的基础上,计算未来长期奖励的期望,即累积奖励。由于从长期来看,越是远期的奖励受当前行为影响的程度越低,因此可以施加一个折扣因子γ来减少远期奖励的影响。
S230:根据所述累积奖励函数和所述行为参数构建损失函数。
具体地,在本步骤中,可根据实际的使用情况选择构建损失函数的具体方法,本公开实施例对此不进行限制。
本公开实施例的一种基于强化学习的暖通空调调控方法,在将强化学习应用到HVAC调控系统的基础上,一方面,通过室内温度和能源消耗构建奖励函数,可以使得调控系统在维持适宜状态的同时减少能源消耗,以达到维持长期热舒适,同时一定程度上降低能源消耗的目标,另一方面,使用累积奖励函数来构建奖励,由于累积奖励是未来长期的奖励的期望,使用累积奖励,可以使得强化学习是在智能体与环境不断交互的过程中,通过最大化累积奖励,不断优化策略的过程,以减弱远期的奖励受当前行为影响的程度,提高调控系统的调控准确性。
下面将进一步阐述实施例的一种基于强化学习的暖通空调调控方法中步骤S230的具体步骤。
示例性的,步骤S230中,所述根据所述累积奖励函数构建损失函数,包括:
S231:根据所述累积奖励函数构建clip损失函数、带KL惩罚的自适应损失函数、策略和价值函数的误差项。
具体地,在本步骤中,所述根据所述累积奖励函数构建clip损失函数
Figure BDA0004087315110000122
包括:
Figure BDA0004087315110000131
Figure BDA0004087315110000132
Figure BDA0004087315110000133
clip损失函数
Figure BDA0004087315110000134
为:
Figure BDA0004087315110000135
其中,ht(θ)为策略πθ与旧策略
Figure BDA00040873151100001313
的比率,t为智能体与环境进行的第t次交互,V(st)为累积奖励函数R在状态st处的期望值,为状态值函数,st为状态空间S中的参数在第t次交互时的数据,
Figure BDA0004087315110000136
为优势函数,k为训练的次数,at代表智能体在第t次交互时作出的行为,rt为在第t次交互时的奖励,∈为超参数,可根据实际情况预设。示例性的,在本实施例中,将V(st)作为价值函数。
若不对ht(θ)施加限制,在梯度更新时会得到非常大的梯度,即若更新方向不利于当前策略时,获得非常大的梯度会使得策略越来越差,因此需要施加限制。
其中一种施加限制的方式就是
Figure BDA0004087315110000137
此时当优势函数为正时,对
Figure BDA0004087315110000138
不设限制,反之则限制损失函数
Figure BDA0004087315110000139
不要过大,这样在更新参数时就不会往不利的方向更新太多。具体的,可限制损失函数不超过阈值,示例性的,可根据实际的使用情况选择阈值,本公开实施例中对此不进行限制。
具体地,在本步骤中,所述根据所述累积奖励函数构建带KL惩罚的自适应损失函数
Figure BDA00040873151100001310
包括:
Figure BDA00040873151100001311
其中,KL表示计算KL散度,β为常数。
Figure BDA00040873151100001312
Figure BDA0004087315110000141
示例性的,如果每次更新都要重新采样计算价值函数V(st),效率太低,因此,通常会用一个评估者(critic)来估计价值函数,其为和策略结构一样的神经网络,dtarg
Figure BDA0004087315110000142
分别为评估者计算得出的与d相对应的评估参数和评估价值函数;
Figure BDA0004087315110000143
中的KL散度衡量了更新前后策略的分布的差异,以此作为惩罚项可以有效限制损失不能太大。另外,设某一策略为目标,则可以通过上式比较d和dtarg的差异,若两者差异过大,则参数β扩大为原来的两倍,即在后续训练中会增加惩罚项的权重,进一步限制损失大小,反之则减小惩罚项的权重、放宽限制,以此达到动态限制损失的效果。
具体地,在本步骤中,所述根据所述累积奖励函数构建策略和价值函数的误差项,包括:
由于在训练过程中,策略和价值函数可以共享神经网络的参数,因此需要增加策略和和价值函数的误差项,即:
Figure BDA0004087315110000144
进一步,还可以增加状态的熵作为惩罚项,即S[πθ](st),其中,Vθ(st)为累积奖励函数R在策略θ时状态st处的期望值。
S232:根据所述clip损失函数、带KL惩罚的自适应损失函数、策略和价值函数的误差项、惩罚项之和构建所述损失函数。
示例性的,在本步骤中,α1、α2均为常数,则本实施例最终的损失函数Lt为:
Figure BDA0004087315110000145
下面将进一步阐述实施例的一种基于强化学习的暖通空调调控方法中步骤S300的具体步骤。
示例性的,步骤S300中,根据所述奖励更新优化所述策略模型,包括:
S310:最小化所述损失函数Lt,以完成对所述策略模型的训练。
S320:多次训练所述策略模型,以实现对所述策略模型的更新优化。
示例性的,在本实施例中,当使用计算机程序来执行本实施例中的一种基于强化学习的暖通空调调控方法时,设N为并行计算的智能体个数,M为minibatch的数目,也就是最小取样数,K为epoch数目,也就是训练的次数,iter为总共迭代轮数。则每一轮训练的具体流程如下:
a)以
Figure BDA0004087315110000152
为智能体本轮的策略,与环境进行交互T次,计算优势函数
Figure BDA0004087315110000151
并行计算N组。
b)选取M组数据作为batch,用SGD最小化Lt来更新参数。重复上述过程K个epoch,得到本轮更新后的θ。
c)令θold=θ。
重复上述过程iter次,即可完成训练。
下面将参考图4描述本公开另一实施例的一种基于强化学习的暖通空调调控装置。
示例性的,如图4所示,一种基于强化学习的暖通空调调控装置100,包括:
建模模块110,用于构建基于强化学习的暖通空调智能体的策略模型;
奖励构建模块120,用于根据状态参数和行为参数构建基于强化学习的暖通空调的奖励;
优化模型130,用于根据所述奖励更新优化所述策略模型;
调控模块140,用于所述智能体根据所述更新优化后的策略模型更新行为参数并作出对应的新的行为,所述环境根据所述新的行为得到新的状态参数,以完成暖通空调的调控。
本公开实施例的一种基于强化学习的暖通空调调控装置,将强化学习应用到HVAC调控系统,通过智能体与环境的交互过程,训练更新智能体的策略,使之能够达到维持适宜状态。
进一步的,本实施例中还公开了一种电子设备,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现前文记载的一种基于强化学习的暖通空调调控方法。
进一步的,本实施例中还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现前文记载的一种基于强化学习的暖通空调调控方法。
其中,计算机可读介质可以是本公开的装置、设备、系统中所包含的,也可以是单独存在。
在数据处理上,对于视频流数据、图像数据、数据库数据和统计结果数据分别采用符合各自数据类型的数据处理工具。在数据管理上,采用集成化的管理工具,能够形成统一的数据管理目录、索引、标准等。将接入的数据分阶段处理、分阶段存储,全周期关联、全周期分析。
其中,计算机可读存储介质可是任何包含或存储程序的有形介质,其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备,更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或它们任意合适的组合。
其中,计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,其具体的例子包括但不限于电磁信号、光信号,或它们任意合适的组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。

Claims (10)

1.一种基于强化学习的暖通空调调控方法,其特征在于,所述方法包括:
构建基于强化学习的暖通空调智能体的策略模型;
根据状态参数和行为参数构建基于强化学习的暖通空调的奖励;
根据所述奖励更新优化所述策略模型;
所述智能体根据所述更新优化后的策略模型更新行为参数并作出对应的新的行为,环境根据所述新的行为得到新的状态参数,以完成暖通空调的调控。
2.根据权利要求1所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述状态参数包括室内温度、室外温度和能源消耗,所述行为参数包括采暖温度设置值和制冷温度设置值。
3.根据权利要求2所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述根据状态参数和行为参数构建基于强化学习的暖通空调的奖励,包括:
根据所述室内温度和所述能源消耗构建奖励函数;
根据所述奖励函数和折扣因子构建累积奖励函数;
根据所述累积奖励函数和所述行为参数构建损失函数。
4.根据权利要求3所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述根据所述室内温度和所述能源消耗构建奖励函数,包括:
Figure FDA0004087315100000011
其中,r为奖励,en为能源消耗,n∈{1,2,3...},tempi为室内温度,,i∈{1,2,3,...},em为能源消耗最大值,tempo为最优温度,c1、c2均为系数。
5.根据权利要求4所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述根据所述奖励函数和折扣因子构建累积奖励函数,包括:
Figure FDA0004087315100000021
其中,R为累积奖励,E代表期望,γ为折扣因子,π为策略,θ为策略的参数,T为智能体与环境进行交互的次数,t为智能体与环境进行的第t次交互。
6.根据权利要求5所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述根据所述累积奖励函数构建损失函数,包括:
根据所述累积奖励函数构建clip损失函数、带KL惩罚的自适应损失函数、策略和价值函数的误差项;
根据所述clip损失函数、带KL惩罚的自适应损失函数、策略和价值函数的误差项之和构建所述损失函数。
7.根据权利要求6所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述根据所述累积奖励函数构建clip损失函数
Figure FDA0004087315100000022
包括:
Figure FDA0004087315100000023
其中,ht(θ)为策略与旧策略的比率,V(st)为累积奖励函数R在状态st处的期望值,为状态值函数,
Figure FDA0004087315100000024
为优势函数。
8.根据权利要求7所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述根据所述累积奖励函数构建clip损失函数,包括:
当所述优势函数为正时,对所述损失函数不设限制;
否则,则限制所述损失函数不超过阈值。
9.根据权利要求3所述的一种基于强化学习的暖通空调调控方法,其特征在于,所述根据所述奖励更新优化所述策略模型,包括:
最小化所述损失函数,以完成对所述策略模型的训练;
多次训练所述策略模型,以实现对所述策略模型的更新优化。
10.一种基于强化学习的暖通空调调控装置,其特征在于,所述装置包括:
建模模块,用于构建基于强化学习的暖通空调智能体的策略模型;
奖励构建模块,用于根据状态参数和行为参数构建基于强化学习的暖通空调的奖励;
优化模型,用于根据所述奖励更新优化所述策略模型;
调控模块,用于所述智能体根据所述更新优化后的策略模型更新行为参数并作出对应的新的行为,环境根据所述新的行为得到新的状态参数,以完成暖通空调的调控。
CN202310140498.0A 2023-02-20 2023-02-20 一种基于强化学习的暖通空调调控方法和装置 Pending CN115950080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310140498.0A CN115950080A (zh) 2023-02-20 2023-02-20 一种基于强化学习的暖通空调调控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310140498.0A CN115950080A (zh) 2023-02-20 2023-02-20 一种基于强化学习的暖通空调调控方法和装置

Publications (1)

Publication Number Publication Date
CN115950080A true CN115950080A (zh) 2023-04-11

Family

ID=87286197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310140498.0A Pending CN115950080A (zh) 2023-02-20 2023-02-20 一种基于强化学习的暖通空调调控方法和装置

Country Status (1)

Country Link
CN (1) CN115950080A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966431A (zh) * 2021-02-04 2021-06-15 西安交通大学 一种数据中心能耗联合优化方法、系统、介质及设备
CN114527654A (zh) * 2022-01-25 2022-05-24 南京航空航天大学 一种基于强化学习的涡扇发动机直接推力智能控制方法
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization
CN115103562A (zh) * 2022-05-27 2022-09-23 内蒙古工业大学 数据中心空调的分布式智能控制方法
US20220327650A1 (en) * 2021-04-01 2022-10-13 Beijing Didi Infinity Technology And Development Co., Ltd. Transportation bubbling at a ride-hailing platform and machine learning
CN115309521A (zh) * 2022-07-25 2022-11-08 哈尔滨工业大学(深圳) 面向海上无人设备的深度强化学习任务调度方法及装置
CN115665258A (zh) * 2022-10-21 2023-01-31 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization
CN112966431A (zh) * 2021-02-04 2021-06-15 西安交通大学 一种数据中心能耗联合优化方法、系统、介质及设备
US20220327650A1 (en) * 2021-04-01 2022-10-13 Beijing Didi Infinity Technology And Development Co., Ltd. Transportation bubbling at a ride-hailing platform and machine learning
CN114527654A (zh) * 2022-01-25 2022-05-24 南京航空航天大学 一种基于强化学习的涡扇发动机直接推力智能控制方法
CN115103562A (zh) * 2022-05-27 2022-09-23 内蒙古工业大学 数据中心空调的分布式智能控制方法
CN115309521A (zh) * 2022-07-25 2022-11-08 哈尔滨工业大学(深圳) 面向海上无人设备的深度强化学习任务调度方法及装置
CN115665258A (zh) * 2022-10-21 2023-01-31 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Similar Documents

Publication Publication Date Title
Yu et al. Multi-agent deep reinforcement learning for HVAC control in commercial buildings
Merabet et al. Intelligent building control systems for thermal comfort and energy-efficiency: A systematic review of artificial intelligence-assisted techniques
Gao et al. DeepComfort: Energy-efficient thermal comfort control in buildings via reinforcement learning
Wei et al. Multi-objective optimization of the HVAC (heating, ventilation, and air conditioning) system performance
Alcalá et al. Fuzzy control of HVAC systems optimized by genetic algorithms
Homod et al. Gradient auto-tuned Takagi–Sugeno Fuzzy Forward control of a HVAC system using predicted mean vote index
Fu et al. ED-DQN: An event-driven deep reinforcement learning control method for multi-zone residential buildings
Mirinejad et al. A review of intelligent control techniques in HVAC systems
CN111609534B (zh) 温度控制方法、装置及中央温度控制系统
JP2007500379A (ja) インテリジェント制御システムのソフト演算最適化装置
WO2016047118A1 (ja) モデル評価装置、モデル評価方法、及び、プログラム記録媒体
Bamdad et al. Building energy optimization using surrogate model and active sampling
JP2020154785A (ja) 予測方法、予測プログラムおよびモデル学習方法
Li et al. Toward intelligent multizone thermal control with multiagent deep reinforcement learning
CN114662201A (zh) 一种自然通风智能调控的寻优方法
Homod et al. Deep clustering of Lagrangian trajectory for multi-task learning to energy saving in intelligent buildings using cooperative multi-agent
CN113821903A (zh) 温度控制方法和设备、模块化数据中心及存储介质
CN114623569A (zh) 一种基于深度强化学习的集群空调负荷差异化调控方法
Chen et al. Fast human-in-the-loop control for hvac systems via meta-learning and model-based offline reinforcement learning
Deng et al. Room match: Achieving thermal comfort through smart space allocation and environmental control in buildings
Shin et al. Development of an HVAC system control method using weather forecasting data with deep reinforcement learning algorithms
Lee et al. On-policy learning-based deep reinforcement learning assessment for building control efficiency and stability
Sakuma et al. Airflow direction control of air conditioners using deep reinforcement learning
CN117847730A (zh) 一种基于智能优化算法的新风机组主动节能优化控制方法
CN115950080A (zh) 一种基于强化学习的暖通空调调控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination