CN112380761B - 一种基于强化学习的建筑环境控制器和控制方法 - Google Patents
一种基于强化学习的建筑环境控制器和控制方法 Download PDFInfo
- Publication number
- CN112380761B CN112380761B CN202011125190.1A CN202011125190A CN112380761B CN 112380761 B CN112380761 B CN 112380761B CN 202011125190 A CN202011125190 A CN 202011125190A CN 112380761 B CN112380761 B CN 112380761B
- Authority
- CN
- China
- Prior art keywords
- gradient
- function
- parameters
- reward function
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 238000004891 communication Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000005265 energy consumption Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 124
- 230000009471 action Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 27
- 230000007613 environmental effect Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 description 6
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000009423 ventilation Methods 0.000 description 4
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/06—Power analysis or power optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/08—Thermal analysis or thermal optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种基于强化学习的建筑环境控制器和控制方法,包括:数据采集模块、第一通信模块、第二通信模块以及数据处理模块。数据采集模块与第一通信模块相连,第一通信模块与第二通信模块相连,第二通信模块与数据处理模块相连,数据采集模块用于采集建筑物内的环境数据,第一通信模块用于将环境数据传输给第二通信模块,第二通信模块用于将环境数据传输给数据处理模块,数据处理模块用于根据环境数据建立环境模型,并结合Q‑learning算法获得最优策略。上述建筑环境控制器通过采集相关设备的数据,根据数据建立环境模型,然后通过Q‑learning算法获得最优策略,根据最优策略来控制各个设备,从而有利于达到能耗与舒适度的平衡。
Description
技术领域
本发明涉及智能控制领域,特别是涉及建筑环境控制器以及控制方法。
背景技术
随着经济的发展,大型建筑内应用了各种设备来满足人们的需求。这些设备在应用时,如何相互配合才能达到能耗、舒适度等指标的平衡,这已经成为一个难题。
发明内容
基于此,有必要针对传统建筑内的问题,提供一种基于强化学习的建筑环境控制器。该建筑环境控制器有利于达到能耗、舒适度等指标的平衡。
一种基于强化学习的建筑环境控制器,包括:
数据采集模块、第一通信模块、第二通信模块以及数据处理模块,
所述数据采集模块与所述第一通信模块相连,所述第一通信模块与所述第二通信模块相连,所述第二通信模块与所述数据处理模块相连,
所述数据采集模块用于采集建筑物内的环境数据,
所述第一通信模块用于将所述环境数据传输给所述第二通信模块,
所述第二通信模块用于将所述环境数据传输给所述数据处理模块,
所述数据处理模块用于根据所述环境数据建立环境模型,并结合Q-learning算法获得最优策略。
上述建筑环境控制器通过采集相关设备的数据,根据数据建立环境模型,然后通过Q-learning算法获得最优策略,根据最优策略来控制各个设备,从而有利于达到能耗与舒适度的平衡。
在其中一个实施例中,
所述根据所述环境数据建立环境模型,结合Q-learning算法获得最优策略,包括:
将建筑环境控制系统构建为一个MDP模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,建筑的室内温度为MT(℃),室内外温差为MΔ(℃),CO2浓度数据为MC(ppm),则此时刻的状态可表示为:
St=(MT,MΔ,MC),
动作,用a表示,t时刻的动作a用[设置热泵,设置供电机组,设置通风机组,设置窗口执行器]表示,其中,设置热泵用Or表示,设置供电机组Og表示,设置通风机组用Ot表示,设置窗口执行器用Oc表示,则t时刻可采取的动作集合为:
a={[Or0,Og0,Ot0,Oc0],[Or1,Og1,Ot1,Oc1],[Or2,Og2,Ot2,Oc2],...},
立即奖赏函数,用r表示,r=-(θ1fenergy+θ2fcomfort+θ3fair_quality),其中,能耗特征fenergy为上两个时间步内产生的电力消耗,空气质量指数fair_quality为当前状态下室内空气的CO2浓度,热舒适度指数fcomfort为:fcomfort=-0.31MΔ-17.8,其中MΔ(℃)表示当前状态下的室内外温差;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
利用Q-learning强化学习方法求解最佳策略。
在其中一个实施例中,
所述Q-learning算法中的奖赏函数是通过以下方法确定,包括:
S100、构建基于最大熵的奖赏函数参数梯度模型;
S200:随机初始化奖赏函数参数θ;
S300:从满足P(T)的元训练任务集{T}meta-train中采样得到一组任务Ti;
S400:对所有任务,采样得到专家演示训练集{τ1,...,τN},根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度,并用梯度下降法对其进行更新;
S500:将专家演示训练集中剩余的轨迹样本作为测试集,根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度;
S600:通过所有任务的测试集梯度对参数进行更新:
S700:重复步骤S300至步骤S600,直至奖赏函数参数收敛;
S800:将步骤S700得到收敛后的参数作为目标任务中奖赏函数参数的初始值,根据所述梯度模型进行梯度下降,直至奖赏函数参数收敛,最后得到目标任务的奖赏函数;
S900:将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数。
上述方法在面对只有少量专家演示样本,即当前时刻人为操作控制器的演示较少的目标任务时,通过与目标任务满足同分布的一组元训练任务集对奖赏函数参数进行预训练,为后续目标任务奖赏函数梯度下降求解过程确定一个良好的初始值。
而且,由于最优策略中需要控制的设备较多,而奖赏函数中对应设备的参数难以人为确定,人为确定的参数往往与实际情况出现较大偏差。这时就需要通过一个切实可行的方法来获得比较优选的参数,进而确定出一个更加符合实际情况的奖赏函数。这样有利于获得更优的控制策略。
在其中一个实施例中,
所述步骤S100中,构建基于最大熵的奖赏函数参数梯度模型具体包括:其中,μD表示所有专家轨迹中对每个状态访问次数的期望值,E[μ]表示在当前奖赏函数参数θ对应的策略下,对每个状态访问次数的期望值。
一种基于强化学习的建筑环境控制方法,包括:
首先,采集建筑物的环境数据,
然后,根据所述环境数据建立环境模型,并结合Q-learning算法获得最优策略。
在其中一个实施例中,所述根据所述环境数据建立环境模型,结合Q-learning算法获得最优策略,包括:
将建筑环境控制系统构建为一个MDP模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,建筑的室内温度为MT(℃),室内外温差为MΔ(℃),CO2浓度数据为MC(ppm),则此时刻的状态可表示为:
St=(MT,MΔ,MC),
动作,用a表示,t时刻的动作a用[设置热泵,设置供电机组,设置通风机组,设置窗口执行器]表示,其中,设置热泵用Or表示,设置供电机组Og表示,设置通风机组用Ot表示,设置窗口执行器用Oc表示,则t时刻可采取的动作集合为:
a={[Or0,Og0,Ot0,Oc0],[Or1,Og1,Ot1,Oc1],[Or2,Og2,Ot2,Oc2],...},
立即奖赏函数,用r表示,r=-(θ1fenergy+θ2fcomfort+θ3fair_quality),其中,能耗特征fenergy为上两个时间步内产生的电力消耗,空气质量指数fair_quality为当前状态下室内空气的CO2浓度,热舒适度指数fcomfort为:fcomfort=-0.31MΔ-17.8,其中MΔ(℃)表示当前状态下的室内外温差;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
利用Q-learning强化学习方法求解最佳策略。
在其中一个实施例中,
所述Q-learning算法中的奖赏函数是通过以下方法获得,包括:
S100、构建基于最大熵的奖赏函数参数梯度模型;
S200:随机初始化奖赏函数参数θ;
S300:从满足P(T)的元训练任务集{T}meta-train中采样得到一组任务Ti;
S400:对所有任务,采样得到专家演示训练集{τ1,...,τN},根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度,并用梯度下降法对其进行更新;
S500:将专家演示训练集中剩余的轨迹样本作为测试集,根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度;
S600:通过所有任务的测试集梯度对参数进行更新:
S700:重复步骤S300至步骤S600,直至奖赏函数参数收敛;
S800:将步骤S700得到收敛后的参数作为目标任务中奖赏函数参数的初始值,根据所述梯度模型进行梯度下降,直至奖赏函数参数收敛,最后得到目标任务的奖赏函数;
S900:将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数。
在其中一个实施例中,
所述步骤S100中,构建基于最大熵的奖赏函数参数梯度模型具体包括:其中,μD表示所有专家轨迹中对每个状态访问次数的期望值,E[μ]表示在当前奖赏函数参数θ对应的策略下,对每个状态访问次数的期望值。
一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述的建筑环境控制方法对应的操作。
一种计算机装置,包括:处理器、存储器、通信接口和通信总线,所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的建筑环境控制方法对应的操作。
附图说明
图1为本发明的实施例的建筑环境控制器的电路原理图。
图2为本发明的实施例的建筑环境控制器的奖赏函数参数的初始值的获取方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,本发明的实施例提供了一种基于强化学习的建筑环境控制器,该控制器包括:
数据采集模块、第一通信模块、第二通信模块以及数据处理模块。
所述数据采集模块与所述第一通信模块相连,所述第一通信模块与所述第二通信模块相连,所述第二通信模块与所述数据处理模块相连。
所述数据采集模块用于采集建筑物内的环境数据。
所述第一通信模块用于将所述环境数据传输给所述第二通信模块。
所述第二通信模块用于将所述环境数据传输给所述数据处理模块。
所述数据处理模块用于根据所述环境数据建立环境模型,并结合Q-learning算法获得最优策略。
上述建筑环境控制器通过采集相关设备的数据,根据数据建立环境模型,然后通过Q-learning算法获得最优策略,根据最优策略来控制各个设备,从而有利于达到能耗与舒适度的平衡。
例如,可采集室内温度,室外温度,室内CO2浓度数据,供电机组的电力消耗值等等。可根据建筑物的实际设备以及舒适度需求来设定需要采集的数据。采集相应的数据可应用对应的传感器等实现。
例如,UNI-T数字式温湿度测量仪测得当前时刻建筑的室内温度。用IR-700红外原理二氧化碳探测器测得当前室内二氧化碳浓度。
本实施例中,所述根据所述环境数据建立环境模型,结合Q-learning算法获得最优策略包括:将建筑环境控制系统构建为一个MDP模型,并定义其中的状态,动作和立即奖赏函数。
其中,状态:用s表示,设t时刻,建筑的室内温度为MT(℃),室内外温差为MΔ(℃),CO2浓度数据为MC(ppm),并对这些参数使用sigmoid函数进行特征缩放,然后使用径向基函数进行编码,以创建一组三维特征向量,作为该时刻的状态;同时,以两个时间步为一组,每个时间步长设置为5分钟,不仅刻画出其某一时刻的状态,更能反映其动态规律。
此时刻的状态可表示为:
St=(MT,MΔ,MC)。
其中,动作,用a表示,t时刻的动作a用[设置热泵,设置供电机组,设置通风机组,设置窗口执行器]表示,其中,设置热泵用Or表示,设置供电机组Og表示,设置通风机组用Ot表示,设置窗口执行器用Oc表示,则t时刻可采取的动作集合为:
a={[Or0,Og0,Ot0,Oc0],[Or1,Og1,Ot1,Oc1],[Or2,Og2,Ot2,Oc2],...}。
需要说明的是,热泵的设置可包括冷却模式和加热模式。供电机组的设置包括低档供电、中档供电以及高档供电,其中低档供电的电能单位时间消耗值小于中档供电,中档供电小于高档供电。供电机组可为现代交流逆变机组。通风机组的设置包括低档通风和高档通风。低档通风的效率小于高档通风的效率。窗口执行器的设置包括打开窗户和关闭窗户。
其中,立即奖赏函数,用r表示,r=-(θ1fenergy+θ2fcomfort+θ3fair_quality),其中,能耗特征fenergy为上两个时间步内产生的电力消耗,上述电力消耗就是供电机组的电力消耗。空气质量指数fair_quality为当前状态下室内空气的CO2浓度,热舒适度指数fcomfort为:fcomfort=-0.31MΔ-17.8,其中MΔ(℃)表示当前状态下的室内外温差。
进一步的是,建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
利用Q-learning强化学习方法求解最佳策略,具体可应用现有的Q-learning强化学习方法。也就是:
随机初始化Q(s,a),
重复(对每个片段):初始化s,
重复(对片段的每一步):
利用从Q中得到的策略在s中选择动作a,
采取动作a,得到r和s’,
Q(s,a)←Q(s,a)+α[r+γmaxa'Q(s',a')-Q(s,a)],
s←s′,
a←a',
直到s是终止状态。
其中γ为折扣因子,是一个0到1的值,根据实际收敛情况而定,α为学习速率。
其中,一个片段可被定义为该办公室在一个工作日中所有的室内环境调控过程,片段中的每一步为该控制系统每次做的动作(每次间隔两个时间步即10分钟做一次动作)。
本实施例中,如图2所示,所述Q-learning算法中的奖赏函数是通过以下方法确定,包括:
S100、构建基于最大熵的奖赏函数参数梯度模型;
S200:随机初始化奖赏函数参数θ;
S300:从满足P(T)的元训练任务集{T}meta-train中采样得到一组任务Ti;
S400:对所有任务,采样得到专家演示训练集{τ1,...,τN},根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度,并用梯度下降法对其进行更新;
S500:将专家演示训练集中剩余的轨迹样本作为测试集,根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度;
S600:通过所有任务的测试集梯度对参数进行更新:
S700:重复步骤S300至步骤S600,直至奖赏函数参数收敛;
S800:将步骤S700得到收敛后的参数作为目标任务中奖赏函数参数的初始值,根据所述梯度模型进行梯度下降,直至奖赏函数参数收敛,最后得到目标任务的奖赏函数;
S900:将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数。
由于在强化学习算法中需要确定奖赏函数。而奖赏函数中需要确定一些参数,例如上述的θ1,θ2,θ3。这里只是考虑了能耗特征、空气质量指数以及热舒适度指数,因此只有3个参数。如果考虑更多的因素,则奖赏函数中相应的参数更多。这些参数如果人为设定,可能与实际情况偏差较大,不够合理。因此有必要通过上述方法来获得较为合理的参数值。
进一步的是,上述方法不光是为了获得较为合理的参数值,进而获得较优的奖赏函数。而且,上述方法是在面对只有少量专家演示样本,即当前时刻人为操作控制器的演示较少的目标任务时,通过与目标任务满足同分布的一组元训练任务集对奖赏函数参数进行预训练,为后续目标任务奖赏函数梯度下降求解过程确定一个良好的初始值。也就是对应上述步骤S100至S700的内容。
也就是上述方法是能够仅凭借目标任务少量专家演示样本解决目标任务奖赏函数的求解问题,其参数收敛速度和最终的求解效果均有较大提升。
具体的,上述步骤S100中,构建基于最大熵的奖赏函数参数梯度模型,具体包括:
首先,采用最大熵概率模型将奖赏函数建模为:存在一个潜在的概率分布,在该概率分布下,产生专家轨迹。在已知专家轨迹的前提下,求解对应的概率模型,因此逆强化学习问题就转化为求解专家策略下轨迹分布的问题,其中熵最大的轨迹分布即为除约束条件外不带任何偏好的专家轨迹分布,该最优化问题可形式化为:
max-p log p
∑P=1 (1),
其中P(τi)为轨迹τi发生的概率,f表示该轨迹的奖赏特征期望函数,表示所有专家演示样本的奖赏特征期望函数。
上述公式(1)就是在两种条件的约束下最大化所有轨迹分布的熵,也就是max-plogp。而两种条件包括:条件一,所有轨迹的概率之和为1,也就是∑P=1。条件二,此种概率分布下的奖赏特征期望函数等于所有专家演示样本中奖赏特征期望函数,也就是
接着,利用拉格朗日乘子法可得:
其中θj对应奖赏函数中的参数。可以通过最大似然的方法结合梯度下降的方法对其进行求解,具体应用以下公式:
其中μD表示所有专家轨迹中对每个状态访问次数的期望值,E[μ]表示在当前奖赏函数参数θ对应的策略下,对每个状态访问次数的期望值。
具体的,所述元训练任务集为一组与目标任务满足同分布的任务,且该训练集中所有任务的专家演示样本均已知且样本数足够,其中一部分样本当作元训练过程中的训练集,剩余样本当作测试集。
进一步的,所述元训练任务集构建方法举例如下:假设某一写字楼里的一间新办公室为实验目标,由于新办公室的环境调控样本过少无法直接对奖赏函数进行学习,将同一写字楼内其他旧办公室的环境调控任务构建为元训练任务集,并大量采集这些旧办公室的环境调控样本,得到该元训练任务集中每个任务的专家演示样本,结合基于概率模型的元逆强化学习方法求解出当前状态下奖赏函数参数。
具体的,上述步骤S800中,根据所述梯度模型进行梯度下降,也就是根据上述公式(4)进行梯度下降。
进一步的,所述步骤S100至步骤S900中所描述的方法中的梯度下降学习率设为0.01,Q-learning算法中的折扣值设为0.9。
表1给出了上述步骤S100至S700的算法流程。
表1
本发明的实施例还提供了一种基于强化学习的建筑环境控制方法,该方法包括:
首先,采集建筑物的环境数据。
然后,根据所述环境数据建立环境模型,并结合Q-learning算法获得最优策略。
本实施例中,所述根据所述环境数据建立环境模型,结合Q-learning算法获得最优策略,包括:
将建筑环境控制系统构建为一个MDP模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,建筑的室内温度为MT(℃),室内外温差为MΔ(℃),CO2浓度数据为MC(ppm),则此时刻的状态可表示为:
St=(MT,MΔ,MC),
动作,用a表示,t时刻的动作a用[设置热泵,设置供电机组,设置通风机组,设置窗口执行器]表示,其中,设置热泵用Or表示,设置供电机组Og表示,设置通风机组用Ot表示,设置窗口执行器用Oc表示,则t时刻可采取的动作集合为:
a={[Or0,Og0,Ot0,Oc0],[Or1,Og1,Ot1,Oc1],[Or2,Og2,Ot2,Oc2],...},
立即奖赏函数,用r表示,r=-(θ1fenergy+θ2fcomfort+θ3fair_quality),其中,能耗特征fenergy为上两个时间步内产生的电力消耗,空气质量指数fair_quality为当前状态下室内空气的CO2浓度,热舒适度指数fcomfort为:fcomfort=-0.31MΔ-17.8,其中MΔ(℃)表示当前状态下的室内外温差;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
利用Q-learning强化学习方法求解最佳策略。
本实施例中,
所述Q-learning算法中的奖赏函数是通过以下方法获得,包括:
S100、构建基于最大熵的奖赏函数参数梯度模型;
S200:随机初始化奖赏函数参数θ;
S300:从满足P(T)的元训练任务集{T}meta-train中采样得到一组任务Ti;
S400:对所有任务,采样得到专家演示训练集{τ1,...,τN},根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度,并用梯度下降法对其进行更新;
S500:将专家演示训练集中剩余的轨迹样本作为测试集,根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度;
S600:通过所有任务的测试集梯度对参数进行更新:
S700:重复步骤S300至步骤S600,直至奖赏函数参数收敛;
S800:将步骤S700得到收敛后的参数作为目标任务中奖赏函数参数的初始值,根据所述梯度模型进行梯度下降,直至奖赏函数参数收敛,最后得到目标任务的奖赏函数;
S900:将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数。
本实施例中,
所述步骤S100中,构建基于最大熵的奖赏函数参数梯度模型具体包括:其中,μD表示所有专家轨迹中对每个状态访问次数的期望值,E[μ]表示在当前奖赏函数参数θ对应的策略下,对每个状态访问次数的期望值。
本发明的实施例还提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行所述的建筑环境控制方法对应的操作。
本发明的实施例还提供了一种计算机装置,包括:处理器、存储器、通信接口和通信总线,所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的建筑环境控制方法对应的操作。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (4)
1.一种基于强化学习的建筑环境控制器,其特征在于,包括:
数据采集模块、第一通信模块、第二通信模块以及数据处理模块,
所述数据采集模块与所述第一通信模块相连,所述第一通信模块与所述第二通信模块相连,所述第二通信模块与所述数据处理模块相连,
所述数据采集模块用于采集建筑物内的环境数据,
所述第一通信模块用于将所述环境数据传输给所述第二通信模块,
所述第二通信模块用于将所述环境数据传输给所述数据处理模块,
所述数据处理模块用于根据所述环境数据建立环境模型,并结合Q-learning算法获得最优策略;
所述根据所述环境数据建立环境模型,结合Q-learning算法获得最优策略,包括:
将建筑环境控制系统构建为一个MDP模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,建筑的室内温度为MT(℃),室内外温差为MΔ(℃),CO2浓度数据为MC(ppm),则此时刻的状态可表示为:
St=(MT,MΔ,MC),
动作,用a表示,t时刻的动作a用[设置热泵,设置供电机组,设置通风机组,设置窗口执行器]表示,其中,设置热泵用Or表示,设置供电机组Og表示,设置通风机组用Ot表示,设置窗口执行器用Oc表示,则t时刻可采取的动作集合为:
a={[Or0,Og0,Ot0,Oc0],[Or1,Og1,Ot1,Oc1],[Or2,Og2,Ot2,Oc2],...},
立即奖赏函数,用r表示,r=-(θ1fenergy+θ2fcomfort+θ3fair_quality),其中,能耗特征fenergy为上两个时间步内产生的电力消耗,空气质量指数fair_quality为当前状态下室内空气的CO2浓度,热舒适度指数fcomfort为:fcomfort=-0.31MΔ-17.8,
其中MΔ(℃)表示当前状态下的室内外温差;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
利用Q-learning强化学习方法求解最佳策略;
所述Q-learning算法中的奖赏函数是通过以下方法确定,包括:
S100、构建基于最大熵的奖赏函数参数的梯度模型;
S200:随机初始化奖赏函数参数θ;
S300:从满足P(T)的元训练任务集{T}meta-train中采样得到一组任务Ti;
S400:对所有任务,采样得到专家演示训练集{τ1,...,τN},根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度,并用梯度下降法对其进行更新;
S500:将专家演示训练集中剩余的轨迹样本作为测试集,根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度;
S600:通过所有任务的测试集梯度对参数进行更新:
S700:重复步骤S300至步骤S600,直至奖赏函数参数收敛;
S800:将步骤S700得到收敛后的参数作为目标任务中奖赏函数参数的初始值,根据所述梯度模型进行梯度下降,直至奖赏函数参数收敛,最后得到目标任务的奖赏函数;
S900:将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数;
所述步骤S100中,构建基于最大熵的奖赏函数参数梯度模型具体包括:
其中,μD表示所有专家轨迹中对每个状态访问次数的期望值,E[μ]表示在当前奖赏函数参数θ对应的策略下,对每个状态访问次数的期望值。
2.一种基于强化学习的建筑环境控制方法,其特征在于,包括:
首先,采集建筑物的环境数据,
然后,根据所述环境数据建立环境模型,并结合Q-learning算法获得最优策略;所述根据所述环境数据建立环境模型,结合Q-learning算法获得最优策略,包括:
将建筑环境控制系统构建为一个MDP模型,并定义其中的状态,动作和立即奖赏函数:
状态:用s表示,设t时刻,建筑的室内温度为MT(℃),室内外温差为MΔ(℃),CO2浓度数据为MC(ppm),则此时刻的状态可表示为:
St=(MT,MΔ,MC),
动作,用a表示,t时刻的动作a用[设置热泵,设置供电机组,设置通风机组,设置窗口执行器]表示,其中,设置热泵用Or表示,设置供电机组Og表示,设置通风机组用Ot表示,设置窗口执行器用Oc表示,则t时刻可采取的动作集合为:
a={[Or0,Og0,Ot0,Oc0],[Or1,Og1,Ot1,Oc1],[Or2,Og2,Ot2,Oc2],...},
立即奖赏函数,用r表示,r=-(θ1fenergy+θ2fcomfort+θ3fair_quality),其中,能耗特征fenergy为上两个时间步内产生的电力消耗,空气质量指数fair_quality为当前状态下室内空气的CO2浓度,热舒适度指数fcomfort为:fcomfort=-0.31MΔ-17.8,其中MΔ(℃)表示当前状态下的室内外温差;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,
值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
利用Q-learning强化学习方法求解最佳策略;
所述Q-learning算法中的奖赏函数是通过以下方法获得,包括:
S100、构建基于最大熵的奖赏函数参数梯度模型;
S200:随机初始化奖赏函数参数θ;
S300:从满足P(T)的元训练任务集{T}meta-train中采样得到一组任务Ti;
S400:对所有任务,采样得到专家演示训练集{τ1,...,τN},根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度,并用梯度下降法对其进行更新;
S500:将专家演示训练集中剩余的轨迹样本作为测试集,根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度;
S600:通过所有任务的测试集梯度对参数进行更新:
S700:重复步骤S300至步骤S600,直至奖赏函数参数收敛;
S800:将步骤S700得到收敛后的参数作为目标任务中奖赏函数参数的初始值,根据所述梯度模型进行梯度下降,直至奖赏函数参数收敛,最后得到目标任务的奖赏函数;
S900:将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数;
所述步骤S100中,构建基于最大熵的奖赏函数参数梯度模型具体包括:
其中,μD表示所有专家轨迹中对每个状态访问次数的期望值,E[μ]表示在当前奖赏函数参数θ对应的策略下,对每个状态访问次数的期望值。
3.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求2所述的建筑环境控制方法对应的操作。
4.一种计算机装置,包括:处理器、存储器、通信接口和通信总线,所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求2所述的建筑环境控制方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011125190.1A CN112380761B (zh) | 2020-10-20 | 2020-10-20 | 一种基于强化学习的建筑环境控制器和控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011125190.1A CN112380761B (zh) | 2020-10-20 | 2020-10-20 | 一种基于强化学习的建筑环境控制器和控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380761A CN112380761A (zh) | 2021-02-19 |
CN112380761B true CN112380761B (zh) | 2024-01-26 |
Family
ID=74581625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011125190.1A Active CN112380761B (zh) | 2020-10-20 | 2020-10-20 | 一种基于强化学习的建筑环境控制器和控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380761B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116045438A (zh) * | 2023-01-09 | 2023-05-02 | 江苏悦达绿色建筑科技有限公司 | 一种三恒智慧住宅的新风系统及其控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106483852A (zh) * | 2016-12-30 | 2017-03-08 | 北京天恒长鹰科技股份有限公司 | 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法 |
CN109063903A (zh) * | 2018-07-19 | 2018-12-21 | 山东建筑大学 | 一种基于深度强化学习的建筑能耗预测方法及系统 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、系统和存储介质 |
CN109657800A (zh) * | 2018-11-30 | 2019-04-19 | 清华大学深圳研究生院 | 基于参数噪声的强化学习模型优化方法及装置 |
CN109670637A (zh) * | 2018-12-06 | 2019-04-23 | 苏州科技大学 | 建筑能耗预测方法、存储介质、装置和系统 |
CN110264750A (zh) * | 2019-06-14 | 2019-09-20 | 大连理工大学 | 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法 |
CN110598906A (zh) * | 2019-08-15 | 2019-12-20 | 珠海米枣智能科技有限公司 | 一种基于深度强化学习的大型商场能耗实时控制方法和系统 |
CN111311577A (zh) * | 2020-02-14 | 2020-06-19 | 迈拓仪表股份有限公司 | 一种基于生成对抗网络及强化学习的智能渗水检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
CA3069209A1 (en) * | 2019-01-23 | 2020-07-23 | Royal Bank Of Canada | System and method for tree-based machine learning |
-
2020
- 2020-10-20 CN CN202011125190.1A patent/CN112380761B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106483852A (zh) * | 2016-12-30 | 2017-03-08 | 北京天恒长鹰科技股份有限公司 | 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法 |
CN109063903A (zh) * | 2018-07-19 | 2018-12-21 | 山东建筑大学 | 一种基于深度强化学习的建筑能耗预测方法及系统 |
CN109657800A (zh) * | 2018-11-30 | 2019-04-19 | 清华大学深圳研究生院 | 基于参数噪声的强化学习模型优化方法及装置 |
CN109670637A (zh) * | 2018-12-06 | 2019-04-23 | 苏州科技大学 | 建筑能耗预测方法、存储介质、装置和系统 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、系统和存储介质 |
CN110264750A (zh) * | 2019-06-14 | 2019-09-20 | 大连理工大学 | 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法 |
CN110598906A (zh) * | 2019-08-15 | 2019-12-20 | 珠海米枣智能科技有限公司 | 一种基于深度强化学习的大型商场能耗实时控制方法和系统 |
CN111311577A (zh) * | 2020-02-14 | 2020-06-19 | 迈拓仪表股份有限公司 | 一种基于生成对抗网络及强化学习的智能渗水检测方法 |
Non-Patent Citations (5)
Title |
---|
A multi-grid reinforcement learning method for energy conservation and comfort of HVAC in buildings;Bocheng Li等;2015 IEEE International Conference on Automation Science and Engineering (CASE);444-449 * |
一种基于迁移深度强化学习的建筑能耗预测方法;傅启明等;计算机应用研究;第37卷(第S1期);92-94 * |
一种面向建筑节能的强化学习自适应控制方法;胡龄爻;陈建平;傅启明;胡文;倪庆文;;计算机工程与应用(第21期);239-246 * |
基于生成对抗网络的最大熵逆强化学习;陈建平等;计算机工程与应用;第55卷(第22期);119-126 * |
基于逆强化学习的建筑室内环境调控方法研究;吴少波;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑(第6期);C038-537 * |
Also Published As
Publication number | Publication date |
---|---|
CN112380761A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220365503A1 (en) | Method and Apparatus for Controlling Smart Home | |
CN111795484B (zh) | 一种智慧空调控制方法和系统 | |
US20190360711A1 (en) | Method and device for controlling power supply to heating, ventilating, and air-conditioning (hvac) system for building based on target temperature | |
US11514358B2 (en) | Automatic control artificial intelligence device and method for updating a control function | |
CN111609534B (zh) | 温度控制方法、装置及中央温度控制系统 | |
CN112963946B (zh) | 一种面向共享办公区域的暖通空调系统控制方法及装置 | |
CN114370698B (zh) | 基于强化学习的室内热环境学习效率提升的优化控制方法 | |
CN105652677A (zh) | 一种基于用户行为分析的智能家居控制方法、装置和系统 | |
CN112380761B (zh) | 一种基于强化学习的建筑环境控制器和控制方法 | |
CN111461466A (zh) | 基于lstm时间序列的供暖户阀调节方法、系统及设备 | |
CN115585538A (zh) | 室内温度的调节方法、装置、电子设备及存储介质 | |
CN114623569A (zh) | 一种基于深度强化学习的集群空调负荷差异化调控方法 | |
CN110986249B (zh) | 空调的自调节控制方法、系统及空调器 | |
CN111271829B (zh) | 一种基于深度学习的空调智能制冷舒适控制方法及空调器 | |
CN112327648B (zh) | 家用设备的控制方法、装置和计算机可读存储介质 | |
Kontes et al. | Adaptive-fine tuning of building energy management systems using co-simulation | |
Mansourifard et al. | Online learning for personalized room-level thermal control: A multi-armed bandit framework | |
CN116859738A (zh) | 设备的控制方法及控制装置 | |
CN116045443A (zh) | 基于室内温度最优化控制的建筑空调能耗预测方法 | |
CN110705756A (zh) | 一种基于输入凸神经网络的电力能耗优化控制方法 | |
Li et al. | Thermal comfort control based on MEC algorithm for HVAC systems | |
EP4051968B1 (en) | System and method for thermal control based on invertible causation relationship | |
US20220236704A1 (en) | Control system, server, apparatus and control method | |
CN114117778A (zh) | 控制参数确定方法、装置、电子设备和存储介质 | |
US11662696B2 (en) | Automatic control artificial intelligence device and method for update control function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |