CN105843037A - 基于q学习的智能楼宇温度控制方法 - Google Patents

基于q学习的智能楼宇温度控制方法 Download PDF

Info

Publication number
CN105843037A
CN105843037A CN201610221709.3A CN201610221709A CN105843037A CN 105843037 A CN105843037 A CN 105843037A CN 201610221709 A CN201610221709 A CN 201610221709A CN 105843037 A CN105843037 A CN 105843037A
Authority
CN
China
Prior art keywords
evaluation network
performance index
optimal
iteration
index function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610221709.3A
Other languages
English (en)
Other versions
CN105843037B (zh
Inventor
魏庆来
李本凯
刘德荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201610221709.3A priority Critical patent/CN105843037B/zh
Publication of CN105843037A publication Critical patent/CN105843037A/zh
Application granted granted Critical
Publication of CN105843037B publication Critical patent/CN105843037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了一种基于Q学习的智能楼宇温度控制方法,包括:相关参数初始化;开启全局迭代,初始化评价网络权值;开启局部迭代,利用Q学习算法训练评价网络,修正网络权值,其中评价网络用来近似最优性能指标函数,并利用该评价网络权值评测当前温度控制系统的性能,通过执行流程选择最优控制策略,最小化一次全局迭代的总成本;判断当前局部迭代是否完成,若否,则返回局部迭代,否则更新迭代性能指标函数和控制律,以获得最优解;判断当前全局迭代是否满足收敛精度,若否,则返回全局迭代,否则根据最优性能指标函数获得最优控制策略,并计算总成本。由此,本发明可以不断地学习、调整和适应外界环境在未来的不确定的变化以提高系统的性能。

Description

基于Q学习的智能楼宇温度控制方法
技术领域
本发明实施例涉及智能楼宇温度控制技术领域,尤其是涉及一种基于Q学习的智能楼宇温度控制方法。
背景技术
智能楼宇是将建筑、计算机、自动化等先进科学技术相互融合、合理集成为的最优化的整体,具有合理的工程投资、高度自动化的设备、科学的信息管理、高效优质的服务、灵活方便的使用效果和安全舒适环境等特点。智能楼宇的能耗管理成为焦点,其中通过空调对温度的控制来降低能耗显得尤为重要。
有鉴于此,特提出本发明。
发明内容
鉴于上述问题,提出了本发明以便提供一种至少部分地解决上述问题的一种基于Q学习的智能楼宇温度控制方法。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种基于Q学习的智能楼宇温度控制方法,所述方法包括:
S1:初始化参数;
S2:进行全局迭代,根据迭代控制序列更新迭代性能指标函数,以获得最优性能指标函数;
S3:进行局部迭代,利用Q学习算法训练评价网络,修正所述评价网络的权值,并利用所述最优性能指标函数得到最优控制策略;
S4:判断当前局部迭代是否完成,如果尚未完成,则返回局部迭代步骤,否则更新迭代性能指标函数和控制律,以获得最优性能指标函数;
S5:判断当前全局迭代是否满足收敛精度,如果满足所述收敛精度,则根据所述最优性能指标函数获得最优控制策略,并计算总成本。
与现有技术相比,上述技术方案至少具有以下有益效果:
本发明实施例通过神经网络构建的基于自适应动态规划算法的自学习温度控制器,能够通过实时的操作而不断地学习、调整和适应外界环境在未来的不确定的变化以提高系统的性能,能够适应不同建筑不同环境的系统。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的房间传热模型示意图;
图2为根据一示例性实施例示出的基于Q学习的智能楼宇温度控制方法的流程示意图。
具体实施方式
为了更清楚地说明本发明的目的、技术方案和优点,以下结合具体实例,并参照附图,对本发明作进一步的详细说明。
自适应动态规划自20世纪80年代提出来,得到了快速的发展。它主要是用来解决动态规划问题,尤其是在求解最优控制方面表现了巨大的优势。自适应动态规划方法一般使用控制器-评价器(actor-critic)结构和神经网络,用来逼近性能指标函数和控制策略,采用迭代的方法逐步逼近,最终收敛到最优性能指标函数和最优控制策略。
自适应动态规划方法利用函数近似结构(如:神经网络)逼近动态规划方程中的性能指标函数和控制策略以满足最优化原理,从而获得系统最优控制和最优性能指标函数。自适应动态规划结构主要包括动态系统、控制网络和评价网络。评价网络用于近似最优代价函数,并给出评价指导执行网络产生最优控制。执行网络输出作用于动态系统后通过动态系统不同阶段产生的奖励/惩罚来影响评价网络,知道执行网络更新控制策略,使得总体代价(即奖励/惩罚的总和)达到最优。
Q函数自适应动态规划方法不依赖系统模型,而是基于实时产生的系统状态和相应的控制动作来调整控制器和评价器神经网络的权重。最终,Q函数自适应动态规划方法能够在线运行并使得控制器和评价器神经网络最终迭代收敛到最优控制策略和最优性能指标函数。特别适用于线性或非线性离散系统的在线求解最优控制问题。
图1为本发明实施例应用的环境示意图,其示意性地示出了智能建筑室内房间的传热模型图。其中,Qn表示房间围护结构传入热量;Qglass表示通过玻璃窗直接进入的太阳辐射热量;Qp表示人体的散热量;Qair表示房间通过门窗从房间外渗透空气带入的热量;Qe表示室内设备散热量;Q0表示空调设备从房间去除的热量。智能建筑室内房间空气温度变化规律是房间在各种外扰、内扰以及建筑围护结构的热工特性等因素综合作用下的必然结果,这种温度变化规律是依赖于所处环境的系统实时状态的,也就是受房间空调制冷或制热量(控制策略)、围护结构传热特性(围护结构的材料特性)、通过玻璃直接进入房间的太阳辐射(其与时间密切相关)、通风与空气渗透传热(房间的门窗等结构的状态)、室内人员散热和设备散热以及照明散热(其为房间的主要内扰)等因素影响。
如图2所示,本发明实施例提供一种基于Q学习的智能楼宇温度控制方法,该方法可以包括步骤S1至步骤S5。
S1:对参数进行初始化,其中参数包括但不限于:建筑结构参数、建筑环境参数、神经网络权值、收敛精度以及温度目标参数。
其中,环境系统的实时状态由房间温变特征所建立的房间传热模型和实时的房间内外扰因素得出。
房间外扰因素包括:围护结构的传热、通风和室外空气渗透的传热、通过玻璃直接进入的太阳辐射等。
房间内扰因素包括:室内人员的散热、室内照明的散热、室内设备的散热以及空调的制冷制热。
房间传热模型可以通过热平衡方程建立。
利用房间传热模型,再结合房间内外扰因素可以获得一段时间的温度变化规律。
此外,还需要对以下参数进行初始化:智能楼宇内的温度控制器的实际温度和目标温度、全局迭代与局部迭代的次数、神经网络结构(诸如输入节点数量、隐层节点数量和输出层节点数量)。
示例地,设置评价网络的结构为2-10-1,其中2为评价网络的输入节点数量,10为评价网络隐层节点数量,1为评价网络输出层节点数量,隐层节点数量可根据经验进行调整以获得最佳的逼近效果,并且定义收敛精度为1.0×10-5
在执行阶段,本发明实施例使用简化的有限维控制变量,即设定有限的、固定的制冷或制热档次。
在实际应用中,房间外扰因素可根据当地的实际气候而定,其中的围护结构的传热参数参照实际建筑的具体参数;房间内扰也可以按照实际情况设定。空调的制冷制热可以按照不同的精度和效率需求,来选择不同的档次。
S2:进行全局迭代,根据迭代控制序列更新迭代性能指标函数,以获得最优性能指标函数。
具体地,根据控制器的Q学习方法要求,需要对评价网络进行权值初始化工作。
作为示例,在综合考虑了权值收敛速度与稳定性的情况下,在全局迭代之内,确定评价网络和控制网络的权值W1、W2在(-0.01,0.01)范围内随机初始化(采用随机方式进行初始化)得到。其中,W1为各网络的输入层节点与隐层节点之间的权值;W2为各网络的隐层节点与输出层节点之间的权值。
利用Q学习算法训练评价网络:评价网络的输入值包括:被控房间空气温度x(t)、智能楼宇内温度控制器的控制策略u(t),输出值是性能指标函数Q(t)。其中,性能指标函数简称为Q函数。最优控制策略u(t)由根据评价网络得到的性能指标函数近似而得到。
评价网络的权值初始化在全局迭代之内进行。优选地,可以在每次全局迭代开始时重新进行权值的初始化,从而在保证评价网络稳定性与收敛速度的基础上更好地保证评价网络的收敛,以便尽快找到智能楼宇内温度控制器的最优控制策略。
在执行阶段,评价网络的输入数据为被控房间空气温度x(t)和根据训练后的评价网络得到的最优控制策略u(t)。评价网络的输出数据为性能指标函数Q(t)。
具体地,可以通过以下方式得到性能指标函数Q(t):
根据Bellman方程,利用评价网络下一时刻的输出Q(t+1)与效用函数U(t)计算得到当前时刻的输出数据Q(t),计算公式如下:
Q ( x ( t ) , u ( t ) , t ) = L / ( x ( t ) , u ( t ) , t ) + min u ( t + 1 ) Q ( x ( t + 1 ) , u ( t + 1 ) , t + 1 )
利用全局迭代控制序列来更新全局迭代Q函数。
下面举例详细说明获得最优性能指标函数的过程。
设t表示任意时间;x(t)为t时刻归一化的房间空气温度与目标温度的差值;u(t)为t时刻归一化的空调输出热量值;则,智能建筑内房间温度变化函数可写成:
x(t+1)=F(x(t),u(t),t)
其中,F函数可由热平衡方程结合房间内外扰因素推导而出。
定义如下效用函数:
U(t)=α[x(t)]2+β[u(t)]2
其中,α与β为常数;u(t)为t时刻归一化的空调输出热量值,加热时为正值,降温时为负值;效用函数U(t)表示t时刻温度变化功率和空调功率的效用总和。
由于在一定时间段内,室内空气温度呈周期变化,周期为24小时,可定义新的效用函数为:
U ‾ ( x ( t ) , u ‾ ( t ) ) = Σ j = 0 23 U ( x ( t + j ) , u ( t + j ) )
其中,j表示小时数;x(t+j)表示(t+j)时刻的状态;u(t+j)表示(t+j)时刻的控制变量。
为了简化表达,记xk=x(k)。故,全局最优的Q函数可记为:
Q * ( x k , u ‾ k ) = U ‾ ( x k , u ‾ k ) + min u ‾ k + λ Q * ( x k + λ , u ‾ k + λ )
其中,λ=24。
全局最优的控制策略可以表示为:
u ‾ ( x k ) = arg m i n { Q * ( x k , u ‾ k ) }
令Ψ(x,u)为任意半正定函数,则定义初始全局迭代Q函数为:
Q 0 ( x , u ‾ ) = U ‾ ( x , u ‾ ) + m i n u ( t + 23 ) Ψ ( x ( t + 23 ) , u ( t + 23 ) )
全局迭代控制律序列可以按下式计算:
u ‾ 0 ( x ) = arg min u ‾ Q 0 ( x , u ‾ )
对于i=0,1,2,…,全局迭代算法将依据以下公式进行迭代:
u ‾ i ( x ) = arg min u ‾ Q i ( x , u ‾ )
Q i + 1 ( x , u ‾ ) = U ‾ ( x , u ‾ ) + m i n u ‾ ( t + 23 ) Q i ( x , u ‾ ) = U ‾ ( x , u ‾ ) + Q i ( x ( t + 23 ) , u ‾ i ( x ( t + 23 ) ) )
当i→∞时,会收敛于最优值。
S3:进行局部迭代,利用Q学习算法更新评价网络,并修正网络权值。
局部迭代的目标就是获得最优的
相对于全局迭代次数i=0,1,2,…,引入小时数j=0,1,…,23为局部迭代变量。
当i=0且j=0时,初始局部迭代性能指标为:
Q 0 0 ( x , u ) = Ψ ( x , u )
对于i=0且j=0,1,…,23,局部迭代Q函数可以表示为:
Q 0 j + 1 ( x ( t ) , u ( t ) ) = U ( x ( t ) , u ( t ) ) + min u ( t + 1 ) Q 0 j ( x ( t + 1 ) , u ( t + 1 ) )
对i=0,1,2,…,令则局部迭代Q函数可以表示为:
Q i j + 1 ( x ( t ) , u ( t ) ) = U ( x ( t ) , u ( t ) ) + min u ( t + 1 ) Q i j ( x ( t + 1 ) , u ( t + 1 ) )
以及j=0,1,…,23,定义局部迭代控制律为:
u i ( x , j ) = arg min u Q i j ( x , u )
因此,局部迭代将依据以下公式进行迭代:
Q i j + 1 ( x ( t ) , u ( t ) ) = U ( x ( t ) , u ( t ) ) + m i n u ( t + 1 ) Q i j ( x ( t + 1 ) , u ( t + 1 ) ) u i j ( x ) = arg min u Q i j ( x , u )
对于j=0,1,…,23,将局部迭代控制律进行组合,我们可以获得全局迭代控制律序列为:
u ‾ i ( x ) = { u i 0 ( x ) , u i 1 ( x ) , ... , u i 23 ( x ) }
当i→∞时,会收敛于最优值。
然后,更新评价网络的权值,以逼近最优性能指标函数。其中,更新规则如下:
Wcj(k+1)=Wcj(k)+ΔWcj(k)
ΔW c j ( k ) = l c [ - ∂ E c ( k ) ∂ W c j ( k ) ]
∂ E c ( k ) ∂ W c j ( k ) = [ - ∂ E c ( k ) ∂ J ^ ( k ) ∂ J ^ ( k ) ∂ W c j ( k ) ]
E c ( k ) = 1 2 [ e c ( k ) ] 2
e c ( k ) = J ^ ( k ) - U ( k + 1 ) - γ J ^ ( k + 1 )
其中,J(k)为评价网络的期望输出;为评价网络的实际输出;Ec(k)为定义的误差;Wcj(k)为评价网络的权值;lc为预设的学习率(通常不大于0.1);U(k+1)为k+1时刻的效用函数值;e(k)为误差表达式。
由于控制策略和性能指标函数是随着控制器、评价器神经网络的权重而改变的,所以,调整控制器、评价器神经网络的权重意味着控制策略和性能指标函数的更新。
在执行阶段,将有限的控制变量(即:所有固定的制冷或制热档次对应的变量值)代入由评价网络近似的最优性能指标函数中。
最优控制策略是根据评价网络得到的性能指标函数近似得到的,选择使最优性能指标函数最小的控制变量作为最优控制策略:
u i j ( x ) = arg min u Q i j ( x , u )
其中u∈Ω,Ω为全部有限个控制变量的集合。
评价网络用来近似最优性能指标函数,并利用该评价网络权值评测当前温度控制系统的性能,通过执行流程选择最优控制策略,最小化一次全局迭代的总成本。
S4:判断当前局部迭代是否完成,如果尚未完成,则返回局部迭代,否则,更新迭代性能指标函数和控制律,以获得最优性能指标函数和最优控制策略。
具体地,在完成局部迭代后,确定当前迭代次数是否达到迭代阈值,若是,更新迭代性能指标函数和控制律,以获得最优性能指标函数和最优控制策略。
如果尚未完成,则执行步骤S3;否则,执行步骤S5。
S5:判断当前全局迭代是否满足收敛精度,如果尚未完成,则返回全局迭代;否则,根据最优性能指标函数获得最优控制策略,并计算总成本(总消耗)。
其中,比较总成本等价于比较最优性能指标函数值。
总成本的计算需要将最优控制策略u*代入实际模型,这里由于效用函数U(x,u)的定义依赖于实际模型,所以总成本可近似为最终得到的最优性能指标函数Q*(x,u)。
本实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
需要说明的是,本文中涉及到的流程图不仅仅局限于本文所示的形式,其还可以进行划分和/或组合。
需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的保护范围。

Claims (8)

1.一种基于Q学习的智能楼宇温度控制方法,其特征在于,所述方法包括:
S1:初始化参数;
S2:进行全局迭代,根据迭代控制序列更新迭代性能指标函数,以获得最优性能指标函数;
S3:进行局部迭代,利用Q学习算法训练评价网络,修正所述评价网络的权值,并利用所述最优性能指标函数得到最优控制策略;
S4:判断当前局部迭代是否完成,如果尚未完成,则返回局部迭代步骤,否则更新迭代性能指标函数和控制律,以获得最优性能指标函数;
S5:判断当前全局迭代是否满足收敛精度,如果满足收敛精度,根据最优性能指标函数获得最优控制策略,并计算总成本。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,所述初始化参数包括:建筑结构参数、建筑环境参数、评价网络参数、收敛精度以及目标参数;其中,所述建筑环境参数为建筑的冷热负荷。
3.根据权利要求2所述的方法,其特征在于,设置所述评价网络的结构为2-10-1,并且定义收敛精度为1.0×10-5,其中,2为评价网络的输入节点数量,10为评价网络隐层节点数量,1为评价网络输出层节点数量。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2还包括:在(-0.01,0.01)范围内采用随机方式进行评价网络的权值初始化。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,所述评价网络的输入数据包括被控房间空气温度x(t)和温度控制器的控制策略u(t);所述评价网络的输出数据包括:性能指标函数Q(t);
根据Bellman方程,利用所述评价网络下一时刻的输出Q(t+1)与效用函数U(t),并通过以下公式计算当前时刻的输出数据Q(t):
Q ( x ( t ) , u ( t ) , t ) = U ( x ( t ) , u ( t ) , t ) + min u ( t + 1 ) Q ( x ( t + 1 ) , u ( t + 1 ) , t + 1 )
其中,x(t)为归一化的所述房间空气温度与目标温度的差值;效用函数U(t)表示t时刻温度变化功率和空调功率的效用总和。
6.根据权利要求5所述的方法,其特征在于,所述效用函数U(t)的计算公式为:
U(t)=α[x(t)]2+β[u(t)]2
其中,α与β为常数;u(t)为空调在当前时间段内的负荷,加热时为正值,降温时为负值。
7.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,所述评价网络的执行阶段的输入数据包括被控房间空气温度;所述评价网络的执行阶段的输出数据包括最优控制策略;其中,所述最优控制策略是根据所述评价网络得到的性能指标函数近似得到的。
8.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,所述评价网络的更新规则如下:
Wcj(k+1)=Wcj(k)+ΔWcj(k)
ΔW c j ( k ) = l c [ - ∂ E c ( k ) ∂ W c j ( k ) ]
∂ E c ( k ) ∂ W c j ( k ) = [ - ∂ E c ( k ) ∂ J ^ ( k ) ∂ J ^ ( k ) ∂ W c j ( k ) ]
E c ( k ) = 1 2 [ e c ( k ) ] 2
e c ( k ) = J ^ ( k ) - U ( k + 1 ) - γ J ^ ( k + 1 )
其中,J(k)为评价网络的期望输出,为评价网络的实际输出,Ec(k)为定义的误差,Wcj(k)为评价网络的权值。
CN201610221709.3A 2016-04-11 2016-04-11 基于q学习的智能楼宇温度控制方法 Active CN105843037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610221709.3A CN105843037B (zh) 2016-04-11 2016-04-11 基于q学习的智能楼宇温度控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610221709.3A CN105843037B (zh) 2016-04-11 2016-04-11 基于q学习的智能楼宇温度控制方法

Publications (2)

Publication Number Publication Date
CN105843037A true CN105843037A (zh) 2016-08-10
CN105843037B CN105843037B (zh) 2019-05-10

Family

ID=56597394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610221709.3A Active CN105843037B (zh) 2016-04-11 2016-04-11 基于q学习的智能楼宇温度控制方法

Country Status (1)

Country Link
CN (1) CN105843037B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193210A (zh) * 2017-05-08 2017-09-22 西北工业大学 一种非线性系统的自适应学习预设性能控制方法
CN107392465A (zh) * 2017-07-19 2017-11-24 北京上格云技术有限公司 建筑机电设备的运行管理方法和服务器
CN108073076A (zh) * 2017-12-22 2018-05-25 东软集团股份有限公司 车辆控制方法和装置
CN108844190A (zh) * 2018-06-20 2018-11-20 中国科学院自动化研究所 空调自学习最优控制系统
CN109884886A (zh) * 2019-03-29 2019-06-14 大连海事大学 一种基于宽度学习的船舶运动无模型自适应最优控制方法
CN110083064A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
CN110488888A (zh) * 2019-07-03 2019-11-22 太原理工大学 一种基于自适应迭代学习的电阻加热炉温度控制方法
CN113834200A (zh) * 2021-11-26 2021-12-24 深圳市愚公科技有限公司 基于强化学习模型的空气净化器调节方法及空气净化器
CN113885328A (zh) * 2021-10-18 2022-01-04 哈尔滨理工大学 一种基于积分强化学习的核电功率跟踪控制方法
CN114355767A (zh) * 2022-03-21 2022-04-15 青岛理工大学 基于q学习的养老建筑室内热环境的无模型控制方法
CN118640562A (zh) * 2024-08-09 2024-09-13 南京寻优能源技术有限公司 基于神经网络与mpc算法的洁净空调控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070098A1 (en) * 2007-01-02 2010-03-18 Volkmar Sterzing Method for the computer-aided regulation and/or control of a technical system, especially a gas turbine
CN103217899A (zh) * 2013-01-30 2013-07-24 中国科学院自动化研究所 基于数据的q函数自适应动态规划方法
CN103529699A (zh) * 2013-10-28 2014-01-22 中国科学院自动化研究所 一种煤气化炉系统的炉温自学习控制方法
CN204388288U (zh) * 2014-12-23 2015-06-10 北京经纬绿洲环境科技有限公司 楼宇温度控制系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070098A1 (en) * 2007-01-02 2010-03-18 Volkmar Sterzing Method for the computer-aided regulation and/or control of a technical system, especially a gas turbine
CN103217899A (zh) * 2013-01-30 2013-07-24 中国科学院自动化研究所 基于数据的q函数自适应动态规划方法
CN103529699A (zh) * 2013-10-28 2014-01-22 中国科学院自动化研究所 一种煤气化炉系统的炉温自学习控制方法
CN204388288U (zh) * 2014-12-23 2015-06-10 北京经纬绿洲环境科技有限公司 楼宇温度控制系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王海珍等: "智能办公环境中多Agent模糊Q学习研究", 《计算机工程与应用》 *
王海珍等: "智能办公环境温度控制方法", 《计算机应用》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193210A (zh) * 2017-05-08 2017-09-22 西北工业大学 一种非线性系统的自适应学习预设性能控制方法
CN107193210B (zh) * 2017-05-08 2020-10-16 西北工业大学 一种非线性系统的自适应学习预设性能控制方法
CN107392465A (zh) * 2017-07-19 2017-11-24 北京上格云技术有限公司 建筑机电设备的运行管理方法和服务器
CN107392465B (zh) * 2017-07-19 2021-05-07 北京上格云技术有限公司 建筑机电设备的运行管理方法和服务器
CN108073076B (zh) * 2017-12-22 2020-08-28 东软集团股份有限公司 车辆控制方法和装置
CN108073076A (zh) * 2017-12-22 2018-05-25 东软集团股份有限公司 车辆控制方法和装置
CN108844190A (zh) * 2018-06-20 2018-11-20 中国科学院自动化研究所 空调自学习最优控制系统
CN108844190B (zh) * 2018-06-20 2020-02-28 中国科学院自动化研究所 空调自学习最优控制系统
CN109884886A (zh) * 2019-03-29 2019-06-14 大连海事大学 一种基于宽度学习的船舶运动无模型自适应最优控制方法
CN110083064A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
CN110488888A (zh) * 2019-07-03 2019-11-22 太原理工大学 一种基于自适应迭代学习的电阻加热炉温度控制方法
CN110488888B (zh) * 2019-07-03 2020-11-27 太原理工大学 一种基于自适应迭代学习的电阻加热炉温度控制方法
CN113885328A (zh) * 2021-10-18 2022-01-04 哈尔滨理工大学 一种基于积分强化学习的核电功率跟踪控制方法
CN113834200A (zh) * 2021-11-26 2021-12-24 深圳市愚公科技有限公司 基于强化学习模型的空气净化器调节方法及空气净化器
CN114355767A (zh) * 2022-03-21 2022-04-15 青岛理工大学 基于q学习的养老建筑室内热环境的无模型控制方法
CN118640562A (zh) * 2024-08-09 2024-09-13 南京寻优能源技术有限公司 基于神经网络与mpc算法的洁净空调控制方法

Also Published As

Publication number Publication date
CN105843037B (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN105843037B (zh) 基于q学习的智能楼宇温度控制方法
Homod Analysis and optimization of HVAC control systems based on energy and performance considerations for smart buildings
KR102212663B1 (ko) 목표 온도를 기반으로 하는 빌딩의 열·공조 시스템에 대한 공급 전력 제어 방법 및 장치
Huang et al. A neural network-based multi-zone modelling approach for predictive control system design in commercial buildings
JP5572799B2 (ja) 空調システム制御装置
Homod et al. Dynamics analysis of a novel hybrid deep clustering for unsupervised learning by reinforcement of multi-agent to energy saving in intelligent buildings
Homod et al. Deep clustering of cooperative multi-agent reinforcement learning to optimize multi chiller HVAC systems for smart buildings energy management
CN112460741A (zh) 一种楼宇暖通空调系统控制方法
JP2024534272A (ja) シミュレーションの失敗を利用して産業システムモデルを較正するための較正システムおよび方法
Nishiguchi et al. Data-driven optimal control for building energy conservation
Park et al. Reinforcement learning for control of passive heating and cooling in buildings
Homod et al. Deep clustering of reinforcement learning based on the bang-bang principle to optimize the energy in multi-boiler for intelligent buildings
Liavoli et al. Sub-optimal observer-based controller design using the state dependent riccati equation approach for air-handling unit
Zemtsov et al. Economic MPC based on LPV model for thermostatically controlled loads
Blad et al. Control of hvac-systems using reinforcement learning with hysteresis and tolerance control
CN116227725A (zh) 一种建筑物空调系统的负荷预测方法、装置及电子设备
Li et al. Thermal comfort control based on MEC algorithm for HVAC systems
Mahdavi et al. A computational environment for performance-based building enclosure design and operation
Zhang et al. Energy Efficient Operation Optimization of Building Air-conditioners via Simulator-assisted Asynchronous Reinforcement Learning
Cui et al. An Online Reinforcement Learning Method for Multi-Zone Ventilation Control With Pre-Training
El Aoud et al. Intelligent control for a greenhouse climate
Burger et al. ARX model of a residential heating system with backpropagation parameter estimation algorithm
Kim et al. Model-based predictive control for buildings with decoupling and reduced-order modeling
Boutchich et al. A constrained model predictive control for the building thermal management with optimal setting design
Abdo-Allah Dynamic modeling and fuzzy logic control of a large building HVAC system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant