CN105843037A

CN105843037A - 基于q学习的智能楼宇温度控制方法

Info

Publication number: CN105843037A
Application number: CN201610221709.3A
Authority: CN
Inventors: 魏庆来; 李本凯; 刘德荣
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-08-10
Anticipated expiration: 2036-04-11
Also published as: CN105843037B

Abstract

本发明公开了一种基于Q学习的智能楼宇温度控制方法，包括：相关参数初始化；开启全局迭代，初始化评价网络权值；开启局部迭代，利用Q学习算法训练评价网络，修正网络权值，其中评价网络用来近似最优性能指标函数，并利用该评价网络权值评测当前温度控制系统的性能，通过执行流程选择最优控制策略，最小化一次全局迭代的总成本；判断当前局部迭代是否完成，若否，则返回局部迭代，否则更新迭代性能指标函数和控制律，以获得最优解；判断当前全局迭代是否满足收敛精度，若否，则返回全局迭代，否则根据最优性能指标函数获得最优控制策略，并计算总成本。由此，本发明可以不断地学习、调整和适应外界环境在未来的不确定的变化以提高系统的性能。

Description

基于Q学习的智能楼宇温度控制方法

技术领域

本发明实施例涉及智能楼宇温度控制技术领域，尤其是涉及一种基于Q学习的智能楼宇温度控制方法。

背景技术

智能楼宇是将建筑、计算机、自动化等先进科学技术相互融合、合理集成为的最优化的整体，具有合理的工程投资、高度自动化的设备、科学的信息管理、高效优质的服务、灵活方便的使用效果和安全舒适环境等特点。智能楼宇的能耗管理成为焦点，其中通过空调对温度的控制来降低能耗显得尤为重要。

有鉴于此，特提出本发明。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的一种基于Q学习的智能楼宇温度控制方法。

为了实现上述目的，根据本发明的一个方面，提供了以下技术方案：

一种基于Q学习的智能楼宇温度控制方法，所述方法包括：

S1：初始化参数；

S2：进行全局迭代，根据迭代控制序列更新迭代性能指标函数，以获得最优性能指标函数；

S3：进行局部迭代，利用Q学习算法训练评价网络，修正所述评价网络的权值，并利用所述最优性能指标函数得到最优控制策略；

S4：判断当前局部迭代是否完成，如果尚未完成，则返回局部迭代步骤，否则更新迭代性能指标函数和控制律，以获得最优性能指标函数；

S5：判断当前全局迭代是否满足收敛精度，如果满足所述收敛精度，则根据所述最优性能指标函数获得最优控制策略，并计算总成本。

与现有技术相比，上述技术方案至少具有以下有益效果：

本发明实施例通过神经网络构建的基于自适应动态规划算法的自学习温度控制器，能够通过实时的操作而不断地学习、调整和适应外界环境在未来的不确定的变化以提高系统的性能，能够适应不同建筑不同环境的系统。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1为根据一示例性实施例示出的房间传热模型示意图；

图2为根据一示例性实施例示出的基于Q学习的智能楼宇温度控制方法的流程示意图。

具体实施方式

为了更清楚地说明本发明的目的、技术方案和优点，以下结合具体实例，并参照附图，对本发明作进一步的详细说明。

自适应动态规划自20世纪80年代提出来，得到了快速的发展。它主要是用来解决动态规划问题，尤其是在求解最优控制方面表现了巨大的优势。自适应动态规划方法一般使用控制器-评价器(actor-critic)结构和神经网络，用来逼近性能指标函数和控制策略，采用迭代的方法逐步逼近，最终收敛到最优性能指标函数和最优控制策略。

自适应动态规划方法利用函数近似结构(如：神经网络)逼近动态规划方程中的性能指标函数和控制策略以满足最优化原理，从而获得系统最优控制和最优性能指标函数。自适应动态规划结构主要包括动态系统、控制网络和评价网络。评价网络用于近似最优代价函数，并给出评价指导执行网络产生最优控制。执行网络输出作用于动态系统后通过动态系统不同阶段产生的奖励/惩罚来影响评价网络，知道执行网络更新控制策略，使得总体代价(即奖励/惩罚的总和)达到最优。

Q函数自适应动态规划方法不依赖系统模型，而是基于实时产生的系统状态和相应的控制动作来调整控制器和评价器神经网络的权重。最终，Q函数自适应动态规划方法能够在线运行并使得控制器和评价器神经网络最终迭代收敛到最优控制策略和最优性能指标函数。特别适用于线性或非线性离散系统的在线求解最优控制问题。

图1为本发明实施例应用的环境示意图，其示意性地示出了智能建筑室内房间的传热模型图。其中，Q_n表示房间围护结构传入热量；Q_glass表示通过玻璃窗直接进入的太阳辐射热量；Q_p表示人体的散热量；Q_air表示房间通过门窗从房间外渗透空气带入的热量；Q_e表示室内设备散热量；Q₀表示空调设备从房间去除的热量。智能建筑室内房间空气温度变化规律是房间在各种外扰、内扰以及建筑围护结构的热工特性等因素综合作用下的必然结果，这种温度变化规律是依赖于所处环境的系统实时状态的，也就是受房间空调制冷或制热量(控制策略)、围护结构传热特性(围护结构的材料特性)、通过玻璃直接进入房间的太阳辐射(其与时间密切相关)、通风与空气渗透传热(房间的门窗等结构的状态)、室内人员散热和设备散热以及照明散热(其为房间的主要内扰)等因素影响。

如图2所示，本发明实施例提供一种基于Q学习的智能楼宇温度控制方法，该方法可以包括步骤S1至步骤S5。

S1：对参数进行初始化，其中参数包括但不限于：建筑结构参数、建筑环境参数、神经网络权值、收敛精度以及温度目标参数。

其中，环境系统的实时状态由房间温变特征所建立的房间传热模型和实时的房间内外扰因素得出。

房间外扰因素包括：围护结构的传热、通风和室外空气渗透的传热、通过玻璃直接进入的太阳辐射等。

房间内扰因素包括：室内人员的散热、室内照明的散热、室内设备的散热以及空调的制冷制热。

房间传热模型可以通过热平衡方程建立。

利用房间传热模型，再结合房间内外扰因素可以获得一段时间的温度变化规律。

此外，还需要对以下参数进行初始化：智能楼宇内的温度控制器的实际温度和目标温度、全局迭代与局部迭代的次数、神经网络结构(诸如输入节点数量、隐层节点数量和输出层节点数量)。

示例地，设置评价网络的结构为2-10-1，其中2为评价网络的输入节点数量，10为评价网络隐层节点数量，1为评价网络输出层节点数量，隐层节点数量可根据经验进行调整以获得最佳的逼近效果，并且定义收敛精度为1.0×10^-5。

在执行阶段，本发明实施例使用简化的有限维控制变量，即设定有限的、固定的制冷或制热档次。

在实际应用中，房间外扰因素可根据当地的实际气候而定，其中的围护结构的传热参数参照实际建筑的具体参数；房间内扰也可以按照实际情况设定。空调的制冷制热可以按照不同的精度和效率需求，来选择不同的档次。

S2：进行全局迭代，根据迭代控制序列更新迭代性能指标函数，以获得最优性能指标函数。

具体地，根据控制器的Q学习方法要求，需要对评价网络进行权值初始化工作。

作为示例，在综合考虑了权值收敛速度与稳定性的情况下，在全局迭代之内，确定评价网络和控制网络的权值W₁、W₂在(-0.01，0.01)范围内随机初始化(采用随机方式进行初始化)得到。其中，W₁为各网络的输入层节点与隐层节点之间的权值；W₂为各网络的隐层节点与输出层节点之间的权值。

利用Q学习算法训练评价网络：评价网络的输入值包括：被控房间空气温度x(t)、智能楼宇内温度控制器的控制策略u(t)，输出值是性能指标函数Q(t)。其中，性能指标函数简称为Q函数。最优控制策略u(t)由根据评价网络得到的性能指标函数近似而得到。

评价网络的权值初始化在全局迭代之内进行。优选地，可以在每次全局迭代开始时重新进行权值的初始化，从而在保证评价网络稳定性与收敛速度的基础上更好地保证评价网络的收敛，以便尽快找到智能楼宇内温度控制器的最优控制策略。

在执行阶段，评价网络的输入数据为被控房间空气温度x(t)和根据训练后的评价网络得到的最优控制策略u(t)。评价网络的输出数据为性能指标函数Q(t)。

具体地，可以通过以下方式得到性能指标函数Q(t)：

根据Bellman方程，利用评价网络下一时刻的输出Q(t+1)与效用函数U(t)计算得到当前时刻的输出数据Q(t)，计算公式如下：

Q (x (t), u (t), t) = L / (x (t), u (t), t) + \min_{u (t + 1)} Q (x (t + 1), u (t + 1), t + 1)

利用全局迭代控制序列来更新全局迭代Q函数。

下面举例详细说明获得最优性能指标函数的过程。

设t表示任意时间；x(t)为t时刻归一化的房间空气温度与目标温度的差值；u(t)为t时刻归一化的空调输出热量值；则，智能建筑内房间温度变化函数可写成：

x(t+1)＝F(x(t),u(t),t)

其中，F函数可由热平衡方程结合房间内外扰因素推导而出。

定义如下效用函数：

U(t)＝α[x(t)]²+β[u(t)]²

其中，α与β为常数；u(t)为t时刻归一化的空调输出热量值，加热时为正值，降温时为负值；效用函数U(t)表示t时刻温度变化功率和空调功率的效用总和。

由于在一定时间段内，室内空气温度呈周期变化，周期为24小时，可定义新的效用函数为：

\overset{&OverBar;}{U} (x (t), \overset{&OverBar;}{u} (t)) = Σ_{j = 0}^{23} U (x (t + j), u (t + j))

其中，j表示小时数；x(t+j)表示(t+j)时刻的状态；u(t+j)表示(t+j)时刻的控制变量。

为了简化表达，记x_k＝x(k)。故，全局最优的Q函数可记为：

Q^{*} (x_{k}, {\overset{&OverBar;}{u}}_{k}) = \overset{&OverBar;}{U} (x_{k}, {\overset{&OverBar;}{u}}_{k}) + \min_{{\overset{&OverBar;}{u}}_{k + λ}} Q^{*} (x_{k + λ}, {\overset{&OverBar;}{u}}_{k + λ})

其中，λ＝24。

全局最优的控制策略可以表示为：

\overset{&OverBar;}{u} (x_{k}) = \arg m i n {Q^{*} (x_{k}, {\overset{&OverBar;}{u}}_{k})}

令Ψ(x,u)为任意半正定函数，则定义初始全局迭代Q函数为：

Q_{0} (x, \overset{&OverBar;}{u}) = \overset{&OverBar;}{U} (x, \overset{&OverBar;}{u}) + \underset{u (t + 23)}{m i n} Ψ (x (t + 23), u (t + 23))

全局迭代控制律序列可以按下式计算：

{\overset{&OverBar;}{u}}_{0} (x) = \arg \min_{\overset{&OverBar;}{u}} Q_{0} (x, \overset{&OverBar;}{u})

对于i＝0,1,2,…，全局迭代算法将依据以下公式进行迭代：

{\overset{&OverBar;}{u}}_{i} (x) = \arg \min_{\overset{&OverBar;}{u}} Q_{i} (x, \overset{&OverBar;}{u})

\begin{matrix} Q_{i + 1} (x, \overset{&OverBar;}{u}) = \overset{&OverBar;}{U} (x, \overset{&OverBar;}{u}) + \underset{\overset{&OverBar;}{u} (t + 23)}{m i n} Q_{i} (x, \overset{&OverBar;}{u}) \\ = \overset{&OverBar;}{U} (x, \overset{&OverBar;}{u}) + Q_{i} (x (t + 23), {\overset{&OverBar;}{u}}_{i} (x (t + 23))) \end{matrix}

当i→∞时，会收敛于最优值。

S3：进行局部迭代，利用Q学习算法更新评价网络，并修正网络权值。

局部迭代的目标就是获得最优的

相对于全局迭代次数i＝0,1,2,…，引入小时数j＝0,1,…,23为局部迭代变量。

当i＝0且j＝0时，初始局部迭代性能指标为：

Q_{0}^{0} (x, u) = Ψ (x, u)

对于i＝0且j＝0,1,…,23，局部迭代Q函数可以表示为：

Q_{0}^{j + 1} (x (t), u (t)) = U (x (t), u (t)) + \min_{u (t + 1)} Q_{0}^{j} (x (t + 1), u (t + 1))

对i＝0,1,2,…，令则局部迭代Q函数可以表示为：

Q_{i}^{j + 1} (x (t), u (t)) = U (x (t), u (t)) + \min_{u (t + 1)} Q_{i}^{j} (x (t + 1), u (t + 1))

对以及j＝0,1,…,23，定义局部迭代控制律为：

u_{i} (x, j) = \arg \min_{u} Q_{i}^{j} (x, u)

因此，局部迭代将依据以下公式进行迭代：

\begin{matrix} Q_{i}^{j + 1} (x (t), u (t)) = U (x (t), u (t)) + \underset{u (t + 1)}{m i n} Q_{i}^{j} (x (t + 1), u (t + 1)) \\ u_{i}^{j} (x) = \arg \min_{u} Q_{i}^{j} (x, u) \end{matrix}

对于j＝0,1,…,23，将局部迭代控制律进行组合，我们可以获得全局迭代控制律序列为：

{\overset{&OverBar;}{u}}_{i} (x) = {u_{i}^{0} (x), u_{i}^{1} (x), ..., u_{i}^{23} (x)}

当i→∞时，会收敛于最优值。

然后，更新评价网络的权值，以逼近最优性能指标函数。其中，更新规则如下：

W_cj(k+1)＝W_cj(k)+ΔW_cj(k)

{ΔW}_{c j} (k) = l_{c} [- \frac{\partial E_{c} (k)}{\partial W_{c j} (k)}]

\frac{\partial E_{c} (k)}{\partial W_{c j} (k)} = [- \frac{\partial E_{c} (k)}{\partial \hat{J} (k)} \frac{\partial \hat{J} (k)}{\partial W_{c j} (k)}]

E_{c} (k) = \frac{1}{2} {[e_{c} (k)]}^{2}

e_{c} (k) = \hat{J} (k) - U (k + 1) - γ \hat{J} (k + 1)

其中，J(k)为评价网络的期望输出；为评价网络的实际输出；E_c(k)为定义的误差；W_cj(k)为评价网络的权值；l_c为预设的学习率(通常不大于0.1)；U(k+1)为k+1时刻的效用函数值；e(k)为误差表达式。

由于控制策略和性能指标函数是随着控制器、评价器神经网络的权重而改变的，所以，调整控制器、评价器神经网络的权重意味着控制策略和性能指标函数的更新。

在执行阶段，将有限的控制变量(即：所有固定的制冷或制热档次对应的变量值)代入由评价网络近似的最优性能指标函数中。

最优控制策略是根据评价网络得到的性能指标函数近似得到的，选择使最优性能指标函数最小的控制变量作为最优控制策略：

u_{i}^{j} (x) = \arg \min_{u} Q_{i}^{j} (x, u)

其中u∈Ω，Ω为全部有限个控制变量的集合。

评价网络用来近似最优性能指标函数，并利用该评价网络权值评测当前温度控制系统的性能，通过执行流程选择最优控制策略，最小化一次全局迭代的总成本。

S4：判断当前局部迭代是否完成，如果尚未完成，则返回局部迭代，否则，更新迭代性能指标函数和控制律，以获得最优性能指标函数和最优控制策略。

具体地，在完成局部迭代后，确定当前迭代次数是否达到迭代阈值，若是，更新迭代性能指标函数和控制律，以获得最优性能指标函数和最优控制策略。

如果尚未完成，则执行步骤S3；否则，执行步骤S5。

S5：判断当前全局迭代是否满足收敛精度，如果尚未完成，则返回全局迭代；否则，根据最优性能指标函数获得最优控制策略，并计算总成本(总消耗)。

其中，比较总成本等价于比较最优性能指标函数值。

总成本的计算需要将最优控制策略u^*代入实际模型，这里由于效用函数U(x,u)的定义依赖于实际模型，所以总成本可近似为最终得到的最优性能指标函数Q^*(x,u)。

本实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述，但是，上述实施例的说明仅适用于帮助理解本发明实施例的原理；同时，对于本领域技术人员来说，依据本发明实施例，在具体实施方式以及应用范围之内均会做出改变。

需要说明的是，本文中涉及到的流程图不仅仅局限于本文所示的形式，其还可以进行划分和/或组合。

需要说明的是：附图中的标记和文字只是为了更清楚地说明本发明，不视为对本发明保护范围的不当限定。

本发明并不限于上述实施方式，在不背离本发明实质内容的情况下，本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的保护范围。

Claims

1.一种基于Q学习的智能楼宇温度控制方法，其特征在于，所述方法包括：

S1：初始化参数；

S5：判断当前全局迭代是否满足收敛精度，如果满足收敛精度，根据最优性能指标函数获得最优控制策略，并计算总成本。

2.根据权利要求1所述的方法，其特征在于，在所述步骤S1中，所述初始化参数包括：建筑结构参数、建筑环境参数、评价网络参数、收敛精度以及目标参数；其中，所述建筑环境参数为建筑的冷热负荷。

3.根据权利要求2所述的方法，其特征在于，设置所述评价网络的结构为2-10-1，并且定义收敛精度为1.0×10^-5，其中，2为评价网络的输入节点数量，10为评价网络隐层节点数量，1为评价网络输出层节点数量。

4.根据权利要求1所述的方法，其特征在于，所述步骤S2还包括：在(-0.01,0.01)范围内采用随机方式进行评价网络的权值初始化。

5.根据权利要求1所述的方法，其特征在于，在所述步骤S3中，所述评价网络的输入数据包括被控房间空气温度x(t)和温度控制器的控制策略u(t)；所述评价网络的输出数据包括：性能指标函数Q(t)；

根据Bellman方程，利用所述评价网络下一时刻的输出Q(t+1)与效用函数U(t)，并通过以下公式计算当前时刻的输出数据Q(t)：

Q (x (t), u (t), t) = U (x (t), u (t), t) + \min_{u (t + 1)} Q (x (t + 1), u (t + 1), t + 1)

其中，x(t)为归一化的所述房间空气温度与目标温度的差值；效用函数U(t)表示t时刻温度变化功率和空调功率的效用总和。

6.根据权利要求5所述的方法，其特征在于，所述效用函数U(t)的计算公式为：

U(t)＝α[x(t)]²+β[u(t)]²

其中，α与β为常数；u(t)为空调在当前时间段内的负荷，加热时为正值，降温时为负值。

7.根据权利要求1所述的方法，其特征在于，在所述步骤S3中，所述评价网络的执行阶段的输入数据包括被控房间空气温度；所述评价网络的执行阶段的输出数据包括最优控制策略；其中，所述最优控制策略是根据所述评价网络得到的性能指标函数近似得到的。

8.根据权利要求1所述的方法，其特征在于，在所述步骤S3中，所述评价网络的更新规则如下：

W_cj(k+1)＝W_cj(k)+ΔW_cj(k)

{ΔW}_{c j} (k) = l_{c} [- \frac{\partial E_{c} (k)}{\partial W_{c j} (k)}]

\frac{\partial E_{c} (k)}{\partial W_{c j} (k)} = [- \frac{\partial E_{c} (k)}{\partial \hat{J} (k)} \frac{\partial \hat{J} (k)}{\partial W_{c j} (k)}]

E_{c} (k) = \frac{1}{2} {[e_{c} (k)]}^{2}

e_{c} (k) = \hat{J} (k) - U (k + 1) - γ \hat{J} (k + 1)

其中，J(k)为评价网络的期望输出，为评价网络的实际输出，E_c(k)为定义的误差，W_cj(k)为评价网络的权值。