CN100413771C

CN100413771C - 基于cmac网络的群控电梯调度方法

Info

Publication number: CN100413771C
Application number: CNB200610040554XA
Authority: CN
Inventors: 高阳; 胡景凯
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2006-05-24
Filing date: 2006-05-24
Publication date: 2008-08-27
Anticipated expiration: 2026-05-24
Also published as: CN1857981A

Abstract

本发明公开了一种基于CMAC网络的群控电梯调度方法，其步骤为：(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数，然后触发电梯群控系统；(2)观察电梯状态计算得出Q(x，run)和Q(x，stop)；(3)选择电梯动作；(4)令电梯i的下一个决策点发生在t_y时刻，其相应的状态为y，更新所有电梯的获得R[i]值；(5)调节电梯I的Q(s，a)的估值；(6)根据式：更新CMAC网络权值；(7)将x←y，t_x←t_y..转至步骤1，从而实现群控电梯调度。本方法的显著优点是能有效地减少乘客平均等待时间，提高电梯调度的性能。

Description

基于CMAC网络的群控电梯调度方法

一、技术领域

本发明涉及一种电梯的调度方法，尤其涉及一种电梯群控调度方法。

二、背景技术

早期电梯控制采用单呼梯信号形式，随着计算机控制和智能技术的发展，由计算机统一管理一组电梯的呼叫和指令信号，根据系统设定的优化目标和建筑物中的实际交通状况，产生最优电梯调度策略，这就是目前常见的电梯群控系统，其调度的实质是在开放、动态的复杂环境中，对乘客候梯时间、乘客乘梯时间、拥挤度和能耗等多个优化目标进行优化控制。目前群控电梯调度方法主要涉及分区算法、基于搜索的算法和基于规则的算法等等。随着智能技术的发展，越来越多的研究者采用专家系统、模糊控制、人工神经网络以及遗传算法等技术研究自适应的学习算法。但由于电梯运行在一个连续时间系统中，其状态空间高维，同时外部状态不能完全感知且随乘客到达率变化而动态改变，因此有效计算电梯群控调度的最优策略仍然是研究界和产业界面临的主要难题之一。

考虑到电梯面临的实际环境是未知的、不确定的，而调度是针对顾客到达模型的在线优化。因此将强化学习(Reinforcement learning)技术应用到电梯群控调度中，通过仿真实验表明其方法与目前已有算方法相比，能够获得较小的顾客平均等待时间。

三、发明内容

1、发明目的：本发明的目的是提供一种可以减少乘客平均等待时间的高效电梯群控调度方法。

2、为了达到上述的发明目的，本发明包括下述步骤：

(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数，然后触发电梯群控系统，其中，静态参数为电梯数目和楼层数目，动态参数为层间运行时间、电梯停止/转向时间和乘客进出电梯时间，乘客到达模型参数为乘客到达时间分布，CMAC网络参数为输入节点、输出节点和泛化参数，强化学习参数为指数衰减速率β和学习率α；所述的CMAC网络即小脑模型关节控制器神经网络(CerebellarModel Articulation Controller Neural Network)，是一种根据小脑的生物模型提出的一种人工神经网络。

(2)设在t_x时刻电梯i到达一个决策点，观察得到状态为x，根据CMAC网络计算得出Q(x，run)和Q(x，stop)，其中，Q(x，run)为在x状态下电梯继续运行的Q值函数，Q(x，stop)为电梯停靠的Q值函数；

(3)根据以下公式选择动作a：

\Pr (stop) = \frac{e^{Q (x, run) / T}}{e^{Q (x, stop) / T} + e^{Q (x, run) / T}}

其中，T为温度参数且T＞0；

(4)令电梯i的下一个决策点发生在t_y时刻，其相应的状态为y，根据式

ΔR [i] = e^{- β (t_{0} - d [i])} \underset{b}{Σ} {\frac{2 λ_{b} (1 - e^{- p (t_{1} - t_{0})})}{β^{4}} + (\frac{2}{β^{3}} + \frac{2 w_{0} (b)}{β^{2}} + \frac{w_{0}^{2} (b)}{β})

- e^{- β (t_{1} - t_{0})} (\frac{2}{β^{3}} + \frac{2 w_{1} (b)}{β^{2}} + \frac{w_{1}^{2} (b)}{β}) + λ_{b} [(\frac{2 w_{0} (b)}{β^{3}} + \frac{w_{0}^{2} (b)}{β^{2}} + \frac{w_{0}^{3} (b)}{3 β}) -

e^{- β (t_{1} - t_{0})} (\frac{2 w_{1} (b)}{β^{3}} + \frac{w_{1}^{2} (b)}{β^{2}} + \frac{w_{1}^{3} (b)}{3 β})]}

更新所有电梯的获得R[i]值，其中，R[i]为第i部电梯从其上一次决策时间点d[i]时开始累计的总折扣强化值，t₀为上一事件发生的时间，t₁为当前事件发生的时间，对于每个在t₀和t₁之间有效的电梯呼叫键b而言，令w₀(b)和w₁(b)分别为t₀和t₁时刻按钮b按下后逝去的时间，式中β为指数衰减速率，λ为顾客的泊松到达率；

(5)电梯i根据式：

Q (x, a) &LeftArrow; R [i] + e^{- β (t_{v} - t_{x})} \min_{a^{'} &Element; {stop, cont}} Q_{cmac} (y, a^{'})

调节其Q(s，a)的估值；

(6)根据式：

\begin{matrix} ΔW = α [R [i] + e^{- β (t_{v} - t_{x})} \min_{a^{'} &Element; {stop, cont}} Q_{cmac} (y, a^{'} W) \\ - Q_{cmac} (x, a, W)] {&dtri;}_{W} Q_{cmac} (x, a, W) \end{matrix}

更新CMAC网络权值；

(7)将x←y，t_x←t_y..转至步骤1，从而实现群控电梯调度。

3、有益效果：其显著优点是能有效地减少乘客平均等待时间，提高电梯调度的性能。

表1仅含下行交通模式的对比实验结果

算法	AvgWait	SquaredWait	Percent＞60s
算法	AvgWait	SquaredWait	Percent＞60s	SECTOR	214	674	112
RL-BP	212	569	009	SECTOR	214	674	112
RL-BP	212	569	009	RL-CMAC	197	529	007

表2含上行交通模式的对比实验结果

算法	AvgWait	SquaredWait	Percent＞60s
算法	AvgWait	SquaredWait	Percent＞60s	SECTOR	273	1252	924
RL-BP	243	1140	990	SECTOR	273	1252	924
RL-BP	243	1140	990	RL-CMAC	218	1048	914

表3两倍上行交通的对比实验结果

算法	AvgWait	SquaredWait	Percent＞60s
算法	AvgWait	SquaredWait	Percent＞60s	SECTOR	303	1643	1350
RL-BP	278	1698	874	SECTOR	303	1643	1350
RL-BP	278	1698	874	RL-CMAC	234	1562	820

以上分别在三种交通模式下进行实验，实验表明基于CMAC网络的群控电梯调度算法相比采用基于BP网络强化学习的群控调度算法和经典的SECTOR算法，能够获得较小的顾客平均等待时间；同时顾客等待时间超过60s的比例大幅减小。

四、附图说明

图1是强化学习函数估计的结构图；

图2是CMAC神经网络结构示意图。

五、具体实施方式

如图1、图2所示，本实施例包括下列步骤：

(1)根据表4确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数，然后触发电梯群控系统；

表4实施例参数配置

(3)根据以下公式选择动作a：

\Pr (stop) = \frac{e^{Q (x, run) / T}}{e^{Q (x, stop) / T} + e^{Q (x, run) / T}}

其中，T为温度参数且T＞0；

ΔR [i] = e^{- β (t_{0} - d [i])} \underset{b}{Σ} {\frac{2 λ_{b} (1 - e^{- β (t_{1} - t_{0})})}{β^{4}} + (\frac{2}{β^{3}} + \frac{2 w_{0} (b)}{β^{2}} + \frac{w_{0}^{2} (b)}{β})

- e^{- β (t_{1} - t_{0})} (\frac{2}{β^{3}} + \frac{2 w_{1} (b)}{β^{2}} + \frac{w_{1}^{2} (b)}{β}) + λ_{b} [(\frac{2 w_{0} (b)}{β^{3}} + \frac{w_{0}^{2} (b)}{β^{2}} + \frac{w_{0}^{3} (b)}{3 β}) -

e^{- β (t_{1} - t_{0})} (\frac{2 w_{1} (b)}{β^{3}} + \frac{w_{1}^{2} (b)}{β^{2}} + \frac{w_{1}^{3} (b)}{3 β})]}

，更新所有电梯的获得R[i]值，其中，R[i]为第i部电梯从其上一次决策时间点d[i]时开始累计的总折扣强化值，t_θ为上一事件发生的时间，t₁为当前事件发生的时间，对于每个在t₀和t₁之间有效的电梯呼叫键b而言，令w0(b)和w1(b)分别为t₀和t₁时刻按钮b按下后逝去的时间，式中β为指数衰减速率，λ为顾客的泊松到达率；

(5)电梯i根据式：

Q (x, a) &LeftArrow; R [i] + e^{- β (t_{v} - t_{x})} \min_{a^{'} &Element; {stop, cont}} Q_{cmac} (y, a^{'})

调节其Q(s，a)的估值；

(6)根据式：

\begin{matrix} ΔW = α [R [i] + e^{- β (t_{v} - t_{x})} \min_{a^{'} &Element; {stop, cont}} Q_{cmac} (y, a^{'}, W) \\ - Q_{cmac} (x, a, W)] {&dtri;}_{W} Q_{cmac} (x, a, W) \end{matrix}

更新CMAC网络权值；

(7)将x←y，t_x←t_y..转至步骤1，从而实现群控电梯调度。

Claims

1. 一种基于CMAC网络的群控电梯调度方法，其特征在于，该方法包括以下步骤：

(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数，然后触发电梯群控系统，其中，静态参数为电梯数目和楼层数目，动态参数为层间运行时间、电梯停止/转向时间和乘客进出电梯时间，乘客到达模型参数为乘客到达时间分布，CMAC网络参数为输入节点、输出节点和泛化参数，强化学习参数为指数衰减速率β和学习率α；

(3)根据以下公式选择动作a：

\Pr (stop) = \frac{e^{Q (x, run) / T}}{e^{Q (x, stop) / T} + e^{Q (x, run) / T}}

其中，T为温度参数且T＞0；

ΔR [i] = e^{- β (t_{0} - d [i])} \underset{b}{Σ} {\frac{{2 λ}_{b} (1 - e^{- β (t_{1} - t_{0})})}{β^{4}} + (\frac{2}{β^{3}} + \frac{2 w_{0} (b)}{β^{2}} + \frac{w_{0}^{2} (b)}{β})

{- e}^{- β (t_{1} - t_{0})} (\frac{2}{β^{3}} + \frac{{2 w}_{1} (b)}{β^{2}} + \frac{w_{1}^{2} (b)}{β}) + λ_{b} [(\frac{{2 w}_{0} (b)}{β^{3}} + \frac{w_{0}^{2} (b)}{β^{2}} + \frac{w_{0}^{3} (b)}{3 β}) -

e^{- β (t_{1} - t_{0})} (\frac{{2 w}_{1} (b)}{β^{3}} + \frac{w_{1}^{2} (b)}{β^{2}} + \frac{w_{1}^{3} (b)}{3 β})]},

(5)电梯i根据式：

Q (x, a) &LeftArrow; R [i] + e^{- β (t_{y} - t_{x})} \min_{a^{'} &Element; {stop, cont}} Q_{cmac} (y, a^{'})

调节其Q(s，a)的估值；

(6)根据式：

ΔW = α [R [i] + e^{- β (t_{y} - t_{x})} \min_{a^{'} &Element; {stop, cont}} Q_{cmac} (y, a^{'}, W)

- Q_{cmac} (x, a, W)] {&dtri;}_{W} Q_{cmac} (x, a, W)

更新CMAC网络权值；

(7)将x←y，t_x←t_y..转至步骤1，从而实现群控电梯调度。