CN111753468B

CN111753468B - 基于深度强化学习的电梯系统自学习最优控制方法及系统

Info

Publication number: CN111753468B
Application number: CN202010599600.XA
Authority: CN
Inventors: 魏庆来; 王凌霄; 宋睿卓
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2021-09-07
Anticipated expiration: 2040-06-28
Also published as: CN111753468A

Abstract

本发明涉及一种基于深度强化学习的电梯系统自学习最优控制方法及系统，所述控制方法包括：建立运行模型和概率分布模型；对电梯系统的数据信息进行预处理，得到当前数据信息；根据当前数据信息进行全局迭代，通过多个异步线程迭代进行局部处理：针对每一异步线程，根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值；直至多线程迭代结束及全局迭代结束，根据动作评价网络的权值确定全局动作评价网络；根据全局动作评价网络得到最优的电梯控制策略，以确定平均等待时间。本发明在全局迭代过程中，通过多个异步线程迭代进行局部处理，确定动作评价网络的权值，通过自学习得到最优的电梯控制策略。

Description

基于深度强化学习的电梯系统自学习最优控制方法及系统

技术领域

本发明涉及智能优化控制技术领域，特别涉及一种基于深度强化学习的电梯系统自学习最优控制方法及系统。

背景技术

随着社会的发展进步，大量劳动人口流动到城市中进行工作，大中城市楼宇的人口密度达到了前所未有的高度。保证人员在楼宇内高效流动是维持楼宇正常运转的前提条件，而电梯系统对人员高效流动起到了极其重要的作用。电梯轿厢的数量、容量、运行速度和调度算法决定了电梯系统的效率，鉴于轿厢的数量、容量和运行速度或多或少地被楼宇硬件条件所限制，因此电梯调度算法成为了影响电梯效率的最主要因素。

研究者尝试用不同的途径探索最优解法，包括专家系统、模糊数学、遗传算法以及强化学习等，但是均无法实现电梯效率的优化控制。

发明内容

为了解决现有技术中的上述问题，即为了实现电梯系统的优化控制，本发明的目的在于提供一种基于深度强化学习的电梯系统自学习最优控制方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种基于深度强化学习的电梯系统自学习最优控制方法，所述控制方法包括：

建立当前电梯系统的运行模型和用户行为的概率分布模型；

基于约束条件及所述运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息；

根据当前数据信息进行全局迭代，且在全局迭代过程中，通过多个异步线程迭代进行局部处理：

针对每一异步线程，根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值；

直至多线程迭代结束及全局迭代结束，根据动作评价网络的权值确定全局动作评价网络；

根据全局动作评价网络得到最优的电梯控制策略，以确定平均等待时间。

优选地，所述用户行为包括上行高峰、下行高峰、午餐高峰以及随机运动；

上行高峰为用户从底层大厅进入，目标分布在各个楼层的活动模型；下行高峰为用户从各个楼层进入，目标为底层大厅的活动模型；午餐高峰为上行高峰和下行高峰的融合模式；随机运动为用户从随机楼层前往另一个随机楼层。

优选地，所述约束条件包括：

(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留；(2)在当前运行方向上全部的需求处理完毕之前，电梯不能更改运行方向；(3)电梯不能在满载的情况下继续接纳乘客；(4)当电梯停止某层并且有空余载荷时，目的方向和电梯运行方向相同的乘客总是会进入该电梯；

所述基于约束条件及所述运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息，具体包括：

基于所述运行模型和概率分布模型，确定当前电梯系统的外部输入信息，所述外部输入信息分为内呼请求信息和外呼请求信息；内呼请求信息包括每个乘客选择的楼层，外呼请求信息包括期望电梯运行的方向；

将外呼请求和内呼请求表示为矩阵形式，其中每个矩阵元素代表在该位置的乘客等待时间总和；其中，内呼请求矩阵仅仅包含电梯的内部信息，外呼请求矩阵含有全局信息；

将外呼请求矩阵的向量进行部分复制，最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵；

基于约束条件，根据电梯的方向和位置，将已经驶过位置上的状态值归零处理，得到当前数据信息。

优选地，所述根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值，具体包括：

根据当前数据信息，基于深度强化学习模块，确定针对当前电梯系统的价值函数和策略函数；所述策略函数中的最优策略用于确定最小化一次全局迭代内的平均等待时间；

根据所述价值函数和策略函数训练局部动作评价网络，并修正动作评价网络的权值。

优选地，所述深度强化学习模块包括多层卷积神经网络、长短期记忆神经网络，及均与多层卷积神经网络、长短期记忆神经网络连接的第一全连接网络及第二全连接网络；

其中，所述多层卷积神经网络用于从所述当前数据信息中提取电梯的空间特征信息；

所述长短期记忆神经网络用于处理电梯状态中存在的时序依赖，得到辅助决策信息；

所述第一全连接网络用于根据所述空间特征信息及辅助决策信息，确定电梯系统的策略函数；策略函数表示从动作空间中生成一个动作向量，动作向量的元素值与动作概率有关；

所述第二全连接网络于根据所述空间特征信息及辅助决策信息，确定电梯系统的价值函数；价值函数用于估计当前状态下的预期回报。

优选地，所述根据所述价值函数和策略函数训练局部动作评价网络，具体包括：

根据所述价值函数确定价值损失值函数；

其中，所述损失值函数为：(R_t-V(s_t；θ_v))²/2，R_t表示在t时刻的折扣累加回报，θ_v表示价值网络内的神经网络参数，V(s_t；θ_v)表示状态s_t在神经网络参数θ_v之下的价值输出，θ表示全局网络参数，V表示价值函数；

根据策略函数确定策略损失函数；

其中，所述策略损失函数为：-log(π(s；θ))×(R_t-V(s_t；θ_v))-β×H(π(s_t；θ))，π(s_t；θ)表示策略输出的概率分布，H(π(s_t；θ))为动作之间的熵值，β表示权重因子，用于调节公式中各项因子的权重比例；

根据所述价值损失值函数及策略损失函数，更新局部动作评价网络：

其中，dθ表示全局神经网络参数的微分、dθ_v表示价值神经网络参数的微分、

表示待更新全局神经网络参数的梯度、

表示价值神经网络参数的梯度、π(a_i|s_i；θ′)表示动作决策函数，a_i表示动作决策值、V(s_i；θ′_v)表示价值函数，θ'表示初始化工作线程的全局网络参数和θ_v'表示初始化工作线程的价值网络内的神经网络参数。

优选地，所述控制方法还包括：

对电梯系统的相关参数初始化，所述相关参数包括电梯运行速度、轿厢容量、楼层数量、电梯数量、楼层乘客分布、神经网络参数。

为解决上述技术问题，本发明还提供了如下方案：

一种基于深度强化学习的电梯系统自学习最优控制系统，所述控制系统包括：

建模单元，用于建立当前电梯系统的运行模型和用户行为的概率分布模型；

预处理单元，用于基于约束条件及所述运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息；

迭代单元，用于根据当前数据信息进行全局迭代，且在全局迭代过程中，通过多个异步线程迭代进行局部处理：

训练单元，用于针对每一异步线程，根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值；

第一确定单元，用于直至多线程迭代结束及全局迭代结束，根据动作评价网络的权值确定全局动作评价网络；

第二确定单元，用于根据全局动作评价网络得到最优的电梯控制策略，以确定平均等待时间。

为解决上述技术问题，本发明还提供了如下方案：

一种基于深度强化学习的电梯系统自学习最优控制系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

建立当前电梯系统的运行模型和用户行为的概率分布模型；

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

建立当前电梯系统的运行模型和用户行为的概率分布模型；

根据全局动作评价网络得到最优的电梯控制策略，以确定平均等待时间

根据本发明的实施例，本发明公开了以下技术效果：

本发明基于约束条件、运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息，并进一步根据当前数据信息进行全局迭代，且在全局迭代过程中，通过多个异步线程迭代进行局部处理，确定动作评价网络的权值，通过自学习得到最优的电梯控制策略，以确定平均等待时间。

附图说明

图1是本发明基于深度强化学习的电梯系统自学习最优控制方法的流程图；

图2是本发明基于深度强化学习的电梯系统自学习最优控制方法的一实施例示意图；

图3是本发明基于深度强化学习的电梯系统自学习最优控制系统的模块结构示意图。

符号说明：

建模单元—1，预处理单元—2，迭代单元—3，训练单元—4，第一确定单元—5，第二确定单元—6。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种基于深度强化学习的电梯系统自学习最优控制方法，基于约束条件、运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息，并进一步根据当前数据信息进行全局迭代，且在全局迭代过程中，通过多个异步线程迭代进行局部处理，确定动作评价网络的权值，通过自学习得到最优的电梯控制策略，以确定平均等待时间。。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于深度强化学习的电梯系统自学习最优控制方法包括：

步骤100：建立当前电梯系统的运行模型和用户行为的概率分布模型；

步骤200：基于约束条件及所述运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息；

步骤300：根据当前数据信息进行全局迭代，且在全局迭代过程中，通过多个异步线程迭代进行局部处理：

步骤400：针对每一异步线程，根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值；

步骤500：直至多线程迭代结束及全局迭代结束，根据动作评价网络的权值确定全局动作评价网络；

步骤600：根据全局动作评价网络得到最优的电梯控制策略，以确定平均等待时间。

其中，所述用户行为包括上行高峰、下行高峰、午餐高峰以及随机运动。

上行高峰为用户从底层大厅进入，目标分布在各个楼层的活动模型；下行高峰为用户从各个楼层进入，目标为底层大厅的活动模型；午餐高峰为上行高峰和下行高峰的融合模式；随机运动为用户从随机楼层前往另一个随机楼层，不存在大规模运动趋势。通过调整用户行为概率分布参数，包括上行比例、下行比例和层间移动比例等，构建更细致、更多样化的用户行为模型。

在步骤200中，为了让系统的模拟过程更加真实，电梯的调度过程中增加了四个约束条件，这些限制/规则都是基于乘客心理和期望。

具体地，所述约束条件包括：

(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留；(2)在当前运行方向上全部的需求处理完毕之前，电梯不能更改运行方向；(3)电梯不能在满载的情况下继续接纳乘客；(4)当电梯停止某层并且有空余载荷时，目的方向和电梯运行方向相同的乘客总是会进入该电梯。

进一步地，所述基于约束条件及所述运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息，具体包括：

步骤210：基于所述运行模型和概率分布模型，确定当前电梯系统的外部输入信息，所述外部输入信息分为内呼请求信息和外呼请求信息；内呼请求信息包括每个乘客选择的楼层，外呼请求信息包括期望电梯运行的方向。

步骤220：将外呼请求和内呼请求表示为矩阵形式，其中每个矩阵元素代表在该位置的乘客等待时间总和。其中，内呼请求矩阵仅仅包含电梯的内部信息，外呼请求矩阵含有全局信息。

对于N×M的内呼请求矩阵A，矩阵元素a_ij代表着在第j个电梯中期望去往第i层的乘客们的等待时间总和；对于N×2的外呼请求矩阵B，矩阵元素b_ij代表在第i层上希望往上/下方向的乘客们的等待时间总和(具体取决于j值)。

步骤230：将外呼请求矩阵的向量进行部分复制，最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵。

步骤240：基于约束条件，根据电梯的方向和位置，将已经驶过位置上的状态值归零处理，得到当前数据信息。

考虑到上述几个约束条件(特别是电梯在未完成当前方向上的任务之前无法调转方向)，状态信息中可以删除逆方向上的信息，这也会提高数据处理的效率。因此，可根据电梯的方向和位置，将已经驶过位置上的状态值归零处理。

对于M梯的建筑，这里用M维向量作为输出，其中每个元素表示对应电梯的目标楼层。如果电梯尚未到达目标层，而电梯系统做出了新的决策，那么电梯的目标楼层会更新为最新数据。

在步骤400中，所述根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值，具体包括：

步骤410：根据当前数据信息，基于深度强化学习模块，确定针对当前电梯系统的价值函数和策略函数。所述策略函数中的最优策略用于确定最小化一次全局迭代内的平均等待时间。

其中，深度强化学习模块为异步更新算法A3C模块(Asynchronous AdvantageActor-Critic)。

具体地，所述深度强化学习模块包括多层卷积神经网络、长短期记忆神经网络，及均与多层卷积神经网络、长短期记忆神经网络连接的第一全连接网络及第二全连接网络；

步骤420：根据所述价值函数和策略函数训练局部动作评价网络，并修正动作评价网络的权值。

其中，所述根据所述价值函数和策略函数训练局部动作评价网络，具体包括：

步骤421：根据所述价值函数确定价值损失值函数。

其中，所述损失值函数为：(R_t-V(s_t；θ_v))²/2，R_t表示在t时刻的折扣累加回报，θ_v表示价值网络内的神经网络参数，V(s_t；θ_v)表示状态s_t在神经网络参数θ_v之下的价值输出，θ表示全局网络参数，V表示价值函数。

步骤422：根据策略函数确定策略损失函数。

其中，所述策略损失函数为：-log(π(s；θ))×(R_t-V(s_t；θ_v))-β×H(π(s_t；θ))，π(s_t；θ)表示策略输出的概率分布，H(π(s_t；θ))为动作之间的熵值，β表示权重因子，用于调节公式中各项因子的权重比例。

步骤423：根据所述价值损失值函数及策略损失函数，更新局部动作评价网络：

表示待更新全局神经网络参数的梯度、

优选地，本发明基于深度强化学习的电梯系统自学习最优控制方法还包括：

下面结合图2详细说明本发明基于深度强化学习的电梯系统自学习最优控制方法：

S1、建立当前电梯系统的运行模型和用户行为的概率分布模型。

S2、对电梯系统的相关参数初始化，所述相关参数包括电梯运行速度、轿厢容量、楼层数量、电梯数量、楼层乘客分布、神经网络参数等。

S3、开启全局迭代，并对数据进行预处理和特征抽取。

S4、开启异步迭代，生成若干个异步训练线程，每个训练线程利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值。

其中局部动作评价网络用来抽取电梯状态特征，并利用该特征评测当前电梯控制系统的价值函数和策略函数。通过执行最优策略以最小化一次全局迭代内的平均等待时间。

经过预处理的状态信息被注入到深度强化学习模块中，即异步更新算法A3C模块。在A3C算法模块中，状态信息中的特征被多层卷积神经网络和全连接网络所提取。卷积神经网络用于提取楼层间的空间特征信息。长短期记忆神经网络被用于处理电梯状态中存在的时序依赖，以便让历史信息帮助当前的决策。为了保持长时间内的时序特征，本发明采用了LSTM循环神经网络。

在A3C算法模块的输出部分有两个不同的全连接神经网络，分别用于负责A3C的两个策略流(即策略函数)和价值流(即价值函数)。

策略流和价值流共同使用卷积网络和循环网络提取的特征信息。策略流负责从动作空间中生成一个动作向量，动作向量的元素值与动作概率有关；价值流用于估计当前状态下的预期回报，准确的说是在当前在下的期望回报累加。

针对价值函数输出值的优化目标是尽可能的减少价值损失值，价值损失函数为(R_t-V(s_t；θ_v))²/2，R_t表示在t时刻的折扣累加回报，θ_v表示价值网络内的神经网络参数，V(s_t；θ_v)表示状态s_t在神经网络参数θ_v之下的价值输出，θ表示全局网络参数，V表示价值函数，。

针对策略函数输出值的优化目标是减少策略损失，策略损失函数为-log(π(s；θ))×(R_t-V(s_t；θ_v))-β×H(π(s_t；θ))，其中，π(s_t；θ)表示策略输出的概率分布，H(π(s_t；θ))为动作之间的熵值，β表示权重因子，用于调节公式中各项因子的权重比例。

神经网络的更新公式为：

表示待更新全局神经网络参数的梯度、

S5、判断当前全局/异步迭代是否完成，如果尚未完成，则返回全局/异步迭代，否则更新全局/异步动作价值神经网络权值，以获得最优解；

S6、如果全局迭代完成，根据全局动作评估网络获得最优的电梯控制策略并计算平均等待时间。

基于数据的控制算法最大的优点是无模型控制。实际系统存在严重的非线性、不确定性、时变性等因素，在无法获得精确的数学模型的情形下，无模型自适应优化控制便能发挥自身的优势，克服理论模型与实际应用之间的矛盾，降低了对模型的要求并且有较好的综合控制效果。

进一步地，本发明还提供一种基于深度强化学习的电梯系统自学习最优控制系统，实现电梯系统的优化控制。如图3所示，本发明基于深度强化学习的电梯系统自学习最优控制系统包括建模单元1、预处理单元2、迭代单元3、训练单元4、第一确定单元5及第二确定单元6。

其中，所述建模单元1用于建立当前电梯系统的运行模型和用户行为的概率分布模型；

所述预处理单元2用于基于约束条件及所述运行模型和概率分布模型，对电梯系统的数据信息进行预处理，得到当前数据信息；

所述迭代单元3用于根据当前数据信息进行全局迭代，且在全局迭代过程中，通过多个异步线程迭代进行局部处理：

所述训练单元4用于针对每一异步线程，根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值；

所述第一确定单元5用于直至多线程迭代结束及全局迭代结束，根据动作评价网络的权值确定全局动作评价网络；

所述第二确定单元6用于根据全局动作评价网络得到最优的电梯控制策略，以确定平均等待时间。

此外，本发明还提供一种基于深度强化学习的电梯系统自学习最优控制系统，包括：

处理器；以及

建立当前电梯系统的运行模型和用户行为的概率分布模型；

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

建立当前电梯系统的运行模型和用户行为的概率分布模型；

相对于现有技术，本发明基于深度强化学习的电梯系统自学习最优控制系统、计算机可读存储介质与上述基于深度强化学习的电梯系统自学习最优控制方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于深度强化学习的电梯系统自学习最优控制方法，其特征在于，所述控制方法包括：

建立当前电梯系统的运行模型和用户行为的概率分布模型；

其中，所述约束条件包括：

将外呼请求和内呼请求表示为矩阵形式，其中对于N×M的内呼请求矩阵A，矩阵元素a_ij代表在第j个电梯中期望去往第i层的乘客们的等待时间总和；对于N×2的外呼请求矩阵B，矩阵元素b_ij代表在第i层上希望往上/下方向的乘客们的等待时间总和；其中，内呼请求矩阵仅仅包含电梯的内部信息，外呼请求矩阵含有全局信息；

基于约束条件，根据电梯的方向和位置，将已经驶过位置上的状态值归零处理，得到当前数据信息；

2.根据权利要求1所述的基于深度强化学习的电梯系统自学习最优控制方法，其特征在于，所述用户行为包括上行高峰、下行高峰、午餐高峰以及随机运动；

3.根据权利要求1所述的基于深度强化学习的电梯系统自学习最优控制方法，其特征在于，所述根据当前数据信息，利用深度强化学习训练局部动作评价网络，并修正动作评价网络的权值，具体包括：

4.根据权利要求3所述的基于深度强化学习的电梯系统自学习最优控制方法，其特征在于，所述深度强化学习模块包括多层卷积神经网络、长短期记忆神经网络，及均与多层卷积神经网络、长短期记忆神经网络连接的第一全连接网络及第二全连接网络；

5.根据权利要求4所述的基于深度强化学习的电梯系统自学习最优控制方法，其特征在于，所述根据所述价值函数和策略函数训练局部动作评价网络，具体包括：

根据所述价值函数确定价值损失值函数；

其中，所述损失值函数为：(R_t-V(s_t；θ_v))²/2，R_t表示在t时刻的折扣累加回报，θ_v表示价值网络内的神经网络参数，V()为价值函数，V(s_t；θ_v)表示状态s_t在神经网络参数θ_v之下的价值输出，θ表示全局网络参数；

根据策略函数确定策略损失函数；

其中，所述策略损失函数为：

-log(π(s_t；θ))×(R_t-V(s_t；θ_v))-β×H(π(s_t；θ))，

π(s_t；θ)表示策略输出的概率分布，H(π(s_t；θ))为动作之间的熵值，β表示权重因子，用于调节公式中各项因子的权重比例；

表示待更新全局神经网络参数的梯度、

表示价值神经网络参数的梯度、π(a_i|s_i；θ′)表示动作决策函数，a_i表示动作决策值，θ'表示初始化工作线程的全局网络参数和θ_v'表示初始化工作线程的价值网络内的神经网络参数，V(s_i；θ′_v)表示状态s_i在初始化工作线程的价值网络内的神经网络参数θ_v'之下的价值输出。

6.根据权利要求1-5中任一项所述的基于深度强化学习的电梯系统自学习最优控制方法，其特征在于，所述控制方法还包括：

7.一种基于深度强化学习的电梯系统自学习最优控制系统，其特征在于，所述控制系统包括：

其中，所述约束条件包括：

将外呼请求和内呼请求表示为矩阵形式，其中对于N×M的内呼请求矩阵A，矩阵元素a_ij代表着在第j个电梯中期望去往第i层的乘客们的等待时间总和；对于N×2的外呼请求矩阵B，矩阵元素b_ij代表在第i层上希望往上/下方向的乘客们的等待时间总和；其中，内呼请求矩阵仅仅包含电梯的内部信息，外呼请求矩阵含有全局信息；

8.一种基于深度强化学习的电梯系统自学习最优控制系统，包括：

处理器；以及

建立当前电梯系统的运行模型和用户行为的概率分布模型；

其中，所述约束条件包括：

9.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

建立当前电梯系统的运行模型和用户行为的概率分布模型；

其中，所述约束条件包括：