CN111753468B - 基于深度强化学习的电梯系统自学习最优控制方法及系统 - Google Patents

基于深度强化学习的电梯系统自学习最优控制方法及系统 Download PDF

Info

Publication number
CN111753468B
CN111753468B CN202010599600.XA CN202010599600A CN111753468B CN 111753468 B CN111753468 B CN 111753468B CN 202010599600 A CN202010599600 A CN 202010599600A CN 111753468 B CN111753468 B CN 111753468B
Authority
CN
China
Prior art keywords
elevator
data information
global
information
call request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010599600.XA
Other languages
English (en)
Other versions
CN111753468A (zh
Inventor
魏庆来
王凌霄
宋睿卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010599600.XA priority Critical patent/CN111753468B/zh
Publication of CN111753468A publication Critical patent/CN111753468A/zh
Application granted granted Critical
Publication of CN111753468B publication Critical patent/CN111753468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B1/00Control systems of elevators in general
    • B66B1/02Control systems without regulation, i.e. without retroactive action
    • B66B1/06Control systems without regulation, i.e. without retroactive action electric
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B1/00Control systems of elevators in general
    • B66B1/34Details, e.g. call counting devices, data transmission from car to control system, devices giving information to the control system
    • B66B1/3415Control system configuration and the data transmission or communication within the control system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Elevator Control (AREA)

Abstract

本发明涉及一种基于深度强化学习的电梯系统自学习最优控制方法及系统,所述控制方法包括:建立运行模型和概率分布模型;对电梯系统的数据信息进行预处理,得到当前数据信息;根据当前数据信息进行全局迭代,通过多个异步线程迭代进行局部处理:针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。本发明在全局迭代过程中,通过多个异步线程迭代进行局部处理,确定动作评价网络的权值,通过自学习得到最优的电梯控制策略。

Description

基于深度强化学习的电梯系统自学习最优控制方法及系统
技术领域
本发明涉及智能优化控制技术领域,特别涉及一种基于深度强化学习的电梯系统自学习最优控制方法及系统。
背景技术
随着社会的发展进步,大量劳动人口流动到城市中进行工作,大中城市楼宇的人口密度达到了前所未有的高度。保证人员在楼宇内高效流动是维持楼宇正常运转的前提条件,而电梯系统对人员高效流动起到了极其重要的作用。电梯轿厢的数量、容量、运行速度和调度算法决定了电梯系统的效率,鉴于轿厢的数量、容量和运行速度或多或少地被楼宇硬件条件所限制,因此电梯调度算法成为了影响电梯效率的最主要因素。
研究者尝试用不同的途径探索最优解法,包括专家系统、模糊数学、遗传算法以及强化学习等,但是均无法实现电梯效率的优化控制。
发明内容
为了解决现有技术中的上述问题,即为了实现电梯系统的优化控制,本发明的目的在于提供一种基于深度强化学习的电梯系统自学习最优控制方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种基于深度强化学习的电梯系统自学习最优控制方法,所述控制方法包括:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
优选地,所述用户行为包括上行高峰、下行高峰、午餐高峰以及随机运动;
上行高峰为用户从底层大厅进入,目标分布在各个楼层的活动模型;下行高峰为用户从各个楼层进入,目标为底层大厅的活动模型;午餐高峰为上行高峰和下行高峰的融合模式;随机运动为用户从随机楼层前往另一个随机楼层。
优选地,所述约束条件包括:
(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留;(2)在当前运行方向上全部的需求处理完毕之前,电梯不能更改运行方向;(3)电梯不能在满载的情况下继续接纳乘客;(4)当电梯停止某层并且有空余载荷时,目的方向和电梯运行方向相同的乘客总是会进入该电梯;
所述基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,具体包括:
基于所述运行模型和概率分布模型,确定当前电梯系统的外部输入信息,所述外部输入信息分为内呼请求信息和外呼请求信息;内呼请求信息包括每个乘客选择的楼层,外呼请求信息包括期望电梯运行的方向;
将外呼请求和内呼请求表示为矩阵形式,其中每个矩阵元素代表在该位置的乘客等待时间总和;其中,内呼请求矩阵仅仅包含电梯的内部信息,外呼请求矩阵含有全局信息;
将外呼请求矩阵的向量进行部分复制,最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵;
基于约束条件,根据电梯的方向和位置,将已经驶过位置上的状态值归零处理,得到当前数据信息。
优选地,所述根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值,具体包括:
根据当前数据信息,基于深度强化学习模块,确定针对当前电梯系统的价值函数和策略函数;所述策略函数中的最优策略用于确定最小化一次全局迭代内的平均等待时间;
根据所述价值函数和策略函数训练局部动作评价网络,并修正动作评价网络的权值。
优选地,所述深度强化学习模块包括多层卷积神经网络、长短期记忆神经网络,及均与多层卷积神经网络、长短期记忆神经网络连接的第一全连接网络及第二全连接网络;
其中,所述多层卷积神经网络用于从所述当前数据信息中提取电梯的空间特征信息;
所述长短期记忆神经网络用于处理电梯状态中存在的时序依赖,得到辅助决策信息;
所述第一全连接网络用于根据所述空间特征信息及辅助决策信息,确定电梯系统的策略函数;策略函数表示从动作空间中生成一个动作向量,动作向量的元素值与动作概率有关;
所述第二全连接网络于根据所述空间特征信息及辅助决策信息,确定电梯系统的价值函数;价值函数用于估计当前状态下的预期回报。
优选地,所述根据所述价值函数和策略函数训练局部动作评价网络,具体包括:
根据所述价值函数确定价值损失值函数;
其中,所述损失值函数为:(Rt-V(st;θv))2/2,Rt表示在t时刻的折扣累加回报,θv表示价值网络内的神经网络参数,V(st;θv)表示状态st在神经网络参数θv之下的价值输出,θ表示全局网络参数,V表示价值函数;
根据策略函数确定策略损失函数;
其中,所述策略损失函数为:-log(π(s;θ))×(Rt-V(st;θv))-β×H(π(st;θ)),π(st;θ)表示策略输出的概率分布,H(π(st;θ))为动作之间的熵值,β表示权重因子,用于调节公式中各项因子的权重比例;
根据所述价值损失值函数及策略损失函数,更新局部动作评价网络:
Figure BDA0002558160590000041
Figure BDA0002558160590000042
其中,dθ表示全局神经网络参数的微分、dθv表示价值神经网络参数的微分、
Figure BDA0002558160590000043
表示待更新全局神经网络参数的梯度、
Figure BDA0002558160590000044
表示价值神经网络参数的梯度、π(ai|si;θ′)表示动作决策函数,ai表示动作决策值、V(si;θ′v)表示价值函数,θ'表示初始化工作线程的全局网络参数和θv'表示初始化工作线程的价值网络内的神经网络参数。
优选地,所述控制方法还包括:
对电梯系统的相关参数初始化,所述相关参数包括电梯运行速度、轿厢容量、楼层数量、电梯数量、楼层乘客分布、神经网络参数。
为解决上述技术问题,本发明还提供了如下方案:
一种基于深度强化学习的电梯系统自学习最优控制系统,所述控制系统包括:
建模单元,用于建立当前电梯系统的运行模型和用户行为的概率分布模型;
预处理单元,用于基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
迭代单元,用于根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
训练单元,用于针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
第一确定单元,用于直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
第二确定单元,用于根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
为解决上述技术问题,本发明还提供了如下方案:
一种基于深度强化学习的电梯系统自学习最优控制系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间
根据本发明的实施例,本发明公开了以下技术效果:
本发明基于约束条件、运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,并进一步根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理,确定动作评价网络的权值,通过自学习得到最优的电梯控制策略,以确定平均等待时间。
附图说明
图1是本发明基于深度强化学习的电梯系统自学习最优控制方法的流程图;
图2是本发明基于深度强化学习的电梯系统自学习最优控制方法的一实施例示意图;
图3是本发明基于深度强化学习的电梯系统自学习最优控制系统的模块结构示意图。
符号说明:
建模单元—1,预处理单元—2,迭代单元—3,训练单元—4,第一确定单元—5,第二确定单元—6。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种基于深度强化学习的电梯系统自学习最优控制方法,基于约束条件、运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,并进一步根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理,确定动作评价网络的权值,通过自学习得到最优的电梯控制策略,以确定平均等待时间。。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于深度强化学习的电梯系统自学习最优控制方法包括:
步骤100:建立当前电梯系统的运行模型和用户行为的概率分布模型;
步骤200:基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
步骤300:根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
步骤400:针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
步骤500:直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
步骤600:根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
其中,所述用户行为包括上行高峰、下行高峰、午餐高峰以及随机运动。
上行高峰为用户从底层大厅进入,目标分布在各个楼层的活动模型;下行高峰为用户从各个楼层进入,目标为底层大厅的活动模型;午餐高峰为上行高峰和下行高峰的融合模式;随机运动为用户从随机楼层前往另一个随机楼层,不存在大规模运动趋势。通过调整用户行为概率分布参数,包括上行比例、下行比例和层间移动比例等,构建更细致、更多样化的用户行为模型。
在步骤200中,为了让系统的模拟过程更加真实,电梯的调度过程中增加了四个约束条件,这些限制/规则都是基于乘客心理和期望。
具体地,所述约束条件包括:
(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留;(2)在当前运行方向上全部的需求处理完毕之前,电梯不能更改运行方向;(3)电梯不能在满载的情况下继续接纳乘客;(4)当电梯停止某层并且有空余载荷时,目的方向和电梯运行方向相同的乘客总是会进入该电梯。
进一步地,所述基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,具体包括:
步骤210:基于所述运行模型和概率分布模型,确定当前电梯系统的外部输入信息,所述外部输入信息分为内呼请求信息和外呼请求信息;内呼请求信息包括每个乘客选择的楼层,外呼请求信息包括期望电梯运行的方向。
步骤220:将外呼请求和内呼请求表示为矩阵形式,其中每个矩阵元素代表在该位置的乘客等待时间总和。其中,内呼请求矩阵仅仅包含电梯的内部信息,外呼请求矩阵含有全局信息。
对于N×M的内呼请求矩阵A,矩阵元素aij代表着在第j个电梯中期望去往第i层的乘客们的等待时间总和;对于N×2的外呼请求矩阵B,矩阵元素bij代表在第i层上希望往上/下方向的乘客们的等待时间总和(具体取决于j值)。
步骤230:将外呼请求矩阵的向量进行部分复制,最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵。
步骤240:基于约束条件,根据电梯的方向和位置,将已经驶过位置上的状态值归零处理,得到当前数据信息。
考虑到上述几个约束条件(特别是电梯在未完成当前方向上的任务之前无法调转方向),状态信息中可以删除逆方向上的信息,这也会提高数据处理的效率。因此,可根据电梯的方向和位置,将已经驶过位置上的状态值归零处理。
对于M梯的建筑,这里用M维向量作为输出,其中每个元素表示对应电梯的目标楼层。如果电梯尚未到达目标层,而电梯系统做出了新的决策,那么电梯的目标楼层会更新为最新数据。
在步骤400中,所述根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值,具体包括:
步骤410:根据当前数据信息,基于深度强化学习模块,确定针对当前电梯系统的价值函数和策略函数。所述策略函数中的最优策略用于确定最小化一次全局迭代内的平均等待时间。
其中,深度强化学习模块为异步更新算法A3C模块(Asynchronous AdvantageActor-Critic)。
具体地,所述深度强化学习模块包括多层卷积神经网络、长短期记忆神经网络,及均与多层卷积神经网络、长短期记忆神经网络连接的第一全连接网络及第二全连接网络;
其中,所述多层卷积神经网络用于从所述当前数据信息中提取电梯的空间特征信息;
所述长短期记忆神经网络用于处理电梯状态中存在的时序依赖,得到辅助决策信息;
所述第一全连接网络用于根据所述空间特征信息及辅助决策信息,确定电梯系统的策略函数;策略函数表示从动作空间中生成一个动作向量,动作向量的元素值与动作概率有关;
所述第二全连接网络于根据所述空间特征信息及辅助决策信息,确定电梯系统的价值函数;价值函数用于估计当前状态下的预期回报。
步骤420:根据所述价值函数和策略函数训练局部动作评价网络,并修正动作评价网络的权值。
其中,所述根据所述价值函数和策略函数训练局部动作评价网络,具体包括:
步骤421:根据所述价值函数确定价值损失值函数。
其中,所述损失值函数为:(Rt-V(st;θv))2/2,Rt表示在t时刻的折扣累加回报,θv表示价值网络内的神经网络参数,V(st;θv)表示状态st在神经网络参数θv之下的价值输出,θ表示全局网络参数,V表示价值函数。
步骤422:根据策略函数确定策略损失函数。
其中,所述策略损失函数为:-log(π(s;θ))×(Rt-V(st;θv))-β×H(π(st;θ)),π(st;θ)表示策略输出的概率分布,H(π(st;θ))为动作之间的熵值,β表示权重因子,用于调节公式中各项因子的权重比例。
步骤423:根据所述价值损失值函数及策略损失函数,更新局部动作评价网络:
Figure BDA0002558160590000111
Figure BDA0002558160590000112
其中,dθ表示全局神经网络参数的微分、dθv表示价值神经网络参数的微分、
Figure BDA0002558160590000113
表示待更新全局神经网络参数的梯度、
Figure BDA0002558160590000114
表示价值神经网络参数的梯度、π(ai|si;θ′)表示动作决策函数,ai表示动作决策值、V(si;θ′v)表示价值函数,θ'表示初始化工作线程的全局网络参数和θv'表示初始化工作线程的价值网络内的神经网络参数。
优选地,本发明基于深度强化学习的电梯系统自学习最优控制方法还包括:
对电梯系统的相关参数初始化,所述相关参数包括电梯运行速度、轿厢容量、楼层数量、电梯数量、楼层乘客分布、神经网络参数。
下面结合图2详细说明本发明基于深度强化学习的电梯系统自学习最优控制方法:
S1、建立当前电梯系统的运行模型和用户行为的概率分布模型。
S2、对电梯系统的相关参数初始化,所述相关参数包括电梯运行速度、轿厢容量、楼层数量、电梯数量、楼层乘客分布、神经网络参数等。
S3、开启全局迭代,并对数据进行预处理和特征抽取。
S4、开启异步迭代,生成若干个异步训练线程,每个训练线程利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值。
其中局部动作评价网络用来抽取电梯状态特征,并利用该特征评测当前电梯控制系统的价值函数和策略函数。通过执行最优策略以最小化一次全局迭代内的平均等待时间。
经过预处理的状态信息被注入到深度强化学习模块中,即异步更新算法A3C模块。在A3C算法模块中,状态信息中的特征被多层卷积神经网络和全连接网络所提取。卷积神经网络用于提取楼层间的空间特征信息。长短期记忆神经网络被用于处理电梯状态中存在的时序依赖,以便让历史信息帮助当前的决策。为了保持长时间内的时序特征,本发明采用了LSTM循环神经网络。
在A3C算法模块的输出部分有两个不同的全连接神经网络,分别用于负责A3C的两个策略流(即策略函数)和价值流(即价值函数)。
策略流和价值流共同使用卷积网络和循环网络提取的特征信息。策略流负责从动作空间中生成一个动作向量,动作向量的元素值与动作概率有关;价值流用于估计当前状态下的预期回报,准确的说是在当前在下的期望回报累加。
针对价值函数输出值的优化目标是尽可能的减少价值损失值,价值损失函数为(Rt-V(st;θv))2/2,Rt表示在t时刻的折扣累加回报,θv表示价值网络内的神经网络参数,V(st;θv)表示状态st在神经网络参数θv之下的价值输出,θ表示全局网络参数,V表示价值函数,。
针对策略函数输出值的优化目标是减少策略损失,策略损失函数为-log(π(s;θ))×(Rt-V(st;θv))-β×H(π(st;θ)),其中,π(st;θ)表示策略输出的概率分布,H(π(st;θ))为动作之间的熵值,β表示权重因子,用于调节公式中各项因子的权重比例。
神经网络的更新公式为:
Figure BDA0002558160590000131
Figure BDA0002558160590000132
其中,dθ表示全局神经网络参数的微分、dθv表示价值神经网络参数的微分、
Figure BDA0002558160590000133
表示待更新全局神经网络参数的梯度、
Figure BDA0002558160590000134
表示价值神经网络参数的梯度、π(ai|si;θ′)表示动作决策函数,ai表示动作决策值、V(si;θ′v)表示价值函数,θ'表示初始化工作线程的全局网络参数和θv'表示初始化工作线程的价值网络内的神经网络参数。
S5、判断当前全局/异步迭代是否完成,如果尚未完成,则返回全局/异步迭代,否则更新全局/异步动作价值神经网络权值,以获得最优解;
S6、如果全局迭代完成,根据全局动作评估网络获得最优的电梯控制策略并计算平均等待时间。
基于数据的控制算法最大的优点是无模型控制。实际系统存在严重的非线性、不确定性、时变性等因素,在无法获得精确的数学模型的情形下,无模型自适应优化控制便能发挥自身的优势,克服理论模型与实际应用之间的矛盾,降低了对模型的要求并且有较好的综合控制效果。
进一步地,本发明还提供一种基于深度强化学习的电梯系统自学习最优控制系统,实现电梯系统的优化控制。如图3所示,本发明基于深度强化学习的电梯系统自学习最优控制系统包括建模单元1、预处理单元2、迭代单元3、训练单元4、第一确定单元5及第二确定单元6。
其中,所述建模单元1用于建立当前电梯系统的运行模型和用户行为的概率分布模型;
所述预处理单元2用于基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
所述迭代单元3用于根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
所述训练单元4用于针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
所述第一确定单元5用于直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
所述第二确定单元6用于根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
此外,本发明还提供一种基于深度强化学习的电梯系统自学习最优控制系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
相对于现有技术,本发明基于深度强化学习的电梯系统自学习最优控制系统、计算机可读存储介质与上述基于深度强化学习的电梯系统自学习最优控制方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于深度强化学习的电梯系统自学习最优控制方法,其特征在于,所述控制方法包括:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
其中,所述约束条件包括:
(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留;(2)在当前运行方向上全部的需求处理完毕之前,电梯不能更改运行方向;(3)电梯不能在满载的情况下继续接纳乘客;(4)当电梯停止某层并且有空余载荷时,目的方向和电梯运行方向相同的乘客总是会进入该电梯;
所述基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,具体包括:
基于所述运行模型和概率分布模型,确定当前电梯系统的外部输入信息,所述外部输入信息分为内呼请求信息和外呼请求信息;内呼请求信息包括每个乘客选择的楼层,外呼请求信息包括期望电梯运行的方向;
将外呼请求和内呼请求表示为矩阵形式,其中对于N×M的内呼请求矩阵A,矩阵元素aij代表在第j个电梯中期望去往第i层的乘客们的等待时间总和;对于N×2的外呼请求矩阵B,矩阵元素bij代表在第i层上希望往上/下方向的乘客们的等待时间总和;其中,内呼请求矩阵仅仅包含电梯的内部信息,外呼请求矩阵含有全局信息;
将外呼请求矩阵的向量进行部分复制,最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵;
基于约束条件,根据电梯的方向和位置,将已经驶过位置上的状态值归零处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
2.根据权利要求1所述的基于深度强化学习的电梯系统自学习最优控制方法,其特征在于,所述用户行为包括上行高峰、下行高峰、午餐高峰以及随机运动;
上行高峰为用户从底层大厅进入,目标分布在各个楼层的活动模型;下行高峰为用户从各个楼层进入,目标为底层大厅的活动模型;午餐高峰为上行高峰和下行高峰的融合模式;随机运动为用户从随机楼层前往另一个随机楼层。
3.根据权利要求1所述的基于深度强化学习的电梯系统自学习最优控制方法,其特征在于,所述根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值,具体包括:
根据当前数据信息,基于深度强化学习模块,确定针对当前电梯系统的价值函数和策略函数;所述策略函数中的最优策略用于确定最小化一次全局迭代内的平均等待时间;
根据所述价值函数和策略函数训练局部动作评价网络,并修正动作评价网络的权值。
4.根据权利要求3所述的基于深度强化学习的电梯系统自学习最优控制方法,其特征在于,所述深度强化学习模块包括多层卷积神经网络、长短期记忆神经网络,及均与多层卷积神经网络、长短期记忆神经网络连接的第一全连接网络及第二全连接网络;
其中,所述多层卷积神经网络用于从所述当前数据信息中提取电梯的空间特征信息;
所述长短期记忆神经网络用于处理电梯状态中存在的时序依赖,得到辅助决策信息;
所述第一全连接网络用于根据所述空间特征信息及辅助决策信息,确定电梯系统的策略函数;策略函数表示从动作空间中生成一个动作向量,动作向量的元素值与动作概率有关;
所述第二全连接网络于根据所述空间特征信息及辅助决策信息,确定电梯系统的价值函数;价值函数用于估计当前状态下的预期回报。
5.根据权利要求4所述的基于深度强化学习的电梯系统自学习最优控制方法,其特征在于,所述根据所述价值函数和策略函数训练局部动作评价网络,具体包括:
根据所述价值函数确定价值损失值函数;
其中,所述损失值函数为:(Rt-V(st;θv))2/2,Rt表示在t时刻的折扣累加回报,θv表示价值网络内的神经网络参数,V()为价值函数,V(st;θv)表示状态st在神经网络参数θv之下的价值输出,θ表示全局网络参数;
根据策略函数确定策略损失函数;
其中,所述策略损失函数为:
-log(π(st;θ))×(Rt-V(st;θv))-β×H(π(st;θ)),
π(st;θ)表示策略输出的概率分布,H(π(st;θ))为动作之间的熵值,β表示权重因子,用于调节公式中各项因子的权重比例;
根据所述价值损失值函数及策略损失函数,更新局部动作评价网络:
Figure FDA0003203117970000051
Figure FDA0003203117970000052
其中,dθ表示全局神经网络参数的微分、dθv表示价值神经网络参数的微分、
Figure FDA0003203117970000053
表示待更新全局神经网络参数的梯度、
Figure FDA0003203117970000054
表示价值神经网络参数的梯度、π(ai|si;θ′)表示动作决策函数,ai表示动作决策值,θ'表示初始化工作线程的全局网络参数和θv'表示初始化工作线程的价值网络内的神经网络参数,V(si;θ′v)表示状态si在初始化工作线程的价值网络内的神经网络参数θv'之下的价值输出。
6.根据权利要求1-5中任一项所述的基于深度强化学习的电梯系统自学习最优控制方法,其特征在于,所述控制方法还包括:
对电梯系统的相关参数初始化,所述相关参数包括电梯运行速度、轿厢容量、楼层数量、电梯数量、楼层乘客分布、神经网络参数。
7.一种基于深度强化学习的电梯系统自学习最优控制系统,其特征在于,所述控制系统包括:
建模单元,用于建立当前电梯系统的运行模型和用户行为的概率分布模型;
预处理单元,用于基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
其中,所述约束条件包括:
(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留;(2)在当前运行方向上全部的需求处理完毕之前,电梯不能更改运行方向;(3)电梯不能在满载的情况下继续接纳乘客;(4)当电梯停止某层并且有空余载荷时,目的方向和电梯运行方向相同的乘客总是会进入该电梯;
所述基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,具体包括:
基于所述运行模型和概率分布模型,确定当前电梯系统的外部输入信息,所述外部输入信息分为内呼请求信息和外呼请求信息;内呼请求信息包括每个乘客选择的楼层,外呼请求信息包括期望电梯运行的方向;
将外呼请求和内呼请求表示为矩阵形式,其中对于N×M的内呼请求矩阵A,矩阵元素aij代表着在第j个电梯中期望去往第i层的乘客们的等待时间总和;对于N×2的外呼请求矩阵B,矩阵元素bij代表在第i层上希望往上/下方向的乘客们的等待时间总和;其中,内呼请求矩阵仅仅包含电梯的内部信息,外呼请求矩阵含有全局信息;
将外呼请求矩阵的向量进行部分复制,最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵;
基于约束条件,根据电梯的方向和位置,将已经驶过位置上的状态值归零处理,得到当前数据信息;
迭代单元,用于根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
训练单元,用于针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
第一确定单元,用于直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
第二确定单元,用于根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
8.一种基于深度强化学习的电梯系统自学习最优控制系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
其中,所述约束条件包括:
(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留;(2)在当前运行方向上全部的需求处理完毕之前,电梯不能更改运行方向;(3)电梯不能在满载的情况下继续接纳乘客;(4)当电梯停止某层并且有空余载荷时,目的方向和电梯运行方向相同的乘客总是会进入该电梯;
所述基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,具体包括:
基于所述运行模型和概率分布模型,确定当前电梯系统的外部输入信息,所述外部输入信息分为内呼请求信息和外呼请求信息;内呼请求信息包括每个乘客选择的楼层,外呼请求信息包括期望电梯运行的方向;
将外呼请求和内呼请求表示为矩阵形式,其中对于N×M的内呼请求矩阵A,矩阵元素aij代表着在第j个电梯中期望去往第i层的乘客们的等待时间总和;对于N×2的外呼请求矩阵B,矩阵元素bij代表在第i层上希望往上/下方向的乘客们的等待时间总和;其中,内呼请求矩阵仅仅包含电梯的内部信息,外呼请求矩阵含有全局信息;
将外呼请求矩阵的向量进行部分复制,最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵;
基于约束条件,根据电梯的方向和位置,将已经驶过位置上的状态值归零处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
9.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
建立当前电梯系统的运行模型和用户行为的概率分布模型;
基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息;
其中,所述约束条件包括:
(1)电梯不能直接驶过梯内某个乘客的目的地而不做停留;(2)在当前运行方向上全部的需求处理完毕之前,电梯不能更改运行方向;(3)电梯不能在满载的情况下继续接纳乘客;(4)当电梯停止某层并且有空余载荷时,目的方向和电梯运行方向相同的乘客总是会进入该电梯;
所述基于约束条件及所述运行模型和概率分布模型,对电梯系统的数据信息进行预处理,得到当前数据信息,具体包括:
基于所述运行模型和概率分布模型,确定当前电梯系统的外部输入信息,所述外部输入信息分为内呼请求信息和外呼请求信息;内呼请求信息包括每个乘客选择的楼层,外呼请求信息包括期望电梯运行的方向;
将外呼请求和内呼请求表示为矩阵形式,其中对于N×M的内呼请求矩阵A,矩阵元素aij代表着在第j个电梯中期望去往第i层的乘客们的等待时间总和;对于N×2的外呼请求矩阵B,矩阵元素bij代表在第i层上希望往上/下方向的乘客们的等待时间总和;其中,内呼请求矩阵仅仅包含电梯的内部信息,外呼请求矩阵含有全局信息;
将外呼请求矩阵的向量进行部分复制,最后初始N×2的外呼请求矩阵转化为N×M的外呼请求矩阵;
基于约束条件,根据电梯的方向和位置,将已经驶过位置上的状态值归零处理,得到当前数据信息;
根据当前数据信息进行全局迭代,且在全局迭代过程中,通过多个异步线程迭代进行局部处理:
针对每一异步线程,根据当前数据信息,利用深度强化学习训练局部动作评价网络,并修正动作评价网络的权值;
直至多线程迭代结束及全局迭代结束,根据动作评价网络的权值确定全局动作评价网络;
根据全局动作评价网络得到最优的电梯控制策略,以确定平均等待时间。
CN202010599600.XA 2020-06-28 2020-06-28 基于深度强化学习的电梯系统自学习最优控制方法及系统 Active CN111753468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010599600.XA CN111753468B (zh) 2020-06-28 2020-06-28 基于深度强化学习的电梯系统自学习最优控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010599600.XA CN111753468B (zh) 2020-06-28 2020-06-28 基于深度强化学习的电梯系统自学习最优控制方法及系统

Publications (2)

Publication Number Publication Date
CN111753468A CN111753468A (zh) 2020-10-09
CN111753468B true CN111753468B (zh) 2021-09-07

Family

ID=72677698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010599600.XA Active CN111753468B (zh) 2020-06-28 2020-06-28 基于深度强化学习的电梯系统自学习最优控制方法及系统

Country Status (1)

Country Link
CN (1) CN111753468B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488542B (zh) * 2020-12-04 2024-02-02 深圳市中科数建科技有限公司 基于机器学习的智慧工地智能物料调度方法及系统
CN113682908B (zh) * 2021-08-31 2023-02-28 电子科技大学 一种基于深度学习的智能调度方法
CN114357884B (zh) * 2022-01-05 2022-11-08 厦门宇昊软件有限公司 一种基于深度强化学习的反应温度控制方法和系统
CN114841098B (zh) * 2022-04-13 2023-04-18 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法
CN115577218A (zh) * 2022-12-09 2023-01-06 南京市特种设备安全监督检验研究院 一种基于critic权重法修正的加权评分评比法计算电梯按需维保频率的方法
CN115676539B (zh) * 2023-01-03 2023-04-25 常熟理工学院 基于物联网的高层电梯协同调度方法
CN117963658B (zh) * 2024-03-28 2024-07-02 通用电梯股份有限公司 基于逆向强化学习的电梯调度方法、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549384A (zh) * 2015-09-01 2016-05-04 中国矿业大学 一种基于神经网络和强化学习的倒立摆控制方法
CN107840213A (zh) * 2017-09-04 2018-03-27 深圳市盛路物联通讯技术有限公司 一种传送设备控制方法、相关设备及计算机可读介质
CN110562810A (zh) * 2019-08-01 2019-12-13 珠海格力电器股份有限公司 电梯调度方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063903B (zh) * 2018-07-19 2021-04-09 山东建筑大学 一种基于深度强化学习的建筑能耗预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549384A (zh) * 2015-09-01 2016-05-04 中国矿业大学 一种基于神经网络和强化学习的倒立摆控制方法
CN107840213A (zh) * 2017-09-04 2018-03-27 深圳市盛路物联通讯技术有限公司 一种传送设备控制方法、相关设备及计算机可读介质
CN110562810A (zh) * 2019-08-01 2019-12-13 珠海格力电器股份有限公司 电梯调度方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Optimization of electricity consumption in office buildings based on adaptive dynamic programming;Guang Shi等;《METHODOLOGIES AND APPLICATION》;20171231;第6369-6379页 *
智能控制_从学习控制到平行控制;王飞跃 等;《控制理论与应用》;20180731;第939-948页 *

Also Published As

Publication number Publication date
CN111753468A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN111753468B (zh) 基于深度强化学习的电梯系统自学习最优控制方法及系统
Wei et al. Optimal elevator group control via deep asynchronous actor–critic learning
EP0565864B1 (en) Artificially intelligent traffic modelling and prediction system
Pepyne et al. Optimal dispatching control for elevator systems during uppeak traffic
Cortés et al. Genetic algorithm for controllers in elevator groups: analysis and simulation during lunchpeak traffic
JP4870863B2 (ja) エレベータ群最適管理方法、及び最適管理システム
Koehler et al. An AI-based approach to destination control in elevators
GB2195792A (en) Elevator group control
CN114723125B (zh) 一种结合深度学习和多任务优化的城际车订单分配方法
Agarwal et al. Augmented neural networks for task scheduling
Tartan et al. A genetic algorithm based elevator dispatching method for waiting time optimization
Van et al. Green elevator scheduling based on IoT communications
Beamurgia et al. Improving waiting time and energy consumption performance of a bi-objective genetic algorithm embedded in an elevator group control system through passenger flow estimation
CN100413771C (zh) 基于cmac网络的群控电梯调度方法
CN116663748A (zh) 基于循环神经网络的电梯调度决策方法及系统
Ahmed et al. Investigation of Optimization Techniques on the Elevator Dispatching Problem
CN110127464B (zh) 一种基于动态优化的多目标电梯调度系统及方法
Yu et al. Analysis of energy consumption of elevator group supervisory control system based on genetic network programming
WO2024017747A1 (en) Method for training an artificial neural network to estimate control commands for controlling an elevator
KR950001901B1 (ko) 엘리베이터 그룹 제어방법 및 그 장치
Ghaleb Novel solutions and applications to elevator-like problems
JP2664766B2 (ja) 群管理制御エレベータ装置
Basagoiti Improving Waiting Time and Energy Consumption Performance of a Bi-objective Genetic Algorithm embedded in an Elevator Group Control System through passenger flow estimation
Meng et al. The application of genetic algorithms in high-rise elevator systems
CN118095686A (zh) 一种荷网干扰下港口能源-交通适配的调控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant