发明内容
基于此,有必要针对传统电梯调度方法不够智能的问题,提供一种多轿厢电梯控制方法。
一种多轿厢电梯控制方法,包括:
获取各个用户体重,将各个用户体重相加获得体重总值,根据体重总值确定所需轿厢数量;
获取训练数据,所述训练数据包括:各个用户的到达时间、离开时间和初始楼层;
通过Q-Learning算法对所述训练数据进行学习,获得最优策略;
将所述最优策略转换成控制信号控制各个轿厢的运行。
上述方法中,先通过电梯前方等待乘坐电梯的用户的总体重量计算所需的轿厢数量,这样可以避免调用的轿厢数量与用户总体总量不匹配,减少用户等待时间,也可以避免调用过多的轿厢,造成能源浪费。再通过获取训练数据并用Q-Learning算法进行学习获得最优策略,可以使电梯的调用更加符合对应建筑物内的用户分布。使电梯调度更加智能化。
在其中一个实施例中,所述获取各个用户体重是通过以下方法实现:获取用户图像,通过CNN算法,根据用户图像获得用户画像,用户的体重由以下公式计算获得:g=s*p,其中,g为用户的体重,s为用户画像的面积,p值由已知体重的测试用户计算得到。
在其中一个实施例中,所述获取训练数据是通过以下方法实现:获取用户图像,通过CNN算法,根据用户图像获得用户画像,并将用户画像与已保存的比对用户画像进行匹配,如果匹配成功,则将已保存的比对用户画像删除,并将所述用户图像的获取时间记录为离开时间t2,如果匹配没有成功,则保存所述用户画像,形成已保存的比对用户画像,并将所述用户图像的获取时间记录为到达时间t1,同时将所述用户图像的获取楼层记录为初始楼层。
在其中一个实施例中,根据所述用户画像包括以下信息:用户性别,用户衣服,用户裤子和用户鞋。
在其中一个实施例中,所述通过Q-Learning算法对所述训练数据进行学习并获得最优策略包括:
将多轿厢电梯调度问题建模为一个马尔可夫决策过程,并定义其中的状态、动作、状态转移函数以及立即奖赏函数,具体为:
状态,用s表示,设G={1,2,3…m}为所有楼层的集合,m为楼层的层数,设V={1,…n}是轿厢的集合,n为轿厢的数量,第i个轿厢在第j个楼层情况数据为vi,j,其中i∈v,j∈G,则状态表示为:
s=(v1,1,v2,1,…vn,m);
动作,用a表示,可采取的动作为:不动、上或下,设G1={0,1,2},0表示不动,1表示上,2表示下,设第i个轿厢采取的动作为aij,其中,i∈V,j∈G1,则动作表示为:
a=(a10,a11,a12…an0,an1,an2);
立即奖赏函数,具体为:
其中,t1为到达时间,t2为离开时间,折扣参数β>0;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
利用Q-learning算法获得最优策略包括:
设在t1时刻处于状态s并采取动作a,然后下一个决策要求在t2时刻处在状态s′,应用的更新公式为:
s←s′,
a←a′,
其中,α为学习速率。
一种多轿厢电梯控制系统,包括:
体重获取模块,所述体重获取模块用于获取各个用户体重,将各个用户体重相加获得体重总值,根据体重总值确定所需轿厢数量;
训练数据获取模块,所述训练数据获取模块用于获取训练数据,所述训练数据包括:各个用户的到达时间、离开时间和初始楼层;
策略学习模块,所述策略学习模块用于通过Q-Learning算法对所述训练数据进行学习,获得最优策略;
电梯调度控制器,所述电梯调度控制器用于将所述最优策略转换成控制信号控制各个轿厢的运行。
在其中一个实施例中,所述体重获取模块包括摄像头以及图像处理模块,所述摄像头用于获取用户图像,所述图像处理模块通过CNN算法,根据用户图像获得用户画像,并由以下公式计算获得用户的体重:g=s*p,其中,g为用户的体重,s为用户画像的面积,p值由已知体重的测试用户计算得到。
在其中一个实施例中,所述训练数据获取模块包括摄像头以及图像处理模块,所述摄像头用于获取用户图像,所述图像处理模块通过CNN算法,根据用户图像获得用户画像,并将用户画像与已保存的比对用户画像进行匹配,如果匹配成功,则将已保存的比对用户画像删除,并将所述用户图像的获取时间记录为离开时间t2,如果匹配没有成功,则保存所述用户画像,形成已保存的比对用户画像,并将所述用户图像的获取时间记录为到达时间t1,同时将所述用户图像的获取楼层记录为初始楼层。
在其中一个实施例中,根据所述用户画像包括以下信息:用户性别,用户衣服,用户裤子和用户鞋。
在其中一个实施例中,所述体重获取模块包括摄像头以及图像处理模块,所述摄像头用于获取用户图像,所述图像处理模块通过CNN算法,根据用户图像获得用户画像,并由以下公式计算获得用户的体重:g=s*p,其中,g为用户的体重,s为用户画像的面积,p值由已知体重的测试用户计算得到;
所述训练数据获取模块包括所述摄像头以及所述图像处理模块,所述图像处理模块将用户画像与已保存的比对用户画像进行匹配,如果匹配成功,则将已保存的比对用户画像删除,并将所述用户图像的获取时间记录为离开时间t2,如果匹配没有成功,则保存所述用户画像,形成已保存的比对用户画像,并将所述用户图像的获取时间记录为到达时间t1,同时将所述用户图像的获取楼层记录为初始楼层。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示,本发明的实施例提供了一种多轿厢电梯控制方法,包括:
获取各个用户体重,将各个用户体重相加获得体重总值,根据体重总值确定所需轿厢数量;
获取训练数据,所述训练数据包括:各个用户的到达时间、离开时间和初始楼层;
通过Q-Learning算法对所述训练数据进行学习,获得最优策略;
将所述最优策略转换成控制信号控制各个轿厢的运行。
上述方法中,先通过电梯前方等待乘坐电梯的用户的总体重量计算所需的轿厢数量,这样可以避免调用的轿厢数量与用户总体总量不匹配,减少用户等待时间,也可以避免调用过多的轿厢,造成能源浪费。再通过获取训练数据并用Q-Learning算法进行学习获得最优策略,可以使电梯的调用更加符合对应建筑物内的用户分布。使电梯调度更加智能化。
例如,电梯前等待使用电梯的用户的总体重量为2100kg,一个轿厢的最大载重量为1000kg,这时就需要调用3个轿厢。如果只调用1个轿厢,则一些用户需要等待更长的时间才能乘坐电梯。如果调用4个轿厢,则造成能源的浪费。
本实施例中,所述获取各个用户体重是通过以下方法实现:获取用户图像,通过CNN算法,根据用户图像获得用户画像,用户的体重由以下公式计算获得:g=s*p,其中,g为用户的体重,s为用户画像的面积,p值由已知体重的测试用户计算得到。
需要说明的是,上述通过CNN算法,根据用户图像获得用户画像的过程可应用现有的CNN算法实现。这里就不再赘述。上述CNN也就是卷积神经网络。
需要说明的是,上述p值可以由已知体重的测试用户计算得到。例如,根据男女不同,大人与小孩不同,依据身高和性别将p值分为4个不同级别的值。p1代表身材较高的男性,p2代表身材较低的男性,p3代表身材较高的女性,p4代表身材较低的女性。具体计算时,可通过公式g=s*p推出p值,可以采用一定数量的测试用户取平均值最终确定某一级别的p值。可以理解,上述分级只是举出一个实施例,也可以按照其它方式进行分级。
可以理解,用户体重的获取方法可以为其它方式。例如可以在电梯一侧的用户必经的路径上设置体重秤,用户经过体重秤时,通过体重秤来获取用户体重。
本实施例中,所述获取训练数据是通过以下方法实现:获取用户图像,通过CNN算法,根据用户图像获得用户画像,并将用户画像与已保存的比对用户画像进行匹配,如果匹配成功,则将已保存的比对用户画像删除,并将所述用户图像的获取时间记录为离开时间t2,如果匹配没有成功,则保存所述用户画像,形成已保存的比对用户画像,并将所述用户图像的获取时间记录为到达时间t1,同时将所述用户图像的获取楼层记录为初始楼层。
例如,在1层,用户A和用户B需要乘坐电梯,此时,在1层获取用户A和用户B的图像,并通过CNN算法获得用户A和用户B的画像。将用户A和用户B的画像与已保存的画像进行匹配,用户A和用户B的画像与已保存的画像都没有匹配成功,则将用户A和用户B的画像进行保存。并且,记录用户A和用户B的到达时间为t1,即到达电梯的时间。记录用户A和用户B的初始楼层为1层。接着,在5层,用户A离开电梯,此时,在5层获取用户A的图像,并通过CNN算法获取用户A的画像。将用户A的画像与已保存的画像进行匹配,由于之前已经保存了用户A的画像,因此此次匹配结果为成功。匹配成功后意味着用户A离开电梯。因此将用户A从已保存的用户画像库中删除。并且,记录用户A的离开时间为t2,也就是离开电梯的时间为t2。而用户B此时还在电梯,因此已保存的用户画像库中还存储着用户B的画像。
可以理解,上述获取到达时间t1,离开时间t2以及初始楼层的方法有多种,例如可以采用人脸识别技术。只是人脸识别技术需要识别人的面部特征。这时,就需要在每层建筑物设置多个摄像头,以保证用户离开电梯时,还能获取面部特征。因为用户乘坐电梯时,面部是朝向电梯,而离开电梯时,面部是背离电梯。所以就需要使用多个摄像头。而本实施例上述方法需要的摄像头较少,因为获取的是用户的画像,该画像可以包括以下信息中的一种或多种:用户性别,用户衣服,用户裤子和用户鞋等。只要在电梯一侧设置摄像头,无论用户面朝电梯还是背对电梯,画像中的一些信息仍然可以获取。
本实施例中,所述通过Q-Learning算法对所述训练数据进行学习并获得最优策略包括:
将多轿厢电梯调度问题建模为一个马尔可夫决策过程,并定义其中的状态、动作、状态转移函数以及立即奖赏函数,具体为:
状态,用s表示,设G={1,2,3…m}为所有楼层的集合,m为楼层的层数,m可以为6,8或10等,根据实际楼层数设定,设V={1,…n}是轿厢的集合,n为轿厢的数量,n可以是2,3,4等,可根据实际轿厢数量设定,第i个轿厢在第j个楼层情况数据为vi,j,其中i∈v,j∈G,则状态表示为:
s=(v1,1,v2,1,…vn,m);
动作,用a表示,可采取的动作为:不动、上或下,设G1={0,1,2},0表示不动,1表示上,2表示下,设第i个轿厢采取的动作为aij,其中,i∈V,j∈G1,则动作表示为:
a=(a10,a11,a12…an0,an1,an2);
立即奖赏函数,将每个离散迁移上的奖赏看作在相关的连续时间区间内的奖赏积分,具体为:
其中,其中rt+τ表示在连续时间t+τ中的立即奖赏,e-βτ作为一个变化的折扣因子取决于事件间的时间量,/>t1为到达时间,t2为离开时间,折扣参数β>0;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];
利用Q-learning算法获得最优策略包括:
设在t1时刻处于状态s并采取动作a,然后下一个决策要求在t2时刻处在状态s′,应用的更新公式为:
s←s′,
a←a′,
其中,α为学习速率。
如图2和图3所示,本发明的实施例还提供了一种多轿厢电梯控制系统,包括:
体重获取模块,所述体重获取模块用于获取各个用户体重,将各个用户体重相加获得体重总值,根据体重总值确定所需轿厢数量;
训练数据获取模块,所述训练数据获取模块用于获取训练数据,所述训练数据包括:各个用户的到达时间、离开时间和初始楼层;
策略学习模块,所述策略学习模块用于通过Q-Learning算法对所述训练数据进行学习,获得最优策略;
电梯调度控制器,所述电梯调度控制器用于将所述最优策略转换成控制信号控制各个轿厢的运行。
本实施例中,所述体重获取模块包括摄像头以及图像处理模块,所述摄像头用于获取用户图像,所述图像处理模块通过CNN算法,根据用户图像获得用户画像,并由以下公式计算获得用户的体重:g=s*p,其中,g为用户的体重,s为用户画像的面积,p值由已知体重的测试用户计算得到。
可以理解,体重获取模块也可以由体重秤以及图像处理模块等元件组成。具备可获取用户体重的功能即可。
本实施例中,所述训练数据获取模块包括摄像头以及图像处理模块,所述摄像头用于获取用户图像,所述图像处理模块通过CNN算法,根据用户图像获得用户画像,并将用户画像与已保存的比对用户画像进行匹配,如果匹配成功,则将已保存的比对用户画像删除,并将所述用户图像的获取时间记录为离开时间t2,如果匹配没有成功,则保存所述用户画像,形成已保存的比对用户画像,并将所述用户图像的获取时间记录为到达时间t1,同时将所述用户图像的获取楼层记录为初始楼层。
可以理解,上述体重获取模块和训练数据获取模块可以共用上述摄像头和图像处理模块。
本实施例中,根据所述用户画像包括以下信息:用户性别,用户衣服,用户裤子和用户鞋。
具体设置时,可以在建筑物的每层设置一个数据采集模块。该数据采集模块包括支持USB传输的电子摄像头和与所述摄像头连接的第一通信模块。这样设置,通过摄像头的信息就可以确定用户的初始楼层。电子摄像头可设置在电梯的一侧,用于获取用户的图像,并可实时监测电梯前的人流情况。
上述图像处理模块与策略学习模块可设置在数据处理终端内。上述第一通信模块与数据处理终端的图像处理模块相连。数据处理终端可在摄像头获取的用户图像的基础上,获得用户画像,并最终获得用户体重信息和训练数据。电梯调度控制器可与第二通信模块相连,第二通信模块可分别与第一通信模块和数据处理终端相连。所述电梯调度控制器与所述数据处理终端可通过第一串行接口通信。数据处理终端的用户体重信息可发送给电梯调度控制器,以供其判断所需轿厢的数量。图像处理模块的训练数据可发送给策略学习模块,所述策略学习模块根据训练数据进行学习,进而获得最优电梯调度方案。电梯调度控制器将上述方案转换成控制信号,进而控制各个轿厢的运转。
所述第二通信模块与第一通信模块之间可通过wifi网络连接,也可以通过其它方式连接。
策略学习模块与所述第二通信模块可通过USB接口连接。也可以通过其它方式连接。
所述第一通信模块可采用SKW77 WI-FI模块,所述电子摄像头与所述SKW77 WIFI模块之间通过USB接口通信。
所述第二通信模块可采用SKW77 WI-FI模块,与第一通信模块之间通过wifi网络连接。
所述数据处理终端为NVIDIA Jetson TK1开发组件,与所述第二通信模块之间通过USB接口通信。
以下举例说明上述系统的工作原理。上述图像处理模块可设置两个,分别为第一图像处理模块和第二图像处理模块,将由摄像头拍摄的电梯前的景象每4帧作为一组通过深度神经网络,将结果传输至数据处理终端中的第一图像处理模块,通过快速背景差分法进行处理,当出现响应,即有用户进入,激活第一图像处理模块到第二图像处理模块的通信通道。然后通过CNN算法,获得用户性别,身高,体重,到达时间,离开时间等信息,为每个用户编号并构建用户画像。将所得用户画像提交给电梯调度控制器,当作潜在请求。当用户的估计载重超过单个轿厢时,调动2个轿厢,当超过2个轿厢时,则调动3个轿厢,以此类推。当用户按下电梯调度按钮后,电梯调度控制器根据用户和潜在用户做出最优的调度策略。当用户离开电梯时,通过CNN算法,匹配用户,获得用户离开时间信息,将该条信息发送给策略学习模块,并在调度表中删除该用户。
进一步的,所述快速背景差分法式通过记录背景图,当人出现在画面中时,会对记录到的背景产生较大的影响,当所的画面与所记录的背景图产生的变化大于所设定的阈值(由一个人产生的变化值),视为有用户进入,设置阈值可有效减少错误激活,为避免由光线不同产生的背景差值导致的误激活,背景图每一小时跟新一次。
进一步的,对于电梯调度控制器的调度策略,初始调度策略由单电梯专家策略确定,当所请求的用户超过一个轿厢的额定载重时,调度对应的多个轿厢,将所得用户调度信息和时间等训练数据传递给策略学习模块供其学习。
进一步的,所述策略学习模块通过强化学习算法对训练数据进行学习,得到最符合该层建筑用户习惯的最优策略,最后将所学习得到的最优策略反馈给电梯调度控制器进行更新。
本发明与现有的电梯调度系统相比,其显著优点是:
1、可以针对人员数量和体重灵活调度轿厢个数。
2、随着策略学习模块的不断学习,系统所得到的策略对于该栋建筑物的适合度最优。
3、系统可以服务于短期内打算乘坐电梯的用户。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。