CN111598211B

CN111598211B - 电梯调度模型训练方法、装置、电子设备和存储介质

Info

Publication number: CN111598211B
Application number: CN202010285031.1A
Authority: CN
Inventors: 周波; 王凡; 曾宏生; 何径舟; 李云想; 李科浇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2023-07-04
Anticipated expiration: 2040-04-13
Also published as: CN111598211A

Abstract

本申请公开了电梯调度模型训练方法、装置、电子设备和存储介质，涉及电梯技术领域。方案为：获取包括多个电梯在各时刻的运行状态信息训练样本集；利用初始调度模型，对多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与第一时刻的运行状态信息对应的第一调度策略；生成与第一时刻的运行状态信息对应的第一修正调度策略，确定第一调度策略对应的第一奖励值、第一修正调度策略对应的第二奖励值；若第二奖励值大于第一奖励值，根据第一修正调度策略与第一调度策略的差异，对初始调度模型反向传播修正；利用修正后的模型继续对多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，利用调度模型调度电梯。

Description

电梯调度模型训练方法、装置、电子设备和存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及电梯技术领域，尤其涉及一种电梯调度模型训练方法、装置、电子设备和存储介质。

背景技术

电梯是多高层建筑的主要垂直运输工具，除平时担负客货运输外，还兼有消防功能。随着人们生活水平的提高，电梯越来越普及。

目前电梯调度系统，主要是依据调度规则对电梯进行控制。但是，这种控制方法比较适合单个电梯的情况，而现在已经进入电梯群控的时代，依据调度规则无法合理地控制多部电梯，让电梯合作运送乘客。可见，现有的电梯控制方法，扩展性差、且控制效率低。

发明内容

本申请提供一种电梯调度模型训练方法、装置、电子设备以及存储介质，用于解决现有技术中依据调度规则对电梯进行控制的方式，扩展性差、且控制效率低的问题。

根据第一方面，提供了一种电梯调度模型训练方法，包括：

获取训练样本集，其中所述样本集中包括多个电梯在各时刻的运行状态信息；

利用初始调度模型，对所述多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与所述第一时刻的运行状态信息对应的第一调度策略；

依据第一预设的规则，生成与所述第一时刻的运行状态信息对应的第一修正调度策略；

依据第二预设的规则，确定所述第一调度策略对应的第一奖励值、及所述第一修正调度策略对应的第二奖励值；

若所述第二奖励值大于所述第一奖励值，则根据所述第一修正调度策略与所述第一调度策略的差异，对所述初始调度模型进行反向传播修正；

利用修正后的模型继续对所述多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度。

本申请实施例的电梯调度模型方法，通过首先获取包括多个电梯在各时刻的运行状态信息的训练样本集，然后利用初始调度模型，对所多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与第一时刻的运行状态信息对应的第一调度策略，之后依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略，并依据第二预设的规则，确定第一调度策略对应的第一奖励值、及第一修正调度策略对应的第二奖励值，若第二奖励值大于第一奖励值，则根据第一修正调度策略与第一调度策略的差异，对初始调度模型进行反向传播修正，再利用修正后的模型继续对多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度。由此，通过利用多个电梯在各时刻的运行状态信息，训练电梯调度模型，利用调度模型对电梯进行控制，可以应用在不同的场景，也可协同控制多个电梯，控制方式可扩展性强，效率高。

根据第二方面，提供了一种电梯调度模型装置，包括：

获取模块，用于获取训练样本集，其中所述样本集中包括多个电梯在各时刻的运行状态信息；

第一生成模块，用于利用初始调度模型，对所述多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与所述第一时刻的运行状态信息对应的第一调度策略；

第二生成模块，用于依据第一预设的规则，生成与所述第一时刻的运行状态信息对应的第一修正调度策略；

确定模块，用于依据第二预设的规则，确定所述第一调度策略对应的第一奖励值、及所述第一修正调度策略对应的第二奖励值；

修正模块，用于当所述第二奖励值大于所述第一奖励值时，根据所述第一修正调度策略与所述第一调度策略的差异，对所述初始调度模型进行反向传播修正；

所述第一生成模块，还用于利用修正后的模型继续对所述多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度。

本申请实施例的电梯调度模型训练装置，通过获取包括多个电梯在各时刻的运行状态信息的训练样本集，利用初始调度模型，对所多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与第一时刻的运行状态信息对应的第一调度策略，依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略，并依据第二预设的规则，确定第一调度策略对应的第一奖励值、及第一修正调度策略对应的第二奖励值，若第二奖励值大于第一奖励值，则根据第一修正调度策略与第一调度策略的差异，对初始调度模型进行反向传播修正，利用修正后的模型继续对多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度。由此，通过利用多个电梯在各时刻的运行状态信息，训练电梯调度模型，利用调度模型对电梯进行控制，可以应用在不同的场景，也可协同控制多个电梯，控制方式可扩展性强，效率高。

根据第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的电梯调度模型训练方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的电梯调度模型训练方法。

根据本申请的技术解决了依据调度规则对电梯进行控制的方式，扩展性差、且控制效率低的问题，本申请实施例中通过利用多个电梯在各时刻的运行状态信息，训练得到调度模型，利用调度模型对电梯进行控制，可以应用在不同的场景，也可协同控制多个电梯，控制方式可扩展性强，效率高。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种电梯调度模型训练方法的流程示意图；

图2为本申请实施例提供的另一种电梯调度模型训练方法的流程示意图；

图3为本申请实施例提供的一种电梯调度模型训练装置的结构示意图；

图4为本申请实施例提供的另一种电梯调度模型训练装置的结构示意图；

图5为根据本申请实施例的电梯调度模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的电梯调度模型训练方法、装置、电子设备和存储介质。

本申请实施例，针对相关技术中依据调度规则对电梯进行控制的方式，扩展性差、且控制效率低的问题，提出一种电梯调度模型训练方法。

本申请实施例的电梯调度模型训练方法，通过首先获取包括多个电梯在各时刻的运行状态信息的训练样本集，然后利用初始调度模型，对所多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与第一时刻的运行状态信息对应的第一调度策略，之后依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略，并依据第二预设的规则，确定第一调度策略对应的第一奖励值、及第一修正调度策略对应的第二奖励值，若第二奖励值大于第一奖励值，则根据第一修正调度策略与第一调度策略的差异，对初始调度模型进行反向传播修正，再利用修正后的模型继续对多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度。由此，通过利用多个电梯在各时刻的运行状态信息，训练电梯调度模型，利用调度模型对电梯进行控制，可以应用在不同的场景，也可协同控制多个电梯，控制方式可扩展性强，效率高。

图1为本申请实施例提供的一种电梯调度模型训练方法的流程示意图。

本申请实施例的电梯调度模型训练方法，可由本申请实施例提供的电梯调度模型训练成装置执行，该装置可配置于电子设备中，以利用多个电梯在各时刻的运行状态信息，训练得到电梯调度模型，以利用电梯调度模型对电梯进行调度。

如图1所示，该电梯调度模型训练方法包括：

步骤101，获取训练样本集，其中样本集中包括多个电梯在各时刻的运行状态信息。

随着科技的发展，电梯已经进入了群控时代，也就是提供多个电梯供用户使用。本实施例中，为了提高多个电梯之间的协同合作，可以通过采集获取训练样本集。

具体地，可以采集多个电梯的在一段时间内各个时刻的运行状态信息，得到训练样本集。比如，采集一个月内某栋大楼内5个电梯在各个时刻的运行状态信息。

本实施例中，每个电梯具有对应的运行状态信息，用于表示电梯在运行过程中的状态。其中，运行状态信息包括：电梯当前所在楼层、电梯当前重量、电梯当前速度、电梯当前运行方向、电梯当前被指派到的楼层等等。

步骤102，利用初始调度模型，对多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与第一时刻的运行状态信息对应的第一调度策略。

本实施例中，初始调度模型为神经网络模型，初始调度模型中包括编码器和解码器。

具体地，可将每个电梯在第一时刻的运行状态信息输入至初始调度模型中，初始调度模型利用编码器和解码器对每个电梯在第一时刻的运行状态信息进行编码解码处理，由此，利用所有电梯在第一时刻的运行状态信息，生成第一时刻的运行状态信息对应的调度策略。

为了便于描述，本实施例中，将模型生成的第一时刻的运行状态信息对应的调度策略称为第一调度策略，那么生成的第二时刻的运行状态信息对应的调度策略称为第二调度策略等。

其中，第一调度策略中包括每个电梯的调度策略。比如，共有两个电梯，电梯A和电梯B，那么第一调度策略包括电梯A的调度策略和电梯B的调度策略，如电梯A向上运行、停靠的楼层为3层和5层；电梯B向下运行停靠楼层为1层。

步骤103，依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略。

由于无法确定依据初始调度模型生成的第一时刻的运行状态信息，对应的第一调度策略是否满足要求，那么本实施例中，依据第一预设的规则，生成与第一时刻的运行状态信息对应的另一调度策略，这里称为第一修正调度策略。

其中，第一预设的规则可以根据实际需要设定，可以是第一调度策略进行调整后得到的。

比如，模型生成的某电梯的调度策略是，向上运行停靠3层和5层，那么可调整该电梯的停靠楼层，比如第一修正调度策略为向上运行停靠3层、4层和5层。

步骤104，依据第二预设的规则，确定第一调度策略对应的第一奖励值、及第一修正调度策略对应的第二奖励值。

为了衡量模型生成的调度策略以及修正调度策略，本实施例中，可依据第二预设的规则，确定第一调度策略对应的第一奖励值以及第一修正调度策略对应的第二奖励值，利用奖励值衡量调度策略。其中，奖励值越大说明调度策略越好。

其中，第二预设的规则可以根据需要设定，比如，可根据利用调度策略调度电梯时乘客的等待时间，确定调度策略对应的奖励值，其中，等待时间越长，奖励值越低。

步骤105，若第二奖励值大于第一奖励值，则根据第一修正调度策略与第一调度策略的差异，对初始调度模型进行反向传播修正。

本实施例中，可将第一奖励值和第二奖励值进行比较，如果第二奖励值大于第一奖励值，说明第一修正调度策略比第一调度策略要好，说明调整方向是对的，那么可根据第一修正调度策略与第一调度策略的差异，对初始调度模型进行反向传播修正，即修正初始调度模型的参数。

比如，模型生成的某电梯的调度策略为向下运行停靠4层和1层，修正调度策略为向下运行停靠3层和1层，修正调度策略对应的奖励值大于模型生成的调度策略对应的奖励值，说明修正方向是对的，那么可根据修正调度策略和模型生成的调度策略，修正模型参数。

步骤106，利用修正后的模型继续对多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度。

在对初始模型进行反向传播修正后，可利用修正后的模型继续对多个电梯的运行状态信息进行编码解码处理。

具体地，利用修正后的模型对多个电梯在第二时刻的运行状态信息进行编码解码处理，生成与第二时刻的运行状态信息对应的第二调度策略，并依据第一预设的规则，生成与第二时刻的运行状态信息对应的修正调度策略。如果第二调度策略对应的修正调度策略的奖励值大于第二调度策略，那么可根据修正调度策略和第二调度策略的差异，对模型进行反向修正。

由此，依次对其余时刻各运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型对多个电梯进行调度，从而可以利用该调度模型协同控制多个电梯。

基于本申请实施例的电梯调度模型训练方法，可以训练得到的电梯调度模型可以适用于不同的场景。比如对于早高峰或晚高峰时段，可以获取这些时段多个电梯在各个时刻的运行信息作为训练样本，利用早高峰或晚高峰等时段多个电梯在各个时刻的运行信息进行训练，由此得到的调度模型可以适用于早高峰和晚高峰时段的场景。

在利用调度模型对电梯进行调度时，将多个电梯当前的运行状态信息输入至调度模型中，调度模型输出调度策略。其中，调度策略中包括每个电梯的调度策略，每个电梯可根据自己的调度策略运行。

为了提高电梯调度的效率，依据调度策略分配每个电梯相应的楼层以及方向，电梯将根据当前的速度、位置、电梯内乘客按下的楼层合理调整自己的速度以及方向。

比如，先处理电梯内乘客按下的楼层，保证在按下的楼层逐一停下；若调度策略中电梯被分配的楼层以及方向合理，即电梯以当前的方向和速度可以到达，则将目标楼层和方向设置为分配给电梯的楼层和方向；若不合理，则可忽视调度模型生成的调度策略。由此，根据调度策略自动处理电梯速度和方向。

本申请实施例中，通过利用多个电梯在各时刻的运行状态信息，以及修正调度策略，训练电梯调度模型，利用调度模型对电梯进行控制，可以应用在不同的场景，也可协同控制多个电梯，控制方式可扩展性强，效率高。

在本申请的一个实施例中，调度策略中可包括每个电梯的运行方向及停靠楼，在依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略时，可通过调整第一调度策略中电梯的运行方向和/或停靠楼层，得到与第一时刻的运行状态信息对应的第一修正调度策略。

作为一个示例，可以调整第一调度策略中至少一个电梯的运行方向。比如，共有3个电梯，调整其中一个电梯的运行方向，如调度策略中该电梯的运行方向是向上，调整为向下运行。

作为另一示例，调整第一调度策略中至少一个电梯的停靠楼层。其中，调整停靠楼层，可以是增加停靠楼层，也可以是减少停靠楼层，或者更改停靠楼层等。

比如，共有3个电梯，随机选择两个电梯，调度策略中这两个电梯的停靠楼层一个是3层，一个是4层，那么可以电梯的停靠楼层由3层修改为2层，对于另一个电梯停靠楼层为4层和2层。

作为另一个示例，可调整第一调度策略中至少一个电梯的运行方向和停靠楼层。也就是说，电梯的运行方向和停靠楼层都调整。

作为再一个示例，可以调整第一调度策略中至少一个电梯的运行方向、及另外至少一个电梯的停靠楼层。也就是说，可选择不同的电梯，进行不同的调整。

比如，共有2个电梯，那么调整第一调度策略中其中一个电梯的运行方向，调整另一个电梯的停靠楼层。

本申请实施例中，调度策略中包括每个电梯的运行方向及停靠楼层，在依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略时，可调整第一调度策略中至少一个电梯的运行方向；或者，调整第一调度策略中至少一个电梯的停靠楼层；或者，调整第一调度策略中至少一个电梯的运行方向及停靠楼层；或者，调整第一调度策略中至少一个电梯的运行方向、及另外至少一个电梯的停靠楼层。由此，通过调整第一调度策略中电梯的运行方向和/或停靠楼层，可以得到与第一时刻的运行状态信息对应的第一修正调度策略，比较方便。

为了提高调度模型的准确性和鲁棒性，在本申请的一个实施例中，在依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略时，可在初始调度模型中增加噪声，利用增加了噪声的初始调度模型，获取第一修正调度策略。

具体地，在初始调度模型中增加随机噪声，比如随机高斯噪声，然后利用增加了随机噪声的初始调度模型，对多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与第一时刻的运行状态信息对应的调度策略，作为第一修正调度策略。

本申请实施例中，在依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略时，在初始调度模型中增加随机噪声，以使初始调度模型生成与第一时刻的运行状态信息对应的第一修正调度策略。由此，通过在初始调度模型中增加随机噪声，利用具有随机噪声的初始调度模型得到的第一修正调度策略进行模型训练，由此可训练得到具有抗噪声能力的调度模型，提高了调度模型的鲁棒性。

在本申请的一个实施例中，在依据第二预设的规则，确定第一调度策略对应的第一奖励值时，可以根据多个电梯的能量消耗和/或乘客的等待时间，确定第一调度策略对应的第一奖励值。也就是说，将多个电梯的能量消耗和/或乘客的等待时间作为调度策略的评估指标。

作为一个示例，可以将生成的第一调度策略放入仿真环境中，以使多个电梯执行第一调度策略。然后，获取多个电梯执行第一调度策略时，每个电梯的能量消耗，计算多个电梯的能量总消耗，然后根据能量总消耗与奖励值之间的对应关系，确定多个电梯的能量总消耗对应的奖励值，即第一调度策略对应的第一奖励值。其中，多个电梯的能量总消耗越大，对应的奖励值越低。

作为另一个示例，可以将生成的第一调度策略放入仿真环境中，以使多个电梯执行第一调度策略。然后，获取多个电梯执行第一调度策略时，乘客的总等待时间，然后根据乘客的总等待时间与奖励值之间的对应关系，确定乘客的总等待时间对应的奖励值，即第一调度策略对应的第一奖励值。其中，乘客的总等待时间越长，对应的奖励值越低。

作为再一个示例，可以将生成的第一调度策略放入仿真环境中，以使多个电梯执行第一调度策略。然后，获取多个电梯执行第一调度策略时，多个电梯的能量总消耗及乘客的总等待时间，然后计算多个电梯的能量总消耗及乘客的总等待时间的加权和，根据加权和获取奖励值，其中，加权和越大对应的奖励值越低。

需要说明的是，也可将其参数作为评估指标，具体的根据实际需要选择。

本申请实施例中，在确定第一修正调度策略对应的第二奖励值时，也可以采用上述确定第一奖励值的方式，确定第二奖励值。

可以理解的是，在确定第一奖励值和第二奖励值，应考虑相同的评估指标。比如，若根据多个电梯执行第一调度策略时，多个电梯的能量总消耗，确定第一调度策略对应的第一奖励值，那么也根据多个电梯执行第一修正调度策略时，多个电梯的能量总消耗，确定第一修正调度策略对应的第二奖励值。

本申请实施例中，在依据第二预设的规则，确定第一调度策略对应的第一奖励值时，根据多个电梯执行第一调度策略时，多个电梯的能量总消耗，确定第一调度策略对应的第一奖励值，由此得到的调度模型考虑了电梯能量消耗，从而根据模型得到的调度策略调度电梯降低了能量消耗；根据多个电梯执行第一调度策略时，乘客的总等待时间，确定第一调度策略对应的第一奖励值，由此得到的调度模型考虑了乘客的等待时间，从而根据模型得到的调度策略调度电梯可以减少用户的等待时间；根据多个电梯执行第一调度策略时，多个电梯的能量总消耗及乘客的总等待时间，确定第一调度策略对应的第一奖励值，由此得到的调度模型考虑了电梯能量消耗和乘客的等待时间，从而根据模型得到的调度策略调度电梯可以在减少用户的等待时间同时，也能降低电梯能量消耗。

在实际应用中，得到第一修正调整策略可能没有第一调度策略好，也就是调整方向不对。基于此，在本申请的一个实施例中，可利用图2的方式解决，图2为本申请实施例提供的另一种电梯调度模型训练方法的流程示意图。

如图2所示，上述生成第一修正调度策略之后，还包括：

步骤201，若第一修正调度策略对应的第二奖励值小于或等于第一调度策略对应的第一奖励值，则依据第一预设的规则，继续调整第一调度策略，生成第二修正调度策略。

本实施例中，在确定第一调度策略对应的第一奖励值和第一修正调度策略对应的第二奖励值后，比较第一奖励值和第二奖励值，如果第二奖励值小于或等于第一奖励值，说明第一修正调度策略的调整方向是不对的，那么可依据第一预设的规则，继续调整第一调度策略，生成第二修正调度策略。

比如，仅将第一调度策略中电梯a的停靠楼层，由停靠2层和3层，调整为停靠2层和4层，其他电梯的调度策略不变，得到第一修正调度策略，但第二奖励值小于或等于第一奖励值，那么可仅将第一调度策略中电梯a的停靠楼层，由停靠2层和3层，调整为停靠2层和5层,其他电梯的调度策略不变，得到第二修正调度策略。

步骤202，判断第二修正调度策略对应的第三奖励值是否大于第一奖励值。

在获取第二修正调度策略后，还需要判断第二修正调度策略的修正方向是否正确。具体地，获取第二修正调度策略对应的第三奖励值，具体方法与获取第一奖励值的方法类似，在此不再赘述。在获取第三奖励值后，比较第三奖励值与第一奖励值，判断第二修正调度策略对应的第三奖励值是否大于第一奖励值。

可以理解的是，在获取第一奖励值、第二奖励值和第三奖励值时，考虑的评估指标相同。

步骤203，若第二修正调度策略对应的第三奖励值小于或等于第一奖励值，则继续调整第一调度策略，直至生成的修正调度策略对应的奖励值大于第一奖励值。

如果第二修正调度策略对应的第三奖励值小于或等于第一奖励值，说明第二修正调度策略的调整方向也不对，那么继续调整第一调度策略，将调整得到的调度策略对应的奖励值与第一奖励值比较，判断是否大于第一奖励值，如果否，则继续调整第一调度策略，直至生成的修正调度策略对应的奖励值大于第一奖励值，从而根据该修正调度策略与第一调度策略的差异，对初始调度模型进行反向传播修正。

本申请实施例中，在生成第一修正调度策略之后，若第一修正调度策略对应的第二奖励值小于或等于第一调度策略对应的第一奖励值，则依据第一预设的规则，继续调整第一调度策略，生成第二修正调度策略，然后判断第二修正调度策略对应的第三奖励值是否大于第一奖励值，若否，则继续调整第一调度策略，直至生成的修正调度策略对应的奖励值大于第一奖励值。由此，在第一修正调度策略对应的第二奖励值小于或等于第一调度策略时，继续调整直至得到奖励值大于第一奖励值的修正调度策略，从而保证顺利训练电梯调度模型。

为了实现上述实施例，本申请实施例还提出一种电梯调度模型训练装置。图3为本申请实施例提供的一种电梯调度模型训练装置的结构示意图。

如图3所示，该电梯调度模型训练装置300包括：获取模块310、第一生成模块320、第二生成模块330、确定模块340、修正模块350。

获取模块310，用于获取训练样本集，其中样本集中包括多个电梯在各时刻的运行状态信息；

第一生成模块320，用于利用初始调度模型，对多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与第一时刻的运行状态信息对应的第一调度策略；

第二生成模块330，用于依据第一预设的规则，生成与第一时刻的运行状态信息对应的第一修正调度策略；

确定模块340，用于依据第二预设的规则，确定第一调度策略对应的第一奖励值、及第一修正调度策略对应的第二奖励值；

修正模块350，用于当第二奖励值大于第一奖励值时，根据第一修正调度策略与第一调度策略的差异，对初始调度模型进行反向传播修正；

上述第一生成模块320，还用于利用修正后的模型继续对多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度。

在本申请实施例一种可能的实现方式中，上述调度策略中包括每个电梯的运行方向及停靠楼层；

上述第二生成模块330，具体用于：

调整第一调度策略中至少一个电梯的运行方向；

或者，调整第一调度策略中至少一个电梯的停靠楼层；

或者，调整第一调度策略中至少一个电梯的运行方向及停靠楼层；

或者，调整第一调度策略中至少一个电梯的运行方向、及另外至少一个电梯的停靠楼层。

在本申请实施例一种可能的实现方式中，上述第二生成模块330，具体用于：

在初始调度模型中增加随机噪声，以使初始调度模型生成与第一时刻的运行状态信息对应的第一修正调度策略。

在本申请实施例一种可能的实现方式中，上述确定模块，具体用于：

根据多个电梯执行第一调度策略时，多个电梯的能量总消耗，确定第一调度策略对应的第一奖励值；

或者，根据多个电梯执行第一调度策略时，乘客的总等待时间，确定第一调度策略对应的第一奖励值；

或者，根据多个电梯执行第一调度策略时，多个电梯的能量总消耗及乘客的总等待时间，确定第一调度策略对应的第一奖励值。

图4为本申请实施例提供的另一种电梯调度模型训练装置的结构示意图。

在本申请实施例一种可能的实现方式中，上述第二生成模块330，还用于当第一修正调度策略对应的第二奖励值小于或等于第一调度策略对应的第一奖励值时，依据第一预设的规则，继续调整第一调度策略，生成第二修正调度策略；

如图4所示，该装置还可包括：

判断模块360，用于判断第二修正调度策略对应的第三奖励值是否大于第一奖励值；

上述第二生成模块330，还用于当第二修正调度策略对应的第三奖励值小于或等于第一奖励值，继续调整第一调度策略，直至生成的修正调度策略对应的奖励值大于第一奖励值。

需要说明的是，前述电梯调度模型训练方法实施例的解释说明，也适用于该实施例的电梯调度模型训练装置，故在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的电梯调度模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的电梯调度模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的电梯调度模型训练方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的电梯调度模型训练方法对应的程序指令/模块(例如，附图3所示的获取模块310、第一生成模块320、第二生成模块330、确定模块340、修正模块350)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的电梯调度模型训练方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电梯调度模型训练电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至电梯调度模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电梯调度模型训练方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与电梯调度模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过利用多个电梯在各时刻的运行状态信息，训练电梯调度模型，利用调度模型对电梯进行控制，可以应用在不同的场景，也可协同控制多个电梯，控制方式可扩展性强，效率高。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种电梯调度模型训练方法，其特征在于，包括：

获取训练样本集，其中所述样本集中包括多个电梯在各时刻的运行状态信息，所述运行状态信息用于表示电梯在运行过程中的状态；

利用初始调度模型，对所述多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与所述第一时刻的运行状态信息对应的第一调度策略，所述第一调度策略中包括每个电梯的调度策略；

利用修正后的模型继续对所述多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度；

其中，所述依据第一预设的规则，生成与所述第一时刻的运行状态信息对应的第一修正调度策略，包括：

在所述初始调度模型中增加随机噪声，以使所述初始调度模型生成与所述第一时刻的运行状态信息对应的第一修正调度策略；

所述依据第二预设的规则，确定所述第一调度策略对应的第一奖励值，包括：

根据所述多个电梯执行所述第一调度策略时，多个电梯的能量总消耗，确定所述第一调度策略对应的第一奖励值；

或者，根据所述多个电梯执行所述第一调度策略时，乘客的总等待时间，确定所述第一调度策略对应的第一奖励值；

或者，根据所述多个电梯执行所述第一调度策略时，多个电梯的能量总消耗及乘客的总等待时间，确定所述第一调度策略对应的第一奖励值。

2.如权利要求1所述的电梯调度模型训练方法，其特征在于，所述调度策略中包括每个电梯的运行方向及停靠楼层；

所述依据第一预设的规则，生成与所述第一时刻的运行状态信息对应的第一修正调度策略，包括：

调整所述第一调度策略中至少一个电梯的运行方向；

或者，调整所述第一调度策略中至少一个电梯的停靠楼层；

或者，调整所述第一调度策略中至少一个电梯的运行方向及停靠楼层；

或者，调整所述第一调度策略中至少一个电梯的运行方向、及另外至少一个电梯的停靠楼层。

3.如权利要求1-2任一所述的电梯调度模型训练方法，其特征在于，所述生成第一修正调度策略之后，还包括：

若所述第一修正调度策略对应的第二奖励值小于或等于所述第一调度策略对应的第一奖励值，则依据所述第一预设的规则，继续调整所述第一调度策略，生成第二修正调度策略；

判断所述第二修正调度策略对应的第三奖励值是否大于所述第一奖励值，若否，则继续调整所述第一调度策略，直至生成的修正调度策略对应的奖励值大于所述第一奖励值。

4.一种电梯调度模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本集，其中所述样本集中包括多个电梯在各时刻的运行状态信息，所述运行状态信息用于表示电梯在运行过程中的状态；

第一生成模块，用于利用初始调度模型，对所述多个电梯在第一时刻的运行状态信息进行编码解码处理，生成与所述第一时刻的运行状态信息对应的第一调度策略，所述第一调度策略中包括每个电梯的调度策略；

所述第一生成模块，还用于利用修正后的模型继续对所述多个电梯的运行状态信息进行编码解码处理，直至生成的调度策略对应的奖励值在预设范围内，以利用生成的调度模型进行电梯调度；

其中，所述第二生成模块，具体用于：

所述确定模块，具体用于：

5.如权利要求4所述的电梯调度模型训练装置，其特征在于，所述调度策略中包括每个电梯的运行方向及停靠楼层；

所述第二生成模块，具体用于：

调整所述第一调度策略中至少一个电梯的运行方向；

或者，调整所述第一调度策略中至少一个电梯的停靠楼层；

6.如权利要求4-5任一所述的电梯调度模型训练装置，其特征在于，所述第二生成模块，还用于当所述第一修正调度策略对应的第二奖励值小于或等于所述第一调度策略对应的第一奖励值时，依据所述第一预设的规则，继续调整所述第一调度策略，生成第二修正调度策略；

所述装置还包括：

判断模块，用于判断所述第二修正调度策略对应的第三奖励值是否大于所述第一奖励值；

所述第二生成模块，还用于当所述第二修正调度策略对应的第三奖励值小于或等于所述第一奖励值，继续调整所述第一调度策略，直至生成的修正调度策略对应的奖励值大于所述第一奖励值。

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的电梯调度模型训练方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的电梯调度模型训练方法。