CN114399185A

CN114399185A - 一种基于强化学习的电动物流车队行为调度方法

Info

Publication number: CN114399185A
Application number: CN202210014498.1A
Authority: CN
Inventors: 丁肇豪; 黄媛
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-26

Abstract

本发明公开了一种基于强化学习的电动物流车队行为调度方法，具体包括：将车辆调度问题建立成马尔科夫决策问题；通过车辆的决策类型建模将车队的调度问题转换成订单分配问题；采用神经网络拟合车辆的状态价值并计算车辆的状态‑动作价值；利用迭代匹配算法确定最大状态‑动作价值和下车辆的调度动作；执行车辆选择的动作，将车辆新旧状态存入经验池中；从经验池中采样数据并更新神经网络参数。本发明提出的一种基于强化学习的电动物流车队行为调度方法，采用强化学习算法使车队在考虑充电电价时空分布的情况下确定车辆的充电时间和充电地点，即通过电价的引导确定车队的充电行为，发挥车队充电负荷分布的调度潜力。

Description

一种基于强化学习的电动物流车队行为调度方法

技术领域

本发明涉及电力系统中考虑电价时空分布特征的电动物流车队行为调度技术领域，特别是涉及了一种基于强化学习的电动物流车队行为调度方法。

背景技术

随着物联网和交通电气化技术的发展，越来越多的物流车辆通过云端平台协调车队的运营，并形成共享的按需绿色物流系统。在这种模式下，平台可以根据云端系统获取的信息，优化物流车辆的行为选择，包括物流订单接单、货物配送、和充电决策。与传统物流车队相比，共享的按需物流车队不仅能提供更好的服务质量保证，而且能更有效地协调其车辆调度决策。此外，可根据充电价格等电力系统运行信号，优化协调绿色物流车队的充电时间和充电地点。合理的车队行为调度不仅有利于降低物流车队的充电成本，还可以在相同数量车辆投入使用的情况下增加车队收益，同时可以经过车队在区域间不同时段内的调度来缓解区域间的负荷不平衡现象。

中国专利公开号CN112541627А公开了一种基于多种群协同进化遗传算法的车辆调度方法，通过迭代物流车的路径规划和性能参数来优化协同目标；中国专利公开号CN108764777A公开了一种考虑时间窗约束的电动物流车配送路径求解算法，该算法基于车辆配送参数的模拟情况将车队的调度问题建立成混合整数规划模型，并且在规划需求约束和充电约束下求解得到配送路径；上述两种方法均局限于电动物流车的路径选择问题，没有考虑动态物流需求对车队行为调度的影响，同时也忽略了电价信息对于车队充电行为时空尺度上的影响。

发明内容

为解决上述提到的技术问题，本发明提供了一种基于强化学习的电动物流车队行为调度方法。

本发明的设计目的通过以下技术方案实施：

提供一种基于强化学习的电动物流车队行为调度方法，包括以下步骤：

S1：从平台集中调度的角度出发，将车辆设置为智能体，将车队行为建模成类比于物流请求集合的订单集合，将车队行为调度问题转换成订单匹配问题，并建立成马尔科夫决策过程。其中包括车辆状态S；所有类型的订单集合为动作空间A；根据不同的订单匹配结果设计奖励机制R。

S2：设计无效动作屏蔽机制，将不同车辆不可选择的动作屏蔽，减小算法计算量，提高运行效率。设计迭代订单匹配算法，对于在同一区域内的车辆和订单进行匹配时，首先选出未匹配的订单集合和车辆集合；获取车辆针对各个动作的动作-状态价值表，按照车辆最大动作-状态行为价值匹配对应的订单；如果车辆的订单匹配产生矛盾，则将订单分配给动作-状态行为价值更大的车辆，落选车辆继续参与选单；直至所有车辆都匹配到订单。

S3：算法采用神经网络来拟合智能体的状态价值。基于动作-状态行为价值表，车队按照迭代订单匹配算法来选择订单并执行调度动作，然后更新车辆与环境的状态。采集需要规划的多个智能体与环境交互的历史信息存入经验池，再从中进行采样来训练神经网络。

作为进一步改进，以15分钟为间隔将一周时间划分为672个离散时间段，采用海口市连续100天的网约车出行订单数据，划分为网络训练集与测试集。

作为进一步改进，分别采用两个神经网络作为智能体状态价值估计网络与目标网络，在每个时段内，数据达到一定数量便采样更新状态价值估计网络，达到规定的更新次数后再用状态价值估计网络的参数更新目标网络。

作为进一步改进，在车辆执行完调度动作后，将车辆的新旧状态、获得的奖励和动作作为交互信息，存在经验池中，通过采样来训练状态价值估计网络，消除历史数据之间的强关联。

本发明提出的一种基于强化学习的电动物流车队行为调度方法，取得的技术效果为：

本发明基于车辆决策过程中不同的动作建立了不同类型的订单，将车队行为调度问题转换成订单匹配问题，更适合多类型动作决策的车队调度问题，基于载货信息(迟到的货物数量等)、车辆电量、充电区域的充电电价、区域内可用的充电桩数量、物流需求时空分和订单配送延迟风险来确定最有利于车队收益订单匹配结果，通过确定车队合理的行为调度来降低物流车队的充电成本、增加车队收益、实现不同充电区域内充电需求的再平衡。

附图说明

图1为本发明所提供的将车辆行为调度问题建立成马尔科夫决策的流程图。

图2为本发明所提供的基于车辆动作行为价值的迭代订单匹配方法流程图。

图3为本发明所提供的一种基于强化学习的电动物流车队行为调度方法的整体流程图。

具体实施方式

下面结合附图，对本发明作详细说明。

结合图1所示，本发明所提供的将车辆订单匹配模型建立成马尔科夫决策模型的建模方法如下所示：

S11：智能体状态包括当前时刻车辆所在位置、车辆电量、车上迟到的货物个数，当前所在位置是否为充电区域，当前区域电价类型；

S12：动作空间包括选择真实的物流请求、选择充电区域内的可用的充电桩进行充电、选择移动到其他区域继续送货或者响应新的物流请求；

S13：奖励机制包括接真实物流订单得到配送收益的一部分作为奖励；选择充电订单得到充电费用作为负奖励；选择移动到其他区域或者待在本区域得到奖励为0；交付物流订单得到物流订单尾款奖励；超时得到负的赔付惩罚。

结合图2所示，本发明所提供的迭代订单匹配算法如下所示：

S21：所有等待匹配的订单，包括未匹配的物流订单、移动到其他区域的调度订单、可用充电桩生成的充电订单；

S22：未调度的车辆按照最大动作-状态价值匹配订单；选到相同充电订单或者物流订单的车辆，将订单匹配给动作-状态价值更大的车辆；

S23：未匹配订单的车辆继续匹配，订单集合剔除已被选择的订单，包括已经匹配的物流订单和充电订单。

结合图3所示，本发明所提供的一种基于强化学习的电动物流车队行为调度方法，包括以下步骤：

S31：将研究区域划分为相同的六边形区域，设置高电价充电区域与低电价充电区域，设置单位区域内充电的数量，处理动态的物流需求，随时间不断公布新的物理请求集合。

S32：将车辆的调度行为都建模成类比于物流请求的订单形式，主要包括车辆充电行为建模成充电订单，车辆配送行为建模成车辆再平衡订单。

S32：初始化模型，将车辆建模成智能体，对不同订单类型进行建模，车辆状态设为s，车辆选择的调度动作设为a，车辆执行a后得到的奖励设为r，车辆状态从s转移的新状态设为s’。在每个时间步内，每辆车都作为一个智能体与环境进行交互，得到交互信息(s,a,r,s’)，并将这组信息存进经验回放池中，初始化经验回放池的容量为B；设立两个神经网络分别作为智能体的状态价值估计网络V(s；θ)与目标网络V’(s；θ)。

S33：在时刻t下，根据车辆状态和订单集合表示的动作空间，通过无效动作屏蔽机制计算出各个区域内所有车辆的可行表，表内元素都为0/1，0表示该车辆不可以匹配该订单，1表示可以匹配。

S34：在时刻t下，车辆需要判断所在位置(六边形区域编号)、车辆本身剩余电量、车上货物的迟到情况等获取车辆的状态s；利用S33计算的可行表和神经网络求得各个区域内车辆的动作-状态价值表；基于迭代订单匹配算法来确定车辆这一时刻的调度动作a；执行a，获得交互信息(s,a,r,s’)。

S35：将(s,a,r,s’)存进经验回访池，根据目标网络计算得到的目标值设为TargetQ＝(r+γ*V’(s,a))，其中γ为车辆未来收益的折扣因子，V’(s,a)为目标网络估算的状态价值；根据损失函数L(θ)＝E[(TargetQ-V(s；θ))²]更新估计网络的网络参数；当估计网络参数更新次数达到要求时，更新目标网络的参数。

以上对本发明实施例所提供的一种基于强化学习的电动物流车队行为调度方法进行了详细介绍，本文中利用具体实例对本发明的原理进行了介绍，用于阐述本发明的核心思想，不能将本说明书内容理解为对本发明保护范围的限制。

Claims

1.一种基于强化学习的电动物流车队行为调度方法，其特征在于，包括以下步骤：

S1：从平台集中调度的角度出发，将车辆设置为智能体，将车队行为建模成类比于物流请求集合的订单集合，将车队行为调度问题转换成订单匹配问题，并建立成马尔科夫决策过程，其中包括车辆状态S，所有类型的订单集合为动作空间A，根据不同的订单匹配结果设计奖励机制R；

S2：设计无效动作屏蔽机制，将不同车辆不可选择的动作屏蔽，减小算法计算量，提高运行效率；设计迭代订单匹配算法，对于在同一区域内的车辆和订单进行匹配时，首先选出未匹配的订单集合和车辆集合；获取车辆针对各个动作的动作-状态价值表，按照车辆最大动作-状态行为价值匹配对应的订单；如果车辆的订单匹配产生矛盾，则将订单分配给动作-状态行为价值更大的车辆，落选车辆继续参与选单；直至所有车辆都匹配到订单；

S3：算法采用神经网络来拟合智能体的状态价值，基于动作-状态行为价值表，车队按照迭代订单匹配算法来选择订单并执行调度动作，然后更新车辆与环境的状态，采集需要规划的多个智能体与环境交互的历史信息存入经验池，再从中进行采样来训练神经网络。

2.如权利要求1所述的方法，步骤S1中所述的订单类型建模方式，其特征在于：针对车队不同类型调度行为都具有适用性，通过强化学习和多类型订单匹配，可以协同优化车队行为调度问题。

3.如权利要求1所述的方法，步骤S2中所述的无效动作屏蔽方法，其特征在于：有效缩小车辆的动作空间，通过屏蔽不可行解提高算法效率。

4.如权利要求1所述的方法，步骤S2中所述的迭代订单匹配方法，其特征在于：可以有效避免同一区域内的车辆在匹配时订单时产生的矛盾问题，并且模拟了车辆在真实调度平台订单匹配时的落选问题。