CN114418213A - 一种基于深度强化学习的城市电动车辆调度方法和系统 - Google Patents

一种基于深度强化学习的城市电动车辆调度方法和系统 Download PDF

Info

Publication number
CN114418213A
CN114418213A CN202210056967.6A CN202210056967A CN114418213A CN 114418213 A CN114418213 A CN 114418213A CN 202210056967 A CN202210056967 A CN 202210056967A CN 114418213 A CN114418213 A CN 114418213A
Authority
CN
China
Prior art keywords
node
electric vehicle
time
decoder
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210056967.6A
Other languages
English (en)
Inventor
王甲海
黄欢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210056967.6A priority Critical patent/CN114418213A/zh
Publication of CN114418213A publication Critical patent/CN114418213A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的城市电动车辆调度方法和系统,方法为一种端到端的方法,给定问题实例作为输入,利用训练好的深度神经网络可以直接输出问题的解。具体地,提出了一个可以捕捉和提取边信息的图神经网络对策略进行建模,以有效地解决非对称车辆路径问题,且提出了一个软约束+硬约束的两阶段训练方法,以有效地处理带时间窗电动车辆路径问题中的复杂约束。与传统方法相比,它能在获得更好求解效果的前提下大幅度地缩减求解时间。

Description

一种基于深度强化学习的城市电动车辆调度方法和系统
技术领域
本发明涉及车辆路径问题领域,更具体地,涉及一种基于深度强化学习的城市电动车辆调度方法和系统。
背景技术
车辆路径问题(Vehicle Routing Problem,VRP)是指一定数量的客户,各自有不同数量的货物需求,配送中心向客户提供货物,由一个车队负责分送货物,组织适当的行车路线,目标是使得客户的需求得到满足,并能在一定的约束下,达到诸如路程最短、成本最小、耗费时间最少等目的。车辆路径问题是一类经典的组合优化问题,属于NP难问题。由于其具有广泛的应用性和经济上的重大价值,因此受到了国内外学者的广泛研究。车辆路径问题的实际问题包括配送中心配送、公共汽车、工业废品收集等。
在基本车辆路径问题的基础上,根据不同的问题设定,产生了不同类型的车辆路径问题。近年来,新能源电动汽车受到了广泛的应用,相比于传统汽车,新能源电动汽车使用的是可再生的和清洁的能源,具有绿色环保的巨大优势,其市场份额也在逐年升高,在能源和环保的压力下,新能源汽车无疑将成为未来汽车的发展方向,由此,也衍生了大量关于电动车辆路径问题的研究。带时间窗的电动车辆路径问题(Electric Vehicle RoutingProblem with Time Windows,EVRPTW)在基础车辆路径问题上增加了行驶里程约束和时间窗约束。具体地,给定一定数量的客户,每个客户有各自的货物需求和可被服务的时间窗,给定一个电动汽车车队,每一电动汽车具有有限的装载容量和有限的行驶里程,其从仓库出发,沿途在规定的时间窗内为客户提供货物,途中可访问充电站充电以增加行驶里程,最终在规定的最晚时间之前回到仓库,要求为该电动汽车车队组织适当的行驶路线,在满足客户需求及时间、容量、行驶里程约束下使得总的路径长度最短。
当前,求解车辆路径问题的方法主要可以分为精确算法、启发式/元启发式算法和深度强化学习优化算法。精确算法是可以求解得到全局最优解的算法,包括分支界限法、动态规划法等,由于车辆路径问题是NP难题,因此精确算法的计算量会随着问题规模呈指数级增长,难以扩展到大规模问题。启发式/元启发式算法是基于直观或经验构造的算法,其可以在可接受的计算时间内求出一个可行解,但无法保证解的质量,具体包括模拟退火、禁忌搜索、遗传算法等,启发式/元启发式算法一般是迭代型优化算法,当问题规模很大时大量的迭代搜索仍然会导致较大的计算量,且一旦问题发生变化便需要重新进行搜索求解,此外,启发式规则的设计通常需要对问题具有深入的了解和研究,导致了算法设计的困难。
深度强化学习优化算法是近年来兴起的一种求解方法,相比于传统方法,深度强化学习优化算法具有求解速度快、泛化能力强的优势,其可以分为两大类:一类是构造式方法,其采用端到端方式,给定问题实例作为输入,利用训练好的深度神经网络直接输出问题的解,其中神经网络的参数由深度强化学习训练得到,相对于传统的迭代型优化算法,构造式方法无需搜索而直接输出问题的解,具有求解速度快的优势,且模型一旦训练完成,便可以对具有相同分布特性的所有问题实例进行求解,具有一定的泛化能力,而传统算法则对于每一新的问题实例都需要从头开始进行搜索求解,十分耗时。另一类是提升式方法,其在迭代搜索框架下,利用深度强化学习对启发式规则进行学习和选择,通过学习到的规则进行解的迭代搜索,该类方法通过神经网络模型代替人为手工设计,从而降低了算法设计的困难性,由于其本质上仍然是迭代型优化算法,因此该类方法虽具有较好的优化效果,但是其求解速度则远不及构造式的端到端方法。
在现有的求解车辆路径问题的深度强化学习优化算法研究中,存在两点不足:其一是问题脱离现实场景,当前大多数研究都聚焦于对称的车辆路径问题,结点之间的距离为通过坐标计算而来的欧式距离,是对称的,然而,在现实的车辆路径问题中,结点之间的距离不可能是简单的欧式距离,也几乎不可能是对称的,因此有必要将深度强化学习优化算法推广到非对称的车辆路径问题上。其二是缺乏有效地约束处理机制来解决车辆路径问题中的复杂约束,当前在构造式深度强化学习优化算法的训练过程中通常采取直接屏蔽非法动作的方式对约束进行处理,该硬约束处理方法虽可保证生成可行解,但一定程度上影响了模型的求解质量。
现有技术中公开了一种求解带软时间窗物流运输车辆路径问题的方法,针对基于实时交通信息的带软时间窗物流运输车辆路径问题,采用时间窗惩罚机制,建立其数学模型;使用自适应混沌蚁群算法求解该模型,通过算法信息素的自适应更新和算法参数的混沌自适应调整来提高算法的寻优能力。该方法耗时久,无法很好的应用于实际案例中。
发明内容
本发明的首要目的是提供一种基于深度强化学习的城市电动车辆调度方法,在获得更好求解效果的前提下大幅度地缩减求解时间。
本发明的进一步目的是提供一种基于深度强化学习的城市电动车辆调度系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习的城市电动车辆调度方法,其特征在于,包括以下步骤:
S1:将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;
S2:使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;
S3:使用解码器进行解码,在每步解码中根据步骤S2中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;
S4:根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;
S5:将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。
进一步地,所述步骤S1中结点信息为vi=(di,ei,li,ti),其中,di表示客户需求,ei表示最早服务时间,li表示最晚服务时间,ti表示节点类型,且有:
Figure BDA0003476724990000031
其中,Vd,Vs,Vc分别表示仓库结点集合、充电站结点集合和客户结点集合。
进一步地,所述步骤S1中边信息为eij=(disij,timeij,aij),其中,disij表示距离,timeij表示时间,aij表示最近邻,且有:
Figure BDA0003476724990000032
进一步地,所述步骤S2具体包括以下步骤:
S2.1:使用两个嵌入层分别将所述结点信息vi和边信息eij映射成高维的特征向量,得到图神经网络的第一层输入
Figure BDA0003476724990000041
Figure BDA0003476724990000042
Figure BDA0003476724990000043
Figure BDA0003476724990000044
式中,WV,bV,WE,bE均为可训练的参数;
S2.2:使用图神经网络,将
Figure BDA0003476724990000045
Figure BDA0003476724990000046
经过N层图神经网络得到最终的特征向量表示,在图神经网络的每一层中,每一点和边都会聚集相邻点和边的信息以更新自身,其中点特征表示的更新方式为:
Figure BDA0003476724990000047
Figure BDA0003476724990000048
Figure BDA0003476724990000049
边特征表示的更新方式为:
Figure BDA00034767249900000410
Figure BDA00034767249900000411
Figure BDA00034767249900000412
其中MHA是多头注意力子层,FF是全连接子层,BN是批正则化子层,;表示拼接操作,σ是激活函数Relu,
Figure BDA00034767249900000413
均为可训练的参数,最后一层图神经网络的输出即为所有点信息和边信息经过编码器编码得到的特征向量表示。
进一步地,所述步骤S3具体包括以下步骤:
S3.1:根据编码器编码得到的点和边的特征向量表示以及当前解码步的车辆状态信息和历史路径信息,先使用glimpse机制计算出一个查询向量,具体地,假设车辆当前在i结点,则计算出查询向量:
ct=WCCt+bC
Figure BDA00034767249900000414
ht=GRUt(hi)
式中,MHA表示多头注意力层,WC,bC均为可训练的参数,Ct=(Tt,Dt,Bt)表示当前车辆状态信息,Tt是当前时间,Dt是剩余容量,Bt是剩余行驶里程,hj
Figure BDA0003476724990000051
表示对应点和边的特征向量表示;
S3.2:采取注意力机制,根据查询向量qt及与结点i相邻点和边的隐向量计算出每一结点的权重,即概率分布pt
Figure BDA0003476724990000052
Figure BDA0003476724990000053
pt=softmax(ut)
其中WQ,WK为可训练的参数,C为常数,dh为Qt的维度,
Figure BDA0003476724990000054
表示在
t步解码时结点j可以被选择,反之则表示不能被选择,在软约束处理方法中,
当遇到如下情况之一时有
Figure BDA0003476724990000055
·i=j;
·结点i为仓库或充电站且结点j为充电站;
·结点j为客户且已经被访问过;
在硬约束处理方法中,当遇到如下情况之一时有
Figure BDA0003476724990000056
·i=j;
·结点i为仓库或充电站且结点j为充电站;
·结点j为客户且已经被访问过;
·车辆剩余容量小于结点j的需求量,即Dt<dj
·到达结点j的时间会晚于结点j的最晚服务时间,即Tt+timeij>lj
·剩余行驶里程不支持到达结点j,即Bt<disij
·到达结点j后的剩余行驶里程不支持到达任一仓库或充电站;
S3.3:根据概率分布pt,选择一个结点j进行访问即执行一个动作,将此结点j加入到历史路径π中,并更新车辆状态信息,当前时间更新为:
Figure BDA0003476724990000057
其中,s是服务时间,c是充电时间;
当前剩余容量更新为:
Figure BDA0003476724990000058
其中,Dmax是车辆最大装载容量;
当前剩余行驶里程更新为:
Figure BDA0003476724990000061
其中Bmax是车辆最大行驶里程;
S3.4:重复步骤S3.1~S3.3,直至车辆服务完所有客户结点且返回到仓库,该过程中选择的结点序列即为问题的解。
进一步地,所述步骤S3.3中选择一个结点j进行访问,有两种选择方法,一种为贪心策略,每步均选择概率最大的结点;另一种为随机策略,即结点被选择的概率为解码器输出的概率。
进一步地,所述步骤S4中根据所述问题的解计算出总回报,具体为:
Figure BDA0003476724990000062
式中,π={i0,i1,…,iT}表示结点序列即问题的解,α,β,γ均为常系数。
进一步地,所述步骤S4中使用REINFORCE算法对编码器和解码器的参数进行更新,具体为:
Figure BDA0003476724990000063
Figure BDA0003476724990000064
Figure BDA0003476724990000065
其中s表示问题实例,b(s)是当前策略网络greedy解码方式求得的解的总回报,引入它的目的是减小策略梯度的方差,使训练稳定,Adam是Adam优化器。
进一步地,所述步骤S5中训练好的编码器和解码器,具体为:
随机生成仿真算例集,并将所有问题实例分成训练集、验证集和测试集,使用训练集对编码器和解码器进行多次训练,其中前一阶段训练中采用软约束处理方法,后一阶段训练中采用硬约束处理方法,在每个批次训练完成后均在验证集上进行一次求解评估,取在验证集上表现最好的编码器和解码器用于求解带时间窗电动车辆路径问题。
一种基于深度强化学习的城市电动车辆调度系统,包括:
图建模模块,所述图建模模块将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;
编码模块,所述编码模块使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;
解码模块,所述解码模块使用解码器进行解码,在每步解码中根据编码模块中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;
参数更新模块,所述参数更新模块根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;
求解模块,所述求解模块将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。
与现有技术相比,本发明技术方案的有益效果是:
1、本发明设计了求解非对称带时间窗电动车辆路径问题的深度强化学习优化算法,与传统方法相比,它能在获得相当或更好求解效果的前提下大幅度地缩减求解时间,且训练好的模型可以求解具有相同分布特性的问题实例,具有求解速度快、泛化能力强的优势。
2、本发明设计的捕捉和提取边信息的图神经网络可以有效地解决非对称车辆路径问题,使得算法具有广泛的应用性和实际意义。
3、本发明提出的软约束+硬约束的两阶段训练方法使得模型可以较好地应对复杂约束,获得更好的求解效果,该方法也容易推广到其他带复杂约束的组合优化问题上。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的模型结构示意图。
图3为本发明的系统模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于深度强化学习的城市电动车辆调度方法,如图1至图2所示,包括以下步骤:
S1:将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;
S2:使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;
S3:使用解码器进行解码,在每步解码中根据步骤S2中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;
S4:根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;
S5:将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。
本实施例是一种基于深度强化学习的带时间窗电动车辆问题求解方法,是一种端到端方法,给定问题实例作为输入,利用训练好的深度神经网络可以直接输出问题的解,模型一旦训练完成,便可以对具有相同分布特性的所有问题实例进行求解,因此具有求解速度快、泛化能力强的优势。首先组织得到问题实例的点信息和边信息并作数据预处理,然后将问题实例的点信息和边信息输入到编码器中编码得到相应的特征向量表示,再使用解码器对点和边的特征向量表示以及车辆状态信息和历史路径信息进行序列解码得到结点序列即问题的解,最后根据解计算出总回报并更新模型参数,重复如上步骤若干次得到训练好的模型即可用于求解带时间窗电动车辆路径问题。
所述步骤S1中结点信息为vi=(di,ei,li,ti),其中,di表示客户需求,ei表示最早服务时间,li表示最晚服务时间,ti表示节点类型,且有:
Figure BDA0003476724990000091
其中,Vd,Vs,Vc分别表示仓库结点集合、充电站结点集合和客户结点集合。
所述步骤S1中边信息为eij=(disij,timeij,aij),其中,disij表示距离,timeij表示时间,aij表示最近邻,且有:
Figure BDA0003476724990000092
再根据车辆最大装载容量、车辆最大行驶里程和车辆最早出发时间与最晚返回时间分别对所有点信息和边信息的需求、距离和时间进行归一化。
所述步骤S2具体包括以下步骤:
S2.1:使用两个嵌入层分别将所述结点信息vi和边信息eij映射成高维的特征向量,得到图神经网络的第一层输入
Figure BDA0003476724990000093
Figure BDA0003476724990000094
Figure BDA0003476724990000095
Figure BDA0003476724990000096
式中,WV,bV,WE,bE均为可训练的参数;
S2.2:使用图神经网络,将
Figure BDA0003476724990000097
Figure BDA0003476724990000098
经过N层图神经网络得到最终的特征向量表示,在图神经网络的每一层中,每一点和边都会聚集相邻点和边的信息以更新自身,其中点特征表示的更新方式为:
Figure BDA0003476724990000099
Figure BDA00034767249900000910
Figure BDA00034767249900000911
边特征表示的更新方式为:
Figure BDA00034767249900000912
Figure BDA00034767249900000913
Figure BDA00034767249900000914
其中MHA是多头注意力子层,FF是全连接子层,BN是批正则化子层,;表示拼接操作,σ是激活函数Relu,
Figure BDA00034767249900000915
均为可训练的参数,最后一层图神经网络的输出即为所有点信息和边信息经过编码器编码得到的特征向量表示。
所述步骤S3具体包括以下步骤:
S3.1:根据编码器编码得到的点和边的特征向量表示以及当前解码步的车辆状态信息和历史路径信息,先使用glimpse机制计算出一个查询向量,具体地,假设车辆当前在i结点,则计算出查询向量:
ct=WCCt+bC
Figure BDA0003476724990000101
ht=DRUt(hi)
式中,MHA表示多头注意力层,WC,bC均为可训练的参数,Ct=(Tt,Dt,Bt)表示当前车辆状态信息,Tt是当前时间,Dt是剩余容量,Bt是剩余行驶里程,hj
Figure BDA0003476724990000102
表示对应点和边的特征向量表示;
S3.2:采取注意力机制,根据查询向量qt及与结点i相邻点和边的隐向量计算出每一结点的权重,即概率分布pt
Figure BDA0003476724990000103
Figure BDA0003476724990000104
pt=softmax(ut)
其中WQ,WK为可训练的参数,C为常数,dh为Qt的维度,
Figure BDA0003476724990000105
表示在t步解码时结点j可以被选择,反之则表示不能被选择,引入mask的目的是保证生成可行解,这里设计了软约束和硬约束两种约束处理方法,在软约束处理方法中,当遇到如下情况之一时有
Figure BDA0003476724990000106
·i=j;
·结点i为仓库或充电站且结点j为充电站;
·结点j为客户且已经被访问过;
在硬约束处理方法中,当遇到如下情况之一时有
Figure BDA0003476724990000107
·i=j;
·结点i为仓库或充电站且结点j为充电站;
·结点j为客户且已经被访问过;
·车辆剩余容量小于结点j的需求量,即Dt<dj
·到达结点j的时间会晚于结点j的最晚服务时间,即Tt+timeij>lj
·剩余行驶里程不支持到达结点j,即Bt<disij
·到达结点j后的剩余行驶里程不支持到达任一仓库或充电站;
S3.3:根据概率分布pt,选择一个结点j进行访问即执行一个动作,将此结点j加入到历史路径π中,并更新车辆状态信息,当前时间更新为:
Figure BDA0003476724990000111
其中,s是服务时间,c是充电时间;
当前剩余容量更新为:
Figure BDA0003476724990000112
其中,Dmax是车辆最大装载容量;
当前剩余行驶里程更新为:
Figure BDA0003476724990000113
其中Bmax是车辆最大行驶里程;
S3.4:重复步骤S3.1~S3.3,直至车辆服务完所有客户结点且返回到仓库,该过程中选择的结点序列即为问题的解。
所述步骤S3.3中选择一个结点j进行访问,有两种选择方法,一种为贪心策略,每步均选择概率最大的结点;另一种为随机策略,即结点被选择的概率为解码器输出的概率。
所述步骤S4中根据所述问题的解计算出总回报,具体为:
Figure BDA0003476724990000114
式中,π={i0,i1,…,iT}表示结点序列即问题的解,α,β,γ均为常系数。
所述步骤S4中使用REINFORCE算法对编码器和解码器的参数进行更新,具体为:
Figure BDA0003476724990000116
Figure BDA0003476724990000121
Figure BDA0003476724990000122
其中s表示问题实例,b(s)是当前策略网络greedy解码方式求得的解的总回报,引入它的目的是减小策略梯度的方差,使训练稳定,Adam是Adam优化器。
所述步骤S5中训练好的编码器和解码器,具体为:
随机生成仿真算例集,并将所有问题实例分成训练集、验证集和测试集,使用训练集对编码器和解码器进行多次训练,其中前一阶段训练中采用软约束处理方法,后一阶段训练中采用硬约束处理方法,在每个批次训练完成后均在验证集上进行一次求解评估,取在验证集上表现最好的编码器和解码器用于求解带时间窗电动车辆路径问题。
实施例2
本实施例提供实施例1的一个具体实施例,具体为:
通过随机生成的仿真算例集进行评估,并分为训练集、验证集和测试集。其中训练集有32000个算例,每个算例包含有S=2个充电站结点和C=20个客户结点,验证集有1000个算例,每个算例也包含有S=2个充电站结点和C=20个客户结点,测试集有三种算例,每种算例均有1000个,三种算例分别包含S=2个充电站结点和C=20个客户结点(S2-C20)、S=5个充电站结点和C=50个客户结点(S5-C50)、S=10个充电站结点和C=100个客户结点(S10-C100)。使用测试集对训练好的模型进行测试并记录实验结果,模型在测试时采用greedy和sample两种解码方式,sample解码方式对每一算例采集1280条路径并选取其中最好结果。
本发明使用两个评价指标进行衡量:
1、求解质量:表示平均每个算例求得的解的总路径长度。
2、求解时间:表示平均每个算例求解所用时间。
表1本发明在测试集上与其他对比方法的求解质量实验结果(单位:m,真实结果除以1e5)
方法 S2-C20 S5-C50 S10-C100
OR-Tools 5.9124 16.0137 -
SA 5.7714 11.6925 20.4695
RL(greedy) 6.5543 13.1467 23.1973
RL(sample) 6.1120 12.1550 21.5154
本发明(greedy) 6.2472 12.6422 22.0075
本发明(sample) 5.9028 11.6041 20.8789
表2本发明在测试集上与其他对比方法的求解时间实验结果(单位:s)
方法 S2-C20 S5-C50 S10-C100
OR-Tools 54.26 56.38 -
SA 27.79 49.87 105.22
RL 0.82 1.44 2.17
本发明 0.53 0.78 1.13
由上述实验结果可知,本发明较其他方法可以在大幅度缩减求解时间的情况下取得较好的求解效果。
实施例3
本实施例提供一种基于深度强化学习的城市电动车辆调度系统,如图3所示,包括:
图建模模块,所述图建模模块将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;
编码模块,所述编码模块使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;
解码模块,所述解码模块使用解码器进行解码,在每步解码中根据编码模块中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;
参数更新模块,所述参数更新模块根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;
求解模块,所述求解模块将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度强化学习的城市电动车辆调度方法,其特征在于,包括以下步骤:
S1:将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;
S2:使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;
S3:使用解码器进行解码,在每步解码中根据步骤S2中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;
S4:根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;
S5:将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。
2.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S1中结点信息为vi=(di,ei,li,ti),其中,di表示客户需求,ei表示最早服务时间,li表示最晚服务时间,ti表示节点类型,且有:
Figure FDA0003476724980000011
其中,Vd,Vs,Vc分别表示仓库结点集合、充电站结点集合和客户结点集合。
3.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S1中边信息为eij=(disij,timeij,aij),其中,disij表示距离,timeij表示时间,aij表示最近邻,且有:
Figure FDA0003476724980000012
4.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S2具体包括以下步骤:
S2.1:使用两个嵌入层分别将所述结点信息vi和边信息eij映射成高维的特征向量,得到图神经网络的第一层输入
Figure FDA0003476724980000013
Figure FDA0003476724980000014
Figure FDA0003476724980000021
Figure FDA0003476724980000022
式中,WV,bV,WE,bE均为可训练的参数;
S2.2:使用图神经网络,将
Figure FDA0003476724980000023
Figure FDA0003476724980000024
经过N层图神经网络得到最终的特征向量表示,在图神经网络的每一层中,每一点和边都会聚集相邻点和边的信息以更新自身,其中点特征表示的更新方式为:
Figure FDA0003476724980000025
Figure FDA0003476724980000026
Figure FDA0003476724980000027
边特征表示的更新方式为:
Figure FDA0003476724980000028
Figure FDA0003476724980000029
Figure FDA00034767249800000210
其中MHA是多头注意力子层,FF是全连接子层,BN是批正则化子层,;表示拼接操作,σ是激活函数Relu,
Figure FDA00034767249800000211
均为可训练的参数,最后一层图神经网络的输出即为所有点信息和边信息经过编码器编码得到的特征向量表示。
5.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S3具体包括以下步骤:
S3.1:根据编码器编码得到的点和边的特征向量表示以及当前解码步的车辆状态信息和历史路径信息,先使用glimpse机制计算出一个查询向量,具体地,假设车辆当前在i结点,则计算出查询向量:
ct=WCCt+bC
Figure FDA00034767249800000212
ht=GRUt(hi)
式中,MHA表示多头注意力层,WC,bC均为可训练的参数,Ct=(Tt,Dt,Bt)表示当前车辆状态信息,Tt是当前时间,Dt是剩余容量,Bt是剩余行驶里程,hj
Figure FDA00034767249800000213
表示对应点和边的特征向量表示;
S3.2:采取注意力机制,根据查询向量qt及与结点i相邻点和边的隐向量计算出每一结点的权重,即概率分布pt
Figure FDA0003476724980000031
Figure FDA0003476724980000032
pt=softmax(ut)
其中WQ,WK为可训练的参数,C为常数,dh为Qt的维度,
Figure FDA0003476724980000033
表示在t步解码时结点j可以被选择,反之则表示不能被选择,在软约束处理方法中,当遇到如下情况之一时有
Figure FDA0003476724980000034
·i=j;
·结点i为仓库或充电站且结点j为充电站;
·结点j为客户且已经被访问过;
在硬约束处理方法中,当遇到如下情况之一时有
Figure FDA0003476724980000035
·i=j;
·结点i为仓库或充电站且结点j为充电站;
·结点j为客户且已经被访问过;
·车辆剩余容量小于结点j的需求量,即Dt<dj
·到达结点j的时间会晚于结点j的最晚服务时间,即Tt+timeij>lj
·剩余行驶里程不支持到达结点j,即Bt<disij
·到达结点j后的剩余行驶里程不支持到达任一仓库或充电站;
S3.3:根据概率分布pt,选择一个结点j进行访问即执行一个动作,将此结点j加入到历史路径π中,并更新车辆状态信息,当前时间更新为:
Figure FDA0003476724980000036
其中,s是服务时间,c是充电时间;
当前剩余容量更新为:
Figure FDA0003476724980000037
其中,Dmax是车辆最大装载容量;
当前剩余行驶里程更新为:
Figure FDA0003476724980000038
其中Bmax是车辆最大行驶里程;
S3.4:重复步骤S3.1~S3.3,直至车辆服务完所有客户结点且返回到仓库,该过程中选择的结点序列即为问题的解。
6.根据权利要求5所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S3.3中选择一个结点j进行访问,有两种选择方法,一种为贪心策略,每步均选择概率最大的结点;另一种为随机策略,即结点被选择的概率为解码器输出的概率。
7.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S4中根据所述问题的解计算出总回报,具体为:
Figure FDA0003476724980000041
式中,π={i0,i1,…,iT}表示结点序列即问题的解,α,β,γ均为常系数。
8.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S4中使用REINFORCE算法对编码器和解码器的参数进行更新,具体为:
Figure FDA0003476724980000042
Figure FDA0003476724980000043
Figure FDA0003476724980000044
其中s表示问题实例,b(s)是当前策略网络greedy解码方式求得的解的总回报,引入它的目的是减小策略梯度的方差,使训练稳定,Adam是Adam优化器。
9.根据权利要求1所述的基于深度强化学习的城市电动车辆调度方法,其特征在于,所述步骤S5中训练好的编码器和解码器,具体为:
随机生成仿真算例集,并将所有问题实例分成训练集、验证集和测试集,使用训练集对编码器和解码器进行多次训练,其中前一阶段训练中采用软约束处理方法,后一阶段训练中采用硬约束处理方法,在每个批次训练完成后均在验证集上进行一次求解评估,取在验证集上表现最好的编码器和解码器用于求解带时间窗电动车辆路径问题。
10.一种基于深度强化学习的城市电动车辆调度系统,其特征在于,包括:
图建模模块,所述图建模模块将带时间窗电动车辆路径问题建模成一个有向完全图,仓库、充电站和客户为图中的结点,任意两个结点之间通过边相连接,对需求、距离和时间数据分别进行归一化处理;
编码模块,所述编码模块使用编码器分别对所述有向完全图中的点信息和边信息进行编码得到对应的特征表示;
解码模块,所述解码模块使用解码器进行解码,在每步解码中根据编码模块中得到的点和边的特征表示以及当前车辆状态信息和历史路径信息,以自回归的方式逐步构造路径,得到问题的解;
参数更新模块,所述参数更新模块根据所述问题的解计算出总回报,使用REINFORCE算法对编码器和解码器的参数进行更新;
求解模块,所述求解模块将训练好的编码器和解码器用于求解带时间窗电动车辆路径问题。
CN202210056967.6A 2022-01-18 2022-01-18 一种基于深度强化学习的城市电动车辆调度方法和系统 Pending CN114418213A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210056967.6A CN114418213A (zh) 2022-01-18 2022-01-18 一种基于深度强化学习的城市电动车辆调度方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210056967.6A CN114418213A (zh) 2022-01-18 2022-01-18 一种基于深度强化学习的城市电动车辆调度方法和系统

Publications (1)

Publication Number Publication Date
CN114418213A true CN114418213A (zh) 2022-04-29

Family

ID=81274128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210056967.6A Pending CN114418213A (zh) 2022-01-18 2022-01-18 一种基于深度强化学习的城市电动车辆调度方法和系统

Country Status (1)

Country Link
CN (1) CN114418213A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063066A (zh) * 2022-05-26 2022-09-16 电子科技大学 一种基于图卷积的零部件供应循环包装箱配送调度方法
CN115545350A (zh) * 2022-11-28 2022-12-30 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN116976540A (zh) * 2023-09-21 2023-10-31 上海银行股份有限公司 复合场景下的银行现金配送线路规划方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063066A (zh) * 2022-05-26 2022-09-16 电子科技大学 一种基于图卷积的零部件供应循环包装箱配送调度方法
CN115545350A (zh) * 2022-11-28 2022-12-30 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN115545350B (zh) * 2022-11-28 2024-01-16 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN116976540A (zh) * 2023-09-21 2023-10-31 上海银行股份有限公司 复合场景下的银行现金配送线路规划方法
CN116976540B (zh) * 2023-09-21 2023-12-22 上海银行股份有限公司 复合场景下的银行现金配送线路规划方法

Similar Documents

Publication Publication Date Title
CN109887282B (zh) 一种基于层级时序图卷积网络的路网交通流预测方法
CN114418213A (zh) 一种基于深度强化学习的城市电动车辆调度方法和系统
He et al. Research on a novel combination system on the basis of deep learning and swarm intelligence optimization algorithm for wind speed forecasting
CN109215344B (zh) 用于城市道路短时交通流量预测的方法和系统
CN112785029B (zh) 一种基于深度聚类模型的充电站用电量预测方法
CN111507488A (zh) 一种基于vr的车辆维修保养辅助系统
Sheng et al. A pointer neural network for the vehicle routing problem with task priority and limited resources
CN115392143A (zh) 一种基于深度强化学习的移动储能充放电时空规划方法
CN117273380A (zh) 一种面向不同出行场景的出行方案规划及推荐方法和系统
CN111598620A (zh) 二手车远程精准定价系统
CN116612633A (zh) 一种基于车路协同感知下的自适应动态路径规划方法
CN114861972A (zh) 基于遗传和鲸鱼混合算法的混合车辆路径优化方法和系统
Tang et al. Energy-oriented routing strategy of electric vehicle: An end-to-end reinforcement learning approach
CN114861971A (zh) 最小化成本为目标的混合车辆路径优化方法和系统
CN114444737A (zh) 基于迁移学习的路面养护智能规划方法
CN113988570A (zh) 一种基于多目标进化算法的旅游大巴车调度优化方法
CN113705891A (zh) 基于mra-bas-bp算法的城市商办综合体建筑停车需求预测方法
Zhu et al. Improved harmony search algorithm for bus scheduling optimization
Chen et al. A bidirectional context-aware and multi-scale fusion hybrid network for short-term traffic flow prediction
CN112270047A (zh) 基于数据驱动的群体智能计算的城市车辆路径优化方法
Chen et al. Design and implementation of intelligent logistics path information system based on improved genetic algorithm
CN116402320B (zh) 一种冷链运单的配送运力匹配方法
CN117172394B (zh) 一种基于覆盖旅行商问题求解的急救队路径规划方法
CN118278843A (zh) 一种基于深度强化学习的o2o外卖取送货路径规划方法
Gai et al. Research on prediction model of National Railway Freight Volume based on GA-BP network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination