CN111415048A - 一种基于强化学习的车辆路径规划方法 - Google Patents

一种基于强化学习的车辆路径规划方法 Download PDF

Info

Publication number
CN111415048A
CN111415048A CN202010280643.1A CN202010280643A CN111415048A CN 111415048 A CN111415048 A CN 111415048A CN 202010280643 A CN202010280643 A CN 202010280643A CN 111415048 A CN111415048 A CN 111415048A
Authority
CN
China
Prior art keywords
node
nodes
current
reinforcement learning
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010280643.1A
Other languages
English (en)
Other versions
CN111415048B (zh
Inventor
高健
蒋佳浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202010280643.1A priority Critical patent/CN111415048B/zh
Publication of CN111415048A publication Critical patent/CN111415048A/zh
Application granted granted Critical
Publication of CN111415048B publication Critical patent/CN111415048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0838Historical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种基于强化学习的车辆路径规划方法,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线。本发明基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状况和配送目标节点数变化的情况下动态规划行车路径的目的。本方法考虑现实生活中复杂多变的道路交通情况和配送目标数不定的配送任务,动态调整行车路线,从而提高运输效率并降低成本。

Description

一种基于强化学习的车辆路径规划方法
技术领域
本发明涉及智能交通领域,具体而言,尤其涉及一种基于强化学习的车辆路径规划方法。
背景技术
车辆路径有效规划是物流管理、公交与出租客运、以及从事相关领域运营等服务的重要环节,有助于提高运输效率并降低成本。
Oriol Vinyals等(Vinyals O,Fortunato M,Jaitly N.Pointer networks[C]Advances in Neural Information Processing Systems.2015:2692-2700.)提出了一种简单而有效的架构称为Pointer Net来学习组合优化问题,该模型首次采用机器学习的方法来求组合优化问题,在sequence-to-sequence和Neural Turing Machines的基础上使用神经注意机制解决了可变大小输出字典的问题,并采用监督学习的方式来训练模型,以纯粹的数据驱动方法来学习计算难以处理的问题的近似解。
Irwan Bello等(Bello I,Pham H,Le Q V,et al.Neural combinatorialoptimization with reinforcement learning[J].arXiv preprint arXiv:1611.09940,2016.)改进了Vinyals等[1]提出的指针网络,提出了一种利用强化学习和神经网络来解决组合优化问题的框架-神经组合优化,其中决策指针网络由两个长短期记忆网络(LSTM)构成,采用Policy-gradient算法优化决策网络。为将神经网络作为解决组合优化问题的通用工具提供了一条有趣的研究途径。
Khalil E等(Khalil E,Dai H,Zhang Y,et al.Learning combinatorialoptimization algorithms over graphs[C]Advances in Neural InformationProcessing Systems.2017:6348-6358.)提出了一个端到端的机器学习框架,称为S2V-DQN,用于为图上的NP-hard组合优化问题自动设计贪心启发式算法,方法的核心是深度图嵌入与强化学习的结合。框架主要由两部分组成,首先采用Structure2Vec图形嵌入网络形嵌入网络对当前的图对当前的图形结构进行编码,采用采用强化学习中的Deep QLearning DQN算法进行训练,优化决策网络。学习策略的行为类似于逐步构建解决方案的元算法,其动作由图形嵌入网络在解决方案的当前状态上确定。该框架的主要优点是充分利用了图的结构来学习启发式算法,学习得到的启发式算法在相似的图结构中可以通用。
上述提到的方法都是在已知模型的情况下进行求解的,即已知各个节点之间的二维欧几里德距离。然而在现实配送中通常存在配送时间最短,或在规定时间内完成配送的目标。配送时间通常受到城市交通状况的影响,而交通情况在每个时间段通常是变化的,即在每个时间段两个节点之间的权重(时间)不是固定不变的,而且每天配送任务的目标节点数也是在某个范围内动态变化的。现实中通常我们可以得到的是某个区域内配送过程中记录的历史数据,即从某个节点到某个节点在某个时间段花费了多长的时间,基于历史配送数据采用机器学习的方法基于不同节点数来规划配送路线,达到最小化配送时间的目标,上述方法不适用于此类问题的求解。
发明内容
根据上述提出的现有方法与交通情况在每个时间段均有变化且配送节点数不定的实际情况不适配的技术问题,而提供了一种基于强化学习的车辆路径规划方法。本发明基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状态和配送目标节点数变化的情况下动态规划行车路径的目的。
本发明采用的技术手段如下:
1、一种基于强化学习的车辆路径规划方法,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线;
所述决策网络的工作过程包括:
S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息;
S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量
Figure BDA0002446446450000031
输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值;
S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集;
S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列;
S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2;
S6、根据训练数据构成的有向图预估决策得到的路径序列时长;
S7、修改探索记录中每个时间步的奖励为路径序列时长的负数;
S8、将本轮探测的所有探索记录存入经验回放集合R中;
S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。
较现有技术相比,本发明具有以下优点:
本发明基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状态和配送目标节点数变化的情况下动态规划行车路径的目的。与在有模型的基础上进行路径规划的方法相比,该方法可以适应复杂多变的道路交通情况和配送目标节点数不定的情况,动态调整行车路线,从而提高运输效率并降低成本。
基于上述理由本发明可在物流管理,公交与出租客运以及相关领域运营等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为实施例中训练数据的预处理示意图。
图2为实施例中状态转换示意图。
图3为实施例中模型整体训练流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提出一种基于强化学习的车辆路径规划方法,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线。
具体的,本发明实施例基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状态和目标节点数变化的情况下动态规划行车路径的目的。本发明实施例中决策网络的工作过程包括:
S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息。
S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量
Figure BDA0002446446450000041
输入到全连接神经网络,计算输出每个动作对应的评价Q值,Q值是通过神经网络计算输出。
S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集。
S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列。
S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2。
S6、根据训练数据构成的有向图预估决策得到的路径序列时长。
S7、修改探索记录中每个时间步的奖励为路径序列时长的负数。
S8、将本轮探测的所有探索记录存入经验回放集合R中。
S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。
S10、每隔e轮,测试模型表现,具体为:从所有客户节点中随机选取n个节点,
Figure BDA0002446446450000051
其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与LKH(Lin-Kernighan-Helsgaun)算法、2-opt算法、贪婪算法等计算得到的路程序列时长进行比较,评估当前模型优劣。
由图1所示,本发明实施例中,时段加权有向图根据历史配送数据构建的。具体实施时,从某个地区的包裹配送路线信息中获取训练数据集,其中路线信息包含起始节点、到达节点、出发时间、到达时间等。时段加权有向图的构建主要包括两个部分:
(1)按时段归类划分数据集:作为本发明较佳的实施方式,将24小时从零点开始划分为24个时段,每个时段间隔为1小时,将路线信息依据出发时间归类划分到相应的时段。
(2)构建时段加权有向图:基于每个时间段的路线数据构建加权有向图,边的始点为路线起始节点,终点为到达节点,权重为花费时长。两个节点之间可能存在多条边或不存在边,存在多条边即表示在该时间段两个节点之间存在多个不同配送时间,不存在边即表示在该时间段两个节点之间在训练数据集中不存在数据。
本发明实施例中,采用强化习中的Deep Q-learning算法来训练决策网络模型,模型构建中强化学习中各要素定义如下:
环境要素E:客户节点集N和仓库节点D构成的有向图,边权重为从一个节点到另一个节点的路程所需时间(单位:h)。定义E=<G1,G2,…,G24>,由24个时间段的有向图组成。
状态空间X:定义状态序列S={si,i=1,…,n},si=(y,t)表示节点i在t时刻的状态,其中节点访问状态y包含两种:已被访问表示为0,未被访问表示为1,t表示当前时刻。所有节点的当前状态组成的序列表示为当前的环境状态,所有可能的环境状态构成状态空间X。
状态转换函数:定义状态转换函数为f,S′=f(S),f的具体定义如下:①y更新:访问i节点,则yi=0,yk=yk for k≠i,仅更新被访问的节点i的y,其余节点的y不变。②所有节点的t更新为当前时刻。
动作A:定义动作集A为3个启发式算法,其中定义0号策略为考虑全部未访问节点的LKH算法,考虑全局优化。定义1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法,考虑局部优化。定义2号策略为贪婪策略,考虑当前优化。
策略π:定义策略π为e-greedy策略,以ε的概率从所有动作中随机选择一个,以1-e的概率选取当前最优动作即Q值最大的动作,定义如下:
Figure BDA0002446446450000061
其中,集合A中的三种策略以等概率方式被选择。
(6)奖励函数R:在E中执行策略π产生轨迹<s0,a0,r1,s1,a1,r2,...,sT-1,aT-1,rT,sT>,定义r1=r2=...=rT=-time,其中time表示为决策模型得到的路径序列总预估时长。该序列中所有“状态-动作”对得到的奖励都定义为time的负数,其中预估路程时长根据24个时间段的有向图预估得到,某个时间段两个节点之间的路程距离估计为节点间所有弧权重的中位数,没有弧的节点间的时间预估为可能取得的最大时间。
下面通过一个具体的应用实例,对本发明的技术方案和效果做进一步的说明。
获取得到北京市某地区的N个配送点的包裹配送路线信息,其中路线信息包含起始节点、到达节点、出发时间、到达时间等,将以上数据作为模型的训练数据集。
训练数据集预处理:
(1)按时段归类划分数据集:将24小时从零点开始划分为24个时段,每个时段间隔为1小时,将路线信息依据出发时间归类划分到相应的时段。
(2)构建时段加权有向图:基于每个时间段的路线数据构建加权有向图,边的始点为路线起始节点,终点为到达节点,权重为花费时长,分别为24个时段构建加权有向图。
模型训练:
重复以下步骤训练episode轮:
S1、随机选取其中的n个节点,其中
Figure BDA0002446446450000071
N为该区域内的总节点数。
S2、初始化客户节点的状态序列S,包括节点访问状态和当前时刻信息。
S3、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量φ(S),输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值。
S4、采用e-greedy策略根据每个动作对应的Q值选择动作a,动作a为3个启发式算法中的一个。
S5、在当前状态下执行动作a,计算得到下一个访问节点,访问该节点并依据状态转换模型得到新的状态S'。
S6、若所有客户节点已全部访问,则转到步骤S7,否则更新当前状态为S',转到步骤S3。
S7、根据训练数据构成的有向图预估当前路径序列时长,采用分段预估的方法,时长预估为两个节点间所有边权重的均值,路径总时长为包含所有路段预估时长之和。
S8、修改探索记录中每个时间步的奖励为路程时间的负数。
S9、将本轮探测的所有探索记录存入经验回放集合R中。
S10、从经验回放集合R中随机采样n条数据,基于DQN(Deep Q Learning)算法优化决策网络参数。
S11、每隔e轮,测试模型表现,具体为:从所有客户节点中随机选取n个节点,
Figure BDA0002446446450000072
其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与LKH算法、2-opt算法、贪婪算法等计算得到的路程序列时长进行比较,评估当前模型优劣。
模型训练完成可用于指导该地区包裹配送路线的规划,例如某日,该地区有x个包裹需要配送,获取到相关的配送目标信息,输入到训练完成的模型中,模型决策输出配送该x个包裹的最佳路线序列信息。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于强化学习的车辆路径规划方法,其特征在于,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线;
所述决策网络的工作过程包括:
S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息;
S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量
Figure FDA0002446446440000011
输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值;
S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集;
S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列;
S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2;
S6、根据训练数据构成的有向图预估决策得到的路径序列时长;
S7、修改探索记录中每个时间步的奖励为路径序列时长的负数;
S8、将本轮探测的所有探索记录存入经验回放集合R中;
S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。
2.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述时段加权有向图根据历史配送数据构建,且所述时段加权有向图各边的始点为路线起始节点,终点为到达节点,权重为花费时长。
3.根据权利要求1或2所述的基于强化学习的车辆路径规划方法,其特征在于,所述状态序列表示为S={si,i=1,...,n},si=(y,t)表示节点i在t时刻的状态,其中节点访问状态y包含两种:已被访问表示为0,未被访问表示为1,t表示当前时刻。
4.根据权利要求3所述的基于强化学习的车辆路径规划方法,其特征在于,S4中“得到新的状态序列”包括:
a.仅更新被访问的节点的节点访问状态,其余节点的节点访问状态不变;
b.更新所有节点的当前时刻信息。
5.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述动作集A包括3个启发式算法:
0号策略为考虑全部未访问节点的LKH算法;
1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法;
2号策略为贪婪策略。
6.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述决策网络的工作过程还包括:S10、每隔e轮,测试模型表现,具体为:
从所有客户节点中随机选取n个节点,
Figure FDA0002446446440000021
其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与对比算法计算得到的路程序列预估时长进行比较,评估当前模型优劣,所述对比算法为LKH算法、2-opt算法或者贪婪算法。
CN202010280643.1A 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法 Active CN111415048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010280643.1A CN111415048B (zh) 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010280643.1A CN111415048B (zh) 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法

Publications (2)

Publication Number Publication Date
CN111415048A true CN111415048A (zh) 2020-07-14
CN111415048B CN111415048B (zh) 2024-04-19

Family

ID=71493454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010280643.1A Active CN111415048B (zh) 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法

Country Status (1)

Country Link
CN (1) CN111415048B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183859A (zh) * 2020-09-28 2021-01-05 上海寻梦信息技术有限公司 路由配置表更新方法、装置、电子设备以及存储介质
CN112330054A (zh) * 2020-11-23 2021-02-05 大连海事大学 基于决策树的动态旅行商问题求解方法、系统及存储介质
CN112581026A (zh) * 2020-12-29 2021-03-30 杭州趣链科技有限公司 一种联盟链上物流机器人联合路径规划方法
CN112784481A (zh) * 2021-01-15 2021-05-11 中国人民解放军国防科技大学 一种用于中继充电路径规划的深度强化学习方法及系统
CN113159681A (zh) * 2021-04-20 2021-07-23 华南理工大学 一种基于博弈强化学习的多式联运动态路径规划方法
CN113642811A (zh) * 2021-10-12 2021-11-12 氢山科技有限公司 动态氢能货运路线规划方法、装置和计算机设备
CN113778094A (zh) * 2021-09-14 2021-12-10 北京航空航天大学 车辆路径规划方法、装置、可读存储介质及电子设备
CN114021996A (zh) * 2021-11-08 2022-02-08 北京路凯智行科技有限公司 车辆调度策略的评估方法、装置、电子设备和存储介质
CN114037335A (zh) * 2021-11-22 2022-02-11 华东师范大学 一种最大化承运能力的车货匹配智能决策方法及系统
CN114054736A (zh) * 2021-10-12 2022-02-18 中国重型机械研究院股份公司 一种钢包车停车系统及方法
CN114237222A (zh) * 2021-11-16 2022-03-25 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN114781267A (zh) * 2022-04-28 2022-07-22 中国移动通信集团浙江有限公司杭州分公司 基于多源大数据的职住接驳动态公交管理方法及系统
CN114894210A (zh) * 2022-05-13 2022-08-12 卡奥斯工业智能研究院(青岛)有限公司 物流车辆路径规划方法、装置、设备和存储介质
CN114979014A (zh) * 2022-06-30 2022-08-30 国网北京市电力公司 数据转发路径规划方法、装置以及电子设备
CN114995455A (zh) * 2022-06-23 2022-09-02 中山大学·深圳 一种车辆全局路径规划方法及系统
WO2023063020A1 (ja) * 2021-10-15 2023-04-20 オムロン株式会社 経路計画システム、経路計画方法、ロードマップ構築装置、モデル生成装置、及びモデル生成方法
CN116562738A (zh) * 2023-07-10 2023-08-08 深圳市汉德网络科技有限公司 一种货运智能调度方法、装置、设备及存储介质
CN117539266A (zh) * 2024-01-04 2024-02-09 珠海市格努科技有限公司 基于视觉的物流系统中路径规划方法、装置和电子设备
CN117875674A (zh) * 2024-03-11 2024-04-12 西北大学 一种基于Q-learning的公交调度方法
CN118405606A (zh) * 2024-07-02 2024-07-30 华芯(嘉兴)智能装备有限公司 天车的运行控制方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110009906A (zh) * 2019-03-25 2019-07-12 上海交通大学 基于交通预测的动态路径规划方法
CN110569443A (zh) * 2019-03-11 2019-12-13 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110569443A (zh) * 2019-03-11 2019-12-13 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110009906A (zh) * 2019-03-25 2019-07-12 上海交通大学 基于交通预测的动态路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘辉 等: "基于多智能体强化学习的多AGV路径规划方法", no. 02 *
吴胜超 等: "基于增强学习的城市车辆出行线路规划研究", no. 02 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183859B (zh) * 2020-09-28 2024-04-05 上海寻梦信息技术有限公司 路由配置表更新方法、装置、电子设备以及存储介质
CN112183859A (zh) * 2020-09-28 2021-01-05 上海寻梦信息技术有限公司 路由配置表更新方法、装置、电子设备以及存储介质
CN112330054B (zh) * 2020-11-23 2024-03-19 大连海事大学 基于决策树的动态旅行商问题求解方法、系统及存储介质
CN112330054A (zh) * 2020-11-23 2021-02-05 大连海事大学 基于决策树的动态旅行商问题求解方法、系统及存储介质
CN112581026A (zh) * 2020-12-29 2021-03-30 杭州趣链科技有限公司 一种联盟链上物流机器人联合路径规划方法
CN112784481A (zh) * 2021-01-15 2021-05-11 中国人民解放军国防科技大学 一种用于中继充电路径规划的深度强化学习方法及系统
CN113159681B (zh) * 2021-04-20 2023-02-14 华南理工大学 一种基于博弈强化学习的多式联运动态路径规划方法
CN113159681A (zh) * 2021-04-20 2021-07-23 华南理工大学 一种基于博弈强化学习的多式联运动态路径规划方法
CN113778094A (zh) * 2021-09-14 2021-12-10 北京航空航天大学 车辆路径规划方法、装置、可读存储介质及电子设备
CN113642811B (zh) * 2021-10-12 2021-12-24 氢山科技有限公司 动态氢能货运路线规划方法、装置和计算机设备
CN114054736A (zh) * 2021-10-12 2022-02-18 中国重型机械研究院股份公司 一种钢包车停车系统及方法
CN114054736B (zh) * 2021-10-12 2022-10-18 中国重型机械研究院股份公司 一种钢包车停车系统及方法
CN113642811A (zh) * 2021-10-12 2021-11-12 氢山科技有限公司 动态氢能货运路线规划方法、装置和计算机设备
WO2023063020A1 (ja) * 2021-10-15 2023-04-20 オムロン株式会社 経路計画システム、経路計画方法、ロードマップ構築装置、モデル生成装置、及びモデル生成方法
CN114021996A (zh) * 2021-11-08 2022-02-08 北京路凯智行科技有限公司 车辆调度策略的评估方法、装置、电子设备和存储介质
CN114237222A (zh) * 2021-11-16 2022-03-25 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN114037335A (zh) * 2021-11-22 2022-02-11 华东师范大学 一种最大化承运能力的车货匹配智能决策方法及系统
CN114781267A (zh) * 2022-04-28 2022-07-22 中国移动通信集团浙江有限公司杭州分公司 基于多源大数据的职住接驳动态公交管理方法及系统
CN114781267B (zh) * 2022-04-28 2023-08-29 中国移动通信集团浙江有限公司杭州分公司 基于多源大数据的职住接驳动态公交管理方法及系统
CN114894210B (zh) * 2022-05-13 2023-09-29 卡奥斯工业智能研究院(青岛)有限公司 物流车辆路径规划方法、装置、设备和存储介质
CN114894210A (zh) * 2022-05-13 2022-08-12 卡奥斯工业智能研究院(青岛)有限公司 物流车辆路径规划方法、装置、设备和存储介质
CN114995455A (zh) * 2022-06-23 2022-09-02 中山大学·深圳 一种车辆全局路径规划方法及系统
CN114979014A (zh) * 2022-06-30 2022-08-30 国网北京市电力公司 数据转发路径规划方法、装置以及电子设备
CN116562738A (zh) * 2023-07-10 2023-08-08 深圳市汉德网络科技有限公司 一种货运智能调度方法、装置、设备及存储介质
CN116562738B (zh) * 2023-07-10 2024-01-12 深圳市汉德网络科技有限公司 一种货运智能调度方法、装置、设备及存储介质
CN117539266A (zh) * 2024-01-04 2024-02-09 珠海市格努科技有限公司 基于视觉的物流系统中路径规划方法、装置和电子设备
CN117539266B (zh) * 2024-01-04 2024-04-19 珠海市格努科技有限公司 基于视觉的物流系统中路径规划方法、装置和电子设备
CN117875674A (zh) * 2024-03-11 2024-04-12 西北大学 一种基于Q-learning的公交调度方法
CN118405606A (zh) * 2024-07-02 2024-07-30 华芯(嘉兴)智能装备有限公司 天车的运行控制方法及装置
CN118405606B (zh) * 2024-07-02 2024-09-06 华芯(嘉兴)智能装备有限公司 天车的运行控制方法及装置

Also Published As

Publication number Publication date
CN111415048B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN111415048B (zh) 一种基于强化学习的车辆路径规划方法
Wang et al. Adaptive Traffic Signal Control for large-scale scenario with Cooperative Group-based Multi-agent reinforcement learning
Yang et al. Ensemble learning for short‐term traffic prediction based on gradient boosting machine
Gao et al. Adaptive traffic signal control: Deep reinforcement learning algorithm with experience replay and target network
Shao et al. Traveling officer problem: Managing car parking violations efficiently using sensor data
Cao et al. Maximizing the probability of arriving on time: A practical q-learning method
CN112489426B (zh) 一种基于图卷积神经网络的城市交通流量时空预测方案
CN105551244B (zh) 一种动态路径规划方法
CN114519932B (zh) 一种基于时空关系抽取的区域交通状况集成预测方法
CN109269516B (zh) 一种基于多目标Sarsa学习的动态路径诱导方法
EP3916652A1 (en) A method and neural network trained by reinforcement learning to determine a constraint optimal route using a masking function
WO2016096226A1 (en) A traffic data fusion system and the related method for providing a traffic state for a network of roads
Qiu et al. Dynamic Electronic Toll Collection via Multi-Agent Deep Reinforcement Learning with Edge-Based Graph Convolutional Networks.
Phiboonbanakit et al. A hybrid reinforcement learning-based model for the vehicle routing problem in transportation logistics
CN115311860B (zh) 一种交通流量预测模型的在线联邦学习方法
Dieter et al. Integrating driver behavior into last-mile delivery routing: Combining machine learning and optimization in a hybrid decision support framework
Wu et al. Data-driven inverse learning of passenger preferences in urban public transits
CN117829375B (zh) 城际往返客运的多区域需求预测方法、装置、设备和介质
CN117134978A (zh) 基于局部和全局行为模式分析的车辆身份验证方法及系统
CN112330054B (zh) 基于决策树的动态旅行商问题求解方法、系统及存储介质
He et al. Heterogeneous pointer network for travelling officer problem
EP4310450A1 (en) Systems and methods for public transit arrival time prediction
WO2022165602A1 (en) Method, system and computer readable medium for probabilistic spatiotemporal forecasting
JP2023092971A (ja) 交通状況予測装置、および、交通状況予測方法
CN114444737A (zh) 基于迁移学习的路面养护智能规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant