CN111415048B - 一种基于强化学习的车辆路径规划方法 - Google Patents

一种基于强化学习的车辆路径规划方法 Download PDF

Info

Publication number
CN111415048B
CN111415048B CN202010280643.1A CN202010280643A CN111415048B CN 111415048 B CN111415048 B CN 111415048B CN 202010280643 A CN202010280643 A CN 202010280643A CN 111415048 B CN111415048 B CN 111415048B
Authority
CN
China
Prior art keywords
nodes
time
node
state
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010280643.1A
Other languages
English (en)
Other versions
CN111415048A (zh
Inventor
高健
蒋佳浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202010280643.1A priority Critical patent/CN111415048B/zh
Publication of CN111415048A publication Critical patent/CN111415048A/zh
Application granted granted Critical
Publication of CN111415048B publication Critical patent/CN111415048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0838Historical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于强化学习的车辆路径规划方法,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线。本发明基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状况和配送目标节点数变化的情况下动态规划行车路径的目的。本方法考虑现实生活中复杂多变的道路交通情况和配送目标数不定的配送任务,动态调整行车路线,从而提高运输效率并降低成本。

Description

一种基于强化学习的车辆路径规划方法
技术领域
本发明涉及智能交通领域,具体而言,尤其涉及一种基于强化学习的车辆路径规划方法。
背景技术
车辆路径有效规划是物流管理、公交与出租客运、以及从事相关领域运营等服务的重要环节,有助于提高运输效率并降低成本。
Oriol Vinyals等(Vinyals O,Fortunato M,Jaitly N.Pointer networks[C]Advances in Neural Information Processing Systems.2015:2692-2700.)提出了一种简单而有效的架构称为Pointer Net来学习组合优化问题,该模型首次采用机器学习的方法来求组合优化问题,在sequence-to-sequence和Neural Turing Machines的基础上使用神经注意机制解决了可变大小输出字典的问题,并采用监督学习的方式来训练模型,以纯粹的数据驱动方法来学习计算难以处理的问题的近似解。
Irwan Bello等(Bello I,Pham H,Le Q V,et al.Neural combinatorialoptimization with reinforcement learning[J].arXiv preprint arXiv:1611.09940,2016.)改进了Vinyals等[1]提出的指针网络,提出了一种利用强化学习和神经网络来解决组合优化问题的框架-神经组合优化,其中决策指针网络由两个长短期记忆网络(LSTM)构成,采用Policy-gradient算法优化决策网络。为将神经网络作为解决组合优化问题的通用工具提供了一条有趣的研究途径。
Khalil E等(Khalil E,Dai H,Zhang Y,et al.Learning combinatorialoptimization algorithms over graphs[C]Advances in Neural InformationProcessing Systems.2017:6348-6358.)提出了一个端到端的机器学习框架,称为S2V-DQN,用于为图上的NP-hard组合优化问题自动设计贪心启发式算法,方法的核心是深度图嵌入与强化学习的结合。框架主要由两部分组成,首先采用Structure2Vec图形嵌入网络形嵌入网络对当前的图对当前的图形结构进行编码,采用采用强化学习中的Deep QLearning DQN算法进行训练,优化决策网络。学习策略的行为类似于逐步构建解决方案的元算法,其动作由图形嵌入网络在解决方案的当前状态上确定。该框架的主要优点是充分利用了图的结构来学习启发式算法,学习得到的启发式算法在相似的图结构中可以通用。
上述提到的方法都是在已知模型的情况下进行求解的,即已知各个节点之间的二维欧几里德距离。然而在现实配送中通常存在配送时间最短,或在规定时间内完成配送的目标。配送时间通常受到城市交通状况的影响,而交通情况在每个时间段通常是变化的,即在每个时间段两个节点之间的权重(时间)不是固定不变的,而且每天配送任务的目标节点数也是在某个范围内动态变化的。现实中通常我们可以得到的是某个区域内配送过程中记录的历史数据,即从某个节点到某个节点在某个时间段花费了多长的时间,基于历史配送数据采用机器学习的方法基于不同节点数来规划配送路线,达到最小化配送时间的目标,上述方法不适用于此类问题的求解。
发明内容
根据上述提出的现有方法与交通情况在每个时间段均有变化且配送节点数不定的实际情况不适配的技术问题,而提供了一种基于强化学习的车辆路径规划方法。本发明基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状态和配送目标节点数变化的情况下动态规划行车路径的目的。
本发明采用的技术手段如下:
1、一种基于强化学习的车辆路径规划方法,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线;
所述决策网络的工作过程包括:
S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息;
S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值;
S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集;
S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列;
S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2;
S6、根据训练数据构成的有向图预估决策得到的路径序列时长;
S7、修改探索记录中每个时间步的奖励为路径序列时长的负数;
S8、将本轮探测的所有探索记录存入经验回放集合R中;
S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。
较现有技术相比,本发明具有以下优点:
本发明基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状态和配送目标节点数变化的情况下动态规划行车路径的目的。与在有模型的基础上进行路径规划的方法相比,该方法可以适应复杂多变的道路交通情况和配送目标节点数不定的情况,动态调整行车路线,从而提高运输效率并降低成本。
基于上述理由本发明可在物流管理,公交与出租客运以及相关领域运营等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为实施例中训练数据的预处理示意图。
图2为实施例中状态转换示意图。
图3为实施例中模型整体训练流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提出一种基于强化学习的车辆路径规划方法,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线。
具体的,本发明实施例基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状态和目标节点数变化的情况下动态规划行车路径的目的。本发明实施例中决策网络的工作过程包括:
S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息。
S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量输入到全连接神经网络,计算输出每个动作对应的评价Q值,Q值是通过神经网络计算输出。
S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集。
S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列。
S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2。
S6、根据训练数据构成的有向图预估决策得到的路径序列时长。
S7、修改探索记录中每个时间步的奖励为路径序列时长的负数。
S8、将本轮探测的所有探索记录存入经验回放集合R中。
S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。
S10、每隔e轮,测试模型表现,具体为:从所有客户节点中随机选取n个节点,其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与LKH(Lin-Kernighan-Helsgaun)算法、2-opt算法、贪婪算法等计算得到的路程序列时长进行比较,评估当前模型优劣。
由图1所示,本发明实施例中,时段加权有向图根据历史配送数据构建的。具体实施时,从某个地区的包裹配送路线信息中获取训练数据集,其中路线信息包含起始节点、到达节点、出发时间、到达时间等。时段加权有向图的构建主要包括两个部分:
(1)按时段归类划分数据集:作为本发明较佳的实施方式,将24小时从零点开始划分为24个时段,每个时段间隔为1小时,将路线信息依据出发时间归类划分到相应的时段。
(2)构建时段加权有向图:基于每个时间段的路线数据构建加权有向图,边的始点为路线起始节点,终点为到达节点,权重为花费时长。两个节点之间可能存在多条边或不存在边,存在多条边即表示在该时间段两个节点之间存在多个不同配送时间,不存在边即表示在该时间段两个节点之间在训练数据集中不存在数据。
本发明实施例中,采用强化习中的Deep Q-learning算法来训练决策网络模型,模型构建中强化学习中各要素定义如下:
环境要素E:客户节点集N和仓库节点D构成的有向图,边权重为从一个节点到另一个节点的路程所需时间(单位:h)。定义E=<G1,G2,…,G24>,由24个时间段的有向图组成。
状态空间X:定义状态序列S={si,i=1,…,n},si=(y,t)表示节点i在t时刻的状态,其中节点访问状态y包含两种:已被访问表示为0,未被访问表示为1,t表示当前时刻。所有节点的当前状态组成的序列表示为当前的环境状态,所有可能的环境状态构成状态空间X。
状态转换函数:定义状态转换函数为f,S′=f(S),f的具体定义如下:①y更新:访问i节点,则yi=0,yk=yk for k≠i,仅更新被访问的节点i的y,其余节点的y不变。②所有节点的t更新为当前时刻。
动作A:定义动作集A为3个启发式算法,其中定义0号策略为考虑全部未访问节点的LKH算法,考虑全局优化。定义1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法,考虑局部优化。定义2号策略为贪婪策略,考虑当前优化。
策略π:定义策略π为e-greedy策略,以ε的概率从所有动作中随机选择一个,以1-e的概率选取当前最优动作即Q值最大的动作,定义如下:
其中,集合A中的三种策略以等概率方式被选择。
(6)奖励函数R:在E中执行策略π产生轨迹<s0,a0,r1,s1,a1,r2,...,sT-1,aT-1,rT,sT>,定义r1=r2=...=rT=-time,其中time表示为决策模型得到的路径序列总预估时长。该序列中所有“状态-动作”对得到的奖励都定义为time的负数,其中预估路程时长根据24个时间段的有向图预估得到,某个时间段两个节点之间的路程距离估计为节点间所有弧权重的中位数,没有弧的节点间的时间预估为可能取得的最大时间。
下面通过一个具体的应用实例,对本发明的技术方案和效果做进一步的说明。
获取得到北京市某地区的N个配送点的包裹配送路线信息,其中路线信息包含起始节点、到达节点、出发时间、到达时间等,将以上数据作为模型的训练数据集。
训练数据集预处理:
(1)按时段归类划分数据集:将24小时从零点开始划分为24个时段,每个时段间隔为1小时,将路线信息依据出发时间归类划分到相应的时段。
(2)构建时段加权有向图:基于每个时间段的路线数据构建加权有向图,边的始点为路线起始节点,终点为到达节点,权重为花费时长,分别为24个时段构建加权有向图。
模型训练:
重复以下步骤训练episode轮:
S1、随机选取其中的n个节点,其中N为该区域内的总节点数。
S2、初始化客户节点的状态序列S,包括节点访问状态和当前时刻信息。
S3、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量φ(S),输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值。
S4、采用e-greedy策略根据每个动作对应的Q值选择动作a,动作a为3个启发式算法中的一个。
S5、在当前状态下执行动作a,计算得到下一个访问节点,访问该节点并依据状态转换模型得到新的状态S'。
S6、若所有客户节点已全部访问,则转到步骤S7,否则更新当前状态为S',转到步骤S3。
S7、根据训练数据构成的有向图预估当前路径序列时长,采用分段预估的方法,时长预估为两个节点间所有边权重的均值,路径总时长为包含所有路段预估时长之和。
S8、修改探索记录中每个时间步的奖励为路程时间的负数。
S9、将本轮探测的所有探索记录存入经验回放集合R中。
S10、从经验回放集合R中随机采样n条数据,基于DQN(Deep Q Learning)算法优化决策网络参数。
S11、每隔e轮,测试模型表现,具体为:从所有客户节点中随机选取n个节点,其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与LKH算法、2-opt算法、贪婪算法等计算得到的路程序列时长进行比较,评估当前模型优劣。
模型训练完成可用于指导该地区包裹配送路线的规划,例如某日,该地区有x个包裹需要配送,获取到相关的配送目标信息,输入到训练完成的模型中,模型决策输出配送该x个包裹的最佳路线序列信息。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (3)

1.一种基于强化学习的车辆路径规划方法,其特征在于,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线;
所述决策网络构建强化学习中要素定义如下:
环境要素E:客户节点集N和仓库节点D构成的有向图,边权重为从一个节点到另一个节点的路程所需时间,定义E=<G1,G2,…,G24>,由24个时间段的有向图组成,
状态空间X:定义状态序列S={si,i=1,…,n},si=(y,t)表示节点i在t时刻的状态,其中节点访问状态y包含两种:已被访问表示为0,未被访问表示为1,t表示当前时刻,所有节点的当前状态组成的序列表示为当前的环境状态,所有可能的环境状态构成状态空间X,
状态转换函数:定义状态转换函数为f,S′=f(S),f的具体定义如下:①y更新:访问i节点,则yi=0,yk=yk for k≠i,仅更新被访问的节点i的y,其余节点的y不变,②所有节点的t更新为当前时刻,
动作A:定义动作集A为3个启发式算法,其中定义0号策略为考虑全部未访问节点的LKH算法,考虑全局优化,定义1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法,考虑局部优化,定义2号策略为贪婪策略,考虑当前优化,
策略π:定义策略π为ε-greedy策略,以ε的概率从所有动作中随机选择一个,以1-ε的概率选取当前最优动作即Q值最大的动作,定义如下:
其中,集合A中的三种策略以等概率方式被选择,
奖励函数R:在E中执行策略π产生轨迹<s0,a0,r1,s1,a1,r2,...,sT-1,aT-1,rT,sT>,定义r1=r2=...=rT=-time,其中time表示为决策模型得到的路径序列总预估时长,所有“状态-动作”对得到的奖励都定义为time的负数,其中预估路程时长根据24个时间段的有向图预估得到,某个时间段两个节点之间的路程距离估计为节点间所有弧权重的中位数,没有弧的节点间的时间预估为可能取得的最大时间;
所述决策网络的工作过程包括:
S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息;
S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值;
S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集;
S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列;
S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2;
S6、根据训练数据构成的有向图预估决策得到的路径序列时长,其中有向图为时段加权有向图,其构建主要包括两个部分:
(1)按时段归类划分数据集:将24小时从零点开始划分为24个时段,每个时段间隔为1小时,将路线信息依据出发时间归类划分到相应的时段,
(2)构建时段加权有向图:基于每个时间段的路线数据构建加权有向图,边的始点为路线起始节点,终点为到达节点,权重为花费时长,两个节点之间可能存在多条边或不存在边,存在多条边即表示在该时间段两个节点之间存在多个不同配送时间,不存在边即表示在该时间段两个节点之间在训练数据集中不存在数据;
S7、修改探索记录中每个时间步的奖励为路径序列时长的负数;
S8、将本轮探测的所有探索记录存入经验回放集合R中;
S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。
2.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,S4中“得到新的状态序列”包括:
a.仅更新被访问的节点的节点访问状态,其余节点的节点访问状态不变;
b.更新所有节点的当前时刻信息。
3.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述决策网络的工作过程还包括:S10、每隔e轮,测试模型表现,具体为:
从所有客户节点中随机选取n个节点,其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与对比算法计算得到的路程序列预估时长进行比较,评估当前模型优劣,所述对比算法为LKH算法、2-opt算法或者贪婪算法。
CN202010280643.1A 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法 Active CN111415048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010280643.1A CN111415048B (zh) 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010280643.1A CN111415048B (zh) 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法

Publications (2)

Publication Number Publication Date
CN111415048A CN111415048A (zh) 2020-07-14
CN111415048B true CN111415048B (zh) 2024-04-19

Family

ID=71493454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010280643.1A Active CN111415048B (zh) 2020-04-10 2020-04-10 一种基于强化学习的车辆路径规划方法

Country Status (1)

Country Link
CN (1) CN111415048B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183859B (zh) * 2020-09-28 2024-04-05 上海寻梦信息技术有限公司 路由配置表更新方法、装置、电子设备以及存储介质
CN112330054B (zh) * 2020-11-23 2024-03-19 大连海事大学 基于决策树的动态旅行商问题求解方法、系统及存储介质
CN112581026B (zh) * 2020-12-29 2022-08-12 杭州趣链科技有限公司 一种联盟链上物流机器人联合路径规划方法
CN112784481B (zh) * 2021-01-15 2023-04-07 中国人民解放军国防科技大学 一种用于中继充电路径规划的深度强化学习方法及系统
CN113159681B (zh) * 2021-04-20 2023-02-14 华南理工大学 一种基于博弈强化学习的多式联运动态路径规划方法
CN113778094A (zh) * 2021-09-14 2021-12-10 北京航空航天大学 车辆路径规划方法、装置、可读存储介质及电子设备
CN113642811B (zh) * 2021-10-12 2021-12-24 氢山科技有限公司 动态氢能货运路线规划方法、装置和计算机设备
CN114054736B (zh) * 2021-10-12 2022-10-18 中国重型机械研究院股份公司 一种钢包车停车系统及方法
JP2023059382A (ja) * 2021-10-15 2023-04-27 オムロン株式会社 経路計画システム、経路計画方法、ロードマップ構築装置、モデル生成装置、及びモデル生成方法
CN114037335B (zh) * 2021-11-22 2022-10-25 华东师范大学 一种最大化承运能力的车货匹配智能决策方法及系统
CN114781267B (zh) * 2022-04-28 2023-08-29 中国移动通信集团浙江有限公司杭州分公司 基于多源大数据的职住接驳动态公交管理方法及系统
CN114894210B (zh) * 2022-05-13 2023-09-29 卡奥斯工业智能研究院(青岛)有限公司 物流车辆路径规划方法、装置、设备和存储介质
CN114979014B (zh) * 2022-06-30 2024-06-14 国网北京市电力公司 数据转发路径规划方法、装置以及电子设备
CN116562738B (zh) * 2023-07-10 2024-01-12 深圳市汉德网络科技有限公司 一种货运智能调度方法、装置、设备及存储介质
CN117539266B (zh) * 2024-01-04 2024-04-19 珠海市格努科技有限公司 基于视觉的物流系统中路径规划方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110009906A (zh) * 2019-03-25 2019-07-12 上海交通大学 基于交通预测的动态路径规划方法
CN110569443A (zh) * 2019-03-11 2019-12-13 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110569443A (zh) * 2019-03-11 2019-12-13 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN110009906A (zh) * 2019-03-25 2019-07-12 上海交通大学 基于交通预测的动态路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘辉 等.基于多智能体强化学习的多AGV路径规划方法.《自动化与仪表》.2020,(第02期),全文. *
吴胜超 等.基于增强学习的城市车辆出行线路规划研究.《青岛大学学报(自然科学版)》.2019,(第02期),全文. *

Also Published As

Publication number Publication date
CN111415048A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111415048B (zh) 一种基于强化学习的车辆路径规划方法
Wang et al. Adaptive Traffic Signal Control for large-scale scenario with Cooperative Group-based Multi-agent reinforcement learning
Mousavi et al. Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning
CN108197739B (zh) 一种城市轨道交通乘客流量预测方法
Nikovski et al. Univariate short-term prediction of road travel times
CN109269516B (zh) 一种基于多目标Sarsa学习的动态路径诱导方法
CA3131688A1 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
Sahu et al. Traffic light cycle control using deep reinforcement technique
CN113379099B (zh) 一种基于机器学习与copula模型的高速公路交通流自适应预测方法
KR101522306B1 (ko) 유사도 특성을 이용한 메타휴리스틱 알고리즘에 기반한 시스템 및 그 제어방법
CN112330054B (zh) 基于决策树的动态旅行商问题求解方法、系统及存储介质
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
Hussain et al. Optimizing traffic lights with multi-agent deep reinforcement learning and v2x communication
CN117134978A (zh) 基于局部和全局行为模式分析的车辆身份验证方法及系统
CN113420942B (zh) 一种基于深度q学习的环卫车实时路线规划方法
JP2023092971A (ja) 交通状況予測装置、および、交通状況予測方法
CN114444737A (zh) 基于迁移学习的路面养护智能规划方法
WO2022165602A1 (en) Method, system and computer readable medium for probabilistic spatiotemporal forecasting
Gurses et al. Developing driving strategies efficiently: A skill-based hierarchical reinforcement learning approach
Faqir et al. Combined extreme learning machine and max pressure algorithms for traffic signal control
CN112508220A (zh) 车流预测方法和装置
Bouriachi et al. Traffic Signal Control Model on Isolated Intersection Using Reinforcement Learning: A Case Study on Algiers City, Algeria.
Chua et al. Traffic light dispersion control based on deep reinforcement learning
Faqir et al. Deep q-learning approach for congestion problem in smart cities
Rojanaarpa et al. Density-based data pruning method for deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant