CN112784481B - 一种用于中继充电路径规划的深度强化学习方法及系统 - Google Patents

一种用于中继充电路径规划的深度强化学习方法及系统 Download PDF

Info

Publication number
CN112784481B
CN112784481B CN202110052655.3A CN202110052655A CN112784481B CN 112784481 B CN112784481 B CN 112784481B CN 202110052655 A CN202110052655 A CN 202110052655A CN 112784481 B CN112784481 B CN 112784481B
Authority
CN
China
Prior art keywords
reinforcement learning
deep reinforcement
training
model
path planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110052655.3A
Other languages
English (en)
Other versions
CN112784481A (zh
Inventor
黄金才
周玉珍
石建迈
程光权
孙博良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110052655.3A priority Critical patent/CN112784481B/zh
Publication of CN112784481A publication Critical patent/CN112784481A/zh
Application granted granted Critical
Publication of CN112784481B publication Critical patent/CN112784481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • G06Q10/025Coordination of plural reservations, e.g. plural trip segments, transportation combined with accommodation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明实施例提供一种用于中继充电路径规划的深度强化学习方法及系统,包括构建用于中继充电路径规划的数学模型;根据所述数学模型构建用于中继充电路径规划的深度强化学习模型;对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型;将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型,得到所述运输工具的路径规划的解。通过该方案,在规划物流工具用于中继充电路径时,具有较高的工作效率,并能取得更优的规划结果。

Description

一种用于中继充电路径规划的深度强化学习方法及系统
技术领域
本发明涉及物流技术领域,具体涉及一种用于中继充电路径规划的深度强化学习方法及系统。
背景技术
电动汽车、无人机等新兴运输工具在环保、成本等方面具有很大优势,在最近物流配送领域应用越来越广泛。由于其续航能力限制,一般需要中途进行充电,才能完成所有客户点的访问,使得电动汽车、无人机等新兴运输工具的行驶路径规划更加复杂。
电动汽车、无人机等在路径规划中的应用引出了一类新的规划问题—中继充电的路径规划问题。该问题是传统路径规划问题的延伸和扩展,其不仅需要考虑客户点的访问顺序,还需要考虑车辆或无人机是否能到达下一个客户点,从而决定是否要访问中继充电站进行充电,在哪个位置充电,访问哪个充电站等。其还有两点不同于传统的路径规划问题在于其具有有序性和有向性。在传统路径规划问题中车辆可以从路径中任一客户点出发,按顺序访问完所有顾客点后返回出发的点,且传统的路径规划确定了客户点的访问顺序后,反方向行驶也是一样的。但在中继充电的路径规划问题中,客户点的访问顺序受出发点的影响,同时客户点的访问顺序也影响访问充电站的位置以及访问的充电站。因此,中继充电的路径规划问题所有车辆或无人机有固定的出发点且具有方向性,车辆或无人机在访问完所有顾客点后最终返回出发点。总目标是使得总行驶距离最小。
在实现本发明的过程中,发明人发现现有技术至少存在如下问题:
针对该类问题传统的求解方法是通过构造式获得初始解,然后不断优化解的结构,从而获得更优的解,这通常需要耗费大量的时间才能获得满意的解。在现代物流中,每天面对成千上万条相似规模的数据需要求解,如何节约计算时间从而提高求解效率是需要解决的问题。
发明内容
本发明实施例提供一种用于中继充电路径规划的深度强化学习方法及系统,来使路径规划的效率更高、结果更准确。
为达上述目的,一方面,本发明实施例提供一种用于中继充电路径规划的深度强化学习方法,包括:
构建路径规划的数学模型;
根据所述数学模型构建所述路径规划的深度强化学习模型;
对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型;
将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型,得到所述运输工具的路径规划的解。
另一方面,本发明实施例提供一种用于中继充电路径规划的深度强化学习系统,包括:
数学模型构建单元,用于构建路径规划的数学模型;
深度强化学习模型构建单元,用于根据所述数学模型构建所述路径规划的深度强化学习模型;
模型训练单元,用于对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型;
规划单元,用于将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型,得到所述运输工具的路径规划的解。
上述技术方案具有如下有益效果:
提出了一种端到端的深度强化学习方法求解该问题,该方法通过观察奖励信号和遵循一些可行性规则,找到问题的可行解,并且通过动作—评价方法优化其参数,训练后的模型可以直接为类似规模的用于中继充电物流路径规划问题快速找到接近最优的解决方案而不需要重新训练。具有较高的工作效率,并能取得更优的规划结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种用于中继充电路径规划的深度强化学习方法的流程图;
图2是本发明实施例一种用于中继充电路径规划的深度强化学习系统的结构图
图3是本发明实施例的深度强化学习网络模型;
图4是本发明一具体实施例中采用深度强化学习得到的结果;
图5为本发明一具体实施例中采用经典节约算法得到的结果;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种用于中继充电路径规划的深度强化学习方法,包括:
S101、构建路径规划的数学模型;
S102、根据所述数学模型构建所述路径规划的深度强化学习模型;
S103、对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型;
S104、将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型,得到所述运输工具的路径规划的解。
经发明人研究,中继充电的路径规划过程可以看做一个典型的马尔科夫过程,其中最优解可以是视为一系列的决策。这使得我们可以考虑使用深度强化学习来生成问题的解决方案。本申请提出了一种端到端的深度强化学习方法求解该问题,该方法通过观察奖励信号和遵循一些可行性规则,找到问题的可行解,并且通过动作-评价方法优化其参数,训练后的模型可以直接为类似规模的问题快速找到接近最优的解决方案而不需要重新训练。
用G=(N,A)表示一个有向图,N=C∪F∪O表示节点集,其中C={1,2,…,n}表示需要访问的客户点集,F={1,2,…,m}表示充电站集。N中的每个节点i由(lngi,lati)定义,其表示客户点的坐标。集合A={(i,j)|i,j∈N,i≠j表示连接客户点或者充电站的弧线,每条弧线(i,j)∈A对应距离dij。车辆从仓库出发,在访问完所有任务点后返回库区。在行程中,由于车辆的行驶里程有限,车辆需要到充电站进行充电。路径规划的目的是在满足任务要求和能量约束的前提下,找到最短的路线。
根据以上定义,中继充电的路径规划问题的混合整数线性模型如下:
Figure BDA0002899684320000031
Figure BDA0002899684320000041
Figure BDA0002899684320000042
Figure BDA0002899684320000043
Figure BDA0002899684320000044
Figure BDA0002899684320000045
Figure BDA0002899684320000046
Figure BDA0002899684320000047
Figure BDA0002899684320000048
其中xij表示客户点i和客户点j之间是否有路径,yi记录车辆到达i时的剩余可行驶里程,Y表示车辆的最大里程数。
该模型的目标是使总距离最小化。方程(1)保证每个客户点都要被且只被服务一次;式(2)限制每个充电站最多只被访问一次;式(3)-式(4)保证路径没有内循环;式(5)-式(7)记录车辆行驶里程的变化,并假设车辆离开充电站时已充满电;式(8)限定了车辆最大行驶里程;式(9)定义了xij的变量类型。
进一步的,所述强化学习的方式为:
根据当前已确定的访问点和约束条件,采用条件概率公式选择下一个访问点,所述访问点包括客户点和中继充电站点;
所述条件概率公式为:
Figure BDA0002899684320000049
Xt+1=f(yt+1,Xt),
其中,Xt为时刻t的输入,Y={y1,…,yT},Y为长度为T的客户点和中继充电站点的序列,f为状态转移函数。
对于中继充电的路径规划算法的研究,最早采用的是穷举法,在问题规模较小的情况下,穷举法很容易得到问题的最优解,但是,众所周知,路径规划是一个NP-Hard问题,中继充电的路径规划问题作为其扩展,求解空间更为庞大,随着数据规模的扩大,其求解空间呈指数增长,获得最优解几乎不可能。因此,启发式算法应运而生,其可以在可接受的时间范围内给出较好的解。例如退火、遗传算法、蚁群算法等种群算法和变邻域搜索、大规模邻域搜索、自适应大规模邻域搜索等搜索算法,效果显著。
启发式算法对于单个案例来说,可以在可接受的时间内获取较优的解,但对于大规模类似数据求解时,针对每个案例,算法都需要大量迭代去获得最优解。例如某些电商的物流,每天都有的大量相似的订单,快速获得这些路径的最优解对于效率的提升很有必要。
中继充电的路径规划的过程是一个典型的马尔科夫决策过程。在本专利中,针对中继充电的路径规划问题,提出了一个类似于端到端的深度强化学习模型来解决这个问题,并通过策略梯度方法动作评价算法对网络进行训练。该模型可以通过观察奖励信号和遵循一些可行性规则,为类似规模的问题找到接近最优的解决方案。
先行定义网络的输入为X={xi,i=1,…,n+m+1},其中n代表客户点数量,m表示充电站数量。每一个输入xi是一个元组序列
Figure BDA0002899684320000051
其中xi代表它们的二维坐标,
Figure BDA0002899684320000052
是输入的动态元素,它表示第i个客户点在固定的时间t是否被访问,用Xt表示时刻t的输入。我们的最终目标是找到一个长度为T的客户点和充电站的排列,Y={y1,…,yT},它可能与输入长度n+m+1不同。这是基于车辆可能需要多次到充电站加油,也可能有一些充电站没有到过。首先,车辆从库房出发,库房被记录为y1,在每一个解码步骤中,选择下一个可到达的客户点进行访问,或者在车辆里程不足的情况下选择访问充电站,选择的节点被记录为yt+1。这个选择的过程可以用公式(10)描述。目标是寻找策略π在满足约束的情况下生成最小化损失函数的序列Y。
Figure BDA0002899684320000053
其中
Xt+1=f(yt+1,Xt)   (11)
f代表了状态转移函数,即下一刻的状态,由上一时刻的状态和当前选择的节点决定。
进一步的,所述构建用于中继充电路径规划的深度强化学习模型,包括:
S1021、在编码器和解码器基础之上设置注意力层;;
S1022、采用注意力机制计算每一个输入在下一个时刻t的解码步骤中的相关程度;
所述注意力机制包括:
Figure BDA0002899684320000054
Figure BDA0002899684320000055
Figure BDA0002899684320000056
其中,所述神经网络的输入X={xi,i=1,…,n+m+1},n为客户点数量,m为充电站点数量,每个xi是一个元组序列
Figure BDA0002899684320000057
xi为访问点的二维坐标,
Figure BDA0002899684320000058
为动态元素用于指示第i个访问点在时刻t是否被访问。
如图3所示,所述深度强化学习模型为神经网络,神经网络由两个RNN构成,分别称为编码器和解码器。编码器采用简单的一维卷积将其映射到高维(128)向量空间,解码器采用多层LSTM,隐藏层层数为128。(10)式右端的条件概率P(yt+1|y1,y2,…,yt,Xt)由一个基于注意力的指针网络决定,其结合了解码器的隐藏状态和输入的编码一起用来计算下一个输入的条件概率。其中单实线框的输入代表顾客点,双实现框的代表中继充电站点。
直观地讲,注意力机制会计算每一个输入在下一个解码步骤t中的相关程度,相关度最高的那个会得到更多的关注,可以被选为下一个访问客户点。其中:
Figure BDA0002899684320000061
Figure BDA0002899684320000062
Figure BDA0002899684320000063
进一步的,所述约束条件包括:
每个客户点均被运输工具访问,且每个客户点只能被访问一次;
每个中继充电站点可以被运输工具多次访问、或不被访问;
运输工具遍历所有客户点后返回到出发点;
运输工具在访问过程中始终保持有足够电量到达下一个访问点。
为了加快训练和避免大量不可行的解,使用一种屏蔽方案,将不可行点的对数概率设为1,或者在满足特定条件时强制求解。
在中继充电的路径规划问题中,可采用以下屏蔽规则。
1、已经被访问过的客户点不会被再次访问,充电站可以重复访问;
2、如果车辆访问完该客户后,无法到达距离它最近的充电站,则该客户节点将被掩蔽。
3、当所有顾客点被访问完以后结束。
该屏蔽方案可以避免解在访问了当前顾客点以后发现接下来没有可以访问的点,从而陷入僵局,加快了训练速度。
进一步的,所述对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型,包括:
S1031、设定迭代次数E和训练用访问点数量;
S1032、设定迭代次数初始值k=0
S1033、生成满足训练用访问点数量的训练输入数据;
S1034、根据训练输入数据生成训练路径规划,并计算回报值;
S1035、根据回报值更新动作网络参数和评价网络参数;
S1036、更新迭代次数k=k+1;
S1037、当k<E时,返回步骤3,所述步骤3是指生成满足训练用访问点数量的训练输入数据;
S1038、根据最后得到的动作网络参数和评价网络参数确定所述深度强化学习模型的应用模型。
在本申请中,使用动作评价网训练模型。表1的算法展示了训练过程的伪代码。
Figure BDA0002899684320000071
表1.动作评价网训练过程的伪代码
如图2所示,本发明提供一种用于中继充电路径规划的深度强化学习系统,其特征在于,包括:
数学模型构建单元21,用于构建路径规划的数学模型;
深度强化学习模型构建单元22,用于根据所述数学模型构建所述路径规划的深度强化学习模型;
模型训练单元23,用于对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型;
规划单元24,用于将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型,得到所述运输工具的路径规划的解。
进一步的,所述深度强化学习模型具体用于:
根据当前已确定的访问点和约束条件,采用条件概率公式选择下一个访问点,所述访问点包括客户点和中继充电站点;
所述条件概率公式为:
Figure BDA0002899684320000081
Xt+1=f(yt+1,Xt),
其中,Xt为时刻t的输入,Y={y1,…,yT},Y为长度为T的客户点和中继充电站点的序列,f为状态转移函数。
进一步的,所述深度强化学习模型构建单元22具体用于:
在编码器和解码器基础之上设置注意力层;;
采用注意力机制计算每一个输入在下一个时刻t的解码步骤中的相关程度;
所述注意力机制包括:
Figure BDA0002899684320000082
Figure BDA0002899684320000083
Figure BDA0002899684320000084
其中,所述神经网络的输入X={xi,i=1,…,n+m+1},n为客户点数量,m为充电站点数量,每个xi是一个元组序列
Figure BDA0002899684320000085
xi为访问点的二维坐标,
Figure BDA0002899684320000086
为动态元素用于指示第i个访问点在时刻t是否被访问。
进一步的,所述约束条件包括:
每个客户点均被运输工具访问,且每个客户点只能被访问一次;
每个中继充电站点可以被运输工具多次访问、或不被访问;
运输工具遍历所有客户点后返回到出发点;
运输工具在访问过程中始终保持有足够电量到达下一访问点。
进一步的,所述模型训练单元23具体用于:
设定迭代次数E和训练用访问点数量;
设定迭代次数初始值k=0
生成满足训练用访问点数量的训练输入数据;
根据训练输入数据生成训练路径规划,并计算回报值;
根据回报值更新动作网络参数和评价网络参数;
更新迭代次数k=k+1;
当k<E时,返回步骤3,所述步骤3是指生成满足训练用访问点数量的训练输入数据,用以迭代更新动作网络参数和评价网络参数;
根据最后得到的动作网络参数和评价网络参数确定所述深度强化学习模型的应用模型。
下面举一个具体实例加以说明:
设置模型的迭代次数为70000次,并使用Adam优化器对动作评价网络进行训练,学习率为0.0001,批量大小为128。
为了对模型和算法的效率进行验证,在1000个小规模案例上将模型所得结果与经典的节约算法(CW)进行了对比。每个案例包含了10个顾客点以及4个充电站。结果显示,在656个数据集上获得了比CW更好的解。
可以看出,采用本申请的强化学习方法得到的解的分布相对更为集中,并且平均优于CW的结果。为更直接的看出解的差距,现展示其中一个实例的解,如图4和图5所示。
可以看出,两个顾客点的访问顺序相同,但访问充电站的位置和访问的充电站都不相同,强化学习访问的充电站更优。且算法可以在1秒内给出1000个实例的解,求解效率更高,因此该算法具有较高的实用价值。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种用于中继充电路径规划的深度强化学习方法,其特征在于,包括:
构建路径规划的数学模型;
根据所述数学模型构建所述路径规划的深度强化学习模型;
对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型;
将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型,得到所述路径规划的解;
其中,所述深度强化学习的方式为:
根据当前已确定的访问点和约束条件,采用条件概率公式选择下一个访问点,所述访问点包括客户点和中继充电站点;
所述条件概率公式为:
Figure FDA0003881989850000011
Xt+1=f(yt+1,Xt),
其中,Xt为时刻t的输入,Y={y1,…,yT},Y为长度为T的客户点和中继充电站点的序列,f为状态转移函数;
所述约束条件具体包括:
每个客户点均被运输工具访问,且每个客户点只能被访问一次;
每个中继充电站点可以被运输工具多次访问、或不被访问;
运输工具遍历所有客户点后返回到出发点;
运输工具在访问过程中始终保持有足够电量到达下一个访问点;
所述构建所述路径规划的深度强化学习模型,具体包括:
在编码器和解码器基础之上设置注意力层;
采用注意力机制计算每一个输入在下一个时刻t的解码步骤中的相关程度;
所述注意力机制包括:
Figure FDA0003881989850000012
Figure FDA0003881989850000013
Figure FDA0003881989850000014
其中,输入X={xi,i=1,…,n+m+1},n为客户点数量,m为中继充电站点数量,每个xi是一个元组序列
Figure FDA0003881989850000015
xi为访问点的二维坐标,
Figure FDA0003881989850000016
为动态元素用于指示第i个访问点在时刻t是否被访问;
所述对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型,包括:
设定迭代次数E和训练用访问点数量;
设定迭代次数初始值k=0
生成满足训练用访问点数量的训练输入数据;
根据训练输入数据生成训练路径规划,并计算回报值;
根据所述回报值更新动作网络参数和评价网络参数;
更新迭代次数k=k+1;
当k<E时,返回步骤3,所述步骤3是指生成满足训练用访问点数量的训练输入数据;
根据最后得到的动作网络参数和评价网络参数确定所述深度强化学习模型的应用模型。
2.一种用于中继充电路径规划的深度强化学习系统,其特征在于,包括:
数学模型构建单元,用于构建路径规划的数学模型;
深度强化学习模型构建单元,用于根据所述数学模型构建所述路径规划的深度强化学习模型;
模型训练单元,用于对所述深度强化学习模型进行训练,得到所述深度强化学习模型的应用模型;
规划单元,用于将运输工具要访问的客户点和中继充电站点的位置输入所述应用模型,得到所述运输工具的路径规划的解
其中,所述深度强化学习模型用于:根据当前已确定的访问点和约束条件,采用条件概率公式选择下一个访问点,所述访问点包括客户点和充电站点;
所述条件概率公式为:
Figure FDA0003881989850000021
Xt+1=f(yt+1,Xt),
其中,Xt为时刻t的输入,Y={y1,…,yT},Y为长度为T的客户点和中继充电站点的序列,f为状态转移函数;
所述约束条件具体包括:
每个客户点均被运输工具访问,且每个客户点只能被访问一次;
每个中继充电站点可以被运输工具多次访问、或不被访问;
运输工具遍历所有客户点后返回到出发点;
运输工具在访问过程中始终保持有足够电量到达下一个访问点;
所述深度强化学习模型构建单元具体用于:
在编码器和解码器基础之上设置注意力层;
采用注意力机制计算每一个输入在下一个时刻t的解码步骤中的相关程度;
所述注意力机制包括:
Figure FDA0003881989850000031
Figure FDA0003881989850000032
Figure FDA0003881989850000033
其中,输入X={xi,i=1,…,n+m+1},n为客户点数量,m为中继充电站点数量,每个xi是一个元组序列
Figure FDA0003881989850000034
xi为访问点的二维坐标,
Figure FDA0003881989850000035
为动态元素用于指示第i个访问点在时刻t是否被访问;
所述模型训练单元具体用于:
设定迭代次数E和训练用访问点数量;
设定迭代次数初始值k=0
生成满足训练用访问点数量的训练输入数据;
根据训练输入数据生成训练路径规划,并计算回报值;
根据回报值更新动作网络参数和评价网络参数;
更新迭代次数k=k+1;
当k<E时,返回步骤3,所述步骤3是指生成满足训练用访问点数量的训练输入数据;
根据最后得到的动作网络参数和评价网络参数确定所述深度强化学习模型的应用模型。
CN202110052655.3A 2021-01-15 2021-01-15 一种用于中继充电路径规划的深度强化学习方法及系统 Active CN112784481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110052655.3A CN112784481B (zh) 2021-01-15 2021-01-15 一种用于中继充电路径规划的深度强化学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110052655.3A CN112784481B (zh) 2021-01-15 2021-01-15 一种用于中继充电路径规划的深度强化学习方法及系统

Publications (2)

Publication Number Publication Date
CN112784481A CN112784481A (zh) 2021-05-11
CN112784481B true CN112784481B (zh) 2023-04-07

Family

ID=75756114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110052655.3A Active CN112784481B (zh) 2021-01-15 2021-01-15 一种用于中继充电路径规划的深度强化学习方法及系统

Country Status (1)

Country Link
CN (1) CN112784481B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237222B (zh) * 2021-11-16 2024-06-21 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN113988772B (zh) * 2021-12-30 2022-03-25 中国民用航空总局第二研究所 基于多路径的无人机配送网络构建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111098852A (zh) * 2019-12-02 2020-05-05 北京交通大学 一种基于强化学习的泊车路径规划方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
CN111415048B (zh) * 2020-04-10 2024-04-19 大连海事大学 一种基于强化学习的车辆路径规划方法
CN112116125A (zh) * 2020-08-14 2020-12-22 西安交通大学 一种基于深度强化学习的电动汽车充电导航方法
CN112097783B (zh) * 2020-08-14 2022-05-20 广东工业大学 基于深度强化学习的电动出租车充电导航路径规划方法
CN112116129B (zh) * 2020-08-24 2022-11-01 中山大学 一种基于深度强化学习的动态路径优化问题求解方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111098852A (zh) * 2019-12-02 2020-05-05 北京交通大学 一种基于强化学习的泊车路径规划方法

Also Published As

Publication number Publication date
CN112784481A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
Yang et al. Multi‐robot path planning based on a deep reinforcement learning DQN algorithm
CN110399565B (zh) 基于时空周期注意力机制的递归神经网络兴趣点推荐方法
CN112784481B (zh) 一种用于中继充电路径规划的深度强化学习方法及系统
CN109948855A (zh) 一种带时间窗的异构危化品运输路径规划方法
Kala Rapidly exploring random graphs: motion planning of multiple mobile robots
Zhang et al. Vehicle-based bi-objective crowdsourcing
CN114167898B (zh) 一种无人机收集数据的全局路径规划方法及系统
Qin et al. Reinforcement learning for ridesharing: A survey
Elmi et al. Cyclic job shop robotic cell scheduling problem: Ant colony optimization
CN114815802A (zh) 一种基于改进蚁群算法的无人天车路径规划方法和系统
JP2022022106A (ja) コンピュータが実施する、ルートのエネルギ使用を予測する方法
Rahili et al. Optimal routing for autonomous taxis using distributed reinforcement learning
Xi et al. Hmdrl: Hierarchical mixed deep reinforcement learning to balance vehicle supply and demand
CN115455146A (zh) 基于Transformer深度强化学习的知识图谱多跳推理方法
Cheng Dynamic path optimization based on improved ant colony algorithm
Lu et al. The vehicle relocation problem with operation teams in one-way carsharing systems
CN114418497A (zh) 基于混合麻雀算法的物流路径优化方法
Hendawi et al. Panda∗: A generic and scalable framework for predictive spatio-temporal queries
Habib et al. Optimizing traveling salesman problem using tabu search metaheuristic algorithm with Pythagorean fuzzy uncertainty
CN117361013A (zh) 一种基于深度强化学习的多机货架仓储调度方法
Hsieh et al. Recommending taxi routes with an advance reservation–a multi-criteria route planner
Zhang et al. Global path planning for multi-objective UAV-assisted sensor data collection: A DRL approach
Elsayed et al. Prediction-based cooperative cache discovery in vanets for social networking
Li et al. A Multiline Customized Bus Planning Method Based on Reinforcement Learning and Spatiotemporal Clustering Algorithm
Arica et al. An empirical comparison of search approaches for moving agents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant