CN113537628B - 一种基于分布强化学习的通用可靠最短路方法 - Google Patents
一种基于分布强化学习的通用可靠最短路方法 Download PDFInfo
- Publication number
- CN113537628B CN113537628B CN202110889470.8A CN202110889470A CN113537628B CN 113537628 B CN113537628 B CN 113537628B CN 202110889470 A CN202110889470 A CN 202110889470A CN 113537628 B CN113537628 B CN 113537628B
- Authority
- CN
- China
- Prior art keywords
- path
- target
- probability distribution
- reinforcement learning
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013439 planning Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 230000033001 locomotion Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于分布强化学习的通用可靠最短路方法,所述基于分布强化学习的通用可靠最短路方法包括:S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。本发明所提供的基于分布强化学习的通用可靠最短路方法,能够解决现有的基于分布强化学习的通用可靠最短路方法耗时且效率低下的问题。
Description
技术领域
本发明涉及路径规划技术领域,具体涉及一种基于分布强化学习的通用可靠最短路方法。
背景技术
路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线称之为路径,构成路径的策略称之为路径规划。
路径规划在很多领域都具有广泛的应用。在高新科技领域的应用有:机器人的自主无碰行动;无人机的避障突防飞行;巡航导弹躲避雷达搜索、防反弹袭击、完成突防爆破任务等。在日常生活领域的应用有:GPS导航;基于GIS系统的道路规划;城市道路网规划导航等。在决策管理领域的应用有:物流管理中的车辆问题(VRP)及类似的资源管理资源配置问题。通信技术领域的路由问题等。凡是可拓扑为点线网络的规划问题基本上都可以采用路径规划的方法解决。
不确定性下的路径规划是智能交通系统最基本的组成部分之一。虽然最小预期时间被视为是随机交通网络中最受欢迎和最简单的路径规划目标。但在现实中,有很大一部分路径规划问题不仅仅是考虑预期到达时间,可能考虑到道路的可靠性和风险规避,这类问题被称作可靠最短路径问题。根据不同的需求,会有不同的可靠最短路径问题定义,并有不同的方法加以解决。
目前常用的可靠最短路方法,几乎所有方法都只能解决一种可靠最短路问题,不能同时解决多种问题需求。并且大部分方法在实现过程中需要假设路径行驶时间的基于某种特殊分布。在路径规划问题中,方法的实时性也是一个重要衡量标准,大部分可靠最短路径方法往往十分耗时,并不能满足实时的需求。
发明内容
本发明的目的在于提供一种基于分布强化学习的通用可靠最短路方法,以解决现有的基于分布强化学习的通用可靠最短路方法耗时且效率低下的问题。
本发明解决上述技术问题的技术方案如下:
本发明提供一种基于分布强化学习的通用可靠最短路方法,所述基于分布强化学习的通用可靠最短路方法包括:
S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
可选择地,所述训练方法包括:
S11:初始化所有路径的概率分布表;
S12:随机选择所述所有路径的概率分布表中的任意一个起点;
S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
S14:在所述路径上标记多个标记点;
S15:向下一个标记点移动,得到移动消耗时间;
S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。
可选择地,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
可选择地,所述步骤S19中,通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。
可选择地,所述决策方法包括:
S21:在所述最优路径的概率分布表中选择目标起点和目标终点;
S22:根据所述目标起点,利用所述最优路径的概率分布表计算得到目标路径;
S23:在所述目标路径上标记多个目标标记点;
S24:向下一个目标标记点移动,得到目标移动消耗时间;
S25:根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点,若是,输出所述目标起点、所述目标路径和所述目标终点;否则返回步骤S22。
可选择地,所述步骤S22中,所述利用所述最优路径的概率分布表计算得到目标路径包括:
将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。
可选择地,在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后,所述基于分布强化学习的通用可靠最短路方法还包括:
根据分布式强化学习的贝尔曼方程进行学习,得到所述目标路径。
可选择地,所述贝尔曼方程为:
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
可选择地,所述步骤S25中,通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。
本发明具有以下有益效果:
通过上述技术方案,即通过本发明所提供的基于分布强化学习的通用可靠最短路方法,利用训练方法和决策方法,能够根据实际运行过程中的不同情况即使调整规划方式,并能够在运行过程中随时更改需求目标,从而得到可靠最短路,从而进一步提高工作效率。
附图说明
图1为本发明所提供的基于分布强化学习的通用可靠最短路方法的流程图;
图2为图1中步骤S1的分步骤流程图;
图3为图1中步骤S2的分步骤流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例
本发明解决上述技术问题的技术方案如下:
本发明提供一种基于分布强化学习的通用可靠最短路方法,所述基于分布强化学习的通用可靠最短路方法包括:
S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
本发明具有以下有益效果:
通过上述技术方案,即通过本发明所提供的基于分布强化学习的通用可靠最短路方法,利用训练方法和决策方法,能够根据实际运行过程中的不同情况即使调整规划方式,并能够在运行过程中随时更改需求目标,从而得到可靠最短路,从而进一步提高工作效率。
可选择地,参考图2所示,所述训练方法包括:
S11:初始化所有路径的概率分布表;
S12:随机选择所述所有路径的概率分布表中的任意一个起点;
S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
S14:在所述路径上标记多个标记点;
S15:向下一个标记点移动,得到移动消耗时间;
S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。
可选择地,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
可选择地,所述步骤S19中,通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。
可选择地,参考图3所示,所述决策方法包括:
S21:在所述更新后的概率分布表中选择目标起点和目标终点;
S22:根据所述目标起点,利用所述最优路径的概率分布表计算得到目标路径;
S23:在所述目标路径上标记多个目标标记点;
S24:向下一个目标标记点移动,得到目标移动消耗时间;
S25:根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点,若是,输出所述目标起点、所述目标路径和所述目标终点;否则返回步骤S22。
可选择地,所述步骤S22中,所述利用所述最优路径的概率分布表计算得到目标路径包括:
将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。
可选择地,在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后,所述基于分布强化学习的通用可靠最短路方法还包括:
根据分布式强化学习的贝尔曼方程进行学习,得到所述目标路径。
可选择地,所述贝尔曼方程为:
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
可选择地,所述步骤S25中,通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。
具体地,在本发明中,首先对经典强化学习框架做以介绍:
马尔可夫决策过程(Markov Decision Processes,MDPs)MDPs简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。
MDP的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。
其可以简单表示为:M=<S,A,Ps,a,R>
强化学习的目标是找到最优的策略π,以最大化行为值函数Q,就是所有的(x,a),对于所有的π,有:
其中,为最优策略的函数值,Qπ为Z的数学期望。
值函数Q是一个随机变量,随机变量是有分布的,包含的信息比常规强化学习求出来的数学期望值要包含更多的信息量,包含更多和环境交互的信息,或许就是传统强化学习收敛难,不鲁棒,样本效率低,训练难的问题原因。分布式增强学习区别于传统的强化学习方法,并没有简单利用数学期望值表示Q,而是表达出整个值函数的分布Z。
本专利的方法应用分布式强化学习,将路径规划问题映射至马尔可夫过程,而不是像传统的可靠路径规划问题那样将其视为单一的非凸的数学优化问题。并且不同于传统的强化学习方法,该方法能包含行驶时间的整个分布,并不单一的将数学期望作为决策唯一标准,能够更加灵活的处理可靠最短路问题(RSP)问题中各种需求,RSP问题并不仅仅关注行驶时间的数学期望,最终目标也不是简单的最小化行驶时间的数学期望,RSP问题的数学描述如下:
(1)最大化准时到达概率,maximal stochastic on time arrival(SOTA)
maximize P(cx≤T)
subjectto x∈Pod
其中,P(cx≤T)表示路径x到达终点消耗的时间cx在给定时间T内的概率最大化;Pod表示起点到终点od之间的所有路径。
(2)最小化固定概率到达时间,minimal travel time with a high percentile(α-reliable)
min imize T
subjectto P(cx≤T)≥a,
x∈Pod
其中,P(cx≤T)≥a表示路径x到达终点消耗的时间cx在给定时间T内的概率大于预先给定的概率a;Pod表示起点到终点od之间的所有路径。
(3)最小化行驶时间的均值和标准差的线性组合,minimal linear combinationof mean and standard deviation(mean-std)
subjectto x∈Pod
其中,表示路径x消耗时间的数学期望和标准差的线性组合;Pod表示起点到终点od之间的所有路径。
(4)最小化效用函数值,Minimal expected disutility(MED)
minimize E(u(cx))
subjectto x∈Pod
其中,E(X)表示X的数学期望,u(cx)表示关于路径x到达终点消耗的时间cx的效用时间;Pod表示起点到终点od之间的所有路径。
在马尔可夫过程框架内制定RSP规划问题的关键是正确地映射出马尔可夫过程框架内制定可靠最短路规划问题的关键是正确映射马尔可夫过程框架相关的元素。映射过程如下。
(1)车辆的状态(st∈X)是车辆所在的顶点,例如顶点i。
吸收状态3是顶点d;(2)车辆的行动st∈x是车辆采取的边,例如边ij;(3)奖励rt+1是边ij的采样旅行时间。即cij;(4)状态转换函数P是一个确定性的的函数,它将车辆过渡到当前执行链路的终端节点,如当前执行链路的末端节点,例如,e.g.st+1=j where j∈ψ;(5)在RSP规划中,折扣系数γ=1。一个路由策略π可能以概率方式确定车辆的下一条执行边at,例如,at=π(st),即给定车辆的当前状态(st)。从(s;a)开始的策略π的回报,即Zπ(s,a),是策略π的总旅行时间分布。策略π在(s;a)处开始的总旅行时间分布。类似地,Zπ(s)是策略π的总旅行时间分布,从状态s开始π的总旅行时间分布,从状态s开始。
定义完路径规划问题在马尔可夫过程框架相关的元素,就可以根据分布式强化学习的贝尔曼方程
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
进行学习过程,逐渐拟合出在最有策略下的完整分布,最终得到最优路径虚招策略,完成整个路径规划过程。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于分布强化学习的通用可靠最短路方法,其特征在于,所述基于分布强化学习的通用可靠最短路方法包括:
S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点;
所述训练方法包括:
S11:初始化所有路径的概率分布表;
S12:随机选择所述所有路径的概率分布表中的任意一个起点;
S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
S14:在所述路径上标记多个标记点;
S15:向下一个标记点移动,得到移动消耗时间;
S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12;
所述决策方法包括:
S21:在所述最优路径的概率分布表中选择目标起点和目标终点;
S22:根据所述目标起点,利用所述最优路径的概率分布表计算得到目标路径;
S23:在所述目标路径上标记多个目标标记点;
S24:向下一个目标标记点移动,得到目标移动消耗时间;
S25:根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点,若是,输出所述目标起点、所述目标路径和所述目标终点;否则返回步骤S22。
2.根据权利要求1所述的基于分布强化学习的通用可靠最短路方法,其特征在于,所述步骤S17中,通过对比路径的消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
3.根据权利要求1所述的基于分布强化学习的通用可靠最短路方法,其特征在于,所述步骤S18中,通过对比路径的消耗时间是否达到预设训练时间判断是否结束训练。
4.根据权利要求1所述的基于分布强化学习的通用可靠最短路方法,其特征在于,所述步骤S22中,所述利用所述最优路径的概率分布表计算得到目标路径包括:
将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。
5.根据权利要求4所述的基于分布强化学习的通用可靠最短路方法,其特征在于,在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后,所述基于分布强化学习的通用可靠最短路方法还包括:
根据分布式强化学习的贝尔曼方程进行学习,得到所述目标路径。
6.根据权利要求5所述的基于分布强化学习的通用可靠最短路方法,其特征在于,所述贝尔曼方程为:
其中,π为路径策略;s,a为状态;Zπ(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,rk表示第k次消耗时间,αt为t时刻下的学习率,为t+1时刻,在路径策略π下,于s’做出动作a所得到的Z。
7.根据权利要求1-6中任意一项所述的基于分布强化学习的通用可靠最短路方法,其特征在于,所述步骤S25中,通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110889470.8A CN113537628B (zh) | 2021-08-04 | 2021-08-04 | 一种基于分布强化学习的通用可靠最短路方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110889470.8A CN113537628B (zh) | 2021-08-04 | 2021-08-04 | 一种基于分布强化学习的通用可靠最短路方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537628A CN113537628A (zh) | 2021-10-22 |
CN113537628B true CN113537628B (zh) | 2023-08-22 |
Family
ID=78121979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110889470.8A Active CN113537628B (zh) | 2021-08-04 | 2021-08-04 | 一种基于分布强化学习的通用可靠最短路方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537628B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114253265B (zh) * | 2021-12-17 | 2023-10-20 | 成都朴为科技有限公司 | 基于四阶矩的按时到达概率最大路径规划算法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057124A (ja) * | 1998-08-14 | 2000-02-25 | Nec Corp | 組合せ最適化方法および組合せ最適化システム |
CN110520868A (zh) * | 2017-04-14 | 2019-11-29 | 渊慧科技有限公司 | 分布式强化学习 |
CN110633850A (zh) * | 2019-09-11 | 2019-12-31 | 中电科新型智慧城市研究院有限公司 | 一种面向出行时间可靠性的最优路径规划算法 |
CN110763234A (zh) * | 2019-10-15 | 2020-02-07 | 哈尔滨工程大学 | 一种水下机器人海底地形匹配导航路径规划方法 |
CN111917642A (zh) * | 2020-07-14 | 2020-11-10 | 电子科技大学 | 分布式深度强化学习的sdn网络智慧路由数据传输方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376633B2 (en) * | 2004-05-04 | 2008-05-20 | Khimetrics, Inc. | Configurational density process and structure |
US20150345967A1 (en) * | 2014-06-03 | 2015-12-03 | Nissan North America, Inc. | Probabilistic autonomous vehicle routing and navigation |
TW201923668A (zh) * | 2017-11-15 | 2019-06-16 | 國立清華大學 | 物件供應的管理方法及使用其之管理系統 |
US11615293B2 (en) * | 2019-09-23 | 2023-03-28 | Adobe Inc. | Reinforcement learning with a stochastic action set |
-
2021
- 2021-08-04 CN CN202110889470.8A patent/CN113537628B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057124A (ja) * | 1998-08-14 | 2000-02-25 | Nec Corp | 組合せ最適化方法および組合せ最適化システム |
CN110520868A (zh) * | 2017-04-14 | 2019-11-29 | 渊慧科技有限公司 | 分布式强化学习 |
CN110633850A (zh) * | 2019-09-11 | 2019-12-31 | 中电科新型智慧城市研究院有限公司 | 一种面向出行时间可靠性的最优路径规划算法 |
CN110763234A (zh) * | 2019-10-15 | 2020-02-07 | 哈尔滨工程大学 | 一种水下机器人海底地形匹配导航路径规划方法 |
CN111917642A (zh) * | 2020-07-14 | 2020-11-10 | 电子科技大学 | 分布式深度强化学习的sdn网络智慧路由数据传输方法 |
Non-Patent Citations (1)
Title |
---|
潘义勇 等.基于可靠度的动态随机交通网络耗时最优路径.吉林大学学报(工学版).2016,第46卷(第2期),第412-417页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113537628A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102915351B (zh) | 沿飞行器轨迹的天气数据选择 | |
CN111024092A (zh) | 一种多约束条件下智能飞行器航迹快速规划方法 | |
CN106503789A (zh) | 基于迪杰斯特拉和最大最小蚁群的无环最短路径搜索方法 | |
CN110926485B (zh) | 一种基于直线特征的移动机器人定位方法及系统 | |
CN113758494B (zh) | 导航路径规划方法、装置、设备和存储介质 | |
CN103245347A (zh) | 基于路况预测的智能导航方法及系统 | |
CN110633138A (zh) | 一种基于边缘计算的自动驾驶服务卸载方法 | |
CN113537628B (zh) | 一种基于分布强化学习的通用可靠最短路方法 | |
CN114440916A (zh) | 一种导航方法、装置、设备及存储介质 | |
CN112484733B (zh) | 一种基于拓扑图的强化学习室内导航方法 | |
CN106840164B (zh) | 一种多碎片主动清除在线重规划方法 | |
CN111523059A (zh) | 一种基于改进蛙跳算法的个性化旅游路线推荐方法 | |
CN113701742A (zh) | 一种基于云端与边端融合计算的移动机器人slam方法 | |
CN114253265B (zh) | 基于四阶矩的按时到达概率最大路径规划算法及系统 | |
CN110825112A (zh) | 基于多无人机的油田动态侵入目标追踪系统与方法 | |
CN114815801A (zh) | 一种基于策略-价值网络及mcts的自适应环境路径规划方法 | |
CN113836661A (zh) | 时间预测方法、模型训练方法、相关装置及电子设备 | |
CN118170013A (zh) | 一种基于强化学习的无人机辅助配送系统及方法 | |
EP4266004A1 (en) | User trajectory positioning method, electronic device and computer storage medium | |
Zhu et al. | Delay-effective task offloading technology in Internet of vehicles: from the perspective of the vehicle platooning | |
CN114485699B (zh) | 一种无人机自组织网络自适应路径优化方法及系统 | |
CN114791732B (zh) | 路径规划方法、装置、设备及计算机可读存储介质 | |
Ye et al. | A hidden Markov model combined with RFID-based sensors for accurate vehicle route prediction | |
Tiešyte et al. | Efficient cost-based tracking of scheduled vehicle journeys | |
CN113932819B (zh) | 基于往复回填算法的无人机完整搜索路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |