CN112964272A - 一种改进的Dyna-Q学习路径规划算法 - Google Patents

一种改进的Dyna-Q学习路径规划算法 Download PDF

Info

Publication number
CN112964272A
CN112964272A CN202110278598.0A CN202110278598A CN112964272A CN 112964272 A CN112964272 A CN 112964272A CN 202110278598 A CN202110278598 A CN 202110278598A CN 112964272 A CN112964272 A CN 112964272A
Authority
CN
China
Prior art keywords
state
algorithm
action
value
path planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110278598.0A
Other languages
English (en)
Inventor
石振
王保华
王科银
张建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Automotive Technology
Original Assignee
Hubei University of Automotive Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Automotive Technology filed Critical Hubei University of Automotive Technology
Priority to CN202110278598.0A priority Critical patent/CN112964272A/zh
Publication of CN112964272A publication Critical patent/CN112964272A/zh
Priority to LU500356A priority patent/LU500356B1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/005Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 with correlation of navigation data from several sources, e.g. map or contour matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明将基于模型的算法和模型无关的算法相结合的Dyna框架结合Q‑learning算法应用于移动机器人路径规划,同时为了加快算法的收敛,在Q值初始化时引入人工势场法初始化Q值,仿真实验表明,加入规划后的算法收敛前的运行幕数会大大减少,并且规划步数越大算法收敛前运行幕数越少,但是加入规划会增加算法的时间复杂度;改进的Dyna‑Q学习算法加快了算法的收敛速度,能够高效的完成移动机器人在未知环境中的路径规划问题。

Description

一种改进的Dyna-Q学习路径规划算法
技术领域
本发明涉及机器人路径规划技术领域,具体涉及一种改进的Dyna-Q学习路径规划算法。
背景技术
路径规划技术可以引导移动机器人从起始位置避开障碍物到达目标位置,是实现移动机器人自主导航的关键。根据对环境信息的掌握程度不同,路径规划分为全局路径规划和局部路径规划。全局路径规划是在已知的环境中规划出移动机器人的运动路径,常用的全局路径规划算法有可视图、格栅法、拓扑法等;而局部路径规划的环境信息未知或者是部分已知,比较广泛应用的算法有神经网络法、人工势场法、强化学习算法等。在众多的路径规划算法中,强化学习算法因其无需对环境进行建模而得到广泛的应用。
强化学习算法主要通过智能体不断与环境交互获得外部环境信息实现多步决策问题的优化求解。根据是否已知环境模型强化学习可分为有模型强化学习和无模型强化学习。
Q-learning是一种典型的无模型强化学习算法。Q-learning算法通过构建Q表存储状态动作值,智能体在与环境交互的过程中获得奖励从而更新Q值。
基于模型的强化学习算法通过智能体与环境交互来优化模型,而直接的强化学习算法通过智能体与环境交互来优化策略。Dyna学习框架结合基于模型的学习和直接学习,智能体一方面利用与环境交互的经验来优化策略,另一方面利用经验来学习模型,学习到的模型同样用来指导智能体选择动作。
人工势场模型是Khatib提出的一种虚拟力法。该方法假设移动机器人在一种虚拟力场下运动。目标点对机器人产生引力,引导机器人朝其运动,障碍物对机器人产生斥力,避免机器人与其产生碰撞,机器人在运动路径上的每一点所受的合力等于这一点的引力和斥力之和。
Dyna学习框架可以和其他的无模型强化学习算法结合。本文选择Dyna框架和Q-learning算法相结合的Dyna-Q学习应用于移动机器人路径规划中。虽然,Dyna-Q学习相较于Q-learning算法增加了规划过程,可以在一定程度上提升算法的性能,但其无法改变Q-learning算法由于把Q值初始化为0或者是随机数而导致的算法初期搜索的盲目性,从而导致算法初期产生大量的无效迭代。为了解决Q-learning算法的上述不足,引入人工势场法对算法进行改进。
发明内容
针对现有技术中关于Dyna框架和Q-learning算法相结合中存在的不足,本发明特提供一种改进的Dyna-Q学习路径规划算法。
一种改进的Dyna-Q学习路径规划算法,包括以下步骤:
1. 输入环境信息:起始位置和目标位置;
2. 设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);
3. 初始化Q表;
4. 循环;
5. 初始化状态S;
6. 采用ε-贪婪策略选择动作A;
7. 执行所选动作到达下一状态S’并获得相应奖励R;
8. 更新Q值;
9. 用R和S’更新模型M(s,a);
10.n次模拟;
11. 每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;
12. 基于模型M(S,A)得到奖励R和下一状态S’;
13.再次更新Q值;
14. 达到一定步数或一定收敛条件,终止;
其中,S代表环境状态;A代表智能体所采取的动作;R代表智能体在状态S采取动作A所获得的奖励。
进一步的,步骤1的具体过程如下:对移动机器人获得的环境图像进行分割处理,将图像分割成20×20的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,机器人不能经过;如果格栅中发现目标点,则定于该格栅为目标位置,为移动机器人最终要到达的位置;其他的栅格定义为无障碍物的栅格,机器人可以经过。
进一步的,步骤2中,α为学习率,用于迭代收敛,γ为折扣因子,决定了同一迭代周期内未来奖励的重要程度;ε是介于0-1之间的贪婪度,每次智能体以ε的概率对环境进行探索,以1-ε的概率选择具有最大状态动作值的动作;ζ是大于0的尺度因子。
进一步的,步骤3中通过状态价值函数和状态值函数之间的关系公式(1)来初始化Q值
Figure 771523DEST_PATH_IMAGE001
(1)
其中,P(s|sa)为从当前状态s和动作a确定的情况下转移到状态s,的概率。.
由于移动机器人运行环境中的障碍物位置未知,故只考虑目标点对机器人产生的引力影响,采用公式2改进的引力场函数对除目标位置以外的状态值进行初始化
Figure 477311DEST_PATH_IMAGE002
(2)
其中,ζ是大于0的尺度因子,为当前位置与目标位置的距离。
进一步的,Q-learning算法通过构建Q表存储状态动作值,智能体在与环境交互的过程中获得奖励从而更新Q值,在步骤8和步骤13中,采用公式3初始化Q值
Figure 405953DEST_PATH_IMAGE003
(3)
其中,
Figure 603716DEST_PATH_IMAGE004
为t时刻的状态动作值,
Figure 276006DEST_PATH_IMAGE005
为t时刻获得的奖励值,
Figure 242825DEST_PATH_IMAGE006
为t+1时刻采取动作a状态动作值。
本发明的有益效果:
本发明将基于模型的算法和模型无关的算法相结合的Dyna框架结合Q-learning算法应用于移动机器人路径规划,同时为了加快算法的收敛,在Q值初始化时引入人工势场法初始化Q值,仿真实验表明,加入规划后的算法收敛前的运行幕数会大大减少,并且规划步数越大算法收敛前运行幕数越少,但是加入规划会增加算法的时间复杂度;改进的Dyna-Q学习算法加快了算法的收敛速度,能够高效的完成移动机器人在未知环境中的路径规划问题。
附图说明
图1为根据本发明所述的实施例的移动机器人运行格栅地图。
图2为改进前的Dyna-Q学习算法的不同规划步数收敛图。
图3为根据本发明所述的实施例的改进后的Dyna-Q学习算法的不同规划步数收敛图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
本发明提供一种改进的Dyna-Q学习路径规划算法,所述算法包括以下步骤:
1. 输入环境信息:起始位置和目标位置;
2. 设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);
3. 初始化Q表;
4. 循环;
5. 初始化状态S;
6. 采用ε-贪婪策略选择动作A;
7. 执行所选动作到达下一状态S’并获得相应奖励R;
8. 更新Q值;
9. 用R和S’更新模型M(s,a);
10.n次模拟;
11. 每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;
12. 基于模型M(S,A)得到奖励R和下一状态S’;
13.再次更新Q值;
14. 达到一定步数或一定收敛条件,终止;
其中,S代表环境状态;A代表智能体所采取的动作;R代表智能体在状态S采取动作A所获得的奖励。
在本实施例中,采用经典的格栅地图验证算法。搭建如图1所示20×20的格栅地图实验环境。其左上角的矩形代表移动机器人,其起始位置为(0,0),地图中的三角形代表障碍物,白色区域代表可通行区域,圆形代表目标位置(15,13)。环境中每个格栅代表一个状态,共400个状态;智能体的动作空间设置为(上,下,左,右)四个动作,智能体每采取一个动作朝相应的方向移动一个格栅,除非移动被障碍物或者环境边缘阻挡,当被阻挡时,智能体将保持在原来的位置不动。除了智能体到达目标位置获得奖励为1,其他所有的动作转移获得奖励为0。智能体到达目标位置会返回到起始位置开始新的一幕。
步骤2中,α为学习率,用于迭代收敛,γ为折扣因子,决定了同一迭代周期内未来奖励的重要程度;ε是介于0-1之间的贪婪度,每次智能体以ε的概率对环境进行探索,以1-ε的概率选择具有最大状态动作值的动作;ζ是大于0的尺度因子。在本实施例中,学习率ɑ =0.01,折扣因子γ = 0.9,贪婪因子ε=0.2。
步骤3中通过状态价值函数和状态值函数之间的关系公式(1)来初始化Q值
Figure 607947DEST_PATH_IMAGE001
(1)
其中,P(s|sa)为从当前状态s和动作a确定的情况下转移到状态s,的概率;
由于移动机器人运行环境中的障碍物位置未知,故只考虑目标点对机器人产生的引力影响,采用公式2改进的引力场函数对除目标位置以外的状态值进行初始化
Figure 824165DEST_PATH_IMAGE002
(2)
其中,ζ是大于0的尺度因子,为当前位置与目标位置的距离。
进一步的,Q-learning算法通过构建Q表存储状态动作值,智能体在与环境交互的过程中获得奖励从而更新Q值,在步骤8和步骤13中,采用公式3初始化Q值
Figure 175512DEST_PATH_IMAGE003
(3)
其中,
Figure 855892DEST_PATH_IMAGE004
为t时刻的状态动作值,
Figure 267282DEST_PATH_IMAGE005
为t时刻获得的奖励值,
Figure 970795DEST_PATH_IMAGE006
为t+1时刻采取动作a状态动作值。
在本实施例中,步骤14中的最大运行幕数设置为100。
实验结果与分析
在本实施例所搭建的仿真环境中对比改进前的Dyna-Q学习算法,如图2所示,(a)、(b)、(c)分别代表了规划步数为0,5,100的收敛情况。
从实验结果可以看出,没有规划的智能体在80幕左右开始收敛,规划步数为5的智能体在5幕时开始收敛,规划步数为100的智能体在3幕就可以很好的收敛。实验数据显示有规划步数的智能体的收敛前的运行步数要远远少于没有规划的智能体收敛前的运行步数。这是因为,当智能体没有规划时每一幕只有一次的学习机会,而在有规划时智能体增加了一次学习机会,会使得步数快速收敛,规划的步数越多,智能体在一幕中对环境的学习就越充分,收敛的速度越快。
图3中(a)、(b)、(c)分别展示了改进后的Dyna-Q学习算法在规划步数为0,5,100的收敛情况,对比可得到如图2相同的结论,既加入规划后算法的收敛前运行步数会大大减少。
图3(a)显示智能体在12幕左右便可以很好收敛,对比图2(a)可以看出在没有规划时改进后的算法收敛前运行幕数相较于改进前大大减少。对比两图种的(b)和(c)可以看出加入规划时改进算法在收敛前的运行幕数上没有明显的改善。
Figure 719309DEST_PATH_IMAGE007
表1:6种算法运行结果。
表1展示了6种算法在运行100幕时的详细运行结果。其具体数值为每种算法运行20次取平均值。分析表中改进前或者改进后的三种算法运行数据可知,虽然增加规划的算法在运行幕数和运行总步数上比不加规划的算法大大减少但是加入规划后会增加时间成本,规划的步数越多算法的运行时间越长。这是因为,在加入规划步数后智能体要在模拟环境上花费大量的时间从而导致算法的运行时间增加
对比表1中改进后和改进前的算法具体数据可知,无规划的算法改进后运行时间减少80.97%,运行总步数减少85.95%;规划步数为5的算法,改进后运行时间减少50.12%,运行总步数减少41.80%;规划步数为100的算法,改进后运行时间减少30.44%,运行总步数减少29.83%。可以发现,随着规划步数的增加,通过初始化Q值改进的算法在算法性能的提升上越不明显,这是因为加入规划是通过回溯的方式提升算法性能,加入的规划步数越多智能体对Q值回溯更新的次数就越多,对初始值就越不敏感。
本发明将Dyna-Q算法应用于移动机器人未知环境的路径规划领域,并在传统算法的基础上结合人工势场法对算法进行了改进。实验结果表明,智能体规划步数越多,算法的收敛前所运行幕数越少,但是加入规划会增加算法的时间复杂度,加入规划的步数越多算法运行时间越长;改进后的算法,在Q值初始化时引入人工势场法取代了传统算法中初始化所有Q值为0或者随机初始化Q值的方法,使得越靠近目标位置Q值越大,引导智能体从算法的起始阶段就以更大的概率朝着目标位置移动,加快了算法收敛,提升了算法的性能,但是通过该方法改进的算法随着规划步数的增加对算法性能的提升就越不明显。

Claims (7)

1.一种改进的Dyna-Q学习路径规划算法,其特征在于:包括以下步骤:
S1.输入环境信息:起始位置和目标位置;
S2.设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);
S3.初始化Q表;
S4.循环;
S5.初始化状态S;
S6.采用ε-贪婪策略选择动作A;
S7.执行所选动作到达下一状态S’并获得相应奖励R;
S8.更新Q值;
S9.用R和S’更新模型M(s,a);
S10.n次模拟;
S11.每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;
S12.基于模型M(S,A)得到奖励R和下一状态S’;
S 13.再次更新Q值;
S14.达到一定步数或一定收敛条件,终止;
其中,S代表环境状态;A代表智能体所采取的动作;R代表智能体在状态S采取动作A所获得的奖励。
2.根据权利要求1所述的改进的Dyna-Q学习路径规划算法,其特征在于:步骤S1具体过程如下:对移动机器人获得的环境图像进行分割处理,将图像分割成20×20的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,机器人不能经过;如果格栅中发现目标点,则定于该格栅为目标位置,为移动机器人最终要到达的位置;其他的栅格定义为无障碍物的栅格,机器人可以经过。
3.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S2中,α为学习率,用于迭代收敛,γ为折扣因子,决定了同一迭代周期内未来奖励的重要程度;ε是介于0-1之间的贪婪度,每次智能体以ε的概率对环境进行探索,以1-ε的概率选择具有最大状态动作值的动作;ζ是大于0的尺度因子。
4.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S3中通过状态价值函数和状态值函数之间的关系公式(1)来初始化Q值
Figure 509045DEST_PATH_IMAGE001
(1)
其中,P(s|sa)为从当前状态s和动作a确定的情况下转移到状态s的概率;
采用公式2改进的引力场函数对除目标位置以外的状态值进行初始化,
Figure 792259DEST_PATH_IMAGE002
(2)
其中,ζ是大于0的尺度因子,为当前位置与目标位置的距离。
5.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:
步骤S8和步骤S13中, 采用公式3初始化Q值
Figure 942617DEST_PATH_IMAGE003
(3)
其中,
Figure 288279DEST_PATH_IMAGE004
为t时刻的状态动作值,
Figure 956021DEST_PATH_IMAGE005
为t时刻获得的奖励值,
Figure 952796DEST_PATH_IMAGE006
为t+1时刻采取动作a状态动作值。
6.根据权利要求3所述的引入人工势场的强化学习路径规划方法,其特征在于:学习率ɑ为0.01、折扣因子γ为0.9、贪婪因子ε为0.2。
7.根据权利要求1所述的引入人工势场的强化学习路径规划方法,其特征在于:步骤S14中最大运行幕数设置为100。
CN202110278598.0A 2021-03-16 2021-03-16 一种改进的Dyna-Q学习路径规划算法 Pending CN112964272A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110278598.0A CN112964272A (zh) 2021-03-16 2021-03-16 一种改进的Dyna-Q学习路径规划算法
LU500356A LU500356B1 (en) 2021-03-16 2021-06-30 Improved dyna-q learning path planning algorithm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110278598.0A CN112964272A (zh) 2021-03-16 2021-03-16 一种改进的Dyna-Q学习路径规划算法

Publications (1)

Publication Number Publication Date
CN112964272A true CN112964272A (zh) 2021-06-15

Family

ID=76279105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110278598.0A Pending CN112964272A (zh) 2021-03-16 2021-03-16 一种改进的Dyna-Q学习路径规划算法

Country Status (2)

Country Link
CN (1) CN112964272A (zh)
LU (1) LU500356B1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115016499A (zh) * 2022-07-07 2022-09-06 吉林大学 一种基于sca-ql的路径规划方法
CN116700258A (zh) * 2023-06-13 2023-09-05 重庆市荣冠科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389591A (zh) * 2019-08-29 2019-10-29 哈尔滨工程大学 一种基于dbq算法的路径规划方法
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389591A (zh) * 2019-08-29 2019-10-29 哈尔滨工程大学 一种基于dbq算法的路径规划方法
CN111896006A (zh) * 2020-08-11 2020-11-06 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及系统
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘志荣等: "基于强化学习的移动机器人路径规划研究综述", 《制造业自动化》 *
刘思嘉等: "基于强化学习的城市交通路径规划", 《计算机应用》 *
叶强等: "《强化学习入门》", 31 August 2020, 北京:机械工业出版社 *
朱美强等: "一类用于井下路径规划问题的DynaQ学习算法", 《工矿自动化》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115016499A (zh) * 2022-07-07 2022-09-06 吉林大学 一种基于sca-ql的路径规划方法
CN116700258A (zh) * 2023-06-13 2023-09-05 重庆市荣冠科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法
CN116700258B (zh) * 2023-06-13 2024-05-03 万基泰科工集团数字城市科技有限公司 一种基于人工势场法和强化学习的智能车路径规划方法

Also Published As

Publication number Publication date
LU500356B1 (en) 2022-01-03

Similar Documents

Publication Publication Date Title
Narvekar et al. Autonomous Task Sequencing for Customized Curriculum Design in Reinforcement Learning.
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN107403426B (zh) 一种目标物体检测方法及设备
Badgwell et al. Reinforcement learning–overview of recent progress and implications for process control
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN111260026B (zh) 一种基于元强化学习的导航迁移方法
Huang Model-based or model-free, a review of approaches in reinforcement learning
Gürtler et al. Hierarchical reinforcement learning with timed subgoals
Arai et al. Experience-based reinforcement learning to acquire effective behavior in a multi-agent domain
Mahadevan Enhancing transfer in reinforcement learning by building stochastic models of robot actions
CN110327624A (zh) 一种基于课程强化学习的游戏跟随方法和系统
CN111649758A (zh) 一种动态环境下基于强化学习算法的路径规划方法
EP3955082A1 (en) Computer-implemented method and device for controlling a mobile robot based on semantic environment maps
CN112595326A (zh) 一种融合先验知识的改进Q-learning路径规划算法
KR20210048969A (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
Christen et al. Learning functionally decomposed hierarchies for continuous control tasks with path planning
CN112964272A (zh) 一种改进的Dyna-Q学习路径规划算法
CN105867427B (zh) 一种面向动态环境的机器人寻径在线控制方法
Araujo Prune-able fuzzy ART neural architecture for robot map learning and navigation in dynamic environments
Torrey et al. Transfer learning via advice taking
CN116700258B (zh) 一种基于人工势场法和强化学习的智能车路径规划方法
CN117471919A (zh) 一种基于改进鹈鹕优化算法的机器人路径规划方法
CN117539241A (zh) 一种融合全局人工势场和局部强化学习的路径规划方法
KR102617418B1 (ko) 센서 구성과 로봇 형태에 적응 가능한 강화학습 기반 자율주행 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램
CN115542912A (zh) 一种基于改进Q-learning算法的移动机器人路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210615

RJ01 Rejection of invention patent application after publication