CN113985870B - 一种基于元强化学习的路径规划方法 - Google Patents

一种基于元强化学习的路径规划方法 Download PDF

Info

Publication number
CN113985870B
CN113985870B CN202111217714.4A CN202111217714A CN113985870B CN 113985870 B CN113985870 B CN 113985870B CN 202111217714 A CN202111217714 A CN 202111217714A CN 113985870 B CN113985870 B CN 113985870B
Authority
CN
China
Prior art keywords
target
network
reinforcement learning
function
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111217714.4A
Other languages
English (en)
Other versions
CN113985870A (zh
Inventor
杜刚
周小林
张永刚
姜晓媛
邹卓
郑立荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202111217714.4A priority Critical patent/CN113985870B/zh
Publication of CN113985870A publication Critical patent/CN113985870A/zh
Application granted granted Critical
Publication of CN113985870B publication Critical patent/CN113985870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于人工智能算法技术领域,具体为一种基于元强化学习的路径规划方法。本发明方法包括:用matlab模拟环境,生成起始点、障碍物、目标点,为模型训练提供模拟环境;将元学习与强化学习结合构成元强化学习模型,设计经验池、卷积神经网络、目标值函数、损失函数等;对元强化学习模型进行训练,用reptile算法进行参数更新。仿真结果表明,基于元强化学习的模型能快速找出最佳路径。

Description

一种基于元强化学习的路径规划方法
技术领域
本发明属于自动驾驶技术领域,具体涉及一种基于元强化学习的路径规划方法。
背景技术
自动驾驶是当前研究的热点,也是未来汽车发展的趋势。自动驾驶汽车是传感器,网络通信,导航定位,人工智能等学科综合体,其中导航走位、路径规划、行为决策和车辆控制是自动驾驶的关键技术。例如路径规划就是运动控制领域的研究热点之一。针对路径规划问题,已经提出多种方法,如遗传算法、蚁群算法、粒子群算法等。这些算法虽然相对于传统算法来说,克服后者操作复杂、求解效率低的缺点,但仍然不能满足路径规划的操作和求解高效率要求。
元学习算法具有强大的泛化能力,能够利用有限的先验知识,实现在新任务上的快速泛化。强化学习能通过智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标。本发明结合二者的这两个特点,研发出一种元强化学习算法,并将其应用于路径规划,可以在更少的时间内寻找出最佳路径。
发明内容
本发明的目的在于提出一种能快速寻找出最佳路径的基于元强化学习的路径规划方法,
本发明提出的基于元强化学习的路径规划方法,具体步骤为:
S1、将经验池D和Q网络的参数w初始化,目标Q-target网络(王鼎新.基于改进Q-learning算法的AGV路径规划[J].电子设计工程,2021,29(04):7-10+15.)的参数设为随机值,其中经验池D用来存放经验。
S2、用matlab进行仿真(封硕,舒红,谢步庆.基于改进深度强化学习的三维环境路径规划[J].计算机应用与软件,2021,38(01):250-255.),生成环境,障碍物和目标点。
S3、Q网络和目标Q-target网络采用相同结构的卷积神经网络CNN进行计算f(s,a,w*)≈Q*(s,a),其中f(s,a,w*)表示卷积神经网络的计算函数,Q*(s,a)表示Q网络或目标Q-target网,络,w*表示参数w或参数s和a表示当前状态和当前状态对应的动作,输出向量为Q*(s,a)。
S4、采用ε-greedy策略(A.Ray and H.Ray,"Proposingε-greedy ReinforcementLearning Technique to Self-Optimize Memory Controllers,"2021 2ndInternational Conference on Secure Cyber Computing and Communications(ICSCCC),2021,pp.318-323):以1-ε的概率选择最优动作at=maxa Q(St,a),St为当前状态,以ε的概率选取随机动作at
S5、执行动作at,得到当前奖励rt,下一时刻状态St+1,将(St,at,rt,St+1)加入经验池,更新经验池,其中奖励函数r(S)根据不同应用场景设定。
S6、从经验池中随机采样一批数据,计算变更函数和目标值,包括以下子步骤:
S61、采样的一批数据即为一批(St,at,rt,St+1)四元组;
S62、为了克服深度强化学习的过估计问题,改进目标值,增大最优值与次优值的差距;为了详细表达,定义了变更函数来建模,变更函数表示如下:
S63、用目标网络Q-target计算目标值V(s),ST为最终的状态:
其中,γ为折扣因子,可以根据实际情况设置成合适的常数;一般地,选取γ=0.1-0.5;实施例中选取γ=0.1;
S64、计算目标值公式如下:
yt=V(s)×B(St,at,rt,St+1)。
S7、构建损失函数与梯度更新,包括以下子步骤:
S71、构建损失函数:
式中,为目标网络输出,Q(s,a,w)是当前网络输出,计算当前状态-动作对的值函数;
S72、对损失函数loss求导,进行梯度下降,采用元学习中的reptile算法更新参数w和从而训练网络,公式如下:
这里使用φ代表w或利用SGD或Adam对loss函数求导进行梯度更新,得到第一步更新后的权重参数/>然后进行第二步梯度更新:/>其中ε为一个较小的可设置的超参数;一般地,取ε=0.01-0.2,实施例中取ε=0.1。
本发明优点:将元学习与强化学习结合成的元强化学习,充分利用了元学习泛化能力强,能快速适应新任务的特点,能快速寻找出最佳路径,为解决汽车路径规划提供了新方案。
附图说明
图1是一种基于元强化学习的模型构建流程示意图。
图2是一种基于元强化学习的路径规划流程图。
具体实施方式
下面结合实施例进一步说明本发明的技术方案。
本实施例选取自动导引车(AutomatedGuided Vehicle,AGV),AGV找到一条从起始位置到达预定目标位置的最优路径且AGV在行进过程中不与障碍物发生碰撞,包括以下步骤:
S1、将经验池D和Q网络的参数w初始化,目标Q-target网络的参数设为随机值,其中经验池D用来存放经验。
S2、用matlab进行仿真,生成环境,障碍物和目标点。
S3、Q网络和目标Q-target网络采用相同结构的卷积神经网络CNN进行计算f(s,a,w*)≈Q*(s,a),其中f(s,a,w*)表示卷积神经网络的计算函数,Q*(s,a)表示Q网络或目标Q-target网,络,w*表示参数w或参数s和a表示当前状态和当前状态对应的动作,输出向量为Q*(s,a)。
S31、本实施例采用的卷积神经网络CNN具有3个完全相同的卷积模块,每个卷积模块有卷积层,批量归一化层和池化层,卷积层有64个卷积核,卷积核尺寸是3×3,批量归一化层采用BatchNorm2d进行数据的归一化处理,避免因为数据过大而导致网络性能的不稳定,接着采用Relu激活函数,池化层的池化窗口尺寸为2×2,步长为2,按这种方式设计3个完全相同的卷积模块并连接在一起,在完成第一个卷积神经网络状态提取之后将第一个提取的特征输入第二个进一步进行状态提取,依次类推到第3层完成状态提取。
S4、采用ε-greedy策略:以1-ε的概率选择最优动作at=maxa Q(St,a),St为当前状态,以ε的概率选取随机动作at,这里ε=0.1。
S5、执行动作at,得到当前奖励rt,下一时刻状态St+1,将(St,at,rt,St+1)加入经验池,更新经验池,其中奖励函数r(S)在该场景下为:
S6、从经验池中随机采样一批数据,计算变更函数和目标值,包括以下子步骤:
S61、采样的一批数据即为一批(St,at,rt,St+1)四元组;
S62、为了克服深度强化学习的过估计问题,改进目标值,增大最优值与次优值的差距;为了详细表达,定义了变更函数来建模,变更函数表示如下:
式中,选取b=0.8;
S63、用目标网络Q-target计算目标值V(s),ST为最终的状态:
式中,选取γ=0.1;
S64、计算目标值公式如下:
yt=V(s)×B(St,at,rt,St+1)。
S7、构建损失函数与梯度更新,包括以下子步骤:
S71、构建损失函数:
式中,为目标网络输出,Q(s,a,w)是当前网络输出,计算当前状态-动作对的值函数;
S72、对损失函数loss求导,进行梯度下降,采用元学习中的reptile算法更新参数w和公式如下:
这里使用φ代表w或利用SGD或Adam对loss函数求导进行梯度更新,得到第一步更新后的权重参数/>然后进行第二步梯度更新:/>其中ε=0.1;仿真结果表明,基于元强化学习的路径规划方法,能较好地为AGV规划出最佳路径。
以上所述地实施例仅是为了更好地阐述本发明提出地方法与装置,从而帮助读者更好地理解本发明原理,该实施例以及参数设置应被理解为本发明地保护范围并不局限于这样地特例称述和实施例。本领域的技术工作人员可以根据本发明公开的以上技术做出其它各种不脱离本发明实质范围的其它各种具体变形与组合,这些变形与组合仍然属于本发明的保护范围之内。

Claims (2)

1.一种基于元强化学习的路径规划方法,其特征在于,具体步骤如下:
S1、将经验池D和Q网络的参数w初始化,目标Q-target网络的参数设为随机值,其中经验池D用来存放经验;
S2、用matlab进行仿真,生成环境、障碍物和目标点;
S3、Q网络和目标Q-target网络采用相同结构的卷积神经网络CNN进行计算f(s,a,w*)≈Q*(s,a),其中f(s,a,w*)表示卷积神经网络的计算函数,Q*(s,a)表示Q网络或目标Q-target网,络,w*表示参数w或参数s和a表示当前状态和当前状态对应的动作,输出向量为Q*(s,a);
S4、采用ε-greedy策略:以1-ε的概率选择最优动作at=maxa Q(St,a),St为当前状态,以ε的概率选取随机动作at
S5、执行动作at,得到当前奖励rt,下一时刻状态St+1,将(St,at,rt,St+1)加入经验池,更新经验池,其中奖励函数r(S)根据不同应用场景设定;
S6、从经验池中随机采样一批数据,计算变更函数和目标值,包括以下子步骤:
S61、采样的一批数据即为一批(St,at,rt,St+1)四元组;
S62、为了克服深度强化学习的过估计问题,改进目标值,增大最优值与次优值的差距;定义变更函数来建模,变更函数表示如下:
S63、用目标网络Q-target计算目标值V(s),ST为最终的状态:
其中,γ为折扣因子,根据实际情况设置成合适的常数;
S63、计算目标值公式如下:
yt=V(s)×B(St,at,rt,St+1);
S7、构建损失函数与梯度更新,包括以下子步骤:
S71、构建损失函数:
式中,为目标网络输出,Q(s,a,w)是当前网络输出,计算当前状态-动作对的值函数;
S72、对损失函数loss求导,进行梯度下降,采用元学习中的reptile算法更新参数w和从而训练网络,公式如下:
使用φ代表w或利用SGD或Adam对loss函数求导进行梯度更新,得到第一步更新后的权重参数/>然后进行第二步梯度更新:/>其中,ε为一个较小的可设置的超参数。
2.根据权利要求1所述的基于元强化学习的路径规划方法,其特征在于,采用的卷积神经网络CNN具有3个完全相同的卷积模块,每个卷积模块有卷积层、批量归一化层和池化层;卷积层有64个卷积核,卷积核尺寸是3×3;批量归一化层采用BatchNorm2d进行数据的归一化处理,接着采用Relu激活函数;池化层的池化窗口尺寸为2×2,步长为2,按这种方式设计3个完全相同的卷积模块并连接在一起,在完成第一个卷积神经网络状态提取之后将第一个提取的特征输入第二个进一步进行状态提取,依次类推到第3层完成状态提取。
CN202111217714.4A 2021-10-19 2021-10-19 一种基于元强化学习的路径规划方法 Active CN113985870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111217714.4A CN113985870B (zh) 2021-10-19 2021-10-19 一种基于元强化学习的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111217714.4A CN113985870B (zh) 2021-10-19 2021-10-19 一种基于元强化学习的路径规划方法

Publications (2)

Publication Number Publication Date
CN113985870A CN113985870A (zh) 2022-01-28
CN113985870B true CN113985870B (zh) 2023-10-03

Family

ID=79739449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111217714.4A Active CN113985870B (zh) 2021-10-19 2021-10-19 一种基于元强化学习的路径规划方法

Country Status (1)

Country Link
CN (1) CN113985870B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260026B (zh) * 2020-01-10 2022-07-05 电子科技大学 一种基于元强化学习的导航迁移方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
WO2020056875A1 (zh) * 2018-09-20 2020-03-26 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056875A1 (zh) * 2018-09-20 2020-03-26 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习的泊松散弹噪声受限光子计数通信系统速率优化研究;胡思逸;沈岱灵;周小林;凌力;;微型电脑应用(第06期);5-8 *
强化学习方法在移动机器人导航中的应用;陆军, 徐莉, 周小平;哈尔滨工程大学学报(第02期);51-54 *

Also Published As

Publication number Publication date
CN113985870A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
CN110928189B (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN111766782B (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
CN112362066B (zh) 一种基于改进的深度强化学习的路径规划方法
Badgwell et al. Reinforcement learning–overview of recent progress and implications for process control
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN109726676B (zh) 自动驾驶系统的规划方法
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN114779792B (zh) 基于模仿与强化学习的医药机器人自主避障方法及系统
CN113503885B (zh) 一种基于采样优化ddpg算法的机器人路径导航方法及系统
KR20230119023A (ko) 단기 기억 장치가 있는 어텐션 신경망
CN113985870B (zh) 一种基于元强化学习的路径规划方法
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
Ren Optimal control
CN114817989B (zh) 模型生成方法、运行控制方法、装置、设备及存储介质
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
CN112595326A (zh) 一种融合先验知识的改进Q-learning路径规划算法
CN116923401A (zh) 一种自动驾驶跟驰速度控制方法、计算机设备及存储介质
CN117873070A (zh) 基于her-sac算法的机器人路径规划方法及装置
CN114906128A (zh) 一种基于mcts算法的自动泊车运动规划方法
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
CN116681142A (zh) 基于迭代式策略约束的智能体强化学习方法和装置
Wang et al. Q-learning-based Collision-free Path Planning for Mobile Robot in Unknown Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant