CN113485380B - 一种基于强化学习的agv路径规划方法及系统 - Google Patents

一种基于强化学习的agv路径规划方法及系统 Download PDF

Info

Publication number
CN113485380B
CN113485380B CN202110963677.5A CN202110963677A CN113485380B CN 113485380 B CN113485380 B CN 113485380B CN 202110963677 A CN202110963677 A CN 202110963677A CN 113485380 B CN113485380 B CN 113485380B
Authority
CN
China
Prior art keywords
agv
state
reward
module
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110963677.5A
Other languages
English (en)
Other versions
CN113485380A (zh
Inventor
吴宗泽
郭海森
任志刚
赖家伦
王界兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110963677.5A priority Critical patent/CN113485380B/zh
Publication of CN113485380A publication Critical patent/CN113485380A/zh
Application granted granted Critical
Publication of CN113485380B publication Critical patent/CN113485380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出一种基于强化学习的AGV路径规划方法及系统,解决了现有基于强化学习的AGV路径规划方法需消耗大量时间和算力成本的问题,首先构建AGV动力学模型,以AGV为智能体,其行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;结合状态空间、连续性动作空间及多重奖励机制,完成路径规划的马尔科夫过程建模,其中状态空间可给定任意不同起始点、目标点、任意位置障碍物,可泛化性高,然后引入Actor‑Critic框架,进行策略学习训练,在线运行避免了计算量大的问题,算力要求低,实现AGV对任意目标、障碍物的实时决策控制。

Description

一种基于强化学习的AGV路径规划方法及系统
技术领域
本发明涉及AGV路径规划的技术领域,更具体地,涉及一种基于强化学习的AGV路径规划方法及系统。
背景技术
无人搬运车(Automated Guided Vehicle,简称AGV),指装备有电磁或光学等自动导引装置,能够沿规定的导引路径行驶,具有安全保护以及各种移载功能的运输车,工业应用中不需驾驶员的搬运车,以可充电的蓄电池为其动力来源。
AGV按其控制方式和自主程度大致可分为遥控式、半自主式与自主式三种,基于多磁轨式的导航是AGV最早采用的路径规划方法,同时也是当前AGV大部分路径规划所采用的方法。传统应用中的AGV通过识别铺设在地面的磁轨道确定行进路线,但是这种方法受限于磁轨的不灵活性,扩充路径相对复杂;视觉+二维码式导航也是当前AGV领域应用较多的导航方式,AGV通过识别粘贴在地面上的有间隔的具有唯一性的二维码,获得二维码信息来确定位置和行进路线,这种方式相比于磁轨式,行动更为灵活,易于调度,但是存在着标识易磨损、环境光要求高等问题;激光SLAM式导航是通过AGV发射激光信号,再通过墙壁或立柱上设置的反光板反射回来的信号来确定位置,这种方式能克服以上两种方式的缺点,但是存在着制图时间久、成本高等问题。
自2015年Deepmind提出的DQN方法,开启了强化学习与深度学习结合的先河,现深度强化学习方法直接利用图像信息作为状态输入,从而进行无人车的路径规划是目前在路径规划领域的前沿研究方向,如2020年4月24日,中国发明专利(公布号:CN111061277A)中公开了一种无人车全局路径规划方法和装置,首先,通过强化学习方法建立对象模型,其中对象模型中包括:无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标;然后,基于对象模型,搭建深度强化学习神经网络,并利用无人车状态和地图图片对深度强化学习神经网络进行训练,得到稳定的神经网络模型,该专利通过对象模型中的地图图片标识场景中的环境信息,以任务场景的地图图片和无人车状态作为路径规划的输入,提高路径规划的准确率和效率,但是图像作为一种高维信息,并且基于视觉的避障往往有涉及深度摄像机采集的点云数据以及状态维度的大幅扩增,因此,基于卷积神经网络的各类深度学习模型训练成本也随之大幅上升,例如消耗大量的时间成本以及算力成本等。
发明内容
为解决现有基于强化学习的AGV路径规划方法需消耗大量时间和算力成本的问题,本发明提出一种易于工程实现、成本低廉的AGV路径规划方法及系统。
为了达到上述技术效果,本发明的技术方案如下:
一种基于强化学习的AGV路径规划方法,至少包括:
S1.构建AGV动力学模型,设置前向差分更新步长,基于前向差分更新步长及AGV动力学模型确定AGV的基本状态更新表达式;
S2.以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;
S3.根据AGV动力学模型及AGV的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模;
S4.引入Actor-Critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;
S5.当训练收敛时,得到智能体AGV的每步决策动作,进而得到最优的AGV规划路径。
优选地,步骤S1所述的AGV动力学模型为:
Figure BDA0003223075340000021
其中,t为时间变量,tf指定为末端状态所对应的时刻,x(t)、y(t)表示t时刻AGV中点所处的位置坐标的横坐标与纵坐标,θ(t)表示t时刻的AGV与目标位置间的方位角,φ(t)表示t时刻的转向角,α(t)表示t时刻的方位角方向的加速度;ω(t)表示角速度,Lw表示AGV的轮距长度;
设前向差分更新步长为τs,设AGV在t时刻的第j个状态为s(tj),采用前向差分的方式,得到AGV的基本状态更新表达式为:
Figure BDA0003223075340000036
其中,
Figure BDA0003223075340000037
表示AGV动力学模型,τs表示前向差分更新步长;s(tjs)表示AGV的下一状态。
在此,考虑到强化学习方法依赖于智能体与环境的交互,在多次的试错中,结合合理的奖赏机制,进行当前场景的策略学习,但是直接在真实环境中采集交互数据,这对AGV的损耗较大,设计一个能够反映真实AGV状态变化的仿真模型,可以有效适用于真实环境。
优选地,步骤S2所述的考虑目的地位置、障碍物位置设计的状态空间包括:
a.AGV当前的位置信息:
Figure BDA0003223075340000031
Figure BDA0003223075340000032
其中,spos表示AGV当前的位置信息;M矩阵是角度矩阵,代表AGV与目的地位置间的方位角θ的联系;(xg,yg)为目的地的位置坐标,(xr,yr)为当前AGV的位置坐标;
b.AGV到障碍物的位置信息:
Figure BDA0003223075340000033
Figure BDA0003223075340000034
其中,sobs_i表示环境中的障碍物信息;(xobs_i,yobs_i)表示第i个障碍物的中心点位置,是AVG自运动始已观察到的状态;(xr,yr)表示当前AGV的位置;
c.AGV到障碍物间的距离信息:
Figure BDA0003223075340000035
其中,Disi表示AGV位置与第i个障碍物的中心点的距离,(xr,yr)表示当前AGV的位置,(xobs_i,yobs_i)表示当前第i个障碍物中心点的位置;状态空间表示为:
state=[spos,sobs_i,Disi],i∈(1,N);
其中,N表示随机障碍物的个数上限;
步骤S2所述的连续性动作空间表示为:
action=[α,w]
其中,α表示AGV的连续性动作加速度向量,w为角速度向量,两者代表AVG小车的实时运动信息;
多重奖励机制包括:行驶主线奖励、若干个辅助奖励及时间奖励,具体为:
Figure BDA0003223075340000041
其中,RGoal表示终点回报奖励,为行驶主线奖励,Wg表示终点回报奖励的权重值,终点回报奖励满足:RGoal=1;Rdistance表示距离回报奖励,Wdis表示距离回报奖励的权重值,距离回报奖励满足:
Figure BDA0003223075340000042
τt为微分量也即差分时长,代表AGV每次移动的步距;dlast为记录前一时刻AGV距终点的距离;dcurr为当前时刻AGV距终点的距离,Time为所花费的步数;
Figure BDA0003223075340000044
为第i个障碍物的大小阈值;Rdirection表示方向回报奖励,Wdir表示方向回报奖励的权重值,满足:
Rdirection=π-2θ′,θ′=min(2|θ|,π)
Rout表示出界回报奖励,Wout表示出界回报奖励的权重值,满足:Rout=10;Robstacle表示碰撞回报奖励,满足:
Figure BDA0003223075340000043
其中,Wobs表示碰撞回报奖励的权重值。
在此,状态空间的设计对障碍物数量具有任意性,在保证AGV感知环境的同时又能够有效的减少输入的维度,降低算力要求,缓解强化学习方法控制策略学习周期长的问题;动作空间的设计采用连续性动作,当前所设定的动作空间实时决定着智能体小车当前的位置与状态,相比于传统的离散型动作,连续动作空间在任务的实现上变现更加稳定,且该动作空间的设计贴合AGV的实际情况;针对AGV轨迹场景,通过主线奖励和若干辅助奖励的针对性权值大小设定,相辅相成,综合了智能体AGV所处当前位置的各方面收益,比如方向,速度,碰撞等情况,使得智能体在训练的过程中朝着最优的奖励方向来运动。同时加入了时间上的奖励,能够保证智能体以最快最优的路径达到指定目的地,根据实际情况来调整主线奖励和辅助奖励的权重,能够使得智能体小车在实际的应用场景中针对不同的情况、趋向性来做出调整,具有较高的自适应能力,满足工业过程中的不确定性环节实时调度。
优选地,在确定连续性动作空间后,对连续性动作空间的连续性动作加速度向量和角速度向量中的任意一个元素做正则化处理,具体为:
Figure BDA0003223075340000051
ωnor=tanh(ω)*wmax
其中,αnor表示正则化处理后的AGV加速度值,αmax为设定的最大加速度值,αmin为设定的最小加速度值,wmax为设定的最大角速度值。
在此,考虑动作空间的两个变量存在不同的维度量纲,为了一致化动作空间的量纲大小对AGV小车的作用,设定了指定的正则化方法,将变量设定在同一个量纲的范围内,能够有效的提高算法网络训练速度和实施中的动作规范化,有效的提高模型自身的拟合能力。
优选地,设AGV在状态空间state中的当前状态为sj,AGV基于当前状态sj在连续性动作空间action中采取动作aj,得到下一状态sj+1,结合奖励机制Rtotal,得到当前奖励rj,完成AGV路径规划的马尔科夫过程建模。
优选地,在统一的空间坐标系下,AGV的位置由AGV在载的定位传感器获得,障碍物的位置通过预先配置的定位传感器获得,并且包含障碍物的最小外接圆半径信息,以作为避障距离信息。
在此,与传统AGV路径规划方案相比,不存在标识磨损、路径扩充难、环境要求高、制图时间长的问题,也没有基于视觉的深度强化学习中,对算力的依赖,通过仅采集位置传感器的位置以及障碍物最小外接圆半径信息,设定特定的状态空间。
优选地,步骤S4中,引入Actor-Critic框架作为智能体AGV框架,其中,Actor-Critic框架包括Actor模块及Critic模块,Actor模块及Critic模块中均设有神经网络,Actor模块的神经网络参数为θ,Critic模块的神经网络参数p,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练的过程为:
S41.设置并初始化迭代回合数T、状态特征维度n、动作集合A、网络权重更新步长ρ,β、衰减因子γ、探索率∈,以及Actor模块的神经网络结构、Critic模块的神经网络结构,随机初始化所有的状态和动作对应的价值Q;
S42.设置并初始化Actor模块的神经网络参数φ,Critic模块中的V网络参数ψ,Critic模块中Target_V网络参数
Figure BDA0003223075340000061
Critic模块中的Q网络参数θ,Target_Q值Critic模块神经网络参数
Figure BDA0003223075340000062
S43.在Actor模块中使用状态s作为输入,输出动作a,a为一个动作的概率分布,基于AGV动力学模型的前向差分法,输出新的状态s′,依据奖励机制获得奖励r,完成一次交互;
S44.将智能体与环境交互获得的轨迹存储于回忆池;
S45.判断智能体与环境交互获得的轨迹数是否大于N,若是,执行步骤S46,进行策略学习;否则,返回步骤S43;
S46.从回忆池中抽取M组轨迹作为训练样本,其中,M≤N,Actor模块使用状态s作为输入,得到动作概率logπ(At|St),Critic模块中分别使用St,St+1,logπ(At|St)作为输入,得到评价V值输出V(St),评价Target_V值输出
Figure BDA0003223075340000065
评价Q值输出Q(St),评价Target_Q值输出
Figure BDA0003223075340000063
S47.考虑最大化策略熵,分别计算critic模块中V网络的梯度、critic模块中Q网络的梯度、Actor模块中网络梯度以及critic模块中的Target_V网络梯度,并根据梯度信息分别更新V值Critic模块的神经网络参数、Q值Critic模块的神经网络参数θ、Actor模块的神经网络参数φ及critic模块中Target_V网络参数
Figure BDA0003223075340000064
从而最大化奖励;
S48.判断更新迭代回合数是否不超过T,若是,返回步骤S46,否则,训练收敛,结束。
优选地,S44所述的智能体与环境交互获得的轨迹表示为:
s0,a(s0),r(s0,a(s0)),s1,a(s1),r(s1,a(s1));......;
sj,a(sj),r(sj,a(sj)),......;sN-1,a(sN-1),r(sN-1,a(sN-1)),sN
其中,sN代表的是交互结束时的状态;sj表示交互过程中第j个状态,a(sj)表示第j个状态采取的动作,对应的r(sj,a(sj))代表第i个状态采取动作a(si)时从环境获得的反馈奖励。
优选地,在策略学习训练的过程中,
AGV到达指定目的地,即当前状态作为交互的终端状态时,满足:
(x(t)-xgoal)2+(y(t)-ygoal)2≤(Threshold)2
其中,(xgoal,ygoal)表示随机目的地的位置坐标,Threshold表示终端状态允许最大位置误差阈值;
路径约束根据已知障碍物位置设计为:
(x(t)-z_xi)2+(y(t)-z_yi)2≥(R+D)2,i=1,...,N
其中,(z_xi,z_yi)表示第i个障碍物配置的定位传感器提供的坐标位置,D表示与定位传感器绑定的障碍物最小外接圆半径信息。
本申请还提出一种基于强化学习的AGV路径规划系统,所述系统用于实现所述的AGV路径规划方法,包括:
AGV动力学构建模块,用于构建AGV动力学模型,设置前向差分更新步长,基于前向差分更新步长及AGV动力学模型确定AGV的基本状态更新表达式;
轨迹规划空间设计模块,以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;
马尔科夫过程建模模块,根据AGV动力学模型及AGV的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模;
策略学习训练模块,引入Actor-Critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;
AGV规划路径模块,当训练收敛时,得到智能体AGV的每步决策动作,进而得到最优的AGV规划路径。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的基于强化学习的AGV路径规划方法及系统,首先构建AGV动力学模型,以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模,其中状态空间可给定任意不同起始点、目标点、任意位置障碍物,可泛化性高,然后引入Actor-Critic框架,进行策略学习训练,在线运行避免了计算量大的问题,算力要求低,实现AGV对任意目标、障碍物的实时决策控制;另一方面,障碍物同时可以视作另外的AGV,可以为未来大规模的车间AGV编队以及避障问题提供方案基础。
附图说明
图1表示本发明实施例1中提出的基于强化学习的AGV路径规划方法的流程示意图;
图2表示本发明实施例1中提出的基于强化学习的AGV路径规划的整体框架图;
图3表示本发明实施例2中提出的基于强化学习的AGV路径规划系统的结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
如图1所示,在本实施例中提出了一种基于强化学习的AGV路径规划方法的流程示意图,参见图1,所述方法包括:
S1.构建AGV动力学模型,设置前向差分更新步长,基于前向差分更新步长及AGV动力学模型确定AGV的基本状态更新表达式;
考虑强化学习依赖于智能体与环境的交互,在多次的试错中,结合合理的奖赏机制,进行当前场景的策略学习,当训练收敛后(一般指每次AGV与环境交互的整条轨迹所获得的的奖赏值收敛),但是直接在真实环境中采集交互数据,对AGV的损耗较大,因此,需要一个能够反映真实AGV状态变化的仿真模型,在本实施例中,基于牛顿经典力学,并根据实际已投用的AGV的普遍性质,可以采用但不限定于二自由度的车辆模型对AGV进行运动学建模,具体的AGV动力学模型为:
Figure BDA0003223075340000091
其中,t为时间变量,tf指定为末端状态所对应的时刻,x(t)、y(t)表示t时刻AGV中点所处的位置坐标的横坐标与纵坐标,θ(t)表示t时刻的AGV与目标位置间的方位角,φ(t)表示t时刻的转向角,在实际仿真中,采用弧度制表示,α(t)表示t时刻的方位角方向的加速度;ω(t)表示角速度,Lw表示AGV的轮距长度,存在一系列的边界值约束,阈值可以按实际场景以及AGV性能进行选取。
设前向差分更新步长为τs,设AGV在t时刻的第j个状态为s(tj),采用前向差分的方式,得到AGV的基本状态更新表达式为:
Figure BDA0003223075340000094
其中,
Figure BDA0003223075340000095
表示AGV动力学模型,τs表示前向差分更新步长;s(tjs)表示AGV的下一状态。τs的设置值影响后续AGV动力学模型在强化学习训练过程中交互状态,τs设置过小将导致交互步长短,将导致交互步长短,计算量增大,将降低训练速度,若τs设置过大,则导致AGV动力学模型状态反馈的不精确,使得通过仿真信息训练的策略不能有效适用于真实环境。
S2.以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;
在本实施例中,AGV行驶所感知到的环境信息为状态信息,且能够表示因自身的AGV动作(action)带来的变化。因此,采用AGV和目的地的相对位置,以及小车到环境中障碍物的位置和距离来作为直接的相关信息,所述的考虑目的地位置、障碍物位置设计的状态空间包括:
a.AGV当前的位置信息:
Figure BDA0003223075340000092
Figure BDA0003223075340000093
其中,spos表示AGV当前的位置信息;M矩阵是角度矩阵,代表AGV与目的地位置间的方位角θ的联系;(xg,yg)为目的地的位置坐标,(xr,yr)为当前AGV的位置坐标;
b.AGV到障碍物的位置信息:
Figure BDA0003223075340000101
Figure BDA0003223075340000102
其中,sobs_i表示环境中的障碍物信息;(xobs_i,yobs_i)表示第i个障碍物的中心点位置,是AVG自运动始已观察到的状态;(xr,yr)表示当前AGV的位置;
c.AGV到障碍物间的距离信息:
Figure BDA0003223075340000103
其中,Disi表示AGV的位置与第i个障碍物的中心点的距离,(xr,yr)表示当前AGV的位置,(xobs_i,yobs_i)表示当前第i个障碍物中心点的位置;
综上,强化学习基本范式中的状态空间表示为:
state=[spos,sobs_i,Disi],i∈(1,N);
其中,N表示随机障碍物的个数上限;
连续性动作空间表示为:
action=[α,w]
其中,α表示AGV的连续性动作加速度向量,w为角速度向量,两者代表AVG小车的实时运动信息,进而来改变AGV的状态;
初始化动作和状态后,AGV可以根据状态随机得出不同的动作策略,但是无法根据状态评价动作的好坏。设计奖励机制可以对智能体行为进行评估,提高高分行为的发生概率,降低低分行为的发生概率,进而引导智能体在各种环境状态做出正确的行动。奖赏机制决定了训练结果的效果,合理的奖惩函数设计能够提高训练速度,减少计算机资源消耗,使训练结果可以更快收敛。多数情况下,稀疏的奖惩信息能够不断让智能体对采取的动作策略得到反馈。鉴于AGV环境属于连续的动作空间过程,因此,在构建奖励机制时,考虑连续-稀疏奖励的结合,通过设计主线奖励和若干辅助奖励来引导智能体正确导向目标;同时,设置时间奖励引导智能体更快地完成任务。
在本实施例中,设计的多重奖励机制包括:行驶主线奖励、若干个辅助奖励及时间奖励,具体为:
Figure BDA0003223075340000111
其中,RGoal表示终点回报奖励,为行驶主线奖励,Wg表示终点回报奖励的权重值,终点回报奖励满足:RGoal=1;Rdistance表示距离回报奖励,Wdis表示距离回报奖励的权重值,距离回报奖励满足:
Figure BDA0003223075340000112
τt为微分量也即差分时长,代表AGV每次移动的步距;dlast为记录前一时刻AGV距终点的距离;dcurr为当前时刻AGV距终点的距离,Time为所花费的步数;
Figure BDA0003223075340000114
为第i个障碍物的大小阈值;Rdirection表示方向回报奖励,Wdir表示方向回报奖励的权重值,满足:
Rdirection=π-2θ′,θ′=min(2|θ|,π)
Rout表示出界回报奖励,Wout表示出界回报奖励的权重值,满足:Rout=10;Robstacle表示碰撞回报奖励,满足:
Figure BDA0003223075340000113
其中,Wobs表示碰撞回报奖励的权重值,在此,碰撞和出界都代表了一种惩罚。
W=[Wg,Wdis,Wdir,Wout,Wobs]分别表示所对应奖励的求和权重,根据主线任务的重要性对奖励设定权值,同时考虑各个辅助奖励Reward的大小所占比份,以主线任务为主则需要对主线的Goal的Reward设定较高的正权值W,同时对异常行为比如跑出跑道、碰撞到障碍物做出负惩罚。
在统一的空间坐标系下,AGV的位置由AGV在载的定位传感器获得,障碍物的位置通过预先配置的定位传感器获得,并且包含障碍物的最小外接圆半径信息,以作为避障距离信息。
另外,考虑动作空间的两个变量存在不同的维度量纲,为了一致化动作空间的量纲大小对AGV的作用,将变量设定在同一个量纲的范围内,能够有效的提高算法网络训练速度和实施中的动作规范化,有效的提高模型自身的拟合能力,在确定连续性动作空间后,对连续性动作空间的连续性动作加速度向量和角速度向量中的任意一个元素做正则化处理,具体为:
Figure BDA0003223075340000121
ωnor=tanh(ω)*wmax
其中,αnor表示正则化处理后的AGV加速度值,amax为设定的最大加速度值,αmin为设定的最小加速度值,wmax为设定的最大角速度值,对于超出动作值阈值的动作值以按边界值进行截断的形式处理。
S3.根据AGV动力学模型及AGV的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模;
在具体实施时,基于本实施例中建立的AGV动力学模型,考虑AGV动力学模型为常微分方程,可以通过前向差分的方式,设AGV在状态空间state中的当前状态为sj,AGV基于当前状态sj在连续性动作空间action中采取动作aj,得到下一状态sj+1,结合奖励机制Rtotal,得到当前奖励rj,完成AGV路径规划的马尔科夫过程建模。
S4.引入Actor-Critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;
参见图2,引入Actor-Critic框架作为智能体AGV的强化学习框架,其中,Actor-Critic框架包括Actor模块及Critic模块,Actor模块及Critic模块中均设有神经网络,Actor模块的神经网络参数为θ,Critic模块的神经网络参数p,在传统的Actor-Critic框架中,Actor模块的输入为方案所设计的当前状态,输出为AGV执行的动作,Critic模块输入为方案所设计的状态,输出为前动作的评价值,这两个模块由两个不同的神经网络实现。具体的:
Actor模块输出为动作的概率分布πθ(a|s)(即动作策略),Critic模块分别输入当前状态是st和下一个状态st+1,结合在st采取at∈πθ(a|s)得到的奖励rt,可以得到对于当前状态为st时选择行为at优势也即动作值函数Q(st,at),该函数可以通过贝尔曼方程迭代获得,即
Q(st,at)=rt+γV(st+1)
其中,γ∈(0,1)表示折扣因子,V(st+1)为下一时刻的状态值函数,表示从状态st+1出发,按照策略π采取行为得到的期望回报;其中,γ∈(0,1)表示折扣因子,V(st+1)为下一时刻的状态值函数,表示从状态st+1出发,按照策略π采取行为得到的期望回报;
进而可以得到Ctitic模块输出的优势函数也即时序差分误差:
δt=rt+γV(st+1)-V(st)
Actor的更新优化的方式一般可表述为:
Figure BDA0003223075340000132
其中,θ为Actor模块所代表的神经网络参数,α为策略网络的更新率。通过迭代方式可以基于Critic的神经网络对动作来评分好坏,学习出能获得更高评分的策略,即最大化最终奖励;
Critic模块中神经网络的更新方式一般可表述为:
ψ←ψ+βδt
ψ为Critic模块所代表的神经网络的参数,β为Critic网络的更新率;
为了增强AGV的探索能力,这里引入了策略熵,也即是在基于原有的Actor-Critic框架进行策略学习时,除了考虑奖励的最大化外,也需要最大化策略熵,以保持策略探索的全面性。
重新定义软状态值函数为:
Figure BDA0003223075340000133
其中,
Figure BDA0003223075340000134
表示关于动作概率π的期望,
Figure BDA0003223075340000135
即代表策略的熵,λ为策略熵权重,新额外定义的软Q网络,神经网络参数为θ;
重新定义的软Q动作值函数的意义为:
Figure BDA0003223075340000136
因此,Critic模块中软状态值网络的误差函数(软状态值函数的目标函数):
Figure BDA0003223075340000131
其中,期望值的求取方式,可以为用采样的样本集合D的无偏估计进行近似,进而得出梯度信息为:
Figure BDA0003223075340000141
而软Q动作值函数的目标函数则定义为:
Figure BDA0003223075340000142
其中:
Figure BDA0003223075340000147
为target网络中的状态值函数,其中,target网络与原网络具有同样的网络结构,唯一的区别是target的网络参数先固定为原网络数个更新步前的参数,以更新步长τ进行逐步更新。
进而求得梯度信息:
Figure BDA0003223075340000148
而在优化策略网络的过程,由于Actor模块输出的实际动作为概率分布的采样,无法进行直接的求导,可利用了策略重参数化技巧来对动作进行采样。在这里,策略表示为一个带噪声的神经网络:
at=fφt;st)
其中,εt~N(0,1)正态分布的独立噪声向量。在Critic模块里Q网络的设计中,充分考虑了策略熵的最大化,我们策略更新的时候尽可能的与Q网络的输出分布相似,经过策略重参数化转换,策略更新的损失函数可重新表示为:
Figure BDA0003223075340000149
进而求得策略网络梯度为:
Figure BDA00032230753400001410
通过定义的梯度信息即可更新对应网络参数,更新方式可以表示为:
Figure BDA0003223075340000143
Figure BDA0003223075340000144
Figure BDA0003223075340000145
Figure BDA0003223075340000146
总体上,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练的过程为:
S41.设置并初始化迭代回合数T、状态特征维度n、动作集合A、网络权重更新步长ρ,β、衰减因子γ、探索率∈,以及Actor模块的神经网络结构、Critic模块的神经网络结构,随机初始化所有的状态和动作对应的价值Q;
S42.设置并初始化Actor模块的神经网络参数φ,Critic模块中的V网络参数ψ,Critic模块中Target_V网络参数
Figure BDA0003223075340000151
Critic模块中的Q网络参数θ,Target_Q值Critic模块神经网络参数
Figure BDA0003223075340000152
S43.在Actor模块中使用状态s作为输入,输出动作a,a为一个动作的概率分布,基于AGV动力学模型的前向差分法,输出新的状态s′,依据奖励机制获得奖励r,完成一次交互;在本实施例中,动作a可以但不限定于采用高斯分布作为输出策略分布,对于二维动作的情况a=μa,μw,σa,σa,其中μ和σ分别代表对于高斯分布的均值和方差,AGV具体采取的动作在对于的高斯分布中采样获得。
S44.将智能体与环境交互获得的轨迹存储于回忆池;
智能体与环境交互获得的轨迹表示为:
s0,a(s0),r(s0,a(s0)),s1,a(s1),r(s1,a(s1));......;
sj,a(sj),r(sj,a(sj)),......;sN-1,a(sN-1),r(sN-1,a(sN-1)),sN
其中,sN代表的是交互结束时的状态;sj表示交互过程中第j个状态,a(sj)表示第j个状态采取的动作,对应的r(sj,a(sj))代表第i个状态采取动作a(si)时从环境获得的反馈奖励。
S45.判断智能体与环境交互获得的轨迹数是否大于N,若是,执行步骤S46,进行策略学习;否则,返回步骤S43;
S46.从回忆池中抽取M组轨迹作为训练样本,其中,M≤N,Actor模块使用状态s作为输入,得到动作概率logπ(At|St),Critic模块中分别使用St,St+1,logπ(At|St)作为输入,得到评价V值输出V(St),评价Target_V值输出
Figure BDA0003223075340000153
评价Q值输出Q(St),评价Target_Q值输出
Figure BDA0003223075340000154
S47.考虑最大化策略熵,结合前述梯度计算方法,分别计算critic模块中V网络的梯度、critic模块中Q网络的梯度、Actor模块中网络梯度以及critic模块中的Target_V网络梯度,并根据梯度信息分别更新V值Critic模块的神经网络参数、Q值Critic模块的神经网络参数θ、Actor模块的神经网络参数φ及critic模块中Target_V网络参数
Figure BDA0003223075340000155
从而最大化奖励;
S48.判断更新迭代回合数是否不超过T,若是,返回步骤S46,否则,训练收敛,结束。
S5.当训练收敛时,得到智能体AGV的每步决策动作,进而得到最优的AGV规划路径。
在策略学习训练的过程中,
AGV到达指定目的地,即当前状态作为交互的终端状态时,满足:
(x(t)-xgoal)2+(y(t)-ygoal)2≤(Threshold)2
其中,(xgoal,ygoal)表示随机目的地的位置坐标,Threshold表示终端状态允许最大位置误差阈值;
路径约束根据已知障碍物位置设计为:
(x(t)-z_xi)2+(y(t)-z_yi)2≥(R+D)2,i=1,...,N
其中,(z_xi,z_yi)表示第i个障碍物配置的定位传感器提供的坐标位置,D表示与定位传感器绑定的障碍物最小外接圆半径信息。
实施例2
如图3所示,本申请还提出一种基于强化学习的AGV路径规划系统,所述系统用于实现所述的AGV路径规划方法,参见图3,所述系统包括:
AGV动力学构建模块,用于构建AGV动力学模型,设置前向差分更新步长,基于前向差分更新步长及AGV动力学模型确定AGV的基本状态更新表达式;
轨迹规划空间设计模块,以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;
马尔科夫过程建模模块,根据AGV动力学模型及AGV的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模;
策略学习训练模块,引入Actor-Critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;
AGV规划路径模块,当训练收敛时,得到智能体AGV的每步决策动作,进而得到最优的AGV规划路径。
本申请提出的基于强化学习的AGV路径规划系统在保证鲁棒性及对环境依赖比较少的前提下,最大限度利用获取到的状态信息,实现即时的场景行走路径规划以及避障行驶。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于强化学习的AGV路径规划方法,其特征在于,所述方法至少包括:
S1.构建AGV动力学模型,设置前向差分更新步长,基于前向差分更新步长及AGV动力学模型确定AGV的基本状态更新表达式;
S2.以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;
步骤S2所述的考虑目的地位置、障碍物位置设计的状态空间包括:
a.AGV当前的位置信息:
Figure FDA0003440905360000011
Figure FDA0003440905360000012
其中,spos表示AGV当前的位置信息;M矩阵是角度矩阵,代表AGV与目的地位置间的方位角θ的联系;(xg,yg)为目的地的位置坐标,(xr,yr)为当前AGV的位置坐标;
b.AGV到障碍物的位置信息:
Figure FDA0003440905360000013
Figure FDA0003440905360000014
其中,sobs_i表示环境中的障碍物信息;(xobs_i,yobs_i)表示第i个障碍物的中心点位置,是AVG自运动始已观察到的状态;(xr,yr)表示当前AGV的位置;
c.AGV到障碍物间的距离信息:
Figure FDA0003440905360000015
其中,Disi表示AGV位置与第i个障碍物的中心点的距离,(xr,yr)表示当前AGV的位置,(xobs_i,yobs_i)表示当前第i个障碍物中心点的位置;状态空间表示为:
state=[spos,sobs_i,Disi],i∈(1,N);
其中,N表示随机障碍物的个数上限;
步骤S2所述的连续性动作空间表示为:
action=[α,w]
其中,α表示AGV的连续性动作加速度向量,w为角速度向量,两者代表AVG小车的实时运动信息;
多重奖励机制包括:行驶主线奖励、若干个辅助奖励及时间奖励,具体为:
Figure FDA0003440905360000021
其中,RGoal表示终点回报奖励,为行驶主线奖励,Wg表示终点回报奖励的权重值,终点回报奖励满足:RGoal=1;Rdistance表示距离回报奖励,Wdis表示距离回报奖励的权重值,距离回报奖励满足:
Figure FDA0003440905360000022
τt为微分量也即差分时长,代表AGV每次移动的步距;dlast为记录前一时刻AGV距终点的距离;dcurr为当前时刻AGV距终点的距离,Time为所花费的步数;
Figure FDA0003440905360000024
为第i个障碍物的大小阈值;Rdirection表示方向回报奖励,Wdir表示方向回报奖励的权重值,满足:
Rdirection=π-2θ′,θ′=min(2|θ|,π)
Rout表示出界回报奖励,Wout表示出界回报奖励的权重值,满足:Rout=10;Robstacle表示碰撞回报奖励,满足:
Figure FDA0003440905360000023
其中,Wobs表示碰撞回报奖励的权重值;
S3.根据AGV动力学模型及AGV的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模;
S4.引入Actor-Critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;
S5.当训练收敛时,得到智能体AGV的每步决策动作,进而得到最优的AGV规划路径。
2.根据权利要求1所述的基于强化学习的AGV路径规划方法,其特征在于,步骤S1所述的AGV动力学模型为:
Figure FDA0003440905360000031
其中,t为时间变量,tf指定为末端状态所对应的时刻,x(t)、y(t)表示t时刻AGV中点所处的位置坐标的横坐标与纵坐标,θ(t)表示t时刻的AGV与目标位置间的方位角,φ(t)表示t时刻的转向角,α(t)表示t时刻的方位角方向的加速度;ω(t)表示角速度,Lw表示AGV的轮距长度;
设前向差分更新步长为τs,设AGV在t时刻的第j个状态为s(tj),采用前向差分的方式,得到AGV的基本状态更新表达式为:
Figure FDA0003440905360000032
其中,
Figure FDA0003440905360000033
表示AGV动力学模型,τs表示前向差分更新步长;s(tjs)表示AGV的下一状态。
3.根据权利要求1所述的基于强化学习的AGV路径规划方法,其特征在于,在确定连续性动作空间后,对连续性动作空间的连续性动作加速度向量和角速度向量中的任意一个元素做正则化处理,具体为:
Figure FDA0003440905360000034
ωnor=tanh(ω)*wmax
其中,αnor表示正则化处理后的AGV加速度值,αmax为设定的最大加速度值,αmin为设定的最小加速度值,wmax为设定的最大角速度值。
4.根据权利要求1所述的基于强化学习的AGV路径规划方法,其特征在于,设AGV在状态空间state中的当前状态为sj,AGV基于当前状态sj在连续性动作空间action中采取动作aj,得到下一状态sj+1,结合奖励机制Rtotal,得到当前奖励rj,完成AGV路径规划的马尔科夫过程建模。
5.根据权利要求1所述的基于强化学习的AGV路径规划方法,其特征在于,在统一的空间坐标系下,AGV的位置由AGV在载的定位传感器获得,障碍物的位置通过预先配置的定位传感器获得,并且包含障碍物的最小外接圆半径信息,以作为避障距离信息。
6.根据权利要求4所述的基于强化学习的AGV路径规划方法,其特征在于,步骤S4中,引入Actor-Critic框架作为智能体AGV框架,其中,Actor-Critic框架包括Actor模块及Critic模块,Actor模块及Critic模块中均设有神经网络,Actor模块的神经网络参数为θ,Critic模块的神经网络参数p,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练的过程为:
S41.设置并初始化迭代回合数T、状态特征维度n、动作集合A、网络权重更新步长ρ,β、衰减因子γ、探索率∈,以及Actor模块的神经网络结构、Critic模块的神经网络结构,随机初始化所有的状态和动作对应的价值Q;
S42.设置并初始化Actor模块的神经网络参数φ,Critic模块中的V网络参数ψ,Critic模块中Target_V网络参数
Figure FDA0003440905360000041
Critic模块中的Q网络参数θ,Target_Q值Critic模块神经网络参数
Figure FDA0003440905360000042
S43.在Actor模块中使用状态s作为输入,输出动作a,a为一个动作的概率分布,基于AGV动力学模型的前向差分法,输出新的状态s′,依据奖励机制获得奖励r,完成一次交互;
S44.将智能体与环境交互获得的轨迹存储于回忆池;
S45.判断智能体与环境交互获得的轨迹数是否大于N,若是,执行步骤S46,进行策略学习;否则,返回步骤S43;
S46.从回忆池中抽取M组轨迹作为训练样本,其中,M≤N,Actor模块使用状态s作为输入,得到动作概率logπ(At|St),Critic模块中分别使用St,St+1,logπ(At|St)作为输入,得到评价V值输出V(St),评价Target_V值输出
Figure FDA0003440905360000043
评价Q值输出Q(St),评价Target_Q值输出
Figure FDA0003440905360000044
S47.考虑最大化策略熵,分别计算critic模块中V网络的梯度、critic模块中Q网络的梯度、Actor模块中网络梯度以及critic模块中的Target_V网络梯度,并根据梯度信息分别更新V值Critic模块的神经网络参数、Q值Critic模块的神经网络参数θ、Actor模块的神经网络参数φ及critic模块中Target_V网络参数
Figure FDA0003440905360000051
从而最大化奖励;
S48.判断更新迭代回合数是否不超过T,若是,返回步骤S46,否则,训练收敛,结束。
7.根据权利要求6所述的基于强化学习的AGV路径规划方法,其特征在于,S44所述的智能体与环境交互获得的轨迹表示为:
s0,a(s0),r(s0,a(s0)),s1,a(s1),r(s1,a(s1));......;
sj,a(sj),r(sj,a(sj)),......;sN-1,a(sN-1),r(sN-1,a(sN-1)),sN
其中,sN代表的是交互结束时的状态;sj表示交互过程中第j个状态,a(sj)表示第j个状态采取的动作,对应的r(sj,a(sj))代表第i个状态采取动作a(si)时从环境获得的反馈奖励。
8.根据权利要求6所述的基于强化学习的AGV路径规划方法,其特征在于,在策略学习训练的过程中,
AGV到达指定目的地,即当前状态作为交互的终端状态时,满足:
(x(t)-xgoal)2+(y(t)-ygoal)2≤(Threshold)2
其中,(xgoal,ygoal)表示随机目的地的位置坐标,Threshold表示终端状态允许最大位置误差阈值;
路径约束根据已知障碍物位置设计为:
(x(t)-z_xi)2+(y(t)-z_yi)2≥(R+D)2,i=1,...,N
其中,(z_xi,z_yi)表示第i个障碍物配置的定位传感器提供的坐标位置,D表示与定位传感器绑定的障碍物最小外接圆半径信息。
9.一种基于强化学习的AGV路径规划系统,其特征在于,所述系统用于实现权利要求1所述的AGV路径规划方法,包括:
AGV动力学构建模块,用于构建AGV动力学模型,设置前向差分更新步长,基于前向差分更新步长及AGV动力学模型确定AGV的基本状态更新表达式;
轨迹规划空间设计模块,以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;
马尔科夫过程建模模块,根据AGV动力学模型及AGV的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模;
策略学习训练模块,引入Actor-Critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,
使得智能体在训练的过程中朝着最优的奖励方向运动;
AGV规划路径模块,当训练收敛时,得到智能体AGV的每步决策动作,进而得到最优的AGV规划路径。
CN202110963677.5A 2021-08-20 2021-08-20 一种基于强化学习的agv路径规划方法及系统 Active CN113485380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110963677.5A CN113485380B (zh) 2021-08-20 2021-08-20 一种基于强化学习的agv路径规划方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110963677.5A CN113485380B (zh) 2021-08-20 2021-08-20 一种基于强化学习的agv路径规划方法及系统

Publications (2)

Publication Number Publication Date
CN113485380A CN113485380A (zh) 2021-10-08
CN113485380B true CN113485380B (zh) 2022-04-12

Family

ID=77946102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110963677.5A Active CN113485380B (zh) 2021-08-20 2021-08-20 一种基于强化学习的agv路径规划方法及系统

Country Status (1)

Country Link
CN (1) CN113485380B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114079953B (zh) * 2021-10-28 2023-05-23 深圳大学 无线网络系统的资源调度方法、装置、终端及存储介质
CN114139472B (zh) * 2021-11-04 2023-05-02 江阴市智行工控科技有限公司 基于强化学习双模型结构的集成电路直流分析方法及系统
CN114111830B (zh) * 2021-12-16 2024-01-26 童浩峰 一种基于ai模型的路径规划方法及装置
CN114355915B (zh) * 2021-12-27 2024-04-02 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN114283574B (zh) * 2021-12-29 2022-10-28 湖南师范大学 一种基于卷积策略的车辆调度评价方法
CN114355947B (zh) * 2022-01-11 2023-09-29 上海交通大学 基于强化学习的机器人复杂时序逻辑任务路径规划方法
CN114815840A (zh) * 2022-04-29 2022-07-29 中国科学技术大学 基于深度强化学习的多智能体路径规划方法
CN114578834B (zh) * 2022-05-09 2022-07-26 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN114947902A (zh) * 2022-05-16 2022-08-30 天津大学 基于强化学习的x射线头影测量标志点自动定位方法
CN115022231B (zh) * 2022-06-30 2023-11-03 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115145285A (zh) * 2022-07-29 2022-10-04 陕西科技大学 一种仓储agv多点取送货最优路径规划方法及系统
CN115091469A (zh) * 2022-08-05 2022-09-23 广东工业大学 一种基于最大熵框架的深度强化学习机械臂运动规划方法
CN115542733A (zh) * 2022-09-23 2022-12-30 福州大学 基于深度强化学习的自适应动态窗口法
CN115877868B (zh) * 2022-12-01 2024-01-26 南京航空航天大学 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法
CN116010621B (zh) * 2023-01-10 2023-08-11 华中师范大学 一种基于规则引导的自适应路径生成方法
CN116009590B (zh) * 2023-02-01 2023-11-17 中山大学 无人机网络分布式轨迹规划方法、系统、设备及介质
CN115809502B (zh) * 2023-02-09 2023-04-25 西南交通大学 一种山区铁路大临工程配套道路的智能规划与设计方法
CN116519005B (zh) * 2023-07-04 2023-10-03 上海云骥跃动智能科技发展有限公司 一种路径规划方法及装置
CN116562332B (zh) * 2023-07-10 2023-09-12 长春工业大学 一种人机共融环境下的机器人社交性运动规划方法
CN116551703B (zh) * 2023-07-12 2023-09-12 长春工业大学 一种复杂环境下基于机器学习的运动规划方法
CN117670162A (zh) * 2023-12-06 2024-03-08 珠海市格努信息技术有限公司 一种场内智能物流解决方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018227374A1 (en) * 2017-06-13 2018-12-20 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for route planning based on deep convolutional neural network
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
KR20200072592A (ko) * 2018-12-03 2020-06-23 한국생산기술연구원 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치
CN111752274A (zh) * 2020-06-17 2020-10-09 杭州电子科技大学 一种基于强化学习的激光agv的路径跟踪控制方法
CN111880405A (zh) * 2020-07-03 2020-11-03 广东工业大学 柔性制造车间系统中的agv自适应路径规划实时控制方法
CN111881742A (zh) * 2020-06-23 2020-11-03 江苏大学 一种基于深度强化学习的自动寻路方法及寻路小车设备
CN112325897A (zh) * 2020-11-19 2021-02-05 东北大学 基于启发式深度强化学习的路径规划方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112835333A (zh) * 2020-12-31 2021-05-25 北京工商大学 一种基于深度强化学习多agv避障与路径规划方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018227374A1 (en) * 2017-06-13 2018-12-20 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for route planning based on deep convolutional neural network
KR20200072592A (ko) * 2018-12-03 2020-06-23 한국생산기술연구원 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111752274A (zh) * 2020-06-17 2020-10-09 杭州电子科技大学 一种基于强化学习的激光agv的路径跟踪控制方法
CN111881742A (zh) * 2020-06-23 2020-11-03 江苏大学 一种基于深度强化学习的自动寻路方法及寻路小车设备
CN111880405A (zh) * 2020-07-03 2020-11-03 广东工业大学 柔性制造车间系统中的agv自适应路径规划实时控制方法
CN112325897A (zh) * 2020-11-19 2021-02-05 东北大学 基于启发式深度强化学习的路径规划方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112835333A (zh) * 2020-12-31 2021-05-25 北京工商大学 一种基于深度强化学习多agv避障与路径规划方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Deep Reinforcement Learning Based Approach for AGVs Path Planning;Xinde Guo等;《2020 Chinese Automation Congress (CAC)》;20201108;6833-6838 *
基于深度强化学习的室内移动机器人路径规划;叶伟杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210630(第06(2021)期);I140-37 *
特殊交通环境下移动车辆路径规划强化学习算法研究;陈良;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20200131(第01(2020)期);C035-338 *
监督式强化学习在路径规划中的应用研究;曾纪钧等;《计算机应用与软件》;20181012(第10期);191-194+250 *

Also Published As

Publication number Publication date
CN113485380A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
Zhang et al. Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning
CN111338346B (zh) 一种自动驾驶控制方法、装置、车辆及存储介质
CN112347567B (zh) 一种车辆意图和轨迹预测的方法
US20200363800A1 (en) Decision Making Methods and Systems for Automated Vehicle
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
Xia et al. Neural inverse reinforcement learning in autonomous navigation
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
Parhi et al. Navigational control of several mobile robotic agents using Petri-potential-fuzzy hybrid controller
CN112162555A (zh) 混合车队中基于强化学习控制策略的车辆控制方法
Espinoza et al. Deep interactive motion prediction and planning: Playing games with motion prediction models
CN112629542A (zh) 基于ddpg和lstm的无地图机器人路径导航方法及系统
CN114020013B (zh) 一种基于深度强化学习的无人机编队避撞方法
Al Dabooni et al. Heuristic dynamic programming for mobile robot path planning based on Dyna approach
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
Kardell et al. Autonomous vehicle control via deep reinforcement learning
Vazquez et al. Deep interactive motion prediction and planning: Playing games with motion prediction models
Lee et al. Bayesian Residual Policy Optimization:: Scalable Bayesian Reinforcement Learning with Clairvoyant Experts
Fischer et al. Sampling-based inverse reinforcement learning algorithms with safety constraints
CN110926470B (zh) 一种agv导航控制方法及系统
CN116069023B (zh) 一种基于深度强化学习的多无人车编队控制方法和系统
CN116734850A (zh) 一种基于视觉输入的无人平台强化学习自主导航系统及方法
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant