CN113093727B - 一种基于深度安全强化学习的机器人无地图导航方法 - Google Patents
一种基于深度安全强化学习的机器人无地图导航方法 Download PDFInfo
- Publication number
- CN113093727B CN113093727B CN202110250387.6A CN202110250387A CN113093727B CN 113093727 B CN113093727 B CN 113093727B CN 202110250387 A CN202110250387 A CN 202110250387A CN 113093727 B CN113093727 B CN 113093727B
- Authority
- CN
- China
- Prior art keywords
- neural network
- mobile robot
- safety
- function
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 77
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 230000009471 action Effects 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 74
- 230000008569 process Effects 0.000 claims description 10
- 230000009977 dual effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 claims 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 10
- 238000004088 simulation Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法,具体包括:初始化训练环境,设计移动机器人奖励函数和安全风险代价函数;利用传感器检测的图像信息和激光雷达信息,结合移动机器人的目标信息和运动信息,将各状态信息进行处理后经Actor网络输出决策动作到机器人,机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测及奖励信息,将机器人与环境交互得到的经验存入经验池,定期更新网络参数;判断是否训练结束,将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全(ACS)框架的深度安全强化学习,通过引入约束性策略优化(CPO)算法,提升了强化学习用于无地图导航任务的安全性。
Description
技术领域
本发明涉及机器人无地图导航领域,具体涉及一种基于深度安全强化学习的机器人无地图导航方法。
背景技术
机器人导航是指机器人从当前初始位置到达目标位置,并且在此过程中不和其他静态或动态障碍物发生碰撞的技术。近年来,机器人导航技术广泛应用于扫地机器人、服务机器人、物流机器人、特种救援机器人和火星探索机器人等领域。导航中的安全性主要体现在避免碰撞的能力。
有地图与无地图相比:目前比较成熟的导航技术基本是基于SLAM建图的有地图导航,然而像野外搜索救援等特种机器人在执行任务时,环境往往是未知的,此时就无法建图;有地图导航基于SLAM建图后,当环境随时间变化或者机器人每到一个新环境时需要重新建图;人类可在仅知道目标大致方位,在没有精确地图的情况下穿越障碍物前往目的地,也能在从未见过的新环境中导航,是因为人类学习到了环境的内部表征。基于深度强化学习的无地图导航能让机器人学习到类似的内部表征,对复杂动态未知环境有一定适应能力。
基于深度强化学习的无地图导航与传统的基于Bug算法的无地图导航相比:Bug算法无法学习到环境的内部表征,没有自学习能力,所规划的路径往往不是最优的,而且无法利用视觉特征进行导航;基于深度强化学习的无地图导航可在与环境的交互中学习到环境的内部表征,有一定的自学习能力,规划的路径相比利用Bug算法规划的路径要更接近于最优路径,还可以通过物体的视觉特征进行导航。
虽然强化学习在游戏和控制等领域应用比较成功,然而大部分强化学习工作是基于仿真平台进行开发的,在真实移动机器人上用的较少,原因是强化学习学到的策略不能保证是安全的,从而可能造成严重后果。而在无人驾驶等领域,安全性是关键也是最基本的要求,因此要考虑强化学习的安全性。
发明内容
本发明针对上述问题,将约束型策略优化(Constrained Policy Optimization,CPO)算法这样一种安全强化学习方法引入无地图导航,从而进一步提升基于深度强化学习的无地图导航过程中的安全性。
为了解决上述技术问题,本发明采用的技术方案是:提供一种基于深度安全强化学习的机器人无地图导航方法,该方法包括以下步骤:
S1:初始化训练环境,设置移动机器人参数,根据训练环境设计移动机器人奖励函数和安全风险代价函数;
S2:将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入,Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人;
S3:移动机器人执行Actor神经网络输出的动作,然后从环境中得到下一时刻新的观测信息和奖励信息;
S4:将移动机器人与环境交互得到的经验存入经验池,所述Actor神经网络与Critic神经网络、Safety神经网络组成基于深度安全强化学习的ACS神经网络系统,当所述经验池存满或者设置定期,对ACS神经网络系统参数进行更新;
S5:判断训练步数是否达到设定阈值,若未达到设定阈值,则返回S2继续循环执行,若训练步数达到设定阈值,则训练结束,将训练结束后的模型应用于真实移动机器人进行导航。
进一步的,所述奖励函数r(st,at)和安全风险代价函数c(st,at)的表达式为:
c(st,at)=rcolision
其中,St表示移动机器人在t时刻的状态,at表示移动机器人在t时刻所采取的行动,r(st,at)表示移动机器人的多个子奖励函数,包括到达目标奖励rarrival(rarrival>0)、相对目标点距离变化奖励μ(dt-1-dt)和时间惩罚奖励ptime(ptime>0),其中dt表示t时刻目标点相对移动机器人在机器人坐标系下的距离,D表示设定的移动机器人到达目标点的距离阈值,μ(μ>0)表示距离变化奖励的比例系数,dt-1-dt表示相邻两个时刻目标点相对于移动机器人的距离变化,如果当前移动机器人与目标点的距离相对于上一时刻变小,则由μ(dt-1-dt)可得到正奖励,否则为负奖励,ptime表示每多执行一个时间步就给予值大小为ptime的惩罚,安全风险代价函数c(st,at)的值大小为rcolision。
进一步的,所述S2具体方法为:
将三维原始RGB图像进行灰度化、裁剪,叠帧处理为连续4帧灰度图像后通过卷积层和Flatten层进行处理;
将原始1080维激光雷达信息通过1D卷积层和Flatten层进行处理后,用LSTM提取时序信息特征;
将t时刻目标点与移动机器人的相对距离和相对方向角度信息用LSTM提取时序信息特征;
将t时刻移动机器人的运动信息,包括线速度和角速度,用LSTM提取时序信息特征;
将以上四种经过处理后的信息特征拼接在一起后再通过LSTM提取时序信息特征,最后通过全连接层输出决策动作到机器人。
进一步的,所述深度安全强化学习为约束型策略优化(CPO)算法,所述约束型策略优化(CPO)算法是在信赖域策略优化(TRPO)算法的基础上加入了风险代价约束函数JC(θ)≤βsafe,其中βsafe表示安全阈值,θ表示Actor神经网络参数,所述风险代价约束函数JC(θ)表达式为:
进一步的,所述对ACS神经网络系统参数进行更新的方法如下:
Critic神经网络的参数更新表达式为:其中,ω表示Critic神经网络的参数,/>是Critic神经网络相关的TD偏差,表示为rt表示当前时刻的奖励,γ∈(0,1)为折扣因子,/>分别表示Critic神经网络t+1时刻、t时刻的状态值函数,超参数αω表示Critic神经网络参数ω相关的梯度更新步长,▽ω表示/>的梯度算子;
Safety神经网络的参数更新表达式为:其中,φ表示Safety神经网络的参数,/>是Safety神经网络相关的TD偏差,表示为/>ct表示t时刻安全风险代价,/>分别表示Safety神经网络t+1时刻、t时刻的状态值函数,超参数αφ表示Safety神经网络参数φ相关的梯度更新步长,▽φ表示/>的梯度算子;
Actor神经网络中θk+1表示参数参数向量θk更新值,所述CPO算法的求解公式为:
θk+1=arg maxθ J(θ)
s.t.JC(θ)≤βsafe
将风险代价约束函数JC(θ)和目标函数J(θ)带入CPO算法的求解公式中,可得
s.t.c+bT(θ-θk)≤0
(一)当上述求解问题有可行解时,通过对偶问题求解,定义拉格朗日乘子为ν和λ,上述求解问题的对偶问题表示如下:
定义上述对偶问题最优解为ν*和λ*,则参数向量θk的更新公式为:
(二)当上述求解问题没有可行解,则参数向量θk的更新公式为:
本发明提供的一种基于深度安全强化学习的机器人无地图导航方法,其有益效果是:
1、本发明基于演员-评论家-安全(Actor-Critic-Safety,ACS)系统框架的深度安全强化学习,通过约束性策略优化(Constrained Policy Optimization,CPO)算法的引入,提升强化学习用于无地图导航任务的安全性。与现有利用强化学习算法进行无地图导航的方法相比,可大幅减小移动机器人在导航中的碰撞率,提升导航成功率,从而提升了强化学习无地图导航的安全性能。
2、与现有传统的基于Bug算法的无地图导航相比,导航路径明显缩短,路径更优。
3、本发明提出的基于约束性策略优化(CPO)算法的无地图导航算法有很强的泛化能力,在简单静态仿真环境中训练之后直接迁移到较复杂静态仿真环境中,仍可保持较高的导航成功率;在多种静态仿真环境中训练好之后,可迁移至其他各种不同的复杂静态仿真环境和动态仿真环境中,同时保持很高的导航成功率。
附图说明
图1为本发明方法的整体流程图;
图2为本发明实施例中构建的一个Gazebo-world环境图;
图3为本发明实施例中Gazebo-world环境图对应的2D地图;
图4为本发明实施例中由信息输入到动作输出的端到端的导航方案图;
图5为本发明实施例中Actor-Critic-Safety网络系统架构图。
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤。
如图1所示为本发明方法的整体流程图,一种基于深度安全强化学习的机器人无地图导航方法,包括以下步骤:
S1:初始化训练环境,设置移动机器人参数,包括移动机器人的最大线速度、最小线速度、最大角速度、最小角速度、最大步数,设定移动机器人到达目标点的距离、激光雷达信息及图像信息输入的维度,根据训练环境设计移动机器人奖励函数和安全风险代价函数;
本发明的一个实施例中,初始化训练环境是加载已构建的用于训练的Gazebo-world环境,用SLAM对Gazebo-world环境进行建图成2D地图,然后用ROS-rviz进行可视化,在每个回合开始时随机初始化移动机器人初始方向、出发点及目标点,实施例中用于训练的一个Gazebo-world环境图如图2所示,Gazebo-world环境图对应的2D地图如图3所示。
根据训练环境设计移动机器人的奖励函数r(st,at)和安全风险代价函数c(st,at)的表达式为:
c(st,at)=rcolision
其中,St表示移动机器人在t时刻的状态,at表示移动机器人在t时刻所采取的行动,r(st,at)表示移动机器人的多个子奖励函数,包括到达目标奖励rarrival(rarrival>0)、相对目标点距离变化奖励μ(dt-1-dt)和时间惩罚奖励ptime(ptime>0),其中dt表示t时刻目标点相对移动机器人在机器人坐标系下的距离,D表示设定的移动机器人到达目标点的距离阈值,μ(μ>0)表示距离变化奖励的比例系数,dt-1-dt表示相邻两个时刻目标点相对于移动机器人的距离变化,如果当前移动机器人与目标点的距离相对于上一时刻变小,则由μ(dt-1-dt)可得到正奖励,否则为负奖励,ptime表示每多执行一个时间步就给予值大小为ptime的惩罚,安全风险代价函数c(st,at)的值大小为rcolision。
S2:将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入,Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人;
本发明的一个实施例中,将3维原始RGB图像(1024×768×3)进行灰度化、裁剪,叠帧(4帧)处理为连续4帧灰度图像(64×64×4)后通过卷积层以及Flatten层进行处理;将原始1080维激光雷达信息通过1D卷积、Flatten层后,用LSTM提取时序信息特征;将当前时刻目标点相对于当前机器人的位置信息通过极坐标变换在机器人坐标系中表示,即相对距离和相对方向角度信息,接着用LSTM提取时序信息特征;将当前时刻移动机器人的运动信息,即线速度和角速度,用LSTM提取时序信息特征;将以上四种经过处理后的状态特征拼接在一起后再通过LSTM提取时序信息特征,然后通过全连接层输出动作。以上由信息输入到动作输出的端到端的导航过程如图4所示。
S3:移动机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测信息和奖励信息;
本发明的一个实施例中,移动机器人执行Actor网络决策输出的动作后,环境根据移动机器人采取的动作,将下一时刻的状态观测信息以及奖励信息反馈给移动机器人。
S4:将移动机器人与环境交互得到的经验存入经验池,所述Actor神经网络(参数θ)与Critic神经网络(参数ω)、Safety神经网络(参数φ)组成基于深度安全强化学习的演员-评论家-安全(Actor-Critic-Safety,ACS)神经网络系统,当所述经验池存满或者设置定期,对ACS神经网络系统参数进行更新;
本发明的一个实施例中,优选ACS神经网络系统如图5所示,将移动机器人与环境交互得到的经验存入经验池,当经验池存满或者定期更新Actor神经网络(Actor NeuralNetwork,Actor NN)参数、Critic神经网络(Critic Neural Network,Critic NN)参数以及Safety神经网络(Safety Neural Network,Safety NN)参数。
本发明所述深度安全强化学习,即约束型策略优化(Constrained PolicyOptimization,CPO)算法,是在信赖域策略优化(Trust Region Policy Optimization,TRPO)算法的基础上加入了风险代价约束函数JC(θ)≤βsafe,其中βsafe表示安全阈值,θ表示Actor神经网络参数值,所述风险代价约束函数JC(θ)表达式为:
在TRPO算法中,累计奖励函数为
其中,γ∈(0,1)为折扣因子,设Critic神经网络的参数为ω,Critic网络的状态值函数为
Critic网络的状态动作值函数为
Critic网络的优势函数为
实施例中,通常用TD偏差δt代替优势函数Aπ(s,a)计算,因为TD偏差δt是优势函数Aπ(s,a)的无偏估计。
Critic神经网络的损失函数LossCritic(ω)定义为
Critic神经网络的参数ω的更新方式为
其中,rt表示当前时刻的奖励,γ∈(0,1)为折扣因子,分别表示Critic神经网络t+1时刻、t时刻的状态值函数,超参数αω表示Critic神经网络参数ω相关的梯度更新步长,▽ω表示/>的梯度算子;
目标函数J(θ)为
本发明所述的约束型策略优化(CPO)算法中的累计安全风险函数为
Safety网络对应的状态值函数为
Safety网络对应的状态动作值函数为
Safety网络对应的优势函数为
Safety神经网络的损失函数LossSafety(φ)为
Safety神经网络的参数φ的更新方式为
对应的风险代价约束函数JC(θ)为
Actor神经网络中θk+1表示参数参数向量θk更新值,经典TRPO求解公式如下:
θk+1=arg maxθ J(θ)
为保证策略安全,JC(θ)应限制在安全阈值βsafe以下,即加上有关安全的风险代价约束JC(θ)≤βsafe,将此约束加入到TRPO算法中,所述CPO算法的求解公式为:
θk+1=arg maxθ J(θ)
s.t.JC(θ)≤βsafe
将风险代价约束函数JC(θ)和目标函数J(θ)带入CPO算法的求解公式中,可得
由于神经网络的参数空间维度过高,以上CPO算法求解公式计算量非常大,直接求解不太可行。当采取一个小的步长δ时,风险代价约束函数JC(θ)和目标函数J(θ)可在(θk)处进行线性化来近似,信赖域约束同样可以很好地通过在θk进行二阶展开来近似(在θk处进行二阶展开时,KL散度和其梯度均为0)。
s.t.c+bT(θ-θk)≤0
因为H总是半正定的(假设H总是正定),则以上约束问题是凸函数,当有可行解时,可以通过对偶问题求解。定义拉格朗日乘子为ν和λ,上述CPO算法求解问题的对偶问题可以表示如下:
如果上述CPO求解问题有可行解,设对偶问题最优解为ν*和λ*,则参数向量θk的更新公式为
如果上述CPO求解问题没有可行解,则参数向量θk的更新公式为:
综上,ACS网络的参数更新公式总结如下:
S5:判断训练步数是否达到设定阈值,若未达到设定阈值,则返回S2继续循环执行,若训练步数达到设定阈值,则训练结束,停止训练,将训练结束后的模型应用于真实移动机器人进行导航。
综上所述,本发明提供的一种基于深度安全强化学习的机器人无地图导航方法,将约束型策略优化(Constrained Policy Optimization,CPO)算法这样一种安全强化学习方法引入无地图导航,从而进一步提升基于深度强化学习的无地图导航过程中的安全性。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (3)
1.一种基于深度安全强化学习的机器人无地图导航方法,其特征在于,该方法包括以下步骤:
S1:初始化训练环境,设置移动机器人参数,根据训练环境设计移动机器人奖励函数和安全风险代价函数;
S2:将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入,Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人;
S3:移动机器人执行Actor神经网络输出的动作,然后从环境中得到下一时刻新的观测信息和奖励信息;
S4:将移动机器人与环境交互得到的经验存入经验池,所述Actor神经网络与Critic神经网络、Safety神经网络组成基于深度安全强化学习的ACS神经网络系统,当所述经验池存满或者设置定期,对ACS神经网络系统参数进行更新;
S5:判断训练步数是否达到设定阈值,若未达到设定阈值,则返回S2继续循环执行,若训练步数达到设定阈值,则训练结束,将训练结束后的模型应用于真实移动机器人进行导航;
其中,所述深度安全强化学习为CPO算法,所述CPO算法是在TRPO算法的基础上加入了风险代价约束函数JC(θ)≤βsafe,其中βsafe表示安全阈值,θ表示Actor神经网络参数,所述风险代价约束函数JC(θ)表达式为:
所述对ACS神经网络系统参数进行更新的方法如下:
Critic神经网络的参数更新表达式为:其中,ω表示Critic神经网络的参数,/>是Critic神经网络相关的TD偏差,表示为/>rt表示当前时刻的奖励,γ∈(0,1)为折扣因子,/>分别表示Critic神经网络t+1时刻、t时刻的状态值函数,超参数αω表示Critic神经网络参数ω相关的梯度更新步长,/>表示/>的梯度算子;
Safety神经网络的参数更新表达式为:其中,φ表示Safety神经网络的参数,/>是Safety神经网络相关的TD偏差,表示为/>ct表示t时刻安全风险代价,/>分别表示Safety神经网络t+1时刻、t时刻的状态值函数,超参数αφ表示Safety神经网络参数φ相关的梯度更新步长,/>表示/>的梯度算子;
Actor神经网络中θk+1表示参数向量θk更新值,所述CPO算法的求解公式为:
θk+1=argmaxθJ(θ)
s.t.JC(θ)≤βsafe
将风险代价约束函数JC(θ)和目标函数J(θ)带入CPO算法的求解公式中,可得
s.t.c+bT(θ-θk)≤0
(一)当上述求解问题有可行解时,通过对偶问题求解,定义拉格朗日乘子为ν和λ,上述求解问题的对偶问题表示如下:
定义上述对偶问题最优解为ν*和λ*,则参数向量θk的更新公式为:
(二)当上述求解问题没有可行解,则参数向量θk的更新公式为:
2.根据权利要求1所述的一种基于深度安全强化学习的机器人无地图导航方法,其特征在于,所述奖励函数r(st,at)和安全风险代价函数c(st,at)的表达式为:
c(st,at)=rcolision
其中,st表示移动机器人在t时刻的状态,at表示移动机器人在t时刻所采取的行动,r(st,at)表示移动机器人的多个子奖励函数,包括到达目标奖励rarrival、相对目标点距离变化奖励μ(dt-1-dt)和时间惩罚奖励ptime,其中dt表示t时刻目标点相对移动机器人在机器人坐标系下的距离,D表示设定的移动机器人到达目标点的距离阈值,μ表示距离变化奖励的比例系数,dt-1-dt表示相邻两个时刻目标点相对于移动机器人的距离变化,如果当前移动机器人与目标点的距离相对于上一时刻变小,则由μ(dt-1-dt)可得到正奖励,否则为负奖励,ptime表示每多执行一个时间步就给予值大小为ptime的惩罚,安全风险代价函数c(st,at)的值大小为rcolision,其中,rarrival>0,ptime>0,μ>0。
3.根据权利要求1所述的一种基于深度安全强化学习的机器人无地图导航方法,其特征在于,所述S2具体方法为:
将三维原始RGB图像进行灰度化、裁剪,叠帧处理为连续4帧灰度图像后通过卷积层和Flatten层进行处理;
将原始1080维激光雷达信息通过1D卷积层和Flatten层进行处理后,用LSTM提取时序信息特征;
将t时刻目标点与移动机器人的相对距离和相对方向角度信息用LSTM提取时序信息特征;
将t时刻移动机器人的运动信息,包括线速度和角速度,用LSTM提取时序信息特征;
将以上四种经过处理后的信息特征拼接在一起后再通过LSTM提取时序信息特征,最后通过全连接层输出决策动作到机器人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110250387.6A CN113093727B (zh) | 2021-03-08 | 2021-03-08 | 一种基于深度安全强化学习的机器人无地图导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110250387.6A CN113093727B (zh) | 2021-03-08 | 2021-03-08 | 一种基于深度安全强化学习的机器人无地图导航方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113093727A CN113093727A (zh) | 2021-07-09 |
CN113093727B true CN113093727B (zh) | 2023-03-28 |
Family
ID=76666748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110250387.6A Active CN113093727B (zh) | 2021-03-08 | 2021-03-08 | 一种基于深度安全强化学习的机器人无地图导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113093727B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113467462B (zh) * | 2021-07-14 | 2023-04-07 | 中国人民解放军国防科技大学 | 机器人的行人伴随控制方法、装置、移动机器人和介质 |
CN113671827B (zh) * | 2021-07-20 | 2023-06-27 | 大连海事大学 | 基于循环神经网络与强化学习的动态二分图分配长度决策方法 |
CN113778080B (zh) * | 2021-08-09 | 2023-12-01 | 清华大学 | 单轨双轮机器人的控制方法、装置、电子设备及存储介质 |
CN113534669B (zh) * | 2021-09-17 | 2021-11-30 | 中国人民解放军国防科技大学 | 基于数据驱动的无人车控制方法、装置和计算机设备 |
CN114077258B (zh) * | 2021-11-22 | 2023-11-21 | 江苏科技大学 | 一种基于强化学习ppo2算法的无人艇位姿控制方法 |
CN114218867B (zh) * | 2021-12-20 | 2022-06-28 | 暨南大学 | 基于熵优化安全强化学习的特种设备流程控制方法及系统 |
CN114355980B (zh) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114396949B (zh) * | 2022-01-18 | 2023-11-10 | 重庆邮电大学 | 一种基于ddpg的移动机器人无先验地图导航决策方法 |
CN114594768B (zh) * | 2022-03-03 | 2022-08-23 | 安徽大学 | 一种基于视觉特征图重构的移动机器人导航决策方法 |
CN114841098B (zh) * | 2022-04-13 | 2023-04-18 | 广东工业大学 | 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法 |
CN114859899B (zh) * | 2022-04-18 | 2024-05-31 | 哈尔滨工业大学人工智能研究院有限公司 | 移动机器人导航避障的演员-评论家稳定性强化学习方法 |
TWI815613B (zh) * | 2022-08-16 | 2023-09-11 | 和碩聯合科技股份有限公司 | 適用於機器人之導航方法及其機器人 |
CN115167478B (zh) * | 2022-08-23 | 2024-04-26 | 山东大学 | 基于深度强化学习的机器人无地图路径规划方法及系统 |
CN115510173B (zh) * | 2022-09-27 | 2023-06-06 | 清华大学 | 一种基于das的智能化专题地图制作方法、装置及产品 |
CN115877868B (zh) * | 2022-12-01 | 2024-01-26 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN115805595B (zh) * | 2023-02-09 | 2023-12-26 | 白杨时代(北京)科技有限公司 | 机器人导航方法、装置及杂物清理机器人 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6721785B2 (ja) * | 2016-09-15 | 2020-07-15 | グーグル エルエルシー | ロボット操作のための深層強化学習 |
CN106950969A (zh) * | 2017-04-28 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于无地图运动规划器的移动机器人连续控制方法 |
CN110308733A (zh) * | 2019-08-07 | 2019-10-08 | 四川省众望科希盟科技有限公司 | 一种微小型机器人运动控制系统、方法、存储介质及终端 |
CN110750096B (zh) * | 2019-10-09 | 2022-08-02 | 哈尔滨工程大学 | 静态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN110632931B (zh) * | 2019-10-09 | 2022-06-21 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN111141300A (zh) * | 2019-12-18 | 2020-05-12 | 南京理工大学 | 基于深度强化学习的智能移动平台无地图自主导航方法 |
CN111487864B (zh) * | 2020-05-14 | 2023-04-18 | 山东师范大学 | 一种基于深度强化学习的机器人路径导航方法及系统 |
CN112295237A (zh) * | 2020-10-19 | 2021-02-02 | 深圳大学 | 一种基于深度强化学习的决策方法 |
-
2021
- 2021-03-08 CN CN202110250387.6A patent/CN113093727B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113093727A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113093727B (zh) | 一种基于深度安全强化学习的机器人无地图导航方法 | |
Liu et al. | A lifelong learning approach to mobile robot navigation | |
CN113110509B (zh) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 | |
Hirose et al. | Deep visual mpc-policy learning for navigation | |
WO2021103834A1 (zh) | 换道决策模型生成方法和无人车换道决策方法及装置 | |
CN108820157B (zh) | 一种基于强化学习的船舶智能避碰方法 | |
Xia et al. | Neural inverse reinforcement learning in autonomous navigation | |
Xu et al. | Applr: Adaptive planner parameter learning from reinforcement | |
CN109964237A (zh) | 图像深度预测神经网络 | |
CN112034887A (zh) | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 | |
CN111487864A (zh) | 一种基于深度强化学习的机器人路径导航方法及系统 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
Pfeiffer et al. | Visual attention prediction improves performance of autonomous drone racing agents | |
KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
US20210398014A1 (en) | Reinforcement learning based control of imitative policies for autonomous driving | |
CN117387635A (zh) | 一种基于深度强化学习和pid控制器的无人机导航方法 | |
CN113674310A (zh) | 一种基于主动视觉感知的四旋翼无人机目标跟踪方法 | |
Duc et al. | An approach for UAV indoor obstacle avoidance based on AI technique with ensemble of ResNet8 and Res-DQN | |
Zhou et al. | Deep reinforcement learning with long-time memory capability for robot mapless navigation | |
Zare et al. | Continuous control with deep reinforcement learning for autonomous vessels | |
Hu et al. | Visual servoing with deep reinforcement learning for rotor unmanned helicopter | |
Celemin et al. | Teaching agents with corrective human feedback for challenging problems | |
Tao et al. | Fast and robust training and deployment of deep reinforcement learning based navigation policy | |
Raj et al. | Dynamic Obstacle Avoidance Technique for Mobile Robot Navigation Using Deep Reinforcement Learning | |
CN113503878B (zh) | 一种无人船路径规划方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |