CN113093727B - 一种基于深度安全强化学习的机器人无地图导航方法 - Google Patents

一种基于深度安全强化学习的机器人无地图导航方法 Download PDF

Info

Publication number
CN113093727B
CN113093727B CN202110250387.6A CN202110250387A CN113093727B CN 113093727 B CN113093727 B CN 113093727B CN 202110250387 A CN202110250387 A CN 202110250387A CN 113093727 B CN113093727 B CN 113093727B
Authority
CN
China
Prior art keywords
neural network
mobile robot
safety
function
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110250387.6A
Other languages
English (en)
Other versions
CN113093727A (zh
Inventor
吕少华
李衍杰
许运鸿
刘奇
陈美玲
赵威龙
刘悦丞
庞玺政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110250387.6A priority Critical patent/CN113093727B/zh
Publication of CN113093727A publication Critical patent/CN113093727A/zh
Application granted granted Critical
Publication of CN113093727B publication Critical patent/CN113093727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法,具体包括:初始化训练环境,设计移动机器人奖励函数和安全风险代价函数;利用传感器检测的图像信息和激光雷达信息,结合移动机器人的目标信息和运动信息,将各状态信息进行处理后经Actor网络输出决策动作到机器人,机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测及奖励信息,将机器人与环境交互得到的经验存入经验池,定期更新网络参数;判断是否训练结束,将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全(ACS)框架的深度安全强化学习,通过引入约束性策略优化(CPO)算法,提升了强化学习用于无地图导航任务的安全性。

Description

一种基于深度安全强化学习的机器人无地图导航方法
技术领域
本发明涉及机器人无地图导航领域,具体涉及一种基于深度安全强化学习的机器人无地图导航方法。
背景技术
机器人导航是指机器人从当前初始位置到达目标位置,并且在此过程中不和其他静态或动态障碍物发生碰撞的技术。近年来,机器人导航技术广泛应用于扫地机器人、服务机器人、物流机器人、特种救援机器人和火星探索机器人等领域。导航中的安全性主要体现在避免碰撞的能力。
有地图与无地图相比:目前比较成熟的导航技术基本是基于SLAM建图的有地图导航,然而像野外搜索救援等特种机器人在执行任务时,环境往往是未知的,此时就无法建图;有地图导航基于SLAM建图后,当环境随时间变化或者机器人每到一个新环境时需要重新建图;人类可在仅知道目标大致方位,在没有精确地图的情况下穿越障碍物前往目的地,也能在从未见过的新环境中导航,是因为人类学习到了环境的内部表征。基于深度强化学习的无地图导航能让机器人学习到类似的内部表征,对复杂动态未知环境有一定适应能力。
基于深度强化学习的无地图导航与传统的基于Bug算法的无地图导航相比:Bug算法无法学习到环境的内部表征,没有自学习能力,所规划的路径往往不是最优的,而且无法利用视觉特征进行导航;基于深度强化学习的无地图导航可在与环境的交互中学习到环境的内部表征,有一定的自学习能力,规划的路径相比利用Bug算法规划的路径要更接近于最优路径,还可以通过物体的视觉特征进行导航。
虽然强化学习在游戏和控制等领域应用比较成功,然而大部分强化学习工作是基于仿真平台进行开发的,在真实移动机器人上用的较少,原因是强化学习学到的策略不能保证是安全的,从而可能造成严重后果。而在无人驾驶等领域,安全性是关键也是最基本的要求,因此要考虑强化学习的安全性。
发明内容
本发明针对上述问题,将约束型策略优化(Constrained Policy Optimization,CPO)算法这样一种安全强化学习方法引入无地图导航,从而进一步提升基于深度强化学习的无地图导航过程中的安全性。
为了解决上述技术问题,本发明采用的技术方案是:提供一种基于深度安全强化学习的机器人无地图导航方法,该方法包括以下步骤:
S1:初始化训练环境,设置移动机器人参数,根据训练环境设计移动机器人奖励函数和安全风险代价函数;
S2:将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入,Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人;
S3:移动机器人执行Actor神经网络输出的动作,然后从环境中得到下一时刻新的观测信息和奖励信息;
S4:将移动机器人与环境交互得到的经验存入经验池,所述Actor神经网络与Critic神经网络、Safety神经网络组成基于深度安全强化学习的ACS神经网络系统,当所述经验池存满或者设置定期,对ACS神经网络系统参数进行更新;
S5:判断训练步数是否达到设定阈值,若未达到设定阈值,则返回S2继续循环执行,若训练步数达到设定阈值,则训练结束,将训练结束后的模型应用于真实移动机器人进行导航。
进一步的,所述奖励函数r(st,at)和安全风险代价函数c(st,at)的表达式为:
Figure BDA0002965799200000021
c(st,at)=rcolision
其中,St表示移动机器人在t时刻的状态,at表示移动机器人在t时刻所采取的行动,r(st,at)表示移动机器人的多个子奖励函数,包括到达目标奖励rarrival(rarrival>0)、相对目标点距离变化奖励μ(dt-1-dt)和时间惩罚奖励ptime(ptime>0),其中dt表示t时刻目标点相对移动机器人在机器人坐标系下的距离,D表示设定的移动机器人到达目标点的距离阈值,μ(μ>0)表示距离变化奖励的比例系数,dt-1-dt表示相邻两个时刻目标点相对于移动机器人的距离变化,如果当前移动机器人与目标点的距离相对于上一时刻变小,则由μ(dt-1-dt)可得到正奖励,否则为负奖励,ptime表示每多执行一个时间步就给予值大小为ptime的惩罚,安全风险代价函数c(st,at)的值大小为rcolision
进一步的,所述S2具体方法为:
将三维原始RGB图像进行灰度化、裁剪,叠帧处理为连续4帧灰度图像后通过卷积层和Flatten层进行处理;
将原始1080维激光雷达信息通过1D卷积层和Flatten层进行处理后,用LSTM提取时序信息特征;
将t时刻目标点与移动机器人的相对距离和相对方向角度信息用LSTM提取时序信息特征;
将t时刻移动机器人的运动信息,包括线速度和角速度,用LSTM提取时序信息特征;
将以上四种经过处理后的信息特征拼接在一起后再通过LSTM提取时序信息特征,最后通过全连接层输出决策动作到机器人。
进一步的,所述深度安全强化学习为约束型策略优化(CPO)算法,所述约束型策略优化(CPO)算法是在信赖域策略优化(TRPO)算法的基础上加入了风险代价约束函数JC(θ)≤βsafe,其中βsafe表示安全阈值,θ表示Actor神经网络参数,所述风险代价约束函数JC(θ)表达式为:
Figure BDA0002965799200000031
/>
其中,C为CPO算法中的安全风险标志,s表示状态,a表示动作,πθ(a|s)、
Figure BDA0002965799200000032
分别表示当前策略函数和旧策略函数,/>
Figure BDA0002965799200000033
表示Safety神经网络相关的优势函数。
进一步的,所述对ACS神经网络系统参数进行更新的方法如下:
Critic神经网络的参数更新表达式为:
Figure BDA0002965799200000034
其中,ω表示Critic神经网络的参数,/>
Figure BDA0002965799200000035
是Critic神经网络相关的TD偏差,表示为
Figure BDA0002965799200000036
rt表示当前时刻的奖励,γ∈(0,1)为折扣因子,/>
Figure BDA0002965799200000037
分别表示Critic神经网络t+1时刻、t时刻的状态值函数,超参数αω表示Critic神经网络参数ω相关的梯度更新步长,▽ω表示/>
Figure BDA0002965799200000038
的梯度算子;
Safety神经网络的参数更新表达式为:
Figure BDA0002965799200000039
其中,φ表示Safety神经网络的参数,/>
Figure BDA00029657992000000310
是Safety神经网络相关的TD偏差,表示为/>
Figure BDA00029657992000000311
ct表示t时刻安全风险代价,/>
Figure BDA00029657992000000312
分别表示Safety神经网络t+1时刻、t时刻的状态值函数,超参数αφ表示Safety神经网络参数φ相关的梯度更新步长,▽φ表示/>
Figure BDA00029657992000000313
的梯度算子;
Actor神经网络中θk+1表示参数参数向量θk更新值,所述CPO算法的求解公式为:
θk+1=arg maxθ J(θ)
s.t.JC(θ)≤βsafe
Figure BDA0002965799200000041
其中,DKL表示两策略分布之间的KL散度,δ表示当前策略和旧策略的平均KL散度上界阈值,J(θ)为目标函数,其表达式为:
Figure BDA0002965799200000042
表示Critic神经网络相关的优势函数。
将风险代价约束函数JC(θ)和目标函数J(θ)带入CPO算法的求解公式中,可得
Figure BDA0002965799200000043
Figure BDA0002965799200000044
Figure BDA0002965799200000045
定义g为目标函数J(θ)的梯度,b为风险代价约束函数JC(θ)的梯度,定义
Figure BDA0002965799200000046
Figure BDA0002965799200000047
为随机策略,H为KL散度的Hessian矩阵,则CPO算法的求解问题为:
Figure BDA0002965799200000048
s.t.c+bT(θ-θk)≤0
Figure BDA0002965799200000049
(一)当上述求解问题有可行解时,通过对偶问题求解,定义拉格朗日乘子为ν和λ,上述求解问题的对偶问题表示如下:
Figure BDA00029657992000000410
定义上述对偶问题最优解为ν*和λ*,则参数向量θk的更新公式为:
Figure BDA00029657992000000411
(二)当上述求解问题没有可行解,则参数向量θk的更新公式为:
Figure BDA00029657992000000412
本发明提供的一种基于深度安全强化学习的机器人无地图导航方法,其有益效果是:
1、本发明基于演员-评论家-安全(Actor-Critic-Safety,ACS)系统框架的深度安全强化学习,通过约束性策略优化(Constrained Policy Optimization,CPO)算法的引入,提升强化学习用于无地图导航任务的安全性。与现有利用强化学习算法进行无地图导航的方法相比,可大幅减小移动机器人在导航中的碰撞率,提升导航成功率,从而提升了强化学习无地图导航的安全性能。
2、与现有传统的基于Bug算法的无地图导航相比,导航路径明显缩短,路径更优。
3、本发明提出的基于约束性策略优化(CPO)算法的无地图导航算法有很强的泛化能力,在简单静态仿真环境中训练之后直接迁移到较复杂静态仿真环境中,仍可保持较高的导航成功率;在多种静态仿真环境中训练好之后,可迁移至其他各种不同的复杂静态仿真环境和动态仿真环境中,同时保持很高的导航成功率。
附图说明
图1为本发明方法的整体流程图;
图2为本发明实施例中构建的一个Gazebo-world环境图;
图3为本发明实施例中Gazebo-world环境图对应的2D地图;
图4为本发明实施例中由信息输入到动作输出的端到端的导航方案图;
图5为本发明实施例中Actor-Critic-Safety网络系统架构图。
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤。
如图1所示为本发明方法的整体流程图,一种基于深度安全强化学习的机器人无地图导航方法,包括以下步骤:
S1:初始化训练环境,设置移动机器人参数,包括移动机器人的最大线速度、最小线速度、最大角速度、最小角速度、最大步数,设定移动机器人到达目标点的距离、激光雷达信息及图像信息输入的维度,根据训练环境设计移动机器人奖励函数和安全风险代价函数;
本发明的一个实施例中,初始化训练环境是加载已构建的用于训练的Gazebo-world环境,用SLAM对Gazebo-world环境进行建图成2D地图,然后用ROS-rviz进行可视化,在每个回合开始时随机初始化移动机器人初始方向、出发点及目标点,实施例中用于训练的一个Gazebo-world环境图如图2所示,Gazebo-world环境图对应的2D地图如图3所示。
根据训练环境设计移动机器人的奖励函数r(st,at)和安全风险代价函数c(st,at)的表达式为:
Figure BDA0002965799200000061
c(st,at)=rcolision
其中,St表示移动机器人在t时刻的状态,at表示移动机器人在t时刻所采取的行动,r(st,at)表示移动机器人的多个子奖励函数,包括到达目标奖励rarrival(rarrival>0)、相对目标点距离变化奖励μ(dt-1-dt)和时间惩罚奖励ptime(ptime>0),其中dt表示t时刻目标点相对移动机器人在机器人坐标系下的距离,D表示设定的移动机器人到达目标点的距离阈值,μ(μ>0)表示距离变化奖励的比例系数,dt-1-dt表示相邻两个时刻目标点相对于移动机器人的距离变化,如果当前移动机器人与目标点的距离相对于上一时刻变小,则由μ(dt-1-dt)可得到正奖励,否则为负奖励,ptime表示每多执行一个时间步就给予值大小为ptime的惩罚,安全风险代价函数c(st,at)的值大小为rcolision
S2:将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入,Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人;
本发明的一个实施例中,将3维原始RGB图像(1024×768×3)进行灰度化、裁剪,叠帧(4帧)处理为连续4帧灰度图像(64×64×4)后通过卷积层以及Flatten层进行处理;将原始1080维激光雷达信息通过1D卷积、Flatten层后,用LSTM提取时序信息特征;将当前时刻目标点相对于当前机器人的位置信息通过极坐标变换在机器人坐标系中表示,即相对距离和相对方向角度信息,接着用LSTM提取时序信息特征;将当前时刻移动机器人的运动信息,即线速度和角速度,用LSTM提取时序信息特征;将以上四种经过处理后的状态特征拼接在一起后再通过LSTM提取时序信息特征,然后通过全连接层输出动作。以上由信息输入到动作输出的端到端的导航过程如图4所示。
S3:移动机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测信息和奖励信息;
本发明的一个实施例中,移动机器人执行Actor网络决策输出的动作后,环境根据移动机器人采取的动作,将下一时刻的状态观测信息以及奖励信息反馈给移动机器人。
S4:将移动机器人与环境交互得到的经验存入经验池,所述Actor神经网络(参数θ)与Critic神经网络(参数ω)、Safety神经网络(参数φ)组成基于深度安全强化学习的演员-评论家-安全(Actor-Critic-Safety,ACS)神经网络系统,当所述经验池存满或者设置定期,对ACS神经网络系统参数进行更新;
本发明的一个实施例中,优选ACS神经网络系统如图5所示,将移动机器人与环境交互得到的经验存入经验池,当经验池存满或者定期更新Actor神经网络(Actor NeuralNetwork,Actor NN)参数、Critic神经网络(Critic Neural Network,Critic NN)参数以及Safety神经网络(Safety Neural Network,Safety NN)参数。
本发明所述深度安全强化学习,即约束型策略优化(Constrained PolicyOptimization,CPO)算法,是在信赖域策略优化(Trust Region Policy Optimization,TRPO)算法的基础上加入了风险代价约束函数JC(θ)≤βsafe,其中βsafe表示安全阈值,θ表示Actor神经网络参数值,所述风险代价约束函数JC(θ)表达式为:
Figure BDA0002965799200000071
其中,C为CPO算法中的安全风险标志,s表示状态,a表示动作,πθ(a|s)、
Figure BDA0002965799200000072
分别表示当前策略函数和旧策略函数,/>
Figure BDA0002965799200000073
表示Safety神经网络相关的优势函数。
在TRPO算法中,累计奖励函数为
Figure BDA0002965799200000074
其中,γ∈(0,1)为折扣因子,设Critic神经网络的参数为ω,Critic网络的状态值函数为
Figure BDA0002965799200000075
Critic网络的状态动作值函数为
Figure BDA0002965799200000076
Critic网络的优势函数为
Figure BDA0002965799200000077
定义Critic网络相关的TD偏差(Temporal-difference error,TD error)
Figure BDA0002965799200000078
Figure BDA0002965799200000079
实施例中,通常用TD偏差δt代替优势函数Aπ(s,a)计算,因为TD偏差δt是优势函数Aπ(s,a)的无偏估计。
Critic神经网络的损失函数LossCritic(ω)定义为
Figure BDA00029657992000000710
Critic神经网络的参数ω的更新方式为
Figure BDA00029657992000000711
其中,rt表示当前时刻的奖励,γ∈(0,1)为折扣因子,
Figure BDA0002965799200000081
分别表示Critic神经网络t+1时刻、t时刻的状态值函数,超参数αω表示Critic神经网络参数ω相关的梯度更新步长,▽ω表示/>
Figure BDA0002965799200000082
的梯度算子;
目标函数J(θ)为
Figure BDA0002965799200000083
其中,
Figure BDA0002965799200000084
表示Critic神经网络相关的优势函数。
本发明所述的约束型策略优化(CPO)算法中的累计安全风险函数为
Figure BDA0002965799200000085
Safety网络对应的状态值函数为
Figure BDA0002965799200000086
Safety网络对应的状态动作值函数为
Figure BDA0002965799200000087
Safety网络对应的优势函数为
Figure BDA0002965799200000088
设Safety神经网络的参数为φ,则其对应的
Figure BDA0002965799200000089
Figure BDA00029657992000000810
Safety神经网络的损失函数LossSafety(φ)为
Figure BDA00029657992000000811
Safety神经网络的参数φ的更新方式为
Figure BDA00029657992000000812
其中,ct表示t时刻安全风险代价,
Figure BDA00029657992000000813
分别表示Safety神经网络t+1时刻、t时刻的状态值函数,超参数αφ表示Safety神经网络参数φ相关的梯度更新步长,▽φ表示/>
Figure BDA00029657992000000814
的梯度算子。
对应的风险代价约束函数JC(θ)为
Figure BDA00029657992000000815
Actor神经网络中θk+1表示参数参数向量θk更新值,经典TRPO求解公式如下:
θk+1=arg maxθ J(θ)
Figure BDA0002965799200000091
为保证策略安全,JC(θ)应限制在安全阈值βsafe以下,即加上有关安全的风险代价约束JC(θ)≤βsafe,将此约束加入到TRPO算法中,所述CPO算法的求解公式为:
θk+1=arg maxθ J(θ)
s.t.JC(θ)≤βsafe
Figure BDA0002965799200000092
/>
其中,DKL表示两策略分布之间的KL散度,δ表示当前策略和旧策略的平均KL散度上界阈值,J(θ)为目标函数,其表达式为:
Figure BDA0002965799200000093
Figure BDA0002965799200000094
表示Critic神经网络相关的优势函数。
将风险代价约束函数JC(θ)和目标函数J(θ)带入CPO算法的求解公式中,可得
Figure BDA0002965799200000095
Figure BDA0002965799200000096
Figure BDA0002965799200000097
由于神经网络的参数空间维度过高,以上CPO算法求解公式计算量非常大,直接求解不太可行。当采取一个小的步长δ时,风险代价约束函数JC(θ)和目标函数J(θ)可在
Figure BDA0002965799200000098
k)处进行线性化来近似,信赖域约束同样可以很好地通过在θk进行二阶展开来近似(在θk处进行二阶展开时,KL散度和其梯度均为0)。
定义g为目标函数J(θ)的梯度,b为风险代价约束函数JC(θ)的梯度,定义
Figure BDA0002965799200000099
Figure BDA00029657992000000910
为随机策略,H为KL散度的Hessian矩阵,则CPO算法求解问题近似为
Figure BDA00029657992000000911
s.t.c+bT(θ-θk)≤0
Figure BDA00029657992000000912
因为H总是半正定的(假设H总是正定),则以上约束问题是凸函数,当有可行解时,可以通过对偶问题求解。定义拉格朗日乘子为ν和λ,上述CPO算法求解问题的对偶问题可以表示如下:
Figure BDA0002965799200000101
如果上述CPO求解问题有可行解,设对偶问题最优解为ν*和λ*,则参数向量θk的更新公式为
Figure BDA0002965799200000102
如果上述CPO求解问题没有可行解,则参数向量θk的更新公式为:
Figure BDA0002965799200000103
综上,ACS网络的参数更新公式总结如下:
Figure BDA0002965799200000104
/>
Figure BDA0002965799200000105
Figure BDA0002965799200000106
S5:判断训练步数是否达到设定阈值,若未达到设定阈值,则返回S2继续循环执行,若训练步数达到设定阈值,则训练结束,停止训练,将训练结束后的模型应用于真实移动机器人进行导航。
综上所述,本发明提供的一种基于深度安全强化学习的机器人无地图导航方法,将约束型策略优化(Constrained Policy Optimization,CPO)算法这样一种安全强化学习方法引入无地图导航,从而进一步提升基于深度强化学习的无地图导航过程中的安全性。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (3)

1.一种基于深度安全强化学习的机器人无地图导航方法,其特征在于,该方法包括以下步骤:
S1:初始化训练环境,设置移动机器人参数,根据训练环境设计移动机器人奖励函数和安全风险代价函数;
S2:将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入,Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人;
S3:移动机器人执行Actor神经网络输出的动作,然后从环境中得到下一时刻新的观测信息和奖励信息;
S4:将移动机器人与环境交互得到的经验存入经验池,所述Actor神经网络与Critic神经网络、Safety神经网络组成基于深度安全强化学习的ACS神经网络系统,当所述经验池存满或者设置定期,对ACS神经网络系统参数进行更新;
S5:判断训练步数是否达到设定阈值,若未达到设定阈值,则返回S2继续循环执行,若训练步数达到设定阈值,则训练结束,将训练结束后的模型应用于真实移动机器人进行导航;
其中,所述深度安全强化学习为CPO算法,所述CPO算法是在TRPO算法的基础上加入了风险代价约束函数JC(θ)≤βsafe,其中βsafe表示安全阈值,θ表示Actor神经网络参数,所述风险代价约束函数JC(θ)表达式为:
Figure FDA0004081504200000011
其中,C为CPO算法中的安全风险标志,s表示状态,a表示动作,πθ(a|s)、
Figure FDA0004081504200000012
分别表示当前策略函数和旧策略函数,/>
Figure FDA0004081504200000013
表示Safety神经网络相关的优势函数;
所述对ACS神经网络系统参数进行更新的方法如下:
Critic神经网络的参数更新表达式为:
Figure FDA0004081504200000014
其中,ω表示Critic神经网络的参数,/>
Figure FDA0004081504200000015
是Critic神经网络相关的TD偏差,表示为/>
Figure FDA0004081504200000016
rt表示当前时刻的奖励,γ∈(0,1)为折扣因子,/>
Figure FDA0004081504200000017
分别表示Critic神经网络t+1时刻、t时刻的状态值函数,超参数αω表示Critic神经网络参数ω相关的梯度更新步长,/>
Figure FDA0004081504200000018
表示/>
Figure FDA0004081504200000019
的梯度算子;
Safety神经网络的参数更新表达式为:
Figure FDA0004081504200000021
其中,φ表示Safety神经网络的参数,/>
Figure FDA0004081504200000022
是Safety神经网络相关的TD偏差,表示为/>
Figure FDA0004081504200000023
ct表示t时刻安全风险代价,/>
Figure FDA0004081504200000024
分别表示Safety神经网络t+1时刻、t时刻的状态值函数,超参数αφ表示Safety神经网络参数φ相关的梯度更新步长,/>
Figure FDA0004081504200000025
表示/>
Figure FDA0004081504200000026
的梯度算子;
Actor神经网络中θk+1表示参数向量θk更新值,所述CPO算法的求解公式为:
θk+1=argmaxθJ(θ)
s.t.JC(θ)≤βsafe
Figure FDA0004081504200000027
其中,DKL表示两策略分布之间的KL散度,δ表示当前策略和旧策略的平均KL散度上界阈值,J(θ)为目标函数,其表达式为:
Figure FDA0004081504200000028
表示Critic神经网络相关的优势函数;
将风险代价约束函数JC(θ)和目标函数J(θ)带入CPO算法的求解公式中,可得
Figure FDA0004081504200000029
Figure FDA00040815042000000210
Figure FDA00040815042000000211
定义g为目标函数J(θ)的梯度,b为风险代价约束函数JC(θ)的梯度,定义
Figure FDA00040815042000000212
为随机策略,H为KL散度的Hessian矩阵,则CPO算法的求解问题为:
Figure FDA00040815042000000213
s.t.c+bT(θ-θk)≤0
Figure FDA00040815042000000214
(一)当上述求解问题有可行解时,通过对偶问题求解,定义拉格朗日乘子为ν和λ,上述求解问题的对偶问题表示如下:
Figure FDA00040815042000000215
定义上述对偶问题最优解为ν*和λ*,则参数向量θk的更新公式为:
Figure FDA0004081504200000031
(二)当上述求解问题没有可行解,则参数向量θk的更新公式为:
Figure FDA0004081504200000032
2.根据权利要求1所述的一种基于深度安全强化学习的机器人无地图导航方法,其特征在于,所述奖励函数r(st,at)和安全风险代价函数c(st,at)的表达式为:
Figure FDA0004081504200000033
c(st,at)=rcolision
其中,st表示移动机器人在t时刻的状态,at表示移动机器人在t时刻所采取的行动,r(st,at)表示移动机器人的多个子奖励函数,包括到达目标奖励rarrival、相对目标点距离变化奖励μ(dt-1-dt)和时间惩罚奖励ptime,其中dt表示t时刻目标点相对移动机器人在机器人坐标系下的距离,D表示设定的移动机器人到达目标点的距离阈值,μ表示距离变化奖励的比例系数,dt-1-dt表示相邻两个时刻目标点相对于移动机器人的距离变化,如果当前移动机器人与目标点的距离相对于上一时刻变小,则由μ(dt-1-dt)可得到正奖励,否则为负奖励,ptime表示每多执行一个时间步就给予值大小为ptime的惩罚,安全风险代价函数c(st,at)的值大小为rcolision,其中,rarrival>0,ptime>0,μ>0。
3.根据权利要求1所述的一种基于深度安全强化学习的机器人无地图导航方法,其特征在于,所述S2具体方法为:
将三维原始RGB图像进行灰度化、裁剪,叠帧处理为连续4帧灰度图像后通过卷积层和Flatten层进行处理;
将原始1080维激光雷达信息通过1D卷积层和Flatten层进行处理后,用LSTM提取时序信息特征;
将t时刻目标点与移动机器人的相对距离和相对方向角度信息用LSTM提取时序信息特征;
将t时刻移动机器人的运动信息,包括线速度和角速度,用LSTM提取时序信息特征;
将以上四种经过处理后的信息特征拼接在一起后再通过LSTM提取时序信息特征,最后通过全连接层输出决策动作到机器人。
CN202110250387.6A 2021-03-08 2021-03-08 一种基于深度安全强化学习的机器人无地图导航方法 Active CN113093727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110250387.6A CN113093727B (zh) 2021-03-08 2021-03-08 一种基于深度安全强化学习的机器人无地图导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110250387.6A CN113093727B (zh) 2021-03-08 2021-03-08 一种基于深度安全强化学习的机器人无地图导航方法

Publications (2)

Publication Number Publication Date
CN113093727A CN113093727A (zh) 2021-07-09
CN113093727B true CN113093727B (zh) 2023-03-28

Family

ID=76666748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110250387.6A Active CN113093727B (zh) 2021-03-08 2021-03-08 一种基于深度安全强化学习的机器人无地图导航方法

Country Status (1)

Country Link
CN (1) CN113093727B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467462B (zh) * 2021-07-14 2023-04-07 中国人民解放军国防科技大学 机器人的行人伴随控制方法、装置、移动机器人和介质
CN113671827B (zh) * 2021-07-20 2023-06-27 大连海事大学 基于循环神经网络与强化学习的动态二分图分配长度决策方法
CN113778080B (zh) * 2021-08-09 2023-12-01 清华大学 单轨双轮机器人的控制方法、装置、电子设备及存储介质
CN113534669B (zh) * 2021-09-17 2021-11-30 中国人民解放军国防科技大学 基于数据驱动的无人车控制方法、装置和计算机设备
CN114077258B (zh) * 2021-11-22 2023-11-21 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN114218867B (zh) * 2021-12-20 2022-06-28 暨南大学 基于熵优化安全强化学习的特种设备流程控制方法及系统
CN114355980B (zh) * 2022-01-06 2024-03-08 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN114396949B (zh) * 2022-01-18 2023-11-10 重庆邮电大学 一种基于ddpg的移动机器人无先验地图导航决策方法
CN114594768B (zh) * 2022-03-03 2022-08-23 安徽大学 一种基于视觉特征图重构的移动机器人导航决策方法
CN114841098B (zh) * 2022-04-13 2023-04-18 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法
CN114859899B (zh) * 2022-04-18 2024-05-31 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法
TWI815613B (zh) * 2022-08-16 2023-09-11 和碩聯合科技股份有限公司 適用於機器人之導航方法及其機器人
CN115167478B (zh) * 2022-08-23 2024-04-26 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115510173B (zh) * 2022-09-27 2023-06-06 清华大学 一种基于das的智能化专题地图制作方法、装置及产品
CN115877868B (zh) * 2022-12-01 2024-01-26 南京航空航天大学 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法
CN115805595B (zh) * 2023-02-09 2023-12-26 白杨时代(北京)科技有限公司 机器人导航方法、装置及杂物清理机器人

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6721785B2 (ja) * 2016-09-15 2020-07-15 グーグル エルエルシー ロボット操作のための深層強化学習
CN106950969A (zh) * 2017-04-28 2017-07-14 深圳市唯特视科技有限公司 一种基于无地图运动规划器的移动机器人连续控制方法
CN110308733A (zh) * 2019-08-07 2019-10-08 四川省众望科希盟科技有限公司 一种微小型机器人运动控制系统、方法、存储介质及终端
CN110750096B (zh) * 2019-10-09 2022-08-02 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN110632931B (zh) * 2019-10-09 2022-06-21 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111487864B (zh) * 2020-05-14 2023-04-18 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
CN112295237A (zh) * 2020-10-19 2021-02-02 深圳大学 一种基于深度强化学习的决策方法

Also Published As

Publication number Publication date
CN113093727A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113093727B (zh) 一种基于深度安全强化学习的机器人无地图导航方法
Liu et al. A lifelong learning approach to mobile robot navigation
CN113110509B (zh) 一种基于深度强化学习的仓储系统多机器人路径规划方法
Hirose et al. Deep visual mpc-policy learning for navigation
WO2021103834A1 (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN108820157B (zh) 一种基于强化学习的船舶智能避碰方法
Xia et al. Neural inverse reinforcement learning in autonomous navigation
Xu et al. Applr: Adaptive planner parameter learning from reinforcement
CN109964237A (zh) 图像深度预测神经网络
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN111487864A (zh) 一种基于深度强化学习的机器人路径导航方法及系统
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Pfeiffer et al. Visual attention prediction improves performance of autonomous drone racing agents
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
US20210398014A1 (en) Reinforcement learning based control of imitative policies for autonomous driving
CN117387635A (zh) 一种基于深度强化学习和pid控制器的无人机导航方法
CN113674310A (zh) 一种基于主动视觉感知的四旋翼无人机目标跟踪方法
Duc et al. An approach for UAV indoor obstacle avoidance based on AI technique with ensemble of ResNet8 and Res-DQN
Zhou et al. Deep reinforcement learning with long-time memory capability for robot mapless navigation
Zare et al. Continuous control with deep reinforcement learning for autonomous vessels
Hu et al. Visual servoing with deep reinforcement learning for rotor unmanned helicopter
Celemin et al. Teaching agents with corrective human feedback for challenging problems
Tao et al. Fast and robust training and deployment of deep reinforcement learning based navigation policy
Raj et al. Dynamic Obstacle Avoidance Technique for Mobile Robot Navigation Using Deep Reinforcement Learning
CN113503878B (zh) 一种无人船路径规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant