CN113359704A - 一种适用于复杂未知环境的自适应sac-pid方法 - Google Patents

一种适用于复杂未知环境的自适应sac-pid方法 Download PDF

Info

Publication number
CN113359704A
CN113359704A CN202110525617.5A CN202110525617A CN113359704A CN 113359704 A CN113359704 A CN 113359704A CN 202110525617 A CN202110525617 A CN 202110525617A CN 113359704 A CN113359704 A CN 113359704A
Authority
CN
China
Prior art keywords
mobile robot
pid
network
parameters
pixel points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110525617.5A
Other languages
English (en)
Other versions
CN113359704B (zh
Inventor
樊越海
阮雨迪
徐思宇
禹鑫燚
欧林林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110525617.5A priority Critical patent/CN113359704B/zh
Publication of CN113359704A publication Critical patent/CN113359704A/zh
Application granted granted Critical
Publication of CN113359704B publication Critical patent/CN113359704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

一种适用于复杂未知环境的自适应SAC‑PID方法,实现了无模型的PID参数的自适应最优整定。包含如下步骤:首先,获取表征移动机器人当前状态特征的信息;其次,基于深度强化学习SoftActor‑Critic算法,将状态信息输入强化学习网络模型,得到PID控制器的参数,PID控制器输出角速度信息控制移动机器人循迹;最后,根据设计好的奖励函数计算此次动作的奖励,并得到下一个时刻的状态,在与环境的交互中不断优化强化学习网络模型,得到最优的策略网络。该方法克服了传统PID控制自适应调参中对模型和经验的依赖,在仿真和落地的实验中均取得了优异的效果,并且具备良好的泛化性和鲁棒性。

Description

一种适用于复杂未知环境的自适应SAC-PID方法
技术领域
本发明涉及一种自适应SAC-PID方法。
背景技术
比例-积分-微分控制器(PID)由于其结构简单、鲁棒性强、适应性强,被广泛应用于工业控制和机器人控制中。实际上,传统的PID控制采用经验整定的方法来调整PID参数,从而获得较为合适的PID控制器。但是在面对不断变化的环境时,经验整定的方法变得捉襟见肘。Onat等研究人员在2018年发表了Anew design method for PI-PD control ofunstable processes with dead time,基于稳定边界轨迹,提出了一种获得PI-PD控制器参数稳定域的图形化方法。然而该方法需要大量复杂的计算和精确的建模,因此该方法不适合移植,泛化性较差。除此之外,该方法只能保证系统的稳定性,而在实施时并不能保证得到最优PID参数。
随着人工智能的发展,深度强化学习方法在智能体面对复杂环境决策博弈取得了显著的突破。深度强化学习通过智能体与环境不断交互中,实时地做出决策,并在决策后得到一系列奖励。智能体通过此奖励不断地优化自己的决策过程,目标是使累积奖励的期望最大化,最终得到最优策略。
Carlucho在2020年发表了An adaptive deep reinforcement learningapproach for MIMO PID control of mobile robots,提出了一种基于深度确定性策略梯度(DDPG)的自适应PID用以控制移动机器人的速度。但DDPG存在对于超参数极其敏感,难以稳定等缺点。因此在如何设计一个具有良好的泛化性,鲁棒性的自适应PID是一个值得研究的问题。
发明内容
本发明要克服现有技术的上述不足,提出了一种适用于复杂未知环境的自适应SAC-PID方法。
本发明针对复杂未知环境,设计了一个基于深度强化学习和PID控制的分层控制器,实现了无模型的PID参数的自适应最优整定。
一种适用于复杂未知环境的自适应SAC-PID方法,包括如下步骤:
步骤一、利用机器人仿真平台搭建循线机器人的环境;
其中,机器人仿真环境包括带RGB相机的移动机器人模型和路径模型,并将移动机器人置于路径的起始位置
Figure BDA0003064337730000011
(x0,y0,z0)为路径起点坐标。
步骤二、基于深度强化学习Soft Actor-Critic(SAC)构建深度神经网络模型;
其中,所述深度神经网络模型包括:决策网络π(φ),状态价值函数网络V(ψ)和动作价值函数网络Q(θi),i∈{1,2}。φ,ψ,θi分别为决策网络,状态价值函数网络和动作价值函数网络的参数;
步骤三、定义移动机器人循迹时的状态表征值;
其中,所述移动机器人状态表征值包括:轨迹中心线上均匀取由远及近的五个像素点的横纵坐标值(xi,yi),i∈{1,2,3,4,5};轨迹斜率和移动机器人的实时曲率之差ec;移动机器人的实时线速度vt和角速度ωt
步骤四、在步骤一中搭建的仿真环境中训练训练深度神经网络模型,具体包括如下子步骤:
4.1:构建并初始化步骤二中的四个深度神经网络模型;初始化一个空的经验回放池R;构造两个结构相同的增量PID控制器,分别为主控PID控制器和辅控PID控制器。设置回合数为n=0,总回合数为N,令初始时刻t=1;
4.2:利用步骤4.1中的RGB相机获得h×w的RGB图像It,并预处理It得到路径跟踪信息,并根据步骤4.3得到t时刻的状态st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt]。
4.3:将步骤4.2中的st输入决策网络π(φ),根据式(1)输出六维PID参数Kt={kmp,kmi,kmd,kcp,kci,kcd},{kmp,kmi,kmd}是主控PID控制器的比例、积分和微分参数,{kcp,kci,kcd}是辅控PID控制器的比例、积分和微分参数;
Figure BDA0003064337730000021
其中,εt是从一个正态分布N中采样的噪声向量,
Figure BDA0003064337730000022
是决策网络(高斯分布)的均值,
Figure BDA0003064337730000023
是决策网络(高斯分布)的方差。从而根据式(2)计算移动机器人的角速度:
ωt=ωt-1+Δωm+ηΔωc (2)
其中ωt-1是t-1时刻的角速度,Δωm为主控PID控制器的输出,可由式(3)计算得到,Δωc为辅控PID控制器的输出,可由式(4)计算得到,η为比例系数。
Figure BDA0003064337730000024
Δωc=kcp[ec(t)-ec(t-1)]+kciec(t)+kcd[ec(t)-2ec(t-1)+ec(t-2)] (4)
其中em=x4,em(t),em(t-1)和em(t-2)分别是t,t-1和t-2时刻的em;ec(t),ec(t-1)和ec(t-2)分别是t,t-1和t-2时刻的ec
4.4:根据步骤4.3中的em(t)计算移动机器人的线速度:
vt=-ax|em(t)|+bx (5)
其中,ax和bx为限制移动机器人线速度的系数。
4.5:移动机器人执行角速度ωt和线速度vt,记录执行动作后重复步骤4.2得到移动机器人观测的状态st+1,并根据st+1和式(6)计算奖励函数r(t),根据式(6)记录回合结束标志F;
Figure BDA0003064337730000031
其中s(w),v(w)分别是第w个回合时循迹的路程和平均速度;β1,β2,β3分别是em(t),em(t-1)和em(t-2)的比例系数;ζr,ζv,ζs分别是每一项的权重系数;g为正奖励常数。
Figure BDA0003064337730000032
4.6:将元组(st,Kt,rt,st+1,F)存入经验回放池R中;
4.7:设定采样数量为b,当前经验回放池R中的元组数量d,若b<d,则进入步骤4.8更新网络参数,否则进入步骤4.9。
4.8:在R中随机采样b条元组,首先把式(7)作为损失函数,利用梯度下降算法更新状态价值函数网络V(ψ)的参数:
Figure BDA0003064337730000033
其中Qθ(st,Kt)为
Figure BDA0003064337730000034
再根据式(8)利用梯度下降算法分别更新
Figure BDA0003064337730000035
Figure BDA0003064337730000036
Figure BDA0003064337730000037
Figure BDA0003064337730000041
是值函数网络参数ψ的平均值。最后根据式(9)利用梯度下降更新策略网络:
Figure BDA0003064337730000042
其中
Figure BDA0003064337730000043
Figure BDA0003064337730000044
4.9:若F=1,则t=0,进入下一回合,回合数n+1,待回合数n≥N,完成训练,导出训练后的模型π(φ),V(ψ)和Q(θi);若F=0,则t+1,进入步骤4.2,继续在此回合内进行交互。
步骤五、将仿真训练完成的策略网络模型参数导入实际机器人模块中,通过传感器实时获取如步骤二所述的移动机器人的状态表征值,将状态向量输入策略网络,根据式(1)得到最优的六维PID控制器参数;底层PID控制器接收上述参数,根据公式(2)和(4)输出角速度和线速度值控制移动机器人循迹。
优选地,步骤4.2中的图像处理过程包含如下步骤:
S1、将RGB图像It处理为二值图像
Figure BDA0003064337730000045
并从图像
Figure BDA0003064337730000046
底部从左至右,从下至上寻找黑线边界生长点,分别为左底部边界点plb和右底部边界点prb
S2、以步骤S1中的左底部边界点plb和右底部边界点prb为种子点,从下至上区域生长,找出图像
Figure BDA0003064337730000047
中黑线的左右边界像素点,在生长的过程中,需要判断边界点pij是否为黑线交叉像素点,其中i,j分别为横坐标和纵坐标值,i∈{0,…,w-1},j∈{0,…,h-1},若判断pij不是黑线交叉像素点,视pij为左边界像素点或右边界像素点并依次存入左边界像素点集合Pl和右边界像素点集合Pr;否则,则进入步骤S3。待生长至pih-1后停止生长。最后组成
Figure BDA0003064337730000048
Figure BDA0003064337730000049
具体判断是否为黑线交叉像素点的规则:
Figure BDA00030643377300000410
其中τ为pij的24邻域内的像素值总和,τ1和τ2为阈值;
S3、利用步骤S2中的Pl和Pr的边界像素点,多项式拟合至上一黑线交叉点,并将拟合后的像素点存入Pl和Pr中,最后返回步骤S2;
S4、取出Pl和Pr中像素点pl,0,pr,0,pl,1/n,pr,1/n,pl,2/n,pr,2/n,pl,3/n,pr,3/n,pl,4/n,pr,4/n,pl,n和pr,n,由此分别求得黑线中心线像素点
Figure BDA0003064337730000051
Figure BDA0003064337730000052
其中
Figure BDA0003064337730000053
为pl,0和pr,0的中心点,
Figure BDA0003064337730000054
为pl,1/n和pr,1/n的中心点,依次类推;
S5、将步骤S3中的It经过透视变换后得到htop×wtop的俯视图I′t,重复步骤S1至步骤S2,得到I′t中的左边界像素点集合
Figure BDA0003064337730000055
和右边界像素点集合
Figure BDA0003064337730000056
S6、根据步骤S5中的Pl′和P′r,求出I′t中黑线中心线像素点集合
Figure BDA0003064337730000057
并选取p′c,0,p′c,2/n和p′c,n三个像素点,并求出I′t中黑线曲率cl。同时由速度传感器得到移动机器人的实时曲率cr
S7、将五个中心线像素点归一化后组成st的前十个维度;根据式(11)求出曲率误差ec作为st的其中一个维度;
ec=cr-cl (11)
将t时刻的移动机器人线速度vt和角速度ωt作为st的最后两个维度。则st表示为:
st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt] (12)
并选取x4作为em
优选地,在步骤S1中,采用虚拟仿真平台Gazebo搭建仿真环境,仿真机器人的控制在ROS系统下实现。
优选地,移动机器人的控制框架采用分层的控制结构,深度强化学习网络模型作为移动机器人的上层控制器,负责实时调整最优的PID参数,双增量式PID控制器作为移动机器人的下层控制器,负责根据偏差信息输出移动机器人的角速度指令。
优选地,先在仿真环境中进行神经网络参数的训练,继而用于实际系统。
总体而言,本发明的优点和积极效果是:
1、本发明基于深度强化学习算法自适应调节PID控制器的参数,能够适用于复杂未知环境下的移动机器人循迹,根据不同的环境特征选择最优的PID参数,以达到最优的循迹效果。
2、通过移动机器人自主与环境交互的方式学习最优策略,弥补了传统自适应PID方法需要精确的系统模型的缺陷,减少了对工程师经验整定的依赖,具有良好的泛化性和可移植性。
3、结合SAC算法和PID控制技术,在最终训练出来的网络模型下,移动机器人在循迹过程中有很好的鲁棒性。
附图说明
图1是本发明方法的整体网络结构图
图2是本发明方法的框架层次图
图3是本发明识别十字路口元素时的示意图
图4是本发明的图像处理过程中的路径信息采集点示意图
图5至图8是在路径1-4下仿真训练时的奖励,成功率和完成循迹时的偏差,其中图5是路径1的环境及仿真训练结果,图6是路径2的环境及仿真训练结果,图7是路径3的环境及仿真训练结果,图8是路径4的环境及仿真训练结果。
图9是在路径3下训练得到的网络模型在路径1,2,4下的测试结果。
图10-图11为实际循迹路径环境和循迹时的偏差曲线,其中图10是实际循迹路径1的环境及在该路径下的循迹测试结果,图11是实际循迹路径2的环境及在该路径下的循迹测试结果。
具体实施方式
为了使本发明的目的,技术方案及要点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施实例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种适用于复杂未知环境的自适应SAC-PID方法。其整体的网络结构如图1所示,其中上层控制器基于深度强化学习Soft Actor-Critic算法设计,包含值函数网络,决策网络和Q函数网络。决策网络输出PID参数给下层控制器;下层控制器由一个主控PID控制器和一个辅控PID控制器组成,为移动机器人循迹提供角速度指令。该方法的整体框架如图2所示。
该方法的具体实施方法如下:
步骤1、利用虚拟仿真平台Gazebo搭建循线机器人的环境,具体步骤如下:
在Gazebo中导入装有RGB相机的Pioneer 3-AT模型和路径模型,其中Pioneer 3-AT使用的计算设备为NVIDIA Jetson TX2,路径包括四种不同难度的路径,并将移动机器人置于路径的起始位置
Figure BDA0003064337730000061
(x0,y0,z0)为路径起点坐标。
步骤2、构建深度神经网络模型,并在步骤1中搭建的仿真环境中训练深度神经网络,并得到训练后的网络参数模型,具体步骤如下:
步骤2-1、构建并初始化四个MLP网络模型,决策网络π(φ),状态价值函数网络V(ψ)和动作价值函数网络Q(θi),i∈{1,2}。其中Q函数网络中包含两个结构完全相同的网络模型,分别为Q(θ1)和Q(θ2)。每一个网络模型都包含三层,分别为输入层,隐藏层和输出层,在每层网络中使用ReLU函数作为激活函数,隐藏层数目为512,学习速率为3*10-4。初始化一个空的经验回放池R,容量大小为2*106;构造两个结构相同的增量PID,分别为主要PID控制器和辅助PID控制器。设置回合数为n=0,总回合数N=2000。
步骤2-2、令初始时刻t=1。
步骤2-3、利用步骤一中的RGB相机获得72*128的RGB图像,并预处理It得到路径跟踪信息,并由此得到t时刻状态st,具体步骤如下:
步骤2-3-1、将RGB图像It处理为二值图像
Figure BDA0003064337730000071
并从图像
Figure BDA0003064337730000072
底部从左至右,从下至上寻找黑线边界生长点,分别为左底部边界点plb和右底部边界点prb
步骤2-3-2、以步骤2-3-1中的左底部边界点plb和右底部边界点prb为种子点,从下至上区域生长,找出图像
Figure BDA0003064337730000073
中黑线的左右边界像素点,在生长的过程中,需要判断边界点pij是否为黑线交叉像素点,其中i,j分别为横坐标和纵坐标值,i∈{0,…,w-1},j∈{0,…,h-1},若判断pij不是黑线交叉像素点,视pij为左边界像素点或右边界像素点并依次存入左边界像素点集合Pl和右边界像素点集合Pr;否则,则进入步骤三。待生长至pih-1后停止生长。最后组成
Figure BDA0003064337730000074
Figure BDA0003064337730000075
根据式(10)具体判断是否为黑线交叉像素点的规则。
步骤2-3-3、利用步骤2-3-2中Pl和Pr的边界像素点,多项式拟合至上一黑线交叉点,如图3所示,p1需拟合至p3,p2需拟合至p4,并将拟合后的像素点存入Pl和Pr中,最后返回步骤2-3-2。
步骤2-3-4、取出Pl和Pr中像素点pl,0,pr,0,pl,1/n,pr,1/n,pl,2/n,pr,2/n,pl,3/n,pr,3/n,pl,4/n,pr,4/n,pl,n和pr,n,由此分别求得黑线中心线像素点
Figure BDA0003064337730000076
Figure BDA0003064337730000077
其中
Figure BDA0003064337730000078
为pl,0和pr,0的中心点,
Figure BDA0003064337730000079
为pl,1/n和pr,1/n的中心点,依次类推;如图4所示。
步骤2-3-5、将步骤2-3中的It经过透视变换后得到htop×wtop的俯视图I′t,重复步骤一至步骤二,得到I′t中的左边界像素点集合
Figure BDA0003064337730000081
和右边界像素点集合
Figure BDA0003064337730000082
步骤2-3-6、根据步骤五中的Pl′和P′r,求出I′t中黑线中心线像素点集合
Figure BDA0003064337730000083
并选取p′c,0,p′c,2/n和p′c,n三个像素点,并求出I′t中黑线曲率cl。同时由速度传感器得到移动机器人的实时曲率cr
步骤2-3-7、将五个中心线像素点归一化后组成st的前十个维度;根据式(11)求出曲率误差ec作为st的其中一个维度;将t时刻的移动机器人线速度vt和角速度ωt作为st的最后两个维度。st可表示为st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt],并选取x4作为em
步骤2-4、将步骤2-3中的st输入决策网络π(φ),根据式(1)输出六维PID参数Kt={kmp,kmi,kmd,kcp,kci,kcd},从而根据式(2)、(3)和(4)计算移动机器人的角速度ωt
步骤2-5、根据式(5)计算机器人的线速度vt
步骤2-6、移动机器人执行角速度和线速度指令,分别是步骤2-4中的ωt和步骤2-5中的vt。记录执行动作后重复步骤2-3得到移动机器人观测的状态st+1,并根据式(6)计算奖励r(t),根据式(6)记录回合结束标志F。
步骤2-7、将元组(st,Kt,rt,st+1,F)存入经验回放池R中。
步骤2-8、设定采样数量b=512,当前经验回放池R中的元组数量d,若b<d,则进入步骤2-9更新网络参数,否则进入步骤2-10。
步骤2-9、在R中随机采样b条元组,首先把式(7)作为损失函数,利用梯度下降算法更新状态价值函数网络V(ψ)的参数;再根据式(8)分别更新
Figure BDA0003064337730000084
Figure BDA0003064337730000085
最后根据式(9)更新决策网络。
步骤2-10、若F=1,则t=0,进入下一回合,回合数n+1,待回合数n≥N,完成训练,导出训练后的模型π(φ),V(ψ)和Q(θi);若F=0,则t+1,进入步骤2-3,继续在此回合内进行交互。图5至图8为在复杂程度不同的路径1-4下仿真训练时的奖励,成功率和完成循迹时的偏差曲线。可以从图中看出,在仿真训练中有稳定上升的训练效果,训练完成的模型在循迹时有良好的鲁棒性。
步骤3、将仿真训练完成的策略网络模型参数导入实际机器人模块中,通过传感器实时获取如步骤二所述的移动机器人的状态表征值,将状态向量输入策略网络,根据式(1)得到最优的六维PID控制器参数;底层PID控制器接收上述参数,根据公式(2)和(4)输出角速度和线速度值控制移动机器人循迹。将在仿真路径4下训练得到的网络模型应用于如图10和图11所示的实际机器人循线环境,循线成功率均达到80%,循迹时的偏差曲线如图10和图11所示,有较好的循迹稳定性。
为测试SAC-PID方法在复杂未知环境下的表现,随机选取了在路径3下训练得到的网络模型,在路径1,2,4下做循迹测试,图9是在路径3下训练得到的网络模型在路径1,2,4下的测试结果。
以上是该方法的具体实施方式。本发明提供的适用于移动机器人循迹的自适应SAC-PID方法,能够根据循迹时机器人的实时状态做出最优的PID参数调整策略,配合PID控制方法,能够在不同的未知环境下取得稳定的循迹效果。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (3)

1.一种适用于复杂未知环境的自适应SAC-PID方法,其特征在于,包括如下步骤:
步骤一、利用机器人仿真平台搭建循线机器人的环境;
其中,机器人仿真环境包括带RGB相机的移动机器人模型和路径模型,并将移动机器人置于路径的起始位置
Figure FDA0003064337720000014
(x0,y0,z0)为路径起点坐标;
步骤二、基于深度强化学习Soft Actor-Critic(SAC)构建深度神经网络模型;
其中,所述深度神经网络模型包括:决策网络π(φ),状态价值函数网络V(ψ)和动作价值函数网络Q(θi),i∈{1,2}。φ,ψ,θi分别为决策网络,状态价值函数网络和动作价值函数网络的参数;
步骤三、定义移动机器人循迹时的状态表征值;
其中,所述移动机器人状态表征值包括:轨迹中心线上均匀取由远及近的五个像素点的横纵坐标值(xi,yi),i∈{1,2,3,4,5};轨迹斜率和移动机器人的实时曲率之差ec;移动机器人的实时线速度vt和角速度ωt
步骤四、在步骤一中搭建的仿真环境中训练训练深度神经网络模型,具体包括如下子步骤:
4.1:构建并初始化步骤二中的四个深度神经网络模型;初始化一个空的经验回放池R;构造两个结构相同的增量PID控制器,分别为主控PID控制器和辅控PID控制器。设置回合数为n=0,总回合数为N,令初始时刻t=1;
4.2:利用步骤一中的RGB相机获得h×w的RGB图像It,并预处理It得到路径跟踪信息,并根据步骤三得到t时刻的状态st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt];
4.3:将步骤4.2中的st输入决策网络π(φ),根据式(1)输出六维PID参数Kt={kmp,kmi,kmd,kcp,kci,kcd},{kmp,kmi,kmd}是主控PID控制器的比例、积分和微分参数,{kcp,kci,kcd}是辅控PID控制器的比例、积分和微分参数;
Figure FDA0003064337720000011
其中,εt是从一个正态分布N中采样的噪声向量,
Figure FDA0003064337720000012
是决策网络(高斯分布)的均值,
Figure FDA0003064337720000013
是决策网络(高斯分布)的方差;从而根据式(2)计算移动机器人的角速度:
ωt=ωt-1+Δωm+ηΔωc (2)
其中ωt-1是t-1时刻的角速度,Δωm为主控PID控制器的输出,可由式(3)计算得到,Δωc为辅控PID控制器的输出,可由式(4)计算得到,η为比例系数。
Figure FDA0003064337720000021
Δωc=kcp[ec(t)-ec(t-1)]+kciec(t)+kcd[ec(t)-2ec(t-1)+ec(t-2)] (4)
其中em=x4,em(t),em(t-1)和em(t-2)分别是t,t-1和t-2时刻的em;ec(t),ec(t-1)和ec(t-2)分别是t,t-1和t-2时刻的ec
4.4:根据步骤4.3中的em(t)计算移动机器人的线速度:
vt=-ax|em(t)|+bx (5)
其中,ax和bx为限制移动机器人线速度的系数。
4.5:移动机器人执行角速度ωt和线速度vt,记录执行动作后重复步骤4.2得到移动机器人观测的状态st+1,并根据st+1和式(6)计算奖励函数r(t),根据式(6)记录回合结束标志F;
Figure FDA0003064337720000022
其中s(w),v(w)分别是第w个回合时循迹的路程和平均速度;β1,β2,β3分别是em(t),em(t-1)和em(t-2)的比例系数;ζr,ζv,ζs分别是每一项的权重系数;g为正奖励常数;
Figure FDA0003064337720000023
4.6:将元组(st,Kt,rt,st+1,F)存入经验回放池R中;
4.7:设定采样数量为b,当前经验回放池R中的元组数量d,若b<d,则进入步骤4.8更新网络参数,否则进入步骤4.9。
4.8:在R中随机采样b条元组,首先把式(7)作为损失函数,利用梯度下降算法更新状态价值函数网络V(ψ)的参数:
Figure FDA0003064337720000031
其中Qθ(st,Kt)为
Figure FDA0003064337720000037
再根据式(8)利用梯度下降算法分别更新
Figure FDA0003064337720000038
Figure FDA0003064337720000039
Figure FDA0003064337720000032
Figure FDA0003064337720000033
是值函数网络参数ψ的平均值。最后根据式(9)利用梯度下降更新策略网络:
Figure FDA0003064337720000034
其中
Figure FDA00030643377200000310
Figure FDA00030643377200000311
4.9:若F=1,则t=0,进入下一回合,回合数n+1,待回合数n≥N,完成训练,导出训练后的模型π(φ),V(ψ)和Q(θi);若F=0,则t+1,进入步骤4.2,继续在此回合内进行交互。
步骤五、将仿真训练完成的策略网络模型参数导入实际机器人模块中,通过传感器实时获取如步骤二所述的移动机器人的状态表征值,将状态向量输入策略网络,根据式(1)得到最优的六维PID控制器参数;底层PID控制器接收上述参数,根据公式(2)和(4)输出角速度和线速度值控制移动机器人循迹。
2.根据权利要求1所述的适用于复杂未知环境的自适应SAC-PID方法,其特征在于,步骤4.2具体包括:
S1、将RGB图像It处理为二值图像
Figure FDA00030643377200000312
并从图像
Figure FDA00030643377200000313
底部从左至右,从下至上寻找黑线边界生长点,分别为左底部边界点plb和右底部边界点prb
S2、以步骤S1中的左底部边界点plb和右底部边界点prb为种子点,从下至上区域生长,找出图像Ibt中黑线的左右边界像素点,在生长的过程中,需要判断边界点pij是否为黑线交叉像素点,其中i,j分别为横坐标和纵坐标值,i∈{0,…,w-1},j∈{0,…,h-1},若判断pij不是黑线交叉像素点,视pij为左边界像素点或右边界像素点并依次存入左边界像素点集合Pl和右边界像素点集合Pr;否则,则进入S3;待生长至pih-1后停止生长;最后组成
Figure FDA0003064337720000035
Figure FDA0003064337720000036
具体判断是否为黑线交叉像素点的规则:
Figure FDA0003064337720000041
其中τ为pij的24邻域内的像素值总和,τ1和τ2为阈值;
S3、利用步骤S2中的Pl和Pr的边界像素点,多项式拟合至上一黑线交叉点,并将拟合后的像素点存入Pl和Pr中,最后返回步骤S2;
S4、取出Pl和Pr中像素点pl,0,pr,0,pl,1/n,pr,1/n,pl,2/n,pr,2/n,pl,3/n,pr,3/n,pl,4/n,pr,4/n,pl,n和pr,n,由此分别求得黑线中心线像素点
Figure FDA0003064337720000042
Figure FDA0003064337720000043
其中
Figure FDA0003064337720000044
为pl,0和pr,0的中心点,
Figure FDA0003064337720000045
为pl,1/n和pr,1/n的中心点,依次类推;
S5、将步骤S3中的It经过透视变换后得到htop×wtop的俯视图I′t,重复步骤S1至步骤S2,得到I′t中的左边界像素点集合
Figure FDA0003064337720000046
和右边界像素点集合
Figure FDA0003064337720000047
S6、根据步骤S5中的P′l和P′r,求出I′t中黑线中心线像素点集合
Figure FDA0003064337720000048
并选取p′c,0,p′c,2/n和p′c,n三个像素点,并求出I′t中黑线曲率cl;同时由速度传感器得到移动机器人的实时曲率cr
S7、将五个中心线像素点归一化后组成st的前十个维度;根据式(11)求出曲率误差ec作为st的其中一个维度;
ec=cr-cl (11)
将t时刻的移动机器人线速度vt和角速度ωt作为st的最后两个维度。则st表示为:
st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt] (12)
并选取x4作为em
3.根据权利要求1所述的适用于复杂未知环境的自适应SAC-PID方法,其特征在于,移动机器人的控制框架采用分层的控制结构,深度强化学习网络模型作为移动机器人的上层控制器,负责实时调整最优的PID参数,双增量式PID控制器作为移动机器人的下层控制器,负责根据偏差信息输出移动机器人的角速度指令。
CN202110525617.5A 2021-05-13 2021-05-13 一种适用于复杂未知环境的自适应sac-pid方法 Active CN113359704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110525617.5A CN113359704B (zh) 2021-05-13 2021-05-13 一种适用于复杂未知环境的自适应sac-pid方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110525617.5A CN113359704B (zh) 2021-05-13 2021-05-13 一种适用于复杂未知环境的自适应sac-pid方法

Publications (2)

Publication Number Publication Date
CN113359704A true CN113359704A (zh) 2021-09-07
CN113359704B CN113359704B (zh) 2022-04-19

Family

ID=77526723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110525617.5A Active CN113359704B (zh) 2021-05-13 2021-05-13 一种适用于复杂未知环境的自适应sac-pid方法

Country Status (1)

Country Link
CN (1) CN113359704B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114900619A (zh) * 2022-05-06 2022-08-12 北京航空航天大学 一种自适应曝光驱动相机摄影水下图像处理系统
CN115293334A (zh) * 2022-08-11 2022-11-04 电子科技大学 基于模型的高样本率深度强化学习的无人设备控制方法
CN117387635A (zh) * 2023-12-13 2024-01-12 安徽大学 一种基于深度强化学习和pid控制器的无人机导航方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
CN112631296A (zh) * 2020-12-18 2021-04-09 杭州未名信科科技有限公司 基于深度强化学习的机器人导航方法及系统、设备、介质
CN112643668A (zh) * 2020-12-01 2021-04-13 浙江工业大学 一种适用于密集环境下的机械臂推抓协同方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
CN112643668A (zh) * 2020-12-01 2021-04-13 浙江工业大学 一种适用于密集环境下的机械臂推抓协同方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112631296A (zh) * 2020-12-18 2021-04-09 杭州未名信科科技有限公司 基于深度强化学习的机器人导航方法及系统、设备、介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114900619A (zh) * 2022-05-06 2022-08-12 北京航空航天大学 一种自适应曝光驱动相机摄影水下图像处理系统
CN115293334A (zh) * 2022-08-11 2022-11-04 电子科技大学 基于模型的高样本率深度强化学习的无人设备控制方法
CN117387635A (zh) * 2023-12-13 2024-01-12 安徽大学 一种基于深度强化学习和pid控制器的无人机导航方法
CN117387635B (zh) * 2023-12-13 2024-02-23 安徽大学 一种基于深度强化学习和pid控制器的无人机导航方法

Also Published As

Publication number Publication date
CN113359704B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN113359704B (zh) 一种适用于复杂未知环境的自适应sac-pid方法
CN110928189A (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
Yu et al. A self‐adaptive SAC‐PID control approach based on reinforcement learning for mobile robots
CN113033118B (zh) 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法
Stevšić et al. Sample efficient learning of path following and obstacle avoidance behavior for quadrotors
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
Knudsen et al. Deep learning for station keeping of AUVs
CN114667852B (zh) 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法
CN113977583B (zh) 基于近端策略优化算法的机器人快速装配方法及系统
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
CN116755323A (zh) 一种基于深度强化学习的多旋翼无人机pid自整定方法
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN114840928B (zh) 一种基于深度学习的水下航行器集群运动仿真方法
CN116817909A (zh) 一种基于深度强化学习的无人机中继式导航方法
CN113723012B (zh) 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN114200936A (zh) 基于最优控制及宽度学习的agv实时路径规划方法
Ma et al. Trajectory tracking of an underwater glider in current based on deep reinforcement learning
CN117826713B (zh) 一种改进的强化学习agv路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant