CN113359704A

CN113359704A - 一种适用于复杂未知环境的自适应sac-pid方法

Info

Publication number: CN113359704A
Application number: CN202110525617.5A
Authority: CN
Inventors: 樊越海; 阮雨迪; 徐思宇; 禹鑫燚; 欧林林
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-09-07
Anticipated expiration: 2041-05-13
Also published as: CN113359704B

Abstract

一种适用于复杂未知环境的自适应SAC‑PID方法，实现了无模型的PID参数的自适应最优整定。包含如下步骤：首先，获取表征移动机器人当前状态特征的信息；其次，基于深度强化学习SoftActor‑Critic算法，将状态信息输入强化学习网络模型，得到PID控制器的参数，PID控制器输出角速度信息控制移动机器人循迹；最后，根据设计好的奖励函数计算此次动作的奖励，并得到下一个时刻的状态，在与环境的交互中不断优化强化学习网络模型，得到最优的策略网络。该方法克服了传统PID控制自适应调参中对模型和经验的依赖，在仿真和落地的实验中均取得了优异的效果，并且具备良好的泛化性和鲁棒性。

Description

一种适用于复杂未知环境的自适应SAC-PID方法

技术领域

本发明涉及一种自适应SAC-PID方法。

背景技术

比例-积分-微分控制器(PID)由于其结构简单、鲁棒性强、适应性强，被广泛应用于工业控制和机器人控制中。实际上，传统的PID控制采用经验整定的方法来调整PID参数，从而获得较为合适的PID控制器。但是在面对不断变化的环境时，经验整定的方法变得捉襟见肘。Onat等研究人员在2018年发表了Anew design method for PI-PD control ofunstable processes with dead time，基于稳定边界轨迹，提出了一种获得PI-PD控制器参数稳定域的图形化方法。然而该方法需要大量复杂的计算和精确的建模，因此该方法不适合移植，泛化性较差。除此之外，该方法只能保证系统的稳定性，而在实施时并不能保证得到最优PID参数。

随着人工智能的发展，深度强化学习方法在智能体面对复杂环境决策博弈取得了显著的突破。深度强化学习通过智能体与环境不断交互中，实时地做出决策，并在决策后得到一系列奖励。智能体通过此奖励不断地优化自己的决策过程，目标是使累积奖励的期望最大化，最终得到最优策略。

Carlucho在2020年发表了An adaptive deep reinforcement learningapproach for MIMO PID control of mobile robots，提出了一种基于深度确定性策略梯度(DDPG)的自适应PID用以控制移动机器人的速度。但DDPG存在对于超参数极其敏感，难以稳定等缺点。因此在如何设计一个具有良好的泛化性，鲁棒性的自适应PID是一个值得研究的问题。

发明内容

本发明要克服现有技术的上述不足，提出了一种适用于复杂未知环境的自适应SAC-PID方法。

本发明针对复杂未知环境，设计了一个基于深度强化学习和PID控制的分层控制器，实现了无模型的PID参数的自适应最优整定。

一种适用于复杂未知环境的自适应SAC-PID方法，包括如下步骤：

步骤一、利用机器人仿真平台搭建循线机器人的环境；

其中，机器人仿真环境包括带RGB相机的移动机器人模型和路径模型，并将移动机器人置于路径的起始位置

(x₀,y₀,z₀)为路径起点坐标。

步骤二、基于深度强化学习Soft Actor-Critic(SAC)构建深度神经网络模型；

其中，所述深度神经网络模型包括：决策网络π(φ)，状态价值函数网络V(ψ)和动作价值函数网络Q(θ_i)，i∈{1,2}。φ，ψ，θ_i分别为决策网络，状态价值函数网络和动作价值函数网络的参数；

步骤三、定义移动机器人循迹时的状态表征值；

其中，所述移动机器人状态表征值包括：轨迹中心线上均匀取由远及近的五个像素点的横纵坐标值(x_i,y_i)，i∈{1,2,3,4,5}；轨迹斜率和移动机器人的实时曲率之差e_c；移动机器人的实时线速度v_t和角速度ω_t。

步骤四、在步骤一中搭建的仿真环境中训练训练深度神经网络模型，具体包括如下子步骤：

4.1：构建并初始化步骤二中的四个深度神经网络模型；初始化一个空的经验回放池R；构造两个结构相同的增量PID控制器，分别为主控PID控制器和辅控PID控制器。设置回合数为n＝0，总回合数为N，令初始时刻t＝1；

4.2：利用步骤4.1中的RGB相机获得h×w的RGB图像I_t，并预处理I_t得到路径跟踪信息，并根据步骤4.3得到t时刻的状态s_t＝[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄,x₅,y₅,e_c,v_t,ω_t]。

4.3：将步骤4.2中的s_t输入决策网络π(φ)，根据式(1)输出六维PID参数K_t＝{k_mp,k_mi,k_md,k_cp,k_ci,k_cd}，{k_mp,k_mi,k_md}是主控PID控制器的比例、积分和微分参数，{k_cp,k_ci,k_cd}是辅控PID控制器的比例、积分和微分参数；

其中，ε_t是从一个正态分布N中采样的噪声向量，

是决策网络(高斯分布)的均值，

是决策网络(高斯分布)的方差。从而根据式(2)计算移动机器人的角速度：

ω_t＝ω_t-1+Δω_m+ηΔω_c (2)

其中ω_t-1是t-1时刻的角速度，Δω_m为主控PID控制器的输出，可由式(3)计算得到，Δω_c为辅控PID控制器的输出，可由式(4)计算得到，η为比例系数。

Δω_c＝k_cp[e_c(t)-e_c(t-1)]+k_cie_c(t)+k_cd[e_c(t)-2e_c(t-1)+e_c(t-2)] (4)

其中e_m＝x₄，e_m(t)，e_m(t-1)和e_m(t-2)分别是t，t-1和t-2时刻的e_m；e_c(t)，e_c(t-1)和e_c(t-2)分别是t，t-1和t-2时刻的e_c。

4.4：根据步骤4.3中的e_m(t)计算移动机器人的线速度：

v_t＝-a_x|e_m(t)|+b_x (5)

其中，a_x和b_x为限制移动机器人线速度的系数。

4.5：移动机器人执行角速度ω_t和线速度v_t，记录执行动作后重复步骤4.2得到移动机器人观测的状态s_t+1，并根据s_t+1和式(6)计算奖励函数r(t)，根据式(6)记录回合结束标志F；

其中s(w)，v(w)分别是第w个回合时循迹的路程和平均速度；β₁，β₂，β₃分别是e_m(t)，e_m(t-1)和e_m(t-2)的比例系数；ζ_r，ζ_v，ζ_s分别是每一项的权重系数；g为正奖励常数。

4.6：将元组(s_t,K_t,r_t,s_t+1,F)存入经验回放池R中；

4.7：设定采样数量为b，当前经验回放池R中的元组数量d，若b＜d，则进入步骤4.8更新网络参数，否则进入步骤4.9。

4.8：在R中随机采样b条元组，首先把式(7)作为损失函数，利用梯度下降算法更新状态价值函数网络V(ψ)的参数：

其中Q_θ(s_t,K_t)为

再根据式(8)利用梯度下降算法分别更新

和

是值函数网络参数ψ的平均值。最后根据式(9)利用梯度下降更新策略网络：

其中

是

4.9：若F＝1，则t＝0，进入下一回合，回合数n+1，待回合数n≥N，完成训练，导出训练后的模型π(φ)，V(ψ)和Q(θ_i)；若F＝0，则t+1，进入步骤4.2，继续在此回合内进行交互。

步骤五、将仿真训练完成的策略网络模型参数导入实际机器人模块中，通过传感器实时获取如步骤二所述的移动机器人的状态表征值，将状态向量输入策略网络，根据式(1)得到最优的六维PID控制器参数；底层PID控制器接收上述参数，根据公式(2)和(4)输出角速度和线速度值控制移动机器人循迹。

优选地，步骤4.2中的图像处理过程包含如下步骤：

S1、将RGB图像I_t处理为二值图像

并从图像

底部从左至右，从下至上寻找黑线边界生长点，分别为左底部边界点p_lb和右底部边界点p_rb；

S2、以步骤S1中的左底部边界点p_lb和右底部边界点p_rb为种子点，从下至上区域生长，找出图像

中黑线的左右边界像素点，在生长的过程中，需要判断边界点p_ij是否为黑线交叉像素点，其中i，j分别为横坐标和纵坐标值，i∈{0,…,w-1}，j∈{0,…,h-1}，若判断p_ij不是黑线交叉像素点，视p_ij为左边界像素点或右边界像素点并依次存入左边界像素点集合P_l和右边界像素点集合P_r；否则，则进入步骤S3。待生长至p_ih-1后停止生长。最后组成

和

具体判断是否为黑线交叉像素点的规则：

其中τ为p_ij的24邻域内的像素值总和，τ₁和τ₂为阈值；

S3、利用步骤S2中的P_l和P_r的边界像素点，多项式拟合至上一黑线交叉点，并将拟合后的像素点存入P_l和P_r中，最后返回步骤S2；

S4、取出P_l和P_r中像素点p_l,0，p_r,0，p_l,1/n，p_r,1/n，p_l,2/n，p_r,2/n，p_l,3/n，p_r,3/n，p_l,4/n，p_r,4/n，p_l,n和p_r,n，由此分别求得黑线中心线像素点

和

其中

为p_l,0和p_r,0的中心点，

为p_l,1/n和p_r,1/n的中心点，依次类推；

S5、将步骤S3中的I_t经过透视变换后得到h_top×w_top的俯视图I′_t，重复步骤S1至步骤S2，得到I′_t中的左边界像素点集合

和右边界像素点集合

S6、根据步骤S5中的P_l′和P′_r，求出I′_t中黑线中心线像素点集合

并选取p′_c,0，p′_c,2/n和p′_c,n三个像素点，并求出I′_t中黑线曲率c_l。同时由速度传感器得到移动机器人的实时曲率c_r。

S7、将五个中心线像素点归一化后组成s_t的前十个维度；根据式(11)求出曲率误差e_c作为s_t的其中一个维度；

e_c＝c_r-c_l (11)

将t时刻的移动机器人线速度v_t和角速度ω_t作为s_t的最后两个维度。则s_t表示为:

s_t＝[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄,x₅,y₅,e_c,v_t,ω_t] (12)

并选取x₄作为e_m。

优选地，在步骤S1中，采用虚拟仿真平台Gazebo搭建仿真环境，仿真机器人的控制在ROS系统下实现。

优选地，移动机器人的控制框架采用分层的控制结构，深度强化学习网络模型作为移动机器人的上层控制器，负责实时调整最优的PID参数，双增量式PID控制器作为移动机器人的下层控制器，负责根据偏差信息输出移动机器人的角速度指令。

优选地，先在仿真环境中进行神经网络参数的训练，继而用于实际系统。

总体而言，本发明的优点和积极效果是：

1、本发明基于深度强化学习算法自适应调节PID控制器的参数，能够适用于复杂未知环境下的移动机器人循迹，根据不同的环境特征选择最优的PID参数，以达到最优的循迹效果。

2、通过移动机器人自主与环境交互的方式学习最优策略，弥补了传统自适应PID方法需要精确的系统模型的缺陷，减少了对工程师经验整定的依赖，具有良好的泛化性和可移植性。

3、结合SAC算法和PID控制技术，在最终训练出来的网络模型下，移动机器人在循迹过程中有很好的鲁棒性。

附图说明

图1是本发明方法的整体网络结构图

图2是本发明方法的框架层次图

图3是本发明识别十字路口元素时的示意图

图4是本发明的图像处理过程中的路径信息采集点示意图

图5至图8是在路径1-4下仿真训练时的奖励，成功率和完成循迹时的偏差，其中图5是路径1的环境及仿真训练结果，图6是路径2的环境及仿真训练结果，图7是路径3的环境及仿真训练结果，图8是路径4的环境及仿真训练结果。

图9是在路径3下训练得到的网络模型在路径1，2，4下的测试结果。

图10-图11为实际循迹路径环境和循迹时的偏差曲线，其中图10是实际循迹路径1的环境及在该路径下的循迹测试结果，图11是实际循迹路径2的环境及在该路径下的循迹测试结果。

具体实施方式

为了使本发明的目的，技术方案及要点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施实例仅用以解释本发明，并不用于限定本发明。

本发明提供了一种适用于复杂未知环境的自适应SAC-PID方法。其整体的网络结构如图1所示，其中上层控制器基于深度强化学习Soft Actor-Critic算法设计，包含值函数网络，决策网络和Q函数网络。决策网络输出PID参数给下层控制器；下层控制器由一个主控PID控制器和一个辅控PID控制器组成，为移动机器人循迹提供角速度指令。该方法的整体框架如图2所示。

该方法的具体实施方法如下：

步骤1、利用虚拟仿真平台Gazebo搭建循线机器人的环境，具体步骤如下：

在Gazebo中导入装有RGB相机的Pioneer 3-AT模型和路径模型，其中Pioneer 3-AT使用的计算设备为NVIDIA Jetson TX2，路径包括四种不同难度的路径，并将移动机器人置于路径的起始位置

(x₀,y₀,z₀)为路径起点坐标。

步骤2、构建深度神经网络模型，并在步骤1中搭建的仿真环境中训练深度神经网络，并得到训练后的网络参数模型，具体步骤如下：

步骤2-1、构建并初始化四个MLP网络模型，决策网络π(φ)，状态价值函数网络V(ψ)和动作价值函数网络Q(θ_i)，i∈{1,2}。其中Q函数网络中包含两个结构完全相同的网络模型，分别为Q(θ₁)和Q(θ₂)。每一个网络模型都包含三层，分别为输入层，隐藏层和输出层，在每层网络中使用ReLU函数作为激活函数，隐藏层数目为512，学习速率为3*10^-4。初始化一个空的经验回放池R，容量大小为2*10⁶；构造两个结构相同的增量PID，分别为主要PID控制器和辅助PID控制器。设置回合数为n＝0，总回合数N＝2000。

步骤2-2、令初始时刻t＝1。

步骤2-3、利用步骤一中的RGB相机获得72*128的RGB图像，并预处理I_t得到路径跟踪信息，并由此得到t时刻状态s_t，具体步骤如下：

步骤2-3-1、将RGB图像I_t处理为二值图像

并从图像

步骤2-3-2、以步骤2-3-1中的左底部边界点p_lb和右底部边界点p_rb为种子点，从下至上区域生长，找出图像

中黑线的左右边界像素点，在生长的过程中，需要判断边界点p_ij是否为黑线交叉像素点，其中i，j分别为横坐标和纵坐标值，i∈{0,…,w-1}，j∈{0,…,h-1}，若判断p_ij不是黑线交叉像素点，视p_ij为左边界像素点或右边界像素点并依次存入左边界像素点集合P_l和右边界像素点集合P_r；否则，则进入步骤三。待生长至p_ih-1后停止生长。最后组成

和

根据式(10)具体判断是否为黑线交叉像素点的规则。

步骤2-3-3、利用步骤2-3-2中P_l和P_r的边界像素点，多项式拟合至上一黑线交叉点，如图3所示，p₁需拟合至p₃，p₂需拟合至p₄，并将拟合后的像素点存入P_l和P_r中，最后返回步骤2-3-2。

步骤2-3-4、取出P_l和P_r中像素点p_l,0，p_r,0，p_l,1/n，p_r,1/n，p_l,2/n，p_r,2/n，p_l,3/n，p_r,3/n，p_l,4/n，p_r,4/n，p_l,n和p_r,n，由此分别求得黑线中心线像素点

和

其中

为p_l,0和p_r,0的中心点，

为p_l,1/n和p_r,1/n的中心点，依次类推；如图4所示。

步骤2-3-5、将步骤2-3中的I_t经过透视变换后得到h_top×w_top的俯视图I′_t，重复步骤一至步骤二，得到I′_t中的左边界像素点集合

和右边界像素点集合

步骤2-3-6、根据步骤五中的P_l′和P′_r，求出I′_t中黑线中心线像素点集合

步骤2-3-7、将五个中心线像素点归一化后组成s_t的前十个维度；根据式(11)求出曲率误差e_c作为s_t的其中一个维度；将t时刻的移动机器人线速度v_t和角速度ω_t作为s_t的最后两个维度。s_t可表示为s_t＝[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄,x₅,y₅,e_c,v_t,ω_t]，并选取x₄作为e_m。

步骤2-4、将步骤2-3中的s_t输入决策网络π(φ)，根据式(1)输出六维PID参数K_t＝{k_mp,k_mi,k_md,k_cp,k_ci,k_cd}，从而根据式(2)、(3)和(4)计算移动机器人的角速度ω_t。

步骤2-5、根据式(5)计算机器人的线速度v_t。

步骤2-6、移动机器人执行角速度和线速度指令，分别是步骤2-4中的ω_t和步骤2-5中的v_t。记录执行动作后重复步骤2-3得到移动机器人观测的状态s_t+1，并根据式(6)计算奖励r(t)，根据式(6)记录回合结束标志F。

步骤2-7、将元组(s_t,K_t,r_t,s_t+1,F)存入经验回放池R中。

步骤2-8、设定采样数量b＝512，当前经验回放池R中的元组数量d，若b＜d，则进入步骤2-9更新网络参数，否则进入步骤2-10。

步骤2-9、在R中随机采样b条元组，首先把式(7)作为损失函数，利用梯度下降算法更新状态价值函数网络V(ψ)的参数；再根据式(8)分别更新

和

最后根据式(9)更新决策网络。

步骤2-10、若F＝1，则t＝0，进入下一回合，回合数n+1，待回合数n≥N，完成训练，导出训练后的模型π(φ)，V(ψ)和Q(θ_i)；若F＝0，则t+1，进入步骤2-3，继续在此回合内进行交互。图5至图8为在复杂程度不同的路径1-4下仿真训练时的奖励，成功率和完成循迹时的偏差曲线。可以从图中看出，在仿真训练中有稳定上升的训练效果，训练完成的模型在循迹时有良好的鲁棒性。

步骤3、将仿真训练完成的策略网络模型参数导入实际机器人模块中，通过传感器实时获取如步骤二所述的移动机器人的状态表征值，将状态向量输入策略网络，根据式(1)得到最优的六维PID控制器参数；底层PID控制器接收上述参数，根据公式(2)和(4)输出角速度和线速度值控制移动机器人循迹。将在仿真路径4下训练得到的网络模型应用于如图10和图11所示的实际机器人循线环境，循线成功率均达到80％，循迹时的偏差曲线如图10和图11所示，有较好的循迹稳定性。

为测试SAC-PID方法在复杂未知环境下的表现，随机选取了在路径3下训练得到的网络模型，在路径1，2，4下做循迹测试，图9是在路径3下训练得到的网络模型在路径1，2，4下的测试结果。

以上是该方法的具体实施方式。本发明提供的适用于移动机器人循迹的自适应SAC-PID方法，能够根据循迹时机器人的实时状态做出最优的PID参数调整策略，配合PID控制方法，能够在不同的未知环境下取得稳定的循迹效果。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种适用于复杂未知环境的自适应SAC-PID方法，其特征在于，包括如下步骤：

步骤一、利用机器人仿真平台搭建循线机器人的环境；

(x₀,y₀,z₀)为路径起点坐标；

步骤三、定义移动机器人循迹时的状态表征值；

其中，所述移动机器人状态表征值包括：轨迹中心线上均匀取由远及近的五个像素点的横纵坐标值(x_i,y_i)，i∈{1,2,3,4,5}；轨迹斜率和移动机器人的实时曲率之差e_c；移动机器人的实时线速度v_t和角速度ω_t；

4.2：利用步骤一中的RGB相机获得h×w的RGB图像I_t，并预处理I_t得到路径跟踪信息，并根据步骤三得到t时刻的状态s_t＝[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄,x₅,y₅,e_c,v_t,ω_t]；

其中，ε_t是从一个正态分布N中采样的噪声向量，

是决策网络(高斯分布)的均值，

是决策网络(高斯分布)的方差；从而根据式(2)计算移动机器人的角速度：

ω_t＝ω_t-1+Δω_m+ηΔω_c (2)

Δω_c＝k_cp[e_c(t)-e_c(t-1)]+k_cie_c(t)+k_cd[e_c(t)-2e_c(t-1)+e_c(t-2)] (4)

其中e_m＝x₄，e_m(t)，e_m(t-1)和e_m(t-2)分别是t，t-1和t-2时刻的e_m；e_c(t)，e_c(t-1)和e_c(t-2)分别是t，t-1和t-2时刻的e_c；

4.4：根据步骤4.3中的e_m(t)计算移动机器人的线速度：

v_t＝-a_x|e_m(t)|+b_x (5)

其中，a_x和b_x为限制移动机器人线速度的系数。

其中s(w)，v(w)分别是第w个回合时循迹的路程和平均速度；β₁，β₂，β₃分别是e_m(t)，e_m(t-1)和e_m(t-2)的比例系数；ζ_r，ζ_v，ζ_s分别是每一项的权重系数；g为正奖励常数；

4.6：将元组(s_t,K_t,r_t,s_t+1,F)存入经验回放池R中；

其中Q_θ(s_t，K_t)为

再根据式(8)利用梯度下降算法分别更新

和

其中

是

2.根据权利要求1所述的适用于复杂未知环境的自适应SAC-PID方法，其特征在于，步骤4.2具体包括：

S1、将RGB图像I_t处理为二值图像

并从图像

S2、以步骤S1中的左底部边界点p_lb和右底部边界点p_rb为种子点，从下至上区域生长，找出图像I_bt中黑线的左右边界像素点，在生长的过程中，需要判断边界点p_ij是否为黑线交叉像素点，其中i，j分别为横坐标和纵坐标值，i∈{0,…,w-1}，j∈{0,…,h-1}，若判断p_ij不是黑线交叉像素点，视p_ij为左边界像素点或右边界像素点并依次存入左边界像素点集合P_l和右边界像素点集合P_r；否则，则进入S3；待生长至p_ih-1后停止生长；最后组成