CN113359703A

CN113359703A - 一种适用于多种复杂路径的移动机器人循线系统

Info

Publication number: CN113359703A
Application number: CN202110522424.4A
Authority: CN
Inventors: 徐思宇; 阮雨迪; 樊越海; 禹鑫燚; 欧林林
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-09-07
Anticipated expiration: 2041-05-13
Also published as: CN113359703B

Abstract

一种适用于多种复杂路径的移动机器人循线系统，包括PC，嵌入式开发板，RGB彩色相机、移动机器人。PC上安装有仿真模块，嵌入式开发板上包括动作策略模块、PID控制器模块、图像处理模块，移动机器人上安装有机器人I/O模块。通过仿真模块训练策略最优的策略网络模型，继而应用于实际机器人系统，减少了实际系统因训练而造成的机器人损坏，提高了实际移动机器人循线任务的成功率。本发明可以在仿真环境中针对一个循线路径进行训练，训练后的网络参数模型可以应对不同的复杂的未知的循线路径，自适应地实时地计算出最优的PID控制器参数和最优运动指令，完成循线任务，具有较高的实时性、稳定性和泛化性。

Description

一种适用于多种复杂路径的移动机器人循线系统

技术领域

本发明涉及一种适用于多种复杂路径的移动机器人循线系统。特别地，针对多种复杂未知路径，基于深度强化学习Soft Actor-Critic(SAC)算法和PID控制的结合，移动机器人能够有效的实现端到端的循线任务的完成。

背景技术

随着工业技术的发展，现代化的工程技术系统正朝着大规模、复杂化的方向发展。由于循线机器人可以在一些复杂恶劣的应用场合下，帮助或者代替人类完成一些高工作量和高危险性的巡查和其他工作，因此近年来，自动循线机器人被越来越多运用在一些工业场景，如自动化生产线的物料陪送机器人和易着火区域配备的消防巡查机器人。同时，循线机器人也在民用、军事、医疗等方面获得了广泛应用。

循线机器人是一种能够根据给定的路线标识自主移动的机器人，路线标识通常由白色表面上的黑线或其他颜色组合来表示。自动循线机器人要求必须存在一个传感器来提取外部路线信息并传递给控制系统，这些传感器可以是灰度传感器、电磁传感器和摄像头等。控制系统根据得到的路线信息操纵机器人保持路线，同时不断矫正与所遵循的路线存在的偏差。

由于比例积分微分(PID)控制具有结构简单，鲁棒性和适应性强等优点，并且参数的调节和整定很少依赖于被控对象的具体模型，因此PID控制被广泛运用在移动机器人循线系统中。Engin在文献Path planning of line follower robot(Proceedings of the5th European DSP education and research conference,2012)用PID控制器算法成功地实现了轮式移动机器人对直线和曲线的跟踪，并提高了导航精度。然而，不同的路径跟踪要求不同的PID参数，复杂的路径跟踪要求需要实时调整PID参数。在实际工程中，采用经验调试法来人工整定PID控制器参数是一个繁琐的过程，而实时调整PID参数的自适应控制方法往往需要建立精确的数学模型，泛化性差，方法不可迁移。

随着人工智能的发展，强化学习相关算法在近几年引起了学术界和工业界的重视。与传统的控制方法有所不同，强化学习不仅能够自主地与环境交互作用，通过反复试验学习最优策略，具有一定的鲁棒性和实时性，而且对于一些难以建模的控制对象，可以通过无模型的学习算法解决复杂问题，具有一定的泛化性。Carlucho在文献An adaptive deepreinforcement learning approach for MIMO PID control of mobile robots(ISATransactions,2020,102)中提出了一种基于强化学习深度确定性策略梯度(DDPG)算法的无模型的低阶PID控制器的移动机器人调速系统。但DDPG存在很难稳定且对超参数极其敏感等缺点，很难实现在循线任务下，移动机器人面对复杂未知路径时所需要的稳定性和泛化性。

发明内容

本发明对克服现有技术存在的上述问题，提供一种适用于多种复杂未知路径的移动机器人循线系统。

本发明主要采用仿真与实际相结合的方式。首先在仿真环境中对移动机器人进行循线训练；将训练完成后的网络参数模型导入给实际网络；由RGB相机获取RGB彩色图并对其做预处理，得到当前移动机器人所要跟踪的线路的路径信息和路径跟踪误差；将路径信息和路径跟踪误差分别输入到动作策略模块和PID控制器；动作策略模块得到最优PID控制器参数，并将其输送给PID控制器；PID控制器和动作策略模块分别计算得到循线任务所需的角速度和线速度，并将其发送给移动机器人；最后移动机器人根据运动指令执行动作。整个过程是连续地实时地进行的。

本发明为解决现有技术问题所用的技术方案是：

一种适用于多种复杂路径的移动机器人循线系统，包括仿真训练模块，动作策略模块、PID控制器模块、图像处理模块，机器人I/O模块，机器人模块和RGB彩色相机；其中动作策略模块、PID控制器模块、图像处理模块安装在嵌入式开发板上。嵌入式开发板和彩色相机通过USB与移动机器人连接；彩色相机获取彩色RGB图；嵌入式开发板发送运动指令控制移动机器人；移动机器人执行动作，进行循线。

仿真训练模块，采用机器人仿真软件搭建仿真环境，然后在该仿真环境下对移动机器人进行循线任务的训练，并保存最后训练结束得到的网络参数模型；图像处理模块，接收彩色相机发送的RGB图像，对图像进行一定的处理之后得到图像中当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差e_c，和将要跟随的路径上的五个点

其中i∈{1,2,3,4,5}；动作策略模块，导入训练后的网络参数模型，并接收图像处理模块所发送的路径信息

当前移动机器人的中心线与所要跟随的路径中心线之间的误差e和机器人I/O模块发送的当前机器人的运动信息与位姿信息，得到最优PID控制器参数和移动机器人当前所需线速度v_t；PID控制器模块，接收图像处理模块发送的路径跟踪误差e和e_c，接收动作策略模块发送的最优PID参数，计算得到移动机器人所需角速度的增量Δω；机器人I/O模块，接收动作策略模块和PID控制器模块发送的机器人当前时刻t的运动指令，即线速度v_t和角速度ω_t，并将运动指令发送给机器人模块；机器人模块，接收运动指令，控制移动机器人进行循线运动，并实时反馈移动机器人运动、位姿信息和彩色相机图像信息给机器人I/O模块。

仿真训练模块包括：利用机器人仿真平台ROS构建带RGB相机的移动机器人仿真模型，在仿真软件Gazebo中搭建可视化轨迹环境，并将移动机器人模型映射到可视化仿真环境中；通过RGB相机采集轨迹图像信息，对图像进行处理之后得到图像中当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差e_c，和将要跟随的路径上的五个点

其中i∈{1,2,3,4,5}；通过仿真的Gazebo环境插件获取移动机器人的线速度v_t和角速度ω_t，结合路径和误差信息构成机器人当前的状态，s_t＝[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄,x₅,y₅,e_c,v_t,ω_t]；基于SAC-PID方法，对循迹机器人进行仿真训练，包括以下步骤：

(1)初始化两个相同的动作价值网络Q(θ_i)，i∈{1,2}，状态价值网络V(ψ)和策略网络π(φ)，其中φ，ψ，θ_i分别为策略网络，状态价值函数网络和动作价值函数网络的参数；初始化经验回放池R，设定训练回合数N。

(2)状态s_t输入策略网络π(φ)，输出六维PID控制参数K_t给双增量式PID控制器，PID控制器输出角速度指令，根据偏差的绝对值输出线速度指令；移动机器人执行动作后，计算奖励r，获取新的状态s_t+1和回合结束标志F，将(s_t,K_t,r_t,s_t+1,F)存入经验回放池R中。

(3)基于深度强化学习SAC算法，从经验回放池R中随机抽取d个数组利用随机梯度下降算法更新网络模型的参数，若len(R)＜d，则跳过这一步骤。

(4)当机器人完成循迹任务或者离开轨迹时进入下一个训练回合，直到机器人完成给定的回合数N，结束仿真训练，将训练好的网络模型保存在PC中。

图像处理模块包括：从彩色相机获取RGB彩色图像，将其转换为HSV图像并进行二值化，得到二值图I_front；利用透视变换获得该二值化图像I_front的俯视图I_top；对二值图I_front和俯视二值图I_top，分别从图像最下方进行逐行搜索直至得到黑色路径在白色背景下的左右边界点及其中点(x_front,y_front)和(x_top,y_top)，其中将x_front归一化就是当前移动机器人的中心线与所要跟随的路径中心线之间的误差e；对二值图I_front和俯视二值图I_top，分别将点(x_front,y_front)和(x_top,y_top)作为种子点，利用向上的区域生长法获得各自的二维列表形式的区域生长结果L_front和L_top，其中列表L_front和L_top存储的是图像中代表路径的黑色像素点的坐标；从列表L_front取出纵坐标分别是最大、最小、

最大值、

最大值和

最大值的五个黑色像素点的坐标，并将其归一化为

其中i∈{1,2,3,4,5}，作为将要跟随的路径上的五个点；从列表L_top取出纵坐标分别是最大、最小和

最大值的三个黑色像素点的坐标

其中i∈{1,2,3}，然后利用三点法获得所要跟随的路径曲率之间的误差，再与当前移动机器人的曲率相比较，获得曲率误差e_c。

动作策略模块包括：导入仿真训练后的策略网络模型，并接收图像处理模块所发送的路径信息

当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差e_c和机器人I/O模块发送的当前机器人的运动信息与位姿信息。如果机器人离开路线或完成一次循线任务后回到原点，就发送给移动机器人的线速度v＝0；否则，根据策略网络计算最优PID控制器参数{k_p,k_i,k_d,k_pc,k_ic,k_dc}，其中{k_p,k_i,k_d}是主要PID控制器的比例、积分和微分参数，{k_pc,k_ic,k_dc}是辅助PID控制器的比例、积分和微分参数；并根据当前移动机器人的中心线与所要跟随的路径中心线之间的误差e计算移动机器人所需线速度v，如公式(1)所示，其中|e|∈{0,1}，且a和b是用来限制移动机器人的线速度的正实数；因此最终发送给移动机器人的线速度v范围为[b,b-a]，其中要求a≥0。

v＝-a|e(t)|+b (1)

PID控制器模块包括：从图像处理模块接收路径跟踪误差e和e_c，从动作策略模块接收最优PID控制器参数{k_p,k_i,k_d,k_pc,k_ic,k_dc}；根据公式(2)(1)(1)(1)(1)(1)，计算出主要PID控制器的输出Δω_m，其中e(t)、e(t-1)和e(t-2)分别是t，t-1和t-2时刻的误差e的数值；根据公式(3)，计算出辅助PID控制器的输出Δω_c，其中e_c(t)，e_c(t-1)和e_c(t-2)分别是t，t-1和t-2时刻的e_c；根据公式(4)，计算出移动机器人的角速度的增量Δω，其中η∈[0,1]是辅助PID控制器所占的权重系数。

Δω_c＝k_pc[e_c(t)-e_c(t-1)]+k_ice_c(t)+k_dc[e_c(t)-2e_c(t-1)+e_c(t-2)] (3)

Δω＝Δω_m+ηΔω_c (4)

ω_t＝ω_t-1+Δω_m+ηΔω_c (5)

机器人I/O模块包括：接收PID控制器模块发送的角速度的增量Δω，根据公式(5)计算得到当前时刻t要发送给移动机器人的角速度ω_t，其中ω_t-1是上一时刻t-1发送给移动机器人的角速度；接收动作策略模块发送的线速度作为当前时刻t要发送给移动机器人的线速度v_t；发送当前时刻t的运动指令，即线速度v_t和角速度ω_t，给移动机器人；发送实时的运动信息和位姿信息给动作策略模块，发送实时的彩色相机图像信息给图像处理模块。

机器人模块包括：移动机器人接收运动指令线速度v_t和角速度ω_t后，控制移动机器人进行循线运动，并实时返回运动信息、位姿信息和彩色相机图像信息给机器人I/O模块。

优选地，根据权利要求1所述的一种适用于多种复杂路径的移动机器人循线系统，其特征在于：实现了在复杂位置环境下，基于深度强化学习，PID控制器的自适应最优参数整定。

优选地，所述仿真模块中，以先在仿真环境中进行神经网络参数的训练，继而用于实际系统，提高了实际移动机器人循线任务的成功率。

本发明的优点和积极效果是：

1.本发明利用仿真和实际相结合，减少了实际系统因训练而造成的机器人损坏，提高了实际移动机器人循线任务的成功率。

2.本发明可以在仿真环境中针对一个循线路径进行训练，训练后的网络参数模型可以应对不同的复杂的未知的循线路径，自适应地实时地计算出最优的PID控制器参数和最优运动指令，完成循线任务。

3.针对多种复杂路径的移动机器人循线任务，本发明具有较高的实时性、稳定性和泛化性。

附图说明

图1是本发明的系统整体框架图。

图2是本发明的系统仿真训练框架图。

图3-图6是路径1-4下仿真训练时的奖励，循迹的成功率和完成循迹时的偏差，其中图3是路径1的环境及仿真训练结果，图4是路径2的环境及仿真训练结果，图5是路径3的环境及仿真训练结果，图6是路径4的环境及仿真训练结果。

图7是本发明的图像处理模块流程图。

图8-图9为实际循迹路径环境和循迹时的偏差曲线，其中图8是实际循迹路径1的环境及在该路径下的循迹测试结果，图9是实际循迹路径2的环境及在该路径下的循迹测试结果。

具体实施方式

为了使本发明的目的，技术方案及要点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施实例仅用以解释本发明，并不用于限定本发明。

一种适用于多种复杂路径的移动机器人循线系统，其系统结构框架图如图1所示。平台硬件组成主要包括个人计算机(PC)，嵌入式开发板，彩色相机、移动机器人；软件端主要组成包括ROS和Gazebo仿真平台。PC利用仿真环境进行仿真训练，获得网络参数模型；动作策略模块、PID控制器模块、图像处理模块安装在嵌入式开发板上，嵌入式开发板和彩色相机通过USB与移动机器人连接；彩色相机获取彩色RGB图；嵌入式开发板发送运动指令控制移动机器人；移动机器人执行动作，进行循线。

本发明的具体实施方式如下：

ROS和Gazebo仿真平台，Pycharm编程环境安装在Ubuntu环境下；PC使用CPU为Intel core i7-7800k 3.50hz，GPU为Nvidia TITAN Xp；嵌入式开发板为Nvidia JetsonTX2开发板；彩色相机使用RealsenseD435；移动机器人使用麦克纳姆四轮小车。

仿真系统：采用ROS和Gazebo仿真平台，导入移动机器人、彩色相机和不同复杂路径的地图；在pycharm编程环境下采用python语言构建深度强化学习网络模型，如图2所示，包括值函数网络，Q函数网络和决策网络；采用Pycharm与仿真平台进行通信；环境配置完成后，基于SAC-PID方法开始对仿真环境进行训练，网络模型训练框架如图2所示；得到训练完成的网络参数模型并进行保存。在不同难度路径1-4下的仿真训练，强化学习的奖励reward、移动机器人循线的成功率success rate和完成循线过程的误差error如图3-图6所示。进一步地，将在路径3下训练得到的网络模型在路径1，2，4中做循迹测试，测试结果如表1所示；

表1

图像处理模块包括：将彩色深度相机置于移动机器人前端,斜下方45°朝向处；图像处理流程如图7所示，从彩色相机获得大小为1280×720的RGB彩色图像，将其转换128×72的HSV图像并进行二值化，得到二值图I_front；利用透视变换获得二值图I_front的俯视图I_top；对二值图I_front和俯视二值图I_top，分别从图像最下方进行逐行搜索直至得到黑色路径在白色背景下的左右边界点及其中点(x_front,y_front)和(x_top,y_top)，其中将x_front归一化就是当前移动机器人的中心线与所要跟随的路径中心线之间的误差e；对二值图I_front和俯视二值图I_top，分别将点(x_front,y_front)和(x_top,y_top)作为种子点，利用向上的区域生长法获得各自的二维列表形式的区域生长结果L_front和L_top，其中列表L_front和L_top存储的是图像中代表路径的黑色像素点的坐标；从列表L_front取出纵坐标分别是最小值、

最大值、

最大值、

最大值，最大值的五个黑色像素点的坐标，并将其归一化为

其中i∈{1,2,3,4,5}，作为将要跟随的路径上的五个点；从列表L_top取出纵坐标分别是最小值、

最大值和最大值的三个黑色像素点的坐标

当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差e_c和机器人I/O模块发送的当前机器人的运动信息与位姿信息。如果机器人离开路线或完成一次循线任务后回到原点，就发送给移动机器人的线速度v＝0；否则，根据策略网络计算最优PID控制器参数{k_p,k_i,k_d,k_pc,k_ic,k_dc}，其中{k_p,k_i,k_d}是主要PID控制器的比例、积分和微分参数，{k_pc,k_ic,k_dc}是辅助PID控制器的比例、积分和微分参数；选择参数a＝0.25和b＝0.3，并根据当前移动机器人的中心线与所要跟随的路径中心线之间的误差e计算移动机器人所需线速度v，如公式(1)所示，其中线速度v范围为[0.05,0.3]。

PID控制器模块包括：从图像处理模块接收路径跟踪误差e和e_c，从动作策略模块接收最优PID控制器参数{k_p,k_i,k_d,k_pc,k_ic,k_dc}；根据公式(2)(1)(1)(1)(1)(1)，计算出主要PID控制器的输出Δω_m；根据公式(3)，计算出辅助PID控制器的输出Δω_c；选择η＝0.5作为辅助PID控制器所占的权重系数，根据Δω_m和Δω_c，计算出移动机器人的角速度的增量Δω。

机器人I/O模块包括：接收PID控制器模块发送的角速度的增量Δω，根据公式(5)计算得到当前时刻t要发送给移动机器人的角速度ω_t；接收动作策略模块发送的线速度v作为当前时刻t要发送给移动机器人的线速度v_t；发送当前时刻t的运动指令，即线速度v_t和角速度ω_t，给移动机器人；发送实时的运动信息和位姿信息给动作策略模块，发送实时的彩色相机图像信息给图像处理模块。

将在路径4下仿真训练得到的网络模型应用于实际机器人循线系统，在如图8和图9所示的循线环境下循迹成功率均达到80％，循迹过程中的偏差曲线如图8和图9所示，有较好的循迹稳定性。

以上是整个系统的控制情况。仿真模块的存在减少了实际训练可能会导致的计算资源浪费和其他安全问题，提高了实际移动机器人循线任务的成功率；图像处理模块采用向上生长的区域生长法，提高了整个系统的实时性；动作策略模块可以实时有效的寻找最优PID参数，保证最优性和实时性；PID控制器模块采用增量式输出，减小了移动机器人循线时的抖动，是循线过程更加平滑。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种适用于多种复杂路径的移动机器人循线系统，其特征在于：包括仿真训练模块，动作策略模块、PID控制器模块、图像处理模块，机器人I/O模块，机器人模块和RGB彩色相机；其中动作策略模块、PID控制器模块、图像处理模块安装在嵌入式开发板上；嵌入式开发板和彩色相机通过USB与移动机器人连接；彩色相机获取彩色RGB图；嵌入式开发板发送运动指令控制移动机器人；移动机器人执行动作，进行循线；

当前移动机器人的中心线与所要跟随的路径中心线之间的误差e和机器人I/O模块发送的当前机器人的运动信息与位姿信息，得到最优PID控制器参数和移动机器人当前所需线速度v_t；PID控制器模块，接收图像处理模块发送的路径跟踪误差e和e_c，接收动作策略模块发送的最优PID参数，计算得到移动机器人所需角速度的增量Δω；机器人I/O模块，接收动作策略模块和PID控制器模块发送的机器人当前时刻t运动指令，即线速度v_t和角速度ω_t，并将运动指令发送给机器人模块；机器人模块，接收运动指令，控制移动机器人进行循线运动，并实时反馈移动机器人运动、位姿信息和彩色相机图像信息给机器人I/O模块；

(1)初始化两个相同的动作价值网络Q(θ_i)，i∈{1,2}，状态价值网络V(ψ)和策略网络π(φ)，其中φ，ψ，θ_i分别为策略网络，状态价值函数网络和动作价值函数网络的参数；初始化经验回放池R，设定训练回合数N；

(2)状态s_t输入策略网络π(φ)，输出六维PID控制参数K_t给双增量式PID控制器，PID控制器输出角速度指令，根据偏差的绝对值输出线速度指令；移动机器人执行动作后，计算奖励r，获取新的状态s_t+1和回合结束标志F，将(s_t,K_t,r_t,s_t+1,F)存入经验回放池R中；

(3)基于深度强化学习SAC算法，从经验回放池R中随机抽取d个数组利用随机梯度下降算法更新网络模型的参数，若len(R)＜d，则跳过这一步骤；

(4)当机器人完成循迹任务或者离开轨迹时进入下一个训练回合，直到机器人完成给定的回合数N，结束仿真训练，将训练好的网络模型保存在PC中；

图像处理模块包括：从彩色相机获取RGB彩色图像，将其转换为HSV图像并进行二值化，得到二值图I_front；利用透视变换获得该二值化图像I_front的俯视图I_top；对二值图I_front和俯视二值图I_top，分别从图像最下方进行逐行搜索直至得到黑色路径在白色背景下的左右边界点及其中点(x_front,y_front)和(x_top,y_top)，其中将x_front归一化就是当前移动机器人的中心线与所要跟随的路径中心线之间的误差e；对二值图I_front和俯视二值图I_top，分别将点(x_front,y_front)和(x_top,y_top)作为种子点，利用向上的区域生长法获得各自的二维列表形式的区域生长结果L_front和L_top，其中列表L_front和L_top存储的是图像中代表路径的黑色像素点的坐标；从列表L_front取出纵坐标分别是最小值、

最大值、

最大值、

最大值和最大值的五个黑色像素点的坐标，并将其归一化为

最大值的三个黑色像素点的坐标

其中i∈{1,2,3}，然后利用三点法获得所要跟随的路径曲率之间的误差，再与当前移动机器人的曲率相比较，获得曲率误差e_c；

当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差e_c和机器人I/O模块发送的当前机器人的运动信息与位姿信息；如果机器人离开路线或完成一次循线任务后回到原点，就发送给移动机器人的线速度v＝0；否则，根据策略网络计算最优PID控制器参数{k_p,k_i,k_d,k_pc,k_ic,k_dc}，其中{k_p,k_i,k_d}是主要PID控制器的比例、积分和微分参数，{k_pc,k_ic,k_dc}是辅助PID控制器的比例、积分和微分参数；并根据当前移动机器人的中心线与所要跟随的路径中心线之间的误差e计算移动机器人所需线速度v，如公式(1)所示，其中|e(t)|∈[0,1]，且a和b是用来限制移动机器人的线速度的正实数；因此最终发送给移动机器人的线速度v范围为[b,b-a]，其中要求a≥0；

v＝-a|e(t)|+b (1)

PID控制器模块包括：从图像处理模块接收路径跟踪误差e和e_c，从动作策略模块接收最优PID控制器参数{k_p,k_i,k_d,k_pc,k_ic,k_dc}；根据公式(2)，计算出主要PID控制器的输出Δω_m，其中e(t)、e(t-1)和e(t-2)分别是t，t-1和t-2时刻的误差e的数值；根据公式(3)，计算出辅助PID控制器的输出Δω_c，其中e_c(t)，e_c(t-1)和e_c(t-2)分别是t，t-1和t-2时刻的e_c；根据公式(4)，计算出移动机器人的角速度的增量Δω，其中η∈[0,1]是辅助PID控制器所占的权重系数；

Δω_c＝k_pc[e_c(t)-e_c(t-1)]+k_ice_c(t)+k_dc[e_c(t)-2e_c(t-1)+e_c(t-2)] (3)

Δω＝Δω_m+ηΔω_c (4)

ω_t＝ω_t-1+Δω_m+ηΔω_c (5)

机器人I/O模块包括：接收PID控制器模块发送的角速度的增量Δω，根据公式(5)计算得到当前时刻t要发送给移动机器人的角速度ω_t，其中ω_t-1是上一时刻t-1发送给移动机器人的角速度；接收动作策略模块发送的线速度作为当前时刻t要发送给移动机器人的线速度v_t；发送当前时刻t的运动指令，即线速度v_t和角速度ω_t，给移动机器人；发送实时的运动信息和位姿信息给动作策略模块，发送实时的彩色相机图像信息给图像处理模块；

2.根据权利要求1所述的一种适用于多种复杂路径的移动机器人循线系统，其特征在于：实现了在复杂位置环境下，基于深度强化学习的PID控制器的自适应最优参数整定。

3.根据权利要求1所述的一种适用于多种复杂路径的移动机器人循线系统，其特征在于：所述仿真模块中，以先在仿真环境中进行神经网络参数的训练，继而用于实际系统，提高了实际移动机器人循线任务的成功率。