CN113359703A - 一种适用于多种复杂路径的移动机器人循线系统 - Google Patents

一种适用于多种复杂路径的移动机器人循线系统 Download PDF

Info

Publication number
CN113359703A
CN113359703A CN202110522424.4A CN202110522424A CN113359703A CN 113359703 A CN113359703 A CN 113359703A CN 202110522424 A CN202110522424 A CN 202110522424A CN 113359703 A CN113359703 A CN 113359703A
Authority
CN
China
Prior art keywords
mobile robot
robot
module
path
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110522424.4A
Other languages
English (en)
Other versions
CN113359703B (zh
Inventor
徐思宇
阮雨迪
樊越海
禹鑫燚
欧林林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110522424.4A priority Critical patent/CN113359703B/zh
Publication of CN113359703A publication Critical patent/CN113359703A/zh
Application granted granted Critical
Publication of CN113359703B publication Critical patent/CN113359703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

一种适用于多种复杂路径的移动机器人循线系统,包括PC,嵌入式开发板,RGB彩色相机、移动机器人。PC上安装有仿真模块,嵌入式开发板上包括动作策略模块、PID控制器模块、图像处理模块,移动机器人上安装有机器人I/O模块。通过仿真模块训练策略最优的策略网络模型,继而应用于实际机器人系统,减少了实际系统因训练而造成的机器人损坏,提高了实际移动机器人循线任务的成功率。本发明可以在仿真环境中针对一个循线路径进行训练,训练后的网络参数模型可以应对不同的复杂的未知的循线路径,自适应地实时地计算出最优的PID控制器参数和最优运动指令,完成循线任务,具有较高的实时性、稳定性和泛化性。

Description

一种适用于多种复杂路径的移动机器人循线系统
技术领域
本发明涉及一种适用于多种复杂路径的移动机器人循线系统。特别地,针对多种复杂未知路径,基于深度强化学习Soft Actor-Critic(SAC)算法和PID控制的结合,移动机器人能够有效的实现端到端的循线任务的完成。
背景技术
随着工业技术的发展,现代化的工程技术系统正朝着大规模、复杂化的方向发展。由于循线机器人可以在一些复杂恶劣的应用场合下,帮助或者代替人类完成一些高工作量和高危险性的巡查和其他工作,因此近年来,自动循线机器人被越来越多运用在一些工业场景,如自动化生产线的物料陪送机器人和易着火区域配备的消防巡查机器人。同时,循线机器人也在民用、军事、医疗等方面获得了广泛应用。
循线机器人是一种能够根据给定的路线标识自主移动的机器人,路线标识通常由白色表面上的黑线或其他颜色组合来表示。自动循线机器人要求必须存在一个传感器来提取外部路线信息并传递给控制系统,这些传感器可以是灰度传感器、电磁传感器和摄像头等。控制系统根据得到的路线信息操纵机器人保持路线,同时不断矫正与所遵循的路线存在的偏差。
由于比例积分微分(PID)控制具有结构简单,鲁棒性和适应性强等优点,并且参数的调节和整定很少依赖于被控对象的具体模型,因此PID控制被广泛运用在移动机器人循线系统中。Engin在文献Path planning of line follower robot(Proceedings of the5th European DSP education and research conference,2012)用PID控制器算法成功地实现了轮式移动机器人对直线和曲线的跟踪,并提高了导航精度。然而,不同的路径跟踪要求不同的PID参数,复杂的路径跟踪要求需要实时调整PID参数。在实际工程中,采用经验调试法来人工整定PID控制器参数是一个繁琐的过程,而实时调整PID参数的自适应控制方法往往需要建立精确的数学模型,泛化性差,方法不可迁移。
随着人工智能的发展,强化学习相关算法在近几年引起了学术界和工业界的重视。与传统的控制方法有所不同,强化学习不仅能够自主地与环境交互作用,通过反复试验学习最优策略,具有一定的鲁棒性和实时性,而且对于一些难以建模的控制对象,可以通过无模型的学习算法解决复杂问题,具有一定的泛化性。Carlucho在文献An adaptive deepreinforcement learning approach for MIMO PID control of mobile robots(ISATransactions,2020,102)中提出了一种基于强化学习深度确定性策略梯度(DDPG)算法的无模型的低阶PID控制器的移动机器人调速系统。但DDPG存在很难稳定且对超参数极其敏感等缺点,很难实现在循线任务下,移动机器人面对复杂未知路径时所需要的稳定性和泛化性。
发明内容
本发明对克服现有技术存在的上述问题,提供一种适用于多种复杂未知路径的移动机器人循线系统。
本发明主要采用仿真与实际相结合的方式。首先在仿真环境中对移动机器人进行循线训练;将训练完成后的网络参数模型导入给实际网络;由RGB相机获取RGB彩色图并对其做预处理,得到当前移动机器人所要跟踪的线路的路径信息和路径跟踪误差;将路径信息和路径跟踪误差分别输入到动作策略模块和PID控制器;动作策略模块得到最优PID控制器参数,并将其输送给PID控制器;PID控制器和动作策略模块分别计算得到循线任务所需的角速度和线速度,并将其发送给移动机器人;最后移动机器人根据运动指令执行动作。整个过程是连续地实时地进行的。
本发明为解决现有技术问题所用的技术方案是:
一种适用于多种复杂路径的移动机器人循线系统,包括仿真训练模块,动作策略模块、PID控制器模块、图像处理模块,机器人I/O模块,机器人模块和RGB彩色相机;其中动作策略模块、PID控制器模块、图像处理模块安装在嵌入式开发板上。嵌入式开发板和彩色相机通过USB与移动机器人连接;彩色相机获取彩色RGB图;嵌入式开发板发送运动指令控制移动机器人;移动机器人执行动作,进行循线。
仿真训练模块,采用机器人仿真软件搭建仿真环境,然后在该仿真环境下对移动机器人进行循线任务的训练,并保存最后训练结束得到的网络参数模型;图像处理模块,接收彩色相机发送的RGB图像,对图像进行一定的处理之后得到图像中当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差ec,和将要跟随的路径上的五个点
Figure BDA0003064567500000021
其中i∈{1,2,3,4,5};动作策略模块,导入训练后的网络参数模型,并接收图像处理模块所发送的路径信息
Figure BDA0003064567500000022
当前移动机器人的中心线与所要跟随的路径中心线之间的误差e和机器人I/O模块发送的当前机器人的运动信息与位姿信息,得到最优PID控制器参数和移动机器人当前所需线速度vt;PID控制器模块,接收图像处理模块发送的路径跟踪误差e和ec,接收动作策略模块发送的最优PID参数,计算得到移动机器人所需角速度的增量Δω;机器人I/O模块,接收动作策略模块和PID控制器模块发送的机器人当前时刻t的运动指令,即线速度vt和角速度ωt,并将运动指令发送给机器人模块;机器人模块,接收运动指令,控制移动机器人进行循线运动,并实时反馈移动机器人运动、位姿信息和彩色相机图像信息给机器人I/O模块。
仿真训练模块包括:利用机器人仿真平台ROS构建带RGB相机的移动机器人仿真模型,在仿真软件Gazebo中搭建可视化轨迹环境,并将移动机器人模型映射到可视化仿真环境中;通过RGB相机采集轨迹图像信息,对图像进行处理之后得到图像中当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差ec,和将要跟随的路径上的五个点
Figure BDA0003064567500000031
其中i∈{1,2,3,4,5};通过仿真的Gazebo环境插件获取移动机器人的线速度vt和角速度ωt,结合路径和误差信息构成机器人当前的状态,st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt];基于SAC-PID方法,对循迹机器人进行仿真训练,包括以下步骤:
(1)初始化两个相同的动作价值网络Q(θi),i∈{1,2},状态价值网络V(ψ)和策略网络π(φ),其中φ,ψ,θi分别为策略网络,状态价值函数网络和动作价值函数网络的参数;初始化经验回放池R,设定训练回合数N。
(2)状态st输入策略网络π(φ),输出六维PID控制参数Kt给双增量式PID控制器,PID控制器输出角速度指令,根据偏差的绝对值输出线速度指令;移动机器人执行动作后,计算奖励r,获取新的状态st+1和回合结束标志F,将(st,Kt,rt,st+1,F)存入经验回放池R中。
(3)基于深度强化学习SAC算法,从经验回放池R中随机抽取d个数组利用随机梯度下降算法更新网络模型的参数,若len(R)<d,则跳过这一步骤。
(4)当机器人完成循迹任务或者离开轨迹时进入下一个训练回合,直到机器人完成给定的回合数N,结束仿真训练,将训练好的网络模型保存在PC中。
图像处理模块包括:从彩色相机获取RGB彩色图像,将其转换为HSV图像并进行二值化,得到二值图Ifront;利用透视变换获得该二值化图像Ifront的俯视图Itop;对二值图Ifront和俯视二值图Itop,分别从图像最下方进行逐行搜索直至得到黑色路径在白色背景下的左右边界点及其中点(xfront,yfront)和(xtop,ytop),其中将xfront归一化就是当前移动机器人的中心线与所要跟随的路径中心线之间的误差e;对二值图Ifront和俯视二值图Itop,分别将点(xfront,yfront)和(xtop,ytop)作为种子点,利用向上的区域生长法获得各自的二维列表形式的区域生长结果Lfront和Ltop,其中列表Lfront和Ltop存储的是图像中代表路径的黑色像素点的坐标;从列表Lfront取出纵坐标分别是最大、最小、
Figure BDA0003064567500000041
最大值、
Figure BDA0003064567500000042
最大值和
Figure BDA0003064567500000043
最大值的五个黑色像素点的坐标,并将其归一化为
Figure BDA0003064567500000044
其中i∈{1,2,3,4,5},作为将要跟随的路径上的五个点;从列表Ltop取出纵坐标分别是最大、最小和
Figure BDA0003064567500000045
最大值的三个黑色像素点的坐标
Figure BDA0003064567500000046
其中i∈{1,2,3},然后利用三点法获得所要跟随的路径曲率之间的误差,再与当前移动机器人的曲率相比较,获得曲率误差ec
动作策略模块包括:导入仿真训练后的策略网络模型,并接收图像处理模块所发送的路径信息
Figure BDA0003064567500000047
当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差ec和机器人I/O模块发送的当前机器人的运动信息与位姿信息。如果机器人离开路线或完成一次循线任务后回到原点,就发送给移动机器人的线速度v=0;否则,根据策略网络计算最优PID控制器参数{kp,ki,kd,kpc,kic,kdc},其中{kp,ki,kd}是主要PID控制器的比例、积分和微分参数,{kpc,kic,kdc}是辅助PID控制器的比例、积分和微分参数;并根据当前移动机器人的中心线与所要跟随的路径中心线之间的误差e计算移动机器人所需线速度v,如公式(1)所示,其中|e|∈{0,1},且a和b是用来限制移动机器人的线速度的正实数;因此最终发送给移动机器人的线速度v范围为[b,b-a],其中要求a≥0。
v=-a|e(t)|+b (1)
PID控制器模块包括:从图像处理模块接收路径跟踪误差e和ec,从动作策略模块接收最优PID控制器参数{kp,ki,kd,kpc,kic,kdc};根据公式(2)(1)(1)(1)(1)(1),计算出主要PID控制器的输出Δωm,其中e(t)、e(t-1)和e(t-2)分别是t,t-1和t-2时刻的误差e的数值;根据公式(3),计算出辅助PID控制器的输出Δωc,其中ec(t),ec(t-1)和ec(t-2)分别是t,t-1和t-2时刻的ec;根据公式(4),计算出移动机器人的角速度的增量Δω,其中η∈[0,1]是辅助PID控制器所占的权重系数。
Figure BDA0003064567500000048
Δωc=kpc[ec(t)-ec(t-1)]+kicec(t)+kdc[ec(t)-2ec(t-1)+ec(t-2)] (3)
Δω=Δωm+ηΔωc (4)
ωt=ωt-1+Δωm+ηΔωc (5)
机器人I/O模块包括:接收PID控制器模块发送的角速度的增量Δω,根据公式(5)计算得到当前时刻t要发送给移动机器人的角速度ωt,其中ωt-1是上一时刻t-1发送给移动机器人的角速度;接收动作策略模块发送的线速度作为当前时刻t要发送给移动机器人的线速度vt;发送当前时刻t的运动指令,即线速度vt和角速度ωt,给移动机器人;发送实时的运动信息和位姿信息给动作策略模块,发送实时的彩色相机图像信息给图像处理模块。
机器人模块包括:移动机器人接收运动指令线速度vt和角速度ωt后,控制移动机器人进行循线运动,并实时返回运动信息、位姿信息和彩色相机图像信息给机器人I/O模块。
优选地,根据权利要求1所述的一种适用于多种复杂路径的移动机器人循线系统,其特征在于:实现了在复杂位置环境下,基于深度强化学习,PID控制器的自适应最优参数整定。
优选地,所述仿真模块中,以先在仿真环境中进行神经网络参数的训练,继而用于实际系统,提高了实际移动机器人循线任务的成功率。
本发明的优点和积极效果是:
1.本发明利用仿真和实际相结合,减少了实际系统因训练而造成的机器人损坏,提高了实际移动机器人循线任务的成功率。
2.本发明可以在仿真环境中针对一个循线路径进行训练,训练后的网络参数模型可以应对不同的复杂的未知的循线路径,自适应地实时地计算出最优的PID控制器参数和最优运动指令,完成循线任务。
3.针对多种复杂路径的移动机器人循线任务,本发明具有较高的实时性、稳定性和泛化性。
附图说明
图1是本发明的系统整体框架图。
图2是本发明的系统仿真训练框架图。
图3-图6是路径1-4下仿真训练时的奖励,循迹的成功率和完成循迹时的偏差,其中图3是路径1的环境及仿真训练结果,图4是路径2的环境及仿真训练结果,图5是路径3的环境及仿真训练结果,图6是路径4的环境及仿真训练结果。
图7是本发明的图像处理模块流程图。
图8-图9为实际循迹路径环境和循迹时的偏差曲线,其中图8是实际循迹路径1的环境及在该路径下的循迹测试结果,图9是实际循迹路径2的环境及在该路径下的循迹测试结果。
具体实施方式
为了使本发明的目的,技术方案及要点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施实例仅用以解释本发明,并不用于限定本发明。
一种适用于多种复杂路径的移动机器人循线系统,其系统结构框架图如图1所示。平台硬件组成主要包括个人计算机(PC),嵌入式开发板,彩色相机、移动机器人;软件端主要组成包括ROS和Gazebo仿真平台。PC利用仿真环境进行仿真训练,获得网络参数模型;动作策略模块、PID控制器模块、图像处理模块安装在嵌入式开发板上,嵌入式开发板和彩色相机通过USB与移动机器人连接;彩色相机获取彩色RGB图;嵌入式开发板发送运动指令控制移动机器人;移动机器人执行动作,进行循线。
本发明的具体实施方式如下:
ROS和Gazebo仿真平台,Pycharm编程环境安装在Ubuntu环境下;PC使用CPU为Intel core i7-7800k 3.50hz,GPU为Nvidia TITAN Xp;嵌入式开发板为Nvidia JetsonTX2开发板;彩色相机使用RealsenseD435;移动机器人使用麦克纳姆四轮小车。
仿真系统:采用ROS和Gazebo仿真平台,导入移动机器人、彩色相机和不同复杂路径的地图;在pycharm编程环境下采用python语言构建深度强化学习网络模型,如图2所示,包括值函数网络,Q函数网络和决策网络;采用Pycharm与仿真平台进行通信;环境配置完成后,基于SAC-PID方法开始对仿真环境进行训练,网络模型训练框架如图2所示;得到训练完成的网络参数模型并进行保存。在不同难度路径1-4下的仿真训练,强化学习的奖励reward、移动机器人循线的成功率success rate和完成循线过程的误差error如图3-图6所示。进一步地,将在路径3下训练得到的网络模型在路径1,2,4中做循迹测试,测试结果如表1所示;
Figure BDA0003064567500000061
表1
图像处理模块包括:将彩色深度相机置于移动机器人前端,斜下方45°朝向处;图像处理流程如图7所示,从彩色相机获得大小为1280×720的RGB彩色图像,将其转换128×72的HSV图像并进行二值化,得到二值图Ifront;利用透视变换获得二值图Ifront的俯视图Itop;对二值图Ifront和俯视二值图Itop,分别从图像最下方进行逐行搜索直至得到黑色路径在白色背景下的左右边界点及其中点(xfront,yfront)和(xtop,ytop),其中将xfront归一化就是当前移动机器人的中心线与所要跟随的路径中心线之间的误差e;对二值图Ifront和俯视二值图Itop,分别将点(xfront,yfront)和(xtop,ytop)作为种子点,利用向上的区域生长法获得各自的二维列表形式的区域生长结果Lfront和Ltop,其中列表Lfront和Ltop存储的是图像中代表路径的黑色像素点的坐标;从列表Lfront取出纵坐标分别是最小值、
Figure BDA0003064567500000071
最大值、
Figure BDA0003064567500000072
最大值、
Figure BDA0003064567500000073
最大值,最大值的五个黑色像素点的坐标,并将其归一化为
Figure BDA0003064567500000077
其中i∈{1,2,3,4,5},作为将要跟随的路径上的五个点;从列表Ltop取出纵坐标分别是最小值、
Figure BDA0003064567500000074
最大值和最大值的三个黑色像素点的坐标
Figure BDA0003064567500000075
其中i∈{1,2,3},然后利用三点法获得所要跟随的路径曲率之间的误差,再与当前移动机器人的曲率相比较,获得曲率误差ec
动作策略模块包括:导入仿真训练后的策略网络模型,并接收图像处理模块所发送的路径信息
Figure BDA0003064567500000076
当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差ec和机器人I/O模块发送的当前机器人的运动信息与位姿信息。如果机器人离开路线或完成一次循线任务后回到原点,就发送给移动机器人的线速度v=0;否则,根据策略网络计算最优PID控制器参数{kp,ki,kd,kpc,kic,kdc},其中{kp,ki,kd}是主要PID控制器的比例、积分和微分参数,{kpc,kic,kdc}是辅助PID控制器的比例、积分和微分参数;选择参数a=0.25和b=0.3,并根据当前移动机器人的中心线与所要跟随的路径中心线之间的误差e计算移动机器人所需线速度v,如公式(1)所示,其中线速度v范围为[0.05,0.3]。
PID控制器模块包括:从图像处理模块接收路径跟踪误差e和ec,从动作策略模块接收最优PID控制器参数{kp,ki,kd,kpc,kic,kdc};根据公式(2)(1)(1)(1)(1)(1),计算出主要PID控制器的输出Δωm;根据公式(3),计算出辅助PID控制器的输出Δωc;选择η=0.5作为辅助PID控制器所占的权重系数,根据Δωm和Δωc,计算出移动机器人的角速度的增量Δω。
机器人I/O模块包括:接收PID控制器模块发送的角速度的增量Δω,根据公式(5)计算得到当前时刻t要发送给移动机器人的角速度ωt;接收动作策略模块发送的线速度v作为当前时刻t要发送给移动机器人的线速度vt;发送当前时刻t的运动指令,即线速度vt和角速度ωt,给移动机器人;发送实时的运动信息和位姿信息给动作策略模块,发送实时的彩色相机图像信息给图像处理模块。
机器人模块包括:移动机器人接收运动指令线速度vt和角速度ωt后,控制移动机器人进行循线运动,并实时返回运动信息、位姿信息和彩色相机图像信息给机器人I/O模块。
将在路径4下仿真训练得到的网络模型应用于实际机器人循线系统,在如图8和图9所示的循线环境下循迹成功率均达到80%,循迹过程中的偏差曲线如图8和图9所示,有较好的循迹稳定性。
以上是整个系统的控制情况。仿真模块的存在减少了实际训练可能会导致的计算资源浪费和其他安全问题,提高了实际移动机器人循线任务的成功率;图像处理模块采用向上生长的区域生长法,提高了整个系统的实时性;动作策略模块可以实时有效的寻找最优PID参数,保证最优性和实时性;PID控制器模块采用增量式输出,减小了移动机器人循线时的抖动,是循线过程更加平滑。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (3)

1.一种适用于多种复杂路径的移动机器人循线系统,其特征在于:包括仿真训练模块,动作策略模块、PID控制器模块、图像处理模块,机器人I/O模块,机器人模块和RGB彩色相机;其中动作策略模块、PID控制器模块、图像处理模块安装在嵌入式开发板上;嵌入式开发板和彩色相机通过USB与移动机器人连接;彩色相机获取彩色RGB图;嵌入式开发板发送运动指令控制移动机器人;移动机器人执行动作,进行循线;
仿真训练模块,采用机器人仿真软件搭建仿真环境,然后在该仿真环境下对移动机器人进行循线任务的训练,并保存最后训练结束得到的网络参数模型;图像处理模块,接收彩色相机发送的RGB图像,对图像进行一定的处理之后得到图像中当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差ec,和将要跟随的路径上的五个点
Figure FDA0003064567490000011
其中i∈{1,2,3,4,5};动作策略模块,导入训练后的网络参数模型,并接收图像处理模块所发送的路径信息
Figure FDA0003064567490000012
当前移动机器人的中心线与所要跟随的路径中心线之间的误差e和机器人I/O模块发送的当前机器人的运动信息与位姿信息,得到最优PID控制器参数和移动机器人当前所需线速度vt;PID控制器模块,接收图像处理模块发送的路径跟踪误差e和ec,接收动作策略模块发送的最优PID参数,计算得到移动机器人所需角速度的增量Δω;机器人I/O模块,接收动作策略模块和PID控制器模块发送的机器人当前时刻t运动指令,即线速度vt和角速度ωt,并将运动指令发送给机器人模块;机器人模块,接收运动指令,控制移动机器人进行循线运动,并实时反馈移动机器人运动、位姿信息和彩色相机图像信息给机器人I/O模块;
仿真训练模块包括:利用机器人仿真平台ROS构建带RGB相机的移动机器人仿真模型,在仿真软件Gazebo中搭建可视化轨迹环境,并将移动机器人模型映射到可视化仿真环境中;通过RGB相机采集轨迹图像信息,对图像进行处理之后得到图像中当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差ec,和将要跟随的路径上的五个点
Figure FDA0003064567490000013
其中i∈{1,2,3,4,5};通过仿真的Gazebo环境插件获取移动机器人的线速度vt和角速度ωt,结合路径和误差信息构成机器人当前的状态,st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt];基于SAC-PID方法,对循迹机器人进行仿真训练,包括以下步骤:
(1)初始化两个相同的动作价值网络Q(θi),i∈{1,2},状态价值网络V(ψ)和策略网络π(φ),其中φ,ψ,θi分别为策略网络,状态价值函数网络和动作价值函数网络的参数;初始化经验回放池R,设定训练回合数N;
(2)状态st输入策略网络π(φ),输出六维PID控制参数Kt给双增量式PID控制器,PID控制器输出角速度指令,根据偏差的绝对值输出线速度指令;移动机器人执行动作后,计算奖励r,获取新的状态st+1和回合结束标志F,将(st,Kt,rt,st+1,F)存入经验回放池R中;
(3)基于深度强化学习SAC算法,从经验回放池R中随机抽取d个数组利用随机梯度下降算法更新网络模型的参数,若len(R)<d,则跳过这一步骤;
(4)当机器人完成循迹任务或者离开轨迹时进入下一个训练回合,直到机器人完成给定的回合数N,结束仿真训练,将训练好的网络模型保存在PC中;
图像处理模块包括:从彩色相机获取RGB彩色图像,将其转换为HSV图像并进行二值化,得到二值图Ifront;利用透视变换获得该二值化图像Ifront的俯视图Itop;对二值图Ifront和俯视二值图Itop,分别从图像最下方进行逐行搜索直至得到黑色路径在白色背景下的左右边界点及其中点(xfront,yfront)和(xtop,ytop),其中将xfront归一化就是当前移动机器人的中心线与所要跟随的路径中心线之间的误差e;对二值图Ifront和俯视二值图Itop,分别将点(xfront,yfront)和(xtop,ytop)作为种子点,利用向上的区域生长法获得各自的二维列表形式的区域生长结果Lfront和Ltop,其中列表Lfront和Ltop存储的是图像中代表路径的黑色像素点的坐标;从列表Lfront取出纵坐标分别是最小值、
Figure FDA0003064567490000021
最大值、
Figure FDA0003064567490000022
最大值、
Figure FDA0003064567490000023
最大值和最大值的五个黑色像素点的坐标,并将其归一化为
Figure FDA0003064567490000024
其中i∈{1,2,3,4,5},作为将要跟随的路径上的五个点;从列表Ltop取出纵坐标分别是最大、最小和
Figure FDA0003064567490000025
最大值的三个黑色像素点的坐标
Figure FDA0003064567490000026
其中i∈{1,2,3},然后利用三点法获得所要跟随的路径曲率之间的误差,再与当前移动机器人的曲率相比较,获得曲率误差ec
动作策略模块包括:导入仿真训练后的策略网络模型,并接收图像处理模块所发送的路径信息
Figure FDA0003064567490000027
当前移动机器人的中心线与所要跟随的路径中心线之间的误差e、当前移动机器人的曲率与所要跟随的路径曲率之间的误差ec和机器人I/O模块发送的当前机器人的运动信息与位姿信息;如果机器人离开路线或完成一次循线任务后回到原点,就发送给移动机器人的线速度v=0;否则,根据策略网络计算最优PID控制器参数{kp,ki,kd,kpc,kic,kdc},其中{kp,ki,kd}是主要PID控制器的比例、积分和微分参数,{kpc,kic,kdc}是辅助PID控制器的比例、积分和微分参数;并根据当前移动机器人的中心线与所要跟随的路径中心线之间的误差e计算移动机器人所需线速度v,如公式(1)所示,其中|e(t)|∈[0,1],且a和b是用来限制移动机器人的线速度的正实数;因此最终发送给移动机器人的线速度v范围为[b,b-a],其中要求a≥0;
v=-a|e(t)|+b (1)
PID控制器模块包括:从图像处理模块接收路径跟踪误差e和ec,从动作策略模块接收最优PID控制器参数{kp,ki,kd,kpc,kic,kdc};根据公式(2),计算出主要PID控制器的输出Δωm,其中e(t)、e(t-1)和e(t-2)分别是t,t-1和t-2时刻的误差e的数值;根据公式(3),计算出辅助PID控制器的输出Δωc,其中ec(t),ec(t-1)和ec(t-2)分别是t,t-1和t-2时刻的ec;根据公式(4),计算出移动机器人的角速度的增量Δω,其中η∈[0,1]是辅助PID控制器所占的权重系数;
Figure FDA0003064567490000031
Δωc=kpc[ec(t)-ec(t-1)]+kicec(t)+kdc[ec(t)-2ec(t-1)+ec(t-2)] (3)
Δω=Δωm+ηΔωc (4)
ωt=ωt-1+Δωm+ηΔωc (5)
机器人I/O模块包括:接收PID控制器模块发送的角速度的增量Δω,根据公式(5)计算得到当前时刻t要发送给移动机器人的角速度ωt,其中ωt-1是上一时刻t-1发送给移动机器人的角速度;接收动作策略模块发送的线速度作为当前时刻t要发送给移动机器人的线速度vt;发送当前时刻t的运动指令,即线速度vt和角速度ωt,给移动机器人;发送实时的运动信息和位姿信息给动作策略模块,发送实时的彩色相机图像信息给图像处理模块;
机器人模块包括:移动机器人接收运动指令线速度vt和角速度ωt后,控制移动机器人进行循线运动,并实时返回运动信息、位姿信息和彩色相机图像信息给机器人I/O模块。
2.根据权利要求1所述的一种适用于多种复杂路径的移动机器人循线系统,其特征在于:实现了在复杂位置环境下,基于深度强化学习的PID控制器的自适应最优参数整定。
3.根据权利要求1所述的一种适用于多种复杂路径的移动机器人循线系统,其特征在于:所述仿真模块中,以先在仿真环境中进行神经网络参数的训练,继而用于实际系统,提高了实际移动机器人循线任务的成功率。
CN202110522424.4A 2021-05-13 2021-05-13 一种适用于多种复杂路径的移动机器人循线系统 Active CN113359703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110522424.4A CN113359703B (zh) 2021-05-13 2021-05-13 一种适用于多种复杂路径的移动机器人循线系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110522424.4A CN113359703B (zh) 2021-05-13 2021-05-13 一种适用于多种复杂路径的移动机器人循线系统

Publications (2)

Publication Number Publication Date
CN113359703A true CN113359703A (zh) 2021-09-07
CN113359703B CN113359703B (zh) 2022-04-19

Family

ID=77526386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110522424.4A Active CN113359703B (zh) 2021-05-13 2021-05-13 一种适用于多种复杂路径的移动机器人循线系统

Country Status (1)

Country Link
CN (1) CN113359703B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143205A (ja) * 1996-11-12 1998-05-29 Yamatake Honeywell Co Ltd Sacコントローラ
CN106990786A (zh) * 2017-05-12 2017-07-28 中南大学 智能小车的循迹方法
CN107963147A (zh) * 2016-10-20 2018-04-27 白文晋 一种移动式循迹智能小车
CN108052002A (zh) * 2017-11-21 2018-05-18 杭州电子科技大学 一种改进的模糊pid的智能汽车自动循迹方法
CN109116855A (zh) * 2018-09-25 2019-01-01 湖北师范大学 一种移动小车循迹控制方法及系统
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111090276A (zh) * 2018-10-20 2020-05-01 吴恩泓 一种基于视觉的工业运输无人车

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143205A (ja) * 1996-11-12 1998-05-29 Yamatake Honeywell Co Ltd Sacコントローラ
CN107963147A (zh) * 2016-10-20 2018-04-27 白文晋 一种移动式循迹智能小车
CN106990786A (zh) * 2017-05-12 2017-07-28 中南大学 智能小车的循迹方法
CN108052002A (zh) * 2017-11-21 2018-05-18 杭州电子科技大学 一种改进的模糊pid的智能汽车自动循迹方法
CN109116855A (zh) * 2018-09-25 2019-01-01 湖北师范大学 一种移动小车循迹控制方法及系统
CN111090276A (zh) * 2018-10-20 2020-05-01 吴恩泓 一种基于视觉的工业运输无人车
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置

Also Published As

Publication number Publication date
CN113359703B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
Yu et al. Coordination of multiple robotic fish with applications to underwater robot competition
Kumar et al. Optimal control with learned local models: Application to dexterous manipulation
Siradjuddin et al. Image-based visual servoing of a 7-DOF robot manipulator using an adaptive distributed fuzzy PD controller
Shen et al. Autonomous multi-floor indoor navigation with a computationally constrained MAV
Sangdani et al. Genetic algorithm-based optimal computed torque control of a vision-based tracker robot: Simulation and experiment
CN102722697B (zh) 一种无人飞行器视觉自主导引着陆的目标跟踪方法
WO2019076044A1 (zh) 移动机器人局部运动规划方法、装置及计算机存储介质
CN109108942A (zh) 基于视觉实时示教与自适应dmps的机械臂运动控制方法和系统
Kim et al. Maximum Mean Discrepancy Imitation Learning.
Martínez-Marín et al. Fast reinforcement learning for vision-guided mobile robots
Liu et al. Episodic memory-based robotic planning under uncertainty
Liu et al. Pixel-to-action policy for underwater pipeline following via deep reinforcement learning
Fahmi et al. Vital: Vision-based terrain-aware locomotion for legged robots
CN113359704B (zh) 一种适用于复杂未知环境的自适应sac-pid方法
CN113359703B (zh) 一种适用于多种复杂路径的移动机器人循线系统
CN111176324B (zh) 一种多无人机分布式协同编队规避动态障碍的方法
Aggarwal et al. DLVS: time series architecture for image-based visual servoing
CN110926470A (zh) 一种agv导航控制方法及系统
CN114610047B (zh) 一种在线深度估计的qmm-mpc水下机器人视觉对接控制方法
El-Fakdi et al. Policy gradient based reinforcement learning for real autonomous underwater cable tracking
Zhao et al. Team JSK at MBZIRC 2020: Interception of fast flying target using multilinked aerial robot.
Aspragkathos et al. Event-triggered image moments predictive control for tracking evolving features using UAVs
Fidelman et al. The chin pinch: A case study in skill learning on a legged robot
Huang et al. Accelerating Training of Reinforcement Learning-Based Construction Robots in Simulation Using Demonstrations Collected in Virtual Reality
Maeda et al. View-based programming with reinforcement learning for robotic manipulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant