CN112130570A - 一种基于强化学习的最优输出反馈控制器的导盲机器人 - Google Patents

一种基于强化学习的最优输出反馈控制器的导盲机器人 Download PDF

Info

Publication number
CN112130570A
CN112130570A CN202011033850.3A CN202011033850A CN112130570A CN 112130570 A CN112130570 A CN 112130570A CN 202011033850 A CN202011033850 A CN 202011033850A CN 112130570 A CN112130570 A CN 112130570A
Authority
CN
China
Prior art keywords
robot
blind
blind guiding
voice
guiding robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011033850.3A
Other languages
English (en)
Other versions
CN112130570B (zh
Inventor
陈刚
林卓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202011033850.3A priority Critical patent/CN112130570B/zh
Publication of CN112130570A publication Critical patent/CN112130570A/zh
Application granted granted Critical
Publication of CN112130570B publication Critical patent/CN112130570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Electromagnetism (AREA)
  • Optics & Photonics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种基于强化学习的最优输出反馈控制器的导盲机器人,属于机器人技术领域。通过采用realsense D435i深度摄像机作为视觉传感器,能够准确且高效的获取导盲机器人在前进引导过程中的实时环境信息。为解决导盲机器人在移动过程中所面临诸多不稳定因素的问题,设计了一种基于ADP方法的无模型同步积分强化学习控制器,通过构建基于强化学习的导盲机器人系统的代价函数,建立所构建代价函数的HJB方程,通过基于同步强化学习的方法求解HJB方程,最后通过迭代的方法得到最优解,实现导盲机器人系统的最优控制。

Description

一种基于强化学习的最优输出反馈控制器的导盲机器人
技术领域
本发明属于机器人技术领域,涉及一种基于强化学习的最优输出反馈控制器的导盲机器人。
背景技术
目前,导盲机器类型并不是很多,其主要类型有(1)导盲手杖:视觉障碍者最普遍的就是手握一根白色手杖,但是手杖结构简单,并不智能,其正在被一种叫做镭射手杖的导盲机器所取代;(2)穿戴式导盲辅助工具:可分为引导式和全景式;引导式主要是避障,而全景式在避障的功能要求之上加入了超声波,试图对视觉障碍者的周边环境进行构图。(3)移动式导盲机器人:其主要原理是以移动机器人为基础,加入红外传感及超声波模块来探测周围障碍物。上述三种导盲机器类型中,最智能化的就是移动式导盲机器人,但是现今常见的导盲机器人中,大多采用的是红外传感器和超声波来探测障碍物,超声波的原理是通过超声波碰到杂质或分界面会产生显著反射形成反射成回波,通过接受回波判断前方是否有物体,以及物体的距离的,但是在盲人行驶道路的复杂环境中并不适用。
在本专利中设计的导盲机器人采用YOLOV3深度学习算法和深度摄像机数据的目标辨识方法,对深度摄像机数据集进行标注,然后对采用的YOLOV3深度学习网络进行训练,将训练完成的参数输出,使用测试集对模型进行目标检测效果测试。这种目标识别方法更加精确也更加灵活,可以在盲人行驶道路上识别移动障碍物和静止障碍物,基于这种识别方式的导盲机器人更加智能化。
在现今众多导盲机器人应用中,很少考虑设计一种稳定,有效的控制算法使导盲机器人在行驶和人机交互时更加稳定。因为导盲机器人在引导盲人行走时,会遇见许多突发事件,如突然袭来的自行车或人;道路不平;上坡或下坡;与人进行语音交互时突然受到外来信号干扰等,这些外来干扰都会影响导盲机器人的品质及控制的稳定性。所以设计一种有效的控制算法对导盲机器人进行控制就显得十分重要。所以在本发明中采用模型完全未知的积分强化学习算法构造控制器对导盲机器人进行控制。强化学习算法(RL)是建立在成功的控制策略应该被记住的想法上,而后通过一个强化信号使得它们可以在第二次使用。强化学习算法求解最优控制问题的主要优点是不需要知道系统动力学知识及相关辨识的基础上,只在系统能够获得足够的数据,则可根据预定义的性能指标函数逼近最优控制策略。强化学习算法(RL)通常基于策略迭代(PI)技术,在策略评估和策略改进之间进行迭代。而积分强化学习(IRL)是在线性和非线性强化学习算法的基础上,将积分步骤中的时间间隔(t,t+T)视为强化信号,这个算法放宽了对输入耦合动力学知识的局限,即对系统是完全未知的。IRL算法对传统强化学习算法的策略评估和策略改进分别都进行了优化。在本发明中,我采用的是一种在线同步策略迭代技术,其critic和actor是同时更新的,通过在actor的优化中加入一个额外的约束条款,可以保证闭环系统的动态稳定性。
但是考虑到导盲机器人在引导行驶过程中会发生许多未知的变故(一般在实际装置中,都普遍存在振幅约束,即约束输入或执行器饱和),所以在控制器设计过程中必须考虑约束控制输入,导盲机器人在实际情况中系统状态的不可测,所以在本发明中设计了一种基于强化学习的最优输出反馈控制器。
发明内容
有鉴于此,本发明的目的在于提供一种基于强化学习的最优输出反馈控制器的导盲机器人。
为达到上述目的,本发明提供如下技术方案:
一种基于强化学习的最优输出反馈控制器的导盲机器人,包括底层硬件层、感知层和策略层;
采用分层控制,基于ROS机器人操作系统,采用4个伺服电机配套4个万向轮的轮式机器人;
底层用于完成机器人本体的硬件平台搭建;
其中DSP作为底层的控制器,用于采集陀螺仪和里程计信息,并且控制伺服电机的运动;
感知层和策略层的PC用于感知层和策略层的信息采集与计算。
可选的,所述4个伺服电机采用24V供电,通过DSP编码,将上层发布的轮速信息处理后执行;
采用24V 10AH的锂电池作为机器人的底层供电电源;其中,伺服电机驱动器为24V供电,DSP为5V供电;稳压模块调节电压,使其输出一个5V电压。
可选的,所述感知层由视觉识别和语音识别两部分组成;
其中,视觉感知部分为:
1)基于realsense D435i深度摄像机的导盲机器人视觉识别系统的实现
根据机器人与识别目标的位置,第一摄像头向下倾斜30安装,第二摄像头向上倾斜20°安装;机器人后方安装第三摄像头实现主人面部识别与跟踪;深度相机通过USB与上位机连接,激光雷达通过以太网与上位机通信;
2)基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
通过ROS系统中的Master发布命令,运行realsense D435i深度摄像机启动节点,读入图像或视频流,通过OPENCV和ROS的接口完成图像格式转换,将采集到的图像储存,使用Python构建深度学习数据集,安装REQUESTS包,创建Python脚本下载图像,配置环境,然后修剪深度学习图像数据集;
3)基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法实现
准备数据:使用yolo_mark对图片进行标注
修改配置文件:修改训练数据、验证数据、物体名称文件路径,修改神经网络的详细构建参数
训练及输出:训练网络,输出参数进行保存;
测试:验证模型效果
导盲机器人系统搭建在ROS机器人操作系统下,视觉图像数据采集储存在ROS系统中,需要在Ubuntu系统下构建YOLOV3深度学习网络;
导盲机器人通过第一摄像头和第二摄像头与YOLOV3深度学习网络识别出前方物体信息,将物体的具体识别信息以及位置坐标回传给上位机,通过第三摄像头来识别主人信息,再通过上层决策信息来决定机器人运动;
盲道识别:
采用基于颜色区域的图像分割的方法,筛选出盲道区域,并对盲道区域进行边缘提取实现盲道的识别;首先将图像由RGB转为HSI色彩空间,RGB色彩空间到HSI色彩空间的转换关系如下:
Figure BDA0002704515310000031
Figure BDA0002704515310000032
Figure BDA0002704515310000033
通过转换后得到在HSI色彩空间上的图像;
语音识别部分为:
1)基于ROS的语音交互系统搭建
语音云服务平台是位于云端的服务器,包括语音识别、语义理解和语音合成;除去语音云服务平台系统分为三层:其中最底层为Linux内核,为系统运行环境;其次是中间层,该层主要是第三方库以及ROS系统;基于ROS的人机语音交互系统从采集语音一直到机器人做出响应,划分为如下几个功能节点:语音识别节点、语义分析节点、实时性信息获取节点、语音合成节点和音频播放节点;
在ROS中实现的语音交互主要功能包括:语音信息采集、语音识别节点、语音合成节点、语义分析节点、实时性信息获取节点、机器人控制功能节点;
语音信息采集:通过机器人外置麦克风采集语音信息,将采集的语音信息存储为音频文件;
语音识别节点:语音识别节点负责将采集的语音信息识别为文字信息;
语音合成节点:语音合成节点负责将请求信息合成为音频;
语义分析节点:语义分析节点具有对从语音识别节点接收到的请求信息进行理解,以判决机器人应该执行何种操作的功能;
实时性信息获取节点:通过实时性信息获取节点能得到实时变化的信息内容;
机器人控制功能节点:机器人控制功能节点包括控制机器人行走、避障、到达指定位置等节点;
2)语音人机交互具体需实现的功能
盲人以语音的形式唤醒导盲机器人;
盲人以语音形式控制导盲机器人选择模式;
导盲机器人遇到障碍时,播报“前方有障碍物,请注意通行”;
导盲机器人在识别到盲道时,播报“前方盲道,请沿盲道行走”;
导盲机器人识别出红绿灯时,播报“前方红绿灯,请等待”;
导盲机器人识别绿灯剩余时间时,播报“绿灯时间不足,请等待下次通行”。
可选的,所述策略层中,导盲机器人在路径规划中的相关动作决策,包括接受视觉传来的障碍物信息后改变电机转向绕开障碍物、在红灯时控制电机停止、在红灯转绿灯时启动电机、盲人通过语音唤醒时启动导盲机器人以及相应控制算法的实现;
为确保导盲机器人因故障无法自主控制时,还设置手势杆操作器;
手势杆操作器输入功能:在自由散步模式下,通过手势杆操作器控制机器人同时为方便盲人使用手势杆操作器,手势杆操作器的按键应设计得更适合盲人使用;在手势杆操作器中箭头方向表示机器人运动的方向,中间圆形键表示为暂停键;当运行在自由散步模式下时,通过手势杆操作器方向实现对机器人的运动控制;
将底层信息及里程计和陀螺仪信息传到机器人,通过RS232通讯线使机器人PC传递位置信息给主控DSP320F2812;选择DSP320F2815作为主控芯片,DSP320F281含有多种外接接口,输出PWM波和脉冲信号的功能,通过RS232通讯线接受PC端传递来的信息。
可选的,所述导盲机器人的动态模型为:
Figure BDA0002704515310000051
其中
Figure BDA0002704515310000052
是不可测系统状态向量,
Figure BDA0002704515310000053
是系统的控制输入,y(t)是系统唯一输出;
现假定f(0)=0,f(x)是未知的且满足||f(x)||≤bf||x||,bf是一个常量;g(x)是已知且有界的,0<||g(x)||≤bg,bg是一个常量;
定义导盲机器人系统的代价函数:
Figure BDA0002704515310000054
其中,
Figure BDA0002704515310000055
Q(y(τ))=yT(τ)Qy(τ)是正定且连续可微的;U(u(τ))是被积函数;考虑系统的输入受限,定义以下一个非二次性能函数:
Figure BDA0002704515310000056
其中,
Figure BDA0002704515310000057
β(·)=tanh(·),λ是饱和有界的;R=diag(r1,r2,…,rm)>0是对角型;
通过设置基于输出反馈的神经网络观测器,导盲机器人运行时,将实时状态传给设计的控制器进行处理后使系统稳定;
系统状态x(t)不可测,基于输出反馈的状态观测器的动态模型如下:
Figure BDA0002704515310000058
由于系统动态模型fi(xi)的内部函数未知,用神经网络来估计fi(xi):
Figure BDA0002704515310000059
其中
Figure BDA00027045153100000510
是赫尔维茨矩阵;
Figure BDA00027045153100000511
为神经网络权重,且||ωoi||≤||ωomi||;
Figure BDA00027045153100000512
为神经网络激活函数,且
Figure BDA0002704515310000061
不妨将系统的动态模型写成:
Figure BDA0002704515310000062
其中,n(x(t))=f(x)-A0ix(t),
Figure BDA0002704515310000063
是赫尔维茨矩阵;
则观测器的动态模型为:
Figure BDA0002704515310000064
其中,
Figure BDA0002704515310000065
Figure BDA0002704515310000066
Figure BDA0002704515310000067
是所设计观测器的状态;K是观测器的增益,(A0i-KC)是赫尔维茨矩阵;系统满足:
(A0i-KC)TP+P(A0i-KC)=-qI (8)
其中,q是正常量,I是一个单位矩阵,P是一个对称正定矩阵;
定义观测器误差为
Figure BDA0002704515310000068
则:
Figure BDA0002704515310000069
其中,
Figure BDA00027045153100000610
是构造的神经网络观测器的估计误差;
选择下面李雅普诺夫函数:
Figure BDA00027045153100000611
将上面李雅普诺夫函数进行求导:
Figure BDA00027045153100000612
根据观测器测得的误差
Figure BDA00027045153100000613
知:
Figure BDA00027045153100000614
将(8)(9)(12)带入(11)得:
Figure BDA0002704515310000071
由于tr(ABT)=tr(BAT)=BAT,(13)改写成:
Figure BDA0002704515310000072
因为ωoi
Figure BDA0002704515310000073
ξoi(xi)有界,式(15)整理为:
Figure BDA0002704515310000074
所以:
Figure BDA0002704515310000075
Figure BDA0002704515310000076
为使
Figure BDA0002704515310000077
只需令
Figure BDA0002704515310000078
即只要满足:
Figure BDA0002704515310000079
机器人的输出
Figure BDA00027045153100000710
代价函数写成下面的形式:
Figure BDA00027045153100000711
其中,Qc=CTQC半正定的;
利用牛顿-莱布尼茨公式对式(18)中时间t求导得到贝尔曼方程:
Figure BDA0002704515310000081
联立(3)(19)得:
Figure BDA0002704515310000082
定义Hamiltonian方程为:
Figure BDA0002704515310000083
令最优代价函数为
Figure BDA0002704515310000084
Figure BDA0002704515310000085
则根据(21)中Hamiltonian方程,得到如下HJB方程
Figure BDA0002704515310000086
当稳定性条件
Figure BDA0002704515310000087
时,得到如下最优控制输入:
Figure BDA0002704515310000088
由于HJB方程很难求解,在该算法中采用IRL的策略迭代来求解上述HJB方程;
首先将(18)中的值函数写成下面贝尔曼方程的形式:
Figure BDA0002704515310000089
得到下面基于策略迭代的在线IRL算法:
算法:基于策略迭代的在线IRL算法求解HJB方程
步骤1:利用下式解出J(i)(x(t))
Figure BDA0002704515310000091
步骤2:通过下式更新控制策略:
Figure BDA0002704515310000092
步骤3:令
Figure BDA0002704515310000093
返回步骤1,直到J(i)x(t)收敛到最小值。
本发明的有益效果在于:
1、本设计采用多传感器融合技术,以DSP320F2815作为主控芯片,可以实现导盲机器人的多功能协同处理;
2、本设计采用HOKUYO激光雷达和realsense D435i深度摄像机共同对障碍物信息进行处理,提高了识别的精确性,使得导盲机器人无论是在识别障碍物还是在识别盲道、红绿灯方面的精度都有了很大的提高;
3、本设计对YOLOv3网络结构的改进,其检测的精度更高,通过前方摄像头与YOLOV3深度学习网络识别出前方物体信息通过后方摄像头来识别主人信息,再通过上层决策信息来决定机器人运动,通过采用ROS系统可以很方便地处理上传的具体识别信息;
4、本设计采用基于ROS系统的语音处理模块,通过使用ROS提供的话题、服务方式实现系统中相关模块之间的通信,同时定义通信时的信息格式。通过调用ROS中已经开源的语音交互功能包可以很好的实现盲人与导盲机器人之间的语音交互。解决了目前大多数导盲机器人在人机交互上的缺陷;
5、本设计提出了一种基于强化学习的最优输出反馈控制器。在导盲机器人状态未知的情况下,采用基于策略迭代的在线IRL算法求解HJB方程,得到输出最优的反馈控制器,解决了导盲机器人在运行过程易受外界干扰的问题,使导盲机器人能够稳定的工作。
6、本发明中设计了基于输出反馈的神经网络状态观测器来观测跟随者的状态。可以使系统在不稳定的情况下也能实时观测系统的状态,性能十分稳定。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为导盲机器人硬件平台;
图2为激光雷达、深度相机与上位机通信;
图3为导盲机器人视觉感知模块;
图4为语音识别模块与master之间的通信架构;
图5为语音播报功能实现;
图6为手势杆;
图7为平台原理图;
图8为本发明计算机运行流程图;
图9为语音信息采集流程图;
图10为本发明流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图10,为一种基于强化学习的最优输出反馈控制器的导盲机器人,通过采用realsense D435i深度摄像机作为视觉传感器,能够准确且高效的获取导盲机器人在前进引导过程中的实时环境信息。为了增强导盲机器人的人机交互,在本发明中还设计了一种语音系统,在导盲机器人中加入语音模块不仅能使导盲机器人更加智能,而且还可以解决机器人无法灵活将路况信息传送给盲人的缺陷。同时,为解决导盲机器人在移动过程中所面临诸多不稳定因素的问题,设计了一种基于ADP方法的无模型同步积分强化学习控制器,通过构建基于强化学习的导盲机器人系统的代价函数,建立所构建代价函数的HJB(Hamilton Jacobi Bellman)方程,通过基于同步强化学习的方法求解HJB方程,最后通过迭代的方法得到最优解,实现导盲机器人系统的最优控制。并设计了一整套适用于盲人引导环境的导盲机器人软硬件系统。
本发明设计的导盲机器人采用分层设计主要分为底层(硬件层)、感知层、策略层。
导盲机器人是基于ROS机器人操作系统、采用4个万向轮的轮式机器人。采用分层控制,其中DSP作为底层的控制器,主要采集陀螺仪和里程计信息,并且控制伺服电机的运动。上层的PC主要用于感知层和策略层的信息采集与计算。
第一部分导盲机器人的底层设计
底层主要是完成机器人本体的硬件平台搭建,如图1所示。
①基于万向轮的伺服底盘系统实现
为实现机器人的灵活运动,本方案采用4个伺服电机配套4个万向轮作小车的移动执行机构,万向轮的布局方式采用对角线式。4个伺服电机采用24V供电,通过DSP编码,将上层发布的轮速信息处理后执行。
②HOKUYO激光雷达
可用于高速运动机器人避障和位置识别;高精度、高分辨率、宽视场设计给自主导航机器人提供了良好的环境识别能力;紧凑型设计节约了安装空间,低重量、低功耗。在本发明中,采用HOKUYO激光雷达可以十分灵敏的检测到前方障碍物,将障碍物的大小及距离信息上传至上位机处理,通过与视觉信息融合处理后可以在精度非常高的情况下实现物体识别及避障处理。
③配供电系统实现
采用24V 10AH的锂电池作为机器人的底层供电电源。其中,伺服电机驱动器为24V供电,DSP为5V供电。因此,需要稳压模块调节电压,使其输出一个5V电压。
第二部分导盲机器人感知层方案设计
导盲系统的感知层主要由视觉识别和语音识别两部分组成。
一、视觉感知部分
(1)视觉部分需实现的功能
①基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
ROS(机器人操作系统)是当今十分流行的一种机器人软件编写架构,本设计中,在ROS系统搭建导盲机器人的视觉感知模块,可以十分方便的处理信息传递不及时以及信息处理帧率慢的缺陷。搭建基于ROS的目标识别系统框架,通过ROS系统建立分析系统和realsense D435i深度摄像机节点的连接,读入图像或视频流以及深度信息,完成采集数据的格式转换的等数据预处理工作。进行实验设计,利用建立的采集系统采集数据,构造训练数据集。
②基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法研究与实现
探索基于YOLOV3深度学习和深度摄像机数据的目标辨识方法,对深度摄像机数据集进行标注,然后对采用的YOLOV3深度学习网络进行训练,将训练完成的参数输出,使用测试集对模型进行目标检测效果测试。
(2)视觉层具体设计方案
1)基于realsense D435i深度摄像机的导盲机器人视觉识别系统的实现
由于机器人前方需要识别红路灯、盲道、斑马线等物体,根据机器人与识别目标的位置,尽量减小其他因素的干扰,一个摄像头需向下倾斜30安装,另外一个摄像头需要向上倾斜20°安装。机器人后方需要安装一个摄像头实现主人面部识别与跟踪。深度相机通过USB与上位机连接,激光雷达通过以太网与上位机通信,如图2所示。
2)基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
ROS具有交叉编译、开源、分布式管理等优点,逐步成为机器人研发领域的通用平台,ROS的出现加强了机器人代码的复用率和模块化,降低了智能机器人开发中不必要的重复劳动。通过ROS系统中的Master发布命令,运行realsense D435i深度摄像机启动节点,读入图像或视频流,通过OPENCV和ROS的接口完成图像格式转换,将采集到的图像储存,使用Python构建深度学习数据集,先安装REQUESTS包,创建Python脚本下载图像,配置环境,然后修剪深度学习图像数据集。ROS系统实现导盲机器人视觉感知模块如图3所示。
3)基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法实现
A.准备数据
使用yolo_mark对图片进行标注
B.修改配置文件
修改训练数据、验证数据、物体名称文件路径,修改神经网络的详细构建参数
C.训练及输出
训练网络,输出参数进行保存。
D.测试
验证模型效果
导盲机器人系统搭建在ROS机器人操作系统下,视觉图像数据采集储存在ROS系统中,需要在Ubuntu系统下构建YOLOV3深度学习网络,首先需要安装对应版本的CUDA和CUDNN,配置编译环境。
导盲机器人通过前方摄像头与YOLOV3深度学习网络识别出前方物体信息,将物体的具体识别信息以及位置坐标回传给上位机,通过后方摄像头来识别主人信息,再通过上层决策信息来决定机器人运动。
盲道识别:
盲道的颜色通常很鲜艳,因此可以通过盲道的颜色特征来进行检测。本文采用基于颜色区域的图像分割的方法,能够筛选出盲道区域,并对盲道区域进行边缘提取实现盲道的识别。首先将图像由RGB转为HSI色彩空间,相对RGB的彩色空间而言,HSI色彩空间同人对色彩的感知一致,符合人的视觉感知,不易受到周围环境的影响。RGB色彩空间到HSI色彩空间的转换关系如下:
Figure BDA0002704515310000131
Figure BDA0002704515310000132
Figure BDA0002704515310000133
通过上述转换后可以得到在HSI色彩空间上的图像。
二、语音识别及人机交互部分
(1)基于ROS的语音交互系统搭建
机器人操作系统ROS使用简单,在确定了人机语音交互系统应具有的功能模块之后,使用ROS提供的话题、服务方式实现系统中相关模块之间的通信,同时定义通信时的信息格式。通过调用ROS中已经开源的语音交互功能包可以很好的实现盲人与导盲机器人之间的语音交互。
语音云服务平台是位于云端的服务器,它为系统提供一系列支持,包括语音识别、语义理解、语音合成等。除去语音云服务平台系统主要分为三层:其中最底层为Linux内核,为系统运行环境;其次是中间层,该层主要是第三方库以及ROS系统。基于ROS的人机语音交互系统从采集语音一直到机器人做出响应,主要划分为如下几个功能节点:语音识别节点,语义分析节点,实时性信息获取节点,语音合成节点,音频播放节点。在ROS中其与master之间的通信架构如图4所示。
在ROS中实现的语音交互主要功能包括:语音信息采集、语音识别节点、语音合成节点、语义分析节点、实时性信息获取节点、机器人控制功能节点。
·语音信息采集:通过机器人外置麦克风采集语音信息,将采集的语音信息存储为音频文件。
·语音识别节点:语音识别节点负责将采集的语音信息识别为文字信息。
·语音合成节点:语音合成节点负责将请求信息合成为音频。
·语义分析节点:语义分析节点具有对从语音识别节点接收到的请求信息进行理解,以判决机器人应该执行何种操作的功能。
·实时性信息获取节点:通过实时性信息获取节点能得到实时变化的信息内容。
·机器人控制功能节点:机器人控制功能节点包括控制机器人行走、避障、到达指定位置等节点。
(2)语音人机交互具体需实现的功能
1、盲人以语音的形式唤醒导盲机器人:如“小明,请一键启动”;
2、盲人以语音形式控制导盲机器人选择模式(自由散步、好友散步):如“小明,请带我到张三家”;
3、导盲机器人遇到障碍时,播报“前方有障碍物,请注意通行”;
4、导盲机器人在识别到盲道时,播报“前方盲道,请沿盲道行走”;
5、导盲机器人识别出红绿灯时,播报“前方红绿灯,请等待”;
6、导盲机器人识别绿灯剩余时间时,播报“绿灯时间不足,请等待下次通行”;
图5为语音播报功能实现。
第三部分 导盲机器人决策层方案设计
1、策略层主要实现导盲机器人在路径规划中的相关动作决策(接受视觉传来的障碍物信息后改变电机转向绕开障碍物、在红灯时控制电机停止、在红灯转绿灯时启动电机、盲人通过语音唤醒时启动导盲机器人)以及相应控制算法的实现。
为确保导盲机器人因故障无法自主控制时,还设计了一种手势杆操作器,如图6所示:
手势杆操作器输入功能:在自由散步模式下,主人可以通过手势杆操作器控制机器人同时为方便盲人使用手势杆操作器,手势杆操作器的按键应设计得更适合盲人使用。在手势杆操作器中箭头方向表示机器人运动的方向,中间圆形键表示为暂停键。当运行在自由散步模式下时,主人只需要通过手势杆操作器方向实现对机器人的运动控制。加入手势杆设计后可以很好的解决自主控制故障的问题,可以让视觉障碍者更加灵活的控制。
2、PC端和机器人的通讯:本发明需要将底层信息及里程计和陀螺仪信息传到机器人,通过RS232通讯线使机器人PC可以传递位置信息给主控DSP320F2812。为实现自主学习,所以对主控芯片有一定的要求,经过分析选择了DSP320F2815作为主控芯片,DSP320F281含有多种外接接口,可以很好地完成输出PWM波和脉冲信号的功能,同时还可以通过RS232通讯线接受PC端传递来的信息,而且由于它的时钟频率达到150MHZ,其处理的速度较快。
第四部分 机器人控制算法
因为本发明中的设计一种新型导盲机器人在引导行驶过程中会发生许多未知的变故(一般在实际装置中,都普遍存在振幅约束,即约束输入或执行器饱和),所以在控制器设计过程中必须考虑约束控制输入,导盲机器人在实际情况中系统状态的不可测,所以在本发明中设计了一种基于强化学习的最优输出反馈控制器。
机器人的动态模型为:
Figure BDA0002704515310000151
其中
Figure BDA0002704515310000152
是不可测系统状态向量,
Figure BDA0002704515310000153
是系统的控制输入,y(t)是系统唯一输出。
现假定f(0)=0,f(x)是未知的且满足||f(x)||≤bf||x||,bf是一个常量;g(x)是已知且有界的,0<||g(x)||≤bg,bg是一个常量。
定义导盲机器人系统的代价函数:
Figure BDA0002704515310000154
其中,
Figure BDA0002704515310000155
Q(y(τ))=yT(τ)Qy(τ)是正定且连续可微的。U(u(τ))是被积函数。所以考虑到系统的输入受限,可以定义以下一个非二次性能函数:
Figure BDA0002704515310000161
其中,
Figure BDA0002704515310000162
β(·)=tanh(·),λ是饱和有界的;R=diag(r1,r2,…,rm)>0是对角型。
考虑到系统是基于完全无模型的设计,所以系统的状态是不可测的,所以在本发明中了一个基于输出反馈的神经网络观测器。通过设计观测器实时观测导盲机器人运行时的状态,将实时状态传给设计的控制器进行处理后使系统稳定。
因为系统状态x(t)不可测,在这里构造基于输出反馈的状态观测器,其状态观测器的动态模型如下:
Figure BDA0002704515310000163
由于系统动态模型fi(xi)的内部函数未知,在此我们用神经网络来估计fi(xi):
Figure BDA0002704515310000164
其中
Figure BDA0002704515310000165
是赫尔维茨矩阵;
Figure BDA0002704515310000166
为神经网络权重,且||ωoi||≤||ωomi||;
Figure BDA0002704515310000167
为神经网络激活函数,且
Figure BDA0002704515310000168
不妨将系统的动态模型写成:
Figure BDA0002704515310000169
其中,n(x(t))=f(x)-A0ix(t),
Figure BDA00027045153100001610
是赫尔维茨矩阵;
则观测器的动态模型为:
Figure BDA00027045153100001611
其中,
Figure BDA00027045153100001612
Figure BDA00027045153100001613
Figure BDA00027045153100001614
是所设计观测器的状态。K是观测器的增益,(A0i-KC)是赫尔维茨矩阵。所以系统满足:
(A0i-KC)TP+P(A0i-KC)=-qI (8)
其中,q是正常量,I是一个单位矩阵,P是一个对称正定矩阵。
定义观测器误差为
Figure BDA0002704515310000171
则:
Figure BDA0002704515310000172
其中,
Figure BDA0002704515310000173
是构造的神经网络观测器的估计误差。
选择下面李雅普诺夫函数:
Figure BDA0002704515310000174
将上面李雅普诺夫函数进行求导:
Figure BDA0002704515310000175
根据观测器测得的误差
Figure BDA0002704515310000176
可知:
Figure BDA0002704515310000177
将(8)(9)(12)带入(11)得:
Figure BDA0002704515310000178
由于tr(ABT)=tr(BAT)=BAT,所以(13)可改写成:
Figure BDA0002704515310000179
因为ωoi
Figure BDA00027045153100001710
ξoi(xi)有界,所以式(4.15)可整理为:
Figure BDA00027045153100001711
所以:
Figure BDA0002704515310000181
Figure BDA0002704515310000182
为使
Figure BDA0002704515310000183
只需令
Figure BDA0002704515310000184
即只要满足:
Figure BDA0002704515310000185
由于机器人的输出
Figure BDA0002704515310000186
所以代价函数也可以写成下面的形式:
Figure BDA0002704515310000187
其中,Qc=CTQC半正定的。
利用牛顿-莱布尼茨公式对式(18)中时间t求导得到贝尔曼方程:
Figure BDA0002704515310000188
联立(3)(19)可得:
Figure BDA0002704515310000189
定义Hamiltonian方程为:
Figure BDA00027045153100001810
令最优代价函数为
Figure BDA00027045153100001811
Figure BDA00027045153100001812
则根据(21)中Hamiltonian方程,可得到如下HJB(Hamilton Jacobi Bellman)方程
Figure BDA00027045153100001813
Figure BDA0002704515310000191
当稳定性条件
Figure BDA0002704515310000192
时,可以得到如下最优控制输入:
Figure BDA0002704515310000193
由于HJB方程很难求解,所以在该算法中采用IRL的策略迭代来求解上述HJB方程。
首先将(18)中的值函数写成下面贝尔曼方程的形式:
Figure BDA0002704515310000194
得到下面基于策略迭代的在线IRL算法:
算法:基于策略迭代的在线IRL算法求解HJB方程
步骤1:(策略评估)利用下式解出J(i)(x(t))
Figure BDA0002704515310000195
步骤2:(策略改进)通过下式更新控制策略:
Figure BDA0002704515310000196
步骤3:令
Figure BDA0002704515310000197
返回步骤1,直到J(i)x(t)收敛到最小值。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:包括底层硬件层、感知层和策略层;
采用分层控制,基于ROS机器人操作系统,采用4个伺服电机配套4个万向轮的轮式机器人;
底层用于完成机器人本体的硬件平台搭建;
其中DSP作为底层的控制器,用于采集陀螺仪和里程计信息,并且控制伺服电机的运动;
感知层和策略层的PC用于感知层和策略层的信息采集与计算。
2.根据权利要求1所述的一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:所述4个伺服电机采用24V供电,通过DSP编码,将上层发布的轮速信息处理后执行;
采用24V 10AH的锂电池作为机器人的底层供电电源;其中,伺服电机驱动器为24V供电,DSP为5V供电;稳压模块调节电压,使其输出一个5V电压。
3.根据权利要求1所述的一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:所述感知层由视觉识别和语音识别两部分组成;
其中,视觉感知部分为:
1)基于realsense D435i深度摄像机的导盲机器人视觉识别系统的实现
根据机器人与识别目标的位置,第一摄像头向下倾斜30安装,第二摄像头向上倾斜20°安装;机器人后方安装第三摄像头实现主人面部识别与跟踪;深度相机通过USB与上位机连接,激光雷达通过以太网与上位机通信;
2)基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
通过ROS系统中的Master发布命令,运行realsense D435i深度摄像机启动节点,读入图像或视频流,通过OPENCV和ROS的接口完成图像格式转换,将采集到的图像储存,使用Python构建深度学习数据集,安装REQUESTS包,创建Python脚本下载图像,配置环境,然后修剪深度学习图像数据集;
3)基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法实现
准备数据:使用yolo_mark对图片进行标注
修改配置文件:修改训练数据、验证数据、物体名称文件路径,修改神经网络的详细构建参数
训练及输出:训练网络,输出参数进行保存;
测试:验证模型效果
导盲机器人系统搭建在ROS机器人操作系统下,视觉图像数据采集储存在ROS系统中,需要在Ubuntu系统下构建YOLOV3深度学习网络;
导盲机器人通过第一摄像头和第二摄像头与YOLOV3深度学习网络识别出前方物体信息,将物体的具体识别信息以及位置坐标回传给上位机,通过第三摄像头来识别主人信息,再通过上层决策信息来决定机器人运动;
盲道识别:
采用基于颜色区域的图像分割的方法,筛选出盲道区域,并对盲道区域进行边缘提取实现盲道的识别;首先将图像由RGB转为HSI色彩空间,RGB色彩空间到HSI色彩空间的转换关系如下:
Figure FDA0002704515300000021
Figure FDA0002704515300000022
Figure FDA0002704515300000023
通过转换后得到在HSI色彩空间上的图像;
语音识别部分为:
1)基于ROS的语音交互系统搭建
语音云服务平台是位于云端的服务器,包括语音识别、语义理解和语音合成;除去语音云服务平台系统分为三层:其中最底层为Linux内核,为系统运行环境;其次是中间层,该层主要是第三方库以及ROS系统;基于ROS的人机语音交互系统从采集语音一直到机器人做出响应,划分为如下几个功能节点:语音识别节点、语义分析节点、实时性信息获取节点、语音合成节点和音频播放节点;
在ROS中实现的语音交互主要功能包括:语音信息采集、语音识别节点、语音合成节点、语义分析节点、实时性信息获取节点、机器人控制功能节点;
语音信息采集:通过机器人外置麦克风采集语音信息,将采集的语音信息存储为音频文件;
语音识别节点:语音识别节点负责将采集的语音信息识别为文字信息;
语音合成节点:语音合成节点负责将请求信息合成为音频;
语义分析节点:语义分析节点具有对从语音识别节点接收到的请求信息进行理解,以判决机器人应该执行何种操作的功能;
实时性信息获取节点:通过实时性信息获取节点能得到实时变化的信息内容;
机器人控制功能节点:机器人控制功能节点包括控制机器人行走、避障、到达指定位置等节点;
2)语音人机交互具体需实现的功能
盲人以语音的形式唤醒导盲机器人;
盲人以语音形式控制导盲机器人选择模式;
导盲机器人遇到障碍时,播报“前方有障碍物,请注意通行”;
导盲机器人在识别到盲道时,播报“前方盲道,请沿盲道行走”;
导盲机器人识别出红绿灯时,播报“前方红绿灯,请等待”;
导盲机器人识别绿灯剩余时间时,播报“绿灯时间不足,请等待下次通行”。
4.根据权利要求1所述的一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:所述策略层中,导盲机器人在路径规划中的相关动作决策,包括接受视觉传来的障碍物信息后改变电机转向绕开障碍物、在红灯时控制电机停止、在红灯转绿灯时启动电机、盲人通过语音唤醒时启动导盲机器人以及相应控制算法的实现;
为确保导盲机器人因故障无法自主控制时,还设置手势杆操作器;
手势杆操作器输入功能:在自由散步模式下,通过手势杆操作器控制机器人同时为方便盲人使用手势杆操作器,手势杆操作器的按键应设计得更适合盲人使用;在手势杆操作器中箭头方向表示机器人运动的方向,中间圆形键表示为暂停键;当运行在自由散步模式下时,通过手势杆操作器方向实现对机器人的运动控制;
将底层信息及里程计和陀螺仪信息传到机器人,通过RS232通讯线使机器人PC传递位置信息给主控DSP320F2812;选择DSP320F2815作为主控芯片,DSP320F281含有多种外接接口,输出PWM波和脉冲信号的功能,通过RS232通讯线接受PC端传递来的信息。
5.根据权利要求1所述的一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:所述导盲机器人的动态模型为:
Figure FDA0002704515300000031
其中
Figure FDA0002704515300000032
是不可测系统状态向量,
Figure FDA0002704515300000033
是系统的控制输入,y(t)是系统唯一输出;
现假定f(0)=0,f(x)是未知的且满足||f(x)||≤bf||x||,bf是一个常量;g(x)是已知且有界的,0<||g(x)||≤bg,bg是一个常量;
定义导盲机器人系统的代价函数:
Figure FDA0002704515300000041
其中,
Figure FDA0002704515300000042
Q(y(τ))=yT(τ)Qy(τ)是正定且连续可微的;U(u(τ))是被积函数;考虑系统的输入受限,定义以下一个非二次性能函数:
Figure FDA0002704515300000043
其中,
Figure FDA0002704515300000044
β(·)=tanh(·),λ是饱和有界的;R=diag(r1,r2,…,rm)>0是对角型;
通过设置基于输出反馈的神经网络观测器,导盲机器人运行时,将实时状态传给设计的控制器进行处理后使系统稳定;
系统状态x(t)不可测,基于输出反馈的状态观测器的动态模型如下:
Figure FDA0002704515300000045
由于系统动态模型fi(xi)的内部函数未知,用神经网络来估计fi(xi):
Figure FDA0002704515300000046
其中
Figure FDA0002704515300000047
是赫尔维茨矩阵;
Figure FDA0002704515300000048
为神经网络权重,且
Figure FDA0002704515300000049
为神经网络激活函数,且
Figure FDA00027045153000000410
不妨将系统的动态模型写成:
Figure FDA00027045153000000411
其中,n(x(t))=f(x)-A0ix(t),
Figure FDA00027045153000000412
是赫尔维茨矩阵;
则观测器的动态模型为:
Figure FDA00027045153000000413
其中,
Figure FDA0002704515300000051
Figure FDA0002704515300000052
Figure FDA0002704515300000053
是所设计观测器的状态;K是观测器的增益,(A0i-KC)是赫尔维茨矩阵;系统满足:
(A0i-KC)TP+P(A0i-KC)=-qI (8)
其中,q是正常量,I是一个单位矩阵,P是一个对称正定矩阵;
定义观测器误差为
Figure FDA0002704515300000054
则:
Figure FDA0002704515300000055
其中,
Figure FDA0002704515300000056
是构造的神经网络观测器的估计误差;
选择下面李雅普诺夫函数:
Figure FDA0002704515300000057
将上面李雅普诺夫函数进行求导:
Figure FDA0002704515300000058
根据观测器测得的误差
Figure FDA0002704515300000059
知:
Figure FDA00027045153000000510
将(8)(9)(12)带入(11)得:
Figure FDA00027045153000000511
由于tr(ABT)=tr(BAT)=BAT,(13)改写成:
Figure FDA00027045153000000512
因为ωoi
Figure FDA0002704515300000061
ξoi(xi)有界,式(15)整理为:
Figure FDA0002704515300000062
所以:
Figure FDA0002704515300000063
为使
Figure FDA0002704515300000064
只需令
Figure FDA0002704515300000065
即只要满足:
Figure FDA0002704515300000066
机器人的输出
Figure FDA0002704515300000067
代价函数写成下面的形式:
Figure FDA0002704515300000068
其中,Qc=CTQC半正定的;
利用牛顿-莱布尼茨公式对式(18)中时间t求导得到贝尔曼方程:
Figure FDA0002704515300000069
联立(3)(19)得:
Figure FDA00027045153000000610
定义Hamiltonian方程为:
Figure FDA00027045153000000611
令最优代价函数为
Figure FDA00027045153000000612
Figure FDA0002704515300000071
则根据(21)中Hamiltonian方程,得到如下HJB方程
Figure FDA0002704515300000072
当稳定性条件
Figure FDA0002704515300000073
时,得到如下最优控制输入:
Figure FDA0002704515300000074
由于HJB方程很难求解,在该算法中采用IRL的策略迭代来求解上述HJB方程;
首先将(18)中的值函数写成下面贝尔曼方程的形式:
Figure FDA0002704515300000075
得到下面基于策略迭代的在线IRL算法:
算法:基于策略迭代的在线IRL算法求解HJB方程
步骤1:利用下式解出J(i)(x(t))
Figure FDA0002704515300000076
步骤2:通过下式更新控制策略:
Figure FDA0002704515300000077
步骤3:令
Figure FDA0002704515300000078
返回步骤1,直到J(i)x(t)收敛到最小值。
CN202011033850.3A 2020-09-27 2020-09-27 一种基于强化学习的最优输出反馈控制器的导盲机器人 Active CN112130570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011033850.3A CN112130570B (zh) 2020-09-27 2020-09-27 一种基于强化学习的最优输出反馈控制器的导盲机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033850.3A CN112130570B (zh) 2020-09-27 2020-09-27 一种基于强化学习的最优输出反馈控制器的导盲机器人

Publications (2)

Publication Number Publication Date
CN112130570A true CN112130570A (zh) 2020-12-25
CN112130570B CN112130570B (zh) 2023-03-28

Family

ID=73840304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033850.3A Active CN112130570B (zh) 2020-09-27 2020-09-27 一种基于强化学习的最优输出反馈控制器的导盲机器人

Country Status (1)

Country Link
CN (1) CN112130570B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN113134187A (zh) * 2021-04-19 2021-07-20 重庆大学 基于积分强化学习的多消防巡检协作机器人系统
CN113311819A (zh) * 2021-03-25 2021-08-27 华南理工大学广州学院 一种由机器狗导盲的方法及机器狗控制系统
CN113778414A (zh) * 2021-11-11 2021-12-10 深圳市越疆科技有限公司 基于图形化编程的机器视觉通讯脚本生成方法和装置
CN114841098A (zh) * 2022-04-13 2022-08-02 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262353A1 (en) * 2012-03-30 2013-10-03 Board Of Regents, The University Of Texas System Optimal online adaptive controller
CN105403222A (zh) * 2015-12-08 2016-03-16 江苏科技大学 基于ros的多导盲机器人及在未知环境中的地图创建方法
CN205251976U (zh) * 2015-10-26 2016-05-25 众德迪克科技(北京)有限公司 一种避障导盲机器人
CN111142536A (zh) * 2020-01-06 2020-05-12 华南师范大学 一种室内导盲机器人
CN111367282A (zh) * 2020-03-09 2020-07-03 山东大学 一种基于多模感知与强化学习的机器人导航方法及系统
CN111609851A (zh) * 2020-05-28 2020-09-01 北京理工大学 一种移动型导盲机器人系统及导盲方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262353A1 (en) * 2012-03-30 2013-10-03 Board Of Regents, The University Of Texas System Optimal online adaptive controller
CN205251976U (zh) * 2015-10-26 2016-05-25 众德迪克科技(北京)有限公司 一种避障导盲机器人
CN105403222A (zh) * 2015-12-08 2016-03-16 江苏科技大学 基于ros的多导盲机器人及在未知环境中的地图创建方法
CN111142536A (zh) * 2020-01-06 2020-05-12 华南师范大学 一种室内导盲机器人
CN111367282A (zh) * 2020-03-09 2020-07-03 山东大学 一种基于多模感知与强化学习的机器人导航方法及系统
CN111609851A (zh) * 2020-05-28 2020-09-01 北京理工大学 一种移动型导盲机器人系统及导盲方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KAO-SHING. HWANG,等: "An unified approach to inverse reinforcement learning by oppositive demonstrations", 《2016 IEEE INTERNATIONAL CONFERENCE ON INDUSTRIAL TECHNOLOGY (ICIT)》 *
严涛: "改进的强化学习算法研究及其在机械臂控制中的应用", 《中国优秀博硕士学位论文全文数据库信息科技辑》 *
孙彧,等: "多智能体深度强化学习研究综述", 《计算机工程与应用》 *
方勇纯,等: "基于路径积分强化学习方法的蛇形机器人目标导向运动", 《模式识别与人工智能》 *
黄志峰: "深度逆向强化学习在机器人视觉伺服控制中的应用", 《中国优秀博硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112947430B (zh) * 2021-02-03 2022-07-15 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN113311819A (zh) * 2021-03-25 2021-08-27 华南理工大学广州学院 一种由机器狗导盲的方法及机器狗控制系统
CN113134187A (zh) * 2021-04-19 2021-07-20 重庆大学 基于积分强化学习的多消防巡检协作机器人系统
CN113134187B (zh) * 2021-04-19 2022-04-29 重庆大学 基于积分强化学习的多消防巡检协作机器人系统
CN113778414A (zh) * 2021-11-11 2021-12-10 深圳市越疆科技有限公司 基于图形化编程的机器视觉通讯脚本生成方法和装置
CN114841098A (zh) * 2022-04-13 2022-08-02 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法
CN114841098B (zh) * 2022-04-13 2023-04-18 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法

Also Published As

Publication number Publication date
CN112130570B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN112130570B (zh) 一种基于强化学习的最优输出反馈控制器的导盲机器人
US11776135B2 (en) Object velocity from images
JP7462665B2 (ja) 外観に基づく動きの予測
CN110400490B (zh) 轨迹预测方法和装置
US11169531B2 (en) Trajectory prediction on top-down scenes
US20190145765A1 (en) Three Dimensional Object Detection
US11410315B2 (en) High quality instance segmentation
WO2019168679A1 (en) Automatic creation and updating of maps
CN111609851B (zh) 一种移动型导盲机器人系统及导盲方法
US11275374B2 (en) Event-based data logging
Wang et al. End-to-end autonomous driving: An angle branched network approach
WO2016077026A1 (en) Near-online multi-target tracking with aggregated local flow descriptor (alfd)
EP3788544A1 (en) Phrase recognition model for autonomous vehicles
CN107310550A (zh) 道路交通工具行驶控制方法和装置
CN102141797A (zh) 航站楼服务机器人及其控制方法
Hecker et al. Learning accurate, comfortable and human-like driving
CN110764507A (zh) 一种强化学习与信息融合的人工智能自动驾驶系统
US20230111354A1 (en) Method and system for determining a mover model for motion forecasting in autonomous vehicle control
Fernandes et al. Intelligent robotic car for autonomous navigation: Platform and system architecture
CN108921044A (zh) 基于深度卷积神经网络的驾驶员决策特征提取方法
CN115123303A (zh) 车辆驾驶状态展示方法、装置、电子设备和存储介质
CN102745196A (zh) 基于粒计算的缩微智能车智能控制装置及方法
CN115805595B (zh) 机器人导航方法、装置及杂物清理机器人
CN114964268A (zh) 一种无人机导航方法及装置
Miyamoto et al. An Application Using a BLE Beacon Model Combined with Fully Autonomous Wheelchair Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant