CN112130570B - 一种基于强化学习的最优输出反馈控制器的导盲机器人 - Google Patents
一种基于强化学习的最优输出反馈控制器的导盲机器人 Download PDFInfo
- Publication number
- CN112130570B CN112130570B CN202011033850.3A CN202011033850A CN112130570B CN 112130570 B CN112130570 B CN 112130570B CN 202011033850 A CN202011033850 A CN 202011033850A CN 112130570 B CN112130570 B CN 112130570B
- Authority
- CN
- China
- Prior art keywords
- robot
- blind
- blind guiding
- voice
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000013135 deep learning Methods 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000033001 locomotion Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 7
- 230000004888 barrier function Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000016776 visual perception Effects 0.000 claims description 6
- 238000011217 control strategy Methods 0.000 claims description 5
- 230000004438 eyesight Effects 0.000 claims description 5
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000012905 input function Methods 0.000 claims description 3
- 229910052744 lithium Inorganic materials 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000000087 stabilizing effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 8
- 230000001360 synchronised effect Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 description 18
- 230000008901 benefit Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 241001166076 Diapheromera femorata Species 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012938 design process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000253999 Phasmatodea Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Electromagnetism (AREA)
- Optics & Photonics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种基于强化学习的最优输出反馈控制器的导盲机器人,属于机器人技术领域。通过采用realsense D435i深度摄像机作为视觉传感器,能够准确且高效的获取导盲机器人在前进引导过程中的实时环境信息。为解决导盲机器人在移动过程中所面临诸多不稳定因素的问题,设计了一种基于ADP方法的无模型同步积分强化学习控制器,通过构建基于强化学习的导盲机器人系统的代价函数,建立所构建代价函数的HJB方程,通过基于同步强化学习的方法求解HJB方程,最后通过迭代的方法得到最优解,实现导盲机器人系统的最优控制。
Description
技术领域
本发明属于机器人技术领域,涉及一种基于强化学习的最优输出反馈控制器的导盲机器人。
背景技术
目前,导盲机器类型并不是很多,其主要类型有(1)导盲手杖:视觉障碍者最普遍的就是手握一根白色手杖,但是手杖结构简单,并不智能,其正在被一种叫做镭射手杖的导盲机器所取代;(2)穿戴式导盲辅助工具:可分为引导式和全景式;引导式主要是避障,而全景式在避障的功能要求之上加入了超声波,试图对视觉障碍者的周边环境进行构图。(3)移动式导盲机器人:其主要原理是以移动机器人为基础,加入红外传感及超声波模块来探测周围障碍物。上述三种导盲机器类型中,最智能化的就是移动式导盲机器人,但是现今常见的导盲机器人中,大多采用的是红外传感器和超声波来探测障碍物,超声波的原理是通过超声波碰到杂质或分界面会产生显著反射形成反射成回波,通过接受回波判断前方是否有物体,以及物体的距离的,但是在盲人行驶道路的复杂环境中并不适用。
在本专利中设计的导盲机器人采用YOLOV3深度学习算法和深度摄像机数据的目标辨识方法,对深度摄像机数据集进行标注,然后对采用的YOLOV3深度学习网络进行训练,将训练完成的参数输出,使用测试集对模型进行目标检测效果测试。这种目标识别方法更加精确也更加灵活,可以在盲人行驶道路上识别移动障碍物和静止障碍物,基于这种识别方式的导盲机器人更加智能化。
在现今众多导盲机器人应用中,很少考虑设计一种稳定,有效的控制算法使导盲机器人在行驶和人机交互时更加稳定。因为导盲机器人在引导盲人行走时,会遇见许多突发事件,如突然袭来的自行车或人;道路不平;上坡或下坡;与人进行语音交互时突然受到外来信号干扰等,这些外来干扰都会影响导盲机器人的品质及控制的稳定性。所以设计一种有效的控制算法对导盲机器人进行控制就显得十分重要。所以在本发明中采用模型完全未知的积分强化学习算法构造控制器对导盲机器人进行控制。强化学习算法(RL)是建立在成功的控制策略应该被记住的想法上,而后通过一个强化信号使得它们可以在第二次使用。强化学习算法求解最优控制问题的主要优点是不需要知道系统动力学知识及相关辨识的基础上,只在系统能够获得足够的数据,则可根据预定义的性能指标函数逼近最优控制策略。强化学习算法(RL)通常基于策略迭代(PI)技术,在策略评估和策略改进之间进行迭代。而积分强化学习(IRL)是在线性和非线性强化学习算法的基础上,将积分步骤中的时间间隔(t,t+T)视为强化信号,这个算法放宽了对输入耦合动力学知识的局限,即对系统是完全未知的。IRL算法对传统强化学习算法的策略评估和策略改进分别都进行了优化。在本发明中,我采用的是一种在线同步策略迭代技术,其critic和actor是同时更新的,通过在actor的优化中加入一个额外的约束条款,可以保证闭环系统的动态稳定性。
但是考虑到导盲机器人在引导行驶过程中会发生许多未知的变故(一般在实际装置中,都普遍存在振幅约束,即约束输入或执行器饱和),所以在控制器设计过程中必须考虑约束控制输入,导盲机器人在实际情况中系统状态的不可测,所以在本发明中设计了一种基于强化学习的最优输出反馈控制器。
发明内容
有鉴于此,本发明的目的在于提供一种基于强化学习的最优输出反馈控制器的导盲机器人。
为达到上述目的,本发明提供如下技术方案:
一种基于强化学习的最优输出反馈控制器的导盲机器人,包括底层硬件层、感知层和策略层;
采用分层控制,基于ROS机器人操作系统,采用4个伺服电机配套4个万向轮的轮式机器人;
底层用于完成机器人本体的硬件平台搭建;
其中DSP作为底层的控制器,用于采集陀螺仪和里程计信息,并且控制伺服电机的运动;
感知层和策略层的PC用于感知层和策略层的信息采集与计算。
可选的,所述4个伺服电机采用24V供电,通过DSP编码,将上层发布的轮速信息处理后执行;
采用24V 10AH的锂电池作为机器人的底层供电电源;其中,伺服电机驱动器为24V供电,DSP为5V供电;稳压模块调节电压,使其输出一个5V电压。
可选的,所述感知层由视觉识别和语音识别两部分组成;
其中,视觉感知部分为:
1)基于realsense D435i深度摄像机的导盲机器人视觉识别系统的实现
根据机器人与识别目标的位置,第一摄像头向下倾斜30安装,第二摄像头向上倾斜20°安装;机器人后方安装第三摄像头实现主人面部识别与跟踪;深度相机通过USB与上位机连接,激光雷达通过以太网与上位机通信;
2)基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
通过ROS系统中的Master发布命令,运行realsense D435i深度摄像机启动节点,读入图像或视频流,通过OPENCV和ROS的接口完成图像格式转换,将采集到的图像储存,使用Python构建深度学习数据集,安装REQUESTS包,创建Python脚本下载图像,配置环境,然后修剪深度学习图像数据集;
3)基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法实现
准备数据:使用yolo_mark对图片进行标注
修改配置文件:修改训练数据、验证数据、物体名称文件路径,修改神经网络的详细构建参数
训练及输出:训练网络,输出参数进行保存;
测试:验证模型效果
导盲机器人系统搭建在ROS机器人操作系统下,视觉图像数据采集储存在ROS系统中,需要在Ubuntu系统下构建YOLOV3深度学习网络;
导盲机器人通过第一摄像头和第二摄像头与YOLOV3深度学习网络识别出前方物体信息,将物体的具体识别信息以及位置坐标回传给上位机,通过第三摄像头来识别主人信息,再通过上层决策信息来决定机器人运动;
盲道识别:
采用基于颜色区域的图像分割的方法,筛选出盲道区域,并对盲道区域进行边缘提取实现盲道的识别;首先将图像由RGB转为HSI色彩空间,RGB色彩空间到HSI色彩空间的转换关系如下:
通过转换后得到在HSI色彩空间上的图像;
语音识别部分为:
1)基于ROS的语音交互系统搭建
语音云服务平台是位于云端的服务器,包括语音识别、语义理解和语音合成;除去语音云服务平台系统分为三层:其中最底层为Linux内核,为系统运行环境;其次是中间层,该层主要是第三方库以及ROS系统;基于ROS的人机语音交互系统从采集语音一直到机器人做出响应,划分为如下几个功能节点:语音识别节点、语义分析节点、实时性信息获取节点、语音合成节点和音频播放节点;
在ROS中实现的语音交互主要功能包括:语音信息采集、语音识别节点、语音合成节点、语义分析节点、实时性信息获取节点、机器人控制功能节点;
语音信息采集:通过机器人外置麦克风采集语音信息,将采集的语音信息存储为音频文件;
语音识别节点:语音识别节点负责将采集的语音信息识别为文字信息;
语音合成节点:语音合成节点负责将请求信息合成为音频;
语义分析节点:语义分析节点具有对从语音识别节点接收到的请求信息进行理解,以判决机器人应该执行何种操作的功能;
实时性信息获取节点:通过实时性信息获取节点能得到实时变化的信息内容;
机器人控制功能节点:机器人控制功能节点包括控制机器人行走、避障、到达指定位置等节点;
2)语音人机交互具体需实现的功能
盲人以语音的形式唤醒导盲机器人;
盲人以语音形式控制导盲机器人选择模式;
导盲机器人遇到障碍时,播报“前方有障碍物,请注意通行”;
导盲机器人在识别到盲道时,播报“前方盲道,请沿盲道行走”;
导盲机器人识别出红绿灯时,播报“前方红绿灯,请等待”;
导盲机器人识别绿灯剩余时间时,播报“绿灯时间不足,请等待下次通行”。
可选的,所述策略层中,导盲机器人在路径规划中的相关动作决策,包括接受视觉传来的障碍物信息后改变电机转向绕开障碍物、在红灯时控制电机停止、在红灯转绿灯时启动电机、盲人通过语音唤醒时启动导盲机器人以及相应控制算法的实现;
为确保导盲机器人因故障无法自主控制时,还设置手势杆操作器;
手势杆操作器输入功能:在自由散步模式下,通过手势杆操作器控制机器人同时为方便盲人使用手势杆操作器,手势杆操作器的按键应设计得更适合盲人使用;在手势杆操作器中箭头方向表示机器人运动的方向,中间圆形键表示为暂停键;当运行在自由散步模式下时,通过手势杆操作器方向实现对机器人的运动控制;
将底层信息及里程计和陀螺仪信息传到机器人,通过RS232通讯线使机器人PC传递位置信息给主控DSP320F2812;选择DSP320F2815作为主控芯片,DSP320F281含有多种外接接口,输出PWM波和脉冲信号的功能,通过RS232通讯线接受PC端传递来的信息。
可选的,所述导盲机器人的动态模型为:
现假定f(0)=0,f(x)是未知的且满足||f(x)||≤bf||x||,bf是一个常量;g(x)是已知且有界的,0<||g(x)||≤bg,bg是一个常量;
定义导盲机器人系统的代价函数:
通过设置基于输出反馈的神经网络观测器,导盲机器人运行时,将实时状态传给设计的控制器进行处理后使系统稳定;
系统状态x(t)不可测,基于输出反馈的状态观测器的动态模型如下:
由于系统动态模型fi(xi)的内部函数未知,用神经网络来估计fi(xi):
不妨将系统的动态模型写成:
则观测器的动态模型为:
(A0i-KC)TP+P(A0i-KC)=-qI (8)
其中,q是正常量,I是一个单位矩阵,P是一个对称正定矩阵;
选择下面李雅普诺夫函数:
将上面李雅普诺夫函数进行求导:
将(8)(9)(12)带入(11)得:
由于tr(ABT)=tr(BAT)=BAT,(13)改写成:
即只要满足:
其中,Qc=CTQC半正定的;
利用牛顿-莱布尼茨公式对式(18)中时间t求导得到贝尔曼方程:
联立(3)(19)得:
定义Hamiltonian方程为:
则根据(21)中Hamiltonian方程,得到如下HJB方程
由于HJB方程很难求解,在该算法中采用IRL的策略迭代来求解上述HJB方程;
首先将(18)中的值函数写成下面贝尔曼方程的形式:
得到下面基于策略迭代的在线IRL算法:
算法:基于策略迭代的在线IRL算法求解HJB方程
步骤1:利用下式解出J(i)(x(t))
步骤2:通过下式更新控制策略:
本发明的有益效果在于:
1、本设计采用多传感器融合技术,以DSP320F2815作为主控芯片,可以实现导盲机器人的多功能协同处理;
2、本设计采用HOKUYO激光雷达和realsense D435i深度摄像机共同对障碍物信息进行处理,提高了识别的精确性,使得导盲机器人无论是在识别障碍物还是在识别盲道、红绿灯方面的精度都有了很大的提高;
3、本设计对YOLOv3网络结构的改进,其检测的精度更高,通过前方摄像头与YOLOV3深度学习网络识别出前方物体信息通过后方摄像头来识别主人信息,再通过上层决策信息来决定机器人运动,通过采用ROS系统可以很方便地处理上传的具体识别信息;
4、本设计采用基于ROS系统的语音处理模块,通过使用ROS提供的话题、服务方式实现系统中相关模块之间的通信,同时定义通信时的信息格式。通过调用ROS中已经开源的语音交互功能包可以很好的实现盲人与导盲机器人之间的语音交互。解决了目前大多数导盲机器人在人机交互上的缺陷;
5、本设计提出了一种基于强化学习的最优输出反馈控制器。在导盲机器人状态未知的情况下,采用基于策略迭代的在线IRL算法求解HJB方程,得到输出最优的反馈控制器,解决了导盲机器人在运行过程易受外界干扰的问题,使导盲机器人能够稳定的工作。
6、本发明中设计了基于输出反馈的神经网络状态观测器来观测跟随者的状态。可以使系统在不稳定的情况下也能实时观测系统的状态,性能十分稳定。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为导盲机器人硬件平台;
图2为激光雷达、深度相机与上位机通信;
图3为导盲机器人视觉感知模块;
图4为语音识别模块与master之间的通信架构;
图5为语音播报功能实现;
图6为手势杆;
图7为平台原理图;
图8为本发明计算机运行流程图;
图9为语音信息采集流程图;
图10为本发明流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图10,为一种基于强化学习的最优输出反馈控制器的导盲机器人,通过采用realsense D435i深度摄像机作为视觉传感器,能够准确且高效的获取导盲机器人在前进引导过程中的实时环境信息。为了增强导盲机器人的人机交互,在本发明中还设计了一种语音系统,在导盲机器人中加入语音模块不仅能使导盲机器人更加智能,而且还可以解决机器人无法灵活将路况信息传送给盲人的缺陷。同时,为解决导盲机器人在移动过程中所面临诸多不稳定因素的问题,设计了一种基于ADP方法的无模型同步积分强化学习控制器,通过构建基于强化学习的导盲机器人系统的代价函数,建立所构建代价函数的HJB(Hamilton Jacobi Bellman)方程,通过基于同步强化学习的方法求解HJB方程,最后通过迭代的方法得到最优解,实现导盲机器人系统的最优控制。并设计了一整套适用于盲人引导环境的导盲机器人软硬件系统。
本发明设计的导盲机器人采用分层设计主要分为底层(硬件层)、感知层、策略层。
导盲机器人是基于ROS机器人操作系统、采用4个万向轮的轮式机器人。采用分层控制,其中DSP作为底层的控制器,主要采集陀螺仪和里程计信息,并且控制伺服电机的运动。上层的PC主要用于感知层和策略层的信息采集与计算。
第一部分导盲机器人的底层设计
底层主要是完成机器人本体的硬件平台搭建,如图1所示。
①基于万向轮的伺服底盘系统实现
为实现机器人的灵活运动,本方案采用4个伺服电机配套4个万向轮作小车的移动执行机构,万向轮的布局方式采用对角线式。4个伺服电机采用24V供电,通过DSP编码,将上层发布的轮速信息处理后执行。
②HOKUYO激光雷达
可用于高速运动机器人避障和位置识别;高精度、高分辨率、宽视场设计给自主导航机器人提供了良好的环境识别能力;紧凑型设计节约了安装空间,低重量、低功耗。在本发明中,采用HOKUYO激光雷达可以十分灵敏的检测到前方障碍物,将障碍物的大小及距离信息上传至上位机处理,通过与视觉信息融合处理后可以在精度非常高的情况下实现物体识别及避障处理。
③配供电系统实现
采用24V 10AH的锂电池作为机器人的底层供电电源。其中,伺服电机驱动器为24V供电,DSP为5V供电。因此,需要稳压模块调节电压,使其输出一个5V电压。
第二部分导盲机器人感知层方案设计
导盲系统的感知层主要由视觉识别和语音识别两部分组成。
一、视觉感知部分
(1)视觉部分需实现的功能
①基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
ROS(机器人操作系统)是当今十分流行的一种机器人软件编写架构,本设计中,在ROS系统搭建导盲机器人的视觉感知模块,可以十分方便的处理信息传递不及时以及信息处理帧率慢的缺陷。搭建基于ROS的目标识别系统框架,通过ROS系统建立分析系统和realsense D435i深度摄像机节点的连接,读入图像或视频流以及深度信息,完成采集数据的格式转换的等数据预处理工作。进行实验设计,利用建立的采集系统采集数据,构造训练数据集。
②基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法研究与实现
探索基于YOLOV3深度学习和深度摄像机数据的目标辨识方法,对深度摄像机数据集进行标注,然后对采用的YOLOV3深度学习网络进行训练,将训练完成的参数输出,使用测试集对模型进行目标检测效果测试。
(2)视觉层具体设计方案
1)基于realsense D435i深度摄像机的导盲机器人视觉识别系统的实现
由于机器人前方需要识别红路灯、盲道、斑马线等物体,根据机器人与识别目标的位置,尽量减小其他因素的干扰,一个摄像头需向下倾斜30安装,另外一个摄像头需要向上倾斜20°安装。机器人后方需要安装一个摄像头实现主人面部识别与跟踪。深度相机通过USB与上位机连接,激光雷达通过以太网与上位机通信,如图2所示。
2)基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
ROS具有交叉编译、开源、分布式管理等优点,逐步成为机器人研发领域的通用平台,ROS的出现加强了机器人代码的复用率和模块化,降低了智能机器人开发中不必要的重复劳动。通过ROS系统中的Master发布命令,运行realsense D435i深度摄像机启动节点,读入图像或视频流,通过OPENCV和ROS的接口完成图像格式转换,将采集到的图像储存,使用Python构建深度学习数据集,先安装REQUESTS包,创建Python脚本下载图像,配置环境,然后修剪深度学习图像数据集。ROS系统实现导盲机器人视觉感知模块如图3所示。
3)基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法实现
A.准备数据
使用yolo_mark对图片进行标注
B.修改配置文件
修改训练数据、验证数据、物体名称文件路径,修改神经网络的详细构建参数
C.训练及输出
训练网络,输出参数进行保存。
D.测试
验证模型效果
导盲机器人系统搭建在ROS机器人操作系统下,视觉图像数据采集储存在ROS系统中,需要在Ubuntu系统下构建YOLOV3深度学习网络,首先需要安装对应版本的CUDA和CUDNN,配置编译环境。
导盲机器人通过前方摄像头与YOLOV3深度学习网络识别出前方物体信息,将物体的具体识别信息以及位置坐标回传给上位机,通过后方摄像头来识别主人信息,再通过上层决策信息来决定机器人运动。
盲道识别:
盲道的颜色通常很鲜艳,因此可以通过盲道的颜色特征来进行检测。本文采用基于颜色区域的图像分割的方法,能够筛选出盲道区域,并对盲道区域进行边缘提取实现盲道的识别。首先将图像由RGB转为HSI色彩空间,相对RGB的彩色空间而言,HSI色彩空间同人对色彩的感知一致,符合人的视觉感知,不易受到周围环境的影响。RGB色彩空间到HSI色彩空间的转换关系如下:
通过上述转换后可以得到在HSI色彩空间上的图像。
二、语音识别及人机交互部分
(1)基于ROS的语音交互系统搭建
机器人操作系统ROS使用简单,在确定了人机语音交互系统应具有的功能模块之后,使用ROS提供的话题、服务方式实现系统中相关模块之间的通信,同时定义通信时的信息格式。通过调用ROS中已经开源的语音交互功能包可以很好的实现盲人与导盲机器人之间的语音交互。
语音云服务平台是位于云端的服务器,它为系统提供一系列支持,包括语音识别、语义理解、语音合成等。除去语音云服务平台系统主要分为三层:其中最底层为Linux内核,为系统运行环境;其次是中间层,该层主要是第三方库以及ROS系统。基于ROS的人机语音交互系统从采集语音一直到机器人做出响应,主要划分为如下几个功能节点:语音识别节点,语义分析节点,实时性信息获取节点,语音合成节点,音频播放节点。在ROS中其与master之间的通信架构如图4所示。
在ROS中实现的语音交互主要功能包括:语音信息采集、语音识别节点、语音合成节点、语义分析节点、实时性信息获取节点、机器人控制功能节点。
·语音信息采集:通过机器人外置麦克风采集语音信息,将采集的语音信息存储为音频文件。
·语音识别节点:语音识别节点负责将采集的语音信息识别为文字信息。
·语音合成节点:语音合成节点负责将请求信息合成为音频。
·语义分析节点:语义分析节点具有对从语音识别节点接收到的请求信息进行理解,以判决机器人应该执行何种操作的功能。
·实时性信息获取节点:通过实时性信息获取节点能得到实时变化的信息内容。
·机器人控制功能节点:机器人控制功能节点包括控制机器人行走、避障、到达指定位置等节点。
(2)语音人机交互具体需实现的功能
1、盲人以语音的形式唤醒导盲机器人:如“小明,请一键启动”;
2、盲人以语音形式控制导盲机器人选择模式(自由散步、好友散步):如“小明,请带我到张三家”;
3、导盲机器人遇到障碍时,播报“前方有障碍物,请注意通行”;
4、导盲机器人在识别到盲道时,播报“前方盲道,请沿盲道行走”;
5、导盲机器人识别出红绿灯时,播报“前方红绿灯,请等待”;
6、导盲机器人识别绿灯剩余时间时,播报“绿灯时间不足,请等待下次通行”;
图5为语音播报功能实现。
第三部分 导盲机器人决策层方案设计
1、策略层主要实现导盲机器人在路径规划中的相关动作决策(接受视觉传来的障碍物信息后改变电机转向绕开障碍物、在红灯时控制电机停止、在红灯转绿灯时启动电机、盲人通过语音唤醒时启动导盲机器人)以及相应控制算法的实现。
为确保导盲机器人因故障无法自主控制时,还设计了一种手势杆操作器,如图6所示:
手势杆操作器输入功能:在自由散步模式下,主人可以通过手势杆操作器控制机器人同时为方便盲人使用手势杆操作器,手势杆操作器的按键应设计得更适合盲人使用。在手势杆操作器中箭头方向表示机器人运动的方向,中间圆形键表示为暂停键。当运行在自由散步模式下时,主人只需要通过手势杆操作器方向实现对机器人的运动控制。加入手势杆设计后可以很好的解决自主控制故障的问题,可以让视觉障碍者更加灵活的控制。
2、PC端和机器人的通讯:本发明需要将底层信息及里程计和陀螺仪信息传到机器人,通过RS232通讯线使机器人PC可以传递位置信息给主控DSP320F2812。为实现自主学习,所以对主控芯片有一定的要求,经过分析选择了DSP320F2815作为主控芯片,DSP320F281含有多种外接接口,可以很好地完成输出PWM波和脉冲信号的功能,同时还可以通过RS232通讯线接受PC端传递来的信息,而且由于它的时钟频率达到150MHZ,其处理的速度较快。
第四部分 机器人控制算法
因为本发明中的设计一种新型导盲机器人在引导行驶过程中会发生许多未知的变故(一般在实际装置中,都普遍存在振幅约束,即约束输入或执行器饱和),所以在控制器设计过程中必须考虑约束控制输入,导盲机器人在实际情况中系统状态的不可测,所以在本发明中设计了一种基于强化学习的最优输出反馈控制器。
机器人的动态模型为:
现假定f(0)=0,f(x)是未知的且满足||f(x)||≤bf||x||,bf是一个常量;g(x)是已知且有界的,0<||g(x)||≤bg,bg是一个常量。
定义导盲机器人系统的代价函数:
考虑到系统是基于完全无模型的设计,所以系统的状态是不可测的,所以在本发明中了一个基于输出反馈的神经网络观测器。通过设计观测器实时观测导盲机器人运行时的状态,将实时状态传给设计的控制器进行处理后使系统稳定。
因为系统状态x(t)不可测,在这里构造基于输出反馈的状态观测器,其状态观测器的动态模型如下:
由于系统动态模型fi(xi)的内部函数未知,在此我们用神经网络来估计fi(xi):
不妨将系统的动态模型写成:
则观测器的动态模型为:
(A0i-KC)TP+P(A0i-KC)=-qI (8)
其中,q是正常量,I是一个单位矩阵,P是一个对称正定矩阵。
选择下面李雅普诺夫函数:
将上面李雅普诺夫函数进行求导:
将(8)(9)(12)带入(11)得:
由于tr(ABT)=tr(BAT)=BAT,所以(13)可改写成:
即只要满足:
其中,Qc=CTQC半正定的。
利用牛顿-莱布尼茨公式对式(18)中时间t求导得到贝尔曼方程:
联立(3)(19)可得:
定义Hamiltonian方程为:
则根据(21)中Hamiltonian方程,可得到如下HJB(Hamilton Jacobi Bellman)方程
由于HJB方程很难求解,所以在该算法中采用IRL的策略迭代来求解上述HJB方程。
首先将(18)中的值函数写成下面贝尔曼方程的形式:
得到下面基于策略迭代的在线IRL算法:
算法:基于策略迭代的在线IRL算法求解HJB方程
步骤1:(策略评估)利用下式解出J(i)(x(t))
步骤2:(策略改进)通过下式更新控制策略:
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:包括底层硬件层、感知层和策略层;
采用分层控制,基于ROS机器人操作系统,采用4个伺服电机配套4个万向轮的轮式机器人;
底层用于完成机器人本体的硬件平台搭建;
其中DSP作为底层的控制器,用于采集陀螺仪和里程计信息,并且控制伺服电机的运动;
感知层和策略层的PC用于感知层和策略层的信息采集与计算;
所述导盲机器人的动态模型为:
现假定f(0)=0,f(x)是未知的且满足||f(x)||≤bf||x||,bf是一个常量;g(x)是已知且有界的,0<||g(x)||≤bg,bg是一个常量;
定义导盲机器人系统的代价函数:
通过设置基于输出反馈的神经网络观测器,导盲机器人运行时,将实时状态传给设计的控制器进行处理后使系统稳定;
系统状态x(t)不可测,基于输出反馈的状态观测器的动态模型如下:
由于系统动态模型fi(xi)的内部函数未知,用神经网络来估计fi(xi):
不妨将系统的动态模型写成:
则观测器的动态模型为:
(A0i-KC)TP+P(A0i-KC)=-qI (8)
其中,q是正常量,I是一个单位矩阵,P是一个对称正定矩阵;
选择下面李雅普诺夫函数:
将上面李雅普诺夫函数进行求导:
将(8)(9)(12)带入(11)得:
由于tr(ABT)=tr(BAT)=BAT,(13)改写成:
其中,Qc=CTQC半正定的;
利用牛顿-莱布尼茨公式对式(18)中时间t求导得到贝尔曼方程:
联立(3)(19)得:
定义Hamiltonian方程为:
则根据(21)中Hamiltonian方程,得到如下HJB方程
由于HJB方程很难求解,在该算法中采用IRL的策略迭代来求解上述HJB方程;首先将(18)中的值函数写成下面贝尔曼方程的形式:
得到下面基于策略迭代的在线IRL算法:
算法:基于策略迭代的在线IRL算法求解HJB方程
步骤1:利用下式解出J(i)(x(t))
步骤2:通过下式更新控制策略:
2.根据权利要求1所述的一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:所述4个伺服电机采用24V供电,通过DSP编码,将上层发布的轮速信息处理后执行;
采用24V 10AH的锂电池作为机器人的底层供电电源;其中,伺服电机驱动器为24V供电,DSP为5V供电;稳压模块调节电压,使其输出一个5V电压。
3.根据权利要求1所述的一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:所述感知层由视觉识别和语音识别两部分组成;
其中,视觉感知部分为:
1)基于realsense D435i深度摄像机的导盲机器人视觉识别系统的实现
根据机器人与识别目标的位置,第一摄像头向下倾斜30安装,第二摄像头向上倾斜20°安装;机器人后方安装第三摄像头实现主人面部识别与跟踪;深度相机通过USB与上位机连接,激光雷达通过以太网与上位机通信;
2)基于ROS系统和realsense D435i深度摄像机实现导盲机器人的目标图像信息采集
通过ROS系统中的Master发布命令,运行realsense D435i深度摄像机启动节点,读入图像或视频流,通过OPENCV和ROS的接口完成图像格式转换,将采集到的图像储存,使用Python构建深度学习数据集,安装REQUESTS包,创建Python脚本下载图像,配置环境,然后修剪深度学习图像数据集;
3)基于YOLOV3深度学习和realsense D435i深度摄像机的导盲机器人目标识别算法实现
准备数据:使用yolo_mark对图片进行标注
修改配置文件:修改训练数据、验证数据、物体名称文件路径,修改神经网络的详细构建参数
训练及输出:训练网络,输出参数进行保存;
测试:验证模型效果
导盲机器人系统搭建在ROS机器人操作系统下,视觉图像数据采集储存在ROS系统中,需要在Ubuntu系统下构建YOLOV3深度学习网络;
导盲机器人通过第一摄像头和第二摄像头与YOLOV3深度学习网络识别出前方物体信息,将物体的具体识别信息以及位置坐标回传给上位机,通过第三摄像头来识别主人信息,再通过上层决策信息来决定机器人运动;
盲道识别:
采用基于颜色区域的图像分割的方法,筛选出盲道区域,并对盲道区域进行边缘提取实现盲道的识别;首先将图像由RGB转为HSI色彩空间,RGB色彩空间到HSI色彩空间的转换关系如下:
通过转换后得到在HSI色彩空间上的图像;
语音识别部分为:
1)基于ROS的语音交互系统搭建
语音云服务平台是位于云端的服务器,包括语音识别、语义理解和语音合成;除去语音云服务平台系统分为三层:其中最底层为Linux内核,为系统运行环境;其次是中间层,该层主要是第三方库以及ROS系统;基于ROS的人机语音交互系统从采集语音一直到机器人做出响应,划分为如下几个功能节点:语音识别节点、语义分析节点、实时性信息获取节点、语音合成节点和音频播放节点;
在ROS中实现的语音交互主要功能包括:语音信息采集、语音识别节点、语音合成节点、语义分析节点、实时性信息获取节点、机器人控制功能节点;
语音信息采集:通过机器人外置麦克风采集语音信息,将采集的语音信息存储为音频文件;
语音识别节点:语音识别节点负责将采集的语音信息识别为文字信息;
语音合成节点:语音合成节点负责将请求信息合成为音频;
语义分析节点:语义分析节点具有对从语音识别节点接收到的请求信息进行理解,以判决机器人应该执行何种操作的功能;
实时性信息获取节点:通过实时性信息获取节点能得到实时变化的信息内容;
机器人控制功能节点:机器人控制功能节点包括控制机器人行走、避障、到达指定位置节点;
2)语音人机交互具体需实现的功能
盲人以语音的形式唤醒导盲机器人;
盲人以语音形式控制导盲机器人选择模式;
导盲机器人遇到障碍时,播报“前方有障碍物,请注意通行”;
导盲机器人在识别到盲道时,播报“前方盲道,请沿盲道行走”;
导盲机器人识别出红绿灯时,播报“前方红绿灯,请等待”;
导盲机器人识别绿灯剩余时间时,播报“绿灯时间不足,请等待下次通行”。
4.根据权利要求1所述的一种基于强化学习的最优输出反馈控制器的导盲机器人,其特征在于:所述策略层中,导盲机器人在路径规划中的相关动作决策,包括接受视觉传来的障碍物信息后改变电机转向绕开障碍物、在红灯时控制电机停止、在红灯转绿灯时启动电机、盲人通过语音唤醒时启动导盲机器人以及相应控制算法的实现;
为确保导盲机器人因故障无法自主控制时,还设置手势杆操作器;
手势杆操作器输入功能:在自由散步模式下,通过手势杆操作器控制机器人同时为方便盲人使用手势杆操作器,手势杆操作器的按键应设计得更适合盲人使用;在手势杆操作器中箭头方向表示机器人运动的方向,中间圆形键表示为暂停键;当运行在自由散步模式下时,通过手势杆操作器方向实现对机器人的运动控制;
将底层信息及里程计和陀螺仪信息传到机器人,通过RS232通讯线使机器人PC传递位置信息给主控DSP320F2812;选择DSP320F2815作为主控芯片,DSP320F281含有多种外接接口,输出PWM波和脉冲信号的功能,通过RS232通讯线接受PC端传递来的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033850.3A CN112130570B (zh) | 2020-09-27 | 2020-09-27 | 一种基于强化学习的最优输出反馈控制器的导盲机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033850.3A CN112130570B (zh) | 2020-09-27 | 2020-09-27 | 一种基于强化学习的最优输出反馈控制器的导盲机器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112130570A CN112130570A (zh) | 2020-12-25 |
CN112130570B true CN112130570B (zh) | 2023-03-28 |
Family
ID=73840304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011033850.3A Expired - Fee Related CN112130570B (zh) | 2020-09-27 | 2020-09-27 | 一种基于强化学习的最优输出反馈控制器的导盲机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112130570B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947430B (zh) * | 2021-02-03 | 2022-07-15 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN113311819B (zh) * | 2021-03-25 | 2024-05-31 | 华南理工大学广州学院 | 一种由机器狗导盲的方法及机器狗控制系统 |
CN113134187B (zh) * | 2021-04-19 | 2022-04-29 | 重庆大学 | 基于积分强化学习的多消防巡检协作机器人系统 |
CN113778414A (zh) * | 2021-11-11 | 2021-12-10 | 深圳市越疆科技有限公司 | 基于图形化编程的机器视觉通讯脚本生成方法和装置 |
CN114841098B (zh) * | 2022-04-13 | 2023-04-18 | 广东工业大学 | 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法 |
CN118456451B (zh) * | 2024-07-10 | 2024-10-22 | 东莞理工学院 | 基于ros的装配机器人系统及其架构方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105403222A (zh) * | 2015-12-08 | 2016-03-16 | 江苏科技大学 | 基于ros的多导盲机器人及在未知环境中的地图创建方法 |
CN205251976U (zh) * | 2015-10-26 | 2016-05-25 | 众德迪克科技(北京)有限公司 | 一种避障导盲机器人 |
CN111142536A (zh) * | 2020-01-06 | 2020-05-12 | 华南师范大学 | 一种室内导盲机器人 |
CN111367282A (zh) * | 2020-03-09 | 2020-07-03 | 山东大学 | 一种基于多模感知与强化学习的机器人导航方法及系统 |
CN111609851A (zh) * | 2020-05-28 | 2020-09-01 | 北京理工大学 | 一种移动型导盲机器人系统及导盲方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9134707B2 (en) * | 2012-03-30 | 2015-09-15 | Board Of Regents, The University Of Texas System | Optimal online adaptive controller |
-
2020
- 2020-09-27 CN CN202011033850.3A patent/CN112130570B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN205251976U (zh) * | 2015-10-26 | 2016-05-25 | 众德迪克科技(北京)有限公司 | 一种避障导盲机器人 |
CN105403222A (zh) * | 2015-12-08 | 2016-03-16 | 江苏科技大学 | 基于ros的多导盲机器人及在未知环境中的地图创建方法 |
CN111142536A (zh) * | 2020-01-06 | 2020-05-12 | 华南师范大学 | 一种室内导盲机器人 |
CN111367282A (zh) * | 2020-03-09 | 2020-07-03 | 山东大学 | 一种基于多模感知与强化学习的机器人导航方法及系统 |
CN111609851A (zh) * | 2020-05-28 | 2020-09-01 | 北京理工大学 | 一种移动型导盲机器人系统及导盲方法 |
Non-Patent Citations (5)
Title |
---|
An unified approach to inverse reinforcement learning by oppositive demonstrations;Kao-shing. Hwang,等;《2016 IEEE International Conference on Industrial Technology (ICIT)》;20160526;全文 * |
基于路径积分强化学习方法的蛇形机器人目标导向运动;方勇纯,等;《模式识别与人工智能》;20190131;第32卷(第1期);全文 * |
多智能体深度强化学习研究综述;孙彧,等;《计算机工程与应用》;20200531;第56卷(第5期);全文 * |
改进的强化学习算法研究及其在机械臂控制中的应用;严涛;《中国优秀博硕士学位论文全文数据库信息科技辑》;20200815(第8期);全文 * |
深度逆向强化学习在机器人视觉伺服控制中的应用;黄志峰;《中国优秀博硕士学位论文全文数据库信息科技辑》;20200115(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112130570A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112130570B (zh) | 一种基于强化学习的最优输出反馈控制器的导盲机器人 | |
O'Kelly et al. | F1/10: An open-source autonomous cyber-physical platform | |
CN110400490B (zh) | 轨迹预测方法和装置 | |
US11410315B2 (en) | High quality instance segmentation | |
US20190145765A1 (en) | Three Dimensional Object Detection | |
CN207198663U (zh) | 压路机及压路机控制系统 | |
Wang et al. | End-to-end autonomous driving: An angle branched network approach | |
CN111609851B (zh) | 一种移动型导盲机器人系统及导盲方法 | |
CN110082781A (zh) | 基于slam技术与图像识别的火源定位方法及系统 | |
Hecker et al. | Learning accurate, comfortable and human-like driving | |
CN109597404A (zh) | 压路机及其控制器、控制方法和系统 | |
Reda et al. | Path planning algorithms in the autonomous driving system: A comprehensive review | |
CN113821040A (zh) | 一种深度视觉相机与激光雷达融合导航的机器人 | |
CN108597223A (zh) | 一种用于智能车辆行为描述的数据处理方法和系统 | |
CN114895563A (zh) | 基于强化学习的新型智能协作配送机器人系统 | |
Fernandes et al. | Intelligent robotic car for autonomous navigation: Platform and system architecture | |
CN116881707A (zh) | 自动驾驶模型、训练方法、装置和车辆 | |
CN108921044A (zh) | 基于深度卷积神经网络的驾驶员决策特征提取方法 | |
CA3134772A1 (en) | Perception and motion prediction for autonomous devices | |
CN115123303A (zh) | 车辆驾驶状态展示方法、装置、电子设备和存储介质 | |
CN102745196A (zh) | 基于粒计算的缩微智能车智能控制装置及方法 | |
CN115805595B (zh) | 机器人导航方法、装置及杂物清理机器人 | |
CN114964268A (zh) | 一种无人机导航方法及装置 | |
Choi et al. | Semantics-guided Transformer-based Sensor Fusion for Improved Waypoint Prediction | |
Ayyagari | Comparative Study of Model-based Lateral Controllers with Selected Deep Learning Methods for Autonomous Driving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230328 |