CN105700526B - 具有自主学习能力的在线序列极限学习机方法 - Google Patents

具有自主学习能力的在线序列极限学习机方法 Download PDF

Info

Publication number
CN105700526B
CN105700526B CN201610020090.XA CN201610020090A CN105700526B CN 105700526 B CN105700526 B CN 105700526B CN 201610020090 A CN201610020090 A CN 201610020090A CN 105700526 B CN105700526 B CN 105700526B
Authority
CN
China
Prior art keywords
learning
moment
learning machine
external
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610020090.XA
Other languages
English (en)
Other versions
CN105700526A (zh
Inventor
任红格
史涛
李福进
尹瑞
张春磊
刘伟民
霍美杰
徐少彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Science and Technology
Original Assignee
North China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Science and Technology filed Critical North China University of Science and Technology
Priority to CN201610020090.XA priority Critical patent/CN105700526B/zh
Publication of CN105700526A publication Critical patent/CN105700526A/zh
Application granted granted Critical
Publication of CN105700526B publication Critical patent/CN105700526B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人技术领域,一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。本发明提供的具有自主学习能力的在线序列极限学习机方法,以在线序列极限学习机为框架,结合强化Q学习,提出了一种具有自主学习能力的在线序列极限学习机方法,并将该模型运用到移动机器人路径规划研究中,使机器人根据外部环境的状态与奖励,实现自主学习导航,提高机器人在未知环境中的自主学习能力。

Description

具有自主学习能力的在线序列极限学习机方法
技术领域
本发明涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人技术领域。
背景技术
针对现有认知发育方法中主动性与收敛度不高以及BP网络学习速度慢,容易陷入局部最优等问题,本专利结合极限学习机网络随机获取输入权值与阈值的特点,加快了学习训练速度,避免陷入局部最优解,同时也提高了智能体的主动学习性能。
探索认知发育机理,构建认知发育机制,并把这些机制赋予机器人,是人工智能和机器人学、认知科学、神经生理学和发育心理学研究的重要课题。
人类可以在不同的环境下调整自己的行为来适应环境、选取最合适的动作去完成任务,并学会新的技能。而机器人自从出现以来,大部分都只用于从事复杂重复、单调或者危险的任务,例如组装机器、探险、搜救、侦查等。与此同时,机器人在面对灵活多变、难以预测的环境时,那些面向特定任务、面向特定数据、遗传算法等传统方法就不再适用了,这也限制了机器人的应用范围,所以未知环境下的自主学习能力、决策能力和任务执行能力就成了机器人研究的重点和难点。因此就产生了一个新的研究方向——认知发育机器人。人的自主心智发育属于发展神经科学以及发展心理学领域的研究。近来,来自机器人和机器智能领域的研究人员通过交叉学科研究,对心智发育机器人的研究形成了一个新的研究领域。而机器人如何根据当前环境来选取合适的潜在动作完成任务又是认知发育机器人的一个新的研究内容。
20世纪60年代末至70年代初,斯坦福研究所研制出的具有逻辑推理和行为规划能力的移动式机器人Shakey,被认为是第一个具有自主学习能力的机器人。然而,Shakey是靠单独手工编程或者制定具体任务的机器学习来实现预定功能的,其自适应能力和自主探索能力相对较弱,从某种意义上讲,他并不是一个真正的智能机器人。1997年,麻省理工学院人工智能实验室的Brook教授提出了认知机器人的概念。1998年,J.Weng最早提出了机器人自主心智发育思想。2001年,他在Science上阐述了发育机器人的思想框架和算法模型,并指出真正的智能机器人是具有自主心智发育能力的,使机器人在与环境的交互过程中,独立自主的形成和发育知识及技能,这种能力是渐进形成、发展和完善的,并贯穿于机器人一生。
专利申请号为201410101272.0的专利主要针对传统机器人学习速率较低,实时性差等问题提出了一种仿生智能控制方法,该方法可以快速有效的提高机器人的智能水平。申请号为201410055115.0的专利主要针对现有技术中存在的机器人避障导航智能化程度不高等问题,提出了一种基于Skinner操作条件反射原理的机器人避障导航方法,是机器人能够在没有导师信号的情况下,以“learning-by-doing”的试错式方式与环境交互,建立操作条件反射,完成避障导航。申请号为201210398379.7的专利主要针对现有基于视频的人体行为识别方法存在的不足,提出一种基于在线贯序极限学习机的递增式人体行为识别方法该方法基于在线序贯极限学习机分类器对人体行为进行识别,不但能够在训练样本很少的情况下,以较少的训练时间,获得较为精确的人体行为识别结果,而且具有在线学习能力,即当环境和识别对象发生变化时,无需重新训练新的分类器,只需在现有的分类器基础上继续在线学习就可以达到人体行为的准确识别。
发明内容
针对BP神经网络在移动机器人路径规划应用中存在的维度高,训练难,学习速度慢等问题,提出一种基于在线序列极限学习机的强化Q学习方法(Q-learning),并运用到移动机器人路径规划研究当中,通过外部环境对机器人动作的奖励(惩罚)值,对机器人系统进行反馈,完成自主认知学习。
具体的技术方案为:
该方法一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。各个部分具体含义如下:
(1)S={si|i=0,1,2,…,N}表示外部获得的有限的状态集合,si表示第i个状态,i为外部动机的个数。
(2)A={aj|j=0,1,2,…,N}表示有限的外部智能体动作集合,aj表示第j个动作,j表示外部动作个数。
(3)R={r(st,at)}表示系统在t时刻在外部状态为st时所表现出来的外部动作at后使状态转移到st+1后的奖赏信号。
(4)Q={q(st,at)}表示系统在t时刻在外部状态为st时所表现出来的外部智能体动作at后使状态转移到st+1后的值函数。
强化Q学习结合了动态规划与动物心理学知识,从而可以实现具有回报的机器在线学习。该方法通过Markov决策过程建模,迭代出最优解。
Q(st,at)←Q(st,at)+κ[R(st,at)+γmQ(st+1,at+1)-Q(st,at)] (1)
其中,γ为折扣因子,κ为学习因子,且0<κ<1。Q学习算法流程如下:
Step 1:随机初始化Q(st,at);
Step 2:观测当前状态st并选择执行一个动作决策at
Step 3:获得下一状态st+1,并同时获取奖励信号r(st,at);
Step 4:根据(1)式更新Q值。
(5)fL:s(t)×a(t)→s(t+1)为状态转移方程,即t+1时刻的外部状态s(t+1)总是由t时刻的外部状态s(t)和外部智能体动作a(t)共同决定,一般来讲是由模型本身与外部环境决定。
(6)表示极限学习机神经网络系统隐含层输出集合,为第l个新训练样本数据,l表示新训练样本数据个数。
(7)Y:为中间参数转移方程,在k时刻的中间参数总是由k时刻的中间参数与k+1时刻的极限学习机网络系统隐含层输出共同决定,一般来说是由加入的新样本数据决定。
(8)表示极限学习机网络整体的输出参数集合,为经过第l个新样本训练数据训练后预期得到的输出参数,l表示输出参数的个数。
首先采用批量的ELM算法来完成对该批数据的训练,如式(2)
之后含有M个训练样本的新数据加入到训练模型中,网络的新隐含层输出矩阵如式(3):
式(3)可以简化为式(4)
网络输出矩阵可以改写成为式(5)
则新的输出权值更新为式(6)
于是有:
根据Sherman-Morrison矩阵求逆引理可以将式(9)化简为式(10):
由式(10)可以得出可以由递推求出,所以得出式(11):
(9)θ:为极限学习机网络输出权值转移方程,在k时刻的输出权值参数总是由k时刻的输出权值参数k+1时刻的中间参数与极限学习机网络系统隐含层输出同时决定,具体来讲是由上一状态的输出参数决定。
将式(9)两边同时求逆得到式(12):
所以有式(13):
可以推导式(6),从而得到式(14):
式中都是已知矩阵。
可以看出新的输出权值矩阵θ可以在就模型下递推更新得到,不需要重新训练。更新公式如式(15)
θk+1=θk+Yk+1Hk+1 T(Pk+1-Hk+1θk) (15)
本发明系统学习步骤如下:
Step1:将Q-OSELM与网络训练中所用到的各种参数进行初始化;
Step2:将移动机器人状态进行初始化;
Step3:获取当前移动机器人系统的状态信息;
Step4:将当前状态信息输入到Q-OSELM网络中进行训练,根据所输出的Q值信息选择动作决策;
Step5:执行动作决策,使移动机器人得到一个新的状态st+1,以此同时获得一个反馈强化信号r(st,at)。如果机器人发生碰撞,则返回到机器人初始状态并重新开始训练;
Step6:将其反馈信号通过环境反馈到Q-OSELM中完成网络训练;
Step7:重复Step3-Step6直到训练完毕,完成自主在线学习。
研究表明,ELM存在的许多优点,可以满足Q学习的研究需求。
首先,由于ELM是一种前馈神经网络,它采取自适应的方式模仿人脑进行学习训练,网络泛化能力很强,使智能体的智能系统能够更好更快的适应环境变化。
其次,ELM具有自学习,自组织能力以及归纳能力等特点,这不但保证了Q学习算法的收敛性,而且大大增强了智能体对未知环境的识别处理能力。
最后,ELM还具有较强的容错能力,它可以根据被控对象的自身特征进行精确的模式识别。
本发明提供的具有自主学习能力的在线序列极限学习机方法,以在线序列极限学习机为框架,结合强化Q学习,提出了一种具有自主学习能力的在线序列极限学习机方法,并将该模型运用到移动机器人路径规划研究中,使机器人根据外部环境的状态与奖励,实现自主学习导航,提高机器人在未知环境中的自主学习能力。
附图说明
图1为本发明的系统学习流程图;
图2为本发明的移动机器人智能控制结构模型;
图3为本发明的基于Q-OSELM的Q学习网络框架;
图4为实施例的简单环境下机器人寻优路径;
图5为实施例的增加障碍物数量后第一次学习后的运动轨迹;
图6为实施例的增加障碍物数量后完成三次学习后的运动轨迹;
图7为实施例的增加障碍物数量后完成六次学习后的运动轨迹。
具体实施方式
下面结合附图和实施方案对本发明做出进一步说明。
本发明的学习框架图如图3所示,并且按照图1所示的流程进行训练学习。图2给出了机器人智能控制结构模型,体现出机器人是如何通过自主学习完成避碰。
智能机器人在完成一系列任务之前,首先要保证它能够实时快速的适应环境,并完成相应的任务。于是移动机器人识别场景并完成躲避障碍的运动控制称为机器人的首要任务。为了验证本发明所提出的一种具有自主学习能力的极限学习机模型的有效性与收敛性,实验以移动机器人为研究对象,研究在未知环境下机器人避碰的技能。
实验初期设置了10个障碍物与1个目标点且随机的分布在仿真环境中;实验第二阶段改变障碍物及目标位置坐标,并增加障碍物数量至14个。观察两次仿真实验机器人行走路线并记录运动所需的时间。
实验的关键之处是Q学习中强化回报的获取。由此,选取合适的强化学习回报可以提高网络的训练收敛速度。根据本文机器人所需要完成的任务,选取折扣因子γ=0.95,学习因子κ=0.7,并将强化学习回报分为两部分:
依照移动机器人与障碍物的相对运动方向所产生的强化回报Rr_obs
依照移动机器人与目标点的相对运动方向所产生的强化回报Rr_goal
由于环境中障碍物是随机分布的,因此处于初始阶段的机器人会随机选取动作,并且导致发生碰撞,得到相应的强化回报,并进行存储,之后通过OSELM网络进行函数逼近,完成训练。经过一段时间训练,机器人可以自主学习实现避开障碍物并顺利到达目标点。
实验一:简单环境下的避碰实验
机器人在无干扰的未知环境中,采用本发明提出的方法,经过一次训练就可以完全掌握环境信息,并完成避碰,表现出快速的自主学习能力,证明了该算法的有效性快速性。仿真运动轨迹如图4所示。
实验二:复杂环境下的避碰实验
简单环境下的避碰实验不能说明该方法的收敛性,于是我们增加障碍数量并完成相应的避碰任务。由于机器人对复杂环境适应的比较慢,所以在较为复杂的初期环境中发生碰撞,如图5所示;而在第三次学习完成后完成避碰并到达目标点的任务,通过路径可以看出产生了冗余点,运动轨迹不平滑,如图6所示;而通过六次学习后,机器人可以完成任务,且路径平滑,实现了快速的自主学习避障,如图7所示。通过复杂环境下从发生碰撞到完成避碰的学习过程中,说明了该方法的收敛性。

Claims (6)

1.具有自主学习能力的在线序列极限学习机方法,其特征在于,系统的整体认知模型以在线序列极限学习机为基础,模拟人脑认知发育机制,与Q学习算法结合并设计了一个九元数组表示:
Q-OSELM=<S,A,R,Q,fL,H,Y,P,θ>
其中各个部分所表示的内容如下:
(1)S={si|i=0,1,2,…,N}表示外部获得的有限的状态集合,si表示第i个状态,i为外部动机的个数;
(2)A={aj|j=0,1,2,…,N}表示有限的外部智能体动作集合,aj表示第j个动作,j表示外部动作个数;
(3)R={r(st,at)}表示系统在t时刻在外部状态为st时所表现出来的外部动作at后使状态转移到st+1后的奖赏信号;
(4)Q={q(st,at)}表示系统在t时刻在外部状态为st时所表现出来的外部智能体动作at后使状态转移到st+1后的值函数;
(5)fL:s(t)×a(t)→s(t+1)为状态转移方程,即t+1时刻的外部状态s(t+1)总是由t时刻的外部状态s(t)和外部智能体动作a(t)共同决定;
(6)表示在线序列极限学习机网络系统隐含层输出集合,为第l个新训练样本数据,l表示新训练样本数据个数;
(7)Y:为中间参数转移方程,在k+1时刻的中间参数总是由k时刻的中间参数与k+1时刻的在线序列极限学习机网络系统隐含层输出共同决定;
(8)表示在线序列极限学习机网络整体的输出参数集合,为经过第l个新样本训练数据训练后预期得到的输出参数,l表示输出参数的个数;
(9)θ:为在线序列极限学习机网络输出权值转移方程,在k+1时刻的输出权值参数总是由k时刻的输出权值参数k+1时刻的中间参数与极限学习机网络系统隐含层输出同时决定。
2.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述的(3)、(4)中,强化Q学习算法结合了动态规划与动物心理学知识,从而可以实现具有回报的机器在线学习;该方法通过Markov决策过程建模,迭代出最优解:
Q(st,at)←Q(st,at)+κ[R(st,at)+γmQ(st+1,at+1)-Q(st,at)]
其中,γ为折扣因子,κ为学习因子,且0<κ<1;
Q学习算法流程如下:
Step1:随机初始化Q(st,at);
Step2:观测当前状态st并选择执行一个动作决策at
Step3:获得下一状态st+1,并同时获取奖励信号r(st,at);
Step4:根据式Q(st,at)←Q(st,at)+κ[R(st,at)+γmQ(st+1,at+1)-Q(st,at)]更新Q值。
3.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述(5)中,状态转移单元确定的状态转移方程为:
fL:s(t)×a(t)→s(t+1)
即Q-OSELM中t+1时刻的外部状态s(t+1)∈S总是由t时刻的外部状态s(t)∈S与t时刻的外部智能体动作a(t)∈A决定,与其t时刻之前的外部状态和外部智能体动作无关。
4.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述的(7)中,中间参数单元所确定出来的中间参数转移方程为:
即Q-OSELM中k+1时刻的中间参数总是由k时刻的中间参数与k+1时刻的在线序列极限学习机系统隐含层输出共同决定,该系统可以通过上一状态的中间参数递推计算得出下一状态的中间参数,不用重复学习,减少了大量的训练时间:
5.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述的(8)中,所述在线序列极限学习机网络输出权值单元的输出权值转移方程:
即Q-OSELM中k+1时刻的输出权值参数总是由第k时刻的输出权值参数k+1时刻的中间参数与在线序列极限学习机系统隐含层输出共同决定,该系统通过上一状态的输出权值参数递推计算得出下一状态的输出权值参数,不用重复学习,减少了大量的学习时间:
6.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,自主学习依据下列流程运行:
Step1:将Q-OSELM与网络训练中所用到的各个参数进行初始化;
Step2:初始化智能体状态;
Step3:获取当前智能体状态信息s0
Step4:将当前获取的状态信息s0输入到Q-OSELM网络系统中进行训练,根据所输出的Q值信息选择并执行动作决策a0
Step5:执行动作决策a0,使智能体得到一个新的外部状态s1,与此同时获得一个反馈强化信号r(s1,a1);
Step6:将其反馈信号r(s1,a1)通过外部环境反馈到Q-OSELM完成网络训练;
Step7:重复执行Step3~Step6直到训练完毕,并完成自主学习。
CN201610020090.XA 2016-01-13 2016-01-13 具有自主学习能力的在线序列极限学习机方法 Expired - Fee Related CN105700526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610020090.XA CN105700526B (zh) 2016-01-13 2016-01-13 具有自主学习能力的在线序列极限学习机方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610020090.XA CN105700526B (zh) 2016-01-13 2016-01-13 具有自主学习能力的在线序列极限学习机方法

Publications (2)

Publication Number Publication Date
CN105700526A CN105700526A (zh) 2016-06-22
CN105700526B true CN105700526B (zh) 2018-07-27

Family

ID=56226225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610020090.XA Expired - Fee Related CN105700526B (zh) 2016-01-13 2016-01-13 具有自主学习能力的在线序列极限学习机方法

Country Status (1)

Country Link
CN (1) CN105700526B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598058A (zh) * 2016-12-20 2017-04-26 华北理工大学 内在动机驱动的极限学习机自发育系统及其运行方法
CN107229973B (zh) * 2017-05-12 2021-11-19 中国科学院深圳先进技术研究院 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
CN107168066B (zh) * 2017-06-23 2020-04-28 太原理工大学 一种温室环境自适应控制方法
CN107479547B (zh) * 2017-08-11 2020-11-24 同济大学 基于示教学习的决策树行为决策算法
CN107547914B (zh) * 2017-08-15 2020-04-21 浙江工业大学 Dash标准下的基于knn-q学习的视频片段获取优化方法
CN107885086B (zh) * 2017-11-17 2019-10-25 合肥工业大学 基于mcmc优化q学习的自主航行器控制参数在线调节方法
CN108406767A (zh) * 2018-02-13 2018-08-17 华南理工大学 面向人机协作的机器人自主学习方法
US11074829B2 (en) * 2018-04-12 2021-07-27 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN109212975B (zh) * 2018-11-13 2021-05-28 北方工业大学 一种具有发育机制的感知行动认知学习方法
CN110288878B (zh) * 2019-07-01 2021-10-08 科大讯飞股份有限公司 自适应学习方法及装置
CN111515962B (zh) * 2020-06-04 2022-04-12 桂林电子科技大学 含有谐波减速器柔性关节的传递误差补偿控制方法
CN111645079B (zh) * 2020-08-04 2020-11-10 天津滨电电力工程有限公司 一种带电作业机器人机械臂路径规划控制装置及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200787A (zh) * 2011-04-18 2011-09-28 重庆大学 机器人行为多层次集成学习方法及系统
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN103473598A (zh) * 2013-09-17 2013-12-25 山东大学 基于变长度粒子群优化算法的极限学习机
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200787A (zh) * 2011-04-18 2011-09-28 重庆大学 机器人行为多层次集成学习方法及系统
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN103473598A (zh) * 2013-09-17 2013-12-25 山东大学 基于变长度粒子群优化算法的极限学习机
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Also Published As

Publication number Publication date
CN105700526A (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
CN105700526B (zh) 具有自主学习能力的在线序列极限学习机方法
Zhang et al. Deep interactive reinforcement learning for path following of autonomous underwater vehicle
Morales et al. A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning
US20200372822A1 (en) Training system for autonomous driving control policy
CN108873687B (zh) 一种基于深度q学习的智能水下机器人行为体系结规划方法
Cutler et al. Reinforcement learning with multi-fidelity simulators
CN109726676A (zh) 自动驾驶系统的规划方法
CN110000781A (zh) 基于发育网络的移动机器人运动方向预先决策方法
Yan et al. Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning
Jin et al. A game-theoretic reinforcement learning approach for adaptive interaction at intersections
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Teng et al. Fuzzy dynamical system for robot learning motion skills from human demonstration
Gutiérrez-Moreno et al. Hybrid decision making for autonomous driving in complex urban scenarios
Hilleli et al. Toward deep reinforcement learning without a simulator: An autonomous steering example
Šter An integrated learning approach to environment modelling in mobile robot navigation
Xiang et al. Research on collision-free control and simulation of single-agent based on an improved DDPG algorithm
Guan et al. Research on path planning of mobile robot based on improved Deep Q Network
Zhao et al. Imitation of real lane-change decisions using reinforcement learning
Taniguchi et al. Incremental acquisition of behaviors and signs based on a reinforcement learning schemata model and a spike timing-dependent plasticity network
Aguilar et al. Teacher strategies simulation by using fuzzy systems
Li et al. Deep belief network–based learning algorithm for humanoid robot in a pitching game
Zhang et al. A deep reinforcement learning method for mobile robot path planning in unknown environments
Weigand et al. Reinforcement learning using guided observability
Zhang et al. A Review on Robot Manipulation Methods in Human-Robot Interactions
Zhang et al. Research on Human-in-the-loop Traffic Adaptive Decision Making Method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180727

Termination date: 20190113