CN105700526B

CN105700526B - 具有自主学习能力的在线序列极限学习机方法

Info

Publication number: CN105700526B
Application number: CN201610020090.XA
Authority: CN
Inventors: 任红格; 史涛; 李福进; 尹瑞; 张春磊; 刘伟民; 霍美杰; 徐少彬
Original assignee: North China University of Science and Technology
Current assignee: North China University of Science and Technology
Priority date: 2016-01-13
Filing date: 2016-01-13
Publication date: 2018-07-27
Anticipated expiration: 2036-01-13
Also published as: CN105700526A

Abstract

本发明涉及了一种具有自主学习能力的在线序列极限学习机方法，属于智能机器人技术领域，一共分为九个部分，分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。本发明提供的具有自主学习能力的在线序列极限学习机方法，以在线序列极限学习机为框架，结合强化Q学习，提出了一种具有自主学习能力的在线序列极限学习机方法，并将该模型运用到移动机器人路径规划研究中，使机器人根据外部环境的状态与奖励，实现自主学习导航，提高机器人在未知环境中的自主学习能力。

Description

具有自主学习能力的在线序列极限学习机方法

技术领域

本发明涉及了一种具有自主学习能力的在线序列极限学习机方法，属于智能机器人技术领域。

背景技术

针对现有认知发育方法中主动性与收敛度不高以及BP网络学习速度慢，容易陷入局部最优等问题，本专利结合极限学习机网络随机获取输入权值与阈值的特点，加快了学习训练速度，避免陷入局部最优解，同时也提高了智能体的主动学习性能。

探索认知发育机理，构建认知发育机制，并把这些机制赋予机器人，是人工智能和机器人学、认知科学、神经生理学和发育心理学研究的重要课题。

人类可以在不同的环境下调整自己的行为来适应环境、选取最合适的动作去完成任务，并学会新的技能。而机器人自从出现以来，大部分都只用于从事复杂重复、单调或者危险的任务，例如组装机器、探险、搜救、侦查等。与此同时，机器人在面对灵活多变、难以预测的环境时，那些面向特定任务、面向特定数据、遗传算法等传统方法就不再适用了，这也限制了机器人的应用范围，所以未知环境下的自主学习能力、决策能力和任务执行能力就成了机器人研究的重点和难点。因此就产生了一个新的研究方向——认知发育机器人。人的自主心智发育属于发展神经科学以及发展心理学领域的研究。近来，来自机器人和机器智能领域的研究人员通过交叉学科研究，对心智发育机器人的研究形成了一个新的研究领域。而机器人如何根据当前环境来选取合适的潜在动作完成任务又是认知发育机器人的一个新的研究内容。

20世纪60年代末至70年代初，斯坦福研究所研制出的具有逻辑推理和行为规划能力的移动式机器人Shakey，被认为是第一个具有自主学习能力的机器人。然而，Shakey是靠单独手工编程或者制定具体任务的机器学习来实现预定功能的，其自适应能力和自主探索能力相对较弱，从某种意义上讲，他并不是一个真正的智能机器人。1997年，麻省理工学院人工智能实验室的Brook教授提出了认知机器人的概念。1998年，J.Weng最早提出了机器人自主心智发育思想。2001年，他在Science上阐述了发育机器人的思想框架和算法模型，并指出真正的智能机器人是具有自主心智发育能力的，使机器人在与环境的交互过程中，独立自主的形成和发育知识及技能，这种能力是渐进形成、发展和完善的，并贯穿于机器人一生。

专利申请号为201410101272.0的专利主要针对传统机器人学习速率较低，实时性差等问题提出了一种仿生智能控制方法，该方法可以快速有效的提高机器人的智能水平。申请号为201410055115.0的专利主要针对现有技术中存在的机器人避障导航智能化程度不高等问题，提出了一种基于Skinner操作条件反射原理的机器人避障导航方法，是机器人能够在没有导师信号的情况下，以“learning-by-doing”的试错式方式与环境交互，建立操作条件反射，完成避障导航。申请号为201210398379.7的专利主要针对现有基于视频的人体行为识别方法存在的不足，提出一种基于在线贯序极限学习机的递增式人体行为识别方法该方法基于在线序贯极限学习机分类器对人体行为进行识别，不但能够在训练样本很少的情况下，以较少的训练时间，获得较为精确的人体行为识别结果，而且具有在线学习能力，即当环境和识别对象发生变化时，无需重新训练新的分类器，只需在现有的分类器基础上继续在线学习就可以达到人体行为的准确识别。

发明内容

针对BP神经网络在移动机器人路径规划应用中存在的维度高，训练难，学习速度慢等问题，提出一种基于在线序列极限学习机的强化Q学习方法(Q-learning)，并运用到移动机器人路径规划研究当中，通过外部环境对机器人动作的奖励(惩罚)值，对机器人系统进行反馈，完成自主认知学习。

具体的技术方案为：

该方法一共分为九个部分，分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。各个部分具体含义如下：

(1)S＝{s_i|i＝0，1，2，…，N}表示外部获得的有限的状态集合，s_i表示第i个状态，i为外部动机的个数。

(2)A＝{a_j|j＝0，1，2，…，N}表示有限的外部智能体动作集合，a_j表示第j个动作，j表示外部动作个数。

(3)R＝{r(s_t,a_t)}表示系统在t时刻在外部状态为s_t时所表现出来的外部动作a_t后使状态转移到s_t+1后的奖赏信号。

(4)Q＝{q(s_t,a_t)}表示系统在t时刻在外部状态为s_t时所表现出来的外部智能体动作a_t后使状态转移到s_t+1后的值函数。

强化Q学习结合了动态规划与动物心理学知识，从而可以实现具有回报的机器在线学习。该方法通过Markov决策过程建模，迭代出最优解。

Q(s_t,a_t)←Q(s_t,a_t)+κ[R(s_t,a_t)+γ_mQ(s_t+1,a_t+1)-Q(s_t,a_t)] (1)

其中，γ为折扣因子，κ为学习因子，且0<κ<1。Q学习算法流程如下：

Step 1：随机初始化Q(s_t,a_t)；

Step 2：观测当前状态s_t并选择执行一个动作决策a_t；

Step 3：获得下一状态s_t+1，并同时获取奖励信号r(s_t,a_t)；

Step 4：根据(1)式更新Q值。

(5)f_L:s(t)×a(t)→s(t+1)为状态转移方程，即t+1时刻的外部状态s(t+1)总是由t时刻的外部状态s(t)和外部智能体动作a(t)共同决定，一般来讲是由模型本身与外部环境决定。

(6)表示极限学习机神经网络系统隐含层输出集合，为第l个新训练样本数据，l表示新训练样本数据个数。

(7)Y:为中间参数转移方程，在k时刻的中间参数总是由k时刻的中间参数与k+1时刻的极限学习机网络系统隐含层输出共同决定，一般来说是由加入的新样本数据决定。

(8)表示极限学习机网络整体的输出参数集合，为经过第l个新样本训练数据训练后预期得到的输出参数，l表示输出参数的个数。

首先采用批量的ELM算法来完成对该批数据的训练，如式(2)

之后含有M个训练样本的新数据加入到训练模型中，网络的新隐含层输出矩阵如式(3)：

式(3)可以简化为式(4)

网络输出矩阵可以改写成为式(5)

则新的输出权值更新为式(6)

令

于是有：

根据Sherman-Morrison矩阵求逆引理可以将式(9)化简为式(10)：

由式(10)可以得出可以由递推求出，所以得出式(11)：

(9)θ:为极限学习机网络输出权值转移方程，在k时刻的输出权值参数总是由k时刻的输出权值参数k+1时刻的中间参数与极限学习机网络系统隐含层输出同时决定，具体来讲是由上一状态的输出参数决定。

将式(9)两边同时求逆得到式(12)：

所以有式(13)：

可以推导式(6)，从而得到式(14)：

式中都是已知矩阵。

可以看出新的输出权值矩阵θ可以在就模型下递推更新得到，不需要重新训练。更新公式如式(15)

θ^k+1＝θ^k+Y_k+1H_k+1 ^T(P_k+1-H_k+1θ^k) (15)

本发明系统学习步骤如下：

Step1：将Q-OSELM与网络训练中所用到的各种参数进行初始化；

Step2：将移动机器人状态进行初始化；

Step3：获取当前移动机器人系统的状态信息；

Step4：将当前状态信息输入到Q-OSELM网络中进行训练，根据所输出的Q值信息选择动作决策；

Step5：执行动作决策，使移动机器人得到一个新的状态s_t+1，以此同时获得一个反馈强化信号r(s_t,a_t)。如果机器人发生碰撞，则返回到机器人初始状态并重新开始训练；

Step6：将其反馈信号通过环境反馈到Q-OSELM中完成网络训练；

Step7：重复Step3-Step6直到训练完毕，完成自主在线学习。

研究表明，ELM存在的许多优点，可以满足Q学习的研究需求。

首先，由于ELM是一种前馈神经网络，它采取自适应的方式模仿人脑进行学习训练，网络泛化能力很强，使智能体的智能系统能够更好更快的适应环境变化。

其次，ELM具有自学习,自组织能力以及归纳能力等特点，这不但保证了Q学习算法的收敛性，而且大大增强了智能体对未知环境的识别处理能力。

最后，ELM还具有较强的容错能力，它可以根据被控对象的自身特征进行精确的模式识别。

本发明提供的具有自主学习能力的在线序列极限学习机方法，以在线序列极限学习机为框架，结合强化Q学习，提出了一种具有自主学习能力的在线序列极限学习机方法，并将该模型运用到移动机器人路径规划研究中，使机器人根据外部环境的状态与奖励，实现自主学习导航，提高机器人在未知环境中的自主学习能力。

附图说明

图1为本发明的系统学习流程图；

图2为本发明的移动机器人智能控制结构模型；

图3为本发明的基于Q-OSELM的Q学习网络框架；

图4为实施例的简单环境下机器人寻优路径；

图5为实施例的增加障碍物数量后第一次学习后的运动轨迹；

图6为实施例的增加障碍物数量后完成三次学习后的运动轨迹；

图7为实施例的增加障碍物数量后完成六次学习后的运动轨迹。

具体实施方式

下面结合附图和实施方案对本发明做出进一步说明。

本发明的学习框架图如图3所示，并且按照图1所示的流程进行训练学习。图2给出了机器人智能控制结构模型，体现出机器人是如何通过自主学习完成避碰。

智能机器人在完成一系列任务之前，首先要保证它能够实时快速的适应环境，并完成相应的任务。于是移动机器人识别场景并完成躲避障碍的运动控制称为机器人的首要任务。为了验证本发明所提出的一种具有自主学习能力的极限学习机模型的有效性与收敛性，实验以移动机器人为研究对象，研究在未知环境下机器人避碰的技能。

实验初期设置了10个障碍物与1个目标点且随机的分布在仿真环境中；实验第二阶段改变障碍物及目标位置坐标，并增加障碍物数量至14个。观察两次仿真实验机器人行走路线并记录运动所需的时间。

实验的关键之处是Q学习中强化回报的获取。由此，选取合适的强化学习回报可以提高网络的训练收敛速度。根据本文机器人所需要完成的任务，选取折扣因子γ＝0.95，学习因子κ＝0.7，并将强化学习回报分为两部分：

依照移动机器人与障碍物的相对运动方向所产生的强化回报R_{r_obs}；

依照移动机器人与目标点的相对运动方向所产生的强化回报R_{r_goal}；

由于环境中障碍物是随机分布的，因此处于初始阶段的机器人会随机选取动作，并且导致发生碰撞，得到相应的强化回报，并进行存储，之后通过OSELM网络进行函数逼近，完成训练。经过一段时间训练，机器人可以自主学习实现避开障碍物并顺利到达目标点。

实验一：简单环境下的避碰实验

机器人在无干扰的未知环境中，采用本发明提出的方法，经过一次训练就可以完全掌握环境信息，并完成避碰，表现出快速的自主学习能力，证明了该算法的有效性快速性。仿真运动轨迹如图4所示。

实验二：复杂环境下的避碰实验

简单环境下的避碰实验不能说明该方法的收敛性，于是我们增加障碍数量并完成相应的避碰任务。由于机器人对复杂环境适应的比较慢，所以在较为复杂的初期环境中发生碰撞，如图5所示；而在第三次学习完成后完成避碰并到达目标点的任务，通过路径可以看出产生了冗余点，运动轨迹不平滑，如图6所示；而通过六次学习后，机器人可以完成任务，且路径平滑，实现了快速的自主学习避障，如图7所示。通过复杂环境下从发生碰撞到完成避碰的学习过程中，说明了该方法的收敛性。

Claims

1.具有自主学习能力的在线序列极限学习机方法，其特征在于，系统的整体认知模型以在线序列极限学习机为基础，模拟人脑认知发育机制，与Q学习算法结合并设计了一个九元数组表示：

Q-OSELM＝<S，A，R，Q，f_L，H，Y，P，θ>

其中各个部分所表示的内容如下：

(1)S＝{s_i|i＝0，1，2，…，N}表示外部获得的有限的状态集合，s_i表示第i个状态，i为外部动机的个数；

(2)A＝{a_j|j＝0，1，2，…，N}表示有限的外部智能体动作集合，a_j表示第j个动作，j表示外部动作个数；

(3)R＝{r(s_t,a_t)}表示系统在t时刻在外部状态为s_t时所表现出来的外部动作a_t后使状态转移到s_t+1后的奖赏信号；

(4)Q＝{q(s_t,a_t)}表示系统在t时刻在外部状态为s_t时所表现出来的外部智能体动作a_t后使状态转移到s_t+1后的值函数；

(5)f_L:s(t)×a(t)→s(t+1)为状态转移方程，即t+1时刻的外部状态s(t+1)总是由t时刻的外部状态s(t)和外部智能体动作a(t)共同决定；

(6)表示在线序列极限学习机网络系统隐含层输出集合，为第l个新训练样本数据，l表示新训练样本数据个数；

(7)Y:为中间参数转移方程，在k+1时刻的中间参数总是由k时刻的中间参数与k+1时刻的在线序列极限学习机网络系统隐含层输出共同决定；

(8)表示在线序列极限学习机网络整体的输出参数集合，为经过第l个新样本训练数据训练后预期得到的输出参数，l表示输出参数的个数；

(9)θ:为在线序列极限学习机网络输出权值转移方程，在k+1时刻的输出权值参数总是由k时刻的输出权值参数k+1时刻的中间参数与极限学习机网络系统隐含层输出同时决定。

2.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法，其特征在于，所述的(3)、(4)中，强化Q学习算法结合了动态规划与动物心理学知识，从而可以实现具有回报的机器在线学习；该方法通过Markov决策过程建模，迭代出最优解：

Q(s_t,a_t)←Q(s_t,a_t)+κ[R(s_t,a_t)+γ_mQ(s_t+1,a_t+1)-Q(s_t,a_t)]

其中，γ为折扣因子，κ为学习因子，且0<κ<1；

Q学习算法流程如下：

Step1：随机初始化Q(s_t,a_t)；

Step2：观测当前状态s_t并选择执行一个动作决策a_t；

Step3：获得下一状态s_t+1，并同时获取奖励信号r(s_t,a_t)；

Step4：根据式Q(s_t,a_t)←Q(s_t,a_t)+κ[R(s_t,a_t)+γ_mQ(s_t+1,a_t+1)-Q(s_t,a_t)]更新Q值。

3.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法，其特征在于，所述(5)中，状态转移单元确定的状态转移方程为：

f_L:s(t)×a(t)→s(t+1)

即Q-OSELM中t+1时刻的外部状态s(t+1)∈S总是由t时刻的外部状态s(t)∈S与t时刻的外部智能体动作a(t)∈A决定，与其t时刻之前的外部状态和外部智能体动作无关。

4.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法，其特征在于，所述的(7)中，中间参数单元所确定出来的中间参数转移方程为：

即Q-OSELM中k+1时刻的中间参数总是由k时刻的中间参数与k+1时刻的在线序列极限学习机系统隐含层输出共同决定，该系统可以通过上一状态的中间参数递推计算得出下一状态的中间参数，不用重复学习，减少了大量的训练时间：

5.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法，其特征在于，所述的(8)中，所述在线序列极限学习机网络输出权值单元的输出权值转移方程：

即Q-OSELM中k+1时刻的输出权值参数总是由第k时刻的输出权值参数k+1时刻的中间参数与在线序列极限学习机系统隐含层输出共同决定，该系统通过上一状态的输出权值参数递推计算得出下一状态的输出权值参数，不用重复学习，减少了大量的学习时间：

6.根据权利要求1所述的具有自主学习能力的在线序列极限学习机方法，其特征在于，自主学习依据下列流程运行：

Step1：将Q-OSELM与网络训练中所用到的各个参数进行初始化；

Step2：初始化智能体状态；

Step3：获取当前智能体状态信息s₀；

Step4：将当前获取的状态信息s₀输入到Q-OSELM网络系统中进行训练，根据所输出的Q值信息选择并执行动作决策a₀；

Step5：执行动作决策a₀，使智能体得到一个新的外部状态s₁，与此同时获得一个反馈强化信号r(s₁,a₁)；

Step6：将其反馈信号r(s₁,a₁)通过外部环境反馈到Q-OSELM完成网络训练；

Step7：重复执行Step3～Step6直到训练完毕，并完成自主学习。