CN109282818A

CN109282818A - 具有发育机制的移动机器人路径规划方法

Info

Publication number: CN109282818A
Application number: CN201811343671.2A
Authority: CN
Inventors: 张晓平; 阮晓钢; 王力; 李志军; 李幼军; 毕松; 闫佳庆; 吉鸿海; 肖尧
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-01-29

Abstract

一种具有发育机制的移动机器人路径规划方法，属于移动机器人路径规划领域。首先对方法进行初始化，包括定义移动机器人可感知离散状态集、可输出动作集、有效动作空间集、潜在动作关系集等，之后感知机器人当前状态并计算当前状态取向值，计算移动机器人动作空间探索率，依概率或对剩余动作空间进行探索或对有效动作空间进行学习，在探索剩余空间情况下判断是否扩展发育，在有效动作空间学习情况下判断是否缩减发育，不断重复以上步骤直至达到学习设定最大步数。本发明提高了移动机器人对环境的学习速度，能够使机器人更快习得到达目标的有效路径，其次，提高了移动机器人的学习稳定性，能够使机器人最终稳定在目标点附近，不再发生偏离。

Description

具有发育机制的移动机器人路径规划方法

技术领域

本发明涉及一种具有发育机制的移动机器人路径规划方法，属于移动机器人路径规划领域。

背景技术

移动机器人是一类能够通过传感器感知周身环境，并通过自主运动完成特定任务的智能系统，在机器人研究中应用极广，而路径规划是实现移动机器人其他任务的基础，本发明正是以此为目标，探索移动机器人与周身环境进行自主交互进而习得环境知识实现路径规划的方法。

相关的专利如申请号CN201810827669.6提出一种基于改进A*算法的四足机器人路径规划方法及系统，首先建立栅格地图，之后利用改进A*算法判定从初始栅格点到目标栅格点的通行代价值最小时所对应的路径为最优路径，驱使四足机器人远离障碍物的同时避免了狭窄通道的堵塞问题。相关的专利如申请号CN201810506586.7提出一种基于改进A星策略的移动机器人路径规划方法，大大节约了内存和计算资源，加快了算法的收敛速度，融入了Voronoi图，使路径远离障碍物，最后使用平滑器得到一条最佳路径。以上方法都需要建立栅格地图，过程较为复杂。随着智能机器人的不断发展，很多学者提出基于仿生学习的算法，相关的专利如申请号201410055115.0提出一种基于Skinner操作条件反射原理的机器人避障导航方法，定义了方法学习步骤，通过实验证明方法具备较强的自学习、自组织、自适应能力，能够在无导师信号的情况下自主探索环境、成功避障导航。相关的论文“基于内发动机机制的移动机器人自主路径规划方法研究”同样在斯金纳操作条件反射基础上，提出一种新的路径规划方法，设计了移动机器人状态能量函数，体现出高度自主性和非任务性。以上方法中，定义的感知运动空间相关元素结构均为固定。本发明在论文“基于内发动机机制的移动机器人自主路径规划方法研究”基础上，对其方法进行改进，提出一种具有发育机制的移动机器人路径规划方法，涉及到的感知运动空间相关元素结构可发育，即随着学习过程可扩展或缩减，提高了机器人的学习速度和稳定性。

发明内容

本发明涉及一种具有发育机制的移动机器人路径规划方法，属于移动机器人路径规划领域。具体包含以下步骤：

步骤1：初始化。定义方法学习过程中涉及到的各元素，并对各元素进行初始化，具体如下：

步骤1.1：定义移动机器人可感知离散状态集S＝{s_i|i＝1,2,…,n_s}，其中s_i∈S表示机器人第i个可感知的内部状态，n_s为离散状态数。针对移动机器人，其状态由位置及方向角两个因素构成，具体表示为(θ,x,y)，设其位置状态数用n_pos表示，方向角状态数用n_ang表示，则机器人可感知离散状态数n_s＝n_pos×n_ang；

步骤1.2：定义移动机器人可输出动作集M＝{m_j|j＝1,2,…,n_m}，m_j表示可输出动作集中第j个动作，n_m为可输出动作数。针对移动机器人，设定机器人在行驶过程中，线速度恒定，需要执行的动作是机器人的转动角度Δθ。

步骤1.3：定义移动机器人有效输出动作空间集M_s＝{M_i|i＝1,2,…,n_s}，其中M_i＝{m_ik|k＝1,2,…,n_i}为状态s_i下的有效输出动作空间，m_ik∈M为机器人在状态s_i下从M中学习到的第k个有效动作，n_i为状态s_i下学习到的有效动作个数。状态s_i下的有效输出动作指的是该状态下能够使机器人趋向目标的动作，M_i是在机器人对环境的学习过程中不断构建的，随着M_i结构的不断变化，n_i也随之发生变化。学习初始时刻，M_i均为空，n_i＝0；

步骤1.4：定义移动机器人有效感知行动映射取向性集O_s＝{O_i|i＝1,2,…,n_s}，其中O_i＝{o_ik|k＝1,2,…,n_i}为状态s_i下的有效感知行动映射取向性集，o_ik为状态s_i对其第k个有效动作的选择取向性；

步骤1.5：定义移动机器人有效感知行动映射学习次数集N_s＝{N_i|i＝1,2,…,n_s}，N_i＝{n_ik|k＝1,2,…,n_i}为状态s_i下机器人对其各有效动作的学习次数集，n_ik表示状态s_i下对动作m_ik的学习次数，若t时刻，m_ik被选择，则t+1时刻：

n_ik(t+1)＝n_ik(t)+1 (1)

对于其他所有没有被学习的有效感知行动映射，其学习次数保持不变，学习初始时刻，n_ik均等于0；

步骤1.6：定义移动机器人有效感知行动映射好奇心集C_s＝{C_i|i＝1,2,…,n_s}，C_i＝{c_ik|k＝1,2,…,n_i}为状态s_i下机器人对各有效动作的好奇心集，c_ik表示状态s_i下对动作m_ik的好奇度，具体为：

其中，k_c和c为好奇心参数，针对移动机器人路径规划问题，经实验验证分别设置为k_c＝0.5，c＝1；

步骤1.7：定义移动机器人状态评价函数V，用来评价机器人所处状态的理想程度，机器人越接近目标，状态值越大，越远离目标，状态值越小，移动机器人路径规划任务中，状态评价函数设置为：

其中，d_g表示机器人与目标之间的距离，其值越小，机器人状态评价函数值越高；定义d_k(k＝1,2,…,n_o)为机器人距离第k个障碍物的距离，no为环境中障碍物的数量，则表示机器人与障碍物之间的最小距离，其值越大，状态评价函数值越小。路径规划任务中，状态评价函数由两部分构成，用于导航，用于避障，a₁取环境最大边值；a₂在[0,1]之间取值，a₃用于决定导航和避障的侧重程度，在[0,1]之间取值，a₄与a₅在[5,15]之间取值，各参数在取值范围内通过试凑法，满足所有障碍物中心点状态值小于-10，在障碍物外区域，状态评价函数与d_g(t)成反比即状态评价函数参数有效；

步骤1.8：定义移动机器人取向函数，用于决定方法学习方向：

V_s(t+1)＝V(t+1)-V(t) (4)

表示t+1时刻机器人的取向函数的值V_s(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t)；

步骤1.9：定义移动机器人有效操作函数集P_s＝{P_i|i＝1,2,…,n_s}，用于决定机器人在有效动作空间内对动作的选择，P_i＝{p_ik|k＝1,2,…,n_i}为状态s_i所对应的有效操作函数集，p_ik为状态s_i下对动作m_ik的操作值，具体为：

p_ik＝σo_ik+(1-δ)c_ik (5)

其中0＜σ＜1为操作函数参数，机器人路径规划任务中，经实验验证取σ＝0.7；

步骤1.10：定义移动机器人有效动作空间取向性学习算法L_s，具体为：

其中o_ik对应被选动作m_ik的取向性，o_ik′为状态s_i下其余动作的取向性值，η为取向性学习算法参数，机器人路径规划任务中，经实验验证取η＝0.1；

步骤1.11：定义移动机器人潜在动作关系集AF＝{AF_ij|i＝1,2,…,n_s,j＝1,2,n_m}。受潜在动作理论及其形式化启发，在此定义机器人不同状态与不同动作之间的潜在关系，具体为一个三元组：

AF_ij:(effect,(s_i,m_j)) (7)

AF_ij意义为：机器人在状态s_i下输出m_j产生的效果为effect。机器人在对可输出动作集进行探索时，每探索一个新的感知行动映射(s_i,m_j)，就会伴随着一个新的潜在动作关系元组形成。

针对方法发育式学习过程：

若effect＝1，表示在感知状态s_i下动作m_j是可被选择的，即动作m_j是状态s_i下的有效动作；

若effect＝0，表示在状态s_i下，动作m_j是不可取的，会使得学习偏离目标；

若effect值为空，即effect＝φ，则表示对应的感知行动映射还没有被探索。

依据操作条件反射学习特点及定义的取向函数，effect值计算方式如下：

步骤1.12：定义移动机器人可输出动作空间探索率集Exp＝{Exp_i|i＝1,2,…,n_s}，Exp_i表示机器人在状态s_i下对可输出动作空间M的探索率，可通过下式进行计算：

其中，Num_i{effect≠φ}＝n_m-Num_i{effect＝φ}表示状态s_i下可输出动作空间中潜在动作关系元组effect≠φ的个数，亦即状态s_i对可输出动作空间已经进行探索的感知行动映射数。

任意状态s_i下，机器人或对该状态下已发育形成的有效输出动作空间M_i进行学习，或对该状态下可输出动作空间M的剩余空间进行探索。在此规定，机器人学习过程中，在状态s_i下总是依概率1-Exp_i对M剩余空间进行探索，依概率Exp_i对其有效输出动作空间M_i进行学习。特别地：

①在学习初始时刻t＝0时，机器人没有任何环境知识，任意状态s_i下，其潜在动作关系元组AF_ij中effect值均为φ，M_i也为φ，此时机器人以

的概率从可输出动作集M中探索动作，以完成对M_i的构建。

②当学习进行到某个时刻，若状态s_i已经完成了对可输出动作空间M的全部探索，则机器人在该状态下继续对M进行探索的概率为：

表明此时机器人不再会对M进行探索。

步骤2：感知机器人当前状态s_i(t)；

步骤3：计算当前状态取向值V(t)；

步骤4：计算移动机器人动作空间探索率Exp_i。依概率1-Exp_i对M剩余动作空间进行探索，依概率Exp_i对有效状态空间M_i进行学习。初始时刻，机器人没有任何先验知识，M_i为φ，机器人以概率1探索M，即机器人需要从M中获取知识，同时，在此规定，在学习任意时刻，若M_i为φ，则机器人以概率1探索M剩余动作空间。

所谓状态s_i下M的剩余动作空间，即状态s_i在可输出动作集M中所有潜在动作关系元组(effect,(s_i,m_j))中effect值为φ的动作，effect值为φ表示感知行动映射(s_i,m_j)没有被探索。

t时刻，若机器人依概率1-Exp_i对M剩余动作空间进行了探索，则执行步骤4.1.1-4.1.10；若机器人依概率Exp_i对当前状态s_i下有效动作空间M_i进行学习，则执行步骤4.2.1-4.2.11，此时，机器人对M_i中各动作的学习依内发动机机制进行。各相关步骤具体如下：

步骤4.1.1：选择动作并输出。机器人在当前状态的M剩余动作空间中随机选择某个动作并输出；

步骤4.1.2：状态发生转移。t时刻，机器人在当前状态s_i(t)下从M剩余动作空间中随机选择了某个动作，假设为m_j作用于客体环境，状态发生转移，观测t+1时刻机器人的新状态。针对移动式机器人，设t时刻及t+1时刻机器人的方向角及位置分别为(θ_o,x_o,y_o)与(θ_n,x_n,y_n)，则机器人运动学模型可表示为：

步骤4.1.3：感知机器人新状态s_i(t+1)，并计算t+1时刻机器人状态取向值V(t+1)；

步骤4.1.4：计算取向函数值V_s(t+1)。计算t+1时刻机器人的取向函数值V_s(t+1)，此处用于计算方法潜在动作关系effect值；

步骤4.1.5：更新潜在动作关系集。根据计算获得的取向函数V_s(t+1)值按式(8)更新M空间潜在动作关系元组(effect,(s_i,m_j))，若V_s(t+1)≥0，则effect＝1，若V_s(t+1)＜0，则effect＝0；

步骤4.1.6：判断是否扩展发育。根据新生成的潜在动作关系元组的effect值判断是否需要对状态s_i下的有效动作空间M_i进行扩展发育。

若effect＝0，表明所探索的动作在当前状态下是无效的，t+1时刻无需对M_i进行扩展发育，机器人有效感知行动映射结构不变，转到步骤5。

若effect＝1，则表明t时刻探索到当前状态下一个有效动作，t+1时刻需要将探索到的动作扩展到M_i中，继续执行步骤4.1.7-4.1.10。

步骤4.1.7：动作扩展。将动作m_j扩展为动作集M_i第n_i+1个有效动作：

步骤4.1.8：取向性更新。对于新增加动作定义其在状态s_i下的取向性为：

M_i中原有动作取向性o_ik更新如下：

步骤4.1.9：好奇心激活。伴随着状态s_i下新动作的增加，除取向性更新外，状态s_i对的好奇心也随之被激活，用于计算动作好奇度的感知行动映射学习次数并在以后的学习中不断更新。可以看出，任何新发育的动作，其所对应的好奇心值均较大，结合对新增动作定义的初始取向性值，能够保证机器人对该有效动作的充分学习；

步骤4.1.10：结构发育：

n_i′＝n_i+1 (16)

n_i′为发育后的M_i的维数，

n_i＝n_i′ (17)

步骤4.2.1：计算当前状态下的好奇心集C_i(t)。在感知状态s_i(t)下，机器人有效输出动作空间M_i中某一动作，设为m_ik随机引起了机器人对其进行学习的好奇心，其好奇度被激发，计算该好奇心值c_ik(t)，对于没有引起机器人好奇心的其余动作，c_ik′(t)＝0；

步骤4.2.2：计算操作函数集P_i(t)。结合当前状态下的有效感知行动映射取向性集O_i(t)及好奇心集C_i(t)，计算当前状态下的有效操作函数集P_i(t)；

步骤4.2.3：选择动作并输出。依据内发动机机制，选择M_i中操作函数值最大的动作，设为m_ib；

步骤4.2.4：状态发生转移。t时刻，机器人在当前状态s_i(t)下从M剩余动作空间中随机选择了某个动作，假设为m_j作用于客体环境，状态发生转移，观测t+1时刻机器人的新状态。针对移动式机器人，设t时刻及t+1时刻机器人的方向角及位置分别为(θ_o,x_o,y_o)与(θ_n,x_n,y_n)，则机器人运动学模型可表示为：

步骤4.2.5：感知机器人新状态s_i(t+1)，并计算t+1时刻机器人状态取向值V(t+1)；

步骤4.2.6：计算取向函数值V_s(t+1)。此处用于决定机器人已有感知行动映射结构下取向性学习方向；

步骤4.2.7：更新有效感知行动取向性映射集。根据式(6)对有效感知行动取向性映射集O_i进行更新；

步骤4.2.8：判断是否缩减发育。M_i中，对所有的动作都有潜在动作关系元组：

(1,(s_i,m_ik)) (19)

成立，但在操作条件反射机制下，机器人总是趋向于选择获得更大正强化值的动作，随着学习的进行，某些有效动作的取向性会随着学习的进行不断降低，当其取向值下降到一定程度以下时，机器人在好奇心作用下，依据内发动机机制继续对其进行学习会造成学习的浪费，此时需要对方法有效输出动作空间集结构进行缩减发育。

机器人在对其有效输出动作空间集M_s的学习过程中，如果t时刻，当前状态s_i下某动作m_ik所对应的取向性o_ik(t)满足：

则认为动作m_ik不属于当前状态下的可选潜在最优动作，需要将其从M_i中剪除。

根据更新后的取向性映射集O_i判断是否需要对M_i进行缩减发育，若不需要缩减发育，转到步骤5。当M_i中存在需要被剪除的动作时，继续执行步骤4.2.9-4.2.11。假设t时刻，状态s_i下的有效输出动作集M_i中第j个动作m_ij需要被剪除，则方法的缩减发育原理具体如下：

步骤4.2.9：动作剪除。首先将m_ij从M_i中剪除；

步骤4.2.10：取向性更新。M_i中动作m_ij被剪除后，对其剩余动作取向性进行如下更新：

步骤4.2.11：结构发育。对剪除动作m_ij后的M_i结构进行更新，对于k＜j的动作各自排序不变，对于k＞j的动作，依次向前移动：

m_ik→m_i(k-1) (22)

直至

将M_i空间由n_i维降低为n_i-1维：

n_i′＝n_i-1 (24)

n_i′为发育后的M_i的维数，

n_i＝n_i′ (25)

结构发育过程中，各动作取向性值、好奇心值、学习次数随动作更新。

步骤5：判断学习结束条件。为体现机器人的学习过程，在此设定轮次学习，学习结束条件为达到每轮学习设定的最大学习步数5000步以上，若满足条件，则学习结束，否则返回步骤2。

与现有技术相比，本发明的优点在于：移动机器人在探索环境的过程中，其有效感知行动映射是逐渐建立并不断更新的，极大地提高了机器人的学习速度，并且提高了学习的稳定性。

附图说明

图1为本发明学习流程图；

图2为机器人运动环境图；

图3为IM-PP方法学习结果；

图4为DM-PP方法学习结果。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

模拟实验中移动机器人运动环境如图2所示，机器人置身于一个5m×5m的自由环境中，运动目标点为图中的三角形，为增加实验难度，在机器人和目标点之间放置有10个障碍物，如图中方块所示。机器人由初始位置[0.25m，0.25m]开始运动，初始朝向角度为0°。最终目标是使机器人通过学习环境避开障碍物到达目标点。

(1)首先定义机器人内部可感知离散状态。针对机器人位置状态，对其进行区域化划分，具体为从零点开始向x轴及y轴正方向每隔0.25m作为一个状态单位，所以机器人共有n_pos＝20×20＝400个位置状态；对机器人的方向角在-180°到180°度内进行如下表所示的划分，所以机器人共有n_ang＝12个角度状态。因此，机器人共有n_s＝n_pos×n_ang＝4800个内部可感知离散状态。

(2)定义机器人的可输出动作集。对于移动机器人，机器人在任意状态下都可以在0～360°内自由旋转，在此定义移动机可输出动作集为M＝{-60°，-30°，0°，30°，60°}，n_m＝5。

(3)设置状态评价函数参数。针对图2场景，障碍物数n_o＝10，状态评价函数参数取a₁＝20，a₂＝0.3，a₃＝0.2，a₄＝5，a₅＝12。

表1移动机器人方向角划分

为清楚显示机器人的渐进学习过程，令机器人进行自由学习，即在无障碍物碰撞的情况下自由运动，每轮学习5000步以上停止，之后在前一轮次的学习基础上继续新轮次的学习。为表明本发明的优越性，将其与论文“基于内发动机机制的移动机器人自主路径规划方法研究”中的学习方法进行对比，方便起见，论文“基于内发动机机制的移动机器人自主路径规划方法研究”中具有内发动机机制的路径规划学习方法简称为IM-PP(IntrinsicMotivation-Path Planning)，本发明具有发育机制的路径规划学习方法简称为DM-PP(Development Mechanism-Path Planning)，结果分别如图3与图4所示。

首先可以看出，IM-PP与DM-PP都具有一定的学习能力，都能使得机器人从最初没有任何环境知识、在环境中呈现无组织的游荡状态，经过学习达到后期活动范围集中在目标点附近区域。但是，相比较于IM-PP方法，DM-PP方法具有更好的学习性能：(1)DM-PP具有更快的学习速度，可以看出DM-PP方法下机器人第4轮即可达到IM-PP方法下机器人第14轮类似的学习效果，同时DM-PP第9轮学习效果更是优于IM-PP第20轮学习效果，说明DM-PP较IM-PP具有更快的学习速度。(2)DM-PP具有更稳定的学习效果，观察IM-PP方法的实验结果，当学习进入第20轮，此时机器人已经积累了一定的知识，但是机器人在到达目标点区域后依然会发生偏离。相比较之下，DM-PP方法下，学习完成后，机器人一旦进入目标点，便只在其附近运动，不再偏离目标，体现本发明较好的学习稳定性。

Claims

1.具有发育机制的移动机器人路径规划方法，其特征在于包括以下步骤：

步骤1：初始化；定义方法学习过程中涉及到的各元素，并对各元素进行初始化，具体如下：

步骤1.1：定义移动机器人可感知离散状态集S＝{s_i|i＝1,2,…,n_s}，其中s_i∈S表示机器人第i个可感知的内部状态，n_s为离散状态数；针对移动机器人，其状态由位置及方向角两个因素构成，具体表示为(θ,x,y)，设其位置状态数用n_pos表示，方向角状态数用n_ang表示，则机器人可感知离散状态数n_s＝n_pos×n_ang；

步骤1.2：定义移动机器人可输出动作集M＝{m_j|j＝1,2,…,n_m}，m_j表示可输出动作集中第j个动作，n_m为可输出动作数；针对移动机器人，设定机器人在行驶过程中，线速度恒定，需要执行的动作是机器人的转动角度Δθ；

步骤1.3：定义移动机器人有效输出动作空间集M_s＝{M_i|i＝1,2,…,n_s}，其中M_i＝{m_ik|k＝1,2,…,n_i}为状态s_i下的有效输出动作空间，m_ik∈M为机器人在状态s_i下从M中学习到的第k个有效动作，n_i为状态s_i下学习到的有效动作个数；状态s_i下的有效输出动作指的是该状态下能够使机器人趋向目标的动作，M_i是在机器人对环境的学习过程中不断构建的，随着M_i结构的不断变化，n_i也随之发生变化；学习初始时刻，M_i均为空，n_i＝0；

n_ik(t+1)＝n_ik(t)+1

其中，d_g表示机器人与目标之间的距离，其值越小，机器人状态评价函数值越高；定义d_k(k＝1,2,…,n_o)为机器人距离第k个障碍物的距离，no为环境中障碍物的数量，则表示机器人与障碍物之间的最小距离，其值越大，状态评价函数值越小；路径规划任务中，状态评价函数由两部分构成，用于导航，用于避障，a₁取环境最大边值；a₂在[0,1]之间取值，a₃用于决定导航和避障的侧重程度，在[0,1]之间取值，a₄与a₅在[5,15]之间取值，各参数在取值范围内通过试凑法，满足所有障碍物中心点状态值小于-10，在障碍物外区域，状态评价函数与d_g(t)成反比即状态评价函数参数有效

V_s(t+1)＝V(t+1)-V(t)

p_ik＝σo_ik+(1-δ)c_ik

步骤1.11：定义移动机器人潜在动作关系集AF＝{AF_ij|i＝1,2,…,n_s,j＝1,2,…n_m}；受潜在动作理论及其形式化启发，在此定义机器人不同状态与不同动作之间的潜在关系，具体为一个三元组：

AF_ij:(effect,(s_i,m_j))

AF_ij意义为：机器人在状态s_i下输出m_j产生的效果为effect；机器人在对可输出动作集进行探索时，每探索一个新的感知行动映射(s_i,m_j)，就会伴随着一个新的潜在动作关系元组形成；

针对方法发育式学习过程：

若effect值为空，即effect＝φ，则表示对应的感知行动映射还没有被探索；

步骤1.12：定义移动机器人可输出动作空间探索率集Exp＝{Exp_i|i＝1,2,…,n_s}，Exp_i表示机器人在状态s_i下对可输出动作空间M的探索率，通过下式进行计算：

其中，Num_i{effect≠φ}＝n_m-Num_i{effect＝φ}表示状态s_i下可输出动作空间中潜在动作关系元组effect≠φ的个数，亦即状态s_i对可输出动作空间已经进行探索的感知行动映射数；

任意状态s_i下，机器人或对该状态下已发育形成的有效输出动作空间M_i进行学习，或对该状态下可输出动作空间M的剩余空间进行探索；在此规定，机器人学习过程中，在状态s_i下总是依概率1-Exp_i对M剩余空间进行探索，依概率Exp_i对其有效输出动作空间M_i进行学习；

步骤2：感知机器人当前状态s_i(t)；

步骤3：计算当前状态取向值V(t)；

步骤4：计算移动机器人动作空间探索率Exp_i；依概率1-Exp_i对M剩余动作空间进行探索，依概率Exp_i对有效状态空间M_i进行学习；初始时刻，机器人没有任何先验知识，M_i为φ，机器人以概率1探索M，即机器人需要从M中获取知识，同时，在此规定，在学习任意时刻，若M_i为φ，则机器人以概率1探索M剩余动作空间；

所谓状态s_i下M的剩余动作空间，即状态s_i在可输出动作集M中所有潜在动作关系元组(effect,(s_i,m_j))中effect值为φ的动作，effect值为φ表示感知行动映射(s_i,m_j)没有被探索；

t时刻，若机器人依概率1-Exp_i对M剩余动作空间进行了探索，则执行步骤4.1.1-4.1.10；若机器人依概率Exp_i对当前状态s_i下有效动作空间M_i进行学习，则执行步骤4.2.1-4.2.11，此时，机器人对M_i中各动作的学习依内发动机机制进行；各相关步骤具体如下：

步骤4.1.1：选择动作并输出；机器人在当前状态的M剩余动作空间中随机选择某个动作并输出；

步骤4.1.2：状态发生转移；t时刻，机器人在当前状态s_i(t)下从M剩余动作空间中随机选择了某个动作，假设为m_j作用于客体环境，状态发生转移，观测t+1时刻机器人的新状态；针对移动式机器人，设t时刻及t+1时刻机器人的方向角及位置分别为(θ_o,x_o,y_o)与(θ_n,x_n,y_n)，则机器人运动学模型可表示为：

步骤4.1.4：计算取向函数值V_s(t+1)；计算t+1时刻机器人的取向函数值V_s(t+1)，此处用于计算方法潜在动作关系effect值；

步骤4.1.5：更新潜在动作关系集；根据计算获得的取向函数V_s(t+1)值更新M空间潜在动作关系元组(effect,(s_i,m_j))，若V_s(t+1)≥0，则effect＝1，若V_s(t+1)＜0，则effect＝0；

步骤4.1.6：判断是否扩展发育；根据新生成的潜在动作关系元组的effect值判断是否需要对状态s_i下的有效动作空间M_i进行扩展发育；

若effect＝0，表明所探索的动作在当前状态下是无效的，t+1时刻无需对M_i进行扩展发育，机器人有效感知行动映射结构不变，转到步骤5；

若effect＝1，则表明t时刻探索到当前状态下一个有效动作，t+1时刻需要将探索到的动作扩展到M_i中，继续执行步骤4.1.7-4.1.10；

步骤4.1.7：动作扩展；将动作m_j扩展为动作集M_i第n_i+1个有效动作：

步骤4.1.8：取向性更新；对于新增加动作定义其在状态s_i下的取向性为：

M_i中原有动作取向性o_ik更新如下：

步骤4.1.9：好奇心激活；伴随着状态s_i下新动作的增加，除取向性更新外，状态s_i对的好奇心也随之被激活，用于计算动作好奇度的感知行动映射学习次数并在以后的学习中不断更新；可以看出，任何新发育的动作，其所对应的好奇心值均较大，结合对新增动作定义的初始取向性值，能够保证机器人对该有效动作的充分学习；

步骤4.1.10：结构发育：

n′_i＝n_i+1

n′_i为发育后的M_i的维数，

n_i＝n′_i

步骤4.2.1：计算当前状态下的好奇心集C_i(t)；在感知状态s_i(t)下，机器人有效输出动作空间M_i中某一动作，设为m_ik随机引起了机器人对其进行学习的好奇心，其好奇度被激发，计算该好奇心值c_ik(t)，对于没有引起机器人好奇心的其余动作，c_ik′(t)＝0；

步骤4.2.2：计算操作函数集P_i(t)；结合当前状态下的有效感知行动映射取向性集O_i(t)及好奇心集C_i(t)，计算当前状态下的有效操作函数集P_i(t)；

步骤4.2.3：选择动作并输出；依据内发动机机制，选择M_i中操作函数值最大的动作，设为m_ib；

步骤4.2.4：状态发生转移；t时刻，机器人在当前状态s_i(t)下从M剩余动作空间中随机选择了某个动作，假设为m_j作用于客体环境，状态发生转移，观测t+1时刻机器人的新状态；针对移动式机器人，设t时刻及t+1时刻机器人的方向角及位置分别为(θ_o,x_o,y_o)与(θ_n,x_n,y_n)，则机器人运动学模型表示为：

步骤4.2.6：计算取向函数值V_s(t+1)；此处用于决定机器人已有感知行动映射结构下取向性学习方向；

步骤4.2.7：更新有效感知行动取向性映射集；

步骤4.2.8：判断是否缩减发育；M_i中，对所有的动作都有潜在动作关系元组：

(1,(s_i,m_ik))

成立，但在操作条件反射机制下，机器人总是趋向于选择获得更大正强化值的动作，随着学习的进行，某些有效动作的取向性会随着学习的进行不断降低，当其取向值下降到一定程度以下时，机器人在好奇心作用下，依据内发动机机制继续对其进行学习会造成学习的浪费，此时需要对方法有效输出动作空间集结构进行缩减发育；

则认为动作m_ik不属于当前状态下的可选潜在最优动作，需要将其从M_i中剪除；

根据更新后的取向性映射集O_i判断是否需要对M_i进行缩减发育，若不需要缩减发育，转到步骤5；当M_i中存在需要被剪除的动作时，继续执行步骤4.2.9-4.2.11；假设t时刻，状态s_i下的有效输出动作集M_i中第j个动作m_ij需要被剪除，则方法的缩减发育原理具体如下：

步骤4.2.9：动作剪除；首先将m_ij从M_i中剪除；

步骤4.2.10：取向性更新；M_i中动作m_ij被剪除后，对其剩余动作取向性进行如下更新：

且k≠j

步骤4.2.11：结构发育；对剪除动作m_ij后的M_i结构进行更新，对于k＜j的动作各自排序不变，对于k＞j的动作，依次向前移动：

m_ik→m_i(k-1)

直至

将M_i空间由n_i维降低为n_i-1维：

n_i＝n_i-1n′_i＝n_i-1

n′_i为发育后的M_i的维数，

n_i＝n′_i

结构发育过程中，各动作取向性值、好奇心值、学习次数随动作更新；

步骤5：判断学习结束条件；为体现机器人的学习过程，在此设定轮次学习，学习结束条件为达到每轮学习设定的最大学习步数5000步以上，若满足条件，则学习结束，否则返回步骤2。