CN109212975B

CN109212975B - 一种具有发育机制的感知行动认知学习方法

Info

Publication number: CN109212975B
Application number: CN201811343603.6A
Authority: CN
Inventors: 张晓平; 阮晓钢; 王力; 李志军; 李幼军; 闫佳庆; 毕松; 吉鸿海; 肖尧
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2021-05-28
Anticipated expiration: 2038-11-13
Also published as: CN109212975A

Abstract

一种具有发育机制的感知行动认知学习方法属于智能机器人技术领域。学习过程中，首先感知系统当前状态；计算动作空间探索率，依概率对剩余动作空间进行探索或对有效动作空间进行学习；在探索剩余动作空间情形下，随机选择动作输出，状态发生转移，计算取向函数值，更新模型潜在动作关系集，判断是否进行扩展发育；在对有效动作空间进行学习情形下，计算当前状态好奇心集、操作函数集，依内发动机机制选择动作输出，状态发生转移，计算取向函数值，更新有效感知行动取向性映射集，判断是否缩减发育；判断是否达到学习结束条件。本发明能够通过在线学习不断更新模型结构，同时节省学习和计算成本，提高系统的学习速度和稳定性。

Description

一种具有发育机制的感知行动认知学习方法

技术领域

本发明涉及一种具有发育机制的感知行动认知学习方法，属于智能机器人技术领域。

背景技术

人工智能科学近年来受到各国政府、高校及科研机构等的高度重视，引发了极大的研究热潮，其中，机器人是人工智能研究的重要体现和应用之一。区别于传统机器人，人工智能背景下，对机器人智能的要求越来越高，研制具有自主认知学习能力的机器人成为机器人的主要发展方向。

本发明正是在以上目标下，以心理学学习机制为指导，以神经生理学结构为基础，为机器人建立感知行动认知学习方法，力求模拟人或动物的学习过程，赋予机器人类似人或动物的学习能力。本发明感知行动认知学习方法以操作条件反射理论为指导，相关的专利如申请号CN201410215954.4提出一种基于操作条件反射进行自主路径探索的方法及模型，具有实现仿生自主学习控制的功能，但不具备泛化能力；申请号CN201410844504.1、申请号200910086990.4、申请号200910089263.3均在操作条件反射理论指导下设计了不同的学习自动机模型，具备了一定的泛化能力，但均未涉及感知运动系统，同时都采用依概率动作选择机制，会造成小概率事件的发生，引起系统不稳定；结合内发动机理论，申请号CN201510358313.9提出了一种基于内在动机的运动平衡机器人自主认知系统及控制方法，申请号CN201410808900.9提出一种具有内发动机机制的感知运动系统认知模型及学习方法，均涉及感知运动系统，但二者结构均为固定，学习过程中存在学习浪费和计算浪费。本发明结合潜在动作理论，为机器人感知运动学习过程设计了一种具有发育机制的认知学习方法，能够更好地模拟生物积累知识的过程，同时大大降低了系统的学习成本和计算成本，提高了学习速度和稳定性。目前，尚未见到与本发明相似的专利记录。

发明内容

本发明涉及一种具有发育机制的感知行动认知学习方法，属于智能机器人技术领域。所公开的感知行动认知学习方法依赖于设计的感知行动认知模型<t,S,M,M_s,O_s,N_s,C_s,V，V_s,P_s,L_s,AF,Exp,DL>，具体结合潜在动作理论，设计了模型结构扩展发育方法及缩减发育方法，提高了系统学习速度和稳定性。模型结构如图1所示，包括十四部分，依次为：离散学习时间集、内部可感知离散状态集、可输出动作集、有效输出动作空间集、有效感知行动映射取向性集、有效感知行动映射学习次数集、有效感知行动映射好奇心集、状态评价函数、取向函数、有效操作函数集、有效动作空间取向性学习算法、潜在动作关系集、可输出动作空间探索率集、发育算法，各部分含义具体如下：

(1)t∈{0,1,…n_t}：模型离散学习时间集，其中t＝0表示学习初始时刻，n_t表示最大离散学习时间，两轮机器人自平衡任务中，针对机器人基本学习过程和轮次学习过程，n_t分别设定为500s和30s以上；

(2)S＝{s_i|i＝1,2,…,n_s}：模型内部可感知离散状态集，其中s_i∈S表示模型第i个可感知的内部状态，n_s为离散状态数，两轮机器人自平衡任务中，可感知状态由机器人身姿角度

与身姿角速度

构成，二者状态划分数分别用

与

表示，则

(3)M＝{m_j|j＝1,2,…,n_m}：模型可输出动作集，m_j表示可输出动作集中第j个动作，n_m为动作空间可输出动作数，两轮机器人自平衡任务中，机器人通过控制轮子的运动实现身体的平衡，因此模型可输出动作为机器人左右两轮轮子转矩值；

(4)M_s＝{M_i|i＝1,2,…,n_s}：模型有效输出动作空间集，M_i＝{m_ik|k＝1,2,…,n_i}为状态s_i下的有效输出动作空间，m_ik∈M为模型在状态s_i下从M中学习到的第k个有效动作，n_i为状态s_i下学习到的有效动作个数，随着学习的不断进行，n_i会发生变化，有效动作指的是在当前状态下能够使机器人趋向目标的动作；

(5)O_s＝{O_i|i＝1,2,…,n_s}：模型有效感知行动映射取向性集，其中O_i＝{o_ik|k＝1,2,…,n_i}为状态s_i下的有效感知行动映射取向性集，o_ik为状态s_i对其第k个有效动作的选择取向性；

(6)N_s＝{N_i|i＝1,2,…,n_s}：模型有效感知行动映射学习次数集，N_i＝{n_ik|k＝1,2,…,n_i}为状态s_i下模型对其各有效动作的学习次数集，n_ik表示状态s_i对动作m_ik的学习次数，若t时刻，m_ik被选择，则t+1时刻：

n_ik(t+1)＝n_ik(t)+1 (1)

对于其他所有没有被学习的有效感知行动映射，其学习次数保持不变；

(7)C_s＝{C_i|i＝1,2,…,n_s}：模型有效感知行动映射好奇心集，C_i＝{c_ik|k＝1,2,…,n_i}为状态s_i下模型对各有效动作的好奇心集，c_ik表示状态s_i对动作m_ik的好奇度，具体为：

其中，k_c和c为好奇心参数，针对两轮机器人自平衡任务，经过实验验证取k_c＝0.05，c＝1能够较好的完成任务；

(8)V：模型状态评价函数，用来评价模型所处状态的理想程度，模型越接近目标，状态值越大，越远离目标，状态值越小，针对两轮机器人自平衡任务，模型状态评价函数设计为：

(9)V_s：模型取向函数，用于决定模型学习方向，定义为：

V_s(t+1)＝V(t+1)-V(t) (4)

表示t+1时刻机器人的取向函数的值V_s(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t)；

(10)P_s＝{P_i|i＝1,2,…,n_s}：模型有效操作函数集，用于决定模型在有效动作空间内对动作的选择，P_i＝{p_ik|k＝1,2,…,n_i}为状态s_i所对应的有效操作函数集，p_ik为状态s_i对动作m_ik的操作值，具体为：

p_ik＝σo_ik+(1-δ)c_ik (5)

其中0＜σ＜1为操作函数参数，两轮机器人自平衡任务中，经过实验验证取σ＝0.7；

(11)L_s：模型有效动作空间取向性学习算法，在模型有效动作空间内各动作均能使得V_s(t+1)≥0，因此针对有效动作空间的取向性学习算法L_s简单设计为：

其中o_ik(k∈{1,…n_i})o_ik对应被选动作m_ik的取向性，o_ik′为状态s_i下其余动作的取向性值，η为取向性学习算法参数，两轮机器人自平衡任务中，经过实验验证取η＝0.1；

(12)AF＝{AF_ij|i＝1,2,…,n_s,j＝1,2,…n_m}：模型潜在动作关系集，受潜在动作理论及其形式化启发，在此定义模型不同状态与不同动作之间的潜在关系，具体为一个三元组：

AF_ij:(effect,(s_i,m_j)) (7)

AF_ij意义为：模型在状态s_i下输出m_j产生的效果为effect。模型在对可输出动作集进行探索时，每探索一个新的感知行动映射(s_i,m_j)，就会伴随着一个新的潜在动作关系元组形成。

针对模型结构发育学习过程：

若effect＝1，表示在感知状态s_i下动作m_j是可被选择的，即动作m_j是状态s_i下的有效动作；

若effect＝0，表示在状态s_i下，动作m_j是不可取的，会使得学习偏离目标；

若effect值为空，即effect＝φ，则表示对应的感知行动映射还没有被探索。

依据操作条件反射学习特点及定义的取向函数，effect值计算方式如下：

(13)Exp＝{Exp_i|i＝1,2,…,n_s}：模型可输出动作空间探索率集，Exp_i表示模型在状态s_i下对可输出动作空间M的探索率，通过式(8)进行计算：

其中，Num_i{effect≠φ}＝n_m-Num_i{effect＝φ}表示状态s_i下可输出动作空间中潜在动作关系元组effect≠φ的个数，亦即状态s_i对可输出动作空间已经进行探索的感知行动映射数。

任意状态s_i下，模型或对该状态下已发育形成的有效输出动作空间M_i进行学习，或对该状态下可输出动作空间M的剩余空间进行探索。在此规定，模型学习过程中，在状态s_i下模型总是依概率1-Exp_i对M剩余空间进行探索，依概率Exp_i对其有效输出动作空间M_i进行学习。特别地：

①在学习初始时刻t＝0时，模型没有任何环境知识，任意状态s_i下，其潜在动作关系元组AF_ij中effect值均为φ，M_i也为φ，此时模型以

的概率从可输出动作集M中探索动作，以完成对M_i的构建。

②当学习进行到某个时刻，若状态s_i已经完成了对可输出动作空间M的全部探索，则模型在该状态下继续对M进行探索的概率为：

表明此时模型不再会对M进行探索。

(14)DL：模型发育算法，包含DL₁和DL₂，其中DL₁为模型在探索可输出动作集M后需要对其有效输出动作空间集M_s进行扩展的发育算法，DL₂则是模型对其有效输出动作空间集M_s不断学习后需要进行缩减的发育算法。

一、有效感知行动映射扩展发育方法及发育算法DL₁

在状态s_i下，若模型依概率1-Exp_i对可输出动作集M剩余空间进行了探索，可能出现两种情况：

①t时刻在当前状态下输出某一动作后，t+1时刻模型受到负强化V_s(t+1)＜0，则对应感知行动映射潜在动作关系元组effect＝0，表明该动作在当前状态下是不应该被选择的，针对该情况，t+1时刻不需要对已建立的有效感知行动映射动作集进行更新；

②若t时刻模型在当前状态下输出某一动作后，t+1时刻获得正强化V_s(t+1)≥0，则对应感知行动映射潜在动作关系元组effect＝1，证明该动作是当前状态下的一个有效动作，t+1时刻需要对M_s进行扩展发育。以状态s_i为例，模型M_s结构的扩展发育过程如图2所示。更具体地，假设t时刻，状态s_i所对应有效输出动作空间集M_i中的有效动作个数为n_i，模型以1-Exp_i探索了可输出动作集M剩余空间中某一动作，设为m_j，t+1时刻获得正强化，因此需要对M_i进行扩展发育，具体如下：

Step1.动作扩展：将动作m_j扩展为动作集M_i第n_i+1个有效动作：

Step2.取向性更新：按照发育算法DL₁对扩展后的动作集M_i所对应取向性集O_i进行更新，其中DL₁算法学习过程具体如下：

Step2.1.首先针对新增加动作

定义其在状态s_i下的取向性为：

Step2.2.M_i中原有动作取向性o_ik(k＝1,…,n_i)更新如下：

Step3.好奇心激活：伴随着状态s_i下新动作

的增加，除取向性更新外，状态s_i对

的好奇心也随之被激活，用于计算动作好奇度的感知行动映射学习次数

并在以后的学习中不断更新。可以看出，任何新发育的动作，其所对应的好奇心值均较大，结合对新增动作定义的初始取向性值，能够保证模型对该有效动作的充分学习；

Step4.结构发育：

n′_i＝n_i+1 (15)

n′_i为发育后的M_i的维数，

n_i＝n′_i (16)

二、有效感知行动映射缩减发育方法及发育算法DL₂

在状态s_i下，若模型依概率Exp_i对其有效感知行动映射动作集M_i进行学习，遵循内发动机下的主动学习机制。M_i中，对所有的动作都有潜在动作关系元组：

(1,(s_i,m_ik)) (17)

成立，但在操作条件反射机制下，模型总是趋向于选择获得更大正强化值的动作，随着学习的进行，某些有效动作的取向性会随着学习的进行不断降低，当其取向值下降到一定程度以下时，D-SSCM在好奇心作用下，依据内发动机机制继续对其进行学习会造成学习的浪费，此时需要对模型结构进行缩减发育。

模型在对其有效输出动作空间集M_s的学习过程中，如果t时刻，当前状态s_i下某动作m_ik所对应的取向性o_ik(t)满足：

则认为动作m_ik不属于当前状态下的可选潜在最优动作，需要将其从M_i中剪除。不同于结构扩展发育时直接将有效动作m_j作为M_i第n_i+1个有效动作，模型结构缩减发育经历一个比较复杂的过程，具体如图3所示。

以t时刻，状态s_i下的有效输出动作集M_i中第j个动作m_ij需要被剪除为例，模型的结构缩减发育原理具体如下：

Step1.动作剪除：首先将m_ij从M_i中剪除；

Step2.取向性更新：M_i中动作m_ij被剪除后，对其剩余动作取向性按发育算法DL₂进行更新，具体为：

Step3.结构发育：对剪除动作m_ij后的M_i结构进行更新；

Step3.1.对于k＜j的动作各自排序不变，对于k＞j的动作，依次向前移动：

m_ik→m_i(k-1) (20)

直至

Step3.2.将M_i空间由n_i维降低为n_i-1维：

n′_i＝n_i-1 (22)

n′_i为发育后的M_i的维数，

n_i＝n′_i (23)

结构发育过程中，各动作取向性值、好奇心值、学习次数随动作更新。

本发明所述模型的学习过程如图4所示，包括以下步骤：

Step1.初始化：学习初始时刻t＝0时，对模型中各元素进行初始化，具体包括：定义模型内部可感知离散状态集S及可输出动作集M，定义模型状态评价函数V，设置学习相关参数，设置学习终止条件；

Step2.状态感知：观察学习t时刻模型状态s_i(t)，并计算当前状态取向值V(t)，由机器人身姿角度

与身姿角速度

决定；

Step3.计算模型动作空间探索率Exp_i，依概率1-Exp_i对M剩余动作空间进行探索，依概率Exp_i对M_i进行学习。初始时刻，模型没有任何先验知识，M_i为φ，模型以概率1探索M，即模型需要从M中获取知识，同时，在此规定，在学习任意时刻，若M_i为φ，则模型以概率1探索M剩余动作空间。

所谓状态s_i下M的剩余动作空间，即状态s_i在可输出动作集M中所有潜在动作关系元组(effect,(s_i,m_j))中effect值为φ的动作，effect值为φ表示感知行动映射(s_i,m_j)没有被探索。

Step4.t时刻，若模型依概率1-Exp_i对M剩余动作空间进行了探索，则执行Step4.1.1-Step 4.1.5；若模型依概率Exp_i对当前状态s_i下有效动作空间M_i进行学习，则执行Step 4.2.1-Step 4.2.7，模型对M_i中各动作的学习依内发动机机制进行。两种情况下的执行步骤具体如下：

Step4.1.1.选择动作并输出：模型在当前状态的M剩余动作空间中随机选择某个动作并输出；

Step4.1.2.状态发生转移：t时刻，模型在当前状态s_i(t)下从M剩余动作空间中随机选择了某个动作，假设为m_j作用于客体环境，状态发生转移，观测t+1时刻模型的新状态，并计算其状态值V(t+1)；

Step4.1.3.计算取向函数值V_s(t+1)：计算t+1时刻模型的取向函数值V_s(t+1)，此处用于计算模型潜在动作关系effect值；

Step4.1.4.更新模型潜在动作关系集：根据计算获得的取向函数V_s(t+1)值按式(7)更新模型M空间潜在动作关系元组(effect,(s_i,m_j))，若V_s(t+1)≥0，则effect＝1，若V_s(t+1)＜0，则effect＝0；

Step4.1.5.判断是否扩展发育：根据新生成的潜在动作关系元组的effect值判断是否需要对状态s_i下的有效动作空间M_i进行扩展发育，若effect＝0，表明所探索的动作在当前状态下是无效的，t+1时刻无需对M_i进行扩展发育，模型有效感知行动映射结构不变，若effect＝1，则表明t时刻探索到当前状态下一个有效动作，t+1时刻需要将探索到的动作扩展到M_i中，按扩展发育步骤及扩展发育算法DL₁对模型结构及相关属性进行更新；

Step4.2.1.计算当前状态下的好奇心集C_i(t)：在感知状态s_i(t)下，模型有效输出动作空间M_i中某一动作，设为m_ik随机引起了模型对其进行学习的好奇心，其好奇度被激发，计算该好奇心值c_ik(t)，对于没有引起模型好奇心的其余动作，c_ik′(t)＝0；

Step4.2.2.计算操作函数集P_i(t)：结合模型当前状态下的有效感知行动映射取向性集O_i(t)及好奇心集C_i(t)，计算当前状态下的有效操作函数集P_i(t)；

Step4.2.3.选择动作并输出：依据内发动机机制，选择M_i中操作函数值最大的动作，设为m_ib；

Step4.2.4.状态发生转移，计算其状态值V(t+1)；

Step4.2.5.计算取向函数值V_s(t+1)：此处用于决定模型已有结构下取向性学习方向；

Step4.2.6.更新有效感知行动取向性映射集：根据式(5)对有效感知行动取向性映射集O_i进行更新；

Step4.2.7.判断是否缩减发育：根据更新后的取向性映射集O_i判断是否需要对M_i进行缩减发育，当O_i中存在需要被剪除的动作时，依据缩减发育步骤及缩减发育算法DL₂对模型结构及相关属性进行更新。

Step5.判断学习结束条件：根据设定的学习终止条件判断学习是否结束，若满足条件，则结束，否则返回Step2，两轮机器人自平衡任务中，针对机器人基本学习过程和轮次学习过程，学习终止条件分别为达到设定的最大离散学习时间500s和30s以上。

与现有技术相比，本发明的优点在于：首先，感知行动认知学习方法下的认知模型结构可发育，能够在学习过程中不断进行自我更新，更好的体现了类似生物知识积累的过程；其次，模型借鉴潜在动作理论，设计了有效感知行动映射扩展发育、缩减发育方法及算法，同时节省了学习成本和计算成本，提供了模型的学习速度和稳定性。

附图说明

图1为本发明结构图；

图2为模型结构的扩展发育过程图；

图3为模型结构的缩减发育过程图；

图4为模型学习过程流程图；

图5为50000步学习过程中两轮机器人倾斜角度曲线；

图6为50000步学习过程中两轮机器人倾斜角速度曲线；

图7为50000步学习过程中两轮机器人轮子输出转矩；

图8为第1轮学习结果；

图9为第2轮学习结果；

图10为第3轮学习结果。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

两轮机器人，模拟人直立行走时的运动平衡控制，从机械结构出发，表现为层状机构：最底层为两个轮子，由安装在机器人底部的两个同轴直流电机驱动；中间层即轮子上方，放置有机器人电源、电机驱动器及电路板等电系统部件；最上层是机身，安置有姿态传感器。从电气系统角度出发，包含有感觉单元：光电编码器用于检测机器人车轮旋转速度，倾角传感器用于检测机器人身体倾角角度，陀螺仪用于检测机器人身体倾角角速度；控制单元：用于对感觉单元的输入信号进行处理，给出动作指令；运动单元：轮子电机执行动作指令，完成运动任务。可见两轮机器人具有仿生结构，同时具备完整的“感觉-运动”回路，因此常被用于人工认知学习模型的测试。

在两轮机器人数学模型已知的情况下，需要对本发明感知行动认知模型进行设置，具体如下：

(1)针对两轮机器人的感知空间，将机器人身姿角度

和身姿角速度

均划分为12个状态空间，具体如下表所示，所以模型共有n_s＝12×12＝144个内部可感知离散状态。

(2)模型可输出动作为机器人左右两轮转矩，在此设定模型可输出动作集为M＝{-10,-5,-2,-1,-0.1,0,0.1,1,2,5,10}N·m，可输出动作数n_m＝11。

为表明本发明的优越性，将其与申请号201410808900.9专利模型进行了对比实验，方便起见，本专利模型命名为D-SSCM(Development-Sensorimotor Cognitive Model)，专利201410808900.9模型命名为IM-SSCM(Intrinsic Motivation-SensorimotorCognitive Model)。

实验1：基本学习过程

令机器人由初始倾斜角度-10°开始学习，采样时间为0.01s，学习过程中，如果机器人身姿角度

则认为机器人发生倾倒，将其拉回初始状态继续学习。如图5至图7所示分别为两轮机器人在50000步学习过程中其身姿倾斜角度、角速度以及轮子输出转矩的变化曲线。从实验结果可以明显看出：(1)D-SSCM具有更快的学习速度：从图5及图6机器人身姿角度和角速度曲线可以看出，在IM-SSCM指导下，机器人大约经过150s可进入平衡位置，而在D-SSCM指导下，机器人大约经过40s即可进入平衡位置。(2)D-SSCM具有更稳定的学习效果：从图5及图6中可以看出，IM-SSCM在学习中期(150s-450s)、模型进入相对稳定期后，依旧会存在一些小的波动，相比之下，D-SSCM学习一旦完成，机器人不会发生晃动，该结论在图7机器人轮子转矩输出中体现更加明显，从图7中可以看出，IM-SSCM认知模型在学习中期(150s-450s)尽管对±10、±5的选择有所减少，但是在好奇心作用下依旧可能会对不良感知行动映射进行尝试，而在D-SSCM发育认知模型下，机器人通过一次探测获知动作结果后，在后期就不再会选择各状态下的不良动作，不至学习偏离目标。

实验2：轮次学习

两轮机器人的自平衡过程关键在于其由初始状态运动到平衡位置期间。为更清楚的显示D-SSCM的学习能力，令其不断从初始状态开始，观察其运动学习结果，并与IM-SSCM进行比较。在此设定轮次学习步数为3000步，结果如图8至图10所示，分别为两种模型下机器人第1轮、第2轮及第3轮的学习结果，从图中可以看出，相比较于IM-SSCM，D-SSCM具有更快的学习速度。实验结果显示在D-SSCM指导下，机器人一般经过一轮对知识的探索，在第二轮就能够快速从初始倾斜角度运动到平衡状态，该学习速度较其他已知操作条件反射相关认知模型有显著优势。

Claims

1.一种具有发育机制的感知行动认知学习方法，其特征在于，以学习自动机为基础设计了一种感知行动认知模型，具体为一个十四元组<t,S,M,M_s,O_s,N_s,C_s,V，V_s,P_s,L_s,AF,Exp,DL>，其中各元素含义具体如下：

与身姿角速度

构成，二者状态划分数分别用

与

表示，则

n_ik(t+1)＝n_ik(t)+1

其中，k_c和c为好奇心参数，针对两轮机器人自平衡任务，经过实验验证取k_c＝0.05，c＝1；

(9)V_s：模型取向函数，用于决定模型学习方向，定义为：

V_s(t+1)＝V(t+1)-V(t)

p_ik＝σo_ik+(1-σ)c_ik

其中0<σ<1为操作函数参数，两轮机器人自平衡任务中，经过实验验证取σ＝0.7；

其中o_ik对应被选动作m_ik的取向性，o_ik′为状态s_i下其余动作的取向性值，η为取向性学习算法参数，两轮机器人自平衡任务中，经过实验验证取η＝0.1；

(12)AF＝{AF_ij|i＝1,2,…,n_s,j＝1,2,…n_m}：模型潜在动作关系集，具体为一个三元组：

AF_ij:(effect,(s_i,m_j))

AF_ij意义为：模型在状态s_i下输出m_j产生的效果为effect；模型在对可输出动作集进行探索时，每探索一个新的感知行动映射(s_i,m_j)，就会伴随着一个新的潜在动作关系元组形成；

针对模型结构发育学习过程：

若effect值为空，即effect＝φ，则表示对应的感知行动映射还没有被探索；

(13)Exp＝{Exp_i|i＝1,2,…,n_s}：模型可输出动作空间探索率集，Exp_i表示模型在状态s_i下对可输出动作空间M的探索率，通过下式进行计算：

其中，Num_i{effect≠φ}＝n_m-Num_i{effect＝φ}表示状态s_i下可输出动作空间中潜在动作关系元组effect≠φ的个数，亦即状态s_i对可输出动作空间已经进行探索的感知行动映射数；

任意状态s_i下，模型或对该状态下已发育形成的有效输出动作空间M_i进行学习，或对该状态下可输出动作空间M的剩余空间进行探索；在此规定，模型学习过程中，在状态s_i下模型总是依概率1-Exp_i对M剩余空间进行探索，依概率Exp_i对其有效输出动作空间M_i进行学习；

(14)DL：模型发育算法，包含DL₁和DL₂，其中DL₁为模型在探索可输出动作集M后需要对其有效输出动作空间集M_s进行扩展的发育算法，DL₂则是模型对其有效输出动作空间集M_s不断学习后需要进行缩减的发育算法；

模型按以下步骤进行学习：

与身姿角速度

决定；

Step3.计算模型动作空间探索率Exp_i，依概率1-Exp_i对M剩余动作空间进行探索，依概率Exp_i对M_i进行学习；

所谓状态s_i下M的剩余动作空间，即状态s_i在可输出动作集M中所有潜在动作关系元组(effect,(s_i,m_j))中effect值为φ的动作，effect值为φ表示感知行动映射(s_i,m_j)没有被探索；

Step4.t时刻，若模型依概率1-Exp_i对M剩余动作空间进行了探索，则执行Step 4.1.1-Step 4.1.5；若模型依概率Exp_i对当前状态s_i下有效动作空间M_i进行学习，则执行Step4.2.1-Step 4.2.7，模型对M_i中各动作的学习依内发动机机制进行；两种情况下的执行步骤具体如下：

Step4.1.1选择动作并输出：模型在当前状态的M剩余动作空间中随机选择某个动作并输出；

Step4.1.3.计算取向函数值V_s(t+1)；

Step4.1.4.更新模型潜在动作关系集；

Step4.1.5.判断是否扩展发育：若effect＝0，模型有效感知行动映射结构不变，若effect＝1，按扩展发育步骤及扩展发育算法DL₁对模型结构及相关属性进行更新；

Step4.2.2.计算操作函数集P_i(t)；

Step4.2.3.依据内发动机机制选择动作并输出；

Step4.2.4.状态发生转移，计算其状态值V(t+1)；

Step4.2.5.计算取向函数值V_s(t+1)；

Step4.2.6.更新有效感知行动取向性映射集；

Step4.2.7.判断是否缩减发育：根据更新后的取向性映射集O_i判断是否需要对M_i进行缩减发育，当O_i中存在需要被剪除的动作时，依据缩减发育步骤及缩减发育算法DL₂对模型结构及相关属性进行更新；

2.根据权利要求1所述的方法，其特征在于，模型有效感知行动映射扩展发育方法及发育算法DL₁，具体为：在状态s_i下，若模型依概率1-Exp_i对可输出动作集M剩余空间进行了探索，可能出现两种情况：

(1)t时刻在当前状态下输出某一动作后，t+1时刻模型受到负强化V_s(t+1)<0，则对应感知行动映射潜在动作关系元组effect＝0，表明该动作在当前状态下是不应该被选择的，针对该情况，t+1时刻不需要对已建立的有效感知行动映射动作集进行更新；

(2)若t时刻模型在当前状态下输出某一动作后，t+1时刻获得正强化V_s(t+1)≥0，则对应感知行动映射潜在动作关系元组effect＝1，证明该动作是当前状态下的一个有效动作，t+1时刻需要对M_s进行扩展发育；具体地，假设t时刻，状态s_i所对应有效输出动作空间集M_i中的有效动作个数为n_i，模型以1-Exp_i探索了可输出动作集M剩余空间中某一动作，设为m_j，t+1时刻获得正强化，因此需要对M_i进行扩展发育，具体如下：