CN104614988B

CN104614988B - 一种具有内发动机机制的感知运动系统认知及其学习方法

Info

Publication number: CN104614988B
Application number: CN201410808900.9A
Authority: CN
Inventors: 阮晓钢; 张晓平; 武璇; 黄静; 陈志刚; 肖尧; 朱晓庆; 奥塔瓦.谢
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2017-04-19
Anticipated expiration: 2034-12-22
Also published as: CN104614988A

Abstract

一种具有内发动机机制的感知运动系统认知及其学习方法属于智能机器人技术领域。系统认知模型以学习自动机为基础，包括感知状态集合、动作集合、取向性映射集合、好奇心、取向函数、取向性学习矩阵、状态转移函数以及知识熵等十部分。模型首先感知系统当前状态；依据内发动机机制选择动作；执行动作，状态发生转移；计算取向函数的值；更新“感知‑运动”映射；重复以上过程，直至知识熵达到极小或学习时间大于终止时间。本发明引入具有主动学习环境的内发动机机制，不仅使系统具有较强的自学习和自组织能力，同时能够有效避免具有破坏性的小概率事件的发生，提高了系统的稳定性，为建立具有认知发育能力的机器人提供了有力基础。

Description

一种具有内发动机机制的感知运动系统认知及其学习方法

技术领域

本发明涉及一种具有内发动机机制的感知运动系统认知及其学习方法，属于智能机器人技术领域。

背景技术

对智能机器人的研究已由早期的示教再现型机器人以及具有简单感知能力的机器人发展到今天的认知发育机器人。认知发育机器人具有认知和学习的能力，能够从与环境的接触过程中学习到环境知识，对于代替人类完成地震、火灾、深海等危险环境的任务具有重要意义。

1952年，日内瓦大学心理学教授皮亚杰指出认知发育的第一阶段主要通过其感知运动技能获得，而感知运动技能的习得需要感知器官和运动器官协调完成，这就涉及到感知运动系统。感知运动系统对于人或动物运动技能的习得有着重要的指导意义，将这种感知运动能力复制到机器人上，使机器人能够主动探索外部世界，学习世界知识，对认知发育机器人的研究有着重要意义。

基于以上背景，本发明以学习自动机为数学模型，提出了一种具有内发动机机制的感知运动系统认知模型并设计了其学习算法，将其应用于机器人上，使机器人可以模拟人或动物的感知运动认知过程，提高了机器人的认知能力。相关的专利如申请号CN200910086990.4基于斯金纳操作条件反射理论提出了一种操作条件反射自动机模型，并且基于该模型设计了一种仿生自主学习控制方法；申请号CN200910089263.3同样基于斯金纳操作条件反射理论提出一种自治操作条件反射自动机，并讨论了其在实现智能行为中的应用，以上两项工作均在操作条件反射的指导下，使用自动机为数学模型，设计了新的具有自学习和自组织能力的仿生自动机，但均未涉及感知运动系统学习过程，同时，二者在学习过程中均采用依概率机制实施操作，使得模型在达到一定稳定状态后无法杜绝小概率事件的发生。相关专利申请号CN201410101272.0从仿生学角度模拟生物的感觉运动神经系统，使用神经网络为数学模型，将操作条件反射机理融入感觉运动系统的设计中，采用“胜者全拿”的动作选择机制，提出了一种仿生智能控制方法，较好地模拟了生物自学习行为，证明了感知运动系统在智能体学习过程中的重要性。本发明以学习自动机为基础，为感知运动系统认知过程设计了一种认知模型及其学习方法，动作选择上设计了能够主动学习环境的内发动机机制，在提高系统学习效率的同时，有效避免小概率事件的发生，提高了系统的稳定性。目前，尚未见到与本发明相似的专利记录。

发明内容

本发明涉及一种具有内发动机机制的感知运动系统认知及其学习方法，属于智能机器人技术领域，系统认知模型以学习自动机为基础，引入好奇心和取向性概念，从生物学角度出发，设计了能够主动学习环境的内发动机机制，提高了系统自学习和自组织的能力及其稳定性。模型包括十部分：感知状态集合、动作集合、取向性映射集合、状态学习次数、好奇心、状态取向值、取向函数、取向性学习矩阵、状态转移函数以及知识熵，各部分含义具体如下：

(1)S：系统离散感知状态集合，S＝{s_i|i＝1,2,…n_s}，s_i∈S为第i个感知状态，n_s为可感知到的离散状态的个数，针对连续系统，将需要考虑的连续状态空间[X_min,X_max]离散化为离散状态空间，其中X_min为所需考虑状态的下限值，X_max为所需考虑状态的上限值，一般地，对连续状态空间进行均匀划分，令w＝(X_max-X_min)/n_s，则离散化后的状态空间为：S＝{[X_min+(i-1)w,X_min+iw]|i＝1,2,…n_s}；

(2)M：系统动作集合，M＝{M_i|i＝1,2,…,n_s}，M_i＝{m_ij|j＝1,2,…,n_i}，m_ij表示系统第i个感知状态下第j个可选动作，n_i为第i个状态下可选动作的个数；

(3)O：“感知-运动”取向性映射集合，O＝{O_i|i＝1,2,…n_s}，O_i为状态s_i对应的取向性映射矩阵，其中diag表示括号里的元素以对角阵的方式储存，此处元素o_ij的下表i(i＝1,2,…,n_s)并不表示元素所在矩阵的行信息，o_ij(i∈(1,2,…,n_s),j∈(1,2,…,n_i))表示一条“感知-运动”映射，表征的是系统在感知状态s_i∈S下对动作m_ij的取向性，或称感知状态s_i与动作m_ij的感知运动取向性为o_ij，规定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变，即当智能体在某状态下对其中一动作的取向性增加时，同时意味着在该状态下对其他动作的取向性减小，本认知模型中，取向性满足0≤o_ij≤1且

(4)N：状态学习次数，N＝{N_i|i＝1,2,…,n_s}，N_i为至t时刻状态s_i被学习的次数；

(5)C：好奇心，C＝{c_i|i＝1,2,…n_s}，c_i为状态s_i的好奇心，从生物学角度出发，动物在某一状态下的好奇心随探索该状态次数的增加而下降，基于此，好奇心计算方法设计如下：

取向性和好奇心是影响生物选择动作的两个内在因素，基于此，本系统的内发动机机制设计为选择所处状态下取向性和好奇心和值最大的动作；

(6)V：系统状态取向值，用来决定取向函数的值，V＝{V_i|i＝1,2,…n_s}，为满足系统普适性，定义V_i∈[-1,1]，-1为最差状态的状态取向值，1为最理想状态的状态取向值，对于离散系统，可以根据实际情况定义各状态的取向值，对于连续系统，可以对离散化后的状态定义离散状态取向值，也可以在线计算所处状态的连续状态取向值，针对连续系统，状态取向值的计算方法为：J_i表征期望状态和实际状态之间的误差程度，定义为J_i(t)＝(X_b-X_i(t))²，其中X_b为期望状态值，X_i(t)为t时刻实际状态值，V_i被归一化到[-1,1]之间，且为J_i的减函数，意味着t时刻所处状态与期望状态之间误差越大，状态取向值越小，所处状态与期望状态之间误差越小，状态取向值越大，符合生物取向性，λ为归一化系数；

(7)V_s：取向函数，V_s＝aV_n+b(V_n-V_o)，V_o和V_n分别表示执行某一动作的前后状态，取向函数影响系统取向性的变化方向，既与状态取向值变化过程相关，也与变化后所处状态的状态取向值相关，其中a≥0，b≥0为取向函数参数，其取值应保证取向函数的正负号不改变(V_n-V_o)的正负号，且满足a+b＝1，一般可以通过学习得到；

(8)P：取向性学习矩阵，P＝{P_i|i＝1,2,…n_s}，作用是依据取向函数所提供的信息，对取向性映射进行更新调整，其中为状态s_i对应的学习矩阵，各参数意义与(3)中相同，不再赘述。设t时刻系统在感知状态s_i下的取向性映射为O_i(t)，执行动作m_ij后，在该感知状态下的取向性映射变为O_i(t+1)，则取向性映射更新方法如下：

其中p_ij(t)为t时刻取向性学习矩阵P_i中的第j个元素，与取向性元素o_ij(t)相对应，p_ik(t)为其余元素，与o_ik(t)对应，η>0为取向性学习参数；

(9)F：系统内部状态转移函数，F(s(t),m(t))＝s(t+1)，表示t时刻在感知状态为s(t)下执行动作m(t)后状态转移为s(t+1)；

(10)E：感知运动系统的知识熵，E＝{E_i|i＝1,2,…n_s}，用来描述系统对知识的学习程度，表征系统的自学习和自组织特性，系统在学习初始阶段，没有任何知识，对各动作的取向性相等，经过不断学习，习得世界知识，取向性发生变化，因此可以采用信息熵的变化过程来描述系统自学习、自组织的过程，通过信息熵值的变化，来反应系统知识积累的程度，系统t时刻在状态s_i下的知识熵及总的知识熵定义如下：

本发明所述模型的学习过程如图1所示，包括以下步骤：

步骤1：对系统进行初始化，设定初始状态S₀，初始取向性分布O₀及初始好奇心的值C₀等；

步骤2：感知当前状态s_i∈S；

步骤3：计算当前状态下的取向性映射矩阵O_i(t)；

步骤4：计算当前状态下的好奇心值c_i，生成随机指针，将好奇心投向指针指向的动作；

步骤5：选择取向性和好奇心之和最大的动作；

步骤6：实施选定的动作，状态发生转移；

步骤7：计算转移后状态的状态取向值；

步骤8：计算取向函数值；

步骤9：根据取向函数值提供的信息按式(2)-(4)更新“感知-运动”映射；

步骤10：判断是否满足结束条件，如果满足，则结束程序；否则转向步骤2,结束条件设置为知识熵不再发生变化(此时认为知识熵E达到其极小值E_min)或学习时间t大于终止时间T₀。

与现有技术相比，本发明的优点在于：首先使用学习自动机为感知运动系统认知过程提供了一种形式化的数学模型，具有普适性，泛化能力强；其次，模型中引入好奇心和取向性概念，设计了具有主动学习环境的内发动机机制，提高了系统的自学习能力及其稳定性。

附图说明

图1为本发明所涉及的学习流程图；

图2为斯金纳鸽子实验原理图；

图3为系统基本学习过程曲线图；

图4为主动学习机制与依概率学习机制学习率对比曲线图；

图5为主动学习机制与依概率学习机制学习过程稳定性对比曲线图；

图6为主动学习机制与依概率学习机制小概率事件对比曲线图；

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

斯金纳鸽子实验是关于操作条件反射理论的著名实验，很多学者用其来证明所设计学习系统的自学习和自组织特性。斯金纳鸽子实验是在斯金纳设计的一种动物实验仪器即著名的斯金纳箱中进行的，箱内放进一只鸽子，并设定三个按键：红、黄、蓝，箱子的构造尽可能排除一切外部刺激，鸽子在箱内可以自由活动，其原理如图2所示。当鸽子啄红色按键时可以获得食物，啄黄色按键时无任何结果，啄蓝色按键时给予电击。

针对斯金纳鸽子实验，模型各部分具体设置如下：

(1)系统内部离散感知状态：s₁饥饿，s₂半饱，s₃饱，n_s＝3；

(2)系统的动作集合。在本实例中，鸽子在任何感知状态下都只有三个可选动作，因此不再区分不同状态下的动作集，统一表示为m₁：按红色按键，m₂：按黄色按键，m₃：按蓝色按键，n₁＝n₂＝n₃＝3；

(3)初始“感知-运动”取向性为；o_ij(0)＝1/3，其中i＝1,2,3；j＝1,2,3；

(4)好奇心，所有状态下使用统一的好奇心函数；

(5)系统状态取向值，本实验中状态取向值设置为：V₁＝-1；V₂＝0；V₃＝1；

(6)取向函数参数取a＝0.1；b＝0.9；

(7)初始取向性学习矩阵元素值均为1，即p_ij＝1，其中i＝1,2,3，j＝1,2,3，取向性学习参数η＝0.1；

(8)系统内部状态转移函数，认为鸽子只要在时刻t没有获得食物，t+1时刻就会变到下一个差的状态，如果在时刻t获得食物，则t+1时刻就变到下一个好的状态，具体如下所示：

(9)熵的初始值最大，为：

实验1：系统基本学习过程

如图3所示为系统基本学习过程，可以看出，起初，鸽子对外部世界没有任何认识，在每个状态下，对三个动作的取向性相等，均为1/3，随着学习的进行，鸽子对不同动作的取向性发生了变化，在所有状态下，鸽子对于按红色按键的取向性不断增大，对蓝色按键和黄色按键的取向性不同程度的减小，可见，鸽子在与环境的接触过程中学会了一定的知识，明白了按红色按键能够得到食物。

实验2：主动学习机制与依概率学习机制学习率对比曲线图

如图4所示为本发明的主动学习机制与依概率学习机制在状态2下的熵曲线，由图可以看出本发明熵曲线下降较快，表明本发明具有更高的学习效率。

实验3：主动学习机制与依概率学习机制学习过程稳定性对比曲线图

如图5所示对本发明的主动学习机制与依概率学习机制达到稳定状态所需学习步数进行了20次的实验统计，实验设定若鸽子能连续5步选择同一动作，则系统进入了稳定状态，实验结果表明，在主动学习机制下，感知运动系统平均经过21.55步达到稳定状态，最高步数为25步，最低步数为19步，学习过程比较稳定，而在依概率学习机制下，系统平均经过35.65步进入稳定状态，最高步数为54步，学习过程不稳定。

实验4：主动学习机制与依概率学习机制小概率事件对比曲线图

如图6所示为20次统计实验中本发明的主动学习机制与依概率学习机制达到一定稳定状态后小概率发生次数，实验结果表明，主动学习机制下，系统进入一定稳定状态后，不再发生小概率事件，依概率学习下，系统稳定后发生小概率事件平均2.25次，最高时小概率事件发生9次，从工程角度出发，小概率事件往往具有破坏性的结果，若系统进入理想状态后，应尽量避免小概率事件的发生，相比之下，主动学习机制的设计更稳定、学习结果更可靠。

Claims

1.一种具有内发动机机制的感知运动系统认知模型的学习方法，其特征在于，系统认知模型以学习自动机为基础，设计为一个十元组<S,M,O,N,C,V,V_s,P,F,E>，各部分内容具体如下：

(1)S：系统离散感知状态集合，S＝{s_i|i＝1,2,…n_s}，s_i∈S为第i个感知状态，n_s为可感知到的离散状态的个数，针对连续系统，将需要考虑的连续状态空间[X_min,X_max]离散化为离散状态空间，其中X_min为所需考虑状态的下限值，X_max为所需考虑状态的上限值，对连续状态空间进行均匀划分，令w＝(X_max-X_min)/n_s，则离散化后的状态空间为：S＝{[X_min+(i-1)w,X_min+iw]|i＝1,2,…n_s}；

(3)O：“感知-运动”取向性映射集合，O＝{O_i|i＝1,2,…n_s}，O_i为状态s_i对应的取向性映射矩阵，其中diag表示括号里的元素以对角阵的方式储存，此处元素o_ij的下标i(i＝1,2,…,n_s)并不表示元素所在矩阵的行信息，o_ij(i∈(1,2,…,n_s),j∈(1,2,…,n_i))表示一条“感知-运动”映射，表征的是系统在感知状态s_i∈S下对动作m_ij的取向性，或称感知状态s_i与动作m_ij的感知运动取向性为o_ij，规定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变，即当智能体在某状态下对其中一动作的取向性增加时，同时意味着在该状态下对其他动作的取向性减小，本认知模型中，取向性满足0≤o_ij≤1且

(5)C：好奇心，C＝{c_i|i＝1,2,…n_s}，c_i为状态s_i的好奇心；

(6)V：系统状态取向值，用来决定取向函数的值，V＝{V_i|i＝1,2,…n_s}，为满足系统普适性，定义V_i∈[-1,1]，-1为最差状态的状态取向值，1为最理想状态的状态取向值，对于离散系统，根据实际情况定义各状态的取向值，对于连续系统，对离散化后的状态定义离散状态取向值，或者在线计算所处状态的连续状态取向值，针对连续系统，状态取向值的计算方法为：J_i表征期望状态和实际状态之间的误差程度，定义为J_i(t)＝(X_b-X_i(t))²，其中X_b为期望状态值，X_i(t)为t时刻实际状态值，V_i被归一化到[-1,1]之间，且为J_i的减函数，意味着t时刻所处状态与期望状态之间误差越大，状态取向值越小，所处状态与期望状态之间误差越小，状态取向值越大，符合生物取向性，λ为归一化系数；

(7)V_s：取向函数，V_s＝aV_n+b(V_n-V_o)，V_o和V_n分别表示执行某一动作的前后状态，取向函数影响系统取向性的变化方向，既与状态取向值变化过程相关，也与变化后所处状态的状态取向值相关，其中a≥0，b≥0为取向函数参数，其取值应保证取向函数的正负号不改变(V_n-V_o)的正负号，且满足a+b＝1，通过学习得到；

(8)P：取向性学习矩阵，P＝{P_i|i＝1,2,…n_s}，作用是依据取向函数所提供的信息，对取向性映射进行更新调整，其中为状态s_i对应的学习矩阵，各参数意义与(3)中相同，不再赘述；

\begin{matrix} E_{i} (t) = E_{i} (m_{i j} (t) | s_{i}) \\ = - Σ_{j = 1}^{n_{i}} o_{i j} (t) \log_{2} o_{i j} (t) \\ = - Σ_{j = 1}^{n_{i}} o_{i j} (m_{i j} (t) | s_{i}) \log_{2} o_{i j} (m_{i j} (t) | s_{i}) \end{matrix}

E (t) = Σ_{i = 1}^{n_{s}} E_{i} (t);

系统按以下步骤进行学习：

(1)初始化：设定初始状态S₀，初始取向性分布O₀及初始好奇心的值C₀；

(2)感知当前状态；

(3)计算当前状态下的取向性映射矩阵；

(4)计算当前状态下的好奇心值，生成随机指针，将好奇心投向指针指向的动作；好奇心计算方法设计为：

c_{i} = \frac{1}{1 + e^{0.01 (N_{i} - 1)}}

(5)依据内发动机机制选择动作；

(6)实施选定的动作，状态发生转移；

(7)计算转移后状态的状态取向值；

(8)计算取向函数值；

(9)根据取向函数提供的信息更新“感知-运动”映射；

(10)重复执行步骤(2)-(9)直至知识熵不再发生变化，此时认为知识熵达到其极小值；或学习时间大于终止时间，学习结束。

2.根据权利要求1所述的方法，其特征在于，取向性映射更新机制的设计，具体为：设t时刻系统在感知状态s_i下的取向性映射为O_i(t)，执行所选动作m_ij后，在该感知状态下的取向性映射变为O_i(t+1)，则取向性映射更新方法如下：

\{\begin{matrix} p_{i j} (t) = 1 + S i g n (V_{s} (t)) (1 - e^{- η | V_{s} (t) |}) \\ p_{i k} (t) = 1, k &Element; (1, 2, ..., n_{i}) a n d k &NotEqual; j \end{matrix}

S i g n (x) = \{\begin{matrix} 1 & i f & x > 0 \\ 0 & i f & x = 0 \\ - 1 & i f & x < 0 \end{matrix}

O_{i} (t + 1) = \frac{1}{Σ_{j = 1}^{n_{i}} o_{i j} (t) p_{i j} (t)} O_{i} (t) P_{i} (t)

其中p_ij(t)为t时刻取向性学习矩阵P_i中的第j个元素，与取向性元素o_ij(t)相对应，p_ik(t)为其余元素，与o_ik(t)对应，η>0为取向性学习参数。

3.根据权利要求1所述的方法，其特征在于，系统认知模型从生物学角度出发，设计了感知运动系统选择动作的内发动机机制，具体为每个时刻选择所处状态下取向性和好奇心和值最大的动作。