CN104992059A

CN104992059A - 基于内在动机的运动平衡机器人自主认知系统及控制方法

Info

Publication number: CN104992059A
Application number: CN201510358313.9A
Authority: CN
Inventors: 陈静; 李莉; 李冰; 于雅楠; 李宗帅
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2015-10-21

Abstract

本发明公开了一种基于内在动机的运动平衡机器人自主认知系统及控制方法，系统包括：基于内在动机的认知模型由行为产生、行为评价和取向机制构成；行为产生为“感知-运动”环路的形成；行为评价为“运动-结果”环路的形成；取向机制用于连接行为产生、行为评价。方法包括：皮质-小脑系统根据智能体反馈的感觉皮质信息计算动作输出量；基底神经节中的皮质-纹状体系统利用智能体反馈的感觉皮质信息和小脑计算出的运动皮质信息，获取评价值；对皮质-纹状体、皮质-小脑系统进行突触修饰。本发明将神经生理学、认知心理学与机器人学相结合，用数学的方式描述和实现认知机理，解决机器人的自主认知问题。

Description

基于内在动机的运动平衡机器人自主认知系统及控制方法

技术领域

本发明涉及运动平衡机器人领域，尤其涉及一种基于内在动机的运动平衡机器人自主认知系统及控制方法。

背景技术

目前，机器人家族中的轮式机器人凭借其较高的理论价值和实用价值，已经成为机器人研究领域的一个重要分支。其中，两轮自平衡机器人具有占地面积小和运动灵活的特点，能够在特殊的环境(如：在狭小空间内搜救或人群拥挤的地方)中获得应用，同时可以作为特殊的交通工具应用于现代社会的诸多领域，服务于人类。与其他移动式机器人所不同的是，两轮自平衡机器人的运动平衡能力可自动调节运动速度和身体倾斜角度，其运动平衡机制与人的肢体平衡原理一致，可以说它是一种原理性仿生机器人。

两轮自平衡机器人的研究已从经典控制发展到智能控制。近年来，针对其认知能力的研究也成为一个主要的研究方向。然而，两轮自平衡机器人与常规移动机器人不同，它是一个本质不稳定的系统，在移动时需要考虑稳定性问题，其认知控制的研究相对比较复杂。对于两轮自平衡机器人来说，提高机器人的运动平衡控制性能，使其能够像人一样通过认知来获得运动平衡技能成为该领域研究的难点。

在“感知－运动”环路形成过程中，与运动神经学习和控制相关的人脑功能受到了广泛关注，并且心理学中的许多概念(如经典和操作条件反射、内在动机、自我效能)等理论广泛被应用于认知模型研究。许多研究人员提出了能够处理各类问题(如手臂的精确控制、机器人自主导航等)的自主学习模型，以提高机器人的自主认知能力并进行各类机器人的实验研究。但是，对于基于内在动机理论的运动平衡仿生自主认知模型的研究还不多见。而目前国内外对于基于生物启发的认知模型及其在机器人中的应用研究已经成为认知机器人的一项研究热点问题，生理学、心理学、认知科学中的有关概念一一被引入到机器人的行为学习过程中，其主要目的就是要使机器人具有类似人或动物一样的“思维”能力。内在动机学习不需要人为对智能体施加信号，通过对智能体自身的内在动机系统可以实现认知和学习，而且内在动机中的顺变现象能够解决在环境突变下的适应性问题。

因此，基于内在动机的运动平衡机器人自主认知系统以两轮自平衡机器人系统为研究对象，基于内在动机学习方法，复制并模拟人脑感觉运动系统中的自主认知和控制机制，建立相应的仿生自主认知模型，为运动平衡机器人构建自主认知系统，使机器人获得类似人或动物智能行为的自主认知能力。

发明内容

本发明提供了一种基于内在动机的运动平衡机器人自主认知系统及控制方法，本发明将内在动机学习和认知脑模型研究相结合，针对运动平衡机器人的自主认知问题，建立基于内在动机的运动平衡机器人自主认知系统，对于深入理解人类的智能学习行为和构造更加自主的认知机器人提供方法和解决途径，详见下文描述：

一种基于内在动机的运动平衡机器人自主认知系统，所述运动平衡机器人自主认知系统包括：基于内在动机的认知模型，所述基于内在动机的认知模型由行为产生、行为评价和取向机制构成；

行为产生为“感知-运动”环路的形成；行为评价为“运动-结果”环路的形成；

取向机制用于连接行为产生、行为评价。

一种基于内在动机的运动平衡机器人自主认知系统的控制方法，所述控制方法包括以下步骤：

皮质-小脑系统根据智能体反馈的感觉皮质信息计算动作输出量；

基底神经节中的皮质-纹状体系统利用智能体反馈的感觉皮质信息和小脑计算出的运动皮质信息，获取评价值；

对皮质-纹状体、皮质-小脑系统进行突触修饰；

将小脑实施的行为与环境交互，状态发生转移，产生下一时刻的状态量，重复循环，直至产生的状态量满足智能体的期望性能指标，流程结束。

在所述皮质-小脑系统根据智能体反馈的感觉皮质信息计算动作输出量的步骤之前，所述控制方法还包括：

初始化皮质-小脑和皮质-纹状体系统各初始值以及神经元连接权值；

通过感觉皮质感知系统的状态，并进行归一化处理使得网络的实际输入处于[0～1]范围；

根据智能体初始状态计算基于取向信息的回报值。

所述对皮质-纹状体进行突触修饰具体为：

根据小脑皮质输出的推荐动作所导致的来自黑质多巴胺神经元的TD(时间差分)误差信号对皮质-纹状体的突触进行修饰。

所述对皮质-小脑系统进行突触修饰具体为：

根据行为选择的取向机制调整小脑控制器的输出。

本发明提供的技术方案的有益效果是：

1)将神经生理学、认知心理学与机器人学相结合，用数学的方式描述和实现认知机理，解决机器人的自主认知问题；

2)基于认知心理学的思想实现“感知－运动”映射网络的学习，采用自组织的模糊神经网络来实现“感知－运动”环的行为选择和进化机制；

3)研究认知机器人在变化环境下的认知，解决在环境突然变化情况的“顺变”问题。

附图说明

图1为本发明提供的基于内在动机的运动平衡机器人自主认知系统的总体结构示意图；

图2为本发明提供的内在动机学习机理结构图；

图3为基于小脑和基底神经节的认知结构图；

图3(a)基于小脑和基底神经节的认知结构图；

其中，图3(a)包含2个子图，形成了皮质-小脑-丘脑-皮质环路、皮质-纹状体环路；

图3(b)为皮质-小脑-丘脑-皮质环路示意图；

图3(c)为皮质-纹状体环路示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

在构建自主认知系统之前，先建立基于动机理论的认知模型。将认知心理学中的内在动机引入到仿生自主认知模型的构建中，以解决自平衡机器人的运动平衡技能认知问题。由于小脑司职行为产生，基底神经节司职于行为选择，将内在动机学习同小脑与基底神经节机理相结合，形成基于内在动机的仿生自主认知模型。其次，智能体在进化发育过程中，能生存下来的最重要特性是“适应性”，提出自适应取向的思想，应用于变化环境下的认知，为机器人构建基于仿生自主认知模型的认知系统。最后，测试不确定环境对认知的影响，搭建实验环境，测试自主避障能力与自主觅食能力以及多任务认知能力。对有无自适应取向机制的认知模型在变化环境中的顺便能力进行测试和对比分析。

实施例1

一种基于内在动机的运动平衡机器人自主认知系统，系统结构如图1所示，该运动平衡机器人自主认知系统包括：基于内在动机的认知模型，基于内在动机的认知模型又由行为产生、行为评价和取向机制构成。

其中，行为产生主要是认知系统中的“感知-运动”环路的形成，包括：拓扑结构设计、感知行为映射、进化学习算法，感知行为映射和拓扑结构设计两部分可选用神经网络来实现，神经网络的连接权值为突触连接权值。

行为评价主要是认知系统中“运动-结果”环路的形成，包括：拓扑结构设计、行为探索、基于内在动机的行为评价，在拓扑结构设计中，仍然选用人工神经网络结构，行为探索部分采用在一定范围内的随机值来实现，范围并逐渐缩小，以保证在行为学习的遍历性。

连接两环路的关键部分是基于取向机制，取向机制包括：基于内在动机的取向机制和自适应取向机制的设计，通过内在动机，该运动平衡机器人自主认知系统才能调整行为的产生，适应环境的变化。

在图2内在动机学习机理结构中，人脑中的小脑运算机制在自主运动调节中发挥了重要作用，基底神经节司职于行为选择，而且神经生理学的相关研究表明，小脑和基底神经节是有联系的，将两者结合，模拟其认知功能，对运动学、认知和情感领域会带来全新的视点，对于机器人学和神经生理学的学科交叉具有良好的促进作用。基于该思想提出的基于小脑和基底神经节的认知结构，其中，小脑部分用于产生行为，基底神经节用于对行为进行评价，内在动机通过丘脑部分产生，协调小脑和基底神经节共同完成认知的功能。小脑部分的突触通过下橄榄(inferior olive,IO)产生的信号进行修饰，基底神经节中的皮质-纹状体突触通过黑质(substantia nigra,SN)产生的多巴胺信号进行修饰。

参见图3(b)，在皮质-小脑环路中，源自下橄榄的攀援纤维为皮质-小脑突触提供了学习信号，由小脑皮质计算的最优行为通过丘脑投射至大脑皮层。参见图3(c)在皮质-纹状体环路中，纹状体神经元输出当前状态下候选行为的未来奖赏预测信息，是小脑皮质突触更新的依据，皮质-纹状体、纹状体-纹状体的连接(如图3(c)所示)表示了基底神经节中的突触权值，其中纹状体-纹状体的突触连接是考虑了纹状体的侧向连接，可采用反馈的形式来实现。

实施例2

行为由皮质-小脑系统输出，并经由丘脑投射至大脑皮层，然后经由脊髓传递至肌肉，实施行为。行为输出为U＝CB(SC|S_CC)，其中，CB()为皮质-小脑系统的功能函数，SC为感觉皮质传入，S_CC为皮质-小脑突触连接权值，用MLP(多层感知器)网络建立皮质-小脑系统，其突触连接权值表示为W^a,V^a，感觉皮质传入为反馈的系统状态X^a，如图3(b)所示，则：

其中，T表示转置；f_a(z)表示皮质-小脑系统网络中隐含层到输出的功能函数，z即为(V^a)^Tσ((W^a)^TX^a)；σ(h)表示皮质-小脑系统网络中输入到隐含层的功能函数，h即为(W^a)^TX^a。

皮质-小脑的突触修饰源于行为选择的取向机制，即最小化目标函数(2)；

J_a＝[e_Actor(t)]²/2＝[J(t)-Q(x(t))]²/2 (2)

其中，e_Actor(t)＝J(t)-Q(x(t))，J(t)为纹状体输出，Q(x(t))为当前状态下基于内在动机的取向信息，由大脑皮质反馈至基底神经节。

在皮质-纹状体系统中，纹状体输出对候选行为评价值的估计，系统输入为大脑皮质信息，包括感觉皮质和运动皮质信息，即CC＝[SC,MC]^T；

纹状体输出为：J(t)＝STR(t)＝STR(CC|S_CS)＝E{r(t+1)+γr(t+2)+…}，其中，STR()来表达纹状体的输出，S_CS为皮质-纹状体突触连接权值，r(t+1),r(t+2),L来表示未来不同时刻的奖赏值，γ为折扣因子，E表示期望。

用MLP网络建立皮质-纹状体系统，其突触连接权值表示为W^c,V^c，大脑皮质信息用X^c表示，则X^c＝[(X^a)^T,U^T]^T，其中，U为运动皮质的行为信息。

网络的隐含层神经元为人脑中的中间神经元，则纹状体的输出为：

J(X^c,W^c,V^c)＝STR(CC'|S_CS)＝f_c((V^c)^Tσ((W^c)^TX^c)) (3)

其中，CC'＝[CC,STR(t-1)]，f_c(·)表示皮质-纹状体系统网络隐含层到输出的功能函数，(·)即为((V^c)^Tσ((W^c)^TX^c))。

皮质-纹状体突触更新的目标函数为(4)：

其中，J(t)为当前t时刻纹状体的输出，J(t-1)为t-1时刻纹状体的输出，e_Critic(t)为估计的J(t)值与网络输出的J(t)值之间的误差，以此来作为突触修饰的依据。

丘脑在所构建的小脑与基底神经节协作机制中有两个重要的作用：其一，丘脑作为“中继器”在大脑皮质与小脑和基底神经节中进行信号传递，小脑中产生的行为就是通过丘脑-大脑皮质-脑干-脊髓传递至肌肉组织的，同时，通过丘脑的传递，基底神经节中的纹状体产生了对小脑皮质输出行为的评价估计值；其二，丘脑与大脑皮质共同作用，在奖赏信号产生过程中发挥了重要作用，丘脑通过皮质-丘脑纤维(cortico-thalamic fibers)产生基于内在动机的取向信息，然后通过丘脑-皮质纤维(thalamo-cortical fibers)处理生成奖赏信息。通过取向信息的设置，获取了不同状态下不同幅值的奖赏值(或效用值)，从而加快学习速度，优化学习性能。

基于小脑和基底神经节的自主认知过程具体实现如下：

Step 1：初始化皮质-小脑和皮质-纹状体系统各初始值以及神经元连接权值；

Step 2：通过感觉皮质感知系统的状态，并根据实际问题进行归一化处理使得网络的实际输入处于[0～1]范围；

Step 3：根据智能体(机器人)初始状态计算基于取向信息的回报值r；

其中，丘脑和皮质功能，需要针对实际系统进行设计，设计原则为如果系统的当前状态可接受，例如：r＝0，如果偏离目标状态，r＝-1。

Step 4：皮质-小脑系统根据智能体反馈的感觉皮质信息计算动作输出量(公式1)；

Step 5：基底神经节中的皮质-纹状体系统利用智能体反馈的感觉皮质信息和小脑计算出的运动皮质信息，获取评价值J(t)；

Step 6：皮质-纹状体的突触修饰；

根据小脑皮质输出的推荐动作所导致的来自黑质多巴胺神经元的TD误差信号对皮质-纹状体的突触进行修饰。

Step 7：皮质-小脑系统的突触修饰；

根据行为选择的取向机制调整小脑控制器的输出。

Step 8：将小脑实施的行为与环境交互，状态发生转移，产生下一时刻的状态量；

Step 9：返回step 2，直到产生的状态量满足智能体的期望性能指标(如：自平衡机器人的期望指标为倾角为0)；

Step 10：结束。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于内在动机的运动平衡机器人自主认知系统，所述运动平衡机器人自主认知系统包括：基于内在动机的认知模型，其特征在于，

所述基于内在动机的认知模型由行为产生、行为评价和取向机制构成；

取向机制用于连接行为产生、行为评价。

2.一种基于内在动机的运动平衡机器人自主认知系统的控制方法，其特征在于，所述控制方法包括以下步骤：

对皮质-纹状体、皮质-小脑系统进行突触修饰；

3.根据权利要求2所述的一种基于内在动机的运动平衡机器人自主认知系统的控制方法，其特征在于，在所述皮质-小脑系统根据智能体反馈的感觉皮质信息计算动作输出量的步骤之前，所述控制方法还包括：

根据智能体初始状态计算基于取向信息的回报值。

4.根据权利要求2所述的一种基于内在动机的运动平衡机器人自主认知系统的控制方法，其特征在于，所述对皮质-纹状体进行突触修饰具体为：

根据小脑皮质输出的推荐动作所导致的来自黑质多巴胺神经元的时间差分误差信号对皮质-纹状体的突触进行修饰。

5.根据权利要求2所述的一种基于内在动机的运动平衡机器人自主认知系统的控制方法，其特征在于，所述对皮质-小脑系统进行突触修饰具体为：

根据行为选择的取向机制调整小脑控制器的输出。