CN109002887A

CN109002887A - 生物启发式好奇心认知发育系统及其运行方法

Info

Publication number: CN109002887A
Application number: CN201810907394.7A
Authority: CN
Inventors: 史涛; 任红格; 刘矗; 李福进; 李军; 秦琴; 张俊琴; 赵传松; 陈俊吉
Original assignee: North China University of Science and Technology
Current assignee: Tianjin University of Technology
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2018-12-14

Abstract

本发明涉及一种生物启发式好奇心认知发育系统及其运行方法，属于智能机器人技术领域。生物启发式好奇心认知发育系统通过模拟大脑中基底神经节、扣带皮层的协调机制以及持续多巴胺的调节机制来构建，包括感知部分、评价部分、行为部分、价值衰减部分、好奇心部分、持续多巴胺调节部分。本发明提供的物启发式好奇心认知发育系统，以神经网络为基础，解决了机器人在未知环境中自主探索性差的问题，其次引入价值衰减机制，可以使学过的知识持续影响机器人的后续学习进程，使机器人可以快速的达到目标，解决了传统强化学习学习效率低的问题。

Description

生物启发式好奇心认知发育系统及其运行方法

技术领域

本发明涉及一种生物启发式好奇心认知发育系统及其运行方法，属于智能机器人技术领域。

背景技术

认知发育是人类通过与环境的交互中自主获得知识和技能，人脑系统在人类认知发育过程中扮演着很重要的角色，模拟人脑的结构和协调机制，将其赋予机器人，是人工智能与控制科学的重要研究课题。

1996年，J.Weng最早提出了机器人自主心智发育思想，他认为智能体应该在模拟人脑的基础上，在内在发育程序的控制下通过传感器和效应器与未知环境交互来发展心智能力，认知发育过程的第一阶段是自主地获得运动技能，神经生理学相关文献表明，运动技能的学习与大脑中的大脑皮层和基底神经节有关。

很多学者在20世纪80年代已经进行了相关方面的研究，他们广泛认同人类的心理对人类的认知发育有很大的影响，2004年Oudyer提出了智能自适应好奇心算法，实现机器人在高维感知空间中的动作自主选择，2007年Wang等人根据人脑的情感回路提出了一种人工智能情感模型，使倒立摆成功学会了平衡，2012年Lovheim提出了情绪的神经心理学模型，其中情绪用血清素，多巴胺，去甲肾上腺素这三种神经递质来表示，2016年Jordi等人提出一种新的神经生物学启发情感认知结构，实现恐惧影响的多巴胺神经调节对计算机系统的影响，2018年Qutubuddin受哺乳动物大脑启发，提出了一种用于无传感器永磁同步电机驱动的智能自适应机构，实现了情绪控制策略的有效性和稳健性。

相关的专利如申请号CN200910086990.4的发明专利基于自动机理论，提出了操作自动机模型，并将该模型应用到机器人的自主学习控制中，申请号为201410163756.8提出了一种基于云计算的自主心智发育云机器人系统，该系统能够有效地减轻机器人执行运算密集型任务的负担，还可以实现不同机器人间知识的共享，申请号为CN201410808900.9提出了一种具有内发动机机制的感知运动系统，该系统引入好奇心和取向性内在动机机制能避免学习自动机小概率事件的发生，提高了认知系统的稳定性，但是，以上专利并没有涉及模拟人类大脑的结构及协调机制，并将其应用于机器人的探索研究。

发明内容

本发明的目的是为了解决传统机器人连续行为学习自适应和自学习能力差等问题，基于人脑相关的神经生理学和神经心理学研究，以Actor-Critic模型为基础，引入好奇心探索机制和价值衰减机制，采用递归神经网络模拟人脑中的信息处理机制，使机器人可以在未知的环境中，通过自主探索行为空间来逐渐的学会平衡控制技能，从而提供一种生物启发式好奇心认知发育系统及其运行方法。

本发明解决所述问题，采用的技术方案是：

一种生物启发式好奇心认知发育系统，该系统认知模型以神经网络为基础，模拟人体大脑认知相关区域的协调机制，包括感知部分、评价部分、行为部分、价值衰减部分、好奇心部分、持续多巴胺调节部分，其中：

感知部分：表示为机器人的状态集合，相对应于大脑皮层中的感觉皮层；

行为部分：表示为机器人的输出行为集合，相对应于大脑皮层中的运动皮层；

评价部分：表示为机器人对当前状态的评价，相对应于基底神经节中的纹状体；

价值衰减部分：系统评价值随时间衰减，可以加快智能体的学习速度；

好奇心部分：在情绪的产生过程中，扣带皮层产生情绪感觉。好奇心具有情感和认知双重特征，我们以扣带皮层来作为好奇心的产生部位；

持续多巴胺调节部分：由黑质致密部所释放的持续多巴胺能用来使行为奖赏预测误差持续推动智能体学习更加精确的行为，加快智能体的学习进程。

优选地，评价部分中纹状体主要是预测生物体行为好坏的评价机制，定义评价函数如下:

J(t)＝r(t+1)+γr(t+2)+γ²r(t+3)+…

其中，γ∈(0,1)为折扣因子，r∈{0,-1}为环境给予系统的刺激，由于环境给予的刺激有正负的缘故，系统会逐渐向正刺激的方向探索，使得系统的评价函数J逐渐趋近于0，从而保证系统最终处于稳定状态。

优选地，价值衰减部分中具体衰减机制，定义价值衰减函数如下：

J(t)_new＝J(t)_old*(1-ψ)

其中，J(t)_old为机器人对t时刻状态的评价值，J(t)_new为计算好奇心时t时刻状态的评价值，ψ∈(0.01,0.1)为衰减因子，由于衰减因子的缘故，使得系统能快速的达到目标。

优选地，好奇心部分中，在情绪的产生过程中，扣带皮层产生情绪感觉，好奇心具有情感和认知双重特征，以扣带皮层来作为好奇心的产生部位，定义好奇心函数如下：

C(t)＝α(1-exp(-|r(t+1)+γJ(t+1)-J(t)_new|

其中，α∈(0,1)为权重系数，评价函数的预测误差的绝对值越大，智能体对环境的了解程度越小，好奇心越大；反之，好奇心越小。

优选地，持续多巴胺调节部分中多巴胺响应具体为：根据由纹状小体所决定的评价函数在t时刻的预测误差和由扣带皮层产生的好奇心信息进行处理，可以用下面公式来表示：

δ_DA(t)＝r(t+1)+γJ(t+1)-J(t)_new+C(t)

一种如上所述的生物启发式好奇心认知发育系统的运行方法，按照如下步骤进行：

(1)初始化：迭代学习步数初始值t＝0，迭代学习次数为step_max，初始化各个参数和突触权值，则实验开始时执行初始内部操作行为的概率相同；

(2)感知当前状态；

(3)在纹状小体中计算评价函数；

(4)评价函数的值随时间衰减；

(5)根据评价函数的预测误差计算好奇心C(t)；

(6)丘脑根据以上信息进行持续多巴胺调节评价值和行为值；

(7)由大脑运动皮层输出动作；

(8)重复执行(2)-(7)直到t＝step_max；学习结束。

采用上述技术方案的本发明，与现有技术相比，其突出的特点是：

模拟人脑中的运动相关区域和心理相关区域的协调机制，为系统自主发育过程提供了一种类人的自主学习和探索的数学模型；其次该模型将感觉运动系统与心理学内在动机机制相结合，提高系统的自学习与自适应能力，实现真正意义上的“智能”。

附图说明

图1是本发明实施例系统结构示意图；

图2是本发明实施例系统运行流程图；

图3是本发明实施例两轮机器人结构示意图；

图4是本发明实施例两轮机器人平衡控制结果示意图；

图5是本发明实施例抗干扰实验仿真结果示意图；

图6是本发明设计方法与传统强化学习方法平衡控制性能对比图；

图7是本发明实施例设计方法与传统强化学习方法误差曲线对比图；

具体实施方式：

下面结合实施例对本发明作进一步说明，目的仅在于更好地理解本发明内容，因此，所举之例并不限制本发明的保护范围。

参见图1、图2，一种生物启发式好奇心认知发育系统，该系统认知模型以神经网络为基础，模拟人体大脑认知相关区域的协调机制，包括感知部分、评价部分、行为部分、价值衰减部分、好奇心部分、持续多巴胺调节部分，其中：

感知部分：表示为机器人的状态集合，相对应于大脑皮层中的感觉皮层。

行为部分：表示为机器人的输出行为集合，相对应于大脑皮层中的运动皮层。

评价部分：表示为机器人对当前状态的评价，相对应于基底神经节中的纹状体，J(t)为系统对t时刻状态的评价。定义评价函数如下：

J(t)＝r(t+1)+γr(t+2)+γ²r(t+3)+…

其中，γ∈(0,1)为折扣因子，r∈{0,-1}为环境给予系统的刺激，由于环境给予的刺激有正负的缘故，系统会逐渐向正刺激的方向探索，使得系统的评价函数逐渐趋近于0，从而保证系统最终处于稳定状态。

价值衰减部分：根据电化学检测实验，系统评价值随时间衰减，可以加快智能体的学习速度，定义价值衰减函数如下：

J(t)_new＝J(t)_old*(1-ψ)

其中,ψ∈(0.01,0.1)为衰减因子,J(t)_old为机器人t时刻对状态的评价值，J(t)_new为计算好奇心时t时刻状态的评价值。

好奇心部分：好奇心产生机制具体为：根据由纹状小体所决定的评价函数在t+1时刻可以表示为：

J(t+1)＝r(t+2)+γr(t+3)+γ²r(t+4)+…

结合t时刻和t+1时刻的评价函数可得：

J(t)＝r(t+1)+γJ(t+1)

这表明，在t时刻时，评价函数J(t)可以用t+1时刻的评价函数J(t+1)来表示，但是由于预测初期所存在的误差的影响，使得用评价值J(t+1)来表示的值与实际值J(t)并不相等，它们之间的差值可以表示智能体对环境的了解程度，好奇心可以用下面公式来表示：

C(t)＝α(1-exp(-|r(t+1)+γJ(t+1)-J(t)_new|

其中，α∈(0,1)为权重系数，评价函数的预测误差越大，智能体对环境的了解程度越小，好奇心越大；反之，好奇心越小。

持续多巴胺调节部分：由黑质致密部所释放的持续多巴胺能用来使行为奖赏预测误差持续推动智能体学习更加精确的行为，加快智能体的学习进程，定义持续多巴胺调节函数如下：

δ_DA(t)＝r(t+1)+γJ(t+1)-J(t)_new+C(t)

持续多巴胺根据由纹状小体所决定的评价函数在t时刻的预测误差和由扣带皮层产生的好奇心信息进行调节，好奇心指引智能体对环境的探索程度，好奇心越大，智能体对环境的探索程度越大；反之，则越小。

(2)感知当前状态；

(3)在纹状小体中计算评价函数；

(4)评价函数的值随时间衰减；

(5)根据评价函数的预测误差计算好奇心C(t)；

(6)丘脑根据以上信息进行持续多巴胺调节评价值和行为值；

(7)由大脑运动皮层输出动作；

(8)重复执行(2)-(7)直到t＝step_max；学习结束。

针对非完整式两轮自平衡机器人而言，它是一个本征不稳定的系统，在实现各种运动之前，首先要保证机器人能够保持自身平衡，所以两轮机器人的姿态平衡是进行运动控制的首要条件，为了验证本发明所提出的一种具有脑认知机理的发育自动机的有效性、鲁棒性以及优越性，本实施例以两轮机器人为对象，研究了在未知环境下机器人是怎样通过自主学习最后学会运动技能的。

机器人在实验过程中有四个输出量并满足相应条件，即左右两轮角速度θ_r和θ_r均小于3.489rad/s，机身自身倾角α＜0.3rad和机器人摆杆角速度β＜3.489rad/s，折扣因子γ＝0.9，采样时间为0.02s。在每次实验中，当机器人的尝试次数超过1000次或者一次尝试的平衡步数超过20000步时，则停止机器人的学习并重新开始另一次实验，如果机器人在其中一次尝试中经历20000步后还能保持平衡，则认为机器人已经学会平衡控制的技能了，每次实验失败后，将初始状态及各个权值重新复位为一定范围内的随机值，再重新学习。

实验1：平衡控制实验

参见图4，机器人在没有干扰的未知环境下，采用本发明提出的方法，经过不断的学习，经过42次试探并在第43次试探中完成实验，大约需要经历200步左右，即4s左右就学会了平衡控制技能，表现了其较快的自主学习能力和本发明的有效性，仿真结果中两轮机器人的平衡控制结果参见图3。

实验2：抗干扰实验

在系统实际的运行过程中，输入输出信号会或多或少的受到外部噪声的干扰，或检测装置的不精确，都会使状态量产生一定的误差，那么为了模拟实际环境，当机器人已经学会平衡控制后保持3000步时，将幅值为25的脉冲信号加入到各个输入状态量中，如果机器人能够经受脉冲信号的干扰并保持平衡，则认为实验成功并证明本发明具有一定的鲁棒性，参见图5，为抗干扰实验仿真结果，可以看出经过200步(即2s)左右后，机器人重新达到平衡位置。

实验3：本发明与传统强化学习对比实验

由于本发明引进了心理学好奇心内在动机机制来驱动机器人的自主学习，有利于降低系统的误差，提高算法的收敛速度，为了证明本发明的优越性，分别应用传统强化学习算法和本发明对两轮机器人进行了平衡控制实验，并对其实验结果进行分析，实验中两种算法的参数设定相同，参见图6和图7，为两种算法的平衡控制性能与误差曲线的对比图，通过图6可以看出本发明在大约250步(即5s)就完成了平衡控制技能的学习，而传统强化学习自动机方法在大约1200步(即24s)才完成学习，证明本发明的收敛速度优于传统学习自动机方法，参见图7，表明本发明的误差下降速度优于传统强化学习方法，更有利于系统的稳定。

本发明提供的生物启发式好奇心认知发育系统及其运行方法，模拟人脑中的运动相关区域和心理相关区域的协调机制，为系统自主发育过程提供了一种类人的自主学习和探索的数学模型；其次该模型将感觉运动系统与心理学内在动机机制相结合，提高系统的自学习与自适应能力，实现真正意义上的智能。

以上所述仅为本发明较佳可行的实施例而已，并非因此局限本发明的权利范围，凡运用本发明说明书及其附图内容所作的等效变化，均包含于本发明的权利范围之内。

Claims

1.一种生物启发式好奇心认知发育系统，其特征在于：该系统认知模型以神经网络为基础，模拟人体大脑认知相关区域的协调机制，包括感知部分、评价部分、行为部分、价值衰减部分、好奇心部分、持续多巴胺调节部分，其中：

2.根据权利要求1所述的生物启发式好奇心认知发育系统，其特征在于：评价部分中纹状体主要是预测生物体行为好坏的评价机制，定义评价函数如下:

J(t)＝r(t+1)+γr(t+2)+γ²r(t+3)+…

其中，γ∈[0,1]为折扣因子，r∈{0,-1}为环境给予系统的刺激，由于环境给予的刺激有正负的缘故，使得系统的评价函数J逐渐趋近于0，从而保证系统最终处于稳定状态。

3.根据权利要求1所述的生物启发式好奇心认知发育系统，其特征在于：价值衰减部分中具体衰减机制，定义价值衰减函数如下：

J(t)_new＝J(t)_old*(1-ψ)

4.根据权利要求1所述的生物启发式好奇心认知发育系统，其特征在于：好奇心部分中，在情绪的产生过程中，扣带皮层产生情绪感觉，好奇心具有情感和认知双重特征，以扣带皮层来作为好奇心的产生部位，定义好奇心函数如下：

C(t)＝α(1-exp(-|r(t+1)+γJ(t+1)-J(t)_new|

其中，α∈(0,1)为权重系数。评价函数的预测误差的绝对值越大，智能体对环境的了解程度越小，好奇心越大；反之，好奇心越小。

5.根据权利要求1所述的生物启发式好奇心认知发育系统，其特征在于：持续多巴胺调节部分中多巴胺响应具体为：根据由纹状小体所决定的评价函数在t时刻的预测误差和由扣带皮层产生的好奇心信息进行处理，可以用下面公式来表示：

δ_DA(t)＝r(t+1)+γJ(t+1)-J(t)_new+C(t)

6.一种如权利要求书1-5任一项所述的生物启发式好奇心认知发育系统的运行方法，其特征在于，按照如下步骤进行：

(2)感知当前状态；

(3)在纹状小体中计算评价函数；

(4)评价函数的值随时间衰减；

(5)根据评价函数的预测误差计算好奇心C(t)；

(6)丘脑根据以上信息进行持续多巴胺调节评价值和行为值；

(7)由大脑运动皮层输出动作；

(8)重复执行(2)-(7)直到t＝step_max；学习结束。