CN112558605B

CN112558605B - 基于纹状体结构的机器人行为学习系统及其学习方法

Info

Publication number: CN112558605B
Application number: CN202011419778.8A
Authority: CN
Inventors: 阮晓钢; 柴洁; 黄静; 武悦; 杨贺源; 朱晓庆; 李鹏; 张家辉; 郭威; 肖尧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-06
Filing date: 2020-12-06
Publication date: 2022-12-16
Anticipated expiration: 2040-12-06
Also published as: CN112558605A

Abstract

本发明公开了一种基于纹状体结构的机器人行为学习系统及其学习方法，属于仿生学技术领域。机器人行为学习系统由感觉皮质、运动皮质、海马体、丘脑、黑质致密部、腹侧被盖区和纹状体组成，其中纹状体包括纹状小体和基质。纹状小体接收由海马体位置细胞产生的定位信息和由黑质致密部和腹侧被盖区产生的多巴胺信息，同时根据操作条件反射机制更新机器人的取向性信息。基质接收纹状小体的取向性信息，同时根据改进的ε‑greedy算法进行动作的选取。机器人与环境进行一段时间交互后可以形成行为习惯。本发明不仅给出动物习惯性行为生成的一种可能的解释，而且可以指导机器人自主行为学习。本发明的方法可应用到机器人导航、生理学、动物行为学等诸多领域。

Description

基于纹状体结构的机器人行为学习系统及其学习方法

技术领域

本发明涉及一种基于纹状体结构的机器人行为学习系统及其学习方法，属于仿生学技术领域。

背景技术

行为学习，如导航行为学习，是智能机器人的关键技能之一，体现着机器人的智能。智能机器人具有认知与学习的能力，能够通过与环境的交互优化自己的行为，从而提高机器人的自主性和适应性，对于代替人类完成灾害或危险环境的任务具有重要的意义。

动物可以通过与环境的交互自主获得导航知识和技能，模拟动物大脑的结构和机制，并将其赋予机器人，是人工智能和机器人学的重要研究课题。许多研究人员从动物行为学习的机制中获得启发进行智能机器人行为学习系统的设计，以提高机器人行为学习的能力。动物导航可以被分为目标导向的导航和习惯性的导航两大类，其中动物导航中的习惯性行为能够有助于动物的快速导航。

尽管在动物导航中存在习惯性行为已众所周知，但我们对大脑中习惯形成机制的了解仍然有限。纹状体(Striatum)，也称为纹状体核(Striate Nucleus)，是前脑皮质下基底神经节(Basal Ganglia)的重要组成部分，在奖励学习和动作选取中扮演着重要的作用。研究表明，习惯的生成与纹状体密切相关；同时，习惯的生成也与操作条件反射相关，这说明习惯生成、纹状体与操作条件反射三者之间存在一定的联系，但很少有人从操作条件反射的角度对纹状体进行建模，进而阐明习惯的生成机理。

纹状体神经元有多种分类，包括：(1)腹侧纹状体和背侧纹状体区域；(2)产生直接通路和间接通路的纹状体区域；(3)纹状小体和周围的基质部分。纹状小体主要负责取向性信息的更新，而纹状体基质主要负责利用所学到的取向性信息进行动作选择。智能体经过与环境的不断交互，逐渐学习到在不同状态的习惯性动作，从而生成行为习惯。操作条件反射是动物与环境之间相互作用的行为学习的基本机制，并且被公认为存在于几乎所有的自然神经物种中。它的主要思想是，当动物在某种状态下执行某项动作并获得增强信号时，下次选择该动作的可能性就会提高；相反，如果动物在某种状态下执行某个动作后获得了衰减信号，则下次选择该动作的可能性就会降低。由于操作条件反射的本质是智能体的强化学习，这与纹状体在目标导向行为中的强化机制是一致的，所以使用操作条件反射机制对纹状小体进行建模具备合理性。

基于以上背景，本发明以操作条件反射机制为数学模型，提出一种基于纹状体结构的机器人行为学习系统及其学习方法，将其应用于机器人上，使机器人可以模拟动物导航中的习惯生成过程，提高机器人的导航能力和认知能力。相关的专利如申请号201510358313.9提出一种基于内在动机的运动平衡机器人自主认知系统及控制方法，其中基底神经节中皮质-纹状体系统利用智能体反馈的感觉皮质信息和小脑计算出的运动皮质信息，获得评价值；申请号201810907394.7提出一种生物启发式好奇心认知发育系统及其运行方法，其中基底神经节中的纹状体能够使机器人预测行为好坏，并对当前状态进行评价。以上两项工作均为使用时间差分学习模型对纹状体的评价机制进行建模，但均未涉及习惯的生成与纹状体之间的具体关联。本发明以操作条件反射机制为基础，为具体的纹状体结构进行建模，并将其与动物导航中习惯的生成机制联系在一起，给出在动物导航中习惯生成机制的一种可能的解释，提高了机器人导航的学习效率。目前，尚未见到与本发明相似的专利记录。

发明内容

本发明涉及一种基于纹状体结构的机器人行为学习系统及其学习方法，属于仿生学技术领域。本发明的目的是通过数学方法建立动物纹状体结构的数学模型，并给出在动物导航中习惯生成机制的一种可能的解释。建立的模型实现了纹状体在动物导航中的生物学功能，可以运用于智能机器人导航等领域。

为实现上述目的，本发明所采用的技术方案为：一种基于纹状体结构的机器人行为学习系统及其学习方法。参见图1，一种基于纹状体结构的机器人行为学习系统结构示意图，该系统包括感觉皮质、运动皮质、海马体、丘脑、黑质致密部、腹侧被盖区和纹状体。其中：海马体中位置细胞的激活用来进行机器人的定位。机器人经过传导和处理感觉皮质中的嗅觉细胞和视觉细胞后，在丘脑中获得相应的气味能量和障碍能量。这两种能量组成机器人的当前状态能量，并被输入到黑质致密部和腹侧被盖区区域。前后两个状态能量之差作为机器人当前的多巴胺信号输入到纹状小体中用于更新机器人的取向性信息。纹状体基质接收纹状小体的取向性信息用于动作的选取。在运动皮质中执行纹状体基质所选取的动作，完成机器人导航中的一步运动。

本发明所述方法的流程图如图2所示，包括以下步骤：

步骤1，初始化：设置机器人的起点和目标点；设置机器人的动作集合；设置初始时机器人在每个状态选择每个方向的取向性相同；设置探索率系数κ₁和κ₂；设置一次导航中最大导航时间t_max以及习惯行为学习过程中的导航学习总次数n_max；

步骤2，获得机器人在当前时刻t的状态感知；根据海马体中位置细胞的激活判断当前所处的状态，并根据嗅觉细胞和视觉细胞获得状态能量；

在本发明中，机器人的定位由海马体位置细胞激活来表示，而海马体中位置细胞的激活由栅格地图中的每个栅格来表示，即，机器人到达某个位置后，该位置所在的栅格代表相应位置的位置细胞激活，从而实现机器人的定位。

在本发明中，状态能量是对机器人所处位置对于到达目标点的难易程度或远近程度的衡量，包括通过嗅觉细胞获得的气味能量和通过视觉细胞获得的障碍能量。在此处假设机器人对目标点处的食物气味敏感度较高，机器人的气味能量可以通过嗅觉细胞获得，计算公式为：

其中，c_od是一个正常数，σ_od是高斯函数的方差，(x_g,y_g)是目标位置。

同理，机器人的障碍能量可以通过视觉细胞检测障碍物获得，计算公式为：

其中，c_ob是一个负常数，σ_ob是高斯函数的方差，(x_ob,y_ob)是障碍物的中心位置。特殊地，如果障碍物是一面墙壁，将障碍能量设置为一个无穷小值，以实现机器人的避障。

当前位置细胞处的状态能量是气味能量和障碍能量的总和，在纹状小体取向性更新的学习过程中起着重要的作用。计算公式为：

E(x,y)＝E_od(x,y)+E_ob(x,y)

步骤3，执行在纹状体基质中选择的动作；

在本发明中，纹状体基质根据改进的ε-greedy算法进行动作选择，计算公式为：

其中，0＜ξ＜1是一个随机数。不同于传统的有固定ε值的ε-greedy算法，改进的ε-greedy算法设置探索率ε为一个随时间递减的函数，计算公式为：

其中，κ₁和κ₂是探索率系数，t是当前的导航学习次数，N是导航学习总次数。

步骤4，更新纹状小体中的取向性信息；

在本发明中，纹状小体根据操作条件反射机制进行取向性信息的更新。本发明中，某动作取向性定义为在当前状态下选择该动作的概率。假设t时刻在状态i下选择动作k的取向性为O_ik(t)，则t+1时刻在状态i下选择动作k的取向性为O_ik(t+1)。

如果机器人执行某动作后，状态能量升高，则选择该动作的取向性也增加，取向性更新公式为：

O_ik(t+1)＝O_ik(t)+Δ1

Δ1＝η₁·E_ij·(1-O_ik(t))

其中，0＜η₁＜1是一个常数，状态转移取向性函数E_ij＝E_j-E_i是状态能量的增量，范围为(0,1)，可以被视为给机器人奖励的多巴胺信号。由于在一个状态选择各个动作的取向性总和为1，那么在该状态，选择其他动作的取向性会相应减小，更新公式为：

其中，u∈Ω，且u≠k，

反之，如果机器人执行某动作后，状态能量减少，则选择该动作的取向性也减小，更新公式为：

O_ik(t+1)＝O_ik(t)-Δ2

Δ2＝η₂·|E_ij|·O_ik(t)

其中，0＜η₂＜1是一个常数，状态转移取向性函数E_ij＝E_j-E_i是状态能量的增量，是一个负值，可以被视为给机器人奖励的较少的多巴胺信号。同理，在该状态，选择其他动作的取向性会相应增加，更新公式为：

其中，u∈Ω，且u≠k，

作为一种自组织系统，纹状体行为学习模型的自学习能力，主要是来自于纹状小体中取向性的更新。同时，纹状小体中的取向性越大，机器人在当前状态选择该动作成为习惯动作的概率越大。

步骤5，判断一次导航是否结束。如果到达目标点或导航步数超过设定值t_max，则一次导航结束；否则，重复步骤2-5；

步骤6，判断习惯行为学习过程是否结束。如果导航学习总次数超过设定值n_max，则习惯行为学习结束；否则，将上次导航所得到的取向性信息作为下一次导航的输入，转步骤2，进入下一轮学习。

在本发明中，如果导航学习总次数没有达到设定值，则习惯行为学习继续，将上次导航所得到的取向性信息作为下一次导航的输入，这是利用习惯的方式。刚开始时，对环境的探索多于利用，经过多次与环境的交互，机器人逐渐学习到在不同状态的习惯性动作，从而生成行为习惯。

与现有技术相比，本发明公开的一种基于纹状体结构的机器人行为学习系统及其学习方法，从纹状小体和基质的角度对纹状体进行建模。当机器人与环境进行一段时间的交互后，可以形成导航的行为习惯，从而实现类似动物的更快速的“不假思索”的导航。本发明的方法可应用到机器人导航、生理学、动物行为学等诸多领域。

附图说明

图1是本发明的一种基于纹状体结构的机器人行为学习系统结构示意图；

图2是本发明的一种基于纹状体结构的机器人行为学习系统运行流程图。

图3是本发明实施例中的一个导航过程示意图。

图4是本发明实施例中的导航步数随导航次数的变化图。

图5是本发明实施例中的在10轮导航中，平均熵值随导航次数的变化图。

图6(a)是本发明实施例中的改变起点后利用习惯的导航过程示意图。

图6(b)是本发明实施例中的改变起点后不利用习惯的导航过程示意图。

图7是本发明实施例中的改变起点后利用习惯与不利用习惯的导航步数变化对比图。

具体实施方式

以下结合实施例对本发明进行详细说明，目的仅在于更好地理解本发明内容，因此，所举之例并不限制本发明的保护范围。

参见图1，一种基于纹状体结构的机器人行为学习系统结构示意图，该系统包括感觉皮质、运动皮质、海马体、丘脑、黑质致密部、腹侧被盖区和纹状体。其中：海马体中位置细胞的激活用来进行机器人的定位。机器人经过传导和处理感觉皮质中的嗅觉细胞和视觉细胞后，在丘脑中获得相应的气味能量和障碍能量。这两种能量组成机器人的当前状态能量，并被输入到黑质致密部和腹侧被盖区区域。前后两个状态能量之差作为机器人当前的多巴胺信号输入到纹状小体中用于更新机器人的取向性信息。纹状体基质接收纹状小体的取向性信息用于动作的选取。在运动皮质中执行纹状体基质所选取的动作，完成机器人导航中的一步运动。

本发明所述方法的流程图如图2所示，包括以下步骤：

步骤1，初始化：设置机器人的起点和目标点。令机器人的动作集合为8个方向的运动，分别为正东、东北、正北、西北、正西、西南、正南、东南。刚开始机器人在每个状态选择每个方向的取向性相同。

步骤2，获得机器人在当前时刻t的状态感知；根据海马体中位置细胞的激活判断当前所处的状态，并根据嗅觉细胞和视觉细胞获得状态能量；此时，由于是空旷环境，此时状态能量主要是气味能量，设置正常数c_od为1，高斯函数的方差σ_od为50，可得气味能量公式如下：

步骤3，根据改进的ε-greedy算法在纹状体基质中选择动作，并执行所选动作；

步骤4，根据操作条件反射机制更新纹状小体中的取向性信息；

步骤5，判断一次导航是否结束；如果到达目标点或导航步数超过设定值t_max，则一次导航结束；否则，重复步骤2-5；

为充分展示本发明对于导航习惯形成的行为学习过程，设置在Morris方形迷宫环境中进行机器人的习惯学习，为机器人随机选取起点(0,-47.5)，选取目标点为(15,15)。测试机器人在与环境交互的过程中是否能够形成导航的行为习惯。当形成行为习惯后，对其进行测试，判断行为习惯的利用对于机器人快速导航的影响。

在机器人刚开始导航时，对环境并不熟悉，需要通过与环境更多地交互，进而更好地认知环境。此时，设置初始探索率系数κ₁和κ₂均为1，此时探索率公式为：

ε＝e^-(t/N)

在习惯生成阶段的导航轨迹如图3所示。我们选取在习惯生成过程中的七条导航路径进行展示，每次间隔为5。从图3可以看出，在开始阶段，智能体对环境不熟悉，因此更偏向于对环境的探索。随着不断地导航学习，智能体逐渐对环境有所了解，对环境的探索率逐渐下降。经过一段时间的学习后，智能体能很好地利用现有知识进行导航，这表明导航习惯的形成。从最终生成的导航习惯路径可以看出，这只是达到了近似最优，而不是最优路径，这是因为仍存在一定的探索率，使智能体在准备阶段能对环境探索得更加深入一些。

图4展示了在30次导航过程中，导航步数随导航次数变化的曲线。从图4可以看出，随着导航次数的增加，导航步数逐渐减少，最终稳定在某个较少的导航步数以下，这也表明了导航习惯的形成。

熵值被用于衡量系统在热力学中的混乱程度，可以指示系统的有序度或自组织度。本发明中，我们用它来描述所提模型的自组织程度，即习惯生成的收敛性。熵值越低，系统的自组织程度越高，并且所生成的习惯行为就越收敛于特定路径。本发明中，熵的计算公式为

其中，n_s是环境中状态的个数，n_Ω在每个状态处动作的个数。

图5展示了在10次习惯行为学习过程中熵值的平均值随导航次数的变化，可以看出，随着导航次数的增加，平均熵值逐渐下降，说明机器人导航路径逐渐趋于稳定，进一步说明了方法的有效性。

为判断行为习惯的利用对于机器人快速导航的影响，我们改变机器人的起始位置到(-45,-45)，并为利用习惯和不利用习惯的导航设置不同的探索率。当利用习惯进行导航时，智能体直接利用学习到的习惯进行导航。然而，由于是新的起点，智能体对新起点周围的认知存在盲点，所以需要存在一定的探索率，所以设置初始探索率为0.6。利用习惯和不利用习惯进行导航时的探索率公式分别为：

ε＝0.6·e^-(3·t/N)

ε＝e^-(3·t/N)

图6展示了对比结果，图6(a)为利用习惯的导航；图6(b)为不利用习惯的导航。由图6可知，经过30次导航后，两种导航过程都能够获得相对最优的导航路径。然而，若智能体利用习惯，则在首次导航时能快速到达目标点；而如果不利用导航，则在首次导航中要花费相对较多步才能到达目标点。因此，我们可以得出行为习惯可以提升智能体的导航效率。

图7给出利用习惯与不利用习惯的步数变化对比图，也表明了利用导航习惯的优势。

Claims

1.一种基于纹状体结构的机器人行为学习方法，其特征在于，所述机器人行为学习方法包括如下步骤，

步骤2，获得机器人在时刻t的状态感知；根据海马体中位置细胞的激活判断机器人当前所处的状态，并根据嗅觉细胞和视觉细胞获得状态能量；

步骤6，判断习惯行为学习过程是否结束；如果导航学习总次数超过设定值n_max，则习惯行为学习结束；否则，将上次导航所得到的取向性信息作为下一次导航的输入，转步骤2，进入下一轮学习；

机器人的定位由海马体位置细胞激活来表示，而海马体中位置细胞的激活由栅格地图中的每个栅格来表示，即，机器人到达某个位置后，该位置所在的栅格代表相应位置的位置细胞激活，从而实现机器人的定位；

所述步骤2状态能量是对机器人所处位置对于到达目标点的难易程度或远近程度的衡量，包括嗅觉细胞获得的气味能量和视觉细胞获得的障碍能量；在此处假设机器人对目标点处的食物气味敏感度较高，机器人的气味能量通过嗅觉细胞获得，计算公式为：

其中，c_od是一个正常数，σ_od是高斯函数的方差，(x_g,y_g)是目标位置；

机器人的障碍能量可以通过视觉细胞检测障碍物获得，计算公式为：

其中，c_ob是一个负常数，σ_ob是高斯函数的方差，(x_ob,y_ob)是障碍物的中心位置；如果障碍物是一面墙壁，将障碍能量设置为一个无穷小值；

当前位置细胞处的状态能量是气味能量和障碍能量的总和，在纹状小体取向性更新的学习过程中起着重要的作用；计算公式为：

E(x,y)＝E_od(x,y)+E_ob(x,y)。

2.根据权利要求1所述的一种基于纹状体结构的机器人行为学习方法，其特征在于，所述步骤3中纹状体基质根据改进的ε-greedy算法进行动作选择，计算公式为：

其中，0＜ξ＜1是一个随机数；不同于传统的有固定ε值的ε-greedy算法，改进的ε-greedy算法设置探索率ε为一个随时间递减的函数，计算公式为：

其中，κ₁和κ₂是探索率系数，t是导航学习次数，N是导航学习总次数。

3.根据权利要求1所述的一种基于纹状体结构的机器人行为学习方法，其特征在于，所述步骤4中纹状小体根据操作条件反射机制进行取向性信息的更新；某动作取向性定义为在当前状态下选择该动作的概率；假设t时刻在状态i下选择动作k的取向性为O_ik(t)，则t+1时刻在状态i下选择动作k的取向性为O_ik(t+1)；

O_ik(t+1)＝O_ik(t)+Δ1

Δ1＝η₁·E_ij·(1-O_ik(t))

其中，0＜η₁＜1是一个常数，状态转移取向性函数E_ij＝E_j-E_i是状态能量的增量，范围为(0,1)，被视为给机器人奖励的多巴胺信号；由于在一个状态选择各个动作的取向性总和为1，那么在该状态，选择其他动作的取向性会相应减小，更新公式为：

其中，u∈Ω，且u≠k，

O_ik(t+1)＝O_ik(t)-Δ2

Δ2＝η₂·|E_ij|·O_ik(t)

其中，0＜η₂＜1是一个常数，状态转移取向性函数E_ij＝E_j-E_i是状态能量的增量，是一个负值，被视为给机器人奖励的较少的多巴胺信号；选择其他动作的取向性会相应增加，更新公式为：

其中，u∈Ω，且u≠k，

作为一种自组织系统，纹状体行为学习模型的自学习能力，纹状小体中的取向性越大，机器人在当前状态选择该动作成为习惯动作的概率越大。

4.根据权利要求1所述的一种基于纹状体结构的机器人行为学习方法，其特征在于，所述步骤6中如果导航学习总次数没有达到设定值，则习惯行为学习继续，将上次导航所得到的取向性信息作为下一次导航的输入，这是习惯利用的方式；开始时，对环境的探索多于利用；经过多次与环境的交互，机器人逐渐学习到在不同状态的习惯性动作，从而生成行为习惯。