CN112558605B - 基于纹状体结构的机器人行为学习系统及其学习方法 - Google Patents
基于纹状体结构的机器人行为学习系统及其学习方法 Download PDFInfo
- Publication number
- CN112558605B CN112558605B CN202011419778.8A CN202011419778A CN112558605B CN 112558605 B CN112558605 B CN 112558605B CN 202011419778 A CN202011419778 A CN 202011419778A CN 112558605 B CN112558605 B CN 112558605B
- Authority
- CN
- China
- Prior art keywords
- robot
- navigation
- learning
- orientation
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 39
- 210000001577 neostriatum Anatomy 0.000 title claims abstract description 36
- 230000009471 action Effects 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 claims abstract description 14
- 210000001320 hippocampus Anatomy 0.000 claims abstract description 13
- 230000002650 habitual effect Effects 0.000 claims abstract description 12
- 229960003638 dopamine Drugs 0.000 claims abstract description 7
- 230000033001 locomotion Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 7
- 230000004888 barrier function Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 241001465754 Metazoa Species 0.000 abstract description 20
- 230000011514 reflex Effects 0.000 abstract description 10
- 210000000337 motor cortex Anatomy 0.000 abstract description 6
- 230000001953 sensory effect Effects 0.000 abstract description 6
- 210000003523 substantia nigra Anatomy 0.000 abstract description 6
- 210000004515 ventral tegmental area Anatomy 0.000 abstract description 6
- 241001573498 Compacta Species 0.000 abstract description 5
- 210000001103 thalamus Anatomy 0.000 abstract description 5
- 235000001968 nicotinic acid Nutrition 0.000 abstract description 3
- 239000000758 substrate Substances 0.000 abstract description 3
- 210000001030 ventral striatum Anatomy 0.000 abstract description 3
- 230000003542 behavioural effect Effects 0.000 abstract description 2
- 230000035479 physiological effects, processes and functions Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 20
- 239000003795 chemical substances by application Substances 0.000 description 11
- 230000001143 conditioned effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 210000004227 basal ganglia Anatomy 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 210000001638 cerebellum Anatomy 0.000 description 1
- 210000005079 cognition system Anatomy 0.000 description 1
- 230000008133 cognitive development Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 210000004129 prosencephalon Anatomy 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于纹状体结构的机器人行为学习系统及其学习方法,属于仿生学技术领域。机器人行为学习系统由感觉皮质、运动皮质、海马体、丘脑、黑质致密部、腹侧被盖区和纹状体组成,其中纹状体包括纹状小体和基质。纹状小体接收由海马体位置细胞产生的定位信息和由黑质致密部和腹侧被盖区产生的多巴胺信息,同时根据操作条件反射机制更新机器人的取向性信息。基质接收纹状小体的取向性信息,同时根据改进的ε‑greedy算法进行动作的选取。机器人与环境进行一段时间交互后可以形成行为习惯。本发明不仅给出动物习惯性行为生成的一种可能的解释,而且可以指导机器人自主行为学习。本发明的方法可应用到机器人导航、生理学、动物行为学等诸多领域。
Description
技术领域
本发明涉及一种基于纹状体结构的机器人行为学习系统及其学习方法,属于仿生学技术领域。
背景技术
行为学习,如导航行为学习,是智能机器人的关键技能之一,体现着机器人的智能。智能机器人具有认知与学习的能力,能够通过与环境的交互优化自己的行为,从而提高机器人的自主性和适应性,对于代替人类完成灾害或危险环境的任务具有重要的意义。
动物可以通过与环境的交互自主获得导航知识和技能,模拟动物大脑的结构和机制,并将其赋予机器人,是人工智能和机器人学的重要研究课题。许多研究人员从动物行为学习的机制中获得启发进行智能机器人行为学习系统的设计,以提高机器人行为学习的能力。动物导航可以被分为目标导向的导航和习惯性的导航两大类,其中动物导航中的习惯性行为能够有助于动物的快速导航。
尽管在动物导航中存在习惯性行为已众所周知,但我们对大脑中习惯形成机制的了解仍然有限。纹状体(Striatum),也称为纹状体核(Striate Nucleus),是前脑皮质下基底神经节(Basal Ganglia)的重要组成部分,在奖励学习和动作选取中扮演着重要的作用。研究表明,习惯的生成与纹状体密切相关;同时,习惯的生成也与操作条件反射相关,这说明习惯生成、纹状体与操作条件反射三者之间存在一定的联系,但很少有人从操作条件反射的角度对纹状体进行建模,进而阐明习惯的生成机理。
纹状体神经元有多种分类,包括:(1)腹侧纹状体和背侧纹状体区域;(2)产生直接通路和间接通路的纹状体区域;(3)纹状小体和周围的基质部分。纹状小体主要负责取向性信息的更新,而纹状体基质主要负责利用所学到的取向性信息进行动作选择。智能体经过与环境的不断交互,逐渐学习到在不同状态的习惯性动作,从而生成行为习惯。操作条件反射是动物与环境之间相互作用的行为学习的基本机制,并且被公认为存在于几乎所有的自然神经物种中。它的主要思想是,当动物在某种状态下执行某项动作并获得增强信号时,下次选择该动作的可能性就会提高;相反,如果动物在某种状态下执行某个动作后获得了衰减信号,则下次选择该动作的可能性就会降低。由于操作条件反射的本质是智能体的强化学习,这与纹状体在目标导向行为中的强化机制是一致的,所以使用操作条件反射机制对纹状小体进行建模具备合理性。
基于以上背景,本发明以操作条件反射机制为数学模型,提出一种基于纹状体结构的机器人行为学习系统及其学习方法,将其应用于机器人上,使机器人可以模拟动物导航中的习惯生成过程,提高机器人的导航能力和认知能力。相关的专利如申请号201510358313.9提出一种基于内在动机的运动平衡机器人自主认知系统及控制方法,其中基底神经节中皮质-纹状体系统利用智能体反馈的感觉皮质信息和小脑计算出的运动皮质信息,获得评价值;申请号201810907394.7提出一种生物启发式好奇心认知发育系统及其运行方法,其中基底神经节中的纹状体能够使机器人预测行为好坏,并对当前状态进行评价。以上两项工作均为使用时间差分学习模型对纹状体的评价机制进行建模,但均未涉及习惯的生成与纹状体之间的具体关联。本发明以操作条件反射机制为基础,为具体的纹状体结构进行建模,并将其与动物导航中习惯的生成机制联系在一起,给出在动物导航中习惯生成机制的一种可能的解释,提高了机器人导航的学习效率。目前,尚未见到与本发明相似的专利记录。
发明内容
本发明涉及一种基于纹状体结构的机器人行为学习系统及其学习方法,属于仿生学技术领域。本发明的目的是通过数学方法建立动物纹状体结构的数学模型,并给出在动物导航中习惯生成机制的一种可能的解释。建立的模型实现了纹状体在动物导航中的生物学功能,可以运用于智能机器人导航等领域。
为实现上述目的,本发明所采用的技术方案为:一种基于纹状体结构的机器人行为学习系统及其学习方法。参见图1,一种基于纹状体结构的机器人行为学习系统结构示意图,该系统包括感觉皮质、运动皮质、海马体、丘脑、黑质致密部、腹侧被盖区和纹状体。其中:海马体中位置细胞的激活用来进行机器人的定位。机器人经过传导和处理感觉皮质中的嗅觉细胞和视觉细胞后,在丘脑中获得相应的气味能量和障碍能量。这两种能量组成机器人的当前状态能量,并被输入到黑质致密部和腹侧被盖区区域。前后两个状态能量之差作为机器人当前的多巴胺信号输入到纹状小体中用于更新机器人的取向性信息。纹状体基质接收纹状小体的取向性信息用于动作的选取。在运动皮质中执行纹状体基质所选取的动作,完成机器人导航中的一步运动。
本发明所述方法的流程图如图2所示,包括以下步骤:
步骤1,初始化:设置机器人的起点和目标点;设置机器人的动作集合;设置初始时机器人在每个状态选择每个方向的取向性相同;设置探索率系数κ1和κ2;设置一次导航中最大导航时间tmax以及习惯行为学习过程中的导航学习总次数nmax;
步骤2,获得机器人在当前时刻t的状态感知;根据海马体中位置细胞的激活判断当前所处的状态,并根据嗅觉细胞和视觉细胞获得状态能量;
在本发明中,机器人的定位由海马体位置细胞激活来表示,而海马体中位置细胞的激活由栅格地图中的每个栅格来表示,即,机器人到达某个位置后,该位置所在的栅格代表相应位置的位置细胞激活,从而实现机器人的定位。
在本发明中,状态能量是对机器人所处位置对于到达目标点的难易程度或远近程度的衡量,包括通过嗅觉细胞获得的气味能量和通过视觉细胞获得的障碍能量。在此处假设机器人对目标点处的食物气味敏感度较高,机器人的气味能量可以通过嗅觉细胞获得,计算公式为:
其中,cod是一个正常数,σod是高斯函数的方差,(xg,yg)是目标位置。
同理,机器人的障碍能量可以通过视觉细胞检测障碍物获得,计算公式为:
其中,cob是一个负常数,σob是高斯函数的方差,(xob,yob)是障碍物的中心位置。特殊地,如果障碍物是一面墙壁,将障碍能量设置为一个无穷小值,以实现机器人的避障。
当前位置细胞处的状态能量是气味能量和障碍能量的总和,在纹状小体取向性更新的学习过程中起着重要的作用。计算公式为:
E(x,y)=Eod(x,y)+Eob(x,y)
步骤3,执行在纹状体基质中选择的动作;
在本发明中,纹状体基质根据改进的ε-greedy算法进行动作选择,计算公式为:
其中,0<ξ<1是一个随机数。不同于传统的有固定ε值的ε-greedy算法,改进的ε-greedy算法设置探索率ε为一个随时间递减的函数,计算公式为:
其中,κ1和κ2是探索率系数,t是当前的导航学习次数,N是导航学习总次数。
步骤4,更新纹状小体中的取向性信息;
在本发明中,纹状小体根据操作条件反射机制进行取向性信息的更新。本发明中,某动作取向性定义为在当前状态下选择该动作的概率。假设t时刻在状态i下选择动作k的取向性为Oik(t),则t+1时刻在状态i下选择动作k的取向性为Oik(t+1)。
如果机器人执行某动作后,状态能量升高,则选择该动作的取向性也增加,取向性更新公式为:
Oik(t+1)=Oik(t)+Δ1
Δ1=η1·Eij·(1-Oik(t))
其中,0<η1<1是一个常数,状态转移取向性函数Eij=Ej-Ei是状态能量的增量,范围为(0,1),可以被视为给机器人奖励的多巴胺信号。由于在一个状态选择各个动作的取向性总和为1,那么在该状态,选择其他动作的取向性会相应减小,更新公式为:
反之,如果机器人执行某动作后,状态能量减少,则选择该动作的取向性也减小,更新公式为:
Oik(t+1)=Oik(t)-Δ2
Δ2=η2·|Eij|·Oik(t)
其中,0<η2<1是一个常数,状态转移取向性函数Eij=Ej-Ei是状态能量的增量,是一个负值,可以被视为给机器人奖励的较少的多巴胺信号。同理,在该状态,选择其他动作的取向性会相应增加,更新公式为:
作为一种自组织系统,纹状体行为学习模型的自学习能力,主要是来自于纹状小体中取向性的更新。同时,纹状小体中的取向性越大,机器人在当前状态选择该动作成为习惯动作的概率越大。
步骤5,判断一次导航是否结束。如果到达目标点或导航步数超过设定值tmax,则一次导航结束;否则,重复步骤2-5;
步骤6,判断习惯行为学习过程是否结束。如果导航学习总次数超过设定值nmax,则习惯行为学习结束;否则,将上次导航所得到的取向性信息作为下一次导航的输入,转步骤2,进入下一轮学习。
在本发明中,如果导航学习总次数没有达到设定值,则习惯行为学习继续,将上次导航所得到的取向性信息作为下一次导航的输入,这是利用习惯的方式。刚开始时,对环境的探索多于利用,经过多次与环境的交互,机器人逐渐学习到在不同状态的习惯性动作,从而生成行为习惯。
与现有技术相比,本发明公开的一种基于纹状体结构的机器人行为学习系统及其学习方法,从纹状小体和基质的角度对纹状体进行建模。当机器人与环境进行一段时间的交互后,可以形成导航的行为习惯,从而实现类似动物的更快速的“不假思索”的导航。本发明的方法可应用到机器人导航、生理学、动物行为学等诸多领域。
附图说明
图1是本发明的一种基于纹状体结构的机器人行为学习系统结构示意图;
图2是本发明的一种基于纹状体结构的机器人行为学习系统运行流程图。
图3是本发明实施例中的一个导航过程示意图。
图4是本发明实施例中的导航步数随导航次数的变化图。
图5是本发明实施例中的在10轮导航中,平均熵值随导航次数的变化图。
图6(a)是本发明实施例中的改变起点后利用习惯的导航过程示意图。
图6(b)是本发明实施例中的改变起点后不利用习惯的导航过程示意图。
图7是本发明实施例中的改变起点后利用习惯与不利用习惯的导航步数变化对比图。
具体实施方式
以下结合实施例对本发明进行详细说明,目的仅在于更好地理解本发明内容,因此,所举之例并不限制本发明的保护范围。
参见图1,一种基于纹状体结构的机器人行为学习系统结构示意图,该系统包括感觉皮质、运动皮质、海马体、丘脑、黑质致密部、腹侧被盖区和纹状体。其中:海马体中位置细胞的激活用来进行机器人的定位。机器人经过传导和处理感觉皮质中的嗅觉细胞和视觉细胞后,在丘脑中获得相应的气味能量和障碍能量。这两种能量组成机器人的当前状态能量,并被输入到黑质致密部和腹侧被盖区区域。前后两个状态能量之差作为机器人当前的多巴胺信号输入到纹状小体中用于更新机器人的取向性信息。纹状体基质接收纹状小体的取向性信息用于动作的选取。在运动皮质中执行纹状体基质所选取的动作,完成机器人导航中的一步运动。
本发明所述方法的流程图如图2所示,包括以下步骤:
步骤1,初始化:设置机器人的起点和目标点。令机器人的动作集合为8个方向的运动,分别为正东、东北、正北、西北、正西、西南、正南、东南。刚开始机器人在每个状态选择每个方向的取向性相同。
步骤2,获得机器人在当前时刻t的状态感知;根据海马体中位置细胞的激活判断当前所处的状态,并根据嗅觉细胞和视觉细胞获得状态能量;此时,由于是空旷环境,此时状态能量主要是气味能量,设置正常数cod为1,高斯函数的方差σod为50,可得气味能量公式如下:
步骤3,根据改进的ε-greedy算法在纹状体基质中选择动作,并执行所选动作;
步骤4,根据操作条件反射机制更新纹状小体中的取向性信息;
步骤5,判断一次导航是否结束;如果到达目标点或导航步数超过设定值tmax,则一次导航结束;否则,重复步骤2-5;
步骤6,判断习惯行为学习过程是否结束。如果导航学习总次数超过设定值nmax,则习惯行为学习结束;否则,将上次导航所得到的取向性信息作为下一次导航的输入,转步骤2,进入下一轮学习。
为充分展示本发明对于导航习惯形成的行为学习过程,设置在Morris方形迷宫环境中进行机器人的习惯学习,为机器人随机选取起点(0,-47.5),选取目标点为(15,15)。测试机器人在与环境交互的过程中是否能够形成导航的行为习惯。当形成行为习惯后,对其进行测试,判断行为习惯的利用对于机器人快速导航的影响。
在机器人刚开始导航时,对环境并不熟悉,需要通过与环境更多地交互,进而更好地认知环境。此时,设置初始探索率系数κ1和κ2均为1,此时探索率公式为:
ε=e-(t/N)
在习惯生成阶段的导航轨迹如图3所示。我们选取在习惯生成过程中的七条导航路径进行展示,每次间隔为5。从图3可以看出,在开始阶段,智能体对环境不熟悉,因此更偏向于对环境的探索。随着不断地导航学习,智能体逐渐对环境有所了解,对环境的探索率逐渐下降。经过一段时间的学习后,智能体能很好地利用现有知识进行导航,这表明导航习惯的形成。从最终生成的导航习惯路径可以看出,这只是达到了近似最优,而不是最优路径,这是因为仍存在一定的探索率,使智能体在准备阶段能对环境探索得更加深入一些。
图4展示了在30次导航过程中,导航步数随导航次数变化的曲线。从图4可以看出,随着导航次数的增加,导航步数逐渐减少,最终稳定在某个较少的导航步数以下,这也表明了导航习惯的形成。
熵值被用于衡量系统在热力学中的混乱程度,可以指示系统的有序度或自组织度。本发明中,我们用它来描述所提模型的自组织程度,即习惯生成的收敛性。熵值越低,系统的自组织程度越高,并且所生成的习惯行为就越收敛于特定路径。本发明中,熵的计算公式为
其中,ns是环境中状态的个数,nΩ在每个状态处动作的个数。
图5展示了在10次习惯行为学习过程中熵值的平均值随导航次数的变化,可以看出,随着导航次数的增加,平均熵值逐渐下降,说明机器人导航路径逐渐趋于稳定,进一步说明了方法的有效性。
为判断行为习惯的利用对于机器人快速导航的影响,我们改变机器人的起始位置到(-45,-45),并为利用习惯和不利用习惯的导航设置不同的探索率。当利用习惯进行导航时,智能体直接利用学习到的习惯进行导航。然而,由于是新的起点,智能体对新起点周围的认知存在盲点,所以需要存在一定的探索率,所以设置初始探索率为0.6。利用习惯和不利用习惯进行导航时的探索率公式分别为:
ε=0.6·e-(3·t/N)
ε=e-(3·t/N)
图6展示了对比结果,图6(a)为利用习惯的导航;图6(b)为不利用习惯的导航。由图6可知,经过30次导航后,两种导航过程都能够获得相对最优的导航路径。然而,若智能体利用习惯,则在首次导航时能快速到达目标点;而如果不利用导航,则在首次导航中要花费相对较多步才能到达目标点。因此,我们可以得出行为习惯可以提升智能体的导航效率。
图7给出利用习惯与不利用习惯的步数变化对比图,也表明了利用导航习惯的优势。
Claims (4)
1.一种基于纹状体结构的机器人行为学习方法,其特征在于,所述机器人行为学习方法包括如下步骤,
步骤1,初始化:设置机器人的起点和目标点;设置机器人的动作集合;设置初始时机器人在每个状态选择每个方向的取向性相同;设置探索率系数κ1和κ2;设置一次导航中最大导航时间tmax以及习惯行为学习过程中的导航学习总次数nmax;
步骤2,获得机器人在时刻t的状态感知;根据海马体中位置细胞的激活判断机器人当前所处的状态,并根据嗅觉细胞和视觉细胞获得状态能量;
步骤3,根据改进的ε-greedy算法在纹状体基质中选择动作,并执行所选动作;
步骤4,根据操作条件反射机制更新纹状小体中的取向性信息;
步骤5,判断一次导航是否结束;如果到达目标点或导航步数超过设定值tmax,则一次导航结束;否则,重复步骤2-5;
步骤6,判断习惯行为学习过程是否结束;如果导航学习总次数超过设定值nmax,则习惯行为学习结束;否则,将上次导航所得到的取向性信息作为下一次导航的输入,转步骤2,进入下一轮学习;
机器人的定位由海马体位置细胞激活来表示,而海马体中位置细胞的激活由栅格地图中的每个栅格来表示,即,机器人到达某个位置后,该位置所在的栅格代表相应位置的位置细胞激活,从而实现机器人的定位;
所述步骤2状态能量是对机器人所处位置对于到达目标点的难易程度或远近程度的衡量,包括嗅觉细胞获得的气味能量和视觉细胞获得的障碍能量;在此处假设机器人对目标点处的食物气味敏感度较高,机器人的气味能量通过嗅觉细胞获得,计算公式为:
其中,cod是一个正常数,σod是高斯函数的方差,(xg,yg)是目标位置;
机器人的障碍能量可以通过视觉细胞检测障碍物获得,计算公式为:
其中,cob是一个负常数,σob是高斯函数的方差,(xob,yob)是障碍物的中心位置;如果障碍物是一面墙壁,将障碍能量设置为一个无穷小值;
当前位置细胞处的状态能量是气味能量和障碍能量的总和,在纹状小体取向性更新的学习过程中起着重要的作用;计算公式为:
E(x,y)=Eod(x,y)+Eob(x,y)。
3.根据权利要求1所述的一种基于纹状体结构的机器人行为学习方法,其特征在于,所述步骤4中纹状小体根据操作条件反射机制进行取向性信息的更新;某动作取向性定义为在当前状态下选择该动作的概率;假设t时刻在状态i下选择动作k的取向性为Oik(t),则t+1时刻在状态i下选择动作k的取向性为Oik(t+1);
如果机器人执行某动作后,状态能量升高,则选择该动作的取向性也增加,取向性更新公式为:
Oik(t+1)=Oik(t)+Δ1
Δ1=η1·Eij·(1-Oik(t))
其中,0<η1<1是一个常数,状态转移取向性函数Eij=Ej-Ei是状态能量的增量,范围为(0,1),被视为给机器人奖励的多巴胺信号;由于在一个状态选择各个动作的取向性总和为1,那么在该状态,选择其他动作的取向性会相应减小,更新公式为:
反之,如果机器人执行某动作后,状态能量减少,则选择该动作的取向性也减小,更新公式为:
Oik(t+1)=Oik(t)-Δ2
Δ2=η2·|Eij|·Oik(t)
其中,0<η2<1是一个常数,状态转移取向性函数Eij=Ej-Ei是状态能量的增量,是一个负值,被视为给机器人奖励的较少的多巴胺信号;选择其他动作的取向性会相应增加,更新公式为:
作为一种自组织系统,纹状体行为学习模型的自学习能力,纹状小体中的取向性越大,机器人在当前状态选择该动作成为习惯动作的概率越大。
4.根据权利要求1所述的一种基于纹状体结构的机器人行为学习方法,其特征在于,所述步骤6中如果导航学习总次数没有达到设定值,则习惯行为学习继续,将上次导航所得到的取向性信息作为下一次导航的输入,这是习惯利用的方式;开始时,对环境的探索多于利用;经过多次与环境的交互,机器人逐渐学习到在不同状态的习惯性动作,从而生成行为习惯。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419778.8A CN112558605B (zh) | 2020-12-06 | 2020-12-06 | 基于纹状体结构的机器人行为学习系统及其学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419778.8A CN112558605B (zh) | 2020-12-06 | 2020-12-06 | 基于纹状体结构的机器人行为学习系统及其学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112558605A CN112558605A (zh) | 2021-03-26 |
CN112558605B true CN112558605B (zh) | 2022-12-16 |
Family
ID=75059441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011419778.8A Active CN112558605B (zh) | 2020-12-06 | 2020-12-06 | 基于纹状体结构的机器人行为学习系统及其学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112558605B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105094124A (zh) * | 2014-05-21 | 2015-11-25 | 防灾科技学院 | 基于操作条件反射进行自主路径探索的方法及模型 |
CN110908377A (zh) * | 2019-11-26 | 2020-03-24 | 南京大学 | 一种机器人导航空间约简方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101926459A (zh) * | 2009-11-20 | 2010-12-29 | 张小夫 | 一种能提升学习记忆力预防考试焦虑的制剂及制备方法 |
FR3010528A1 (fr) * | 2013-09-12 | 2015-03-13 | Partnering 3 0 | Robot mobile de surveillance de l'environnement |
CN103886367B (zh) * | 2014-03-18 | 2016-08-17 | 北京工业大学 | 一种仿生智能控制方法 |
US20170039473A1 (en) * | 2014-10-24 | 2017-02-09 | William Henry Starrett, JR. | Methods, systems, non-transitory computer readable medium, and machines for maintaining augmented telepathic data |
CN105205533B (zh) * | 2015-09-29 | 2018-01-05 | 华北理工大学 | 具有脑认知机理的发育自动机及其学习方法 |
CN106125730B (zh) * | 2016-07-10 | 2019-04-30 | 北京工业大学 | 一种基于鼠脑海马空间细胞的机器人导航地图构建方法 |
CN106949896B (zh) * | 2017-05-14 | 2020-05-08 | 北京工业大学 | 一种基于鼠脑海马的情景认知地图构建及导航方法 |
-
2020
- 2020-12-06 CN CN202011419778.8A patent/CN112558605B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105094124A (zh) * | 2014-05-21 | 2015-11-25 | 防灾科技学院 | 基于操作条件反射进行自主路径探索的方法及模型 |
CN110908377A (zh) * | 2019-11-26 | 2020-03-24 | 南京大学 | 一种机器人导航空间约简方法 |
Non-Patent Citations (1)
Title |
---|
由感知到动作决策一体化的类脑导航技术研究现状与未来发展;杨闯 等;《航空学报》;20200125;35-49 * |
Also Published As
Publication number | Publication date |
---|---|
CN112558605A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zafar et al. | Methodology for path planning and optimization of mobile robots: A review | |
Kappen | An introduction to stochastic control theory, path integrals and reinforcement learning | |
KR101126774B1 (ko) | 해마에 기반을 둔 시뮬레이션 신경계를 갖는 모바일 브레인-기반 디바이스 | |
Ram et al. | Using genetic algorithms to learn reactive control parameters for autonomous robotic navigation | |
Beheshti et al. | A review of population-based meta-heuristic algorithms | |
Meyer | Artificial life and the animat approach to artificial intelligence | |
Krichmar et al. | Design principles and constraints underlying the construction of brain-based devices | |
Huang et al. | Computational modeling of emotion-motivated decisions for continuous control of mobile robots | |
Kozma et al. | Computational aspects of cognition and consciousness in intelligent devices | |
Fagg et al. | Rapid reinforcement learning for reactive control policy design in autonomous robots | |
CN109227550A (zh) | 一种基于rbf神经网络的机械臂控制方法 | |
CN107894715A (zh) | 机器人姿态路径目标航迹优化的认知发育方法 | |
CN116147627A (zh) | 一种结合深度强化学习和内在动机的移动机器人自主导航方法 | |
Sood et al. | Meta-heuristic techniques for path planning: recent trends and advancements | |
CN112558605B (zh) | 基于纹状体结构的机器人行为学习系统及其学习方法 | |
Kernbach et al. | On adaptive self-organization in artificial robot organisms | |
Wang et al. | A computational developmental model of perceptual learning for mobile robot | |
Kim et al. | Evolved neural networks based on cellular automata for sensory-motor controller | |
Kim et al. | A unified architecture for agent behaviors with selection of evolved neural network modules | |
CN117302204B (zh) | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 | |
Grabowski et al. | On the evolution of motility and intelligent tactic response | |
Daday et al. | Enhanced reinforcement learning with targeted dropout | |
Shrivastava et al. | Modeling of Basal Ganglia to Incorporate the Procedural Memory | |
Hesse et al. | Reflexes from self-organizing control in autonomous robots | |
Plant et al. | Mobile robots and eeg-a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |