CN109212975B - 一种具有发育机制的感知行动认知学习方法 - Google Patents

一种具有发育机制的感知行动认知学习方法 Download PDF

Info

Publication number
CN109212975B
CN109212975B CN201811343603.6A CN201811343603A CN109212975B CN 109212975 B CN109212975 B CN 109212975B CN 201811343603 A CN201811343603 A CN 201811343603A CN 109212975 B CN109212975 B CN 109212975B
Authority
CN
China
Prior art keywords
action
model
state
learning
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811343603.6A
Other languages
English (en)
Other versions
CN109212975A (zh
Inventor
张晓平
阮晓钢
王力
李志军
李幼军
闫佳庆
毕松
吉鸿海
肖尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN201811343603.6A priority Critical patent/CN109212975B/zh
Publication of CN109212975A publication Critical patent/CN109212975A/zh
Application granted granted Critical
Publication of CN109212975B publication Critical patent/CN109212975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

一种具有发育机制的感知行动认知学习方法属于智能机器人技术领域。学习过程中,首先感知系统当前状态;计算动作空间探索率,依概率对剩余动作空间进行探索或对有效动作空间进行学习;在探索剩余动作空间情形下,随机选择动作输出,状态发生转移,计算取向函数值,更新模型潜在动作关系集,判断是否进行扩展发育;在对有效动作空间进行学习情形下,计算当前状态好奇心集、操作函数集,依内发动机机制选择动作输出,状态发生转移,计算取向函数值,更新有效感知行动取向性映射集,判断是否缩减发育;判断是否达到学习结束条件。本发明能够通过在线学习不断更新模型结构,同时节省学习和计算成本,提高系统的学习速度和稳定性。

Description

一种具有发育机制的感知行动认知学习方法
技术领域
本发明涉及一种具有发育机制的感知行动认知学习方法,属于智能机器人技术领域。
背景技术
人工智能科学近年来受到各国政府、高校及科研机构等的高度重视,引发了极大的研究热潮,其中,机器人是人工智能研究的重要体现和应用之一。区别于传统机器人,人工智能背景下,对机器人智能的要求越来越高,研制具有自主认知学习能力的机器人成为机器人的主要发展方向。
本发明正是在以上目标下,以心理学学习机制为指导,以神经生理学结构为基础,为机器人建立感知行动认知学习方法,力求模拟人或动物的学习过程,赋予机器人类似人或动物的学习能力。本发明感知行动认知学习方法以操作条件反射理论为指导,相关的专利如申请号CN201410215954.4提出一种基于操作条件反射进行自主路径探索的方法及模型,具有实现仿生自主学习控制的功能,但不具备泛化能力;申请号CN201410844504.1、申请号200910086990.4、申请号200910089263.3均在操作条件反射理论指导下设计了不同的学习自动机模型,具备了一定的泛化能力,但均未涉及感知运动系统,同时都采用依概率动作选择机制,会造成小概率事件的发生,引起系统不稳定;结合内发动机理论,申请号CN201510358313.9提出了一种基于内在动机的运动平衡机器人自主认知系统及控制方法,申请号CN201410808900.9提出一种具有内发动机机制的感知运动系统认知模型及学习方法,均涉及感知运动系统,但二者结构均为固定,学习过程中存在学习浪费和计算浪费。本发明结合潜在动作理论,为机器人感知运动学习过程设计了一种具有发育机制的认知学习方法,能够更好地模拟生物积累知识的过程,同时大大降低了系统的学习成本和计算成本,提高了学习速度和稳定性。目前,尚未见到与本发明相似的专利记录。
发明内容
本发明涉及一种具有发育机制的感知行动认知学习方法,属于智能机器人技术领域。所公开的感知行动认知学习方法依赖于设计的感知行动认知模型<t,S,M,Ms,Os,Ns,Cs,V,Vs,Ps,Ls,AF,Exp,DL>,具体结合潜在动作理论,设计了模型结构扩展发育方法及缩减发育方法,提高了系统学习速度和稳定性。模型结构如图1所示,包括十四部分,依次为:离散学习时间集、内部可感知离散状态集、可输出动作集、有效输出动作空间集、有效感知行动映射取向性集、有效感知行动映射学习次数集、有效感知行动映射好奇心集、状态评价函数、取向函数、有效操作函数集、有效动作空间取向性学习算法、潜在动作关系集、可输出动作空间探索率集、发育算法,各部分含义具体如下:
(1)t∈{0,1,…nt}:模型离散学习时间集,其中t=0表示学习初始时刻,nt表示最大离散学习时间,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,nt分别设定为500s和30s以上;
(2)S={si|i=1,2,…,ns}:模型内部可感知离散状态集,其中si∈S表示模型第i个可感知的内部状态,ns为离散状态数,两轮机器人自平衡任务中,可感知状态由机器人身姿角度
Figure BDA0001863206840000021
与身姿角速度
Figure BDA0001863206840000022
构成,二者状态划分数分别用
Figure BDA0001863206840000023
Figure BDA0001863206840000024
表示,则
Figure BDA0001863206840000025
(3)M={mj|j=1,2,…,nm}:模型可输出动作集,mj表示可输出动作集中第j个动作,nm为动作空间可输出动作数,两轮机器人自平衡任务中,机器人通过控制轮子的运动实现身体的平衡,因此模型可输出动作为机器人左右两轮轮子转矩值;
(4)Ms={Mi|i=1,2,…,ns}:模型有效输出动作空间集,Mi={mik|k=1,2,…,ni}为状态si下的有效输出动作空间,mik∈M为模型在状态si下从M中学习到的第k个有效动作,ni为状态si下学习到的有效动作个数,随着学习的不断进行,ni会发生变化,有效动作指的是在当前状态下能够使机器人趋向目标的动作;
(5)Os={Oi|i=1,2,…,ns}:模型有效感知行动映射取向性集,其中Oi={oik|k=1,2,…,ni}为状态si下的有效感知行动映射取向性集,oik为状态si对其第k个有效动作的选择取向性;
(6)Ns={Ni|i=1,2,…,ns}:模型有效感知行动映射学习次数集,Ni={nik|k=1,2,…,ni}为状态si下模型对其各有效动作的学习次数集,nik表示状态si对动作mik的学习次数,若t时刻,mik被选择,则t+1时刻:
nik(t+1)=nik(t)+1 (1)
对于其他所有没有被学习的有效感知行动映射,其学习次数保持不变;
(7)Cs={Ci|i=1,2,…,ns}:模型有效感知行动映射好奇心集,Ci={cik|k=1,2,…,ni}为状态si下模型对各有效动作的好奇心集,cik表示状态si对动作mik的好奇度,具体为:
Figure BDA0001863206840000031
其中,kc和c为好奇心参数,针对两轮机器人自平衡任务,经过实验验证取kc=0.05,c=1能够较好的完成任务;
(8)V:模型状态评价函数,用来评价模型所处状态的理想程度,模型越接近目标,状态值越大,越远离目标,状态值越小,针对两轮机器人自平衡任务,模型状态评价函数设计为:
Figure BDA0001863206840000032
(9)Vs:模型取向函数,用于决定模型学习方向,定义为:
Vs(t+1)=V(t+1)-V(t) (4)
表示t+1时刻机器人的取向函数的值Vs(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t);
(10)Ps={Pi|i=1,2,…,ns}:模型有效操作函数集,用于决定模型在有效动作空间内对动作的选择,Pi={pik|k=1,2,…,ni}为状态si所对应的有效操作函数集,pik为状态si对动作mik的操作值,具体为:
pik=σoik+(1-δ)cik (5)
其中0<σ<1为操作函数参数,两轮机器人自平衡任务中,经过实验验证取σ=0.7;
(11)Ls:模型有效动作空间取向性学习算法,在模型有效动作空间内各动作均能使得Vs(t+1)≥0,因此针对有效动作空间的取向性学习算法Ls简单设计为:
Figure BDA0001863206840000041
其中oik(k∈{1,…ni})oik对应被选动作mik的取向性,oik′为状态si下其余动作的取向性值,η为取向性学习算法参数,两轮机器人自平衡任务中,经过实验验证取η=0.1;
(12)AF={AFij|i=1,2,…,ns,j=1,2,…nm}:模型潜在动作关系集,受潜在动作理论及其形式化启发,在此定义模型不同状态与不同动作之间的潜在关系,具体为一个三元组:
AFij:(effect,(si,mj)) (7)
AFij意义为:模型在状态si下输出mj产生的效果为effect。模型在对可输出动作集进行探索时,每探索一个新的感知行动映射(si,mj),就会伴随着一个新的潜在动作关系元组形成。
针对模型结构发育学习过程:
若effect=1,表示在感知状态si下动作mj是可被选择的,即动作mj是状态si下的有效动作;
若effect=0,表示在状态si下,动作mj是不可取的,会使得学习偏离目标;
若effect值为空,即effect=φ,则表示对应的感知行动映射还没有被探索。
依据操作条件反射学习特点及定义的取向函数,effect值计算方式如下:
Figure BDA0001863206840000051
(13)Exp={Expi|i=1,2,…,ns}:模型可输出动作空间探索率集,Expi表示模型在状态si下对可输出动作空间M的探索率,通过式(8)进行计算:
Figure BDA0001863206840000052
其中,Numi{effect≠φ}=nm-Numi{effect=φ}表示状态si下可输出动作空间中潜在动作关系元组effect≠φ的个数,亦即状态si对可输出动作空间已经进行探索的感知行动映射数。
任意状态si下,模型或对该状态下已发育形成的有效输出动作空间Mi进行学习,或对该状态下可输出动作空间M的剩余空间进行探索。在此规定,模型学习过程中,在状态si下模型总是依概率1-Expi对M剩余空间进行探索,依概率Expi对其有效输出动作空间Mi进行学习。特别地:
①在学习初始时刻t=0时,模型没有任何环境知识,任意状态si下,其潜在动作关系元组AFij中effect值均为φ,Mi也为φ,此时模型以
Figure BDA0001863206840000053
的概率从可输出动作集M中探索动作,以完成对Mi的构建。
②当学习进行到某个时刻,若状态si已经完成了对可输出动作空间M的全部探索,则模型在该状态下继续对M进行探索的概率为:
Figure BDA0001863206840000054
表明此时模型不再会对M进行探索。
(14)DL:模型发育算法,包含DL1和DL2,其中DL1为模型在探索可输出动作集M后需要对其有效输出动作空间集Ms进行扩展的发育算法,DL2则是模型对其有效输出动作空间集Ms不断学习后需要进行缩减的发育算法。
一、有效感知行动映射扩展发育方法及发育算法DL1
在状态si下,若模型依概率1-Expi对可输出动作集M剩余空间进行了探索,可能出现两种情况:
①t时刻在当前状态下输出某一动作后,t+1时刻模型受到负强化Vs(t+1)<0,则对应感知行动映射潜在动作关系元组effect=0,表明该动作在当前状态下是不应该被选择的,针对该情况,t+1时刻不需要对已建立的有效感知行动映射动作集进行更新;
②若t时刻模型在当前状态下输出某一动作后,t+1时刻获得正强化Vs(t+1)≥0,则对应感知行动映射潜在动作关系元组effect=1,证明该动作是当前状态下的一个有效动作,t+1时刻需要对Ms进行扩展发育。以状态si为例,模型Ms结构的扩展发育过程如图2所示。更具体地,假设t时刻,状态si所对应有效输出动作空间集Mi中的有效动作个数为ni,模型以1-Expi探索了可输出动作集M剩余空间中某一动作,设为mj,t+1时刻获得正强化,因此需要对Mi进行扩展发育,具体如下:
Step1.动作扩展:将动作mj扩展为动作集Mi第ni+1个有效动作:
Figure BDA0001863206840000061
Step2.取向性更新:按照发育算法DL1对扩展后的动作集Mi所对应取向性集Oi进行更新,其中DL1算法学习过程具体如下:
Step2.1.首先针对新增加动作
Figure BDA0001863206840000062
定义其在状态si下的取向性为:
Figure BDA0001863206840000063
Step2.2.Mi中原有动作取向性oik(k=1,…,ni)更新如下:
Figure BDA0001863206840000064
Step3.好奇心激活:伴随着状态si下新动作
Figure BDA0001863206840000065
的增加,除取向性更新外,状态si
Figure BDA0001863206840000066
的好奇心也随之被激活,用于计算动作好奇度的感知行动映射学习次数
Figure BDA0001863206840000067
并在以后的学习中不断更新。可以看出,任何新发育的动作,其所对应的好奇心值均较大,结合对新增动作定义的初始取向性值,能够保证模型对该有效动作的充分学习;
Step4.结构发育:
n′i=ni+1 (15)
n′i为发育后的Mi的维数,
ni=n′i (16)
二、有效感知行动映射缩减发育方法及发育算法DL2
在状态si下,若模型依概率Expi对其有效感知行动映射动作集Mi进行学习,遵循内发动机下的主动学习机制。Mi中,对所有的动作都有潜在动作关系元组:
(1,(si,mik)) (17)
成立,但在操作条件反射机制下,模型总是趋向于选择获得更大正强化值的动作,随着学习的进行,某些有效动作的取向性会随着学习的进行不断降低,当其取向值下降到一定程度以下时,D-SSCM在好奇心作用下,依据内发动机机制继续对其进行学习会造成学习的浪费,此时需要对模型结构进行缩减发育。
模型在对其有效输出动作空间集Ms的学习过程中,如果t时刻,当前状态si下某动作mik所对应的取向性oik(t)满足:
Figure BDA0001863206840000071
则认为动作mik不属于当前状态下的可选潜在最优动作,需要将其从Mi中剪除。不同于结构扩展发育时直接将有效动作mj作为Mi第ni+1个有效动作,模型结构缩减发育经历一个比较复杂的过程,具体如图3所示。
以t时刻,状态si下的有效输出动作集Mi中第j个动作mij需要被剪除为例,模型的结构缩减发育原理具体如下:
Step1.动作剪除:首先将mij从Mi中剪除;
Step2.取向性更新:Mi中动作mij被剪除后,对其剩余动作取向性按发育算法DL2进行更新,具体为:
Figure BDA0001863206840000072
Step3.结构发育:对剪除动作mij后的Mi结构进行更新;
Step3.1.对于k<j的动作各自排序不变,对于k>j的动作,依次向前移动:
mik→mi(k-1) (20)
直至
Figure BDA0001863206840000081
Step3.2.将Mi空间由ni维降低为ni-1维:
n′i=ni-1 (22)
n′i为发育后的Mi的维数,
ni=n′i (23)
结构发育过程中,各动作取向性值、好奇心值、学习次数随动作更新。
本发明所述模型的学习过程如图4所示,包括以下步骤:
Step1.初始化:学习初始时刻t=0时,对模型中各元素进行初始化,具体包括:定义模型内部可感知离散状态集S及可输出动作集M,定义模型状态评价函数V,设置学习相关参数,设置学习终止条件;
Step2.状态感知:观察学习t时刻模型状态si(t),并计算当前状态取向值V(t),由机器人身姿角度
Figure BDA0001863206840000082
与身姿角速度
Figure BDA0001863206840000083
决定;
Step3.计算模型动作空间探索率Expi,依概率1-Expi对M剩余动作空间进行探索,依概率Expi对Mi进行学习。初始时刻,模型没有任何先验知识,Mi为φ,模型以概率1探索M,即模型需要从M中获取知识,同时,在此规定,在学习任意时刻,若Mi为φ,则模型以概率1探索M剩余动作空间。
所谓状态si下M的剩余动作空间,即状态si在可输出动作集M中所有潜在动作关系元组(effect,(si,mj))中effect值为φ的动作,effect值为φ表示感知行动映射(si,mj)没有被探索。
Step4.t时刻,若模型依概率1-Expi对M剩余动作空间进行了探索,则执行Step4.1.1-Step 4.1.5;若模型依概率Expi对当前状态si下有效动作空间Mi进行学习,则执行Step 4.2.1-Step 4.2.7,模型对Mi中各动作的学习依内发动机机制进行。两种情况下的执行步骤具体如下:
Step4.1.1.选择动作并输出:模型在当前状态的M剩余动作空间中随机选择某个动作并输出;
Step4.1.2.状态发生转移:t时刻,模型在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻模型的新状态,并计算其状态值V(t+1);
Step4.1.3.计算取向函数值Vs(t+1):计算t+1时刻模型的取向函数值Vs(t+1),此处用于计算模型潜在动作关系effect值;
Step4.1.4.更新模型潜在动作关系集:根据计算获得的取向函数Vs(t+1)值按式(7)更新模型M空间潜在动作关系元组(effect,(si,mj)),若Vs(t+1)≥0,则effect=1,若Vs(t+1)<0,则effect=0;
Step4.1.5.判断是否扩展发育:根据新生成的潜在动作关系元组的effect值判断是否需要对状态si下的有效动作空间Mi进行扩展发育,若effect=0,表明所探索的动作在当前状态下是无效的,t+1时刻无需对Mi进行扩展发育,模型有效感知行动映射结构不变,若effect=1,则表明t时刻探索到当前状态下一个有效动作,t+1时刻需要将探索到的动作扩展到Mi中,按扩展发育步骤及扩展发育算法DL1对模型结构及相关属性进行更新;
Step4.2.1.计算当前状态下的好奇心集Ci(t):在感知状态si(t)下,模型有效输出动作空间Mi中某一动作,设为mik随机引起了模型对其进行学习的好奇心,其好奇度被激发,计算该好奇心值cik(t),对于没有引起模型好奇心的其余动作,cik′(t)=0;
Step4.2.2.计算操作函数集Pi(t):结合模型当前状态下的有效感知行动映射取向性集Oi(t)及好奇心集Ci(t),计算当前状态下的有效操作函数集Pi(t);
Step4.2.3.选择动作并输出:依据内发动机机制,选择Mi中操作函数值最大的动作,设为mib
Step4.2.4.状态发生转移,计算其状态值V(t+1);
Step4.2.5.计算取向函数值Vs(t+1):此处用于决定模型已有结构下取向性学习方向;
Step4.2.6.更新有效感知行动取向性映射集:根据式(5)对有效感知行动取向性映射集Oi进行更新;
Step4.2.7.判断是否缩减发育:根据更新后的取向性映射集Oi判断是否需要对Mi进行缩减发育,当Oi中存在需要被剪除的动作时,依据缩减发育步骤及缩减发育算法DL2对模型结构及相关属性进行更新。
Step5.判断学习结束条件:根据设定的学习终止条件判断学习是否结束,若满足条件,则结束,否则返回Step2,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,学习终止条件分别为达到设定的最大离散学习时间500s和30s以上。
与现有技术相比,本发明的优点在于:首先,感知行动认知学习方法下的认知模型结构可发育,能够在学习过程中不断进行自我更新,更好的体现了类似生物知识积累的过程;其次,模型借鉴潜在动作理论,设计了有效感知行动映射扩展发育、缩减发育方法及算法,同时节省了学习成本和计算成本,提供了模型的学习速度和稳定性。
附图说明
图1为本发明结构图;
图2为模型结构的扩展发育过程图;
图3为模型结构的缩减发育过程图;
图4为模型学习过程流程图;
图5为50000步学习过程中两轮机器人倾斜角度曲线;
图6为50000步学习过程中两轮机器人倾斜角速度曲线;
图7为50000步学习过程中两轮机器人轮子输出转矩;
图8为第1轮学习结果;
图9为第2轮学习结果;
图10为第3轮学习结果。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
两轮机器人,模拟人直立行走时的运动平衡控制,从机械结构出发,表现为层状机构:最底层为两个轮子,由安装在机器人底部的两个同轴直流电机驱动;中间层即轮子上方,放置有机器人电源、电机驱动器及电路板等电系统部件;最上层是机身,安置有姿态传感器。从电气系统角度出发,包含有感觉单元:光电编码器用于检测机器人车轮旋转速度,倾角传感器用于检测机器人身体倾角角度,陀螺仪用于检测机器人身体倾角角速度;控制单元:用于对感觉单元的输入信号进行处理,给出动作指令;运动单元:轮子电机执行动作指令,完成运动任务。可见两轮机器人具有仿生结构,同时具备完整的“感觉-运动”回路,因此常被用于人工认知学习模型的测试。
在两轮机器人数学模型已知的情况下,需要对本发明感知行动认知模型进行设置,具体如下:
(1)针对两轮机器人的感知空间,将机器人身姿角度
Figure BDA0001863206840000111
和身姿角速度
Figure BDA0001863206840000112
均划分为12个状态空间,具体如下表所示,所以模型共有ns=12×12=144个内部可感知离散状态。
Figure BDA0001863206840000113
(2)模型可输出动作为机器人左右两轮转矩,在此设定模型可输出动作集为M={-10,-5,-2,-1,-0.1,0,0.1,1,2,5,10}N·m,可输出动作数nm=11。
为表明本发明的优越性,将其与申请号201410808900.9专利模型进行了对比实验,方便起见,本专利模型命名为D-SSCM(Development-Sensorimotor Cognitive Model),专利201410808900.9模型命名为IM-SSCM(Intrinsic Motivation-SensorimotorCognitive Model)。
实验1:基本学习过程
令机器人由初始倾斜角度-10°开始学习,采样时间为0.01s,学习过程中,如果机器人身姿角度
Figure BDA0001863206840000121
则认为机器人发生倾倒,将其拉回初始状态继续学习。如图5至图7所示分别为两轮机器人在50000步学习过程中其身姿倾斜角度、角速度以及轮子输出转矩的变化曲线。从实验结果可以明显看出:(1)D-SSCM具有更快的学习速度:从图5及图6机器人身姿角度和角速度曲线可以看出,在IM-SSCM指导下,机器人大约经过150s可进入平衡位置,而在D-SSCM指导下,机器人大约经过40s即可进入平衡位置。(2)D-SSCM具有更稳定的学习效果:从图5及图6中可以看出,IM-SSCM在学习中期(150s-450s)、模型进入相对稳定期后,依旧会存在一些小的波动,相比之下,D-SSCM学习一旦完成,机器人不会发生晃动,该结论在图7机器人轮子转矩输出中体现更加明显,从图7中可以看出,IM-SSCM认知模型在学习中期(150s-450s)尽管对±10、±5的选择有所减少,但是在好奇心作用下依旧可能会对不良感知行动映射进行尝试,而在D-SSCM发育认知模型下,机器人通过一次探测获知动作结果后,在后期就不再会选择各状态下的不良动作,不至学习偏离目标。
实验2:轮次学习
两轮机器人的自平衡过程关键在于其由初始状态运动到平衡位置期间。为更清楚的显示D-SSCM的学习能力,令其不断从初始状态开始,观察其运动学习结果,并与IM-SSCM进行比较。在此设定轮次学习步数为3000步,结果如图8至图10所示,分别为两种模型下机器人第1轮、第2轮及第3轮的学习结果,从图中可以看出,相比较于IM-SSCM,D-SSCM具有更快的学习速度。实验结果显示在D-SSCM指导下,机器人一般经过一轮对知识的探索,在第二轮就能够快速从初始倾斜角度运动到平衡状态,该学习速度较其他已知操作条件反射相关认知模型有显著优势。

Claims (3)

1.一种具有发育机制的感知行动认知学习方法,其特征在于,以学习自动机为基础设计了一种感知行动认知模型,具体为一个十四元组<t,S,M,Ms,Os,Ns,Cs,V,Vs,Ps,Ls,AF,Exp,DL>,其中各元素含义具体如下:
(1)t∈{0,1,…nt}:模型离散学习时间集,其中t=0表示学习初始时刻,nt表示最大离散学习时间,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,nt分别设定为500s和30s以上;
(2)S={si|i=1,2,…,ns}:模型内部可感知离散状态集,其中si∈S表示模型第i个可感知的内部状态,ns为离散状态数,两轮机器人自平衡任务中,可感知状态由机器人身姿角度
Figure FDA0002981799980000011
与身姿角速度
Figure FDA0002981799980000012
构成,二者状态划分数分别用
Figure FDA0002981799980000013
Figure FDA0002981799980000014
表示,则
Figure FDA0002981799980000015
(3)M={mj|j=1,2,…,nm}:模型可输出动作集,mj表示可输出动作集中第j个动作,nm为动作空间可输出动作数,两轮机器人自平衡任务中,机器人通过控制轮子的运动实现身体的平衡,因此模型可输出动作为机器人左右两轮轮子转矩值;
(4)Ms={Mi|i=1,2,…,ns}:模型有效输出动作空间集,Mi={mik|k=1,2,…,ni}为状态si下的有效输出动作空间,mik∈M为模型在状态si下从M中学习到的第k个有效动作,ni为状态si下学习到的有效动作个数,随着学习的不断进行,ni会发生变化,有效动作指的是在当前状态下能够使机器人趋向目标的动作;
(5)Os={Oi|i=1,2,…,ns}:模型有效感知行动映射取向性集,其中Oi={oik|k=1,2,…,ni}为状态si下的有效感知行动映射取向性集,oik为状态si对其第k个有效动作的选择取向性;
(6)Ns={Ni|i=1,2,…,ns}:模型有效感知行动映射学习次数集,Ni={nik|k=1,2,…,ni}为状态si下模型对其各有效动作的学习次数集,nik表示状态si对动作mik的学习次数,若t时刻,mik被选择,则t+1时刻:
nik(t+1)=nik(t)+1
对于其他所有没有被学习的有效感知行动映射,其学习次数保持不变;
(7)Cs={Ci|i=1,2,…,ns}:模型有效感知行动映射好奇心集,Ci={cik|k=1,2,…,ni}为状态si下模型对各有效动作的好奇心集,cik表示状态si对动作mik的好奇度,具体为:
Figure FDA0002981799980000021
其中,kc和c为好奇心参数,针对两轮机器人自平衡任务,经过实验验证取kc=0.05,c=1;
(8)V:模型状态评价函数,用来评价模型所处状态的理想程度,模型越接近目标,状态值越大,越远离目标,状态值越小,针对两轮机器人自平衡任务,模型状态评价函数设计为:
Figure FDA0002981799980000022
(9)Vs:模型取向函数,用于决定模型学习方向,定义为:
Vs(t+1)=V(t+1)-V(t)
表示t+1时刻机器人的取向函数的值Vs(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t);
(10)Ps={Pi|i=1,2,…,ns}:模型有效操作函数集,用于决定模型在有效动作空间内对动作的选择,Pi={pik|k=1,2,…,ni}为状态si所对应的有效操作函数集,pik为状态si对动作mik的操作值,具体为:
pik=σoik+(1-σ)cik
其中0<σ<1为操作函数参数,两轮机器人自平衡任务中,经过实验验证取σ=0.7;
(11)Ls:模型有效动作空间取向性学习算法,在模型有效动作空间内各动作均能使得Vs(t+1)≥0,因此针对有效动作空间的取向性学习算法Ls简单设计为:
Figure FDA0002981799980000023
其中oik对应被选动作mik的取向性,oik′为状态si下其余动作的取向性值,η为取向性学习算法参数,两轮机器人自平衡任务中,经过实验验证取η=0.1;
(12)AF={AFij|i=1,2,…,ns,j=1,2,…nm}:模型潜在动作关系集,具体为一个三元组:
AFij:(effect,(si,mj))
AFij意义为:模型在状态si下输出mj产生的效果为effect;模型在对可输出动作集进行探索时,每探索一个新的感知行动映射(si,mj),就会伴随着一个新的潜在动作关系元组形成;
针对模型结构发育学习过程:
若effect=1,表示在感知状态si下动作mj是可被选择的,即动作mj是状态si下的有效动作;
若effect=0,表示在状态si下,动作mj是不可取的,会使得学习偏离目标;
若effect值为空,即effect=φ,则表示对应的感知行动映射还没有被探索;
依据操作条件反射学习特点及定义的取向函数,effect值计算方式如下:
Figure FDA0002981799980000031
(13)Exp={Expi|i=1,2,…,ns}:模型可输出动作空间探索率集,Expi表示模型在状态si下对可输出动作空间M的探索率,通过下式进行计算:
Figure FDA0002981799980000032
其中,Numi{effect≠φ}=nm-Numi{effect=φ}表示状态si下可输出动作空间中潜在动作关系元组effect≠φ的个数,亦即状态si对可输出动作空间已经进行探索的感知行动映射数;
任意状态si下,模型或对该状态下已发育形成的有效输出动作空间Mi进行学习,或对该状态下可输出动作空间M的剩余空间进行探索;在此规定,模型学习过程中,在状态si下模型总是依概率1-Expi对M剩余空间进行探索,依概率Expi对其有效输出动作空间Mi进行学习;
(14)DL:模型发育算法,包含DL1和DL2,其中DL1为模型在探索可输出动作集M后需要对其有效输出动作空间集Ms进行扩展的发育算法,DL2则是模型对其有效输出动作空间集Ms不断学习后需要进行缩减的发育算法;
模型按以下步骤进行学习:
Step1.初始化:学习初始时刻t=0时,对模型中各元素进行初始化,具体包括:定义模型内部可感知离散状态集S及可输出动作集M,定义模型状态评价函数V,设置学习相关参数,设置学习终止条件;
Step2.状态感知:观察学习t时刻模型状态si(t),并计算当前状态取向值V(t),由机器人身姿角度
Figure FDA0002981799980000041
与身姿角速度
Figure FDA0002981799980000042
决定;
Step3.计算模型动作空间探索率Expi,依概率1-Expi对M剩余动作空间进行探索,依概率Expi对Mi进行学习;
所谓状态si下M的剩余动作空间,即状态si在可输出动作集M中所有潜在动作关系元组(effect,(si,mj))中effect值为φ的动作,effect值为φ表示感知行动映射(si,mj)没有被探索;
Step4.t时刻,若模型依概率1-Expi对M剩余动作空间进行了探索,则执行Step 4.1.1-Step 4.1.5;若模型依概率Expi对当前状态si下有效动作空间Mi进行学习,则执行Step4.2.1-Step 4.2.7,模型对Mi中各动作的学习依内发动机机制进行;两种情况下的执行步骤具体如下:
Step4.1.1选择动作并输出:模型在当前状态的M剩余动作空间中随机选择某个动作并输出;
Step4.1.2.状态发生转移:t时刻,模型在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻模型的新状态,并计算其状态值V(t+1);
Step4.1.3.计算取向函数值Vs(t+1);
Step4.1.4.更新模型潜在动作关系集;
Step4.1.5.判断是否扩展发育:若effect=0,模型有效感知行动映射结构不变,若effect=1,按扩展发育步骤及扩展发育算法DL1对模型结构及相关属性进行更新;
Step4.2.1.计算当前状态下的好奇心集Ci(t):在感知状态si(t)下,模型有效输出动作空间Mi中某一动作,设为mik随机引起了模型对其进行学习的好奇心,其好奇度被激发,计算该好奇心值cik(t),对于没有引起模型好奇心的其余动作,cik′(t)=0;
Step4.2.2.计算操作函数集Pi(t);
Step4.2.3.依据内发动机机制选择动作并输出;
Step4.2.4.状态发生转移,计算其状态值V(t+1);
Step4.2.5.计算取向函数值Vs(t+1);
Step4.2.6.更新有效感知行动取向性映射集;
Step4.2.7.判断是否缩减发育:根据更新后的取向性映射集Oi判断是否需要对Mi进行缩减发育,当Oi中存在需要被剪除的动作时,依据缩减发育步骤及缩减发育算法DL2对模型结构及相关属性进行更新;
Step5.判断学习结束条件:根据设定的学习终止条件判断学习是否结束,若满足条件,则结束,否则返回Step2,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,学习终止条件分别为达到设定的最大离散学习时间500s和30s以上。
2.根据权利要求1所述的方法,其特征在于,模型有效感知行动映射扩展发育方法及发育算法DL1,具体为:在状态si下,若模型依概率1-Expi对可输出动作集M剩余空间进行了探索,可能出现两种情况:
(1)t时刻在当前状态下输出某一动作后,t+1时刻模型受到负强化Vs(t+1)<0,则对应感知行动映射潜在动作关系元组effect=0,表明该动作在当前状态下是不应该被选择的,针对该情况,t+1时刻不需要对已建立的有效感知行动映射动作集进行更新;
(2)若t时刻模型在当前状态下输出某一动作后,t+1时刻获得正强化Vs(t+1)≥0,则对应感知行动映射潜在动作关系元组effect=1,证明该动作是当前状态下的一个有效动作,t+1时刻需要对Ms进行扩展发育;具体地,假设t时刻,状态si所对应有效输出动作空间集Mi中的有效动作个数为ni,模型以1-Expi探索了可输出动作集M剩余空间中某一动作,设为mj,t+1时刻获得正强化,因此需要对Mi进行扩展发育,具体如下:
Step1.动作扩展:将动作mj扩展为动作集Mi第ni+1个有效动作:
Figure FDA0002981799980000061
Step2.取向性更新:按照发育算法DL1对扩展后的动作集Mi所对应取向性集Oi进行更新,其中DL1算法学习过程具体如下:
Step2.1.首先针对新增加动作
Figure FDA0002981799980000062
定义其在状态si下的取向性为:
Figure FDA0002981799980000063
Step2.2.Mi中原有动作取向性oik更新如下:
Figure FDA0002981799980000064
Step3.好奇心激活:伴随着状态si下新动作
Figure FDA0002981799980000065
的增加,除取向性更新外,状态si
Figure FDA0002981799980000066
的好奇心也随之被激活,用于计算动作好奇度的感知行动映射学习次数
Figure FDA0002981799980000067
并在以后的学习中不断更新;
Step4.结构发育:
n′i=ni+1
n′i为发育后的Mi的维数,
ni=n′i
3.根据权利要求1所述的方法,其特征在于,模型有效感知行动映射缩减发育方法及及发育算法DL2,具体为:在状态si下,若模型依概率Expi对其有效感知行动映射动作集Mi进行学习,遵循内发动机下的主动学习机制,如果t时刻,当前状态si下某动作mik所对应的取向性oik(t)满足:
Figure FDA0002981799980000068
则认为动作mik不属于当前状态下的可选潜在最优动作,需要将其从Mi中剪除;以t时刻,状态si下的有效输出动作集Mi中第j个动作mij需要被剪除为例,模型的结构缩减发育原理具体如下:
Step1.动作剪除:首先将mij从Mi中剪除;
Step2.取向性更新:Mi中动作mij被剪除后,对其剩余动作取向性按发育算法DL2进行更新,具体为:
Figure FDA0002981799980000071
Step3.结构发育:对剪除动作mij后的Mi结构进行更新;
Step3.1.对于k<j的动作各自排序不变,对于k>j的动作,依次向前移动:
mik→mi(k-1)
直至
Figure FDA0002981799980000072
Step3.2.将Mi空间由ni维降低为ni-1维:
n′i=ni-1
n′i为发育后的Mi的维数,
ni=n′i
结构发育过程中,各动作取向性值、好奇心值、学习次数随动作更新。
CN201811343603.6A 2018-11-13 2018-11-13 一种具有发育机制的感知行动认知学习方法 Active CN109212975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811343603.6A CN109212975B (zh) 2018-11-13 2018-11-13 一种具有发育机制的感知行动认知学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811343603.6A CN109212975B (zh) 2018-11-13 2018-11-13 一种具有发育机制的感知行动认知学习方法

Publications (2)

Publication Number Publication Date
CN109212975A CN109212975A (zh) 2019-01-15
CN109212975B true CN109212975B (zh) 2021-05-28

Family

ID=64995774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811343603.6A Active CN109212975B (zh) 2018-11-13 2018-11-13 一种具有发育机制的感知行动认知学习方法

Country Status (1)

Country Link
CN (1) CN109212975B (zh)

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673354A (zh) * 2009-06-12 2010-03-17 北京工业大学 操作条件反射自动机及其在仿生自主学习控制中的应用
CN101599137A (zh) * 2009-07-15 2009-12-09 北京工业大学 自治操作条件反射自动机及在实现智能行为中的应用
JP2012217815A (ja) * 2011-04-04 2012-11-12 Takeshi Mizutani 磁力誘発機構を用いた格闘技用遊具
JP5761832B2 (ja) * 2011-12-21 2015-08-12 国立大学法人信州大学 動作補助装置、及び動作補助装置の同調制御方法
CN102525795B (zh) * 2012-01-16 2014-07-09 沈阳理工大学 一种足部按摩机器人快速自动定位方法
WO2014190208A2 (en) * 2013-05-22 2014-11-27 Neurala, Inc. Methods and apparatus for early sensory integration and robust acquisition of real world knowledge
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
CN103886367B (zh) * 2014-03-18 2016-08-17 北京工业大学 一种仿生智能控制方法
CN103878772B (zh) * 2014-03-31 2017-04-26 北京工业大学 具有模仿学习机制的仿生轮式机器人系统及方法
CN103926838B (zh) * 2014-04-22 2017-02-15 山东大学 基于云计算的自主心智发育云机器人系统
US10045903B2 (en) * 2014-07-22 2018-08-14 Sharon Galitzer Sensorimotor discs for infants and babies
CN104614988B (zh) * 2014-12-22 2017-04-19 北京工业大学 一种具有内发动机机制的感知运动系统认知及其学习方法
CN104570738B (zh) * 2014-12-30 2017-09-08 北京工业大学 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
CN105205533B (zh) * 2015-09-29 2018-01-05 华北理工大学 具有脑认知机理的发育自动机及其学习方法
US10320610B2 (en) * 2015-10-16 2019-06-11 California Institute Of Technology Data network controlled and optimized using layered architectures
CN105700526B (zh) * 2016-01-13 2018-07-27 华北理工大学 具有自主学习能力的在线序列极限学习机方法
WO2017148536A1 (en) * 2016-03-04 2017-09-08 VON MÜLLER, Albrecht Electronic devices, artificial evolutionary neural networks, methods and computer programs for implementing evolutionary search and optimisation
CN105824250B (zh) * 2016-05-14 2018-10-19 大连理工大学 基于小脑模型的仿生手臂控制系统及小脑模型建模方法
KR101883185B1 (ko) * 2016-08-09 2018-07-30 주식회사 피노텍 머신러닝을 활용한 정해진 시나리오로 고객과 상담하는 로봇 자동 상담 방법 및 시스템
US10712820B2 (en) * 2016-10-27 2020-07-14 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for a hybrid brain interface for robotic swarms using EEG signals and an input device
CA3044251A1 (en) * 2016-11-18 2018-05-24 New York Stem Cell Foundation, Inc. Microfluidic system and method of use thereof
CN106598058A (zh) * 2016-12-20 2017-04-26 华北理工大学 内在动机驱动的极限学习机自发育系统及其运行方法
CN107894715A (zh) * 2017-11-13 2018-04-10 华北理工大学 机器人姿态路径目标航迹优化的认知发育方法

Also Published As

Publication number Publication date
CN109212975A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN108115681B (zh) 机器人的模仿学习方法、装置、机器人及存储介质
Wang et al. Learning to navigate through complex dynamic environment with modular deep reinforcement learning
US9902062B2 (en) Apparatus and methods for training path navigation by robots
Argall et al. A survey of robot learning from demonstration
CN112476424A (zh) 机器人控制方法、装置、设备及计算机存储介质
JP7128152B2 (ja) 学習方法及びプログラム
CN113681543B (zh) 一种基于模型预测的机械臂零力控制方法
WO2020065001A1 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
EP4014161A1 (en) Training action selection neural networks using q-learning combined with look ahead search
Rollinson et al. Virtual chassis for snake robots: Definition and applications
EP4014162A1 (en) Controlling agents using causally correct environment models
Xu et al. Function-segment artificial moment method for sensor-based path planning of single robot in complex environments
CN109212975B (zh) 一种具有发育机制的感知行动认知学习方法
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
US11423300B1 (en) Selecting actions by reverting to previous learned action selection policies
Li et al. Research on the agricultural machinery path tracking method based on deep reinforcement learning
Shamsudin et al. Recursive Gauss-Newton based training algorithm for neural network modelling of an unmanned rotorcraft dynamics
WO2019095108A1 (zh) 机器人的模仿学习方法、装置、机器人及存储介质
Malone et al. Efficient motion-based task learning for a serial link manipulator
Stocking et al. Maximum Likelihood Constraint Inference on Continuous State Spaces
Adriansyah et al. Learning of fuzzy-behaviours using Particle Swarm Optimisation in behaviour-based mobile robot
Sun et al. Unmanned aerial vehicles control study using deep deterministic policy gradient
Zhang Continuous control for robot based on deep reinforcement learning
Wang et al. Multi-feature fusion for deep reinforcement learning: sequential control of mobile robots
EP4335598A1 (en) Action abstraction controller for fully actuated robotic manipulators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant