CN109282818A - 具有发育机制的移动机器人路径规划方法 - Google Patents
具有发育机制的移动机器人路径规划方法 Download PDFInfo
- Publication number
- CN109282818A CN109282818A CN201811343671.2A CN201811343671A CN109282818A CN 109282818 A CN109282818 A CN 109282818A CN 201811343671 A CN201811343671 A CN 201811343671A CN 109282818 A CN109282818 A CN 109282818A
- Authority
- CN
- China
- Prior art keywords
- robot
- state
- action
- value
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
一种具有发育机制的移动机器人路径规划方法,属于移动机器人路径规划领域。首先对方法进行初始化,包括定义移动机器人可感知离散状态集、可输出动作集、有效动作空间集、潜在动作关系集等,之后感知机器人当前状态并计算当前状态取向值,计算移动机器人动作空间探索率,依概率或对剩余动作空间进行探索或对有效动作空间进行学习,在探索剩余空间情况下判断是否扩展发育,在有效动作空间学习情况下判断是否缩减发育,不断重复以上步骤直至达到学习设定最大步数。本发明提高了移动机器人对环境的学习速度,能够使机器人更快习得到达目标的有效路径,其次,提高了移动机器人的学习稳定性,能够使机器人最终稳定在目标点附近,不再发生偏离。
Description
技术领域
本发明涉及一种具有发育机制的移动机器人路径规划方法,属于移动机器人路径规划领域。
背景技术
移动机器人是一类能够通过传感器感知周身环境,并通过自主运动完成特定任务的智能系统,在机器人研究中应用极广,而路径规划是实现移动机器人其他任务的基础,本发明正是以此为目标,探索移动机器人与周身环境进行自主交互进而习得环境知识实现路径规划的方法。
相关的专利如申请号CN201810827669.6提出一种基于改进A*算法的四足机器人路径规划方法及系统,首先建立栅格地图,之后利用改进A*算法判定从初始栅格点到目标栅格点的通行代价值最小时所对应的路径为最优路径,驱使四足机器人远离障碍物的同时避免了狭窄通道的堵塞问题。相关的专利如申请号CN201810506586.7提出一种基于改进A星策略的移动机器人路径规划方法,大大节约了内存和计算资源,加快了算法的收敛速度,融入了Voronoi图,使路径远离障碍物,最后使用平滑器得到一条最佳路径。以上方法都需要建立栅格地图,过程较为复杂。随着智能机器人的不断发展,很多学者提出基于仿生学习的算法,相关的专利如申请号201410055115.0提出一种基于Skinner操作条件反射原理的机器人避障导航方法,定义了方法学习步骤,通过实验证明方法具备较强的自学习、自组织、自适应能力,能够在无导师信号的情况下自主探索环境、成功避障导航。相关的论文“基于内发动机机制的移动机器人自主路径规划方法研究”同样在斯金纳操作条件反射基础上,提出一种新的路径规划方法,设计了移动机器人状态能量函数,体现出高度自主性和非任务性。以上方法中,定义的感知运动空间相关元素结构均为固定。本发明在论文“基于内发动机机制的移动机器人自主路径规划方法研究”基础上,对其方法进行改进,提出一种具有发育机制的移动机器人路径规划方法,涉及到的感知运动空间相关元素结构可发育,即随着学习过程可扩展或缩减,提高了机器人的学习速度和稳定性。
发明内容
本发明涉及一种具有发育机制的移动机器人路径规划方法,属于移动机器人路径规划领域。具体包含以下步骤:
步骤1:初始化。定义方法学习过程中涉及到的各元素,并对各元素进行初始化,具体如下:
步骤1.1:定义移动机器人可感知离散状态集S={si|i=1,2,…,ns},其中si∈S表示机器人第i个可感知的内部状态,ns为离散状态数。针对移动机器人,其状态由位置及方向角两个因素构成,具体表示为(θ,x,y),设其位置状态数用npos表示,方向角状态数用nang表示,则机器人可感知离散状态数ns=npos×nang;
步骤1.2:定义移动机器人可输出动作集M={mj|j=1,2,…,nm},mj表示可输出动作集中第j个动作,nm为可输出动作数。针对移动机器人,设定机器人在行驶过程中,线速度恒定,需要执行的动作是机器人的转动角度Δθ。
步骤1.3:定义移动机器人有效输出动作空间集Ms={Mi|i=1,2,…,ns},其中Mi={mik|k=1,2,…,ni}为状态si下的有效输出动作空间,mik∈M为机器人在状态si下从M中学习到的第k个有效动作,ni为状态si下学习到的有效动作个数。状态si下的有效输出动作指的是该状态下能够使机器人趋向目标的动作,Mi是在机器人对环境的学习过程中不断构建的,随着Mi结构的不断变化,ni也随之发生变化。学习初始时刻,Mi均为空,ni=0;
步骤1.4:定义移动机器人有效感知行动映射取向性集Os={Oi|i=1,2,…,ns},其中Oi={oik|k=1,2,…,ni}为状态si下的有效感知行动映射取向性集,oik为状态si对其第k个有效动作的选择取向性;
步骤1.5:定义移动机器人有效感知行动映射学习次数集Ns={Ni|i=1,2,…,ns},Ni={nik|k=1,2,…,ni}为状态si下机器人对其各有效动作的学习次数集,nik表示状态si下对动作mik的学习次数,若t时刻,mik被选择,则t+1时刻:
nik(t+1)=nik(t)+1 (1)
对于其他所有没有被学习的有效感知行动映射,其学习次数保持不变,学习初始时刻,nik均等于0;
步骤1.6:定义移动机器人有效感知行动映射好奇心集Cs={Ci|i=1,2,…,ns},Ci={cik|k=1,2,…,ni}为状态si下机器人对各有效动作的好奇心集,cik表示状态si下对动作mik的好奇度,具体为:
其中,kc和c为好奇心参数,针对移动机器人路径规划问题,经实验验证分别设置为kc=0.5,c=1;
步骤1.7:定义移动机器人状态评价函数V,用来评价机器人所处状态的理想程度,机器人越接近目标,状态值越大,越远离目标,状态值越小,移动机器人路径规划任务中,状态评价函数设置为:
其中,dg表示机器人与目标之间的距离,其值越小,机器人状态评价函数值越高;定义dk(k=1,2,…,no)为机器人距离第k个障碍物的距离,no为环境中障碍物的数量,则表示机器人与障碍物之间的最小距离,其值越大,状态评价函数值越小。路径规划任务中,状态评价函数由两部分构成,用于导航,用于避障,a1取环境最大边值;a2在[0,1]之间取值,a3用于决定导航和避障的侧重程度,在[0,1]之间取值,a4与a5在[5,15]之间取值,各参数在取值范围内通过试凑法,满足所有障碍物中心点状态值小于-10,在障碍物外区域,状态评价函数与dg(t)成反比即状态评价函数参数有效;
步骤1.8:定义移动机器人取向函数,用于决定方法学习方向:
Vs(t+1)=V(t+1)-V(t) (4)
表示t+1时刻机器人的取向函数的值Vs(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t);
步骤1.9:定义移动机器人有效操作函数集Ps={Pi|i=1,2,…,ns},用于决定机器人在有效动作空间内对动作的选择,Pi={pik|k=1,2,…,ni}为状态si所对应的有效操作函数集,pik为状态si下对动作mik的操作值,具体为:
pik=σoik+(1-δ)cik (5)
其中0<σ<1为操作函数参数,机器人路径规划任务中,经实验验证取σ=0.7;
步骤1.10:定义移动机器人有效动作空间取向性学习算法Ls,具体为:
其中oik对应被选动作mik的取向性,oik′为状态si下其余动作的取向性值,η为取向性学习算法参数,机器人路径规划任务中,经实验验证取η=0.1;
步骤1.11:定义移动机器人潜在动作关系集AF={AFij|i=1,2,…,ns,j=1,2,nm}。受潜在动作理论及其形式化启发,在此定义机器人不同状态与不同动作之间的潜在关系,具体为一个三元组:
AFij:(effect,(si,mj)) (7)
AFij意义为:机器人在状态si下输出mj产生的效果为effect。机器人在对可输出动作集进行探索时,每探索一个新的感知行动映射(si,mj),就会伴随着一个新的潜在动作关系元组形成。
针对方法发育式学习过程:
若effect=1,表示在感知状态si下动作mj是可被选择的,即动作mj是状态si下的有效动作;
若effect=0,表示在状态si下,动作mj是不可取的,会使得学习偏离目标;
若effect值为空,即effect=φ,则表示对应的感知行动映射还没有被探索。
依据操作条件反射学习特点及定义的取向函数,effect值计算方式如下:
步骤1.12:定义移动机器人可输出动作空间探索率集Exp={Expi|i=1,2,…,ns},Expi表示机器人在状态si下对可输出动作空间M的探索率,可通过下式进行计算:
其中,Numi{effect≠φ}=nm-Numi{effect=φ}表示状态si下可输出动作空间中潜在动作关系元组effect≠φ的个数,亦即状态si对可输出动作空间已经进行探索的感知行动映射数。
任意状态si下,机器人或对该状态下已发育形成的有效输出动作空间Mi进行学习,或对该状态下可输出动作空间M的剩余空间进行探索。在此规定,机器人学习过程中,在状态si下总是依概率1-Expi对M剩余空间进行探索,依概率Expi对其有效输出动作空间Mi进行学习。特别地:
①在学习初始时刻t=0时,机器人没有任何环境知识,任意状态si下,其潜在动作关系元组AFij中effect值均为φ,Mi也为φ,此时机器人以
的概率从可输出动作集M中探索动作,以完成对Mi的构建。
②当学习进行到某个时刻,若状态si已经完成了对可输出动作空间M的全部探索,则机器人在该状态下继续对M进行探索的概率为:
表明此时机器人不再会对M进行探索。
步骤2:感知机器人当前状态si(t);
步骤3:计算当前状态取向值V(t);
步骤4:计算移动机器人动作空间探索率Expi。依概率1-Expi对M剩余动作空间进行探索,依概率Expi对有效状态空间Mi进行学习。初始时刻,机器人没有任何先验知识,Mi为φ,机器人以概率1探索M,即机器人需要从M中获取知识,同时,在此规定,在学习任意时刻,若Mi为φ,则机器人以概率1探索M剩余动作空间。
所谓状态si下M的剩余动作空间,即状态si在可输出动作集M中所有潜在动作关系元组(effect,(si,mj))中effect值为φ的动作,effect值为φ表示感知行动映射(si,mj)没有被探索。
t时刻,若机器人依概率1-Expi对M剩余动作空间进行了探索,则执行步骤4.1.1-4.1.10;若机器人依概率Expi对当前状态si下有效动作空间Mi进行学习,则执行步骤4.2.1-4.2.11,此时,机器人对Mi中各动作的学习依内发动机机制进行。各相关步骤具体如下:
步骤4.1.1:选择动作并输出。机器人在当前状态的M剩余动作空间中随机选择某个动作并输出;
步骤4.1.2:状态发生转移。t时刻,机器人在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻机器人的新状态。针对移动式机器人,设t时刻及t+1时刻机器人的方向角及位置分别为(θo,xo,yo)与(θn,xn,yn),则机器人运动学模型可表示为:
步骤4.1.3:感知机器人新状态si(t+1),并计算t+1时刻机器人状态取向值V(t+1);
步骤4.1.4:计算取向函数值Vs(t+1)。计算t+1时刻机器人的取向函数值Vs(t+1),此处用于计算方法潜在动作关系effect值;
步骤4.1.5:更新潜在动作关系集。根据计算获得的取向函数Vs(t+1)值按式(8)更新M空间潜在动作关系元组(effect,(si,mj)),若Vs(t+1)≥0,则effect=1,若Vs(t+1)<0,则effect=0;
步骤4.1.6:判断是否扩展发育。根据新生成的潜在动作关系元组的effect值判断是否需要对状态si下的有效动作空间Mi进行扩展发育。
若effect=0,表明所探索的动作在当前状态下是无效的,t+1时刻无需对Mi进行扩展发育,机器人有效感知行动映射结构不变,转到步骤5。
若effect=1,则表明t时刻探索到当前状态下一个有效动作,t+1时刻需要将探索到的动作扩展到Mi中,继续执行步骤4.1.7-4.1.10。
步骤4.1.7:动作扩展。将动作mj扩展为动作集Mi第ni+1个有效动作:
步骤4.1.8:取向性更新。对于新增加动作定义其在状态si下的取向性为:
Mi中原有动作取向性oik更新如下:
步骤4.1.9:好奇心激活。伴随着状态si下新动作的增加,除取向性更新外,状态si对的好奇心也随之被激活,用于计算动作好奇度的感知行动映射学习次数并在以后的学习中不断更新。可以看出,任何新发育的动作,其所对应的好奇心值均较大,结合对新增动作定义的初始取向性值,能够保证机器人对该有效动作的充分学习;
步骤4.1.10:结构发育:
ni′=ni+1 (16)
ni′为发育后的Mi的维数,
ni=ni′ (17)
步骤4.2.1:计算当前状态下的好奇心集Ci(t)。在感知状态si(t)下,机器人有效输出动作空间Mi中某一动作,设为mik随机引起了机器人对其进行学习的好奇心,其好奇度被激发,计算该好奇心值cik(t),对于没有引起机器人好奇心的其余动作,cik′(t)=0;
步骤4.2.2:计算操作函数集Pi(t)。结合当前状态下的有效感知行动映射取向性集Oi(t)及好奇心集Ci(t),计算当前状态下的有效操作函数集Pi(t);
步骤4.2.3:选择动作并输出。依据内发动机机制,选择Mi中操作函数值最大的动作,设为mib;
步骤4.2.4:状态发生转移。t时刻,机器人在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻机器人的新状态。针对移动式机器人,设t时刻及t+1时刻机器人的方向角及位置分别为(θo,xo,yo)与(θn,xn,yn),则机器人运动学模型可表示为:
步骤4.2.5:感知机器人新状态si(t+1),并计算t+1时刻机器人状态取向值V(t+1);
步骤4.2.6:计算取向函数值Vs(t+1)。此处用于决定机器人已有感知行动映射结构下取向性学习方向;
步骤4.2.7:更新有效感知行动取向性映射集。根据式(6)对有效感知行动取向性映射集Oi进行更新;
步骤4.2.8:判断是否缩减发育。Mi中,对所有的动作都有潜在动作关系元组:
(1,(si,mik)) (19)
成立,但在操作条件反射机制下,机器人总是趋向于选择获得更大正强化值的动作,随着学习的进行,某些有效动作的取向性会随着学习的进行不断降低,当其取向值下降到一定程度以下时,机器人在好奇心作用下,依据内发动机机制继续对其进行学习会造成学习的浪费,此时需要对方法有效输出动作空间集结构进行缩减发育。
机器人在对其有效输出动作空间集Ms的学习过程中,如果t时刻,当前状态si下某动作mik所对应的取向性oik(t)满足:
则认为动作mik不属于当前状态下的可选潜在最优动作,需要将其从Mi中剪除。
根据更新后的取向性映射集Oi判断是否需要对Mi进行缩减发育,若不需要缩减发育,转到步骤5。当Mi中存在需要被剪除的动作时,继续执行步骤4.2.9-4.2.11。假设t时刻,状态si下的有效输出动作集Mi中第j个动作mij需要被剪除,则方法的缩减发育原理具体如下:
步骤4.2.9:动作剪除。首先将mij从Mi中剪除;
步骤4.2.10:取向性更新。Mi中动作mij被剪除后,对其剩余动作取向性进行如下更新:
步骤4.2.11:结构发育。对剪除动作mij后的Mi结构进行更新,对于k<j的动作各自排序不变,对于k>j的动作,依次向前移动:
mik→mi(k-1) (22)
直至
将Mi空间由ni维降低为ni-1维:
ni′=ni-1 (24)
ni′为发育后的Mi的维数,
ni=ni′ (25)
结构发育过程中,各动作取向性值、好奇心值、学习次数随动作更新。
步骤5:判断学习结束条件。为体现机器人的学习过程,在此设定轮次学习,学习结束条件为达到每轮学习设定的最大学习步数5000步以上,若满足条件,则学习结束,否则返回步骤2。
与现有技术相比,本发明的优点在于:移动机器人在探索环境的过程中,其有效感知行动映射是逐渐建立并不断更新的,极大地提高了机器人的学习速度,并且提高了学习的稳定性。
附图说明
图1为本发明学习流程图;
图2为机器人运动环境图;
图3为IM-PP方法学习结果;
图4为DM-PP方法学习结果。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
模拟实验中移动机器人运动环境如图2所示,机器人置身于一个5m×5m的自由环境中,运动目标点为图中的三角形,为增加实验难度,在机器人和目标点之间放置有10个障碍物,如图中方块所示。机器人由初始位置[0.25m,0.25m]开始运动,初始朝向角度为0°。最终目标是使机器人通过学习环境避开障碍物到达目标点。
(1)首先定义机器人内部可感知离散状态。针对机器人位置状态,对其进行区域化划分,具体为从零点开始向x轴及y轴正方向每隔0.25m作为一个状态单位,所以机器人共有npos=20×20=400个位置状态;对机器人的方向角在-180°到180°度内进行如下表所示的划分,所以机器人共有nang=12个角度状态。因此,机器人共有ns=npos×nang=4800个内部可感知离散状态。
(2)定义机器人的可输出动作集。对于移动机器人,机器人在任意状态下都可以在0~360°内自由旋转,在此定义移动机可输出动作集为M={-60°,-30°,0°,30°,60°},nm=5。
(3)设置状态评价函数参数。针对图2场景,障碍物数no=10,状态评价函数参数取a1=20,a2=0.3,a3=0.2,a4=5,a5=12。
表1移动机器人方向角划分
为清楚显示机器人的渐进学习过程,令机器人进行自由学习,即在无障碍物碰撞的情况下自由运动,每轮学习5000步以上停止,之后在前一轮次的学习基础上继续新轮次的学习。为表明本发明的优越性,将其与论文“基于内发动机机制的移动机器人自主路径规划方法研究”中的学习方法进行对比,方便起见,论文“基于内发动机机制的移动机器人自主路径规划方法研究”中具有内发动机机制的路径规划学习方法简称为IM-PP(IntrinsicMotivation-Path Planning),本发明具有发育机制的路径规划学习方法简称为DM-PP(Development Mechanism-Path Planning),结果分别如图3与图4所示。
首先可以看出,IM-PP与DM-PP都具有一定的学习能力,都能使得机器人从最初没有任何环境知识、在环境中呈现无组织的游荡状态,经过学习达到后期活动范围集中在目标点附近区域。但是,相比较于IM-PP方法,DM-PP方法具有更好的学习性能:(1)DM-PP具有更快的学习速度,可以看出DM-PP方法下机器人第4轮即可达到IM-PP方法下机器人第14轮类似的学习效果,同时DM-PP第9轮学习效果更是优于IM-PP第20轮学习效果,说明DM-PP较IM-PP具有更快的学习速度。(2)DM-PP具有更稳定的学习效果,观察IM-PP方法的实验结果,当学习进入第20轮,此时机器人已经积累了一定的知识,但是机器人在到达目标点区域后依然会发生偏离。相比较之下,DM-PP方法下,学习完成后,机器人一旦进入目标点,便只在其附近运动,不再偏离目标,体现本发明较好的学习稳定性。
Claims (1)
1.具有发育机制的移动机器人路径规划方法,其特征在于包括以下步骤:
步骤1:初始化;定义方法学习过程中涉及到的各元素,并对各元素进行初始化,具体如下:
步骤1.1:定义移动机器人可感知离散状态集S={si|i=1,2,…,ns},其中si∈S表示机器人第i个可感知的内部状态,ns为离散状态数;针对移动机器人,其状态由位置及方向角两个因素构成,具体表示为(θ,x,y),设其位置状态数用npos表示,方向角状态数用nang表示,则机器人可感知离散状态数ns=npos×nang;
步骤1.2:定义移动机器人可输出动作集M={mj|j=1,2,…,nm},mj表示可输出动作集中第j个动作,nm为可输出动作数;针对移动机器人,设定机器人在行驶过程中,线速度恒定,需要执行的动作是机器人的转动角度Δθ;
步骤1.3:定义移动机器人有效输出动作空间集Ms={Mi|i=1,2,…,ns},其中Mi={mik|k=1,2,…,ni}为状态si下的有效输出动作空间,mik∈M为机器人在状态si下从M中学习到的第k个有效动作,ni为状态si下学习到的有效动作个数;状态si下的有效输出动作指的是该状态下能够使机器人趋向目标的动作,Mi是在机器人对环境的学习过程中不断构建的,随着Mi结构的不断变化,ni也随之发生变化;学习初始时刻,Mi均为空,ni=0;
步骤1.4:定义移动机器人有效感知行动映射取向性集Os={Oi|i=1,2,…,ns},其中Oi={oik|k=1,2,…,ni}为状态si下的有效感知行动映射取向性集,oik为状态si对其第k个有效动作的选择取向性;
步骤1.5:定义移动机器人有效感知行动映射学习次数集Ns={Ni|i=1,2,…,ns},Ni={nik|k=1,2,…,ni}为状态si下机器人对其各有效动作的学习次数集,nik表示状态si下对动作mik的学习次数,若t时刻,mik被选择,则t+1时刻:
nik(t+1)=nik(t)+1
对于其他所有没有被学习的有效感知行动映射,其学习次数保持不变,学习初始时刻,nik均等于0;
步骤1.6:定义移动机器人有效感知行动映射好奇心集Cs={Ci|i=1,2,…,ns},Ci={cik|k=1,2,…,ni}为状态si下机器人对各有效动作的好奇心集,cik表示状态si下对动作mik的好奇度,具体为:
其中,kc和c为好奇心参数,针对移动机器人路径规划问题,经实验验证分别设置为kc=0.5,c=1;
步骤1.7:定义移动机器人状态评价函数V,用来评价机器人所处状态的理想程度,机器人越接近目标,状态值越大,越远离目标,状态值越小,移动机器人路径规划任务中,状态评价函数设置为:
其中,dg表示机器人与目标之间的距离,其值越小,机器人状态评价函数值越高;定义dk(k=1,2,…,no)为机器人距离第k个障碍物的距离,no为环境中障碍物的数量,则表示机器人与障碍物之间的最小距离,其值越大,状态评价函数值越小;路径规划任务中,状态评价函数由两部分构成,用于导航,用于避障,a1取环境最大边值;a2在[0,1]之间取值,a3用于决定导航和避障的侧重程度,在[0,1]之间取值,a4与a5在[5,15]之间取值,各参数在取值范围内通过试凑法,满足所有障碍物中心点状态值小于-10,在障碍物外区域,状态评价函数与dg(t)成反比即状态评价函数参数有效
步骤1.8:定义移动机器人取向函数,用于决定方法学习方向:
Vs(t+1)=V(t+1)-V(t)
表示t+1时刻机器人的取向函数的值Vs(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t);
步骤1.9:定义移动机器人有效操作函数集Ps={Pi|i=1,2,…,ns},用于决定机器人在有效动作空间内对动作的选择,Pi={pik|k=1,2,…,ni}为状态si所对应的有效操作函数集,pik为状态si下对动作mik的操作值,具体为:
pik=σoik+(1-δ)cik
其中0<σ<1为操作函数参数,机器人路径规划任务中,经实验验证取σ=0.7;
步骤1.10:定义移动机器人有效动作空间取向性学习算法Ls,具体为:
其中oik对应被选动作mik的取向性,oik′为状态si下其余动作的取向性值,η为取向性学习算法参数,机器人路径规划任务中,经实验验证取η=0.1;
步骤1.11:定义移动机器人潜在动作关系集AF={AFij|i=1,2,…,ns,j=1,2,…nm};受潜在动作理论及其形式化启发,在此定义机器人不同状态与不同动作之间的潜在关系,具体为一个三元组:
AFij:(effect,(si,mj))
AFij意义为:机器人在状态si下输出mj产生的效果为effect;机器人在对可输出动作集进行探索时,每探索一个新的感知行动映射(si,mj),就会伴随着一个新的潜在动作关系元组形成;
针对方法发育式学习过程:
若effect=1,表示在感知状态si下动作mj是可被选择的,即动作mj是状态si下的有效动作;
若effect=0,表示在状态si下,动作mj是不可取的,会使得学习偏离目标;
若effect值为空,即effect=φ,则表示对应的感知行动映射还没有被探索;
依据操作条件反射学习特点及定义的取向函数,effect值计算方式如下:
步骤1.12:定义移动机器人可输出动作空间探索率集Exp={Expi|i=1,2,…,ns},Expi表示机器人在状态si下对可输出动作空间M的探索率,通过下式进行计算:
其中,Numi{effect≠φ}=nm-Numi{effect=φ}表示状态si下可输出动作空间中潜在动作关系元组effect≠φ的个数,亦即状态si对可输出动作空间已经进行探索的感知行动映射数;
任意状态si下,机器人或对该状态下已发育形成的有效输出动作空间Mi进行学习,或对该状态下可输出动作空间M的剩余空间进行探索;在此规定,机器人学习过程中,在状态si下总是依概率1-Expi对M剩余空间进行探索,依概率Expi对其有效输出动作空间Mi进行学习;
步骤2:感知机器人当前状态si(t);
步骤3:计算当前状态取向值V(t);
步骤4:计算移动机器人动作空间探索率Expi;依概率1-Expi对M剩余动作空间进行探索,依概率Expi对有效状态空间Mi进行学习;初始时刻,机器人没有任何先验知识,Mi为φ,机器人以概率1探索M,即机器人需要从M中获取知识,同时,在此规定,在学习任意时刻,若Mi为φ,则机器人以概率1探索M剩余动作空间;
所谓状态si下M的剩余动作空间,即状态si在可输出动作集M中所有潜在动作关系元组(effect,(si,mj))中effect值为φ的动作,effect值为φ表示感知行动映射(si,mj)没有被探索;
t时刻,若机器人依概率1-Expi对M剩余动作空间进行了探索,则执行步骤4.1.1-4.1.10;若机器人依概率Expi对当前状态si下有效动作空间Mi进行学习,则执行步骤4.2.1-4.2.11,此时,机器人对Mi中各动作的学习依内发动机机制进行;各相关步骤具体如下:
步骤4.1.1:选择动作并输出;机器人在当前状态的M剩余动作空间中随机选择某个动作并输出;
步骤4.1.2:状态发生转移;t时刻,机器人在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻机器人的新状态;针对移动式机器人,设t时刻及t+1时刻机器人的方向角及位置分别为(θo,xo,yo)与(θn,xn,yn),则机器人运动学模型可表示为:
步骤4.1.3:感知机器人新状态si(t+1),并计算t+1时刻机器人状态取向值V(t+1);
步骤4.1.4:计算取向函数值Vs(t+1);计算t+1时刻机器人的取向函数值Vs(t+1),此处用于计算方法潜在动作关系effect值;
步骤4.1.5:更新潜在动作关系集;根据计算获得的取向函数Vs(t+1)值更新M空间潜在动作关系元组(effect,(si,mj)),若Vs(t+1)≥0,则effect=1,若Vs(t+1)<0,则effect=0;
步骤4.1.6:判断是否扩展发育;根据新生成的潜在动作关系元组的effect值判断是否需要对状态si下的有效动作空间Mi进行扩展发育;
若effect=0,表明所探索的动作在当前状态下是无效的,t+1时刻无需对Mi进行扩展发育,机器人有效感知行动映射结构不变,转到步骤5;
若effect=1,则表明t时刻探索到当前状态下一个有效动作,t+1时刻需要将探索到的动作扩展到Mi中,继续执行步骤4.1.7-4.1.10;
步骤4.1.7:动作扩展;将动作mj扩展为动作集Mi第ni+1个有效动作:
步骤4.1.8:取向性更新;对于新增加动作定义其在状态si下的取向性为:
Mi中原有动作取向性oik更新如下:
步骤4.1.9:好奇心激活;伴随着状态si下新动作的增加,除取向性更新外,状态si对的好奇心也随之被激活,用于计算动作好奇度的感知行动映射学习次数并在以后的学习中不断更新;可以看出,任何新发育的动作,其所对应的好奇心值均较大,结合对新增动作定义的初始取向性值,能够保证机器人对该有效动作的充分学习;
步骤4.1.10:结构发育:
n′i=ni+1
n′i为发育后的Mi的维数,
ni=n′i
步骤4.2.1:计算当前状态下的好奇心集Ci(t);在感知状态si(t)下,机器人有效输出动作空间Mi中某一动作,设为mik随机引起了机器人对其进行学习的好奇心,其好奇度被激发,计算该好奇心值cik(t),对于没有引起机器人好奇心的其余动作,cik′(t)=0;
步骤4.2.2:计算操作函数集Pi(t);结合当前状态下的有效感知行动映射取向性集Oi(t)及好奇心集Ci(t),计算当前状态下的有效操作函数集Pi(t);
步骤4.2.3:选择动作并输出;依据内发动机机制,选择Mi中操作函数值最大的动作,设为mib;
步骤4.2.4:状态发生转移;t时刻,机器人在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻机器人的新状态;针对移动式机器人,设t时刻及t+1时刻机器人的方向角及位置分别为(θo,xo,yo)与(θn,xn,yn),则机器人运动学模型表示为:
步骤4.2.5:感知机器人新状态si(t+1),并计算t+1时刻机器人状态取向值V(t+1);
步骤4.2.6:计算取向函数值Vs(t+1);此处用于决定机器人已有感知行动映射结构下取向性学习方向;
步骤4.2.7:更新有效感知行动取向性映射集;
步骤4.2.8:判断是否缩减发育;Mi中,对所有的动作都有潜在动作关系元组:
(1,(si,mik))
成立,但在操作条件反射机制下,机器人总是趋向于选择获得更大正强化值的动作,随着学习的进行,某些有效动作的取向性会随着学习的进行不断降低,当其取向值下降到一定程度以下时,机器人在好奇心作用下,依据内发动机机制继续对其进行学习会造成学习的浪费,此时需要对方法有效输出动作空间集结构进行缩减发育;
机器人在对其有效输出动作空间集Ms的学习过程中,如果t时刻,当前状态si下某动作mik所对应的取向性oik(t)满足:
则认为动作mik不属于当前状态下的可选潜在最优动作,需要将其从Mi中剪除;
根据更新后的取向性映射集Oi判断是否需要对Mi进行缩减发育,若不需要缩减发育,转到步骤5;当Mi中存在需要被剪除的动作时,继续执行步骤4.2.9-4.2.11;假设t时刻,状态si下的有效输出动作集Mi中第j个动作mij需要被剪除,则方法的缩减发育原理具体如下:
步骤4.2.9:动作剪除;首先将mij从Mi中剪除;
步骤4.2.10:取向性更新;Mi中动作mij被剪除后,对其剩余动作取向性进行如下更新:
且k≠j
步骤4.2.11:结构发育;对剪除动作mij后的Mi结构进行更新,对于k<j的动作各自排序不变,对于k>j的动作,依次向前移动:
mik→mi(k-1)
直至
将Mi空间由ni维降低为ni-1维:
ni=ni-1n′i=ni-1
n′i为发育后的Mi的维数,
ni=n′i
结构发育过程中,各动作取向性值、好奇心值、学习次数随动作更新;
步骤5:判断学习结束条件;为体现机器人的学习过程,在此设定轮次学习,学习结束条件为达到每轮学习设定的最大学习步数5000步以上,若满足条件,则学习结束,否则返回步骤2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811343671.2A CN109282818A (zh) | 2018-11-13 | 2018-11-13 | 具有发育机制的移动机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811343671.2A CN109282818A (zh) | 2018-11-13 | 2018-11-13 | 具有发育机制的移动机器人路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109282818A true CN109282818A (zh) | 2019-01-29 |
Family
ID=65175509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811343671.2A Pending CN109282818A (zh) | 2018-11-13 | 2018-11-13 | 具有发育机制的移动机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109282818A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113156940A (zh) * | 2021-03-03 | 2021-07-23 | 河北工业职业技术学院 | 基于好奇心-贪婪奖励函数的机器人路径规划的方法 |
CN114186112A (zh) * | 2021-11-27 | 2022-03-15 | 北京工业大学 | 一种基于贝叶斯优化多重信息增益探索策略的机器人导航方法 |
-
2018
- 2018-11-13 CN CN201811343671.2A patent/CN109282818A/zh active Pending
Non-Patent Citations (1)
Title |
---|
张晓平: ""基于操作条件反射的机器人感知行动认知模型研究"", 《国家工程技术数字图书馆》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113156940A (zh) * | 2021-03-03 | 2021-07-23 | 河北工业职业技术学院 | 基于好奇心-贪婪奖励函数的机器人路径规划的方法 |
CN114186112A (zh) * | 2021-11-27 | 2022-03-15 | 北京工业大学 | 一种基于贝叶斯优化多重信息增益探索策略的机器人导航方法 |
CN114186112B (zh) * | 2021-11-27 | 2024-05-28 | 北京工业大学 | 一种基于贝叶斯优化多重信息增益探索策略的机器人导航方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bouton et al. | Belief state planning for autonomously navigating urban intersections | |
CN110083165A (zh) | 一种机器人在复杂狭窄环境下路径规划方法 | |
CN104571113B (zh) | 移动机器人的路径规划方法 | |
Konar et al. | A deterministic improved Q-learning for path planning of a mobile robot | |
CN108873687A (zh) | 一种基于深度q学习的智能水下机器人行为体系结规划方法 | |
CN108762281A (zh) | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 | |
Kato et al. | Autonomous robot navigation system with learning based on deep Q-network and topological maps | |
CN109483530A (zh) | 一种基于深度强化学习的足式机器人运动控制方法及系统 | |
CN109282818A (zh) | 具有发育机制的移动机器人路径规划方法 | |
CN105094124A (zh) | 基于操作条件反射进行自主路径探索的方法及模型 | |
CN111506063B (zh) | 一种基于分层强化学习框架的移动机器人无图导航方法 | |
WO2001078951A1 (en) | Semi-optimal path finding in a wholly unknown environment | |
Liu et al. | A hybrid control architecture for autonomous robotic fish | |
CN107168309A (zh) | 一种基于行为的多水下机器人路径规划方法 | |
CN110032189A (zh) | 一种不依赖地图的智能仓储移动机器人路径规划方法 | |
Wang et al. | Robot path planning based on improved ant colony algorithm | |
Matsuzaki et al. | Learning crowd-aware robot navigation from challenging environments via distributed deep reinforcement learning | |
Liang et al. | Hierarchical reinforcement learning with opponent modeling for distributed multi-agent cooperation | |
CN104570738A (zh) | 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法 | |
Yi et al. | Research on virtual path planning based on improved DQN | |
Lee et al. | Autonomous lane keeping based on approximate Q-learning | |
Ianenko et al. | Coverage path planning with proximal policy optimization in a grid-based environment | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Borngrund et al. | Autonomous Navigation of Wheel Loaders using Task Decomposition and Reinforcement Learning | |
Ren et al. | Research on Q-ELM algorithm in robot path planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190129 |
|
WD01 | Invention patent application deemed withdrawn after publication |