CN103792846B - 基于Skinner操作条件反射原理的机器人避障导航方法 - Google Patents

基于Skinner操作条件反射原理的机器人避障导航方法 Download PDF

Info

Publication number
CN103792846B
CN103792846B CN201410055115.0A CN201410055115A CN103792846B CN 103792846 B CN103792846 B CN 103792846B CN 201410055115 A CN201410055115 A CN 201410055115A CN 103792846 B CN103792846 B CN 103792846B
Authority
CN
China
Prior art keywords
robot
negative
ideality
action
delta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410055115.0A
Other languages
English (en)
Other versions
CN103792846A (zh
Inventor
阮晓钢
黄静
于乃功
魏若岩
薛坤
张晓平
范青武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410055115.0A priority Critical patent/CN103792846B/zh
Publication of CN103792846A publication Critical patent/CN103792846A/zh
Application granted granted Critical
Publication of CN103792846B publication Critical patent/CN103792846B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及了一种基于Skinner操作条件反射原理的机器人避障导航方法。首先,建立机器人的动作集合概率,并令其符合均匀分布;然后,随机选择一个动作,计算相应的位置变化,进而根据与障碍及目标点距离计算出新位置对应的负理想度,并由此得出取向函数值,根据取向函数值按照操作条件反射理论调整动作概率分布,计算系统熵;当系统熵趋于最小值时,选择概率最大动作所指角度前行;重复学习过程,直至抵达目的地。本发明能够很好地模拟人及动物的操作条件反射行为,提高机器人的智能水平,使其具备较强的自学习、自组织、自适应能力,能够在无导师信号的情况下自主探索环境,成功避障导航。

Description

基于Skinner操作条件反射原理的机器人避障导航方法
技术领域
本发明涉及移动机器人避障导航领域,具体涉及一种基于Skinner(斯金纳)操作条件反射原理的机器人避障导航方法。
技术背景
近年来,避障导航已成为智能机器人领域的研究热点。避障导航的目的在于使机器人能够穿越环境地图中的各种障碍,安全、无碰撞的从起点到达终点。传统的避障导航方法根据工作环境提供信息程度不同,可分为全局信息已知类,全局信息未知类及部分未知类。在信息未知类导航中,机器人需要使用自身的感知系统检测所处的外界环境,从而得到障碍物的方位、距离等位置信息,最后,通过一定的算法得出一条无障碍路径。因此,信息未知类导航对智能化程度具有很高的要求。
常用的导航方法包括可视图法、自由空间法、最优控制法、拓扑法及栅格法等。针对未知环境的导航问题,人工势场法、模糊逻辑算法、神经网络算法及遗传算法等也常引入进行研究。申请号CN201110218625.1的发明专利公开了一种室内移动机器人自主导航避障系统及方法,该项发明采用采用分段极大似然质心算法对机器人定位,建立三维环境地图和栅格地图,构造路径网格,基于膨胀算法和Dijkstra算法规划全局路径,实现智能避障;申请号为CN201110210600.7的专利公开了一种基于模糊神经网络的智能轮椅避障方法,该项发明根据设定的模糊神经网络控制规则,规划轮椅的轮速和转角信息,完成轮椅的动态避障,以一定的方法将这些互补或冗余的传感器信息进行融合,由此实现智能轮椅的避障。它们存在的共同问题是:需要提供专家信息,机器人的智能化程度不高,无法自主地探索未知环境完成避障导航任务。
1938年,美国著名心理学家斯金纳(B.F.Skinner)在其著作《TheBehaviorofOrganisms:anexperimentalanalysis》中首次提出了操作条件反射(OperantConditioning)的概念,并由此创立了操作条件反射理论。斯金纳借鉴了巴甫洛夫的“强化”(reinforcement)概念,并把这一概念的内涵进行了革新。他把“强化”分为正强化(positivereinforcement)和负强化(negativereinforcement)两种,正强化促使有机体对刺激的反应概率增加,而负强化则促使有机体消除该刺激的反应增加。刺激产生反应,反应影响刺激出现的概率,这正是斯金纳操作条件反射理论的核心,它体现了人或动物自学习的能力,反映了智能体对环境的自适应性。如果能将Skinner提出的操作条件反射原理应用于机器人避障导航,将会有效提高导航的智能化程度。
发明内容
针对现有技术中存在的机器人避障导航智能化程度不高等问题,本发明提出了一种基于Skinner操作条件反射原理的机器人避障导航方法,使机器人能够在没有导师信号的情况下,以“learning-by-doing”的试错式方式与环境交互,建立操作条件反射,完成避障及导航。
一种基于Skinner操作条件反射原理的机器人避障导航方法,包括以下步骤:
步骤1,获得机器人在时刻t的状态及动作集合。
在时刻t获得机器人在环境地图中的坐标位置,记作si|t=(xi,yi),以及可能的前进方向(角度),记作A={ak|k=1,2,…,na},na为动作集大小,以此作为机器人在时刻t的状态及动作集合。令动作集的初始概率分布为均匀分布。
步骤2,从动作集中随机选择一动作,即拟选择前行的角度ak
步骤3,计算状态转移,公式如下:
x new = x old + v * t s * cos θ k y new = y old + v * t s * sin θ k - - - ( 1 )
式中,xnew、ynew分别代表动作选择后机器人新的横、纵坐标,类似的,xold、yold分别代表选择前机器人的横、纵坐标;v为机器人移动速度,ts为机器人传感器采样时间,θk表示机器人表示第k个感知器在以机器人圆心(机器人为圆形)为极点、前进方向为极轴建立的坐标系中所处位置的弧度值。
步骤4,计算状态转移前后的负理想度差值。
“负理想度”是本发明中为计算取向函数进而反映所感知到的刺激是否为正强化而设立的概念,记作ε=ε(S)={ε(si)|i=1,2,…,ns}∈R,ns为机器人状态集大小,用来表征状态si远离理想状态的程度,数值越大,则状态si相对设定目标越不理想。负理想度的计算公式为:
ϵ ( s i ) = w i d goal + w 2 * exp ( - min ( d 1 , d 2 , · · · , d n o ) ) , min ( d 1 , d 2 , · · · , d n o ) > r punishment + w 1 d goal + w 2 * exp ( - min ( d 1 , d 2 , · · · , d n o ) ) , otherwise - - - ( 2 )
式中,dgoal表示机器人在该状态(位置)与目的地的距离;函数dk为机器人与第k个障碍的距离值,k=1,2,...,no,no为环境中障碍物数量;r为机器人半径;w1、w2为权值系数,w1,w2>0,其中w1用来设定机器人与目标距离在负理想度计算中所占据的比重,w2则用来设定机器人与障碍距离在负理想度计算中所占据的比重,可以通过调整这两个参数来控制算法是更倾向于避障抑或导航;punishment为一个较大正常数。负理想度计算公式的含义是:当机器人与周边障碍没有发生碰撞时,则负理想度随机器人与目的地距离单调递增,且随与障碍的距离单调递减;一旦发生碰撞,则负理想度在此基础上增加一个较大正常数,该常数等于punishment,通常取punishment>10000。
当机器人的状态(位置)由si转移到sj时,负理想度发生变化,变化量为:Δεij=εji
步骤5,计算取向函数δ值。
取向函数δ=δ(S,A)={δik|i=1,2,…,ns;k=1,2,…,na},模拟了自然界中生物的取向性,其中,δik表示状态si∈S执行动作ak∈A后系统性能的变化。和生物取向性概念一致,δ>0时,为正取向,说明系统性能趋向变好;δ<0时,为负取向,说明系统性能趋向变差;δ=0时,为零取向,说明系统性能没有变化。
取向函数δ的计算公式为:
&delta; ik = &delta; ( &Delta; &epsiv; ij ) exp ( 1 / &Delta;&epsiv; ij ) , &Delta;&epsiv; ij < 0 = 0 , &Delta;&epsiv; ij = 0 - exp ( - 1 / &Delta;&epsiv; ij ) , &Delta;&epsiv; ij > 0 - - - ( 3 )
式中,Δεij=ε(sj)-ε(si),取向函数δ为定义区间上的单调递减函数,其绝对值随Δεij绝对值单调递增。当Δεij>0时,负理想度增大,系统性能趋向变差,因而取向函数δ<0,且Δεij越大,取向函数δ越小;反之,当Δεij<0时,负理想度变小,系统性能趋向变好,因而取向函数δ>0,且Δεij越大,取向函数δ越小;当Δεij=0时,负理想度不变,系统性能趋向也不变化,因而取向函数δ=0。
步骤6,根据Skinner操作条件反射理论调整动作集概率分布。
动作集概率分布的调整规则为:正强化时,动作概率增加;负强化时,动作概率减少。
设t时刻状态sm选择动作ak执行,感知到来自环境的刺激记为θ,同时状态转移到sn
①若θ为正强化(δmk>0),则:
当a(t)=ak时:
p mk ( t + 1 ) = p mk ( t ) + 1 - p mk ( t ) 1 + exp ( - &eta; 1 &delta; mk &CenterDot; t ) - - - ( 4 )
反之:
p m k &prime; ( t + 1 ) = p m k &prime; ( t ) - 1 - p mk ( t ) 1 + exp ( - &eta; 1 &delta; mk &CenterDot; t ) &CenterDot; 1 n a - 1 - - - ( 5 )
②若θ为负强化(δmk<0),则:
当a(t)=ak时:
p mk ( t + 1 ) = p mk ( t ) - p mk ( t ) 1 + exp ( &eta; 2 &delta; mk &CenterDot; t ) - - - ( 6 )
反之:
p m k &prime; ( t + 1 ) = p m k &prime; ( t ) - p mk ( t ) 1 + exp ( &eta; 2 &delta; mk &CenterDot; t ) &CenterDot; 1 n a - 1 - - - ( 7 )
③若θ为非强化刺激(δmk=0),则概率保持不变,即:
p mk ( t + 1 ) = p mk ( t ) , a = ( t ) p m k &prime; ( t + 1 ) = p mk &prime; ( t ) , a &NotEqual; ( t ) - - - ( 8 )
式中pmk(t)表示t时刻状态sm选择动作ak执行的概率。η1、η2为学习速率,且η12>0。
步骤7,计算t时刻系统熵。
本发明采用系统熵H(t)描述系统自组织程度,进而说明模型的自适应性。计算公式为:
H ( t ) = - &Sigma; i = 1 n s p ( s i ) &Sigma; k = 1 n a p ( a k | s i ) lo g 2 p ( a k | s i ) - - - ( 9 )
式中,p(si)为机器人处于状态si的概率,p(ak|si)为机器人在状态si下选择动作ak的概率。
步骤8,判断系统熵是否已趋于最小值Hmin,如果是,标志着系统已达到自组织,机器人已形成操作条件反射习得最优动作,则停止本次学习,转下一步;否则,转步骤2。
步骤9,从动作集中选择概率最大的动作执行(真实执行该动作),按公式(1)计算的状态移动机器人,记新状态为机器人当前状态,令各动作概率均匀分布。
步骤10,判断机器人当前位置是否为终点,如果是,则结束;否则,转步骤2,进入下一轮学习。
与现有技术相比,本发明具有以下优点:很好地模拟了人及动物的操作条件反射行为,提高了机器人的智能水平,使其具备较强的自学习、自组织、自适应能力,能够在无导师信号的情况下自主探索环境,成功避障导航。本发明简单易行,效果良好,具有较高的工程应用价值。
附图说明
图1为本发明所涉及的方法流程图;
图2为实施例选用的“轮式圆形机器人”的结构俯视图;
图3为实施例的第1种环境地图及导航轨迹图;
图4为实施例的第2种环境地图及导航轨迹图;
图5为实施例的第3种环境地图及导航轨迹图;
图6为一次学习过程中熵的变化曲线。
具体实施方式
下面结合附图和具体实施方式作进一步说明。
本发明所述方法的流程图如图1所示,包括以下步骤:
步骤1,令机器人从起始点出发,选择起始点坐标为机器人的当前状态,令机器人的动作集合为A={ak|k=1,2,…,na},即从1~na个传感器分布位置中选择相应角度前进,初始化动作概率分布为均匀分布。
步骤2,从动作集中随机选择一个动作,记为ak
步骤3,按公式(1)计算执行ak后机器人的位置。
步骤4,按公式(2)计算出负理想度差值Δεij=εji,这里取w1=5,w2=1,punishment=100000。
步骤5,根据Δεij按公式(3)计算出取向函数值δik=δ(Δεij)。
步骤6,根据δik按公式(4)~(8)调整机器人动作集概率分布,并按公式(9)计算系统熵H(t)。这里取η1=η2=10
步骤7,判断H(t)是否已趋于最小值Hmin,如果是,则标志着机器人已习得最优动作,结束本轮学习,转向步骤8;如果不是,则转向步骤2,继续学习。
步骤8,选择概率最大的动作执行(真实执行该动作),即选择该动作对应的角度前行。
步骤9,按公式(1)计算机器人新的位置,并标记为当前位置,初始化动作概率分布为均匀分布。
步骤10,判断是否已抵达终点,如果是,则结束程序运行;否则,转向步骤2。
下面给出应用本发明进行机器人导航的实例。
不失一般性,选择一个带有6个测距传感器的轮式圆形机器人,该机器人半径为0.2m,周围均匀分布了6个测距传感器,可通过发射和接受超声波测定前方障碍物距离,其有效测量距离为15cm-10m(覆盖仿真实验环境);行走机构采用双轮差动式运动底盘,在机器人左右两侧安装有轮wL和wR,由直流伺服电机驱动,尾部有一个起支撑作用的万向轮wF。该机器人机械结构简化示意图如图2所示(图中深色编号圆圈表示测距传感器)。
为充分展示本方法的避障导航效果,选择三种不同的环境地图进行实施。环境1为一个8m×8m大小的空间,从出发点到目的地沿途设置了10个障碍,如图3所示。环境2缩小了空间大小,使障碍相对更加密集,同时改变了目的地位置,使其位于环境地图的一角,如图4所示。环境3保持环境2空间大小及目的地位置不变,但障碍位置不再固定,而是随机给出,如图5所示。
3种环境的导航轨迹分别如图3~5所示。从图3~5可以看出,在不同的环境中,即使改变环境大小、障碍位置、目的地位置等,本发明所述方法控制的机器人仍然能够在没有导师信号的情况下成功的穿越障碍到达目的地,从而证明了本发明的有效性及实用性。
图6为一轮学习中系统熵的变化情况。从此图中可以看出,系统经近30次学习之后达到收敛,系统熵收敛至0,说明机器人已习得最优动作,建立起操作条件反射,同时系统自组织程度也达到最大。避障导航的过程就是机器人自学习、自组织、自适应的过程。在这个过程中,自学习是手段,自组织是表现,自适应才是目的。

Claims (4)

1.一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于将Skinner操作条件反射原理应用于机器人避障导航;所述方法包括以下步骤:
步骤1,获得机器人在时刻t的状态及动作集合;
在时刻t获得机器人在环境地图中的坐标位置,记作si|t=(xi,yi),以及可能的前进方向用角度表示;动作集合记作A={ak|k=1,2,…,na},ak为前进的角度,na为动作集大小;令动作集的初始概率分布为均匀分布;
步骤2,从动作集中随机选择一动作,即拟选择前行的角度ak
步骤3,计算状态转移,公式如下:
x n e w = x o l d + v * t s * cos&theta; k y n e w = y o l d + v * t s * sin&theta; k - - - ( 1 )
式中,xnew、ynew分别代表动作选择后机器人新的横、纵坐标,xold、yold分别代表选择前机器人的横、纵坐标;v为机器人移动速度,ts为机器人传感器采样时间,θk表示机器人第k个感知器在以机器人圆心为极点、前进方向为极轴建立的坐标系中所处位置的弧度值;
步骤4,计算状态转移前后的负理想度差值;
负理想度用于计算取向函数进而反映所感知到的刺激是否为正强化,记作ε=ε(S)={ε(si)|i=1,2,…,ns}∈R,ns为机器人状态集大小,用来表征状态si远离理想状态的程度,数值越大,则状态si相对设定目标越不理想;
步骤5,计算取向函数δ值;
取向函数δ=δ(S,A)={δik|i=1,2,…,ns;k=1,2,…,na},模拟了自然界中生物的取向性,其中,δik表示状态si∈S执行动作ak∈A后系统性能的变化;和生物取向性概念一致,δ>0时,为正取向,说明系统性能趋向变好;δ<0时,为负取向,说明系统性能趋向变差;δ=0时,为零取向,说明系统性能没有变化;
步骤6,根据Skinner操作条件反射理论调整动作集概率分布;
动作集概率分布的调整规则为:正强化时,动作概率增加;负强化时,动作概率减少;
步骤7,计算t时刻系统熵;
系统熵H(t)用来描述系统自组织程度,进而说明模型的自适应性;计算公式为:
H ( t ) = - &Sigma; k = 1 n a p ( s i ) &Sigma; k = 1 n a p ( a k | s i ) log 2 p ( a k | s i )
式中,p(si)为机器人处于状态si的概率,p(ak|si)为机器人在状态si下选择动作ak的概率;
步骤8,判断系统熵是否已趋于最小值Hmin,如果是,标志着系统已达到自组织,机器人已形成操作条件反射习得最优动作,则停止本次学习,转下一步;否则,转步骤2;
步骤9,从动作集中选择概率最大的动作执行,按公式(1)计算的状态移动机器人,记新状态为机器人当前状态,令各动作概率均匀分布;
步骤10,判断机器人当前位置是否为终点,如果是,则结束;否则,转步骤2,进入下一轮学习。
2.根据权利要求1所述的一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于,所述步骤4负理想度的计算公式为:
&epsiv; ( s i ) = w 1 d g o a l + w 2 * exp ( - m i n ( d 1 , d 2 , ... , d n o ) ) , m i n ( d 1 , d 2 , ... , d n o ) > r p u n i s h m e n t + w 1 d g o a l + w 2 * exp ( - m i n ( d 1 , d 2 , ... , d n o ) ) , o t h e r w i s e
式中,dgoal表示机器人在该状态与目的地的距离;函数dk为机器人与第k个障碍的距离值,k=1,2,...,no,no为环境中障碍物数量;r为机器人半径;w1、w2为权值系数,w1,w2>0,其中w1用来设定机器人与目标距离在负理想度计算中所占据的比重,w2则用来设定机器人与障碍距离在负理想度计算中所占据的比重,可以通过调整这两个参数来控制算法是更倾向于避障抑或导航;punishment为一个正常数;负理想度计算公式的含义是:当机器人与周边障碍没有发生碰撞时,则负理想度随机器人与目的地距离单调递增,随与障碍的距离单调递减;一旦发生碰撞,则负理想度在此基础上增加一个正常数punishment,取punishment>10000;
当机器人的状态由si转移到sj时,负理想度发生变化,变化量为:Δεij=εji
3.根据权利要求1所述的一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于,所述步骤5取向函数δ的计算公式为:
&delta; i k = &delta; ( &Delta;&epsiv; i j ) exp ( 1 / &Delta;&epsiv; i j ) , &Delta;&epsiv; i j < 0 = 0 , &Delta;&epsiv; i j = 0 - exp ( - 1 / &Delta;&epsiv; i j ) , &Delta;&epsiv; i j > 0
式中,Δεij=ε(sj)-ε(si),取向函数δ为定义区间上的单调递减函数,其绝对值随Δεij的绝对值单调递增;当Δεij>0时,负理想度增大,系统性能趋向变差,因而取向函数δ<0,且Δεij越大,取向函数δ越小;反之,当Δεij<0时,负理想度变小,系统性能趋向变好,因而取向函数δ>0,且Δεij越大,取向函数δ越小;当Δεij=0时,负理想度不变,系统性能趋向也不变化,因而取向函数δ=0。
4.根据权利要求1所述的一种基于Skinner操作条件反射原理的机器人避障导航方法,其特征在于,所述步骤6根据Skinner操作条件反射理论调整动作集概率分布的方法包括以下步骤:
设t时刻状态sm选择动作ak执行,感知到来自环境的刺激记为θ,同时状态转移到sn
①若θ为正强化,即δmk>0,则:
当a(t)=ak时:
p m k ( t + 1 ) = p m k ( t ) + 1 - p m k ( t ) 1 + exp ( - &eta; 1 &delta; m k &CenterDot; t )
反之:
p mk &prime; ( t + 1 ) = p mk &prime; ( t ) - 1 - p m k ( t ) 1 + exp ( - &eta; 1 &delta; m k &CenterDot; t ) &CenterDot; 1 n a - 1
②若θ为负强化,即δmk<0,则:
当a(t)=ak时:
p m k ( t + 1 ) = p m k ( t ) - p m k ( t ) 1 + exp ( &eta; 2 &delta; m k &CenterDot; t )
反之:
p mk &prime; ( t + 1 ) = p mk &prime; ( t ) + p m k ( t ) 1 + exp ( &eta; 2 &delta; m k &CenterDot; t ) &CenterDot; 1 n a - 1
③若θ为非强化刺激,即δmk=0,则概率保持不变,即:
p m k ( t + 1 ) = p m k ( t ) , a ( t ) = a k p mk &prime; ( t + 1 ) = p mk &prime; ( t ) , a ( t ) &NotEqual; a k
式中,pmk(t)表示t时刻状态sm选择动作ak执行的概率;η1、η2为学习速率,且η12>0。
CN201410055115.0A 2014-02-18 2014-02-18 基于Skinner操作条件反射原理的机器人避障导航方法 Expired - Fee Related CN103792846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410055115.0A CN103792846B (zh) 2014-02-18 2014-02-18 基于Skinner操作条件反射原理的机器人避障导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410055115.0A CN103792846B (zh) 2014-02-18 2014-02-18 基于Skinner操作条件反射原理的机器人避障导航方法

Publications (2)

Publication Number Publication Date
CN103792846A CN103792846A (zh) 2014-05-14
CN103792846B true CN103792846B (zh) 2016-05-18

Family

ID=50668640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410055115.0A Expired - Fee Related CN103792846B (zh) 2014-02-18 2014-02-18 基于Skinner操作条件反射原理的机器人避障导航方法

Country Status (1)

Country Link
CN (1) CN103792846B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104570738B (zh) * 2014-12-30 2017-09-08 北京工业大学 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
CN105487544B (zh) * 2016-01-18 2018-10-16 沈阳工业大学 基于模糊推理系统的多机器人角度控制围捕方法
CN107479547B (zh) * 2017-08-11 2020-11-24 同济大学 基于示教学习的决策树行为决策算法
US11288509B2 (en) * 2019-11-12 2022-03-29 Toyota Research Institute, Inc. Fall detection and assistance
CN111836199B (zh) * 2020-06-01 2021-06-29 同济大学 一种室内导航动态避障寻径方法
CN112141098B (zh) * 2020-09-30 2022-01-25 上海汽车集团股份有限公司 一种智能驾驶汽车避障决策方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599137A (zh) * 2009-07-15 2009-12-09 北京工业大学 自治操作条件反射自动机及在实现智能行为中的应用
CN101673354A (zh) * 2009-06-12 2010-03-17 北京工业大学 操作条件反射自动机及其在仿生自主学习控制中的应用
CN103026973A (zh) * 2012-11-30 2013-04-10 中国航天员科研训练中心 奖赏性操作条件反射实时检测分析处理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673354A (zh) * 2009-06-12 2010-03-17 北京工业大学 操作条件反射自动机及其在仿生自主学习控制中的应用
CN101599137A (zh) * 2009-07-15 2009-12-09 北京工业大学 自治操作条件反射自动机及在实现智能行为中的应用
CN103026973A (zh) * 2012-11-30 2013-04-10 中国航天员科研训练中心 奖赏性操作条件反射实时检测分析处理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Skinner操作条件反射的一种仿生学习算法与机器人控制;任红格 等;《机器人》;20100131;第32卷(第1期);第132-137页 *
The skinner automaton: A psychological model formalizing;RUAN XiaoGang 等;《SCIENCE CHINA-Technological Sciences》;20131130;第56卷(第11期);第2745–2761页 *
基于Skinner操作条件反射的两轮机器人自平衡控制;任红格 等;《控制理论与应用》;20101031;第27卷(第10期);第1423-1428页 *

Also Published As

Publication number Publication date
CN103792846A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN103792846B (zh) 基于Skinner操作条件反射原理的机器人避障导航方法
Li et al. An algorithm for safe navigation of mobile robots by a sensor network in dynamic cluttered industrial environments
CN109318890A (zh) 一种基于动态窗口及障碍物势能场的无人车动态避障方法
Wen et al. The Q-learning obstacle avoidance algorithm based on EKF-SLAM for NAO autonomous walking under unknown environments
Xiang et al. Continuous control with deep reinforcement learning for mobile robot navigation
Luo et al. Sensor-based autonomous robot navigation under unknown environments with grid map representation
Kazem et al. Modified vector field histogram with a neural network learning model for mobile robot path planning and obstacle avoidance.
kumar Panigrahi et al. Navigation of autonomous mobile robot using different activation functions of wavelet neural network
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
Parhi et al. Navigational path analysis of mobile robots using an adaptive neuro-fuzzy inference system controller in a dynamic environment
Ghosh et al. Performance comparison of novel WNN approach with RBFNN in navigation of autonomous mobile robotic agent
Kuo Development of a fuzzy logic wall following controller for steering mobile robots
CN104570738B (zh) 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法
Short et al. Abio-inspiredalgorithminimage-based pathplanning and localization using visual features and maps
Zhang et al. A hierarchical design for shared-control wheelchair navigation in dynamic environments
Baranzadeh A decentralized control algorithm for target search by a multi-robot team
Chow et al. Learning human navigational skill for smart wheelchair in a static cluttered route
Zhang et al. A Novel Dynamic Path Re-Planning Algorithm With Heading Constraints for Human Following Robots
Atsuzawa et al. Robot navigation in outdoor environments using odometry and convolutional neural network
Dai et al. Autonomous navigation for wheeled mobile robots-a survey
Zhang et al. 2D map building and path planning based on LiDAR
Watthanawisuth et al. Design of mobile robot for real world application in path planning using ZigBee localization
Zarei et al. Experimental study on optimal motion planning of wheeled mobile robot using convex optimization and receding horizon concept
Jha Intelligent Control and Path Planning of Multiple Mobile Robots Using Hybrid Ai Techniques
Huang et al. Navigation of mobile robot in unknown environment based on TS neuro-fuzzy system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160518

CF01 Termination of patent right due to non-payment of annual fee