CN104570738B

CN104570738B - 基于Skinner操作条件反射自动机的机器人轨迹跟踪方法

Info

Publication number: CN104570738B
Application number: CN201410844504.1A
Authority: CN
Inventors: 阮晓钢; 李笑漪; 肖尧; 张晓锐; 刘冰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2017-09-08
Anticipated expiration: 2034-12-30
Also published as: CN104570738A

Abstract

本发明公开了一种基于Skinner操作条件反射自动机的机器人轨迹跟踪方法，涉及移动机器人轨迹跟踪领域，具体涉及一种基于Skinner操作条件反射自动机的机器人轨迹跟踪方法。本发明首先建立机器人的操作和状态集合，并建立相应的状态到操作的概率集合，并令其符合均匀分布；然后，随机选择一个操作，计算相应的位置变化，进而根据距离目标轨迹的距离计算取向函数，根据取向函数值按照操作条件反射理论调整动作概率分布，计算系统熵；当系统熵趋于最小值时，学习结束。此时概率矩阵为最优。本发明能够很好地模拟人及动物的操作条件反射行为，提高机器人智能水平，是其具备较强的自学习、自组织、自适应能力，自主条件参数，成功进行轨迹跟踪。

Description

基于Skinner操作条件反射自动机的机器人轨迹跟踪方法

技术领域

本发明涉及移动机器人轨迹跟踪领域，具体涉及一种基于Skinner(斯金纳)操作条件反射自动机的机器人轨迹跟踪方法。

背景技术

随着自主移动机器人技术的发展，自主移动机器人的应用领域越来越广泛。它可以取代人类到达许多人类无法到达或有危险的环境，如火灾、地震搜救机器人；还可以代替人类做一些服务类工作，如博物馆导游等。移动机器人的轨迹跟踪运动控制不但可直接用于跟踪目标、机器人编队等领域，而且，循迹追线是对环境信息的一种简化，有利于开发出更有效的算法应用于复杂环境下的自主移动机器人上。

经典控制方法和现代控制方法是常用的移动机器人轨迹跟踪控制方法，虽然应用地比较成熟，但其不能自主调整参数，对于同一算法运用在不同机器人、不同环境中需要人工调整参数。本发明所采用的Skinner操作条件反射自动机的轨迹跟踪方法来源于1938年美国著名心理学家斯金纳(B.F.Skinner)在其著作《The Behavior of Organisms:anexperimental analysis》中提出的操作条件反射(Operant Conditioning)的理论。通过刺激产生反应，反应影响刺激出现的概率，是斯金纳操作条件反射理论的核心。它体现了人或动物自学习能力，反映了智能体对环境的自适应性。如果能将斯金纳提出的操作条件反射原理应用于机器人轨迹跟踪方面，将会提高轨迹跟踪的智能化程度。

发明内容

本发明提出一种基于Skinner操作条件反射自动机的轨迹跟踪方法，对每个状态对应的操作赋予概率权值，权值的变化随抽样结果的反馈进行更新，从而使其抽样概率发生变化。本发明使机器人能够在没有导师信号的情况下，依靠环境对机器人的奖励与惩罚，建立操作条件反射，使机器人自主完成轨迹跟踪的学习。

基于Skinner操作条件反射自动机的机器人轨迹跟踪方法，其特征在于包括以下步骤：

步骤1：确定Skinner操作条件反射机的数学模型，SKCOA；

SKCOA自动机是离散的一个七元组，SKCOA＝＜S,A,f,δ,P,L,H＞，S为离散状态组合集合，A为自动机可选择动作操作集合，f为状态转移函数，δ是取向函数，P为每一状态下选择操作的概率集合，令初始概率分布为均匀分布，L为自动机的操作条件反射学习机制，H为自动机操作行为熵；

步骤2：确定SKCOA自动机可选择的操作集合A；

操作集合A＝{v_k,ω_j|k＝1,2,...,n_a1,j＝1,2,...,n_a2},v_k为机器人前进的速度，ω_j为机器人转过的角速度，n_a1,n_a2分别为速度和角速度的操作集大小，n_a＝n_a1*n_a2，n_a为操作集大小；

步骤3：获得机器人在t的时刻的状态集合S＝{e_i|i＝1,2,...,n_s}；

机器人t时刻在环境地图中的坐标位置，记作s_i|t＝(x_i,y_i,θ_i)；x_i,y_i分别为机器人t时刻所在的横纵坐标，θ_i为机器人与横轴夹角；期望轨迹坐标点为s_oi|t＝(x_oi,y_oi,θ_oi)，x_oi,y_oi分别为机器人期望轨迹在t时刻的横纵坐标，θ_oi为期望位姿与横轴夹角；机器人在t的时刻的状态集合为S₁＝{e_i|i＝1,2,...,n_s}＝s_oi-s_i＝(x_oi-x_i,y_oi-y_i,θ_oi-θ_i)，n_s为状态集合大小；将坐标转换为以机器人为坐标原点的坐标系中，S＝T·S₁，T为旋转矩阵；

步骤4：根据概率集合，从动作集中选择一组动作，即选择前行的速度v_k和角速度ω_k；

步骤5：计算状态转移，方法如下：

式中，x_n、y_n、θ_n分别代表动作选择后机器人新的横纵坐标以及机器人的朝向角度，x_o、y_o、θ_o分别代表动作选择前机器人新的横纵坐标以及机器人的朝向角度，t_s为机器人传感器的采样时间；

步骤6：计算能量函数eng的值；

能量函数用于表示机器人当前位置与轨迹的距离关系，记作eng＝eng(S)＝{eng(S_i)|i＝1,2,...,n_s}∈R，距离越近，eng越小，反之，eng越大，方法如下：

步骤7：计算取向函数δ值；

取向函数δ＝δ(S,A)＝{δ_ik|i＝1,2,...,n_s；k＝1,2,...,n_a}，模拟了自然界中生物的取向性，方法如下：

δ_ik＝eng(S_i)-eng(S_i+1) （3）

其中δ_ik表示s_i∈S执行动作(v_k,ω_k)∈A后系统性能的变化；δ＜0时，为负取向，说明系统性能趋向变差；δ＝0时，为零取向，说明系统性能趋向不变；δ＞0时，为正取向，说明系统性能趋向变好；

步骤8：根据Skinner操作条件反射原理调整动作集概率分布P；

动作集概率分布的规则为：正强化时，动作概率增加；负强化时，动作概率减少；设t时刻状态s_m，选择操作a_k执行，通过状态转移到s_n；

当δ＞0时，

当δ＜0时，

式中，η₁＞0,η₂＞0；α₁(t),α₂(t)为学习速率函数，0＜α₁(t)＜1,0＜α₂(t)＜1；p_mk(t)为t时刻机器人在状态s_m下选择动作a_k的概率；p_mk'(t)为t时刻机器人在状态s_m下选择动作除a_k外的其他操作的概率；

步骤9：计算t时刻系统熵；

式中，p_ik(t)为机器人在状态s_i下选择动作a_k的概率；

步骤10：判断熵是否趋于最小值H_min，如果是，标志着系统已达到自组织，机器人已形成操作条件反射习得最优动作，则本次学习结束，转到测试阶段；否则，转步骤2；

步骤11：测试阶段，载入期望轨迹和速度；

步骤12：在保持概率矩阵P不变，根据概率从操作集中选择操作执行，按照状态转移公式计算新的状态，循环往复；

步骤13：判断机器人当前位置是否为终点，如果是，则结束，否则，转步骤11，继续测试阶段。

附图说明

图1本发明学习阶段流程图；

图2本发明测试阶段流程图；

图3机器人简化示意图；

图4学习阶段机器人轨迹仿真图；

图5测试阶段机器人轨迹仿真图。

具体实施方式

下面结合附图作进一步说明。

本发明所述方法的流程图如附图所示，包含以下几个步骤。

步骤1：初始化。令机器人状态集合S＝{e_i|i＝1,2,...,n_s}，区间划分如表1，e_i(1)、e_i(2)分别划分了5个区间，一共25个；操作集合A＝{v_k,ω_j|k＝1,2,...,n_a1,j＝1,2,...,n_a2}速度和角速度区间划分如表2，这里保持速度不变，角速度划分了5个区间。令机器人从起点出发，选择起点坐标为机器人当前状态。令初始概率集合P为均匀分布。

表1状态集合区间划分

表2操作集合区间划分

步骤2：机器人当前时刻的坐标位置，记作s_i|t＝(x_i,y_i,θ_i)。期望轨迹坐标点为s_oi|t ＝ (x_oi,y_oi, θ_oi) 。计算当前状态S＝{e_i|i＝1,2,...,n_s}＝s_oi-s_i＝(x_oi-x_i,y_oi-y_i,θ_oi-θ_i)，依照表1，记录对应状态区间序号。

步骤3：这里设前行的速度v_k保持不变，为0.1m/s，根据概率集合，从表2划分的操作集中选择一组动作，即选择角速度ω_j；

步骤4：按照公式(1)计算按照速度为0.1m/s和选择的角速度ω_j执行后的位置。

步骤5：按照公式(2)计算当前时刻能量函数eng的值；

步骤6：按照公式(3)计算取向函数δ值；

步骤7：按照公式(4)调整动作集概率分布P；

步骤8：按照公式(5)计算当前时刻系统熵；

步骤9：判断熵是否趋于最小值H_min，如果是，标志着系统已达到自组织，机器人已形成操作条件反射习得最优动作，则本次学习结束，转到测试阶段；否则，转步骤2；

步骤10，测试阶段。载入期望轨迹和速度。

步骤11，在保持习得概率矩阵P不变，根据概率从操作集中选择操作执行，按照状态转移公式(1)计算新的状态，循环往复。

步骤12，判断机器人当前位置是否为终点，如果是，则结束，否则，转步骤10，继续测试阶段。

下面给出应用本发明进行轨迹跟踪的仿真实验。

仿真实验在MATLAB仿真软件中进行。机器人行走机构采用双轮差动式运动底盘，在机器人左右两侧安装有轮w_L和w_R，由直流电机驱动，前部有一个起支撑作用的万向轮w_F。该机器人的机械结构简化示意图如图3。

环境为20m×20m大小的空间，追踪目标点初始位置为(-5,0)，机器人初始位置随机给定，目标点和机器人速度都为0.5m/s。学习阶段如图4所示，粗线为目标点位置，细线为机器人轨迹。为了让每个状态下的学习更充分，目标点随机移动，在此次试验中，目标点位置在(-5,0)附近运动，如图4，机器人初始位置在(7，-3.5)左右。测试阶段如图5，目标点运动轨迹为半径为5m的圆，粗线为目标点运动轨迹，细线为机器人运动轨迹。从中可以看出，本发明中所述方法可以完成机器人的轨迹跟踪。

Claims

1.基于Skinner操作条件反射自动机的机器人轨迹跟踪方法，其特征在于包括以下步骤：

步骤1：确定Skinner操作条件反射机的数学模型，SKCOA；

步骤2：确定SKCOA自动机可选择的操作集合A；

操作集合A＝{v_k,ω_j|k＝1,2,...,n_a1,j＝1,2,...,n_a2},v_k为机器人前进的速度，ω_j为机器人转过的角速度，n_a1,n_a2分别为速度和角速度的操作集大小；

机器人t时刻在环境地图中的坐标位置，记作s_i|t＝(x_i,y_i,θ_i)；x_i,y_i分别为机器人t时刻所在的横纵坐标，θ_i为机器人与横轴夹角；期望轨迹坐标点为s_oi|t＝(x_oi,y_oi,θ_oi)；x_oi,y_oi分别为机器人期望轨迹在t时刻的横纵坐标，θ_oi为期望位姿与横轴夹角；机器人在t的时刻的状态集合为S₁＝{e_i|i＝1,2,...,n_s}＝s_oi-s_i＝(x_oi-x_i,y_oi-y_i,θ_oi-θ_i)，n_s为状态集合大小；

步骤5：计算状态转移，方法如下：

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>=</mo> <msub> <mi>x</mi> <mi>o</mi> </msub> <mo>+</mo> <msub> <mi>v</mi> <mi>k</mi> </msub> <mo>*</mo> <msub> <mi>t</mi> <mi>s</mi> </msub> <mo>*</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <msub> <mi>&theta;</mi> <mi>n</mi> </msub> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>=</mo> <msub> <mi>y</mi> <mi>o</mi> </msub> <mo>+</mo> <msub> <mi>v</mi> <mi>k</mi> </msub> <mo>*</mo> <msub> <mi>t</mi> <mi>s</mi> </msub> <mo>*</mo> <msub> <mi>sin&theta;</mi> <mi>n</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&theta;</mi> <mi>n</mi> </msub> <mo>=</mo> <msub> <mi>&theta;</mi> <mi>o</mi> </msub> <mo>+</mo> <msub> <mi>&omega;</mi> <mi>k</mi> </msub> <mo>*</mo> <msub> <mi>t</mi> <mi>s</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>

步骤6：计算能量函数eng的值；

eng(S_i)＝e_i ²

步骤7：计算取向函数δ值；

δ_ik＝eng(S_i)-eng(S_i+1)

步骤8：根据Skinner操作条件反射原理调整动作集概率分布P；

当δ＞0时，

<mrow> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msub> <mi>&eta;</mi> <mn>1</mn> </msub> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>;</mo> </mrow>

当δ＜0时，

<mrow> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msub> <mi>&eta;</mi> <mn>2</mn> </msub> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>;</mo> </mrow>

式中，η₁,η₂为学习效率,且η₁＞0,η₂＞0；α₁(t),α₂(t)为学习速率函数，且0＜α₁(t)＜1,0＜α₂(t)＜1；p_mk(t)为t时刻机器人在状态s_m下选择动作a_k的概率；p_mk'(t)为t时刻机器人在状态s_m下选择动作除a_k外的其他操作的概率；

步骤9：计算t时刻系统熵；

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>a</mi> </msub> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

式中，p_ik(t)为机器人在状态s_i下选择动作a_k的概率；

步骤11：测试阶段，载入期望轨迹和速度；