CN109445440B

CN109445440B - 基于传感器融合与改进q学习算法的动态避障方法

Info

Publication number: CN109445440B
Application number: CN201811529430.7A
Authority: CN
Inventors: 张毅; 魏新; 周详宇; 李晋宏
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2022-03-22
Anticipated expiration: 2038-12-13
Also published as: CN109445440A

Abstract

本发明请求保护一种基于传感器融合与改进Q学习算法的动态避障方法，包含步骤：S1:设置机器人运动时与障碍物的安全距离、目的坐标位置信息和范围；S2:确定机器人当前的位姿，进行导航路径规划，并开始前进；S3:导航过程中，将声纳传感器检测到的环境数据和激光传感器检测到环境数据进行预处理与特征化，然后相融合得到环境数据；S4:根据融合后的环境数据判断当前机器人状态是否需要进行动态避障，如果需要则进入S5，不需要则进入S6；S5:利用改进Q学习动态避障算法，得到下一步的动作状态(a,θ)；S6:判断机器人是否到达目标点，如果没有则返回S2继续导航，如果已到达则结束导航。本发明方法有效地克服了单一传感器缺陷并有效地提升了动态环境中避障效率。

Description

基于传感器融合与改进Q学习算法的动态避障方法

技术领域

本发明属于机器人路径规划技术领域，涉及一种基于传感器融合与Q学习算法的移动机器人的动态避障方法。

背景技术

路径规划是自主移动机器人的关键要素之一，希望移动机器人能够尽量快速准确地到达目的地，同时也需要机器人能够安全有效的躲避环境中的障碍物。目前在静态环境下安全有效的躲避障碍物并准确地到达目的地已经有较多较好的解决方案。但是在环境中存在运动的障碍物时，并且障碍物的速度与位置时刻都在发生变化时，这就对移动机器人的导航过程的避障算法的实时性和准确性都比静态环境中的要求更高，如果继续使用静态环境中的算法来进行动态环境的导航与避障，那么极大可能会使得避障失败导致最终导航失败。

针对移动机器人的动态避障的研究主要是要对障碍物进行有效的检测和碰撞躲避控制算法设计，使机器人能够准确快速的完成导航任务。对于对障碍物的检测，需要利用机器人自身所带的测量传感器，对障碍物进行距离与位置的测量以及运动状态的判断。目前对于这类传感器的使用一般有声纳传感器、红外传感器、激光传感器、视觉传感器等。但是单独一种传感器往往有它的缺陷，例如声纳传感器在遇到吸声材料时检测效果就会大受影响导致误差，红外和激光在遇到透光性强的材料时将无法检测等。

在动态避障算法的研究上，比较常用的方法有人工势场法、VFH类算法、神经网络、遗传算法、模糊逻辑法以及滚动窗口法等。各有各自的优缺点，例如人工势场法计算量小实时性好，但容易出现局部极小值点。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种有效地提升了动态环境中避障效率的基于传感器融合与Q学习算法的动态避障方法。本发明的技术方案如下：

一种基于传感器融合与Q学习算法的动态避障方法，其包括以下步骤：

S1:设置机器人运动时与障碍物的安全距离dm、目标点坐标位置信息(x_t,y_t)和目标半径范围Rm；x_t、y_t分别表示目标点的中心在静态地图中的横轴、纵轴坐标，,R表示以(x_t,y_t)为中心的半径为d_win的区域都可算到达目的地；

S2:根据地图信息与环境信息确定机器人当前的位姿(x_r,y_r,θ_r)，θ_r是机器人实时的运动方向与X轴的夹角，并结合静态地图信息与目标点坐标位置信息(x_t,y_t)进行导航路径规划，并开始前进；

S3:导航过程中，将声纳传感器检测到的环境数据S_i和激光传感器检测到环境数据L_i进行预处理与特征化，然后相融合得到环境数据E_i；

S4:根据融合后的环境数据E_i判断当前机器人状态是否需要进行动态避障，如果需要则进入S5，不需要则进入S6；

S5:利用改进Q学习动态避障算法，改进Q学习动态避障算法改进在于设计动作状态上分得更细化，得到下一步的动作状态(a,θ)；a代表移动机器人的运动状态，θ∈W代表执行动作时机器人所偏转的角度；

S6:判断机器人是否到达目标点(x_t,y_t)，如果没有则返回S2继续导航，如果已到达则结束导航。

进一步的，所述步骤S3将声纳传感器检测到的环境数据S_i和激光传感器检测到环境数据L_i进行预处理与特征化，然后相融合得到环境数据E_i，具体包括：将声纳传感器数据S_i(i＝1,2,…,16)进行预处理，在转换为环境特征参数S_fi(i＝1,2,…,16)；激光传感器的数据需先进行分区域处理后得到区域距离数据L_i(i＝1,2,…,8)，再进行转换为距离特征参数L_fi(i＝1,2,…,8)；

根据定义的安全距离dm，将声纳传感器的距离数据值转换为距离特征值：

S_fi＝S_i÷d(i＝1,2,3,…,16)

将激光传感器的距离数据值转换为距离特征值：

L_fi＝L_i÷d(i＝1,2,3,…,8)

激光传感器数据采用提取最小值得出一个代表该区域的距离值

L_i＝min(x_i1,x_i2,…,x_in)；(i＝1,2,…,8；n为每个区域对应的数据个数)

然后根据声纳传感器的环境特征数据和激光传感器的环境特征数据进行融合，得出当前的环境特征数据E_f1～E_f16，融合方式为：

进一步的，所述将声纳传感器数据S_i(i＝1,2,…,16)进行预处理，在转换为环境特征参数S_fi(i＝1,2,…,16)；激光传感器的数据需先进行分区域处理后得到区域距离数据L_i(i＝1,2,…,8)，具体包括：先将机器人正前方作为参考起点，顺时针角度为负，逆时针角度为正，然后将测距传感器数据分为16个小区域E₁～E₁₆，声纳传感器的数据正好对应16个小区域E₁～E₁₆,而激光雷达的数据只提取-90°～+90°之间的数据，正好对应E₁～E₈区域；

进一步的，所述步骤5改进Q学习动态避障算法具体包括：动作的选择策略采用的是贪婪动作，即对应当前状态下Q值最大的动作(a,θ)，表示为

s表示状态，A、w分别表示动作以及对应的角度，当机器人需要进行动态避障时，将该时刻的环境数据E₁～E₁₆、当前机器人位姿(x_r,y_r,θ_r)以及目标点坐标(x_t,y_t)作为Q学习输入，然后经过Q学习决策以后输出下一刻动作(a,θ)：

其中s_t是t时刻的状态，(a_t,θ_t)是t时刻的行为，R_t是t时刻行为对应的奖励值，

是在t+1时刻采取的所有可能的行为在新状态下计算的最大Q值，α是学习率，γ是折扣因子。

进一步的，所述动作(a,θ)的设计具体为，由4个动作A＝{a₁,a₂,a₃,a₄}和15个偏转角度W＝{0°,±45°,±90°,±135°，180°}配合：

a∈A，a＝a₁代表移动机器人向前进，a＝a₂代表移动机器人向左转，a＝a₃代表移动机器人向右转，a＝a₄代表移动机器人停止；θ∈W代表执行动作时机器人所偏转的角度，其中，a＝a₁时对应的θ角应为0°，a＝a₂时对应的θ角应为{45°，90°，135°}，a＝a₃时对应的θ角应为{-135°，-90°，-45°}，a＝a₄时对应的θ角应为180°。

进一步的，奖励R值的设计具体为：

为了定义奖励函数，首先对机器人的状态s进行如下分类：

1)安全状态SS：机器人与环境中的任何障碍物碰撞的可能性很小或没有可能性的一组状态；

2)非安全状态NS：机器人与环境中的任何障碍物碰撞的可能性很高的一组状态；

3)获胜状态WS：机器人到达目标时的状态；

4)失效状态FS：机器人与障碍物碰撞时的状态。

根据机器人的状态的变化，定义奖励函数。

进一步的，所述步骤S6具体为，根据机器人当前的坐标信息(x_r,y_r)判断机器人是否到达目标点(x_t,y_t)：

如果

表明机器人已经到达目标点范围内，已经是WS，结束此次导航；

反之，表明机器人尚未达到目标点，仍需要继续导航，返回步骤S2继续执行，直到到达目标点。

本发明的优点及有益效果如下：

本发明提供了一种基于传感器融合与Q学习算法的移动机器人的动态避障方法，将声纳传感器与激光传感器融合，从而弥补了采用单一激光或者单一声纳时障碍物材料引起检测的缺陷，再增加Q学习算法的运动角度，有效地提升了动态环境中避障效率。

附图说明

图1是本发明提供优选实施例为机器人传感器模型：a为声纳传感器模型，b为激光传感器模型，c为融合后传感器模型；

图2为机器人环境模型；

图3为整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图3所示，基于传感器融合与Q学习算法的移动机器人的动态避障方法，该方法包含如下步骤：

S1:设置机器人运动时与障碍物的安全距离dm、目的坐标位置信息(x_t,y_t)和范围Rm；

S2:根据地图信息与环境信息确定机器人当前的位姿(x_r,y_r,θ_r)，并结合静态地图信息与目标点(x_t,y_t)进行导航路径规划，并开始前进；

S3:导航过程中，将声纳传感器检测到的环境数据S_i(i＝1,2,…,16)和激光传感器检测到环境数据L_i(i＝1,2,…,8)进行预处理与特征化，然后相融合得到环境数据E_i(i＝1,2,…,16)；

S4:根据融合后的环境数据E_i(i＝1,2,…,16)判断当前机器人状态是否需要进行动态避障，如果需要则进入S5，不需要则进入S6；

S5:利用改进Q学习动态避障算法，得到下一步的动作状态(a,θ)；

进一步，步骤S3具体为，先将机器人正前方作为参考起点，顺时针角度为负，逆时针角度为正，然后将测距传感器数据分为16个小区域E₁～E₁₆(如图1)，声纳传感器的数据正好对应16个小区域E₁～E₁₆,而激光雷达的数据只提取-90°～+90°之间的数据，正好对应E₁～E₈区域。

将声纳传感器数据S_i(i＝1,2,…,16)进行预处理，在转换为环境特征参数S_fi(i＝1,2,…,16)；激光传感器的数据比较多，需要先进行分区域处理后得到区域距离数据L_i(i＝1,2,…,8)再进行转换为距离特征参数L_fi(i＝1,2,…,8)。

S_fi＝S_i÷d(i＝1,2,3,…,16) (2)

将激光传感器的距离数据值转换为距离特征值：

L_fi＝L_i÷d(i＝1,2,3,…,8) (3)

激光传感器数据比较多，每一个区域都不止一两个数据，所以需要先对每个区域的数据进行整理，得出一个代表该区域的距离值，这里处理的方法采用提取最小值

L_i＝min(x_i1,x_i2,…,x_in)；(i＝1,2,…,8；n为每个区域对应的数据个数) (4)

进一步，S4具体为，当机器人在导航过程中(假设任意t时刻，机器人都处于向前移动状态)：

如果E_i≤1(i＝1,2,…,8),表明机器人在前进的过程中可能存在动态障碍物影响导航，需要进行动态避障来保证导航安全，进入步骤S5进行动态避障；

如果E_i＞1(i＝1,2,…,8),表明机器人前进的过程中安全，不需要进行动态避障，则进入步骤S6。

进一步，S5具体为：

首先对机器人的环境模型进行一些设定，如图2所示：

d_t表示机器人到目标的距离：

d_o表示机器人角度上障碍物离机器人的距离；

R表示以目标点为圆心的半径，当d_t＜R时表示机器人达到目标点；

d_col表示机器人与障碍物碰撞距离；

(x_r,y_r,θ_r)机器人实时位姿，(x_r,y_r)机器人在地图中的实时坐标，θ_r是机器人实时的运动方向与X轴的夹角；

(x_t,y_t)目标点在地图中的坐标。

Q学习动态避障算法：

动作的选择策略采用的是贪婪动作，即对应当前状态下Q值最大的动作(a,θ)，表示为

具体一点，当机器人需要进行动态避障时，将该时刻的环境数据E₁～E₁₆、当前机器人位姿(x_r,y_r,θ_r)以及目标点坐标(x_t,y_t)作为Q学习输入，然后经过Q学习决策以后输出下一刻动作(a,θ)：

其中动作(a,θ)的设计具体为，由4个动作A＝{a₁,a₂,a₃,a₄}和15个偏转角度W＝{0°,±45°,±90°,±135°，180°}配合：

a∈A，a＝a₁代表移动机器人向前进，a＝a₂代表移动机器人向左转，a＝a₃代表移动机器人向右转，a＝a₄代表移动机器人停止；

θ∈W代表执行动作时机器人所偏转的角度，其中，a＝a₁时对应的θ角应为0°，a＝a₂时对应的θ角应为{45°，90°，135°}，a＝a₃时对应的θ角应为{-135°，-90°，-45°}，a＝a₄时对应的θ角应为180°。

其中奖励R值的设计具体为：

为了定义奖励函数，首先对机器人的状态s进行如下分类：

3)获胜状态WS：机器人到达目标时的状态；

4)失效状态FS：机器人与障碍物碰撞时的状态。

根据机器人的状态的变化，将奖励函数定义如下表：

S6:根据机器人当前的坐标信息(x_r,y_r)判断机器人是否到达目标点(x_t,y_t)：

如果

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于传感器融合与改进Q学习算法的动态避障方法，其特征在于，包括以下步骤：

S1:设置机器人运动时与障碍物的安全距离d、目标点坐标位置信息(x_t,y_t)和目标半径范围R；x_t、y_t分别表示目标点的中心在静态地图中的横轴、纵轴坐标，；

S5:利用改进Q学习动态避障算法，得到下一步的动作状态(a,θ)；a代表移动机器人的运动状态，θ∈W代表执行动作时机器人所偏转的角度；

S6:判断机器人是否到达目标点(x_t,y_t)，如果没有则返回S2继续导航，如果已到达则结束导航；

所述步骤S3将声纳传感器检测到的环境数据S_i和激光传感器检测到环境数据L_i进行预处理与特征化，然后相融合得到环境数据E_i，具体包括：

将声纳传感器数据S_i(i＝1,2,…,16)进行预处理，在转换为环境特征参数S_fi(i＝1,2,…,16)；激光传感器的数据需先进行分区域处理后得到区域距离数据L_i(i＝1,2,…,8)，再进行转换为距离特征参数L_fi(i＝1,2,…,8)；

根据定义的安全距离d，将声纳传感器的距离数据值转换为距离特征值：

S_fi＝S_i÷d(i＝1,2,3,…,16)

将激光传感器的距离数据值转换为距离特征值：

L_fi＝L_i÷d(i＝1,2,3,…,8)

所述步骤5改进Q学习动态避障算法具体包括：动作的选择策略采用的是贪婪动作，即对应当前状态下Q值最大的动作(a,θ)，表示为

2.根据权利要求1所述的基于传感器融合与改进Q学习算法的动态避障方法，其特征在于，所述将声纳传感器数据S_i(i＝1,2,…,16)进行预处理，在转换为环境特征参数S_fi(i＝1,2,…,16)；激光传感器的数据需先进行分区域处理后得到区域距离数据L_i(i＝1,2,…,8)，具体包括：先将机器人正前方作为参考起点，顺时针角度为负，逆时针角度为正，然后将测距传感器数据分为16个小区域E₁～E₁₆，声纳传感器的数据正好对应16个小区域E₁～E₁₆,而激光雷达的数据只提取-90°～+90°之间的数据，正好对应E₁～E₈区域；

3.根据权利要求1所述的基于传感器融合与改进Q学习算法的动态避障方法，其特征在于，所述动作(a,θ)的设计具体为，由4个动作A＝{a₁,a₂,a₃,a₄}和15个偏转角度W＝{0°,±45°,±90°,±135°，180°}配合：

4.根据权利要求1所述的基于传感器融合与改进Q学习算法的动态避障方法，其特征在于，奖励R值的设计具体为：

为了定义奖励函数，首先对机器人的状态s进行如下分类：

3)获胜状态WS：机器人到达目标时的状态；

4)失效状态FS：机器人与障碍物碰撞时的状态；

根据机器人的状态的变化，定义奖励函数。

5.根据权利要求1所述的基于传感器融合与改进Q学习算法的动态避障方法，其特征在于，所述步骤S6具体为，根据机器人当前的坐标信息(x_r,y_r)判断机器人是否到达目标点(x_t,y_t)：

如果