CN107562053A

CN107562053A - 一种基于模糊q学习的六足机器人避障方法

Info

Publication number: CN107562053A
Application number: CN201710763224.1A
Authority: CN
Inventors: 陈春林; 唐开强; 洪俊; 王岚; 吴涛; 于跃文; 陈文玉; 朱张青; 辛博; 刘力锋; 王子辉
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2018-01-09

Abstract

本发明提供了一种基于模糊Q学习的六足机器人避障方法，步骤包括：由六足机器人通过前部的超声波传感器测量机器人周围的障碍物距离，并通过模糊推理将测量的障碍物距离转化为有限的状态集合；根据有限的状态集合在仿真平台中进行避障仿真建模，再利用Q学习算法学习出六足机器人在相应状态下所要采取的动作；确定六足机器人在当前状态下所处的状态集合，再利用模糊推理确定六足机器人所处的动作集合，并对这些动作进行融合确定下一动作。该避障方法能够在障碍物数量较多的位置环境中实现较好的避障效果，具有良好的市场应用前景。

Description

一种基于模糊Q学习的六足机器人避障方法

技术领域

本发明涉及一种机器人避障方法，尤其是一种基于模糊Q学习的六足机器人避障方法。

背景技术

六足机器人在结构上具有多冗余自由度，因而具有较高的地形环境适应能力。六足机器人能够在路况复杂的野外行走、越障，完成轮式或履带式所不能完成的非结构性环境中的运输作业，在森林采伐、矿山开采、水下建筑、核工业、军事运输及探测、星球探测等领域有着非常广阔的应用前景。因此，六足机器人的相关研究一直备受各国专家学者的关注，但是如何提高六足机器人在非结构环境下的移动能力仍然是个悬而未决的课题。

传统的六足机器人步行运动采取固定步态的方法，如三足步态、四足步态、波动步态等，研究者把几种不同的步态根据参数的不同分别做成几组步态数据，当有不同需求的时候调用。利用这种步态能够在平面上表现出良好的行走能力，但在不规则地形特别是未知环境中，机器人则没有办法实现稳定的行走，因此迫切需要一种能够适应未知地形的步态规划方法。

为了能够使六足机器人适应复杂非结构路况，需要用到机器学习的方法。机器学习是人工智能的核心问题之一，是通过对已有的知识和经验的学习，不断提高自身性能的过程。机器学习本身是一门涉及到概率论、统计学、计算机等多学科领域的交叉学科，可以被广泛应用到各行业中。机器学习帮助机器人主动适应一些新的环境，从而避免研究人员为不同的场景编制程序。

发明内容

本发明要解决的技术问题是现有的避障算法无法适用于在复杂工作环境中作业的六足机器人这一情况。

为了解决上述技术问题，本发明提供了一种基于模糊Q学习的六足机器人避障方法，包括如下步骤：

步骤1，由六足机器人通过前部的超声波传感器测量机器人周围的障碍物距离，并通过模糊推理将测量的障碍物距离转化为有限的状态集合；

步骤2，根据有限的状态集合在仿真平台中进行避障仿真建模，再利用Q学习算法学习出六足机器人在相应状态下所要采取的动作；

步骤3，确定六足机器人在当前状态下所处的状态集合，再利用模糊推理确定六足机器人所处的动作集合，并对这些动作进行融合确定下一动作。

作为本发明的进一步限定方案，步骤1中，将测量的障碍物距离转化为有限的状态集合的具体步骤为：

步骤1.1，利用机器人前部的9个超声波传感器测出距离信息，每三个分为一组，假设测量结果为a1，a2，a3；b1，b2，b3；c1，c2，c3，再通过公式(1)进行处理，

式中，a，b，c分别为机器人前方三个方向上的障碍物距离，R^V是依据机器人尺寸所确定的调整量。

步骤1.2，利用模糊隶属度函数对距离进行模糊化，从而转化为有限的状态集合：

每个障碍物距离都对应近、中、远三个隶属度，于是六足机器人的障碍物信息便转化为27个状态。式中x为障碍物距离，F(x)为隶属度。

作为本发明的进一步限定方案，步骤2中，利用Q学习算法学习出六足机器人在相应状态下所要采取的动作的具体步骤为：

步骤2.1，在Matlab中建立六足机器人避障模型；

步骤2.2，利用策略值函数来描述避障过程的预期收益为：

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (3)

式(3)中，R_t为时刻t获得的打过折扣以后的未来收益总和，π为为避障的目标策略，由于避障的目标策略π是预设确定的，记为函数μ:S←A，S为状态空间，A为动作空间，同时利用贝尔曼方程处理式(4)有：

Q^*(s_t,a_t)＝E[r(s_t,a_t)+γmaxQ^*(s_t+1,a'_t+1)] (4)

其中，γ∈[0,1]为折扣因子，r(s_t,a_t)表示t时刻从环境获得的回报值，maxQ^*(s_t+1,a'_t+1)表示机器人下一个状态采取某个动作的最大回报值；

步骤2.3，利用贝尔曼方程逼近的Q学习单步算法为：

式(5)中，r_t+1是机器人在状态s采取动作a的瞬时回报值，γ为折扣因子，为学习率；

步骤2.4，根据构建的六足机器人避障模型，并利用Q学习算法获得学习好的动作-状态值函数，再由动作-状态值函数获得六足机器人避障所要采取的动作。

本发明的有益效果在于：(1)把六足机器人的障碍物距离模糊化，将障碍物信息转化为有限的状态集合，相当于把六足机器人的避障问题离散化，可以将其看成一个马尔科夫决策过程；(2)通过Q学习算法学习出六足机器人在相应状态的最佳动作，并以此为基础制定模糊控制的模糊推理机制；(3)将距离转化为近、中、远三个模糊度，使得六足机器人在一个时间点的障碍物信息可以对应多个不同的状态，保证了避障的精确度。

附图说明

图1为本发明的方法流程图。

具体实施方式

本发明公开的基于模糊Q学习的六足机器人避障方法是基于模糊Q学习的六足机器人避障系统的，该系统包括：距离测量系统、模糊控制系统和六足机器人运动系统。

其中，距离测量系统主要由安装在六足机器人前方的9路超声波传感器组成；模糊控制系统主要由隶属度函数、模糊推理等模块组成；六足机器人运动系统主要由CR-6机器人模型和主控制器组成。

该系统在工作时，首先，借助超声波传感器获取六足机器人的障碍物信息，利用距离隶属度函数对测量结果模糊化，把障碍物信息转化为有限的状态集合；然后在Matlab软件中建六足机器人的避障模型，把六足机器人的避障过程转化为一个马尔科夫决策过程，利用Q学习算法学习出六足机器人在相应的状态所要采取的最佳动作；最后，当机器人在环境中运行时，先利用模糊隶属度函数对障碍物距离进行处理，确认机器人当前所处的多个状态，再利用模糊推理确定六足机器人当前所要采取的多个动作，最后对这些动作进行融合，确定六足机器人在当前情况下要采取的最终动作。

在距离测量系统中，当前环境中的声速未知，将无法获得准确的声速真值，这会导致距离测量产生误差，但是障碍物的距离和超声波传播的时间成正比，因此，采用标定的方法得出距离和时间之间的关系，提高了测量的准确度。

在模糊控制系统中，先利用Q学习学习出最优策略，在Matlab中进行仿真时，为了保证Q学习算法收敛，采用ε-greedy策略作为动作选择策略，在继承已学知识的基础上，还具有一定的探索能力，模糊推理的制定是基于学习好的动作-状态值函数。

在六足机器人运动系统中，由基于STM32F407ZGT6的主控制器完成，六足机器人每条腿有三个自由度，总共有18个自由度，每个自由度由一个舵机控制，每个舵机由一路PWM波进行控制，采用单片机定时器的PWM功能同时输出18路周期为20ms的PWM波，控制六足机器人的各种步态。

如图1所示，本发明提供了一种基于模糊Q学习的六足机器人避障方法，包括如下步骤：

步骤1，在相对复杂的环境中，由六足机器人通过前部的9个超声波传感器测量机器人周围的障碍物距离，并通过模糊推理将测量转化为有限的状态集合；

步骤2，在仿真平台中进行避障仿真建模，利用Q学习算法学习出六足机器人在相应状态所要采取的最佳动作；

步骤3，确定六足机器人在当前情形下所处的状态集合，然后利用模糊推理确定六足机器人所处的动作集合，并对这些动作进行融合确定最佳动作。

其中，步骤1中把六足机器人的障碍物距离信息转化为有限的状态集合的具体步骤为：

步骤1.1，利用机器人前方的9个超声波传感器测出距离信息，每三个分为一组，假设测量结果为a1，a2，a3；b1，b2，b3；c1，c2，c3，然后通过公式(1)进行处理，

步骤1.2，利用模糊隶属度函数对距离进行模糊化，将转化为有限的状态集合：

每个障碍物距离都对应近、中、远三个隶属度，因此六足机器人的障碍物信息就可以转化为27个状态。式中x为障碍物距离，F(x)为隶属度。

步骤2中利用Q学习算法在仿真实验中学习出六足机器人在相应状态所要采取的最佳动作的具体步骤为：

步骤2.1，在Matlab中建立六足机器人避障模型，利用六足机器人避障过程符合Q学习且满足马尔科夫性质的条件，采用Q学习算法进行学习，学习出六足机器人在相应状态所要采取的最佳动作；

步骤2.2，利用策略值函数来描述避障过程的预期收益为：

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (3)

式(3)中，R_t为时刻t获得的打过折扣以后的未来收益总和，π为避障策略；

由于避障的目标策略π是预设确定的，记为函数μ:S←A，S为状态空间，A为的动作空间，同时利用贝尔曼方程处理式(4)有：

Q^*(s_t,a_t)＝E[r(s_t,a_t)+γmaxQ^*(s_t+1,a'_t+1)] (4)

步骤2.3，利用贝尔曼方程逼近的Q学习单步算法为：

式(5)中，r_t+1是机器人在状态s采取动作a的瞬时回报值，maxQ(s_t+1,a'_t+1)表示机器人下一个状态采取某个动作的最大回报值，为折扣因子，为学习率；

步骤2.4，利用构建的六足机器人避障模型，采用Q学习算法进行学习，最终获得学习好的动作-状态值函数，并根据学习的值函数获得六足机器人避障的最优策略。

作为本发明的进一步限定方案，模糊控制中的模糊推理机制是通过Q学习的方法学习出来的，而并非依赖于专家经验或者大量的实验结果；六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤；通过模糊逻辑对距离信息进行处理，六足机器人在一个时间点可能会处于多个不同的状态，我们把所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。

本发明采用模糊控制和Q学习相结合的方法，可以有效的解决模糊控制中模糊推理机制建立复杂这一问题。把六足机器人的障碍物信息转化为一个有限的状态集合，继而把六足机器人的避障过程看成一个马尔科夫决策过程，然后通过学习的方法，学习出六足机器人在相应状态所要采取的最优动作，并以此为基础建立模糊控制的模糊推理机制。六足机器人在运行过程中，障碍物信息通过模糊处理可能对应多个状态，把这些状态所对应的最有动作进行融合得出六足机器人所要采取的最终动作，最终实现了六足机器人在复杂环境中的安全自主避障。

Claims

1.一种基于模糊Q学习的六足机器人避障方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于模糊Q学习的六足机器人避障方法，其特征在于，步骤1中，将测量的障碍物距离转化为有限的状态集合的具体步骤为：

步骤1.1，利用机器人前部的9个超声波传感器测出距离信息，每三个分为一组，假设测量结果为a1，a2，a3；b1，b2，b3；c1，c2，c3，再通过公式(1)进行处理：

3.根据权利要求1所述的基于模糊Q学习的六足机器人避障方法，其特征在于，步骤2中，利用Q学习算法学习出六足机器人在相应状态下所要采取的动作的具体步骤为：

步骤2.1，在Matlab中建立六足机器人避障模型；

步骤2.2，利用策略值函数来描述避障过程的预期收益为：

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (3)

式(3)中，R_t为时刻t获得的打过折扣以后的未来收益总和，π为避障的目标策略，由于避障的目标策略π是预设确定的，记为函数μ:S←A，S为状态空间，A为动作空间，同时利用贝尔曼方程处理式(4)有：

Q^*(s_t,a_t)＝E[r(s_t,a_t)+γmaxQ^*(s_t+1,a'_t+1)] (4)

步骤2.3，利用贝尔曼方程逼近的Q学习单步算法为：

<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mo>&part;</mo> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>max</mi> <mi> </mi> <mi>Q</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mi>Q</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

式(5)中，r_t+1是机器人在状态s采取动作a的瞬时回报值，γ是折扣因子，为学习率；