CN107065890A

CN107065890A - 一种无人车智能避障方法及系统

Info

Publication number: CN107065890A
Application number: CN201710408748.9A
Authority: CN
Inventors: 徐国艳; 宗孝鹏; 余贵珍
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-06-02
Filing date: 2017-06-02
Publication date: 2017-08-18
Anticipated expiration: 2037-06-02
Also published as: CN107065890B

Abstract

一种基于强化学习的无人车避障系统，其特征在于，系统包括感知部分、决策部分、控制部分与执行部分，感知部分通过单线激光雷达对障碍物区域进行检测，实现障碍物信息获取，决策部分根据障碍物检测情况，决定无人车下一时刻是否需要避障，如果需要，控制部分将感知部分的状态信息输入强化学习模型，模型经过试错学习，收敛到稳定状态，计算出无人车所需的方向盘转角，由无人车执行部分执行，从而实现避障功能。

Description

一种无人车智能避障方法及系统

技术领域

本发明涉及一种无人车避障方法及系统，更特别地说，是指一种基于强化学习的无人车智能避障方法及系统。

背景技术

随着科学技术的发展，无人车技术得到了深入的发展和研究，实现在复杂未知的动态环境中自主避障是无人车实用化的关键部分。传统的避障方法采用专家经验编程，通过车载传感器获得自身位姿信息和外界障碍物信息，然后通过车辆自身信息与外界障碍物进行比较，计算无人车所需的方向盘角度和速度大小。这些方法需要一定的专家知识，在复杂未知环境中的自适应能力不强。

近年来，利用强化学习进行机器人的路径规划成为研究热点，但尚未有将强化学习在无人车避障上的成功应用。本发明利用强化学习的自适应、自学习特点，应用在无人车避障方法中，使无人车通过不断地学习，更新自身知识，最终实现在未知环境中自主避障。

Q学习是由Watkins提出的一种模型无关的强化学习算法，其思想是不去估计环境模型，直接优化一个可以迭代计算的Q函数，定义Q函数为在状态s_t时执行动作a_t，此后按照最优动作序列执行时的折扣累计强化值，即：

Q(s_t，a_t)←Q(s_t，a_t)+a[r_t+γmax_a∈A{Q(s_t+1，a)}-Q(s_t，a_t)]

其中，Q(s_t，a_t)表示智能体在状态s_t下采用动作a_t所获得的最优奖赏折扣，a是学习因子，r_t是立即回报值，γ是折扣因子，A是有限的动作集合。

Q学习的算法流程如下：

1.初始化：Q(s_t，a_t)←任意值，给定参数a，γ初值；

2.Repeat

给定起始状态s

Repeat(对于每一幕的每一步)

(a)根据动作选择策略选择动作a_t，得到立即回报r_t和下一个状态s_t+1；

(b)Q(s_t，a_t)←Q(s_t，a_t)+a[r_t+γmax_a∈A{Q(s_t+1，a)}-Q(s_t，a_t)]；

(c)s_t←s_t+1

Until s_t是终止状态

Until所有的Q(s，a)都收敛

传统的Q学习采用查表法，即将状态-动作对对应的Q值以表格形式列出。设Q(s，a)(s∈S，a∈A)为一1ookup表格，S表示所有状态集合，A表示所有离散动作集合。Q(s，a)代表s状态下执行动作α的Q值，表的大小表示S×A的笛卡尔乘积中元素的个数，这种方法适用于小型环境。对于大型的连续状态空间，如果依然采用查表法，会出现“维数灾难”问题，即状态-动作对的个数很大，如果每一次都遍历，会严重影响学习速度，因此如何对状态空间及动作空间进行泛化是强化学习要解决的关键技术问题。

为实现连续空间下的强化学习，强化学习智能体必须具备泛化能力，其本质就是采用合适的函数逼近器来逼近“状态-动作”的映射关系，如模糊逻辑、神经网络和支持向量机等。

但是神经网络存在收敛速度慢、容易陷入局部最小值、网络的隐含层个数不好选择等问题，而且学习效果往往和初始值相关，不易收敛到一个唯一的最优决策，制约了强化学习的进一步应用。

与传统的神经网络相比，由Vapnik依据结构风险最小化原则提出的支持向量机(SVM)不仅结构简单，而且各种技术性能，尤其是泛化能力出众。基于SVM的学习算法能够较好地解决小样本、非线性和高维数的问题，其训练是一个凸二次规划问题，能够保证找到的极值解就是全局最优解，成功克服了参数化函数逼近机制局部极小、不能保证概率意义上收敛等缺点，因此将SVM应用在无人车强化学习当中。

发明内容

本发明的目的是提供一种基于强化学习的无人车避障方法及系统，系统包括感知部分、决策部分、控制部分与执行部分。具体是感知部分通过单线激光雷达对障碍物区域进行检测，实现障碍物信息获取，决策部分根据障碍物检测情况，决定无人车下一时刻是否需要避障，如果需要，控制部分将感知部分的状态信息输入强化学习模型，模型经过试错学习，收敛到稳定状态，计算出无人车所需的方向盘转角，由无人车执行部分执行，从而实现避障功能。此方法不需人为设定避障规则，无人车通过试错学习即可自身完善避障功能，且环境适应性强，具有较强的工程实用价值和研究意义。

本发明提供的一种基于强化学习的无人车避障方法，包括以下步骤：

将无人车行为分目标趋向及障碍躲避两大类，决策层根据障碍物检测情况，决定下一时刻无人车选择目标趋向或障碍物躲避行为，算法流程如图1所示；

在目标趋向行为中，无人车的目标路径以GPS轨迹点的形式存储，无人车运行时，根据差分GPS设备采集的实时位置信息，查找下一时刻目标点位置，计算出所需方向盘转角，由无人车执行机构进行执行；

在障碍躲避行为中，单线激光雷达安装于车辆正前方，并置于合适的位置高度，扫描车辆前方50米范围内的障碍物，得到对应高度二维平面中障碍物的距离和方位信息；提取障碍物特征参数，包括障碍物方位、相对距离、相对速度，作为系统状态输入到强化学习模块。

在强化学习模块，首先将连续动作空间离散为确定数目的离散动作，然后利用概率型支持向量分类机对系统的连续状态-离散动作对按TD误差标准进行正负分类，对判定为正类的离散动作进行加权求和，进而得到实际作用于无人车的连续动作，即连续的方向盘转角。

本发明采用了一种新的学习算法开发无人车避障系统，它的先进性在于无人车通过不断接收传感器数据的同时智能规划避障路径，无需进行人工经验编程来设定控制算法，从而实现高效躲避障碍物并到达目的地。相比于传统的避障算法，该算法对新环境的自适应性强，具有广阔的应用前景。

附图说明

图1为无人车避障流程图。

图2为激光雷达扫描区域示意图。

图3为概率型支持向量机算法流程图。

具体实施方式

下面对本发明作进一步详细说明。

实施例1

LMS151是无人车上常用的一款单线激光雷达，该雷达的主要特点为：大范围监控，最大可达270°的扫描角度，角度分辨率为0.5°；最远扫描距离为50米，10％反射率的前提下，扫描距离可达18米；扫描频率为50Hz；体积小、重量轻，具有多回波技术，具有自检功能。

将激光雷达安装于车辆正前方车牌位置处，设置单线激光雷达的扫描角度为180°，并且将扫描区域分成8个部分，每部分角度为22.5°，依次标号为区域1、区域2……区域8，如图2所示。

根据激光雷达扫描到的数据进行状态判断，当区域3、区域4、区域5、区域6中有区域检测到障碍物存在时，无人车选择避障行为，否则认为车辆行驶轨迹中没有障碍物存在，无人车选择目标趋向行为。

在目标趋向行为中，无人车以GPS点的形式存储目标轨迹，包括点的序号、经度、纬度、高度、航向角、速度等信息。

无人车通过差分GPS设备获得实时位置信息，在目标轨迹中寻找最近目标点，根据预瞄理论，并结合实际车速及道路曲率信息，向前预瞄一定距离，找到对应的预瞄点。

无人车根据实际点和预瞄点的位置信息、航向信息，计算实际轨迹和目标轨迹的角度偏差和距离偏差，通过模糊PID方法计算方向盘角度，输出到执行机构，使无人车趋向目标点。

设置无人车的GPS采样频率，一般为10Hz，即无人车1秒计算10次方向盘转角，调整车辆方向，基本能满足车辆实时性要求。

当激光雷达扫描区域3、区域4、区域5、区域6中检测到障碍物时，无人车选择障碍躲避行为。

在障碍躲避行为中，无人车采集8个区域中障碍物信息，分别输出障碍物方位、障碍物距离、障碍物相对速度信息，即(θ_i，d_i，v_i)(i＝1，2,...，8)。如果没有检测到障碍物，输出障碍物距离为50，相对速度为0。

车辆速度为V，作为连续状态值输入。

将雷达检测到的8组数据及实际车速V共9个信息作为状态输入，输入到强化学习模型，进行Q值更新，然后输出离散动作对应概率值。

由于无人车的状态空间是连续，如果采用传统lookup表格方法，即利用表格来表示Q函数，当环境的状态集合S与智能系统可能的动作集合A较大时，Q(s，a)需要占用大量的内存单元，而且也不具有泛化能力。

支持向量机泛化能力出众，将支持向量机与Q学习相结合，其基本思想是：首先将连续动作空间离散为确定数目的离散动作，然后利用概率型支持向量分类机对系统的连续状态-离散动作对按TD误差标准进行正负分类，对判定为正类的离散动作进行加权求和，进而得到实际作用于系统的连续动作。

基于概率型支持向量分类机的Q学习如图3所示。其中，s_t表示t时刻9维系统状态，包括激光了雷达扫描的8个区域及车速信息，待选动作集A＝{a_j|j＝1，2，…，K}，K为待选动作的个数。

一般汽车转向轮的转角范围是[-30°，30°]，并且考虑到车辆大多数情况都是小角度转动，因此将其离散为11个离散动作{-30°、-20°、-15°、-10°、-5°、0°、5°、10°、15°、20°、30°}，其中负角度表示左转，正角度表示右转。

考虑到方向盘转角与车轮转角的比例关系，将方向盘转角离散为11个动作{-600°、-400°、-300°、-200°、-100°、0°、100°、200°、300°、400°、600°}，同理，负角度表示左转，正角度表示右转。；

将系统的9维状态与11个待选动作分别配对，构成状态-动作对(s_t，a_j)顺序输入给概率型支持向量分类机，其输出p_j为(s_t，a_j)属于正类的概率值。

然后对判定为正类的离散动作(p_j＞0.5)按其概率值进行加权求和，即可得到实际作用于系统的连续动作a_t，即连续的方向盘转角，如下式所示：

环境在动作a_t的作用下，得到立即回报r_t，由下式计算系统的TD误差，根据TD误差判断(s_t，a_j)的类别标签y_t，进而得到概率型支持向量分类机新的训练样本((s_t，a_j)，y_t)。

δ＝r_t+γQ(s_t+1)-Q(s_t)

由于强化学习强调在与环境的交互中学习，不需要环境模型而实现无导师的在线学习。因此概率型支持向量分类机模型的训练样本需要通过强化学习系统不断地与环境交互而顺序生成，如果将新增样本与已有样本合并后处理，一方面会增加学习的难度，另一方面也因样本集过大而消耗过多的时间和存储空间。

为此，引入滚动时间窗机制实现概率型支持向量分类机模型的在线学习，即在强化学习系统学习的同时获取样本数据并进行概率型支持向量分类机模型的训练。建立一个随时间窗滚动的建模数据区间，并保持该区间长度L不变，随着新数据((s_t，a_j)，y_t)的不断加入，旧数据则从建模区间滚动出去。

强化学习的目的是使智能体获得的奖赏和最大。奖赏函数往往是确定的、客观的，为策略的选择提供依据，即告诉智能体选择什么动作是好的、什么是坏的。为了提高学习收敛速度，要求奖赏函数能够及时并且准确地对系统的学习进程进行描述。因此，如何设计奖赏函数已成为强化学习的关键。根据奖赏值在状态-奖赏空间中的分布情况，把奖赏函数分为两种形式：密集奖赏函数和稀疏奖赏函数。

为了提高系统精度，设计密集型奖赏函数，形式如下：

r_t＝k₁*(|θ_t|-|θ_t-1|)+k₂*(d_t*|sinθ_t|-d_t-1*sinθ_t-1)

其中，k₁、k₂为加权系数，第一项k₁*(|θ_t|-|θ_t-1|)表示考虑与障碍物角度的奖赏值，第二项k₂*(d*|sinθ_t|)表示考虑与障碍物横向距离的奖赏值。

θ与d选择危险障碍物的角度与距离，即与无人车最近的障碍物，及d_t＝min(d1，d2...，d8)，θ为障碍物对应的角度。

在训练阶段，利用概率型支持向量机Q学习，无人车在仿真环境或实际环境中不断学习，调整系统参数，直至收敛为止。训练结束后，可以进行测试，看训练的效果是否足够好。

Claims

1.一种基于强化学习的无人车避障系统，其特征在于，系统包括感知部分、决策部分、控制部分与执行部分，感知部分通过单线激光雷达对障碍物区域进行检测，实现障碍物信息获取，决策部分根据障碍物检测情况，决定无人车下一时刻是否需要避障，如果需要，控制部分将感知部分的状态信息输入强化学习模型，模型经过试错学习，收敛到稳定状态，计算出无人车所需的方向盘转角，由无人车执行部分执行，从而实现避障功能。

2.一种基于强化学习的无人车避障方法，其特征在于，将无人车行为分目标趋向及障碍躲避两大类，决策层根据障碍物检测情况，决定下一时刻无人车选择目标趋向或障碍物躲避行为。

3.根据权利要求2所述的基于强化学习的无人车避障方法，其特征在于，在所述目标趋向行为中，无人车的目标路径以GPS轨迹点的形式存储，无人车运行时，根据差分GPS设备采集的实时位置信息，查找下一时刻目标点位置，计算出所需方向盘转角，由无人车执行机构进行执行。

4.根据权利要求2所述的基于强化学习的无人车避障方法，其特征在于，在所述障碍躲避行为中，单线激光雷达安装于车辆正前方，并置于合适的位置高度，扫描车辆前方50米范围内的障碍物，得到对应高度二维平面中障碍物的距离和方位信息；提取障碍物特征参数，包括障碍物方位、相对距离、相对速度，作为系统状态输入到强化学习模块，在强化学习模块，支持向量机与Q学习相结合，首先将连续动作空间离散为确定数目的离散动作，然后利用概率型支持向量分类机的Q学习对系统的连续状态-离散动作对按TD误差标准进行正负分类，对判定为正类的离散动作进行加权求和，进而得到实际作用于无人车的连续动作，即连续的方向盘转角。

5.根据权利要求4所述的基于强化学习的无人车避障方法，其特征在于，基于概率型支持向量分类机的Q学习，其中，s_t表示t时刻系统状态，包括激光雷达扫描的区域及车速信息，待选动作集A＝{a_j|j＝1，2，…，K}，K为待选动作的个数，将方向盘转角离散为多个动作，其中负角度表示左转，正角度表示右转，将系统的系统状态与待选动作分别配对，构成状态-动作对(s_t，a_j)顺序输入给概率型支持向量分类机，其输出p_j为(s_t，a_j)属于正类的概率值，

然后对判定为正类的离散动作(p_j>0.5)按其概率值进行加权求和，即可得到实际作用于系统的连续动作a_t，即连续的方向盘转角，如下式所示：

<mrow> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>a</mi> <mi>i</mi> <mi>p</mi> <mi>j</mi> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>p</mi> <mi>j</mi> </mrow>

环境在动作a_t的作用下，得到立即回报r_t，由下式计算系统的TD误差，根据TD误差判断(s_t,α_j)的类别标签y_t，进而得到概率型支持向量分类机新的训练样本((s_t，a_j)，y_t)。

δ＝r_t+γQ(s_t+1)-Q(s_t)。

6.根据权利要求5所述的基于强化学习的无人车避障方法，其特征在于，基于概率型支持向量分类机的Q学习还包括引入滚动时间窗机制实现概率型支持向量分类机模型的在线学习，即在强化学习系统学习的同时获取样本数据并进行概率型支持向量分类机模型的训练，建立一个随时间窗滚动的建模数据区间，并保持该区间长度L不变，随着新数据((s_t，α_j)，y_t)的不断加入，旧数据则从建模区间滚动出去。

7.根据权利要求5所述的基于强化学习的无人车避障方法，其特征在于，基于概率型支持向量分类机的Q学习还包括为了提高系统精度，设计密集型奖赏函数，形式如下：

r_t＝k₁*(|θ_t|-|θ_t-1|)+k₂*(d_t*|sinθ_t|-d_t-1*|sinθ_t-1|)

其中，k₁、k₂为加权系数，第一项k₁*(|θ_t|-|θ_t-1|)表示考虑与障碍物角度的奖赏值，第二项k₂*(d*|sinθ_t|)表示考虑与障碍物横向距离的奖赏值，θ与d选择危险障碍物的角度与距离，即与无人车最近的障碍物，及d_t＝min(d1，d2...，d8)，θ为障碍物对应的角度。