CN107065890A - 一种无人车智能避障方法及系统 - Google Patents
一种无人车智能避障方法及系统 Download PDFInfo
- Publication number
- CN107065890A CN107065890A CN201710408748.9A CN201710408748A CN107065890A CN 107065890 A CN107065890 A CN 107065890A CN 201710408748 A CN201710408748 A CN 201710408748A CN 107065890 A CN107065890 A CN 107065890A
- Authority
- CN
- China
- Prior art keywords
- unmanned vehicle
- barrier
- mrow
- intensified learning
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004888 barrier function Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims description 21
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
- G05D1/0278—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using satellite positioning signals, e.g. GPS
Abstract
一种基于强化学习的无人车避障系统,其特征在于,系统包括感知部分、决策部分、控制部分与执行部分,感知部分通过单线激光雷达对障碍物区域进行检测,实现障碍物信息获取,决策部分根据障碍物检测情况,决定无人车下一时刻是否需要避障,如果需要,控制部分将感知部分的状态信息输入强化学习模型,模型经过试错学习,收敛到稳定状态,计算出无人车所需的方向盘转角,由无人车执行部分执行,从而实现避障功能。
Description
技术领域
本发明涉及一种无人车避障方法及系统,更特别地说,是指一种基于强化学习的无人车智能避障方法及系统。
背景技术
随着科学技术的发展,无人车技术得到了深入的发展和研究,实现在复杂未知的动态环境中自主避障是无人车实用化的关键部分。传统的避障方法采用专家经验编程,通过车载传感器获得自身位姿信息和外界障碍物信息,然后通过车辆自身信息与外界障碍物进行比较,计算无人车所需的方向盘角度和速度大小。这些方法需要一定的专家知识,在复杂未知环境中的自适应能力不强。
近年来,利用强化学习进行机器人的路径规划成为研究热点,但尚未有将强化学习在无人车避障上的成功应用。本发明利用强化学习的自适应、自学习特点,应用在无人车避障方法中,使无人车通过不断地学习,更新自身知识,最终实现在未知环境中自主避障。
Q学习是由Watkins提出的一种模型无关的强化学习算法,其思想是不去估计环境模型,直接优化一个可以迭代计算的Q函数,定义Q函数为在状态st时执行动作at,此后按照最优动作序列执行时的折扣累计强化值,即:
Q(st,at)←Q(st,at)+a[rt+γmaxa∈A{Q(st+1,a)}-Q(st,at)]
其中,Q(st,at)表示智能体在状态st下采用动作at所获得的最优奖赏折扣,a是学习因子,rt是立即回报值,γ是折扣因子,A是有限的动作集合。
Q学习的算法流程如下:
1.初始化:Q(st,at)←任意值,给定参数a,γ初值;
2.Repeat
给定起始状态s
Repeat(对于每一幕的每一步)
(a)根据动作选择策略选择动作at,得到立即回报rt和下一个状态st+1;
(b)Q(st,at)←Q(st,at)+a[rt+γmaxa∈A{Q(st+1,a)}-Q(st,at)];
(c)st←st+1
Until st是终止状态
Until所有的Q(s,a)都收敛
传统的Q学习采用查表法,即将状态-动作对对应的Q值以表格形式列出。设Q(s,a)(s∈S,a∈A)为一1ookup表格,S表示所有状态集合,A表示所有离散动作集合。Q(s,a)代表s状态下执行动作α的Q值,表的大小表示S×A的笛卡尔乘积中元素的个数,这种方法适用于小型环境。对于大型的连续状态空间,如果依然采用查表法,会出现“维数灾难”问题,即状态-动作对的个数很大,如果每一次都遍历,会严重影响学习速度,因此如何对状态空间及动作空间进行泛化是强化学习要解决的关键技术问题。
为实现连续空间下的强化学习,强化学习智能体必须具备泛化能力,其本质就是采用合适的函数逼近器来逼近“状态-动作”的映射关系,如模糊逻辑、神经网络和支持向量机等。
但是神经网络存在收敛速度慢、容易陷入局部最小值、网络的隐含层个数不好选择等问题,而且学习效果往往和初始值相关,不易收敛到一个唯一的最优决策,制约了强化学习的进一步应用。
与传统的神经网络相比,由Vapnik依据结构风险最小化原则提出的支持向量机(SVM)不仅结构简单,而且各种技术性能,尤其是泛化能力出众。基于SVM的学习算法能够较好地解决小样本、非线性和高维数的问题,其训练是一个凸二次规划问题,能够保证找到的极值解就是全局最优解,成功克服了参数化函数逼近机制局部极小、不能保证概率意义上收敛等缺点,因此将SVM应用在无人车强化学习当中。
发明内容
本发明的目的是提供一种基于强化学习的无人车避障方法及系统,系统包括感知部分、决策部分、控制部分与执行部分。具体是感知部分通过单线激光雷达对障碍物区域进行检测,实现障碍物信息获取,决策部分根据障碍物检测情况,决定无人车下一时刻是否需要避障,如果需要,控制部分将感知部分的状态信息输入强化学习模型,模型经过试错学习,收敛到稳定状态,计算出无人车所需的方向盘转角,由无人车执行部分执行,从而实现避障功能。此方法不需人为设定避障规则,无人车通过试错学习即可自身完善避障功能,且环境适应性强,具有较强的工程实用价值和研究意义。
本发明提供的一种基于强化学习的无人车避障方法,包括以下步骤:
将无人车行为分目标趋向及障碍躲避两大类,决策层根据障碍物检测情况,决定下一时刻无人车选择目标趋向或障碍物躲避行为,算法流程如图1所示;
在目标趋向行为中,无人车的目标路径以GPS轨迹点的形式存储,无人车运行时,根据差分GPS设备采集的实时位置信息,查找下一时刻目标点位置,计算出所需方向盘转角,由无人车执行机构进行执行;
在障碍躲避行为中,单线激光雷达安装于车辆正前方,并置于合适的位置高度,扫描车辆前方50米范围内的障碍物,得到对应高度二维平面中障碍物的距离和方位信息;提取障碍物特征参数,包括障碍物方位、相对距离、相对速度,作为系统状态输入到强化学习模块。
在强化学习模块,首先将连续动作空间离散为确定数目的离散动作,然后利用概率型支持向量分类机对系统的连续状态-离散动作对按TD误差标准进行正负分类,对判定为正类的离散动作进行加权求和,进而得到实际作用于无人车的连续动作,即连续的方向盘转角。
本发明采用了一种新的学习算法开发无人车避障系统,它的先进性在于无人车通过不断接收传感器数据的同时智能规划避障路径,无需进行人工经验编程来设定控制算法,从而实现高效躲避障碍物并到达目的地。相比于传统的避障算法,该算法对新环境的自适应性强,具有广阔的应用前景。
附图说明
图1为无人车避障流程图。
图2为激光雷达扫描区域示意图。
图3为概率型支持向量机算法流程图。
具体实施方式
下面对本发明作进一步详细说明。
实施例1
LMS151是无人车上常用的一款单线激光雷达,该雷达的主要特点为:大范围监控,最大可达270°的扫描角度,角度分辨率为0.5°;最远扫描距离为50米,10%反射率的前提下,扫描距离可达18米;扫描频率为50Hz;体积小、重量轻,具有多回波技术,具有自检功能。
将激光雷达安装于车辆正前方车牌位置处,设置单线激光雷达的扫描角度为180°,并且将扫描区域分成8个部分,每部分角度为22.5°,依次标号为区域1、区域2……区域8,如图2所示。
根据激光雷达扫描到的数据进行状态判断,当区域3、区域4、区域5、区域6中有区域检测到障碍物存在时,无人车选择避障行为,否则认为车辆行驶轨迹中没有障碍物存在,无人车选择目标趋向行为。
在目标趋向行为中,无人车以GPS点的形式存储目标轨迹,包括点的序号、经度、纬度、高度、航向角、速度等信息。
无人车通过差分GPS设备获得实时位置信息,在目标轨迹中寻找最近目标点,根据预瞄理论,并结合实际车速及道路曲率信息,向前预瞄一定距离,找到对应的预瞄点。
无人车根据实际点和预瞄点的位置信息、航向信息,计算实际轨迹和目标轨迹的角度偏差和距离偏差,通过模糊PID方法计算方向盘角度,输出到执行机构,使无人车趋向目标点。
设置无人车的GPS采样频率,一般为10Hz,即无人车1秒计算10次方向盘转角,调整车辆方向,基本能满足车辆实时性要求。
当激光雷达扫描区域3、区域4、区域5、区域6中检测到障碍物时,无人车选择障碍躲避行为。
在障碍躲避行为中,无人车采集8个区域中障碍物信息,分别输出障碍物方位、障碍物距离、障碍物相对速度信息,即(θi,di,vi)(i=1,2,...,8)。如果没有检测到障碍物,输出障碍物距离为50,相对速度为0。
车辆速度为V,作为连续状态值输入。
将雷达检测到的8组数据及实际车速V共9个信息作为状态输入,输入到强化学习模型,进行Q值更新,然后输出离散动作对应概率值。
由于无人车的状态空间是连续,如果采用传统lookup表格方法,即利用表格来表示Q函数,当环境的状态集合S与智能系统可能的动作集合A较大时,Q(s,a)需要占用大量的内存单元,而且也不具有泛化能力。
支持向量机泛化能力出众,将支持向量机与Q学习相结合,其基本思想是:首先将连续动作空间离散为确定数目的离散动作,然后利用概率型支持向量分类机对系统的连续状态-离散动作对按TD误差标准进行正负分类,对判定为正类的离散动作进行加权求和,进而得到实际作用于系统的连续动作。
基于概率型支持向量分类机的Q学习如图3所示。其中,st表示t时刻9维系统状态,包括激光了雷达扫描的8个区域及车速信息,待选动作集A={aj|j=1,2,…,K},K为待选动作的个数。
一般汽车转向轮的转角范围是[-30°,30°],并且考虑到车辆大多数情况都是小角度转动,因此将其离散为11个离散动作{-30°、-20°、-15°、-10°、-5°、0°、5°、10°、15°、20°、30°},其中负角度表示左转,正角度表示右转。
考虑到方向盘转角与车轮转角的比例关系,将方向盘转角离散为11个动作{-600°、-400°、-300°、-200°、-100°、0°、100°、200°、300°、400°、600°},同理,负角度表示左转,正角度表示右转。;
将系统的9维状态与11个待选动作分别配对,构成状态-动作对(st,aj)顺序输入给概率型支持向量分类机,其输出pj为(st,aj)属于正类的概率值。
然后对判定为正类的离散动作(pj>0.5)按其概率值进行加权求和,即可得到实际作用于系统的连续动作at,即连续的方向盘转角,如下式所示:
环境在动作at的作用下,得到立即回报rt,由下式计算系统的TD误差,根据TD误差判断(st,aj)的类别标签yt,进而得到概率型支持向量分类机新的训练样本((st,aj),yt)。
δ=rt+γQ(st+1)-Q(st)
由于强化学习强调在与环境的交互中学习,不需要环境模型而实现无导师的在线学习。因此概率型支持向量分类机模型的训练样本需要通过强化学习系统不断地与环境交互而顺序生成,如果将新增样本与已有样本合并后处理,一方面会增加学习的难度,另一方面也因样本集过大而消耗过多的时间和存储空间。
为此,引入滚动时间窗机制实现概率型支持向量分类机模型的在线学习,即在强化学习系统学习的同时获取样本数据并进行概率型支持向量分类机模型的训练。建立一个随时间窗滚动的建模数据区间,并保持该区间长度L不变,随着新数据((st,aj),yt)的不断加入,旧数据则从建模区间滚动出去。
强化学习的目的是使智能体获得的奖赏和最大。奖赏函数往往是确定的、客观的,为策略的选择提供依据,即告诉智能体选择什么动作是好的、什么是坏的。为了提高学习收敛速度,要求奖赏函数能够及时并且准确地对系统的学习进程进行描述。因此,如何设计奖赏函数已成为强化学习的关键。根据奖赏值在状态-奖赏空间中的分布情况,把奖赏函数分为两种形式:密集奖赏函数和稀疏奖赏函数。
为了提高系统精度,设计密集型奖赏函数,形式如下:
rt=k1*(|θt|-|θt-1|)+k2*(dt*|sinθt|-dt-1*sinθt-1)
其中,k1、k2为加权系数,第一项k1*(|θt|-|θt-1|)表示考虑与障碍物角度的奖赏值,第二项k2*(d*|sinθt|)表示考虑与障碍物横向距离的奖赏值。
θ与d选择危险障碍物的角度与距离,即与无人车最近的障碍物,及dt=min(d1,d2...,d8),θ为障碍物对应的角度。
在训练阶段,利用概率型支持向量机Q学习,无人车在仿真环境或实际环境中不断学习,调整系统参数,直至收敛为止。训练结束后,可以进行测试,看训练的效果是否足够好。
Claims (7)
1.一种基于强化学习的无人车避障系统,其特征在于,系统包括感知部分、决策部分、控制部分与执行部分,感知部分通过单线激光雷达对障碍物区域进行检测,实现障碍物信息获取,决策部分根据障碍物检测情况,决定无人车下一时刻是否需要避障,如果需要,控制部分将感知部分的状态信息输入强化学习模型,模型经过试错学习,收敛到稳定状态,计算出无人车所需的方向盘转角,由无人车执行部分执行,从而实现避障功能。
2.一种基于强化学习的无人车避障方法,其特征在于,将无人车行为分目标趋向及障碍躲避两大类,决策层根据障碍物检测情况,决定下一时刻无人车选择目标趋向或障碍物躲避行为。
3.根据权利要求2所述的基于强化学习的无人车避障方法,其特征在于,在所述目标趋向行为中,无人车的目标路径以GPS轨迹点的形式存储,无人车运行时,根据差分GPS设备采集的实时位置信息,查找下一时刻目标点位置,计算出所需方向盘转角,由无人车执行机构进行执行。
4.根据权利要求2所述的基于强化学习的无人车避障方法,其特征在于,在所述障碍躲避行为中,单线激光雷达安装于车辆正前方,并置于合适的位置高度,扫描车辆前方50米范围内的障碍物,得到对应高度二维平面中障碍物的距离和方位信息;提取障碍物特征参数,包括障碍物方位、相对距离、相对速度,作为系统状态输入到强化学习模块,在强化学习模块,支持向量机与Q学习相结合,首先将连续动作空间离散为确定数目的离散动作,然后利用概率型支持向量分类机的Q学习对系统的连续状态-离散动作对按TD误差标准进行正负分类,对判定为正类的离散动作进行加权求和,进而得到实际作用于无人车的连续动作,即连续的方向盘转角。
5.根据权利要求4所述的基于强化学习的无人车避障方法,其特征在于,基于概率型支持向量分类机的Q学习,其中,st表示t时刻系统状态,包括激光雷达扫描的区域及车速信息,待选动作集A={aj|j=1,2,…,K},K为待选动作的个数,将方向盘转角离散为多个动作,其中负角度表示左转,正角度表示右转,将系统的系统状态与待选动作分别配对,构成状态-动作对(st,aj)顺序输入给概率型支持向量分类机,其输出pj为(st,aj)属于正类的概率值,
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
<mi> </mi>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>></mo>
<mn>0.5</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
<mi> </mi>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&le;</mo>
<mn>0.5</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
然后对判定为正类的离散动作(pj>0.5)按其概率值进行加权求和,即可得到实际作用于系统的连续动作at,即连续的方向盘转角,如下式所示:
<mrow>
<msub>
<mi>a</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<mi>a</mi>
<mi>i</mi>
<mi>p</mi>
<mi>j</mi>
<mo>/</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<mi>p</mi>
<mi>j</mi>
</mrow>
环境在动作at的作用下,得到立即回报rt,由下式计算系统的TD误差,根据TD误差判断(st,αj)的类别标签yt,进而得到概率型支持向量分类机新的训练样本((st,aj),yt)。
δ=rt+γQ(st+1)-Q(st)。
6.根据权利要求5所述的基于强化学习的无人车避障方法,其特征在于,基于概率型支持向量分类机的Q学习还包括引入滚动时间窗机制实现概率型支持向量分类机模型的在线学习,即在强化学习系统学习的同时获取样本数据并进行概率型支持向量分类机模型的训练,建立一个随时间窗滚动的建模数据区间,并保持该区间长度L不变,随着新数据((st,αj),yt)的不断加入,旧数据则从建模区间滚动出去。
7.根据权利要求5所述的基于强化学习的无人车避障方法,其特征在于,基于概率型支持向量分类机的Q学习还包括为了提高系统精度,设计密集型奖赏函数,形式如下:
rt=k1*(|θt|-|θt-1|)+k2*(dt*|sinθt|-dt-1*|sinθt-1|)
其中,k1、k2为加权系数,第一项k1*(|θt|-|θt-1|)表示考虑与障碍物角度的奖赏值,第二项k2*(d*|sinθt|)表示考虑与障碍物横向距离的奖赏值,θ与d选择危险障碍物的角度与距离,即与无人车最近的障碍物,及dt=min(d1,d2...,d8),θ为障碍物对应的角度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710408748.9A CN107065890B (zh) | 2017-06-02 | 2017-06-02 | 一种无人车智能避障方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710408748.9A CN107065890B (zh) | 2017-06-02 | 2017-06-02 | 一种无人车智能避障方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107065890A true CN107065890A (zh) | 2017-08-18 |
CN107065890B CN107065890B (zh) | 2020-09-15 |
Family
ID=59615680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710408748.9A Active CN107065890B (zh) | 2017-06-02 | 2017-06-02 | 一种无人车智能避障方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107065890B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491072A (zh) * | 2017-09-05 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 车辆避障方法和装置 |
CN107515607A (zh) * | 2017-09-05 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 用于无人车的控制方法和装置 |
CN107860389A (zh) * | 2017-11-07 | 2018-03-30 | 金陵科技学院 | 机器人室内行走强化学习路径导航算法 |
CN108387866A (zh) * | 2018-01-16 | 2018-08-10 | 南京航空航天大学 | 一种基于强化学习的无人机查找非法广播电台方法 |
CN108710370A (zh) * | 2018-05-28 | 2018-10-26 | 广东工业大学 | 一种无人驾驶汽车的控制方法及系统 |
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制系统 |
CN109508004A (zh) * | 2018-12-10 | 2019-03-22 | 鄂尔多斯市普渡科技有限公司 | 一种用于无人驾驶汽车的障碍物优先等级避让系统及方法 |
CN109521763A (zh) * | 2017-09-18 | 2019-03-26 | 百度(美国)有限责任公司 | 用于自动驾驶车辆的基于约束平滑样条的路径优化 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN109993106A (zh) * | 2019-03-29 | 2019-07-09 | 北京易达图灵科技有限公司 | 避障方法和装置 |
CN110221607A (zh) * | 2019-05-22 | 2019-09-10 | 北京德威佳业科技有限公司 | 一种夹抱式车辆存取agv的控制系统及控制方法 |
CN110239533A (zh) * | 2019-05-08 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 确定车辆的驾驶风险的方法、设备、装置和可读存储介质 |
CN110244701A (zh) * | 2018-03-08 | 2019-09-17 | 通用汽车环球科技运作有限责任公司 | 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置 |
CN110254422A (zh) * | 2019-06-19 | 2019-09-20 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于多目标增强学习及贝塞尔曲线的汽车避障方法 |
CN110488816A (zh) * | 2019-08-06 | 2019-11-22 | 华为技术有限公司 | 自动驾驶纵向规划方法及相关设备 |
US10703370B2 (en) | 2018-08-24 | 2020-07-07 | Ford Global Technologies, Llc | Vehicle action control |
CN112034834A (zh) * | 2019-05-15 | 2020-12-04 | 百度(美国)有限责任公司 | 使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理 |
CN112731920A (zh) * | 2020-12-04 | 2021-04-30 | 北京旷视机器人技术有限公司 | 搬运设备的控制方法、装置、搬运设备及存储介质 |
CN113848938A (zh) * | 2021-10-14 | 2021-12-28 | 西安现代控制技术研究所 | 一种低成本无人驾驶汽车避障装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354587A (zh) * | 2008-09-04 | 2009-01-28 | 湖南大学 | 一种未知环境下移动机器人多行为融合自动导航方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
-
2017
- 2017-06-02 CN CN201710408748.9A patent/CN107065890B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354587A (zh) * | 2008-09-04 | 2009-01-28 | 湖南大学 | 一种未知环境下移动机器人多行为融合自动导航方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
Non-Patent Citations (2)
Title |
---|
JIE SHAO,ETC: "A Multi-Robot Path Planning Method under Narrow Environments", 《ARTIFICIAL INTELLIGENCE AND ROBOTICS RESEARCH》 * |
吴南: "未知环境下移动机器人的避障路径规划", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491072B (zh) * | 2017-09-05 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 车辆避障方法和装置 |
CN107515607A (zh) * | 2017-09-05 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 用于无人车的控制方法和装置 |
WO2019047646A1 (zh) * | 2017-09-05 | 2019-03-14 | 百度在线网络技术(北京)有限公司 | 车辆避障方法和装置 |
CN107491072A (zh) * | 2017-09-05 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 车辆避障方法和装置 |
CN109521763A (zh) * | 2017-09-18 | 2019-03-26 | 百度(美国)有限责任公司 | 用于自动驾驶车辆的基于约束平滑样条的路径优化 |
CN107860389A (zh) * | 2017-11-07 | 2018-03-30 | 金陵科技学院 | 机器人室内行走强化学习路径导航算法 |
CN108387866A (zh) * | 2018-01-16 | 2018-08-10 | 南京航空航天大学 | 一种基于强化学习的无人机查找非法广播电台方法 |
CN108387866B (zh) * | 2018-01-16 | 2021-08-31 | 南京航空航天大学 | 一种基于强化学习的无人机查找非法广播电台方法 |
CN110244701A (zh) * | 2018-03-08 | 2019-09-17 | 通用汽车环球科技运作有限责任公司 | 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置 |
CN108710370A (zh) * | 2018-05-28 | 2018-10-26 | 广东工业大学 | 一种无人驾驶汽车的控制方法及系统 |
CN108710370B (zh) * | 2018-05-28 | 2021-03-16 | 广东工业大学 | 一种无人驾驶汽车的控制方法及系统 |
US10703370B2 (en) | 2018-08-24 | 2020-07-07 | Ford Global Technologies, Llc | Vehicle action control |
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制系统 |
CN109508004A (zh) * | 2018-12-10 | 2019-03-22 | 鄂尔多斯市普渡科技有限公司 | 一种用于无人驾驶汽车的障碍物优先等级避让系统及方法 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN109740741B (zh) * | 2019-01-09 | 2023-07-25 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN109933086B (zh) * | 2019-03-14 | 2022-08-30 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN109993106A (zh) * | 2019-03-29 | 2019-07-09 | 北京易达图灵科技有限公司 | 避障方法和装置 |
CN110239533A (zh) * | 2019-05-08 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 确定车辆的驾驶风险的方法、设备、装置和可读存储介质 |
CN112034834A (zh) * | 2019-05-15 | 2020-12-04 | 百度(美国)有限责任公司 | 使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理 |
CN110221607A (zh) * | 2019-05-22 | 2019-09-10 | 北京德威佳业科技有限公司 | 一种夹抱式车辆存取agv的控制系统及控制方法 |
CN110254422B (zh) * | 2019-06-19 | 2021-02-12 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于多目标增强学习及贝塞尔曲线的汽车避障方法 |
CN110254422A (zh) * | 2019-06-19 | 2019-09-20 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于多目标增强学习及贝塞尔曲线的汽车避障方法 |
CN110488816A (zh) * | 2019-08-06 | 2019-11-22 | 华为技术有限公司 | 自动驾驶纵向规划方法及相关设备 |
CN112731920A (zh) * | 2020-12-04 | 2021-04-30 | 北京旷视机器人技术有限公司 | 搬运设备的控制方法、装置、搬运设备及存储介质 |
CN113848938A (zh) * | 2021-10-14 | 2021-12-28 | 西安现代控制技术研究所 | 一种低成本无人驾驶汽车避障装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107065890B (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107065890A (zh) | 一种无人车智能避障方法及系统 | |
US11726477B2 (en) | Methods and systems for trajectory forecasting with recurrent neural networks using inertial behavioral rollout | |
CN112356830B (zh) | 一种基于模型强化学习的智能泊车方法 | |
Bai et al. | Intention-aware online POMDP planning for autonomous driving in a crowd | |
CN108820157B (zh) | 一种基于强化学习的船舶智能避碰方法 | |
Ostafew et al. | Learning-based nonlinear model predictive control to improve vision-based mobile robot path-tracking in challenging outdoor environments | |
Xia et al. | Neural inverse reinforcement learning in autonomous navigation | |
US10696300B2 (en) | Vehicle tracking | |
CN107063280A (zh) | 一种基于控制采样的智能车辆路径规划系统及方法 | |
CN107609633A (zh) | 车联网复杂网络中基于深度学习的车辆行驶影响因素的位置预测模型构造方法 | |
CN107479547B (zh) | 基于示教学习的决策树行为决策算法 | |
CN109466552A (zh) | 智能驾驶车道保持方法及系统 | |
Arefnezhad et al. | Modeling of double lane change maneuver of vehicles | |
Masmoudi et al. | Autonomous car-following approach based on real-time video frames processing | |
Jaafra et al. | Robust reinforcement learning for autonomous driving | |
Lodh et al. | Autonomous vehicular overtaking maneuver: A survey and taxonomy | |
US20230192126A1 (en) | Method and system for expanding the operational design domain of an autonomous agent | |
CN115107948A (zh) | 一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法 | |
Hu et al. | An experience aggregative reinforcement learning with multi-attribute decision-making for obstacle avoidance of wheeled mobile robot | |
Silva et al. | Continuous deep maximum entropy inverse reinforcement learning using online POMDP | |
Hjaltason | Predicting vehicle trajectories with inverse reinforcement learning | |
Ten Kathen et al. | Autonomous monitoring system for water resources based on PSO and Gaussian process | |
CN117350175B (zh) | 人工智能生态因子空气环境质量监测方法及系统 | |
Dey et al. | Co-Optimizing Sensing and Deep Machine Learning in Automotive Cyber-Physical Systems | |
CN112578389B (zh) | 一种多源融合的rov实时路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |