CN105137967B - 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 - Google Patents

一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 Download PDF

Info

Publication number
CN105137967B
CN105137967B CN201510420223.8A CN201510420223A CN105137967B CN 105137967 B CN105137967 B CN 105137967B CN 201510420223 A CN201510420223 A CN 201510420223A CN 105137967 B CN105137967 B CN 105137967B
Authority
CN
China
Prior art keywords
mrow
msub
mfrac
environment
msubsup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510420223.8A
Other languages
English (en)
Other versions
CN105137967A (zh
Inventor
于乃功
默凡凡
阮晓钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510420223.8A priority Critical patent/CN105137967B/zh
Publication of CN105137967A publication Critical patent/CN105137967A/zh
Application granted granted Critical
Publication of CN105137967B publication Critical patent/CN105137967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法,该方法包括深度自动编码器部分,BP神经网络部分,强化学习部分。深度自动编码器部分主要采用深度自动编码器处理机器人所处环境的图像,获得图像数据的特征,为后续实现对环境的认知打下基础。BP神经网络部分主要实现奖励值与图像特征数据的拟合,实现深度自动编码器与强化学习的结合。Q学习算法通过与环境交互学习,在行动‑评价的环境中获得知识,改进行动方案以适应环境达到预想目的。机器人通过与环境的交互实现自主学习,最终找到从起始点到达终点的可行路径。本发明提高了系统处理图像的能力,通过深度自动编码器与BP神经网络结合可实现对环境的认知。

Description

一种深度自动编码器与Q学习算法相结合的移动机器人路径 规划方法
技术领域
本发明涉及一种将深度自动编码器与Q学习算法相结合的移动机器人路径规划方法,属于机器人路径规划领域。
背景技术
路径规划是移动机器人领域的基础问题。移动机器人路径规划是指在有障碍物的工作环境中,如何寻找一条从给定起点到终点的适当的运动路径,使机器人在运动过程中能安全、无碰地绕过所有障碍物。
随着机器人技术的发展,机器人己开始应用到未知环境,与已知环境下的移动机器人路径规划研究相比,对于未知环境的探索带来了新的挑战。由于在未知环境下,机器人不具有环境的先验知识,移动机器人在路径规划过程中不可避免的会遇到各式各样的障碍物,因此,如何提高移动机器人对环境的自学习和自适应能力具有非常重要的实际意义。
移动机器人路径规划方法可分为基于模版匹配的路径规划技术、基于人工势场的路径规划技术、基于地图构建的路径规划技术和基于人工智能的路径规划技术。基于人工智能的路径规划技术是将现代人工智能技术应用到移动机器人的路径规划中,如强化学习、人工神经网络、进化计算、模糊逻辑与信息融合等。其中强化学习又称再励学习、增强学习,是一种实时、在线的学习方法,通过试错的方法不断获得先验知识,根据这些知识来改变行动策略实现到达目标的目的。强化学习是一种赋予智能体学习自适应能力的方法。
强化学习在机器人控制领域得到广泛重视,一些现有方法将强化学习与其他机器学习算法结合实现机器人的控制,如将模糊逻辑与强化学习算法结合实现移动机器人的导航;将高斯过程与基于模型的策略搜索强化学习结合实现机器人的控制;或将人工神经网络与强化学习结合实现移动机器人在特定任务中的路径规划。
但要把基于强化学习的路径规划应用在真实环境中,系统必须能很好的处理图像数据。以上方法均需人工处理图像。传统地人工提取图像特征是一件非常费力、启发式(需要专业知识)的方法,能不能选取好的特征很大程度上靠经验和运气,而且它的调节需要大量的时间。
发明内容
针对上述问题本发明将深度学习中的深度自动编码器与强化学习中的Q学习算法结合,本发明可通过深度自动编码器自主提取环境图像特征,完成对原始图像的处理,实现对环境的认知,具有很强的图像处理能力,可应用于机器人的路径规划。
本发明采用如下技术方案。它包括深度自动编码器部分,BP神经网络部分,强化学习部分。深度自动编码器部分主要采用深度自动编码器处理机器人所处环境的图像,获得图像数据的特征,为后续实现对环境的认知打下基础。图1是一个具有n层网络的深度自动编码器。输入图像数据,通过一层层网络提取图像特征,最终得到可以代表图像的最主要的特征。图2是每层网络提取图像特征的过程,其思想是堆叠多个层(s1,s2,…,sn),令每一层的输出等于输入。输入经过编码器产生一个输出,这个输出经过解码器解码后是原输入信号的复现。以重建的输入与原输入的差最小为原则调节参数,参数调节好后去掉解码器,即得到一个隐藏层,固定此层参数,将此层的输出作为下一层的输入训练下一层。
本发明中在深度自动编码器加入了稀疏限制其中s2是隐层神经元的数目;ρ是稀疏参数,通常被设为一个很小的接近于0的值;ρj表示某一层网络节点输出值的平均值(j=1、2、3﹒﹒﹒sl,sl为某一层网络的节点数)。加入稀疏限制可保证当隐含层神经元的数量很大时,自动编码器依然能发现输入数据的结构性特征。
BP神经网络部分主要实现奖励值与图像特征数据的拟合,实现深度自动编码器与强化学习的结合。BP神经网络主要包括三个部分:输入部、训练部、输出部。输入部接收外来的输入样本X,由训练部进行网络的权系数W调整,然后由输出部输出结果。在这个过程中,期望的输出信号可以作为教师信号输入,由该教师信号与实际输出进行比较,产生的误差去控制修改权系数W。
通过深度自动编码器提取图像特征,再将提取的特征经BP神经网络拟合可实现对环境的认知。
强化学习部分基于以上网络的输出结果实现机器人的路径规划,本发明采用的是强化学习中的Q学习算法。Q学习算法通过与环境交互学习,在行动-评价的环境中获得知识,改进行动方案以适应环境达到预想目的。强化学习框图如图3,agent感知周围环境状态,根据Q学习算法选择相应的动作,agent执行完动作后会作用于环境使环境发生改变,同时返回一个奖赏信号给agent。机器人通过与环境的交互实现自主学习,最终找到从起始点到达终点的可行路径。
本发明的有益效果在于提高了系统处理图像的能力。传统的提取图像特征需经过图像预处理、特征提取、特征选择,耗时耗力,而本发明可直接处理原始图像数据,自主提取良好的特征,无需经过上述步骤。通过深度自动编码器与BP神经网络结合可实现对环境的认知。
附图说明
图1为深度自动编码器网络结构。
图2为深度自动编码器某一层训练过程。
图3为Q学习框图。
图4为整体系统框图。
图5为收敛后机器人行走路径。
图6为系统收敛前机器人行走过程(从左到右)。
图7为系统收敛后机器人行走过程。
图8为系统收敛前到收敛后行走步数。
具体实施方式
下面结合图4~7对本发明做进一步说明:
整体系统框图如图4所示,深度自动编码器处理机器人所处环境信息(即机器人所处环境的图像),获取图像特征数据;所得环境特征数据通过BP神经网络的拟合得到机器人所处位置,实现对周围环境的认知,进而得到相应的奖励值R;Q学习算法通过奖励值R改变相应的Q值,Q学习算法再根据Q值选择移动机器人要执行的动作,使机器人所处的位置发生变化,从而其周围环境变化,实现与环境交互。
其中深度自动编码器每一层网络的参数更新过程如图2,其每层参数更新规则如公式(1)到(7)所示:
公式(1)、(2)中hW,b(x)是各网络节点的输出;f(z)是输出函数;为l层的节点j与l+1层的节点i之间的连接权重;表示与l+1层与的节点i连接的偏置;x(i)是输入,我们输入一幅图像,先通过(1)、(2)式得到此图像的特征值,即输出f(z)。公式(3)、(4)、(5)中J(W,b)是损失函数,在J(W,b)中hW,b(x)的输入x是得到的原图像的特征值,解码器解码得到复现的原图像,y(i)是期望的输出,即原输入图像,我们的目标是最小化关于w和b的函数J(W,b);KL(ρ||ρj)是稀疏性限制,上文已介绍。公式(6)、(7)中分别为W,b的更新公式,α是0到1之间的参数。通过调节W,b的值,使深度编码器的最终输出经过反解码后最能代表原图像,得到最能代表原图像的特征值。本发明采用梯度下降法与Rprop方法更改各层参数值。
Q-learning算法常采用数值迭代来逼近最优值,其更新规则如公式(8):
公式(8)中α∈[0,1]是学习率,控制学习速度;st,at分别为机器人当前的状态(文中是机器人的位置)和选择的动作值;γ∈[0,1]是折扣因子。由式(1)可知要更新的Q值是由原来的Q值和下一个状态的Q值共同决定,Q值数据传递具有一定的滞后性。假设有任意相连的s1、s2、s3三种状态,状态s1要获得状态s3的Q值反馈需要2次重复训练循环,为改善数据传递滞后性采用基于“回溯”思想的Q值更新策略。
数值更新过程如下:
第一步训练s0←s1
第二步训练s0←s1←s2
第三步训练s0←s1←s2←s3
………
第n步训练s0←s1←s2←……←sn-1←sn
由以上数据更新过程可知,后续动作产生的影响可快速反馈给当前的状态,一定程度上改善了Q学习过程中数据传递的滞后性。
采用本发明方法我们实现了对移动机器人的路径规划并进行了仿真,结果如图5所示,机器人从起始点找到了到终点的可行路径。系统收敛前机器人在环境中盲目行走,对周围环境没有一定的判别能力,任意行走。如图6,图中前驱状态和后继状态是机器人在环境中的坐标,动作值分为1、2、3、4、5,分别代表机器人向右走、向上走、向左走、向下走、停在原地。经算法演绎,系统收敛后,机器人对周围环境有了一定判断能力,能直接找到一条从起点到终点的可行路径,如图7和图8所示。图8中纵坐标表示每次从起点走到终点的步数,横坐标表示迭代次数。此次仿真验证了本发明方法的有效性。

Claims (2)

1.一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法,其特征在于:该方法包括深度自动编码器部分,BP神经网络部分,强化学习部分;深度自动编码器部分采用深度自动编码器处理机器人所处环境的图像,获得图像数据的特征,为后续实现对环境的认知打下基础;输入图像数据,通过一层层网络提取图像特征,最终得到可以代表图像的最主要的特征;每层网络提取图像特征的过程,其思想是堆叠多个层(s1,s2,…,sn),令每一层的输出等于输入;输入经过编码器产生一个输出,这个输出经过解码器解码后是原输入信号的复现;以重建的输入与原输入的差最小为原则调节参数,参数调节好后去掉解码器,即得到一个隐藏层,固定此层参数,将此层的输出作为下一层的输入训练下一层;
本方法中在深度自动编码器加入了稀疏限制其中s2是隐含层神经元的数目;ρ是稀疏参数被设为一个很小的接近于0的值;ρj表示某一层网络节点输出值的平均值,j=1、2、3﹒﹒﹒sl,sl为某一层网络的节点数;加入稀疏限制可保证当隐含层神经元的数量很大时,自动编码器依然能发现输入数据的结构性特征;
BP神经网络部分实现奖励值与图像特征数据的拟合,实现深度自动编码器与强化学习的结合;BP神经网络包括三个部分:输入部、训练部、输出部;输入部接收外来的输入样本X,由训练部进行网络的权系数W调整,然后由输出部输出结果;在这个过程中,期望的输出信号可以作为教师信号输入,由该教师信号与实际输出进行比较,产生的误差去控制修改权系数W;
通过深度自动编码器提取图像特征,再将提取的特征经BP神经网络拟合可实现对环境的认知;
强化学习部分基于以上网络的输出结果实现机器人的路径规划,本方法采用的是强化学习中的Q学习算法;Q学习算法通过与环境交互学习,在行动-评价的环境中获得知识,改进行动方案以适应环境达到预想目的;强化学习框图中,agent感知周围环境状态,根据Q学习算法选择相应的动作,agent执行完动作后会作用于环境使环境发生改变,同时返回一个奖赏信号给agent;机器人通过与环境的交互实现自主学习,最终找到从起始点到达终点的可行路径。
2.根据权利要求1所述的一种深度自动编码器与Q学习算法相结合的移动机器人路径规划方法,其特征在于:深度自动编码器处理机器人所处环境信息即机器人所处环境的图像,获取图像特征数据;所得环境特征数据通过BP神经网络的拟合得到机器人所处位置,实现对周围环境的认知,进而得到相应的奖励值R;Q学习算法通过奖励值R改变相应的Q值,Q学习算法再根据Q值选择移动机器人要执行的动作,使机器人所处的位置发生变化,从而其周围环境变化,实现与环境交互;
深度自动编码器每一层网络的参数更新过程中,其每层参数更新规则如公式(1)到(7)所示:
<mrow> <msub> <mi>h</mi> <mrow> <mi>W</mi> <mo>,</mo> <mi>b</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mi>z</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>&amp;lsqb;</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <msub> <mi>h</mi> <mrow> <mi>W</mi> <mo>,</mo> <mi>b</mi> </mrow> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>+</mo> <mfrac> <mi>&amp;lambda;</mi> <mn>2</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>n</mi> <mi>l</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>s</mi> <mi>l</mi> </msub> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>&amp;rho;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>&amp;rho;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;beta;</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>s</mi> <mn>2</mn> </msub> </munderover> <mrow> <mo>(</mo> <mi>&amp;rho;</mi> <mi>log</mi> <mfrac> <mi>&amp;rho;</mi> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> </mfrac> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&amp;rho;</mi> </mrow> <mo>)</mo> <mi>log</mi> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>&amp;rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mo>&amp;lsqb;</mo> <msubsup> <mi>a</mi> <mi>j</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mi>&amp;alpha;</mi> <mfrac> <mo>&amp;part;</mo> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>b</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mi>&amp;alpha;</mi> <mfrac> <mo>&amp;part;</mo> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
公式(1)、(2)中hW,b(x)是各网络节点的输出;f(z)是输出函数;为l层的节点j与l+1层的节点i之间的连接权重;表示与l+1层的节点i连接的偏置;x(i)是输入,输入一幅图像,先通过(1)、(2)式得到此图像的特征值,即输出f(z);公式(3)、(4)、(5)中J(W,b)是损失函数,在J(W,b)中hW,b(x)的输入x是得到的原图像的特征值,解码器解码得到复现的原图像,y(i)是期望的输出,即原输入图像,目标是最小化关于w和b的函数J(W,b);KL(ρ||ρj)是稀疏性限制,上文已介绍;公式(6)、(7)中分别为W,b的更新公式,α是0到1之间的参数;通过调节W,b的值,使深度编码器的最终输出经过反解码后最能代表原图像,得到最能代表原图像的特征值;本方法采用梯度下降法与Rprop方法更改各层参数值;
Q-learning算法采用数值迭代来逼近最优值,其更新规则如公式(8):
<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>&amp;lsqb;</mo> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&amp;gamma;</mi> <munder> <mi>max</mi> <mi>a</mi> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>
公式(8)中α∈[0,1]是学习率,控制学习速度;st,at分别为机器人当前的状态即机器人的位置和机器人当前的选择的动作值;γ∈[0,1]是折扣因子;由式(1)可知要更新的Q值是由原来的Q值和下一个状态的Q值共同决定,Q值数据传递具有一定的滞后性;若有任意相连的s1、s2、s3三种状态,状态s1要获得状态s3的Q值反馈需要2次重复训练循环,为改善数据传递滞后性采用基于“回溯”思想的Q值更新策略;
数值更新过程如下:
<mrow> <mtable> <mtr> <mtd> <mrow> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;LeftArrow;</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>&amp;lsqb;</mo> <msub> <mi>R</mi> <mi>k</mi> </msub> <mo>+</mo> <mi>&amp;gamma;</mi> <munder> <mi>max</mi> <mi>a</mi> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>k</mi> <mo>=</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mn>....</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
第一步训练 s0←s1
第二步训练 s0←s1←s2
第三步训练 s0←s1←s2←s3
………
第n步训练 s0←s1←s2←……←sn-1←sn
CN201510420223.8A 2015-07-16 2015-07-16 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 Active CN105137967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510420223.8A CN105137967B (zh) 2015-07-16 2015-07-16 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510420223.8A CN105137967B (zh) 2015-07-16 2015-07-16 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Publications (2)

Publication Number Publication Date
CN105137967A CN105137967A (zh) 2015-12-09
CN105137967B true CN105137967B (zh) 2018-01-19

Family

ID=54723342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510420223.8A Active CN105137967B (zh) 2015-07-16 2015-07-16 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN105137967B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506104A (zh) * 2020-04-03 2020-08-07 北京邮电大学 一种规划无人机位置的方法及装置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105444766B (zh) * 2015-12-16 2018-04-10 清华大学 基于深度学习的室内导航方法
CN105700526B (zh) * 2016-01-13 2018-07-27 华北理工大学 具有自主学习能力的在线序列极限学习机方法
CN105690392B (zh) * 2016-04-14 2017-11-28 苏州大学 基于行动者‑评论家方法的机器人运动控制方法和装置
CN105955921B (zh) * 2016-04-18 2019-03-26 苏州大学 基于自动发现抽象动作的机器人分层强化学习初始化方法
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
CN106444738B (zh) * 2016-05-24 2019-04-09 武汉科技大学 基于动态运动基元学习模型的移动机器人路径规划方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
WO2018058509A1 (en) * 2016-09-30 2018-04-05 Intel Corporation Dynamic neural network surgery
CN106970615B (zh) * 2017-03-21 2019-10-22 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN108628904B (zh) * 2017-03-23 2021-03-02 北京嘀嘀无限科技发展有限公司 一种路径编码、相似路径检索方法及装置和电子设备
CN107092254B (zh) * 2017-04-27 2019-11-29 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107292392B (zh) * 2017-05-11 2019-11-22 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN110574048B (zh) * 2017-06-09 2023-07-07 渊慧科技有限公司 训练动作选择神经网络
CN107367929B (zh) * 2017-07-19 2021-05-04 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN107403049B (zh) * 2017-07-31 2019-03-19 山东师范大学 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统
CN107911299B (zh) * 2017-10-24 2020-12-29 浙江工商大学 一种基于深度q学习的路由规划方法
US10695911B2 (en) 2018-01-12 2020-06-30 Futurewei Technologies, Inc. Robot navigation and object tracking
CN108459614B (zh) * 2018-01-17 2020-12-04 哈尔滨工程大学 一种基于cw-rnn网络的uuv实时避碰规划方法
US11688160B2 (en) 2018-01-17 2023-06-27 Huawei Technologies Co., Ltd. Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
CN108445752B (zh) * 2018-03-02 2021-08-17 北京工业大学 一种自适应选择深度特征的随机权神经网络集成建模方法
CN108393892B (zh) * 2018-03-05 2020-07-24 厦门大学 一种机器人前馈力矩补偿方法
CN108415254B (zh) * 2018-03-12 2020-12-11 苏州大学 基于深度q网络的废品回收机器人控制方法
CN108523768B (zh) * 2018-03-12 2020-09-18 苏州大学 基于自适应策略优化的家庭清洁机器人控制系统
CN108762249B (zh) * 2018-04-26 2019-11-08 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108667734B (zh) * 2018-05-18 2020-12-08 南京邮电大学 一种基于q学习和lstm神经网络的快速路由决策方法
CN108873687B (zh) * 2018-07-11 2020-06-26 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109445440B (zh) * 2018-12-13 2022-03-22 重庆邮电大学 基于传感器融合与改进q学习算法的动态避障方法
CN109726676B (zh) * 2018-12-28 2020-07-07 苏州大学 自动驾驶系统的规划方法
CN111401564A (zh) * 2019-01-02 2020-07-10 北京地平线信息技术有限公司 用于机器学习的模型更新方法、装置、电子设备及存储介质
CN110631596B (zh) * 2019-04-23 2020-06-02 太原理工大学 一种基于迁移学习的装备车辆路径规划方法
CN110378439B (zh) * 2019-08-09 2021-03-30 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN110530371B (zh) * 2019-09-06 2021-05-18 电子科技大学 一种基于深度强化学习的室内地图匹配方法
CN113111296A (zh) * 2019-12-24 2021-07-13 浙江吉利汽车研究院有限公司 一种车辆的路径规划方法、装置、电子设备及存储介质
CN112987742B (zh) * 2021-02-08 2022-08-26 扬州大学 一种机器人路径规划方法和规划系统
CN113625716B (zh) * 2021-08-12 2023-06-16 西安电子科技大学 一种多智能体动态路径规划方法
CN114721397A (zh) * 2022-04-19 2022-07-08 北方工业大学 一种基于强化学习和好奇心的迷宫机器人路径规划方法
CN117409486B (zh) * 2023-12-15 2024-04-12 深圳须弥云图空间科技有限公司 基于视觉的动作生成方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Autonomous reinforcement learning on raw visual input data in a real world application;LANGE S,et al.;《The 2012 International Joint Conference on Neural Networks (IJCNN)》;20121231;全文 *
Deep auto-encoder neural networks in reinforcement learning;LANGE S,et al.;《The 2010 International Joint Conference on Neural Networks(IJCNN)》;20101231;全文 *
一种基于混合学习策略的移动机器人路径规划方法;郜园园 等;《控制与决策》;20121231;第27卷(第12期);全文 *
基于神经网络的强化学习在避障中的应用;乔俊飞 等;《清华大学学报(自然科学版)》;20081231;第48卷(第S2期);全文 *
未知环境下基于有先验知识的滚动Q学习机器人路径规划;胡俊 等;《控制与决策》;20100930;第25卷(第9期);全文 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506104A (zh) * 2020-04-03 2020-08-07 北京邮电大学 一种规划无人机位置的方法及装置
CN111506104B (zh) * 2020-04-03 2021-10-01 北京邮电大学 一种规划无人机位置的方法及装置

Also Published As

Publication number Publication date
CN105137967A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN105137967B (zh) 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
Li et al. Infogail: Interpretable imitation learning from visual demonstrations
CN107102644B (zh) 基于深度强化学习的水下机器人轨迹控制方法及控制系统
CN113110509B (zh) 一种基于深度强化学习的仓储系统多机器人路径规划方法
US20200372822A1 (en) Training system for autonomous driving control policy
CN111141300A (zh) 基于深度强化学习的智能移动平台无地图自主导航方法
CN108762281A (zh) 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN106874914A (zh) 一种基于深度卷积神经网络的工业机械臂视觉控制方法
CN106529818B (zh) 基于模糊小波神经网络的水质评价预测方法
Xiang et al. Task-oriented deep reinforcement learning for robotic skill acquisition and control
CN111898770B (zh) 一种多智能体强化学习方法、电子设备及存储介质
Levine Exploring deep and recurrent architectures for optimal control
US20220176554A1 (en) Method and device for controlling a robot
CN109726676A (zh) 自动驾驶系统的规划方法
US20230144995A1 (en) Learning options for action selection with meta-gradients in multi-task reinforcement learning
CN106408084A (zh) 一种知识与数据混合驱动的二型模糊神经网络设计方法
CN107255920A (zh) 基于网络优化算法的pid控制方法和装置及系统
CN107481250A (zh) 一种图像分割方法及其评价方法和图像融合方法
CN108594803A (zh) 基于q-学习算法的路径规划方法
Wang et al. Robot path planning via neural-network-driven prediction
CN112634019A (zh) 基于细菌觅食算法优化灰色神经网络的违约概率预测方法
CN110281949A (zh) 一种自动驾驶统一分层决策方法
Yang et al. A time-saving path planning scheme for autonomous underwater vehicles with complex underwater conditions
CN109800517B (zh) 一种改进的磁流变阻尼器逆向建模方法
Liu et al. Reinforcement learning-based collision avoidance: Impact of reward function and knowledge transfer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant