CN111487864B

CN111487864B - 一种基于深度强化学习的机器人路径导航方法及系统

Info

Publication number: CN111487864B
Application number: CN202010407984.0A
Authority: CN
Inventors: 吕蕾; 周青林; 丁昊; 张凤军; 刘翔
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-04-18
Anticipated expiration: 2040-05-14
Also published as: CN111487864A

Abstract

本发明公开了一种基于深度强化学习的机器人路径导航方法及系统，包括：基于深度强化学习构建双Actor‑Critic神经网络，根据获取的机器人当前运动状态，采用第一Actor‑Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值；以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor‑Critic神经网络进行训练，根据训练后的第二Actor‑Critic神经网络对第一Actor‑Critic神经网络进行更新，以更新后的第一Actor‑Critic神经网络根据机器人当前运动状态输出最优移动动作，以此对机器人进行最优路径的导航。结合深度学习方法的感知能力和强化学习方法的策略能力，找到在机器人当前运动状态下最优的行动策略，在高度复杂的场景中，解决了传统机器人导航依赖障碍地图的局限性。

Description

一种基于深度强化学习的机器人路径导航方法及系统

技术领域

本发明涉及路径规划技术领域，特别是涉及一种基于深度强化学习的机器人路径导航方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

运动规划由路径规划和轨迹规划组成，连接起点位置和终点位置的序列点或曲线称之为路径，构成路径的策略称之为路径规划。机器人的无碰运动，即机器人导航也属于路径规划的一种。传统的路径规划算法包括：模拟退火算法、人工势场法、模糊逻辑算法、禁忌搜索算法等。

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。深度强化学习将两者结合，优势互补，为复杂系统的感知决策问题提供了解决思路。

此外，发明人认为，传统的机器人导航方法主要取决于导航环境的障碍物图，导航过程需要全部或部分的先验环境知识，灵活性较差，局限性较大，不适用于复杂、动态未知的环境；而且由于模拟仿真环境与高度复杂的真实环境之间的巨大差异，将训练好的模型转化为真实机器人导航具有难度。

发明内容

为了解决上述问题，本发明提出了一种基于深度强化学习的机器人路径导航方法及系统，基于深度强化学习构建双Actor-Critic神经网络，包含两对Actor-Critic神经网络，第一Actor-Critic神经网络在导航环境中寻找潜在的行动策略，并将该经验数据对第二Actor-Critic神经网络进行训练，以训练后的参数对第一Actor-Critic神经网络进行更新，边训练边学习边更新的方式便于对机器人移动做出最优决策，实现复杂环境下的机器人路径规划。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于深度强化学习的机器人路径导航方法，包括：

基于深度强化学习构建双Actor-Critic神经网络，根据获取的机器人当前运动状态，采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值；

以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练，根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新，以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作，以此对机器人进行最优路径的导航。

第二方面，本发明提供一种基于深度强化学习的机器人路径导航系统，包括：

初始路径导航模块，用于基于深度强化学习构建双Actor-Critic神经网络，根据获取的机器人当前运动状态，采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值；

路径导航更新模块，用于以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练，根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新，以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作，以此对机器人进行最优路径的导航。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明结合深度学习方法的感知能力和强化学习方法的策略能力，找到在机器人当前运动状态下奖励值最大、最优的行动策略，不需要任何先验知识，在高度复杂的场景中，解决了传统机器人导航依赖障碍地图的局限性。

本发明构建双Actor-Critic神经网络，包含两对Actor-Critic神经网络，第一Actor-Critic神经网络在导航环境中进行探索，寻找潜在的最优策略，并将该经验数据采用经验回放机制对第二Actor-Critic神经网络进行训练，以训练后的参数对第一Actor-Critic神经网络进行更新，边训练边学习边更新的方式便于对机器人移动做出最优决策，实现复杂环境下的机器人路径规划。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于深度强化学习的机器人路径导航方法流程图；

图2为本发明实施例1提供的深度神经网络结构图；

图3为本发明实施例1提供的神经网络训练示意图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种基于深度强化学习的机器人路径导航方法，包括：

S1：基于深度强化学习构建双Actor-Critic神经网络，根据获取的机器人当前运动状态，采用第一Actor-Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值；

S2：以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练，根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新，以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作，以此对机器人进行最优路径的导航。

在本实施例中，对真实环境进行模拟，在模拟环境地图中，对机器人进行路径导航，故根据获取的机器人导航环境参数构建模拟导航地图；

在本实施例中，采用栅格化方法构建模拟导航地图；即采用大小相同的方块表示地图，既有代表道路的方格也有代表障碍物的方格；传统方法是根据地图中障碍物的疏密程度自主决定栅格粒度，而本实施例采用较小的栅格粒度，以使得模拟导航地图对环境信息的表示更加清晰；

在本实施例中，机器人导航环境参数包括机器人起点位置、障碍物位置、导航目的地位置；同时选择以左下角为坐标原点建立机器人移动坐标系，结合真实环境等比缩放建立机器人移动坐标系；

机器人移动坐标系为移动机器人和标注目标位置提供支持，机器人的移动动作是以角速度和线速度表示，目标位置则是以极坐标作为表示；

另外，在本实施例中，机器人起点位置和目的地位置随机分配，因激光测距传感器无法探测机器人背部，故机器人无法后退，即若起始位置和目的地位置相同，机器人则需走一个环路。

所述步骤S1中，如图2所示，基于深度强化学习构建双Actor-Critic神经网络，该网络包括两对参数一致的Actor-Critic神经网络，即为第一Actor-Critic神经网络和第二Actor-Critic神经网络；

在本实施例中，根据机器人携带的激光测距传感器获取机器人当前运动状态，使用10维激光测距结果，对传感器要求不高，该激光测距传感器从原始激光范围发现且以特定角度进行高度抽象采样，保证算法在真实环境的适用性；

所述机器人当前运动状态为激光测距传感器采集的10维激光测距结果、前动作和目标相对位置合并的14维向量；

其中，10维激光测距结果包括机器人当前状态下对10个方向的探测结果；前动作即机器人在当前状态之前的一个步长的速度；目标相对位置即导航的目的地相对于当前状态的位置，在机器人坐标系中以极坐标的形式表示；

该向量数据作为第一Actor-Critic神经网络中Actor神经网络的输入，Actor网络会直接输出机器人当前状态下的初始移动动作，机器人即可执行该动作；

在本实施例中，移动动作包括机器人移动的角速度和线速度。

在本实施例中，采用策略网络Actor是为找出当前运动策略下的最优动作，或奖励最大的动作，策略公式如下：

μ(S_t|θ^μ)＝α_t，

其中，μ(S_t|θ^μ)表示在状态s_t时采用策略μ应该采取的最佳动作a_t；

转换为对于机器人的公式如下：

v_t＝μ(x_t,p_t,v_t-1)，

其中，x_t为10维激光测距结果，v_t-1为之前的动作，p_t为目标相对位置，此输入向量即可作为机器人的当前的瞬时状态s_t，v_t即为在状态s_t时，策略网络给出的最优动作a_t；v_t包括角速度和线速度，考虑到实际的动态特性，本实施例选择0.5m/s作为最大线速度，1rad/s作为最大角速度。

所述步骤S1中，在第一Actor-Critic神经网络的Actor神经网络中输出机器人当前运动状态的初始移动动作，对该初始移动动作采用Critic神经网络进行评价，包括：

(1)设置奖励函数，作为动作价值的评价标准，奖励函数如下：

其中，如果机器人到达目的地，则给予+1的奖励值；如果机器人和障碍物发生碰撞，则给予-1的奖励值；若不符合上述两种情况，则给予一个(d_t-1-d_t)的奖励值，d_t-1代表上一个步长机器人与目的地的距离，d_t代表当前机器人与目的地的距离。

(2)将当前运动状态和Actor输出的初始移动动作合并，即14维+2维的向量作为Critic网络的输入，输出该动作价值，即Q值；依据Q值评判动作的优劣，指导actor网络给出最优动作；

在本实施例中，将每次和模拟导航地图环境交互得到的动作奖励值与运动状态更新情况存储至经验回放池，作为训练第二Actor-Critic神经网络的训练集；

本实施例采用经验回放机制，将机器人与环境交互的信息存储，将样本收集和样本采样分开，打破交互得到的序列的相关性，达到训练样本独立同分布的要求。

本实施例采用强化学习DQN的思想，构建双Actor-Critic神经网络，第一Actor-Critic神经网络对环境进行探索，寻求潜在的最优策略，第二Actor-Critic神经网络根据经验回放池的数据进行训练，依靠第二Actor-Critic神经网络训练后的数据对第一Actor-Critic神经网络进行梯度下降，对参数进行更新后，依据当前状态，在无障碍导航地图的情况下，做出最优决策，执行最优动作，实现复杂环境下的机器人路径规划。

在本实施例中，第二Actor-Critic神经网络采用软更新的方式，即：

θ^Q′←τθ^Q+(1-τ)θ^Q′，

θ^μ′←τθ^μ+(1-τ)θ^μ′，

本实施例更新系数τ取0.001，target网络的参数变化小，比较稳定，训练益于收敛。

在本实施例中，第一Actor-Critic神经网络采用梯度下降的方法进行参数更新，本实施例采用的强化学习Actor-Critic框架，拥有策略网络Actor和评价网络Critic，采用卷积神经网络作为策略函数和Q函数的模拟，即使用深度学习的方法训练策略网络和Q网络；

神经网络的损失函数采取均方误差损失MSE，在计算策略梯度期望时，选择蒙特卡罗法来取无偏估计，使用梯度下降对网络进行训练，进而完成对参数的更新；如图3所示，更新方式如下：

(1)Q函数为：

Q^μ＝E[r(s_t,α_t)+γQ^μ(s_t+1,μ(s_t+1))]，

其中，奖励衰减因子γ取值0.001，采取近乎贪婪的策略，以快速找到最优路径；

(2)策略μ的好坏表示为：

J_β(μ)＝∫_sρ^β(s)Q^μ(s,μ(s))ds＝E_s～ρ ^β[Q^μ(s,μ(s))]，

其中，s是环境的状态或机器人在环境中走过的状态路径，基于机器人的从经验回放池按照策略采样产生的，分布函数pdf为ρ^β；Q^μ(s,μ(s))是在每个状态下，按照μ策略选择移动动作时，能够产生的Q值；即，J_β(μ)是在s根据ρ^β分布时，Q^μ(s,μ(s))的期望值。

本实施例训练的目标：最大化J_β(μ)，同时最小化Q网络的损失Loss；

在本实施例中，训练μ网络的过程，就是寻找μ网络参数θ^μ的最优解的过程，使用SGA(stochastic gradient ascent)的方法；

训练Q网络的过程，就是寻找Q网络参数θ^Q的最优解的过程，使用SGD的方法。

机器人依据更新后的第一Actor-Critic神经网络的指导，执行当前状态下的最优动作，直到到达目的地，完成无障碍地图的机器人路径规划。

实施例2

本实施例提供一种基于深度强化学习的机器人路径导航系统，包括：

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S2，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度强化学习的机器人路径导航方法，其特征在于，包括：

根据获取的机器人导航环境参数，采用栅格化方法构建模拟导航地图；所述机器人导航环境参数包括机器人起点位置、障碍物位置和导航目的地位置；

基于深度强化学习构建双Actor-Critic神经网络，根据获取的机器人当前运动状态，在第一Actor-Critic神经网络的Actor神经网络中输出机器人当前运动状态的初始移动动作，对该初始移动动作采用Critic神经网络进行评价，包括：

其中，如果机器人到达目的地，则给予+1的奖励值；如果机器人和障碍物发生碰撞，则给予-1的奖励值；若不符合上述两种情况，则给予一个(d_t-1-d_t)的奖励值，d_t-1代表上一个步长机器人与目的地的距离，d_t代表当前机器人与目的地的距离；

以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练，根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新，以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作，以此对机器人进行最优路径的导航；

所述根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新，包括：对第一Actor-Critic神经网络采用梯度下降方法进行更新，更新方式如下：

(1)Q函数为：

Q^μ＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))]，

(2)策略μ的好坏表示为：

2.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法，其特征在于，根据机器人携带的激光测距传感器采集10维激光测距信息，结合机器人前动作和目的地相对位置得到机器人当前运动状态。

3.如权利要求1所述的一种基于深度强化学习的机器人路径导航方法，其特征在于，所述机器人当前运动状态和初始移动动作的评价值存储至经验回放池，作为第二Actor-Critic神经网络的训练集，第二Actor-Critic神经网络采用软更新的方法进行训练。

4.一种基于深度强化学习的机器人路径导航系统，其特征在于，包括：

模拟地图构建模块，用于根据获取的机器人导航环境参数，采用栅格化方法构建模拟导航地图；所述机器人导航环境参数包括机器人起点位置、障碍物位置和导航目的地位置；

初始路径导航模块，用于基于深度强化学习构建双Actor-Critic神经网络，根据获取的机器人当前运动状态，在第一Actor-Critic神经网络的Actor神经网络中输出机器人当前运动状态的初始移动动作，对该初始移动动作采用Critic神经网络进行评价，包括：

路径导航更新模块，用于以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor-Critic神经网络进行训练，根据训练后的第二Actor-Critic神经网络对第一Actor-Critic神经网络进行更新，以更新后的第一Actor-Critic神经网络根据机器人当前运动状态输出最优移动动作，以此对机器人进行最优路径的导航；

(1)Q函数为：

Q^μ＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))]，

(2)策略μ的好坏表示为：

5.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-3任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-3任一项所述的方法。