CN113503885B

CN113503885B - 一种基于采样优化ddpg算法的机器人路径导航方法及系统

Info

Publication number: CN113503885B
Application number: CN202110486235.6A
Authority: CN
Inventors: 吕蕾; 赵盼盼; 周青林
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2024-02-20
Anticipated expiration: 2041-04-30
Also published as: CN113503885A

Abstract

本公开提供了一种基于采样优化DDPG算法的机器人路径导航方法，包括以下步骤：智能机器人通过感知器获取外部环境信息，得到初始状态；将初始状态输入基于深度确定性策略梯度算法模型中，引入注意力机制，输出智能机器人初始移动动作，智能机器人执行初始移动动作，得到智能机器人与环境交互的信息；将智能机器人每次和环境交互的信息作为样本存入经验回放池中，在经验回放池中添加样本重要性机制，按照样本的优先级采样，进行动作价值的计算；根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新做出最优决策，实现智能机器人的路径规划。该方法替代了原始的对经验回放池中的数据的随机采样，同时可以达到随机采样可以达到的打破数据之间的时序相关性的作用。

Description

一种基于采样优化DDPG算法的机器人路径导航方法及系统

技术领域

本发明属于机器人路径规划技术领域，主要涉及一种基于采样优化DDPG(深度确定性策略梯度)算法的机器人路径导航方法及系统。

背景技术

随着现代机械制造业和机器人技术的不断发展，智能移动机器人已经在工厂自动化、建筑、军事、服务等领域发挥着非常重要的作用。人们对移动机器人的要求已不仅仅局限于移动，而是在不同的环境中能够自主判断找到一条从起始状态到目标状态的最优或者近似最优路径。近年来，机器人路径导航问题的研究受到了相关研究者的高度重视。

传统的路径规划算法有模拟退火算法、人工势场法、遗传算法等。这些算法虽然有很强的路径搜索能力，但智能机器人在应用于各行各业时所面对的环境也越来越复杂，这就要求路径规划算法面对不同的环境时有很强的应变能力。随着人工智能技术的发展，相关算法被广泛应用到移动机器人路径规划中。

结合强化学习(RL)和深度学习(DL)的深度强化学习算法(DRL)成功解决了在复杂环境中机器人的路径规划问题。强化学习强大的决策能力可以在无地图情况下很好的对智能机器人导航。强化学习要解决的是让机器人在环境中选择一个动作，从而使获得的奖励值总和最大。深度强化学习框架的建立原理是通过深度学习从环境中了解状态信息，并通过强化学习制定行动决策。其中的深度确定性策略梯度算法(DDPG)基于传统强化学习方法的改进，是深度强化学习中的经典算法，可以满足状态空间中高维度动作的输入，在连续控制问题中有很大的优势。近些年来广泛应用于机器人路径导航中。

但是发明人发现，由于深度确定性策略梯度算法在训练过程中存在效率低，难收敛等问题，在实际问题中使用深度确定性策略梯度算法(DDPG)的时候很难发挥作用。DDPG在训练过程中奖励值通常不是稳定在一个稳定值，而是以较大的幅度变化着，因此现有的DDPG算法训练网络稳定性较差，在机器人导航领域应用困难。

发明内容

为了克服上述现有技术的不足，本公开提供了一种基于采样优化DDPG算法的机器人路径导航方法及系统，基于深度确定性策略梯度算法引入了注意力机制，在机器人的经验回放池中引入了样本重要性机制，替代了原始的对经验回放池中的数据的随机采样，同时可以达到随机采样可以达到的打破数据之间的时序相关性的作用。

本公开所采用的技术方案是：

一种基于采样优化DDPG算法的机器人路径导航方法，包括以下步骤：

智能机器人通过感知器获取外部环境信息，得到初始状态；

将初始状态输入基于深度确定性策略梯度算法模型中，引入注意力机制，输出智能机器人初始移动动作，智能机器人执行初始移动动作，得到智能机器人与环境交互的信息；

将智能机器人每次和环境交互的信息作为样本存入经验回放池中，在经验回放池中添加样本重要性机制，按照样本的优先级采样，进行动作价值的计算；

根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新做出最优决策，实现智能机器人的路径规划。

进一步的技术方案，智能机器人执行初始移动动作，得到智能机器人与环境交互的信息，具体包括如下步骤：

采用卷积神经网络，设置三个卷积层，对初始状态进行特征提取，得到初始状态特征；

将初始状态特征输入DDPG的当前Actor神经网络，当前Actor神经网络输出智能机器人初始状态下的初始移动动作；

智能机器人在初始状态特征下执行初始移动动作，得到本次智能机器人与环境交互的信息以及智能机器人执行动作后达到的下一个状态。

进一步的技术方案，将初始状态特征输入当前Actor神经网络的全连接层，全连接层可以将初始状态特征映射到样本标记空间，利用全连接层的映射功能，实现从状态到动作的映射，为智能机器人在特定状态获得相应的动作。

进一步的技术方案，在状态到动作的映射过程为动作添加随机噪声。

进一步的技术方案，所述将样本数据存入经验回放池中，在经验回放池中添加样本重要性机制，具体为：在经验回放池中设置带有优先级的二叉树来存放样本数据，结点用来存放样本数据，结点的值代表优先级的大小，叶子结点值越大的数据，数据的优先级越高，其区间长度越大，数据被采样的概率越大。

进一步的技术方案，所述对样本数据进行采样采用基于二叉树结构对叶子结点做类均匀采样。

进一步的技术方案，所述结点的值即为TD误差的大小，为目标网络计算的Q值与当前网络计算的Q值的欧氏距离。

本说明书实施方式提供一种基于采样优化DDPG算法的机器人路径导航系统，通过以下技术方案实现：

包括：

环境状态获取模块，被配置为：智能机器人通过感知器获取外部环境信息，得到初始状态；

路径导航模块模块，被配置为：将初始状态输入基于深度确定性策略梯度算法模型中，引入注意力机制，输出智能机器人初始移动动作，智能机器人执行初始移动动作，得到智能机器人与环境交互的信息；

路径导航更新模块，被配置为：根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新做出最优决策，实现智能机器人的路径规划。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上所述的一种基于采样优化DDPG算法的机器人路径导航方法。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上所述的一种基于采样优化DDPG算法的机器人路径导航方法。

通过上述技术方案，本公开的有益效果是：

(1)本公开本发明将DDPG算法应用于机器人路径导航，在原有的模型基础上，引入了注意力机制，将机器人所处的状态输入卷积神经网络进行特征提取，对于环境复杂的情况下的路径导航，往往会有高维度的输入，本发明可以有效的简化后续对于样本优先级的计算，提高模型的收敛速度；

(2)本公开在原有的DDPG模型基础上，在机器人的经验回放池中引入了样本重要性机制，通过TD误差来判断样本数据的优先级，通过二叉树结构对数据进行存储，有效提高了优质数据被采样的频率，进而避免了无用数据的计算，提高了模型的效率，同样加快了收敛速度，使机器人可以在较短时间内找到一条合适的路径。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是根据一种或多种实施方式的采样优化DDPG算法的机器人路径导航的方法流程图；

图2是根据一种或多种实施方式的嵌入注意力机制的环境交互模块算法示意图；

图3是根据一种或多种实施方式的基于样本重要性的经验回放池建立的二叉树结构模型示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

名词解释：

(1)采样优化，指的是基于样本重要性对优质数据进行筛选；

(2)样本重要性，指的是样本数据的时间差分(temporal different，TD)误差的重要性。

实施例一

本实施例一公开了一种基于采样优化DDPG算法的机器人路径导航方法，基于深度确定性策略梯度算法(DDPG)，替代了原始的对经验回放池中的数据的随机采样，打破数据之间的时序相关性的作用，同时使用了注意力机制对机器人所处的状态信息进行特征提取，从而降低了在计算优先级时的复杂度，通过以上对模型的改进可以提高训练效率，使模型易收敛。

请参阅附图1，该方法包括以下步骤：

S101，智能机器人通过感知器获取外部环境信息，得到初始状态S；

S102，将初始状态S输入基于深度确定性策略梯度算法模型中，引入注意力机制，输出智能机器人初始移动动作A，智能机器人执行初始移动动作A，得到智能机器人与环境交互的信息；

S103，将智能机器人每次和环境交互的信息作为样本存入经验回放池中，在经验回放池中添加样本重要性机制，按照样本的优先级采样，进行动作价值的计算；

S104，根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新，做出最优决策，实现智能机器人的路径规划。

如图2所示，所述步骤102中，智能机器人执行初始移动动作A，得到智能机器人与环境交互的信息，具体采用如下方式实现：

(2-1)对初始状态S进行特征提取，得到初始状态特征F(S)；

具体的，在将初始状态特征F(S)输入DDPG的当前Actor网络之前，先将当前环境状态S输入特征提取网络，本实施例中采用卷积神经网络，设置三个卷积层，具体为：通过卷积神经网络提取出初始状态特征F(S)，即：

S→F(S)

其中，F(S)为状态S经过卷积神经网络特征提取后的特征状态，这样经过注意力机制的特征提取，网络关注于状态的重要部分，使得做出的决策更加准确；

(2-2)将初始状态特征F(S)输入DDPG的当前Actor神经网络，当前Actor神经网络输出智能机器人当前状态下的初始移动动作；

其中，将初始状态特征F(S)输入Actor当前网络的全连接层，全连接层可以将初始状态特征F(S)映射到样本标记空间，利用Actor网络全连接层的映射功能，实现从状态到动作的映射，为智能机器人在特定状态获得相应的动作，DDPG算法使用的是一个确定性策略，即相同的状态对应同样的动作。这样为了提高智能机器人的探索环境的能力，在状态到动作的映射过程为动作添加增加随机噪声来增加一些随机性。具体计算如下：

其中，φ(F(S))代表Actor网络中的全连接层实现的由状态S向动作A的映射，为随机噪声；

(2-3)机器人在初始状态特征S下执行步骤(2-2)得到的初始移动动作A，通过与环境交互得到下一个状态S’和奖励值R，即在状态S下机器人执行工作A后环境达到的下一个状态，计算式为：

S103，将智能机器人每次和环境交互的信息作为样本存入DDPG的经验回放池中，在经验回放池中添加样本重要性机制，按照样本的优先级采样，进行动作价值的计算；

将样本数据存入经验回放池中，在经验回放池中添加样本重要性机制，在经验回放池中按照优先级对样本数据进行采样得到样本集合，基于Critic网络，计算TD误差的大小并进行评估；

如图3所示，其中步骤103中，将智能机器人每次和环境交互的信息作为样本存入经验回放池中，在经验回放池中添加样本重要性机制，具体为：

所述将样本数据存入经验回放池中，在经验回放池中添加样本重要性机制，具体为：在经验回放池中设置带有优先级的二叉树来存放样本数据，结点用来存放样本数据，结点的值代表优先级的大小，叶子结点值越大的数据，数据的优先级越高，其区间长度越大，数据被采样的概率越大。

其中，所述按照样本的优先级采样，进行动作价值的计算为：基于二叉树结构对叶子节点做类均匀采样，Critic网络利用采样获得的样本将状态和动作输入Q函数对Q值进行计算，Q函数具体如下：

Q(S,A,ω)

其中，S代表状态，A代表在状态S下对应的动作，ω是Critic网络参数。

这里的二叉树结构使用的是sumtree结构。对于优先级高的数据，即叶子节点值大的数据，其区间长度越大，类均匀采样中被采样的概率越大。

其中，结点即TD误差的大小，通过目标网络计算的Q值与当前网络计算的Q值的欧氏距离得到TD误差，具体计算如下：

|δ|＝||y-Q(F(S),A,ω)||²

其中，ω代表当前Critic网络的参数，Q(F(S),A,ω)代表当前Critic网路计算的Q值，y代表目标Q值。

其中，目标Q值y的具体计算如下：

其中，reward代表每一步的奖励R，Q代表目标Critic网络计算出的Q值；GAMMA代表奖励衰减因子，取值在0-1之间。

所述步骤S104中，根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新，训练后的当前Critic网路根据当前状态做出最优决策，实现智能机器人的路径规划。

通过软更新的方式更新目标网络，即相隔一定时间间隔将参数从当前网络复制到目标网络，具体计算如下：

其中，θ是当前Actor网络参数，θ’是目标Actor网络参数，ω是当前Critic网络参数，ω’目标Critic网络参数，τ是更新系数。

实施例二：

本实施例二公开了一种基于采样优化DDPG算法的机器人路径导航系统，

通过以下技术方案实现：

包括：

环境状态获取模块，被配置为：智能机器人通过感知器获取外部环境信息，得到初始状态S；

路径导航模块模块，被配置为：将初始状态S输入基于深度确定性策略梯度算法模型中，引入注意力机制，输出智能机器人初始移动动作A，智能机器人执行初始移动动作A，得到智能机器人与环境交互的信息；

路径导航更新模块，被配置为：根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新，做出最优决策，实现智能机器人的路径规划。

实施例三：

本公开实施例三提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上所述的一种基于采样优化DDPG算法的机器人路径导航方法。

实施例四：

本公开实施例四提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上所述的一种基于采样优化DDPG算法的机器人路径导航方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于采样优化DDPG算法的机器人路径导航方法，其特征是，包括以下步骤：

智能机器人通过感知器获取外部环境信息，得到初始状态；

根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新做出最优决策，实现智能机器人的路径规划；

所述智能机器人执行初始移动动作，得到智能机器人与环境交互的信息，具体包括如下步骤：

智能机器人在初始状态特征下执行初始移动动作，得到本次智能机器人与环境交互的信息以及智能机器人执行动作后达到的下一个状态；

所述将智能机器人每次和环境交互的信息作为样本存入经验回放池中，在经验回放池中添加样本重要性机制，具体为：在经验回放池中设置带有优先级的二叉树来存放样本数据，结点用来存放样本数据，结点的值代表优先级的大小，叶子结点值越大的数据，数据的优先级越高，其区间长度越大，数据被采样的概率越大。

2.根据权利要求1所述的基于采样优化DDPG算法的机器人路径导航方法，其特征是，将初始状态特征输入当前Actor神经网络的全连接层，全连接层可以将初始状态特征映射到样本标记空间，利用全连接层的映射功能，实现从状态到动作的映射，为智能机器人在特定状态获得相应的动作。

3.根据权利要求2所述的基于采样优化DDPG算法的机器人路径导航方法，其特征是，在状态到动作的映射过程为动作添加随机噪声。

4.根据权利要求1所述的基于采样优化DDPG算法的机器人路径导航方法，其特征是，对样本数据进行采样采用基于二叉树结构对叶子结点做类均匀采样。

5.根据权利要求4所述的基于采样优化DDPG算法的机器人路径导航方法，其特征是，所述结点的值即为TD误差的大小，为目标网络计算的Q值与当前网络计算的Q值的欧氏距离。

6.一种基于采样优化DDPG算法的机器人路径导航系统，其特征是，包括：

路径导航更新模块，被配置为：根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新做出最优决策，实现智能机器人的路径规划；

7.一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，执行权利要求1至5中任一项所述的一种基于采样优化DDPG算法的机器人路径导航方法。

8.一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，执行权利要求1至5中任一项所述的一种基于采样优化DDPG算法的机器人路径导航方法。