CN113532457A

CN113532457A - 机器人路径导航方法、系统、设备及存储介质

Info

Publication number: CN113532457A
Application number: CN202110632055.4A
Authority: CN
Inventors: 吕蕾; 赵盼盼; 周青林; 嵇存; 张宇昂; 吕晨
Original assignee: Shandong Normal University
Current assignee: Hefei Wisdom Dragon Machinery Design Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-10-22
Anticipated expiration: 2041-06-07
Also published as: CN113532457B

Abstract

本公开公开了机器人路径导航方法、系统、设备及存储介质，获取机器人状态信息、障碍物信息以及目标位置信息；将获取的信息输入到训练后的DDPG网络模型中，得到机器人路径导航结果；根据导航结果，完成机器人路径导航；DDPG网络模型的奖励值通过奖励函数来计算，所述奖励函数中包含欧式距离与余弦距离的差值；通过余弦距离与欧氏距离结合，可以指导机器人找到从初始位置到目标位置的最优或近似最优路径。

Description

机器人路径导航方法、系统、设备及存储介质

技术领域

本公开涉及机器人路径导航技术领域，特别是涉及机器人路径导航方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

通过在传统机器人中安置传感器，机器人可以感知环境信息来判断自身的状态。实现了机器人通过与环境交互完成自主运动。随着机器人在人们生活中应用越来越广泛，机器人的路径导航问题变得越来越重要。

作为智能机器人研究的主要部分，机器人的路径导航问题就是实现机器人在充满障碍的环境中找到一条从起始位置到目标位置的最佳或最优无碰撞路径。近些年来，有许多算法被提出用来解决路径导航问题。早期提出来的算法有模拟退火算法、人工势场法等。其中人工势场法在环境中引入了人工力场，具体做法是障碍物对机器人施加排斥力，目标位置对机器人施加引力，产生的合力决定了机器人的运动方向和速度，但是这种做法也存在缺陷，特别是当排斥力与引力相同时，机器人便很难找到合适的运动方向和速度。这些传统方法由于其需要提前配置环境信息，而随着机器人所面对的环境越来越复杂，这些方法显然不适用了。深度强化学习结合了深度神经网络和强化学习被广泛适用于机器人路径导航。深度去强化学习结合了深度神经网络算法的强大的拟合功能和强化学习的决策能力，在机器人导航领域表现出较好的效果。其中深度确定性策略梯度算法Deep DeterministicPolicy Gradient(DDPG)作为深度强化学习的改进，机器人为了获得最大的奖励价值，通过与环境的不断交互来了解状态信息并作出决策。

然而，DDPG在运用到机器人路径导航领域中时，存在许多问题和挑战，算法在使用时通常学习和训练效率不高，且难收敛。DDPG算法采用的是双演员-评论家(Actor-Critic)模式，实时策略(online_Actor)网络需要根据状态预测相应的动作，实时Q(online_Critic)网络则对演员网络生成的策略通过Q值进行评判，这些数据被送到深度神经网络利用梯度的反向传播不断地更新参数，目标策略(target_Actor)网络和目标Q(target_Critic)网络通过软更新的方式相隔一定时间间隔从实时网络拷贝参数。Q值预测的准确度对整个网络的性能来说是一个至关重要的地方。另外，DDPG需要奖励函数来生成对应策略的奖励值R。奖励函数设置的优劣也在一定程度上决定了DDPG算法的好坏。

发明人发现，现有的机器人路径导航方法对机器人的运动方向和运动速度控制的都不是很精确。

发明内容

为了解决现有技术的不足，本公开提供了机器人路径导航方法、系统、设备及存储介质；为了提升上述提到的Q网络预测Q值的准确性，本发明提出了将决斗(dueling)网络与DDPG算法的双网络模型相结合的预测模型，将Q值的预测分为两部分：对状态的Q值预测和对在相应状态下做出相应动作的Q值预测，实验表明基于dueling网络的DDPG算法在机器人导航问题上有很好的效果。另外针对机器人路径导航的特点，我们将余弦距离引入奖励函数，提出了结合余弦距离和欧氏距离相结合的奖励函数，同时对机器人运动的方向和速度进行控制。

第一方面，本公开提供了机器人路径导航方法；

机器人路径导航方法，包括：

获取机器人状态信息、障碍物信息以及目标位置信息；

将获取的信息输入到训练后的DDPG网络模型中，得到机器人路径导航结果；根据导航结果，完成机器人路径导航；

其中，DDPG网络模型通过dueling网络来计算Q值；

其中，DDPG网络模型的奖励值通过奖励函数来计算，所述奖励函数中包含欧式距离与余弦距离的差值；

其中，所述欧式距离，是指第一欧式距离与第二欧式距离之间的差值；所述第一欧式距离，是指机器人前一时刻所在的位置与目标位置之间的欧式距离，所述第二欧式距离，是指机器人当前时刻所在的位置与目标位置之间的欧式距离；

其中，所述余弦距离，是指第一向量与第二向量之间的余弦距离；所述第一向量是指目标位置指向机器人当前时刻所在位置的向量；所述第二向量是指目标位置指向机器人前一时刻所在位置的向量。

第二方面，本公开提供了机器人路径导航系统；

机器人路径导航系统，包括：

获取模块，其被配置为：获取机器人状态信息、障碍物信息以及目标位置信息；

输出模块，其被配置为：将获取的信息输入到训练后的DDPG网络模型中，得到机器人路径导航结果；根据导航结果，完成机器人路径导航；

其中，DDPG网络模型通过dueling网络来计算Q值；

第三方面，本公开还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本公开还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本公开的有益效果是：

(1)本发明将dueling网络与DDPG相结合。在DDPG网络中的Critic网络添加了dueling网络。原来网络中对Q值的预测只有在相应状态S下的动作A的Q值的预测，dueling网络将对Q值的预测分为两个部分：对状态S价值的预测和对在状态S下执行动作A的价值的预测。在机器人导航中，机器人所处的状态本身具有一定的价值。同时，执行相应的动作会产生一定的价值。因此，为了对Q值的估计更准确些，将Q值分成两个部分计算。

(2)本发明结合机器人路径导航的特点，在奖励函数模块引入了余弦距离。将余弦距离与欧氏距离相结合，同时对机器人运动的方向和速度进行了控制。余弦距离计算的是两个向量夹角之间的余弦值，体现了两个向量方向之间的差异。本发明将目标位置指向原来位置的向量作为向量1，将目标位置指向当前时刻所在的位置的向量作为向量2，通过余弦距离控制机器人向目标位置移动，从而避免了机器人绕着目标位置转圈的现象。欧氏距离体现的是两个位置之间的绝对位置，欧氏距离可以控制机器人移动的速度。通过余弦距离与欧氏距离结合，可以指导机器人找到从初始位置到目标位置的最优或近似最优路径。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本发明实施例提供的基于dueling DDPG算法的机器人路径导航；

图2是本发明实施例奖励函数模块中将余弦距离与欧氏距离相结合的模型示意图；

图3是本发明实施例Q网络模块中嵌入的dueling网络算法示意图；

图4是本发明实施例的DDPG网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了机器人路径导航方法；

如图1所示，机器人路径导航方法，包括：

S101：获取机器人状态信息、障碍物信息以及目标位置信息；

S102：将获取的信息输入到训练后的DDPG网络模型中，得到机器人路径导航结果；根据导航结果，完成机器人路径导航；

其中，DDPG网络模型通过dueling网络来计算Q值；

所述余弦距离，用于指导机器人向目标位置的方向运动，使得找到的路径为最优路径。

所述欧式距离，用于指导机器人向目标位置运动的速度和方向。

进一步地，如图4所示，所述DDPG网络模型；网络结构包括：

依次连接的Actor当前网络、Actor目标网络、经验回放池、Critic目标网络和Critic当前网络。

进一步地，所述训练后的DDPG网络模型；训练步骤包括：

S1021：初始化Actor当前网络、Actor目标网络、经验回放池、Critic目标网络和Critic当前网络；

S1022：获取机器人状态信息S、障碍物信息以及目标位置信息；

S1023：将机器人状态信息S输入Actor当前网络，Actor当前网络对状态信息S进行处理，得到执行动作A；执行动作A加上服从正态分布的随机噪声，增强机器人的搜索能力；

S1024：机器人执行动作A，得到新状态S’，通过奖励函数得到奖励值R，将(S，A，S’，R，done)作为一条经验数据存入经验回放池中；

S1025：Critic当前网络从经验池中取出若干个样本，通过dueling网络计算当前目标Q值；并基于当前目标Q值计算损失函数，通过梯度反向传播来更新Critic当前网络中所有参数；

S1026：通过梯度反向传播来更新Actor当前网络中的所有参数；

S1027：基于Actor当前网络的网络参数对Actor目标网络的网络参数进行更新；基于Critic当前网络的网络参数对Critic目标网络的网络参数进行更新；

S1028：判断新状态S’是否是终止状态，如果是，则当前轮迭代完毕，否则，进入S1023。

进一步地，所述通过奖励函数得到奖励值R；具体过程为：

其中，arrive代表到达目标位置，done代表碰撞到障碍物，R₁代表由余弦距离得到的奖励值，R₂代表由欧氏距离得出的奖励值。

进一步地，所述R₁，计算过程为：

vec1＝(current_x-goal_x，currrent_y-goal_y)

vec2＝(past_x-goal_x，past_y-goal_y)

其中，(current_x，current_y)代表机器人的当前时刻所在的位置；(past_x，past_y)代表机器人的前一时刻所在的位置；vec1代表从目标位置指向当前时刻所在位置的向量；vec2代表从目标位置指向前一时刻所在位置的向量，Cos(vec1，vec2)代表两个向量之间的余弦距离。

两向量之间的夹角[0，∏]对应的余弦距离对应的是[1，-1]，所以通过线性变换(-Cos(vec1，vec2)+1)/2，将对应的值映射为[0，1]，这样夹角越小，对应的余弦距离映射越小，以便之后使用余弦距离计算对应的奖励值R₁。∏表示向量夹角的角度值。

进一步地，所述R₂，计算过程为：

R₂＝C*distance_rate

distance_rate＝past_distance-current_distance

其中，(current_x，current_y)代表机器人的当前时刻所在的位置，(past_x，past_y)代表机器人的前一时刻所在的位置，current_distance与past_distance分别代表他们与目标位置的欧氏距离，C为一个正常数。

进一步地，所述方法还包括：将前一时刻所在的位置与目标位置之间的欧式距离记作过去的距离，将现在的位置与目标位置之间的欧氏距离记作现在的距离，将过去的距离与现在的距离之间的差值记作距离率distance_rate，距离率乘以一个常数记作奖励值R₂。

进一步地，所述通过dueling网络计算当前目标Q值；具体包括：

Q＝state_q+action_q

state_q＝V(S；α)

action_q＝A(S，A；β)

其中，state_q代表状态S本身具有的价值；action_q代表在状态S下做出动作A时具有的价值；α和β分别是两个神经网络全连接层参数，Q代表当前目标Q值。

进一步地，所述dueling网络的网络结构包括：

依次连接的第一全连接层、第二全连接层和第三全连接层；所述第一全连接层用于输入状态S；所述第三全连接层用于输出状态S本身具有的价值state_q；

其中，第二全连接层的输出端还与第四全连接层的输入端连接；

第五全连接层的输入端用于输入在状态S下做出动作A；

第四全连接层的输出端和第五全连接层的输出端，均与第六全连接层的输入端连接；第六全连接层的输出端用于输出在状态S下做出动作A时具有的价值action_q；

第三全连接层的输出端和第六全连接层的输出端均与加法器的输入端连接，加法器的输出端输出当前目标Q值。

使用余弦距离与欧氏距离相结合的方式对奖励函数进行设计，同时控制机器人的运动方向和速度。

余弦距离的大小体现的是两个向量方向的相对差异。余弦距离的具体计算方式如下：

其中，A、B分别是计算的两个方向向量。

通过机器人的目标位置到前一时刻所在位置作为向量1，目标位置到当前时刻所在位置作为向量2，将两个向量之间的夹角大小作为控制因素，指导机器人向目标位置的方向运动，使得找到的路径为最优路径，同时加快模型的收敛速度。

欧氏距离也称欧几里得距离，欧式距离的大小反映了两个位置之间的距离的绝对差异，欧氏距离的具体计算方式如下：

其中，这里的X、Y代表的是两个位置的坐标。

传统的DDPG算法对(S，A)序列只有一个Q输出，而dueling网络将Q值分为两个部分：state_q和action_q，同时在这里包含两个网络：深度神经网络1和深度神经网络2。深度神经网络1的输入包括状态action；深度神经网络1，包括：依次连接的第一全连接层、第二全连接层和第三全连接层；深度神经网络2的输入包括动作action和状态state。深度神经网络2，包括：第一、第二、第四、第五和第六全连接层。

本发明实施例包括：

(1)将余弦距离与欧氏距离相结合的奖励函数模块，如图2所示，为了同时指导机器人运动的方向和速度，将余弦距离与欧氏距离相结合，通过余弦距离使得机器人能够向目标位置的方向移动，这个约束条件为机器人指引了大致的移动方向，从而不会偏离目标位置太远。

(2)嵌入了dueling网络的Critic模块，如图3所示，dueling网络将对Q值的预测分成了对状态价值的预测和对动作的价值预测。在机器人导航中，机器人所处的状态本身是有一定价值的，在对应状态做出的动作则会产生另外的价值。因此，这样对Q值得预测会更加准确。

实施例二

本实施例提供了机器人路径导航系统；

机器人路径导航系统，包括：

其中，DDPG网络模型通过dueling网络来计算Q值；

此处需要说明的是，上述获取模块和输出模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.机器人路径导航方法，其特征是，包括：

获取机器人状态信息、障碍物信息以及目标位置信息；

其中，DDPG网络模型通过dueling网络来计算Q值；

2.如权利要求1所述的机器人路径导航方法，其特征是，所述训练后的DDPG网络模型；训练步骤包括：

(1)：初始化Actor当前网络、Actor目标网络、经验回放池、Critic目标网络和Critic当前网络；

(2)：获取机器人状态信息S、障碍物信息以及目标位置信息；

(3)：将机器人状态信息S输入Actor当前网络，Actor当前网络对状态信息S进行处理，得到执行动作A；执行动作A加上服从正态分布的随机噪声，增强机器人的搜索能力；

(4)：机器人执行动作A，得到新状态S’，通过奖励函数得到奖励值R，将(S，A，S’，R，done)作为一条经验数据存入经验回放池中；

(5)：Critic当前网络从经验池中取出若干个样本，通过dueling网络计算当前目标Q值；并基于当前目标Q值计算损失函数，通过梯度反向传播来更新Critic当前网络中所有参数；

(6)：通过梯度反向传播来更新Actor当前网络中的所有参数；

(7)：基于Actor当前网络的网络参数对Actor目标网络的网络参数进行更新；基于Critic当前网络的网络参数对Critic目标网络的网络参数进行更新；

(8)：判断新状态S’是否是终止状态，如果是，则当前轮迭代完毕，否则，进入(3)。

3.如权利要求2所述的机器人路径导航方法，其特征是，所述通过奖励函数得到奖励值R；具体过程为：

4.如权利要求3所述的机器人路径导航方法，其特征是，所述R₁，计算过程为：

vec1＝(current_x-goal_x，currrent_y-goal_y)

vec2＝(past_x-goal_x，past_y-goal_y)

5.如权利要求3所述的机器人路径导航方法，其特征是，所述R₂，计算过程为：

R₂＝C*distance_rate

distance_rate＝past_distance-current_distance

6.如权利要求2所述的机器人路径导航方法，其特征是，所述通过dueling网络计算当前目标Q值；具体包括：

Q＝state_q+action_q

state_q＝V(S；α)

action_q＝A(S，A；β)

7.如权利要求6所述的机器人路径导航方法，其特征是，所述dueling网络的网络结构包括：

第五全连接层的输入端用于输入在状态S下做出动作A；

8.机器人路径导航系统，其特征是，包括：

其中，DDPG网络模型通过dueling网络来计算Q值；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。