CN112731804A

CN112731804A - 一种实现路径跟随的方法和装置

Info

Publication number: CN112731804A
Application number: CN201911038367.1A
Authority: CN
Inventors: 高萌; 李柏; 李雨倩; 刘懿
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2021-04-30

Abstract

本发明公开了一种实现路径跟随的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：采集一条或多条规划路径和与所述规划路径相对应的实际路径，根据所述实际路径上的实际位置，确定位置误差及所述目标位置对应的曲率信息；根据所述位置误差、所述曲率信息，基于深度强化学习网络，训练得到输出控制指令的路径跟随控制模型；根据当前实际位置与待跟随路径上对应于所述当前实际位置的当前目标位置的位置误差及对应的曲率信息，使用所述路径跟随控制模型，获取对应的当前控制指令。该实施方式通过深度强化学习算法对规划的路径进行跟随，得到了具有通用性的路径跟随控制模型，保证了路径跟随的控制精度。

Description

一种实现路径跟随的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种实现路径跟随的方法和装置。

背景技术

随着自动化和人工智能技术的不断发展，无人车、机器人等智能设备层出不穷，而无论是无人车、机器人还是机械臂等移动设备，为实现智能化功能均需要严格根据人类意图或人类规划的路径进行运动，即实现路径跟随。

现阶段实现路径跟随的方法主要有两种：基于PID控制技术的路径跟随，代表方法有PI控制、PID控制、模糊PID等，该类方法通过传统的误差控制进行有差控制，根据实际的运行轨迹和规划运动路径之间的差值，进行运动控制量的调整，从而对运动过程进行控制，最终实现对路径的跟随；基于强化学习的路径跟随方法，通过建立路径特征和运动控制指令之间的映射关系，进行路径的跟随。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：基于PID控制策略的路径跟随方案，因为PID控制技术是有差控制，因而无法精确跟随路径，每一步的实际路径与规划的路径始终有一定误差存在且无法克服；针对不同的无人车、机器人的那个设备，或跟路径所在环境变化时，需要对PID控制器参数进行调整，工作繁琐、缺乏用性和适用性；基于强化学习的路径跟随，在建立路径特征和运动指令之间的映射关系过程中，控制精度受限于采集的路径特征的完备性，而往往无法采集到所有的路径特征，限制了控制精度。

发明内容

有鉴于此，本发明提供一种实现路径跟随的方法和装置，能够通过深度强化学习算法对规划的路径进行跟随，即可以训练得到具有通用性的路径跟随控制模型，又可以建立完善的曲率信息、位置误差与控制指令之间的映射关系，保证了路径跟随的控制精度。

为实现上述目的，根据本发明的一个方面，提供了一种实现路径跟随的方法，包括：

采集一条或多条规划路径和与所述规划路径相对应的实际路径，根据所述实际路径上的实际位置，确定所述实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差及所述目标位置对应的曲率信息；

根据所述位置误差、所述曲率信息，基于深度强化学习网络，训练得到用于根据所述位置误差、所述曲率信息输出控制指令的路径跟随控制模型，所述控制指令指示了跟随所述规划路径的运动方向、运动速度；

根据当前实际位置与待跟随路径上对应于所述当前实际位置的当前目标位置的位置误差及对应的曲率信息，使用所述路径跟随控制模型，获取对应的当前控制指令，用以根据所述当前控制指令对所述待跟随路径进行跟随。

可选地，所述深度强化学习网络为Deep Q Network网络。

可选地，所述深度强化学习网络包括：深度学习神经网络和强化学习神经网络；

所述深度学习神经网络，用于根据所述位置误差、所述曲率信息生成状态函数，所述状态函数用于预测其他所述位置误差和相对应的所述曲率信息；

所述强化学习神经网络，用于根据所述状态函数所预测的所述位置误差、所述曲率信息生成一个或多个控制指令，并对所述一个或多个控制指令评分，根据所述评分的最大值，确定所述位置误差、所述曲率信息对应的控制指令。

可选地，所述深度强化学习网络包括两个结构一致但参数不同的神经网络：目标值神经网络、当前值神经网络；所述目标值神经网的参数与所述当前值神经网络历史参数一致；

使用所述目标值神经网络与所述当前值神经网络分别获取所述曲率信息、所述位置误差对应的控制指令的评分，并通过反向传递所述控制指令的评分差值实现对所述当前值神经网络参数的更新，直至根据所述当前值神经网络输出的控制指令采集的与所述规划路径相对应的实际路径上的实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差小于阈值位置误差；

在所述当前值神经网络参数的更新次数小于阈值次数的情况下，不更新所述目标值神经网络参数，在所述当前值神经网络参数的更新次数不小于阈值次数的情况下，更新所述目标值神经网络参数。

为实现上述目的，根据本发明的另一个方面，提供了一种实现路径跟随的装置，包括：信息采集模块、模型获取模块、路径跟随模块；其中，

所述信息获取模块，用于采集一条或多条规划路径和与所述规划路径相对应的实际路径，根据所述实际路径上的实际位置，确定所述实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差及所述目标位置对应的曲率信息；

所述模型获取模块，用于根据所述位置误差、所述曲率信息，基于深度强化学习网络，训练得到用于根据所述位置误差、所述曲率信息输出控制指令的路径跟随控制模型，所述控制指令指示了跟随所述规划路径的运动方向、运动速度；

所述路径跟随模块，用于根据当前实际位置与待跟随路径上对应于所述当前实际位置的当前目标位置的位置误差及对应的曲率信息，使用所述路径跟随控制模型，获取对应的当前控制指令，用以根据所述当前控制指令对所述待跟随路径进行跟随。

可选地，所述深度强化学习网络为Deep Q Network网络。

可选地，所述深度强化学习网络包括两个结构一致但参数不同的神经网络：目标值神经网络、当前值神经网络；所述目标值神经网络参数与所述当前值神经网络历史参数一致；

所述模型获取模块，用于使用所述目标值神经网络与所述当前值神经网络分别获取所述曲率信息、所述位置信息对应的控制指令的评分，并通过反向传递所述控制指令的评分差值实现对所述当前值神经网络参数的更新，直至根据所述当前值神经网络输出的控制指令采集的与所述规划路径相对应的实际路径上的实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差小于阈值位置误差；

为实现上述目的，根据本发明的又一个方面，提供了一种实现路径跟随的服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的实现路径跟随方法中的任一所述方法。

为实现上述目的，根据本发明的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的实现路径跟随方法中的任一所述方法。

上述发明的实现路径跟随的方法具有如下优点或有益效果：通过深度强化学习算法实现了路径跟随，具体地，通过深度学习神经网络，将离散的曲率信息、位置误差等状态信息拟合为可预测其他曲率信息及相对应的位置误差的状态函数，为深度强化学习提供了连续输入；在此基础上，通过不断地强化学习得到的路径跟随控制模型，不仅能够建完善的曲率信息、位置误差与控制指令之间的映射关系，形成了一套通用的路径跟随策略，还避免了因环境、控制主体等变化导致的复杂的参数调整问题，使用方便且具有较高的复用性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的实现路径跟随的方法的主要流程的示意图；

图2是根据本发明实施例的深度强化学习网络结构示意图；

图3是根据本发明实施例的实现路径跟随的装置的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的实现路径跟随的方法的主要流程示意图，如图1所示，该方法具体可以包括的步骤如下：

步骤S101，采集一条或多条规划路径和与所述规划路径相对应的实际路径，根据所述实际路径上的实际位置，确定所述实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差及所述目标位置对应的曲率信息。

规划路径是指根据无人车、机器人等移动设备运行的周围环境和需要执行的任务或者需要到达得到目的地等信息获得的一条任意形状的曲线，路径具有多种路径信息，如弯曲的角度、长度等，本发明实施例优选能够直观反映路径曲线形状信息的曲率信息为路径特征。实际路径是指无人车、机器人等移动设备根据控制指令跟随规划路径时的实际轨迹。而位置误差则表示了在进行路径跟随时实际位置偏离规划路径上目标位置的距离。

可以理解的是，由于规划路径以及与规划路径相对应的世纪路径上具有无限个路径点，即实际位置或目标位置，因此，在实际的采集过程中，可以在阈值距离内选择性地采集位置信息及曲率信息，如以阈值距离为20厘米为例进行说明，该阈值距离对于无人车、机器人等而言较少，可以忽略不计，因而可以在规划路径或者实际路径上，每隔20cm采集一次位置信息及曲率信息。另外值得注意的是，规划路径以及对应的实际路径只是用于获取位置误差、曲率信息的一种可行的方式，在实际的执行过程中，也可以通过任意组合位置误差的取值以及曲率信息的取值获取初始的训练数据。

步骤S102，根据所述位置误差、所述曲率信息，基于深度强化学习网络，训练得到用于根据所述位置误差、所述曲率信息输出控制指令的路径跟随控制模型，所述控制指令指示了跟随所述规划路径的运动方向、运动速度。

控制指令则表示了无人车、机器人、机器臂等移动设备的运动方向、运动速度，可以通过多种不同的指标表示，如通过油门脚踏板比例、加速度等表示运动速度，以方向盘转角、扭矩等表示运动方向等。具体地以，方向盘转角表示运动方向、速度值表示运动速度为例进行说明，控制指令可以是可能的转角取值范围内(如-30°～+30°)以及速度取值范围(如0m/s-2m/s)内的任一组合，如(10°,1m/s)、(5°,2m/s)、(-2°,0.2m/s)等。每一种控制指令都表示一种运动模式，在不同的位置误差以及曲率信息的情况下，为很好地进行路径跟随，需要采取不同的运动模式。

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的信息进行控制，是一种更接近人类思维方式的人工智能方法。常见的有DQN算法、DDPG算法、TRPO算法等。

在一种可选的实施方式中，所述深度强化学习网络为Deep Q Network网络。具体地，采用Deep Q-Learning Network(DQN)算法，即在在Q-Learning的基础上加入了神经网络，通过对位置误差、曲率信息的分析，得到合适的控制指令，进而实现路径跟随。

在一种可选的实施方式中，所述深度强化学习网络包括：深度学习神经网络和强化学习神经网络；所述深度学习神经网络，用于根据所述位置误差、所述曲率信息生成状态函数，所述状态函数用于预测其他所述位置误差和相对应的所述曲率信息；所述强化学习神经网络，用于根据所述状态函数所预测的所述位置误差、所述曲率信息生成一个或多个控制指令，并对所述一个或多个控制指令评分，根据所述评分的最大值，确定所述位置误差、所述曲率信息对应的控制指令。

可以理解的是，由于采集的到的位置误差、曲率信息是有限的，而在实际的路径跟随过程中可能遇到的位置误差、路径的曲率信息则是无限的，因而为保证训练的路径跟随控制模型的可靠性，采用深度学习神经网络基于现有的已采集的位置误差、曲率信息进行训练得到可预测其他可能的位置信息及相对应的曲率信息的状态函数，保证了强化学习神经网络的丰富且连续的输入信息，使得训练后得到的路径跟随控制模型可以适用于各种环境或各种控制主体，具有良好的通用性或复用性。此外，由于控制指令具有多种多样的可能取值，也即对应着多种多样的运动模式，因而为实现较好的路径跟随，可以通过评分奖励的形式对控制指令进行筛选。也即是说，根据评分的最大值，确定位置误差、曲率信息与控制指令的映射相关系，即确定在何种位置误差、曲率信息表示的状态下，采用何种控制指令可以实现对路径良好的跟随，即根据控制指令形成的实际路径上的实际位置与规划路径上的目标位置的差值在可接受的范围内。

在一种可选的实施方式中，所述深度强化学习网络包括两个结构一致但参数不同的神经网络：目标值神经网络、当前值神经网络；所述目标值神经网的参数与所述当前值神经网络历史参数一致；使用所述目标值神经网络与所述当前值神经网络分别获取所述曲率信息、所述位置误差对应的控制指令的评分，并通过反向传递所述控制指令的评分差值实现对所述当前值神经网络参数的更新，直至根据所述当前值神经网络输出的控制指令采集的与所述规划路径相对应的实际路径上的实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差小于阈值位置误差；在所述当前值神经网络参数的更新次数小于阈值次数的情况下，不更新所述目标值神经网络参数，在所述当前值神经网络参数的更新次数不小于阈值次数的情况下，更新所述目标值神经网络参数。

参见图2，在一个优选的实施例中，提供了一种深度强化学习网络的结构示意图，包括：目标值神经网络、当前值神经网络；其中，目标值神经网络与当前值神经网络的结构一致但初始参数不一致。具体地，以目标值神经网络初始参数值为(A0、B0)、当前值神经网络的初始参数为(A1、B1)、阈值次数为5为例进行说明：在使用相同的位置误差、曲率信息分别对目标值神经网络、当前值神经网络进行训练，由于目标值神经网络、当前值神经网络参数不同，因而针对相同的位置误差、曲率信息获得的控制指令的评分不同(如DQN算法中的Q值)；基于此，通过计算评分差值并通过反向传递的方式更新当前值神经网络参数为(A2、B2)。如此，不断根据当前神经网络输出的控制指令对规划路径进行路径跟随，进而采集新的实际路径，获取新的位置误差、曲率信息，进而对当前值神经网络的参数继续进行更新，直至当前值神经网络的参数更新次数至5次，即当前值神经网络的参数由(A1、B1)先后更新为(A2、B2)、(A3、B3)、(A4、B4)、(A5、B5)、(A6、B6)，则将目标值神经网络参数(A0、B0)更新为当前值神经网络的历史参数，如(A2、B2)、(A3、B3)、(A4、B4)、(A5、B5)、等中的任一种，然后继续通过控制指令评分差值反向传递的方法，继续更新当前值神经网络差值，如此不断迭代更新，直至根据当前值神经网络输出的控制指令跟随规划路径时，采集到的实际路径上的实际位置与规划路径上的目标位置的位置差值在预设的阈值位置误差范围内时，停止对当前神经网络参数的更新。

步骤S103，根据当前实际位置与待跟随路径上对应于所述当前实际位置的当前目标位置的位置误差及对应的曲率信息，使用所述路径跟随控制模型，获取对应的当前控制指令，用以根据所述当前控制指令对所述待跟随路径进行跟随。

基于上述实施例提供的实现路径跟随的方法，通过使用深度学习神经网络，基于采集的有限的位置误差、曲率信息构建完善的预测其他位置误差、曲率信息状态函数，避免了因采集路径特征不全而导致的路径跟随控制精度的问题；同时，通过使用强化学习神经网络，构建了位置误差、曲率信息与控制指令之间的映射关系，训练得到了具有通用性的路径跟随控制模型，具有较高的复用性，且避免了现有技术中，由于环境变化或者控制主体变化造成的复杂的参数调整的问题。

参见图3，本发明实施例提供了一种实现路径跟随的装置300，包括：信息采集模块301、模型获取模块302、路径跟随模块303；其中，

所述信息获取模块301，用于采集一条或多条规划路径和与所述规划路径相对应的实际路径，根据所述实际路径上的实际位置，确定所述实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差及所述目标位置对应的曲率信息；

所述模型获取模块302，用于根据所述位置误差、所述曲率信息，基于深度强化学习网络，训练得到用于根据所述位置误差、所述曲率信息输出控制指令的路径跟随控制模型，所述控制指令指示了跟随所述规划路径的运动方向、运动速度；

所述路径跟随模块303，用于根据当前实际位置与待跟随路径上对应于所述当前实际位置的当前目标位置的位置误差及对应的曲率信息，使用所述路径跟随控制模型，获取对应的当前控制指令，用以根据所述当前控制指令对所述待跟随路径进行跟随。

在一种可选的实施方式中，所述深度强化学习网络为Deep Q Network网络。

在一种可选的实施方式中，所述深度强化学习网络包括两个结构一致但参数不同的神经网络：目标值神经网络、当前值神经网络；所述目标值神经网络参数与所述当前值神经网络历史参数一致；

所述模型获取模块302，用于使用所述目标值神经网络与所述当前值神经网络分别获取所述曲率信息、所述位置信息对应的控制指令的评分，并通过反向传递所述控制指令的评分差值实现对所述当前值神经网络参数的更新，直至根据所述当前值神经网络输出的控制指令采集的与所述规划路径相对应的实际路径上的实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差小于阈值位置误差；在所述当前值神经网络参数的更新次数小于阈值次数的情况下，不更新所述目标值神经网络参数，在所述当前值神经网络参数的更新次数不小于阈值次数的情况下，更新所述目标值神经网络参数。

图4示出了可以应用本发明实施例的实现路径跟随的方法或实现路径跟随的装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如控制指令)反馈给终端设备。

需要说明的是，本发明实施例所提供的实现路径跟随的方法一般由服务器405执行，相应地，实现路径跟随的装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括信息采集模块、模型获取模块、路径跟随模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，模型获取模块还可以被描述为“获取路径跟随控制模型的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：采集一条或多条规划路径和与所述规划路径相对应的实际路径，根据所述实际路径上的实际位置，确定所述实际位置与所述规划路径上对应于所述实际位置的目标位置的位置误差及所述目标位置对应的曲率信息；根据所述位置误差、所述曲率信息，基于深度强化学习网络，训练得到用于根据所述位置误差、所述曲率信息输出控制指令的路径跟随控制模型，所述控制指令指示了跟随所述规划路径的运动方向、运动速度；根据当前实际位置与待跟随路径上对应于所述当前实际位置的当前目标位置的位置误差及对应的曲率信息，使用所述路径跟随控制模型，获取对应的当前控制指令，用以根据所述当前控制指令对所述待跟随路径进行跟随。

根据本发明实施例的技术方案，通过深度强化学习算法实现了路径跟随。具体地，通过深度学习神经网络，将离散的曲率信息、位置误差等状态信息拟合为可预测其他曲率信息及相对应的位置误差的状态函数，为深度强化学习提供了连续输入；在此基础上，通过不断地强化学习得到的路径跟随控制模型，不仅能够建完善的曲率信息、位置误差与控制指令之间的映射关系，形成了一套通用的路径跟随策略，还避免了因环境、控制主体等变化导致的复杂的参数调整问题，使用方便且具有较高的复用性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种实现路径跟随的方法，其特征在于，包括：

2.根据权利要求1所述的实现路径跟随的方法，其特征在于，

所述深度强化学习网络为Deep Q Network网络。

3.根据权利要求1所述的实现路径跟随的方法，其特征在于，所述深度强化学习网络包括：深度学习神经网络和强化学习神经网络；

4.根据权利要求1所述的实现路径跟随的方法，其特征在于，

所述深度强化学习网络包括两个结构一致但参数不同的神经网络：目标值神经网络、当前值神经网络；所述目标值神经网的参数与所述当前值神经网络历史参数一致；

5.一种实现路径跟随的装置，其特征在于，包括：信息采集模块、模型获取模块、路径跟随模块；其中，

6.根据权利要求5所述的实现路径跟随的装置，其特征在于，

所述深度强化学习网络为Deep Q Network网络。

7.根据权利要去1所述的实现路径跟随的装置，其特征在于，所述深度强化学习网络包括：深度学习神经网络和强化学习神经网络；

8.根据权利要求1所述的实现路径跟随的装置，其特征在于，

所述深度强化学习网络包括两个结构一致但参数不同的神经网络：目标值神经网络、当前值神经网络；所述目标值神经网络参数与所述当前值神经网络历史参数一致；

9.一种实现路径跟随的服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。