CN113791612B

CN113791612B - 智能体实时路径规划方法、装置、设备及存储介质

Info

Publication number: CN113791612B
Application number: CN202110945780.7A
Authority: CN
Inventors: 田莎莎; 郑禄; 王江晴; 帖军; 汪红; 徐胜舟; 丁凤; 解伟
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-10-24
Anticipated expiration: 2041-08-17
Also published as: CN113791612A

Abstract

本发明公开了一种智能体实时路径规划方法、装置、设备及存储介质，包括：获取智能体的当前位置和目标位置；根据所述当前位置及所述目标位置通过预设TSEB‑DDPG模型确定所述智能体的路径规划路线；根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。由于本发明是根据智能体的当前位置及目标位置通过预设TSEB‑DDPG模型确定智能体的路径规划路线，根据路径规划路线控制智能体从当前位置移动到目标位置，解决了现有技术中采用的相关算法对智能体的实时路径规划精确度低的技术问题，提高了智能体实时路径规划的精确度。

Description

智能体实时路径规划方法、装置、设备及存储介质

技术领域

本发明涉及机器控制技术领域，尤其涉及一种智能体实时路径规划方法、装置、设备及存储介质。

背景技术

在现有的智能体实时路径规划技术中，当智能体已经获取到所有的环境信息，并且对于路径的获取没有太高的实时性要求时，可以采用HL-PSO算法来进行静态或者动态路径规划。但是当机器人对环境信息一无所知或者对环境信息虽然很清楚但是对于路径规划的实时性和精确度要求很高时，此时采用HL-PSO算法就不能很好地完成路径规划任务了。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种智能体实时路径规划方法、装置、设备及存储介质，旨在解决现有技术中对智能体的实时路径规划精确度低的技术问题。

为实现上述目的，本发明提供了一种智能体实时路径规划方法，所述方法包括以下步骤:

获取智能体的当前位置和目标位置；

根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线；

根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。

可选地，所述获取智能体的当前位置和目标位置步骤之前，所述方法还包括：

根据智能体的当前动作策略和预设探索噪声通过初始TSEB-DDPG模型控制所述智能体移动；

实时获取所述智能体移动过程中的经验信息，并将所述经验信息添加至经验缓冲池；

根据三阶梯采样机制实时从所述经验缓冲池中采集训练经验信息；

根据所述训练经验信息训练所述初始TSEB-DDPG模型，并在满足预设条件时，获得预设TSEB-DDPG模型。

可选地，所述经验缓冲池包括优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池，所述根据三阶梯采样机制实时从所述经验缓冲池中采集训练经验信息，包括：

获取所述智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定训练阶段判断指标；

根据前后步进关系奖励机制确定所述智能体在移动过程中获得的当前奖励；

根据所述训练阶段判断指标、所述当前奖励和预设指标阈值判断所述智能体处于的训练阶段，并根据训练阶段确定各经验缓冲池的采样比例；

根据所述采样比例从所述优秀轨迹经验缓冲池、所述碰撞轨迹经验缓冲池和所述实时轨迹经验缓冲池中采集训练经验信息。

可选地，所述实时获取所述智能体移动过程中的经验信息，并将所述经验信息添加至经验缓冲池，包括：

实时获取所述智能体移动过程中的经验信息，并从所述经验信息中选取碰撞轨迹信息；

将所述碰撞轨迹信息添加至所述碰撞轨迹经验缓冲池，并将实时轨迹信息添加至所述实时轨迹经验缓冲池。

可选地，所述根据前后步进关系奖励机制确定所述智能体在移动过程中获得的当前奖励，包括：

获取所述智能体的当前位置坐标和与所述当前位置坐标相邻的历史位置坐标；

获取所述智能体所处空间中的障碍物坐标集合；

根据当前位置坐标、历史位置坐标与障碍物坐标集合之间的从属关系确定所述智能体在移动过程中获得的当前奖励。

可选地，所述根据所述训练阶段判断指标、所述当前奖励和预设指标阈值判断所述智能体处于的训练阶段，并根据训练阶段确定各经验缓冲池的采样比例，包括：

获取所述优秀轨迹经验缓冲池的优秀轨迹平均奖励；

在所述训练阶段判断指标不大于预设指标阈值且所述当前奖励不大于优秀轨迹平均奖励时，将第一预设比例作为所述智能体处于学步阶段时各经验缓冲池的采样比例；

在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为所述智能体处于蹒跚阶段时各经验缓冲池的采样比例；

在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为所述智能体处于酷跑阶段时各经验缓冲池的采样比例。

可选地，所述获取所述智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定训练阶段判断指标，包括：

获取所述智能体移动过程中的平均奖励，根据最小二乘法和所述平均奖励在预设坐标系中拟合训练阶段判断直线；

将所述训练阶段判断直线的斜率作为训练阶段判断指标。

此外，为实现上述目的，本发明还提出一种智能体实时路径规划装置，所述装置包括：

获取模块，用于获取智能体的当前位置和目标位置；

确定模块，用于根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线；

控制模块，用于根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。

此外，为实现上述目的，本发明还提出一种智能体实时路径规划设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能体实时路径规划程序，所述智能体实时路径规划程序配置为实现如上文所述的智能体实时路径规划方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有智能体实时路径规划程序，所述智能体实时路径规划程序被处理器执行时实现如上文所述的智能体实时路径规划方法的步骤。

本发明通过获取智能体的当前位置和目标位置；根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线；根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。由于本发明是根据智能体的当前位置及目标位置通过预设TSEB-DDPG模型确定智能体的路径规划路线，根据路径规划路线控制智能体从当前位置移动到目标位置，解决了现有技术中采用的相关算法对智能体的实时路径规划精确度低的技术问题，提高了智能体实时路径规划的精确度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的智能体实时路径规划设备的结构示意图；

图2为本发明智能体实时路径规划方法第一实施例的流程示意图；

图3为本发明智能体实时路径规划方法第二实施例的流程示意图；

图4为本发明智能体实时路径规划方法第三实施例的流程示意图；

图5为本发明智能体实时路径规划方法一实施例涉及的三阶梯采样机制原理图；

图6为本发明智能体实时路径规划方法一实施例涉及的三阶梯采样机制的采样流程图；

图7为本发明智能体实时路径规划装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的智能体实时路径规划设备结构示意图。

如图1所示，该智能体实时路径规划设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对智能体实时路径规划设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、信息存储模块、网络通信模块、用户接口模块以及智能体实时路径规划程序。

在图1所示的智能体实时路径规划设备中，网络接口1004主要用于与网络服务器进行信息通信；用户接口1003主要用于与用户进行信息交互；本发明智能体实时路径规划设备中的处理器1001、存储器1005可以设置在智能体实时路径规划设备中，所述智能体实时路径规划设备通过处理器1001调用存储器1005中存储的智能体实时路径规划程序，并执行本发明实施例提供的智能体实时路径规划方法。

本发明实施例提供了一种智能体实时路径规划方法，参照图2，图2为本发明智能体实时路径规划方法第一实施例的流程示意图。

本实施例中，所述智能体实时路径规划方法包括以下步骤：

步骤S10：获取智能体的当前位置和目标位置。

需要说明的是，本实施例的执行主体可以是一种具有信息处理、网络通信以及程序运行功能的计算服务设备，例如上位机、个人电脑等，或者是一种能够实现上述功能的电子设备、实时路径规划设备等，以下以实时路径规划设备对本实施例及下述各实施例进行说明。

应该理解的是，智能体可以是智能机器人，当前位置可以通过智能体内部设置的定位装置确定，也可以通过人工将当前位置信息输入；目标位置为智能体需要到达的最终位置，可以是一个位置点，也可以是一个设定的区域。

步骤S20：根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线。

可以理解的是，预设TSEB-DDPG模型为预设三阶梯经验池深度确定性策略梯度模型，在原有的DDPG算法的基础上新增三阶梯经验池得到初始三阶梯经验池深度确定性策略梯度(Three-step Experience Buffer Deep Deterministic Policy Gradient，TSEB-DDPG)算法，对初始TSEB-DDPG算法进行训练，在满足预设条件时，获得预设TSEB-DDPG模型。

应该理解的是，将智能体的当前位置和目标位置输入预设TSEB-DDPG模型可以得到智能体的路径规划路线。

步骤S30：根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。

可以理解的是，路径规划线路可以是最优或次优的线路，根据路径规划线路控制智能体从当前位置移动到目标位置。

进一步地，为了提高智能体实时路径规划的精确度，在所述步骤S10之前，所述方法还包括：根据智能体的当前动作策略和预设探索噪声通过初始TSEB-DDPG模型控制所述智能体移动；实时获取所述智能体移动过程中的经验信息，并将所述经验信息添加至经验缓冲池；根据三阶梯采样机制实时从所述经验缓冲池中采集训练经验信息；根据所述训练经验信息训练所述初始TSEB-DDPG模型，并在满足预设条件时，获得预设TSEB-DDPG模型。

应该理解的是，当前动作策略可由μ(s_t；θ^μ)表示，其中μ为DDPG算法的函数μ，s_t为智能体的当前状态，θ为策略参数；预设探索噪声可由M表示，根据当前动作策略和探索噪声可以得到确定的动作策略a_t＝μ(s_t；θ^μ)+M,其中a_t为智能体执行的动作，将得到的确定的动作策略输入初始TSEB-DDPG模型可以让智能体执行动作a_t，从而控制智能体在空间中移动。

应该理解的是，智能体根据确定的动作策略执行动作a_t，得到奖励r_t，并进入下一个状态s_t+1，获得智能体移动过程中的当前经验信息(s_t,a_t,r_t,s_t+1)，并实时获取智能体移动过程中的经验信息，将获取到的经验信息添加到经验缓冲池中。

可以理解的是，三阶梯采样机制是根据智能体所处的状态的不同采取不同采样比例的采样机制，根据三阶梯采样机制从经验缓冲池中随机进行小批次采样，将采集到智能体的经验信息作为训练经验信息，用训练经验信息训练初始TSEB-DDPG模型。

应该理解的是，预设条件为初始TSEB-DDPG模型训练完成的条件，可以根据具体应用场景提前设置，例如预设条件可以设为：控制智能体走到终点或控制智能体走了特定的步数，本实施例对此不作限制。

在具体实现中，从经验缓冲池中采集N条训练经验信息(s_t,a_t,r_t,s_t+1)，根据式1可求得y_i：

式中：r_i为智能体i步的奖励；s_i+1为第i+1步的状态；γ为折扣因子，其中γ∈[0,1]；μ'为DDPG算法的辅助策略网络，θ^μ'为DDPG算法辅助策略网络要训练的参数；Q'为DDPG算法的辅助价值网络，θ^Q'为DDPG算法的辅助价值网络要训练的参数；y_i为智能体第i步的真实回报。

通过最小化DDPG算法价值网络Q中的损失函数L来更新DDPG算法的价值网络，其中损失函数L可由式2表示；通过式3中的抽样梯度策略更新DDPG算法的策略网络；通过式4更新DDPG算法的辅助价值网络；通过式5更新DDPG算法的辅助策略网络；在满足预设条件时，终止对初始TSEB-DDPG模型的训练获得预设TSEB-DDPG模型。

θ^Q'←τθ^Q+(1-τ)θ^Q' (式4)

θ^μ'←τθ^μ+(1-τ)θ^μ' (式5)

可以理解的是，在对智能体在一个陌生的环境中进行实时路径规划时，在最初训练时，初始TSEB-DDPG模型的经验缓冲池中无经验信息，可先对经验缓冲池进行初始化处理，在经验缓冲池中有一定数量的经验信息后，再进行训练。

进一步地，为了提高初始TSEB-DDPG模型的训练效率，所述经验缓冲池包括优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池，所述根据三阶梯采样机制实时从所述经验缓冲池中采集训练经验信息，包括：获取所述智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定训练阶段判断指标；根据前后步进关系奖励机制确定所述智能体在移动过程中获得的当前奖励；根据所述训练阶段判断指标、所述当前奖励和预设指标阈值判断所述智能体处于的训练阶段，并根据训练阶段确定各经验缓冲池的采样比例；根据所述采样比例从所述优秀轨迹经验缓冲池、所述碰撞轨迹经验缓冲池和所述实时轨迹经验缓冲池中采集训练经验信息。

可以理解的是，经验缓冲池包括优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池。

可以理解的是，设置优秀经验缓冲池是为了提高模型的训练效率，在优秀经验缓冲池加入有效的先验知识，使得模型训练的效率大大提高。如果没有有效的先验知识，只能通过不断地试错来积累经验。如果训练时设置较少的训练次数，有可能训练结束时都无法完成模型的训练。这将直接导致训练任务的失败。即使设置较多的训练次数，也会造成在训练前期，到处试错，无法进行高效学习，导致算法最终训练效率低、不收敛以及精度差等问题。上述问题会随着智能体动作空间的增大而变大，对于连续的动作空间，如果没有先验知识作为引导，是很难令初始模型收敛。

应该理解的是，为了模型训练的效率，在从经验缓冲池中采集经验信息时，要保证经验信息的重要性区分及经验信息的多样性。智能体运行环境的改变可能很微小，这就会造成按顺序存取和采样的经验缓冲池中的经验信息相关性很强，无法区分每条经验信息的重要程度，且重要的经验信息在FIFO(First Input First Output)，即先进先出的存储机制下会丢失。因此，为了保证每一类重要经验信息都被采样到，专门为智能算法规划出来的优秀路径信息设置了优秀轨迹经验缓冲池。在训练过程中步进要有好的经验，还要有坏的经验，所以又设置了碰撞轨迹经验缓冲池，在智能体的运行过程中不断探索、试错，并实时获取碰撞轨迹信息，将碰撞轨迹信息存入碰撞轨迹经验缓冲池，为了后续能够持续对模型进行优化，提高实时路径规划的精确度，还设置了实时轨迹经验缓冲池，根据实时轨迹经验缓冲池中的经验信息对预设TSEB-DDPG模型进行进一步的优化。

可以理解的是，在控制智能体在移动过程中，智能体每执行一个动作a_t会得到一个执行该动作对应的奖励r_t，求预设次数的平均奖励，该预设次数的平均奖励可以是与当前移动步数最近最近的预设次数的平均奖励，根据平均奖励可以确定智能体训练阶段的判断指标。

应该理解的是，前后步进关系奖励机制是根据智能体当前位置与障碍物之间的关系和与当前位置相邻的前一位置与障碍物之间的关系，确定智能体在移动过程中的当前奖励的奖励确定机制。

应该理解的是，智能体处于不同的训练阶段，在优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池三个经验缓冲池中采样比例是不同的，采样比例随着训练阶段的不同而改变变换。

进一步地，为了提高对智能体实时路径规划的精确度，所述实时获取所述智能体移动过程中的经验信息，并将所述经验信息添加至经验缓冲池，包括：实时获取所述智能体移动过程中的经验信息，并从所述经验信息中选取碰撞轨迹信息；将所述碰撞轨迹信息添加至所述碰撞轨迹经验缓冲池，并将实时轨迹信息添加至所述实时轨迹经验缓冲池。

可以理解的是，在模型训练过程中，实时对智能体的运动状态进行监控获得智能体运动的经验信息，从经验信息中选取碰撞轨迹信息，将其添加至碰撞轨迹经验缓冲池，并将实时轨迹信息添加至实时轨迹经验缓冲池。

进一步地，为了提高对智能体实时路径规划的精确度，所述获取所述智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定训练阶段判断指标，包括：获取所述智能体移动过程中的平均奖励，根据最小二乘法和所述平均奖励在预设坐标系中拟合训练阶段判断直线；将所述训练阶段判断直线的斜率作为训练阶段判断指标。

可以理解的是，假设需要对初始TSEB-DDPG模型进行L次训练，在每次训练开始前，对前F次训练得到的奖励求平均值得到平均奖励，对平均奖励进行分析，用最小二乘法为平均奖励拟合出一条直线，该直线即为训练阶段判断直线，该直线的斜率可用p表示，将该直线的斜率p作为训练阶段判断指标。

本实施例通过获取智能体的当前位置和目标位置；根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划信息；从所述路径规划信息中选取目标路径规划路线，并根据所述目标路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。由于本实施例是根据智能体的当前位置及目标位置通过预设TSEB-DDPG模型确定智能体的路径规划信息，根据从路径规划信息中选取的目标路径规划路线控制智能体从当前位置移动到目标位置，解决了现有技术中采用的相关算法对智能体的实时路径规划精确度低的技术问题，提高了智能体实时路径规划的精确度。

参考图3，图3为本发明智能体实时路径规划方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述根据前后步进关系奖励机制确定所述智能体在移动过程中获得的当前奖励的步骤，包括：

步骤S011：获取所述智能体的当前位置坐标和与所述当前位置坐标相邻的历史位置坐标。

应该理解的是，奖励机制对于模型的训练尤为重要，正是在奖励策略的正面引导下，可以完成模型的训练，合理的奖励策略对于控制智能体下一步的动作有着重要的意义。

可以理解的是，当前位置坐标为智能体当前所处的位置的坐标，历史位置坐标为智能体在移动过程中与当前位置相邻的上一位置的坐标。

步骤S012：获取所述智能体所处空间中的障碍物坐标集合。

可以理解的是，可以获得智能体所处空间中各个障碍物的位置坐标，各个障碍物的位置坐标构成障碍物坐标集合。

步骤S013：根据当前位置坐标、历史位置坐标与障碍物坐标集合之间的从属关系确定所述智能体在移动过程中获得的当前奖励。

应该理解的是，根据当前位置坐标、历史位置坐标与障碍物坐标集合之间的从属关系可以分别确定智能体在当前位置是否和障碍物碰撞以及在与当前位置相邻的上一位置是否和障碍物碰撞，从而确定智能体能获得的当前奖励。

在具体实现中，假设智能体的当前位置坐标为s_t，相邻的历史位置坐标为s_t-1，智能体所处空间中的障碍物坐标集合为Z，智能体移动的终点即目标位置为end，s_t与end之间的距离为dis(s_t,end)，s_t-1与end之间的距离为dis(s_t-1,end)，前后步进关系的奖励机制即根据当前位置坐标、历史位置坐标与障碍物坐标集合之间的从属关系确定所述智能体在移动过程中获得的当前奖励可有下述方式实现：(1)若s_t-1∈Z，且s_t∈Z，说明智能体在移动过程中前一步与障碍物碰撞，后一步没有及时调整，又与障碍物碰撞，此时给予智能体负奖励：reward＝-d₁；(2)若s_t-1∈Z，且说明智能体在移动过程中前一步与障碍物碰撞，后一步及时调整避开障碍物，此时给予障碍物正奖励：reward＝d₁；(3)若/>且s_t∈Z，说明智能体在移动过程中前一步没有和障碍物相撞，后一步与障碍物碰撞，此时给与负奖励：reward＝-d₁；(4)若/>且/>且dis(s_t-1,end)<dis(s_t,end)，说明智能体的前一步和当前都没有和障碍物碰撞，但是智能体远离了目标位置，此时给予负奖励：reward＝-d₁；(5)若/>且/>且dis(s_t-1,end)>dis(s_t,end)，说明智能体的前一步和当前都没有和障碍物碰撞，而且智能体离目标位置越来越近，此时给予智能体正奖励reward＝d₁；(6)为了控制智能体向目标位置前进，还设置渐进奖励，当dis(s_t-1,end)<k₁时，给予智能体正奖励reward＝d₂，当dis(s_t-1,end)<k₂时，给予智能体正奖励reward＝2d₂；(7)若智能体到达目标位置，则给予智能体一个最大的正奖励reward＝d₃。上述奖励机制的参数，可根据具体的应用场景设定，本实施例对比不作限制。

本实施例通过获取所述智能体的当前位置坐标和与所述当前位置坐标相邻的历史位置坐标；获取所述智能体所处空间中的障碍物坐标集合；根据当前位置坐标、历史位置坐标与障碍物坐标集合之间的从属关系确定所述智能体在移动过程中获得的当前奖励。由于本实施例是根据智能体移动过程中当前位置坐标、与当前位置坐标相邻的历史位置坐标和障碍物坐标集合之间的从属关系确定给予智能体的当前奖励，能够对智能体移动到坐标位置给予正面引导，提高了实时路径规划的精确度和模型训练的效率。

参考图4，图4为本发明智能体实时路径规划方法第三实施例的流程示意图。

基于上述各实施例，在本实施例中，所述所述根据所述训练阶段判断指标、所述当前奖励和预设指标阈值判断所述智能体处于的训练阶段，并根据训练阶段确定各经验缓冲池的采样比例的步骤，包括：

步骤S021：获取所述优秀轨迹经验缓冲池的优秀轨迹平均奖励。

应该理解的是，优秀轨迹经验缓冲池中存储的是优秀轨迹经验，即智能体从当前位置到达目标位置的最优或次优路线，优秀轨迹平均奖励是智能体根据优秀轨迹经验移动所获得的奖励的平均奖励。

步骤S022：在所述训练阶段判断指标不大于预设指标阈值且所述当前奖励不大于优秀轨迹平均奖励时，将第一预设比例作为所述智能体处于学步阶段时各经验缓冲池的采样比例。

应该理解的是，预设指标阈值时区分智能体训练阶段的阈值，在训练阶段判断指标小于或等于预设指标阈值且当前奖励小于或等于优秀轨迹平均奖励时，可判定智能体处于学步阶段，此时将第一预设比例作为学步阶段在优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池的采样比例。

步骤S023：在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为所述智能体处于蹒跚阶段时各经验缓冲池的采样比例。

可以理解的是，在训练阶段判断指标大于预设指标阈值时，可判定智能体处于蹒跚阶段，此时将第二预设比例作为蹒跚阶段在优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池的采样比例。

步骤S024：在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为所述智能体处于酷跑阶段时各经验缓冲池的采样比例。

可以理解的是，在当前奖励大于优秀轨迹平均奖励时，可判定智能体处于酷跑阶段，此时将第三预设比例比例作为蹒跚阶段在优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池的采样比例。

在具体实现中，本实施例的在经验缓冲中采样的采样机制为三阶梯采样机制，三阶梯采样机制的原理图可参照图5，经验缓冲池总的容量为C，D1为优秀轨迹经验缓冲池，D2为碰撞轨迹经验缓冲池，D3为实时轨迹经验缓冲池，三个缓冲池的容量分别为C₁,C₂,C₃，从三个经验缓冲池中采集的经验信息的量分别为N₁,N₂,N₃。假设需要对模型进行L次训练，在每次训练开始前，对智能体前F次训练得到的奖励求平均值，得到平均奖励，用最小二乘法为前F次的平均奖励拟合出一条直线，该直线即为训练阶段判断直线，该直线的斜率可用p表示，将该直线的斜率p作为训练阶段判断指标，根据具体应用场景设置预设指标阈值e₁，求得优秀轨迹经验缓冲池中优秀轨迹平均奖励为采用三阶梯采样机制的采样流程图可参照图6，在开始采样时，先初始化D1经验缓冲池，再初始化D2和D3经验缓冲池，按照如下方式对训练阶段进行划分和采样：(1)在p≤e₁，且智能体得到的当前奖励/>判定智能体处于学步阶段；(2)在p>e₁时，判定智能体处于蹒跚阶段；(3)在智能体得到的当前奖励时，判定智能体处于酷跑阶段，其中v为常系数，可根据具体使用场景确定，本实施例中v＝0.5。假设三个经验缓冲池的总容量为C，优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池的容量分别为C₁,C₂,C₃，需满足C＝C₁+C₂+C₃。假设从经验缓冲池中采集的经验信息的数量为N，则设从优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池中的采样数量分别为N₁,N₂,N₃，则需满足N＝N₁+N₂+N₃，N₁,N₂,N₃三个值为随着训练次数增加而变化的函数，具体的设置可由式6、式7和式8表示，式6和式7中的b和c为常系数，可根据具体应用场景设定，在本实施例中b可设为0.5，c可设为0.4，在t＝T时，采样结束，程序终止。优秀轨迹经验缓冲池只在学步阶段起到引导作用，碰撞轨迹经验缓冲池在学步阶段和蹒跚阶段都起作用，实时轨迹经验缓冲池在各个训练阶段都起作用，在酷跑阶段则由实时轨迹经验缓冲池单独作用。

N₃＝N-N₁-N₂ (式8)

本实施例通过获取所述优秀轨迹经验缓冲池的优秀轨迹平均奖励；在所述训练阶段判断指标不大于预设指标阈值且所述当前奖励不大于优秀轨迹平均奖励时，将第一预设比例作为所述智能体处于学步阶段时各经验缓冲池的采样比例；在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为所述智能体处于蹒跚阶段时各经验缓冲池的采样比例；在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为所述智能体处于酷跑阶段时各经验缓冲池的采样比例。由于本实施例是通过训练阶段判断指标、预设指标阈值和优秀轨迹平均奖励判断智能体所处的阶段，在智能体处于不同阶段时，在优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池中按照不同的采样比例采样，使得不同的轨迹经验缓冲池在不同的训练阶段起到的相应的作用，能够提高模型的训练效率和智能体的学习效率。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有智能体实时路径规划程序，所述智能体实时路径规划程序被处理器执行时实现如上文所述的智能体实时路径规划方法的步骤。

参照图7，图7为本发明智能体实时路径规划装置第一实施例的结构框图。

如图7所示，本发明实施例提出的智能体实时路径规划装置包括：获取模块10、确定模块20和控制模块30。

所述获取模块10，用于获取智能体的当前位置和目标位置；

所述确定模块20，用于根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线；

所述控制模块30，根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。

本实施例通过获取模块10获取智能体的当前位置和目标位置；确定模块20根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线；控制模块30根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置。由于本实施例是根据智能体的当前位置及目标位置通过预设TSEB-DDPG模型确定智能体的路径规划路线，根据路径规划路线控制智能体从当前位置移动到目标位置，解决了现有技术中采用的相关算法对智能体的实时路径规划精确度低的技术问题，提高了智能体实时路径规划的精确度。

基于本发明上述智能体实时路径规划装置第一实施例，提出本发明智能体实时路径规划装置的第二实施例。

在本实施例中，所述获取模块10，还用于根据智能体的当前动作策略和预设探索噪声通过初始TSEB-DDPG模型控制所述智能体移动；实时获取所述智能体移动过程中的经验信息，并将所述经验信息添加至经验缓冲池；根据三阶梯采样机制实时从所述经验缓冲池中采集训练经验信息；根据所述训练经验信息训练所述初始TSEB-DDPG模型，并在满足预设条件时，获得预设TSEB-DDPG模型。

所述获取模块10，还用于获取所述智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定训练阶段判断指标；根据前后步进关系奖励机制确定所述智能体在移动过程中获得的当前奖励；根据所述训练阶段判断指标、所述当前奖励和预设指标阈值判断所述智能体处于的训练阶段，并根据训练阶段确定各经验缓冲池的采样比例；根据所述采样比例从所述优秀轨迹经验缓冲池、所述碰撞轨迹经验缓冲池和所述实时轨迹经验缓冲池中采集训练经验信息；其中所述经验缓冲池包括优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池。

所述获取模块10，还用于实时获取所述智能体移动过程中的经验信息，并从所述经验信息中选取碰撞轨迹信息；将所述碰撞轨迹信息添加至所述碰撞轨迹经验缓冲池，并将实时轨迹信息添加至所述实时轨迹经验缓冲池。

所述获取模块10，还用于获取所述智能体的当前位置坐标和与所述当前位置坐标相邻的历史位置坐标；获取所述智能体所处空间中的障碍物坐标集合；根据当前位置坐标、历史位置坐标与障碍物坐标集合之间的从属关系确定所述智能体在移动过程中获得的当前奖励。

所述获取模块10，还用于获取所述优秀轨迹经验缓冲池的优秀轨迹平均奖励；在所述训练阶段判断指标不大于预设指标阈值且所述当前奖励不大于优秀轨迹平均奖励时，将第一预设比例作为所述智能体处于学步阶段时各经验缓冲池的采样比例；在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为所述智能体处于蹒跚阶段时各经验缓冲池的采样比例；在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为所述智能体处于酷跑阶段时各经验缓冲池的采样比例。

所述获取模块10，还用于获取所述智能体移动过程中的平均奖励，根据最小二乘法和所述平均奖励在预设坐标系中拟合训练阶段判断直线；将所述训练阶段判断直线的斜率作为训练阶段判断指标。

本发明智能体实时路径规划装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能体实时路径规划方法，其特征在于，所述方法包括：

获取智能体的当前位置和目标位置；

根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线，所述预设TSEB-DDPG模型为预设三阶梯经验池深度确定性策略梯度模型，在原有的DDPG算法的基础上新增三阶梯经验池得到初始三阶梯经验池深度确定性策略梯度算法，对初始三阶梯经验池深度确定性策略梯度算法进行训练，在满足预设条件时，获得预设TSEB-DDPG模型；

根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置；

所述获取智能体的当前位置和目标位置步骤之前，所述方法还包括：

根据所述训练经验信息训练所述初始TSEB-DDPG模型，并在满足预设条件时，获得预设TSEB-DDPG模型；

所述经验缓冲池包括优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池，所述优秀轨迹经验缓冲池用于存储有效的先验知识，所述碰撞轨迹经验缓冲池用于存储碰撞轨迹信息，所述实时轨迹经验缓冲池用于存储实时轨迹信息，所述根据三阶梯采样机制实时从所述经验缓冲池中采集训练经验信息，包括：

根据所述采样比例从所述优秀轨迹经验缓冲池、所述碰撞轨迹经验缓冲池和所述实时轨迹经验缓冲池中采集训练经验信息；

所述根据前后步进关系奖励机制确定所述智能体在移动过程中获得的当前奖励，包括：

获取所述智能体所处空间中的障碍物坐标集合；

2.如权利要求1所述的方法，其特征在于，所述实时获取所述智能体移动过程中的经验信息，并将所述经验信息添加至经验缓冲池，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述训练阶段判断指标、所述当前奖励和预设指标阈值判断所述智能体处于的训练阶段，并根据训练阶段确定各经验缓冲池的采样比例，包括：

获取所述优秀轨迹经验缓冲池的优秀轨迹平均奖励；

4.如权利要求1所述的方法，其特征在于，所述获取所述智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定训练阶段判断指标，包括：

将所述训练阶段判断直线的斜率作为训练阶段判断指标。

5.一种智能体实时路径规划装置，其特征在于，所述装置包括：

获取模块，用于获取智能体的当前位置和目标位置；

确定模块，用于根据所述当前位置及所述目标位置通过预设TSEB-DDPG模型确定所述智能体的路径规划路线，所述预设TSEB-DDPG模型为预设三阶梯经验池深度确定性策略梯度模型，在原有的DDPG算法的基础上新增三阶梯经验池得到初始三阶梯经验池深度确定性策略梯度算法，对初始三阶梯经验池深度确定性策略梯度算法进行训练，在满足预设条件时，获得预设TSEB-DDPG模型；

控制模块，用于根据所述路径规划路线控制所述智能体从所述当前位置移动至所述目标位置；

所述获取模块，还用于根据智能体的当前动作策略和预设探索噪声通过初始TSEB-DDPG模型控制所述智能体移动；实时获取所述智能体移动过程中的经验信息，并将所述经验信息添加至经验缓冲池；根据三阶梯采样机制实时从所述经验缓冲池中采集训练经验信息；根据所述训练经验信息训练所述初始TSEB-DDPG模型，并在满足预设条件时，获得预设TSEB-DDPG模型；

所述获取模块，还用于获取所述智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定训练阶段判断指标；根据前后步进关系奖励机制确定所述智能体在移动过程中获得的当前奖励；根据所述训练阶段判断指标、所述当前奖励和预设指标阈值判断所述智能体处于的训练阶段，并根据训练阶段确定各经验缓冲池的采样比例；根据所述采样比例从优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池中采集训练经验信息；其中所述经验缓冲池包括优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池，所述优秀轨迹经验缓冲池用于存储有效的先验知识，所述碰撞轨迹经验缓冲池用于存储碰撞轨迹信息，所述实时轨迹经验缓冲池用于存储实时轨迹信息；

所述获取模块，还用于获取所述智能体的当前位置坐标和与所述当前位置坐标相邻的历史位置坐标；获取所述智能体所处空间中的障碍物坐标集合；根据当前位置坐标、历史位置坐标与障碍物坐标集合之间的从属关系确定所述智能体在移动过程中获得的当前奖励。

6.一种智能体实时路径规划设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能体实时路径规划程序，所述智能体实时路径规划程序配置为实现如权利要求1至4中任一项所述的智能体实时路径规划方法的步骤。

7.一种存储介质，其特征在于，所述存储介质上存储有智能体实时路径规划程序，所述智能体实时路径规划程序被处理器执行时实现如权利要求1至4任一项所述的智能体实时路径规划方法的步骤。