CN116894530A

CN116894530A - 路径规划方法、装置、电子设备及存储介质

Info

Publication number: CN116894530A
Application number: CN202310754332.8A
Authority: CN
Inventors: 秦傲洋; 李庆; 朱松纯
Original assignee: Beijing General Artificial Intelligence Research Institute
Current assignee: Beijing General Artificial Intelligence Research Institute
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-10-17

Abstract

本申请公开了一种路径规划方法、装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取目标对象的当前位置状态和历史位置状态；将当前位置状态和历史位置状态输入至路径规划模型，通过路径规划模型进行路径规划，获得路径规划模型输出的目标对象的路径规划策略；其中，路径规划模型通过如下步骤训练得到：获取训练数据集，训练数据集包括样本对象的位置状态序列和对象动作序列，对象动作序列为路径规划模型的隐变量；基于训练数据集进行概率分解，得到策略概率和马尔科夫状态转移概率；基于策略概率和马尔科夫状态转移概率，对路径规划模型进行更新。该方法的模型具有非马尔可夫性质且训练无需数据标签。

Description

路径规划方法、装置、电子设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种路径规划方法、装置、电子设备及存储介质。

背景技术

路径规划是在起点和终点之间找到一条连续的运动轨迹，在尽可能优化路径的同时避开环境中的障碍物，路径规划是提高机器人等智能体生存能力和应用价值的有效手段。

早期，路径规划通过行为克隆的模仿学习实现，当训练数据较少时，可能会出现时序偏移的现象。随着路径规划算法训练使用的数据日益增多，数据量大小已不再是路径规划算法的问题，但数据标签差异性较大且难以获取，造成算法应用场景有限、规划效果较差。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种路径规划方法、装置、电子设备及存储介质，无需数据标签，可以有效扩宽路径规划的应用场景，提高规划效果。

第一方面，本申请提供了一种路径规划方法，该方法包括：

获取目标对象的当前位置状态和历史位置状态；

将所述当前位置状态和所述历史位置状态输入至路径规划模型，通过所述路径规划模型进行路径规划，获得所述路径规划模型输出的所述目标对象的路径规划策略；

其中，所述路径规划模型通过如下步骤训练得到：

获取训练数据集，所述训练数据集包括样本对象的位置状态序列和对象动作序列，所述对象动作序列为所述路径规划模型的隐变量；

基于所述训练数据集进行概率分解，得到策略概率和马尔科夫状态转移概率；

基于所述策略概率和所述马尔科夫状态转移概率，对所述路径规划模型进行更新。

根据本申请的路径规划方法，通过路径规划模型提取历史位置状态和当前位置状态进行学习规划，相比经典强化学习具有更泛化的非马尔可夫性质，且路径规划模型通过不带标签的训练数据集进行训练，无需数据标签，可以有效扩宽路径规划的应用场景，提高规划效果。

根据本申请的一个实施例，所述对所述路径规划模型进行更新，包括：

获取所述对象动作序列的先验概率和后验概率；

基于所述先验概率和所述后验概率，通过最大似然估计对所述路径规划模型进行策略学习。

根据本申请的一个实施例，所述先验概率通过短时蒙特卡洛采样得到。

根据本申请的一个实施例，所述后验概率通过重要性采样得到，所述重要性采样的重要性权重基于所述路径规划模型对应的环境确定。

根据本申请的一个实施例，所述通过所述路径规划模型进行路径规划，获得所述路径规划模型输出的所述目标对象的路径规划策略，包括：

建立所述目标对象的路径规划目标函数；

基于所述路径规划目标函数，通过先验概率采样进行策略执行，并通过后验概率采样进行规划，得到所述目标对象的路径规划策略。

根据本申请的一个实施例，所述策略概率服从玻尔兹曼分布，所述马尔科夫状态转移概率服从单模高斯分布。

第二方面，本申请提供了一种路径规划装置，该装置包括：

获取模块，用于获取目标对象的当前位置状态和历史位置状态；

处理模块，用于将所述当前位置状态和所述历史位置状态输入至路径规划模型，通过所述路径规划模型进行路径规划，获得所述路径规划模型输出的所述目标对象的路径规划策略；

其中，所述路径规划模型通过如下步骤训练得到：

根据本申请的路径规划装置，通过路径规划模型提取历史位置状态和当前位置状态进行学习规划，相比经典强化学习具有更泛化的非马尔可夫性质，且路径规划模型通过不带标签的训练数据集进行训练，无需数据标签，可以有效扩宽路径规划的应用场景，提高规划效果。

第三方面，本申请提供了一种机器人，包括：

机身，所述机身设有行走机构；

控制器，所述控制器与所述行走机构电连接，所述控制器用于基于上述第一方面所述路径规划方法，确定路径规划策略，并按照所述路径规划策略控制所述行走机构行走。

第四方面，本申请提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的路径规划方法。

第五方面，本申请提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的路径规划方法。

第六方面，本申请提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的路径规划方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请实施例提供的路径规划方法的流程示意图；

图2是本申请实施例提供的路径规划模型训练的流程示意图；

图3是本申请实施例提供的基于马尔科夫的序列关系示意图；

图4是本申请实施例提供的基于非马尔科夫的序列关系示意图；

图5是本申请实施例提供的路径规划装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的路径规划方法、路径规划装置、电子设备和可读存储介质进行详细地说明。

其中，路径规划方法可应用于终端，具体可由，终端中的硬件或软件执行。

该终端包括但不限于具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话或平板电脑等便携式通信设备。还应当理解的是，在某些实施例中，该终端可以不是便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

以下各个实施例中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。

本申请实施例提供的路径规划方法，该路径规划方法的执行主体可以为电子设备或者电子设备中能够实现该路径规划方法的功能模块或功能实体，本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等，下面以电子设备作为执行主体为例对本申请实施例提供的路径规划方法进行说明。

本申请实施例提供的路径规划方法可以规划智能体从某一起点至某一终点的路径，实现机器人行走、车辆自动驾驶等动作。

如图1所示，该路径规划方法包括：步骤110和步骤120。

步骤110、获取目标对象的当前位置状态和历史位置状态。

其中，目标对象为待进行路径规划的智能体对象，可以为机器人、汽车等。

目标对象的当前位置状态可以指目标对象在当前时刻所处位置的位置信息，目标对象的历史位置状态可以指目标对象在历史时刻所处位置的位置信息。

需要说明的是，历史位置状态可以包括当前时刻之前的多个历史时刻的位置信息。

例如，目标对象进行路径规划，学习某一三次曲线的路径，获取目标对象在当前时刻的位置信息以及在当前时刻之前的三个历史时刻的位置信息。

步骤120、将当前位置状态和历史位置状态输入至路径规划模型，通过路径规划模型进行路径规划，获得路径规划模型输出的目标对象的路径规划策略。

在该步骤中，路径规划模型对目标对象的当前位置状态和历史位置状态进行学习，得到目标对象的路径规划策略，可以按照路径规划策略控制目标对象行走。

在该实施例中，如图2所示，路径规划模型可以通过如下步骤训练得到：

步骤210、获取训练数据集，训练数据集包括样本对象的位置状态序列和对象动作序列，对象动作序列为路径规划模型的隐变量；

步骤220、基于训练数据集进行概率分解，得到策略概率和马尔科夫状态转移概率；

步骤230、基于策略概率和马尔科夫状态转移概率，对路径规划模型进行更新。

需要说明的是，使用训练数据集对路径规划模型进行训练，训练数据集包括位置状态序列和对象动作序列，训练数据集是没有标签的数据集。

在该实施例中，训练得到的路径规划模型使用当前位置状态和历史位置状态，结合历史位置状态的环境记忆，确定目标对象的路径规划策略，路径规划模型属于基于非马尔科夫(Non-Markovian)进行决策的生成类模型，其状态变量是可观测的，其动作变量是隐变量。

图3所示为基于马尔科夫的序列关系示意图，如图3所示，动作仅由当前状态决定，即a₀仅由s₀决定，a₁仅由s₁决定，a₂仅由s₂决定，依次类推。

图4所示为基于非马尔科夫的序列关系示意图，如图4所示，动作会基于之前的所有状态决定，即a₀由s₀决定，a₁由s₀和s₁决定，a₂由s₀、s₁和s₂决定，依次类推。

在该实施例中，通过将训练数据集中位置状态序列和对象动作序列的联合分布进行概率分解，得到对应的策略概率和马尔科夫状态转移概率，进行训练数据集的学习。

其中，马尔科夫状态转移概率指的是符合马尔科夫性的因果状态转移概率。

下面对路径规划模型的训练进行具体介绍。

训练数据集如下：

ζ＝{s₀，a₀，s₁，a₁，…，a_T-1，s_T}

其中，ζ为训练数据集，s₀…s_T为位置状态序列，a₀…a_T-1为对象动作序列。

在实际执行中，位置状态序列和对象动作序列的联合分布可以进行如下的概率分解：

其中，p_α(a_t|s_0：t-1)为参数为α的策略概率，p_β(s_t|s_t-1，a_t-1)为参数为β的马尔科夫状态转移概率，α和β是路径规划模型的网络参数，p(s₀)为概率初始状态分布，p(s₀)可以通过黑盒采样获取。

需要说明的是，路径规划模型可以包括策略模型和环境模型，α是策略模型的网络参数，β是环境模型的网络参数。

在实际执行中，路径规划模型可以包括策略模型和环境模型，在路径规划模型训练完成后，可以通过如下至少两种方式进行路径规划：

其一，无给定目标的路径规划。

在该实施方式中，路径规划模型可以无需环境模型，由策略模型按照训练数据集中提取出来的路径模式进行决策，规划的路径符合训练数据集的数据特征。

其二，给定目标的路径规划。

在该实施方式中，路径规划模型包括策略模型和环境模型，环境模型提供了给定动作序列时对未来状态轨迹的预测，基于这种预测与给定目标的对比，可以同时优化一整条动作序列，使得规划出的轨迹既具有训练数据集的数据特征，又能够到达预先给定的目标点。

在实际执行中，为提升规划的准确性，可以在每次优化出一整条动作序列之后，仅执行动作序列的第一个动作，然后再重复这一过程，在这种情况下，策略模型提供了一种先验，而环境模型在先验的基础上进行调整，使得路径满足额外的其他要求。

在该实施例中，路径规划模型通过不带标签的训练数据集进行训练，训练数据集是无奖励标签无动作标签的序列，路径规划模型更加符合智能起源，路径规划模型输出路径规划策略时基于当前位置状态和历史位置状态作为数据基础，相比经典强化学习具有更泛化的非马尔可夫性质，借助环境的记忆效应，有效提升路径规划的效果。

以目标物体在二维平面进行路劲规划为例。

目标物体的位置状态由所在点的横纵坐标表示，设目标物体在横坐标方向以匀速前进，目标物体的纵坐标变化视为动作需要进行决策。

在该实施例中，路径规划模型的训练数据集包括10条三次曲线，路径规划模型学习曲线的三次特性。

以目标物体当前时刻的位置状态和前三个时刻的位置状态作为模型输入，路径规划模型可以有效地从历史信息中学习，并生成出符合三次曲线特性的动作序列，即路径规划策略，目标对象的移动路径更加平滑，避障效果更佳。

根据本申请实施例提供的路径规划方法，通过路径规划模型提取历史位置状态和当前位置状态进行学习规划，相比经典强化学习具有更泛化的非马尔可夫性质，且路径规划模型通过不带标签的训练数据集进行训练，无需数据标签，可以有效扩宽路径规划的应用场景，提高规划效果。

需要说明的是，如路径规划模型一般，采用无动作标签和无奖励标签的训练数据集进行学习，通过历史状态和当前状态进行决策，相比经典强化学习具有更泛化的非马尔可夫性质的模型还可以用于机器人关节控制、汽车自动驾驶等领域，构造相应的目标函数和决策问题，进行学习得到最优的策略。

在一些实施例中，路径规划模型中的策略概率服从玻尔兹曼(Boltzmann)分布，马尔科夫状态转移概率服从单模高斯(single-mode Gaussian)分布。

在该实施例中，策略概率服从玻尔兹曼分布，马尔科夫状态转移概率服从单模高斯分布，策略概率和马尔科夫状态转移概率的概率密度族(density families)与逆向强化学习(Inverse Reinforcement Learning，IRL)一致，路径规划模型的模型结构与隐变量模型结构类似。

在一些实施例中，对路径规划模型进行更新，可以包括：

获取对象动作序列的先验概率和后验概率；

基于先验概率和后验概率，通过最大似然估计对路径规划模型进行策略学习。

在该实施例中，路径规划模型通过最大似然估计(Maximum LikelihoodEstimation，MLE)进行策略学习，需要进行对象动作序列的先验概率采样(priorsampling)和后验概率采样(posterior sampling)。

在一些实施例中，先验概率通过短时蒙特卡洛采样得到。

在该实施例中，通过短时蒙特卡洛(short-run Markov Chain Monte Carlo)采样先验概率。

在一些实施例中，后验概率通过重要性采样得到，重要性采样的重要性权重基于路径规划模型对应的环境确定。

在实际执行中，路径规划模型的马尔科夫状态转移概率通过与环境不断交互收集数据来学习，在模型学习完毕之后，可以通过先验概率采样进行策略执行，通过后验概率采样进行规划。

在一些实施例中，通过路径规划模型进行路径规划，获得路径规划模型输出的目标对象的路径规划策略，可以包括：

建立目标对象的路径规划目标函数；

基于路径规划目标函数，通过先验概率采样进行策略执行，并通过后验概率采样进行规划，得到目标对象的路径规划策略。

其中，路径规划目标函数用于表征目标对象进行路径规划的目标。

例如，目标对象进行路径规划的目标是避障，优化路径规划目标函数所得到的路径规划策略，可以有效避免目标对象在行进过程中触碰到障碍物。

再例如，目标对象进行路径规划的目标是平滑移动，优化路径规划目标函数所得到的路径规划策略，可以使得目标对象的行动轨迹更加平滑。

在该实施例中，路径规划模型学习完毕后，可以通过先验采样进行策略执行，通过后验采样进行规划，从最大似然估计中给出了一个非马尔可夫决策问题的路径规划目标函数，先验采样作为策略执行优化路径规划目标函数，当给定目标状态时，后验采样优化目标状态的变体，实现了基于路径规划模型的规划。

本申请实施例基于非马尔可夫决策过程提出路径规划模型，位置状态序列是可观测的，对象动作序列是隐变量，路径规划模型将状态序列与动作序列的联合分布进行概率分解，得到策略概率和马尔科夫状态转移概率，通过最大似然估计进行策略学习，进行动作的先验与后验采样，马尔科夫状态转移概率则通过与环境不断交互收集数据来学习，模型学习完毕后，通过先验采样进行策略执行，通过后验采样进行规划，无需数据标签，可以有效扩宽路径规划的应用场景，提高规划效果。

本申请实施例提供的路径规划方法，执行主体可以为路径规划装置。本申请实施例中以路径规划装置执行路径规划方法为例，说明本申请实施例提供的路径规划装置。

本申请实施例还提供一种路径规划装置。

如图5所示，该路径规划装置包括：

获取模块510，用于获取目标对象的当前位置状态和历史位置状态；

处理模块520，用于将当前位置状态和历史位置状态输入至路径规划模型，通过路径规划模型进行路径规划，获得路径规划模型输出的目标对象的路径规划策略；

其中，路径规划模型通过如下步骤训练得到：

获取训练数据集，训练数据集包括样本对象的位置状态序列和对象动作序列，对象动作序列为路径规划模型的隐变量；

基于训练数据集进行概率分解，得到策略概率和马尔科夫状态转移概率；

基于策略概率和马尔科夫状态转移概率，对路径规划模型进行更新。

根据本申请实施例提供的路径规划装置，通过路径规划模型提取历史位置状态和当前位置状态进行学习规划，相比经典强化学习具有更泛化的非马尔可夫性质，且路径规划模型通过不带标签的训练数据集进行训练，无需数据标签，可以有效扩宽路径规划的应用场景，提高规划效果。

在一些实施例中，处理模块520还用于获取对象动作序列的先验概率和后验概率；

在一些实施例中，先验概率通过短时蒙特卡洛采样得到。

在一些实施例中，处理模块520用于建立目标对象的路径规划目标函数；

在一些实施例中，策略概率服从玻尔兹曼分布，马尔科夫状态转移概率服从单模高斯分布。

本申请实施例中的路径规划装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的路径规划装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为IOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的路径规划装置能够实现图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

在一些实施例中，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601、存储器602及存储在存储器602上并可在处理器601上运行的计算机程序，该程序被处理器601执行时实现上述路径规划方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

本申请实施例还提供一种机器人。

机器人包括机身和控制器，机身设有行走机构，控制器与行走机构电连接，控制器用于基于上述路径规划方法，确定路径规划策略，并按照路径规划策略控制行走机构行走。

控制器通过路径规划模型进行路径规划，路径规划模型通过不带标签的训练数据集进行训练，训练数据集是无奖励标签无动作标签的序列，路径规划模型更加符合智能起源，路径规划模型输出路径规划策略时基于当前位置状态和历史位置状态作为数据基础，相比经典强化学习具有更泛化的非马尔可夫性质，借助环境的记忆效应，有效提升路径规划的效果。

在实际执行中，可以通过上述路径规划方法，基于避障、轨迹平滑等路径规划目标，实现机器人从某一起点至某一重点的路径规划。

根据本申请实施例提供的机器人，通过路径规划模型提取历史位置状态和当前位置状态进行学习规划，相比经典强化学习具有更泛化的非马尔可夫性质，且路径规划模型通过不带标签的训练数据集进行训练，无需数据标签，可以有效扩宽路径规划的应用场景，提高规划效果。

本申请实施例还提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述路径规划方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述路径规划方法。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述路径规划方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

Claims

1.一种路径规划方法，其特征在于，包括：

获取目标对象的当前位置状态和历史位置状态；

其中，所述路径规划模型通过如下步骤训练得到：

2.根据权利要求1所述的路径规划方法，其特征在于，所述对所述路径规划模型进行更新，包括：

获取所述对象动作序列的先验概率和后验概率；

3.根据权利要求2所述的路径规划方法，其特征在于，所述先验概率通过短时蒙特卡洛采样得到。

4.根据权利要求2所述的路径规划方法，其特征在于，所述后验概率通过重要性采样得到，所述重要性采样的重要性权重基于所述路径规划模型对应的环境确定。

5.根据权利要求1-4任一项所述的路径规划方法，其特征在于，所述通过所述路径规划模型进行路径规划，获得所述路径规划模型输出的所述目标对象的路径规划策略，包括：

建立所述目标对象的路径规划目标函数；

6.根据权利要求1-4任一项所述的路径规划方法，其特征在于，所述策略概率服从玻尔兹曼分布，所述马尔科夫状态转移概率服从单模高斯分布。

7.一种路径规划装置，其特征在于，包括：

其中，所述路径规划模型通过如下步骤训练得到：

8.一种机器人，其特征在于，包括：

机身，所述机身设有行走机构；

控制器，所述控制器与所述行走机构电连接，所述控制器用于基于权利要求1-6任一项所述路径规划方法，确定路径规划策略，并按照所述路径规划策略控制所述行走机构行走。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述路径规划方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6任一项所述的路径规划方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述路径规划方法。