CN117075596A

CN117075596A - 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统

Info

Publication number: CN117075596A
Application number: CN202310593588.5A
Authority: CN
Inventors: 何舟; 张喆; 古婵
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi University of Science and Technology
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-11-17
Anticipated expiration: 2043-05-24
Also published as: CN117075596B

Abstract

本发明公开了一种环境和运动不确定下的机器人复杂任务路径规划方法及系统，对机器人全局环境进行分解，获得空间集合与邻接矩阵；输入机器人需要满足的复杂任务要求；建立环境估计的随机过程模型，初始化地图估计；机器人使用传感器进行环境观测，并采用基于卡尔曼滤波算法的环境估计算法进行任务环境估计；根据当前的环境估计结果、复杂任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程；使用混合模拟退火的SARSA算法求解有限马尔可夫决策过程，得到最优策略；依据求解得到的最优策略在环境中移动一次；判断全局任务是否被满足，如果满足则停止，机器人停止移动；如果不满足则返回步骤4，机器人继续进行移动。

Description

一种环境和运动不确定下的机器人复杂任务路径规划方法及系统

技术领域

本发明属于机器人技术领域，具体属于一种环境和运动不确定下的机器人复杂任务路径规划方法及系统。

背景技术

近年来，机器人在各个领域得到了广泛的研究和应用，成为自动化系统的重要组成部分。其中，机器人路径规划是机器人系统控制的核心问题之一。随着移动机器人在各个现实场景(物流、仓储、医疗、救援等)的应用日益增多，机器人需要执行的任务复杂度也在不断提升。在一系列复杂的任务中，涉及多个目标地点和不同的操作，经典的路径规划方法已经不能满足实际需求，具有复杂逻辑约束的路径规划问题更加符合现实意义。

在实际信息物理系统中，全局复杂任务所处的具体环境可能无法被全面地认知(搜救任务中无法确定待救援人员的具体位置、野外的物资收集任务等)，这要求机器人不断自主探索任务所处环境并实现复杂任务要求。同时，机器人用于感知任务环境的传感器由于生产过程或环境干扰导致其具有一定的观测误差，机器人需要使用带有误差的环境观测值。此外，由于潜在的信号扰动或驱动故障等不确定因素会导致机器人无法完全遵循控制而执行错误动作(控制器发出向前的指令，机器人执行了向右移动指令)，且错误发生的概率不确定，此类运动不确定问题将引发机器人碰撞或任务要求无法被满足。因此，同时考虑环境和运动不确定的机器人复杂任务路径规划能够有效提升机器人在实际环境中的通用性和自主性水平，然而现有技术中的方法无法同时高效解决多种不确定条件下的复杂任务路径规划问题。

发明内容

为了解决现有技术中存在的问题，本发明提供一种环境和运动不确定下的机器人复杂任务路径规划方法及系统，以克服现有技术的不足，使机器人在环境和运动不确定下能够进行自主探索和决策并完成复杂任务，有效提升移动机器人在实际任务环境中的适用性。

为实现上述目的，本发明提供如下技术方案：

一种环境和运动不确定下的机器人复杂任务路径规划方法，包括以下步骤，

步骤1，对机器人全局环境进行分解，获得空间集合与邻接矩阵；

步骤2，输入机器人需要满足的复杂任务要求；

步骤3，建立环境估计的随机过程模型，初始化地图估计；

步骤4，机器人使用传感器进行环境观测，并采用基于卡尔曼滤波算法的环境估计算法进行任务环境估计；

步骤5，根据步骤4中当前的环境估计结果、步骤2的复杂任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程；

步骤6，使用混合模拟退火的SARSA算法求解有限马尔可夫决策过程，得到最优策略；

步骤7，依据步骤6求解得到的最优策略在环境中移动一次；

步骤8，判断全局任务是否被满足，如果满足则停止，机器人停止移动；如果不满足则返回步骤4，机器人继续进行移动。

优选的，步骤1中，采用栅格法将机器人全局环境划分为n个区域，用集合C＝{c₁，c₂，...，c_n}表示；

生成全局环境的邻接矩阵N，N为n×n的对称矩阵，如果区域c_i和区域c_j相邻，则N(i，j)＝1，否则N(i，j)＝0，且N(i，i)＝0，i＝1，2，...，n。

优选的，步骤2中，机器人需要满足的复杂任务要求由一个合取范式描述：

式中：G为描述途径任务的合取范式，O为描述禁止访问任务的析取范式，F为描述终点任务的析取范式。

优选的，步骤3中，具体包括以下步骤，

步骤3.1，建立随机过程的状态方程

式中：为的概率，为的概率，A为常数，和为过程误差，和均服从N(0,R)的高斯分布；

步骤3.2，定义机器人的环境观测变量：

其中，

步骤3.3，根据实际传感器误差输入传感器的观测误差：e_i,j；

步骤3.4，初始化机器人对环境的估计：

步骤3.5，定义机器人对环境的第k轮先验估计：

步骤3.6，定义机器人对环境的第k轮后验估计：

其中，

优选的，步骤4中，具体包括以下步骤，

步骤4.1，使用卡尔曼滤波算法根据状态方程和观测值更新环境的估计结果：

其中，是第k轮过程先验方差矩阵，是第k轮过程后验方差矩阵，K^k是第k轮的卡尔曼增益；通过不断地观测、更新，机器人最终可以获得环境的最佳估计。

步骤4.2，设定概率阈值以减小估计误差对后续求解的影响：

优选的，步骤5中，所述有限马尔可夫决策过程五元组<S,A,T,R,G>，包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。

优选的，步骤6中，具体包括以下步骤，

步骤6.1，SARSA算法使用状态动作对的预期收益值(Q值)与贝尔曼方程来求得最优值函数，以获得最优策略，具体的Q值更新公式为：

Q^k(s_t,a_t)＝Q^k-1(s_t,a_t)+α[R_t+1+γ·Q^k(s_t+1,a_t+1)-Q^k-1(s_t,a_t)]

步骤6.2，设定动作选择策略为基于模拟退火的动作选择策略：首先在当前动作空间中随机选择动作采取随机动作和采取Q值最大的动作的概率分别为和P(a_t＝argmaxQ(s,a))计算公式为：

步骤6.3，设计模拟退火过程为：T_u＝λ^k·T₀，T_u为当退火温度，T₀为初始温度，T_f为停止温度，λ为降温速率，k为当前迭代轮数，当T_u<T_f时，停止迭代，输出当前值函数Q为最优值函数Q^*，并根据当前值函数获得最优策略

优选的，步骤7中，根据步骤6获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作a^k,根据a^k在环境中移动一次，并到达下一状态并将作为下一个MDP的初始状态；

优选的，步骤8中，根据步骤7获得的下一状态当时表示任务的所有逻辑要求被满足，算法停止，否则进入步骤4。

一种环境和运动不确定下的机器人复杂任务路径规划方法，包括初始化模块、环境估计模块、运动控制模块和路径规划模块；

所述初始化模块用于将对机器人全局环境进行分解，获得空间集合与邻接矩阵；输入机器人需要满足的复杂任务要求，机器人的复杂任务要求由一个合取范式描述：建立环境估计的随机过程模型，初始化地图估计；

所述环境估计模块，基于卡尔曼滤波的环境估计算法，通过不断地观测、更新，机器人最终可以获得环境的最佳估计；设定概率阈值以减小估计误差对后续求解的影响；

所述运动控制模块用于根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程；使用混合模拟退火的SARSA算法并求解当前值函数获得最优策略；

所述路径规划模块用于根据当前机器人状态与当前最优策略在环境中进行移动，移动后判断全局任务是否被满足，如果未满足则继续执行观测、估计、计算并移动，如果满足则算法结束，输出移动轨迹。

与现有技术相比，本发明具有以下有益的技术效果：

本发明的一种环境和运动不确定下的机器人复杂任务路径规划方法，通过使用逻辑表达式描述机器人的任务要求；使用基于卡尔曼滤波算法的环境估计算法实现环境不确定下的任务环境高效估计，通过机器人携带的传感器获得带有误差的观测值，能够最终实现任务环境的准确估计，为后续路径规划算法提供环境信息；获得环境信息后，构建带有高斯过程的有限马尔可夫决策过程，并使用改进的SARSA算法求解该马尔可夫决策过程，生成当前环境估计下的最优策略以减小运动不确定对任务完成性和安全性影响。对于环境和运动不确定下的机器人复杂任务路径规划问题，本发明能够高效生成移动策略，使得机器人在保证自身安全性的情况下高效完成复杂任务要求，能够切实运用并解决实际环境中的问题且具有通用性。

附图说明

图1是本发明方法的流程框图。

图2是实施例机器人的全局环境图。

图3是实施例机器人的任务分布图。

图4是步骤六混合模拟退火的SARSA算法流程框图。

图5是实施例机器人的移动轨迹图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明提供了一种环境和运动不确定下的机器人复杂任务路径规划方法，包括以下步骤：

步骤一：对机器人全局环境进行分解，获得空间集合与邻接矩阵，用于定义复杂任务和构建有限马尔可夫决策过程。

步骤二：输入机器人需要满足的复杂任务要求；

步骤三：建立环境估计的随机过程模型，初始化地图估计；

步骤四：机器人使用传感器进行环境观测，并采用基于卡尔曼滤波算法的环境估计算法进行任务环境估计；

步骤五：根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP)；

步骤六：开发混合模拟退火的SARSA算法求解MDP；

步骤七：根据求解得到的最优策略在环境中移动一次；

步骤八：判断全局任务是否被满足，如果满足则算法停止，机器人停止移动，如果不满足则返回步骤四，算法继续，机器人继续移动。

步骤一中使用栅格法将全局环境划分为n个区域，用集合C＝{c₁,2,…,_n}表示；

生成全局环境的邻接矩阵N，N为n×n的对称矩阵，如果区域c_i和区域c_j相邻，则N(i,j)＝1，否则N(i,j)＝0,且N(i,i)＝0,i＝1,2,…,n。

步骤二中机器人的复杂任务要求由一个合取范式描述：对于合取范式我们定义：G为描述途径任务的合取范式，O为描述禁止访问任务的析取范式，F为描述终点任务的析取范式。

对于G和O，定义中途任务区域的集合与访问中途任务区域集合对应的命题即机器人在轨迹中访问Π_i中的区域时命题Π_i为真。对于F，定义终点任务区域的集合与停止在终点任务区域集合对应的命题即机器人最终停止在π_i中区域时命题π_i为真；

其中，G＝g₁∧g₂∧...∧g_n，F＝f₁∧f₂∧...∧f_n，P_o∈P_t，最终的目标是使合取范式为真。同时，定义观测函数描述地图区域与任务区域的对应关系。对所有c_i∈C，如果则表示c_i是中途任务区域Π_i中的区域之一，如果则c_i不是中途任务区域；同样的，如果则表示c_i是停止任务区域π_i中的区域之一，如果则c_i不是停止任务区域。

步骤三中具体包括以下过程：

(1)建立该随机过程的状态方程：

其中，为H(c_i)＝Π_i的概率，为h(c_i)＝π_i的概率，A为常数，和为过程误差，和均服从N(0,R)的高斯分布；

(2)定义机器人的环境观测变量：

其中，

(3)根据实际传感器误差输入传感器的观测误差：e_i,j；

(4)初始化机器人对环境的估计：

(5)定义机器人对环境的第k轮先验估计：

(6)定义机器人对环境的第k轮后验估计：

其中，

步骤四中具体包括以下过程：

(1)使用卡尔曼滤波算法根据状态方程和观测值更新环境的估计结果：

其中，是第k轮过程先验方差矩阵，是第k轮过程后验方差矩阵，K ^k是第k轮的卡尔曼增益。通过不断地观测、更新，机器人最终可以获得环境的最佳估计；

(2)设定概率阈值以减小估计误差对后续求解的影响：

步骤五中具体包括以下过程：

根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP)，此类MDP是一个五元组<S,A,T,R,G>，包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。为描述具体的MDP构建过程，我们定义以下特征向量：

(1)状态空间S是包含所有状态的有限集合S＝{s₁,s₂,...,s_S}，其中c_i表示机器人当前所在的区域，表示第k步时各任务要求被满足的情况，初始状态终止状态集合包含所有满足的状态；

(2)动作空间A是可采取的所有动作的有限集合A＝{a₁,a₂,...,a_|A|}，机器人在每步的动作空间为前往与当前区域邻接的各区域；

(3)转移函数P表示在状态s采取动作a到达状态s′的概率，P服从期望为F，方差为f的高斯分布，即到达确定状态s′的期望为F，以此描述运动的不确定性；

(4)奖励函数表示在给定当前状态s和动作a到达下一状态s′所获得奖励的期望，机器人在第k步时状态为采取动作为a，到达了下一状态奖励函数设计为：

式中，b是常数，可以根据实际情况调整。

(5)回报表示从t时刻开始的总折扣奖励，其中γ∈[0,1]。

步骤六中具体包括以下过程：

(1)SARSA算法使用状态动作对的预期收益值(Q值)与贝尔曼方程来求得最优值函数，以获得最优策略，具体的Q值更新公式为：

Q^k(s_t,a_t)＝Q^k-1(s_t,a_t)+α[R_t+1+γ·Q^k(s_t+1,a_t+1)-Q^k-1(s_t,a_t)]

(2)设定动作选择策略为基于模拟退火的动作选择策略：首先在当前动作空间中随机选择动作采取随机动作和采取Q值最大的动作的概率分别为和P(a_t＝argmaxQ(s,a))计算公式为：

(3)设计模拟退火过程为：T_u＝λ^k·T₀，T_u为当退火温度，T₀为初始温度，T_f为停止温度，λ为降温速率，k为当前迭代轮数，当T_u<T_f时，停止迭代，输出当前值函数Q为最优值函数Q^*，并根据当前值函数获得最优策略

步骤七中根据步骤六获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作a^k，根据a^k在环境中移动一次，并到达下一状态并将作为下一个MDP的初始状态；

步骤八中根据步骤七获得的下一状态当时表示任务的所有逻辑要求被满足，算法停止，否则进入步骤四。

本发明的一种环境和运动不确定下的移动机器人路径规划系统，包括初始化模块、环境估计模块、运动控制模块和路径规划模块；

初始化模块，用于将对机器人全局环境进行分解，获得空间集合；输入机器人需要满足的复杂任务要求，机器人的复杂任务要求由一个合取范式描述：建立环境估计的随机过程模型，初始化地图估计；

环境估计模块，基于卡尔曼滤波的环境估计算法，通过不断地观测、更新，机器人最终可以获得环境的最佳估计；设定概率阈值以减小估计误差对后续求解的影响；

运动控制模块，根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP)，此类MDP是一个五元组，包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)；使用混合模拟退火的SARSA算法并求解当前值函数获得最优策略

路径规划模块，根据当前机器人状态与当前最优策略在环境中进行移动，移动后判断全局任务是否被满足，如果未满足则继续执行观测、估计、计算并移动，如果满足则算法结束，输出移动轨迹。

本发明一种环境和运动不确定下的移动机器人复杂任务路径规划方法使用逻辑表达式描述机器人的任务要求；使用基于卡尔曼滤波算法的环境估计算法实现环境不确定下的任务环境高效估计，通过机器人携带的传感器获得带有误差的观测值，能够最终实现任务环境的准确估计，为后续路径规划算法提供环境信息；获得环境信息后，构建带有高斯过程的有限马尔可夫决策过程，并使用改进的SARSA算法求解该MDP，生成当前环境估计下的最优策略以减小运动不确定对任务完成性和安全性影响。对于环境和运动不确定下的机器人复杂任务路径规划问题，本发明能够高效生成移动策略，使得机器人在保证自身安全性的情况下高效完成复杂任务要求，能够切实运用并解决实际环境中的问题且具有通用性。

实施例

参照图1，一种环境和运动不确定下的移动机器人复杂任务路径规划方法，包括以下步骤：

步骤一，使用栅格法将全局环境划分为n个区域，用集合C＝{c₁,c₂,…,c₁₀₀}表示，如图2所示；

邻接矩阵N，N为100×100的对称矩阵，如果区域c_i和区域c_j相邻，则N(i,j)＝1，否则N(i,j)＝0,且N(i,i)＝0,i＝1,2,…,n。

步骤二，机器人的复杂任务要求由一个合取范式描述：对于合取范式我们定义：G为描述途径任务的合取范式，O为描述禁止访问任务的析取范式，F为描述终点任务的析取范式。

对于G和O，定义中途任务区域的集合Ω_t＝{Π₁,Π₂,...,Π₂₉}与访问中途任务区域集合对应的命题P_t＝{Π₁,Π₂,...,Π₂₉}，即机器人在轨迹中访问Π_i中的区域时命题Π_i为真。对于F，定义终点任务区域的集合Ω_f＝{π₁,π₂,π₃}与停止在终点任务区域集合对应的命题P_f＝{π₁,π₂,π₃}，即机器人最终停止在π_i中区域时命题π_i为真；具体如表1所示。

表1

n₁	{c₃₆,c₄₁}	Π₂	{c₆₂,c₈₂}
				Π₃	{c₆₉,c₉₉}	П₄	{c₂₈,c₄₀}
Π₅	{c₄₃,c₈₆}	Π₆	{c₇,c₈,c50}
				П₇	{c₅₈}	П₈	{c₈₅,c₈₈}
П₉	{c₅₃,c₈₉}	П₁₀	{c₄₅,c₆₈}
				П₁₁	{c₁₄,c₃₈,c₈₁,c₁₀₀}	Π₁₂	{c₅₅,c₇₆,c₇₈}
Π₁₃	{c₃₄}	Π₁₄	{c₅₂}
				Π₁₅	{c₁₉,c₆₆，c₈₇,c₉₃}	Π₁₆	{c₁₁}
Π₁₇	{c₁₃}	Π₁₈	{c₇₃,c₄₂,c₄₆}
				Π₁₉	{c₈₄}	Π₂₀	{c₅₇}
Π₂₁	{c₁₅}	Π₂₂	{c₃₀}
				Π₂₃	{c₄,c₃₉}	Π₂₄	{c₅}
Π₂₅	{c₂₂,c₇₅,c₉₆}	Π₂₆	{c₂₄,c₇₅}
				Π₂₇	{c₂₉,c₆₁,c₆₇,c₇₉}	Π₂₈	{c₄₉}
Π₂₉	{c₄,c₃₉}	π₁	{c₁₈}
				π₂	{c₉₅}	π₃	{c₂}

任务要求由下式给出：

观测函数和可以从表1获得。

步骤三，(1)建立该随机过程的状态方程：

其中，为的概率，为的概率，A＝1，和为过程误差，和均服从N(0,0.2)的高斯分布；

(2)定义机器人的环境观测变量：

其中，

(3)根据实际传感器误差输入传感器的观测误差：其中，D_i,j表示区域i到区域j的曼卡顿距离，maxD表示所有区域之间最大的曼哈顿距离；

(4)初始化机器人对环境的估计：

(5)定义机器人对环境的第k轮先验估计：

(6)定义机器人对环境的第k轮后验估计：

其中，

步骤四，(1)使用卡尔曼滤波算法根据状态方程和观测值更新环境的估计结果：

其中，A＝1，ω^k～N(0,0.2)，R＝0.2，是第k轮过程先验方差矩阵，是第k轮过程后验方差矩阵，K^k是第k轮的卡尔曼增益。通过不断地观测、更新，机器人最终可以获得环境的最佳估计。

(2)设定概率阈值以减小估计误差对后续求解的影响：

步骤五，根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP)，此类MDP是一个五元组<S,A,T,R,G>，包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。为描述具体的MDP构建过程，我们定义以下特征向量：

(1)状态空间S是包含所有状态的有限集合S＝{s₁,s₂,...,s_S}，其中c_i表示机器人当前所在的区域，表示第k步时各任务要求被满足的情况，初始状态终止状态集合包含所有满足的状态，表示机器人完成了某个任务；

(2)动作空间A是可采取的所有动作的有限集合A＝{a₁,a₂,...,a_A}，机器人在每步的动作空间为前往与当前区域邻接的各区域；

(3)转移函数P表示在状态s采取动作a到达确定状态s′的概率，P服从期望为0.9，方差为0.05的高斯分布，即到达确定状态s′的期望为0.9，以此描述运动的不确定性；

(5)回报表示从t时刻开始的总折扣奖励，其中γ＝0.99。

步骤六，(1)SARSA算法使用状态动作对的预期收益值(Q值)与贝尔曼方程来求得最优值函数，以获得最优策略，具体的Q值更新公式为：

Q^k(s_t,a_t)＝Q^k-1(s_t,a_t)+α[R_t+1+γ·Q^k(s_t+1,a_t+1)-Q^k-1(s_t,a_t)]

其中，α＝0.3。

(3)设计模拟退火过程为：T_u＝α^k·T₀，T_u为当退火温度，T₀＝100为初始温度，T_f＝0.1为停止温度，λ＝0.99为降温速率，k为当前迭代轮数，当T_u<T_f时，停止迭代，输出当前值函数Q为最优值函数Q^*，并根据当前值函数获得最优策略

步骤七，根据步骤六获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作a^*根据a^*在环境中移动一次，并到达下一状态并将作为下一个MDP的初始状态；

步骤八，根据步骤七获得的下一状态当时表示任务的所有逻辑要求被满足，算法停止，否则进入步骤四。

本实施例中，每此移动后MDP计算完成时，根据当前最优策略指挥机器人在环境中移动一次，此次移动将有概率不按照发出的指令移动，并判断任务的所有逻辑要求是否被满足，如果未满足，则机器人进行一次环境观测，使用带有误差的观测值进行环境估计，将估计结果用于构建下一步的MDP；当任务的所有逻辑要求被满足时，即时，通过Python编写程序运输出轨迹序列T＝{c₁,c₂,c₃,c₄,c₁₄,c₂₄,c₃₄,c₃₃,c₃₂,c₄₂,c₅₂,c₅₃,c₅₄,c₅₅,c₆₅,c₅₅,c₅₆,c₅₇,c₆₇,c₆₈,c₅₈,c₄₈,c₄₇,c₃₇,c₂₇,c₁₇,c₇,c₈,c₉,c₁₉,c₁₈}如图5所示。

在本实施例中，由于环境信不全面，传感器误差等因素，我们通过基于卡尔曼滤波的任务环境估计算法，使用带有误差的观测值对复杂任务环境进行估计，以获得各任务所处的区域，使得机器人具备完成复杂任务的先决条件；由于运动不确定，机器人可能不按照控制器发出的指令进行移动，并且无法获得准确的运动学模型，为保证机器人运行的安全性和任务完成性，我们构建带有高斯过程的马尔可夫决策过程来描述运动不确定性，通过混合模拟退火的SARSA算法获得运动不确定下的最优控制策略，即使机器人未按照给出的指令进行移动，也能够保证系统的安全。较大程度的降低了环境和运动不确定带来的影响，有效降低了移动成本和时间成本，提升了机器人在实际系统中的适用性。针对更大规模的该类问题，本发明所提出的方法依然能够快速高效地生成可行的运动策略，具有良好的通用性。

Claims

1.一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，包括以下步骤，

步骤2，输入机器人需要满足的复杂任务要求；

步骤3，建立环境估计的随机过程模型，初始化地图估计；

步骤7，依据步骤6求解得到的最优策略在环境中移动一次；

2.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤1中，采用栅格法将机器人全局环境划分为n个区域，用集合C＝{c₁,c₂,…,c_n}表示；

3.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤2中，机器人需要满足的复杂任务要求由一个合取范式描述：

4.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤3中，具体包括以下步骤，

步骤3.1，建立随机过程的状态方程

步骤3.2，定义机器人的环境观测变量：

其中，

步骤3.4，初始化机器人对环境的估计：

步骤3.5，定义机器人对环境的第k轮先验估计：

步骤3.6，定义机器人对环境的第k轮后验估计：

其中，

5.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤4中，具体包括以下步骤，

其中，是第k轮过程先验方差矩阵，是第k轮过程后验方差矩阵，K^k是第k轮的卡尔曼增益；通过不断地观测、更新，机器人最终可以获得环境的最佳估计；

步骤4.2，设定概率阈值以减小估计误差对后续求解的影响：

6.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤5中，所述有限马尔可夫决策过程五元组<S,A,T,R,G>，包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。

7.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤6中，具体包括以下步骤，

Q^k(s_t,a_t)＝Q^k-1(s_t,a_t)+α[R_t+1+γ·Q^k(s_t+1,a_t+1)-Q^k-1(s_t,a_t)]

8.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤7中，根据步骤6获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作a^k,根据a^k在环境中移动一次，并到达下一状态并将作为下一个MDP的初始状态。

9.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，步骤8中，根据步骤7获得的下一状态当时表示任务的所有逻辑要求被满足，算法停止，否则进入步骤4。

10.一种环境和运动不确定下的机器人复杂任务路径规划方法，其特征在于，包括初始化模块、环境估计模块、运动控制模块和路径规划模块；