CN117075596A - 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统 - Google Patents
一种环境和运动不确定下的机器人复杂任务路径规划方法及系统 Download PDFInfo
- Publication number
- CN117075596A CN117075596A CN202310593588.5A CN202310593588A CN117075596A CN 117075596 A CN117075596 A CN 117075596A CN 202310593588 A CN202310593588 A CN 202310593588A CN 117075596 A CN117075596 A CN 117075596A
- Authority
- CN
- China
- Prior art keywords
- environment
- robot
- estimation
- motion
- complex task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000002922 simulated annealing Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000000137 annealing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001816 cooling Methods 0.000 claims description 4
- 230000037361 pathway Effects 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Landscapes
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种环境和运动不确定下的机器人复杂任务路径规划方法及系统,对机器人全局环境进行分解,获得空间集合与邻接矩阵;输入机器人需要满足的复杂任务要求;建立环境估计的随机过程模型,初始化地图估计;机器人使用传感器进行环境观测,并采用基于卡尔曼滤波算法的环境估计算法进行任务环境估计;根据当前的环境估计结果、复杂任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程;使用混合模拟退火的SARSA算法求解有限马尔可夫决策过程,得到最优策略;依据求解得到的最优策略在环境中移动一次;判断全局任务是否被满足,如果满足则停止,机器人停止移动;如果不满足则返回步骤4,机器人继续进行移动。
Description
技术领域
本发明属于机器人技术领域,具体属于一种环境和运动不确定下的机器人复杂任务路径规划方法及系统。
背景技术
近年来,机器人在各个领域得到了广泛的研究和应用,成为自动化系统的重要组成部分。其中,机器人路径规划是机器人系统控制的核心问题之一。随着移动机器人在各个现实场景(物流、仓储、医疗、救援等)的应用日益增多,机器人需要执行的任务复杂度也在不断提升。在一系列复杂的任务中,涉及多个目标地点和不同的操作,经典的路径规划方法已经不能满足实际需求,具有复杂逻辑约束的路径规划问题更加符合现实意义。
在实际信息物理系统中,全局复杂任务所处的具体环境可能无法被全面地认知(搜救任务中无法确定待救援人员的具体位置、野外的物资收集任务等),这要求机器人不断自主探索任务所处环境并实现复杂任务要求。同时,机器人用于感知任务环境的传感器由于生产过程或环境干扰导致其具有一定的观测误差,机器人需要使用带有误差的环境观测值。此外,由于潜在的信号扰动或驱动故障等不确定因素会导致机器人无法完全遵循控制而执行错误动作(控制器发出向前的指令,机器人执行了向右移动指令),且错误发生的概率不确定,此类运动不确定问题将引发机器人碰撞或任务要求无法被满足。因此,同时考虑环境和运动不确定的机器人复杂任务路径规划能够有效提升机器人在实际环境中的通用性和自主性水平,然而现有技术中的方法无法同时高效解决多种不确定条件下的复杂任务路径规划问题。
发明内容
为了解决现有技术中存在的问题,本发明提供一种环境和运动不确定下的机器人复杂任务路径规划方法及系统,以克服现有技术的不足,使机器人在环境和运动不确定下能够进行自主探索和决策并完成复杂任务,有效提升移动机器人在实际任务环境中的适用性。
为实现上述目的,本发明提供如下技术方案:
一种环境和运动不确定下的机器人复杂任务路径规划方法,包括以下步骤,
步骤1,对机器人全局环境进行分解,获得空间集合与邻接矩阵;
步骤2,输入机器人需要满足的复杂任务要求;
步骤3,建立环境估计的随机过程模型,初始化地图估计;
步骤4,机器人使用传感器进行环境观测,并采用基于卡尔曼滤波算法的环境估计算法进行任务环境估计;
步骤5,根据步骤4中当前的环境估计结果、步骤2的复杂任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程;
步骤6,使用混合模拟退火的SARSA算法求解有限马尔可夫决策过程,得到最优策略;
步骤7,依据步骤6求解得到的最优策略在环境中移动一次;
步骤8,判断全局任务是否被满足,如果满足则停止,机器人停止移动;如果不满足则返回步骤4,机器人继续进行移动。
优选的,步骤1中,采用栅格法将机器人全局环境划分为n个区域,用集合C={c1,c2,...,cn}表示;
生成全局环境的邻接矩阵N,N为n×n的对称矩阵,如果区域ci和区域cj相邻,则N(i,j)=1,否则N(i,j)=0,且N(i,i)=0,i=1,2,...,n。
优选的,步骤2中,机器人需要满足的复杂任务要求由一个合取范式描述:
式中:G为描述途径任务的合取范式,O为描述禁止访问任务的析取范式,F为描述终点任务的析取范式。
优选的,步骤3中,具体包括以下步骤,
步骤3.1,建立随机过程的状态方程
式中: 为的概率, 为的概率,A为常数,和为过程误差,和均服从N(0,R)的高斯分布;
步骤3.2,定义机器人的环境观测变量:
其中,
步骤3.3,根据实际传感器误差输入传感器的观测误差:ei,j;
步骤3.4,初始化机器人对环境的估计:
步骤3.5,定义机器人对环境的第k轮先验估计:
步骤3.6,定义机器人对环境的第k轮后验估计:
其中,
优选的,步骤4中,具体包括以下步骤,
步骤4.1,使用卡尔曼滤波算法根据状态方程和观测值更新环境的估计结果:
其中,是第k轮过程先验方差矩阵,是第k轮过程后验方差矩阵,Kk是第k轮的卡尔曼增益;通过不断地观测、更新,机器人最终可以获得环境的最佳估计。
步骤4.2,设定概率阈值以减小估计误差对后续求解的影响:
优选的,步骤5中,所述有限马尔可夫决策过程五元组<S,A,T,R,G>,包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。
优选的,步骤6中,具体包括以下步骤,
步骤6.1,SARSA算法使用状态动作对的预期收益值(Q值)与贝尔曼方程来求得最优值函数,以获得最优策略,具体的Q值更新公式为:
Qk(st,at)=Qk-1(st,at)+α[Rt+1+γ·Qk(st+1,at+1)-Qk-1(st,at)]
步骤6.2,设定动作选择策略为基于模拟退火的动作选择策略:首先在当前动作空间中随机选择动作采取随机动作和采取Q值最大的动作的概率分别为和P(at=argmaxQ(s,a))计算公式为:
步骤6.3,设计模拟退火过程为:Tu=λk·T0,Tu为当退火温度,T0为初始温度,Tf为停止温度,λ为降温速率,k为当前迭代轮数,当Tu<Tf时,停止迭代,输出当前值函数Q为最优值函数Q*,并根据当前值函数获得最优策略
优选的,步骤7中,根据步骤6获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作ak,根据ak在环境中移动一次,并到达下一状态并将作为下一个MDP的初始状态;
优选的,步骤8中,根据步骤7获得的下一状态当时表示任务的所有逻辑要求被满足,算法停止,否则进入步骤4。
一种环境和运动不确定下的机器人复杂任务路径规划方法,包括初始化模块、环境估计模块、运动控制模块和路径规划模块;
所述初始化模块用于将对机器人全局环境进行分解,获得空间集合与邻接矩阵;输入机器人需要满足的复杂任务要求,机器人的复杂任务要求由一个合取范式描述:建立环境估计的随机过程模型,初始化地图估计;
所述环境估计模块,基于卡尔曼滤波的环境估计算法,通过不断地观测、更新,机器人最终可以获得环境的最佳估计;设定概率阈值以减小估计误差对后续求解的影响;
所述运动控制模块用于根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程;使用混合模拟退火的SARSA算法并求解当前值函数获得最优策略;
所述路径规划模块用于根据当前机器人状态与当前最优策略在环境中进行移动,移动后判断全局任务是否被满足,如果未满足则继续执行观测、估计、计算并移动,如果满足则算法结束,输出移动轨迹。
与现有技术相比,本发明具有以下有益的技术效果:
本发明的一种环境和运动不确定下的机器人复杂任务路径规划方法,通过使用逻辑表达式描述机器人的任务要求;使用基于卡尔曼滤波算法的环境估计算法实现环境不确定下的任务环境高效估计,通过机器人携带的传感器获得带有误差的观测值,能够最终实现任务环境的准确估计,为后续路径规划算法提供环境信息;获得环境信息后,构建带有高斯过程的有限马尔可夫决策过程,并使用改进的SARSA算法求解该马尔可夫决策过程,生成当前环境估计下的最优策略以减小运动不确定对任务完成性和安全性影响。对于环境和运动不确定下的机器人复杂任务路径规划问题,本发明能够高效生成移动策略,使得机器人在保证自身安全性的情况下高效完成复杂任务要求,能够切实运用并解决实际环境中的问题且具有通用性。
附图说明
图1是本发明方法的流程框图。
图2是实施例机器人的全局环境图。
图3是实施例机器人的任务分布图。
图4是步骤六混合模拟退火的SARSA算法流程框图。
图5是实施例机器人的移动轨迹图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明提供了一种环境和运动不确定下的机器人复杂任务路径规划方法,包括以下步骤:
步骤一:对机器人全局环境进行分解,获得空间集合与邻接矩阵,用于定义复杂任务和构建有限马尔可夫决策过程。
步骤二:输入机器人需要满足的复杂任务要求;
步骤三:建立环境估计的随机过程模型,初始化地图估计;
步骤四:机器人使用传感器进行环境观测,并采用基于卡尔曼滤波算法的环境估计算法进行任务环境估计;
步骤五:根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP);
步骤六:开发混合模拟退火的SARSA算法求解MDP;
步骤七:根据求解得到的最优策略在环境中移动一次;
步骤八:判断全局任务是否被满足,如果满足则算法停止,机器人停止移动,如果不满足则返回步骤四,算法继续,机器人继续移动。
步骤一中使用栅格法将全局环境划分为n个区域,用集合C={c1,2,…,n}表示;
生成全局环境的邻接矩阵N,N为n×n的对称矩阵,如果区域ci和区域cj相邻,则N(i,j)=1,否则N(i,j)=0,且N(i,i)=0,i=1,2,…,n。
步骤二中机器人的复杂任务要求由一个合取范式描述:对于合取范式我们定义:G为描述途径任务的合取范式,O为描述禁止访问任务的析取范式,F为描述终点任务的析取范式。
对于G和O,定义中途任务区域的集合与访问中途任务区域集合对应的命题即机器人在轨迹中访问Πi中的区域时命题Πi为真。对于F,定义终点任务区域的集合与停止在终点任务区域集合对应的命题即机器人最终停止在πi中区域时命题πi为真;
其中,G=g1∧g2∧...∧gn,F=f1∧f2∧...∧fn,Po∈Pt,最终的目标是使合取范式为真。同时,定义观测函数描述地图区域与任务区域的对应关系。对所有ci∈C,如果则表示ci是中途任务区域Πi中的区域之一,如果则ci不是中途任务区域;同样的,如果则表示ci是停止任务区域πi中的区域之一,如果则ci不是停止任务区域。
步骤三中具体包括以下过程:
(1)建立该随机过程的状态方程:
其中, 为H(ci)=Πi的概率, 为h(ci)=πi的概率,A为常数,和为过程误差,和均服从N(0,R)的高斯分布;
(2)定义机器人的环境观测变量:
其中,
(3)根据实际传感器误差输入传感器的观测误差:ei,j;
(4)初始化机器人对环境的估计:
(5)定义机器人对环境的第k轮先验估计:
(6)定义机器人对环境的第k轮后验估计:
其中,
步骤四中具体包括以下过程:
(1)使用卡尔曼滤波算法根据状态方程和观测值更新环境的估计结果:
其中,是第k轮过程先验方差矩阵,是第k轮过程后验方差矩阵,K k是第k轮的卡尔曼增益。通过不断地观测、更新,机器人最终可以获得环境的最佳估计;
(2)设定概率阈值以减小估计误差对后续求解的影响:
步骤五中具体包括以下过程:
根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP),此类MDP是一个五元组<S,A,T,R,G>,包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。为描述具体的MDP构建过程,我们定义以下特征向量:
(1)状态空间S是包含所有状态的有限集合S={s1,s2,...,sS},其中ci表示机器人当前所在的区域,表示第k步时各任务要求被满足的情况,初始状态终止状态集合包含所有满足的状态;
(2)动作空间A是可采取的所有动作的有限集合A={a1,a2,...,a|A|},机器人在每步的动作空间为前往与当前区域邻接的各区域;
(3)转移函数P表示在状态s采取动作a到达状态s′的概率,P服从期望为F,方差为f的高斯分布,即到达确定状态s′的期望为F,以此描述运动的不确定性;
(4)奖励函数表示在给定当前状态s和动作a到达下一状态s′所获得奖励的期望,机器人在第k步时状态为采取动作为a,到达了下一状态奖励函数设计为:
式中,b是常数,可以根据实际情况调整。
(5)回报表示从t时刻开始的总折扣奖励,其中γ∈[0,1]。
步骤六中具体包括以下过程:
(1)SARSA算法使用状态动作对的预期收益值(Q值)与贝尔曼方程来求得最优值函数,以获得最优策略,具体的Q值更新公式为:
Qk(st,at)=Qk-1(st,at)+α[Rt+1+γ·Qk(st+1,at+1)-Qk-1(st,at)]
(2)设定动作选择策略为基于模拟退火的动作选择策略:首先在当前动作空间中随机选择动作采取随机动作和采取Q值最大的动作的概率分别为和P(at=argmaxQ(s,a))计算公式为:
(3)设计模拟退火过程为:Tu=λk·T0,Tu为当退火温度,T0为初始温度,Tf为停止温度,λ为降温速率,k为当前迭代轮数,当Tu<Tf时,停止迭代,输出当前值函数Q为最优值函数Q*,并根据当前值函数获得最优策略
步骤七中根据步骤六获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作ak,根据ak在环境中移动一次,并到达下一状态并将作为下一个MDP的初始状态;
步骤八中根据步骤七获得的下一状态当 时表示任务的所有逻辑要求被满足,算法停止,否则进入步骤四。
本发明的一种环境和运动不确定下的移动机器人路径规划系统,包括初始化模块、环境估计模块、运动控制模块和路径规划模块;
初始化模块,用于将对机器人全局环境进行分解,获得空间集合;输入机器人需要满足的复杂任务要求,机器人的复杂任务要求由一个合取范式描述:建立环境估计的随机过程模型,初始化地图估计;
环境估计模块,基于卡尔曼滤波的环境估计算法,通过不断地观测、更新,机器人最终可以获得环境的最佳估计;设定概率阈值以减小估计误差对后续求解的影响;
运动控制模块,根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP),此类MDP是一个五元组,包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G);使用混合模拟退火的SARSA算法并求解当前值函数获得最优策略
路径规划模块,根据当前机器人状态与当前最优策略在环境中进行移动,移动后判断全局任务是否被满足,如果未满足则继续执行观测、估计、计算并移动,如果满足则算法结束,输出移动轨迹。
本发明一种环境和运动不确定下的移动机器人复杂任务路径规划方法使用逻辑表达式描述机器人的任务要求;使用基于卡尔曼滤波算法的环境估计算法实现环境不确定下的任务环境高效估计,通过机器人携带的传感器获得带有误差的观测值,能够最终实现任务环境的准确估计,为后续路径规划算法提供环境信息;获得环境信息后,构建带有高斯过程的有限马尔可夫决策过程,并使用改进的SARSA算法求解该MDP,生成当前环境估计下的最优策略以减小运动不确定对任务完成性和安全性影响。对于环境和运动不确定下的机器人复杂任务路径规划问题,本发明能够高效生成移动策略,使得机器人在保证自身安全性的情况下高效完成复杂任务要求,能够切实运用并解决实际环境中的问题且具有通用性。
实施例
参照图1,一种环境和运动不确定下的移动机器人复杂任务路径规划方法,包括以下步骤:
步骤一,使用栅格法将全局环境划分为n个区域,用集合C={c1,c2,…,c100}表示,如图2所示;
邻接矩阵N,N为100×100的对称矩阵,如果区域ci和区域cj相邻,则N(i,j)=1,否则N(i,j)=0,且N(i,i)=0,i=1,2,…,n。
步骤二,机器人的复杂任务要求由一个合取范式描述:对于合取范式我们定义:G为描述途径任务的合取范式,O为描述禁止访问任务的析取范式,F为描述终点任务的析取范式。
对于G和O,定义中途任务区域的集合Ωt={Π1,Π2,...,Π29}与访问中途任务区域集合对应的命题Pt={Π1,Π2,...,Π29},即机器人在轨迹中访问Πi中的区域时命题Πi为真。对于F,定义终点任务区域的集合Ωf={π1,π2,π3}与停止在终点任务区域集合对应的命题Pf={π1,π2,π3},即机器人最终停止在πi中区域时命题πi为真;具体如表1所示。
表1
n1 | {c36,c41} | Π2 | {c62,c82} |
Π3 | {c69,c99} | П4 | {c28,c40} |
Π5 | {c43,c86} | Π6 | {c7,c8,c50} |
П7 | {c58} | П8 | {c85,c88} |
П9 | {c53,c89} | П10 | {c45,c68} |
П11 | {c14,c38,c81,c100} | Π12 | {c55,c76,c78} |
Π13 | {c34} | Π14 | {c52} |
Π15 | {c19,c66,c87,c93} | Π16 | {c11} |
Π17 | {c13} | Π18 | {c73,c42,c46} |
Π19 | {c84} | Π20 | {c57} |
Π21 | {c15} | Π22 | {c30} |
Π23 | {c4,c39} | Π24 | {c5} |
Π25 | {c22,c75,c96} | Π26 | {c24,c75} |
Π27 | {c29,c61,c67,c79} | Π28 | {c49} |
Π29 | {c4,c39} | π1 | {c18} |
π2 | {c95} | π3 | {c2} |
任务要求由下式给出:
观测函数和可以从表1获得。
步骤三,(1)建立该随机过程的状态方程:
其中, 为的概率, 为的概率,A=1,和为过程误差,和均服从N(0,0.2)的高斯分布;
(2)定义机器人的环境观测变量:
其中,
(3)根据实际传感器误差输入传感器的观测误差:其中,Di,j表示区域i到区域j的曼卡顿距离,maxD表示所有区域之间最大的曼哈顿距离;
(4)初始化机器人对环境的估计:
(5)定义机器人对环境的第k轮先验估计:
(6)定义机器人对环境的第k轮后验估计:
其中,
步骤四,(1)使用卡尔曼滤波算法根据状态方程和观测值更新环境的估计结果:
其中,A=1,ωk~N(0,0.2),R=0.2,是第k轮过程先验方差矩阵,是第k轮过程后验方差矩阵,Kk是第k轮的卡尔曼增益。通过不断地观测、更新,机器人最终可以获得环境的最佳估计。
(2)设定概率阈值以减小估计误差对后续求解的影响:
步骤五,根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程(MDP),此类MDP是一个五元组<S,A,T,R,G>,包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。为描述具体的MDP构建过程,我们定义以下特征向量:
(1)状态空间S是包含所有状态的有限集合S={s1,s2,...,sS},其中ci表示机器人当前所在的区域,表示第k步时各任务要求被满足的情况,初始状态终止状态集合包含所有满足的状态,表示机器人完成了某个任务;
(2)动作空间A是可采取的所有动作的有限集合A={a1,a2,...,aA},机器人在每步的动作空间为前往与当前区域邻接的各区域;
(3)转移函数P表示在状态s采取动作a到达确定状态s′的概率,P服从期望为0.9,方差为0.05的高斯分布,即到达确定状态s′的期望为0.9,以此描述运动的不确定性;
(4)奖励函数表示在给定当前状态s和动作a到达下一状态s′所获得奖励的期望,机器人在第k步时状态为采取动作为a,到达了下一状态奖励函数设计为:
(5)回报表示从t时刻开始的总折扣奖励,其中γ=0.99。
步骤六,(1)SARSA算法使用状态动作对的预期收益值(Q值)与贝尔曼方程来求得最优值函数,以获得最优策略,具体的Q值更新公式为:
Qk(st,at)=Qk-1(st,at)+α[Rt+1+γ·Qk(st+1,at+1)-Qk-1(st,at)]
其中,α=0.3。
(2)设定动作选择策略为基于模拟退火的动作选择策略:首先在当前动作空间中随机选择动作采取随机动作和采取Q值最大的动作的概率分别为和P(at=argmaxQ(s,a))计算公式为:
(3)设计模拟退火过程为:Tu=αk·T0,Tu为当退火温度,T0=100为初始温度,Tf=0.1为停止温度,λ=0.99为降温速率,k为当前迭代轮数,当Tu<Tf时,停止迭代,输出当前值函数Q为最优值函数Q*,并根据当前值函数获得最优策略
步骤七,根据步骤六获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作a*根据a*在环境中移动一次,并到达下一状态并将作为下一个MDP的初始状态;
步骤八,根据步骤七获得的下一状态当 时表示任务的所有逻辑要求被满足,算法停止,否则进入步骤四。
本实施例中,每此移动后MDP计算完成时,根据当前最优策略指挥机器人在环境中移动一次,此次移动将有概率不按照发出的指令移动,并判断任务的所有逻辑要求是否被满足,如果未满足,则机器人进行一次环境观测,使用带有误差的观测值进行环境估计,将估计结果用于构建下一步的MDP;当任务的所有逻辑要求被满足时,即时,通过Python编写程序运输出轨迹序列T={c1,c2,c3,c4,c14,c24,c34,c33,c32,c42,c52,c53,c54,c55,c65,c55,c56,c57,c67,c68,c58,c48,c47,c37,c27,c17,c7,c8,c9,c19,c18}如图5所示。
在本实施例中,由于环境信不全面,传感器误差等因素,我们通过基于卡尔曼滤波的任务环境估计算法,使用带有误差的观测值对复杂任务环境进行估计,以获得各任务所处的区域,使得机器人具备完成复杂任务的先决条件;由于运动不确定,机器人可能不按照控制器发出的指令进行移动,并且无法获得准确的运动学模型,为保证机器人运行的安全性和任务完成性,我们构建带有高斯过程的马尔可夫决策过程来描述运动不确定性,通过混合模拟退火的SARSA算法获得运动不确定下的最优控制策略,即使机器人未按照给出的指令进行移动,也能够保证系统的安全。较大程度的降低了环境和运动不确定带来的影响,有效降低了移动成本和时间成本,提升了机器人在实际系统中的适用性。针对更大规模的该类问题,本发明所提出的方法依然能够快速高效地生成可行的运动策略,具有良好的通用性。
Claims (10)
1.一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,包括以下步骤,
步骤1,对机器人全局环境进行分解,获得空间集合与邻接矩阵;
步骤2,输入机器人需要满足的复杂任务要求;
步骤3,建立环境估计的随机过程模型,初始化地图估计;
步骤4,机器人使用传感器进行环境观测,并采用基于卡尔曼滤波算法的环境估计算法进行任务环境估计;
步骤5,根据步骤4中当前的环境估计结果、步骤2的复杂任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程;
步骤6,使用混合模拟退火的SARSA算法求解有限马尔可夫决策过程,得到最优策略;
步骤7,依据步骤6求解得到的最优策略在环境中移动一次;
步骤8,判断全局任务是否被满足,如果满足则停止,机器人停止移动;如果不满足则返回步骤4,机器人继续进行移动。
2.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤1中,采用栅格法将机器人全局环境划分为n个区域,用集合C={c1,c2,…,cn}表示;
生成全局环境的邻接矩阵N,N为n×n的对称矩阵,如果区域ci和区域cj相邻,则N(i,j)=1,否则N(i,j)=0,且N(i,i)=0,i=1,2,…,n。
3.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤2中,机器人需要满足的复杂任务要求由一个合取范式描述:
式中:G为描述途径任务的合取范式,O为描述禁止访问任务的析取范式,F为描述终点任务的析取范式。
4.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤3中,具体包括以下步骤,
步骤3.1,建立随机过程的状态方程
式中: 为的概率, 为的概率,A为常数,和为过程误差,和均服从N(0,R)的高斯分布;
步骤3.2,定义机器人的环境观测变量:
其中,
步骤3.3,根据实际传感器误差输入传感器的观测误差:ei,j;
步骤3.4,初始化机器人对环境的估计:
步骤3.5,定义机器人对环境的第k轮先验估计:
步骤3.6,定义机器人对环境的第k轮后验估计:
其中,
5.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤4中,具体包括以下步骤,
步骤4.1,使用卡尔曼滤波算法根据状态方程和观测值更新环境的估计结果:
其中,是第k轮过程先验方差矩阵,是第k轮过程后验方差矩阵,Kk是第k轮的卡尔曼增益;通过不断地观测、更新,机器人最终可以获得环境的最佳估计;
步骤4.2,设定概率阈值以减小估计误差对后续求解的影响:
6.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤5中,所述有限马尔可夫决策过程五元组<S,A,T,R,G>,包含状态空间(S)、动作空间(A)、转移函数(T)、奖励函数(R)、回报(G)。
7.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤6中,具体包括以下步骤,
步骤6.1,SARSA算法使用状态动作对的预期收益值(Q值)与贝尔曼方程来求得最优值函数,以获得最优策略,具体的Q值更新公式为:
Qk(st,at)=Qk-1(st,at)+α[Rt+1+γ·Qk(st+1,at+1)-Qk-1(st,at)]
步骤6.2,设定动作选择策略为基于模拟退火的动作选择策略:首先在当前动作空间中随机选择动作采取随机动作和采取Q值最大的动作的概率分别为和P(at=argmaxQ(s,a))计算公式为:
步骤6.3,设计模拟退火过程为:Tu=λk·T0,Tu为当退火温度,T0为初始温度,Tf为停止温度,λ为降温速率,k为当前迭代轮数,当Tu<Tf时,停止迭代,输出当前值函数Q为最优值函数Q*,并根据当前值函数获得最优策略
8.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤7中,根据步骤6获得的当前最优策略输入当前机器人所处的状态获得当前状态下的最优动作ak,根据ak在环境中移动一次,并到达下一状态并将作为下一个MDP的初始状态。
9.根据权利要求1所述的一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,步骤8中,根据步骤7获得的下一状态当时表示任务的所有逻辑要求被满足,算法停止,否则进入步骤4。
10.一种环境和运动不确定下的机器人复杂任务路径规划方法,其特征在于,包括初始化模块、环境估计模块、运动控制模块和路径规划模块;
所述初始化模块用于将对机器人全局环境进行分解,获得空间集合与邻接矩阵;输入机器人需要满足的复杂任务要求,机器人的复杂任务要求由一个合取范式描述:建立环境估计的随机过程模型,初始化地图估计;
所述环境估计模块,基于卡尔曼滤波的环境估计算法,通过不断地观测、更新,机器人最终可以获得环境的最佳估计;设定概率阈值以减小估计误差对后续求解的影响;
所述运动控制模块用于根据当前的环境估计结果、任务要求与运动不确定性构建带有高斯过程的有限马尔可夫决策过程;使用混合模拟退火的SARSA算法并求解当前值函数获得最优策略;
所述路径规划模块用于根据当前机器人状态与当前最优策略在环境中进行移动,移动后判断全局任务是否被满足,如果未满足则继续执行观测、估计、计算并移动,如果满足则算法结束,输出移动轨迹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593588.5A CN117075596B (zh) | 2023-05-24 | 2023-05-24 | 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593588.5A CN117075596B (zh) | 2023-05-24 | 2023-05-24 | 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117075596A true CN117075596A (zh) | 2023-11-17 |
CN117075596B CN117075596B (zh) | 2024-04-26 |
Family
ID=88715955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310593588.5A Active CN117075596B (zh) | 2023-05-24 | 2023-05-24 | 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117075596B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101943916A (zh) * | 2010-09-07 | 2011-01-12 | 陕西科技大学 | 一种基于卡尔曼滤波器预测的机器人避障方法 |
CN110147099A (zh) * | 2019-04-30 | 2019-08-20 | 南京邮电大学 | 一种基于改进鸽群优化的多无人机协同搜索方法 |
CN112824998A (zh) * | 2019-11-20 | 2021-05-21 | 南京航空航天大学 | 马尔可夫决策过程的多无人机协同航路规划方法和装置 |
CN113819919A (zh) * | 2021-09-26 | 2021-12-21 | 陕西科技大学 | 一种基于布尔约束的机器人最优路径规划方法 |
US20220196414A1 (en) * | 2019-12-31 | 2022-06-23 | Goertek Inc. | Global path planning method and device for an unmanned vehicle |
CN115145285A (zh) * | 2022-07-29 | 2022-10-04 | 陕西科技大学 | 一种仓储agv多点取送货最优路径规划方法及系统 |
US20230153682A1 (en) * | 2020-02-06 | 2023-05-18 | Nippon Telegraph And Telephone Corporation | Policy estimation method, policy estimation apparatus and program |
-
2023
- 2023-05-24 CN CN202310593588.5A patent/CN117075596B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101943916A (zh) * | 2010-09-07 | 2011-01-12 | 陕西科技大学 | 一种基于卡尔曼滤波器预测的机器人避障方法 |
CN110147099A (zh) * | 2019-04-30 | 2019-08-20 | 南京邮电大学 | 一种基于改进鸽群优化的多无人机协同搜索方法 |
CN112824998A (zh) * | 2019-11-20 | 2021-05-21 | 南京航空航天大学 | 马尔可夫决策过程的多无人机协同航路规划方法和装置 |
US20220196414A1 (en) * | 2019-12-31 | 2022-06-23 | Goertek Inc. | Global path planning method and device for an unmanned vehicle |
US20230153682A1 (en) * | 2020-02-06 | 2023-05-18 | Nippon Telegraph And Telephone Corporation | Policy estimation method, policy estimation apparatus and program |
CN113819919A (zh) * | 2021-09-26 | 2021-12-21 | 陕西科技大学 | 一种基于布尔约束的机器人最优路径规划方法 |
CN115145285A (zh) * | 2022-07-29 | 2022-10-04 | 陕西科技大学 | 一种仓储agv多点取送货最优路径规划方法及系统 |
Non-Patent Citations (6)
Title |
---|
ENGIN DURMAZ: "Intelligent software debugging: A reinforcement learning approach for detecting the shortest crashing scenarios", 《EXPERT SYSTEMS WITH APPLICATIONS》, 7 March 2022 (2022-03-07) * |
ZOU QIJIE: "A path planning algorithm based on RRT and SARSA (λ) in unknown and complex conditions", 《 2020 CHINESE CONTROL AND DECISION CONFERENCE 》, 11 August 2020 (2020-08-11) * |
何舟: "Path Planning of Multi-Robot Systems With Boolean Specifications Based on Simulated Annealing", 《 IEEE ROBOTICS AND AUTOMATION LETTERS 》, 6 April 2022 (2022-04-06) * |
何舟: "基于Petri 网的消防机器人任务分配及路径规划方法", 《机器人技术》, 28 February 2021 (2021-02-28) * |
穆东: "基于并行模拟退火算法求解时间依赖型车辆路径问题", 《计算机集成制造系统》, 30 June 2015 (2015-06-30) * |
郑佳春: "混合模拟退火与粒子群优化算法的无人艇路径规划", 《中国海洋大学学报》, 30 September 2016 (2016-09-30) * |
Also Published As
Publication number | Publication date |
---|---|
CN117075596B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Deepreach: A deep learning approach to high-dimensional reachability | |
CN112356830B (zh) | 一种基于模型强化学习的智能泊车方法 | |
Rückin et al. | Adaptive informative path planning using deep reinforcement learning for uav-based active sensing | |
Heess et al. | Learning continuous control policies by stochastic value gradients | |
Chen et al. | POMDP-lite for robust robot planning under uncertainty | |
Bianchi et al. | Accelerating autonomous learning by using heuristic selection of actions | |
Kumar et al. | Navigational analysis of multiple humanoids using a hybrid regression-fuzzy logic control approach in complex terrains | |
Schaefer et al. | Leveraging neural network gradients within trajectory optimization for proactive human-robot interactions | |
Al Dabooni et al. | Heuristic dynamic programming for mobile robot path planning based on Dyna approach | |
CN113485323B (zh) | 一种级联多移动机器人灵活编队方法 | |
Zhang et al. | Enhancing Multi-UAV Reconnaissance and Search Through Double Critic DDPG With Belief Probability Maps | |
Fan et al. | Spatiotemporal path tracking via deep reinforcement learning of robot for manufacturing internal logistics | |
CN112356031B (zh) | 一种基于Kernel采样策略在不确定性环境下的在线规划方法 | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
CN117075596B (zh) | 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统 | |
Qiu | Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm | |
Abdulghafoor et al. | Motion coordination of multi-agent networks for multiple target tracking with guaranteed collision avoidance | |
Park et al. | Model-based reinforcement learning with probabilistic ensemble terminal critics for data-efficient control applications | |
Olcay et al. | Headland Turn Automation Concept for Tractor-Trailer System with Deep Reinforcement Learning | |
Zhou et al. | Switching deep reinforcement learning based intelligent online decision making for autonomous systems under uncertain environment | |
Yu et al. | An intelligent robot motion planning method and application via lppo in unknown environment | |
CN114489035B (zh) | 一种基于累积迹强化学习的多机器人协同搜索方法 | |
Kowalczyk et al. | Distributed Control for Teams of Non-holonomic Mobile Robots Executing Competitive Tasks | |
Chakravorty et al. | Intelligent exploration of unknown environments with vision like sensors | |
Olkin et al. | Multi-Agent Vulcan: An Information-Driven Multi-Agent Path Finding Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |