CN114118441A

CN114118441A - 基于高效搜索策略在不确定性环境下的在线规划方法

Info

Publication number: CN114118441A
Application number: CN202111401793.4A
Authority: CN
Inventors: 陈彦杰; 刘江蒋; 张智星; 兰立民; 陈敏俊
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-01

Abstract

本发明提出一种基于高效搜索策略在不确定性环境下的在线规划方法，将机器人的状态视为一个信念，以POMDP算法初始化当前信念的上、下边界后，通过折扣化上下限表示当前信念的全部信息进而执行前向搜索构建信念树，以此获得当前信念下的最优策略；所述信念树的每一个节点代表一个信念，父节点与子节点通过行为‑观测分支连接。本发明提供的DESPOT‑DULB算法性能优于DESPOT和POMCP，在收敛速度以及策略质量上具有优势。

Description

基于高效搜索策略在不确定性环境下的在线规划方法

技术领域

本发明属于机器人技术领域，涉及一种基于高效搜索策略在不确定性环境下的在线规划方法。

背景技术

随着科学与信息技术的快速发展，机器人已经逐步的融入了人类日常生活。运动规划作为机器人研究的重要研究领域，也得到了广泛的关注。

基于启发式搜索的运动规划方法能在有限的时间和空间内计算出接近最优的可行解，传统的基于启发式搜索的规划算法有模拟退火算法(SA)、遗传算法(GA)、以及蚁群算法(ACO)等。SA算法的特点可以高效地求解NP完全问题，如货郎担问题(TravellingSalesman Problem)、最大截问题(Max Cut Problem)、 0-1背包问题(Zero One KnapsackProblem)、图着色问题(Graph Colouring Problem)等，但其参数难以控制，不能保证一次就收敛到最优值，一般需要多次尝试才能获得且大部分情况下还是会陷入局部最优值。GA算法基于生物进化和遗传进行全局最优化，具有良好的全局搜索能力，但存在早熟收敛等问题。ANN 算法人工神经网络是受生物神经网络启发而构建的算法模型，算法那可以快速调整并有效适应新环境，但对硬件的要求高、计算和训练时间长等问题。ACO算法是一种用来寻找优化路径的概率型算法，该算法是受到蚂蚁在寻找食物过程中发现路径的行为所启发，是一种全局优化算法，但其收敛的速度较慢等问题。上述启发式算法在特定的问题上都能有效的规划接近最优的路径，但都未考虑环境、传感器等带来的模型的不确定性问题，在现实环境下模型通常是不确定的。决策论规划对于解决存在不确定性下的规划具有重要意义，因此基于强化学习的运动规划研究是很好的研究课题。

强化学习是一个多领域的交叉学科，比如：机器学习、决策与运筹学、深度学习以及控制工程等。在一个强化学习系统中，智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖励指导行为使智能体获得长期最大的奖励。因此，强化学习是解决最优序列决策问题的重要方法。在强化学习中，智能体在确定性环境和不确定性环境一般可以表示为马尔可夫决策过程(MDP) 和部分可观测马尔可夫决策过程(POMDP)模型。区别在于智能体在MDP模型中，对于自身的状态是完全可观测的，但在POMDP模型中，自身的状态是部分可观测的。

在早期研究MDP问题主要关注于离散的状态和动作空间。但是在现实任务中，需要处理连续的状态和动作空间，算法的学习效率和适用性无法满足最新要求。近年来，强化学习方法的近似求解器能够有效的改善上述问题，比如近似价值函数迭代、近似策略迭代以及演员-评价算法等。强化学习算法不仅关注于单一的长期奖励目标，而且在多目标规划的强化学习问题上也有很大的发展，如以多目标学习改善自主陆地车辆纵向控制的柔性、多机多任务规划等。但MDP模型未考虑环境、传感器等方面带来的不确定性，会造成计算的策略质量较差。

对于不确定性环境下的规划，POMDP提供了一个的基本框架。POMDP框架已经能够较好的解决现实世界的序列决策问题。考虑到机器人在执行任务时，制约机器人可靠运行的重要因素是环境、传感器等不确定性。因此，机器人在具有较大状态和观测空间的不确定性环境下实现在线有效的规划是机器人领域重要的课题。POMDP通过将当前的可能状态表示为一个信念(Belief)，规划算法不断执行前向搜索来构建信念树，信念树的每一个节点代表一个信念，父节点与子节点通过行为-观测分支连接起来。然而POMDP在一些最坏情况下是无法计算的，由于“维度灾难”和“历史信息灾难”。尽管如此，一些近似的POMDP求解器：DESPOT、POMCP和POMCPOW等已经被广泛应用于许多任务中，如资源管理、无人驾驶、导航以及机械臂等。

最新的在线POMDP算法如DESPOT和POMCP都使用蒙特卡洛方法和UCB的思想分别进行信念更新和前向搜索以构建信念树，以此来处理维度灾难问题。UCB 方法能有效的解决探索和利用平衡问题。DESPOT利用UCB的思想进一步通过探索信念节点的初始上限作为启发式的探索项，以构建相应的信念树。在具有较大状态空间的POMDP任务中，DESPOT可以计算一个近似最优的策略。理论分析表明，基于信念节点初始上限的启发式能搜索∈-最优行为，能较大概率的保证近似最优的在线规划。然而，信念节点的初始上限是不准确的并且单一的初始上限无法表示信念节点的全部信息尤其在大型观测空间中，造成前向搜索构建的信念树非最优，进而影响到在线规划策略的质量。

发明内容

针对现有技术存在的缺陷和不足，本发明的目的在于提供一种基于高效搜索策略在不确定性环境下的在线规划方法，适用于机器人执行任务时的在线规划。

其在DESPOT基本框架上引入高效搜索策略，提出DESPOT-DULB在线规划算法。考虑将信念节点的初始上、下限组合后进行折扣化来表示当前信念节点的整体信息。高效搜索策略的核心在于考虑前向搜索过程中信念节点的信息冗余性和准确性表示的影响因素。通过组合信念节点的上限和下限再进行折扣化来表示当前信念的信息，并以此构建启发进行前向搜索。高效搜索策略获得的最佳行为和观测分支避免了单一上限搜索的贪婪性和次优性，能够扩展较优的信念树，降低了扩展质量较差的行为和观测分支。DESPOT在构建信念树时是基于单一的上限作为启发式进行前向搜索，但对于当前信念节点而言，单一的上限值无法准确表示当前信念的信息。所以对于当前信念节点以折扣化上下限进行前向搜索来扩展更佳的信念节点，从而获得更好的信念树。

考虑到在不确定性环境下，机器人无法可靠运行的主因是POMDP模型的不确定性；其中在POMDP模型中，机器人可观测自身的部分状态信息并且可以通过不断的“试错”与环境进行交互以获得回报值最大的策略；在不确定环境下在线规划方法中，将机器人的状态视为一个信念，记为belief，以POMDP算法初始化当前信念的上、下边界，再通过折扣化上下限来表示当前信念的全部信息进而执行前向搜索构建信念树，以此来获得当前信念下的最优策略；将信念树的每一个节点代表一个信念，父节点与子节点通过行为-观测分支连接；本发明提供的 DESPOT-DULB算法性能优于DESPOT和POMCP，在收敛速度以及策略质量上具有优势。

其基本策略可以概括为以下步骤：包括以下步骤：

步骤S1：智能体在当前信念空间b中，随机采样K个状态以构建状态集合Φ_b；步骤S2：以信念b作为根节点构建信念树D，初始化当前信念b经验价值

的上界U(b)、下界L(b)和RWDU最优值V^*(b)的上界μ(b)、下界l(b)；步骤S3：定义智能体的当前信念b的不确定性为∈(b)＝μ(b)-l(b)，并进一步判断当前不确定性是否满足∈(b)<∈₀或者运行时间是否大于T_max，如果条件满足，进行步骤 S5，否者，执行步骤S4；步骤S4：对根节点b进行前向搜索以扩展信念树；步骤S5：当扩展的子节点b满足要求，信念树会停止扩展并自下而上对节点执行备份BACKUP(D,b)，若遇到受阻节点，将执行剪切操作PRUNE(D,b)；步骤 S6：对于根节点b，DESPOT-DULB算法选择信念树返回的最大的l(b)对应的最优行为a^*，并与默认策略π₀的值L(b)比较，以选择最优行为a^*，即

并与默认策略π₀的值L(b)比较，以选择最优行为；步骤S7：智能体重复以上的过程，直到到达目标点。

本发明具体采用以下技术方案：

一种基于高效搜索策略在不确定性环境下的在线规划方法，其特征在于：将机器人的状态视为一个信念，以POMDP算法初始化当前信念的上、下边界后，通过折扣化上下限表示当前信念的全部信息进而执行前向搜索构建信念树，以此获得当前信念下的最优策略；所述信念树的每一个节点代表一个信念，父节点与子节点通过行为-观测分支连接。

进一步地，所述POMDP算法采用在线POMDP规划算法DESPOT-DULB，包括以下步骤：

步骤S1：智能体在当前信念空间中随机采样K个状态以构建状态集合Φ_b；

步骤S2：以信念b作为根节点b₀构建信念树D，初始化当前信念b经验价值

的上界U(b)、下界L(b)和RWDU最优值V^*(b)的上界μ(b)、下界

步骤S3：定义智能体的当前信念b的不确定性为

并进一步判断当前不确定性是否满足∈(b)＜∈₀或运行时间是否大于T_max，如果条件满足，执行步骤S5，否则，执行步骤S4；

步骤S4：对作为根节点b₀的信念b进行前向搜索以扩展信念树；

步骤S5：当扩展的作为子节点的信念b满足要求，信念树停止扩展并自下而上对节点执行备份BACKUP(D，b)，若遇到受阻节点，则执行剪切操作 PRUNE(D，b)；

步骤S6：对于作为根节点b₀的信念b，选择信念树返回的最大的

对应的最优行为a^*，即

并与默认策略π₀的值L(b)比较，以选择最优行为；

步骤S7：智能体重复以上的过程，直到到达目标点。

进一步地，步骤S2具体包括以下过程：

利用经验值的计算形式

其中V_π，φ表示模拟策略π，计算每一个采样序列φ∈Φ_b的折扣奖励；其中对于U(b)的计算通过假设状态是完全可观测的，将在线POMDP问题转换成在线MDP问题，然后计算MDP环境下的最优价值V_MDP：

经验值

下界的计算利用一个默认策略π₀来获取，默认策略可以是固定行为或随机行为，对于每一个节点b的每一个序列Φ_b模拟默认策略进行有限次数的探索，计算每一个序列的折扣奖励再求平均值获得；

对应的RWDU的上限μ(b)和下限

通过U(b)和L(b)依据正规化加权折扣效用函数(RWDU)

求得：

其中，γ是一个折扣因子，|Φ_b|是通过节点b的场景数量，Δ(b)表示节点b 在策略π中的深度，π_b是节点b处的子树，|π_b|表示π_b的大小，特别地|π_b|＝0，λ是正规化因子。

指的是在b处执行默认策略π₀的正规化加权折扣效用值(公式2)，υ_π(b)与经验值

有关。

表示正规化加权折扣效用的在b处执行默认策略的值(即下限值)。

进一步地，步骤S4具体包括以下过程：

定义b′＝τ(b，a，z)为节点b采取某一行为a和获得观测z到达的子节点；当对节点b执行扩展更深节点的信念树操作时，首先通过步骤S2初始化所有节点 b的所有子节点b′的值U(b)，L(b)，μ(b)和

然后每一次的前向探索都为更快地将根节点b₀处的当前上下限差值∈(b)减小至目标差值ξ∈(b)，其中ξ∈(0，1) 是一个常量；在探索的过程中，节点b的最优行为选择都依据节点b的折扣上下限信息

其中，ω是占比因子，ρ(b，a)表示在节点b处执行行为a的带有正规化因子的平均折扣回报。具体定义为：

K表示采样的场景数，s_φ表示场景φ的初始状态，Δ(b)表示节点b的深度， R(s_φ，a)表示在初始状态s_φ执行行为a的回报，γ是折扣因子，λ是正规化因子。

在执行a^*之后，通过选择使过度不确定性最大的观测z^*来获得子节点b′＝τ(b，a^*，z)，以最大限度的减少不确定性：

其中，β是基于深度的函数，用于调整当前信念的不确定性，进一步保证信念树的搜索深度；β的定义：

β＝κ^Δ(b) 公式八；

其中，κ为常数，κ＞1，Δ(b)表示信念节点b的深度。

将以上信念树的扩展过程不断重复，直到出现下列情况：(1)信念树扩展到最大深度D，即Δ(b)＞D；(2)节点b的不确定性已经降到预期值，即E(b)＜0，继续探索对b没有意义；(3)节点b′的父节点b已经没有足够的采样序列：

其中，l(b′，b)表示从b到b′路径上节点的数量；如果父节点b采样序列不够，则继续扩展b会增加b′子策略树的数量可能会造成过拟合并且降低b′正则化的效果；如果在信念树扩展的过程中某些信念节点满足上式，则需要执行剪枝 PRUNE(D，b)操作。

进一步地，剪切操作PRUNE(D，b)的具体实现形式是：如果父节点b采样序列不能满足前向搜索停止的要求，则对父节点b的边界值计算分别将计算的初始下界赋值给上界，也就是表明当前节点b的不确定性已经满足要求，即：

U(b)←L(b)

之后执行BACKUP(D，b)。

进一步地，备份操作BACKUP(D，b)具体实现方式为：DESPOT-DULB算法遵循贝尔曼规则沿着信念树上最深的节点自下而上的更新信念树中节点的价值：

其中b′为b的子节点，b′＝τ(b，a，z)，|Φ_b′|是通过节点b′的场景数量，ω₁为占比因子，β₁与β的定义类似，β₁＝κ₁ ^Δ(b)，κ₁为大于1的常数，Δ(b)为节点b 的深度。对于ω与ω1和β与β1的含义，其中ω和β是在搜索阶段的参数，而ω1和β1是在备份阶段的参数，一般来说，搜索阶段设置的参数比备份阶段设置的较大。

以及，一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的基于高效搜索策略在不确定性环境下的在线规划方法的步骤。

以及，一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述的基于高效搜索策略在不确定性环境下的在线规划方法的步骤。

相比于现有的在线POMDP规划算法DESPOT和POMCP算法，本发明及其优选方案提出的算法有如下优势：

(1)本发明提出的算法是接近最优的；

(2)高效搜索策略的核心在于考虑前向搜索过程中信念节点的信息冗余性和准确性表示的影响因素。本发明通过组合信念节点的上限和下限再进行折扣化来表示当前信念的信息，并以此作为前向搜索的依据。高效搜索策略获得的最佳行为和观测分支避免了单一上限搜索的贪婪性和次优性，能够扩展优质的信念树，降低了扩展质量较差的行为和观测分支；

(3)DESPOT在构建信念树时是基于单一的上限作为启发式进行前向搜索，但对于当前信念节点而言，单一的上限值无法准确表示当前信念的信息。本发明对于当前信念节点以折扣化上下限进行前向搜索来扩展更佳的信念节点，从而获得更好的信念树；

(4)提出高效搜索策略提高了算法性能。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1本发明实施例中信念树构建的流程示意图。

图2本发明实施例中信念树的扩展方式示意图(实线圆表示信念节点，正方形表示信念一行为节点，不用灰度的实心圆表示不同状态，[A，B]或[C，D]中A (C)表示当前信念初始的上限，B(D)表示当前信念初始的下限，折扣化C+λD 表示当前信念节点的父节点在执行这一行为的未来信息)。

图3本发明实施例在三种常见POMDP仿真环境的示意图(分别是(a)Tag。机器人追逐想要逃离的目标。(b)Laser Tag。机器人在随机散布障碍物的网格中追逐目标，机器人配有雷达用于测量目标和发现障碍物距离。(c)Pocman。原始Pacman游戏)。

图4本发明实施例中在不同环境中信念节点深度与当前不确定性的示意图 ((a)Tag，(b)Laser Tag，(c)Pocman)。

图5本发明实施例中不同任务算法规划时间在归一化后的示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

如图1-图5所示，本实施例提供了基于高效搜索策略在不确定性环境下的在线规划方法，用于机器人执行任务时的在线规划，其特征表现如下：在不确定性环境下，机器人无法可靠运行的主因是POMDP模型的不确定性；其中在POMDP 模型中，机器人可观测自身的部分状态信息并且可以通过不断的“试错”与环境进行交互以获得回报值最大的策略；

本实施例在不确定环境下在线规划方法中，将机器人的状态视为一个信念，记为belief，以POMDP算法初始化当前信念的上、下边界，再通过折扣化上下限来表示当前信念的全部信息进而执行前向搜索构建信念树，以此来获得当前信念下的最优策略；信念树的每一个节点代表一个信念，父节点与子节点通过行为 -观测分支连接。

如图1所示，本实施例具体采用的POMDP算法是新提出的在线POMDP规划算法DESPOT-DULB，包括以下步骤；

步骤S1、智能体在当前信念空间b中，随机采样K个状态以构建状态集合Φ_b；

步骤S2、以信念b作为根节点构建信念树D，初始化当前信念b经验价值

的上界U(b)、下界L(b)和RWDU最优值V^*(b)的上界μ(b)、下界

步骤S3、定义智能体的当前信念b的不确定性为

并进一步判断当前不确定性是否满足∈(b)＜∈₀或者运行时间是否大于T_max，如果条件满足，进行步骤S5，否者，执行步骤S4；

步骤S4、对根节点b进行前向搜索以扩展信念树；

步骤S5、当扩展的子节点b满足要求，信念树会停止扩展并自下而上对节点执行备份BACKUP(D，b)，若遇到受阻节点，将执行剪切操作PRUNE(D，b)；

步骤S6、对于根节点b，DESPOT-DULB算法会选择信念树返回的最大的

对应的最优行为a^*，即

并与默认策略π₀的值L(b)比较，以选择最优行为；

步骤S7、智能体重复以上的过程，直到到达目标点。

其中，步骤S2的具体实现形式为：利用经验值的计算形式

其中V_π，φ表示模拟策略π计算每一个采样序列φ∈Φ_b的折扣奖励。对于U(b)的计算是通过假设状态是完全可观测的，也就将在线POMDP问题转换成在线MDP问题，然后计算MDP环境下的最优价值V_MDP：

而经验值

下界的计算是利用一个默认策略π₀来获取，默认策略可以是固定行为或随机行为，对于DESPOT-DULB中的每一个节点b的每一个序列Φ_b模拟默认策略进行有限次数的探索，计算每一个序列的折扣奖励再求平均值获得。

对应的RWDU的上限μ(b)和下限

可以通过U(b)和L(b)依据正规化加权折扣效用函数(RWDU)

求得：

如图2所示，步骤S4的具体实现形式为：定义b′＝τ(b，a，z)为b采取某一行为a和获得观测z到达的子节点；当对节点b执行扩展更深节点的信念树操作时，首先需要初始化所有b的所有子节点b′的值U(b)，L(b)，μ(b)和

如步骤S2所示；然后每一次的前向探索都为更快地将根节点b处的当前上下限差值∈(b)减小至目标差值ξ∈(b)，其中ξ∈(0，1)是一个常量；在探索的过程中，节点b 的最优行为选择都依据节点b的折扣上下限信息

其中，β是基于深度的函数，用来调整当前信念的不确定性，进一步保证信念树的搜索深度。β的定义：

β＝κ^Δ(b) 公式八；

其中，κ为常数，κ＞1，Δ(b)表示信念节点b的深度。

上述信念树的扩展过程会不断重复，直到出现下列情况：(1)、信念树扩展到最大深度D，即Δ(b)＞D；(2)、节点b的不确定性已经降到预期值，即E(b)＜0，继续探索对b没有意义；(3)、节点b′的父节点b已经没有足够的采样序列：

l(b′，b)表示从b到b′路径上节点的数量；如果父节点b采样序列不够，那么继续扩展b会增加b′子策略树的数量可能会造成过拟合并且降低b′正则化的效果。如果在信念树扩展的过程中某些信念节点满足上式，则需要执行剪枝 PRUNE(D，b)操作。

步骤S5中剪切操作PRUNE(D，b)的具体实现形式是：如果父节点b采样序列不能满足前向搜索停止的要求，则对父节点b的边界值计算分别将计算的初始下界赋值给上界，也就是表明当前节点b的不确定性已经满足要求，即：

U(b)←L(b)

之后同样执行BACKUP(D，b)。

步骤S5中备份操作BACKUP(D，b)具体实现方式为：当信念树终止搜索时，需要执行BACKUP(D，b)时，DESPOT-DULB算法遵循贝尔曼规则沿着信念树上最深的节点自下而上的更新信念树中节点的价值：

其中b′为b的子节点，b′＝τ(b，a，z)，|Φ_b′|是通过节点b′的场景数量，ω₁为占比因子，β₁与β的定义类似，β₁＝κ₁ ^Δ(b)，κ₁为大于1的常数，Δ(b)为节点b的深度。

以下用具体的仿真实验对本发明的实施方式进行详细说明，本发明提供一种基于高效搜索策略在不确定性环境下的在线规划方法，对于POMDP规划问题，存在一些标准POMDP仿真评价环境，所以通过常见的仿真评价环境测试 DESPOT-DULB算法的性能，并与最新的POMDP算法进行比较。具体实验设置如下：

仿真实验：

仿真实验在Ubuntu 18.04系统中进行。

在三个仿真任务中评估DESPOT-DULB算法的性能，如表1所示，该表为在常见的POMDP仿真环境下的算法性能表(展现了算法在三个不同任务中的平均折扣奖励)：

这三个任务是评价POMDP算法常见的评价基准。在环境Tag、和Laser Tag 中设置采样序列K＝500，在环境Pocman中设置K＝100。对于每个任务，本实施例设置相应的参数如下：对于Tag，参数设为ω＝0.20，ω₁＝0.02，β₁＝1.0和κ＝ 1.012；对于不同大小的LaserTag任务，参数设置分别为ω＝0.20，ω₁＝ 0.02，β₁＝1.0κ＝1.05，ω＝0.25，ω₁＝0.025，β₁＝1.0κ＝1.05，和ω＝ 0.35，ω₁＝0.03，β₁＝1.0，κ＝1.05；对于Pocman任务，参数设为ω＝0.03，ω₁＝0.002，β₁＝1.0和κ＝1.012。所有的算法都在统一的平台上进行仿真并设置在线POMDP算法的最大运行时间为1秒钟。DESPOT-DULB主要包含两个部分：折扣化上下限启发式搜索和调整当前节点的不确定性。本实施例通过表格2展现了折扣化和无折扣化的算法性能，说明了折扣化对算法性能的影响。该表为考虑了折扣化对算法性能表(DESPOT-DULB的两部分：依据上下限组合表示信念节点的未来信息和折扣化节点上下限组合)：

为了进一步说明DESPOT-DULB算法的性能，本实施例从图4：在不同环境中信念节点深度与当前不确定性的示意图、图5：不同任务算法规划时间在归一化后的示意图、这两个角度说明DESPOT-DULB的优越性。

(1)仿真环境一：Tag

Tag是Pineau等人于2003年提出的标准POMDP基准。机器人和目标机在具有29位置的空间移动(如图3(a))。机器人的目标是找到并标记目标机，目标机会有意识地逃离。刚开始，机器人和目标机会获得一个随机位置，机器人能知道自己所处的位置，但无法获得目标机的位置，只有当机器人和目标机在同一个方格中，机器人才能观察到目标机的位置。机器人可以执行5个行为，呆在原地和向四个相邻地方向移动，每执行一步付出-1的代价。同时，机器人可以标记目标，标记成功回报+10，标记失败，惩罚-10。

在Tag环境中，机器人仅观察到自身的位置信息，无法确定目标的位置。通过折扣化信念节点的上下限进行前向搜索构建信念树以减少不确定性。图4(a) 展示了随着信念节点的深度的增加，不确定性逐渐降低。不确定性越低，越有利于机器人快速抓到目标。

(2)仿真场景二：LaserTag

Laser Tag是具有大的观测空间的Tag的扩展版本。在Laser Tag中，本实施例设置三个不同大小的场景：(1)机器人在6×8的矩形方格中移动，并且随机放置6个障碍物；(2)机器人在7×11的矩形方格中移动，并且随机放置8 个障碍物(图3(b))；(3)机器人在9×12的矩形方格中移动，并且随机放置 12个障碍物。机器人和目标机的设置和Tag中相同。机器人初始一个位置，但机器人不能准确地知道自己的位置。为定位机器人的位置，机器人配有一个激光测距仪来测量八个方向的距离。图中每个网格的大小为1。每个方向的激光读数由正态分布生成，该正态分布以机器人到该方向障碍物的真实距离为中心，标准偏差为2.5。读数四舍五入到最接近的整数。所以一个观测值包含八个整数，总的观察数量约为3.5×10⁵，1.5×10⁶，和4.1×10⁶。

在大型观测空间Laser Tag环境中，机器人仅知道滋生的位置信息。为了减少规划时间和不确定性，机器人上配备一个激光测距仪来测量八个方向的距离。本实施例考虑进一步的通过折扣化上下限信息来降低不确定性。图4(b)表示了不确定性随着信念节点深度的增大不断降低。以快速确定机器人所处的状态，进而执行最佳的行为。

(3)仿真环境三：Pocman

Pocman是一个视频游戏Pacman(如图3(c))的部分变形体。在Pocman中，智能体和四个鬼魂在17×19的布满食物颗粒的迷宫中移动。智能体的每一步移动花费-1，每个食物颗粒提供回报+10。如果智能体被鬼魂抓到，游戏终止并惩罚-100。另外，迷宫中有4个能量果，智能体在吃到能量果的后15步，智能体能吃掉鬼魂并奖励+25。鬼魂追逐智能体，如果两者的曼哈顿距离在5之内，但如果只能处于吃了能量果的状态，鬼魂会逃离。智能体不知道鬼魂的确切的位置，但是可以接收到各个方向是否看到鬼魂，在曼哈顿距离2之内是否听到鬼魂，在四个方向是否感受到墙，在相邻和对角单元是否闻到食物颗粒。Pocman有很大的状态空间约为10⁵⁶个状态。

在大型状态空间Pocman环境中，由于智能体仅可以知道相邻或者对角线相邻的位置上是否有食物，无法知道更远处是否有食物。本实施例通过获得更完备的未来信息作为启发式进行前向搜索进而减少对环境的不确定性。图3(c)展现了环境的不确定性随着节点深度的增大而不断降低。通过上述方法构建信念树，能更有效地得到最优的行为。

(4)DESPOT-DULB运行时间以及收敛性能比较

假设T_max是有界的，DESPOT-DULB算法构建一个部分信念树DESPOT-DULB D′，根节点b₀的上、下限之差为∈(b₀)。那么从D′获得的最优正则化策略

满足：

其中，v^*(b₀)是来自完整DESPOT-DULBD信念树的计算出的正则化最优策略的值。∈(b₀)会随着T_max的增长而递减。同时，基于高效搜索策略构建信念树能进一步减少∈(b₀)。因此

随着时间的增加会逐渐逼近最优正则化策略。

依据DESPOT-DULB算法构建的信念树更准确的表示当前节点的信息，以确定当前的状态。在有限时间内不确定性∈(b₀)减小的更快，

能够更快的收敛到最优策略，同时DESPOT-DULB在整体上规划时间更短。由于DESPOT-DULB是在线的 POMDP规划算法，本实施例设置每一时间步为1秒，因此在有限的时间内将当前信念的不确定性减少为0是不现实的，而不确定性的大小侧面反映了收敛程度。图4展现了多个任务不同深度信念的不确定性指标。图5展示了多个任务运行时间的对比，纵坐标表示同一个任务不同算法在归一化处理之后运行时间的占比。整体上，DESPOT-DULB算法在规划时间上是存有优势的。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

本实施例提供的以上系统及方法可以代码化的形式存储在计算机可读取存储介质中，并以计算机程序的方式进行实现，并通过计算机硬件输入计算所需的基本参数信息，并输出计算结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于高效搜索策略在不确定性环境下的在线规划方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于高效搜索策略在不确定性环境下的在线规划方法，其特征在于：将机器人的状态视为一个信念，以POMDP算法初始化当前信念的上、下边界后，通过折扣化上下限表示当前信念的全部信息进而执行前向搜索构建信念树，以此获得当前信念下的最优策略；所述信念树的每一个节点代表一个信念，父节点与子节点通过行为-观测分支连接。

2.根据权利要求1所述的基于高效搜索策略在不确定性环境下的在线规划方法，其特征在于，所述POMDP算法采用在线POMDP规划算法DESPOT-DULB，包括以下步骤：

的上界U(b)、下界L(b)和RWDU最优值V^*(b)的上界μ(b)、下界l(b)；

步骤S3：定义智能体的当前信念b的不确定性为∈(b)＝μ(b)-l(b)，并进一步判断当前不确定性是否满足∈(b)＜∈₀或运行时间是否大于T_max，如果条件满足，执行步骤S5，否则，执行步骤S4；

步骤S5：当扩展的作为子节点的信念b满足要求，信念树停止扩展并自下而上对节点执行备份BACKUP(D，b)，若遇到受阻节点，则执行剪切操作PRUNE(D，b)；

步骤S6：对于作为根节点b₀的信念b，选择信念树返回的最大的l(b)对应的最优行为a^*，即

并与默认策略π₀的值L(b)比较，以选择最优行为；

步骤S7：智能体重复以上的过程，直到到达目标点。

3.根据权利要求2所述的基于高效搜索策略在不确定性环境下的在线规划方法，其特征在于：步骤S2具体包括以下过程：

利用经验值的计算形式

经验值

下界的计算利用一个默认策略π₀来获取，默认策略为固定行为或随机行为，对于每一个节点b的每一个序列Φ_b模拟默认策略进行有限次数的探索，计算每一个序列的折扣奖励再求平均值获得；

对应的RWDU的上限μ(b)和下限l(b)通过U(b)和L(b)依据正规化加权折扣效用函数RWDU：

求得：

其中，γ是一个折扣因子，|Φ_b|是通过节点b的场景数量，Δ(b)表示节点b在策略π中的深度，π_b是节点b处的子树，|π_b|表示π_b的大小，|π_b|＝0，λ是正规化因子；

指的是在b处执行默认策略π₀的正规化加权折扣效用值。

4.根据权利要求3所述的基于高效搜索策略在不确定性环境下的在线规划方法，其特征在于：步骤S4具体包括以下过程：

定义b′＝τ(b，a，z)为节点b采取某一行为a和获得观测z到达的子节点；当对节点b执行扩展更深节点的信念树操作时，首先通过步骤S2初始化所有节点b的所有子节点b′的值U(b)，L(b)，μ(b)和l(b)；然后每一次的前向探索都为更快地将根节点b₀处的当前上下限差值∈(b)减小至目标差值ξ∈(b)，其中ξ∈(0，1)是一个常量；在探索的过程中，节点b的最优行为选择都依据节点b的折扣上下限信息(μ(b)+ωl(b))/β：

其中，ω是占比因子，ρ(b，a)表示在节点b处执行行为a的带有正规化因子的平均折扣回报；具体定义为：

K表示采样的场景数，s_φ表示场景φ的初始状态，Δ(b)表示节点b的深度，R(s_φ，a)表示在初始状态s_φ执行行为a的回报，γ是折扣因子，λ是正规化因子；

β＝κ^Δ(b) 公式八；

其中，κ为常数，κ＞1，Δ(b)表示信念节点b的深度；

将以上信念树的扩展过程不断重复，直到出现下列情况：(1)信念树扩展到最大深度D，即Δ(b)＞D；(2)节点b的不确定性已经降到预期值，即E(b)＜0，继续探索对凸没有意义；(3)节点b′的父节点b已经没有足够的采样序列：

其中，l(b′，b)表示从b到b′路径上节点的数量；如果父节点b采样序列不够，则继续扩展b会增加b′子策略树的数量可能会造成过拟合并且降低b′正则化的效果；如果在信念树扩展的过程中某些信念节点满足上式，则需要执行剪枝PRUNE(D，b)操作。

5.根据权利要求3或4所述的基于高效搜索策略在不确定性环境下的在线规划方法，其特征在于：

剪切操作PRUNE(D，b)的具体实现形式是：如果父节点b采样序列不能满足前向搜索停止的要求，则对父节点b的边界值计算分别将计算的初始下界赋值给上界，也就是表明当前节点b的不确定性已经满足要求，即：

U(b)←L(b)

μ(b)←l(b)

之后执行BACKUP(D，b)。

6.根据权利要求3或4所述的基于高效搜索策略在不确定性环境下的在线规划方法，其特征在于：

备份操作BACKUP(D，b)具体实现方式为：DESPOT-DULB算法遵循贝尔曼规则沿着信念树上最深的节点自下而上的更新信念树中节点的价值：

其中b′为b的子节点，b′＝τ(b，a，z)，|Φ_b′|是通过节点b′的场景数量，ω₁为占比因子，β₁为基于深度的函数，β₁＝κ₁ ^Δ(b)，κ₁为大于1的常数，Δ(b)为节点b的深度。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6其中任一所述的基于高效搜索策略在不确定性环境下的在线规划方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6其中任一所述的基于高效搜索策略在不确定性环境下的在线规划方法的步骤。