CN113189986A

CN113189986A - 一种自主机器人的二阶段自适应行为规划方法及系统

Info

Publication number: CN113189986A
Application number: CN202110413184.4A
Authority: CN
Inventors: 毛新军; 杨硕; 王硕; 肖怀宇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-07-30
Anticipated expiration: 2041-04-16
Also published as: CN113189986B

Abstract

本发明涉及一种自主机器人的二阶段自适应行为规划方法及系统。该方法包括：获取机器人任务以及当前环境状态；根据所述机器人任务以及所述当前环境状态建立伴随行为模型；所述伴随行为模型包括观察行为、效应行为以及伴随行为；所述观察行为用于实时观察当前环境状态；所述效应行为用于根据所述当前环境状态，改变当前环境状态；所述伴随行为用于当所述目标物体被遮挡时，确定最优效应行为，并基于根据所述观察行为规划下一步最优效应行为，自适应更新所述效应行为；根据所述伴随行为模型规划自主机器人的行为路径，完成所述机器人任务。本发明能够高效实现任务并快速响应环境变化。

Description

一种自主机器人的二阶段自适应行为规划方法及系统

技术领域

本发明涉及人工智能领域，特别是涉及一种自主机器人的二阶段自适应行为规划方法及系统。

背景技术

近年来，随着人工智能、自动化技术等的快速发展，机器人的硬件功能日趋完善，开始逐步从封闭的工业车间走向家庭服务、医疗看护等开放环境。开放环境下的机器人通过传感器和效应器，与环境进行持续交互，根据当前环境和任务需求自主规划和调整其行为，这一类机器人称为“自主机器人”。自主机器人本质上是一类硬件异构化、软件密集型和自主化决策的信息物理系统。自主机器人由核心的软件系统驱动，自主决策机器人的行为(如根据任务需求和环境变化规划行为)，并驱动机器人硬件在开放环境下自主、安全、高效和健壮运行，因而软件系统是自主机器人系统的核心和关键。本发明重点关注开放环境下自主机器人软件的自主行为规划问题。

开放环境一方面具有动态性。动态性指环境中存在其他智能体的行为改变环境状态，环境状态往往动态可变且不可预测，容易使机器人预先规划的行为失效，即上一时刻规划产生的行为在当前变化后的环境下不再适用，行为执行结果不符合预期效果，使得任务无法成功达成。例如，当机器人观察到目标物体时，其规划产生一条最优路线使机器人能够最快到达目标物体处。在机器人移动过程中，目标物体突然被人为移动至其他位置。此时，目标物体的位置变化(环境状态变化)使得机器人前一时刻规划的路线不再适用，最终无法成功到达目标物体处。另一方面，开放环境对于机器人往往不可完全观察。由于传感器硬件偏差、环境遮挡等因素，机器人通常无法准确观察到当前环境的所有状态信息。基于部分可知的环境信息，机器人规划产生的行为也可能不适用于实际环境状态，导致无法达成任务。例如，当目标物体被遮挡，其可见部分与相邻物体相似，机器人由于只能观察到目标物体的部分信息，可能将相邻物体误判为目标物体，规划产生的行进路线无法使其成功到达目标物体处。开放环境的上述特点使得规划产生的机器人行为无法有效地达成任务。因此，如何根据任务以及行为执行需要来观察环境以增强任务规划的高效性和行为执行的反应性，成为自主机器人软件研究领域面临的重要挑战。

在机器人任务规划领域，经典的行为树规划方法(behavior tree planning)针对环境变化通常实施一次性规划，其规划产生的行为通常为一组预定义规则行为，当环境某一状态变化触发相应事件则规划产生相应行为执行，其执行假设能确定性地改变环境状态，并有效达成任务。例如，针对上述场景，经典行为规划方法产生一组预定义的确定性行为序列，如当目标物体被移动至左侧，机器人则确定性地移动至左侧位置。然而，当机器人对环境状态的观察结果存在不确定性，经典行为树规划方法往往无法有效应对不可完全观察的环境变化。经典行为树规划方法的局限性在于缺乏对环境状态的实时观察和自适应规划。

发明内容

本发明的目的是提供一种自主机器人的二阶段自适应行为规划方法及系统，以解决经典的行为树规划方法缺乏对环境状态的实时观察和自适应规划的问题。

为实现上述目的，本发明提供了如下方案：

一种自主机器人的二阶段自适应行为规划方法，包括：

获取机器人任务以及当前环境状态；所述机器人任务包括移动目标物体至目标区域任务以及抓捕目标物体任务；所述当前环境状态包括目标物体被遮挡以及目标物体未被遮挡；

根据所述机器人任务以及所述当前环境状态建立伴随行为模型；所述伴随行为模型包括观察行为、效应行为以及伴随行为；所述观察行为用于实时观察当前环境状态；所述效应行为用于根据所述当前环境状态，改变当前环境状态；所述伴随行为用于当所述目标物体被遮挡时，确定最优效应行为，并基于根据所述观察行为规划下一步最优效应行为，自适应更新所述效应行为；

根据所述伴随行为模型规划自主机器人的行为路径，完成所述机器人任务。

可选的，所述根据所述机器人任务以及所述当前环境状态建立伴随行为模型，具体包括：

根据所述机器人任务构建初始行为树；所述初始行为树将任一所述当前环境状态作为条件节点；

当所述条件节点表示为目标物体被遮挡时，扩展所述条件节点为一个伴随策略子树；

在所述伴随策略子树上，将所述条件节点以及伴随节点作为一个回退节点的两个子节点；

根据所述伴随节点创建效应行为子节点以及观察行为子节点；所述伴随节点表征所述伴随行为；所述效应行为子节点表征所述效应行为，所述观察行为子节点表征所述观察行为；所述回退节点用于触发所述伴随节点以及所述伴随节点创建的效应行为子节点和观察行为子节点；

遍历所有的所述条件节点，生成多个伴随策略子树；

根据多个所述伴随策略子树构建伴随行为模型。

可选的，所述根据所述伴随节点创建效应行为子节点以及观察行为子节点，具体包括：

对于任一所述条件节点表示为目标物体被遮挡时，将所述条件节点对应的当前环境状态初始为信念状态；所述信念状态为目标物体被遮挡的当前环境状态用状态空间上的信念分布表示；

根据所述信念状态构建信念状态树，所述初始的信念状态为根节点；

当所述条件节点表示为目标物体被遮挡时，所述伴随节点扩展所述信念状态树至设定深度，计算每一信念节点下执行不同效应行为的累计奖励值，并将所述累计奖励值更新至所述根节点；所述信念节点为所述信念状态树上的任一节点；

基于当前信念状态，利用所述伴随节点选取累计奖励值最大的效应行为作为最优效应行为；

将所述最优效应行为创建为一个效应行为子节点，并执行所述最优效应行为；

当所述最优效应行为成功执行，触发执行与所述效应行为子节点相邻的观察行为子节点。

可选的，所述当所述最优效应行为成功执行，触发执行与所述效应行为子节点相邻的观察行为子节点，之后还包括：

获取所述观察行为子节点观察的当前环境状态以及前一时刻的信念状态；

利用所述伴随节点，根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态。

可选的，所述利用所述伴随节点，根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态，之后还包括：

利用所述伴随节点，根据更新后的当前信念状态规划下一最优效应动作，并创建新的效应行为子节点以及新的观察行为子节点。

一种自主机器人的二阶段自适应行为规划系统，包括：

机器人任务以及当前环境状态获取模块，用于获取机器人任务以及当前环境状态；所述机器人任务包括移动目标物体至目标区域任务以及抓捕目标物体任务；所述当前环境状态包括目标物体被遮挡以及目标物体未被遮挡；

伴随行为模型建立模块，用于根据所述机器人任务以及所述当前环境状态建立伴随行为模型；所述伴随行为模型包括观察行为、效应行为以及伴随行为；所述观察行为用于实时观察当前环境状态；所述效应行为用于根据所述当前环境状态，改变当前环境状态；所述伴随行为用于当所述目标物体被遮挡时，确定最优效应行为，并基于根据所述观察行为规划下一步最优效应行为，自适应更新所述效应行为；

行为路径规划模块，用于根据所述伴随行为模型规划自主机器人的行为路径，完成所述机器人任务。

可选的，所述伴随行为模型建立模块，具体包括：

初始行为树构建单元，用于根据所述机器人任务构建初始行为树；所述初始行为树将任一所述当前环境状态作为条件节点；

伴随策略子树构建单元，用于当所述条件节点表示为目标物体被遮挡时，扩展所述条件节点为一个伴随策略子树；

回退节点确定单元，用于在所述伴随策略子树上，将所述条件节点以及伴随节点作为一个回退节点的两个子节点；

效应行为子节点以及观察行为子节点创建单元，用于根据所述伴随节点创建效应行为子节点以及观察行为子节点；所述伴随节点表征所述伴随行为；所述效应行为子节点表征所述效应行为，所述观察行为子节点表征所述观察行为；所述回退节点用于触发所述伴随节点以及所述伴随节点创建的效应行为子节点和观察行为子节点；

遍历单元，用于遍历所有的所述条件节点，生成多个伴随策略子树；

伴随行为模型构建单元，用于根据多个所述伴随策略子树构建伴随行为模型。

可选的，所述效应行为子节点以及观察行为子节点创建单元，具体包括：

信念状态初始子单元，用于对于任一所述条件节点表示为目标物体被遮挡时，将所述条件节点对应的当前环境状态初始为信念状态；所述信念状态为目标物体被遮挡的当前环境状态用状态空间上的信念分布表示；

信念状态树构建子单元，用于根据所述信念状态构建信念状态树，所述初始的信念状态为根节点；

根节点更新子单元，用于当所述条件节点表示为目标物体被遮挡时，所述伴随节点扩展所述信念状态树至设定深度，计算每一信念节点下执行不同效应行为的累计奖励值，并将所述累计奖励值更新至所述根节点；所述信念节点为所述信念状态树上的任一节点；

最优效应行为确定子单元，用于基于当前信念状态，利用所述伴随节点选取累计奖励值最大的效应行为作为最优效应行为；

执行单元，用于将所述最优效应行为创建为一个效应行为子节点，并执行所述最优效应行为；

效应行为子节点以及观察行为子节点创建子单元，用于当所述最优效应行为成功执行，触发执行与所述效应行为子节点相邻的观察行为子节点。

可选的，还包括：

当前环境状态以及前一时刻的信念状态获取子单元，用于获取所述观察行为子节点观察的当前环境状态以及前一时刻的信念状态；

当前信念状态更新单元，用于利用所述伴随节点，根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态。

可选的，还包括：

新的效应行为子节点以及新的观察行为子节点创建子单元，用于利用所述伴随节点，根据更新后的当前信念状态规划下一最优效应动作，并创建新的效应行为子节点以及新的观察行为子节点。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种自主机器人的二阶段自适应行为规划方法及系统，基于机器人任务以及当前环境状态建立伴随行为模型，动态扩展子树以主动观察环境信息，在扩展子树上在线规划一组伴随执行的效应行为和观察行为，基于观察结果自适应调整效应行为，从而能够高效实现任务并快速响应环境变化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为机器人移动过程中出现障碍物阻碍前进方向的环境动态变化示意图；

图2为当环境动态变化且完全可观察情况下，自主机器人的二阶段自适应行为规划过程示意图；

图3为机器人抓取目标物体时，目标物体被移动至其他位置且不可见的环境动态变化示意图；

图4为当环境动态变化且不可完全观察情况下，自主机器人的二阶段自适应行为规划过程示意图；

图5为开放环境下自主机器人的伴随行为示意图；

图6为一次伴随交互OneStepAdjoint示意图；

图7为伴随行为交互模型示意图；

图8为二阶段自适应行为规划方法示意图；

图9为场景一中机器人任务的行为树表示、规划和执行过程示意图；

图10为基于扩展行为树的伴随行为表示示意图；

图11为基于行为树的任务模型和规划过程示意图；

图12为本发明所提供的自主机器人的二阶段自适应行为规划方法流程图；

图13为“物品搜索”任务(a)和“室内导航”任务(b)示意图；

图14为基于伴随行为模型和二阶段行为规划方法的案例实现过程示意图；

图15为基于二阶段混合行为规划方法的任务二行为树表示和规划示意图；

图16为基于ROS的行为执行机制示意图；

图17为经典行为规划算法对机器人任务的表示、规划和执行示意图；

图18为基于经典行为规划算法的任务一(a)和任务二(b)行为树表示示意图；

图19为任务一中目标物体(red-blue block)被移动至不同位置的三种可能场景示意图；

图20为任务一中二阶段混合规划方法与经典行为规划算法的时间开销对比示意图；

图21为静态环境下任务二中二阶段混合行为规划方法与经典反应式规划算法的移动距离对比示意图；

图22为动态环境下任务二中二阶段行为规划方法与经典反应式规划算法的移动距离对比示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种自主机器人的二阶段自适应行为规划方法及系统，能够高效实现任务并快速响应环境变化。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明重点考虑家庭服务场景中机器人的任务及其行为规划问题，家庭服务机器人运行在开放的室内环境中，环境中存在其他智能体(如人等)的运动，其他智能体引起的环境状态改变容易对机器人的行为执行过程造成阻碍，如障碍物被人为移动至机器人的前进方向上等。此类环境状态的变化需要被自主机器人及时感知和处理，当感知到外部环境产生非预期的变化时，规划产生相应的伴随行为以辅助任务实现。场景一(图1)和场景二(图2)展示了家庭服务场景中两类不同的环境动态变化，对自主机器人软件的行为规划带来的挑战和复杂性也不同。

场景一(图1)展示了在室内环境中机器人将目标物体移动至目标区域(GOAL)的任务。在移动过程中，球被人为放置在机器人的前进方向上，阻碍了机器人的正常行进。在此情况下，机器人需要及时将球推开以免产生碰撞。由于环境状态的变化对于机器人完全可知(机器人能够准确观察和估测红球移动后的位置)，经典行为树规划方法实施一次性规划，产生一组离线行为以消除环境变化对原有行为执行的影响，如检测到球位置(事件)即驱动其手臂将其推开(反应式行为)。如图2所示，当机器人执行任务规划(task plan)时，当机器人移动至木块过程中moveTo(block)球突然出现(ball present)，此时经典行为规划产生一个确定性行为即push(ball)即可将红球移开，随后恢复执行原有任务执行。

场景二(图3)展示了在室内环境中机器人在指定位置抓取目标物体的任务，图3中箭头指向目标物体。在抓取过程中，目标物体突然被人为移动至木块堆中，由于木块杂乱摆放，目标物体被多个木块所遮挡，机器人在当前位置无法获知目标物体被移动后的准确位置。在此情况下，为了准确定位目标物体的位置并抓取，机器人需要不断移动前方的遮挡物，观察目标物体的可能位置，通过多次移动和观察最终将目标物体完全移出。由于环境状态的变化对于机器人不可完全观察(机器人无法知道目标物体移动后的准确位置)，经典行为树规划方法产生的离线行为无法有效应对这种环境变化。相反，针对该环境状态的变化，机器人需要进行审慎式规划产生包含改变和感知环境状态(即“效应行为”和“观察行为”)的一组伴随行为，通过两种行为之间的交互来响应环境状态变化。如图4所示，任务初始时目标木块对机器人完全可见，机器人执行moveTo(target)行为移动至目标木块位置，在此过程中由于外力作用目标物体被移动和遮挡。针对此事件，机器人需要产生一组交互执行的“效应行为”moveAside(block)和“观察行为”observe(scene)，使得机器人能够迭代移动前方遮挡物和观察移动后的视觉图像，从而尽可能快地确定目标物体的位置。

基于上述案例分析，经典行为树规划算法产生的离线行为无法有效应对环境动态变化且不可完全观察问题，如何根据环境动态变化和观察结果进行行为规划以产生有效的伴随行为，成为本发明的研究问题。图5总结了上述场景中理想的行为规划过程和规划产生的伴随行为策略。假设自主机器人被赋予某一任务，其行为序列为p＝<a₁,a₂,a₃,a₄>，其中a_i(i∈[1,4])为机器人的不同“效应行为”。在行为执行过程中，环境状态的变化看作非预期的事件e，可能影响行为的正常执行。在行为a₂执行过程中，事件e的发生触发机器人进行自适应行为决策产生一组交互伴随行为π＝<A₁,O₁,...,A_n,O_n>，其中A表示改变环境状态的“效应行为”，O表示感知环境状态的“观察行为”。通过执行伴随行为π，机器人能够改变环境状态以应对非预期事件，并继续执行原有任务规划以实现任务目标。本发明工作围绕如何根据环境状态变化规划产生一组交互伴随行为π，以有效支持任务实现。后续围绕伴随式行为展开，并明确提出伴随行为模型，定义两类行为以及行为交互关系以及提出基于伴随行为的二阶段混合式行为规划方法。

从高层抽象角度，本发明提出了一种开放环境下的机器人行为模型，抽象和定义了机器人不同类型行为和其交互关系。此类行为模型是认识机器人行为模式、规划机器人任务的基础和关键，然而在当前机器人和人工智能领域并未得到足够的关注和研究。本发明所提出的“伴随行为”指包含相互交互的“效应行为”和“观察行为”的一种复合行为。这两类行为的抽象和认识建立在自主机器人不同于其他信息物理系统的行为特点上。首先，行为的多样性，自主机器人既有通过效应器部件改变环境和自身状态的“效应行为”，如轮式机器人通过移动底盘移动到指定位置；也有通过传感器部件获取环境信息的“观察行为”，如通过视觉传感器观察运动前方是否存在障碍物。“效应行为”的执行将可能会改变环境状态，而“观察行为”的执行仅获取环境信息而不会影响环境。

定义1.自主机器人系统。自主机器人系统的形式模型定义为一个二元偶M＝<Γ，X>，其中Γ表示自主机器人的所有行为集合，自主机器人中的行为具有以下两种类型，设Γ＝Γ_α∪Γ_β表示自主机器人的所有行为集合：

观察行为α，用以观察和获取环境信息。令Γ_α＝{α₁，α₂，......}表示自主机器人的有穷观察行为集合。

效应行为β，用以改变环境状态。令Γ_β＝{β₁，β₂，......}表示自主机器人的有穷效应动作集合。

X＝{x₁,x₂,...,x_n}表示自主机器人所在环境的有穷状态集合，设X_t表示t时刻的环境状态。

定义2.观察行为。通过某个观察行为α的执行获得对于环境状态X_t的观察结果o，则称自主机器人具备通过α观察状态s的能力，记为“α(s，o)”。

定义3.效应行为。自主机器人在环境状态X_t执行某一效应行为β，使得环境状态由X_t迁移至X_t+1，记为“β(X_t，X_t+1)”。

定义4.一次伴随交互。“OneStepAdjoint(α，β，s)”表示自主机器人的“观察行为”α与“效应行为”β关于状态s的一次性伴随交互，即“观察行为”α的执行将为“效应行为”β的执行提供关于状态s的观察结果。其中，环境状态s假设对机器人不可完全观察，因此机器人只能获得对该状态的部分观察。如图6所示，机器人通过执行观察行为α获得观察结果o，机器人由此获得t’时刻关于环境状态s的信念Bel(s,t’)，表示为对状态s估计的概率分布。机器人更新其对环境状态s的估计后，规划产生当前信念状态下最优“效应行为”，以尽可能快地获得对环境状态的更全面观察。

定义5：“AdjointPolicy(α，[β₁，β₂，β₃，...]，s)”表示自主机器人的“观察行为”α和一组“效应行为”[β₁，β₂，β₃，...]关于环境状态s的形成的伴随交互关系。该伴随交互关系如图7所示，假设自主机器人关于环境状态s的初始信念为Bel(s，t₀)，由于“效应行为”只能改变环境状态，而无法感知环境状态，因此自主机器人信念状态的更新依赖于其“观察行为”的观察结果。在t₀时刻，自主机器人执行“效应行为”β₁，此时其初始信念状态为Bel(s，t₀)。当β₁执行结束后，自主机器人于t₁时刻实施“观察行为”α并获得对环境状态s的观察并形成新的信念状态Bel(s，t₁)。通过信念更新，在t₂时刻更新其信念为Bel(s，t₂)＝Bel(s，t₀)+Bel(s，t₁)，并基于当前更新后的信念决策产生下一“效应行为”β₂。同样地，机器人实施的“观察行为”α并获得信念Bel(s，t₃)后，在t₄时刻更新其信念为Bel(s，t₄)＝Bel(s，t₂)+Bel(s，t₃)。通过依次迭代对环境状态改变和观察环境状态，机器人关于环境状态

的信念得以不断更新，最终获得对环境状态的更准确估计。

示例：以图3所示场景为例，当目标物体被人为移动且不可完全观察，假设环境状态s＝location(target)，机器人的“效应行为”可抽象为机械臂对不同木块的移开行为(move aside)，具体地，图3场景中机器人的“效应行为”包括：β₁＝moveAside(pinkCube)，β₂＝moveAside(YellowCube)，β₃＝moveAside(redCube)等。同样，机器人的“观察行为”α抽象为传感器对当前场景的视觉图像识别行为，由于场景中多个木块在外观相近，因此当木块之间相互遮挡时，机器人的“观察行为”对获得的视觉图像进行识别只能对被遮挡木块的准确类别进行估计，假设“观察行为”α在时刻t的信念为Bel(s，t)＝[<block1＝pink，0.9>，<block2＝yellow，0.9>，<block3＝red，0.5>，...]，表征机器人当前对于前方所有木块类别的识别结果，由于目标木块被遮挡，机器人无法获得对其准确的识别。因此，如图4所示，当目标木块被移动和遮挡后，反应式规划产生一组“伴随行为”予以响应，即policy＝AdjointPolicy(α，[β₁，β₂，β₃，...]，s)＝<β₁，α，β₂，α，...>，直至机器人将目标物体前的遮挡物全部移开获得对其准确的类别估计。

二阶段混合行为规划方法：本发明考虑现实场景中开放环境的动态性和不可完全观察对自主机器人任务实现带来的挑战。环境的动态性要求机器人的行为规划能够对环境变化及时响应，并自适应规划产生相应行为应对环境变化对任务实现的影响。进一步地，由于环境状态通常对机器人不可完全观察，因此要求规划产生的行为能够同时有效应对观察结果的不确定性。

图8描述了二阶段混合行为规划方法，在第一阶段，基于行为树进行任务表示和分解，并动态扩展子树以主动观察环境信息；第二阶段，在扩展子树上在线规划一组伴随执行的“效应行为”和“观察行为”，基于观察结果自适应调整“效应行为”。本发明考虑采用行为树的机器人行为建模和规划框架支撑阶段一的规划过程。行为树框架是当前机器人领域广泛应用的一种反应式行为控制架构，对动态环境的环境变化具有较强的反应性，能够及时感知环境变化并作出反应。阶段二考虑当环境变化时机器人进行响应过程中，如何规划产生有效的伴随行为以应对环境变化和感知的不确定性。本发明考虑采用在线POMDP规划方法解决伴随行为的规划问题，POMDP模型能够根据观察行为获得的环境信息规划产生下一步最优的“效应行为”。通过伴随交互的“观察行为”和“效应行为”，机器人能够有效应对环境变化，保证任务成功实现。

阶段一：基于行为树的任务模型和规划算法。

开放环境下的自主机器人任务实现需要反应式的控制架构表示和支撑。本发明考虑采用行为树的机器人行为建模和规划框架支撑自主机器人的任务表示、规划和执行，使其任务执行过程能够对外部环境变化及时感知和响应。本发明首先介绍行为树框架的基本内涵，包括行为树的控制节点、执行节点以及任务执行机制等。其次，本发明扩展了行为树的基本模型，以支持环境动态变化且不可完全观察条件下的任务表示和规划。

行为树框架：行为树(BehaviorTrees)是一种支持智能体不同任务之间交互协作的架构。本质上，行为树是一种由内部控制流节点(control flownodes)和外部执行节点(execution nodes)构成的有向树。在经典的行为树结构中，控制流节点包括序列(sequence)、回退(fallback)、并行(parallel)和修饰器(decorator)节点，执行节点包括动作(action)和条件(condition)节点。其中，序列节点的控制流程为：由父节点产生执行信号从其最左侧子节点开始依次传递至下一节点。当且仅当其所有子节点状态都为“成功”时，该序列节点的状态才为“成功”。当有一个子节点返回“执行”或“失败”时，该序列节点将不会把执行信号传递到下一子节点。回退节点的控制流程为：由父节点产生执行信号由左侧子节点依次传递至后续节点，直至到达返回“成功”或“执行”的子节点，此时该回退节点的状态也为“成功”或“执行”。当且仅当所有子节点都返回“失败”时该回退节点的状态才为“失败”。当有一个子节点返回“执行”或“成功”时，该节点将不会传递执行信号至下一节点。并行节点的控制逻辑为：由并行节点将执行信号同时发送至所有子节点，如果M个子节点返回“成功”，则该并行节点的状态为“成功”。若N-M+1个子节点返回“失败”，则该并行节点为“失败”，否则返回“执行”。修饰器节点是带有一个子节点的控制流节点，可根据用户自定义的规则设定其节点状态。动作节点接收到执行信号后开始执行相应的动作行为。如果动作执行成功完成，则该动作节点的状态为“成功”，若动作正在执行或执行失败，则该节点的状态为“执行”或“失败”。条件节点接收到执行信号时，该节点会评估节点中定义的命题语句(或环境状态)。当命题值被检验为真或假时，条件节点的状态设为“成功”或“失败”。条件节点的执行假定为瞬时过程，因此该节点不会返回“执行”状态。

图9展示了场景一中机器人任务的行为树表示、规划和执行过程，该场景下机器人的任务是要将绿色的木块放置于目标区域。该行为树的任务执行顺序为，由根节点(回退节点)产生执行信号至其左侧第一个子节点——条件节点“木块在目标点”，判断当前环境下该条件是否为真，若为真则无需继续执行后续节点，根节点返回状态“成功”，表明机器人任务成功。若为假则继续将执行信号传递至下一序列节点，由序列节点再依次执行其子节点。在序列节点的子树上，执行信号从左至右依次传递至其子节点上，依次判断当前环境下“抓取木块”和“接近目标”条件是否为真，当两个条件节点状态均为“成功”，即机器人已抓取物体并靠近目标区域，则继续执行动作节点“放置木块”，从而完成任务。基于行为树架构对机器人任务进行抽象和表示具有显著的模块化和反应性特点。模块化体现在机器人任务可被抽象为多个独立子任务并自由组合，行为树的每个子树均可作为机器人系统的独立功能模块。同时，反应性体现在机器人任务的行为树模型能够对环境变化作出快速反应。行为树的执行从根节点按照指定频率发送执行信号到每一个子节点上，对所有条件节点进行持续的监控和判断，一旦某一条件节点状态返回“失败”则触发其相邻节点执行，改变环境状态使该条件节点状态为“成功”。

基于行为树的任务及行为表示：本发明考虑采用行为树框架表示开放环境下的机器人任务，以支持机器人任务对环境动态变化的反应性。同时，扩展经典行为树模型的控制流节点和执行节点以具体表示上文所提出的伴随行为策略。具体地，针对伴随行为策略中定义的“效应行为”和“观察行为”，本发明扩展了行为树原有的动作节点，显式区分了两类“效应动作”节点和“观察动作”节点，分别对应前述伴随行为模型中的“效应行为”(β)和“观察行为”(α)。同时，本发明在原有“序列”节点的基础上扩展形成了一类新的“伴随”控制节点，作为“效应行为”和“观察行为”的父节点。如图10所示，在行为树的执行过程中，当环境状态变化使得条件节点(s)失败时，机器人随即执行其右侧的子树，该子树以“伴随”节点为父节点，从左至右依次传递执行信号至“效应动作”和“观察动作”节点。在此过程中，“效应动作”节点通过执行改变环境状态，“观察动作”节点在其执行结束后获得对环境状态的观察结果。观察结果反馈至“伴随”节点更新机器人的信念并规划产生下一最优的“效应动作”节点。通过迭代规划和执行“效应动作”和“观察动作”，机器人能够改变环境以使条件节点“成功”。当条件节点成功，则“伴随”子树不会再触发执行。

基于行为树的效应行为规划算法。

算法1描述了如何采用扩展行为树表示机器人任务，以及当环境动态变化时伴随行为策略如何进行及时响应。给定一个机器人任务T，由此创建一个初始行为树

将任务T的各个独立的子任务抽象为不同的动作节点，将任务涉及的环境状态抽象为不同的条件节点，并通过不同的控制逻辑节点组织为树结构。从根节点执行该行为树，按照设定的频率产生执行信号由根节点持续传递到下层节点。当执行到某一条件节点并判断其为“失败”时，扩展该条件节点为一个“伴随”子树。具体地，将该条件节点与一个“伴随”节点作为“回退”节点的两个子节点，以“伴随”节点为父节点，规划产生和创建一个“效应动作”节点和一个“观察动作”节点。执行信号依次从“效应动作”节点传递到“观察动作”节点，“伴随”节点根据观察节点反馈的观察结果规划下一步最优动作并更新该“效应动作”节点。“伴随”节点对“效应动作”节点的在线规划过程在算法2中阐述。初始行为树

中的所有“失败”条件节点均扩展为相应的“伴随”子树，从而得到扩展后的行为树

图11展示了行为树针对环境动态变化的扩展示例。左侧的行为树抽象表达了一个机器人任务：当目标物体可见且机器人离目标物体较近，则机器人移动至目标物体处。当环境状态变化导致目标物体对机器人不完全可见，此时条件节点“Target Found”为“失败”，算法1扩展该条件节点为一个“伴随”子树，当条件节点“失败”，“回退”节点触发执行“伴随”节点和其“效应动作”和“观察动作”子节点。“伴随”节点在线规划当前状态下移动哪一个遮挡物效用值最高(“效应动作”)，并根据获得的所有物体的视觉图像(“观察动作”)规划产生下一步最优动作，并更新其“效应动作”子节点。

算法1.基于行为树的效应行为规划算法

输入：机器人任务T

输出：扩展的行为树eT

1.由任务T构建初始行为树T，T中将环境状态抽象为不同的条件节点。

2.执行行为树T，从根节点按照指定频率生成执行信号，依次向下层节点传递。

3.当条件节点s被判断“失败”，则扩展该条件节点为一个伴随策略子树。

4.在伴随策略子树上，将该条件节点和“伴随”节点(->#)作为一个“回退”节点的两个子节点。

5.“伴随”节点规划产生和创建一个“效应动作”节点(β)和“观察动作”节点(α)，两个子节点以序列逻辑执行。

6.由初始行为树T中每一“失败”条件节点扩展出一个“伴随”子树，得到扩展行为树eT。

阶段二：基于POMDP的伴随行为规划算法。

在上述行为树执行过程中，算法1扩展每一个“失败”条件节点为一个“伴随”子树，“伴随”子树在线规划产生当前环境状态下最优的“效应动作”节点。本发明考虑基于在线POMDP规划方法支持“伴随”子树的在线规划过程。

在线POMDP规划方法。

基于马氏决策论的规划研究是当前不确定性环境中规划问题研究的主流方向，其理论基础是POMDP(Partially Observable Markov Decision Process，POMDP)。POMDPs的基本框架可以表示为<S，A，T，R，Ω,O>。其中有限集合S描述了环境可能处于的状态。动作集合A描述了智能体可以完成的动作。状态转换函数T:S×A→Π(S)表示在一个状态下执行某一动作后，其后续状态的可能性分布。T(s,a,s’)意为在状态s下执行动作a后状态转换为s’的概率。R:S×A→R是回报函数。意为在状态s下执行动作a后期望得到的立即回报。Ω是智能体能得到的观察的有限集合。Ο:S×A→Π(Ω)是观察函数，Ο(s,a,o)表示Agent在执行了行动a而到达状态s后获得观察o的概率。POMDP将环境的变迁看作一个状态空间S上的Markov链，用状态空间上的信念分布表示主体对当前状态的估计，并根据主体的行动和获取的观察加以更新。在此基础上，POMDP依据效用最大化原则，根据回报函数和状态转换函数计算最优策略。本质上，一个POMDP策略π表示了从智能体的信念到行动的映射关系，考虑用信念b表示状态空间S上的概率分布，则b(s)表示在当前信念下环境的真实状态为s的概率值，同时要求0≤b(s)≤1(s∈S)。POMDP策略表示为π：b→a∈A，即指定在每一个信念b下选择动作a，而一个最优POMDP策略则要求在每一个信念状态下选择最优的动作a执行。

基于扩展行为树的伴随行为规划算法。

“伴随”节点作为“效应动作”和“观察动作”的父节点，一方面按照“序列”逻辑传递执行信号，一方面作为规划器在线规划当前环境状态下最优“效应动作”，以高效应对环境动态变化。本发明考虑基于在线POMDP规划方法实现“伴随”节点的在线规划过程。算法2展示了“伴随”节点在扩展“伴随”子树上的在线规划算法。首先，对于每一“失败”的条件节点，该节点所对应的环境状态

在环境变化后对机器人不完全可观察，因此考虑以状态

所有可能取值的概率分布作为机器人的初始信念状态

以初始信念状态

为根节点向后看有限步数D的可达的动作观察序列，即后续可达的信念状态，并依次构造一个深度为D的与或树。与或树上信念状态节点用或节点表示，每一层信念状态节点之间的动作用与节点表示，通过贝尔曼迭代将叶节点上的奖励值逐次向上传递直至根节点。“伴随”节点基于当前信念状态根节点

选择当前最佳动作，并创建相应的“效应动作”子节点。当“效应动作”执行结束后触发执行相邻的“观察动作”子节点，“伴随”节点再根据获得的观察结果o更新当前的信念状态和与或树。重复上述过程直至由于环境状态变化而“失败”的条件节点其状态为“成功”。

算法2.基于扩展行为树的伴随行为规划算法

输入：扩展行为树

输出：“效应动作”和“观察动作”子节点

1.对每一“失败”条件节点，将其表示的环境状态s初始为信念状态b_s。

2.建立一个信念状态树ρ，以b_s为其根节点。

3.当该条件节点“失败”时，“伴随”节点扩展信念状态树ρ至深度D，计算在每一信念节点下执行不同效应动作的累计奖励值，并更新至根节点b_s。

4.“伴随”节点基于当前信念状态

选择使其奖励值最大的最优“效应动作”a^*。

5.将规划产生的最优动作a^*创建为一个“效应动作”子节点并执行。

6.如果该节点执行“成功”，则触发执行相邻“观察动作”子节点。

7.“观察”子节点执行获得环境观察o，“伴随”节点基于前一时刻信念状态b_s，执行的效应动作a^*和观察结果o更新当前信念状态b_s。

8“伴随”节点基于更新后的b_s继续规划产生下一最优“效应动作”并创建为新的“效应动作”子节点。

算法时间复杂度分析。

本发明提出二阶段混合行为规划方法(T₀)的时间复杂度由上述两阶段规划算法组成，即T₀(n)＝T₁(n)+T₂(n)。第一阶段规划由行为树的反应式规划算法实现，由Colledanchise M等人证明可知行为树规划算法其规划效率由预定义常数值时间阈值(τ)决定，即T₁(n)＝O(1)。第二阶段由在线POMDP规划算法实现。算法2给出了其在线规划过程，其算法时间复杂度由POMDP模型中机器人的动作集|A|、观察集|Z|、状态集规模|S|，以及每次在线扩展信念状态树T的最大深度D共同决定。由Ross S等人论证得到，通用的在线POMDP规划算法其时间复杂度为T₂(n)＝O((|A||Z|)^D|S|²)，当机器人任务复杂导致动作集、状态集以及观察集规模增大，在线POMDP算法的计算时间开销将呈指数增长，无法适应实际环境的机器人任务规划。本发明在实现阶段二的伴随行为规划时选择了当前最高效的在线POMDP规划算法DESPOT实现，DESPOT在通用在线规划基础上引入了采样和启发式搜索思想，通过对观察集和状态集以K规模采样，将原有指数级复杂度O((|A||Z|)^D|S|²)降低为O(|A|^DKD)，极大提高了算法的规划效率。综上，二阶段混合行为规划方法的时间复杂度为T₀(n)＝O(1)+O(|A|^DKD)，算法能够在有限时间内求解一般规模的机器人任务规划问题。

图12为本发明所提供的自主机器人的二阶段自适应行为规划方法流程图，如图12所示，一种自主机器人的二阶段自适应行为规划方法，包括：

步骤1201：获取机器人任务以及当前环境状态；所述机器人任务包括移动目标物体至目标区域任务以及抓捕目标物体任务；所述当前环境状态包括目标物体被遮挡以及目标物体未被遮挡。

步骤1202：根据所述机器人任务以及所述当前环境状态建立伴随行为模型；所述伴随行为模型包括观察行为、效应行为以及伴随行为；所述观察行为用于实时观察当前环境状态；所述效应行为用于根据所述当前环境状态，改变当前环境状态；所述伴随行为用于当所述目标物体被遮挡时，确定最优效应行为，并基于根据所述观察行为规划下一步最优效应行为，自适应更新所述效应行为。

所述步骤1202具体包括：根据所述机器人任务构建初始行为树；所述初始行为树将任一所述当前环境状态作为条件节点；当所述条件节点表示为目标物体被遮挡时，扩展所述条件节点为一个伴随策略子树；在所述伴随策略子树上，将所述条件节点以及伴随节点作为一个回退节点的两个子节点；根据所述伴随节点创建效应行为子节点以及观察行为子节点；所述伴随节点表征所述伴随行为；所述效应行为子节点表征所述效应行为，所述观察行为子节点表征所述观察行为；所述回退节点用于触发所述伴随节点以及所述伴随节点创建的效应行为子节点和观察行为子节点；遍历所有的所述条件节点，生成多个伴随策略子树；根据多个所述伴随策略子树构建伴随行为模型。

所述根据所述伴随节点创建效应行为子节点以及观察行为子节点，具体包括：对于任一所述条件节点表示为目标物体被遮挡时，将所述条件节点对应的当前环境状态初始为信念状态；所述信念状态为目标物体被遮挡的当前环境状态用状态空间上的信念分布表示；根据所述信念状态构建信念状态树，所述初始的信念状态为根节点；当所述条件节点表示为目标物体被遮挡时，所述伴随节点扩展所述信念状态树至设定深度，计算每一信念节点下执行不同效应行为的累计奖励值，并将所述累计奖励值更新至所述根节点；所述信念节点为所述信念状态树上的任一节点；基于当前信念状态，利用所述伴随节点选取累计奖励值最大的效应行为作为最优效应行为；将所述最优效应行为创建为一个效应行为子节点，并执行所述最优效应行为；当所述最优效应行为成功执行，触发执行与所述效应行为子节点相邻的观察行为子节点。

所述当所述最优效应行为成功执行，触发执行与所述效应行为子节点相邻的观察行为子节点，之后还包括：获取所述观察行为子节点观察的当前环境状态以及前一时刻的信念状态；利用所述伴随节点，根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态。

所述利用所述伴随节点，根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态，之后还包括：利用所述伴随节点，根据更新后的当前信念状态规划下一最优效应动作，并创建新的效应行为子节点以及新的观察行为子节点。

步骤1203：根据所述伴随行为模型规划自主机器人的行为路径，完成所述机器人任务。

为验证本发明所提出的伴随行为模型和混合行为规划方法在开放环境下任务实现的高效性和行为执行的反应性，本发明设计了两类不同的室内环境下机器人任务场景，包括机器人搜寻静态目标物体任务(任务一)和室内机器人追逐动态目标物体任务(任务二)，两类任务场景均体现了环境动态变化对机器人任务实现的挑战。其中，“物品搜索任务”(图13(a))描述了机器人在移动至目标物体过程中，目标物体被人为移动至其他物体后方使其被部分遮挡，目标物体位置的突然变化(环境状态变化)导致机器人无法准确定位目标物体的位置。“室内导航”(图13(b))描述了机器人在室内环境中追逐移动的目标物体的过程。在机器人移动至目标物体过程中，目标物体会随机移动，由于室内环境中存在其他静态障碍物，机器人无法获取目标物体移动后的准确位置。任务一和任务二虽然分属不同的任务领域(移动抓取和移动导航)，但是两类任务中环境变化的复杂性均体现在目标物体移动后的位置对于机器人不可完全观察，机器人需要规划产生一组包含“效应行为”和“观察行为”的伴随行为应对此环境事件。

案例设计与开发：

为便于理解本发明提出的模型和规划方法，本发明展示了采用伴随行为规划算法实现“室内导航”任务的技术细节。如图14所示，案例实现过程包括任务抽象、行为规划及执行三阶段。

任务抽象：

针对给定的机器人任务，开发人员针对任务描述和机器人的行为能力进行子任务分解和行为抽象。如图15所示，机器人追逐移动目标时，需要考虑两个子任务，即如何确保机器人移动过程中硬件安全和如何成功捕获移动目标。同时，移动机器人具有自由移动能力和激光传感能力。基于此分析，开发人员基于行为树的四类控制流节点(序列、回退、并行等)以及动作和条件节点构造出该任务的行为树表示。图15中左侧的序列子树和回退子树分别表示了上述两个子任务的实现逻辑。

行为规划：

基于任务的行为树表示，开发人员可以在行为树的内部控制节点中调用POMDP规划器进行伴随行为规划。伴随行为规划算法产生一组基于伴随行为的行为策略，包括机器人的“效应行为”和“观察行为”，“效应行为”用于主动改变环境，服务于机器人任务需求，“效应行为”用于观察环境当前状态，为下一步规划提供信息。通过迭代和伴随执行的任务和观察行为，机器人最终能够应对复杂环境变化并最终达成任务。图15展示了基于行为树架构表示的伴随行为规划算法，每一回退节点中针对某一环境状态变化，算法规划产生一个由伴随行为构成的“伴随”子树，子树包含一个“伴随”(sequence-iterative)节点和其“效应动作”、“观察动作”子节点。当环境状态变化(条件节点“失败”)，“伴随”节点随即在线规划产生一组任务和观察行为并更新其子节点。图15展示了基于行为树的二阶段混合行为规划过程。

行为执行：

基于行为树的行为规划算法根据环境状态变化产生任务和观察行为，并作为行为树的动作节点运行。行为树中的执行节点中定义了机器人所需完成的行为，其作为一种高层的行为描述无法直接运行，行为执行需借助机器人底层系统及软件中间件进行。本发明采用通用机器人操作系统ROS(Robot Operating System)作为行为执行的中间件。ROS提供对不同机器人硬件平台的通用程序接口，可供上层不同层次机器人软件调用。借助ROS中间件，行为树的节点组件能够将高层的行为表示转换为机器人硬件系统的执行命令，从而使机器人系统完成特定操作。行为执行采用ROS系统的actionlib分布式服务调用机制(图16)，机器人系统运行action server向上提供若干感知和效应执行服务，行为树中条件和动作节点作为action client根据节点中的行为描述调用下层不同服务。采用ROS系统的分布式服务调用机制支撑行为树的行为执行，能够支持机器人任务的分布式规划和执行，有助于提高自主机器人软件的健壮性。

物品抓取场景下的实验验证：

本发明选取经典行为规划算法作为对比算法，分析经典方法和本发明提出的混合行为规划方法所产生的行为策略在应对环境复杂状态变化的高效性。经典行为规划算法考虑在环境状态变化能够被反应式规则-动作所应对，即环境的状态变化触发预设条件，算法根据预设规则产生相应的离线行为予以响应。此类算法通常规划产生离线行为序列，且假设其执行即能消除环境变化对机器人任务的影响。如图17所示，经典行为规划算法采用行为树架构表示，每一回退节点包含一个条件节点和一个动作节点，表示一条反应式规则(事件-动作)，其中反应式动作均实现为单一行为树动作节点。图18(a)和图18(b)分别展示了采用经典行为规划算法实现任务一和任务二的行为树表示。本发明提出伴随行为规划算法考虑更为复杂的环境状态变化情况，此类状态变化使得预定义的反应式规则-动作策略无法有效和高效地应对。

针对任务一，本发明考虑了目标物体可能被移动和遮挡的三种场景，不同场景体现了目标物体被遮挡程度和被搜寻的难度不同，目标物体被遮挡的面积越大、前方遮挡物体越多，机器人搜寻目标物体的难度越大。图19展示了该任务下的三种可能场景，其中场景(a)和(b)中目标物体被多个物体遮挡，搜寻所需时间较多，场景(c)中目标物体遮挡较少耗时较少。在每一场景下采用两种行为规划方法重复实验10次并采集任务完成所需时间。图20展示了在三种场景下机器人执行伴随行为规划(adjoint plan)和离线行为策略(offline plan)完成任务所需的平均时间开销。图20(a)中伴随行为策略完成任务所需平均时间为134.6秒，而离线行为策略需155.8秒，相比离线策略减少13.6％时间开销。图20(b)中两种策略任务所需平均时间分别为135.6秒和177.6秒，同比减少23.6％时间开销。图20(c)中伴随行为策略完成任务平均耗时82秒，而离线行为策略平均耗时为88.2秒，相比节省7.02％时间开销。显然，基于伴随行为的行为策略能够基于当前观察到的环境信息规划产生当前奖励值最高的行为(移开遮挡物)，因此其时间开销小。而离线行为策略采用固定搜索策略，即依次移开当前离机器人最近的遮挡物，而不是考虑目标物体最有可能存在的区域去搜寻，采用这种策略由于搜索带有一定盲目性和不考虑环境的实时观察信息，其时间开销相比较大。

室内导航场景下的实验验证：

任务二考虑了目标物体在机器人追逐过程中随机移动的场景。基于伴随行为的行为策略针对目标物体的移动，基于机器人当前信念状态规划产生当前离目标物体距离最近方向移动一步，再通过激光雷达传感器获取环境中各个方向的距离信息，基于此信息更新机器人对目标物体的信念状态，再规划产生机器人下一步最近的移动方向。离线行为策略只支持当前规划时刻下机器人导航至目标位置，当机器人移动时目标物体也按照指定速度移动，当目标物体移动速度越快(即单位时间内移动的栅格数)，机器人离线行为策略的有效性越低，机器人在每次监测到目标物体移动后规划当前状态下的一组离线行为，机器人追赶目标物体所需的规划次数和移动步数相对越多。相反，伴随行为策略中基于观察行为获得的实时观察结果，每一次规划产生当前行为使机器人朝向最接近目标物体的方向前进一步，然后再次观察并继续规划下一步行为。机器人对环境状态的观察增强了行为规划的目标导向，其追赶目标物体所需的移动步数相对较少。

针对任务二，本发明考虑目标物体移动频率相比机器人移动频率的倍数为5倍(低)、10倍(中)、15倍(高)三种情景下，两类行为规划方法所产生的行为移动距离差异。目标物体移动频率越高，机器人捕获目标物体所需移动距离相对越多。实验中针对每种场景采用两种行为规划方法重复实验10次，以消除由于目标移动方向的随机性影响。图21对比了三种目标移动频率下两种行为规划方法下机器人平均移动步数，其中，图21(a)为目标移动频率5倍下的两种行为规划方法下机器人平均移动步数示意图，图21(b)为目标移动频率10倍下的两种行为规划方法下机器人平均移动步数示意图，图21(c)为目标移动频率15倍下的两种行为规划方法下机器人平均移动步数示意图。当目标移动频率较低时，伴随行为策略和离线行为策略下机器人平均移动距离分别为11.2米和12.7米，相比离线策略减少11.8％移动距离。当目标移动频率提高时，两种行为策略下机器人追逐目标所需移动开销均增加。在目标移动频率10倍情况下，伴随行为策略下机器人平均移动距离为15米，而离线行为策略为20.8米。在目标移动频率15倍情况下，两者平均移动距离分别为16米和22.6米。在中、高速场景下，伴随行为策略相比离线行为策略分别减少27.8％和29.2％移动距离。实验结果表明，在三种场景下，伴随行为策略的机器人平均移动距离均低于离线行为策略，表明伴随行为策略在任务实现上效率更高。同时，当目标移动频率提高，伴随行为策略相比离线策略所减少的移动距离幅度更大，任务实现效率优势更加显著。

针对任务二，考虑动态环境下，图13(b)中的静态障碍物木块可以移动自身位置，在机器人在移动追逐目标物体过程中，当障碍物突然移动至机器人的前进方向上，机器人需要及时发现障碍物并且进行反应式规划产生移动策略以避开障碍物，同时需要进行审慎式规划以顺利找到目标物体。本发明所提出的二阶段混合行为规划方法一方面能够有效避开移动过程中的障碍物，另一方面能够持续进行在线规划寻找最优移动方向以成功抓捕目标。为验证动态环境下伴随行为策略在任务实现上高效性和应对环境变化上的反应性，本发明选取机器人室内导航领域应用广泛的一种混合式行为规划方法作为对比。该方法一方面根据目标物体位置自主规划一条最优移动路径，一方面在机器人沿路径移动时进行局部路径规划以避开临时障碍物，能够有效达成导航目标且对环境变化具有较强的反应性。图22(a)对比了在动态环境(目标物体移动频率5倍)中当出现一次障碍物阻挡情况下两种行为规划算法下机器人的移动距离，其中伴随行为策略(adjoint plan)所需的平均移动距离为14.3米，而混合策略(hybrid plan)由于每次针对当前目标物体的位置规划产生一条完全路径导致其路径存在冗余，因此其平均移动距离为20.2米高于伴随行为策略。在此场景下，伴随行为策略相比混合行为策略减少29.2％移动距离。图22(b)对比了两种行为策略针对动态障碍物的一次反应时间。一次反应时间指机器人从检测到其安全距离(0.5米)范围内出现障碍物到采取反应式策略完全避开障碍物这一过程中所用的时间。在10次重复实验过程中，伴随行为策略的平均反应时间为4.76秒，与混合策略的平均反应时间近似相等。由此表明，伴随行为策略针对环境变化具有较强的反应性。

自主机器人是一类运行在开放环境下能够自主决策其行为的信息物理系统，其软件系统是一类典型的领域软件。自主机器人软件的核心职责在于根据任务和环境状态自主决策和驱动机器人行为，以健壮完成任务目标。对于开放环境下的自主机器人软件，如何根据环境动态变化和观察结果进行自适应行为规划以产生有效的伴随行为，成为本发明的研究问题。本发明的主要工作包括：首先，显式定义“观察行为”与“效应行为”之间的交互关系，提出了一组创新的自主机器人伴随行为模型。其次，提出一种二阶段混合行为规划方法，将自主机器人的二阶段自适应行为规划看作两阶段规划任务。第一阶段采用行为树的机器人行为建模和规划框架支撑阶段一的规划过程。第二阶段采用在线POMDP规划方法解决伴随行为的规划问题，POMDP模型能够根据观察行为获得的环境信息决策产生下一步最优的“效应行为”。通过伴随交互的“观察行为”和“效应行为”，机器人能够有效应对环境变化，保证任务成功实现。最后，本发明选取家庭服务场景下两类典型机器人任务开展了仿真实验，与经典行为树规划算法和混合式规划算法对比，本发明算法能够以较少的时间开销和执行代价完成任务，同时能够快速应对环境变化。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本发明中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自主机器人的二阶段自适应行为规划方法，其特征在于，包括：

2.根据权利要求1所述的自主机器人的二阶段自适应行为规划方法，其特征在于，所述根据所述机器人任务以及所述当前环境状态建立伴随行为模型，具体包括：

遍历所有的所述条件节点，生成多个伴随策略子树；

根据多个所述伴随策略子树构建伴随行为模型。

3.根据权利要求2所述的自主机器人的二阶段自适应行为规划方法，其特征在于，所述根据所述伴随节点创建效应行为子节点以及观察行为子节点，具体包括：

4.根据权利要求3所述的自主机器人的二阶段自适应行为规划方法，其特征在于，所述当所述最优效应行为成功执行，触发执行与所述效应行为子节点相邻的观察行为子节点，之后还包括：

5.根据权利要求4所述的自主机器人的二阶段自适应行为规划方法，其特征在于，所述利用所述伴随节点，根据所述前一时刻的信念状态、所述最优效应行为以及所述观察行为子节点观察的当前环境状态更新当前信念状态，之后还包括：

6.一种自主机器人的二阶段自适应行为规划系统，其特征在于，包括：

7.根据权利要求6所述的自主机器人的二阶段自适应行为规划系统，其特征在于，所述伴随行为模型建立模块，具体包括：

8.根据权利要求7所述的自主机器人的二阶段自适应行为规划系统，其特征在于，所述效应行为子节点以及观察行为子节点创建单元，具体包括：

9.根据权利要求8所述的自主机器人的二阶段自适应行为规划系统，其特征在于，还包括：

10.根据权利要求9所述的自主机器人的二阶段自适应行为规划系统，其特征在于，还包括：