CN111240318A

CN111240318A - 一种机器人的人员发现算法

Info

Publication number: CN111240318A
Application number: CN201911346845.5A
Authority: CN
Inventors: 秦丽; 张赐
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-06-05

Abstract

本发明公开了一种机器人的人员发现算法，此算法基于云模型与部分可观察蒙特卡洛规划，包括硬件部分和软件部分，所述硬件部分包括移动底盘、传感器、激光雷达和上位计算机，所述软件部分包括基于部分可观察蒙特卡洛规划(POMCP)的人员发现算法以及基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法，本发明公开了一种员发现算法，可用于室内机器人在被追踪人员丢失时，重新发现被追踪人员，本发明算法将云模型原理溶入到部分可观察蒙特卡罗规划(POMCP)人员发现算法中来选择下一个动作，控制机器人移动，使用方便快捷。

Description

一种机器人的人员发现算法

技术领域

本发明涉及机器人技术领域，具体是指一种机器人的人员发现算法。

背景技术

机器人产业在近些年发展得非常迅速，尤其是社会服务机器人已成为工业机器人、物流机器人之后广受关注的机器人发展领域。家庭跟随机器人可用于独自在家的特殊人群，如残疾人、儿童或老年人的跟踪、摔倒或危险动作检测等，为家人提供必要的通知服务。但在人员跟踪过程中，由于障碍物的阻挡以及人员移动速度、方向的突然变化，会造成被追踪人员的丢失，这时通常的做法是机器人原地等待到被跟踪人员再次出现，这样可能会造成被跟踪人员出现危险时，不能被及时检测到。因此在丢失被跟踪人员后，如何重新找到被跟踪人员是一个待解决的问题。

发明内容

为解决上述技术问题，本发明提供的技术方案为：一种机器人的人员发现算法，此算法基于云模型与部分可观察蒙特卡洛规划，包括硬件部分和软件部分，所述硬件部分包括移动底盘、传感器、激光雷达和上位计算机，所述软件部分包括基于部分可观察蒙特卡洛规划(POMCP)的人员发现算法以及基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法。

作为改进，所述基于POMDP的人员发现算法具体包括以下内容：

(1)建立部分可观察的马尔可夫决策(POMDP)模型

(1.1)定义状态s：POMDP模型包含一组状态s，在人员发现算法中，状态s被定义为机器人和人的位置：(s_robot，s_person)；

(1.2)定义机器人动作a：机器人可以执行有限集合a中的动作，即机器人可以在八个方向之一上移动，或停留原地；当机器人在寻找时，机器人观察值o等于状态s，但是当人的位置(s_person)不可见时， s_person＝hidden；

(1.3)机器人动作a从一种状态s到另一种状态s'的概率由T＝P(s'|s，a)定义，而观察概率由Z＝P (o|s'，a)定义；

(1.4)奖励函数R是用于指导学习过程，表明状态s下，那些动作是最佳的，奖励函数定义为-d，d 是人与机器人之间的最短路径距离；

(1.5)POMDP模型存储人处于每种可能状态的概率，定义为信念b；初始值信念b0定义为人员在所有位置上均匀分布的概率，使用观察和概率函数更新信念；通过计算值函数来决定对每个信念状态执行的最佳动作：

其中R(b,a)是对信念状态b和动作a的奖励，γ是折扣因子，V(b)＝max_a∈AQ(b,a)，τ(b,a,o)是下一个信念状态b’；

(2)建立决策树：POMCP是POMDP仿真器生成具有两种类型节点的策略树，包括代表信念状态的信念节点，以及通过执行动作而产生的动作子节点；

(3)建立基于POMCP的决策算法

决策树中每个节点(node)都记录平均期望回报V，以及模拟过程通过该节点的次数N，在执行第一次学习迭代之前，必须为根的信念设置初始信念Root.B，POMDP仿真器的函数I(O₀)用于生成初始信念状态n_belief，n_belief代表状态数，在每一步行动之前，将通过执行n_sim仿真来更新策略树，n_sim代表模拟次数，从状态s到Root.B随机采样：

(3.1)根据V的最高值和经验常数c加权的探索因子选择动作节点上的一个动作，探索因子的作用使得学习过程可能出现新的行动：

(3.2)POMDP仿真器G(s,a)根据当前的状态s和选择的动作a，返回新状态s’，观察o和奖励函数 (r_delayed)，通过分别为a和o选择的边来遍历树；如果此节点尚不存在，则s′并非最终状态；

(3.3)如果状态s′不是最终状态，则通过使用子节点计算延迟奖励(r_delayed)，或通过执行RollOut 函数来计算延迟奖励(r_delayed)，RollOut函数策略π_rollout需要使用到运行结束或达到最大深度为止；

(3.4)计算当前信念和动作节点的奖励r_total，其中r_delayed用折扣因子γ加权，以减少未来奖励可能带来的影响，并且更新节点的平均值和新计数；

(3.5)机器人在学习了策略树之后，可以从树中选择要执行的动作，则机器人动作a为

argmaxanode[a].V

执行动作a后，得到新的观察值o。

作为改进，所述基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法具体包括以下内容：

(Ⅰ)定义云模型与云滴

设U是一个用精确数值表示的定量论域，C是U上的一个定性概念，若定量值x∈U，且x是定性概念 C的一次随机实现，x对C的确定度μ(x)∈[0,1]是有稳定倾向的随机数，则x在论域U上的分布称为云，每一个x称为一个云滴；

(Ⅱ)定义云模型的数字特征

云模型的数字特征包括Ex、En、He，Ex为云滴在论域U中的数学期望；En为概念的不确定性度量； He为是熵的不确定性度量，即熵的熵；

(Ⅲ)建立基于云模型的POMCP决策算法

(Ⅲ-1)根据基于POMCP的决策算法，将node[a].V定义为Ex，将

定义为En，将c定义为 He；

(Ⅲ-2)生成以En为期望值、He为均方差的正态随机数En’；

(Ⅲ-3)生成以Ex为期望值、En’为均方差的正态随机数x；

(Ⅲ-4)计算

采用以上结构后，本发明具有如下优点：本发明公开了一种员发现算法，可用于室内机器人在被追踪人员丢失时，重新发现被追踪人员，本发明算法将云模型原理溶入到部分可观察蒙特卡罗规划(POMCP) 人员发现算法中来选择下一个动作，控制机器人移动，使用方便快捷。

附图说明

图1是本发明一种机器人的人员发现算法的系统结构示意图。

图2是本发明一种机器人的人员发现算法中策略数的示意图。

具体实施方式

结合附图，一种机器人的人员发现算法，此算法基于云模型与部分可观察蒙特卡洛规划，其特征在于，包括硬件部分和软件部分，所述硬件部分包括移动底盘(YujinRobot的Kobuki)、传感器(Microsoft Kinect1.0)、激光雷达(rplidar A3)和上位计算机(pc)，所述软件部分包括基于部分可观察蒙特卡洛规划 (POMCP)的人员发现算法以及基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法，其中移动底盘用于跟随与运动控制，传感器与激光雷达用于距离检测与避障，上位计算机用于实现发现算法。

本发明发现算法设计是将云模型原理溶入到部分可观察蒙特卡罗规划(POMCP)人员发现算法中来选择下一个动作，控制机器人移动。部分可观察的蒙特卡洛规划是一种用于不确定情况下进行规划的强化学习算法，部分可观察的蒙特卡洛规划基于并利用了部分可观察的马尔可夫决策过程(POMDP)。

作为本实施例较佳实施方案的是，所述基于POMDP的人员发现算法具体包括以下内容：

(1)建立部分可观察的马尔可夫决策(POMDP)模型

(1.1)定义状态s：POMDP模型包含一组状态s，在人员发现算法中，状态s被定义为机器人和人的位置：(s_robot,s_person)；

(1.5)POMDP存储人处于每种可能状态的概率，定义为信念b；初始值信念b0定义为人员在所有位置上均匀分布的概率，使用观察和概率函数更新信念；通过计算值函数来决定对信念状态执行的最佳动作：

由于计算复杂性和内存需求指数增长，限制了POMDP模型的使用，而蒙特卡洛值迭代是在随机的样本集上而不是在所有状态下计算期望的奖励，所以POMCP是通过蒙特卡洛模拟来生成策略；POMCP的最大优势在于它通过模拟POMDP来解决历史的诅咒和维度的诅咒，而不需要将整个模型都完全定义出来，因此，POMCP的复杂度取决于POMDP仿真器，POMCP生成具有两种类型节点的策略树，包括代表信念状态的信念节点，以及通过执行动作而产生的动作子节点；根是信念节点，信念在POMCP中由状态列表表示，而不是由所有可能的离散状态的概率表示；当某种状态可能性大时，该状态将在此列表中重复多次；

(3)建立基于POMCP的决策算法

决策树中每个节点(node)都记录平均期望回报V，以及模拟过程通过该节点的次数N，在执行第一次学习迭代之前，必须为根的信念设置初始信念Root.B，POMDP仿真器的函数I(O0)用于生成初始信念状态n_belief，n_belief代表状态数，在每一步行动之前，将通过执行n_sim仿真来更新策略树，n_sim代表模拟次数，从状态s到Root.B随机采样：

argmax_anode[a].V

执行动作a后，得到新的观察值o。

另外基于POMDP的人员发现算法具体实现过程如下程序算法所示：

其中，(1)上述算法中的γ为折扣系数；c是经验常数；e_count是扩展计数；d_max最大树深度；

(2)POMDP仿真器G：设已知栅格地图中的每个栅格单元都是障碍物或自由栅格，状态(s_robot,s_person) 和观测值(o_robot,o_person)是机器人和人的位置，人被的观测状态o_person可以是hidden；机器人一共有九个动作：八个方向的action与不动；

初始状态通过函数s＝I(o₀)生成，其中o₀是初始观察值，已生成的状态与观察结果相同，但是当人的观察值为hidden时，就会从o_robot所看到的位置中随机选择s_person。

根据当前状态和动作，通过(s'，o，r)＝G(s，a)生成新状态，新状态变量s'_robot取决于机器人的动作和位置s_robot，人的运动模型可以是随机或者启发式，观察o等于新状态s'，但是根据光线跟踪算法，当人不可见时，o_person＝hidden。奖励函数是启发式的：r＝-d_rp，其中d_rp是机器人与人之间的最短路径距离。

作为本实施例较佳实施方案的是，所述基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法具体包括以下内容：

上叙算法中确定机器人下一步动作的函数公式是

这个公式依据的是UCB1策略，当经验常数c＝0时公式中只有第一项，那是纯利用(exploitation)的，也就是一个纯贪婪策略，它很容易陷入局部极值，而第二项表示探索(exploration)的程度，体现了搜索的不确定性，标量常数c确定了利用与探索的相对比率；一个适当c能使利用与探索达到平衡，但c的选择不是固定的，应该有一定的变化来适应环境与噪声的需求。所以下面通过不确定性原理来重新定义动作选择公式。