CN110989602A

CN110989602A - 医学病理检验实验室内自主引导车路径规划方法及系统

Info

Publication number: CN110989602A
Application number: CN201911273516.2A
Authority: CN
Inventors: 邱书波; 曹启贺; 李庆华; 冯超; 韩丰键
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-10
Anticipated expiration: 2039-12-12
Also published as: CN110989602B

Abstract

本发明公开了一种医学病理检验实验室内自主引导车路径规划方法及系统，包括：对自主引导车运行范围内的障碍物和行人信息进行采样；根据采样数据获得自主引导车当前的状态信息以及自主引导车运行范围内当前环境状态信息；采用POMDP方法对自主引导车以及自主引导车运行范围的环境进行建模；将上述信息以及历史状态信息输入构建的模型，输出自主引导车的路径规划。本发明利用自主引导车搭载机械臂进行样品的传送，可以提高工作效率。自主引导车在进行路径规划的过程中充分考虑地图的不确定性，可以提高路径规划的精确度。

Description

医学病理检验实验室内自主引导车路径规划方法及系统

技术领域

本发明属于路径规划技术领域，尤其涉及一种医学病理检验实验室内自主引导车路径规划方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

目前，对于路径规划的研究国内外提出了很多成熟的规划算法，例如A*，APF，RRT等，以上各个算法都能对路径规划的研究提供一定程度效果的规划方案。对于在路径规划过程中存在的各种障碍物问题也能得到比较好的解决，然而很多情况下都没有考虑实际问题中的不确定性因素，不确定性主要来源于三个方面，分别为：运动的不确定性、传感器的不确定性和地图的不确定性。而这三方面的不确定性对于路径规划的研究起着至关重要的作用。

在现阶段路径规划的各种实际运用中，比如移动机器人、无人驾驶汽车和自主引导车等都会存在不确定性的问题，也都会包括这三方面的不确定来源。不确定性的存在使路径规划的处理过程中会出现很多问题，例如小的方面可能会导致路径规划的时间长度增加，算法的计算量增大，大的方面可能会导致在路径规划的实际运动中撞到障碍物，从而导致路径规划的失败。

无人化医学病理检验实验室是一种高自动化程度的工作平台，实验室内的正常工作依靠机械臂和相应的工作台配合完成，并不需要人的直接参与。其中一个关键的步骤为自主引导车在两个工作台之间运送样品，在自主引导车运送样品的过程中由于地图的不确定性导致了自主引导车路径规划的性能下降，效率降低。

发明内容

为克服上述现有技术的不足，针对无人化病理检验实验室固有的环境特点，和地图不确定性问题，本发明提出了一种医学病理检验实验室内自主引导车路径规划方法及系统，利用自主引导车搭载机械臂进行样品的传送，可以提高工作效率。

为实现上述目的，在一些实施方式中，采用如下技术方案：

医学病理检验实验室内自主引导车路径规划方法，包括：

对自主引导车运行范围内的障碍物和行人信息进行采样；

根据采样数据获得自主引导车当前的状态信息以及自主引导车运行范围内当前环境状态信息；

采用POMDP方法对自主引导车以及自主引导车运行范围的环境进行建模；

将上述信息以及历史状态信息输入构建的模型，输出自主引导车的路径规划。

其中，对自主引导车运行范围内的障碍物和行人信息进行采样，具体为：

将采样对象分为：一般性无障碍物空间采样、一般性障碍物采样和紧急障碍物事件采样；

对于一般性无障碍物空间采样和一般性障碍物采样，使用自然频率均值采样的方式进行采样，并在具有静止障碍物的地方增加采样点；

对于紧急障碍物事件采样，使用重要性采样的方式进行采样。

在另一些实施方式中，采用如下技术方案：

医学病理检验实验室内自主引导车路径规划系统，包括：

用于对自主引导车运行范围内的障碍物和行人信息进行采样的装置；

用于根据采样数据获得自主引导车当前的状态信息以及自主引导车运行范围内当前环境状态信息的装置；

用于采用POMDP方法对自主引导车以及自主引导车运行范围的环境进行建模的装置；

用于将上述信息以及历史状态信息输入构建的模型，输出自主引导车的路径规划的装置。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的医学病理检验实验室内自主引导车路径规划方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的医学病理检验实验室内自主引导车路径规划方法。

本发明以下有益效果：

(1)本发明利用自主引导车搭载机械臂进行样品的传送，可以提高工作效率。自主引导车在进行路径规划的过程中充分考虑地图的不确定性，可以提高路径规划的精确度。

(2)本发明自主引导车在进行路径规划时的采样过程中利用自然频率均值采样和重要性采样方法相结合的方式，针对发生频率少但是影响大的事件作出很好的处理。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中POMDP模型的原理示意图；

图2为本发明实施例一中根据不同的地图环境情形采用不同的采样方式进行路径规划流程图；

图3为本发明实施例一中一个完整的信念树结构图；

图4为本发明实施例一中部分可观测的信念树结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

在一个或多个实施方式中，公开了一种医学病理检验实验室内自主引导车路径规划方法，本实例针对地图不确定性的采样问题作出改进，本实例中的环境为无人化医学病理检验实验室，实例对象为实验室内自主引导车在两个工作台之间运送样本。

路径规划方法具体包括以下过程：

(1)对自主引导车运行范围内的障碍物和行人信息进行采样；

进行采样时，首先将需要采样的对象分为三类，分别为：一般性无障碍物空间采样，一般性障碍物采样和紧急障碍物事件采样。

本实例中的一般性物障碍物空间是指无障碍物的的空旷地面；一般性障碍物是指具有静止障碍物的空间；紧急障碍物事件是指实验室中桌面突然掉落的物品等紧急情况，其中也包括实验室内突然进入的人缓慢接近自主引导车。

参照图2，对于前两个类别的采样方式，我们使用一般自然频率均值采样的方式进行采样并在具有静止障碍物的地方适当增加采样点，特别针对紧急障碍物事件采样的过程，我们使用重要性采样的的方式。以下内容主要是对紧急障碍物事件的采样问题进行改进。

本实例中对于期望值我们用如下公式进行计算，其中s是关于p的分布。

若f函数不可以进行积分时，我们用如下公式进行采样计算

其中i＝1，2，3……N。

其中，μ＝E_p(f(s))表示我们想要计算的期望值，因为系统的未来状态是具有不确定性的，所以用表达式p(s)并且是用概率的形式来表示，f(s)表示需要估计的函数，本实例中表示系统在状态s条件下得到回报函数；总体即表示估计一个函数f(s)，在遵循某个概率分布p(s)条件下的期望值；

i＝1，2，3……n表示将状态离散为n个状态，s_i表示第i个状态，s_i～p表示状态用概率表征。

(2)根据采样数据获得自主引导车当前的状态信息以及自主引导车运行范围内当前环境状态信息；

其中，自主引导车当前的状态信息包括：自主引导车当前的位置、方向和速度信息；

自主引导车运行范围内当前环境状态信息包括：障碍物或行人状态信息，其中，行人状态信息包括：行人的位置、速度和目标位置信息；障碍物状态信息包括：障碍物的位置信息。

(3)采用POMDP方法对自主引导车以及自主引导车运行范围的环境进行建模；

(4)将上述信息以及历史状态信息输入构建的模型，输出自主引导车的路径规划。

POMDP是一种针对不确定性问题的数学模型，POMDP的全称为PartiallyObservable Markov Decision Process(部分可观察的马尔可夫决策过程)，在POMDP的模型里面，智能体不能很明确的观测到自己的状态，对于自身的下一个状态不能很好的做出行为判断。

POMDP对智能体和智能体所在的环境进行建模，一般，可以用一个六元数(S，A，T，R，O，Ω)进行描述：

S：有限状态集，表示智能体的状态。

A：有限动作集，表示智能体执行的动作。

T：S×A×S为状态转移函数，T(s′|s，a)＝Pr(s′|s，a)表示智能体在状态s下执行动作a后转移到状态s′的概率。

R：为S×A→R回报函数，R(s，a)表示智能体在状态s执行动作a得到的回报值。

O：为一组观察集，表示智能体所得到的所有观察值的集合。

Ω：S×A×O→[0，1]为观察函数，Ω(o|s，a)表示智能体执行完动作a后，转移到状态s，观察到o值的概率。

下面对POMDP模型的决策原理做出描述。

POMDP模型描述了了智能体和环境之间的相互作用，其中包括以下两个方面：

1、智能体根据当前的状态和行为从外部环境中获取观察值。

2、智能体根据观察值选取相应的行为作用于外部环境。

POMDP模型中需要注意的是智能体不能从外部环境中获取全部的信息，也就是说存在隐藏的状态信息不能得到，所以在这里引入了“信念状态”的概念，将信念状态记为b(s)，信念状态是对历史环境状态的经验总结。

智能体在状态s下所选取的动作一般被称作策略，在这里表示为π，智能体和环境交互的广义控制策略可以看作是状态空间到动作空间上的概率分布映射。

以下结合图1对POMDP模型进行详细的解释。

将整体环境用图1中的大矩形表示，整体环境中包括智能体所有的状态和动作以及智能体以外的外界因素等。小矩形表示智能体，此智能体也就是本实例自主引导车的整体部分。小矩形中的π表示系统根据外界条件和自身的状态做出的相应策略。

图1中其余的字母表示和含义在图中可以明显理解，以下我们将对此模型原理做出详细描述。

首先进行初始化环境和模型。

智能体在环境中具有自身的状态，若智能体当前的状态为s，此时智能体将收到相应的观测值o和回报值r。

智能体在当前状态s下，收到观测值o和回报值r后，智能体内部将对下一步的动作选择做出决策，此时的决策对应于一个策略π。

智能体在综合之前的条件做出策略π之后，将执行一个动作a。

智能体在经过策略π并执行完动作a之后，智能体将进入下一个状态，此时也就是对状态s进行了一次更新。

下面对如何求解策略π值做相应的描述。

假设智能体当前的状态为s₀，智能体针对当前的状态制定最优策略为π(s₀)，其中最优策略是根据以下公式累计回报得到的：

π*表示在整个路径规划过程中所有的策略中最好的一个策略，最优策略的得到是一个渐进迭代最优的过程。

上式中的V_π(s₀)为智能体在执行策略π的情况下期望累积回报值函数，由以下所示表达式根据折扣因子对智能体的每个状态获得的及时汇报加权求和得到的：

其中H为决策步长，也即表示需要智能体规划的时间长。γ为折扣因子，表示不同的策略步长具有不同的影响，也为了使策略收敛。

E表示我们想要得到的一个值函数，s_t是表示在t时刻的系统状态，π(s_t)表示在状态s_t状态下采取的策略，R(s_t,π(s_t)表示在状态s_t条件下采取π(s_t)策略系统所得到的回报值，我们用值函数的大小来表示在路径规划的过程中什么的策略是最优的，值函数越大我们认为规划策略越好。

状态的回报值和相邻状态的回报值具有直接相关的联系，具有以下的递归关系式：

以上表达式给出了为每个状态计算期望累积回报值函数的方法。

但是在POMDP模型中，环境是部分可观察的，智能体没有办法得到全部的环境状态信息，只能估计可能状态的概率分布，就是上面提到的信念状态b(s)，即是对历史信息的统计。

所有的信念状态满足：

信念状态是根据动作和观察值实时更新的，信念状态更新的规则满足以下的表达式：

上式中的α为正则化因子，且满足以下表达式：

在POMDP模型中，策略就是从信念空间到动作空间的映射：π＝Β→Α，在信念状态为b时采取动作a得到的回报为：

信念状态的转移函数：

用以下公式求解在信念空间上的最优值函数和最优策略：

其中，b(s)表示系统在状态s时所具有的传感器信息状态统计；α为比例常数；b'(s')是表示对b(s)更新后系统的下一个状态信息；Ω(ο|s',a)为观测函数，表示系统在执行动作a后所搭载的传感器接收到的下一个状态环境信息；T(s'|s,a)表示在s状态下采取动作a后到达状态s'的转移函数；b'＝ξ(b,a,o)表示系统在信念b条件下采取动作a后传感器得到的环境观察数据；R(s,a)表示系统在状态s下采取动作a后获得的回报值；V表示值函数；Ω(o|a,b)表示在信念b的条件下采取动作a后的观测函数。

本实例中构建的POMDP模型，状态由两部分组成：车辆状态和障碍物或行人状态。车辆状态包含它的位置、方向和速度。本实例中主要考虑行人，行人状态包含行人的位置、速度和目标位置。

将行人的意图建模为目标位置，假设行人沿着高斯噪声的最短路径直接走向目标，行人目标是隐藏的变量，必须从一段时间的观察中推断出来。观察包括车辆的位置和速度以及行人的位置。车辆可以从三个独立的动作中进行选择：加速、维持和减速，这三个动作可以调节车速。

本实例构建一个有效的重要性分配。通过分析近碰撞事件，发现了造成事件发生的三个主要原因。首先，没有对行人突然进入实验室走进自主引导车事件进行抽样。其次，未能抽样事件中减速失败的几个步骤。第三，当突然有障碍物进入自主引导车路径规划的区域时没有进行及时采样。这三种类型的事件都很少见，但都很关键。因此构造重要性分布，提高了对这些事件进行抽样的概率。

本实例中POMDP在线规划的过程即是信念树的生长过程，若信念树的深度为D，则具有Ο(|A|^D|Z|^D)个节点。

完整的信念树包含所有的动作分支和观察分支，本实例中在近似的信念树中有K个采样场景，而在K个采样场景下的信念树包含所有的动作分支和可以观察到的观察分支。

在本实例中紧急障碍物事件条件下为了提高自主引导车路径规划的效率和性能，自主引导车将搜索在K个场景下的近似信念树。

结合图3和图4对信念树进一步理解，图3表示一个完整的信念树结构图，图4表示部分可观测的信念树，其中b₀表示信念，a₁,a₂表示系统执行的动作，z₁,z₂,z₃表示传感器观察到的信息。

原始的DESPOT算法是对场景进行自然随机采样，虽然这种采样方式可以比较均匀的对各部分采样，但是对具有发生可能性小、影响性比较大的事件不能起到很好的作用。

本实例为了处理这个问题，我们用以下公式对分布中的样本进行改进重新加权。

其中，q(s_i)是为了减少估计量的方差设置的分布函数；

是对上面

设置了分布函数后的期望；f(s_i)是要估计的函数，p(s_i)为概率分布函数，

当p和q非规范化的时候，

变为了

本实例中对K个采样场景下的DESPOT算法构成进行定义，

为状态s₀在[0，1]均匀采样构成的信念空间，确定性仿真模型为函数G＝S×A×R→S×Z。

若随机数

是[0，1]上的均匀分布，则

是通过以下分布得到：

p(s',z'|s,a)＝p(s'|s,a)p(z'|s',a)＝T(s,a,s')O(s',a,z')

p(s',z'|s,a)表示在状态s的条件下采取动作a后通过传感器观测到系统处于下一个状态s'的概率，z'表示观测值；p(s'|s,a)表示系统在s的条件下采取动作a进入下一个状态s'的概率；p(z'|s',a)表示系统在s的条件下采取动作a进入下一个状态s'后所观测到的概率。

在本实例中函数G执行POMDP模型中的仿真次数。开始状态为s₀，在场景

下采取行为(a₁，a₂…)并在在模型G中逐步进行，在信念树中仿真序列即为ξ＝(s₀，a₁，s₁，z₁，a₂，s₂，z₂…)执行路径(a₁，z₁，a₂，z₂)。

本实例中信念树的节点和边缘以此添加到DESPOT算法中。每个节点都包含采样的状态，我们称为粒子集，也即为信念树的近似，将此过程重复进行，直到所有的采样K都添加到DESPOT算法中。

本实例中给定信念b，可以用策略π得到值函数如下：

本实例中这里的p(ξ|b,π)是关于ξ的概率，V_ξ是关于ξ的总折扣回报。为了使V_π(b)使用非规范化方程，通过以下分布设置了

q(ξ|b,π)是为了使值函数使用规范化方程设置的关于Z的重要性分布。

本实例中这里的q(s0)是初始状态采样，q(s_t+1,z_t+1|s_t,a_t+1)是转换函数和观测函数采样的概率。

因此有如下公式求值函数：

本实例中这里的w(ξ)是ξ的权重，w(ξ₀:_t)是ξ₀:_t的权重，现在就可以找到一个策略π得到最大化的V_π(b)。

在重要性采样中，重要性分布是至关重要的，在本实例中重要性分布是紧急障碍物情况下重要性采样的关键因素，对在信念b下，执行策略π时可以得到值函数为：

其中，Vπ(b)是在信念b中执行策略π得到的总的折扣回报。E(v|s,π)是在信念b中执行策略π得到的期望值，b(s)是信念表示状态信息。

本实例对自主引导车硬件平台做出概述。传感器包由雷达、惯性测量单元和车轮编码器组成。底部安装的SICK TiM551激光雷达，扫描频率在50hz以上，角度为270，最大扫描距离分为10m。以上硬件用于对自主引导车的定位和行人、障碍物的检测。

本实例中自主引导车主要针对紧急障碍物事件实时的在网上进行重新规划。本实例采用了之前开发的两级分层方法。在高层次上，本实例使用混合的A*算法来搜索路径；在低层次上，本实例使用POMDP算法来控制车辆沿计划路径的速度。

本实例为了使自主引导车安全行驶，合理应对当实验室进入人时的紧急情况，并可靠的在行人附近行驶，一个关键问题是推断行人的意图，这决定了他们的步行行为。本实例我们的POMDP模型应对了行人意图估计的不确定性。

本实例的自主引导车在机器人操作系统的基础上实现。通过自适应蒙特卡罗定位将激光雷达、惯性测量单元和车轮编码器数据集成在一个给定的地图中进行定位。

实施例二

在一个或多个实施方式中，公开了一种医学病理检验实验室内自主引导车路径规划系统，包括：

上述装置的具体实现方法参照实施例一中公开的方法，在此不作赘述。

实施例三

在一些实施方式中，公开了一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行实施例一中所述的医学病理检验实验室内自主引导车路径规划方法。

在另一些实施方式中，公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行实施例一中所述的医学病理检验实验室内自主引导车路径规划方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.医学病理检验实验室内自主引导车路径规划方法，其特征在于，包括：

对自主引导车运行范围内的障碍物和行人信息进行采样；

2.如权利要求1所述的医学病理检验实验室内自主引导车路径规划方法，其特征在于，对自主引导车运行范围内的障碍物和行人信息进行采样，具体为：

3.如权利要求2所述的医学病理检验实验室内自主引导车路径规划方法，其特征在于，使用重要性采样的方式进行采样，具体为：

其中，μ＝E_p(f(s))为估计函数f(s)在遵循某个概率分布p(s)条件下的期望值，f(s)表示系统在状态s条件下得到回报函数；p(s)表示系统的未来状态。

4.如权利要求3所述的医学病理检验实验室内自主引导车路径规划方法，其特征在于，若f函数不能够进行积分时，采用如下公式进行采样计算：

其中，i＝1，2，3……n表示将状态离散为n个状态，s_i表示第i个状态，s_i～p表示状态用概率表征。

5.如权利要求1所述的医学病理检验实验室内自主引导车路径规划方法，其特征在于，

所述自主引导车当前的状态信息包括：自主引导车当前的位置、方向和速度信息；

所述自主引导车运行范围内当前环境状态信息包括：障碍物或行人状态信息，其中，行人状态信息包括：行人的位置、速度和目标位置信息；障碍物状态信息包括：障碍物的位置信息。

6.如权利要求1所述的医学病理检验实验室内自主引导车路径规划方法，其特征在于，采用POMDP方法对自主引导车以及自主引导车运行范围的环境进行建模，具体为：

假设自主引导车当前的状态为s₀，自主引导车针对当前的状态制定最优策略为π(s₀)，则全过程中有：

其中，π*表示在整个路径规划过程中所有的策略中最好的一个策略，V_π(s₀)为智能体在执行策略π的情况下期望累积回报值函数：

其中，H为决策步长，也即表示需要智能体规划的时间长，γ为折扣因子，E表示值函数，s_t是表示在t时刻的系统状态，π(s_t)表示在状态s_t状态下采取的策略，R(s_t,π(s_t)表示在状态s_t条件下采取π(s_t)策略系统所得到的回报值，用值函数的大小来表示在路径规划的过程中的策略优劣，值函数越大认为规划策略越好。

7.如权利要求6所述的医学病理检验实验室内自主引导车路径规划方法，其特征在于，采用信念状态表示对历史信息的统计：

信念状态更新规则具体为：

信念状态的转移函数：

在信念空间上的最优值函数和最优策略分别为：

8.医学病理检验实验室内自主引导车路径规划系统，其特征在于，包括：

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-7任一项所述的医学病理检验实验室内自主引导车路径规划方法。

10.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的医学病理检验实验室内自主引导车路径规划方法。