CN109425340B

CN109425340B - 基于贝叶斯多模感知融合的类脑机器人导航方法

Info

Publication number: CN109425340B
Application number: CN201710748765.7A
Authority: CN
Inventors: 斯白露; 曾太平
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2022-03-22
Anticipated expiration: 2037-08-28
Also published as: CN109425340A

Abstract

本发明涉及基于贝叶斯多模感知融合的类脑机器人导航方法，包括以下步骤：积分细胞进行前庭信息融合：根据获取的前庭信息改变积分细胞的发放率；校准细胞进行视觉信息融合；对栅格细胞网络和头朝向细胞网络进行注入能量，改变积分细胞和校准细胞的发放率；进行全局抑制；通过估计栅格细胞网络和头朝向细胞网络的发放率所处的相位得到当前机器人的实际位置和头朝向；构建拓扑地图。本发明中所设计的模型能够进行多模感知的融合，实现对机器人所处的空间环境以及机器人自身的状态进行稳定的编码。模型与哺乳类动物的头朝向神经机制一致，跟神经生物学采集的单神经元记录实验结果相似，具有很高的生物保真性。

Description

基于贝叶斯多模感知融合的类脑机器人导航方法

技术领域

本发明属于机器人导航领域，尤其涉及一种基于哺乳类动物神经生物学启发，利用贝叶斯进行多模感知融合的机器人导航方法。

背景技术

在机器人导航系统中进行多模信息融合一直极具挑战。由于可获得的感知信息通常可靠性差，并且受到噪声的影响，多模感知融合可以更加精确地编码机器人的位姿和所处的环境。动物探索环境的两个主要机制是路径积分和地标校准。要提高机器人的导航性能，必须要解决由于路径积分误差积累和地标感知模糊所引起的不确定性。

多模感知融合是动物能够精确感知和行为的关键。动物能够长距离的探索，在复杂的环境中导航，再精确的返回到它们的巢穴。神经系统通过融合动物自身的移动信息和视觉信息以一种贝叶斯优化的的方式进行动物位置以及周围环境的估计。神经生物学实验已经发现有几种不同的空间响应细胞能够进行多模感知融合，如海马体中的位置细胞，内嗅皮层的头朝向细胞和栅格细胞。头朝向细胞仅仅在某一个固定头朝向方向发放，栅格细胞则呈六边形的周期性分布于环境中，位置细胞只在某一个特定的空间位置区域发放。但是，当动物长距离探索大环境时，神经系统如何处理这些感知信息的不确定性依然不得而知。视觉信息和前庭信息同样都能编码动物的位置和头朝向信息，神经系统可以无缝的融合这些感知信息，从而得到可靠地头朝向和位置估计。

然而，动物空间导航的多模感知的神经机制依然很少清楚。最近，以头朝向系统为模型，用于研究前庭信息和视觉信息的不确定性已经广泛展开，主要包括MSTd区域和VIP区域。神经生理学单细胞记录实验发现，在头朝向细胞网络中，视觉输入能够可塑性的重新头朝向细胞网络的集群发放，然后由前庭信息所继承。而且，低可靠性的视觉信息无法重塑头朝向细胞网络的细胞集群发放。环形吸引子网络模型被提出用于模拟动物自身移动信号和视觉信息之间的相互作用。分布式的连续吸引子网络以贝叶斯推理的形式被用于解释多个感知脑去之间的连接方式。

尽管，一些具有生物相似性的吸引子网络模型被提出证明了大脑中具有概率计算的机制，但是没有将神经生物学启发的多模感知融合的贝叶斯模型用于机器人导航系统中。进一步探明动物大脑的空间导航的神经机制，将有助于开发类人导航能力的自主移动机器人。

发明内容

本发明的目的在于基于哺乳类动物的空间导航神经机制，提出一种机器人导航的方法，该方法中的模型采用贝叶斯吸引子网络编码机器人头朝向和位置，避免了连续吸引子网络的复杂性，是一种高效、简单、易于工程应用的方法。

本发明解决其技术问题所采用的技术方案是：基于贝叶斯多模感知融合的类脑机器人导航方法，根据贝叶斯吸引子网络模型得到机器人当前的头朝向和位置，并构建地图用于导航，包括以下步骤：

积分细胞进行前庭信息融合：根据获取的前庭信息改变积分细胞的发放率；

校准细胞进行视觉信息融合：当获取的视觉信息与之前的视觉特征一致，并满足阈值时，那么激活与之相关的局部视图细胞并关联相应的栅格细胞和头朝向细胞，通过对栅格细胞网络和头朝向细胞网络进行注入能量，改变积分细胞和校准细胞的发放率；

通过积分细胞和校准细胞进行全局抑制；

通过估计栅格细胞网络和头朝向细胞网络的发放率所处的相位得到当前机器人的实际位置和头朝向；

根据机器人的实际位置和头朝向构建拓扑地图。

所述贝叶斯吸引子网络模型：

p^t(θ|c_vi，c_ve)∝p^t-1(θ|c_vi，c_ve)p^t(θ|c_vi)p^t(θ|c_ve)

其中，p^t(θ|c_vi，c_ve)表示机器人当前的头朝向位置，p^t-1(θ|c_vi，c_ve)是前一个时刻的后验概率分布，p^t(θ|c_ve)是当感知到前庭信息时的似然估计，p^t(θ|c_vi)是当感知到视觉信息时的似然估计；c_ve、c_vi分别表示前庭信息和视觉信息。

所述前庭信息融合通过以下公式实现：

其中，

表示积分细胞的均值，

表示校准细胞的均值，v^t表示当前时刻机器人的速度，Δt表示时刻t与时刻t-1之间的时间间隔。

所述对栅格细胞网络和头朝向细胞网络进行注入能量，改变积分细胞和校准细胞的发放率通过如下公式实现：

其中，

表示注入能量的强度，

表示在一维头朝向神经空间流行上所注入能量的位置；

表示当前时刻的校准细胞权重，

表示校准细胞的均值。

所述全局抑制如下：

其中，

表示前一时刻的积分细胞权重，而

表示前一时刻的校准细胞的权重；

表示前一时刻积分细胞和校准细胞的权重总和；

表示当前时刻的积分细胞权重，

表示当前时刻的校准细胞权重；E表示设定的积分细胞和校准细胞组成网络的总能量。

所述全局抑制后，积分细胞和校准细胞进行互相抑制，通过如下公式实现：

其中，Δ_inte表示校准细胞对积分细胞的抑制强度，Δ_cali表示积分细胞对校准细胞的抑制强度。

所述估计栅格细胞网络和头朝向细胞网络的发放率所处的相位包括以下步骤：

当前的发放率概率分布通过如下方式实现：

其中，

表示估计的权重，

表示均值，即编码的相位；

表示积分细胞的均值，

表示校准细胞的均值，

表示当前时刻的积分细胞权重，

表示当前时刻的校准细胞权重；

当

达到阈值时，则认为当前的估计位置就是当前机器人的实际位置。

如果当前视觉信息与之前的视觉特征都不同，那么建立新的拓扑结点，不对头朝向细胞网络和栅格细胞网络进行能量注入。

所述构建拓扑地图具体为：

利用机器人的实际位置和头朝向，在拓扑地图中添加结点、以及与其它结点之间的连接，然后通过通用的图优化方法进行拓扑地图的优化，获得最后的拓扑地图。

本发明具有以下有益效果及优点：

1.本发明中所设计的模型能够进行多模感知的融合，实现对机器人所处的空间环境以及机器人自身的状态进行稳定的编码。

2.本发明所设计的模型与哺乳类动物的头朝向神经机制一致，跟神经生物学采集的单神经元记录实验结果相似，具有很高的生物保真性；

3.本发明中设计的模型不采用连续吸引子网络的递归连接方式，大大的提高了模型在机器人导航过程中的实用性。

4.并开发机器人导航系统对本发明中所提及的机器人导航方法进行测试，测试系统的运行过程如图4A～4E所示。实验所得结果证明，所采用的模型能够采用廉价的单摄像头所采集的图像信息和速度信息作为输入成功的构建了连贯一致的拓扑地图，如图5所示。

附图说明

图1为贝叶斯吸引子网络模型框架信息流图；

图2A表示头朝向细胞开始时候的神经活动状态；

图2C表示栅格细胞开始时候的神经活动状态；

图2B表示实验过程中的某一个神经活动状态一；

图2D表示实验过程中的某一个神经活动状态二；

图3A为栅格细胞在校准细胞作用过程中的集群编码重塑的过程图一；

图3B为栅格细胞在校准细胞作用过程中的集群编码重塑的过程图二；

图3C为栅格细胞在校准细胞作用过程中的集群编码重塑的过程图三；

图3D为栅格细胞在校准细胞作用过程中的集群编码重塑的过程图四；

图4A为头朝向细胞的神经活动图；

图4B为机器人在环境探索过程中的俯视图；

图4C为输入的视觉场景图；

图4D为栅格细胞的神经活动图；

图4E为拓扑地图；

图5为机器人构建的认知拓扑地图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明。

本发明公开一种基于贝叶斯多模感知融合的类脑机器人导航方法。属于机器人导航技术领域。哺乳类动物的空间导航依赖于来自如多个各种不同源头的信息融合。本发明中提出一种新型的贝叶斯吸引子网络，探索当视觉信息与前庭信息产生不同的物理环境编码时，解决大脑信息冲突问题。所提出的‘’积分细胞‘’和‘’校准细胞‘’共同编码哺乳类动物大脑中的头朝向细胞(Head Direction Cell)和栅格细胞(Grid Cell)。积分细胞用于编码机器人的头朝向和位置，校准细胞编码机器人的视觉信息。通过积分细胞和校准细胞的相互抑制编码大脑信息的冲突问题。全局抑制形成稳定的发放状态。信息的不确定性便通过贝叶斯融合的方法消除。本发明的机器人导航方法在公开数据上测试，能够保证在大环境中进行稳健的导航。采用的模型是在考虑哺乳类动物大脑神经元发放的神经生物学特性基础上，从认知功能角度所提取的简单、高效方法。

一种基于贝叶斯多模感知融合的类脑机器人导航方法，提出一种新型的贝叶斯吸引子网络，探索当视觉信息与前庭信息产生不同的物理环境编码时，解决大脑信息冲突问题。所提出的‘’积分细胞‘’和‘’校准细胞‘’共同编码哺乳类动物大脑中的头朝向细胞和栅格细胞。积分细胞用于编码机器人的头朝向和位置，校准细胞编码机器人的视觉信息。全局抑制形成稳定的发放状态。通过积分细胞和校准细胞的相互抑制编码大脑信息的冲突问题。信息的不确定性便通过贝叶斯融合的方法消除。

贝叶斯吸引子网络模型基于贝叶斯理论架构，利用贝叶斯推理处理多个不确定的感知信息，是一种数学的优化方法。广泛的实验表明两个主要的感知信息用于在环境中动物导航和估计动物当前的头朝向信息和位置信息，包括前庭信息c_ve和视觉信息c_vi。单独考虑头朝向系统和位置估计系统。头朝向估计满足高斯分布，包括视觉信息分布p(c_vi|θ)和前庭信息分布p(c_ve|θ)，根据贝叶斯理论，并考虑过去的经验和当前的证据可以得到如下公式表示当前的头朝向位置：

p^t(θ|c_vi，c_ve)∝p^t-1(θ|c_vi，c_ve)p^t(θ|c_vi)p^t(θ|c_ve)

其中，p^t-1(θ|c_vi，c_ve)是前一个时刻的后验概率分布，p^t(θ|c_ve)是当感知到前庭信息时的似然估计，p^t(θ|c_vi)是当感知到视觉信息时的似然估计。贝叶斯的框架通过两个步骤实现：步骤1，路径积分通过如下公式实现：

p^t(θ|c_vi，c_ve)∝p^t-1(θ|c_vi，c_ve)p^t(θ|c_ve)，

步骤2，路标校准(视觉信息输入)通过如下公式实现：

p^t(θ|c_vi，c_ve)∝p^t-1(θ|c_vi，c_ve)p^t(θ|c_vi)。

其中下标t-1和t仅仅表示在执行当前公式的前后，而不是表示一次所有的信息输入过程。

贝叶斯吸引子网络模型主要包括头朝向细胞网络的实现和栅格细胞的网络实现，头朝向细胞网络编码头朝向在一个环形吸引子上，而栅格细胞网络编码位置特征在一个单峰的、非扭曲的栅格模型圆环形吸引子上。栅格细胞和头朝向细胞对应内嗅皮层的第二层。头朝向细胞网络的积分细胞对应大脑的背内上颞区(dorsal medial superior temporal,MSTd)区域，而校准细胞对应大脑的顶内沟腹侧区(ventral intraparietal area,VIP)。

头朝向细胞模型编码机器人的转动，对应环境中相同的机器人运动角速度，通过吸引子动力学更新头朝向细胞的发放状态。头朝向相位在一维的流行上范围为[0，2π)。积分细胞和校准细胞的发放定义为正态分布：

吸引子动力学行为通过积分细胞和校准细胞之间的全局抑制和互相抑制实现。网络同样具有连续编码的特征，即使前庭信息和视觉信息不输入的情况下，头朝向细胞的单峰特性也可以在网络中维持。全局抑制维持一个不变的总能量，并且不影响积分细胞和校准细胞的相对关系。随着时间的推移，相互抑制的特性保证在整个网络中只有一个稳定的单峰存在于头朝向细胞模型中。全局抑制可以通过如下公式实现：

其中，

表示前一时刻的积分细胞权重，而

表示前一时刻的校准细胞的权重。

表示前一时刻积分细胞和校准细胞的权重总和。

表示当前时刻的积分细胞权重，

表示当前时刻的校准细胞权重。积分细胞和校准细胞的互相抑制通过如下公式实现：

其中，Δ_inte表示校准细胞对积分细胞的抑制强度，Δ_cali表示积分细胞对校准细胞的抑制强度。如果有噪声进入神经网络，在即使在没有输入的情况下，经过几次迭代，神经网络也会收敛到一个单峰的原始稳定状态。

路径积分并不采用通过积分权重连接的方式，利用吸引子网络动力学实现活动峰的移动。根据前庭的输入，活动峰移动通过改变积分细胞和校准细胞网络正态分布的均值实现，并且不存在活动峰变形的可能。而且与概率的方法也不一样，网络的不确定性不会随着时间变化和路径积分的过程增加。路径积分通过输入的前庭信息利用一下公式实现：

其中，

表示积分细胞的均值，而

表示校准细胞的均值，v^t表示当前时刻的速度，Δt表示t与t-1之间的时间间隔。

视觉信息校准是利用熟悉的视觉信息校准头朝向细胞的均值。当机器人从摄像头观察到一个新的场景时，一个新的局部视图细胞模板将会添加到系统中，机器人的位姿则对应与当前积分细胞活动包正态分布的均值。同时，当前的局部视图细胞与积分细胞所编码的相位通过Hebb学习法形成一个很强的连接。当机器人再次遇到之前相同的视觉视图时，那么局部视图细胞将会再次被激活，通过之前学习的连接注入能量到头朝向细胞中去。能量注入的过程可以描述为：

注入能量的过程可以通过如下公式实现：

其中，

表示注入能量的强度，

表示在一维头朝向神经空间流行上所注入能量的位置。

通过计算当前积分细胞和视觉校准细胞的概率分布情况可以估计当前头朝向细胞的相位，当前的头朝向概率分布可以通过如下方式可以描述：

进一步，概率推理可以通过如下方式实现：

其中，

表示估计的权重，

表示均值。如何当前估计的位置与注入能量的位置满足了一定的阈值，则认为当前的估计位置就是当前机器人的实际位置，如果不满足阈值条件则直接进入下一循环的信息输入。

对于栅格细胞模型，需要将头朝向细胞模型的一维环形吸引子网络扩展到二维的单峰非扭曲栅格模式的圆环形吸引子网络。同样的贝叶斯推理机制被用于二维圆环形吸引子网络。其中假设大脑中存在两个与头朝向神经系统相似的脑区MSTd和VIP区域。栅格细胞的积分细胞和校准细胞通过二维正态分布进行定义：

头朝向细胞所采用的吸引子动力学、前庭信息积分、视觉信息校准、相位估计的方法利用二维的正态分布应用于栅格细胞的圆环形吸引子网络中。

在地图构建节点,利用速度信息,位置和头朝向信息的编码,在拓扑地图中添加结点和结点之间的连接,然后通过通用的图优化方法进行拓扑地图的全局优化,获得最后的拓扑地图。

本发明中所采用的模型通过接收视觉信息和前庭信息输入，能够产生机器人头朝向编码和栅格模式的位置编码，最终产生拓扑地图。模型中包括校准细胞(calibration)，积分细胞(integrator)，全局抑制(inhibition)和校准细胞和积分细胞的互相抑制，贝叶斯吸引子网络模型框架信息流图如图1所示。视觉信息(visual cues),前庭信息(vestibular cues),校准细胞(calibration)，积分细胞(integrator)，全局抑制(inhibition)，栅格细胞(grid cells),头朝向细胞(HD cells)，认知地图(cognitivemap)。模型的特性包括吸引子动力学，前庭信息融合，视觉信息校准，以及相位估计。在实际实验的过程中，模型的实现过程主要通过以下步骤：

步骤1，获取视觉信息和速度信息。视觉信息的获取利用廉价的webcam采集，而速度信息既可以根据输入的图像序列计算得到，也可以根据速度传感器得到，当前的实施方式中采用的是根据速度传感器获得线速度和角速度信息。视觉信息的发送与感知信息的发送之间相互独立。

步骤2，积分细胞，用于前庭信息的融合。在接收到角速度和线速度信息后，先执行前庭信息(速度)的融合，通过接收到的速度信息和当前时刻与上一时刻之间的时间差共同可以求出机器人所运动的距离和角度，通过移动头朝向细胞网络的活动包和栅格细胞的栅格模式，再通过估计神经集群编码活动包所处的状态可以求得机器人当前时刻的位置和头朝向。头朝向细胞网络和栅格细胞网络的神经活动如图2A～图2D所示。图2A～图2D为头朝向细胞和栅格细胞的神经编码。图2B和图2D表示实验过程中的某一个神经活动状态，图2B中头朝向细胞的相位为2.02，大约115.64度，图2D栅格细胞的相位为(3.56,5.68)。

前庭信息的融合过程的计算方式如下：

其中，

表示积分细胞的均值，而

表示校准细胞的均值，v^t表示当前时刻的速度(角速度或线速度)，Δt表示t与t-1之间的时间间隔。

步骤3，校准细胞，用于视觉信息融合。在接到视觉信息之后，如果当前信息与之前所观察到的信息都不同，那么则建立新的拓扑网络节点，不对头朝向细胞网络和栅格细胞网络进行能力注入。如果当前的视觉信息与之前的某一次所看的视觉特征相似，并满足一定的阈值，那么激活与之相关的视觉细胞，对栅格细胞网络和头朝向细胞网络进行注入能量，栅格细胞和头朝向细胞网络的注入方式相似，从而改变校准细胞概率分布的可靠性大小以及均值的位置。校准实施方式如下：

其中，

表示注入能量的强度，

表示在一维头朝向神经空间流行上所注入能量的位置。栅格细胞视觉校准过程见图3A～图3D所示所示，经过一段时刻的收敛，栅格细胞的神经活动得到重新的映射。

μ、σ两类参数在高斯分布中分别表示均值和标准差，利用高斯分布表示位置和速度相位的概率分布，编码栅格细胞网络和头朝向细胞网络的发放率。

步骤4，吸引子动力学。动力学的特性保证了网络不会无限制的能量增长或减小，还能保证经过迭代可以收敛到一个稳定的发放模式。全局抑制是为了不让头朝向细胞网络和栅格细胞网络在迭代过程中无限制增长，以及能量衰减至零。全局抑制可以通过如下公式实现：

其中，

表示前一时刻的积分细胞权重，而

表示前一时刻的校准细胞的权重。

表示前一时刻积分细胞和校准细胞的权重总和。

表示当前时刻的积分细胞权重，

步骤5，相位估计。想要知道当前的神经活动状态，需要通过估计神经网络活动峰所处的相位进行实现。相位估计主要是将积分细胞和校准细胞的神经活动利用正态分布概率模型相乘的方式实现，类似于传统概率模型中加入新的信息能够增加当前估计的可靠性，同时得到一个更加接近真实物理环境中的位置估计。

进一步，概率推理可以通过如下方式实现：

其中，

表示估计的权重，

步骤6，运行系统。利用一个公开的数据集，将本发明中所此采用的方法进行测试。按照本发明中的模型，设计的机器人导航系统的运行过程如图4A～图4E所示，为运行过程中的系统截图。图4A表示头朝向细胞的神经活动；图4D表示栅格细胞的神经活动；图4B表示机器人在环境探索过程中的俯视图；图4C表示输入的视觉场景(上)，局部视图视觉模板(中)，当前局部视图模板(下)；图中4E表示拓扑地图。

步骤7，认知拓扑地图。进一步的，利用步骤6所提出的机器人导航系统进行拓扑地图的构建，让机器人在一个封闭的环境中运动，如图4A中所示，经过一段时间的探索后，可以得到如图5所示的认知拓扑地图。