CN116382267B

CN116382267B - 一种基于多模态脉冲神经网络的机器人动态避障方法

Info

Publication number: CN116382267B
Application number: CN202310221408.0A
Authority: CN
Inventors: 杨鑫; 王洋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-09-05
Anticipated expiration: 2043-03-09
Also published as: CN116382267A; US20240028036A1

Abstract

本发明属于机器人领域中的导航与避障领域，提出一种基于多模态脉冲神经网络的机器人动态避障方法。针对包含动态障碍物的场景，通过融合激光雷达数据与处理过的事件相机数据，并结合脉冲神经网络的内在可学习阈值实现动态环境中的机器人避障方法。本发明解决了机器人避障任务中，难以感知动态障碍物，从而导致避障失败的困难。帮助机器人充分感知环境的静态信息与动态信息，利用脉冲神经网络的可学习阈值机制进行高效的强化学习训练与决策，并实现动态环境下的自主导航与避障。而且结合事件数据增强的模型可以更好地适应动态环境进行避障，大大提高成功率。本方法在平均成功率上获得了最佳的性能，并且在复杂场景中具有很大的优势。

Description

一种基于多模态脉冲神经网络的机器人动态避障方法

技术领域

本发明涉及机器人领域中的导航与避障(Navigation and Obstacle Avoidance)领域，尤其涉及一种基于多模态脉冲神经网络的机器人动态避障方法。

背景技术

机器人避障任务是在较为复杂的场景中，机器人可以自主地导航到目标点同时不与障碍物发生任何碰撞，具有重大的实际应用价值。随着人工智能技术的快速发展，机器人避障相关任务，例如扫地机器人、无人驾驶、智能仓库、智能物流等，都获得了显著的性能提升。

尽管一些基于人工神经网络的方法已成功应用于避障任务，但它们的高能耗限制了它们在机器人领域的大规模使用。作为第三代人工神经网络，脉冲神经网络(SpikingNeural Network)“Bohte S M,Kok J N,La Poutre H.Error-backpropagation intemporally encoded networks of spiking neurons[J].Neurocomputing,2002,48(1-4):17-37.”具有时间连续性、高能效、快速处理和生物合理性等特点，使其与避障任务的结合更加广泛且合理。

然而，实际避障场景里不只有固定不动的障碍物，其中经常会存在一些复杂的动态障碍物，比如经过的路人、移动的机器、突然抛来的其他物体等，这些物体会对传统的激光雷达策略造成严重的影响，目前还缺少相关的研究方法来处理这类物体。传统的激光雷达避障策略“Tang G,Kumar N,Michmizos K P.Reinforcement co-learning of deep andspiking neural networks for energy-efficient mapless navigation withneuromorphic hardware[C]//2020IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS).IEEE,2020:6090-6097.”侧重于对静态物体的感知，而对于环境中突然移动的动态障碍物往往缺乏有效的处理方法，进而使导航避障系统失效。因此充分高效地感知动态障碍物是机器人避障领域中一项亟待解决的任务。

现有的机器人避障导航方法大多数都采用深度强化学习作为学习方式，因其无需人工采集标注数据集可以自主学习而广受欢迎。强化学习是一个“试错”的过程，该过程往往在虚拟环境下进行学习，再迁移到真实场景中。为了缩小虚拟到现实的差距，通常采用数据形式简单，容易学习的激光雷达数据。但激光雷达数据对于快速移动的动态障碍物的感知不够完全，从而无法执行高效的避障策略。

事件相机是一种仿生传感器，其异步测量场景中的光强度变化进而输出事件。因此，它能提供非常高的时间分辨率(高达1MHz)，并且功耗非常小。由于光强变化是在对数尺度中计算，因此其能够在非常高的动态范围下进行工作(140dB)。当对数尺度的像素光强变化高于或低于阈值时，事件相机触发形成“ON”和“OFF”事件。事件相机的特性使得它尤其擅长对动态障碍物进行感知，但事件相机数据流输出的方式和传统相机帧输出的方式完全不同，无法简单的直接拿来使用。

因此本发明基于对现有避障导航技术的调查与分析，通过结合激光雷达与事件相机的优势，同时摒弃掉二者的劣势，将雷达数据与经过处理后的事件数据融合，共同输入网络。利用脉冲神经网络构建的具有可学习阈值的融合决策模块指导机器人移动。通过机器人的避障导航任务得以验证其有效性。方法的输入是机器人平台搭载的激光雷达测距仪的数据和事件相机的事件数据，输出机器人要采取的动作，包括线速度与角速度。该方法能够有效地适应不同的静态与动态环境，并保持高效的避障导航决策。

发明内容

本发明的目的是针对包含动态障碍物的场景，通过融合激光雷达数据与处理过的事件相机数据，并结合脉冲神经网络的内在可学习阈值实现动态环境中的机器人避障方法。该方法包括混合脉冲变分自编码器模块、群体编码模块以及运用可学习阈值的中间融合控决策模块。设计一种基于多模态脉冲神经网络的机器人动态避障方法，为机器人获取外界雷达与事件数据来自主导航与避障。

本发明的技术方案为：

一种基于多模态脉冲神经网络的机器人动态避障方法，包括以下步骤：

步骤1、搭载机器人仿真模型；

机器人同时搭载二维激光雷达和事件相机用于感知环境，获取激光雷达数据和事件数据；

步骤2、构建混合脉冲变分自编码器模块，生成事件相机数据；

混合脉冲变分自编码器模块将原有特征稀疏的(x，x)事件数据经过编码，简化为特征高度集中的(1，x/2)的一维向量事件相机数据；从机器人搭载的事件相机获取事件数据，形成数据集输入至混合脉冲变分自编码器模块，生成低维隐向量，作为后续群体编码模块输入的事件相机数据；

混合脉冲变分自编码器模块包括脉冲变分自编码器和解码器；脉冲变分自编码器包括4层卷积脉冲神经网络，每层卷积脉冲神经网络由LIF神经元组成，脉冲变分自编码器在每一时刻与机器人数据交互的路径过程中记录所有LIF神经元状态并传至下一时刻，用于学习脉冲变分自编码器权重；解码器包括4层反卷积人工神经网络；脉冲变分自编码器负责学习(x，x)维度的事件数据特征并保存至x/2维的隐向量中；解码器用于反向验证脉冲变分自编码器的有效性，其以常规的VAE损失函数为优化目标，将隐向量的值重构为原始事件数据，当解码器可以重构出原始事件数据时，代表脉冲变分自编码器训练完成；

步骤3、通过群体编码加泊松编码将多模态数据编码为脉冲序列数据；

将事件相机数据与激光雷达数据串联为多模态数据；群体编码模块将多模态数据转换为刺激强度值，刺激强度值通过泊松编码生成用于直接输入后续中间融合决策模块的脉冲序列数据；

群体编码模块包括10个LIF神经元，用于弥补单个LIF神经元编码的不足，以及减小多模态数据转化到脉冲序列数据时的信息损失；

步骤4、构建中间融合决策模块，其包括中间融合模块和控制决策模块；将步骤3得到的脉冲序列数据输入至中间融合决策模块，输出机器人的运动决策；

步骤4.1、中间融合模块通过两个全连接层构成的LIF神经元分别将事件相机脉冲序列数据与激光雷达脉冲序列数据对齐为两个(1，c)的一维向量，两个一维向量直接相连构成融合后的特征数据；中间融合模块加入可学习阈值机制，可学习阈值通过tanh(x)函数计算，每一次中间融合模块反向传播时，同时更新中间融合模块网络权重与可学习阈值；可学习阈值控制LIF神经元传递信息的发放频率，根据阈值的更新，使事件相机数据与激光雷达数据以不同的发放频率进行自适应融合，获得特征数据；

步骤4.2、控制决策模块为通过脉冲神经网络搭建的四层全连接层；全连接层均由LIF神经元组成；控制决策模块嵌入至深度强化学习框架DDPG中，脉冲神经网络代替现有深度强化学习框架DDPG的Actor网络进行脉冲形式的决策，并进行自主试错学习，直至确认最优特征数据后，确定中间融合模块的阈值；

控制决策模块的输入为经中间融合模块融合后的特征数据，通过四层全连接层进行动作决策，取所有时间步上控制决策模块输出值相加的均值作为代表机器人左轮速度大小和右轮速度大小的值，再通过机器人本身的动力学转化为线速度和角速度的动作输出，从而进行自主的感知与决策；

控制决策模块中所有的LIF神经元均加入可学习阈值机制，可学习阈值通过tanh(x)函数计算，在每一次控制决策模块的反向传播时，同时更新控制决策模块网络权重与可学习阈值，使得每一层LIF神经元的阈值均保持在不同水平。

所述x为128。

所述激光雷达数据为18维，所述事件相机数据维64维，所述机器人速度信息以及机器人距离信息均为三维。

为了解决动态场景避障问题，采用TurtleBot-ROS机器人的URDF模型作为实验机器人，搭载二维激光雷达和事件相机来感知环境；运用ROS-Gazebo模拟器中的静态Block障碍物搭建训练环境，设计4个难度逐渐增加的环境，以完成分场景分阶段的训练；在ROS-Gazebo中手动添加12个动态障碍物作为动态环境的测试场景，用于测试基于多模态脉冲神经网络的机器人动态避障方法的有效性。

本发明的有益效果：本发明解决了机器人避障任务中，难以感知动态障碍物(经过的路人、移动的机器、突然抛来的其他物体)，从而导致避障失败的困难。帮助机器人充分感知环境的静态信息与动态信息，利用脉冲神经网络的可学习阈值机制进行高效的强化学习训练与决策，并实现动态环境下的自主导航与避障。将事件数据与雷达数据融合指导机器人动态避障的方法，在不同的场景中的机器人避障任务中验证鲁棒性，并通过对比实验证明了该方法的有效性。结合事件数据增强的模型可以更好地适应动态环境进行避障，大大提高了成功率。对比实验中该方法在平均成功率上获得了最佳的性能，并且在复杂场景中具有很大的优势。

本发明适用于在不同避障场景下的机器人避障与导航任务，包括只有静态障碍物的训练模型与测试场景以及包含动态障碍物的训练模型与测试场景。证明了该方法在不同避障场景上的有效性、适用性。

附图说明

图1(a)为本发明基于多模态脉冲神经网络的机器人动态避障方法EBM-SAN的网络模型结构示意图。图中，正方形为静态障碍物，圆形为动态障碍物。

图1(b)为混合脉冲变分自编码器模块HSVAE结构示意图。

图1(c)为群体编码模块PC结构示意图。

图1(d)为中间融合决策模块MFDM-LT结构示意图。

图2(a-1)为SAN方法实验的可视化结果成功案例；

图2(a-2)为SAN方法实验的可视化结果失败案例；

图2(b-1)为PopSAN方法实验的可视化结果成功案例；

图2(b-2)为PopSAN方法实验的可视化结果失败案例；

图2(c-1)为BDETT方法实验的可视化结果成功案例；

图2(c-2)为BDETT方法实验的可视化结果失败案例；

图2(d-1)为本发明实验的可视化结果成功案例；

图2(d-2)为本发明方法实验的可视化结果失败案例。

图中：为串联；/>为向后；/>为向前；/>为相加；/>为脉冲。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

一种基于多模态脉冲神经网络的机器人动态避障方法，该方法包括以下步骤：

步骤1、搭载机器人仿真模型；

步骤2、训练混合脉冲变分自编码器模块；

从TurtleBot-ROS机器人搭载的事件相机获取事件数据并保存，多次重复训练流程后获得足够的事件数据形成数据集。利用脉冲神经网络搭建脉冲变分自编码器，其中脉冲变分自编码器负责学习(128，128)维度的输入数据的特征并保存到一个64维的隐向量中。解码器通过隐向量的值尝试重构原始输入数据。当经过训练后的混合脉冲变分自编码器，其解码器可以近似生成原始数据，意味着事件数据的特征已经被大部分提取到隐向量中，训练结束，以该训练后的脉冲变分自编码器为准。

原有的特征稀疏的(128，128)事件数据经过混合脉冲变分自编码器的编码，可以简化为特征高度集中的(1，64)一维向量数据，从而方便后续网络对事件数据的处理。

步骤3、群体编码模块；

获取到事件数据处理后的一维事件相机数据后，结合激光雷达数据，一起输入到群体编码模块中进行处理。经过群体编码模块的处理后，得到可直接输入后续脉冲神经网络模块的(88，10，5)脉冲序列数据。LIF神经元使用群体编码的机制来弥补单个神经元活动信息量的不足，可以使用该方式将神经元群体的信息编码反馈到脉冲神经网络的脉冲序列中。具体方式如公式(1-2)所示：

i是输入状态的序号，j是群体中LIF神经元的序号，A_P是群体编码后的刺激强度。

步骤4.1、运用可学习阈值的中间融合模块；

将经过群体编码的数据输入中间融合决策模块。中间融合决策模块由中间融合模块和控制决策模块组成。中间融合模块利用两个全连接层构成的LIF神经元来将两种模态数据对齐为两个(1，20)的一维向量，两个一维向量直接相连构成融合后的特征数据。

步骤4.2、控制决策模块

控制决策模块是利用脉冲神经网络搭建的四层全连接层，输入经过处理后的多模态数据，输出机器人的运动决策。将该控制决策模块嵌入到深度强化学习框架DDPG中，脉冲神经网络代替Actor网络进行脉冲形式的决策，并可以进行的自主试错学习。控制决策网络的输入为18维的激光雷达数据、64维度的事件相机数据、3维的速度信息以及3维的距离信息，共88维的状态信息，通过4层的全连接层进行动作决策，网络结构为88-256-256-256-2，最终的两个动作分别代表机器人左轮和右轮的速度大小，从而进行自主的感知与决策。训练完成后的模型，在ROS-Gazebo的环境中，通过人为添加移动的圆柱形障碍物来形成动态环境，从而实现机器人的动态避障。

为进一步探索可学习阈值在多模态强化学习中的性能，在中间融合模块和控制决策模块中都加入了可学习阈值的机制，赋予了脉冲神经网络阈值参数的可优化能力。在训练过程中，所有神经元的相应水平不仅取决于内部状态，还取决于阈值水平。在每一次网络的反向传播时会同时更新网络权重与神经元阈值。

机器人搭载二维激光雷达和事件相机用于感知环境；运用ROS-Gazebo模拟器中的静态Block障碍物搭建训练环境，设计n个难度逐渐增加的环境，以完成分场景分阶段的训练；在ROS-Gazebo模拟器中添加m个动态障碍物作为动态环境的测试场景，用于测试本方法的有效性；

该方法采用LIF神经元模型作为网络的主要神经元结构，采用DDPG作为深度强化学习的框架，机器人状态包括激光雷达数据、事件相机数据、距目标点的距离和上一时刻速度大小组成；动作由机器人的线速度与角速度组成；奖励函数包含每一时刻距离目标的状态(越近则为正奖励，反之亦然)，如果发生碰撞则为-20，如果到达目标点则为30，鼓励机器人每一步采取的动作幅度不要太大，即不能超过上一时刻角速度的1.7倍。

强化学习算法在Pytorch中实现。随机梯度下降被用于强化学习网络，其动量值为0.9，权重衰减为1e-4，学习率设置为1e-5，衰减因子为0.99，最大步长为150，批量大小为256。本发明实施例，2000000个训练路径后终止学习过程，在配备i7-7700 CPU和NVIDIAGTX 1080Ti GPU的计算机上训练该策略大约需要7个小时。为了验证该网络的有效性，将其与传统方法SAN模型，简单加入群体编码的POPSAN模型和具有动态阈值的BDETT模型进行比较以验证发明的有效性。并对模型中的提出的所有模块进行消融实验，证明每一部分的有效性。

图1(a)是基于多模态脉冲神经网络的机器人动态避障方法的结构，其由环境感知阶段和控制决策阶段组成，具体包括混合脉冲变分自编码器模块、群体编码模块、运用可学习阈值的中间融合模块以及运用可学习阈值的控制决策模块。以激光雷达数据与事件相机数据作为输入，用预先训练过的混合脉冲变分自编码器处理事件数据，融合两种模态后输入包含可学习阈值机制的脉冲神经网络，最后利用强化学习输出机器人的决策动作。

图2是机器人避障网络模型对比实验的可视化结果，其中图2(a-1)和图2(a-2)为SAN方法；图2(b-1)和图2(b-2)为POPSAN方法；图2(c-1)和图2(c-2)为BDETT方法；图2(d-1)和图2(d-2)为本发明的EEM-SAN方法。机器人在相同初始化的起点与终点中进行测试，每种方法进行200次测试。碰到墙壁或者动态障碍物则视为本轮失败，并标记在图右侧。走到终点是为本轮成功，并标记在左侧。通过4种方法的对比，可以看到本发明具有显著的优势，在面对其他方法难以处理的角落边缘位置时，本发明均能成功避开并抵达终点，证明了本发明在复杂场景中具有很大的优势。

对比实验的定量验证结果如表1所示。包括所有方法在两种不同测试地图动态和静态条件下的避障能力的定量性能。其中，成功率表示在200次测试中，机器人成功通过的比例。

表1

Claims

1.一种基于多模态脉冲神经网络的机器人动态避障方法，其特征在于，包括以下步骤：

步骤1、搭载机器人仿真模型；

2.根据权利要求1所述的基于多模态脉冲神经网络的机器人动态避障方法，其特征在于，所述机器人选择TurtleBot-ROS机器人的URDF模型作为实验机器人；所述x为128。

3.根据权利要求1或2所述的基于多模态脉冲神经网络的机器人动态避障方法，其特征在于，所述激光雷达数据为18维，所述事件相机数据为64维，所述机器人的速度信息以及机器人距离信息均为三维。