CN114037050A

CN114037050A - 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法

Info

Publication number: CN114037050A
Application number: CN202111230061.3A
Authority: CN
Inventors: 丁建川; 杨鑫; 董博; 尹宝才; 周运铎; 王洋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-02-11
Anticipated expiration: 2041-10-21
Also published as: US20230166397A1; CN114037050B; US11911902B2

Abstract

本发明公开了一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法。该方法包括动态能量阈值模块、动态时间阈值模块、生物合理的动态能量‑时间阈值融合模块以及突触场景搭建与自主学习模块。突触自主学习模块中的决策网络以激光雷达数据、距目标点的距离和上一时刻速度大小作为决策网络的状态输入，通过动态能量‑时间阈值的自主调节，输出机器人左轮和右轮的速度大小，从而进行自主的感知与决策。本发明解决了脉冲神经网络中，缺乏内在可塑性，从而导致模型稳态失衡难以适应退化环境的困难，并在移动机器人中成功部署，维持稳定的触发率，从而进行退化、干扰、噪声环境下的自主导航与避障，在不同退化场景上都具有有效性和适用性。

Description

一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法

技术领域

本发明属于类脑智能领域中的类脑机器人(Brain-like Robot)领域，具体实现结果为类脑机器人自主导航与避障，特别涉及一种具有脉冲神经元内在可塑性稳态的退化环境避障方法。

背景技术

机器人避障任务是在较为复杂的场景中，机器人可以自主地导航到目标点同时不与障碍物发生任何碰撞，具有重大的实际应用价值。随着人工智能技术的快速发展，机器人避障相关任务，例如扫地机器人、无人驾驶、智能仓库、智能物流等，都获得了显著的性能提升。

尽管一些基于人工神经网络的方法已成功应用于避障任务，但它们的高能耗限制了它们在机器人领域的大规模使用。作为第三代人工神经网络，脉冲神经网络(SpikingNeural Network)具有时间连续性、高能效、快速处理和生物合理性等特点，使其与避障任务的结合更加广泛且合理。

然而，大多数现有的脉冲神经网络只关注神经元之间的突触可塑性，而忽略了神经元的内在可塑性，即它们只关注突触权重的更新而将膜相关参数作为超参数，这会影响神经元维持其内部的稳态，从而限制了神经元的多样性以及模型的表达能力。内在可塑性的行为在许多物种的大脑区域中被发现，并且内在可塑性已被证明在塑造神经回路的动力学方面至关重要，它可以控制神经元的兴奋性和稳态，使整个神经网络保持最大活动。因此，简单地忽略SNN中的内在可塑性会破坏神经元内部稳态，从而限制脉冲神经网络的表达能力。

目前对内在可塑性应用的研究还处于起步阶段，现有的方法存在一些不足，如模型结构简单，固定参数，无生物学启发等，这使得他们难以利用内在可塑性的稳态。将常用的阈值超参数替换为生物学中观察到的动态脉冲触发阈值是神经元内在可塑性维持体内平衡的一种方式。然而，还没有任何工作将具有生物理论背景的动态脉冲阈值应用于基于脉冲神经网络的实际任务，因此设计生物启发的内在可塑性稳态模型是生物类脑机器人领域中一项亟待解决的任务。

因此本发明基于对现有脉冲模型的调查与分析，设计了一个生物合理的动态能量——时间阈值来实现神经元的内在可塑性，使其能够维持网络的稳态并最大化其活性。包括动态能量阈值和动态时间阈值，前者维持全局稳态，后者侧重于局部注意力，这两种阈值相互整合，同时保持模型的稳态。通过类脑机器人的避障导航任务得以验证其有效性。方法的输入是机器人平台搭载的激光雷达测距仪的数据，输出是机器人要采取的动作，包括线速度与角速度。该方法能够有效地适应不同的退化环境，使类脑机器人在具有干扰、噪声硬性的场景下，依然保持高效的避障导航决策，为缩小生物学和机器学习领域之间的差距提供了帮助。

发明内容

本发明的目的是针对脉冲神经网络内在可塑性稳态，通过设计生物合理的动态阈值实现退化环境下的机器人避障方法。该方法包括动态能量阈值模块、动态时间阈值模块、生物合理的动态能量——时间阈值融合模块以及突触场景搭建与自主学习模块。

本发明的技术方案为：

一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法，该方法包括以下步骤：

步骤1、动态能量阈值模块

基本的脉冲神经网络模型主要由膜电位、权重连接、触发阈值以及触发脉冲构成，本发明主要针对脉冲神经网络中的触发阈值进行改进，将原本的静态触发阈值替换为具有生物可解释的动态触发阈值，并且与膜电位相关联，实现模型的内在可塑性稳态。具体根据生物学中观察到的动态阈值与平均膜电位之间呈正相关的现象，设计动态能量阈值。根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位以及同层所有神经元的触发阈值，为每个神经元计算当前时刻的动态能量阈值

具体方式如公式(1-4)所示：

其中，N^l为第l层的神经元数量，η为斜率超参数，设置为0.2，

为t时刻第l层第i个神经元的膜电位数值，μ(·)为均值运算，σ(·)为标准差运算，

为t时刻第l层第i个神经元的触发阈值。

与

为层间关系的索引值，具体由同层所有神经元均值与最大最小范围差异的差值，以此来增强每个神经元与同层之间其他神经元的电位耦合性与敏感性。ψ^l(t)为同层中所有神经元的变异系数，以此来编码层间的电位波动，因为它可以描述相对于电位平均值的膜电位分布。因此，较慢的电压波动会导致较低的变异系数，从而提供更陡峭的斜率。阈值随着当前膜电位升高得更快，并使神经元对变化较小的电位不那么敏感；同时随着电位的快速波动，通过降低斜率的陡度使得动态能量阈值对当前电位更加敏感。

步骤2、动态时间阈值模块

根据生物学中观察到的动态阈值与之前去极化速率之间呈负相关的现象，设计动态时间阈值。根据当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值，为每个神经元计算当前时刻的动态时间阈值

具体方式如公式(5-6)所示：

与

分别为t时刻与t+1时刻第l层第i个神经元的膜电位数值，

整体为单指数函数，其中a为指数衰减函数，其衰减率基于第l层前一个时间戳t中所有神经元动态阈值的平均值，采用层间的阈值关系，增强单个神经元与整体的耦合连接，使得膜电位去极化越高，时间阈值下降得越快。同时利用变异系数ψ^l(t+1)动态调整时间阈值对分层电位波动的敏感性，当层状电位波动较低时，时间阈值对之前的去极化速率更敏感，反之亦然。

步骤3、生物合理的动态能量-时间阈值融合模块

通过步骤1和步骤2获得两种阈值之后，融合得到最终的动态能量——时间阈值

具体方式如公式(7)所示：

采用动态能量阈值模块获取t时刻的

来保证动态阈值与平均膜电位之间的正相关关系；采用动态时间阈值模块获取t+1时刻的

来保证动态阈值与去极化速率之间的负相关关系。通过平均叠加的方式得到最终的动态能量-时间阈值

将其部署在脉冲神经网络中，替换基础的静态阈值，从而形成动态阈值脉冲模型，表现出模型的内在可塑性稳态；

步骤4、突触场景搭建与自主学习模块

通过步骤3得到动态能量-时间阈值

后，将其应用在Leaky Integrate-and-Fire神经元中，当膜电位达到阈值后触发脉冲，并传递给下一层，形成动态阈值脉冲模型。为了解决退化场景避障问题，首先搭建训练测试仿真环境，采用TurtleBot-ROS机器人的URDF模型作为实验机器人，搭载二维激光雷达和里程计传感器用来感知环境，形成机器人模型；将机器人模型导入ROS-Gazebo模拟器中，并在该模拟器中使用静态Block障碍物搭建多个难度逐渐增加的训练环境，以完成分场景分阶段的训练；在ROS-Gazebo中手动添加动态障碍物作为退化环境的测试场景，用于测试脉冲稳态模型的有效性。之后将动态阈值脉冲模型嵌入到深度强化学习框架DDPG中，代替Actor网络进行脉冲形式的决策，并可以进行突触权重的自主试错学习。决策网络的输入为18维的激光雷达数据、3维的速度信息以及3维的距离信息，共24维的状态信息，通过4层的全连接层进行动作决策，网络结构为24-256-256-256-2，最终的两个动作分别代表机器人左轮和右轮的速度大小，从而进行自主的感知与决策。训练完成后的动态阈值脉冲模型，在ROS-Gazebo的环境中，人为添加噪声干扰来形成退化环境，该动态阈值脉冲模型通过动态能量——时间阈值的自主调节，实现神经元的内在可塑性稳态，在退化、干扰、紧急的情况下依然保持稳定的触发率，从而完成类脑机器人的自主避障与导航。

本发明的有益效果：

(1)避障测试结果与效率

本发明解决了脉冲神经网络中，缺乏内在可塑性，从而导致模型稳态失衡难以适应退化环境的困难，并在移动机器人中成功部署，维持稳定的触发率，从而进行退化、干扰、噪声环境下的自主导航与避障。

本发明提出了一种新颖的生物可解释的动态能量-时间阈值方法，弥合了生物学研究和机器学习之间对内在可塑性稳态的差距。在不同的现实退化条件下的机器人避障任务中验证鲁棒性，并通过对比实验证明了该方法的有效性。具有更高稳态的模型可以更好地适应不同的退化条件，从而大大提高了成功率。对比实验中该方法在所有两个常用指标平均成功率和平均用时上均获得了最佳的性能，同时在稳态评估指标中保持了最稳定的平均触发率，并且在退化环境中具有很大的优势。

(2)适用性更广泛

本发明适用于在不同脉冲神经元模型以及不同退化场景下的类脑机器人避障与导航任务(a)静态训练模型在具有动态障碍物的测试场景；(b)模型的状态输入具有高斯干扰噪声

的测试场景；(c)模型的突触权重连接具有高斯噪声

的测试场景。证明了该方法在不同退化场景上的有效性和适用性。

附图说明

图1为本发明的网络模型结构。

图2为本发明的动态能量阈值模块示意图。

图3为本发明的动态时间阈值模块示意图。

图4为本发明实施实验的稳态结果。其中(a)为LIF模型平均触发率实验结果，(b)为LIF模型平均触发率的方差实验结果，(c)为LIF模型平均触发率方差的方差实验结果，(d)为SRM模型平均触发率实验结果，(e)为SRM模型平均触发率的方差实验结果，(f)为SRM模型平均触发率方差的方差实验结果。每个实验结果的测试场景从极坐标圆盘12点钟开始顺时针方向上的扇形依次为0.2状态干扰、0.6状态干扰、高斯噪声状态干扰、8位Loihi权重、高斯噪声权重和30％零权重的退化环境。对比测试模型在每个扇形内顺时针方向依次为SDDPG、连续SDDPG、Hao模型、Kim模型、动态能量阈值模型、动态时间阈值模型以及动态能量——时间阈值模型。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

该方法采用LIF和SRM神经元模型作为网络的主要神经元结构，采用DDPG作为深度强化学习的框架，状态包括激光雷达数据、距目标点的距离和上一时刻速度大小组成；动作由类脑机器人的线速度与角速度组成；奖励函数包含每一时刻距离目标的状态(越近则为正奖励，反之亦然)，如果发生碰撞则为-20，如果到达目标点则为30，鼓励机器人每一步采取的动作幅度不要太大，即不能超过上一时刻角速度的1.7倍。

强化学习算法在Pytorch中实现。随机梯度下降被用于强化学习网络，其动量值为0.9，权重衰减为1e-4，学习率设置为1e-5，衰减因子为0.99，最大步长为150，批量大小为256。本发明实施例,2000000个训练路径后终止学习过程，在配备i7-7700 CPU和NVIDIAGTX1080Ti GPU的计算机上训练该策略大约需要25个小时。为了验证该网络的有效性，将其与无内在可塑性的方法SDDPG和具有启发式内在可塑性方法Hao模型、Kim模型进行比较以验证发明的有效性。并对模型中的提出的所有模块进行消融实验，证明每一部分的有效性。

图1是生物合理的动态能量——时间阈值网络模型的结构。整个结构是针对第l层第i个神经元在t+1时刻的动态阈值生成过程的可视化，根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位、当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值计算而来。

图2是动态能量阈值模块的模型曲线示意图。当膜电位

小于

时，函数斜率较小，阈值以

为主。在相反的情况下，能量阈值具有更高的斜率以抑制较高的脉冲发射率。

图3是动态时间阈值模块的模型曲线示意图。与较大的ψ^l(t+1)相比，较低的ψ^l(t+1)提供了更陡的下降斜率。这意味着当层状膜电位波动较小时，动态时间阈值对之前的去极化率更敏感，反之亦然。

图4是类脑机器人避障过程中模型发射率稳态变化图，其中(a-c)是LIF神经元模型的测试结果，(d-f)是SRM神经元模型的测试结果。测试场景包括0.2状态干扰、0.6状态干扰、高斯噪声状态干扰、8位Loihi权重、高斯噪声权重和30％零权重的退化环境，在此场景中测试类脑机器人的避障与导航成功率，结果显示当从一种情况转移到另一种情况时，具有更强动态平衡的生物合理的动态能量——时间阈值会在所有的三个指标中产生较小的变化，变现出内在可塑性稳态，从而达到更高的成功率。

Claims

1.一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法，其特征在于，步骤如下：

步骤1、动态能量阈值模块

本方法针对脉冲神经网络中的触发阈值进行改进，将原本的静态触发阈值替换为具有生物可解释的动态触发阈值，并且与膜电位相关联，实现脉冲神经网络的内在可塑性稳态；根据生物学中观察到的动态阈值与平均膜电位之间呈正相关，设计动态能量阈值；根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位以及同层所有神经元的触发阈值，为每个神经元计算当前时刻的动态能量阈值

具体方式如公式(1-4)所示：

为t时刻第l层第i个神经元的触发阈值；

与

为层间关系的索引值，具体由同层所有神经元均值与最大、最小范围差异的差值，以此来增强每个神经元与同层之间其他神经元的电位耦合性与敏感性；ψ^l(t)为同层中所有神经元的变异系数，以此来编码层间的电位波动，因为它用于描述相对于电位平均值的膜电位分布；

步骤2、动态时间阈值模块

根据生物学中观察到的动态阈值与之前去极化速率之间呈负相关，设计动态时间阈值；根据当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值，为每个神经元计算当前时刻的动态时间阈值

具体方式如公式(5-6)所示：

与

分别为t时刻与t+1时刻第l层第i个神经元的膜电位数值，

为单指数函数，其中a为指数衰减函数，其衰减率基于第l层前一个时间戳t中所有神经元动态阈值的平均值，采用层间的阈值关系，增强单个神经元与整体的耦合连接，使得膜电位去极化越高，时间阈值下降得越快；同时利用变异系数

动态调整时间阈值对分层电位波动的敏感性，当层状电位波动较低时，时间阈值对之前的去极化速率更敏感，反之亦然；

步骤3、生物合理的动态能量-时间阈值融合模块

通过步骤1和步骤2获得两种阈值之后，融合得到最终的动态能量-时间阈值

具体方式如公式(7)所示：

采用动态能量阈值模块获取t时刻的

来保证动态阈值与去极化速率之间的负相关关系；通过平均叠加的方式得到最终的动态能量-时间阈值

步骤4、突触场景搭建与自主学习模块

通过步骤3得到动态能量-时间阈值

后，将其应用在Leaky Integrate-and-Fire神经元中，当膜电位达到动态脉冲阈值后触发脉冲，并传递给下一层，形成动态阈值脉冲模型；为了解决退化场景避障问题，首先搭建训练测试仿真环境，采用TurtleBot-ROS机器人的URDF模型作为实验机器人，搭载二维激光雷达和里程计传感器用来感知环境，形成机器人模型；将机器人模型导入ROS-Gazebo模拟器中，并在该ROS-Gazebo模拟器中使用静态Block障碍物搭建多个难度逐渐增加的训练环境，以完成分场景分阶段的训练；在ROS-Gazebo模拟器中手动添加动态障碍物作为退化环境的测试场景，用于测试脉冲稳态模型的有效性；之后将动态阈值脉冲模型嵌入到深度强化学习框架DDPG中，代替Actor网络进行脉冲形式的决策，并可进行突触权重的自主试错学习；决策网络的输入为18维的激光雷达数据、3维的速度信息以及3维的距离信息，共24维的状态信息，通过4层的全连接层进行动作决策，网络结构为24-256-256-256-2，最终的两个动作分别代表机器人左轮和右轮的速度大小，从而进行自主的感知与决策；训练完成后的动态阈值脉冲模型，在ROS-Gazebo模拟器的环境中，人为添加噪声干扰来形成退化环境，该动态阈值脉冲模型通过动态能量-时间阈值的自主调节，实现神经元的内在可塑性稳态，在退化、干扰、紧急的情况下依然保持稳定的触发率，从而完成类脑机器人的自主避障与导航。