CN114037050A - 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 - Google Patents

一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 Download PDF

Info

Publication number
CN114037050A
CN114037050A CN202111230061.3A CN202111230061A CN114037050A CN 114037050 A CN114037050 A CN 114037050A CN 202111230061 A CN202111230061 A CN 202111230061A CN 114037050 A CN114037050 A CN 114037050A
Authority
CN
China
Prior art keywords
threshold
dynamic
robot
model
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111230061.3A
Other languages
English (en)
Other versions
CN114037050B (zh
Inventor
丁建川
杨鑫
董博
尹宝才
周运铎
王洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111230061.3A priority Critical patent/CN114037050B/zh
Priority to US17/556,578 priority patent/US11911902B2/en
Publication of CN114037050A publication Critical patent/CN114037050A/zh
Application granted granted Critical
Publication of CN114037050B publication Critical patent/CN114037050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1671Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Fuzzy Systems (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Optics & Photonics (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法。该方法包括动态能量阈值模块、动态时间阈值模块、生物合理的动态能量‑时间阈值融合模块以及突触场景搭建与自主学习模块。突触自主学习模块中的决策网络以激光雷达数据、距目标点的距离和上一时刻速度大小作为决策网络的状态输入,通过动态能量‑时间阈值的自主调节,输出机器人左轮和右轮的速度大小,从而进行自主的感知与决策。本发明解决了脉冲神经网络中,缺乏内在可塑性,从而导致模型稳态失衡难以适应退化环境的困难,并在移动机器人中成功部署,维持稳定的触发率,从而进行退化、干扰、噪声环境下的自主导航与避障,在不同退化场景上都具有有效性和适用性。

Description

一种基于脉冲神经网络内在可塑性的机器人退化环境避障 方法
技术领域
本发明属于类脑智能领域中的类脑机器人(Brain-like Robot)领域,具体实现结果为类脑机器人自主导航与避障,特别涉及一种具有脉冲神经元内在可塑性稳态的退化环境避障方法。
背景技术
机器人避障任务是在较为复杂的场景中,机器人可以自主地导航到目标点同时不与障碍物发生任何碰撞,具有重大的实际应用价值。随着人工智能技术的快速发展,机器人避障相关任务,例如扫地机器人、无人驾驶、智能仓库、智能物流等,都获得了显著的性能提升。
尽管一些基于人工神经网络的方法已成功应用于避障任务,但它们的高能耗限制了它们在机器人领域的大规模使用。作为第三代人工神经网络,脉冲神经网络(SpikingNeural Network)具有时间连续性、高能效、快速处理和生物合理性等特点,使其与避障任务的结合更加广泛且合理。
然而,大多数现有的脉冲神经网络只关注神经元之间的突触可塑性,而忽略了神经元的内在可塑性,即它们只关注突触权重的更新而将膜相关参数作为超参数,这会影响神经元维持其内部的稳态,从而限制了神经元的多样性以及模型的表达能力。内在可塑性的行为在许多物种的大脑区域中被发现,并且内在可塑性已被证明在塑造神经回路的动力学方面至关重要,它可以控制神经元的兴奋性和稳态,使整个神经网络保持最大活动。因此,简单地忽略SNN中的内在可塑性会破坏神经元内部稳态,从而限制脉冲神经网络的表达能力。
目前对内在可塑性应用的研究还处于起步阶段,现有的方法存在一些不足,如模型结构简单,固定参数,无生物学启发等,这使得他们难以利用内在可塑性的稳态。将常用的阈值超参数替换为生物学中观察到的动态脉冲触发阈值是神经元内在可塑性维持体内平衡的一种方式。然而,还没有任何工作将具有生物理论背景的动态脉冲阈值应用于基于脉冲神经网络的实际任务,因此设计生物启发的内在可塑性稳态模型是生物类脑机器人领域中一项亟待解决的任务。
因此本发明基于对现有脉冲模型的调查与分析,设计了一个生物合理的动态能量——时间阈值来实现神经元的内在可塑性,使其能够维持网络的稳态并最大化其活性。包括动态能量阈值和动态时间阈值,前者维持全局稳态,后者侧重于局部注意力,这两种阈值相互整合,同时保持模型的稳态。通过类脑机器人的避障导航任务得以验证其有效性。方法的输入是机器人平台搭载的激光雷达测距仪的数据,输出是机器人要采取的动作,包括线速度与角速度。该方法能够有效地适应不同的退化环境,使类脑机器人在具有干扰、噪声硬性的场景下,依然保持高效的避障导航决策,为缩小生物学和机器学习领域之间的差距提供了帮助。
发明内容
本发明的目的是针对脉冲神经网络内在可塑性稳态,通过设计生物合理的动态阈值实现退化环境下的机器人避障方法。该方法包括动态能量阈值模块、动态时间阈值模块、生物合理的动态能量——时间阈值融合模块以及突触场景搭建与自主学习模块。
本发明的技术方案为:
一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法,该方法包括以下步骤:
步骤1、动态能量阈值模块
基本的脉冲神经网络模型主要由膜电位、权重连接、触发阈值以及触发脉冲构成,本发明主要针对脉冲神经网络中的触发阈值进行改进,将原本的静态触发阈值替换为具有生物可解释的动态触发阈值,并且与膜电位相关联,实现模型的内在可塑性稳态。具体根据生物学中观察到的动态阈值与平均膜电位之间呈正相关的现象,设计动态能量阈值。根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态能量阈值
Figure BDA0003314034990000031
具体方式如公式(1-4)所示:
Figure BDA0003314034990000032
Figure BDA0003314034990000033
Figure BDA0003314034990000034
Figure BDA0003314034990000035
其中,Nl为第l层的神经元数量,η为斜率超参数,设置为0.2,
Figure BDA0003314034990000036
为t时刻第l层第i个神经元的膜电位数值,μ(·)为均值运算,σ(·)为标准差运算,
Figure BDA0003314034990000037
为t时刻第l层第i个神经元的触发阈值。
Figure BDA0003314034990000038
Figure BDA0003314034990000039
为层间关系的索引值,具体由同层所有神经元均值与最大最小范围差异的差值,以此来增强每个神经元与同层之间其他神经元的电位耦合性与敏感性。ψl(t)为同层中所有神经元的变异系数,以此来编码层间的电位波动,因为它可以描述相对于电位平均值的膜电位分布。因此,较慢的电压波动会导致较低的变异系数,从而提供更陡峭的斜率。阈值随着当前膜电位升高得更快,并使神经元对变化较小的电位不那么敏感;同时随着电位的快速波动,通过降低斜率的陡度使得动态能量阈值对当前电位更加敏感。
步骤2、动态时间阈值模块
根据生物学中观察到的动态阈值与之前去极化速率之间呈负相关的现象,设计动态时间阈值。根据当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态时间阈值
Figure BDA0003314034990000041
具体方式如公式(5-6)所示:
Figure BDA0003314034990000042
Figure BDA0003314034990000043
Figure BDA0003314034990000044
Figure BDA0003314034990000045
分别为t时刻与t+1时刻第l层第i个神经元的膜电位数值,
Figure BDA0003314034990000046
整体为单指数函数,其中a为指数衰减函数,其衰减率基于第l层前一个时间戳t中所有神经元动态阈值的平均值,采用层间的阈值关系,增强单个神经元与整体的耦合连接,使得膜电位去极化越高,时间阈值下降得越快。同时利用变异系数ψl(t+1)动态调整时间阈值对分层电位波动的敏感性,当层状电位波动较低时,时间阈值对之前的去极化速率更敏感,反之亦然。
步骤3、生物合理的动态能量-时间阈值融合模块
通过步骤1和步骤2获得两种阈值之后,融合得到最终的动态能量——时间阈值
Figure BDA0003314034990000047
具体方式如公式(7)所示:
Figure BDA0003314034990000048
采用动态能量阈值模块获取t时刻的
Figure BDA0003314034990000049
来保证动态阈值与平均膜电位之间的正相关关系;采用动态时间阈值模块获取t+1时刻的
Figure BDA00033140349900000410
来保证动态阈值与去极化速率之间的负相关关系。通过平均叠加的方式得到最终的动态能量-时间阈值
Figure BDA00033140349900000411
将其部署在脉冲神经网络中,替换基础的静态阈值,从而形成动态阈值脉冲模型,表现出模型的内在可塑性稳态;
步骤4、突触场景搭建与自主学习模块
通过步骤3得到动态能量-时间阈值
Figure BDA00033140349900000412
后,将其应用在Leaky Integrate-and-Fire神经元中,当膜电位达到阈值后触发脉冲,并传递给下一层,形成动态阈值脉冲模型。为了解决退化场景避障问题,首先搭建训练测试仿真环境,采用TurtleBot-ROS机器人的URDF模型作为实验机器人,搭载二维激光雷达和里程计传感器用来感知环境,形成机器人模型;将机器人模型导入ROS-Gazebo模拟器中,并在该模拟器中使用静态Block障碍物搭建多个难度逐渐增加的训练环境,以完成分场景分阶段的训练;在ROS-Gazebo中手动添加动态障碍物作为退化环境的测试场景,用于测试脉冲稳态模型的有效性。之后将动态阈值脉冲模型嵌入到深度强化学习框架DDPG中,代替Actor网络进行脉冲形式的决策,并可以进行突触权重的自主试错学习。决策网络的输入为18维的激光雷达数据、3维的速度信息以及3维的距离信息,共24维的状态信息,通过4层的全连接层进行动作决策,网络结构为24-256-256-256-2,最终的两个动作分别代表机器人左轮和右轮的速度大小,从而进行自主的感知与决策。训练完成后的动态阈值脉冲模型,在ROS-Gazebo的环境中,人为添加噪声干扰来形成退化环境,该动态阈值脉冲模型通过动态能量——时间阈值的自主调节,实现神经元的内在可塑性稳态,在退化、干扰、紧急的情况下依然保持稳定的触发率,从而完成类脑机器人的自主避障与导航。
本发明的有益效果:
(1)避障测试结果与效率
本发明解决了脉冲神经网络中,缺乏内在可塑性,从而导致模型稳态失衡难以适应退化环境的困难,并在移动机器人中成功部署,维持稳定的触发率,从而进行退化、干扰、噪声环境下的自主导航与避障。
本发明提出了一种新颖的生物可解释的动态能量-时间阈值方法,弥合了生物学研究和机器学习之间对内在可塑性稳态的差距。在不同的现实退化条件下的机器人避障任务中验证鲁棒性,并通过对比实验证明了该方法的有效性。具有更高稳态的模型可以更好地适应不同的退化条件,从而大大提高了成功率。对比实验中该方法在所有两个常用指标平均成功率和平均用时上均获得了最佳的性能,同时在稳态评估指标中保持了最稳定的平均触发率,并且在退化环境中具有很大的优势。
(2)适用性更广泛
本发明适用于在不同脉冲神经元模型以及不同退化场景下的类脑机器人避障与导航任务(a)静态训练模型在具有动态障碍物的测试场景;(b)模型的状态输入具有高斯干扰噪声
Figure BDA0003314034990000061
的测试场景;(c)模型的突触权重连接具有高斯噪声
Figure BDA0003314034990000062
的测试场景。证明了该方法在不同退化场景上的有效性和适用性。
附图说明
图1为本发明的网络模型结构。
图2为本发明的动态能量阈值模块示意图。
图3为本发明的动态时间阈值模块示意图。
图4为本发明实施实验的稳态结果。其中(a)为LIF模型平均触发率实验结果,(b)为LIF模型平均触发率的方差实验结果,(c)为LIF模型平均触发率方差的方差实验结果,(d)为SRM模型平均触发率实验结果,(e)为SRM模型平均触发率的方差实验结果,(f)为SRM模型平均触发率方差的方差实验结果。每个实验结果的测试场景从极坐标圆盘12点钟开始顺时针方向上的扇形依次为0.2状态干扰、0.6状态干扰、高斯噪声状态干扰、8位Loihi权重、高斯噪声权重和30%零权重的退化环境。对比测试模型在每个扇形内顺时针方向依次为SDDPG、连续SDDPG、Hao模型、Kim模型、动态能量阈值模型、动态时间阈值模型以及动态能量——时间阈值模型。
具体实施方式
下面结合附图和技术方案,进一步说明本发明的具体实施方式。
该方法采用LIF和SRM神经元模型作为网络的主要神经元结构,采用DDPG作为深度强化学习的框架,状态包括激光雷达数据、距目标点的距离和上一时刻速度大小组成;动作由类脑机器人的线速度与角速度组成;奖励函数包含每一时刻距离目标的状态(越近则为正奖励,反之亦然),如果发生碰撞则为-20,如果到达目标点则为30,鼓励机器人每一步采取的动作幅度不要太大,即不能超过上一时刻角速度的1.7倍。
强化学习算法在Pytorch中实现。随机梯度下降被用于强化学习网络,其动量值为0.9,权重衰减为1e-4,学习率设置为1e-5,衰减因子为0.99,最大步长为150,批量大小为256。本发明实施例,2000000个训练路径后终止学习过程,在配备i7-7700 CPU和NVIDIAGTX1080Ti GPU的计算机上训练该策略大约需要25个小时。为了验证该网络的有效性,将其与无内在可塑性的方法SDDPG和具有启发式内在可塑性方法Hao模型、Kim模型进行比较以验证发明的有效性。并对模型中的提出的所有模块进行消融实验,证明每一部分的有效性。
图1是生物合理的动态能量——时间阈值网络模型的结构。整个结构是针对第l层第i个神经元在t+1时刻的动态阈值生成过程的可视化,根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位、当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值计算而来。
图2是动态能量阈值模块的模型曲线示意图。当膜电位
Figure BDA0003314034990000071
小于
Figure BDA0003314034990000072
时,函数斜率较小,阈值以
Figure BDA0003314034990000073
为主。在相反的情况下,能量阈值具有更高的斜率以抑制较高的脉冲发射率。
图3是动态时间阈值模块的模型曲线示意图。与较大的ψl(t+1)相比,较低的ψl(t+1)提供了更陡的下降斜率。这意味着当层状膜电位波动较小时,动态时间阈值对之前的去极化率更敏感,反之亦然。
图4是类脑机器人避障过程中模型发射率稳态变化图,其中(a-c)是LIF神经元模型的测试结果,(d-f)是SRM神经元模型的测试结果。测试场景包括0.2状态干扰、0.6状态干扰、高斯噪声状态干扰、8位Loihi权重、高斯噪声权重和30%零权重的退化环境,在此场景中测试类脑机器人的避障与导航成功率,结果显示当从一种情况转移到另一种情况时,具有更强动态平衡的生物合理的动态能量——时间阈值会在所有的三个指标中产生较小的变化,变现出内在可塑性稳态,从而达到更高的成功率。

Claims (1)

1.一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法,其特征在于,步骤如下:
步骤1、动态能量阈值模块
本方法针对脉冲神经网络中的触发阈值进行改进,将原本的静态触发阈值替换为具有生物可解释的动态触发阈值,并且与膜电位相关联,实现脉冲神经网络的内在可塑性稳态;根据生物学中观察到的动态阈值与平均膜电位之间呈正相关,设计动态能量阈值;根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态能量阈值
Figure FDA0003314034980000019
具体方式如公式(1-4)所示:
Figure FDA0003314034980000011
Figure FDA0003314034980000012
Figure FDA0003314034980000013
Figure FDA0003314034980000014
其中,Nl为第l层的神经元数量,η为斜率超参数,设置为0.2,
Figure FDA0003314034980000015
为t时刻第l层第i个神经元的膜电位数值,μ(·)为均值运算,σ(·)为标准差运算,
Figure FDA0003314034980000016
为t时刻第l层第i个神经元的触发阈值;
Figure FDA0003314034980000017
Figure FDA0003314034980000018
为层间关系的索引值,具体由同层所有神经元均值与最大、最小范围差异的差值,以此来增强每个神经元与同层之间其他神经元的电位耦合性与敏感性;ψl(t)为同层中所有神经元的变异系数,以此来编码层间的电位波动,因为它用于描述相对于电位平均值的膜电位分布;
步骤2、动态时间阈值模块
根据生物学中观察到的动态阈值与之前去极化速率之间呈负相关,设计动态时间阈值;根据当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态时间阈值
Figure FDA0003314034980000021
具体方式如公式(5-6)所示:
Figure FDA0003314034980000022
Figure FDA0003314034980000023
Figure FDA0003314034980000024
Figure FDA0003314034980000025
分别为t时刻与t+1时刻第l层第i个神经元的膜电位数值,
Figure FDA0003314034980000026
为单指数函数,其中a为指数衰减函数,其衰减率基于第l层前一个时间戳t中所有神经元动态阈值的平均值,采用层间的阈值关系,增强单个神经元与整体的耦合连接,使得膜电位去极化越高,时间阈值下降得越快;同时利用变异系数
Figure FDA0003314034980000027
动态调整时间阈值对分层电位波动的敏感性,当层状电位波动较低时,时间阈值对之前的去极化速率更敏感,反之亦然;
步骤3、生物合理的动态能量-时间阈值融合模块
通过步骤1和步骤2获得两种阈值之后,融合得到最终的动态能量-时间阈值
Figure FDA0003314034980000028
具体方式如公式(7)所示:
Figure FDA0003314034980000029
采用动态能量阈值模块获取t时刻的
Figure FDA00033140349800000210
来保证动态阈值与平均膜电位之间的正相关关系;采用动态时间阈值模块获取t+1时刻的
Figure FDA00033140349800000211
来保证动态阈值与去极化速率之间的负相关关系;通过平均叠加的方式得到最终的动态能量-时间阈值
Figure FDA00033140349800000212
将其部署在脉冲神经网络中,替换基础的静态阈值,从而形成动态阈值脉冲模型,表现出模型的内在可塑性稳态;
步骤4、突触场景搭建与自主学习模块
通过步骤3得到动态能量-时间阈值
Figure FDA00033140349800000213
后,将其应用在Leaky Integrate-and-Fire神经元中,当膜电位达到动态脉冲阈值后触发脉冲,并传递给下一层,形成动态阈值脉冲模型;为了解决退化场景避障问题,首先搭建训练测试仿真环境,采用TurtleBot-ROS机器人的URDF模型作为实验机器人,搭载二维激光雷达和里程计传感器用来感知环境,形成机器人模型;将机器人模型导入ROS-Gazebo模拟器中,并在该ROS-Gazebo模拟器中使用静态Block障碍物搭建多个难度逐渐增加的训练环境,以完成分场景分阶段的训练;在ROS-Gazebo模拟器中手动添加动态障碍物作为退化环境的测试场景,用于测试脉冲稳态模型的有效性;之后将动态阈值脉冲模型嵌入到深度强化学习框架DDPG中,代替Actor网络进行脉冲形式的决策,并可进行突触权重的自主试错学习;决策网络的输入为18维的激光雷达数据、3维的速度信息以及3维的距离信息,共24维的状态信息,通过4层的全连接层进行动作决策,网络结构为24-256-256-256-2,最终的两个动作分别代表机器人左轮和右轮的速度大小,从而进行自主的感知与决策;训练完成后的动态阈值脉冲模型,在ROS-Gazebo模拟器的环境中,人为添加噪声干扰来形成退化环境,该动态阈值脉冲模型通过动态能量-时间阈值的自主调节,实现神经元的内在可塑性稳态,在退化、干扰、紧急的情况下依然保持稳定的触发率,从而完成类脑机器人的自主避障与导航。
CN202111230061.3A 2021-10-21 2021-10-21 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 Active CN114037050B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111230061.3A CN114037050B (zh) 2021-10-21 2021-10-21 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法
US17/556,578 US11911902B2 (en) 2021-10-21 2021-12-20 Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of SNN

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111230061.3A CN114037050B (zh) 2021-10-21 2021-10-21 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法

Publications (2)

Publication Number Publication Date
CN114037050A true CN114037050A (zh) 2022-02-11
CN114037050B CN114037050B (zh) 2022-08-16

Family

ID=80135106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111230061.3A Active CN114037050B (zh) 2021-10-21 2021-10-21 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法

Country Status (2)

Country Link
US (1) US11911902B2 (zh)
CN (1) CN114037050B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970829A (zh) * 2022-06-08 2022-08-30 中国电信股份有限公司 脉冲信号处理方法、装置、设备及存储
CN116382267A (zh) * 2023-03-09 2023-07-04 大连理工大学 一种基于多模态脉冲神经网络的机器人动态避障方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480597A (zh) * 2017-07-18 2017-12-15 南京信息工程大学 一种基于神经网络模型的机器人避障方法
CN110210563A (zh) * 2019-06-04 2019-09-06 北京大学 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法
WO2021012752A1 (zh) * 2019-07-23 2021-01-28 中建三局智能技术有限公司 一种基于脉冲神经网络的短程跟踪方法及系统
CN112364774A (zh) * 2020-11-12 2021-02-12 天津大学 一种基于脉冲神经网络的无人车类脑自主避障方法及系统
CN112767373A (zh) * 2021-01-27 2021-05-07 大连理工大学 一种基于单目相机的机器人室内复杂场景避障方法
CN112949819A (zh) * 2021-01-26 2021-06-11 首都师范大学 基于忆阻器的自供能设备及其脉冲神经网络优化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990133B1 (en) * 2012-12-20 2015-03-24 Brain Corporation Apparatus and methods for state-dependent learning in spiking neuron networks
US9542643B2 (en) * 2013-05-21 2017-01-10 Qualcomm Incorporated Efficient hardware implementation of spiking networks
US9384443B2 (en) * 2013-06-14 2016-07-05 Brain Corporation Robotic training apparatus and methods
US9436909B2 (en) * 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US20150269482A1 (en) * 2014-03-24 2015-09-24 Qualcomm Incorporated Artificial neural network and perceptron learning using spiking neurons
KR102502261B1 (ko) * 2020-08-20 2023-02-22 서울대학교 산학협력단 스파이킹 뉴럴 네트워크의 뉴런 문턱값 변동 보상

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480597A (zh) * 2017-07-18 2017-12-15 南京信息工程大学 一种基于神经网络模型的机器人避障方法
CN110210563A (zh) * 2019-06-04 2019-09-06 北京大学 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法
WO2021012752A1 (zh) * 2019-07-23 2021-01-28 中建三局智能技术有限公司 一种基于脉冲神经网络的短程跟踪方法及系统
CN112364774A (zh) * 2020-11-12 2021-02-12 天津大学 一种基于脉冲神经网络的无人车类脑自主避障方法及系统
CN112949819A (zh) * 2021-01-26 2021-06-11 首都师范大学 基于忆阻器的自供能设备及其脉冲神经网络优化方法
CN112767373A (zh) * 2021-01-27 2021-05-07 大连理工大学 一种基于单目相机的机器人室内复杂场景避障方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尹宝才 等: "采用自适应缩放系数优化的块匹配运动估计", 《软件学报》 *
杨鑫: "锚泊系统的快速计算方法及应用", 《港口科技》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970829A (zh) * 2022-06-08 2022-08-30 中国电信股份有限公司 脉冲信号处理方法、装置、设备及存储
CN114970829B (zh) * 2022-06-08 2023-11-17 中国电信股份有限公司 脉冲信号处理方法、装置、设备及存储
CN116382267A (zh) * 2023-03-09 2023-07-04 大连理工大学 一种基于多模态脉冲神经网络的机器人动态避障方法
CN116382267B (zh) * 2023-03-09 2023-09-05 大连理工大学 一种基于多模态脉冲神经网络的机器人动态避障方法

Also Published As

Publication number Publication date
CN114037050B (zh) 2022-08-16
US20230166397A1 (en) 2023-06-01
US11911902B2 (en) 2024-02-27

Similar Documents

Publication Publication Date Title
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN114037050B (zh) 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法
CN116382267B (zh) 一种基于多模态脉冲神经网络的机器人动态避障方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Grando et al. Deep reinforcement learning for mapless navigation of unmanned aerial vehicles
Lai et al. Sim-to-real transfer for quadrupedal locomotion via terrain transformer
CN111811532B (zh) 基于脉冲神经网络的路径规划方法和装置
Qiao et al. Application of reinforcement learning based on neural network to dynamic obstacle avoidance
Li et al. Vision-based obstacle avoidance algorithm for mobile robot
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
He et al. Intelligent navigation of indoor robot based on improved DDPG algorithm
Nurmaini et al. Enhancement of the fuzzy control response with particle swarm optimization in mobile robot system
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
Yun et al. Mobile robot navigation: neural Q-learning
CN108459614B (zh) 一种基于cw-rnn网络的uuv实时避碰规划方法
Chouraqui et al. Unmanned vehicle trajectory tracking by neural networks
Nguyen et al. Nonlinear control with neural networks
Saleh et al. Modeling and control of 3-omni wheel Robot using PSO optimization and Neural Network
Peng et al. An Improved DDPG Algorithm for UAV Navigation in Large-Scale Complex Environments
Andrakhanov Navigation of autonomous mobile robot in homogeneous and heterogeneous environments on basis of GMDH neural networks
Zhaowei et al. Vision-based behavior for UAV reactive avoidance by using a reinforcement learning method
Martinez et al. Deep reinforcement learning oriented for real world dynamic scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant