CN114037050A - 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 - Google Patents
一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 Download PDFInfo
- Publication number
- CN114037050A CN114037050A CN202111230061.3A CN202111230061A CN114037050A CN 114037050 A CN114037050 A CN 114037050A CN 202111230061 A CN202111230061 A CN 202111230061A CN 114037050 A CN114037050 A CN 114037050A
- Authority
- CN
- China
- Prior art keywords
- threshold
- dynamic
- robot
- model
- pulse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 24
- 230000015556 catabolic process Effects 0.000 title claims abstract description 24
- 238000006731 degradation reaction Methods 0.000 title claims abstract description 24
- 230000000946 synaptic effect Effects 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 230000008447 perception Effects 0.000 claims abstract description 3
- 210000002569 neuron Anatomy 0.000 claims description 56
- 239000012528 membrane Substances 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 22
- 230000028161 membrane depolarization Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 7
- 230000003068 static effect Effects 0.000 claims description 7
- 230000002787 reinforcement Effects 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 claims 14
- 239000011229 interlayer Substances 0.000 claims 2
- 230000001960 triggered effect Effects 0.000 claims 1
- 210000000225 synapse Anatomy 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012421 spiking Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 230000013632 homeostatic process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000006776 neuronal homeostasis Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008587 neuronal excitability Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000003956 synaptic plasticity Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
- B25J9/1666—Avoiding collision or forbidden zones
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1671—Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Fuzzy Systems (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Databases & Information Systems (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法。该方法包括动态能量阈值模块、动态时间阈值模块、生物合理的动态能量‑时间阈值融合模块以及突触场景搭建与自主学习模块。突触自主学习模块中的决策网络以激光雷达数据、距目标点的距离和上一时刻速度大小作为决策网络的状态输入,通过动态能量‑时间阈值的自主调节,输出机器人左轮和右轮的速度大小,从而进行自主的感知与决策。本发明解决了脉冲神经网络中,缺乏内在可塑性,从而导致模型稳态失衡难以适应退化环境的困难,并在移动机器人中成功部署,维持稳定的触发率,从而进行退化、干扰、噪声环境下的自主导航与避障,在不同退化场景上都具有有效性和适用性。
Description
技术领域
本发明属于类脑智能领域中的类脑机器人(Brain-like Robot)领域,具体实现结果为类脑机器人自主导航与避障,特别涉及一种具有脉冲神经元内在可塑性稳态的退化环境避障方法。
背景技术
机器人避障任务是在较为复杂的场景中,机器人可以自主地导航到目标点同时不与障碍物发生任何碰撞,具有重大的实际应用价值。随着人工智能技术的快速发展,机器人避障相关任务,例如扫地机器人、无人驾驶、智能仓库、智能物流等,都获得了显著的性能提升。
尽管一些基于人工神经网络的方法已成功应用于避障任务,但它们的高能耗限制了它们在机器人领域的大规模使用。作为第三代人工神经网络,脉冲神经网络(SpikingNeural Network)具有时间连续性、高能效、快速处理和生物合理性等特点,使其与避障任务的结合更加广泛且合理。
然而,大多数现有的脉冲神经网络只关注神经元之间的突触可塑性,而忽略了神经元的内在可塑性,即它们只关注突触权重的更新而将膜相关参数作为超参数,这会影响神经元维持其内部的稳态,从而限制了神经元的多样性以及模型的表达能力。内在可塑性的行为在许多物种的大脑区域中被发现,并且内在可塑性已被证明在塑造神经回路的动力学方面至关重要,它可以控制神经元的兴奋性和稳态,使整个神经网络保持最大活动。因此,简单地忽略SNN中的内在可塑性会破坏神经元内部稳态,从而限制脉冲神经网络的表达能力。
目前对内在可塑性应用的研究还处于起步阶段,现有的方法存在一些不足,如模型结构简单,固定参数,无生物学启发等,这使得他们难以利用内在可塑性的稳态。将常用的阈值超参数替换为生物学中观察到的动态脉冲触发阈值是神经元内在可塑性维持体内平衡的一种方式。然而,还没有任何工作将具有生物理论背景的动态脉冲阈值应用于基于脉冲神经网络的实际任务,因此设计生物启发的内在可塑性稳态模型是生物类脑机器人领域中一项亟待解决的任务。
因此本发明基于对现有脉冲模型的调查与分析,设计了一个生物合理的动态能量——时间阈值来实现神经元的内在可塑性,使其能够维持网络的稳态并最大化其活性。包括动态能量阈值和动态时间阈值,前者维持全局稳态,后者侧重于局部注意力,这两种阈值相互整合,同时保持模型的稳态。通过类脑机器人的避障导航任务得以验证其有效性。方法的输入是机器人平台搭载的激光雷达测距仪的数据,输出是机器人要采取的动作,包括线速度与角速度。该方法能够有效地适应不同的退化环境,使类脑机器人在具有干扰、噪声硬性的场景下,依然保持高效的避障导航决策,为缩小生物学和机器学习领域之间的差距提供了帮助。
发明内容
本发明的目的是针对脉冲神经网络内在可塑性稳态,通过设计生物合理的动态阈值实现退化环境下的机器人避障方法。该方法包括动态能量阈值模块、动态时间阈值模块、生物合理的动态能量——时间阈值融合模块以及突触场景搭建与自主学习模块。
本发明的技术方案为:
一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法,该方法包括以下步骤:
步骤1、动态能量阈值模块
基本的脉冲神经网络模型主要由膜电位、权重连接、触发阈值以及触发脉冲构成,本发明主要针对脉冲神经网络中的触发阈值进行改进,将原本的静态触发阈值替换为具有生物可解释的动态触发阈值,并且与膜电位相关联,实现模型的内在可塑性稳态。具体根据生物学中观察到的动态阈值与平均膜电位之间呈正相关的现象,设计动态能量阈值。根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态能量阈值具体方式如公式(1-4)所示:
其中,Nl为第l层的神经元数量,η为斜率超参数,设置为0.2,为t时刻第l层第i个神经元的膜电位数值,μ(·)为均值运算,σ(·)为标准差运算,为t时刻第l层第i个神经元的触发阈值。与为层间关系的索引值,具体由同层所有神经元均值与最大最小范围差异的差值,以此来增强每个神经元与同层之间其他神经元的电位耦合性与敏感性。ψl(t)为同层中所有神经元的变异系数,以此来编码层间的电位波动,因为它可以描述相对于电位平均值的膜电位分布。因此,较慢的电压波动会导致较低的变异系数,从而提供更陡峭的斜率。阈值随着当前膜电位升高得更快,并使神经元对变化较小的电位不那么敏感;同时随着电位的快速波动,通过降低斜率的陡度使得动态能量阈值对当前电位更加敏感。
步骤2、动态时间阈值模块
根据生物学中观察到的动态阈值与之前去极化速率之间呈负相关的现象,设计动态时间阈值。根据当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态时间阈值具体方式如公式(5-6)所示:
与分别为t时刻与t+1时刻第l层第i个神经元的膜电位数值,整体为单指数函数,其中a为指数衰减函数,其衰减率基于第l层前一个时间戳t中所有神经元动态阈值的平均值,采用层间的阈值关系,增强单个神经元与整体的耦合连接,使得膜电位去极化越高,时间阈值下降得越快。同时利用变异系数ψl(t+1)动态调整时间阈值对分层电位波动的敏感性,当层状电位波动较低时,时间阈值对之前的去极化速率更敏感,反之亦然。
步骤3、生物合理的动态能量-时间阈值融合模块
采用动态能量阈值模块获取t时刻的来保证动态阈值与平均膜电位之间的正相关关系;采用动态时间阈值模块获取t+1时刻的来保证动态阈值与去极化速率之间的负相关关系。通过平均叠加的方式得到最终的动态能量-时间阈值将其部署在脉冲神经网络中,替换基础的静态阈值,从而形成动态阈值脉冲模型,表现出模型的内在可塑性稳态;
步骤4、突触场景搭建与自主学习模块
通过步骤3得到动态能量-时间阈值后,将其应用在Leaky Integrate-and-Fire神经元中,当膜电位达到阈值后触发脉冲,并传递给下一层,形成动态阈值脉冲模型。为了解决退化场景避障问题,首先搭建训练测试仿真环境,采用TurtleBot-ROS机器人的URDF模型作为实验机器人,搭载二维激光雷达和里程计传感器用来感知环境,形成机器人模型;将机器人模型导入ROS-Gazebo模拟器中,并在该模拟器中使用静态Block障碍物搭建多个难度逐渐增加的训练环境,以完成分场景分阶段的训练;在ROS-Gazebo中手动添加动态障碍物作为退化环境的测试场景,用于测试脉冲稳态模型的有效性。之后将动态阈值脉冲模型嵌入到深度强化学习框架DDPG中,代替Actor网络进行脉冲形式的决策,并可以进行突触权重的自主试错学习。决策网络的输入为18维的激光雷达数据、3维的速度信息以及3维的距离信息,共24维的状态信息,通过4层的全连接层进行动作决策,网络结构为24-256-256-256-2,最终的两个动作分别代表机器人左轮和右轮的速度大小,从而进行自主的感知与决策。训练完成后的动态阈值脉冲模型,在ROS-Gazebo的环境中,人为添加噪声干扰来形成退化环境,该动态阈值脉冲模型通过动态能量——时间阈值的自主调节,实现神经元的内在可塑性稳态,在退化、干扰、紧急的情况下依然保持稳定的触发率,从而完成类脑机器人的自主避障与导航。
本发明的有益效果:
(1)避障测试结果与效率
本发明解决了脉冲神经网络中,缺乏内在可塑性,从而导致模型稳态失衡难以适应退化环境的困难,并在移动机器人中成功部署,维持稳定的触发率,从而进行退化、干扰、噪声环境下的自主导航与避障。
本发明提出了一种新颖的生物可解释的动态能量-时间阈值方法,弥合了生物学研究和机器学习之间对内在可塑性稳态的差距。在不同的现实退化条件下的机器人避障任务中验证鲁棒性,并通过对比实验证明了该方法的有效性。具有更高稳态的模型可以更好地适应不同的退化条件,从而大大提高了成功率。对比实验中该方法在所有两个常用指标平均成功率和平均用时上均获得了最佳的性能,同时在稳态评估指标中保持了最稳定的平均触发率,并且在退化环境中具有很大的优势。
(2)适用性更广泛
附图说明
图1为本发明的网络模型结构。
图2为本发明的动态能量阈值模块示意图。
图3为本发明的动态时间阈值模块示意图。
图4为本发明实施实验的稳态结果。其中(a)为LIF模型平均触发率实验结果,(b)为LIF模型平均触发率的方差实验结果,(c)为LIF模型平均触发率方差的方差实验结果,(d)为SRM模型平均触发率实验结果,(e)为SRM模型平均触发率的方差实验结果,(f)为SRM模型平均触发率方差的方差实验结果。每个实验结果的测试场景从极坐标圆盘12点钟开始顺时针方向上的扇形依次为0.2状态干扰、0.6状态干扰、高斯噪声状态干扰、8位Loihi权重、高斯噪声权重和30%零权重的退化环境。对比测试模型在每个扇形内顺时针方向依次为SDDPG、连续SDDPG、Hao模型、Kim模型、动态能量阈值模型、动态时间阈值模型以及动态能量——时间阈值模型。
具体实施方式
下面结合附图和技术方案,进一步说明本发明的具体实施方式。
该方法采用LIF和SRM神经元模型作为网络的主要神经元结构,采用DDPG作为深度强化学习的框架,状态包括激光雷达数据、距目标点的距离和上一时刻速度大小组成;动作由类脑机器人的线速度与角速度组成;奖励函数包含每一时刻距离目标的状态(越近则为正奖励,反之亦然),如果发生碰撞则为-20,如果到达目标点则为30,鼓励机器人每一步采取的动作幅度不要太大,即不能超过上一时刻角速度的1.7倍。
强化学习算法在Pytorch中实现。随机梯度下降被用于强化学习网络,其动量值为0.9,权重衰减为1e-4,学习率设置为1e-5,衰减因子为0.99,最大步长为150,批量大小为256。本发明实施例,2000000个训练路径后终止学习过程,在配备i7-7700 CPU和NVIDIAGTX1080Ti GPU的计算机上训练该策略大约需要25个小时。为了验证该网络的有效性,将其与无内在可塑性的方法SDDPG和具有启发式内在可塑性方法Hao模型、Kim模型进行比较以验证发明的有效性。并对模型中的提出的所有模块进行消融实验,证明每一部分的有效性。
图1是生物合理的动态能量——时间阈值网络模型的结构。整个结构是针对第l层第i个神经元在t+1时刻的动态阈值生成过程的可视化,根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位、当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值计算而来。
图3是动态时间阈值模块的模型曲线示意图。与较大的ψl(t+1)相比,较低的ψl(t+1)提供了更陡的下降斜率。这意味着当层状膜电位波动较小时,动态时间阈值对之前的去极化率更敏感,反之亦然。
图4是类脑机器人避障过程中模型发射率稳态变化图,其中(a-c)是LIF神经元模型的测试结果,(d-f)是SRM神经元模型的测试结果。测试场景包括0.2状态干扰、0.6状态干扰、高斯噪声状态干扰、8位Loihi权重、高斯噪声权重和30%零权重的退化环境,在此场景中测试类脑机器人的避障与导航成功率,结果显示当从一种情况转移到另一种情况时,具有更强动态平衡的生物合理的动态能量——时间阈值会在所有的三个指标中产生较小的变化,变现出内在可塑性稳态,从而达到更高的成功率。
Claims (1)
1.一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法,其特征在于,步骤如下:
步骤1、动态能量阈值模块
本方法针对脉冲神经网络中的触发阈值进行改进,将原本的静态触发阈值替换为具有生物可解释的动态触发阈值,并且与膜电位相关联,实现脉冲神经网络的内在可塑性稳态;根据生物学中观察到的动态阈值与平均膜电位之间呈正相关,设计动态能量阈值;根据当前时刻每个神经元的膜电位、同层所有神经元的膜电位以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态能量阈值具体方式如公式(1-4)所示:
其中,Nl为第l层的神经元数量,η为斜率超参数,设置为0.2,为t时刻第l层第i个神经元的膜电位数值,μ(·)为均值运算,σ(·)为标准差运算,为t时刻第l层第i个神经元的触发阈值;与为层间关系的索引值,具体由同层所有神经元均值与最大、最小范围差异的差值,以此来增强每个神经元与同层之间其他神经元的电位耦合性与敏感性;ψl(t)为同层中所有神经元的变异系数,以此来编码层间的电位波动,因为它用于描述相对于电位平均值的膜电位分布;
步骤2、动态时间阈值模块
根据生物学中观察到的动态阈值与之前去极化速率之间呈负相关,设计动态时间阈值;根据当前时刻与上一时刻每个神经元的膜电位、去极化速率以及同层所有神经元的触发阈值,为每个神经元计算当前时刻的动态时间阈值具体方式如公式(5-6)所示:
与分别为t时刻与t+1时刻第l层第i个神经元的膜电位数值,为单指数函数,其中a为指数衰减函数,其衰减率基于第l层前一个时间戳t中所有神经元动态阈值的平均值,采用层间的阈值关系,增强单个神经元与整体的耦合连接,使得膜电位去极化越高,时间阈值下降得越快;同时利用变异系数动态调整时间阈值对分层电位波动的敏感性,当层状电位波动较低时,时间阈值对之前的去极化速率更敏感,反之亦然;
步骤3、生物合理的动态能量-时间阈值融合模块
采用动态能量阈值模块获取t时刻的来保证动态阈值与平均膜电位之间的正相关关系;采用动态时间阈值模块获取t+1时刻的来保证动态阈值与去极化速率之间的负相关关系;通过平均叠加的方式得到最终的动态能量-时间阈值将其部署在脉冲神经网络中,替换基础的静态阈值,从而形成动态阈值脉冲模型,表现出模型的内在可塑性稳态;
步骤4、突触场景搭建与自主学习模块
通过步骤3得到动态能量-时间阈值后,将其应用在Leaky Integrate-and-Fire神经元中,当膜电位达到动态脉冲阈值后触发脉冲,并传递给下一层,形成动态阈值脉冲模型;为了解决退化场景避障问题,首先搭建训练测试仿真环境,采用TurtleBot-ROS机器人的URDF模型作为实验机器人,搭载二维激光雷达和里程计传感器用来感知环境,形成机器人模型;将机器人模型导入ROS-Gazebo模拟器中,并在该ROS-Gazebo模拟器中使用静态Block障碍物搭建多个难度逐渐增加的训练环境,以完成分场景分阶段的训练;在ROS-Gazebo模拟器中手动添加动态障碍物作为退化环境的测试场景,用于测试脉冲稳态模型的有效性;之后将动态阈值脉冲模型嵌入到深度强化学习框架DDPG中,代替Actor网络进行脉冲形式的决策,并可进行突触权重的自主试错学习;决策网络的输入为18维的激光雷达数据、3维的速度信息以及3维的距离信息,共24维的状态信息,通过4层的全连接层进行动作决策,网络结构为24-256-256-256-2,最终的两个动作分别代表机器人左轮和右轮的速度大小,从而进行自主的感知与决策;训练完成后的动态阈值脉冲模型,在ROS-Gazebo模拟器的环境中,人为添加噪声干扰来形成退化环境,该动态阈值脉冲模型通过动态能量-时间阈值的自主调节,实现神经元的内在可塑性稳态,在退化、干扰、紧急的情况下依然保持稳定的触发率,从而完成类脑机器人的自主避障与导航。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111230061.3A CN114037050B (zh) | 2021-10-21 | 2021-10-21 | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 |
US17/556,578 US11911902B2 (en) | 2021-10-21 | 2021-12-20 | Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of SNN |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111230061.3A CN114037050B (zh) | 2021-10-21 | 2021-10-21 | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114037050A true CN114037050A (zh) | 2022-02-11 |
CN114037050B CN114037050B (zh) | 2022-08-16 |
Family
ID=80135106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111230061.3A Active CN114037050B (zh) | 2021-10-21 | 2021-10-21 | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11911902B2 (zh) |
CN (1) | CN114037050B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970829A (zh) * | 2022-06-08 | 2022-08-30 | 中国电信股份有限公司 | 脉冲信号处理方法、装置、设备及存储 |
CN116382267A (zh) * | 2023-03-09 | 2023-07-04 | 大连理工大学 | 一种基于多模态脉冲神经网络的机器人动态避障方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480597A (zh) * | 2017-07-18 | 2017-12-15 | 南京信息工程大学 | 一种基于神经网络模型的机器人避障方法 |
CN110210563A (zh) * | 2019-06-04 | 2019-09-06 | 北京大学 | 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法 |
WO2021012752A1 (zh) * | 2019-07-23 | 2021-01-28 | 中建三局智能技术有限公司 | 一种基于脉冲神经网络的短程跟踪方法及系统 |
CN112364774A (zh) * | 2020-11-12 | 2021-02-12 | 天津大学 | 一种基于脉冲神经网络的无人车类脑自主避障方法及系统 |
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN112949819A (zh) * | 2021-01-26 | 2021-06-11 | 首都师范大学 | 基于忆阻器的自供能设备及其脉冲神经网络优化方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8990133B1 (en) * | 2012-12-20 | 2015-03-24 | Brain Corporation | Apparatus and methods for state-dependent learning in spiking neuron networks |
US9542643B2 (en) * | 2013-05-21 | 2017-01-10 | Qualcomm Incorporated | Efficient hardware implementation of spiking networks |
US9384443B2 (en) * | 2013-06-14 | 2016-07-05 | Brain Corporation | Robotic training apparatus and methods |
US9436909B2 (en) * | 2013-06-19 | 2016-09-06 | Brain Corporation | Increased dynamic range artificial neuron network apparatus and methods |
US20150269482A1 (en) * | 2014-03-24 | 2015-09-24 | Qualcomm Incorporated | Artificial neural network and perceptron learning using spiking neurons |
KR102502261B1 (ko) * | 2020-08-20 | 2023-02-22 | 서울대학교 산학협력단 | 스파이킹 뉴럴 네트워크의 뉴런 문턱값 변동 보상 |
-
2021
- 2021-10-21 CN CN202111230061.3A patent/CN114037050B/zh active Active
- 2021-12-20 US US17/556,578 patent/US11911902B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480597A (zh) * | 2017-07-18 | 2017-12-15 | 南京信息工程大学 | 一种基于神经网络模型的机器人避障方法 |
CN110210563A (zh) * | 2019-06-04 | 2019-09-06 | 北京大学 | 基于Spike cube SNN的图像脉冲数据时空信息学习及识别方法 |
WO2021012752A1 (zh) * | 2019-07-23 | 2021-01-28 | 中建三局智能技术有限公司 | 一种基于脉冲神经网络的短程跟踪方法及系统 |
CN112364774A (zh) * | 2020-11-12 | 2021-02-12 | 天津大学 | 一种基于脉冲神经网络的无人车类脑自主避障方法及系统 |
CN112949819A (zh) * | 2021-01-26 | 2021-06-11 | 首都师范大学 | 基于忆阻器的自供能设备及其脉冲神经网络优化方法 |
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
Non-Patent Citations (2)
Title |
---|
尹宝才 等: "采用自适应缩放系数优化的块匹配运动估计", 《软件学报》 * |
杨鑫: "锚泊系统的快速计算方法及应用", 《港口科技》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970829A (zh) * | 2022-06-08 | 2022-08-30 | 中国电信股份有限公司 | 脉冲信号处理方法、装置、设备及存储 |
CN114970829B (zh) * | 2022-06-08 | 2023-11-17 | 中国电信股份有限公司 | 脉冲信号处理方法、装置、设备及存储 |
CN116382267A (zh) * | 2023-03-09 | 2023-07-04 | 大连理工大学 | 一种基于多模态脉冲神经网络的机器人动态避障方法 |
CN116382267B (zh) * | 2023-03-09 | 2023-09-05 | 大连理工大学 | 一种基于多模态脉冲神经网络的机器人动态避障方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114037050B (zh) | 2022-08-16 |
US20230166397A1 (en) | 2023-06-01 |
US11911902B2 (en) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110989576B (zh) | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
CN114037050B (zh) | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 | |
CN116382267B (zh) | 一种基于多模态脉冲神经网络的机器人动态避障方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
Grando et al. | Deep reinforcement learning for mapless navigation of unmanned aerial vehicles | |
Lai et al. | Sim-to-real transfer for quadrupedal locomotion via terrain transformer | |
CN111811532B (zh) | 基于脉冲神经网络的路径规划方法和装置 | |
Qiao et al. | Application of reinforcement learning based on neural network to dynamic obstacle avoidance | |
Li et al. | Vision-based obstacle avoidance algorithm for mobile robot | |
CN115542733A (zh) | 基于深度强化学习的自适应动态窗口法 | |
He et al. | Intelligent navigation of indoor robot based on improved DDPG algorithm | |
Nurmaini et al. | Enhancement of the fuzzy control response with particle swarm optimization in mobile robot system | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Yun et al. | Mobile robot navigation: neural Q-learning | |
CN108459614B (zh) | 一种基于cw-rnn网络的uuv实时避碰规划方法 | |
Chouraqui et al. | Unmanned vehicle trajectory tracking by neural networks | |
Nguyen et al. | Nonlinear control with neural networks | |
Saleh et al. | Modeling and control of 3-omni wheel Robot using PSO optimization and Neural Network | |
Peng et al. | An Improved DDPG Algorithm for UAV Navigation in Large-Scale Complex Environments | |
Andrakhanov | Navigation of autonomous mobile robot in homogeneous and heterogeneous environments on basis of GMDH neural networks | |
Zhaowei et al. | Vision-based behavior for UAV reactive avoidance by using a reinforcement learning method | |
Martinez et al. | Deep reinforcement learning oriented for real world dynamic scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |