CN116382267B - 一种基于多模态脉冲神经网络的机器人动态避障方法 - Google Patents
一种基于多模态脉冲神经网络的机器人动态避障方法 Download PDFInfo
- Publication number
- CN116382267B CN116382267B CN202310221408.0A CN202310221408A CN116382267B CN 116382267 B CN116382267 B CN 116382267B CN 202310221408 A CN202310221408 A CN 202310221408A CN 116382267 B CN116382267 B CN 116382267B
- Authority
- CN
- China
- Prior art keywords
- data
- robot
- pulse
- module
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000002787 reinforcement Effects 0.000 claims abstract description 13
- 239000012633 leachable Substances 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims description 30
- 210000002569 neuron Anatomy 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 18
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000004888 barrier function Effects 0.000 claims description 4
- 230000000638 stimulation Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000003068 static effect Effects 0.000 abstract description 9
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012421 spiking Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241001143500 Aceraceae Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0248—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/20—Control system inputs
- G05D1/24—Arrangements for determining position or orientation
- G05D1/242—Means based on the reflection of waves generated by the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/20—Control system inputs
- G05D1/24—Arrangements for determining position or orientation
- G05D1/243—Means capturing signals occurring naturally from the environment, e.g. ambient optical, acoustic, gravitational or magnetic signals
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/617—Safety or protection, e.g. defining protection zones around obstacles or avoiding hazards
- G05D1/622—Obstacle avoidance
- G05D1/633—Dynamic obstacles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2109/00—Types of controlled vehicles
- G05D2109/10—Land vehicles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2111/00—Details of signals used for control of position, course, altitude or attitude of land, water, air or space vehicles
- G05D2111/10—Optical signals
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2111/00—Details of signals used for control of position, course, altitude or attitude of land, water, air or space vehicles
- G05D2111/10—Optical signals
- G05D2111/17—Coherent light, e.g. laser signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Electromagnetism (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Optics & Photonics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
Abstract
本发明属于机器人领域中的导航与避障领域,提出一种基于多模态脉冲神经网络的机器人动态避障方法。针对包含动态障碍物的场景,通过融合激光雷达数据与处理过的事件相机数据,并结合脉冲神经网络的内在可学习阈值实现动态环境中的机器人避障方法。本发明解决了机器人避障任务中,难以感知动态障碍物,从而导致避障失败的困难。帮助机器人充分感知环境的静态信息与动态信息,利用脉冲神经网络的可学习阈值机制进行高效的强化学习训练与决策,并实现动态环境下的自主导航与避障。而且结合事件数据增强的模型可以更好地适应动态环境进行避障,大大提高成功率。本方法在平均成功率上获得了最佳的性能,并且在复杂场景中具有很大的优势。
Description
技术领域
本发明涉及机器人领域中的导航与避障(Navigation and Obstacle Avoidance)领域,尤其涉及一种基于多模态脉冲神经网络的机器人动态避障方法。
背景技术
机器人避障任务是在较为复杂的场景中,机器人可以自主地导航到目标点同时不与障碍物发生任何碰撞,具有重大的实际应用价值。随着人工智能技术的快速发展,机器人避障相关任务,例如扫地机器人、无人驾驶、智能仓库、智能物流等,都获得了显著的性能提升。
尽管一些基于人工神经网络的方法已成功应用于避障任务,但它们的高能耗限制了它们在机器人领域的大规模使用。作为第三代人工神经网络,脉冲神经网络(SpikingNeural Network)“Bohte S M,Kok J N,La Poutre H.Error-backpropagation intemporally encoded networks of spiking neurons[J].Neurocomputing,2002,48(1-4):17-37.”具有时间连续性、高能效、快速处理和生物合理性等特点,使其与避障任务的结合更加广泛且合理。
然而,实际避障场景里不只有固定不动的障碍物,其中经常会存在一些复杂的动态障碍物,比如经过的路人、移动的机器、突然抛来的其他物体等,这些物体会对传统的激光雷达策略造成严重的影响,目前还缺少相关的研究方法来处理这类物体。传统的激光雷达避障策略“Tang G,Kumar N,Michmizos K P.Reinforcement co-learning of deep andspiking neural networks for energy-efficient mapless navigation withneuromorphic hardware[C]//2020IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS).IEEE,2020:6090-6097.”侧重于对静态物体的感知,而对于环境中突然移动的动态障碍物往往缺乏有效的处理方法,进而使导航避障系统失效。因此充分高效地感知动态障碍物是机器人避障领域中一项亟待解决的任务。
现有的机器人避障导航方法大多数都采用深度强化学习作为学习方式,因其无需人工采集标注数据集可以自主学习而广受欢迎。强化学习是一个“试错”的过程,该过程往往在虚拟环境下进行学习,再迁移到真实场景中。为了缩小虚拟到现实的差距,通常采用数据形式简单,容易学习的激光雷达数据。但激光雷达数据对于快速移动的动态障碍物的感知不够完全,从而无法执行高效的避障策略。
事件相机是一种仿生传感器,其异步测量场景中的光强度变化进而输出事件。因此,它能提供非常高的时间分辨率(高达1MHz),并且功耗非常小。由于光强变化是在对数尺度中计算,因此其能够在非常高的动态范围下进行工作(140dB)。当对数尺度的像素光强变化高于或低于阈值时,事件相机触发形成“ON”和“OFF”事件。事件相机的特性使得它尤其擅长对动态障碍物进行感知,但事件相机数据流输出的方式和传统相机帧输出的方式完全不同,无法简单的直接拿来使用。
因此本发明基于对现有避障导航技术的调查与分析,通过结合激光雷达与事件相机的优势,同时摒弃掉二者的劣势,将雷达数据与经过处理后的事件数据融合,共同输入网络。利用脉冲神经网络构建的具有可学习阈值的融合决策模块指导机器人移动。通过机器人的避障导航任务得以验证其有效性。方法的输入是机器人平台搭载的激光雷达测距仪的数据和事件相机的事件数据,输出机器人要采取的动作,包括线速度与角速度。该方法能够有效地适应不同的静态与动态环境,并保持高效的避障导航决策。
发明内容
本发明的目的是针对包含动态障碍物的场景,通过融合激光雷达数据与处理过的事件相机数据,并结合脉冲神经网络的内在可学习阈值实现动态环境中的机器人避障方法。该方法包括混合脉冲变分自编码器模块、群体编码模块以及运用可学习阈值的中间融合控决策模块。设计一种基于多模态脉冲神经网络的机器人动态避障方法,为机器人获取外界雷达与事件数据来自主导航与避障。
本发明的技术方案为:
一种基于多模态脉冲神经网络的机器人动态避障方法,包括以下步骤:
步骤1、搭载机器人仿真模型;
机器人同时搭载二维激光雷达和事件相机用于感知环境,获取激光雷达数据和事件数据;
步骤2、构建混合脉冲变分自编码器模块,生成事件相机数据;
混合脉冲变分自编码器模块将原有特征稀疏的(x,x)事件数据经过编码,简化为特征高度集中的(1,x/2)的一维向量事件相机数据;从机器人搭载的事件相机获取事件数据,形成数据集输入至混合脉冲变分自编码器模块,生成低维隐向量,作为后续群体编码模块输入的事件相机数据;
混合脉冲变分自编码器模块包括脉冲变分自编码器和解码器;脉冲变分自编码器包括4层卷积脉冲神经网络,每层卷积脉冲神经网络由LIF神经元组成,脉冲变分自编码器在每一时刻与机器人数据交互的路径过程中记录所有LIF神经元状态并传至下一时刻,用于学习脉冲变分自编码器权重;解码器包括4层反卷积人工神经网络;脉冲变分自编码器负责学习(x,x)维度的事件数据特征并保存至x/2维的隐向量中;解码器用于反向验证脉冲变分自编码器的有效性,其以常规的VAE损失函数为优化目标,将隐向量的值重构为原始事件数据,当解码器可以重构出原始事件数据时,代表脉冲变分自编码器训练完成;
步骤3、通过群体编码加泊松编码将多模态数据编码为脉冲序列数据;
将事件相机数据与激光雷达数据串联为多模态数据;群体编码模块将多模态数据转换为刺激强度值,刺激强度值通过泊松编码生成用于直接输入后续中间融合决策模块的脉冲序列数据;
群体编码模块包括10个LIF神经元,用于弥补单个LIF神经元编码的不足,以及减小多模态数据转化到脉冲序列数据时的信息损失;
步骤4、构建中间融合决策模块,其包括中间融合模块和控制决策模块;将步骤3得到的脉冲序列数据输入至中间融合决策模块,输出机器人的运动决策;
步骤4.1、中间融合模块通过两个全连接层构成的LIF神经元分别将事件相机脉冲序列数据与激光雷达脉冲序列数据对齐为两个(1,c)的一维向量,两个一维向量直接相连构成融合后的特征数据;中间融合模块加入可学习阈值机制,可学习阈值通过tanh(x)函数计算,每一次中间融合模块反向传播时,同时更新中间融合模块网络权重与可学习阈值;可学习阈值控制LIF神经元传递信息的发放频率,根据阈值的更新,使事件相机数据与激光雷达数据以不同的发放频率进行自适应融合,获得特征数据;
步骤4.2、控制决策模块为通过脉冲神经网络搭建的四层全连接层;全连接层均由LIF神经元组成;控制决策模块嵌入至深度强化学习框架DDPG中,脉冲神经网络代替现有深度强化学习框架DDPG的Actor网络进行脉冲形式的决策,并进行自主试错学习,直至确认最优特征数据后,确定中间融合模块的阈值;
控制决策模块的输入为经中间融合模块融合后的特征数据,通过四层全连接层进行动作决策,取所有时间步上控制决策模块输出值相加的均值作为代表机器人左轮速度大小和右轮速度大小的值,再通过机器人本身的动力学转化为线速度和角速度的动作输出,从而进行自主的感知与决策;
控制决策模块中所有的LIF神经元均加入可学习阈值机制,可学习阈值通过tanh(x)函数计算,在每一次控制决策模块的反向传播时,同时更新控制决策模块网络权重与可学习阈值,使得每一层LIF神经元的阈值均保持在不同水平。
所述x为128。
所述激光雷达数据为18维,所述事件相机数据维64维,所述机器人速度信息以及机器人距离信息均为三维。
为了解决动态场景避障问题,采用TurtleBot-ROS机器人的URDF模型作为实验机器人,搭载二维激光雷达和事件相机来感知环境;运用ROS-Gazebo模拟器中的静态Block障碍物搭建训练环境,设计4个难度逐渐增加的环境,以完成分场景分阶段的训练;在ROS-Gazebo中手动添加12个动态障碍物作为动态环境的测试场景,用于测试基于多模态脉冲神经网络的机器人动态避障方法的有效性。
本发明的有益效果:本发明解决了机器人避障任务中,难以感知动态障碍物(经过的路人、移动的机器、突然抛来的其他物体),从而导致避障失败的困难。帮助机器人充分感知环境的静态信息与动态信息,利用脉冲神经网络的可学习阈值机制进行高效的强化学习训练与决策,并实现动态环境下的自主导航与避障。将事件数据与雷达数据融合指导机器人动态避障的方法,在不同的场景中的机器人避障任务中验证鲁棒性,并通过对比实验证明了该方法的有效性。结合事件数据增强的模型可以更好地适应动态环境进行避障,大大提高了成功率。对比实验中该方法在平均成功率上获得了最佳的性能,并且在复杂场景中具有很大的优势。
本发明适用于在不同避障场景下的机器人避障与导航任务,包括只有静态障碍物的训练模型与测试场景以及包含动态障碍物的训练模型与测试场景。证明了该方法在不同避障场景上的有效性、适用性。
附图说明
图1(a)为本发明基于多模态脉冲神经网络的机器人动态避障方法EBM-SAN的网络模型结构示意图。图中,正方形为静态障碍物,圆形为动态障碍物。
图1(b)为混合脉冲变分自编码器模块HSVAE结构示意图。
图1(c)为群体编码模块PC结构示意图。
图1(d)为中间融合决策模块MFDM-LT结构示意图。
图2(a-1)为SAN方法实验的可视化结果成功案例;
图2(a-2)为SAN方法实验的可视化结果失败案例;
图2(b-1)为PopSAN方法实验的可视化结果成功案例;
图2(b-2)为PopSAN方法实验的可视化结果失败案例;
图2(c-1)为BDETT方法实验的可视化结果成功案例;
图2(c-2)为BDETT方法实验的可视化结果失败案例;
图2(d-1)为本发明实验的可视化结果成功案例;
图2(d-2)为本发明方法实验的可视化结果失败案例。
图中:为串联;/>为向后;/>为向前;/>为相加;/>为脉冲。
具体实施方式
下面结合附图和技术方案,进一步说明本发明的具体实施方式。
一种基于多模态脉冲神经网络的机器人动态避障方法,该方法包括以下步骤:
步骤1、搭载机器人仿真模型;
步骤2、训练混合脉冲变分自编码器模块;
从TurtleBot-ROS机器人搭载的事件相机获取事件数据并保存,多次重复训练流程后获得足够的事件数据形成数据集。利用脉冲神经网络搭建脉冲变分自编码器,其中脉冲变分自编码器负责学习(128,128)维度的输入数据的特征并保存到一个64维的隐向量中。解码器通过隐向量的值尝试重构原始输入数据。当经过训练后的混合脉冲变分自编码器,其解码器可以近似生成原始数据,意味着事件数据的特征已经被大部分提取到隐向量中,训练结束,以该训练后的脉冲变分自编码器为准。
原有的特征稀疏的(128,128)事件数据经过混合脉冲变分自编码器的编码,可以简化为特征高度集中的(1,64)一维向量数据,从而方便后续网络对事件数据的处理。
步骤3、群体编码模块;
获取到事件数据处理后的一维事件相机数据后,结合激光雷达数据,一起输入到群体编码模块中进行处理。经过群体编码模块的处理后,得到可直接输入后续脉冲神经网络模块的(88,10,5)脉冲序列数据。LIF神经元使用群体编码的机制来弥补单个神经元活动信息量的不足,可以使用该方式将神经元群体的信息编码反馈到脉冲神经网络的脉冲序列中。具体方式如公式(1-2)所示:
i是输入状态的序号,j是群体中LIF神经元的序号,AP是群体编码后的刺激强度。
步骤4.1、运用可学习阈值的中间融合模块;
将经过群体编码的数据输入中间融合决策模块。中间融合决策模块由中间融合模块和控制决策模块组成。中间融合模块利用两个全连接层构成的LIF神经元来将两种模态数据对齐为两个(1,20)的一维向量,两个一维向量直接相连构成融合后的特征数据。
步骤4.2、控制决策模块
控制决策模块是利用脉冲神经网络搭建的四层全连接层,输入经过处理后的多模态数据,输出机器人的运动决策。将该控制决策模块嵌入到深度强化学习框架DDPG中,脉冲神经网络代替Actor网络进行脉冲形式的决策,并可以进行的自主试错学习。控制决策网络的输入为18维的激光雷达数据、64维度的事件相机数据、3维的速度信息以及3维的距离信息,共88维的状态信息,通过4层的全连接层进行动作决策,网络结构为88-256-256-256-2,最终的两个动作分别代表机器人左轮和右轮的速度大小,从而进行自主的感知与决策。训练完成后的模型,在ROS-Gazebo的环境中,通过人为添加移动的圆柱形障碍物来形成动态环境,从而实现机器人的动态避障。
为进一步探索可学习阈值在多模态强化学习中的性能,在中间融合模块和控制决策模块中都加入了可学习阈值的机制,赋予了脉冲神经网络阈值参数的可优化能力。在训练过程中,所有神经元的相应水平不仅取决于内部状态,还取决于阈值水平。在每一次网络的反向传播时会同时更新网络权重与神经元阈值。
机器人搭载二维激光雷达和事件相机用于感知环境;运用ROS-Gazebo模拟器中的静态Block障碍物搭建训练环境,设计n个难度逐渐增加的环境,以完成分场景分阶段的训练;在ROS-Gazebo模拟器中添加m个动态障碍物作为动态环境的测试场景,用于测试本方法的有效性;
该方法采用LIF神经元模型作为网络的主要神经元结构,采用DDPG作为深度强化学习的框架,机器人状态包括激光雷达数据、事件相机数据、距目标点的距离和上一时刻速度大小组成;动作由机器人的线速度与角速度组成;奖励函数包含每一时刻距离目标的状态(越近则为正奖励,反之亦然),如果发生碰撞则为-20,如果到达目标点则为30,鼓励机器人每一步采取的动作幅度不要太大,即不能超过上一时刻角速度的1.7倍。
强化学习算法在Pytorch中实现。随机梯度下降被用于强化学习网络,其动量值为0.9,权重衰减为1e-4,学习率设置为1e-5,衰减因子为0.99,最大步长为150,批量大小为256。本发明实施例,2000000个训练路径后终止学习过程,在配备i7-7700 CPU和NVIDIAGTX 1080Ti GPU的计算机上训练该策略大约需要7个小时。为了验证该网络的有效性,将其与传统方法SAN模型,简单加入群体编码的POPSAN模型和具有动态阈值的BDETT模型进行比较以验证发明的有效性。并对模型中的提出的所有模块进行消融实验,证明每一部分的有效性。
图1(a)是基于多模态脉冲神经网络的机器人动态避障方法的结构,其由环境感知阶段和控制决策阶段组成,具体包括混合脉冲变分自编码器模块、群体编码模块、运用可学习阈值的中间融合模块以及运用可学习阈值的控制决策模块。以激光雷达数据与事件相机数据作为输入,用预先训练过的混合脉冲变分自编码器处理事件数据,融合两种模态后输入包含可学习阈值机制的脉冲神经网络,最后利用强化学习输出机器人的决策动作。
图2是机器人避障网络模型对比实验的可视化结果,其中图2(a-1)和图2(a-2)为SAN方法;图2(b-1)和图2(b-2)为POPSAN方法;图2(c-1)和图2(c-2)为BDETT方法;图2(d-1)和图2(d-2)为本发明的EEM-SAN方法。机器人在相同初始化的起点与终点中进行测试,每种方法进行200次测试。碰到墙壁或者动态障碍物则视为本轮失败,并标记在图右侧。走到终点是为本轮成功,并标记在左侧。通过4种方法的对比,可以看到本发明具有显著的优势,在面对其他方法难以处理的角落边缘位置时,本发明均能成功避开并抵达终点,证明了本发明在复杂场景中具有很大的优势。
对比实验的定量验证结果如表1所示。包括所有方法在两种不同测试地图动态和静态条件下的避障能力的定量性能。其中,成功率表示在200次测试中,机器人成功通过的比例。
表1
Claims (3)
1.一种基于多模态脉冲神经网络的机器人动态避障方法,其特征在于,包括以下步骤:
步骤1、搭载机器人仿真模型;
机器人同时搭载二维激光雷达和事件相机用于感知环境,获取激光雷达数据和事件数据;
步骤2、构建混合脉冲变分自编码器模块,生成事件相机数据;
混合脉冲变分自编码器模块将原有特征稀疏的(x,x)事件数据经过编码,简化为特征高度集中的(1,x/2)的一维向量事件相机数据;从机器人搭载的事件相机获取事件数据,形成数据集输入至混合脉冲变分自编码器模块,生成低维隐向量,作为后续群体编码模块输入的事件相机数据;
混合脉冲变分自编码器模块包括脉冲变分自编码器和解码器;脉冲变分自编码器包括4层卷积脉冲神经网络,每层卷积脉冲神经网络由LIF神经元组成,脉冲变分自编码器在每一时刻与机器人数据交互的路径过程中记录所有LIF神经元状态并传至下一时刻,用于学习脉冲变分自编码器权重;解码器包括4层反卷积人工神经网络;脉冲变分自编码器负责学习(x,x)维度的事件数据特征并保存至x/2维的隐向量中;解码器用于反向验证脉冲变分自编码器的有效性,其以常规的VAE损失函数为优化目标,将隐向量的值重构为原始事件数据,当解码器可以重构出原始事件数据时,代表脉冲变分自编码器训练完成;
步骤3、通过群体编码加泊松编码将多模态数据编码为脉冲序列数据;
将事件相机数据与激光雷达数据串联为多模态数据;群体编码模块将多模态数据转换为刺激强度值,刺激强度值通过泊松编码生成用于直接输入后续中间融合决策模块的脉冲序列数据;
群体编码模块包括10个LIF神经元,用于弥补单个LIF神经元编码的不足,以及减小多模态数据转化到脉冲序列数据时的信息损失;
步骤4、构建中间融合决策模块,其包括中间融合模块和控制决策模块;将步骤3得到的脉冲序列数据输入至中间融合决策模块,输出机器人的运动决策;
步骤4.1、中间融合模块通过两个全连接层构成的LIF神经元分别将事件相机脉冲序列数据与激光雷达脉冲序列数据对齐为两个(1,c)的一维向量,两个一维向量直接相连构成融合后的特征数据;中间融合模块加入可学习阈值机制,可学习阈值通过tanh(x)函数计算,每一次中间融合模块反向传播时,同时更新中间融合模块网络权重与可学习阈值;可学习阈值控制LIF神经元传递信息的发放频率,根据阈值的更新,使事件相机数据与激光雷达数据以不同的发放频率进行自适应融合,获得特征数据;
步骤4.2、控制决策模块为通过脉冲神经网络搭建的四层全连接层;全连接层均由LIF神经元组成;控制决策模块嵌入至深度强化学习框架DDPG中,脉冲神经网络代替现有深度强化学习框架DDPG的Actor网络进行脉冲形式的决策,并进行自主试错学习,直至确认最优特征数据后,确定中间融合模块的阈值;
控制决策模块的输入为经中间融合模块融合后的特征数据,通过四层全连接层进行动作决策,取所有时间步上控制决策模块输出值相加的均值作为代表机器人左轮速度大小和右轮速度大小的值,再通过机器人本身的动力学转化为线速度和角速度的动作输出,从而进行自主的感知与决策;
控制决策模块中所有的LIF神经元均加入可学习阈值机制,可学习阈值通过tanh(x)函数计算,在每一次控制决策模块的反向传播时,同时更新控制决策模块网络权重与可学习阈值,使得每一层LIF神经元的阈值均保持在不同水平。
2.根据权利要求1所述的基于多模态脉冲神经网络的机器人动态避障方法,其特征在于,所述机器人选择TurtleBot-ROS机器人的URDF模型作为实验机器人;所述x为128。
3.根据权利要求1或2所述的基于多模态脉冲神经网络的机器人动态避障方法,其特征在于,所述激光雷达数据为18维,所述事件相机数据为64维,所述机器人的速度信息以及机器人距离信息均为三维。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310221408.0A CN116382267B (zh) | 2023-03-09 | 2023-03-09 | 一种基于多模态脉冲神经网络的机器人动态避障方法 |
US18/373,623 US20240028036A1 (en) | 2023-03-09 | 2023-09-27 | Robot dynamic obstacle avoidance method based on multimodal spiking neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310221408.0A CN116382267B (zh) | 2023-03-09 | 2023-03-09 | 一种基于多模态脉冲神经网络的机器人动态避障方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116382267A CN116382267A (zh) | 2023-07-04 |
CN116382267B true CN116382267B (zh) | 2023-09-05 |
Family
ID=86966540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310221408.0A Active CN116382267B (zh) | 2023-03-09 | 2023-03-09 | 一种基于多模态脉冲神经网络的机器人动态避障方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240028036A1 (zh) |
CN (1) | CN116382267B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117707181A (zh) * | 2023-12-22 | 2024-03-15 | 中科南京智能技术研究院 | 机器人导航避障模型的训练方法、系统及相关设备 |
CN117875407B (zh) * | 2024-03-11 | 2024-06-04 | 中国兵器装备集团自动化研究所有限公司 | 一种多模态持续学习方法、装置、设备及存储介质 |
CN117875408B (zh) * | 2024-03-13 | 2024-06-25 | 中南大学 | 一种面向瑕疵检测的脉冲神经网络的联邦学习方法 |
CN118438457B (zh) * | 2024-07-08 | 2024-09-17 | 安徽大学 | 基于脉冲混合强化学习组装任务的单机械臂运动规划方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984342A (zh) * | 2013-12-23 | 2014-08-13 | 王秀青 | 移动机器人的多脉冲神经网络控制器导航控制方法 |
CN107480597A (zh) * | 2017-07-18 | 2017-12-15 | 南京信息工程大学 | 一种基于神经网络模型的机器人避障方法 |
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
KR102280190B1 (ko) * | 2020-05-14 | 2021-07-21 | 포항공과대학교 산학협력단 | 딥러닝을 이용한 레이다 기반의 인원 계수 장치 및 그 방법 |
CN114037050A (zh) * | 2021-10-21 | 2022-02-11 | 大连理工大学 | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 |
CN115202357A (zh) * | 2022-07-25 | 2022-10-18 | 浙江大学 | 一种基于脉冲神经网络的自主建图方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210047434A (ko) * | 2019-10-21 | 2021-04-30 | 엘지전자 주식회사 | 로봇 청소기 및 그의 동작 방법 |
-
2023
- 2023-03-09 CN CN202310221408.0A patent/CN116382267B/zh active Active
- 2023-09-27 US US18/373,623 patent/US20240028036A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984342A (zh) * | 2013-12-23 | 2014-08-13 | 王秀青 | 移动机器人的多脉冲神经网络控制器导航控制方法 |
CN107480597A (zh) * | 2017-07-18 | 2017-12-15 | 南京信息工程大学 | 一种基于神经网络模型的机器人避障方法 |
KR102280190B1 (ko) * | 2020-05-14 | 2021-07-21 | 포항공과대학교 산학협력단 | 딥러닝을 이용한 레이다 기반의 인원 계수 장치 및 그 방법 |
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN114037050A (zh) * | 2021-10-21 | 2022-02-11 | 大连理工大学 | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 |
CN115202357A (zh) * | 2022-07-25 | 2022-10-18 | 浙江大学 | 一种基于脉冲神经网络的自主建图方法 |
Non-Patent Citations (1)
Title |
---|
脉冲神经网络:模型、学习算法与应用;程龙;刘洋;;控制与决策(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116382267A (zh) | 2023-07-04 |
US20240028036A1 (en) | 2024-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116382267B (zh) | 一种基于多模态脉冲神经网络的机器人动态避障方法 | |
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
CN111931902A (zh) | 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法 | |
CN114037050B (zh) | 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法 | |
CN112232490A (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
Zou et al. | An end-to-end learning of driving strategies based on DDPG and imitation learning | |
CN113232016A (zh) | 一种强化学习与模糊避障融合的机械臂路径规划方法 | |
Yang et al. | Real-time obstacle avoidance with deep reinforcement learning three-dimensional autonomous obstacle avoidance for uav | |
Li | A hierarchical autonomous driving framework combining reinforcement learning and imitation learning | |
CN113359744B (zh) | 一种基于安全强化学习及视觉传感器的机器人避障系统 | |
Sun et al. | Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments | |
AbuZekry et al. | Comparative study of neuro-evolution algorithms in reinforcement learning for self-driving cars | |
Nwaonumah et al. | Deep reinforcement learning for visual navigation of wheeled mobile robots | |
CN117553798A (zh) | 复杂人群场景中移动机器人的安全导航方法、设备及介质 | |
CN116080688B (zh) | 一种类脑启发的智能驾驶视觉辅助方法、装置及存储介质 | |
CN111443701A (zh) | 基于异构深度学习的无人驾驶车辆/机器人行为规划方法 | |
CN113589810B (zh) | 智能体动态自主避障运动方法、装置、服务器及存储介质 | |
CN115562258A (zh) | 基于神经网络的机器人社会自适应路径规划方法及系统 | |
CN114089751A (zh) | 一种基于改进ddpg算法的移动机器人路径规划方法 | |
Salt et al. | Differential evolution and bayesian optimisation for hyper-parameter selection in mixed-signal neuromorphic circuits applied to UAV obstacle avoidance | |
Jin et al. | WOA-AGA algorithm design for robot path planning | |
Sharma et al. | Car Racing Game AI Using Reinforcement Learning | |
Tran et al. | Mobile robot planner with low-cost cameras using deep reinforcement learning | |
CN118628944B (zh) | 一种事件流和事件帧融合的强化学习无人机避障方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |