CN111221340A - 一种基于粗粒度特征的可迁移视觉导航设计方法 - Google Patents
一种基于粗粒度特征的可迁移视觉导航设计方法 Download PDFInfo
- Publication number
- CN111221340A CN111221340A CN202010084879.8A CN202010084879A CN111221340A CN 111221340 A CN111221340 A CN 111221340A CN 202010084879 A CN202010084879 A CN 202010084879A CN 111221340 A CN111221340 A CN 111221340A
- Authority
- CN
- China
- Prior art keywords
- navigation
- coarse
- grained
- neural network
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000007 visual effect Effects 0.000 title claims abstract description 33
- 238000013461 design Methods 0.000 title claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000009471 action Effects 0.000 claims description 25
- 230000003993 interaction Effects 0.000 claims description 21
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000002787 reinforcement Effects 0.000 claims description 10
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000013507 mapping Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 36
- 102000008115 Signaling Lymphocytic Activation Molecule Family Member 1 Human genes 0.000 description 8
- 108010074687 Signaling Lymphocytic Activation Molecule Family Member 1 Proteins 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于粗粒度特征的可迁移视觉导航设计方法,涉及自主导航技术领域,其通过在多组不同的虚拟环境中训练独立粗粒度特征模块,确保粗粒度特征模块学习的特征映射适用于不同的导航任务,可迁移性强;在新的导航任务中,直接加载已训练完成的独立粗粒度特征模块,因此仅需训练粗粒度特征模块以外的其余神经网络参数,即可完成新的导航任务,训练的计算量非常小,同时导航神经网络因具有粗粒度模块而具有强大的特征提取能力;独立粗粒度特征模块是独立于特征提取网络的独立模块,可配合使用者自身构建的网络使用,无需重新构建、训练神经网络,只需在深度学习框架中加载已训练模型即可,操作非常简单。
Description
技术领域
本发明涉及自主导航技术领域,具体而言,涉及一种基于粗粒度特征的可迁移视觉导航设计方法。
背景技术
自主导航是无人驾驶和移动机器人中的重要问题,其目的是智能体在未知场景中移动至指定位置。自主导航在机器人、无人驾驶等领域应用广泛,尤其是无人驾驶中的一个重要研究领域。自主导航保证车辆、机器人在复杂场景中有效移动,是实现车辆与机器人智能化的前提条件。因此,导航是无人驾驶、自主机器人领域中一个极其重要的研究课题,主要包含两类不同的导航方法:基于同步定位与建图(SLAM)的导航算法和基于视觉的深度强化学习导航算法。
SLAM导航算法主要用于解决机器人在未知环境运动时的定位与地图构建问题。根据使用传感器的不同,SLAM导航算法又可分为基于激光雷达的Lidar-SLAM和基于视觉的Visual-SLAM。虽然两者使用的传感器不同,就其工作原理的本质上都是利用传感器感知周围环境,通过视觉里程即估计两个时刻的相对运动,后端处理视觉里程计估计结果的累积误差,根据前端与后端得到的运动轨迹来建立虚拟环境地图,最后通过回环检测考虑同一场景不同时刻的图像,提供空间上约束来消除累积误差。SLAM导航算法的有效性极大程度上受限于传感器的精度,而高精度传感器的价格导致该方法硬件成本高,难以推广。此外,复杂动态场景难以建模,同时建图与定位的迭代计算无法避免地会造成定位误差累积,难以通过回环检测完全消除,从而降低了SLAM算法的鲁棒性与可靠性。
基于视觉的深度强化学习导航算法利用摄像头获取场景图像信息,通过多层卷积神经网络提取场景特征信息输入多层全连接神经网络,从而实现端到端的控制决策,输出机器人等智能体的动作指令。随着近年国内外学者对深度强化学习研究的深入,长短期记忆网络、外部记忆等模块被加入深度强化学习导航算法的框架中通过自适应地储存以往地状态与动作信息提高导航算法地性能。此外,有的学者融合视觉图像与速度、加速度、场景深度等信息,构造相应代价函数以加速导航算法收敛。
相比传统的SLAM导航方法,基于视觉的深度强化学习导航方法主要通过工业相机捕捉场景图像降低制造成本,同时克服传统SLAM方法对复杂多变场景难以建模的技术难点。然而,深度强化学习导航算法通过大量样本数据训练神经网络,主要存在两个方面的缺陷。一、训练成本高。随着神经网络深度增加,网络参数数量急剧上升。目前通过GPU、TPU训练神经网络需几天,甚至几十天。二、模型迁移性差。单一场景训练会导致神经网络过拟合,即已训练模型难以应用于其他环境,而多场景训练时算法难以收敛。在新环境的导航模型只能从头开始训练。
发明内容
本发明在于提供一种基于粗粒度特征的可迁移视觉导航设计方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
本发明提供了一种基于粗粒度特征的可迁移视觉导航设计方法,包括以下步骤:
S100、构建一个独立粗粒度特征模块以及m个包含粗粒度特征模块的导航神经网络Ⅰ,并初始化神经网络参数,m≥2;
S200、随机生成m个不同的虚拟导航环境,并在各个虚拟导航环境中均初始化一个虚拟移动机器人Ⅰ,所述导航神经网络Ⅰ与所述虚拟导航环境一一对应,m个虚拟导航环境、m个虚拟移动机器人Ⅰ以及m个导航神经网络Ⅰ构成m个更新条件,每个更新条件由相对应的一个虚拟导航环境、一个虚拟移动机器人Ⅰ以及一个导航神经网络Ⅰ构成;
S300、利用各更新条件训练更新所述独立粗粒度特征模块,直至独立粗粒度特征模块收敛,将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块;
S400、构建一个包含有粗粒度特征模块的导航神经网络Ⅱ,并初始化神经网络参数,利用所述最终独立粗粒度特征模块的参数对所述导航神经网络Ⅱ的粗粒度特征模块的参数进行更新,得到导航神经网络Ⅲ;
S500、在新导航环境中初始化一个虚拟移动机器人Ⅱ;
S600、利用新导航环境和虚拟移动机器人Ⅱ,训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ,完成在新导航环境中的导航设计。
本技术方案的技术效果是:
通过在多组不同的虚拟环境中训练独立粗粒度特征模块,确保粗粒度特征模块学习的特征映射适用于不同的导航任务,这样的粗粒度特征模块能够提取多环境导航中的共有知识,适用于不同的导航任务,从而具有更强的泛化性能,相比局限于单一环境导航任务的神经网络,可迁移性更强;
在新的导航任务中,直接加载已训练完成的独立粗粒度特征模块,因此仅需训练粗粒度特征模块以外的其余神经网络参数,即可完成新的导航任务,训练的计算量非常小,大大降低了时间成本,同时导航神经网络因具有粗粒度模块而具有强大的特征提取能力,尤其在新任务场景变化较大的情况下,本发明相比重新训练神经网络可以减少训练时间;
独立粗粒度特征模块是独立于特征提取网络的独立模块,可配合使用者自身构建的网络使用,无需重新构建、训练神经网络,只需在深度学习框架中加载已训练模型即可,操作非常简单。
可选地,所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。
本技术方案的技术效果是:通过设置上述构成因子可以有效确保各个虚拟导航环境不完全相同,从而每个更新条件不尽相同。不同更新条件对独立粗粒度特征模块的更新使得其能够提取到描述不同虚拟导航环境的共同粗粒度特征,由此提高独立粗粒度模块的可迁移性与泛化性能。
具体地,所述步骤S300中,每次对所述独立粗粒度特征模块进行训练更新的过程包括以下步骤:
S301、令导航神经网络Ⅰ控制虚拟导航环境内的虚拟移动机器人Ⅰ连续导航交互t次,得到包含t个交互样本的交互样本序列Ⅰ;
S302、利用交互样本序列Ⅰ根据强化学习算法计算并保存导航神经网络Ⅰ的粗粒度特征模块梯度,更新导航神经网络Ⅰ的参数;
S303、利用所保存的导航神经网络Ⅰ的粗粒度特征模块梯度,通过梯度下降法更新独立粗粒度特征模块;
S304、利用更新后的独立粗粒度特征模块的神经网络参数再次更新导航神经网络Ⅰ的参数;
S305、重复步骤S301至步骤S304,直至导航神经网络Ⅰ收敛,输出收敛的导航神经网络Ⅰ所对应的独立粗粒度特征模块。
本技术方案的技术效果是:通过导航神经网络控制虚拟移动机器人与虚拟导航环境连续交互获得交互样本,利用交互样本更新导航神经网络与独立粗粒度特征模块保证该导航神经网络有效学习在对应虚拟环境中的导航能力,最终确保独立粗粒度特征学习到适用于该虚拟环境的特征提取能力。
具体地,所述交互样本由机器人完成动作前的感知场景视觉图像、机器人动作、环境反馈奖励以及机器人完成动作后的感知场景视觉图像组成;
所述虚拟移动机器人在环境中的导航交互过程为:
虚拟移动机器人在动作前获取环境的感知场景视觉图像,通过导航神经网络生成机器人动作,虚拟移动机器按照所生成的机器人动作移动,待其完成机器人动作后,再次获取环境的感知场景视觉图像,并得到环境反馈奖励。
可选地,所述环境反馈奖励用正负数值表示,当虚拟移动机器人在规定导航时间内到达目标物体位置,则得到正数值奖励,否则得到负数值奖励。
本技术方案的技术效果是:设置正数值奖励有助于虚拟机器人学习到正确的动作,从而指导虚拟机器人导航至目标位置,而负数值奖励有助于虚拟机器人摒弃错误的动作,例如撞墙或错误路线,从而使虚拟机器人选择最短路径达到目的地。
可选地,m个虚拟移动机器人Ⅰ在各自对应的虚拟导航环境中同时进行连续导航交互。
本技术方案的技术效果是:不同虚拟移动机器人与各自对应的虚拟导航环境同时交互,有助于减少整体训练时间,从而有助于提高方案效率。
可选地,所述步骤S300中,各更新条件异步对独立粗粒度特征模块进行训练更新。
本技术方案的技术效果是:不同虚拟导航环境的更新条件对独立粗粒度特征模块异步更新充分利用了不同环境的导航信息,能够避免独立粗粒度模块对于单一虚拟环境的过拟合,从而提高独立粗粒度特征模块对不同环境的适应能力,增强其可迁移性和泛化能力。
具体地,所述步骤S600具体包括以下步骤:
S601、令所述导航神经网络Ⅲ控制虚拟移动机器人Ⅱ在新导航环境中连续导航交互若干次,得到包含若干交互样本的交互样本序列Ⅱ;
S602、利用交互样本序列Ⅱ训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ;
S603、重复步骤S601至步骤S602,直至导航神经网络Ⅳ收敛,输出收敛后的导航神经网络Ⅳ,完成在新导航环境中的导航设计。
本技术方案的技术效果是:导航神经网络III由粗粒度特征模块、细粒度特征模块、决策网络构成。加载已保存粗粒度模块能够提取新导航环境中通用的粗粒度导航特征,而在新导航环境中导航训练细粒度特征模块有助于其学习到适用于新导航环境的特有细粒度导航特征,结合通用粗粒度导航特征与特有细粒度导航特征输入决策网络、输出动作行为,从而保证导航机器人在新环境更精确地导航。同时由于加载的粗粒度模块已训练完毕,仅训练细粒度导航特征模块和决策网络能够减少训练时间。最终实现在短时间内获得适用于新导航环境的导航神经网络III。
可选地,所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络指的是细粒度特征模块以及决策网络。
可选地,所述独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数通过正态分布函数N(μ=0,σ=0.1)随机初始化。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是所述基于粗粒度特征的可迁移视觉导航设计方法流程图;
图2是独立粗粒度特征模块以及包含有粗粒度特征的导航神经网络的结构示意图;
图3是VizDoom导航环境示意图;
图4是基于粗粒度特征的导航网络异步更新示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参照图1,本实施例提供了一种基于粗粒度特征的可迁移视觉导航设计方法。
第一步、构建一个独立粗粒度特征模块K以及两个包含粗粒度特征模块的导航神经网络ⅠAgent1、Agent2,并初始化神经网络参数。
导航神经网络Ⅰ的结构如图2(左)所示,独立粗粒度特征模块K如图2(右)所示。
导航神经网络Ⅰ具体构建过程如下:
3)根据强化学习算法,为导航神经网络Ⅰ构造损失函数L1训练细粒度特征模块与决策网络,构造损失函数L2训练粗粒度特征模块,损失函数的计算公式如下:
式中,α1、α2、β1、和β2为权重超参数;St、St+1、At和Rt分别表示为机器人完成动作前的感知场景视觉图像、机器人完成动作后的感知场景视觉图像、机器人动作和环境反馈奖励,t=1,2,...;φ(St)分别表示为图像经过细粒度特征模块和粗粒度特征模块的特征向量;和P(φ(St)|St)分别表示当前图像St经过导航神经网络得到动作At和φ(St)的概率。
在本实施例中,利用正态分布函数N(μ=0,σ=0.1)随机初始化独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数。
第二步、随机生成两个不同的虚拟导航环境E1、E2,并分别在E1和E2中初始化虚拟移动机器人ⅠRobot1、Robot2,E1与Agent1对应,E2与Agent2对应,一共构成两个更新条件,第一个更新条件由E1、Robot1和Agent1构成,第二个更新条件由E2、Robot2和Agent2构成。
在本实施例中,是在VizDoom中生成E1、E2,VizDoom导航环境示意如图3所示,环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。虚拟机器人的任务是在虚拟导航环境中到达邮筒状目标物体位置T,在规定时间内到达目标物体位置则得到+1.0正奖励,否则机器人每走一步得到-0.001负奖励,完成导航任务或逾时都将重置导航环境,每次导航环境重置时,智能体、障碍物以及目标物的位置都随机初始化。
第三步、利用利用各更新条件训练更新所述独立粗粒度特征模块,直至独立粗粒度特征模块收敛,将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块。
每个更新条件对独立粗粒度特征模块的更新均不止一次,直到算法收敛即可停止训练,通常情况下,每个更新条件至少更新上千次。
在本实施例中,每次更新时,均需要采用导航交互方式,在E1、E2中交互时,E1、E2中的交互过程同时进行,由于交互速度不同,因此,两个更新条件异步对独立粗粒度特征模块K进行训练更新,即其中一个更新条件对独立粗粒度特征模块K进行更新后,另一个更新条件再在经过一次更新后的独立粗粒度特征模块K进行更新,如图4所示。
由E1、Robot1和Agent1构成的更新条件以及由E2、Robot2和Agent2构成的更新条件对独立粗粒度特征模块K进行更新的过程相同,设i为虚拟导航环境序号,其取值为1或2,当其取1时,表示采用了由E1、Robot1和Agent1构成的更新条件对独立粗粒度特征模块K进行更新,当其取2时,表示采用了由E2、Robot2和Agent2构成的更新条件对独立粗粒度特征模块K进行更新,对独立粗粒度特征模块K的更新过程如下:
其中,虚拟移动机器人在环境中的单次导航交互过程为:
2)利用根据强化学习算法计算并保存Agenti的粗粒度特征模块梯度,更新Agenti的参数,即将 输入损失函数L1和L2计算并保存Agenti的粗粒度特征模块梯度,使用细粒度特征模块和决策网络的梯度更新Agenti参数;
3)利用所保存的Agenti的粗粒度特征模块梯度,通过梯度下降法更新独立粗粒度特征模块K;
4)利用更新后的独立粗粒度特征模块K的神经网络参数再次更新Agenti的参数;
重复步骤1)至步骤4),直至Agenti收敛,输出收敛的Agenti所对应的独立粗粒度特征模块K,即输出Agenti收敛时,步骤3)得到的更新后的独立粗粒度特征模块K。
在本实施例中,Robot1在E1中的连续导航交互过程与Robot2在E2中的连续导航交互过程同时进行,以提高交互效率。
第四步、构建一个包含有粗粒度特征模块的导航神经网络ⅡAgent3,并初始化神经网络参数,利用最终独立粗粒度特征模块K的参数对Agent3的粗粒度特征模块的参数进行更新,得到导航神经网络ⅢAgent4,保持Agent4的粗粒度特征模块不再接受训练更新。
第五步、在新导航环境E3中初始化一个虚拟移动机器人ⅡRobot3;
第六步、利用E3和Robot3,训练更新Agent4除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络ⅣAgent5,完成在新导航环境中的导航设计。
在本实施例中,获取Agent5的过程具体如下:
2)利用训练更新Agent4除粗粒度特征模块以外的其余神经网络参数,得到Agent5,即将输入损失函数L1计算并保存Agent4的梯度,仅使用梯度更新Agent4的细粒度特征模块和决策网络的参数,之后得到Agent5;
重复步骤1)至步骤2),直至Agent5收敛,输出收敛后的Agent5,完成在新导航环境中的导航设计。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,包括以下步骤:
S100、构建一个独立粗粒度特征模块以及m个包含粗粒度特征模块的导航神经网络Ⅰ,并初始化神经网络参数,m≥2;
S200、随机生成m个不同的虚拟导航环境,并在各个虚拟导航环境中均初始化一个虚拟移动机器人Ⅰ,所述导航神经网络Ⅰ与所述虚拟导航环境一一对应,m个虚拟导航环境、m个虚拟移动机器人Ⅰ以及m个导航神经网络Ⅰ构成m个更新条件,每个更新条件由相对应的一个虚拟导航环境、一个虚拟移动机器人Ⅰ以及一个导航神经网络Ⅰ构成;
S300、利用各更新条件训练更新所述独立粗粒度特征模块,直至独立粗粒度特征模块收敛,将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块;
S400、构建一个包含有粗粒度特征模块的导航神经网络Ⅱ,并初始化神经网络参数,利用所述最终独立粗粒度特征模块的参数对所述导航神经网络Ⅱ的粗粒度特征模块的参数进行更新,得到导航神经网络Ⅲ;
S500、在新导航环境中初始化一个虚拟移动机器人Ⅱ;
S600、利用新导航环境和虚拟移动机器人Ⅱ,训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ,完成在新导航环境中的导航设计。
2.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。
3.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述步骤S300中,每次对所述独立粗粒度特征模块进行训练更新的过程包括以下步骤:
S301、令导航神经网络Ⅰ控制虚拟导航环境内的虚拟移动机器人Ⅰ连续导航交互t次,得到包含t个交互样本的交互样本序列Ⅰ;
S302、利用交互样本序列Ⅰ根据强化学习算法计算并保存导航神经网络Ⅰ的粗粒度特征模块梯度,更新导航神经网络Ⅰ的参数;
S303、利用所保存的导航神经网络Ⅰ的粗粒度特征模块梯度,通过梯度下降法更新独立粗粒度特征模块;
S304、利用更新后的独立粗粒度特征模块的神经网络参数再次更新导航神经网络Ⅰ的参数;
S305、重复步骤S301至步骤S304,直至导航神经网络Ⅰ收敛,输出收敛的导航神经网络Ⅰ所对应的独立粗粒度特征模块。
4.根据权利要求3所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,
所述交互样本由机器人完成动作前的感知场景视觉图像、机器人动作、环境反馈奖励以及机器人完成动作后的感知场景视觉图像组成;
所述虚拟移动机器人在环境中的导航交互过程为:
虚拟移动机器人在动作前获取环境的感知场景视觉图像,通过导航神经网络生成机器人动作,虚拟移动机器按照所生成的机器人动作移动,待其完成机器人动作后,再次获取环境的感知场景视觉图像,并得到环境反馈奖励。
5.根据权利要求4所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述环境反馈奖励用正负数值表示,当虚拟移动机器人在规定导航时间内到达目标物体位置,则得到正数值奖励,否则得到负数值奖励。
6.根据权利要求3所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,m个虚拟移动机器人Ⅰ在各自对应的虚拟导航环境中同时进行连续导航交互。
7.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述步骤S300中,各更新条件异步对独立粗粒度特征模块进行训练更新。
8.根据权利要求1所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述步骤S600具体包括以下步骤:
S601、令所述导航神经网络Ⅲ控制虚拟移动机器人Ⅱ在新导航环境中连续导航交互若干次,得到包含若干交互样本的交互样本序列Ⅱ;
S602、利用交互样本序列Ⅱ训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数,得到导航神经网络Ⅳ;
S603、重复步骤S601至步骤S602,直至导航神经网络Ⅳ收敛,输出收敛后的导航神经网络Ⅳ,完成在新导航环境中的导航设计。
9.根据权利要求1或8所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络指的是细粒度特征模块以及决策网络。
10.根据权利要求9所述基于粗粒度特征的可迁移视觉导航设计方法,其特征在于,所述独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数通过正态分布函数N(μ=0,σ=0.1)随机初始化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010084879.8A CN111221340B (zh) | 2020-02-10 | 2020-02-10 | 一种基于粗粒度特征的可迁移视觉导航设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010084879.8A CN111221340B (zh) | 2020-02-10 | 2020-02-10 | 一种基于粗粒度特征的可迁移视觉导航设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111221340A true CN111221340A (zh) | 2020-06-02 |
CN111221340B CN111221340B (zh) | 2023-04-07 |
Family
ID=70826127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010084879.8A Active CN111221340B (zh) | 2020-02-10 | 2020-02-10 | 一种基于粗粒度特征的可迁移视觉导航设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221340B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081468A (zh) * | 2021-03-15 | 2022-09-20 | 天津大学 | 一种基于知识迁移的多任务卷积神经网络故障诊断方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107438754A (zh) * | 2015-02-10 | 2017-12-05 | 御眼视觉技术有限公司 | 用于自主车辆导航的稀疏地图 |
EP3396533A2 (en) * | 2017-04-28 | 2018-10-31 | INTEL Corporation | Programmable coarse grained and sparse matrix compute hardware with advanced scheduling |
CN109643367A (zh) * | 2016-07-21 | 2019-04-16 | 御眼视觉技术有限公司 | 用于自主车辆导航的众包和分发稀疏地图以及车道测量 |
CN109782600A (zh) * | 2019-01-25 | 2019-05-21 | 东华大学 | 一种通过虚拟环境建立自主移动机器人导航系统的方法 |
US20190340783A1 (en) * | 2018-09-11 | 2019-11-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Autonomous Vehicle Based Position Detection Method and Apparatus, Device and Medium |
CN110555881A (zh) * | 2019-08-29 | 2019-12-10 | 桂林电子科技大学 | 一种基于卷积神经网络的视觉slam测试方法 |
CN110631588A (zh) * | 2019-09-23 | 2019-12-31 | 电子科技大学 | 一种基于rbf网络的无人机视觉导航定位方法 |
-
2020
- 2020-02-10 CN CN202010084879.8A patent/CN111221340B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107438754A (zh) * | 2015-02-10 | 2017-12-05 | 御眼视觉技术有限公司 | 用于自主车辆导航的稀疏地图 |
CN109643367A (zh) * | 2016-07-21 | 2019-04-16 | 御眼视觉技术有限公司 | 用于自主车辆导航的众包和分发稀疏地图以及车道测量 |
EP3396533A2 (en) * | 2017-04-28 | 2018-10-31 | INTEL Corporation | Programmable coarse grained and sparse matrix compute hardware with advanced scheduling |
US20180315158A1 (en) * | 2017-04-28 | 2018-11-01 | Intel Corporation | Programmable coarse grained and sparse matrix compute hardware with advanced scheduling |
CN108805792A (zh) * | 2017-04-28 | 2018-11-13 | 英特尔公司 | 具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件 |
US20190340783A1 (en) * | 2018-09-11 | 2019-11-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Autonomous Vehicle Based Position Detection Method and Apparatus, Device and Medium |
CN109782600A (zh) * | 2019-01-25 | 2019-05-21 | 东华大学 | 一种通过虚拟环境建立自主移动机器人导航系统的方法 |
CN110555881A (zh) * | 2019-08-29 | 2019-12-10 | 桂林电子科技大学 | 一种基于卷积神经网络的视觉slam测试方法 |
CN110631588A (zh) * | 2019-09-23 | 2019-12-31 | 电子科技大学 | 一种基于rbf网络的无人机视觉导航定位方法 |
Non-Patent Citations (2)
Title |
---|
YANG GU 等: "CoFINLo: Coarse to Fine Indoor Navigation and Localization System" * |
黄睿: "面向高值目标微变监测的不同粒度视觉检测问题研究" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081468A (zh) * | 2021-03-15 | 2022-09-20 | 天津大学 | 一种基于知识迁移的多任务卷积神经网络故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111221340B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Motion planning for mobile robots—Focusing on deep reinforcement learning: A systematic review | |
Wang et al. | Learning to navigate through complex dynamic environment with modular deep reinforcement learning | |
Furfaro et al. | Deep learning for autonomous lunar landing | |
US11972339B2 (en) | Controlling a robot based on free-form natural language input | |
CN112135716B (zh) | 数据高效的分层强化学习 | |
CN116263335A (zh) | 一种基于视觉与雷达信息融合与强化学习的室内导航方法 | |
CN112819253A (zh) | 一种无人机避障和路径规划装置及方法 | |
CN112631128A (zh) | 一种多模异构信息融合的机器人装配技能学习方法及系统 | |
CN114396949B (zh) | 一种基于ddpg的移动机器人无先验地图导航决策方法 | |
CN113671960B (zh) | 一种磁性微纳机器人的自主导航与控制方法 | |
Zhou et al. | Adaptive leader-follower formation control and obstacle avoidance via deep reinforcement learning | |
CN114967721B (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
Sarabakha et al. | Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm | |
CN115373415A (zh) | 一种基于深度强化学习的无人机智能导航方法 | |
Zang et al. | Standoff tracking control of underwater glider to moving target | |
CN111221340B (zh) | 一种基于粗粒度特征的可迁移视觉导航设计方法 | |
CN114943182A (zh) | 基于图神经网络的机器人线缆形状控制方法及设备 | |
Ejaz et al. | Autonomous visual navigation using deep reinforcement learning: An overview | |
Helble et al. | 3-d path planning and target trajectory prediction for the oxford aerial tracking system | |
US20240054008A1 (en) | Apparatus and method for performing a task | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 | |
WO2022072982A1 (en) | Offline primitive discovery for accelerating data-driven reinforcement learning | |
Garrote et al. | Costmap-based Local Motion Planning using Deep Reinforcement Learning | |
CN117590756B (zh) | 水下机器人的运动控制方法、装置、设备和存储介质 | |
Febrianto et al. | Path Planning Based on Deep Reinforcement Learning Towards Human-Robot Collaboration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |