CN111221340A

CN111221340A - 一种基于粗粒度特征的可迁移视觉导航设计方法

Info

Publication number: CN111221340A
Application number: CN202010084879.8A
Authority: CN
Inventors: 汪晨; 曾凡玉; 葛树志; 穆罕默德·阿卜杜拉齐兹·埃尔多索基
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-02
Anticipated expiration: 2040-02-10
Also published as: CN111221340B

Abstract

本发明公开了一种基于粗粒度特征的可迁移视觉导航设计方法，涉及自主导航技术领域，其通过在多组不同的虚拟环境中训练独立粗粒度特征模块，确保粗粒度特征模块学习的特征映射适用于不同的导航任务，可迁移性强；在新的导航任务中，直接加载已训练完成的独立粗粒度特征模块，因此仅需训练粗粒度特征模块以外的其余神经网络参数，即可完成新的导航任务，训练的计算量非常小，同时导航神经网络因具有粗粒度模块而具有强大的特征提取能力；独立粗粒度特征模块是独立于特征提取网络的独立模块，可配合使用者自身构建的网络使用，无需重新构建、训练神经网络，只需在深度学习框架中加载已训练模型即可，操作非常简单。

Description

一种基于粗粒度特征的可迁移视觉导航设计方法

技术领域

本发明涉及自主导航技术领域，具体而言，涉及一种基于粗粒度特征的可迁移视觉导航设计方法。

背景技术

自主导航是无人驾驶和移动机器人中的重要问题，其目的是智能体在未知场景中移动至指定位置。自主导航在机器人、无人驾驶等领域应用广泛，尤其是无人驾驶中的一个重要研究领域。自主导航保证车辆、机器人在复杂场景中有效移动，是实现车辆与机器人智能化的前提条件。因此，导航是无人驾驶、自主机器人领域中一个极其重要的研究课题，主要包含两类不同的导航方法：基于同步定位与建图(SLAM)的导航算法和基于视觉的深度强化学习导航算法。

SLAM导航算法主要用于解决机器人在未知环境运动时的定位与地图构建问题。根据使用传感器的不同，SLAM导航算法又可分为基于激光雷达的Lidar-SLAM和基于视觉的Visual-SLAM。虽然两者使用的传感器不同，就其工作原理的本质上都是利用传感器感知周围环境，通过视觉里程即估计两个时刻的相对运动，后端处理视觉里程计估计结果的累积误差，根据前端与后端得到的运动轨迹来建立虚拟环境地图，最后通过回环检测考虑同一场景不同时刻的图像，提供空间上约束来消除累积误差。SLAM导航算法的有效性极大程度上受限于传感器的精度，而高精度传感器的价格导致该方法硬件成本高，难以推广。此外，复杂动态场景难以建模，同时建图与定位的迭代计算无法避免地会造成定位误差累积，难以通过回环检测完全消除，从而降低了SLAM算法的鲁棒性与可靠性。

基于视觉的深度强化学习导航算法利用摄像头获取场景图像信息，通过多层卷积神经网络提取场景特征信息输入多层全连接神经网络，从而实现端到端的控制决策，输出机器人等智能体的动作指令。随着近年国内外学者对深度强化学习研究的深入，长短期记忆网络、外部记忆等模块被加入深度强化学习导航算法的框架中通过自适应地储存以往地状态与动作信息提高导航算法地性能。此外，有的学者融合视觉图像与速度、加速度、场景深度等信息，构造相应代价函数以加速导航算法收敛。

相比传统的SLAM导航方法，基于视觉的深度强化学习导航方法主要通过工业相机捕捉场景图像降低制造成本，同时克服传统SLAM方法对复杂多变场景难以建模的技术难点。然而，深度强化学习导航算法通过大量样本数据训练神经网络，主要存在两个方面的缺陷。一、训练成本高。随着神经网络深度增加，网络参数数量急剧上升。目前通过GPU、TPU训练神经网络需几天，甚至几十天。二、模型迁移性差。单一场景训练会导致神经网络过拟合，即已训练模型难以应用于其他环境，而多场景训练时算法难以收敛。在新环境的导航模型只能从头开始训练。

发明内容

本发明在于提供一种基于粗粒度特征的可迁移视觉导航设计方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

本发明提供了一种基于粗粒度特征的可迁移视觉导航设计方法，包括以下步骤：

S100、构建一个独立粗粒度特征模块以及m个包含粗粒度特征模块的导航神经网络Ⅰ，并初始化神经网络参数，m≥2；

S200、随机生成m个不同的虚拟导航环境，并在各个虚拟导航环境中均初始化一个虚拟移动机器人Ⅰ，所述导航神经网络Ⅰ与所述虚拟导航环境一一对应，m个虚拟导航环境、m个虚拟移动机器人Ⅰ以及m个导航神经网络Ⅰ构成m个更新条件，每个更新条件由相对应的一个虚拟导航环境、一个虚拟移动机器人Ⅰ以及一个导航神经网络Ⅰ构成；

S300、利用各更新条件训练更新所述独立粗粒度特征模块，直至独立粗粒度特征模块收敛，将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块；

S400、构建一个包含有粗粒度特征模块的导航神经网络Ⅱ，并初始化神经网络参数，利用所述最终独立粗粒度特征模块的参数对所述导航神经网络Ⅱ的粗粒度特征模块的参数进行更新，得到导航神经网络Ⅲ；

S500、在新导航环境中初始化一个虚拟移动机器人Ⅱ；

S600、利用新导航环境和虚拟移动机器人Ⅱ，训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数，得到导航神经网络Ⅳ，完成在新导航环境中的导航设计。

本技术方案的技术效果是：

通过在多组不同的虚拟环境中训练独立粗粒度特征模块，确保粗粒度特征模块学习的特征映射适用于不同的导航任务，这样的粗粒度特征模块能够提取多环境导航中的共有知识，适用于不同的导航任务，从而具有更强的泛化性能，相比局限于单一环境导航任务的神经网络，可迁移性更强；

在新的导航任务中，直接加载已训练完成的独立粗粒度特征模块，因此仅需训练粗粒度特征模块以外的其余神经网络参数，即可完成新的导航任务，训练的计算量非常小，大大降低了时间成本，同时导航神经网络因具有粗粒度模块而具有强大的特征提取能力，尤其在新任务场景变化较大的情况下，本发明相比重新训练神经网络可以减少训练时间；

独立粗粒度特征模块是独立于特征提取网络的独立模块，可配合使用者自身构建的网络使用，无需重新构建、训练神经网络，只需在深度学习框架中加载已训练模型即可，操作非常简单。

可选地，所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。

本技术方案的技术效果是：通过设置上述构成因子可以有效确保各个虚拟导航环境不完全相同，从而每个更新条件不尽相同。不同更新条件对独立粗粒度特征模块的更新使得其能够提取到描述不同虚拟导航环境的共同粗粒度特征，由此提高独立粗粒度模块的可迁移性与泛化性能。

具体地，所述步骤S300中，每次对所述独立粗粒度特征模块进行训练更新的过程包括以下步骤：

S301、令导航神经网络Ⅰ控制虚拟导航环境内的虚拟移动机器人Ⅰ连续导航交互t次，得到包含t个交互样本的交互样本序列Ⅰ；

S302、利用交互样本序列Ⅰ根据强化学习算法计算并保存导航神经网络Ⅰ的粗粒度特征模块梯度，更新导航神经网络Ⅰ的参数；

S303、利用所保存的导航神经网络Ⅰ的粗粒度特征模块梯度，通过梯度下降法更新独立粗粒度特征模块；

S304、利用更新后的独立粗粒度特征模块的神经网络参数再次更新导航神经网络Ⅰ的参数；

S305、重复步骤S301至步骤S304，直至导航神经网络Ⅰ收敛，输出收敛的导航神经网络Ⅰ所对应的独立粗粒度特征模块。

本技术方案的技术效果是：通过导航神经网络控制虚拟移动机器人与虚拟导航环境连续交互获得交互样本，利用交互样本更新导航神经网络与独立粗粒度特征模块保证该导航神经网络有效学习在对应虚拟环境中的导航能力，最终确保独立粗粒度特征学习到适用于该虚拟环境的特征提取能力。

具体地，所述交互样本由机器人完成动作前的感知场景视觉图像、机器人动作、环境反馈奖励以及机器人完成动作后的感知场景视觉图像组成；

所述虚拟移动机器人在环境中的导航交互过程为：

虚拟移动机器人在动作前获取环境的感知场景视觉图像，通过导航神经网络生成机器人动作，虚拟移动机器按照所生成的机器人动作移动，待其完成机器人动作后，再次获取环境的感知场景视觉图像，并得到环境反馈奖励。

可选地，所述环境反馈奖励用正负数值表示，当虚拟移动机器人在规定导航时间内到达目标物体位置，则得到正数值奖励，否则得到负数值奖励。

本技术方案的技术效果是：设置正数值奖励有助于虚拟机器人学习到正确的动作，从而指导虚拟机器人导航至目标位置，而负数值奖励有助于虚拟机器人摒弃错误的动作，例如撞墙或错误路线，从而使虚拟机器人选择最短路径达到目的地。

可选地，m个虚拟移动机器人Ⅰ在各自对应的虚拟导航环境中同时进行连续导航交互。

本技术方案的技术效果是：不同虚拟移动机器人与各自对应的虚拟导航环境同时交互，有助于减少整体训练时间，从而有助于提高方案效率。

可选地，所述步骤S300中，各更新条件异步对独立粗粒度特征模块进行训练更新。

本技术方案的技术效果是：不同虚拟导航环境的更新条件对独立粗粒度特征模块异步更新充分利用了不同环境的导航信息，能够避免独立粗粒度模块对于单一虚拟环境的过拟合，从而提高独立粗粒度特征模块对不同环境的适应能力，增强其可迁移性和泛化能力。

具体地，所述步骤S600具体包括以下步骤：

S601、令所述导航神经网络Ⅲ控制虚拟移动机器人Ⅱ在新导航环境中连续导航交互若干次，得到包含若干交互样本的交互样本序列Ⅱ；

S602、利用交互样本序列Ⅱ训练更新所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络参数，得到导航神经网络Ⅳ；

S603、重复步骤S601至步骤S602，直至导航神经网络Ⅳ收敛，输出收敛后的导航神经网络Ⅳ，完成在新导航环境中的导航设计。

本技术方案的技术效果是：导航神经网络III由粗粒度特征模块、细粒度特征模块、决策网络构成。加载已保存粗粒度模块能够提取新导航环境中通用的粗粒度导航特征，而在新导航环境中导航训练细粒度特征模块有助于其学习到适用于新导航环境的特有细粒度导航特征，结合通用粗粒度导航特征与特有细粒度导航特征输入决策网络、输出动作行为，从而保证导航机器人在新环境更精确地导航。同时由于加载的粗粒度模块已训练完毕，仅训练细粒度导航特征模块和决策网络能够减少训练时间。最终实现在短时间内获得适用于新导航环境的导航神经网络III。

可选地，所述导航神经网络Ⅲ除粗粒度特征模块以外的其余神经网络指的是细粒度特征模块以及决策网络。

可选地，所述独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数通过正态分布函数N(μ＝0,σ＝0.1)随机初始化。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是所述基于粗粒度特征的可迁移视觉导航设计方法流程图；

图2是独立粗粒度特征模块以及包含有粗粒度特征的导航神经网络的结构示意图；

图3是VizDoom导航环境示意图；

图4是基于粗粒度特征的导航网络异步更新示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参照图1，本实施例提供了一种基于粗粒度特征的可迁移视觉导航设计方法。

第一步、构建一个独立粗粒度特征模块K以及两个包含粗粒度特征模块的导航神经网络ⅠAgent₁、Agent₂，并初始化神经网络参数。

导航神经网络Ⅰ的结构如图2(左)所示，独立粗粒度特征模块K如图2(右)所示。

导航神经网络Ⅰ具体构建过程如下：

1)构建粗粒度特征模块和细粒度特征模块，特征模块均由卷积神经网络构成；细粒度特征模块用于提取表达环境场景的特有特征向量φ(S_t)，粗粒度特征模块用于提取通用特征向量

2)将φ(S_t)与

拼接后输入决策网络，决策网络由多层全连接网络构成，分别输出状态值v_t与动作A_t。

3)根据强化学习算法，为导航神经网络Ⅰ构造损失函数L₁训练细粒度特征模块与决策网络，构造损失函数L₂训练粗粒度特征模块，损失函数的计算公式如下：

式中，α₁、α₂、β₁、和β₂为权重超参数；S_t、S_t+1、A_t和R_t分别表示为机器人完成动作前的感知场景视觉图像、机器人完成动作后的感知场景视觉图像、机器人动作和环境反馈奖励，t＝1,2,...；

φ(S_t)分别表示为图像经过细粒度特征模块和粗粒度特征模块的特征向量；

和P(φ(S_t)|S_t)分别表示当前图像S_t经过导航神经网络得到动作A_t和φ(S_t)的概率。

在本实施例中，利用正态分布函数N(μ＝0,σ＝0.1)随机初始化独立粗粒度特征模块和导航神经网络Ⅰ的神经网络参数。

第二步、随机生成两个不同的虚拟导航环境E₁、E₂，并分别在E₁和E₂中初始化虚拟移动机器人ⅠRobot₁、Robot₂，E₁与Agent₁对应，E₂与Agent₂对应，一共构成两个更新条件，第一个更新条件由E₁、Robot₁和Agent₁构成，第二个更新条件由E₂、Robot₂和Agent₂构成。

在本实施例中，是在VizDoom中生成E₁、E₂，VizDoom导航环境示意如图3所示，环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、目标物形状、目标物尺寸和目标物纹理。虚拟机器人的任务是在虚拟导航环境中到达邮筒状目标物体位置T，在规定时间内到达目标物体位置则得到+1.0正奖励，否则机器人每走一步得到-0.001负奖励，完成导航任务或逾时都将重置导航环境，每次导航环境重置时，智能体、障碍物以及目标物的位置都随机初始化。

第三步、利用利用各更新条件训练更新所述独立粗粒度特征模块，直至独立粗粒度特征模块收敛，将收敛的独立粗粒度特征模块作为最终独立粗粒度特征模块。

每个更新条件对独立粗粒度特征模块的更新均不止一次，直到算法收敛即可停止训练，通常情况下，每个更新条件至少更新上千次。

在本实施例中，每次更新时，均需要采用导航交互方式，在E₁、E₂中交互时，E₁、E₂中的交互过程同时进行，由于交互速度不同，因此，两个更新条件异步对独立粗粒度特征模块K进行训练更新，即其中一个更新条件对独立粗粒度特征模块K进行更新后，另一个更新条件再在经过一次更新后的独立粗粒度特征模块K进行更新，如图4所示。

由E₁、Robot₁和Agent₁构成的更新条件以及由E₂、Robot₂和Agent₂构成的更新条件对独立粗粒度特征模块K进行更新的过程相同，设i为虚拟导航环境序号，其取值为1或2，当其取1时，表示采用了由E₁、Robot₁和Agent₁构成的更新条件对独立粗粒度特征模块K进行更新，当其取2时，表示采用了由E₂、Robot₂和Agent₂构成的更新条件对独立粗粒度特征模块K进行更新，对独立粗粒度特征模块K的更新过程如下：

1)令导Agent_i控制E_i内的Agent_i连续导航交互t次，得到包含t个交互样本的交互样本序列Ⅰ

其中，虚拟移动机器人在环境中的单次导航交互过程为：

虚拟移动机器人在动作前获取环境的感知场景视觉图像

通过导航神经网络生成机器人动作

虚拟移动机器按照所生成的机器人动作

移动，待其完成机器人动作后，再次获取环境的感知场景视觉图像

并得到环境反馈奖励

2)利用

根据强化学习算法计算并保存Agent_i的粗粒度特征模块梯度，更新Agent_i的参数，即将

输入损失函数L₁和L₂计算并保存Agent_i的粗粒度特征模块梯度，使用细粒度特征模块和决策网络的梯度更新Agent_i参数；

3)利用所保存的Agent_i的粗粒度特征模块梯度，通过梯度下降法更新独立粗粒度特征模块K；

4)利用更新后的独立粗粒度特征模块K的神经网络参数再次更新Agent_i的参数；

重复步骤1)至步骤4)，直至Agent_i收敛，输出收敛的Agent_i所对应的独立粗粒度特征模块K，即输出Agent_i收敛时，步骤3)得到的更新后的独立粗粒度特征模块K。

在本实施例中，Robot₁在E₁中的连续导航交互过程与Robot₂在E₂中的连续导航交互过程同时进行，以提高交互效率。

第四步、构建一个包含有粗粒度特征模块的导航神经网络ⅡAgent₃，并初始化神经网络参数，利用最终独立粗粒度特征模块K的参数对Agent₃的粗粒度特征模块的参数进行更新，得到导航神经网络ⅢAgent₄，保持Agent₄的粗粒度特征模块不再接受训练更新。

第五步、在新导航环境E₃中初始化一个虚拟移动机器人ⅡRobot₃；

第六步、利用E₃和Robot₃，训练更新Agent₄除粗粒度特征模块以外的其余神经网络参数，得到导航神经网络ⅣAgent₅，完成在新导航环境中的导航设计。

在本实施例中，获取Agent₅的过程具体如下：

1)令Agent₄控制Robot₃在E₃中连续导航交互若干次，得到包含若干交互样本的交互样本序列Ⅱ

其中上标3表示对应E₃；

2)利用

训练更新Agent₄除粗粒度特征模块以外的其余神经网络参数，得到Agent₅，即将

输入损失函数L₁计算并保存Agent₄的梯度，仅使用梯度更新Agent₄的细粒度特征模块和决策网络的参数，之后得到Agent₅；

重复步骤1)至步骤2)，直至Agent₅收敛，输出收敛后的Agent₅，完成在新导航环境中的导航设计。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。