CN114910071A

CN114910071A - 一种基于物体偏见修正与有向注意力图的物体导航方法

Info

Publication number: CN114910071A
Application number: CN202210385355.1A
Authority: CN
Inventors: 陈启军; 党荣浩; 刘成菊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-08-16

Abstract

本发明涉及一种基于物体偏见修正与有向注意力图的物体导航方法，包括以下步骤：S1、机器人实时获取当前时刻的原始图像；S2、提取视觉输入的全局图像特征I_t和局部物体特征S_t；S3、通过多头注意力分数生成模块得到自适应物体注意力图G_v；S4、得到当前时刻的物体注意力权重G_t；S5、得到物体支路最终编码

S6、通过多头注意力得到图像支路最终编码

S7、对图像、物体和过去动作三个支路进行聚合得到特征表示H_t；S8、预测动作执行概率；S9、加强检测到目标物体时输出停止动作的概率；S10、选择概率最大的动作对场景进行探索。与现有技术相比，本发明具有解决注意力偏见问题、加强信息融合利用、更好区分支路类型、提高支路特征聚合合理性等优点。

Description

一种基于物体偏见修正与有向注意力图的物体导航方法

技术领域

本发明涉及机器人视觉语义导航领域，尤其是涉及一种基于物体偏见修正与有向注意力图的物体导航方法。

背景技术

在物体导航任务中，智能代理(机器人)根据第一人称视觉观察(通常是由其机载摄像机捕捉的RGB图像)在室内环境中导航到用户指定的目标，这是实现人工智能目标的一个基本而完整的任务，它要求智能机器人能够理解其视觉输入，推断其当前位置，推理目标位置，规划轨迹，并在每一步执行一个动作。物体导航领域的发展也促生了如视觉问答(要求机器人导航到指定物体前并回答问题)、视觉语言导航(要求机器人根据指导者的指令在室内环境进行导航)等领域的蓬勃发展，因此物体导航引起了越来越多的研究者们的关注，并促生出大量试图解决这一问题的工作。

经典的基于地图的视觉导航方法已经被研究了很多年，这些方法明确地将导航任务分解为一组子任务，即建图、定位、规划和运动控制，尽管这些方法在近年来取得了相当大的成功，但模块化的设计存在着其根本的局限性，阻碍了他们广泛的应用。一个重要的限制是它们容易受到传感器噪声的影响，这些噪声从建图到运动控制的整个过程中不断累计和传播，这使得这些方法在复杂环境中不那么鲁棒，更重要的是它们需要大量的场景探索和手工操作，这使得它们很难与其他下游人工智能任务集成，如视觉识别，问题回答和场景字幕等。

观察到基于学习的方法最近在相关任务中的成功，已经有大量的工作将学习方法应用到了物体导航任务中，基于学习的方法通常将视觉输入和用户指定的目标与在每个时间戳上的最佳操作作为智能代理的输入和输出。与传统方法不同，基于学习的方法直接从数据中推断出解决方案，因此不需要太多的手工工程，并作为新型人工智能驱动的视觉导航任务的基础，但是基于学习的物体导航方法也面临着一个至关重要的问题：如何有效的表示视觉输入，从而推理出当前观察与目标之间的联系。

为了解决这一问题，越来越多的研究者开始利用目标检测等方法提取智能代理视野中的高阶信息，试图利用高阶语义信息更好的指导机器人的运动。SP模型首先提出了利用图网络对于场景中物体相关的先验知识进行学习；MJOLNIR模型在SP模型的基础上将被检测到物体的位置和语义信息整合到图卷积网络中；ORG模型合理的利用物体视觉特征、语义特征和空间特征关系提高了物体特征运用的自适应性；CKR模型利用交叉模式知识推理将外部知识图谱信息应用到智能代理的导航中；HOZ模型从场景整体出发，提出了物体区域图，将场景整合成分层式的图结构。

如今基于高阶语义的物体导航仍在蓬勃发展，但是需要研究者们从实际问题出发，找到物体导航方法从数据集到现实世界的困难，真正的将物体导航方法应用到物理世界中。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于物体偏见修正与有向注意力图的物体导航方法。

本发明的目的可以通过以下技术方案来实现：

一种基于物体偏见修正与有向注意力图的物体导航方法，包括以下步骤：

S1、在物体导航过程中，机器人实时获取当前时刻的原始图像作为视觉输入；

S2、通过ResNet18提取视觉输入的全局图像特征I_t，并且通过Faster RCNN提取视觉输入的局部物体特征S_t；

S3、以全局图像特征I_t作为查询，局部物体特征S_t作为键值，通过多头注意力分数生成模块得到自适应物体注意力图C_v；

S4、将自适应物体注意力图C_v与固定的物体注意力图加权相加得到当前时刻的物体注意力权重G_t；

S5、利用物体注意力权重G_t对局部物体特征S_t进行加权得到物体支路最终编码

S6、利用经过物体注意力权重加权后的物体语义表示D作为查询，全局的图像信息作为键值，通过多头注意力得到图像支路最终编码

S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合得到特征表示H_t；

S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率；

S9、加强检测到目标物体时输出停止动作的概率；

S10、机器人选择概率最大的动作对场景进行探索。

所述的步骤S2中，局部物体特征S_t由物体视觉特征

物体位置特征

物体置信度

和目标物体指示位

拼接而成。

所述的步骤S3具体包括以下步骤：

S31、设定置信度阈值，并通过置信度滤波将低于置信度阈值的物体特征置为0得到滤波后的物体特征

S32、通过独热编码和两层全连接层得到物体索引编码特征OI，对全局图像特征I_t进行全局平均池化后与目标索引编码OI^p拼接得到包含目标物体信息的全局图像特征

则有：

其中，M为特征图中的像素数量，p表示目标物体，OI^p为物体索引编码特征OI中目标物体p的索引编码，Concat表示将两个向量拼接成一个；

S33、以包含目标物体信息的全局图像特征

作为查询，滤波后的物体特征

作为键，利用多头注意力分数生成器得到自适应物体注意力图G_v，则有：

其中，NH和HD分别为多头注意力分数生成器的头数和隐藏维度，

均为可学习的维度映射参数，

和

分别将包含目标物体信息的全局图像特征

和滤波后的局部物体特征

映射到的同一维度HD，

将各个头计算出来的子图聚合为一个自适应的物体注意力图G_v。

所述的步骤S4具体为：

定义一个可学习且固定大小的矩阵

表示固定的物体注意力图，根据寻找的物体p，从固定的物体注意力图中提取边权重

通过加权固定物体注意力图与自适应的物体注意力图得到无偏见的物体注意力权重G_t，则有：

其中，ω_n与ω_v均为可学习的权重。

所述的步骤S5具体为：

为平衡计算量与信息完整性使用两层带有ReLU非线性的全连接层对局部物体特征S_t进行降维得到降维后的物体特征S_t′，采用无偏见的物体注意力权重G_t对降维后的物体特征S_t′中每个物体q的特征进行加权得到物体支路最终编码

则有：

其中，N为物体总数，

为第q个物体的低维特征，

为第q个物体的无偏注意力权重。

所述的步骤S6具体包括以下步骤：

S61、利用无偏物体注意力权重G_t对物体索引编码特征OI进性加权聚合，得到加权后的物体语义表示D，则有：

其中，

表示指示函数，N为物体总数，OI^q为物体索引编码特征OI中第q个物体的索引编码，置信度滤波

表示置信度小于一定阈值的物体的语义特征被置为0；

S62、将一维的像素索引编码PI引入到全局图像特征中，则有：

I′_t＝δ(δ(I_tW₁)W₂)+PI

其中，I′_t为拥有像素位置标识的全局图像特征，δ表示ReLU非线性激活函数，W₁和W₂为可学习的维度映射参数；

S63、利用加权后的物体语义表示D作为查询，拥有像素位置标识的全局图像特征I′_t作为键值，通过多头注意力网络得到图像支路最终编码

所述的步骤S7具体为：

定义一个包含三个可学习参数的向量R＝{r₁，r₂，r₃}，将全局图像支路

局部物体支路

和过去动作支路PA通过向量R聚合为一个特征表示H_t，则有：

其中，F_pw表示逐点卷积。

所述的步骤S8具体为：

采用两层的全连接层对特征表示H_t进行精炼作为LSTM网络的输入，经过LSTM网络学习到机器人在探索环境过程中的时序关系，从而输出综合过去动作与当前环境的动作概率向量，所述的动作包括直走、左转、右转、抬头、低头和停止，若机器人输出停止动作，则表示机器人已经找到了物体并导航到了物体的位置。

所述的置信度滤波的阈值为0.6.

所述的步骤S9中，当机器人检测到目标物体时，使用目标检测置信度乘以固定系数再乘上概率向量中停止动作的概率，实现对停止动作触发的显式增强。

与现有技术相比，本发明具有以下优点：

一、本发明提出了一种有向物体注意力图表示，有效解决了智能代理在物体导航中出现的物体注意力偏见问题，并且让神经网络对物体之间的内在关系有了更加清晰的认识。

二、本发明以有向物体注意力图为基础，设计了全局图像支路和局部物体支路的交叉注意力，即无偏的图像注意力和无偏的物体注意力，这种交叉注意力方法增强了全局图像特征和物体特征注意力分配的合理性。

三、本发明设计了一种几乎不需要额外增加计算量的自适应能量分配支路特征聚合方法，该方法有效增强了网路对于不同支路的区分度，并改善了聚合后特征表示的数据分布。

四、本发明在AI2-Thor数据集上进行了实验，在SR、SPL、SAE指标上相比于最先进的方法分别提高了7.4％、8.1％和17.6％。

附图说明

图1为本发明方法的流程图。

图2为本发明方法的有向物体注意力图计算过程。

图3为本发明方法学习到的固定注意力图的邻接矩阵。

图4为本发明方法学习到的自适应注意力图的邻接矩阵。

图5为本发明方法训练过程中在训练集和测试集上成功率指标SR的变化，其中，图(5a)为训练集上成功率指标SR的变化，图(5b)为测试集上成功率指标SR的变化。

图6为本发明方法与过去方法在AI2-Thor模拟环境中指导智能代理寻找物体的路线对比。

图7为AI2-Thor数据集中的四个场景及每个场景中包含的物体。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于物体偏见修正与有向注意力图的物体导航方法，该方法利用物体有向注意力图解决机器人物体导航过程中的物体注意力偏见问题的方法，根据物体间无偏见的关系对物体注意力进行了合理的分配，并在AI2-Thor数据集的实验中获得了最先进的结果，具体包括以下步骤：

S1、提出了机器人在进行未知环境中纯视觉的物体导航时存在的物体注意力偏见问题；

步骤S1中物体注意力偏见问题由两方面原因导致：

(1)内源性原因：网络自身对具有更加丰富视觉特征对象的偏好。

(2)外源性原因，数据集中每个对象可以检测到的频率的差异性。

本方法主要从内源性因素入手，不改变数据集中的对象数量。

S2、利用ResNet18和Faster RCNN提取视觉输入的全局图像信息和局部物体信息；

步骤S2中，ResNet18从原始图像中提取出全局图像特征I_t，Faster RCNN从原始图像中提取出物体特征S_t，其由物体视觉特征

物体位置特征

物体置信度

和目标物体指示位

拼接而成。

S3、以全局图像信息作为查询，局部物体信息作为键值，通过多头注意力分数生成模块得到自适应物体注意力图；

步骤S3中，为了消除包含较多噪声的低置信度物体的干扰，使用置信度滤波将低于一定置信度阈值的物体特征置为0，滤波后的物体特征表示为

在完成滤波后，首先通过独热编码和两层的全连接层得到物体索引编码特征OI，因为寻找不同目标时需要有不同的注意力分配策略，所以对全局图像特征I_t进行全局平均池化后与目标索引编码OI^p拼接得到拼接后的全局图像特征

则有：

其中，M表示特征图中的像素数量，p表示目标物体，OI^p表示OI中第p个物体(目标物体)的索引编码，Concat表示将两个向量拼接成一个。

以拼接后的全局图像特征

作为查询，滤波后的物体特征

其中，NH和HD分别表示多头注意力分数生成器的头数和隐藏维度，

与

分别将全局图像特征

和局部物体特征

映射到同一维度HD，

S4、将自适应物体注意力图与固定的物体注意力图加权相加得到当前时刻的物体注意力权重；

步骤S4中，定义一个可学习的固定大小的矩阵

表示固定的物体注意力图，N表示物体总数，由于定义的物体注意力图是有向的，所以G_n是非对称的。

根据寻找的物体p，从固定物体注意力图中提取边权重

p是有向图中边的终点，通过加权相加固定物体注意力图与自适应的物体注意力图得到无偏见的物体注意力权重G_t，则有：

其中，ω_n与ω_v都是可学习的权重。

S5、利用物体注意力权重对物体局部信息进行加权得到物体支路最终编码；

步骤S5中，为了平衡计算量与信息完整性使用两层带有ReLU非线性的全连接层对局部物体特征S_t进行降维得到降维后的物体特征S_t′，利用步骤S4中计算出来的无偏见的物体注意力权重G_t对降维后的物体特征S_t′中每个物体q的特征进行加权，则有：

其中，

是第q个物体的低维特征，

是第q个物体的无偏注意力权重。

S6、利用经过物体注意力权重加权后的物体语义作为查询，全局的图像信息作为键值，通过多头注意力得到图像支路最终编码；

步骤S6中，首先利用无偏物体注意力权重G_t对物体索引编码特征OI进行加权聚合，得到加权后的物体语义表示D，则有：

其中，

指代指示函数，置信度滤波

表示置信度小于一定阈值的物体的语义特征会被置为0。

然后将一维的像素索引编码PI引入到全局图像特征中：

I′_t＝δ(δ(I_tW₁)W₂)+PI

其中，δ指代ReLU非线性激活，W₁和W₂为可学习的维度映射参数，用以将全局图像特征降维，PI为全局图像特征的每个像素提供了位置标识。

最后利用加权后的物体语义表示D作为查询，拥有像素位置标识的全局图像特征I′_t作为键值，通过多头注意力网络得到图像支路最终编码

则有：

S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合；

步骤S7中，定义一个包含三个可学习参数的向量R＝{r₁，r₂，r₃}，全局图像支路

局部物体支路

过去动作支路PA这三个支路通过向量R聚合为一个特征表示H_t，则有：

其中，F_pw指代逐点卷积，降低特征维度。

S9、利用停止动作提醒模块加强检测到目标物体时输出停止动作的概率；

步骤S9中，当智能代理检测到目标物体时，使用目标检测置信度乘以固定的系数再乘上概率向量中停止动作的概率，实现对停止动作触发的显式增强。

S10、机器人选择概率最大的动作对场景进行探索。

实施例

本实施例提供了一种基于物体偏见修正与有向注意力图的物体导航方法，该方法的框架示意图如图1所示，具体包括以下步骤：

S1、利用ResNet18和Faster RCNN提取视觉输入的全局图像信息和局部物体信息；

S2、以全局图像信息作为查询，局部物体信息作为键值，通过多头注意力分数生成模块得到自适应物体注意力图；

S3、将自适应物体注意力图与固定的物体注意力图加权相加得到当前时刻的物体注意力权重；

S4、利用物体注意力权重对物体局部信息进行加权得到物体支路最终编码；

S5、利用经过物体注意力权重加权后的物体索引编码特征作为查询，全局的图像信息作为键值，通过多头注意力得到图像支路最终编码；

S6、对图像、物体和过去动作三个支路进行能量重新分配再聚合；

S7、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率；

S8、利用停止动作提醒模块加强检测到目标物体时输出停止动作的概率。

S9、机器人选择概率最大的动作对场景进行探索。

在步骤S1，智能代理首先通过向前拍摄的摄像头读取当前场景的主视角图片，再将图片数据转换成在python中便于处理的numpy格式，为了输入用pytorch搭建的神经网络，再将numpy格式的图像数据转换成pytorch中的tensor格式。

在训练模型的时候，将场景中智能代理所处的所有可能状态时捕获到的主视角图片提出出来，并分别用预训练过的ResNet18和Faster RCNN提取全局图像信息和局部物体信息，将每个场景中的上述两种特征储存成HDF5格式文件，这样在训练时智能代理只需要读取HDF5文件获得当前状态的全局图像与局部物体特征，不需要智能代理不断的与环境交互从而耗费大量的时间。

在步骤S2，图2展示了计算物体注意力图的详细过程。物体特征需要经过一个置信度滤波剔除置信度较低的物体带来的噪声，而经过实验探究，置信度滤波的最佳阈值为0.6，全局图像特征在全局平均池化后需要与目标物体的索引编码拼接。这里使用拼接向量的方法而不是特征相加是因为图像特征的维度(512)和目标索引编码的维度(64)相差较大，所以使用拼接的方法能更好的利用特性信息。多头注意力分数生成模块本质上是计算每一个局部物体特征嵌入与全局图像特征嵌入的相似性，从而得到每个物体根据不同可视图片而变化的重要性权重。

在步骤S3，固定的物体注意力图是由可学习的N×N矩阵表示的，其在训练的过程中不断学习物体之间的本质关系，在测试使用时就不会改变。所以理论上，训练的场景越全面越真实，那么固定的物体注意力图就越合理，图3和图4分别可视化了固定的物体注意力图和自适应物体注意力图的邻接矩阵，可以发现固定的物体注意力图中自连接边的权重最大，即对目标物体的注意力最强，图4中的自适应物体注意力图的邻接矩阵每一列代表在寻找这类物体时随机抽取一帧时的自适应物体注意力。可以发现自适应物体注意力一般集中在一个物体上，这是因为每一时刻视野中物体相对于所有物体是十分稀疏的，这种稀疏性导致了注意力对于最重要物体的极致倾斜。但是由于使用的是固定注意力图与自适应注意力图加权平均的方式，而神经网络学习到的分配给固定注意力图的权重为0.96，分配给自适应注意力图的权重为0.04。所以自适应注意力的注意力集中现象并不会导致整体物体注意力的极端，反而会起到加强重要物体权重的良好效果。

在步骤S4，为了平衡网络后续的计算量和特征的信息丰富度，利用带有ReLU非线性的全连接层对局部物体特征进行了降维，从518维降低到了64维，再对每个物体特征乘以对应的物体注意力权重得到最终的物体特征输出。

在步骤S5，全局图像特征需要对每个像素添加位置编码，在本方法中运用的是1D位置编码方式，这是因为全局图像特征图的大小只有7×7，所以只使用1D编码也可以学习出二维的位置信息，所以没有必要使用2D或者相对位置编码了。物体语义信息在经过注意力分配后也需要通过置信度滤波去除噪声，这里选择的置信度阈值与步骤S2中的一样也为0.6。

在步骤S6，每一个支路都有一个可学习的参数对支路特征进行数据分布的调整，所有的支路以拼接的方式连接，注意在拼接成一个特征向量后还需要经过两层的全连接层对信息进行精炼，才能输入LSTM网络。

在步骤S7，精炼后特征经过LSTM网络会学习到智能代理在探索环境过程中的时序关系，从而输出综合了之前动作和环境的动作概率向量，动作一共有6种：直走、左转、右转、抬头、低头、停止，如果智能代理输出停止动作，则表示其认为已经找到了物体并导航到了物体的位置。

在步骤S8，由于此任务的目标是找到目标物体，所以当智能代理检测到视野中的目标物体时，会根据检测到目标物体的置信度增强结束动作的概率。

在步骤S9，机器人会采取动作概率向量中概率最大的动作进行下一步的场景探索。

本发明提出了一种有向物体注意力图方法有效解决了物体导航过程中的物体注意力偏见问题。并基于物体注意力图，提出了无偏的自适应物体注意力与自适应图像注意力这两个交叉注意力策略，他们让神经网络对于物体特征和图像特征注意力进行了合理的分配。不仅如此，还提出了自适应能量分配方法对支路特征的聚合进行了优化。在AI2-Thor数据集上进行了实验，图7展示了数据集中的场景和物体。图5中，可以看到我们的方法在强化学习训练过程中，在训练集和测试集上的成功率曲线都平稳收敛。图6展示了方法在AI2-Thor模拟环境中指导智能代理导航的实际效果。可以发现，旋转的方向和旋转变直走的时机对于导航的成功与否是十分重要的。而这两个决策主要由视野中包含多个物体的关键帧时，智能代理对于场景的理解决定。基于有向物体注意力图的方法能够为智能代理提供更加合理和无偏见的注意力分配，因此能够指导其在关键帧的时候做出正确的决策。本方法在SR、SPL和SAE指标方面比HOZ等先进方法提升了7.4％、8.1％和17.6％。无论是对方法效果的提升还是对未来研究的指导作用方面，本方法都有着独特的优势。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。