CN113033669B

CN113033669B - 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法

Info

Publication number: CN113033669B
Application number: CN202110331476.3A
Authority: CN
Inventors: 张云洲; 秦操; 刘英达; 刘闫; 田瑞
Original assignee: 东北大学
Filing date: 2021-03-29
Publication date: 2024-05-14
Anticipated expiration: 2041-03-29

Abstract

一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，包括如下步骤：对每帧输入图像进行基础网络的稠密特征提取，利用池化方式生成二通道描述符。然后利用全连接层与激活函数的结构生成新的通道权重，并与原始输入的卷积特征进行重新尺度化操作，生成过滤特征。随后针对过滤后的特征图，建立完全图模型，通过信息生成网络输出每个节点的影响力信息，并以非线性组合的方式，实现节点特征的更新。最后通过子认证网络，促使同一地点的图像特征映射至相同的特征空间，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性，有助于开展更智能化的视觉导航等工作。

Description

一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法

技术领域

本发明涉及计算机视觉及机器人领域，具体涉及一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法。

背景技术

基于视觉的场景识别方法是利用图像特征在最新一帧图像和之前看到过的图像中寻找相关性，判断是否已处于之前访问过的环境区域，从而形成闭环检测并进行地图优化。不同于基于传统特征的场景识别方法仅能处理常见的场景，基于深度卷积特征的提取方法能够保留图像的不变信息，以应对复杂的环境变化。《IEEE Transactions onRobotics,2012,28(5):1188-1197.》采用词袋模型针对图像序列实现了快速的场景识别，但是其算法中所采用的特征提取方式仅基于常见的场景，一旦环境发生显著变化，图像特征也随之变化从而导致场景识别算法失效。《IEEE/RSJ international conference onintelligent robots and systems(IROS),4297-4304,2015》利用深度卷积神经网络提取的图像特征，并在场景识别的准确率上实现了显著的提升，但是所提出的方法过于关注网络架构的设计，而忽略了不同滤波器对特征信息的编码，导致卷积特征信息冗余，不足以对场景进行表示。《IEEE International Conference on Robotics and Automation(ICRA),3223-3230,2017》将场景识别看作分类问题并通过度量学习的方式，使卷积神经网络学习到如何对图片相似程度进行判断。但是该方法仅考虑了图像对之间的信息，而忽略了大量数据之间的互相关联。因此，视觉场景识别方法的关键问题在于，针对外观变化情形下的网络训练、基于特征图过滤的特征提取和用于传播关联信息的图注意力模型。

发明内容

针对以往场景识别方法在外观变化情形、特征冗余、图像关联性利用的不足，本发明提出了一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法。首先利用原始卷积特征层的权重差异性，以学习的方式通过端对端的网络训练进行卷积特征的权重重新标定，并利用三元损失函数进行约束。然后通过图注意力网络模型进行节点间的互信息传播，采用子认证网络迫使相同地点图像的特征映射至特征空间同一点。最后通过反馈损失函数的约束来避免测试过程中图模型的时间损耗，采用优化后的特征进行图像间的相似度计算，实现视觉场景识别。该方法能够抑制针对外观变化情形不鲁棒的图像特征，从而保证生成的图像特征能够应对复杂的环境变化，提升机器人的场景重识别能力，以服务于导航、定位等应用场景。

本发明的技术方案是这样实现的：

基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，包括如下步骤：

步骤一，对每帧输入图像进行基础网络的稠密特征提取，利用池化方式生成二通道描述符。

步骤二，利用全连接层与激活函数的结构生成新的通道权重，并与原始输入的卷积特征进行重新尺度化操作，生成过滤特征。

步骤三，针对过滤后的特征图，建立完全图模型，通过信息生成网络输出每个节点的影响力信息，并以非线性组合的方式，实现节点特征的更新。

步骤四，通过子认证网络，促使同一地点的图像特征映射至相同的特征空间，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。

进一步地，步骤一：利用池化方式生成二通道描述符。

特征过滤模块示意图如图1所示，首先对图像提取基于基础网络的稠密特征。随后，利用全局平均池化方式，对稠密特征提取后的空间信息进行压缩生成单通道描述符μ_nc(x_nwhc)，再将单通道描述符μ_nc(x_nwhc)采用标准方差池化方式，生成另一个单通道描述符σ_nc(x_nwhc)，最终进行连接操作构成二通道描述符s_nc。

s_nc＝[μ_nc,σ_nc] (3)

其中，H为空间总高度，W为空间总宽度，_h为当前图像高度，_w为当前图像宽度x_nwhc为当前图像帧原始特征。

进一步地，步骤二：利用全连接层与激活函数的结构产生新的通道权重并重新构造特征。

通道权重以如下公式进行计算：

m＝σ₁(W₂σ₂(W₁S)) (4)

其中，σ₁与σ₂分别表示Sigmoid激活函数与ReLU激活函数。W₁ 和/>是全连接层的参数，r是通道数缩放比例；S为s_nc的集合表示，C表示通道维度，/>表示二维矩阵空间。

然后，利用新的通道权重对原始输入的卷积特征进行重新池化操作，得到过滤后的特征图。原始输入的步骤一稠密特征提取后的卷积特征X重新池化过程：

x′_c＝p(m_c·x) (5)

其中，X′表示过滤后的特征，X′＝[x′₁,x′₂,…,x′_C]是根据通道数量C进行表示；是以节点数量N进行表示；m_C是m中的元素，且x表示X中的单层特征。p表示池化操作。

随后，过滤后的特征图通过使用三元损失函数进行约束，实现过滤特征的重新标定。

进一步地，步骤三：建立完全图模型，通过信息生成网络输出每个节点的影响力信息，并以非线性组合的方式，实现节点特征的更新。

1)完全图模型建立

对输入的过滤后的特征X′，建立完全图模型G(V,E)：

V＝{v₁,v₂,...,v_N} (6)

E＝{e₁₁,e₁₂,...,e_1N,e₂₁,e₂₂,...e_NN} (7)

其中，V表示节点集合。每个节点v_N都表示X′中单一的特征图。E表示边的集合。在G中，边e_ij表示两个节点与/>之间的欧式距离：

节点之间的关联程度可以表示为：

其中，α_ij表示第i个节点与第j个节点之间的关联程度，i、j∈[1～N]，γ为权重参数。

L1正则化方法被用于对关联程度α_ij进行归一化：

2)影响力消息生成与节点更新

消息生成网络由两个全连接层，批量标准化层，以及ReLU激活函数层组成，影响力消息z_i有如下表示：

其中I(·)表示消息生成网络。

不同于一般的图注意力网络传播原始的特征的方式，本算法通过传播特征之间的影响力来对节点进行更新如图3所示。单一节点的更新方式如下：

其中表示第i个更新的节点特征，β是权重参数。

1)反馈损失函数

采用均方误差来约束原始特征与优化特征之间的差异：

其中，表示更新后的特征。反馈损失函数是一个额外的用于避免图模型建立的耗时的模块。通过这个模块可以直接输出优化后的特征，而不需要对特征进行预处理。

进一步地，步骤四：通过子认证网络，促使同一地点的图像特征映射至相同的特征空间，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。

子认证网络接受两个特征输入，由一个全连接层与一个SoftMax激活函数组成。对于输入子认证网络的特征和/>其差异通过如下公式进行计算：

其中·*表示逐元素乘操作。对于训练过程中一个小批次内的每一对图像，利用二进制交叉损失函数来计算最终的损失值：

其中，y_i指输入的两个特征对是否属于同一地点的标签值，f(D_i)表示全连接层的输出值。

在完成特征的优化过程之后，利用生成的特征进行视觉场景识别，图像之间相似度计算采用了距离：

其中，表示数据库内的参考图像帧，/>表示查询图像帧。

本发明的有益效果：本发明算法充分考虑了外观变化情形下的视觉场景识别，并针对特征不变性、特征间关联程度进行了特征图过滤模块、图注意力网络模型以及影响力生成网络的设计及训练，最终利用优化后的特征计算图像之间的相似度，完成准确的视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性，有助于开展更智能化的视觉导航等工作。

附图说明

图1本发明特征过滤模块示意图；

图2本发明消息生成网络示意图；

图3本发明基于影响力的非线性节点更新示意图；

图4本发明算法执行流程示意图；

图5本发明权重通道响应示意图；

图6本发明相似度矩阵示意图

图7本发明不同三元损失函数性能PR曲线示意图

图8本发明不同组件性能PR曲线示意图

具体实施方式

步骤一：对Nordland数据集中，按批次的输入图像至AlexNet网络进行稠密特征提取，选择第三层卷积特征作为原始特征x_nwhc。一个批次包括8个随机选择的地点，每个地点含有4帧外观不同的图像。利用全局平均池化方式，对空间信息进行压缩生成单通道描述符μ_nc(x_nwhc)，再将单通道描述符μ_nc(x_nwhc)采用标准方差池化方式，生成另一个单通道描述符σ_nc(x_nwhc)，最终进行连接操作构成二通道描述符s_nc。

s_nc＝[μ_nc,σ_nc] (19)

其中，H＝W＝224，_h为当前图像高度，_w为当前图像宽度x_nwhc为当前图像帧。

步骤二：输入步骤一生成的二通道描述符至全连接层与激活函数的结构，生成新的通道权重，新的通道权重以如下公式进行计算：

m＝σ₁(W₂σ₂(W₁S)) (20)

其中，σ₁与σ₂分别表示Sigmoid激活函数与ReLU激活函数。和/>是全连接层的参数，r是通道数缩放比例，取值为8；S为s_nc的集合表示，C表示通道维度取值为1024，/>表示二维矩阵空间。通道权重响应如图5所示。

然后，利用新的通道权重对原始输入的卷积特征进行重新尺度化操作，得到过滤后的特征图。原始输入的卷积特征X重新尺度化过程：

x′_c＝p(m_c·x) (21)

其中，X′表示过滤后的特征，X′＝[x′₁,x′₂,...,x′_C]是根据通道数量C进行表示；是以节点数量N进行表示；m_c是m中的元素，且x表示X中的单层特征。p表示池化操作。

步骤三：

1)完全图模型建立

对输入的特征X′，建立完全图模型G(V,E)：

V＝{v₁,v₂,...,v_N} (22)

E＝{e₁₁,e₁₂,...,e_1N,e₂₁,e₂₂,...e_NN} (23)

其中V表示节点集合。每个节点v_N都表示X′中单一的特征图。E表示边的集合。在G中，边e_ij表示两个节点与/>之间的欧式距离：

节点之间的关联程度可以表示为：

其中，α_ij表示第i个节点与第j个节点之间的关联程度，i、j∈[1～N]。γ为超参数，取值为200。

L1正则化方法被用于对关联性进行归一化：

2)影响力消息生成与节点更新

其中I(·)表示消息生成网络。

结合输出的过滤后的特征，通过传播特征之间的影响力来对节点进行更新。单一节点的更新方式如下：

其中表示第i个更新的节点特征，β是权重参数，设定为0.9。

3)反馈损失函数

采用均方误差来约束原始特征与优化特征之间的差异：

其中，表示优化后的特征。

步骤四：将步骤三生成的优化后的特征，输入至子认证网络中。子认证网络接受两个特征输入，由一个全连接层与一个SoftMax激活函数组成。对于输入子认证网络的特征和/>其差异通过如下公式进行计算：

其中·*表示逐元素乘操作。对于训练过程中一个小批次的每一对图像，利用二进制交叉损失函数来计算最终的损失值来进行优化：

其中，y_i指输入的两个特征对是否属于同一地点的标签值，通常取值为0或者1，f(D_i)表示全连接层的输出值。

在完成子认证网络的优化过程之后，利用生成的特征计算图像间的相似度并构成相似度矩阵如图6所示。图像之间相似度计算采用了余弦距离：

其中，表示数据库内的参考图像帧，/>表示查询图像帧。

利用相似度矩阵，绘制PR曲线。实验测试了不同的三元损失函数对性能的影响如图7所示。原始的Conv3层网络的效果远远差于使用三元组损失函数优化后的实验结果。该结果还表明，基于三元组损失函数优化后的Conv3特征在判别能力上差异不是很大。

如图8所示，实验还测试了本方法中不同模块对算法性能的影响。从曲线可以看出，单独的使用特征图过滤模块，或者图注意力网络，都会对原始特征进行优化，但是还不足以满足性能要求。在同时使用特征图过滤模块与图注意网络模块之后，实验性能得到了最大的提升。

Claims

1.一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，其特征在于，具体步骤如下：

步骤一，对每帧输入图像进行基础网络的稠密特征提取，利用池化方式生成二通道描述符；

步骤二，利用全连接层与激活函数的结构生成新的通道权重，并与原始输入的卷积特征进行重新池化操作，生成过滤后的特征图；

步骤三，针对过滤后的特征图，建立完全图模型，通过消息生成网络输出每个节点的影响力信息，并以非线性组合的方式，实现节点特征的更新；

步骤四，通过子认证网络，促使同一地点的图像特征映射至相同的特征空间，不同地点的图像特征映射至不同的空间；并利用余弦距离计算优化特征间的相似度，实现视觉场景识别；

所述步骤三的具体过程为：

1)完全图模型建立

对输入的过滤后的特征X′，建立完全图模型G(V,E)：

V＝{v₁,v₂,...,v_N} (1)

E＝{e₁₁,e₁₂,...,e_1N,e₂₁,e₂₂,...e_NN} (2)

其中，V表示节点集合；每个节点v_N都表示X′中单一的特征图；E表示边的集合；在G中，边e_ij表示两个节点与/>之间的欧式距离：

节点之间的关联程度可以表示为：

其中，α_ij表示第i个节点与第j个节点之间的关联程度，i、j∈[1～N]，γ为权重参数；

L1正则化方法被用于对关联程度α_ij进行归一化：

2)影响力消息生成与节点更新

其中I(·)表示消息生成网络；

结合输出的过滤后的特征，通过传播特征之间的影响力，利用图注意力网络以非线性组合的方式来对节点进行更新；单一节点的更新方式如下：

其中，表示第i个更新的节点特征，β是权重参数；

3)反馈损失函数

采用均方误差来约束原始特征与优化特征之间的差异：

其中，表示更新后的特征。

2.根据权利要求1所述的一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，其特征在于，所述步骤一中，利用池化方式生成二通道描述符的具体过程如下：

先利用全局平均池化方式，对稠密特征提取后的空间信息进行压缩生成单通道描述符μ_nc(x_nwhc)，再将单通道描述符μ_nc(x_nwhc)采用标准方差池化方式，生成另一个单通道描述符σ_nc(x_nwhc)，最终进行连接操作构成二通道描述符s_nc；

s_nc＝[μ_nc,σ_nc] (11)

3.根据权利要求1所述的一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，其特征在于，所述步骤二的具体过程为：

输入步骤一生成的二通道描述符至全连接层与激活函数的结构，生成新的通道权重，新的通道权重以如下公式进行计算：

m＝σ₁(W₂σ₂(W₁S)) (4)

其中，σ₁与σ₂分别表示Sigmoid激活函数与ReLU激活函数；和/>是全连接层的参数，r是通道数缩放比例；S为s_nc的集合表示，C表示通道维度，/>表示二维矩阵空间；

然后，利用新的通道权重对原始输入的卷积特征进行重新池化操作，得到过滤后的特征图；原始输入的步骤一稠密特征提取后的卷积特征X重新池化过程：

x′_C＝p(m_C·x) (5)

其中，X′表示过滤后的特征，X′＝[x′₁,x′₂,...,x′_C]是根据通道数量C进行表示；是以节点数量N进行表示；m_C是m中的元素，且x表示X中的单层特征，p表示池化操作；

4.根据权利要求1所述的一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，其特征在于，所述步骤四的具体过程如下：

子认证网络接受两个特征输入，由一个全连接层与一个SoftMax激活函数组成；对于输入子认证网络的特征和/>其差异通过如下公式进行计算：

其中·*表示逐元素乘操作；对于训练过程中一个小批次的每一对图像，利用二进制交叉损失函数来计算最终的损失值来进行优化：

其中，y_i指输入的两个特征对是否属于同一地点的标签值，f(D_i)表示全连接层的输出值；

在完成子认证网络的优化之后，利用生成的特征进行视觉场景识别，图像之间相似度计算采用了余弦距离：

其中，表示数据库内的参考图像帧，/>表示查询图像帧。