CN114049541A

CN114049541A - 基于结构化信息特征解耦与知识迁移的视觉场景识别方法

Info

Publication number: CN114049541A
Application number: CN202111000756.2A
Authority: CN
Inventors: 张云洲; 秦操; 刘英达; 杨非; 杜承垚
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2022-02-15

Abstract

本发明公开了一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法，包括如下步骤：使用Canny边缘检测器提取图像的边缘表示形式，并基于自动编码器将其转换为边缘特征矢量；利用微调后的ResNet‑34提取图像的外观特征表示；对于输入图像，送入特征解耦网络分别生成结构化特征向量与外观特征向量，结构化特征向量的特征分布将会与内容教师模块生成的边缘特征矢量进行对比；解码器整合输入的特征并重构原始图像，用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示，提取结构化特征向量作为最终的场景特征，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。

Description

基于结构化信息特征解耦与知识迁移的视觉场景识别方法

技术领域

本发明涉及计算机视觉及机器人领域，具体涉及一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法。

背景技术

准确的场景识别有助于机器人认知自身的状态，很好地完成工作任务。所谓场景，指的是真实世界中，由传感器所记录的某一个时刻某一地点的数据，它包含了各种不同物体的组合。移动机器人的任务就是在不同时间段重复地访问同一场景，并判断出该场景是否是之前所经历过的。场景识别一般围绕“这是哪里”进行展开，通过对场景中的目标进行检测分析，或者进行稳定的特征提取，来对当前所处场景进行分析和判断。例如，在视觉SLAM(Simultaneous Localization and Mapping，即时定位与地图构建)过程中，精准的场景识别可以帮助机器人判断是否已处于之前访问过的环境区域，从而形成闭环检测并进行地图优化，这对于保证地图的一致性、减少累积误差是至关重要的。《IEEE internationalconference on robotics and automation(ICRA),1011–1018,2018》公开了一种可转换的生成器，它可以对图像的昼夜、季节等条件进行变换。该图像变换生成器是基于SURF检测器和稠密描述符所设计的，用于辅助特征匹配，从而在剧烈的外观变化下提高视觉场景识别和度量定位的精度。《IEEE International conference on robotics and automation(ICRA),4489–4495,2018》提出了一种对抗性的、用于终身的、增量的域适应方法。该方法通过使用生成对抗网络来近似源域的特征分布，使得部署模块可以完全独立于大量的源训练数据。《IEEE International Conference on Robotics and Automation(ICRA),9271–9277,2020》提出了一种多光谱域不变框架，该框架通过在目标函数中引入新的约束条件，利用非成对图像变换方法生成具有语义和强区分性的不变图像，展现了在多光谱场景识别任务上有竞争力的性能。因此，视觉场景识别方法的关键问题在于，针对外观变化情形下的网络训练、基于对抗训练的特征解耦和基于结构化信息的知识迁移。

发明内容

针对以往场景识别方法在外观变化情形下的特征冗余交错、图像表征能力的不足，本发明提出了一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法。该方法利用结构信息学习深度解耦的特征表示用于场景识别。通过引入概率知识迁移的方法，实现了结构信息从Canny边缘检测器到结构编码器的迁移，并添加了一个外观教师模型，以帮助外观编码器生成更具体的特征。此外，还引入了仿射变换产生附加噪声至卷积自动编码器中，以解决边缘对视角变化过于敏感的问题。该方法能够提升外观变化情形图像特征的表征能力，从而保证生成的图像特征能够应对复杂的环境变化，提升机器人的场景重识别能力，以服务于导航、定位等应用场景。

本发明的技术方案是这样实现的：

基于结构化信息的特征解耦与知识迁移的视觉场景识别方法，包括如下步骤：

步骤一，使用Canny边缘检测器提取图像X的边缘表示形式X_CE，并基于自动编码器将其转换为矢量X_CT；

步骤二，利用微调后的ResNet-34提取图像X的外观特征表示X_AT；

步骤三，对于输入图像X，送入特征解耦网络，则会分别生成结构化特征向量X_SC与外观特征向量X_A。随后，X_SC被送入至D_AA用于判断所提取的结构化特征向量是否来自于同一个域。此外，X_SC的特征分布将会与内容教师模块生成的X_CT进行对比。至于X_A，它不仅会被三元组损失函数进行优化，其分布还会与外观教师模块生成的X_AT进行对比。

步骤四，解码器D_E整合输入的特征并重构原始图像，用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示。提取结构化特征向量X_SC作为最终的场景特征，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。

进一步地，步骤一：首先为了实现二维的射影变换，需要找到图像中的四个点来估测单应性矩阵。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为

来确保视角变化的合理程度。H和W分别为图像的宽度与高度。

图像的边缘表示形式为

X_CE＝Canny(X) (1)

Canny(·)为Canny边缘检测器提取边缘操作。

边缘的矢量表示则为：

X_CT＝Auto_encoder(X_CE) (2)

Auto_encoder(·)为自动编码器的特征编码操作。

进一步地，步骤二：对于输入图像X，利用微调后的ResNet-34提取外观特征表示X_AT：

X_AT＝ResNet(X) (3)

ResNet(·)为提取ResNet-34的倒数第二层特征的操作。

进一步地，步骤三：

对于外观特征，通过编码器E_A进行提取，表示为：

X_A＝E_A(X) (4)

通过如下损失函数来对外观编码器进行训练：

其中α控制分离的边缘，且y_ij∈{-1,1}。θ_A是外观编码器的参数。

结构化内容特征通过编码器E_SC进行提取，表示为：

X_SC＝E_SC(X) (6)

为了获得外观不相关的特征，设计了一个具有判别力的外观分类损失函数。在训练阶段，将内容特征送入外观判别器D_AA中。E_SC的目的就是为了欺骗D_AA，使得它无法正确的对内容特征进行分类。

需要基于生成的E_SC与交叉熵损失函数对外观判别器进行训练D_AA：

其中，D_AA被认为是一个二进制分类器。θ_DAA是外观判别器的参数，且

也可表示为：

其中，x是输入内容特征对{x_i,x_j}的连接特征。注意，

的梯度只会反向传播至分类器，而不会更新E_SC的其它层。为了实现对抗训练，需要欺骗外观判别器:

其中，

的梯度将会反向传播至E_SC，而此时外观判别器的权重参数则应保持不变。

参考概率知识迁移的做法，首先需要对两个特征空间中的数据样本集合进行概率性建模。这样的话，如何将知识(边缘信息)从X_CT迁移至X_SC的问题就转换成了最小化分布P与Q之间的联合概率密度分布的散度。考虑到条件概率分布表示了每个样本选择其邻域的概率，这样能够更精确地对特征空间的几何结构进行建模。因此，使用条件概率分布来描述内容教师模型：

相似地，学生模型X_SC的概率分布表示为：

其中，

是一个对称的核函数，其宽度为σ_t。a和b是输入的向量。条件概率之和为1，且范围是[0,1]。

在该教师-学生模型中采用了基于余弦相似度的度量：

使用Wasserstein距离作为散度度量：

其中，P₁和P₂分别表示教师模型和学生模型的概率分布。Π(P₁,P₂)是P₁和P₂之间所有可能的联合概率分布。作为一个距离函数，Wasserstein距离具有一个很好的性质，即以两个分布的质心之间的距离为下界。采用这样的下界大大减少了计算量。用于训练学生模型(结构内容编码器)的最终损失函数定义为：

其中，N为小批次的大小。

与内容教师模型类似，Wasserstein距离也被用来度量X_AT和X_A概率分布的相似性。因此，外观教师-学生模型的损失函数定义如下：

进一步地，步骤四：

采用编码器-解码器架构，并且重构损失被定义为：

其中，

和θ_SC,θ_A,θ_DE分别是编码器与解码器的参数。

利用训练好的网络提取结构化特征向量X_SC作为最终的场景特征，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。利用生成的特征进行视觉场景识别，图像之间相似度计算采用了余弦距离：

本发明的有益效果：本发明的方法充分考虑了外观变化情形下的视觉场景识别，并针对特征解耦、结构化信息整合进行了网络结构的设计及训练，最终利用优化后的结构化内容特征计算图像之间的相似度，完成准确的视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性，有助于开展更智能化的视觉导航等工作。

附图说明

图1本发明利用射影变换模拟视角变化示意图；

图2本发明内容教师模型中自动编码器的网络结构示意图；

图3本发明Canny边缘提取器中使用不同敏感度阈值的实验结果；

图4本发明使用不同模块及其组合的外观预测性能对比；

图5本发明方法执行流程示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明的基于结构化信息特征解耦与知识迁移的视觉场景识别方法，包括如下步骤：

步骤一：对Nordland数据集中，按批次的输入图像至网络。为了实现二维的射影变换，需要找到图像中的四个点来估测单应性矩阵，如图1所示为利用射影变换模拟视角变化示意图。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为

来确保视角变化的合理程度。H和W分别为图像的宽度与高度，一般取值H＝W＝224。

图像的边缘表示形式为

X_CE＝Canny(X) (1)

Canny(·)为Canny边缘检测器提取边缘操作。

边缘的矢量表示则为：

X_CT＝Auto_encoder(X_CE) (2)

Auto_encoder(·)为自动编码器的特征编码操作，生成的边缘特征的长度设置为2048，自动编码器的结构如图2所示。

步骤二：对于输入图像X，利用微调后的ResNet-34提取外观特征表示X_AT：

X_AT＝ResNet(X) (3)

ResNet(·)为提取ResNet-34的倒数第二层特征的操作，ResNet-34网络以学习率1×10^-4进行微调。

步骤三：对于外观特征，通过编码器E_A进行提取，表示为：

X_A＝E_A(X) (4)

通过如下损失函数来对外观编码器进行训练：

其中α控制分离的边缘，且y_ij∈{-1,1}。θ_A是外观编码器的参数。设定λ＝0.5且将距离限制为1.4。边界阈值β的学习率设定为0.0002且初始值为1.0。

结构化内容特征通过编码器E_SC进行提取，表示为：

X_SC＝E_SC(X) (6)

也可表示为：

其中，x是输入内容特征对{x_i,x_j}的连接特征。注意，

其中，

相似地，学生模型X_SC的概率分布表示为：

其中，

在该教师-学生模型中采用了基于余弦相似度的度量：

使用Wasserstein距离作为散度度量：

其中，N为小批次的大小。

步骤四：采用编码器-解码器架构，并且重构损失被定义为：

其中，

和θ_SC,θ_A,θ_DE分别是编码器与解码器的参数。

利用训练好的网络提取结构化特征向量X_SC作为最终的场景特征，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。特征长度设定为512，小批次的大小N设定为4，编码器中的dropout率设定为0.5，判别器中则设定为0.25。

利用生成的特征进行视觉场景识别，图像之间相似度计算采用了余弦距离：

使用边缘检测算法作为教师模型来引导内容编码器的学习，因此边缘检测算法作为特征提取器，其参数也是极其重要的。不同的敏感度阈值，会使得生成的边缘信息具有不同的噪声以及准确度。我们调整阈值t从0.02至0.12，测试了添加内容教师模型的实验效果。绘制的PR曲线如图3所示。我们发现并不是阈值越小图像的信息越丰富越好，相反，阈值越小(t＝0.02)会带来更多的噪声从而降低整体的性能。阈值越大比如0.12与0.10，边缘信息获取的就越少，也会降低性能。只有当阈值处于合适的范围，如t＝0.06时候，能获得最佳的结果。

解耦出来的外观特征可以用来预测每幅图像的外观特性。在Nordland数据集上对四种不同的外观进行预测精度的评测。如图4所示，在采用ATM之前，原始的FDNet所提取的外观特征仅能够实现70.04％的平均精度。得益于ResNet-34预训练的参数及其更深层的网络，单独的ATM在微调之后则能够取得91.29％的精度。FDNet_M的精度则更高于FDNet，这说明了距离权重采样以及基于边缘的损失函数的是具有有效性。CTM的引入能对外观特征的精度有轻微的改进作用，而ATM的引入则明显的改进了外观特征的分类准确度，这意味着该结构能够有效地将知识从ATM迁移到外观编码器中。

Claims

1.一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法，其特征在于，具体步骤如下：

步骤三，对于输入图像X，送入特征解耦网络，则会分别生成结构化特征向量X_SC与外观特征向量X_A；随后，X_SC被送入至D_AA用于判断所提取的结构化特征向量是否来自于同一个域。此外，X_SC的特征分布将会与内容教师模块生成的X_CT进行对比。至于X_A，它不仅会被三元组损失函数进行优化，其分布还会与外观教师模块生成的X_AT进行对比；

步骤四，解码器D_E整合输入的特征并重构原始图像，用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示；提取结构化特征向量X_SC作为最终的场景特征，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。

2.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法，其特征在于，所述步骤一的具体过程如下：

首先为了实现二维的射影变换，需要找到图像中的四个点来估测单应性矩阵。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为