CN111832399A

CN111832399A - 一种融合注意力机制的跨域道路航标配准算法

Info

Publication number: CN111832399A
Application number: CN202010493575.7A
Authority: CN
Inventors: 王腾; 赵烨; 刘剑; 薛磊; 董璐
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-10-27
Anticipated expiration: 2040-06-03
Also published as: CN111832399B

Abstract

本发明公开一种融合注意力机制的跨域道路航标配准算法。该方法旨在对实时无人机航拍图像与数据库中预存储的二值化矢量道路航标进行配准，从而实时解算无人机的位姿状态；其具体步骤：首先，建立双通道卷积神经网络将跨域航拍图像与二值道路航标映射到同一低维特征空间；其次，构建特征匹配层来衡量深度特征点间的相似度；再次，考虑到道路航标图像中视觉特征稀疏，引入软注意力机制进行有效特征点筛选，以除去错误特征点匹配对；最后，构建回归网络输出几何变换参数。本发明所涉及的融合注意力机制的神经网络结构在满足实时性的同时，可提高道路航标配准精度，有效解决大旋转、平移下的道路航标配准问题。

Description

一种融合注意力机制的跨域道路航标配准算法

技术领域

本发明涉及神经网络算法领域，具体地，涉及一种融合注意力机制的跨域道路航标配准算法。

背景技术

道路航标与航拍图像之间的配准与匹配是实现GPS不可用环境下无人机自主定位的关键技术，建立高精度道路航标配准算法有助于精确解算无人机位姿状态，从而有望将无人机技术推广到更多GPS不可用的应用场景。

到目前为止，道路图像配准算法已经取得了很多的研究成果。但目前尚存在以下问题：1)、目前的航拍图像道路配准流程通常包括两个独立的阶段:从航拍图像中提取道路和基于手工特征的道路配准，上述两阶段方法计算复杂，对噪声的鲁棒性较差；2)、航拍图像中的道路提取本身就存在困难，进一步降低了配准精度；3)、多阶段的方法导致了配准的时效性不足。

发明内容

针对上述问题，本发明提供了一种融合注意力机制的跨域道路航标配准算法；能够利用航拍图像与数据库中相匹配的矢量道路航标图像进行端到端的配准，从而得到无人机航拍图像相对于道路航标图像的旋转角度以及X和Y方向的平移量，从而确定无人机当前的位置姿态。

本发明的技术方案是：一种融合注意力机制的跨域道路航标配准算法，具体包括以下步骤：

步骤(1.1)、在训练阶段中，将来自不同图像源的航拍图像及道路航标图像作为融合注意力机制的跨域道路航标配准算法模型的输入；

步骤(1.2)、设计双通道卷积神经网络结构提取航拍图像与道路航标图像的特征，并将其映射至同一特征空间；

其中，航拍图像与道路航标图像经过特征提取网络后分别输出大小为16×16×1024的特征图f_A和f_L；

步骤(1.3)、将特征图f_A和f_L输入至特征匹配层进行特征匹配，计算特征图f_A和f_L之间的相似度；其中，该特征匹配层的输出是大小为16×16×256的匹配矩阵P；

步骤(1.4)、根据道路航标图像的稀疏特征，将匹配矩阵P输入至基于注意力机制的特征筛选网络中进行特征点匹配对的筛选；其中，所述基于注意力机制的特征筛选网络的输出大小为16×16×256的加权相似矩阵S；

步骤(1.5)、将加权相似矩阵S输入至由卷积层和全连接层组成的回归网络中，并其进行回归分析；

步骤(1.6)、经过回归网络后得到一个三维向量[r_θ，t_x，t_y]，该三维向量即跨域道路航标配准算法得到的关于输入图像对之间的配准参数；其中r_θ表示输入的航拍图像与道路航标之间的旋转角度，t_x和t_y分别表示航拍图像相对于道路航标在X和Y方向的平移量。

进一步的，所述步骤(1.1)中，将待配准的航拍图像及道路航标图像的尺寸归一化为256×256px。

进一步的，在所述步骤(1.2)中，面向道路航标配准的特征提取网络是一个部分参数共享的双通道非对称卷积神经网络结构，所述双通道非对称卷积神经网络结构包括航拍通道与道路通道，所述的航拍通道与道路通道分别由多层卷积层、池化层以及残差单元组成。

进一步的，在所述步骤(1.4)中，所述基于注意力机制的特征筛选网络中融合了注意力模块，所述的注意力模块由双通道沙漏网络结构实现，其用于生成具有不同分辨率的权重图W₁及W₂。

进一步的，所述的跨域道路航标配准算法能端到端实现跨域道路航标配准，得到输入图像对之间的配准参数，所述的配准参数包括旋转角度、X方向平移量和Y方向平移量。

本发明的有益效果是：1、本发明提供的融合注意力机制的跨域道路航标配准算法可通过航拍图像与相匹配的道路航标图像进行配准，从而得到无人机航拍图像相对于道路航标图像的旋转角度以及X和Y方向的平移量，从而确定无人机当前的位置姿态；2、本发明提供的算法可端到端实现不同图像域的航拍图像道路配准，减少了多阶段方法的计算复杂度；3、此外，本发明还融合了注意力机制，极大地提高了对噪声的鲁棒性，保证了算法的高精度。

附图说明

图1是本发明中融合注意力机制的跨域道路航标配准算法的流程示意图；

图2是本发明中特征提取网络的网络结构图；

图3是本发明中基于注意力机制的特征筛选网络的具体网络结构图；

图4是本发明中回归网络的网络结构图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面将对本发明中进行进一步的叙述；显而易见地，下面描述中的仅仅是一部分的实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些将本发明所述的技术方案应用于其它类似情景；为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图所述；一种融合注意力机制的跨域道路航标配准算法，具体包括以下步骤：

步骤(1.3)、将特征图f_A和f_L输入至特征匹配层进行特征匹配，计算特征图f_A和f_L之间的相似度；其中，该特征匹配层的输出大小为16×16×256的匹配矩阵P，，所述匹配矩阵P反映了特征图f_A和f_L之间所有特征的相似度；

步骤(1.4)、根据道路航标图像的稀疏特征，将匹配矩阵P输入至基于注意力机制的特征筛选网络中进行特征点匹配对(具有强烈特征)的筛选；其中，所述基于注意力机制的特征筛选网络的输出是大小为16×16×256的加权相似矩阵S；

步骤(1.6)、经过回归网络后得到一个三维向量[r_θ，t_x，t_y]，该三维向量即跨域道路航标配准算法得到的关于输入图像对之间的配准参数；其中r_θ表示输入的航拍图像与道路航标之间的旋转角度，t_x和t_y分别表示航拍图像相对于道路航标在X和Y方向的平移量；

本发明采用精准的旋转角度及平移量作为标签对模型进行监督训练，利用SmoothL1损失函数和反向传播算法让网络进行迭代学习，当误差达到最小时证明网络学习完毕；Smooth L1损失函数以及算法总损失函数定义如下：

其中，F表示该配准算法最终回归得到的姿态估计值，F^g表示训练图像对的真实标签。

进一步的，在所述步骤(1.2)中，面向道路航标配准的特征提取网络是一个部分参数共享的双通道非对称卷积神经网络结构，所述双通道非对称卷积神经网络结构包括航拍通道与道路通道，所述的航拍通道与道路通道分别由多层卷积层、池化层以及残差单元组成；值得一提的是两通道的最后三个残差单元共享参数；该双通道神经网络中的非共享神经网络层用于分别从航拍图像与道路航标图像提取视觉特征，而共享的网络层用于将来自不同对象的深度特征映射到同一特征空间。

进一步的，在所述步骤(1.4)中，所述基于注意力机制的特征筛选网络中融合了注意力模块，所述的注意力模块由双通道沙漏网络结构实现，其用于生成具有不同分辨率的权重图W₁及W₂；通过将权重图与匹配矩阵P进行点乘来降低误匹配点的权重，同时提高关键匹配点的权重，从而提高整体配准精度。

本发明具体的工作原理是：如图1所示，包括如下步骤：

步骤1，将经过图像归一化处理的航拍图像与相匹配的道路航标矢量图作为一组数据输入网络，首先经过第一个模块特征提取网络，该网络由部分参数共享的非对称网络构成，其网络结构如图2所示，经过卷积层、池化层以及多层残差单元获得高维深度特征；设计非对称网络的目的是分别提取不同图像域的特征，最后的参数共享部分目的是将特征映射到同一个深度特征空间；经过特征提取后航拍图像与航标图像分别输出大小为16×16×1024的特征图f_A和f_L；

步骤2，将上述得到的两个深度特征图f_A和f_L经过特征匹配模块，特征匹配模块的设计是为了计算来自不同特征映射的所有局部描述符之间的相似性，从而得到关于两个输入的高维相关图；该特征匹配层输出大小为16×16×256的匹配矩阵P；

步骤3，基于注意力机制的特征筛选网络的作用是将步骤2所得的匹配矩阵P进行筛选，引入注意力机制目的是降低误匹配点的权重，提高关键匹配点的权重，从而提高整体配准精度；基于注意力机制的特征筛选网络结构如图3所示，它由两个并行的分支组成，分别产生两个不同分辨率的权值映射W₁和W₂；这两个分支都是沙漏网络结构，每个分支由两部分组成：编码和解码；第一部分通过最大池化层提取高级语义将输入相关映射编码为高维特征，而解码部分则通过反池化将高维特征解码恢复；两个分支之间的主要区别主要在于解码部分；在细分支中引入了跳跃连接，将低级细节信息和高级语义信息结合起来，以生成更高分辨率的权值映射W₁；粗支则简单地采用上采样操作，产生低分辨率的权值映射W₂；将两个权值映射W₁和W₂相结合，生成更准确的权值映射W，并引入激活函数tanh，将权值限制在[-1，1]，权值范围为[-1，0]和[0，1]分别表示相关抑制和增强；最后与输入的匹配矩阵P点乘，得到经过筛选的加权相似矩阵S，输出大小为16×16×256；其公式描述如下:

S＝P*tanh(W₁+W₂)

步骤4，将经过特征筛选的高维相关图经过回归网络获得算法估计的配准参数，回归网络结构如图4所示，经过两层卷积以及全连接层后输出三个配准参数，分别是输入图像对之间的旋转角度以及X和Y方向的平移量。

至此，完整的一次算法循环结束；利用Smooth L1损失函数和反向传播算法让网络进行迭代学习，当误差达到最小时证明网络学习完毕，Smooth L1损失函数以及算法总损失函数定义如下：

其中F表示该配准算法最终回归得到的姿态估计值，F^g表示训练图像对的真实标签。

将训练完毕的模型在测试集上进行测试，超过了目前相关领域主流算法的精度和速度，可以应用于实时的航标配准中。

应当注意的是，为了简化本发明披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本发明实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中；但是，这种披露方法并不意味着本发明对象所需要的特征比权利要求中提及的特征多；实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims

1.一种融合注意力机制的跨域道路航标配准算法，其特征在于，具体包括以下步骤：

步骤(1.3)、将特征图f_A和f_L输入至特征匹配层进行特征匹配，计算特征图f_A和f_L之间的相似度；其中，该特征匹配层输出大小为16×16×256的匹配矩阵P；

2.根据权利要求1所述的一种融合注意力机制的跨域道路航标配准算法，其特征在于，所述步骤(1.1)中，将待配准的航拍图像及道路航标图像的尺寸归一化为256×256px。

3.根据权利要求1所述的一种融合注意力机制的跨域道路航标配准算法，其特征在于，在所述步骤(1.2)中，面向道路航标配准的特征提取网络是一个部分参数共享的双通道非对称卷积神经网络结构，所述双通道非对称卷积神经网络结构包括航拍通道与道路通道，所述的航拍通道与道路通道分别由多层卷积层、池化层以及残差单元组成。

4.根据权利要求1所述的一种融合注意力机制的跨域道路航标配准算法，其特征在于，在所述步骤(1.4)中，所述基于注意力机制的特征筛选网络中融合了注意力模块，所述的注意力模块由双通道沙漏网络结构实现，其用于生成具有不同分辨率的权重图W₁及W₂。

5.根据权利要求1至4所述的一种融合注意力机制的跨域道路航标配准算法，其特征在于，所述的跨域道路航标配准算法能端到端实现跨域道路航标配准，得到输入图像对之间的配准参数，所述的配准参数包括旋转角度、X方向平移量和Y方向平移量。