CN115131414A

CN115131414A - 基于深度学习的无人机图像对齐方法、电子设备和存储介质

Info

Publication number: CN115131414A
Application number: CN202210708805.6A
Authority: CN
Inventors: 张亮; 王拓; 冯明涛; 朱光明; 沈沛意; 宋娟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-30

Abstract

本发明公开了一种基于深度学习的无人机图像对齐方法、电子设备和存储介质，所述方法包括：构建伪造无人机透视变换数据集，对数据集进行裁剪处理，获得输入图像的灰度图像、横坐标和纵坐标的位置偏移，构建基于编码器与解码器的神经网络，并使用残差网络将浅层特征向深层特征进行补充，并添加了通道注意力机制，使通道信息更丰富表达，并使用RANSAC方法进行后处理，增强了对于透视矩阵估计的鲁棒性；本发明无需人工标注，便可实现透视矩阵的估计，从而实现无人机图像的对齐，并在不同光照，天气，图像噪声干扰下，鲁棒地将无人机图像进行对齐。

Description

基于深度学习的无人机图像对齐方法、电子设备和存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及基于深度学习的无人机图像对齐方法、电子设备和存储介质。

背景技术

近年来，随着无人机技术的发展，越来越多地可以操作无人机得到大量的无人机图像。无人机操作方便，数据采集能力强，成为获取遥感图像的主要平台，在民用，商用和军用中具有很广泛的应用场景，对于无人机导航来说，GPS(全球卫星定位系统)起到了十分重要的作用，但是GPS系统在一些场景下十分容易失效，例如在接近障碍物，或者遇到干扰时。这时，导航完全依赖无人机内部导航单元进行自身的状态估计，但是状态估计会受到时间漂移地影响，累计的误差让定位估计十分容易出错并变的不可用。

这样，通过无人机传感器采集到的图像与内置的图像进行匹配对齐就显得十分重要。现有的图像对齐方法都是通过在采集图像与目标图像上寻找最为匹配的目标点，从而计算透视矩阵，而这样的做法，在一些纹理信息不丰富的图像上，往往会出现匹配点寻找错误，从而导致计算得到的透视矩阵并不能对图像进行对齐，并且对于不同光照，遮挡的无人机图像不具有鲁棒性，在一些有噪声的图像上会直接失效。

发明内容

为了克服以上技术的缺点，本发明的目的在于提供基于深度学习的无人机图像对齐方法、电子设备和存储介质，通过伪造透视变换，得到透视变换后横坐标和纵坐标的位置偏移差标签，并通过构建编码-解码器网络结构，设计残差模块增强深度特征，并增加通道注意力机制模块，增加通道信息的表达能力，提升了对于透视变换矩阵预测的鲁棒性。

为了实现上述目的，本发明采用的技术方案是：

基于深度学习的无人机图像对齐方法，包括以下步骤；

步骤1：构建训练数据集，对采集到的无人机图像进行数据增强，扩大数据规模；

步骤2：通过在原始图像I_A上随机选点并进行扰动，计算扰动前后的透视变换关系，根据变换关系得到伪造的输入图像I_B，并根据扰动前后的关系，计算透视变换标签PF；

步骤3：基于残差网络设计编码器与解码器网络，并增加通道注意力模块，建模通道间的特征关系，并使用损失函数进行回归预测步骤2中的透视变换标签PF，使训练好的模型具备预测透视变换的能力；

步骤4：使用训练得到的模型，将待对齐的图像I_ori与目标无人机图像I_target进行对齐。

所述步骤1中扩大数据规模的方法包括垂直翻转，水平翻转，降低亮度，提升亮度，尺寸统一，灰度化。

所述步骤2中伪造有监督数据集的过程如下：

步骤21，在原始图像I_A上随机生成一个128×128大小的正方形区域，记左上角的坐标为

步骤22，将这四个顶点，每个顶点进行随机扰动ρ，其中ρ∈[-32,32]，根据随机扰动前后四个点对可计算算出，对应点对之间的坐标差，用Δu₁＝u′₁-u₁表示左上角第一个顶点的坐标差，那么可以得到如下的坐标偏移矩阵；

步骤23，根据上面的矩阵转换为一个透视变换矩阵H^AB，随后将原始图像I_A使用H^BA＝(H^AB)^-1用下述公式进行透视变换，记变换后的图像为I_B，从原始图像I_A和变换后图像I_B的p_ltc位置处截取大小为 128×128大小的图像块作为网络的输入；

步骤24，对于图像I_A和I_B那上点p，在横坐标上的偏移为Δx_p＝x_p-x_q，相应的在纵坐标上的偏移为Δy_p＝y_p-y_q，因此PF中

可以表示为下面的式子：

和

同样的，需要在p_ltc位置处截取相同大小的128×128大小的向量块，并进行拼接得到128×128×2的特征向量后，作为监督的标签。

所述步骤3中的编码器网络，用于学习输入图像之间的特征关系，参照ResNet-50网络的前四层严格遵循设计模式，并且去掉了第五层的和最后的全连接层，其在每一层m输出为形如W_m×H_m×C_m的特征图，其中m＝{3,4}，对应的特征图尺寸为

C_m＝2^6+m。

所述步骤3中的解码器网络用于恢复特征图的大小，使其和输入具有相同的尺寸，从而可以估计各个像素的位置偏移，将编码器提取到的图像特征进行恢复，根据从编码器学习到的空间位置信息，生成位置偏移信息的PF，其结构和编码器结构对称，将编码器中下采样的模块更换为反卷积，从而达到恢复特征图尺寸的目的，同样的，对于第n层网络，每一层特征的输出大小为W_n×H_n×C_n，其中n＝{1,....,4}，

C_n＝2^10-n。

所述步骤3中的特征注意力模块包含了压缩模块和激励两个部分，其中压缩模块是将每个通道上的整个空间特征编码为一个全局特征，采用全局平均池化操作来实现，激励模块从压缩操作得到全局描述特征，使用Sigmoid门控机制来学习各个通道之间的非线性关系，将模块插入到编码器与解码器每个阶段的最后一层，从而提高模型的表达能力。

所述步骤3中用于回归的损失函数为smooth-l₁，其计算如下：

上式中*表示横坐标或者纵坐标，

代表预测得到的PF，

表示标签的PF。

所述步骤4对齐过程如下：

步骤61，将需要对齐的两张无人机图像，分别记作I_ori和I_target，使用S1步骤中的方法进行尺寸调整，并转换为灰度图像，随后在随机生成一点p_ltc，并以该点为左上角裁取128×128大小的图像块作为输入；

步骤62，将图像输入到网络后，得到预测到的PF，也就是横纵坐标的偏移

随后使用横纵坐标的偏移，恢复偏移坐标；

步骤63，使用RANSAC过滤掉离群点，使用DLT算法计算出透视变换矩阵H，使用H的逆矩阵，对I_ori进行透视变换，即可得到对齐后的图像。

一种电子设备，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明的有益效果：

1、本发明采用随机选点，在图像上任意生成子图，并且通过对子图四个顶点的随机扰动得到标签的透视变换矩阵，在进行监督学习时，理论上能够有无限多的带标签对的图像对进行学习，这样无需繁琐的人工标注也能有大量可供训练的数据集来使网络具有学习透视变换的能力；

2、本发明在对透视将矩阵的估计时，采用了PF(透视随机场)来进行估计，并采用RANSAC进行后处理，增强了对于离群点的鲁棒性，使图像对齐可以更加准确；

3、本发明为网络增加通道注意力模块，通过网络自学习的方法来自动获取到每个特征通道的重要成都，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征，在较少的参数增加规模下，得到很大的对齐效果的提升。

附图说明：

图1是伪造透视变换标签的示意图。

图2是深度学习网络架构与模块的示意图。

图3是使用训练模型对齐无人机图像的示意图。

具体实施方式

下面结合实施例对本发明作进一步详细说明。

如图1所示，基于深度学习的无人机图像对准方法，包括以下步骤：

步骤S1，构建训练数据集，在对数据集进行扩充增强时，我们主要使用了垂直翻转，水平翻转，降低亮度，提升亮度，尺寸统一，灰度化；

所述垂直翻转与水平翻转，也被称作垂直镜像和水平镜像，水平镜像即将图像左半部分和右半部分以图像竖直中轴线为中心轴进行对换，而竖直镜像则是将图像上半部分和下半部分以图像水平中轴线为中心轴进行对换。

所述增加亮度，是将原图像与一张像素值均为0的图像进项权重相加，可以用下述公式进行描述dst＝src₁·α+src₂·β+γ，其中src₁表示原始图像，src₂表示像素值全为0的图像，α表示原图像权重，β表示像素权为0图像的权重，γ为加到总和上的标量，相当于对于亮度调节。其中α值大于1，才能达到亮度增加效果。

所述降低亮度，是将原图像RGB三个通道的像素值乘上权重ω，其中ω的值需要小于1，值越小图像越暗，亮度越低。

所述统一尺寸是将所有的图像需要调整为240×320大小的统一尺寸，方便后续网络的训练以及透视变换的伪造。

所述灰度化是将原始输入RGB三通道图像转化为单通道图像，需要下述心理学公式来完成对图像的灰度转换： Gray＝0.299*R+0.587*G+0.114*B，其中R,G,B分别表示三个通道的值。

步骤S2，生成伪造变换图像，并生成伪造透视变换场标签。

由于直接标注两张需要对齐的图像需要耗费大量的物力人力，所以选择通过伪造变换图像，使网络具有学习透视变换的能力，从而来完成对齐任务；构建伪造变换图像的步骤如图3所示；

首先在原始图像I_A上随机生成一个128×128大小的正方形子图，记左上角的坐标为

相应的，其余三个顶点的坐标为

随后，将这四个顶点，每个顶点进行随机扰动ρ，其中ρ∈[-32,32]，这里值得注意的是，横坐标x需要保证32＜x＜224，纵坐标y需要保证32＜y＜80，这样这四个随机扰动的点不会落在图像的外面。

随后根据随机扰动前后四个点对可计算算出，对应点对之间的坐标差，用Δu₁＝u′₁-u₁表示左上角第一个顶点的坐标差，那么可以得到如下的坐标偏移矩阵，

这个矩阵很容易转换为一个透视变换矩阵H^AB，随后可以将原始图像I_A使用H^BA＝(H^AB)^-1用下述公式进行透视变换:

其中[u,v]表示变换前的坐标，[u′,v′]为变换后的坐标，记变换后的图像为I_B.

得到透视变换后的图像后，需要分别从原始图像I_A和变换后图像 I_B中p_ltc位置处截取相同大小的128×128大小的图像块，并将他们进行拼接得到128×128×2的特征向量后，作为网络的输入。

同样的，为了得到透视变换的监督信息PF(透视变换场)，需要在横坐标和纵坐标方向上计算像素的偏移，使用W和H分别表示图像I_A和I_B的宽和高，那么对于点p，在横坐标上的偏移为Δx_p＝x_p-x_q，相应的在纵坐标上的偏移为Δy_p＝y_p-y_q，因此PF中

可以表示为下面的式子：

和

同样的，需要在p_ltc位置处截取相同大小的128×128大小的向量块，并将他们进行拼接得到128×128×2的特征向量后，作为监督的标签。

步骤S3，构建透视矩阵学习网络。如图2所示，深度学习网络模块包括编码器，解码器以及注意力机制通道融合模块。

所述编码器是以ResNet-50作为主干网络，网络的前四层严格遵循ResNet-50的设计模式，去掉了第五层的和最后的全连接层，去掉第五层因为过多下采样会使特征图太小，信息丢失严重，去掉全连接层是为了能够连接解码器，编码器以上述H×W×2的灰度图像作为输入，并在阶段m输出为形如W_m×H_m×C_m的特征图，其中m＝{3,4}，对应的特征图尺寸为

C_m＝2^6+m，编码器模块通过一系列的卷积残差模块来均匀采样在像素位置的局部感受野，从而捕获图像的空间相关性，来形成最终的特征图，作为解码器的输入。

所述解码器是需要将编码器提取到的图像特征进行恢复，根据从编码器学习到的空间位置信息，生成位置偏移信息的PF。因此，需要从下采样后的特征图逐步恢复输入图像的大小，为了达到这一目的，在上采样过程中使用了反卷积，并没有采用双线性插值，反卷积具有更好的信息学习能力，借鉴ResNet-50的设计，解码器具有和编码器类似的对称结构，其同样具有四层网络，每一层和编码器具有相同的残差模块，只不过将用于下采样的卷积模块，更换为反卷积模块。对于一个反卷积模块而言，对于输入的向量，需要增大其分辨率，和残差网络类似，对于输入的特征向量X，其形状为W×H×C，有两条信息流来对其进行解码，使用两个2×2的反卷积核，并采用步长为2，来实现上采样，对于第一条信息流，卷积核数量输入向量的通道相同得到W×H×C大小的特征图x₁，对于第二条信息流，卷积核数量减半，得到

大小的特征图x₂，最终的输出结果为out＝F(x₁)+x₂。同样的，对于第n层网络，每一层特征的输出大小为W_n×H_n×C_n，其中 n＝{1,....,4}，

C_n＝2^10-n。

解码器和编码器构建完成后，需要从解码器的最后一层特征恢复和标签PF具有相同形状的预测PF，也就是说最终的预测结果的向量的形状也应该为H×W×2，在最后一层分别使用了形如1×1×512和 1×1×2的两个连续的卷积核来达到这一目的。和目前比较流行的编码 -解码器模型不同，在编码和解码器之间没有增加多余的跳跃连接结构，这是因为透视变换的图像前后图像扭曲变化极大，补充的信息没有意义，甚至降低网络的对齐性能。

所述，注意力机制融合模块，是嵌入在编码器和解码器模块中，通过对特征通道之间的相关性进行建模，将重要的特征更显著的表达出来，从而提升模型的表达能力。其中注意力模块包含了压缩和激励两个部分。

(1)压缩机制。压缩是将每个通道上的整个空间特征编码为一个全局特征，采用全局平均池化操作来实现，可以用下面的公式进行表示：

上式中，F_sq表示压缩模块，u_c表示输入特征的一个通道特征，H,W比爱是特征图的大小，(i,j)表示特征图中i,j位置的特征值。z_c表示该通道得到的一个实数特征值。

(2)激励机制。从压缩操作得到全局描述特征，需要使用一种机制来学习各个通道之间的非线性关系，这里采用了Sigmoid形式的门控机制，可以表示成下述的式子：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂ReLU(W₁z))

其中σ表示Sigmoid函数,

为了降低模型的复杂，并能提升泛化能力，采用了连续两个全连接层，第一个全连接层起到将通道数减少的作用，第二个全连接层用于恢复原始的通道个数，r是降维系数，ReLU为激活函数。

最后将学习到的各个通道的激活值，乘上原始的特征u

整个操作学习到了各个通道的权重系数，可以看作一种通道Attention 机制，记作Atten()，最后将这个模块融入到编码解码器每个残差模块的最后一层卷积之后中，可表达为下述操作

其中x 表示残差模块最后一层的输出。这样便增强了特征相关性的学习。

建立深度学习计算PF特征的损失函数；

对于这类密集型预测问题，比较常用的损失函数是l₂损失函数，用来计算预测结果和真实标签之间的欧几里得距离，但对于该问题，由于离群点对于loss的影响过大，l₂损失不太适合在该问题上进行使用，于是使用smooth-l₁作为该问题的损失函数，即

上式中*表示横坐标或者纵坐标，

代表预测得到的PF，F_AB*表示标签的PF。

使用PyTorch来搭建此网络，并使用Adam作为优化器，Adam优化器中的参数为默认值，即β₁＝0.9，β₂＝0.99，momentum＝0.9，使用初始学习率为1×10^-4作为初始的学习率，并每40个epoch后将学习率减少为原来的1/10，每个batch的大小为32，总共训练120个epoch。

步骤S4，根据训练得到的网络，对齐的两张无人机图像；

S4a，将需要对齐的两张无人机图像，分别记作I_ori和I_target，使用S1 步骤中的方法进行尺寸调整，并转换为灰度图像，随后在随机生成一点p_ltc，并以该点为左上角裁取128×128大小的图像块，在两张图像上需进行相同的操作，随后将其拼接为128×128×2的向量作为输入。

S4b，将图像输入到网络后，得到预测到的PF，也就是横纵坐标的偏移

随后我们使用横纵坐标的偏移，恢复偏移坐标即，其中p_i,q_i分别表

S4c，得到原始坐标和偏移坐标后，首先使用RANSAC(随机抽样一致)算法，过滤掉一些不符合的离群点，随后需要使用DLT(直接线性转化)算法来从这些点对中求出最符合的透视变换矩阵，如下公式所示的方程组中求解h：

其中h就是求得的透视变换矩阵，其大小为3×3。

S4d，将S3c求得的透视变换矩阵h求逆后，记作h^-1，使用h^-1对I_ori使用下述公式进行透视变换，便将I_ori对齐到了I_target。

本发明查阅了大量无人机图像，分析得出，在无人机图像中，全局图像内容的上下文关系对于推理求得透视变换矩阵至关重要，然而传统的图像对齐技术，例如SIFT，SURF，ORB等，首先根据特征寻找最匹配的特征点，然后再求得透视变换矩阵，这样在纹理特征较少，有噪声的图像中容易失效。一些基于深度学习的关键点匹配方法，必须将对应的点进行标注，并且需要很大的数据规模，这样无疑带来了巨大的成本开销。一些透视矩阵的估计方法，直接回归在图像中四个点的坐标差，通过采样到的这四个点来估计透视矩阵，这种做法会受预测结果中的离群点的影响较大，并且，在这些方法中忽略了通道之间的相关性，从而不能达到最佳的预测结果。因此本发明提出增强数据集，并通过伪造数据标签，来使网络具有学习透视变换的能力，根据该方法，可以生成无限多的数据，降低了训练网络的门槛与难度。

本发明采用PF(透视变换场)来进行透视变换矩阵的估计，相较于只用四点的估计，在图上所有的点进行采样，增多了可以选择的点，并采用RANSAC方法进行后处理，降低模型对于离群值的影响，从而提高估计透视矩阵的准确性，使模型的对齐效果可以更加精准。

本发明在残差网络的基础上，增加了通道注意力机制，因为需要学习透视变换前后的图像之间的关系，因为图像已经变形扭曲，空间变换上的信息不具有泛化性，因此，通道间的联系与关系显得十分重要，于是引入压缩-激励模块，将通道之间的相关性关系进行建模，把重要通道的特征强化，非重要通道的特征弱化，显式地描述特征通道之间的相互依赖关系，在参数量增长不大的范围内，使对齐效果有了很大的提升。

本发明使用的smooth-l₁损失函数，克服了l₁损失函数在0处不可导，可能影响收敛，并且克服了l₂损失函数对于离群特征值过于敏感的缺点，在具有可观的收敛速度下，依旧可以达到出色的对齐效果。

本发明还包含一种电子设备，包括存储器和处理器，所述存储器用于存储各种计算机程序指令，所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤；电子设备可以与一个或多个外部设备通信，还可与一个或多个使用户与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信，电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。

本发明还包括一种存储有计算机程序的计算机可读存储介质，该计算机程序可以被处理器执行，所述计算机可读存储介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备，此外本发明所述的可读存储介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质，术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质 (和/或存储介质)。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于深度学习的无人机图像对齐方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的基于深度学习的无人机图像对齐方法，其特征在于，所述步骤1中扩大数据规模的方法包括垂直翻转，水平翻转，降低亮度，提升亮度，尺寸统一，灰度化。

3.根据权利要求1所述的基于深度学习的无人机图像对齐方法，其特征在于，所述步骤2中伪造有监督数据集的过程如下：

步骤22，将这四个顶点，每个顶点进行随机扰动ρ，其中ρ∈[-32,32]，根据随机扰动前后四个点对可计算算出，对应点对之间的坐标差，用Δu₁＝u₁′-u₁表示左上角第一个顶点的坐标差，那么可以得到如下的坐标偏移矩阵；

步骤23，根据上面的矩阵转换为一个透视变换矩阵H^AB，随后将原始图像I_A使用H^BA＝(H^AB)^-1用下述公式进行透视变换，记变换后的图像为I_B，从原始图像I_A和变换后图像I_B的p_ltc位置处截取大小为128×128大小的图像块作为网络的输入；

可以表示为下面的式子：

和

4.根据权利要求1所述的基于深度学习的无人机图像对齐方法，其特征在于，所述步骤3中的编码器网络，用于学习输入图像之间的特征关系，参照ResNet-50网络的前四层严格遵循设计模式，并且去掉了第五层的和最后的全连接层，其在每一层m输出为形如W_m×H_m×C_m的特征图，其中m＝{3,4}，对应的特征图尺寸为

C_m＝2^6+m。

5.根据权利要求1所述的基于深度学习的无人机图像对齐方法，其特征在于，所述步骤3中的解码器网络用于恢复特征图的大小，使其和输入具有相同的尺寸，从而可以估计各个像素的位置偏移，将编码器提取到的图像特征进行恢复，根据从编码器学习到的空间位置信息，生成位置偏移信息的PF，其结构和编码器结构对称，将编码器中下采样的模块更换为反卷积，从而达到恢复特征图尺寸的目的，同样的，对于第n层网络，每一层特征的输出大小为W_n×H_n×C_n，其中n＝{1,....,4}，

C_n＝2^10-n。

6.根据权利要求1所述的基于深度学习的无人机图像对齐方法，其特征在于，所述步骤3中的特征注意力模块包含了压缩模块和激励两个部分，其中压缩模块是将每个通道上的整个空间特征编码为一个全局特征，采用全局平均池化操作来实现，激励模块从压缩操作得到全局描述特征，使用Sigmoid门控机制来学习各个通道之间的非线性关系，将模块插入到编码器与解码器每个阶段的最后一层，从而提高模型的表达能力。

7.根据权利要求1所述的基于深度学习的无人机图像对齐方法，其特征在于，所述步骤3中用于回归的损失函数为smooth-l₁，其计算如下：

上式中*表示横坐标或者纵坐标，

代表预测得到的PF，

表示标签的PF。

8.根据权利要求1所述的基于深度学习的无人机图像对齐方法，其特征在于，所述步骤4对齐过程如下：

随后使用横纵坐标的偏移，恢复偏移坐标；

9.一种电子设备，其特征在于，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。