CN113781444A

CN113781444A - 基于多层感知机校正的快速拼接航拍图像的方法和系统

Info

Publication number: CN113781444A
Application number: CN202111067612.9A
Authority: CN
Inventors: 许廷发; 任墨璇; 李佳男; 张瑾华; 王颖
Original assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Current assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-10
Anticipated expiration: 2041-09-13
Also published as: CN113781444B

Abstract

本发明公开了一种基于多层感知机校正的快速拼接航拍图像的方法和系统。对于每一幅航拍的正射图像，先基于位置、高度、横滚角、俯仰角、偏航角等信息直接进行粗配准，得到浮动图像与参考图像的单应矩阵，利用离线训练的多层感知机对该单应矩阵进行校正，基于校正结果使用渐入渐出算法对正射图像进行融合。本发明融合了位姿拼接法配准速度快的特点，以及特征点式方法配准精准度高的特点，增强了校正阶段的非线性拟合能力，提高了配准的精度，神经网络的应用减少了真值矩阵分解得到飞行参数以及飞行参数计算校正矩阵的过程，提高了配准速度，使用早停法训练多层感知机，可以防止网络过拟合并节省训练时间。

Description

基于多层感知机校正的快速拼接航拍图像的方法和系统

技术领域

本发明涉及计算机视觉图像配准领域，尤其是一种基于无人机位姿信息和多层感知机的图像分步拼接方法和系统。

背景技术

图像拼接，是计算机视觉领域中的一个基本问题，是目前的研究热点之一。其基本定义为，把无人机从不同视角、不同时刻采集的具有一定重叠率的多幅图像配准后，再无缝融合在一起，以形成视场更大的高分辨率图像。无人机的图像拼接广泛应用于城市规划、地图绘制、道路监视、灾难救援等领域。由于其智能性和重要性而受到了广泛关注。

图像配准是图像拼接的核心。图像拼接的过程近似为配准和融合两个步骤。图像配准的目标是找到浮动图和标准图之间的转换关系。融合经过变换后的浮动图与标准图，就可以得到拼合后的完整图像，整个过程用数学模型表示为：

I_1,2＝M(T(I₁),I₂)

式中I₁是浮动图，I₂是标准图，I_1,2是拼接后的完整图像，T表示转换操作，M表示融合操作。

无人机图像配准算法根据原理不同可以大致分为局部特征点式方法和空间信息式方法。局部特征点式方法的典型代表是SIFT、SURF、ORB，空间信息式方法的典型代表是位姿参数拼接法。局部特征点式方法通过搜寻并描述图像中的角点、斑点等局部特征，通过相似性判断待拼接图像之间的特征的匹配程度，从而得到转换矩阵。空间信息式方法通过地面控制点或地理参数，建立模型后直接计算得到转换模型。空间信息式方法中，有一种位姿参数拼接法，能够直接建立变换模型，直接进行图像配准。

尽管位姿拼接法具有实时性的优势，但无人机的测量参数对噪声敏感。噪声的来源包括但不限于：消费级无人机并未配备高精度GPS和IMU等装置，以及多旋翼无人机通常体积较小，抗风性和稳定性差，无人机在工作过程中会难以避免倾斜和抖动的情况。因此位姿数据拼接法的关键是得到精确的无人机机载参数，用于得到精确的拼接结果。测量参数存在误差，会导致拼接图像有错位鬼影，会严重影响完整图像的生成，导致信息失真。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于多层感知机校正的快速拼接航拍图像的方法和系统，提供一种实时性高、配准精确的图像拼接方案。

本发明采用的技术方案如下：

一种基于多层感知机校正的快速拼接航拍图像的方法，包括：

利用无人机连续采集多幅正射图像，对于每一幅正射图像，均执行以下步骤：

基于无人机位姿信息对正射图像进行粗配准的步骤；

利用多层感知机对粗配准的结果进行校正的步骤；

将校正后的正射图像拼接的步骤。

对正射图像的拼接，即为将当前的正射图像(即浮动图像)拼接到参考图像上。上述方法利用了位姿参数拼接法的特点，具有拼接实时性强的有点。同时利用机器学习对粗配准结果进行校正，使最终拼接结果具有配准精确的优点。

进一步的，所述基于无人机位姿信息对正射图像进行粗配准的步骤，包括：

利用无人机位姿信息，计算浮动图像和参考图像之间的单应矩阵，实现粗配准。

进一步的，所述利用多层感知机对粗配准的结果进行校正的步骤，包括：利用多层感知机对所述单应矩阵进行校正。

进一步的，所述多层感知机由离线阶段训练得到，训练集的数据来源为离线阶段获取的多组正射图像的配准矩阵，配准矩阵通过SIFT算法基于无人机位姿信息配准正射图像得到。

进一步的，所述多层感知机基于Levenberg-Marquardt的反向传播法进行训练。该训练方法可以减少网络的预测数据与真实标签之间的误差，提高预测结果的准确性。

进一步的，所述多层感知机采用早停法进行训练。早停法训练策略可以增强网络的泛化性能并减少训练时间。

进一步的，所述多层感知机的损失函数采用均方根误差性能函数。

进一步的，所述将校正后的正射图像拼接的步骤，包括对待拼接的正射图像进行加权平均融合的过程。

本发明还提供了一种基于多层感知机校正的快速拼接航拍图像的系统，该系统包括图像采集模块、预处理模块、粗配准模块、校正模块和融合模块；

所述图像采集模块获取无人机飞行时采集的正射图像；

所述预处理模块训练多层感知机；

所述粗配准模块基于无人机位姿信息对正射图像进行粗配准；

所述校正模块利用所述预处理模块训练的多层感知机对粗配准结果进行校正；

所述融合模块基于校正结果对正射图像进行拼接。

进一步的，所述融合模块采用渐入渐出算法对正射图像进行拼接。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明的方法和系统，融合了位姿拼接法配准速度快的特点，以及特征点式方法配准精准度高的特点，拼接方案可作为实时配准的基础。

2、本发明中多层感知机的加入增强了校正阶段的非线性拟合能力，提高了配准的精度。对于无人机转弯时飞行参数快速大幅度变化，导致未校正的位姿参数拼接效果极差的情况，校正效果极其显著。

3、本发明多层感知机对单应矩阵的校正减少了真值矩阵分解得到飞行参数以及飞行参数计算校正矩阵的过程，提高了配准速度。

4、本发明的方案中对多层感知机训练的方法，可以防止网络过拟合，并且可以节省训练时间。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是基于多层感知机校正的快速拼接航拍图像的方法流程图。

图2是基于多层感知机校正的快速拼接航拍图像的系统构造图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

实施例一

如图1所示，基于多层感知机校正的快速拼接航拍图像的方法包括以下四个步骤：

S1：利用无人机连续采集多幅正射图像。

所谓的正射图形，即从正射方向采集的图像。无人机采集正射图像，在采集点携带有对应的无人机位姿信息，包括但不限于实时地理坐标、高度、横滚角、俯仰角、偏航角等信息。

首先，进行无人机飞行作业，连续采集一定数量的正射图像。无人机需要配备GNSS系统(如全球定位系统GPS)、惯性导航单元(IMU)以及气压高度计。GNSS设备测量实时地理坐标，高度由气压高度计测量得到，横滚角、俯仰角、偏航角则由惯性导航单元测量得到。当然，无人机位姿信息中的部分或全部，也可由其他设备获取到。

无人机采集的正射图像带有EXIF格式的信息，其中记录了无人机位姿信息(即实时地理坐标、高度、横滚角、俯仰角、偏航角等信息)。这些信息作为后续粗配准的基础。

对于每一幅正射图像，均执行以下步骤S2-S5。

S2：基于无人机位姿信息对正射图像进行粗配准的步骤。

前文说到，每一幅正射图像均携带由采集时的无人机位姿信息。利用无人机位姿信息，直接计算浮动图像(即当前正射图像)与参考图像之间的单应矩阵，实现粗配准。此处的单应矩阵的计算过程如下：

本实施例以8个自由度的单应矩阵H表示两幅图(浮动图像和参考图像)之间的转换关系：

其中，h_ij(i＝1、2、3，j＝1、2、3)为单应矩阵中的元素。

无人机在位置U₁和U₂处捕获图像I₁和I₂。地面的点P(X_W,Y_W,Z_W)，在I₁和I₂中对应的像点坐标分别表示为P₁(u₁,v₁,1)和P₂(u₂,v₂,1)。那么从图像I₁到I₂的单应矩阵H定义为：

其中c为非零常数项。

以U₁为世界坐标系原点，根据相机的成像原理，会得到：

其中，R[I,-t]表示了无人机在位置U₁和U₂的相对运动，R是3×3的旋转矩阵，由惯性导航单元测量的横滚角θ_roll，俯仰角θ_pitch和偏航角θ_yaw的复合旋转得到。t为三维平移向量，表示无人机在两个位置的位移，由GPS和气压高度计记录的坐标数据计算得到。K是3×3的相机内参矩阵，由相机焦距、感光元件每个像素的实际尺寸、相机光轴和图像平面的焦点坐标共同计算。Z_C1和Z_C2均为非零常数项。

对于大地平面上的任意点(X_W,Y_W,Z_W)都有：

其中n是大地平面的单位法向量，d是无人机离地面的距离，由气压高度计测量得到。

综合上述计算公式，可以得到：

由此关系式即可计算求得单应矩阵H，实现正射图像的粗配准。

S3：利用多层感知机对粗配准的结果进行校正的步骤。

前文说到，对于正射图像的粗配准即为计算浮动图像与参考图像之间的单应矩阵。则对于粗配准的结果的校正，即为利用已训练的多层感知机对所述单应矩阵进行校正。多层感知机的输入为步骤S2中得到的粗配准的单应矩阵，输出为校正后的单应矩阵。

多层感知机是一种广泛使用的前馈神经网络。多层感知机中的每个神经元都会计算其所有输入的加权总和，这个总和将通过非线性激活函数传递得到其输出。多层感知机由输入层、隐藏层和输出层组成，每一层都通过权重和偏差完全连接到下一层。输入层的节点数由输入数据的维度决定，这一层仅将数据传递至相邻的隐藏层，不进行计算。隐藏层由一层或多层构成，节点个数与训练样本有关。神经网络的逼近能力主要是由隐藏层实现的，合理构造隐藏层结构，才能有效发挥网络最佳性能。隐藏层数目由网格化搜索过程中，由损失函数代表的网络性能决定。隐藏层中每个神经元的输入是前一层输出的加权总和，经过非线性激活函数处理后，数据传递至下一层。输出层负责接收由隐藏层传来的数据，输出结果。

多层感知机由离线阶段训练。训练集的数据来源为：基于无人机位姿信息的配准矩阵，作为输入数据，即离线阶段获取的多组正射图像的配准矩阵(即精确度更高的单应矩阵)，配准矩阵通过SIFT算法基于无人机位姿信息配准正射图像得到，通过SIFT算法配准图像，得到相对精确的配准矩阵。

为了减少网络的预测数据和真实标签之间的误差，在训练阶段，将通过大量数据样本的学习，用基于Levenberg-Marquardt的反向传播法训练多层感知机。为了增强网络的泛化性能并减少训练时间，采取了早停法的训练策略。

随着网络的不断优化，训练集的误差逐渐降低，类似地，验证集的误差也会先降低。但如果观察到验证集的误差连续几次不再继续下降，就强行停止训练，最佳选择模型则是验证集的损失函数值最低处，这样可以有效地防止过拟合的产生。训练网络需要循环多次，使得损失函数最小。训练中使用的损失函数是均方根误差性能函数，表达式如下：

其中，MSE为误差，n是样本数，y_i和y_i′分别是目标值和预测值。

S4：将校正后的正射图像拼接的步骤。

对于正射图像的拼接，即为将正射图像融合到参考图像。融合的方法可采用渐入渐出算法。

在一些实施例中，针对待拼接图像之间存在的亮度和色彩差异问题，对图像进行加权平均融合，融合过程如下：

其中，I(x,y)是融合后的完整图像中的所有像素，I₁(x,y)是浮动图像中的像素，I₂(x,y)是参考图像中的像素，ω为当前像素点与重叠边缘的距离。

对所有采集到的正射图像均进行上述处理后，便可快速得到精确同时又完整的无人机拼接图像，有利于后续过程中提取有效信息。

实施例二

本实施例公开了一种基于多层感知机校正的快速拼接航拍图像的系统，如图2所示，包括图像采集模块、预处理模块、粗配准模块、校正模块和融合模块。在逻辑上，图像采集模块分别连接预处理模块和粗配准模块，粗配准模块、校正模块和融合模块依次连接，预处理模块连接校正模块。

图像采集模块获取无人机飞行时采集的正射图像。

具体实施中，无人机配置有GNSS系统、惯性导航单元以及气压高度计，GNSS设备测量实时地理坐标，气压高度计测量高度，惯性导航单元测量横滚角、俯仰角和偏航角，这些信息共同构成无人机位姿信息。采集的正射图像携带有EXIF格式的信息，其中记录了无人机位姿信息。

预处理模块训练多层感知机。

同实施例一，预处理模块于里现阶段训练多层感知机，训练集的数据来源为：基于无人机位姿信息的配准矩阵，作为输入数据，即离线阶段获取的多组正射图像的配准矩阵(即精确度更高的单应矩阵)，配准矩阵通过SIFT算法基于无人机位姿信息配准正射图像得到，通过SIFT算法配准图像，得到相对精确的配准矩阵。

其中，MSE为误差，n是样本数，y_i和y′_i分别是目标值和预测值。

粗配准模块基于无人机位姿信息对正射图像进行粗配准。

粗配准模块利用无人机位姿信息，直接计算浮动图像(即当前正射图像)与参考图像之间的单应矩阵，实现粗配准。以单应矩阵包括8个自由度为例，单应矩阵计算过程如下：

以单应矩阵H表示两幅图之间的转换关系：

其中，h_ij(i＝1、2、3，j＝1、2、3)为单应矩阵中的元素。

其中c为非零常数项。

以U₁为世界坐标系原点，根据相机的成像原理，会得到：

对于大地平面上的任意点(X_W,Y_W,Z_W)都有：

综合上述计算公式，可以得到：

校正模块利用所述预处理模块训练的多层感知机对粗配准结果进行校正。

粗配准模块对正射图像的粗配准，即为计算正射图像与参考图像间的单应矩阵，则校正模块对于粗配准结果的校正即为利用预处理模块训练出的多层感知机对该单应矩阵进行校正。

融合模块对基于校正结果正射图像进行拼接。

融合模块在一些实施例中，采用渐入渐出算法对正射图像进行拼接。

考虑到待拼接图像之间存在的亮度和色彩差异问题，本实施例对待拼接图像进行加权平均融合，融合过程如下：

对所有获取到的正射图像均进行处理后，便可快速得到精确同时又完整的无人机拼接图像。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，包括：

基于无人机位姿信息对正射图像进行粗配准的步骤；

利用多层感知机对粗配准的结果进行校正的步骤；

将校正后的正射图像拼接的步骤。

2.如权利要求1所述的基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，所述基于无人机位姿信息对正射图像进行粗配准的步骤，包括：

3.如权利要求2所述的基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，所述利用多层感知机对粗配准的结果进行校正的步骤，包括：利用多层感知机对所述单应矩阵进行校正。

4.如权利要求3所述的基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，所述多层感知机由离线阶段训练得到，训练集的数据来源为离线阶段获取的多组正射图像的配准矩阵，配准矩阵通过SIFT算法基于无人机位姿信息配准正射图像得到。

5.如权利要求4所述的基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，所述多层感知机基于Levenberg-Marquardt的反向传播法进行训练。

6.如权利要求5所述的基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，所述多层感知机采用早停法进行训练。

7.如权利要求5所述的基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，所述多层感知机的损失函数采用均方根误差性能函数。

8.如权利要求1所述的基于多层感知机校正的快速拼接航拍图像的方法，其特征在于，所述将校正后的正射图像拼接的步骤，包括对待拼接的正射图像进行加权平均融合的过程。

9.一种基于多层感知机校正的快速拼接航拍图像的系统，其特征在于，包括图像采集模块、预处理模块、粗配准模块、校正模块和融合模块；

所述图像采集模块获取无人机飞行时采集的正射图像；

所述预处理模块训练多层感知机；

所述融合模块基于校正结果对正射图像进行拼接。

10.如权利要求9所述的基于多层感知机校正的快速拼接航拍图像的系统，其特征在于，所述融合模块采用渐入渐出算法对正射图像进行拼接。