CN111047513A

CN111047513A - 一种用于柱面全景拼接的鲁棒性图像对齐方法及装置

Info

Publication number: CN111047513A
Application number: CN201911178725.9A
Authority: CN
Inventors: 康来; 蒋杰; 魏迎梅; 谢毓湘
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-21
Anticipated expiration: 2039-11-27
Also published as: CN111047513B

Abstract

本发明公开一种用于柱面全景拼接的鲁棒性图像对齐方法及装置，该方法包括获取图像样本集并对图像进行预处理；从图像样本集中取两幅图像I_L和I_R，并依次对I_L和I_R进行缩放、正叠加和反叠加；将正叠加和反叠加后的图像输入训练好的卷积神经网络模型中进行I_L和I_R的粗对齐；利用数值迭代优化方法对粗对齐结果进行调优，完成鲁棒性图像对齐。本发明提供的方法是一种不依赖于图像局部特征点的图像对齐方法，从而可实现弱纹理场景的图像对齐。

Description

一种用于柱面全景拼接的鲁棒性图像对齐方法及装置

技术领域

本发明涉及图像信息处理技术领域，尤其是一种用于柱面全景拼接的鲁棒性图像对齐方法及装置。

背景技术

柱面全景图象能够提供比普通图像更大的视场范围，在遥感、环境监测、机器人定位等典型应用中具有重要意义。根据图像采集设备的不同，现有柱面全景图象的创建方法大致可以分为三类：第一类方法采用特殊光学器件(比如：全向视觉传感器)拍摄单幅图像；第二类方法采用由多个同步相机组成的全景拍摄装置进行拍摄；第三类方法采用单个普通相机旋转拍摄一组具有重叠视域的图像序列，然后将多幅图像拼接融合为最终的全景图象，这类方法使用灵活且成本低廉，使用非常普遍。采用上述第三类方法构建柱面全景图的关键步骤是图像对齐，即实现图像水平方向的配准。

在场景纹理丰富的情况下，可通过SIFT(D.G Lowe.Distinctive image featuresfrom scale-invariant key points.International Journal of Computer Vision,60(2):91–110,2004.)、SURF(Bay,H.；Ess,A.；Tuytelaars,T.；Gool,L.V.Speeded-up robustfeatures(SURF).Computer Vision and Image Understanding.2008,110(3),pp.346–359.)或者ORB(Rublee,E.；Rabaud,V.；Konolige,K.；Bradski,G.ORB:An efficientalternative to SIFT or SURF.In Proceedings of the 2011 IEEE InternationalConference on Computer Vision(ICCV),Barcelona,Spain,6–13 November 2011；pp.2564–2571.)等图像局部特征点的匹配来实现图像的对齐。然而，在场景纹理细节不足的情况下，无法获得可靠的局部特征点匹配，因此不能完成图像配准，从而导致柱面全景图生成失败。

发明内容

本发明提供一种用于柱面全景拼接的鲁棒性图像对齐方法及装置，用于克服现有技术中在场景纹理细节不足的情况下无法获得可靠的局部特征点匹配等缺陷，实现不依赖于图像局部特征点的图像对齐方法，以提高柱面全景图拼接方法对弱纹理场景的鲁棒性。

为实现上述目的，本发明提出一种用于柱面全景拼接的鲁棒性图像对齐方法，包括：

获取图像样本集，并对所述图像样本集中的图像进行预处理；

从所述图像样本集中取两幅图像I_L和I_R，并依次对所述I_L和I_R进行缩放、正叠加和反叠加；

分别将正叠加和反叠加后的图像输入训练好的卷积神经网络模型中进行I_L和I_R的粗对齐，以获得所述I_L和I_R之间的水平位移初始值d_LR；

利用数值迭代优化方法对水平位移初始值d_LR进行调优，获得最佳水平位移

从而完成鲁棒性图像对齐。

为实现上述目的，本发明还提出一种用于柱面全景拼接的鲁棒性图像对齐的装置，所述装置包括：

图像获取模块，用于获取图像样本集，并对所述图像样本集中的图像进行预处理；

图像前处理模块，用于从所述图像样本集中任取两幅图像I_L和I_R，并依次对所述I_L和I_R进行缩放、正叠加和反叠加；

图像粗对齐模块，用于分别将正叠加和反叠加后的图像输入训练好的卷积神经网络模型中进行I_L和I_R的粗对齐，以获得所述I_L和I_R之间的水平位移初始值d_LR；

调优模块，用于对水平位移初始值d_LR进行调优，获得最佳水平位移

从而完成鲁棒性图像对齐。

为实现上述目的，本发明还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

与现有技术相比，本发明的有益效果有：

本发明提供的用于柱面全景拼接的鲁棒性图像对齐方法，首先获取图像样本集并对图像进行预处理，以便于后续步骤的进行；然后从图像样本集中取两幅图像I_L和I_R，并依次对I_L和I_R进行缩放、正叠加和反叠加，缩放以获得设定的分辨率图像，正叠加和反叠加以提高粗对齐的精度；接着将正叠加和反叠加后的图像输入训练好的卷积神经网络模型中进行I_L和I_R的粗对齐，得到水平位移初始值d_LR；最后利用数值迭代优化方法对水平位移初始值d_LR进行调优以获得最佳水平位移

完成鲁棒性图像对齐。本发明提供的鲁棒性图像对齐方法基于卷积神经网络模型对待对齐图像进行粗对齐，是一种不依赖于图像局部特征点的图像对齐方法，从而可实现弱纹理场景的图像对齐，因此可克服现有技术中在场景纹理细节不足的情况下无法获得可靠的局部特征点匹配等缺陷。此外，本发明还利用数值迭代优化方法对水平位移初始值d_LR进行调优，以使得图像的对齐更精确。综上，本发明提供的鲁棒性图像对齐方法可提高柱面全景图拼接方法在弱纹理场景条件下的鲁棒性，且该方法过程简单，计算量小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提供的用于柱面全景拼接的鲁棒性图像对齐方法流程图；

图2为本发明提供的卷积神经网络模型结构图；

图3为本发明提供的训练图像集构建方法流程图；

图4为实施例中采用本发明提供的训练图像集构建方法生成的4个训练样本图像；

图5a为实施例中两幅待对齐图像；

图5b为实施例中经过粗对齐后的两幅图像叠加效果图；

图5c为实施例中经过粗对齐和调优后的两幅图像叠加效果图；

图6a为基于SIFT特征的图像匹配结果图；

图6b为基于SURF特征的图像匹配结果图；

图6c为基于ORB特征的图像匹配结果图；

图6d为基于本发明提供的方法粗对齐后两幅图叠加结果图；

图6e为基于本发明提供的方法粗对齐和调优后两幅图叠加结果图；

图7a为18幅实验图像；

图7b为基于Photoshop的拼接结果图；

图7c为基于本发明提供的方法的拼接结果图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种用于柱面全景拼接的鲁棒性图像对齐方法，如图1所示，包括以下具体实施方式：

101：获取图像样本集，并对所述图像样本集中的图像进行预处理；

102：从所述图像样本集中取两幅图像I_L和I_R，并依次对所述I_L和I_R进行缩放、正叠加和反叠加；

103：分别将正叠加和反叠加后的图像输入训练好的卷积神经网络模型中进行I_L和I_R的粗对齐，以获得所述I_L和I_R之间的水平位移初始值d_LR；

104：利用数值迭代优化方法对水平位移初始值d_LR进行调优，获得最佳水平位移

从而完成鲁棒性图像对齐。

在101中，所述预处理为对所述图像样本集中的所有图像进行灰度处理，并使所有图像的尺寸相同。预处理以调节图像的分辨率，便于输入卷积神经网络模型。

柱面全景图像拍摄时，相机通常旋转一周采集一个图像序列，因此针对基于柱面全景图像序列的图像对齐操作只需要在相邻的有重叠的图像之间进行。

在102中，记两幅大小相同的待对齐输入灰度图像为I_L和I_R。首先将I_L和I_R大小缩放为128×128像素，记为I₁和I₂。将I₁和I₂正叠加形成2×128×128维数据；将I₁和I₂反叠加(即将I₂和I₁正叠加)形成2×128×128维数据。

缩放是为了使图像的分辨率为128X128，叠加的目的是将左右两幅经过缩放的图象数据组合成2×128×128形式。因为卷积神经网络模型在设计阶段限制了其输入必须为卷积神经网络模型。改变两幅图像的叠加顺序，可以获得两份不同的输入，分别输入卷积神经网络模型，可以获得两个输出。在实际应用中，将上述两个输出综合可以获得精度更高的水平位移初始值d_LR。

在103中，所述卷积神经网络模型为轻量级卷积神经网络模型，如图2所示，依次包括：

特征提取层，用于在四个不同尺度上提取输入图像数据的高维特征；所述特征提取层包括若干卷积层、批规一化层和矫正线性单元激活层；

特征处理层，用于对所述高维特征进行处理形成图像特征；所述特征处理层包括卷积层和自适应平均池化层；

输出层，用于对所述图像特征进行转化以输出I_L和I_R之间的水平位移初始值d_LR；所述输出层包括全连接层和双曲正切操作层。

本发明设计一个轻量级卷积神经网络模型，用以获取图像鲁棒性对齐结果。本实施例中，所述模型的输入数据的维度为2×128×128，由两幅128×128像素大小的灰度图叠加而成，模型的输出为两幅图像之间的水平位移量。该模型首先通过若干个卷积层(convolutional layer)、批规一化层(batch normalization)、矫正线性单元激活层(rectified linear unit)在四个不同尺度上提取输入图像数据的高维特征；然后将每组高维特征输出至卷积层和自适应平均池化(average adaptive pooling)层，获得四组64×1×1维特征，并对所述述四组64×1×1维特征叠加整理形成一个256×1×1维特征；所述256×1×1维特征经过全连接层和双曲正切操作处理之后输出两幅图像之间的规一化水平位移数值，所述水平位移数值为一个介于[-1,1]范围之内的浮点数。

将102中I₁和I₂正叠加形成的2×128×128维数据输入训练好的卷积神经网络模型中，获得I₁相对于I₂的规一化水平位移估计d₂₁；

将102中I₁和I₂反叠加形成的2×128×128维数据输入训练好的卷积神经网络模型中，获得I₂相对于I₁的规一化水平位移估计d₁₂；

则I_R相对于I_L的绝对平移量估计(即I_L和I_R之间的水平位移初始值d_LR)d_LR＝96*(d₁₂-d₂₁)/2。

卷积神经网络模型的训练过程为：

301：构建训练图像集；

卷积神经网络模型的训练需要大规模训练数据集的支撑，然而目前并没有针对图像对齐的公开数据集。因此本发明提出了一种针对上述模型的训练数据集构建方法，如图3所示，各步骤的具体操作过程为：

3011：随机抽取一幅原始图像，如从MS-COCO公开数据集中的训练集(Lin,T.-Y.；Maire,M.；Belongie,S.；Hays,J.；Perona,P.；Ramanan,D.；Dollár,P；Zitnick,C.L.Microsoft coco:570Common objects in context.In Proceedings of 13thEuropean Conference on Computer Vision(ECCV),Zurich,Switzerland,6–12September 2014；pp.740–755.)中随机抽取一幅图像，记为I_o；将I_o转换为灰度图，并缩放(本实施例中，缩放为640×480像素大小)，记为I_c；

3012：原始图像预处理及图像分块提取，从图像I_c中提取两个像素大小一样的区域(本实施例中，两个大小为128×128像素的区域)，记两个区域对应的图像分块为I_l和I_r，记图像分块I_l左上角在I_c中的坐标为(d₁,d₂)，d₁的取值为[96,416]之间的随机整数，d₂的取值为[0,352]之间的随机整数；图像分块I_r左上角在I_c中的坐标为

的取值为[-96,96]之间的随机整数。

3013：图像分块亮度扰动，基于平均分布生成一个位于[0.0,1.0]之间的随机浮点数r₁，若r₁＞0.5，则对I_l和I_r进行亮度扰动；对于任意给定图像分块，亮度扰动指的是将其亮度进行缩放，缩放因子为位于[0.6,1.0]中的随机浮点数。增加亮度扰动是为了使不同亮度的两幅图像处于同一亮度下，从而能够实现在实际中对不同亮度的图像进行图像对齐。

3014：训练样本标签生成，对于图像分块对

样本标签为

对于图像分块对

样本标签为

从而生成两个训练样本

3015：重复执行上述3011～3014的操作过程若干次，最终生成训练图像集。

本实施例中，总共生成了100万个训练样本。图4展示了采用上述方法生成的4个训练样本图像示例。

302：搭建卷积神经网络模型并对卷积神经网络模型的参数初始化；

训练用计算机配备NVIDIA TITAN X显卡，12GB独立显存，16GB内存，操作系统为Ubuntu 16.04，卷积神经网络模型在PyTorch深度学习框架中实现。主要训练策略(或参数)设置如下：

网络参数初始化：随机；

训练代数(epoch)：100；

批大小(batch size)：2048；

初始学习率(learning rate)：0.001；

优化器：Adam优化器(参见https://arxiv.org/abs/1412.6980)

损失函数：L₂；

学习率调整策略：如果一个完整的训练代损失函数值下降小于0.0000001，则将学习率缩小10倍。

303：用训练图像集对卷积神经网络模型进行训练，以确定卷积神经网络模型的权重参数，获得训练好的卷积神经网络模型。

在104中，为了进一步提高103中所获得的水平位移初始值d_LR的精度，利用数值迭代优化方法对d_LR进行调优。

所述调优采用迭代优化代价函数进行，所述迭代优化代价函数为：

式中，d_LR为水平位移初始值；I_R(p)为I_R在任意像素位置p的像素值；I_W为图像I_L利用图像逆变形技术变换到图像I_R的坐标系下而获得的变换图像；I_W(d_LR,p)为在I_W中像素位置p的像素值；α为亮度因子(待估计)；I_M为空白图像利用图像逆变形技术变换到图像I_R的坐标系下而获得的模板图像；I_M(d_LR,p)为在I_M中像素位置p的像素值；空白图像与I_L的尺寸相同，且每个象素的值为1。

再利用数值优化迭代算法获取的最佳水平位移和最佳亮度因子

即：

式中，

为最佳水平位移；α^*为最佳亮度因子；d_LR为水平位移初始值；α为亮度因子。

因此，本发明提供的用于柱面全景拼接的鲁棒性图像对齐方法还能图像的处理光照变化。

由于变换图像I_W和模板图像I_M的计算过程基于线性插值方法，因此该过程可导，公式(1)的最小化可采用常见的迭代数值优化方法求解。本发明采用莱文伯格-马夸特(Levenberg–Marquardt)方法，该方法是高斯-牛顿算法(Gauss–Newton)和梯度下降法(gradient descent)的结合。

本实施例提供一个图像粗对齐和调优示例，图5a为两幅待对齐图像，图像之间存在水平位移(为了更加清楚的观察图像差异，在图像上添加了一条水平扫描线)。图5b为根据粗对齐结果将两幅图像叠加在一起的结果，可以明显的观察到重影，说明粗对齐精度不高。图5c为对齐、调优之后两幅图像叠加在一起的结果，重影明显减少，说明对齐精度得以大幅提高。注意，两幅待对齐图像亮度存在明显亮度差异，说明本发明方法还能较好的处理光照变化。

为了说明本发明方法的优势，还提供了一组采用传统方法和采用本发明方法在弱纹理场景上的实验，实验结果如图6a、图6b、图6c、图6d和图6e所示。其中，图6a、图6b和图6c分别为基于SIFT、SURF、ORB特征的图像匹配结果，每个圆圈代表一个检测到的局部特征，特征点的位置、尺度、主方向等信息通过圆心、半径大小、圆圈内的短线等表示，两个由线段连接的特征点为匹配特征点。从图中可以看出，SIFT、SURF、ORB均未能确立任何正确的特征点匹配，因此无法实现图像配准操作。图6d和图6e分别为根据本发明图像粗对齐和对齐调优结果将两幅图叠加在一起的结果。从叠加图像的局部放大区域可以看出，粗对齐能够将两幅图像大致对齐，而对齐调优大幅度提高了图像对齐精度。同时说明粗对齐结果能够为对齐调优提供有效的初始值。

为了说明本发明方法的优势，还提供了一组采用Photoshop和采用本发明方法在一个弱纹理场景中的柱面全景拼接实验，拼接图像如图7a所示(来自网络公开数据集(www.cvl.isy.liu.se/en/research/datasets/passta/Synthetic.zip))，拼接结果如图7b和7c所示。图7b为采用Photoshop的拼接结果，由于图像匹配失败，未能正确的获取完整的全景图，而是被分割为多个片段。图7c为采用本发明方法的拼接结果，获得了完整的全景拼接，且视觉效果较好。

本发明方法可有效克服场景纹理细节不足的情况下，传统基于图像局部特征点的图像对齐方法无法获得可靠的局部特征点匹配，因此不能完成图像配准，从而导致柱面全景图生成失败的局限性。

本发明还提出一种用于柱面全景拼接的鲁棒性图像对齐的装置，所述装置包括：

从而完成鲁棒性图像对齐。

本发明还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，包括：

从而完成鲁棒性图像对齐。

2.如权利要求1所述的用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，所述预处理为对所述图像样本集中的所有图像进行灰度处理，并使所有图像的尺寸相同。

3.如权利要求1所述的用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，所述卷积神经网络模型为轻量级卷积神经网络模型，依次包括：

特征提取层，用于在四个不同尺度上提取输入图像数据的高维特征；

特征处理层，用于对所述高维特征进行处理形成图像特征；

输出层，用于对所述图像特征进行转化以输出I_L和I_R之间的水平位移初始值d_LR。

4.如权利要求3所述的用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，所述特征提取层包括若干卷积层、批规一化层和矫正线性单元激活层；所述特征处理层包括卷积层和自适应平均池化层；所述输出层包括全连接层和双曲正切操作层。

5.如权利要求1、3或4所述的用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，所述卷积神经网络模型的训练过程为：

构建训练图像集；

搭建卷积神经网络模型并对卷积神经网络模型的参数初始化；

用训练图像集对卷积神经网络模型进行训练，以确定卷积神经网络模型的权重参数，获得训练好的卷积神经网络模型。

6.如权利要求5所述的用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，所述训练图像集的构建过程为：

从历史数据集中随机抽取一幅原始图像I_o，并对所述I_o进行灰度处理和缩放，得到I_c；

从图像I_c中提取两个像素大小一样的区域，记两个区域对应的图像分块为I_l和I_r，图像分块I_l左上角在I_c中的坐标为(d₁,d₂)，图像分块I_r左上角在I_c中的坐标为

d₁为在[96,416]之间的随机整数，d₂为在[0,352]之间的随机整数，

为在[-96,96]之间的随机整数；

基于平均分布生成一个位于[0.0,1.0]之间的随机浮点数r₁，若r₁＞0.5，则对I_l和I_r进行亮度扰动；

对于图像分块对

样本标签为

对于图像分块对

样本标签为

从而生成两个训练样本

重复执行上述操作过程若干次，最终生成训练图像集。

7.如权利要求6所述的用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，所述亮度扰动为对图像分块的亮度进行缩放，所述缩放的缩放因子为位于[0.6,1.0]中的随机浮点数。

8.如权利要求1所述的用于柱面全景拼接的鲁棒性图像对齐方法，其特征在于，所述调优采用迭代优化代价函数进行，所述迭代优化代价函数为：

式中，d_LR为水平位移初始值；I_R(p)为I_R在任意像素位置p的像素值；I_W为图像I_L利用图像逆变形技术变换到图像I_R的坐标系下而获得的变换图像；I_W(d_LR,p)为在I_W中像素位置p的像素值；α为亮度因子；I_M为空白图像利用图像逆变形技术变换到图像I_R的坐标系下而获得的模板图像；I_M(d_LR,p)为在I_M中像素位置p的像素值。

9.一种用于柱面全景拼接的鲁棒性图像对齐的装置，其特征在于，所述装置包括：

从而完成鲁棒性图像对齐。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～8中任一项所述方法的步骤。