CN116091314A

CN116091314A - 一种基于多尺度深度单应性的红外图像拼接方法

Info

Publication number: CN116091314A
Application number: CN202211719372.0A
Authority: CN
Inventors: 郝子强; 刘晟佐; 于永吉; 陈博文; 韩登; 李国宁
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-09

Abstract

本发明属于图像拼接技术领域，尤其为一种基于多尺度深度单应性的红外图像拼接方法，包括如下步骤：步骤1，构建网络模型：整个红外图像拼接网络包括红外图像对齐模块和红外图像拼接模块；步骤2，准备数据集：选择KAIST数据集，调整数据集中每个图像的尺寸，固定输入图像的大小；步骤3，训练网络模型。同时选择最优评估指标来衡量算法的精度，评估系统的性能。本发明提出的红外图像对齐模块是由四个卷积块组成的三层特征金字塔，通过对输入图像进行处理，利用金字塔中各层提取的特征估计单应性，并将上层估计的单应性传递给下层，逐步提高了特征点对齐精度，提高了网络特征提取能力。

Description

一种基于多尺度深度单应性的红外图像拼接方法

技术领域

本发明属于图像拼接技术领域，具体涉及一种基于多尺度深度单应性的红外图像拼接方法。

背景技术

红外图像拼接已广泛应用于生物、医疗、监控视频、自动驾驶、虚拟现实、等不同领域。现有方法利用估计的变形函数将两幅红外图像的重叠区域的特征点进行变形，单应性是最常用的变形函数。但是当相机运动模型不仅包括位移，还有旋转以及缩放的自由度，特别是当被拍摄的场景与相机的距离很近的情况下，被拍摄场景的不同深度的表面或是同一深度下的不同方向的平面，此时基于全局或局部单应性估计的方法不能完全解决这一问题，并且会受到视差的影响。在这些情况下，会出现“视差问题”，并导致拼接效果不好，如拼接图像中的重影、伪影。

中国专利公开号为“CN115035281A”，名称为“一种快速的红外全景图像拼接方法”，该方法首先对原始图像进行图像预处理操作；再使用ROI算法对处理后的图像进行区域选定；采用SIFT算法对选定区域的红外图像进行特征点提取；接下来采用RANSAC算法筛选出正确特征匹配对；然后基于特征匹配后的红外图像，采用自适应相似度算法对待拼接红外图像进行相似度计算，确定红外图像的拼接顺序；最后采用加权图像融合算法对图像进行融合实现对红外全景图像的拼接。该方法特征提取能力低，得到的红外拼接图像存在重影、伪影，不符合人眼视觉效果，同时计算复杂度较高且效率低下。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多尺度深度单应性的红外图像拼接方法，解决了红外图像拼接方法得到的图像中有重影、伪影、不自然等问题。

(二)技术方案

本发明为了实现上述目的具体采用以下技术方案：

一种基于多尺度深度单应性的红外图像拼接方法，包括如下步骤：

步骤1，构建网络模型：整个红外图像拼接网络包括红外图像对齐模块和红外图像拼接模块；

步骤2，准备数据集：选择KAIST数据集，调整数据集中每个图像的尺寸，固定输入图像的大小；

步骤3，训练网络模型：将步骤2中准备好的数据集输入到步骤1中构建好的网络模型中进行训练；

步骤4，选择最小化损失函数和最优评估指标：通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成，保存模型参数。同时选择最优评估指标来衡量算法的精度，评估系统的性能；

步骤5，微调模型：用LTIR数据集对模型进行训练和微调，得到稳定可用的模型参数，最终使得模型对红外图像拼接的效果更好；

步骤6，保存模型：将最终确定的模型参数进行固化，之后需要进行红外图像拼接操作时，直接将图像输入到网络中即可得到最终的拼接图像。

进一步，所述步骤1中红外图像对齐模块由四个卷积块组成，其中每个卷积块由跳跃连接、卷积层、归一化层、激活函数和最大池化层组成；卷积块一对输入图像进行初级特征提取，卷积块二、卷积块三、卷积块四形成三层特征金字塔，利用金字塔中各层的卷积块对图像中高级特征进行提取并估计单应性；红外图像拼接模块由七个卷积模块组成，其中卷积块五由跳跃连接、卷积层、归一化层、激活函数组成，卷积块六、卷积块七、卷积块八由跳跃连接、卷积层、归一化层、激活函数和最大池化层组成，负责下采样，卷积块九、卷积块十、卷积块十一由跳跃连接、卷积层、归一化层、激活函数和反卷积层组成，负责上采样。最后得到的特征图的大小与输入图像大小保持一致。

进一步，所述步骤4中在训练过程中损失函数选择使用边缘损失和内容损失的组合；损失函数的选择影响着模型的好坏，能够真实地体现出预测值与真值差异，并且能够正确地反馈模型的质量；得到的红外拼接图像具有更自然的拼接效果，更符合人眼视觉观察。

在训练过程中合适的评估指标选择均方根误差、峰值信噪比和结构相似性，能够有效地评估红外图像拼接算法结果的质量和红外拼接图像失真程度，衡量拼接网络的作用。

(三)有益效果

与现有技术相比，本发明提供了一种基于多尺度深度单应性的红外图像拼接方法，具备以下有益效果：

本发明提出的红外图像对齐模块是由四个卷积块组成的三层特征金字塔，通过对输入图像进行处理，利用金字塔中各层提取的特征估计单应性，并将上层估计的单应性传递给下层，逐步提高了特征点对齐精度，提高了网络特征提取能力。

本发明提出的红外图像拼接模块由七个卷积块组成边缘保留变形网络，通过学习图像拼接从边缘到内容的变形规律，对变形的图像进行拼接，消除了重影效应，同时保持了拼接图像的边缘连续性。

本发明提出了一种由边缘损失和内容损失组成的复合损失函数，使拼接网络生成更加自然的红外拼接图象，同时使得图像具有更高的真实性，提升人眼视觉效果。

本发明在骨干网络中将多种激活函数联合使用，可以使得网络输出的图像更符合人眼视觉观察；在网络中通过添加跳跃连接有助于减少网络参数，使得整个网络实现结构简单，提高拼接效率和精度。

附图说明

图1为一种基于多尺度深度单应性的红外图像拼接方法流程图；

图2为一种基于多尺度深度单应性的红外图像拼接方法网络模型结构图；

图3为本发明卷积块一、卷积块二、卷积块三、卷积块四、卷积块六、卷积块七、卷积块八的具体组成；

图4为本发明卷积块五的具体组成；

图5为本发明卷积块九、卷积块十、卷积块十一的具体组成；

图6为本发明现有技术和本发明提出方法的相关指标对比。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于多尺度深度单应性的红外图像拼接方法，该方法具体包括如下步骤：

步骤1，构建网络模型；整个红外图像拼接网络包括红外图像对齐模块和红外图像拼接模块；红外图像对齐模块由四个卷积块组成，其中每个卷积块由跳跃连接、卷积层、归一化层、激活函数和最大池化层组成；卷积块一对输入图像进行初级特征提取，卷积块二、卷积块三、卷积块四形成三层特征金字塔，利用金字塔中各层的卷积块对图像中高级特征进行提取并估计单应性，将上层估计的单应性传递给下一层，逐步提高特征点对齐的精度，所有卷积块中卷积核的大小统一为n×n；红外图像拼接模块由七个卷积模块组成，其中卷积块五由跳跃连接、卷积层、归一化层和激活函数组成，卷积块六、卷积块七、卷积块八由跳跃连接、卷积层、归一化层、激活函数和最大池化层组成，卷积块九、卷积块十、卷积块十一由跳跃连接、卷积层、归一化层、激活函数和反卷积层组成，最后得到的特征图的大小与输入图像大小保持一致；

步骤2，准备数据集；选择KAIST数据集，调整数据集中每个图像的尺寸，固定输入图像的大小；

步骤3，训练网络模型；将步骤2中准备好的数据集输入到步骤1中构建好的网络模型中进行训练；

步骤4，选择最小化损失函数和最优评估指标，通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成，保存模型参数，在训练过程中损失函数选择使用边缘损失和内容损失的组合；

其目的在于得到的红外拼接图像具有更自然的拼接效果，更符合人眼视觉观察，损失函数的选择影响着模型的好坏，能够真实地体现出预测值与真值差异，并且能够正确地反馈模型的质量，合适的评估指标选择均方根误差和结构相似性，能够有效地评估红外图像拼接算法结果的质量和图像失真程度，衡量拼接网络的作用；

步骤5，微调模型，用LTIR数据集对模型进行训练和微调，得到稳定可用的模型参数，最终使得模型对红外图像拼接的效果更好；

步骤6，保存模型，将最终确定的模型参数进行固化，之后需要进行红外图像拼接操作时，直接将图像输入到网络中即可得到最终的拼接图像。

实施例2：

所述步骤1中红外图像拼接网络模型结构如图2所示。

红外图像拼接网络包括红外图像对齐模块和红外图像拼接模块；红外图像对齐模块由四个卷积块组成，其中每个卷积块由跳跃连接、两个卷积层、两个归一化层、激活函数和一个最大池化层组成；卷积块一对输入图像进行初级特征提取，卷积块二、卷积块三、卷积块四形成三层特征金字塔，利用金字塔中各层的卷积块对图像中高级特征进行提取并估计单应性，将上层估计的单应性传递给下一层，逐步提高特征点对齐的精度，所有卷积块中卷积核的大小统一为3×3，步长为1，激活函数选择S型函数，每一个卷积块的具体构成如图3所示；红外图像拼接模块由七个卷积模块组成，其中卷积块五由跳跃连接、两个卷积层、两个归一化层、两个激活函数组成，卷积核的大小为3×3，步长为1，激活函数选择S型函数，卷积块五的结构如图4所示；卷积块六、卷积块七、卷积块八由跳跃连接、激活函数、两个卷积层、两个归一化层和一个最大池化层组成，卷积核的大小为3×3，步长为1，激活函数选择R型函数，每一个卷积块的具体构成如图3所示；卷积块九、卷积块十、卷积块十一由跳跃连接、激活函数、两个卷积层、两个归一化层和一个反卷积层组成，卷积核的大小为3×3，步长为1，激活函数选择R型函数，每一个卷积块的具体构成如图5所示；

为了保证网络能保留更多的结构信息，充分提取红外图像特征，本发明使用的激活函数为R型函数和S型函数。R型函数和S型函数定义如下所示：

所述步骤2中红外图像数据集使用KAIST数据集，其中训练集包含50187张图片，测试集包含45141张图片，数据集分别在白天和晚上捕获了包括校园、街道以及乡下的各种常规交通场景，图片大小为640×480。

所述步骤3中对数据集的图片进行图像增强，将同一张图片中进行随机衍射变换，并且裁剪到输入图片的大小，作为整个网络的输入，将数据集中做好标注的图片作为标签；其中随机大小和位置通过软件算法可以实现；其中使用数据集中做好标注的图片作为标签是为了让网络学习更好的特征提取能力，最终达到更好的拼接效果。

所述步骤4中网络的输出与标签计算损失函数，通过最小化损失函数达到更好的拼接效果，损失函数选择使用边缘损失和内容损失，边缘损失计算公式如下所示：

其中W和H分别表示拼接图像的宽度和高度，·₁表示L1范数，

是地面真实边缘特征图，E是边缘特征图。与红外图像中丰富的纹理、内容等信息相比，边缘只包含图像中物体的轮廓，因此使用边缘损失使图像拼接更容易实现。

为了使拼接网络生成更自然的拼接图像，采用了内容损失，具体来说，使用VGG-19网络中的ReLU激活的感知损失作为图像内容的表示，内容损失定义如下所示：

其中，W_j、H_j和C_j分别为特征图的宽度、高度和通道数，·₂表示L2范数，Φ_j表示VGG-19网络中第j个最大池化层的特征表示。

考虑到边缘和内容的约束条件，总的损失函数定义为：

L_S＝λ_eL_edge+λ_cL_content

其中λ_e和λ_c分别为边缘损失和内容损失的加权参数，权重的设置基于对训练数据集的初步实验。

通过边缘损失和内容损失，有助于网络学习更清晰的边缘和更详细的纹理，使得拼接图像消除缝隙，拼接更自然、视觉效果更好。

所述步骤4中合适的评估指标选择均方根误差、峰值信噪比和结构相似性，均方根误差能够有效地评估重叠区域像素点配准的精度；峰值信噪比是最普遍，最广泛使用的评鉴图像失真程度的客观量测法；结构相似性则是从亮度、对比度和结构三方面度量图像相似性，是一种用以衡量两张数位影像相似程度的指标，均方根误差和结构相似性定义如下：

其中，

和

是待拼接图像中的参考图像和目标图像之间匹配点对，T是变换模型，θ是模型参数，·是两点间的距离，μ_x，μ_y分别表示参考图像和目标图像的均值和方差，

和

分别表示参考图像和目标图像的标准差，σ_xy表示参考图像和目标图像的协方差，C₁和C₂为常数。

峰值信噪比定义如下：

其中max表示图像中所有像素点的最大灰度值，若图像为8位，那么max的值取255；若图像为n位，那么max的值取2ⁿ-1。

设定训练次数为200，每次输入到网络图片数量大小为8-16左右，每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定，一般每次输入到网络图片数量越大越好，使网络更加稳定，训练过程的学习率设置为0.0001，既能保证网络快速拟合，而不会导致网络过拟合，网络参数优化器选择自适应矩估计算法，它的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳，损失函数函数值阈值设定为0.0003左右，小于0.0003就可以认为整个网络的训练已基本完成。

步骤5，微调模型，使用LTIR数据集对模型进行训练和微调，对于LTIR数据集，我们使用500张图像进行训练，使用200张图像进行测试。

步骤6，保存模型，当网络训练完成后，需要将网络中所有参数保存，之后用将要拼接的红外图像输入到网络中就可以得到拼接好的图像，该网络对输入图像大小没有要求，任意尺寸均可。

其中，卷积、激活函数、最大池化等的实现是本领域技术人员公知的算法，具体流程和方法可在相应的教科书或者技术文献中查阅到。

本发明通过构建一种基于多尺度深度单应性的红外图像拼接方法，可以将两幅窄视角的红外图像直接拼接成超宽视角的红外图像，得到的红外拼接图像不会受到视差的影响，同时消除伪影，更符合人眼视觉效果，在相同条件下，通过计算与现有方法得到图像的相关指标，进一步验证了该方法的可行性和优越性，现有技术和本发明提出方法的相关指标对比如表6所示。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度深度单应性的红外图像拼接方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于多尺度深度单应性的红外图像拼接方法，其特征在于：所述步骤1中红外图像对齐模块由四个卷积块组成，其中每个卷积块由跳跃连接、卷积层、归一化层、激活函数和最大池化层组成；卷积块一对输入图像进行初级特征提取，卷积块二、卷积块三、卷积块四形成三层特征金字塔，利用金字塔中各层的卷积块对图像中高级特征进行提取并估计单应性；红外图像拼接模块由七个卷积模块组成，其中卷积块五由跳跃连接、卷积层、归一化层、激活函数组成，卷积块六、卷积块七、卷积块八由跳跃连接、卷积层、归一化层、激活函数和最大池化层组成，负责下采样，卷积块九、卷积块十、卷积块十一由跳跃连接、卷积层、归一化层、激活函数和反卷积层组成，负责上采样。最后得到的特征图的大小与输入图像大小保持一致。

3.根据权利要求1所述的一种基于多尺度深度单应性的红外图像拼接方法，其特征在于：所述步骤4中在训练过程中损失函数选择使用边缘损失和内容损失的组合；损失函数的选择影响着模型的好坏，能够真实地体现出预测值与真值差异，并且能够正确地反馈模型的质量；得到的红外拼接图像具有更自然的拼接效果，更符合人眼视觉观察，在训练过程中合适的评估指标选择均方根误差、峰值信噪比和结构相似性，能够有效地评估红外图像拼接算法结果的质量和红外拼接图像失真程度，衡量拼接网络的作用。