CN113139990A

CN113139990A - 一种基于内容感知的深度网格流鲁棒图像对齐方法

Info

Publication number: CN113139990A
Application number: CN202110498009.XA
Authority: CN
Inventors: 刘帅成; 叶年进; 点云
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-20
Anticipated expiration: 2041-05-08
Also published as: CN113139990B

Abstract

本发明公开了一种基于内容感知的深度网格流鲁棒图像对齐方法，专门针对相对运动较小的图像而设计，使用多尺度特征金字塔以从粗到精的方式学习网格运动，网格流是从稀疏到稠密的不同比例中计算得到的，从而使最后的网格流具有线性单应性(稀疏)的稳定性和非线性网格变形的灵活性；在网络中学习带有注意力机制的掩膜，该掩膜不仅突出显示纹理区域，而且还可以滤除图像中的运动差异目标；还对网格四边施加内容自适应的正则化约束，促使学习到网格流在运动不一致的区域(如动态对象或非连续景深区域)中是刚性的，而在不受此类干扰的情况下更加灵活。

Description

一种基于内容感知的深度网格流鲁棒图像对齐方法

技术领域

本发明属于数字图像处理、计算机视觉技术领域，具体涉及一种基于内容感知的深度网格鲁棒图像对齐方法。

背景技术

图像对齐是匹配和叠加在不同时间、传感器或条件下获取的两个或多个图像的过程，这是各种计算机视觉应用的基础，其中包括：多帧高动态范围(HighDynamicRange)，多帧超分辨率，降噪，全景创建，图像/视频拼接，同步定位和地图绘制(SimultaneousLocalization And Mapping)，增强现实(Augmented Reality)和视频稳定功能等。

在现有的各种图像对齐模型中，基于单应性的方法由于其简单性和效率得到了广泛的应用。该方法通常通过匹配图像特征并通过直接线性变换(Direct LinearTransform)和离群值剔除方法来求解单应性，其对单应性估计的质量高度依赖于图像特征的质量。当在处理弱纹理场景时，上述方法对图像的特征检测和匹配容易失败，导致无法正常对齐此类场景。于是有研究人员提出了基于深度神经网络(Deep Neural Network)的方法来学习鲁棒的深度特征，这些特征可以成功处理具有挑战性的低纹理和低光照等场景。但由于单应性只能表示单个平面的运动或由纯相机旋转引起的运动，当需要处理具有深度变化的图像时，纯单应性方法无法完成很好的图像对齐。为了让算法拥有更强的非线性表示能力，基于网格流的方法被提出，相比于单应性方法，其对图像特征的质量有着更高的要求，使其在实际应用上变得困难。

发明内容

针对现有技术中的上述不足，本发明提供的基于内容感知的深度网格流鲁棒图像对齐方法解决了现有的当处理具有深度变化的图像时，纯单应方法对图像对齐效果不理想的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于内容感知的深度网格流鲁棒图像对齐方法，包括以下步骤：

S1、搭建并训练用于图像对齐的深度神经网络；

其中，深度神经网络包括依次连接的掩膜预测模块和多尺度特征提取模块；

S2、将待对齐的源图像和目标图像输入至掩膜预测模块中提取掩膜，并使用提取的掩膜分别对原图像和目标图像进行矩阵点乘，获得对应的掩膜图像输入至多尺度特征提取模块中；

S3、通过多尺度特征提取模块对输入的掩膜图像分别进行特征提取，获得特征提取结果；

S4、基于特征提取结果，对源图像进行处理使之与目标图像对齐。

进一步地，所述步骤S1中的多尺度特征提取模块包括特征提取单元、warp操作单元、匹配损耗计算单元以及网格流估计单元；

每个尺度下的特征提取单元均对应一组依次连接的warp操作单元、匹配损耗计算单元以及网格流估计单元；

所述最大尺度的特征提取单元对应的网格流估计单元输出尺度为输入图像一半的网格流，作为多尺度特征提取模块的特征提取结果。

进一步地，所述网格流估计单元包括依次连接5层密卷积层和自适应池化层；

所述网格流估计单元的个数为3个，从最小尺度开始其对应的网格流密度依次为1×1、4×4和32×32。

进一步地，所述步骤S3包括以下分步骤：

S31、通过各个尺度下的特征提取单元依次对输入的掩膜图像进行特征提取，分别获得相邻尺度关系为2倍的源图像特征和目标图像特征；

S32、在当前尺度的warp操作单元中，对当前尺度下的源图像特征根据上一尺度的网格流进行warp操作；

S33、计算warp操作后的源图像特征与当前尺度下目标图像特征的匹配损耗；

S34、基于匹配损耗，通过当前尺度下的网格流估计单元计算当前尺度的网格流；

S35、重复步骤S32～S34，获得最终尺度为输入图像一半的网格流，作为多尺度特征提取模块的特征提取结果。

进一步地，所述步骤S33中，匹配损耗cv^l(x₁,x₂)的计算公式为：

式中，N为向量长度，

为第i层的源图像特征，

为经过warp操作后的第i层的目标图像特征，x₁为源图像元素，x₂为目标图像元素。

进一步地，所述步骤S34中，通过网格流估计单元计算当前尺度的网格流时的损失函数包括三重态损失和角度保留损失；

所述三重态损失L_tr(I_s,I_t)为：

式中，I_s和I_t分别为源图像和目标图像，

为第k个尺度下经过warp操作的源图像，

为在添加掩膜的情况下，使用第k个尺度的网格流进行图像对齐的误差，且其表达式为：

式中，M_t为目标图像的掩膜，

为第k个尺度下经过warp操作的原图像的掩膜；

所述角度保留损失L'_ap(p)为：

L'_ap(p)＝λ·W(p)L_ξ(p)+(1-λ)·W(p)L_θ(p)

式中，L_θ(p)为网格间损失，L_ξ(p)为网格内损失，λ为平衡权重，W(p)为内容自适应的加权。

进一步地，所述深度卷积神经网络进行图像对齐处理时的损失函数为：

式中，

为图像角度保留损失，L_tr(I_s,I_t)为先输入源图像再输入目标图像时的三重态损失，L_tr(I_t,I_s)为先输入目标图像再输入源图像时的三重态损失，上标f和b分别对应正向计算和反向计算，

的计算公式为：

式中，U和V分别为网格流的长和宽。

进一步地，所述步骤S4具体为：

将网格流估计单元输出的网格流乘以2，使其与输入图像的尺度匹配，然后基于该网格流对源图像进行warp操作，使之与目标图像对齐。

本发明的有益效果为：

(1)本发明提供的图像对齐方法，专门针对相对运动较小的图像而设计，使用多尺度特征金字塔以从粗到精的方式学习网格运动，网格流是从稀疏到稠密的不同比例中计算得到的，从而使最后的网格流具有线性单应性(稀疏)的稳定性和非线性网格变形的灵活性；

(2)本发明在网络中学习带有注意力机制的掩膜，该掩膜不仅突出显示纹理区域，而且还可以滤除图像中的运动差异目标；

(3)本方法中还对网格四边施加内容自适应的正则化约束，促使学习到网格流在运动不一致的区域(如动态对象或非连续景深区域)中是刚性的，而在不受此类干扰的情况下更加灵活。

附图说明

图1为本发明提供的基于内容感知的深度网格流鲁棒图像对齐方法流程图。

图2为本发明提供的深度神经网络结构示意图。

图3为本发明提供的网格流估计单元结构图。

图4为本发明提供的特征提取单元提取出的多尺度特征示意图。

图5为本发明提供的网格刚性约束损失示意图。

图6为本发明提供的简单场景的图像对齐效果示意图。

图7为本发明提供的困难场景的图像对齐效果示意图。

图8为本发明提供的另一种困难场景的图像对齐效果示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

如图1所示，一种基于内容感知的深度网格流鲁棒图像对齐方法，:包括以下步骤：

S1、搭建并训练用于图像对齐的深度神经网络；

上述步骤S1中的深度神经网络的结构如图2所示，其中的多尺度特征提取模块包括特征提取单元、warp操作单元、匹配损耗计算单元以及网格流估计单元；

最大尺度的特征提取单元对应的网格流估计单元输出尺度为输入图像一半的网格流，作为多尺度特征提取模块的特征提取结果。

上述网格流估计单元包括依次连接5层密卷积层和自适应池化层，如图3所示；本实施例中采用3层的特征提取金字塔，因此网格流估计单元的个数为3个，从最小尺度开始其对应的网格流密度依次为1×1、4×4和32×32，其中网格流密度为1×1的网格流估计单元相当于一个单应性矩阵。

基于上述结构，步骤S3中多尺度特征提取模块进行特征提取时包括以下分步骤：

S31、通过各个尺度下的特征提取单元依次对输入的掩膜图像进行特征提取，分别获得相邻尺度关系为2倍的源图像特征和目标图像特征(如图4所示)；

其中，若当前已经是最小尺度，则根据初始化的全0网格流做warp操作，相当于不变；

基于上述过程，网络会逐步从最小尺度的特征与网格流计算得到最终尺度为输入图像一半的网格流，该网格流会被用于完成最后的图像对齐操作，另外网络输出的网格流尺度岳晓，其密度越小，也就是约稀疏的。

上述步骤S33中，匹配损耗cv^l(x₁,x₂)的计算公式为：

式中，N为向量长度，

为第i层的源图像特征，

上述步骤S34中，通过网格流估计单元计算当前尺度的网格流时的损失函数包括三重态损失和角度保留损失；

其中，三重态损失主要与多尺度网格流估计单元有关，用于对多尺度网格流进行约束，具体为使用网格流warp源图像使之与目标图像进行对齐，从而约束正确网格流的学习，让网络所输出的各个尺度的网格流都能拥有对齐输入图像的能力，虽然中间尺度的网格流在整个网络管线中是用于中间特征的对其，而三重态形式是为了避免网络收敛到病态的全0解上；本实施例中的三重态损失L_tr(I_s,I_t)为：

式中，I_s和I_t分别为源图像和目标图像，

为第k个尺度下经过warp操作的源图像，

式中，M_t为目标图像的掩膜，

为第k个尺度下经过warp操作的原图像的掩膜；

上述角度保留损失主要作用在最后一个尺度的网格流估计单元输出网格流，使输出的网格流的形态被限制；本实施例中的角度保留损失L'_ap(p)为：

L'_ap(p)＝λ·W(p)L_ξ(p)+(1-λ)·W(p)L_θ(p)

式中，L_θ(p)为网格间损失，用于约束网格间相邻边成直线，L_ξ(p)为网格内损失，用于约束网格内相邻边成直角，λ为平衡权重，W(p)为内容自适应的加权；

具体地，网格间损失L_θ(p)和网格内损失L_ξ(p)的形式如图5所示；

在图5中，对于网格流中每个格子顶点，进行约束施加，其表达式分别为：

对于内容自适应的加权W(p)，用于做离群值校正，其表达式为：

式中，Μ^S为网络中中间稀疏的网格流，Μ为网络输出的稠密网格流，意为让输出的稠密网格流相对于稀疏网格流不存在明显的离群点，从而避免运动或噪声等在稠密网格流中带来的局部扭曲，实现对于图像内容的自适应。

基于上述损失函数，得到本实施例中深度卷积神经网络进行图像对齐处理时的损失函数为：

式中，

的计算公式为：

式中，U和V分别为网格流的长和宽。

上述步骤S4具体为：

实施例2：

基于实施例1中的方法，进行实际图像的对齐效果展示：

左边为输入图像，右边为对齐结果，我们将目标图像的r通道与源图像warp后结果的r通道进行替换，这样当warp后结果与目标图像未对齐时，就会产生明显的红/蓝鬼影，如图6-8所示；

对于简单图像的对齐，如图6所示，能实现完美对齐；

对于困难场景的图像对齐，如图7所示，前景的黑色车辆会干扰算法对背景的对齐，且当算法着重于背景对齐时，由于忽视前景物体的位置也容易导致误差出现，但本申请方法很好的兼顾了两者，网格流的应用使我们能够同时解决前景与背景的对齐问题；

对于另一种困难场景的图像对齐，如图8所示，海面与天空天然稀缺纹理，且动态的海浪会影响图像特征的提取，本发明方法表现出了足够的鲁棒性。