CN114913064A

CN114913064A - 基于结构保持和多对多匹配的大视差图像拼接方法及装置

Info

Publication number: CN114913064A
Application number: CN202210251143.4A
Authority: CN
Inventors: 薛万利; 陈园园; 陈胜勇
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-08-16
Anticipated expiration: 2042-03-15
Also published as: CN114913064B

Abstract

本发明提供了一种基于结构保持和多对多匹配的大视差图像拼接方法及装置，涉及图像处理的技术领域，包括：获取参考图片以及目标图片，并对参考图片以及目标图片进行预对齐；将目标图片进行网格变换并进行网格优化以获取第一目标图片；对第一目标图片进行点线匹配约束以获取第二目标图片；基于目标图片进行合并以及划分，采用quasi‑homography变换对交叉线进行优化；采用YOLOV4，利用匈牙利算法进行多匹配，并选择保留区域以及无线图像融合。通过本发明可以避免视差伪影，很好地保持拼接结果的整体结构，而且能有效消除由复杂多行人引起的合成伪影，得到自然的拼接结果。

Description

基于结构保持和多对多匹配的大视差图像拼接方法及装置

技术领域

本发明涉及图像拼接的技术领域，尤其是涉及一种基于结构保持和多对多匹配的大视差图像拼接方法及装置。

背景技术

图像拼接技术是一个将两个或多个具有重叠区域的图像组合成一张高分辨率和的大视场图像的过程。已经广泛应用于工农业、航空以及人们的日常生活中。比如全景图像合成、遥感图像处理、医学图像分析、虚拟现实技术等等。

大多数图像拼接方法都遵循类似的步骤：首先从待拼接图像检测并匹配特征点，然后根据特征之间的对应关系建立变换模型，统一坐标变换，最后将待拼接图像的重叠区域进行融合，得到平滑无缝自然的全景图像。

但当场景不是平面或相机基线很大时，同一静止物体在不同图像中的相对位置发生变化，待拼接图像会呈现大视差，导致拼接结果中容易出现视差伪影和结构失真问题。此外，当待拼接图像中存在复杂的多行人时，由行人移动导致前景物体与背景的相对位置发生变化，拼接结果中同一人可能会被复制或者被切割，即产生了合成伪影。大视差场景和复杂多移动行人都给图像拼接任务带来了很大的挑战。

经过十多年的研究，图像拼接领域已经取得了一些进展。最近，SPW 算法同时强调了单视角变换下的不同特征，包括对齐、失真和显著性。SLSM 将点-线特征作为对齐项来对齐图像，并使用像素差异值评估模型计算沿接缝切割的像素成本，迭代计算和更新平滑项以求找到最合适的接缝。贾琪教授等人提出了特征数来匹配输入图像的共面局部子区域，并将全局共线结构引入目标函数。Flores,A教授专注于从谷歌街景图像中移除行人，基于Liebe来提取行人的边界框，使用seam-driven的方法来消除伪影。OGIE 算法提出了一种物体感知的合成伪影消除方法，使用目标检测SSD的方法检测场景中的移动物体。随着深度学习算法的发展，Lang Nie等人提出了一种基于重建的无监督的深度图像拼接框架:无监督粗对齐和无监督重建，并公开了首个真实场景的无监督图像拼接数据集。以上方法扩大了图像拼接的应用领域，应用前景广阔。但应对复杂多行人的大视差场景的挑战时图像拼接效果仍不是很好。

发明内容

有鉴于此，本发明的目的在于提供一种基于结构保持和多对多匹配的大视差图像拼接方法及装置，以避免视差伪影，很好地保持拼接结果的整体结构，而且能有效消除由复杂多行人引起的合成伪影，得到自然的拼接结果。

本发明一种基于结构保持和多对多匹配的大视差图像拼接方法，包括：

获取参考图片以及目标图片，并对所述参考图片以及所述目标图片进行预对齐；

将所述目标图片进行网格变换并进行网格优化以获取第一目标图片；

对所述第一目标图片进行点线匹配约束以获取第二目标图片；

基于所述目标图片进行合并以及划分，采用quasi-homography变换对交叉线进行优化；

采用YOLOV4，利用匈牙利算法进行多匹配，并选择保留区域以及无线图像融合。

优选的，所述获取参考图片以及目标图片，并对所述参考图片以及所述目标图片进行预对齐的步骤包括：

采用如下公式获取计单应性变换矩阵：

其中{(p_i,p′_i)}_{i＝1,2,…,N}和{(l_j,l′_j)}_{j＝1,2,…,L}分别是在参考图片和目标图片中检测和匹配的点对和线对集合，N和L分别是点对和线对的数量，线段l_j可以由它的两个端点

表示，H是由匹配点线对计算的初始单应性矩阵，通过SVD最小化匹配点线对的欧式距离，

就是预变换后所需的全局单应性矩阵。

采用如公式定义总能量函数：

通过增强匹配点和线的对齐能力来消除视差伪影，

通过保证局部和全局线不被弯曲和拉伸来解决结构保存问题，

通过保持交叉线对应的斜率和长度来减少失真。

优选的，所述对所述第一目标图片进行点线匹配约束以获取第二目标图片的步骤包括：

其中

是点对齐项，

是线对齐项，λ_p和λ_l分别是每一项的权重，设置为1和5；

尽可能对齐匹配点特征，其中匹配点p′_i∈I₁,p_i∈I₂，变换后的点可以表示为

保证了重叠区域的对齐。

最小化的匹配线之间的距离，变换后的线

可以表示为

线l′_j∈I₁可以表示为a_jx+b_jy+c_j＝0，

不仅增强了图像的对齐，而且保持了直线结构的直线性。

其中

是线保存项，为了最小化相邻采样点之间的距离，将其划分为局部保留项

和全局保留项

λ_lq和λ_lg分别是它们的权重，设置为50和150用于保持线性结构。根据LSD给出的原始线集合S_l，合并并划分出局部线S_lq和全局线S_lg，在每一条局部线和全局线上分别进行采样，记为

和

Q和G是局部线和全局线的数量，M_q和M_g是每条线上采样点的数量。

优选的，所述基于所述目标图片进行合并以及划分，采用 quasi-homography变换对交叉线进行优化的步骤包括：

将失真控制项

划分为全局失真控制项

和非重叠区域失真控制项

其中λ_ds和λ_dn分别代表

和

的权重，设置为50和 100用于最小化失真。给定交叉线特征的集合：

和

其中

和

平行于l_u和l_v，

和

表示变换后的线，

和

分别是

和

的法向量，S 和T是交叉线特征的个数，在交叉线上均匀采样L_i和K_j个点，记为

和

相应的变换后的点可以用

表示。

优选的，所述采用YOLOV4，利用匈牙利算法进行多匹配，并选择保留区域以及无线图像融合的步骤包括：

采用如下公式：

和

是采用YOLOV4在变换目标图片和变换参考图片中检测到的行人坐标信息集合，

存储了行人的坐标信息；T₀和S₀分别表示检测出来的个数。ξ₁设置为0.15用于判断是否合并重叠物体，当

时，表示

和

有很大的重叠区域，取二者的最大范围赋值给

同时清空掉

进行更新，将

用同样的方法更新。经过上述操作，行人数量将更新为T₁和S₁。

优选的，所述采用YOLOV4，利用匈牙利算法进行多匹配，并选择保留区域以及无线图像融合的步骤包括采用如下公式对行人多对多匹配：

T_id,S_id＝Hungarian(C)；

使用Resnet18在Market-1501数据集上训练的最好的模型参数，分别对提取出来的行人图片(即目标集PED¹和搜索集PED²)进行深度特征提取，其中每幅图像的特征维度为R^1×W，W＝512，将PED¹和PED²中提取的特征分别堆叠,记为

和

通过计算特征间的欧式距离来衡量图片的相似性,存入距离矩阵

中，C_i,j表示目标集中的第i张图像与搜索集中的第j张图像之间特征级别的距离，采用匈牙利算法计算从目标集到搜索集的最小距离匹配,获取对应索引值T_id,S_id，S_id[i]表示PED²中匹配行人的索引值，对应PED¹中的第i张图像，将匹配的索引值

和

添加至

和

设置ξ₂＝15判断是否有对应匹配的行人，当匹配行人之间的特征距离大于阈值ξ₂时，确定

在PED²中没有匹配的行人，设置匹配 id值为0。

采用如下公式进行无缝图像重合

I_S＝SeamlessCloning(I_init,τ)；

是我们的变换参考图像和变换目标图像，我们采用平均混合方法融合

和

获得初始的拼接图像I_init，其中平均混合区域是二者的重叠区域；使用初始拼接结果I_init中的梯度作为指导梯度，通过泊松重建，最小化融合边界上保留区域τ和I_init之间的差异，平滑过渡得到混合图像块，并将其无缝混合到最终结果I_S中。

另一方面，本发明提供了一种基于结构保持和多对多匹配的大视差图像拼接装置，其包括：

获取模块：用于获取参考图片以及目标图片，并对所述参考图片以及所述目标图片进行预对齐；

网格变换模块：用于将所述目标图片进行网格变换并进行网格优化以获取第一目标图片；

点线约束模块：用于对所述第一目标图片进行点线匹配约束以获取第二目标图片；

优化模块：用于基于所述目标图片进行合并以及划分，采用 quasi-homography变换对交叉线进行优化；

图像融合模块：用于采用YOLOV4，利用匈牙利算法进行多匹配，并选择保留区域以及无线图像融合。

本发明实施例带来了以下有益效果：本发明提供了一种基于结构保持和多对多匹配的大视差图像拼接方法及装置，包括：获取参考图片以及目标图片，并对参考图片以及目标图片进行预对齐；将目标图片进行网格变换并进行网格优化以获取第一目标图片；对第一目标图片进行点线匹配约束以获取第二目标图片；基于目标图片进行合并以及划分，采用 quasi-homography变换对交叉线进行优化；采用YOLOV4，利用匈牙利算法进行多匹配，并选择保留区域以及无线图像融合。通过本发明可以避免视差伪影，很好地保持拼接结果的整体结构，而且能有效消除由复杂多行人引起的合成伪影，得到自然的拼接结果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于结构保持和多对多匹配的大视差图像拼接方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在图像拼接任务中，视差伪影和合成伪影广泛地存在于具有复杂移动行人和大视差场景的图像拼接结果中，导致了极其不自然的拼接结果，给拼接任务了带来了很大的挑战，基于此，本发明实施例提供的一种基于结构保持和多对多匹配的大视差图像拼接方法及装置，可以避免视差伪影，很好地保持拼接结果的整体结构，而且能有效消除由复杂多行人引起的合成伪影，得到自然的拼接结果。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于结构保持和多对多匹配的大视差图像拼接方法进行详细介绍。

实施例一：

本发明实施例一提供了一种基于结构保持和多对多匹配的大视差图像拼接方法，包括：

就是预变换后所需的全局单应性矩阵。

为了实现更好的配准，需要最小化变换后匹配点和线之间的欧氏距离；

预对齐估计的全局单应性只提供了一个近似的变换，仍不可避免地存在视差伪影和结构失真，为了优化局部调整，进一步采用网格变形的方法。

首先将目标图像I₂划分为规则网格，网格顶点索引从1到n，将n个顶点重塑为2n维度的向量V＝[x₁ y₁ x₂ y₂…x_n y_n]^T，预变换图像中的一个点p可以用四个网格顶点ν＝[v₁,v₂,v₃,v₄]^T的线性组合p＝ων表示,其中ω＝[w₁,w₂,w₃,w₄]由双线性插值计算并且ω的四个值相加和为1。因此，对点对应的任何约束都可以表示为对顶点对应的约束，图像变换问题可以表述为一个网格变换问题。即在经过网格优化后，顶点变换为

假设系数是固定的，相应的点

表征为双线性插值：

实际上，这是一个优化问题，其目标是准确地对齐预变换图像与参考图像，同时避免明显的扭曲；

由此可以定义后述总能量函数

其中

是点对齐项，

是线对齐项，λ_p和λ_l分别是每一项的权重，设置为1和5；

保证了重叠区域的对齐。

最小化的匹配线之间的距离，变换后的线

可以表示为

线l′_j∈I₁可以表示为a_jx+b_jy+c_j＝0，

不仅增强了图像的对齐，而且保持了直线结构的直线性。

进一步的，为了消除运动物体对大视差图像的影响，进一步保证重叠区域的对齐，我们分别对点线特征匹配进行约束。对齐项

分为点对齐项

和线对齐项

保证了重叠区域的对齐。

最小化的匹配线之间的距离，变换后的线

可以表示为

线l′_j∈I₁可以表示为a_jx+b_jy+ c_j＝0，其中

不仅增强了图像的对齐，而且保持了直线结构的直线性。

定义如下：

其中λ_p和λ_l分别是每一项的权重；

需要说明的是，在本发明提供的实施例中

采用如下公式获取计单应性变换矩阵：

采用如公式定义总能量函数：

其中λ_lq和λ_lg分别是

和

的权重

其中λ_ds和λ_dn分别代表

和

的权重；

将失真控制项

划分为全局失真控制项

和非重叠区域失真控制项

其中λ_ds和λ_dn分别代表

和

和

其中

和

平行于l_u和l_v，

和

表示变换后的线，

和

分别是

和

和

相应的变换后的点可以用

表示。

进一步的，当输入图像中存在复杂的多个行人时，很容易产生失真和形状变形。受quasi-homography变换的启发，优化交叉线的斜率可以有效减少失真。在全局单应性的变换后，有且仅有一簇平行线在经过变换过程后仍保持平行关系，记为l_u，并且与l_v保持垂直关系。

给定交叉线特征的集合：

和

其中

和

平行于l_u和l_v，

和

表示变换后的线。在交叉线上均匀采样L_i和K_j个点，记为

和

为了有效减少失真，将

划分为全局失真控制项

和非重叠区域失真控制项

并分别给出定义：

其中λ_ds和λ_dn分别代表

和

的权重。在前述公式中，S和T 分别是交叉线特征的个数，

和

分别是是

和

的法向量。

综上，由于所有的约束项都是二次的，

可以用稀疏线性求解器重新表述和最小化；

需要说明是，因为yolov4检测出来的物体要比我们想要的更多，比如

的区域之间重叠率太大时，很可能检测到同一行人中有子物体，例如背包或自行车。为了减少数据冗余，我们基于IoU的思想设计了一个区域合并策略，公式如下：

存储了行人的坐标信息；

和

时，表示

和

有很大的重叠区域，取二者的最大范围赋值给

同时清空掉

进行更新，将

我们根据更新后的坐标信息在

和

中裁剪子图像来构建候选集，即目标集PED¹和搜索集PED²，分别包含T₁和S₁子图片，其中行人

和

分别对应于坐标信息

和

为了消除合成伪影，为候选集中对应的行人建立匹配关系也是一项特别重要的任务。为了准确地进行匹配，受ReID的启发，我们设计了一种基于匈牙利算法的多对多匹配方法。

首先，我们使用Resnet18在Market-1501数据集上训练的最好的模型参数，分别对目标集PED¹和搜索集PED²中的图片进行深度特征提取，其中每幅图像的特征维度为R^1×W，W＝512，然后将PED¹和PED²中提取的特征分别堆叠,记为

和

中，最后再采用匈牙利算法计算从目标集到搜索集的最小距离匹配,获取对应索引值T_id,S_id。

但是并不是PED¹中的所有行人都能在PED²中找到对应的匹配行人，当匹配行人之间的特征距离大于阈值ξ₂时，确定

在PED²中没有匹配的行人。此外，我们将匹配的索引值

和

添加至

和

定义如下：

T_id,S_id＝Hungarian(C)

和

和

添加至

和

在PED²中没有匹配的行人，设置匹配 id值为0。

C_i,j表示目标集中的第i张图像与搜索集中的第j张图像之间特征级别的距离，S_id[i]表示PED²中匹配行人的索引值，对应PED¹中的第i张图像；

M_id＝0表示没有对应的匹配行人。

直观地说，合成伪影通常是由重叠区域内或重叠区域边界处的移动行人而产生的，而非重叠区域内的行人一定是真实存在的。为了有效消除合成伪影，我们根据最优变换计算

和

的重叠区域Ω，进而进一步判断行人是否在重叠区域内，将

和

添加到

和

中。此外，如果对应的匹配行人都在重叠区域并且没有产生移动，则不会产生合成伪影。

目前，我们已经识别并匹配了所有潜在的移动行人，为了保证最终结果足够自然，设计了保留区域选择策略。具体来说，由于

中的行人在变换后不可避免地会发生畸变和失真问题，因此我们应尽可能选择

中的行人作为保留区域τ。但是，当Ω的边界或Ω之外有行人时，我们必须选择它作为保留区τ。根据保留区域的三个规则：非失真、完整性和唯一性规则，我们将需要保留的行人区域存储到τ中，有关详细信息，参见表1。

表1保留区域τ的选择

采用如下公式进行无缝图像重合

I_S＝SeamlessCloning(I_init,τ)

需要说明的是我们旨在通过一个基于泊松方程的无缝图像融合方法去消除合成伪影，以生成最终的拼接结果。在图像混合过程中，首先，我们采用平均混合方法融合

和

获得初始的拼接图像I_init，其中平均混合区域是二者的重叠区域。然后，我们使用初始拼接结果I_init中的梯度作为指导梯度，通过泊松重建，最小化融合边界上保留区域τ和I_init之间的差异，平滑过渡得到混合图像块，并将其无缝混合到最终结果I_S中：

实施例二：

本发明实施例二提供了一种基于结构保持和多对多匹配的大视差图像拼接装置，包括：

电线约束模块：用于对所述第一目标图片进行点线匹配约束以获取第二目标图片；

实施例三：

我们的设置中，输入图像的大小被重塑为3000×4000像素，点特征由 VLFeat库中的SIFT算法进行检测和匹配，使用RANSAC去除异常点；线特征由线段检测器(LSD)检测，并由点线不变量方法进行匹配。对于参数设置，在网格约束中，网格大小设置为100×100，划分局部和全局线段的阈值μ被设置为网格对角线长度的三倍，λ_p，λ_l设置为1和5用于点线对齐，λ_lq，λ_lg设置为50和150用于结构保持，λ_ds，λ_dn设置为50和100用于最小化失真。在合成伪影去除中，ξ₁设置为0.15用于判断是否合并重叠物体，ξ₂设置为15判断是否有对应匹配的行人，以上参数设置在我们的发明中比较稳定。

我们展示了两个拼接实例，验证了基于网格约束的结构保持的有效性，放大的区域显示在每个结果的右侧。可以看到红框内有明显的伪影和变形，而我们的结构保存部分在绿框内产生了自然的拼接结果。

在本法发明提供的实施例中，我们选择了五组有代表性的图像样本进行了展示。分别与当前五种流行的拼接算法进行了比较，拼接结果的右侧突出显示了一些细节。红框表示重复的行人和弯曲的结构，绿框则展示出令人满意的拼接效果。从中可以观察到，这五种流行的算法都存在不同程度的视差伪影和合成伪影，行人出现两次并在场景中被拉伸，地面与石柱的垂直结构被扭曲，黄色网格线被弯曲，垃圾桶发现变形等，在视觉上导致特别不自然拼接结果。而我们的发明不仅可以去除视差伪影，保持很好的线性结构，还可以有效去除所有合成伪影，确保每个行人在最终拼接结果中只出现一次,行人不会被分割。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/ 或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。