CN111709880B

CN111709880B - 一种基于端到端神经网络的多路图片拼接方法

Info

Publication number: CN111709880B
Application number: CN202010553739.0A
Authority: CN
Inventors: 张世明
Original assignee: Beigemeis Shenzhen Technology Co ltd
Current assignee: Beigemeis Shenzhen Technology Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-10-13
Anticipated expiration: 2040-06-17
Also published as: CN111709880A

Abstract

一种基于端到端神经网络的多路图片拼接方法，系统包括以下步骤：S1：通过相邻邻接图估计器预估计多图像间的邻接关系，通过自适应卷积神经网络CNN计算两两图像间的单应性矩阵，并确定二者之间是否邻接，并确定二者之间的邻接权重，通过确定两两图片间的邻接权重，构建多图像间的邻接图；S2：根据多图像间的邻接图，确定最优基平面图像，并基于最优基平面图像选取所有与其邻接的图像；S3：通过多单应性矩阵，将最优基平面图像邻接的所有图像投影到最优基平面，实现图像拼接融合。本发明中，实现对图片以及视屏中的图片进行拼接的过程，得到高精度的且相互对齐的拼接图片。

Description

一种基于端到端神经网络的多路图片拼接方法

技术领域

本发明涉及图像拼接和图像质量评价技术领域，尤其涉及一种基于端到端神经网络的多路图片拼接方法。

背景技术

由于镜头视角有限以及广角镜头边缘畸变严重等问题，很难拍摄到现实应用所需的单幅大视野图像，利用图像拼接融合技术能大幅扩展镜头的表现能力。将多张来自同一场景的具有一定重叠区域的小视野图像对齐、有序拼接融合成为大视野高分辨率图像的图像拼接技术，在计算机视觉领域有着广泛的研究，已被广泛应用于遥感图像处理、医学图像分析、绘图学、计算机视觉、视频监控、虚拟现实、超分辨率重构和机器人导航等领域。

图像拼接主要包括四个步骤：图像预处理、特征提取与描述、图像对齐和图像融合。

近些年，深度学习逐渐在机器视觉领域展现出非凡的能力，越来越多的传统方法被深度学习所替代。由于卷积神经网络CNN可以隐式地从训练数据中自动进行特征学习，在图像特征提取方面具有突出优势，其简单的参数学习和并行学习能力使其具有广泛的适用性。因此，基于卷积神经网络CNN的图像特征自动提取，可有效克服最优单应性特征对齐的问题。

然而，以上的方法在实施的过程中，有以下几个问题：

1.由于图像可能来自不同时间、不同相机和不同的视角，进而造成图像遮挡和背景混乱等问题，在图像对齐中的会造成特征点错误对齐问题，基于RANSAC的特征筛选方法效率低下，且不能与特征选取融合。

2.针对基于特征的图像对齐方面并没有考虑不同图像特征在图像内容保持方面的贡献，因此在通过RANSAC特征筛选出的特征点并没有考虑与其相关的权重。

3.由于缺乏大量标注数据，无法实现大批量的训练，即便已有了无监督的训练方法，但并没有大规模的应用到自然图片中；

现有方法均只解决了两张图像的对齐问题，而没有考虑如何扩展到多张图像拼接。

在图片拼接的问题中，图片的数量普遍高于两张，同时单个HomographyNet也难以应对多幅图片的对齐。

本发明旨在利用无监督卷积神经网络CNN的图像对齐技术实现多图像优化拼接问题

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于端到端神经网络的多路图片拼接方法，实现对图片以及视屏中的图片进行拼接的过程，得到高精度的且相互对齐的拼接图片。

(二)技术方案

为解决上述问题，本发明提出了一种基于端到端神经网络的多路图片拼接方法，系统包括以下步骤：

S1：通过相邻邻接图估计器预估计多图像间的邻接关系，通过自适应卷积神经网络CNN计算两两图像间的单应性矩阵，并确定二者之间是否邻接，并确定二者之间的邻接权重，通过确定两两图片间的邻接权重，构建多图像间的邻接图G(I，E，δ)；

S2：根据多图像间的邻接图G(I，E，δ)，确定最优基平面图像I_opt，并基于最优基平面图像I_opt选取所有与其邻接的图像{I_link}；其中，与最优基平面图像I₁邻接图像为{I_link}＝{I₂，I₃，I₅，I₆，I₇}；将I_opt和{I_link}输入自适应网格流单应性估计器，计算获得基于网格的多单应性矩阵{H_opt-link}；

其中，自适应单应性估计器，为基于卷积神经网络CNN单应性估计器；

S3：通过多单应性矩阵{H_opt-link}，将最优基平面图像I_opt邻接的所有图像{I_link}投影到最优基平面I_opt，实现图像拼接融合；

获得拼接融合后的图像I'＝I_opt+{H_mesh}{I_link}；

若，多图像邻接权重图中的所有图像均被处理，则输出I'为最终拼接图；

若，剩余未处理图像，则I'为当前最优基平面图像I_opt，并回到S2处理。

优选的，算法流程包括以下步骤：

S21：过相邻邻接图估计器，拼接两两图像：

通过简洁CNN网络特征抽取器f(x)抽取任意两两图像I_i和I_j的特征F_i＝f(I_i)和F_i＝f(I_j)；

利用CNN网络特征抽取器的子CNN网络，估计每个特征相应的特征权重矩阵W_i＝w(I_i)和W_j＝w(I_j)，表征每个特征向量为该图像关键特征点的概率；

通过图像I_i的特征F_i和权重W_i，计算图像I_i的合成特征F_iW_i，并输入复杂的单应性估计CNN网络，再同过同过程计算图像I_j的合成特征F_jW_j；通过CNN网络估计图像I_i和I_j，并以I_i为基平面计算得到的单应性矩阵H_ij＝h(I_i，I_j)；变换单应性矩阵H_ij；

将图像I_j投影到I_i基平面的图像，I'_j＝Warp(I_i，H_ij)＝H_ijI_j；

合并I_i和I'_j，即得拼接图像I_i+I_j；

其中，通过输入F_iW_i和F_jW_j自适应训练单应性矩阵H_ij＝h(I_i，I_j)，需要基于局部损失函数Ln(I_i，I_j)，收敛以获得最优单应性矩阵H_ij；

其中，局部损失函数Ln(I_i，I_j)定义如下：

Ln(I_i,I_j)＝|W_iF_i-W_jF'j|-|W_iF_i-W_jF_j|＝|W_iF_i-W_jH_ijF_j|-|W_iF_i-W_jF_j|；

图像I_i与I_j的全局损失函数定义如下：

L(I_i,I_j)＝Ln(I_i,I_j)+Ln(I_j,I_i)+|H_ijH_ji-1|+Ln(I_i,I'_j)+Ln(I_j,I'_i)+|H'_ijH'_ji-1|；

全局损失函数最小化时的单应性矩阵H_ij为最优单应性矩阵：

其中，I为相应单位矩阵；

S22：多图像邻接权重图；根据S21计算任意两两图像的最优单应性矩阵和相应的全局损失函数L(I_i，I_j)，以此损失函数为权重δ＝L(I_i，I_j)构建权重图：

其中，如果不存在，即证明图像I_i和I_j不重叠，设δ为正无穷大；图像I_i整体权重定义为所有与其相邻的图像{I_link}_i的权重之和，即：

S23：定选取基平面图像，计算当前所有图像整体权重，并确定具有最小整体权重的图像为基平面图像，并设定I_opt为：

S24：获取I_opt对应的所有邻接图像集合{I_link}_opt；

S25：判断{I_link}_opt是否为空；

若为空，则说明当前与I_opt重叠的图像已经拼接完成，多图像拼接算法输出最终拼接图像；

若不为空，则将I_opt和{I_link}_opt输入到自适应网格流单应性估计器，进行自适应网格流单应性拼接；

S26：通过自适应网格流单应性器计算获得以I_opt为基平面，获得每个与I_opt相邻的图像I_j的网格流最优单应性矩阵

其中，自适应网格流单应性器是基于网格流的CNN单应性估计器；

S27：获得通过变换器拼接图像I_opt和{I_link}_opt，即：

S28：以I'为新图像合并相邻邻接图，形成新的相邻邻接图；

计算G'(I，E，δ)＝G(I，E，δ)-I_opt-{I_link}_opt；

判断G'(I，E，δ)是否为空:

若为空，则图像拼接完成，输出最终拼接图像；

若不为空，基于G'(I，E，δ)UI'；

返回至S23，重复S23-S28，直到G'(I，E，δ)为空；

S29：输出最终拼接图像集合{I'}，算法完成。

优选的，包括多图像拼接融合算法框架，其算法流程包括以下步骤：

S31：取N张图片：I₁，I₂，...，I_i，...，I_N，N≥3；任何一张照片和其余至少一张照片有共有的场景；

S32：对N张图，每张都经过一个特征提取器f(·)，从而得到N张图的特征图F_i；其中，i＝1，2，...，N；

S33：选中第i张图作为对齐目标，并获取其特征图F_i；

S34：对其余所有图分别和I_i一一对应组成N组图像对，即：

(I₁，I_i)，(I₂，I_i)，……(I_i，I_i)……，(I_N，I_i)；

将N组图像对送入单应性矩阵估计模块h(·)，以计算得到单应性矩阵H_ji；其中，j＝1，2，...，N；

S35：在求出H_ji之后，对每张特征图F_i通过H_ji做图像变形，得到类似图片I_1′……I_j′……I_N′；

S36:融合类似图片I_1′……I_N′和I_i，得到拼接图片I_out。

优选的，还包括对视频内的图片进行拼接的方法，包括以下步骤：

S41：取N张图片：I₁，I₂，...，I_i，...，I_N，N≥3；任何一张照片和其余至少一张照片有共有的场景；

S42：对N路视频V₁，V₂，……V_N，每路视频的每一帧都经过一个特征提取器f(·)，从而得到N路视频的特征图F_i；其中，i＝1，2，...，N；

S43：选中第i路视频作为对齐目标，并获取其特征图F_i；

S44：对其余所有视频分别和V_i一一对应组成N组图像对，即：

(V₁，V_i)，(V₂，V_i)，……(V_i，V_i)……，(V_N，V_i)；

S45：在求出H_ji之后，对每张特征图F_i通过单应性矩阵H_ji做图像变形，得到变形后的视频V_1′……V_j′……V_N′；

S46：融合变形后的视频V_1′……V_j′……V_N′，得到拼接图片V_out。

优选的，还包括无监督训练，无监督训练过程包括以下步骤：

S51：在求出H_ji之后，对每张特征图F_i通过单应性矩阵H_ji做图像变形，得到所有类似图片；

S52：用变形后所有类似图片和F_j求差，得到损失，以此为损失训练模块f(·)和h(·)，得到训练后的f(·)和h(·)，以致收敛；

S53：训练后的f(·)和h(·)再次计算变形后的图片M_1′……M_j′……M_N′；

其中，特征提取器f(·)由三层卷积神经网络实现；单应性矩阵估计模块h(·)由卷积神经网络实现，层数大于三十层；图像变形使用像素重映射方法。

优选的，变形后所有类似图片和F_j求差，得到损失；

对每一张图定义一个对抗损失函数，对抗损失函数为:

L_ji＝|F_j′-F_i|-|F_j-F_i|＝|H_ji·F_j-F_i|-|F_j-F_i|；

对得到的N-1个上述的损失：L_1i，……L_Ni进行求和计算，从而得到总损失：L＝ΣL_ji。

本发明中，实现对图片以及视屏中的图片进行拼接的过程，得到高精度的且相互对齐的拼接图片。

附图说明

图1为本发明提出的基于端到端神经网络的多路图片拼接方法的系统框架结构图。

图2为本发明提出的基于端到端神经网络的多路图片拼接方法中相邻邻接估计器的结构示意图。

图3为本发明提出的基于端到端神经网络的多路图片拼接方法中相邻邻接示意图。

图4为本发明提出的基于端到端神经网络的多路图片拼接方法中多图像拼接融合算法框架流程示意图。

图5本发明提出的基于端到端神经网络的多路图片拼接方法中两两图像拼接网络结构示意图。

图6为本发明提出的基于端到端神经网络的多路图片拼接方法中图像对齐流程示意图。

图7为本发明提出的基于端到端神经网络的多路图片拼接方法中特征提取器f(·)与单应性矩阵估计模块h(·)的关系示意图。

图8为本发明提出的基于端到端神经网络的多路图片拼接方法中一个实施例示意图。

图9为本发明提出的基于端到端神经网络的多路图片拼接方法中图像变形举例示意图。

图10为本发明提出的基于端到端神经网络的多路图片拼接方法中图片拼接举例示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-9所示，本发明提出的一种基于端到端神经网络的多路图片拼接方法，系统包括以下步骤：

获得拼接融合后的图像I'＝I_opt+{H_mesh}{I_link}；

在一个可选的实施例中，算法流程包括以下步骤：

S21：过相邻邻接图估计器，拼接两两图像：

合并I_i和I'_j，即得拼接图像I_i+I_j；

其中，局部损失函数Ln(I_i，I_j)定义如下：

Ln(I_i,I_j)＝|W_iF_i-W_jF'_j|-|W_iF_i-W_jF_j|＝|W_iF_i-W_jH_ijF_j|-|W_iF_i-W_jF_j|；

图像I_i与I_j的全局损失函数定义如下：

全局损失函数最小化时的单应性矩阵H_ij为最优单应性矩阵：

其中，I为相应单位矩阵；

S24：获取I_opt对应的所有邻接图像集合{I_link}_opt；

S25：判断{I_link}_opt是否为空；

S27：获得通过变换器拼接图像I_opt和{I_link}_opt，即：

S28：以I'为新图像合并相邻邻接图，形成新的相邻邻接图；

计算G'(I，E，δ)＝G(I，E，δ)-I_opt-{I_link}_opt；

判断G'(I，E，δ)是否为空:

若为空，则图像拼接完成，输出最终拼接图像；

若不为空，基于G'(I，E，δ)UI'；

返回至S23，重复S23-S28，直到G'(I，E，δ)为空；

S29：输出最终拼接图像集合{I'}，算法完成。

在一个可选的实施例中，包括多图像拼接融合算法框架，其算法流程包括以下步骤：

S33：选中第i张图作为对齐目标，并获取其特征图F_i；

S34：对其余所有图分别和I_i一一对应组成N组图像对，即：

(I₁，I_i)，(I₂，I_i)，……(I_i，I_i)……，(I_N，I_i)；

S36:融合类似图片I_1′……I_N′和I_i，得到拼接图片I_out。

在一个可选的实施例中，还包括对视频内的图片进行拼接的方法，包括以下步骤：

S43：选中第i路视频作为对齐目标，并获取其特征图F_i；

S44：对其余所有视频分别和V_i一一对应组成N组图像对，即：

(V₁，V_i)，(V₂，V_i)，……(V_i，V_i)……，(V_N，V_i)；

在一个可选的实施例中，还包括无监督训练，无监督训练过程包括以下步骤：

在一个可选的实施例中，变形后所有类似图片和F_j求差，得到损失；

对每一张图定义一个对抗损失函数，对抗损失函数为:

L_ji＝|F_j′-F_i|-|F_j-F_i|＝|H_ji·F_j-F_i|-|F_j-F_i|；

本发明，基于图像拼接，以扩展到视频上，实现多路视频的拼接。

本发明，实现无监督的训练以及实施，设计了对抗损失函数，这个对抗损失函数可以应用到多路图片中，从而实现用多路图片训练神经网络。

需要说明的是：

如表1和表2所示：特征提取器f(·)由三层卷积神经网络实现；单应性矩阵估计模块h(·)由卷积神经网络实现，层数大于三十层；图像变形使用像素重映射方法。

表1为特征提取器网络层数设置，如下：

表2为单应性矩阵估计模块的网络层数设置，如下：

层号	1	2	3-8	9	10-16	17
							类型	卷积层	池化层	卷积层	卷积层	卷积层	卷积层
卷积核	7	3	3	3	3	3
							步长	2	2	1	2	1	2
通道数	64	-	64	128	128	256
							层号	18-28	29	30-34	35	36
类型	卷积层	卷积层	卷积层	池化层	全连接层
							卷积核	3	3	3	-	-
步长	1	2	1	1	-
							通道数	256	512	512	-	8

优选的，用变形后所有类似图片和F_j求差，得到损失；

对每一张图定义一个对抗损失函数，对抗损失函数为:

L_ji＝|F_j′-F_i|-|F_j-F_i|＝|H_ji·F_j-F_i|-|F_j-F_i|；

本发明的上述技术方案具有如下有益的技术效果：实现对图片以及视屏中的图片进行拼接的过程，得到高精度的且相互对齐的拼接图片。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于端到端神经网络的多路图片拼接方法，其特征在于，系统包括以下步骤：

S2：根据多图像间的邻接图G(I，E，δ)，确定最优基平面图像I_opt，并基于最优基平面图像I_opt选取所有与其邻接的图像集合{I_link}；其中，与最优基平面图像I₁邻接图像为{I_link}＝{I₂，I₃，I₅，I₆，I₇}；将I_opt和{I_link}输入自适应网格流单应性估计器，计算获得基于网格的多单应性矩阵集合{H_opt-link}；

其中，自适应网格流单应性估计器，为基于卷积神经网络CNN单应性估计器；

S3：通过多单应性矩阵{H_opt-link}，将最优基平面图像I_opt邻接的所有图像集合{I_link}投影到最优基平面，实现图像拼接融合；

获得拼接融合后的图像I'＝I_opt+{H_opt-link}·{I_link}；

若多图像邻接权重图中的所有图像均被处理，则输出I'为最终拼接图；

若剩余未处理图像，则I'为当前最优基平面图像I_opt，并回到S2处理。

2.根据权利要求1所述的基于端到端神经网络的多路图片拼接方法，其特征在于，算法流程包括以下步骤：

S21：拼接两两图像：

通过图像I_i的特征F_i和权重W_i，计算图像I_i的合成特征F_iW_i，并输入复杂的单应性估计CNN网络，再通过相同的过程计算图像I_j的合成特征F_jW_j；通过CNN网络估计图像I_i和I_j，并以I_i为基平面计算得到单应性矩阵H_ij＝h(I_i，I_j)；变换单应性矩阵H_ij；

计算将图像I_j投影到I_i基平面的图像I'_j，定义I'_j＝H_ijI_j；

合并I_i和I'_j，即得拼接图像I_i+I_j；

其中，局部损失函数Ln(I_i，I_j)定义如下：

Ln(I_i,I_j)＝|W_iF_i-W_jH_ijF_j|-|W_iF_i-W_jF_j|；

图像I_i与I_j的全局损失函数定义如下：

L(I_i,I_j)＝Ln(I_i,I_j)+Ln(I_j,I_i)+|H_ijH_ji-U|+Ln(I_i,I'_j)+Ln(I_j,I'_i)+|H'_ijH'_ji-U|；其中，

H_ji是H_ij的转置矩阵，U为相应维度的单位矩阵，I'_i是将图像I_i投影到I_j基平面的图像，I'_i＝H_jiI_i；

全局损失函数最小化时的单应性矩阵H_ij为最优单应性矩阵：

其中，I为相应单位矩阵；

其中，如果不存在，即证明图像I_i和I_j不重叠，设δ为正无穷大；图像I_i整体权重θ_i定义为所有与其相邻的图像{I_link}_i的权重之和，即：

S23：选定基平面图像，计算当前所有图像整体权重，并确定具有最小整体权重的图像为基平面图像，并设定I_opt为：

S24：获取I_opt对应的所有邻接图像集合{I_link}_opt；

S25：判断{I_link}_opt是否为空；

S27：根据S2获得{H_opt-link}，通过变换器拼接图像I_opt和{I_link}_opt，即：

I'＝I_opt+{H_opt-link}·{I_ink}_opt；

S28：以I'为新图像合并相邻邻接图，形成新的相邻邻接图；

计算G'(I，E，δ)＝G(I，E，δ)-I_opt-{I_link}_opt；

判断G'(I，E，δ)是否为空:

若为空，则图像拼接完成，输出最终拼接图像；

若不为空，基于G'(I，E，δ)U{I’}返回至S23进行迭代，重复S23-S28，直到G'(I，E，δ)为空；

S29：输出最终拼接图像集合{I'}，算法完成。

3.根据权利要求1所述的基于端到端神经网络的多路图片拼接方法，其特征在于，包括多图像拼接融合算法框架，其算法流程包括以下步骤：

S33：选中第i张图作为对齐目标，并获取其特征图F_i；

S34：对其余所有图分别和I_i一一对应组成N组图像对，即：

(I₁，I_i)，(I₂，I_i)，……(I_i，I_i)……，(I_N，I_i)；

将N组图像对送入单应性矩阵估计模块h(·)，以计算得到单应性矩阵H_ji；其中，j＝1，2，i-1，i+1,…，N；

S35：在求出H_ji之后，对每张特征图F_i通过H_ji做图像变形，得到类似图片I'₁,…，I'_i-1，I'_i+1，…，I'_N；

S36:融合类似图片I'₁,…，I'_i-1，I'_i+1，…，I'_N和I_i，得到拼接图片I_out。

4.根据权利要求1-3任一项所述的基于端到端神经网络的多路图片拼接方法，其特征在于，还包括对视频内的图片进行拼接的方法，包括以下步骤：

S43：选中第i路视频作为对齐目标，并获取其特征图F_i；

S44：对其余所有视频分别和V_i一一对应组成N组图像对，即：

(V₁，V_i)，(V₂，V_i)，……(V_i，V_i)……，(V_N，V_i)；

S45：在求出H_ji之后，对每张特征图F_i通过单应性矩阵H_ji做图像变形，得到变形后的视频V'₁,…，V'_i-1，V'_i+1，…，V'_N；

S46：融合变形后的视频V'₁,…，V'_i-1，V'_i+1，…，V'_N和V_i，得到拼接视频V_out。

5.根据权利要求1-3任一项所述的基于端到端神经网络的多路图片拼接方法，其特征在于，还包括无监督训练，无监督训练过程包括以下步骤：

S52：用变形后所有类似图片和F_j求差，得到损失，以此为损失训练模块f(·)和h(·)，得到训练后的f(·)和h(·)，直到收敛；

S53：训练后的f(·)和h(·)再次计算变形后的图片M'₁,…，M'_i-1，M'_i+1，…，M'_N；

6.根据权利要求5所述的基于端到端神经网络的多路图片拼接方法，其特征在于，变形后所有类似图片和F_j求差，得到损失L_i；

对每一张图定义一个对抗损失函数，对抗损失函数为:

L_ji＝|F_j′-F_i|-|F_j-F_i|＝|H_ji·F_j-F_i|-|F_j-F_i|；

对得到的N-1个上述的损失：L_1i，L_2i，…，L_ji，…L_Ni进行求和得到总损失L_i，其中j≠i。