CN111553841A

CN111553841A - 一种基于最佳缝合线更新的实时视频拼接算法

Info

Publication number: CN111553841A
Application number: CN202010317225.5A
Authority: CN
Inventors: 俞菲; 李航; 刘闯; 陈康; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-18
Anticipated expiration: 2040-04-21
Also published as: CN111553841B

Abstract

本发明公开了一种基于最佳缝合线更新的实时视频拼接算法，属于数字图像处理技术领域。本发明提供的实时视频拼接方案使用了基于特征点的图像配准技术，通过不同视角图像的匹配特征点估计出每一目摄像机的内外参数。在进行不同视角间图像融合时，采用了基于最佳缝合线的图像融合算法，针对运动物体可能产生的重影和不连续的问题，使用基于KNN的背景消除算法和基于动态规划的缝合线更新算法以避免运动物体穿过缝合线而产生的不连续和重影。最后，使用基于卷积金字塔的图像融合算法，消除拼接缝。采用我们设计的视频拼接方案可以在保证拼接实时性的情况下提供良好的大视场图像。

Description

一种基于最佳缝合线更新的实时视频拼接算法

技术领域

本发明属于数字图像处理技术领域，特别是涉及一种基于最佳缝合线更新的实时视频拼接算法。

背景技术

视觉信息作为人类信息资源中重要的一员在信息社会中扮演着不可缺少的重要角色。当今社会，数码摄像机，摄影等技术已经走进人们的生活成为每个家庭的必须品。视频和图像等多媒体信息也在科技、军事、医疗等诸多领域扮演着重要的角色。视频的采集大多是采用单个设备进行，所能够捕获的视场相对较小，远不及人眼视场，已经很难满足大视场、高分辨率视频应用场景的需求。因此，图像拼接技术应运而生。

视频拼接技术，即对有重叠区域的多路视频进行配准并融合，形成大视场视频的技术。视频拼接提供了高分辨率的大视场全景视频，并被广泛应用于多个不同的领域，但多数视频拼接方法难以满足日益增长的实时性和视觉质量要求。

视频拼接的基础是图像拼接，目前，国内外已提出不同的图像拼接方法，这些方法主要针对不同领域的应用，但是没有一种通用的图像拼接技术可以满足不同场景的应用。国外在该领域的研究较早，并且较为领先。Riehadr Szeliski于1996年提出一种经典的基于运动全景图像拼接模型，该方法对发生旋转、平移及仿射变化的图像具有良好的配准效果。在Richard Szeliski研究的基础上，研究者对图像拼接技术的研究日益深入。M Brown于2003年提出一种基于尺度不变特征转换(SIFT)特征检测的图像配准方法。为了改善SIFT方法特征提取和描述效率低下的缺陷，Bay等人于2006年提出SURF特征提取方法。2011年的计算机视觉学术研讨会(IEEE international conference on computer vision)上，Roblee提出ORB图像配准方法，该算法的思想是在图像金字塔上先利用改进FAST算法进行角点特征检测，然后再使用改进的BRIEF方法进行特征描述，从而提高了图像拼接的速度。目前，ORB算法是国际上拼接速度较快的算法，但是由于ORB算法不具有尺度不变性，所以其应用范围相比SURF和SIFT算法受限更多。

视频拼接分为三个步骤:配准、图像投影和图像融合。在现有的多摄像头系统中，摄像头的位置保持稳定和固定。因此，不同相机的图像只需在一开始进行配准和参数估计，然后在接下来的帧中保持不变。一旦配准了所有的输入图像，我们需要确定如何产生最后的拼接图像，这包括选择最终的合成面(平面、圆柱、球面等)，还涉及选择哪些像素用于最终的合成，以及如何优化融合这些像素，以减少可见的接缝，模糊和重影。

由于图像的拼接质量对运动物体比对静态物体更敏感，而视频的最大特征就是存在运动物体，但运动物体通过图像的重叠区域时，将会产生接缝和重影，影响最终拼接图像的质量。在图像拼接中使用最优缝合线搜索算法能够很好的解决重影问题，但是当运动物体通过最优缝合线时，将产生明显的接缝。因此，需要根据视频内容的变化，对最佳缝合线进行实时更新。现有的大多视频拼接算法难以在保证实时性的前提下，提供良好的全景图像输出。

发明内容

为了解决运动物体通过图像的重叠区域时，将会产生接缝和重影，影响最终拼接图像的质量。现有的各种图像拼接算法能够得到了满意的视觉效果，但大多数算法不能满足实时性要求，且静态的图像没有考虑运动物体可能产生的影响，限制了其在视频拼接中的应用，本发明对现有的最佳缝合线搜索算法进行了改进，本发明提供一种基于最佳缝合线更新的实时视频拼接算法，在保证计算精度的同时提高了计算速度。在我们的方法中，为了防止运动物体通过缝合线，一种基于背景消除的实时最优缝合线更新策略被提出。先通过基于KNN的背景消除算法，对每一帧图像进行背景消除，标定前景区域。再根据相应的损失函数使用基于动态规划的最优缝合线搜索，最后使用基于卷积金字塔的MVC融合算法先出最优缝合线融合所产生的接缝，为达此目的，本发明提供一种基于最佳缝合线更新的实时视频拼接算法，其特征在于，包含以下步骤：

步骤1：视频图像预处理，通过对鱼眼镜头畸变矫正和配准，并得到矫正投影映射表；

步骤2：对每一帧输入图像根据矫正投影映射表矫正畸变投影到以焦距为半径的球面上；

步骤3：找出每一对具有重叠区域的图像对中重叠的部分(分别为I_l(x，y)，I_r(x，y))；

步骤4：对每张重叠区域图像进行高斯模糊和降采样得到(I′_l(x，y)，I′_r(x，y))；

步骤5：将降采样后重叠区图像进行KNN背景消除得到前后景分割后的图像；

步骤6：判断前一帧缝合线上的点是否有超过τ个落入前景，若有则进行缝合线更新，若没有则保持缝合线不变；

步骤7：若需要进行缝合线更新，计算降采样后重叠区域图像的Lplacian算子得到L_l(x，y)和L_r(x，y)；

步骤8：根据L_l(x，y)和L_r(x，y)，使用动态规划算法在重叠区域内进行缝合线更新；

缝合线查找算法中，需要一个损失函数设为E(x，y),用于衡量在此处进行缝合的累积代价，设L_l(x，y)和L_r(x，y)分别表示左侧图像的重叠区域部分和右侧图像的重叠区域部分经过laplacian算子卷积后的结果图像，则可以定义空间相干性函数：

记点(x₁，y)和(x₂，y-1)的空间相干性：

同时，缝合点不应该通过任何一个图像的边界点，而应该位于梯度平缓的位置，因此在损失函数中还需要引入显著性项：

g(x，y)＝max(|L_l(x，y)l，|L_r(x，y)|)

最佳缝合线本质上是一个最优化问题，损失函数E(x，y)表示缝合线上到点(x，y)的累积代价，通过限制缝合线上每一行上仅取1个像素，则该最优化问题将具有最优子结构，可以使用动态规划的方法找到图像的最佳缝合线，迭代方程为：

其中w₁和w₂为相干性项和显著性项的权重，且w₁+w₂＝1，L为探查范围。对于初始行(当x＝0时)，可以根据Laplacian算子的边界处理方式初始化；

步骤9：由步骤8更新的缝合线通过线性插值得到原尺度下的缝合线；

步骤10：根据步骤9得到的缝合线生成新的偏移量插值薄膜M(x，y)，该薄膜在缝合线上取值为I_r(x，y)-I_l(x，y)，其他位置取值为0；

步骤11：使用卷积金字塔近似计算偏移量MVC薄膜；

步骤12：偏移量MVC薄膜叠加到原图像上完成MVC融合。

作为本发明进一步改进，所述步骤8和步骤11中，对每一帧图像(经过高斯降采样)后进行缝合线更新的方法为：

(1)扩展；

从第一行开始，逐行扩展到最后一行。根据重叠区域缝合线所有像素累积误差的E(x，y)，记录每个像素的传播方向。同时注意缝合线上的每一个元素不能超过图像的重叠区域。

(2)找到最佳缝合线；

扩展完成之后，遍历最后一行的所有累积误差，找到其中的最小值。对应的像素点即为最佳缝合线的终点。再根据记录的传播方向，回溯到起始点，即可找到最佳缝合线。

在步骤11中使用卷积金字塔用小模板运算和降采样近似大模板运算的方法为：确定核{h₁，h₂，g}分别为5×5，5×5，3×3，的核，设输入薄膜为a，其中*表示图像模板运算，↑为升采样，↓为降采样。

1.确定需要卷积的层数L＝log₂(min(W，H))，其中W，H分别为输入薄膜的宽度和高度；

2.a⁰＝a；

3.对层级l＝0...L-1，做卷积和下采样操作

4.将最高层a^L，和3×3核g进行卷积

5.对每一个层级l＝L-1...0，做卷积和上采样：

6.取

为最终的结果；

近似MVC的任务中，经实验验证可以取h₁＝h₂为5×5高斯模板，g为3×3的低通滤波模板。

有益效果：本发明在预处理阶段完成了视频图像的配准和畸变矫正，求解得到了畸变矫正投影映射表，在后续处理阶段无需再进行配准和畸变校正的计算，只需要进行查表即可。使用空间换取了时间，极大地降低了处理时间。在处理阶段，将输入的由鱼眼镜头拍摄的视频流经由映射表矫正并投影到单位焦距的球面上，随后进行缝合线更新操作。使用所提出的方案，基于C++在Intel Core i5-7500 CPU上实现的缝合线算法在输入图像规模为2张3840×2160图像的情况下，运行时间约为50ms。在使用流水线处理的情况下，能够保证20帧/s图像的实时处理。在缝合线更新完成后，基于CUDA C在NVIDIA GTX-1050GPU上实现的卷积金字塔MVC融合，可将运算时间降低至约30ms，而在同一平台下羽化融合的运算时间约为17ms，多频带融合的运算时间约为25ms。使用卷积金字塔的MVC融合在时间消耗增加较小的情况下，提供了更好的融合效果，且卷积金字塔MVC融合更加方便并行处理，在图像重叠区域内像素处理时，羽化融合和多频带融合必须串行处理而无法并行，而卷积金字塔图像融合则只与每张图像本身有关。因此，对于多频带图像融合，羽化融化在多目视频图像融合上还具有并行计算上的优势。最终，我们在保证实时性的前提下，较好地解决了在图像融合中由于运动物体所产生的重影，模糊和接缝现象。

附图说明

图1为本发明基于最佳缝合线更新的实时视频拼接方案的流程图；

图2为本发明中视频图像预处理模块的流程图；

图3为鱼眼摄像头拍摄的实时视频流中的一帧；

图4为经过畸变矫正和映射之后的结果；

图5为重叠区域图像经过高斯模糊并降采样后的结果；

图6为本发明中缝合线更新模块经KNN背景消除的结果；

图7为运动物体经过最佳缝合线前的缝合线；

图8为运动物体经过最佳缝合线时缝合线更新后的结果；

图9为两目鱼眼镜头矫正配准后根据固定的缝合线使用卷积金字塔MVC融合的最终拼接图像；

图10为图9的局部放大图，因为运动物体通过最佳缝合线产生了接缝；

图11为经过更新后最优缝合线和卷积金字塔融合的拼接图像；

图12为图11的局部放大图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于最佳缝合线更新的实时视频拼接算法，在保证计算精度的同时提高了计算速度。在我们的方法中，为了防止运动物体通过缝合线，一种基于背景消除的实时最优缝合线更新策略被提出。先通过基于KNN的背景消除算法，对每一帧图像进行背景消除，标定前景区域。再根据相应的损失函数使用基于动态规划的最优缝合线搜索，最后使用基于卷积金字塔的MVC融合算法先出最优缝合线融合所产生的接缝。

本发明的实施例公开了一种基于最佳缝合线更新的实时视频拼接算法，具体的实现步骤如下：

步骤1：拼接预处理

步骤1.1：使用棋盘格标定对每目摄像头进行标定

步骤1.2：根据摄像机参数建立畸变矫正映射表，从而使得图像帧在畸变矫正时可以直接通过查表而不需要再次计算。

步骤1.3：对每目矫正后视频图像进行SURF特征点提取

步骤1.4：使用RANSAC算法选取特征子匹配对并估计每个摄像头的内参矩阵K，外参矩阵R

步骤1.5：根据内外参矩阵将图像投影到以焦距为半径的球面上，建立投影映射表。

步骤1.6：结合步骤1.2和步骤1.5所得的映射表，建立从未矫正图像到投影到球面上的位置的映射表

步骤2：最佳缝合线搜索

步骤2.1：每一张输入图像根据映射表进行畸变矫正和投影

步骤2.2：找出所有的图像重叠区域，并对每一个重叠区域图像重复进行5*5高斯模糊和降采样；

对于一张高分辨率图像而言，大量的像素是对纹理和细节的描述，图像数据存在很多的冗余，在高分辨率的图像中进行最佳缝合线搜索将产生很大的时间开销。使用高斯降采样模糊能够在保证一定精度的情况下有效地降低缝合线搜索的时间复杂度，并有效地消除噪声点对图像的影响。因此，使用在降低图像冗余的低频率带图像下进行最佳缝合线搜索，再将低尺度的缝合线最近邻插值回到原分辨率的方法。设一张原始图像为g_l-1，使用模糊并降采样后得到图像为g₁，w(m，n)为高斯模板则：

步骤2.3：对降采样后的每一个重叠区域进行kNN背景消除，并进行一次膨胀操作，以定位前景在当前图像中的分布；

步骤2.4：检查前一帧缝合线上所有的点是否落入前景区域，如果有τ个点在落在前景区域内则进行缝合线更新：

步骤2.5：若缝合线需要更新，则对重叠区域图像使用laplacian算子计算得到梯度域的值，并在重叠区域内使用动态规划的方法计算最佳缝合线：

缝合线查找算法中，需要一个损失函数设为E(x，y)，用于衡量在此处进行缝合的累积代价。设L_l(x，y)和L_r(x，y)分别表示左侧图像的重叠区域部分和右侧图像的重叠区域部分经过laplacian算子卷积后的结果图像，则可以定义空间相干性函数：

记点(x₁，y)和(x₂，y-1)的空间相干性：

g(x，y)＝max(|L_l(x，y)|，|L_r(x，y)|)

最佳缝合线本质上是一个最优化问题，损失函数E(x，y)表示缝合线上到点(x，y)的累积代价，通过限制缝合线上每一行上仅取1个像素，则该最优化问题将具有最优子结构，可以使用动态规划的方法找到图像的最佳缝合线。迭代方程为：

其中w₁和w₂为相干性项和显著性项的权重，且w₁+w₂＝1，L为探查范围。对于初始行，可以根据Laplacian算子的边界处理方式来进行求解进而初始化。在实施例中ω₁＝0.3，ω₂＝0.7，L＝5.该算法可分为以下2个步骤：

(1)扩展

(2)找到最佳缝合线

步骤2.6：通过线性插值的形式将低尺度下搜索得到的最佳缝合线还原到原分辨率的图像下，进而得到了原图像重叠区域的最佳缝合线。

步骤3：图像融合

步骤3.1：按照搜索到的最佳缝合线将所有图像粗略融合到最终的拼接图像平面上。

步骤3.2：创建插值薄膜，大小与每个重叠区域图像一致，在缝合线处的值为两张图像在缝合线上的差值，其他的值为0。

步骤3.3：使用基于卷积金字塔的MVC算法计算薄膜中每一个位置的权重

MVC算法是一种插值算法，根据给定边界的值在薄膜内部进行插值，进而达到无缝融合的目的。考虑一个闭合的二维多边形的边界曲线，使用

p_i∈R²表示。那么在中值坐标下，二维空间中的一个点x∈R²，与边界

相关的值由下式给定：

α_i is the angle p_i→x→p_i+1

确定了插值坐标系之后，即可用于定义在边界结点上任意函数的平滑插值：

应用在图像拼接中用于淡化缝合线的接缝，进而实现无缝融合。首先将图像融合的过程建模为一个MVC图像编辑的问题，假定要沿最佳缝合线融合两张已配准图像A和B。可以将图像B固定，在图像A重叠区域的每一个像素点上添加一个偏移量，可以用下式表示：其中f^*为图像B在缝合线上的值g为图像A在缝合线上的值。p_i表示缝合线上的点。

则最终的结果能够由下式得到：

f＝g+r

假定缝合线上的点数为0(K)，图像A重叠区域的像素个数为0(N)则该算法的时间复杂度为0(KN)。在图像很大时，K的值将会很大，而导致MVC算法无法满足实时性的需求。此时可以使用卷积金字塔来加速MVC偏移量薄膜的生成。卷积金字塔的本质是不断使用小规模的核(一般为3×3，5×5)卷积和降采样来逼近一个大规模的核。其运算的时间复杂度近似为0(Nlog₂(min(W，H))其中W，H为薄膜图像宽和高。由于log₂(min(W，H))要远小于K，所以卷积金字塔能够达到加速的效果，一般情况下使用卷积金字塔的MVC偏移量薄膜的时间复杂度为O(N)

其具体操作的过程为：确定需要核{h₁，h₂，g}分别为5×5，5×5，3×3的核，设输入的已由步骤3.2初始化的薄膜为a，其中*表示图像模板运算，↑为升采样，↓为降采样。

1.确定需要卷积的层数L

2.a⁰＝a

3.对层级l＝0...L-1，做卷积和下采样操作

4.将最高层a^L，和3×3核g进行卷积

5.对每一个层级l＝L-1...0，做卷积和上采样：

6.取

为最终的结果薄膜。

在本实施例中取h1，h2为5×5的高斯模板，g取值为3×3的低通滤波模板。

步骤3.3：将薄膜叠加到对应的重叠区域上，完成接缝消除。输出最终图像。

本发明的具体实施方式如下：

实施例1：两目固定3840×2160的鱼眼镜头视频流的实时拼接

鱼眼镜头存在严重的镜头畸变，无法直接用于后续的图像配准和图像融合操作，因此需要先对每帧视频图像进行畸变矫正。为了防止运动物体通过缝合线，提出了一种基于背景消除的实时最优缝合线更新策略。先通过基于混合高斯模型的背景消除算法，对每一帧图像进行背景消除，标定前景区域。再根据相应的损失函数使用基于动态规划的最优缝合线搜索，最后使用基于卷积金字塔的MVC融合算法先出最优缝合线融合所产生的接缝。如图1所示的实时拼接系统的具体实施步骤为：

(1)视频图像预处理，通过对鱼眼镜头畸变矫正和配准得到矫正投影映射表具体的流程如图2所示。

(2)对每一帧输入图像(如图3所示)根据校正和配准投影映射表投影到以焦距为半径的球面上(如图4所示)

(3)最佳缝合线搜索，找出图像对之间的重叠区域，并对每一个重叠区域图像重复进行5*5高斯模糊和降采样得到如图5所示的结果，再使用KNN背景消除算法将降采样后图像前背景分割得到如图6所示的分割后图像。

(4)计算两张图像在重叠区域内子图像的Laplacian算子，并对缝合线上的点进行检查和更新：

设L_l(x，y)和L_r(x，y)分别表示左侧图像的重叠区域部分和右侧图像的重叠区域部分经过laplacian算子卷积后的结果图像，则可以定义空间相干性函数：

记点(x₁，y)和(x₂，y-1)的空间相干性：

g(x，y)＝max(|L_l(x，y)|，|L_r(x，y)|)

其中w₁和w₂为相干性项和显著性项的权重，且w₁+w₂＝1，L为探查范围。对于初始行，可以根据Laplacian算子的边界处理方式来进行求解进而初始化。在本实施例中ω₁＝0.3，ω₂＝0.7，L＝5.在本实施例中通过运动物体经过缝合线前的缝合线分布如图7所示和运动物体通过缝合线之后的缝合线分布如图8所示，可以看到最佳缝合线很好地绕开了运动物体。

(5)分别使用固定的缝合线和更新后最佳缝合线生成对应的插值薄膜，进行卷积金字塔MVC插值。

(6)将MVC插值得到的偏移量薄膜叠加到原图像的重叠区域内，完成MVC融合。使用固定缝合线的融合结果如图9所示，而图10为图9的局部放大图像，可见由于运动物体经过缝合线而产生了接缝效应。使用更新后最佳缝合线融合的结果如图11所示，图12为图11的局部放大图，由图12可见接缝效应由于缝合线的更新被有效地减少了。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。