CN108009985A

CN108009985A - 一种基于图割的视频拼接方法

Info

Publication number: CN108009985A
Application number: CN201711191572.2A
Authority: CN
Inventors: 姚剑; 廖岩岩; 谢仁平; 涂静敏; 李礼
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-05-08
Anticipated expiration: 2037-11-24
Also published as: CN108009985B

Abstract

本发明提出一种基于图割的视频拼接方法，首先通过把图像投影到球面上，把图像对齐问题转化成球面上的像素点旋转问题，把图像在球面上的投影影像划分成若干个格网，每个格网计算一个旋转矩阵实现图像的对齐。然后构造3D图割计算拼接面，为了降低计算量和内存需求，采用局部拼接面更新代替全局的拼接面，利用视频的前n帧计算一个局部拼接面，记录拼接面的最后一条拼接线，把拼接线投影到下一张经过多旋转矩阵对齐的结果图像上，判断当前结果图像和前一张结果图像的梯度差，统计差值大于一定阈值的像素所占比例，比例大于一定阈值则表示拼接线处出现动态目标，需要更新局部拼接面；否则，使用记录的拼接线作为当前帧的拼接线。

Description

一种基于图割的视频拼接方法

技术领域

本发明属于图像处理技术领域，特别是涉及一种基于图割的静止视频拼接技术方案。

背景技术

视频拼接是指将多个具有一定重叠信息的视频序列通过相关的算法拼接起来，来得到具有更大视场视频的技术。视频拼接由于其可以记录丰富的信息和良好的交互性，在视频安防、生物医学、视频会议尤其是VR、AR等领域发挥重要的作用。

视频拼接与图像拼接不完全相同但又衍生自图像拼接，因而图像拼接中的经典问题如视差存在情况下的图像拼接也是视频拼接需要解决的难题。视频拼接主要面临两个技术难点：视差存在条件下的图像拼接以及视频拼接的时空稳定性。视差存在条件下的图像拼接方法主要是基于稀疏格网，通过划分成千上万个格网，为每个格网计算一个单应矩阵，完成图像几何上的精细对齐，其中以APAP方法为代表[1]。保证视频时空稳定性的方法主要有两种，一类是在图像对齐阶段把整个视频序列统一起来对齐；另一类是采用背景拼接，再对前景进行处理。

[1]ZARAGOZA J.,CHIN T.-J.,BROWN M.S.,SUTER D.Asprojective-as-possibleimage stitching with moving dlt[C].IEEE Conference on Computer Vision andPattern Recognition(CVPR),2013,pp.2339–2346.1,2,7,8.

APAP类图像对齐技术：既然单个单应矩阵不能处理视差存在条件下的图像对齐，APAP把待拼接图像划分成若干个格网，每个格网计算一个单应矩阵，以此来实现图像几何上的精细对齐。APAP算法虽然可以实现几何上的精细对齐，但是由于采用的变换单元是单应矩阵，因而在某些条件下的拼接结果伴随有严重的透视变形问题。

视频时空稳定性技术：在图像对齐阶段把整个视频序列统一起来对齐的方法复杂度太高，对内存和计算有很高的要求，很难用于实际应用。基于背景拼接的方法中，目前已经存在的方案是选择性拼接线更新策略，这种方法可以降低计算量并且不需要一次性考虑整个视频，对内存要求降低。但是，这种方法只是孤立地用独立的一帧来计算拼接线，得到的拼接线质量难以得到保证。针对这些问题，本发明提出了有效的解决方法。

发明内容

为了解决以上方法中存在的问题，本发明提供了一种基于图割的视频拼接技术。

本发明技术方案提供一种基于图割的视频拼接方法，包括以下步骤：

步骤1，基于球面投影的多旋转矩阵对齐，包括以下子步骤：

步骤1.1，将待拼接视频中的每一帧图像投影到单位球面上；

步骤1.2，对待拼接视频中相应的待拼接图像划分格网，求解每个格网的旋转矩阵，格网内每个点都使用相同的旋转矩阵，得到球面上对齐的拼接图像，

步骤2，基于3D图割构造局部拼接面，并且自适应更新拼接面，优化步骤1.2获得的拼接图像的对齐效果，包括以下子步骤：

步骤2.1，利用拼接图像中对应的k帧连续图像构成3D图割，并求解k帧连续图像的局部拼接面，实现方式如下，

定义如下3D图割能量方程，求解使得能量方程最小，

其中，D_p(L_p)为数据项，V_p,q(L_p,L_q)为平滑项，数据项的赋值方法是在拼接图像重叠区域统一赋值为零，非重叠区域赋值为无穷大，平滑项的赋值方法为，

其中，表示同一帧的两张图像构成的格网边对应的能量，表示同一个视频序列的相邻两帧之间的格网边对应的能量，

上式中，表示亮度相似性，表示梯度相似性，I_r(p)、I_r(q)、和分别指参考图像p点亮度值、q点亮度值、p点梯度值和q点梯度值，I_o(p)、I_o(q)、和分别指目标图像上p点的亮度值、q点亮度值、p点梯度值和q点梯度值；

上式中，p_t和p_t+1分别指第t帧图像和第t+1帧图像上同一坐标位置；

步骤2.2，根据如下方式自适应更新拼接面，获得几何上对齐效果好的拼接图像；

1)记录步骤2.1中k帧连续图像的局部拼接面中最后一条拼接线的位置；

2)以最后一条拼接线为中轴线，以半径r向外扩充，建立拼接线影响区域；

3)进行第k+1帧图像的拼接，判断当前图像在拼接线影响区域内是否有动态目标，如果有则转到1)，否则以当前拼接线中记录的拼接线对当前图像进行拼接，转到步骤2)；

步骤3，对步骤2获得的几何上良好对齐的图像进行图像融合，然后压缩成视频，得到最终的拼接后视频。

进一步的，所述步骤1.1的实现方式如下，

已知图像的内参：焦距f_x和f_y，像主点(c_x,c_y)，给定图像上的任意一点p(x,y)，则该点对应的三维点在相机空间坐标系下的坐标为P(X,Y,Z)，两者满足关系

转换得到向量(X,Y,Z)的单位向量为，

进一步转化为，

则图像上的任意一点p(x,y)投影到球面上的实际坐标为，

进一步的，步骤1.2中旋转矩阵的实现方式如下，

设参考图像I_r，目标图像I_o，对目标图像I_o划分格网，格网数目为MxM，p＝[x y z]^T和p'＝[x' y' z']^T分别代表参考图像I_r和目标图像I_o上的特征点，

其中，N是特征点的数目，p_i'和p_i分别代表对应的第i个特征点，x_*是格网中心坐标，γ是属于区间[0,1]的小数，σ是一个缩放系数。

进一步的，步骤2.2中判断当前图像在拼接线影响区域内是否有动态目标的计算公式如下，

其中，分别表示第k帧和第k+1帧图像中第i个像素的梯度值，p_i表示满足条件的像素点；ND表示第k+1帧图像上拼接线影响区域内的动态像素个数，NS表示拼接线影响区域总的像素个数，T₀和T₁是两个阈值。

进一步的，步骤3中图像融合采用多频带融合方法。

进一步的，k的取值为5～10，T₀取[0,20]之间，T₁取[0.05,0.1]之间，r取[1,5]像素。

与现有技术相比，本发明具有以下优点：(1)基于球面的多旋转矩阵既可以完成视差存在条件下的图像对齐，又可以避免透视变形问题；(2)3D图割求解局部拼接面相较于2D图割的拼接线具有更大的鲁棒性(3)自适应局部拼接面更新策略，降低了计算量和内存需求，具有更大的实用性。

附图说明

图1为本发明实施例的整体流程图。

图2为本发明实施例中基于球面的多旋转矩阵对齐示意图。

图3为本发明实施例3D图割中三种边的示意图。

具体实施方式

下面将结合附图以及具体实施方式对本发明作进一步描述。

如图1所示，本发明所采用的具体实施方式为，一种基于图割的视频拼接方法，包括以下步骤：

步骤1，基于球面投影的多旋转矩阵对齐，包括以下子步骤：

步骤1.1，把待拼接视频中的每一帧图像投影到单位球面上，实现如下：

视频拼接与图像拼接类似，需要一个投影基准面。本发明实施例中采用球面作为投影面：所谓的把视频投影到球面上，实际上是确定视频中的每一帧图像的图像坐标转换到球面坐标的变换关系。确定了投影关系以后，就能够把两个或者多个视频投影到同一个球面上，形成拼接后的视频。由于本发明实施例是针对静止相机的，因而只使用每个视频的第一张图像建立投影关系，视频中的其他图像根据该投影关系投影的球面上，后面对于视频投影统一以图像投影来称谓。这种通过图像投影来直接得到全景图的方法有两个局限：首先要保证待投影图像是同一个相机严格绕光心旋转拍摄的；其次，要知道拍摄这些图像时候的相机姿态。为了摆脱这两个限制，本发明实施例采用的图像对齐方法为：首先采用相同的坐标系转换关系，把待投影图像投影到球面上，然后利用特征点对的球面坐标解算出相机相对位置，同时也就完成了两张图像的对齐。

统一的图像坐标与球面坐标转换关系的计算。已知图像的内参：焦距f_x和f_y，像主点(c_x,c_y)，给定图像上的任意一点p(x,y)，该点对应的三维点在相机空间坐标系(右手坐标系，相机成像中心为原点，X,Y轴正方向分别与图像坐标系中x,系轴正方向一致，Z轴正方向为相机成像中心指向像主点)下的坐标为P(X,Y,Z)，两者满足如下关系：

于是得到向量(X,Y,Z)的单位向量为：

把和换成上式的左边部分，即

实际的球面坐标需要乘以一个公共的系数，这个系数即为最终选择的球的半径。通常确定这个系数的方法是选择其中一个相机的f_x和f_y的平均值，因而实际的球面坐标为，

从而得到图像上一点投影到单位球面上的坐标。根据上面的公式，可以得到图像在球面上的球面坐标，后续步骤中的图像都是指投影在球面上的图像。

但是上述方法存在问题，因为每个相机的f_x和f_y值是不一样的，本发明通过步骤1.2中的多旋转矩阵对齐来解决这个问题。

步骤1.2，对待拼接图像划分格网，求解每个格网的旋转矩阵，格网内每个点都使用相同的旋转矩阵，得到球面上对齐的拼接图像；

由于是在球面上，要恢复两张图像的相对位置，理论上只需要在三个坐标轴方向旋转一定角度就可以实现。也就是说确定一个唯一的旋转矩阵R可以完成两张球面图像的对齐。但是，由于每个相机的相机参数不相同，且两个相机并不满足光心重合，因而，图像是存在视差的。本发明借鉴图像拼接领域中经典的处理视差的方法，通过对图像划分格网，求解多个旋转矩阵来进行图像对齐。如附图2所示，以两张图像拼接为例，左图像称为参考图像I_r，右图像称为目标图像I_o。对目标图像划分格网，格网数目为100x100(100行，100列)。有两组特征点p＝[x y z]^T和p'＝[x' y' z']^T，分别代表参考图像和目标图像上的特征点，所述的特征点已经完成匹配之后的，且是指已经投影到球面上的三维坐标。图像拼接的目的就是把目标图像转换到参考图像的坐标系中，传统的单个旋转矩阵对齐问题为求解这样一个3x3的旋转矩阵R，使得p_i'＝Rp_i，等价于下式的最小二乘解：

由于单个的旋转矩阵自由度只有3，只能够保证全局性的图像对齐，因而在图像存在较大视差时候的对齐效果往往很差。

本领域通常的解决方法是为每一个像素点都单独计算一个旋转矩阵R_*，即每个x_*对应一个R_*，这样就能实现点对点的精细对齐。但是对每个点都计算一个旋转矩阵计算量太大，因而本发明实施例中采用对目标图像划分格网的方法，每个格网计算一个旋转矩阵，格网内每个点都使用相同的旋转矩阵，计算公式如下：

N是特征点的数目，p_i'和p_i分别代表对应的第i个特征点，x_*是格网中心坐标，γ是属于区间[0,1]的小数，σ是一个缩放系数，与图像的尺寸有关。对于图像尺寸大小在1024x768到1500x2000之间的情况，缩放系数可以在区间[812]之间选择，偏置值γ在区间[0.00250.025]之间选择。通过对每个格网计算一个旋转矩阵就实现了球面上图像的对齐。虽然以上对齐方法可以一定程度上解决图像视差问题，但是在视差较大或者图像存在动态目标时候，仍然不能产生满意的效果。图像拼接领域普遍采用拼接线后处理方法来解决这些问题，本发明针对视频拼接，提出了基于3D图割的局部拼接面方法来优化视频对齐效果。

步骤2，基于3D图割构造局部拼接面，并且自适应更新拼接面，从而优化步骤1.2获得的拼接图像的对齐效果，包括以下子步骤，

步骤2.1，基于3D图割构造拼接面，实现如下：

传统的2D图割求解拼接面，就是解决以下的能量方程：

D_p(L_p)被称为数据惩罚项，表示把标签L_p赋给元素p的代价。V_p,q是平滑项，表示给p,q分配不同标签的代价。其中，P表示所有像素点的集合，N代表相邻像素点对的集合。

3D图割要解决的能量方程和2D图割一样，只是赋值方式有所不同，3D图割的能量项同样包含数据项和平滑项两种。其中，数据项的赋值方法是在拼接图像重叠区域统一赋值为零(非重叠区域赋值为无穷大)；平滑项采用亮度相似性和梯度相似性的组合，平滑项包含两种，一种是同一帧的两张图像构成的格网边，这种边对应的能量定义为另一种是同一个视频序列的相邻两帧之间的格网边，这种边对应的能量定义为即

如图3所示，3D图割中包含三种边，第一种是每个节点与两个端点source和sink的边，第二种是每张图像内部相邻节点之间的边，第三种是图像与图像之间相邻节点之间的边。其中，表示p,q之间的第二种边，下标i,j表示图像分别来自第i个相机和第j个相机的视频，t表示第t帧的图像。表示p_t和p_t+1之间的第三种边。

其中，平滑项定义如下：

其中，表示亮度相似性，表示梯度相似性，I_r(p)和I_o(p)分别指参考图像上的p点亮度值和目标图像上p点(匹配之后的特征点)的亮度值。具体的，本发明的亮度相似性直接在RGB彩色图像上计算，计算方法是RGB三个通道的亮度差的平方和，梯度相似性计算方法为梯度差的平方和。

定义与类似，把p，q换成p_t,p_t+1即可，

其中，p_t和p_t+1分别指第t帧图像和第t+1帧图像上同一坐标位置。有了上述的能量项定义方式，用两个视频中对应的连续5-10张图像构成3D图割，求解这5-10张图像的局部拼接面，例如，在视频1中取前10帧图像，那么视频2中也取前10帧图像。

[2]JIANG,W.,AND GU,J.2015.Video stitching with spatialtemporalcontent-preserving warping[C].In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Workshops(CVPRW),42–48.

步骤2.2，自适应更新拼接面，获得对齐效果好的拼接图像，实现如下：

虽然3D拼接面可以保证得到一个连续变化的曲面，但是3D图割所需要的内存和时间消耗，严重制约了它的实用性。对于一个帧率为25fps的视频，仅仅一分钟的视频就包含1500张图片，构建这样一个3D图割需要很大的内存开支和计算能力。因而，直接对视频应用一个全局的3D图割显得不可取，本发明采取的策略是构建局部的拼接面，再根据需要不断更新局部拼接面。

拼接面的一个特例是使用第一帧的拼接线作为所有帧的拼接线，不难想象，这个拼接面在视频不包含动态目标时可以得到很好的结果(因为图像内容一直都没变化，拼接线自然也不会变化)。更进一步，在拼接线附近没有出现动态目标之前的一段时间内的拼接结果都不会出现问题。本发明基于这个事实，采用这样的策略：在拼接线附近没有动态目标时不进行拼接面的更新，拼接线附近有动态目标时，进行拼接面的更新。本发明为了降低计算量，使用相邻两帧图像的梯度图像差值结果作为检测动态目标的手段，当差值大于某个阈值T₀时，认为该点是动态目标。以上一条拼接线以一定的半径作一条缓冲区，统计落入缓冲区中的动态像素个数，个数大于预设的阈值T₁则认为拼接面需要更新。为了能够针对不同尺寸的图像，本发明最终以动态像素的比例代替像素个数作为阈值，公式如下：

表示第t帧图像第i个像素的梯度值，p_i表示满足条件的像素点。ND表示第t帧图像上拼接线影响区域内的动态像素个数，NS表示拼接线影响区域总的像素个数，T₀和T₁是两个阈值，其中T₀取[0,20]之间，T₁取[0.05,0.1]之间，二者都是经验值。

具体实现步骤为：

1)选取k帧进行拼接面的计算，并且记录拼接面最后一条拼接线的位置。

2)以最后拼接面的最后一条拼接线为中轴线，以半径r向外扩充，建立拼接线影响区域。(r通常取[1,5]像素，经验值)

3)进行下一帧图像拼接，判断当前图像在影响区域内是否有动态目标，如果有则转到1)，否则以当前拼接线(步骤1)中记录的拼接线)对当前图像进行拼接，转到步骤2)。

通过步骤1和步骤2，可以得到几何上良好对齐的图像。

步骤3，对步骤2的结果进行融合，包括以下子步骤。

对步骤2的结果进行图像融合，为了得到最好的效果，采用多频带融合[3]；多频带融合后，把得到的图像压缩成视频，得到最终的拼接后视频。

[3]P.J.Burt and E.H.Adelson.A multiresolution spline with applicationto image mosaics[J].ACM Transactions on Graphics(TOG),2(4):217–236,1983.

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改、补充或采用类似的方式替代，但不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于图割的视频拼接方法，其特征在于，包括如下步骤：

步骤1，基于球面投影的多旋转矩阵对齐，包括以下子步骤：

步骤1.1，将待拼接视频中的每一帧图像投影到单位球面上；

定义如下3D图割能量方程，求解使得能量方程最小，

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </munder> <msub> <mi>D</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <mi>p</mi> <mo>.</mo> <mi>q</mi> <mo>)</mo> <mo>&Element;</mo> <mi>N</mi> </mrow> </munder> <msub> <mi>V</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

2.如权利要求1所述的一种基于图割的视频拼接方法，其特征在于：所述步骤1.1的实现方式如下，

转换得到向量(X,Y,Z)的单位向量为，

进一步转化为，

则图像上的任意一点p(x,y)投影到球面上的实际坐标为，

<mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> <mo>=</mo> <mfrac> <mrow> <msub> <mi>f</mi> <mi>x</mi> </msub> <mo>+</mo> <msub> <mi>f</mi> <mi>y</mi> </msub> </mrow> <mn>2</mn> </mfrac> <mo>&times;</mo> <mfrac> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <msub> <mi>c</mi> <mi>x</mi> </msub> </mrow> <msub> <mi>f</mi> <mi>x</mi> </msub> </mfrac> <mo>,</mo> <mfrac> <mrow> <mi>y</mi> <mo>-</mo> <msub> <mi>c</mi> <mi>y</mi> </msub> </mrow> <msub> <mi>f</mi> <mi>y</mi> </msub> </mfrac> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <msub> <mi>c</mi> <mi>x</mi> </msub> </mrow> <msub> <mi>f</mi> <mi>x</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>y</mi> <mo>-</mo> <msub> <mi>c</mi> <mi>y</mi> </msub> </mrow> <msub> <mi>f</mi> <mi>y</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mn>1</mn> </mrow> </msqrt> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mo>(</mo> <mn>1</mn> <mo>)</mo> <mo>.</mo> </mrow>

3.如权利要求1或2所述的一种基于图割的视频拼接方法，其特征在于：步骤1.2中旋转矩阵的实现方式如下，

设参考图像I_r，目标图像I_o，对目标图像I_o划分格网，格网数目为MxM，p＝[x y z]^T和p'＝[x'y'z']^T分别代表参考图像I_r和目标图像I_o上的特征点，

<mrow> <msub> <mi>R</mi> <mo>*</mo> </msub> <mo>=</mo> <mi>arg</mi> <mi>min</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mo>|</mo> <msubsup> <mi>w</mi> <mo>*</mo> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <msup> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> <mo>-</mo> <msub> <mi>Rp</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>w</mi> <mo>*</mo> <mi>i</mi> </msubsup> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>exp</mi> <mo>(</mo> <mrow> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mo>*</mo> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>/</mo> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> <mo>)</mo> <mo>,</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

4.如权利要求3所述的一种基于图割的视频拼接方法，其特征在于：步骤2.2中判断当前图像在拼接线影响区域内是否有动态目标的计算公式如下，

5.如权利要求4所述的一种基于图割的视频拼接方法，其特征在于：步骤3中图像融合采用多频带融合方法。

6.如权利要求5所述的一种基于图割的视频拼接方法，其特征在于：k的取值为5～10，T₀取[0,20]之间，T₁取[0.05,0.1]之间，r取[1,5]像素。