CN105957017A

CN105957017A - 一种基于自适应关键帧采样的视频拼接方法

Info

Publication number: CN105957017A
Application number: CN201610478339.1A
Authority: CN
Inventors: 何建; 周雪; 姜鹏飞; 邹见效; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2016-09-21
Anticipated expiration: 2036-06-24
Also published as: CN105957017B

Abstract

本发明公开了一种基于自适应关键帧采样的视频拼接方法，针对现有技术存在的问题，围绕如何利用视频帧的空间与时间信息，通过在预估计ROI进行视频帧间的图像配准、重合率的估计与确定关键帧、调整采样步长等方式，实现有效地提取关键帧，减小错误匹配，同时，有效处理视频帧序列中出现的突变，实现较为准确快速的视频拼接。同时，自动调整关键帧采样间隔，并在预估计的ROI进行图像配准来提高图像拼接的效率与准确性，通过合理的抽取关键帧，视频场景非均匀变化下也有很好的适用性。该发明简单有效，具有很好的应用前景。

Description

一种基于自适应关键帧采样的视频拼接方法

技术领域

本发明属于视频拼接技术领域，特别是，更为具体地讲，涉及一种基于自适应关键帧采样的视频拼接方法。

背景技术

图像拼接是视频拼接的基础，相比静态图像拼接，视频拼接需要将实时输入的视频流，经过拼接得到实时输出全景视频流或具有广阔连续场景的全景图。视频拼接应用范围很广，在航拍视频拼接、微创手术设备、视频监控等领域都有着广泛的应用。

视频拼接是对同一摄像机的不同时刻具有连续场景变化的或不同摄像机获取的具有公共场景部分的视频帧进行配准，无缝拼接成一个具有更大视场的全景图像或动态的更大视场的视频流。一般将视频看作是由视频帧序列组成的一组画面，和图像拼接相比，视频拼接还包括对视频帧的采集和视频帧合成视频流，可以看出图像拼接是视频拼接的基础，但视频拼接又有其独特的地方：具有时空时空相关性、信息量大、冗余度高、实时性要求高的特点。

相比于适于合成实时全景视频的多路视频拼接，对于全景图拼接而言，使用单个摄像机运动扫描得到的视频帧进行拼接比多路摄像设备获取全景图的方式更加简便，对硬件要求低，便于普及。在视频的获取阶段，摄像机不断地扫描获取连续区域上的视频，对扫描得到的视频帧序列进行拼接。

目前，有很多研究人员对视频帧序列的拼接进行了研究工作。2011年，微软开罗实验室的Motaz El-Saban等人提出一种采用光流跟踪兴趣点，并使用重叠的区域信息的全景视频构造算法，这种方法针对可以自由运动的多目摄像头视频实时逐帧拼接。光流法要求视频帧之间变化缓慢[Baker S,Matthews I.Lukas-kanade 20years on:A unifyingframework[J].Int’l Journal of Computer Vision,2004,56(3):221--255.]，适合于逐帧拼接，目标场景变化较慢的拼接[M.El-Saban,M.Izz,A.Kaheel.Fast stitching ofvideos captured from freely moving de vices by exploiting temporal redundancy[C]//International Conference on Image Processing.2010:1193-1196.]。2011年郭李云等人提出了一种针对长视频序列的拼接方法[郭李云,欧阳宁,莫建文.长视频序列拼接[J].计算机工程与应用,2011,47(14):183-185.]，该方法先将视频帧序列分成若干段，各个段采用场景流形算法进行拼接；配准的相邻图像采用图切割法搜索最优缝合线；依次缝合所有拼接后的图像，得到整个视频帧序列的全景图。2010年，刘永等人提出一种自适应帧采样的视频序列拼接[Li J,Pan Q,Yang T,et al.Automated feature pointsmanagement for video mosaic construction[C]//Information Technology andApplications,2005.ICITA 2005.Third International Conference on.IEEE,2005,1:760-763.7]，这种方法分析了相机匀速状态下采集的视频特点，根据对信息量的保留度提出一种关键帧采样算法，实现高效图像拼接，选取合适的采样步长进行采样，并对突变的情况进行降采样。2011年初玲，郭三华等人提出了一种针对视频帧序列拼接的关键帧选取方法[初玲,郭三华,谢绍霞.一种基于自适应关键帧的视频序列拼接方法[J].电子设计工程,2011,19(21):189-192.]，这种方法从首帧到末帧作为初始采样步长，采用2分查找的方式来确定采样的关键帧，在融合之前对图像进行配准，寻找关键帧。

其中，文献[刘永,王贵锦,姚安邦,等.基于自适应帧采样的视频拼接[J].清华大学学报:自然科学版,2010(1):108-112.5]和初玲,郭三华,谢绍霞.一种基于自适应关键帧的视频序列拼接方法[J].电子设计工程,2011,19(21):189-192.]中的对于关键帧的设定都是固定长度的，而且不能充分利用图像之间的空间时间相关性，对于视频的运动均只视为匀速运动来进行处理，且对于非均匀变化的视频帧序列的关键帧提取的效率不佳，会进行大量的错误匹配，对中间出现的突变不能有效处理。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于自适应关键帧采样的视频拼接方法，以有效地提取关键帧，减小错误匹配，同时，有效处理视频帧序列中出现的突变，实现较为准确快速的视频拼接。

为实现上述发明目的，本发明基于自适应关键帧采样的视频拼接方法，其特征在于，包括以下步骤：

(1)、首先读取视频流，将视频流分解为单个的视频帧，得到视频帧序列 {F₀,F₁,…,F_n-1}，其总长度为n；

(2)、设置初始条件

初始化采样步长d，d为最小为1的整数，初始化ROI(Region Of Interest，兴趣区域)为整个视频帧图像区域；

(3)、读取视频帧序列中的首帧F₀，进行图像预处理，然后作为第一幅关键帧存储，同时作为已拼接图像保存到拼接后图像容器中，更新关键帧序列m＝0；

(4)、如果m+d大于等于n-1，则将ROI设置为整个视频帧图像区域，读取视频帧序列中的末帧F_n-1，并进行图像预处理，然后与已拼接图像在ROI上进行基于ORB(Oriented FASTand Rotated BRIEF)特征的图像配准，如果匹配正确，则计算重合率R，并判断是否低于50％，如果不低于，则与已拼接图像进行图像融合，融合后的图像加入拼接后图像容器中，并用其更新已拼接图像，结束拼接；如果匹配不正确且d不等于1，则调整采样步长d为当前采样步长的1/2，同时，设置ROI为整个视频帧图像区域，然后将视频帧F_m+d与已拼接图像在ROI上进行基于ORB特征的图像配准，转到步骤(5)，如果匹配不正确且d等于1，则结束拼接；如果匹配正确单但重合率R低于50％且d不等于1，则按照步骤(6)的方式调整采样步长和估计一个新的ROI，然后将视频帧F_m+d与已拼接图像在ROI上进行基于ORB特征的图像配准，转到步骤(5)，如果匹配正确单但重合率R低于50％且d等于1，则结束拼接；结束拼接后，根据需要选择将已拼接图像容器中的图像保存为视频或者将已拼接图像作为总的拼接图像予以保存；

如果m+d小于n-1，则读取视频帧序列中，间隔为采样步长d的视频帧F_m+d，并进行图像预处理，然后与已拼接图像在ROI上进行基于ORB特征的图像配准；

(5)、判断匹配是否正确，如果不正确且d不等于1，则调整采样步长d为当前采样步长的1/2，同时，设置ROI为整个视频帧图像区域，返回步骤(4)，重新进行采样；如果正确或d等于1，则保存配准信息，进行步骤(6)；

(6)、计算重合区域的重合率，如果重合率R不在设定的范围50％～75％之间，则调整采样步长d为当前采样步长的40/(100-p)，如果当前采样步长的40/(100-p)小于1，则调整采样步长d为1，其中，p为重合率R的百分比，同时，根据配准过程中得到的视频帧的运动速度，估计出一个新的ROI，返回步骤(4)；如果重合率R在设定的范围50％～75％之间，则将视频帧F_m+d作为关键帧存储，同时保存配准信息，并根据当前场景重合域位置速度预估下一次配准的ROI，更新ROI设置，然后进行步骤(7)；

(7)、根据配准信息，将视频帧F_m+d与已拼接图像进行图像融合，完成视频拼接，融合后的图像加入拼接后图像容器，并用其更新已拼接图像，同时，更新关键帧序列m＝m+d，返回步骤(4)。

本发明的目的是这样实现的。

本发明基于自适应关键帧采样的视频拼接方法，针对现有技术存在的问题，围绕如何利用视频帧的空间与时间信息，通过在预估计ROI进行视频帧间的图像配准、重合率的估计与确定关键帧、调整采样步长等方式，实现有效地提取关键帧，减小错误匹配，同时，有效处理视频帧序列中出现的突变，实现较为准确快速的视频拼接。

同时，本发明基于视频拼接工作量大，视频帧信息冗余多，视频运动先验信息缺乏有效利用，场景限制多的现状，通过根据视频场景变化的情况，自动调整关键帧采样间隔，并在预估计的ROI进行图像配准来提高图像拼接的效率与准确性。

同时，本发明还通过对视频运动信息的分析来预测与选取关键帧，并对关键帧间的重合区域进行预估计来减少配准的计算时间，通过合理的抽取关键帧，视频场景非均匀变化下也有很好的适用性。该发明简单有效，具有很好的应用前景。

附图说明

图1是本发明基于自适应关键帧采样的视频拼接方法一种具体实施方式流程图；

图2是视频画面平移状态下视频帧帧间位移变化示意图；

图3是重合区域位置关系图；

图4是本发明选取的航拍视频所提取的6幅关键帧；

图5视频拼接效果图，其中，(a)为本方法的拼接结果；(b)为参考固定关键帧拼接结果。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明基于自适应关键帧采样的视频拼接方法一种具体实施方式流程图。

在本实施例中，如图1所述，本发明基于自适应关键帧采样的视频拼接方法包括以下步骤：

S1、首先读取视频流，将视频流分解为单个的视频帧，得到视频帧序列{F₀,F₁,…,F_n-1}，其总长度为n；

S2、设置初始条件：初始化采样步长d，d为最小为1的整数，初始化ROI(Region OfInterest，兴趣区域)为整个视频帧图像区域；在本实施例中，取25帧先作为初始采样步长d，即间隔1s采样。

S3、读取视频帧序列中的首帧F₀，进行图像预处理，然后作为第一幅关键帧存储，同时作为已拼接图像保存到拼接后图像容器中，更新关键帧序列m＝0；

在本实施例中，所述的图像预处理包括图像去噪，灰度化，颜色矫正等，若视频流是旋转拍摄的，则先变换到柱面坐标系。在本步骤中，读取的是首帧F₀，不需经过图像配准环节，直接设为第一幅关键帧，即首个关键帧必须为视频流的首帧F₀，存入关键帧序列容器中，并作为已拼接图像存入拼接后图像容器中。

S4、末帧处理，即如果m+d大于等于n-1，则将ROI设置为整个视频帧图像区域，读取视频帧序列中的末帧F_n-1，并进行图像预处理，然后与已拼接图像在ROI上进行基于ORB(Oriented FAST and Rotated BRIEF)特征的图像配准，如果匹配正确，则计算重合率R，并判断是否在设定的范围50％～75％之间，如果在，则与已拼接图像进行图像融合，融合后的图像加入拼接后图像容器中，并用其更新已拼接图像，结束拼接；如果匹配不正确或匹配正确单但重合率R不在设定的范围50％～75％之间，则结束拼接；结束拼接后，根据需要选择将已拼接图像容器中的图像保存为视频或者将已拼接图像作为总的拼接图像予以保存；

非末帧处理，即如果m+d小于n-1，则读取视频帧序列中，间隔为采样步长d的视频帧F_m+d，并进行图像预处理，然后与已拼接图像在ROI上进行基于ORB特征的图像配准；

S5、判断匹配是否正确，如果不正确且d不等于1，则调整采样步长d为当前采样步长的1/2，同时，设置ROI为整个视频帧图像区域，返回步骤S4，重新进行采样；如果正确或d等于1，则保存配准信息，进行步骤S6；

S6、计算重合区域的重合率，如果重合率R不在设定的范围50％～75％之间，则调整采样步长d为当前采样步长的40/(100-p)，如果当前采样步长的40/(100-p)小于1，则调整采样步长d为1，其中，p为重合率R的百分比，同时，根据新的采样步长、视频帧的运动速度，估计出一个新的ROI，返回步骤(4)；如果重合率R在设定的范围50％～75％之间，则将视频帧F_m+d作为关键帧存储，同时保存配准信息，并根据当前场景重合域位置速度预估下一次配准的ROI，更新ROI设置，然后进行步骤S7；

S7、根据当前关键帧的位移计算速度如果则更新采样步长为d＝dV/V′；

S8、根据配准信息，将视频帧F_m+d与已拼接图像进行图像融合，完成视频拼接，融合后的图像加入拼接后图像容器，并用其更新已拼接图像，同时，更新关键帧序列m＝m+d，返回步骤S4。

本发明的特点在于：1)分析了采集全景视频的摄像机运动的特点以及与视频帧分布的关系。结合实际情况，提出了一种重合域的近似表示方法与估计，用来优化图像配准的计算性能；2)根据图像间重合率选择图像关键帧的关键帧检测；3)根据图像位移变化的快慢自适应调整采样关键帧的步长。通过对关键帧进行拼接，降低了视频拼接出现的冗余。并考虑到状态突变进行了针对性的处理。

读取的视频帧序列用{F₁，F₂，F₃，...，F_n}表示，如图2表示第m帧即F_m与F_m+s和F_m+2s帧间的关系。设相邻帧间间隔固定为s。

如图2所示，在参考坐标系内图像帧边界的速度可以分解为x方向和y方向，视频帧F_m+s相比于视频帧F_m，x方向位移偏移量为D_x1，y方向偏移量为D_y1。视频帧F_m+2s相比于视频帧F_m+2s，x方向位移实际偏移量为D_x2，y方向实际偏移量为D_y2。

这样，可以得出重合率与帧间隔和视频帧采样时间，以及视频图像运动速度的关系即：

R = \frac{(w - | D_{x 1} |) (h - | D_{y 1} |)}{w * h} = \frac{(w - | v_{x} * s Δ T |) (h - | v_{y} * s Δ T |)}{w * h} - - - (1)

其中，w为视频帧的宽度，h为视频帧的高度，ΔT为视频帧采样时间

当相机位置固定，处于水平摇动的状态或者竖直摇动的状态下拍摄的视频时的情况。类似平移拍摄的相机，也可将水平摆动的摄像机运动视作角速度分阶段恒定的旋转运动。在柱面坐标系内，视频帧的位移以水平为主，且水平移动的速度即线速度恒定，那么相同的帧间隔的图像之间的水平位移相同。由于视频画面的焦距相同，尺寸相同。所以视为在统一的柱面坐标系内，类似前面对平移运动的分析，我们将镜头画面的运动视作单一方向的分阶段匀速运动，中间可能会出现速度的改变。

对用于全景拼接的视频的特点进行分析得知无论是镜头位置连续平移拍摄的视频或者镜头位置固定下的连续摆动扫描拍摄的视频。图像帧间重合率的大小均由帧间隔和速度(线速度)共同决定：

当速度不变时，重合率大小R是帧间隔大小s的二次线性单调递减函数。当视频图像是沿单一方向运动为主是可以看作是线性单调递减函数的。一般情况下我们采集到的视频也是单一方向运动为主，因此可以得出R与s的线性关系。

当帧间隔不变时，重合率大小R和速度大小V的关系是二次线性单调递减函数。当视频图像是沿单一方向运动为主，即速度方向接近垂直或水平时，R是可以看作的V的线性单调递减函数。

下面详细给出本发明技术方案中所涉及的各个细节问题的说明。

1、视频流分解与关键帧采样步长确定。

首先进行一系列的准备工作：先将读取视频流将视频流分解单个的视频帧，得到视频帧序列。

对于水平摆动或竖直摆动拍摄的视频，先按照水平与柱面投影公式，将其转换到柱面坐标系内，再按照上述方法处理，且视为单一方向运动的情况。

根据经验本发明选择的参考重合率范围是50-75％，60％为理想的重合率。

如果配准后发现重合率在这个范围内，则采样步长即选取的关键帧帧间隔保持不变，否则根据重合率是大于或者小于标准范围进行步长调整。

下面将根据这个关键帧的选取准则来研究如何进行关键帧的提取。

考虑到画面变化不会太剧烈。可以根据经验选择采样步长初始值。(一般我们选择1s为间隔)然后根据计算出的重合区域，来修正采样步长。选择的采样步长是d，求得的重合率为p％，则我们可以进行修正。调整采样步长为d＝d(100-60)/(100-p)

此外，若采样步长选择过大，无法正确匹配则降低采样步长为d/2。直到能正确匹配为止。

2、图像配准与重合率计算

本发明采用的是使用了基于ORB(Oriented FAST and rotated BRIEF)特征的图像配准，主要是考虑到ORB特征的速度特性，同时ORB特征也具有良好的鲁棒性。

根据图像配准得到的图像间的变换关系，将图像的顶点变换到同一图像坐标系内。然后利用计算几何的知识计算相邻采样帧图像间的交点。并和位于重合区域的图像顶点共同组成了重合域的边界点。

如图3所示我们可以用一个多边形点集来表示这个重合区域:S{V₁，V₂...V_n}。

视频中，如果间隔不大，重合率较高的情况下，相邻的图像帧之间的重合区域一般为四边形，即顶点个数n＝4；在实际处理时，往往需要划定矩形区域来限定特征检测区域。重合区域虽然是不规则的四边形，但是如图我们可以用矩形来近似描述这个区域，绝大多数特征点基本在近似的区域内，基本不会对图像配准有影响，节约了运算量。本发明用质心为中心的矩形来近似表示。矩形的长和宽由较长的对角线的来确定。对于超出图像区域则舍去超出部分。一般四边形的对角线为V1V3和V2V4。我们比较V1V3和V2V4的长度，选取较长对角线的对角线的x方向长度和y方向长度来作为选定矩形ROI区域的长和宽。

任意四边形面积求解可根据向量叉乘性质求得。

实际重合区域面积公式：

S＝||(V1-V3)×(V2-V4)||/2 (2)

定义两幅图像I_i-1、I_i间的重合率R为重叠区域面积S和图像面积(视频中图像大小相同)的比值，即：

R = \frac{S (I_{i - 1}) \cup S (I_{i})}{S (I_{i})} = \frac{S}{w * h} - - - (3)

w为视频帧的宽度，h为视频帧的高度，单位为像素。

3、关键帧采样步长的调整

在选择到合适的初始采样步长d后，继续依照这个采样步长d进行边采样，边配准、边拼接。并在配准后对每一对相邻采样帧(上一关键帧与当前读取的视频帧F_m+d)间的重合率进行计算；

根据前面的分析我们知道，一般情况下，我们获取的视频帧都是水平或者竖直运动的，重合率大小是帧间隔的线性函数。如果相邻采样关键帧的重合率p％低于55％时，或者如果相邻采样关键帧的重合率p％高于75％时。我们就要调整步长为d(100-60)/(100-p)。

同时，我们每次在图像配准后，根据当前关键帧的位移计算速度 (如果是水平摆动或竖直摆动采集的图像则计算投影后的坐标上的位移变化情况。)，假设上一阶段即前一关键帧的平均速度是计算计算根据我们对重合区域变化的分析，估计以当前采样步长移动后的重合率大小。一般对于我们视频而言，处于匀速状态，应该和变化不大。但是如果速度变化比较大，即这种变化在短时间内不会改变方向。可以预调整采样步长。重合率固定的情况下，帧间隔与速度反比，因此可以预调整采样步长来保证预估计的重合率不变。即速度方向不变，但是速度大小改变，则调整为d＝dV/V′；。(我们考虑的都是方向不改变，或者主方向不改变的情况下的变化，并不包含向相反方向突变这种情况)。

4、特殊情况的处理：

对于首帧和末帧，我们均视作关键帧，将其加入关键帧容器中，并保存对应的配准信息和前后重合域位置大小等信息。

在拼接的过程中，我们不断的对图像的重叠率的变化进行统计，虽然会根据场景变化的快慢调整步长，但是对于突变的情况还是应该针对性的处理。考虑到摄像机运动状态的改变，我们根据预估的状态量做出了采样步长的实时调整。但是对于摄像机某些时间节点的突变，采取降采样的方式，减少采样间隔。一般当视频状态发生突变后，根据[BrownM,Lowe D G.Automatic Panoramic Image Stitching using Invariant Features[J].International Journal of Computer Vision.2007,74(1):59-73.]中对匹配关系正确性的判断发现帧与帧之间没有正确求得匹配关系即配准失败，则将采样步长调整为原来的1/2。重新进行采样，这样的话，新的采样帧如果仍然与之前关键帧图像仍然没有重合区域，则继续调整步长为原来的1/2，这样循环调整下去直至步长为1方停止。如果根据前面的方法求得匹配关系正确，有重合区域，但是不到50％，类似前面的调整方式，调整步长为d(100-60)/(100-p)。高于70％则根据重叠率调整步长为d(100-60)/(100-p)。

为了验证提出本发明的有效性，在真实采集的用于拼接的连续场景下的视频序列上进行了实验，提取的关键帧如图4所示。

如图5(a)所示是使用本发明提出的方法拼接的一段25s的航拍视频画面，5(b)所示是使用固定采样频率得到的关键帧拼接后的视频画面。表1是两种方法的拼接性能指标分析

关键帧采样方法	运算时间	清晰度V	空间频率
				本发明	6.04s	41.26	11.26
参考方法	9.89s	31.18	8.45

表1

综上分析，可以发现本发明的方法表现更为快速，而且在采用相同融合方法的情况下本发明的方法的关键帧选取更为均匀合理，清晰度更好视频图像拼接的质量更好，有效处理视频帧序列中出现的突变，实现较为准确快速的视频拼接。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于自适应关键帧采样的视频拼接方法，其特征在于，包括以下步骤：

(1)、首先读取视频流，将视频流分解为单个的视频帧，得到视频帧序列{F₀,F₁,…,F_n-1}，其总长度为n；

(2)、设置初始条件

(4)、如果m+d大于等于n-1，则将ROI设置为整个视频帧图像区域，读取视频帧序列中的末帧F_n-1，并进行图像预处理，然后与已拼接图像在ROI上进行基于ORB(Oriented FAST andRotated BRIEF)特征的图像配准，如果匹配正确，则计算重合率R，并判断是否低于50％，如果不低于，则已拼接图像进行图像融合，融合后的图像加入拼接后图像容器中，并用其更新已拼接图像，结束拼接；如果匹配不正确且d不等于1，则调整采样步长d为当前采样步长的1/2，同时，设置ROI为整个视频帧图像区域，然后将视频帧F_m+d与已拼接图像在ROI上进行基于ORB特征的图像配准，转到步骤(5)，如果匹配不正确且d等于1，则结束拼接；如果匹配正确单但重叠率R低于50％且d不等于1，则按照步骤(6)的方式调整采样步长和估计一个新的ROI，然后将视频帧F_m+d与已拼接图像在ROI上进行基于ORB特征的图像配准，转到步骤(5)，如果匹配正确单但重合率R低于50％且d等于1，则结束拼接；结束拼接后，根据需要选择将已拼接图像容器中的图像保存为视频或者将已拼接图像作为总的拼接图像予以保存；

2.根据权利要求1所述的基于自适应关键帧采样的视频拼接方法，其特征在于，在步骤(7)中，还需要进行以下处理：

根据当前关键帧的位移计算速度如果则更新采样步长为d＝dV/V′。