CN100530239C

CN100530239C - 基于特征匹配与跟踪的视频稳定方法

Info

Publication number: CN100530239C
Application number: CNB2007100368174A
Authority: CN
Inventors: 胡蓉; 施荣杰; 沈一帆; 陈文斌
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2007-01-25
Filing date: 2007-01-25
Publication date: 2009-08-19
Anticipated expiration: 2027-01-25
Also published as: CN101009021A

Abstract

本发明属于计算机数字图像视频处理技术领域，具体为一种基于特征匹配与跟踪的视频稳定方法。本发明将基于SIFT特征匹配方法应用于视频去抖动问题中，其步骤包括：找出每一帧视频的SIFT特征点；采用仿射模型作为参数估计模型，进行全局参数估计；采用高斯滤波和曲线拟合方法对视频序列的运动进行光滑化处理；对于未知区域进行填补。本发明方法鲁棒性好，受环境因素影响小，运动参数估计准确性高，图像对齐误差小，视频修补的时间代价小。

Description

基于特征匹配与跟踪的视频稳定方法

技术领域

本发明属于计算机数字图像视频处理技术领域，具体涉及一种基于特征点匹配与跟踪的视频稳定方法。

背景技术

视频去抖(亦称视频稳定)是一种十分重要的视频增强技术。随着数字摄像设备价格的大幅降低和计算机性能的提高，个人数字摄像设备和移动数字摄像设备愈来愈普及，数字图像视频处理技术受到更多的重视。利用这些设备无论你到哪里，随时都可以方便的记录下身边所发生的事情，大量个人所拍摄的视频数据可上传到互联网上供人观看和下载。由于摄像设备的不稳定性，这些个人家庭视频，或者是安全监控设备或由UAV(UnmannedAerial Vehicles)所拍摄的视频，通常都明显地存在着高频的抖动，造成图像模糊不清，同时也会使观看者产生倦意。另一方面，稳定的视频可以更好地进行压缩。如果整幅图像都在振动，这样就会用更多的比特数来记录这些运动变化，从而浪费更多的存储空间和数据的传输流量。稳定的图像具有更好的压缩比和质量以利于远程和网络浏览。近年来，有许多研究关注于此问题，提出了许多新的方法和技术，以提高视频稳定的质量和速度。

视频抖动是指拍摄过程中由于摄像机存在不一致的运动噪声而造成视频序列的抖动和模糊。为了消除这些抖动，需要提取摄像机的真实全局运动参数，然后采用合适的变换技术补偿摄像机的运动，使视频画面流畅而稳定，这项技术通常称为视频去抖动或视频稳定。目前视频去抖技术分为如下两种：硬件方法和图像处理方法。硬件方法又被称为光流稳定技术，它包含了一套光流系统使用运动传感器来补偿摄像机的运动。这种方法虽然十分的有效，但是大大的增加了摄像机的成本并且通常只能处理一些比较小的运动，所以许多的摄像机并没有采用这种技术。图像处理的方法对所拍摄的视频片断进行后处理，以去除掉那些由人为或机械振动所产生的视频抖动。这里主要有两种方法：特征法(FeatureMatching)和光流法(Optical Flow)。特征法在提取每帧图像的特征点的基础上，在相邻帧之间进行特征匹配，然后根据匹配的结果计算摄像机的全局运动参数，最后用滤波后的全局运动变换对原始序列进行补偿。该方法的效果很大程度上取决于特征匹配的精度，当场景中存在移动目标或者纹理特征不明显时，该方法的应用将受到限制。光流法首先计算相邻帧之间的光流，根据光流信息，通过运动分析获得全局运动参数，然后根据滤波后的运动参数来补偿原始序列。该方法的优点是可以获得每个像素的运动矢量，然而如果场景中存在不一致的运动区域，通常要结合视频分割来完成全局运动的估计。而这类方法由于要对每一像素点进行分析，一般需要相当大的计算量。此外光流计算固有的孔径问题也是该方法所必须要考虑的。最后，在视频去抖的操作中，由于对原视频序列进行了平移或旋转，在边缘会产生一些未知的区域，所以一种有效快速的视频修补方法也十分的重要。目前主要使用的是视频拼接(Video Mosaic)的方法和基于运动估计的视频修补(Video Completion)方法。但是它们都有着各种各样的缺陷：简单的Mosaic方法会产生模糊和鬼影现象，而基于运动估计的方法，虽然修补的结果比前者好，但由于需要计算每一个象素点的运动矢量，所以需要比较大的时间代价。

发明内容

本发明的目的在于提出一种时间代价小、算法鲁棒性好的视频稳定方法。

本发明是利用尺度不变特征(Scale-Invariant Features Transform SIFT)来进行帧间的运动估计，SIFT对于图像在不同尺度下和旋转都具有不变的特性，对于光照和3D摄像机观察点的变化也可以保持部分不变。因为SIFT特征同时分布于空间和频率域上，遮挡，混乱和噪声所产生的影响可以大大地降低。而且，这些特征具有很大的可辨识性，可以较高的正确率进行匹配。这些突出的优点使得基于SIFT特征的匹配问题具备了更好的鲁棒性和可靠性。目前这种方法只是使用在图像匹配和全景图生成的问题中，本发明首先把它使用到视频去抖问题中，得到令人满意的实验结果。给定一段抖动的视频序列，我们按照以下的步骤来完成视频去抖的操作。

1、找出每一帧的SIFT特征点，并给每个特征点一个包含空间和频域特征描述的描述子。对每帧图像用不同尺度的高斯函数进行光滑化处理，SIFT特征点位于相邻尺度之差的极值处(极大值和极小值)。然后，对图像进行上采样，进行相同的光滑化处理，依次类推，建立金字塔结构，找到各个尺度上的特征点。接下来，根据图像的局部特征计算出每个特征点的梯度方向。这样每个特征点就有了位置、尺度和方向信息。就下来，然后为特征点的局部区域计算一个描述子，使得即使在环境发生变化时，比如光线或视点的变化，这个描述子尽可能的保持不变。具体如图1所示，根据特征点的不同尺度，在光滑图像上算出每个点的梯度和方向。图1的左图(a)，采样特征点周围的梯度和方向，把整个采样窗口分成2*2的采样区域，在每个区域中计算8个方向的方向直方图，见图1的右图(b)。这样每一个局部描述子包含每个采样区域中方向直方图中各个方向上的大小，因此，一个特征点的局部描述子表示为2×2×8＝32长度的特征矢量。

2、全局运动参数的估计。这里采用了仿射模型作为运动参数估计的模型。仿射模型表示为：

A = [\begin{matrix} a 1 & a 2 & a 3 \\ a 4 & a 5 & a 6 \\ 0 & 0 & 1 \end{matrix}],

模型中a1，a2，a4，a5描述了缩放和旋转运动，a3，a6描述了平移运动。首先采用快速最近领域算法(nearest neighbor algorithm)匹配上述的特征点，找到距离最近的邻居作为匹配点。然后利用霍夫(Hough)变换通过投票原理确定属于同一个物体的所有特征点，最后对于这些特征点用最小二乘方法(least-square solution)确定运动模型中的每一个参数(共6个)。

3、结合高斯滤波和曲线拟合技术来进行视频序列的运动光滑。高斯滤波和曲线拟合技术都大量用于信号光滑去噪的操作中，两者有各自的优点和缺点。我们把两者结合起来，利用了这两种方法的优点，一方面保证了视频流的稳定性，另一方面克服了单独使用大窗口的高斯滤波器所带来的过光滑问题，使得产生的边界未知区域尽可能的小。这里的稳定视频并不是完全不动的，我们期望所生成视频的运动是光滑的，给观看者一种流畅、愉悦的视觉感受。把这两种方法结合使用的思想在过去的研究工作中，还未出现过。实验证明这两种方法的结合，可以得到令人满意的稳定视频序列。我们先对上面估计出来的运动曲线进行二次曲线拟合，然后对光滑后的运动曲线进行高斯滤波，这里的高斯核的参数σ不用取得太大(一般取σ为0.6-1.2之间)，避免过光滑。我们对于两种方法的先后顺序做过比较，两者差异不大，重点在于参数的选择上。

4、针对于未知区域的填补一直都是一个比较难于解决的问题。我们的方法具体是，在上面处理后的稳定视频流上，先把目标帧(待填补的帧)周围的邻居帧(左右各4-6帧)向目标帧对齐，计算邻居帧与目标帧之间的差异，根据差异性的大小排序，一般离目标帧越远差异会越大。由差异性最小的邻居帧开始来填补目标帧。如果还有未知区域，则由差异度第二小的邻居帧来填补目标帧，依次类推。有别于一般的方法，我们在差异图像上通过DP(Dynamic Programming动态规划)方法找到一条差异最小的路径，以这条路径为界来拼接两幅图像，为了保证时间上的连续性，我们限定搜索的范围在未知区域边界的一段区域内(10个像素)。结合DP算法到Mosaic方法中，也是我们工作的一个创新点。

发明的优点：

(1)算法鲁棒性好，受光照、遮挡等不利因素的影响较小。

(2)运动参数估计的准确度高，图像对齐的误差较小

(3)两种光滑算法的结合，可以克服彼此的缺点，产生比较好的效果。

(4)视频修补结合了DP算法，保证了时间和空间上的连续性，同时相较于光流方法大大地节省了时间代价。

附图说明

图1为描述子图示。其中，(a)为采样特征点周围的梯度和方向，(b)为8个方向的方向直方图。

图2为求高斯差图示。

图3为由高斯差求极值点的领域范围图示。

图4为一幅图像中的特征点和梯度的图示。

图5为图像填补的比较。其中，(a)为本发明结果，(b)为Mosaic方法的结果。

图6为本发明的实验结果图示。其中，第一行图片是原视频流，第二行是去抖后的视频流，第三行为经过修补的结果。

具体实施方式

1、试验数据为一段手持摄像机所拍摄的抖动视频片断。

2、对每一帧用尺度成2倍增长的高斯函数进行光滑，求出各层的差异极值作为特征点。然后上采样图像，同样用不同尺度的高斯函数光滑化，求差找极值，依次类推。实验中我们上采样了3次。求高斯差具体参见图2，图3说明了极值点的领域范围，包括了同层和上下层的邻居节点。

3、计算每个特征点的梯度方向。具体公式如下：

m (x . y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

θ(x，y)＝tan^-1((L(x，y+1)-L(x，y-1))/(L(x+1，y)-L(x-1，y)))

L是特征点所在尺度的光滑图像，m(x，y)是梯度的幅度，θ(x，y)是梯度的方向。图4为一幅图像中所找的特征点和它们的梯度。

4、利用步骤3中公式计算出来每一点的梯度。如图1中所示，计算出特征点周围每个采样区域中的梯度直方图(8个方向)。各个区域中每个方向的梯度幅度值构成了一个特征矢量，作为每个特征点的局部描述子。

5、利用最近邻居算法(Nearest Neighbor)，在相邻两帧中找到每个特征点的最近匹配点，然后通过Hough变化投票出具有最有可能的运动情况，反过来找到那些投票的特征点，它们应该具有相同的运动情况，最后基于这些特征点用最小二乘来确定仿射模型中的6个参数。

6、找到运动路径后，用二次曲线拟合来分别光滑6个参数的运动曲线。这里使用的二次曲线形式为：y＝ax²+bx+c。用最小二乘法确定系数a，b，c。

7、使用高斯函数分别进一步光滑6个参数的运动曲线。高斯核为

G (k) = (1 / \sqrt{2 π σ^{2}}) * ex p^{- \frac{k^{2}}{σ^{2}}} .

σ是标准差，实验中取σ＝1。k是邻居帧与目标帧的距离。光滑计算的公式具体如下：

T_{i} = \underset{j &Element; N}{Σ} A_{i}^{j} G (j - i)

{\hat{I}}_{i} = T_{i} I_{i}

N是第i帧的领域{N|i-k≤j≤i+k}。A_i ^j表示第i帧到第j帧的运动参数。T_i表示光滑后，对第i帧的运动补偿。表示光滑化后的第i帧。

8、最后对运动补偿后，边界上所产生的未知区域进行填补。根据运动参数，把邻居帧向目标帧对齐，这里使用了前后各5帧。然后分别和目标帧求差，按照差异度又小到大进行排序，首先利用差异最小的帧来进行填补。在差异图像上，沿未知区域边界向内10个像素的区域内，用动态规划方法(DP)找到一条差异最小的路径，沿着这条路径来拼接两幅图像。如果还有区域未知的话，接下来利用差异度第二小的帧来进行修补，依次类推。如果还有区域未知，则需要利用更多的邻居帧。图5是填补的效果比较。右图(a)是我们提出方法的结果，左图(b)是一般Mosaic方法的结果，有明显的拼接误差。方框标示填补的部分区域，便于比较。

9、图6是最后的实验结果。图中显示了实验视频中的4帧，第一行是原视频流，第二行和最后一行分别是去抖后和经过修补的结果，坐标用来比较稳定结果。

Claims

1、一种基于特征匹配与跟踪的视频稳定方法，其特征在于具体步骤如下：

(1)对于一段抖动的视频序列，找出每一帧的SIFT的特征点，并给每个特征点一个包含时间和频域特征描述的描述子，这里SIFT为尺度不变特征；

(2)全局运动参数估计，采用仿射模型作为运动参数估计的模型，仿射模型表示为：

A = [\begin{matrix} a 1 & a 2 & a 3 \\ a 4 & a 5 & a 6 \\ 0 & 0 & 1 \end{matrix}],

模型中a1，a2，a4，a5描述缩放和旋转运动，a3，a6描述平移运动；首先采用快速最近领域算法匹配上述的特征点，找到距离最近的邻居作为匹配点；然后利用霍夫变换通过投票原理确定属于同一个物体的所有特征点；最后对于这些特征点用最小二乘方法确定运动模型中的每一个参数；

(3)针对步骤(2)估计出来的曲线，先利用曲线拟合，然后采用高斯滤波光滑进行视频序列的光滑，高斯核参数σ取值为0.6-1.2；

(4)针对未知的区域的填补，在经步骤(3)处理后的稳定的视频流上，先把目标帧左右各4-6帧的邻居帧向目标帧对齐，计算邻居帧与目标帧之间的差异，根据差异性大小排序；由差异性最小的邻居帧来填补目标帧；如果还有未知区域，则由差异度第二小的邻居帧来填补，依次类推。

2、根据权利要求1所述的基于特征匹配与跟踪的视频稳定方法，其特征在于所述找出每一帧SIFT特征点的步骤如下：对每帧图像用不同尺度的高斯函数进行光滑化处理，SIFT特征点位于相邻尺度之差的极值处；然后，对图像进行上采样，进行相同的光滑化处理，依次类推，建立金字塔结构，找到各个尺度上的特征点；所述给每个特征点一个描述子的步骤如下：根据图像的局部特征计算每个特征点的梯度方向，得到每个特征点的位置、尺度和方向信息；然后，根据特征点的不同尺度，在光滑图像上算出每个点的梯度和方向；采样特征点周围的梯度和方向，把整个采样窗口分成2×2的采样区域，在每个区域中计算8个方向的方向直方图，这样，一个特征点的局部描述子表示为2×2×8＝32长度的特征矢量。