CN103810725A

CN103810725A - 一种基于全局优化的视频稳定方法

Info

Publication number: CN103810725A
Application number: CN201410090004.3A
Authority: CN
Inventors: 张磊; 徐千昆; 黄华
Original assignee: Beijing Institute of Technology BIT
Current assignee: Shenzhen Research Institute, Beijing Institute of Technology
Priority date: 2014-03-12
Filing date: 2014-03-12
Publication date: 2014-05-21
Anticipated expiration: 2034-03-12
Also published as: CN103810725B

Abstract

本发明涉及一种基于全局优化的视频稳定方法，包括以下步骤：根据人的视觉主观感受规律推导出稳定视频应具备的空间、时间和保形约束性；使用光流法获得视频中的特征点运动轨迹；根据以上约束限制和特征点运动轨迹建立稀疏线性方程组，并求解得到稳定的视频各帧网格点；根据每一视频帧稳定前后网格点的位置对图像进行扭曲获得稳定的视频图像。与已有的方法相比，该方法将运动建模和运动补偿整合到一个优化过程中，提高了计算效率，节省了计算时间。

Description

一种基于全局优化的视频稳定方法

技术领域

本发明涉及一种视频稳定方法，特别涉及一种基于全局优化的视频稳定方法，属于视频处理领域。

背景技术

随着视频采集设备的廉价化，越来越多的视频采集设备应用于我们生活，涉及娱乐、安全、生产等各个方面。但是，由于使用环境和使用人员的限制，如大风对于监控摄像头的影响、业余爱好者没有三脚架、云台等专业的摄像稳定设备的情况，往往导致我们采集到的视频数据带有一定的抖动或者晃动，影响人眼的观看感受和后期的进一步处理。

对于视频稳定这一具有较高应用价值问题，国内外的学者已经做了大量的基础研究。常用的视频稳定方法主要包括三种：基于2D的方法、基于3D的方法和基于2.5D的方法。基于2D以基于L1优化的视频稳定(M.Grundmann,V.Kwatra and I.Eassa.Auto-directed video stabilization with robust L1optimal camerapaths.In Proc.CVPR,225–232，2011)为代表，使用矩阵描述摄像机的运动轨迹，并对运动矩阵进行平滑，获得稳定的视频数据；但是该方法无法准确地描述带有大视差的场景，对于具有较大景深的场景其稳定后的视频往往带有显著的扭曲。基于3D的方法以基于内容保护图像扭曲的3D视频稳定(F.Liu,M.Gleicher,H.L.Jin,and A.Agarwala,Content-preserving warps for3D video stabilization.ACM Transactions on Graphics28(3):44:1–44:9,2009)为代表，主要依赖于SfM方法进行3D场景重建，根据重建出来的场景来获得稳定后的视频。但是由于SfM方法目前还不成熟，对于复杂的场景无法进行正确的重建，因此该方法存在着一定的局限性，限制了其实际应用。基于2.5D的方法以子空间稳定(F.Liu,M.Gleicher,J.Wang,H.L.Jin and A.Aharwala.Subspace video stabilization.ACMTransactions on Graphics30(1):4:1–4:10,2011)为代表,使用特征点轨迹描述摄像机运动，对于轨迹求取其子空间，在子空间上对轨迹进行平滑，进而恢复得到全部的稳定视频轨迹。但是本方法的子空间求取依赖于足够数目的较长特征点轨迹，对于没有长轨迹的视频则无法进行处理。

发明内容

本发明的目的是针对带有抖动或者晃动的视频数据，提出一种视频稳定方法，使用户获得较舒适的观看感受。

本发明技术方案的思想是首先根据人的视觉主观感受规律推导出稳定视频应具备的空间、时间和保形约束性；使用光流法获得视频中的特征点运动轨迹；根据以上约束限制和特征点运动轨迹建立稀疏线性方程组，并求解得到稳定的视频各帧网格点；根据每一视频帧稳定前后网格点的位置对图像进行扭曲获得稳定的视频图像。

本发明的具体实现步骤如下：

一种基于全局优化的视频稳定方法，该方法包括以下步骤：

步骤一、计算特征点轨迹

在视频帧中提取特征点，使用光流法计算下一帧中特征点的位置，进而得到整个视频中所有特征点的运动轨迹；

步骤二、视频帧网格化

将视频帧划分为若干正方形区域，并获得网格角点的坐标，其形式化表示为：

{X_{i, j}^{t} = (x_{i, j}^{t}, y_{i, j}^{t}) &Element; R^{2}},

将稳定后的网格角点形式化表示为：

{V_{i, j}^{t} = (u_{i, j}^{t}, u_{i, j}^{t}) &Element; R^{2}}

对于某一网格，其形式化表示为：

Q_{i, j}^{t} = {V_{i, j}^{t}, V_{i + 1, j}^{t}, V_{i, j + 1}^{t}, V_{i + 1, j + 1}^{t}}

其中，t表示视频帧索引数，u代表扭曲后网格的角点x轴坐标，v代表扭曲后网格的角点y轴坐标；

步骤三、计算能量函数中的保形项E_sp

为了获得与原视频帧尽可能相近的稳定图像，因此在原视频帧网格区域和稳定后的视频帧网格区域之间应保持一个相似变换，从数学的角度看，这种相似扭曲应满足柯西黎曼等式，因此，保形项应定义为：

\begin{matrix} E_{sp} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {(| | (u_{i + 1, j}^{t} - u_{i, j}^{t}) + (u_{i, j + 1}^{t} - u_{i, j}^{t}) | |)}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {(| | (u_{i + 1, j}^{t} - u_{i, j}^{t}) - (u_{i, j + 1}^{t} - u_{i, j}^{t}) | |)}^{2} \end{matrix}

步骤四、计算能量函数中的空域约束项E_sc

为了获得较佳的视频观看感受，不仅要保持每个网格的形状，还要保持相邻网格之间变换的相似度，避免网格之间出现显著的扭曲，因此将该条件形式化表示为：

\begin{matrix} E_{sc} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i, j + 1}^{t} - {2 V}_{i, j}^{t} + V_{i, j - 1}^{t} | |}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i + 1, j}^{t} - {2 V}_{i, j}^{t} + V_{i - 1, j}^{t} | |}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i + 1, j + 1}^{t} - V_{i + 1, j}^{t} - V_{i, j + 1}^{t} + V_{i, j}^{t} | |}^{2} \end{matrix}

步骤五、计算能量函数中的扭曲约束项E_wf

为了保证尽量大的图像剪切率，保证保留更多的视觉信息，因此要保证扭曲后的网格点位置尽量与稳定前相近，因此，该条件形式化表示为：

E_{wf} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i, j}^{t} - X_{i, j}^{t} | |}^{2}

步骤六、计算能量函数中的时域平滑项E_ts

为了获得稳定的摄像机运动轨迹，因此要对带有晃动和抖动的视频轨迹进行平滑，使用普雷斯科特(Hodrick-Prescott)滤波对轨迹进行平滑处理，为了将特征点轨迹与网格稳定联系起来，使用每个特征点所在网格的四个角点通过均值坐标方法表示该特征点，因此将上述过程形式化表示为：

\begin{matrix} E_{ts} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {{| | {CV}_{i, j}^{t + 1} - {CV}_{i, j}^{t} | |}^{2} \\ + {| | {CV}_{i, j}^{t - 1} - {2 CV}_{i, j}^{t} + {CV}_{i, j}^{t + 1} | |}^{2} \\ + {| | {CV}_{i, j}^{t + 2} - 3 {CV}_{i, j}^{t + 1} + 3 {CV}_{i, j}^{t} - {CV}_{i, j}^{t - 1} | |}^{2}} \end{matrix}

其中:

\begin{matrix} {CV}_{i, j}^{t} = C_{i, j}^{t} V_{i, j}^{t} + C_{i + 1, j}^{t} V_{i + 1, j}^{t} \\ + C_{i + 1, j + 1}^{t} V_{i + 1, j + 1}^{t} + C_{i + 1, j + 1}^{t} V_{i + 1, j + 1}^{t} \end{matrix}

C表示根据均值坐标计算出的各个角点的权重值；

步骤七、能量函数优化求解

将上述约束条件分别赋予权重，建立用于求解稳定后网格角点位置的能量函数,形式化表示为：

E (V_{i, j}^{t}) = ω_{1} \cdot E_{sp} + ω_{2} \cdot E_{ts} + ω_{3} \cdot E_{sc} + ω_{4} \cdot E_{wf}

使用求解稀疏线性方程组的方法求解该能量函数最小化问题，得到稳定后的网格点所在位置V^t _i,j；

其中，权重w₂=10，w₃=2。对于权重w₁，不同的网格应采用不同的权重，形式化表示为：

ω_{1} (Q_{i, j}) = \{\begin{matrix} 1, & : & N (Q_{i, j}) > 0 \\ 10, & : & N (Q_{i, j}) = 0 \end{matrix}

其中N(Q_i,j)表示该网格中的轨迹点数目。

对于权重w₄，不同的网格应采用不同的权重，对于位于视频帧边界的角点，其权重w₄=2，对于其他角点，其w₄=1；

步骤八、图像扭曲

根据稳定前的网格点X^t _i,j和稳定后的网格点V^t _i,j建立单应性变换矩阵，根据矩阵获得稳定后的视频帧数据。

有益效果：

（1）传统的基于2D的视频稳定方法一般无法处理具有较大景深的场景，在使用2D方法处理大景深场景时往往会出现显著的图像扭曲，而本发明克服了这一问题，保形的图像扭曲方法避免了帧内出现显著扭曲，帧与帧之间的约束条件避免了帧间较大图像扭曲的出现。

（2）传统的基于3D的视频稳定方法依赖于从运动恢复结构（SfM）的方法来建模场景，这种方法计算复杂度较高，且对于复杂场景无法准确建模，而本发明避免使用从运动恢复结构的方法，而是使用特征轨迹来引导视频的去抖处理，因此提高了计算效率，增加了鲁棒性。

（3）基于2.5D的方法一般将运动平滑和运动补偿分为两部分进行，但是本发明将以上两部分结合在一起，进行全局优化，减少了计算时间，提高了计算效率。

附图说明

图1是本发明基于全局优化视频稳定方法的流程图。

图2是均值坐标计算方法示例。

具体实施方式

下面结合附图1对本发明方法的实施方式做详细说明。

一种基于全局优化的视频稳定方法，本发明的具体实现步骤如下：

步骤一、计算特征点轨迹

在视频帧中提取特征点,一般选用Harris角点或者SIFT特征点（D.G.Lowe.Object recognition from local scale-invariant features.In Proc.ICCV,pages1150–1157,1999.），使用光流法计算下一帧中特征点的位置，进而得到整个视频中所有特征点的运动轨迹。光流法是图像处理领域的一个较通用的方法，其经典应用可以参见文章(J.B.Shi,and C.Tomasi.Good features to track.In Proc.CVPR,pages593–600,1994.)。

步骤二、视频帧网格化

将视频帧划分为若干正方形区域，并获得网格角点的坐标，形式化表示为：

{X_{i, j}^{t} = (x_{i, j}^{t}, y_{i, j}^{t}) &Element; R^{2}},

将稳定后的网格角点形式化表示为：

{V_{i, j}^{t} = (u_{i, j}^{t}, u_{i, j}^{t}) &Element; R^{2}}

对于某一网格，形式化表示为：

Q_{i, j}^{t} = {V_{i, j}^{t}, V_{i + 1, j}^{t}, V_{i, j + 1}^{t}, V_{i + 1, j + 1}^{t}}

其中，t表示视频帧索引数，u代表扭曲后网格的角点x轴坐标，v代表扭曲后网格的角点y轴坐标。

网格的宽度可以由用户定义，本实施例中将图像分为长宽均为40像素的方格进行处理。

步骤三、计算能量函数中的保形项E_sp

为了获得与原视频帧尽可能相近的稳定图像，因此在原视频帧网格区域和稳定后的视频帧网格区域之间应保持一个相似变换。为了提高计算效率，本发明不再使用传统的尽量保相似的约束条件，而是使用离散柯西黎曼等式，该方法只需使用尽量保相似约束条件约四分之一的未知数。因此，保形项应定义为

\begin{matrix} E_{sp} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {(| | (u_{i + 1, j}^{t} - u_{i, j}^{t}) + (u_{i, j + 1}^{t} - u_{i, j}^{t}) | |)}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {(| | (u_{i + 1, j}^{t} - u_{i, j}^{t}) - (u_{i, j + 1}^{t} - u_{i, j}^{t}) | |)}^{2} \end{matrix}

步骤四、计算能量函数中的空域约束项E_sc

为了获得较佳的视频观看感受，不仅要保持每个网格的形状，还要保持相邻网格之间变换的相似度，避免网格之间出现显著地扭曲，因此要添加网格间的空域约束项。将该约束条件形式化表示为：

\begin{matrix} E_{sc} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i, j + 1}^{t} - {2 V}_{i, j}^{t} + V_{i, j - 1}^{t} | |}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i + 1, j}^{t} - {2 V}_{i, j}^{t} + V_{i - 1, j}^{t} | |}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i + 1, j + 1}^{t} - V_{i + 1, j}^{t} - V_{i, j + 1}^{t} + V_{i, j}^{t} | |}^{2} \end{matrix}

步骤五、计算能量函数中的扭曲约束项E_wf

为了保证尽量大的图像剪切率，保证保留更多的视觉信息，因此要保证扭曲后的网格点位置尽量与稳定前相近。因此，该条件形式化表示为：

E_{wf} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i, j}^{t} - X_{i, j}^{t} | |}^{2}

步骤六、计算能量函数中的时域平滑项E_ts

为了获得稳定的摄像机运动轨迹，因此要对带有晃动和抖动的视频轨迹进行平滑。由于高斯平滑等方法对于平滑核较为敏感，且这类平滑方法无法处理低频的抖动，因此使用平滑核固定的普雷斯科特(Hodrick-Prescott)滤波对轨迹进行平滑处理。该平滑方法形式化表示如下：

D^{1} (P_{i}^{t}) = P_{i}^{t + 1} - P_{i}^{t}

D^{2} (P_{i}^{t}) = P_{i}^{t - 1} - {2 P}_{i}^{t} + P_{i}^{t + 1}

D^{3} (P_{i}^{t}) = P_{i}^{t + 2} - {3 P}_{i}^{t + 1} + {3 P}_{i}^{t} - P_{i}^{t - 1}

D()表示求导函数，上标表示导数的阶数，P表示要平滑的点的坐标。

为了将特征点轨迹与网格稳定联系起来，尽量减少网格内部的扭曲变形，因此使用每个特征点所在网格的四个角点通过均值坐标的表示方法表示该特征点，形式化表示如下：

\begin{matrix} {CV}_{i, j}^{t} = C_{i, j}^{t} V_{i, j}^{t} + C_{i + 1, j}^{t} V_{i + 1, j}^{t} \\ + C_{i + 1, j + 1}^{t} V_{i + 1, j + 1}^{t} + C_{i + 1, j + 1}^{t} V_{i + 1, j + 1}^{t} \end{matrix}

如图2所示，根据公式

C_{i, j}^{t} = 2 \frac{\tan (α_{i, j} / 2) + \tan (β_{i, j} / 2)}{r_{i, j}}

计算出均值坐标表示中各个角点的权重值C。

其中

r_{i, j} = | P_{h}^{t} - V_{i, j}^{t} |

P_h ^t表示第t帧中第h个特征点，其位于由{V^t _i,j,V^t _i+1,j,V^t _i,j+1,V^t _i+1,j+1}组成的网格中，α_i,j,β_i,j分别表示线段P^t _hV^t _i,j与线段P^t _hV^t _i,j+1、P^t _hV^t _i+1,j之间的夹角；

因此将上述过程形式化表示为：

\begin{matrix} E_{ts} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {{| | {CV}_{i, j}^{t + 1} - {CV}_{i, j}^{t} | |}^{2} \\ + {| | {CV}_{i, j}^{t - 1} - {2 CV}_{i, j}^{t} + {CV}_{i, j}^{t + 1} | |}^{2} \\ + {| | {CV}_{i, j}^{t + 2} - 3 {CV}_{i, j}^{t + 1} + 3 {CV}_{i, j}^{t} - {CV}_{i, j}^{t - 1} | |}^{2}} \end{matrix}

步骤七、能量函数优化求解

E (V_{i, j}^{t}) = ω_{1} \cdot E_{sp} + ω_{2} \cdot E_{ts} + ω_{3} \cdot E_{sc} + ω_{4} \cdot E_{wf}

使用一般的求解稀疏线性方程组的方法求解该能量函数最小化问题，例如高斯-塞德尔迭代法、中心线法等。本实施例使用雅克比迭代法通过求解大型稀疏线性方程组来求解该能量函数最小化问题，得到稳定后的网格点所在位置V^t _i,j。

在本实施例中，权重w₂=10，w₃=2。对于权重w₁，不同的网格应采用不同的权重，形式化表示为：

ω_{1} (Q_{i, j}) = \{\begin{matrix} 1, & : & N (Q_{i, j}) > 0 \\ 10, & : & N (Q_{i, j}) = 0 \end{matrix}

其中N(Q_i,j)表示该网格中的轨迹点数目。

对于权重w₄，不同的网格应采用不同的权重，对于位于视频帧边界的角点，其权重w₄=2，对于其他角点，其w₄=1。

步骤八、图像扭曲

根据稳定前的网格点X^t _i,j和稳定后的网格点V^t _i,j建立单应性变换矩阵，根据矩阵对每个网格分别进行变形处理，获得稳定后的视频帧数据。

为了说明本发明的内容及实施方法，本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.一种基于全局优化的视频稳定方法，其特征在于，包括以下步骤：

步骤一、计算特征点轨迹

步骤二、视频帧网格化

{X_{i, j}^{t} = (x_{i, j}^{t}, y_{i, j}^{t}) &Element; R^{2}},

将稳定后的网格角点形式化表示为：

{V_{i, j}^{t} = (u_{i, j}^{t}, u_{i, j}^{t}) &Element; R^{2}}

对于某一网格，其形式化表示为：

Q_{i, j}^{t} = {V_{i, j}^{t}, V_{i + 1, j}^{t}, V_{i, j + 1}^{t}, V_{i + 1, j + 1}^{t}}

步骤三、计算能量函数中的保形项E_sp

\begin{matrix} E_{sp} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {(| | (u_{i + 1, j}^{t} - u_{i, j}^{t}) + (u_{i, j + 1}^{t} - u_{i, j}^{t}) | |)}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {(| | (u_{i + 1, j}^{t} - u_{i, j}^{t}) - (u_{i, j + 1}^{t} - u_{i, j}^{t}) | |)}^{2} \end{matrix}

步骤四、计算能量函数中的空域约束项E_sc

\begin{matrix} E_{sc} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i, j + 1}^{t} - {2 V}_{i, j}^{t} + V_{i, j - 1}^{t} | |}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i + 1, j}^{t} - {2 V}_{i, j}^{t} + V_{i - 1, j}^{t} | |}^{2} \\ + \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i + 1, j + 1}^{t} - V_{i + 1, j}^{t} - V_{i, j + 1}^{t} + V_{i, j}^{t} | |}^{2} \end{matrix}

步骤五、计算能量函数中的扭曲约束项E_wf

E_{wf} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {| | V_{i, j}^{t} - X_{i, j}^{t} | |}^{2}

步骤六、计算能量函数中的时域平滑项E_ts

\begin{matrix} E_{ts} (V_{i, j}^{t}) = \underset{t}{Σ} \underset{i, j}{Σ} {{| | {CV}_{i, j}^{t + 1} - {CV}_{i, j}^{t} | |}^{2} \\ + {| | {CV}_{i, j}^{t - 1} - {2 CV}_{i, j}^{t} + {CV}_{i, j}^{t + 1} | |}^{2} \\ + {| | {CV}_{i, j}^{t + 2} - 3 {CV}_{i, j}^{t + 1} + 3 {CV}_{i, j}^{t} - {CV}_{i, j}^{t - 1} | |}^{2}} \end{matrix}

其中:

\begin{matrix} {CV}_{i, j}^{t} = C_{i, j}^{t} V_{i, j}^{t} + C_{i + 1, j}^{t} V_{i + 1, j}^{t} \\ + C_{i + 1, j + 1}^{t} V_{i + 1, j + 1}^{t} + C_{i + 1, j + 1}^{t} V_{i + 1, j + 1}^{t} \end{matrix}

C表示根据均值坐标计算出的各个角点的权重值；

C_{i, j}^{t} = 2 \frac{\tan (α_{i, j} / 2) + \tan (β_{i, j} / 2)}{r_{i, j}},

r_{i, j} = | P_{h}^{t} - V_{i, j}^{t} |,

步骤七、能量函数优化求解

E (V_{i, j}^{t}) = ω_{1} \cdot E_{sp} + ω_{2} \cdot E_{ts} + ω_{3} \cdot E_{sc} + ω_{4} \cdot E_{wf}

其中，权重w₂=10，w₃=2；对于权重w₁，不同的网格应采用不同的权重，形式化表示为：

ω_{1} (Q_{i, j}) = \{\begin{matrix} 1, & : & N (Q_{i, j}) > 0 \\ 10, & : & N (Q_{i, j}) = 0 \end{matrix}

其中N(Q_i,j)表示该网格中的轨迹点数目；

步骤八、图像扭曲