CN101119442A

CN101119442A - 基于全景图拼接的视频编辑方法

Info

Publication number: CN101119442A
Application number: CNA2007100707436A
Authority: CN
Inventors: 杜歆; 朱云芳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2007-08-10
Filing date: 2007-08-10
Publication date: 2008-02-06
Anticipated expiration: 2027-08-10
Also published as: CN100448271C

Abstract

本发明公开了一种基于全景图拼接的视频编辑方法。用于对一段运动视频序列的编辑或者修复。该方法首先对视频序列各帧图像进行特征点匹配，计算出各帧之间的投影矩阵，然后对各帧图像进行拼接，得到视频全景图；根据视频编辑的具体要求，利用人工交互和计算机相结合的方法对视频全景图进行图像编辑；最后根据投影关系，从编辑后的全景图中恢复出视频序列。本发明通过以视频全景图为中介，将视频编辑简化成为对视频全景图的图像编辑，不仅可使使用者直观地了解全部场景的信息，还能够大大减少计算量和人工交互。

Description

基于全景图拼接的视频编辑方法

技术领域

本发明涉及一种视频序列处理方法，具体地说，涉及一种通过合成视频全景图，以对全景图的图像编辑来代替传统视频编辑的新方法。

背景技术

传统的视频编辑中，镜头拍摄、剪辑通常以录像带为存储介质，由于素材在录像带上是顺序存放的，要完成编辑必须反复搜索和复制，并在另一录像带重新安排这些素材，这种编辑方法被称之为线性编辑方法。自数字技术发展起来之后出现了专用的非线性编辑机，可以不按照素材在磁带上的线性位置进行更方便的处理。实际上PC也可以作为一台非线性编辑机，因为所有的素材都捕捉到磁盘上，可以随时处理任何时间线位置上的内容。

非线性视频编辑很大程度上方便视频编辑工作，但它仍然是一件很繁琐的工作，这是因为现有的非线性视频编辑是将视频文件逐帧展开，以帧为精度来进行编辑。由于视频数据量极大，因此对视频的逐帧编辑需要耗费大量的人工交互以及计算机的计算量。

由于视频中的物体通常会出现在很多帧，如果直接修改视频，需要逐帧进行，有大量重复工作。如果将整段视频信息用一幅图像来表示，根据需要对这幅图像进行编辑，然后再根据编辑后的图像重新得到视频，不仅使手工参与的工作量大大减小(甚至可以完全由计算机自动完成)，还节省了计算时间，提高了工作效率。由此本发明提出了基于全景图拼接的视频编辑新方法。

发明内容

本发明的目的是提供一种基于全景图拼接的视频编辑方法，解决现有的视频编辑方法对视频逐帧地编辑，不直观，计算量大，耗时长等缺陷，提供一种能够快速、直观地对视频内容进行编辑的方法。

为了实现上述目的，本发明采用的技术方案是：

1、本发明提供了一种基于全景图拼接的视频内容编辑方法，用于对一段运动视频序列的编辑。该方法包括：

1)用多个视频帧生成一描述运动视频全貌的视频全景图；

2)对得到的视频全景图进行图像内容编辑；

3)由编辑后的视频全景图逆投影回各视频帧坐标系，生成编辑后的视频序列。

2、所述的视频全景图生成包括下列步骤：

1)对多个视频帧之间相对的全局运动进行全局运动估计，得出各视频帧图像之间的平面投影关系；

2)如果运动视频序列中包含有运动物体，则首先将其去除；

3)根据各视频帧图像之间的平面投影关系，以第一帧图像作为参考帧，建立全景图坐标系，将各视频帧图像投影到该全景图坐标系中，并估计出全景图的尺寸；

4)根据各视频帧之间的平面投影关系，计算全景图上每个像点在多个视频帧图像中的对应点，将这多个对应点进行排序，取中值作为全景图上的值，构成视频全景图；

3、所述的全局运动估计包括：

1)匹配步骤：提取各视频帧图像的角点，并进行相关匹配，得到初始匹配点集；

2)参数估计步骤：利用Ransac剔除初始匹配点集中的错误匹配，并用最小二乘估计出透视投影下的变换参数。

4、所述运动物体去除方法包括：

1)利用帧差法确定运动物体的大致范围；

2)利用基于颜色的区域分割将图像划分为颜色不同的区域；

3)用图切割法将二者结合，并用前一帧分割结果作为约束进行优化求解。

5、还包括对各视频帧图像进行颜色亮度校正，以消除拍摄时由于曝光和白平衡不一样造成的颜色差异。

6、所述的全景图内容编辑方法包括：

1)图像移植：通过手工选择一块区域，再将此块区域的信息放到需要填充的区域中，根据被填充区域外部的信息改变原区域信息的颜色，使这种填充变得自然；

2)基于信息繁衍的图像编辑：利用围绕着待编辑区域边界的已知信息，沿着梯度最小的方向将边界上的灰度信息“繁殖”到待编辑区域内来实现；

3)纹理图像的半自动填充：自动填充有纹理的区域。

7、所述的编辑后的视频序列生成包括下列步骤：

1)计算从视频全景图到各视频帧坐标系的逆投影矩阵；

2)根据逆投影矩阵从视频全景图生成各视频帧图象，完成视频编辑过程。

本发明具有的有益效果是：

1.本发明将传统视频编辑方法的逐帧编辑转化为对合成的视频全景图像的一次性编辑，极大地减小了编辑所需的人工交互以及计算量；

2.由于用户的编辑工作在得到的视频全景图上完成，因此更直观、准确。

附图说明

图1为本发明方法的流程图。

图2为图像移植的示意图。

图3为纹理图像半自动填充示意图。

图4本发明用于对视频场景内容编辑的示例，其中(a)为原始的视频序列各帧，(b)为生成的视频全景图，(c)对视频全景图进行编辑后的结果，(d)由编辑后的视频序列逆投影回各视频帧坐标系的结果，即最终结果。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

图1给出了依照本发明进行视频编辑的方法流程图。

在运动视频的拍摄过程中，摄像机的运动会造成视频图像背景的运动，这种运动形式被称为全局运动。与全局运动相对应的为局部运动，局部运动指运动物体动作造成的前景运动。考虑到运动物体可以是刚体或非刚体，因此采用基于时域的帧差法做初始的分割。帧差法基于背景静止或者具有统一的全局运动，而运动物体具有不同于此全局运动的性质这一假设。在背景具有统一全局运动的情况下，只需求取得到全局运动参数，即能求出不服从此参数的运动物体区域。

如图1所示，在步骤101中，对视频序列各帧之间相对的全局运动进行全局运动估计，得到全局运动参数。基于视频编辑的要求，对视频帧中的每相邻两帧之间的全局运动进行估计，从而可通过递推计算出视频各帧对于前述参照帧的全局运动，由此可以得到视频各帧坐标系相对于参考帧坐标系的变换参数。通常情况下，参考帧可选场景中的第一帧。

相邻图像帧之间的全局运动的规律可由全局运动参数表征，根据全局运动估计所针对的场景不同，可选用不同的参数模型。在本发明中，为了体现出场景深度的变化，选用的是八自由度的透视变换模型：

透视变换的矩阵形式可表示为：

[\begin{matrix} x_{1}^{'} \\ x_{2}^{'} \\ x_{3}^{'} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} & h_{13} \\ h_{21} & h_{22} & h_{23} \\ h_{31} & h_{32} & h_{33} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}]

它是齐次坐标系下非奇异线性变换的一般形式。透视变换矩阵有9个参数，但是齐次坐标系中有意义的是其比值，因此这种变换实际上是有8个参数。对于同一视频序列的每相邻两帧图象，只需要有四对点的对应，就可以求出此参数。

求解变换参数，本发明采用了特征点匹配算法，它包含下面三个步骤：

①分别对相邻的视频帧图像提取角点，如用Harris角点，SUSAN角点等。

②用所提取的角点邻域信息的相关匹配得到粗匹配结果。

对于序列图像n中的特征点x，相关窗口设置为(2n+1)×(2m+1)。在图像n+1中的搜索区域定为(2d_u+1)×(2d_v+1)。计算搜索区域中每一点x′和x的相关系数ρ(x，x′)：

ρ (x, x^{'}) = \frac{Cov (x, x^{'})}{σ (x) \cdot σ (x^{'})}

其中Cov(x，x′)是x′和x的协方差：

Cov (x, x^{'}) = \frac{Σ_{i = - n}^{n} Σ_{j = - m}^{m} [I (u + i, v + j) - E (x)] [I (u^{'} + i, v^{'} + j) - E (x^{'})]}{(2 n + 1) (2 m + 1)}

σ(x)是点x＝(u，v)相关窗口的标准偏差：

σ (x) = \sqrt{\frac{Σ_{i = - n}^{n} Σ_{j = - m}^{m} {[I (u + i, v + j) - E (x)]}^{2}}{(2 n + 1) (2 m + 1)}}

E(x)是点x＝(u，v)相关窗口的均值：

E (x) = \frac{Σ_{i = - n}^{n} Σ_{j = - m}^{m} I (u + i, v + j)}{(2 n + 1) (2 m + 1)}

选择相关系数ρ(x，x′)最大的匹配点作为最佳匹配，为了保证匹配点的正确性，还应设置一个阈值T，最佳匹配的相关系数应大于此阈值。

③由于②中的匹配存在误匹配的可能，且即使匹配没有出错，但匹配点如果恰好位于运动物体上，通过这些匹配点所求得的摄像机运动参数也是错误的。因此，必须有对匹配结果进行检验的手段，以确保匹配结果的鲁棒性。本发明采用的方法是利用透视变换矩阵为约束，用RANSAC进行投票，去掉粗匹配结果中不符合摄像机全局运动参数的点对。

关于RANSAC算法可参考文献1：Fischler M.A.and Bolles R.C.RandomSample Consensus：A Paradigm for Model Fitting with Applications to ImageAnalysis and Automated Cartography.Communications of the ACM，1981，Vol.24：381-395.

对RANSAC算法进行简单描述：

假设点x的齐次坐标表示为(x₁，x₂，1)^T，则经过透视矩阵投影后的坐标x′为

则投影后两个对应点之间的欧氏距离为：

d = \sqrt{{(\frac{{x_{1}}^{'}}{{x_{3}}^{'}} - x_{1})}^{2} + {(\frac{{x_{2}}^{'}}{{x_{3}}^{'}} - x_{2})}^{2}}

其中：

x₁′＝h₁₁x₁+h₁₂x₂+h₁₃

x₂′＝h₂₁x₁+h₂₂x₂+h₂₃

x₃′＝h₃₁x₁+h₃₂x₂+h₃₃

假设角点匹配得到的对应点组数为P，赋最大匹配点组P_max的初始值为0，迭代的次数N的初始值设为200。

a)从P中随机选取4组点对，求出透视矩阵H_Pi；

b)计算每个匹配点到模型之间的距离，如果距离小于阈值d，将此点标记为true，否则标记为false，记下当前模型下所有点对中，标记为true的点对的组数P_G；

c)如果P_max＜P_G，则令P_max＝P_G，并保存下当前标记为true的所有点对，转到步骤d；否则，回到步骤a；

d)计算迭代次数

k_{P} = \frac{\log (1 - T)}{\log (1 - {(P_{G} / P)}^{4})},

其中T为预测的粗匹配结果中正确匹配结果所占比例的先验概率；

e)如果N＞k_P，则令N＝k_P，与当前总共迭代次数k进行比较，如果k＜N，令k＝k+1，返回步骤a；否则到步骤f；

f)如果P_max≥4，则转到④用最小二乘法求解满足当前模型的所有点对的最优透视矩阵H_P，而此前记录下的匹配点对也就是用RANSAC方法去掉所有的粗差点对之后剩下的结果。

利用透视变换作为RANSAC的约束条件，不仅可以消除匹配中的错误点，同时也给匹配增加了参数方程的约束。

④通常情况下，匹配点对数目比求8个自由度的透视变换矩阵所要求的的4组点对要多，本发明用最小二乘法求此超定线性方程的解，其过程如下：

假设有n组对应的匹配点x，x′，其对应的透视矩阵为H_P，则最小二乘法的解H_P应下式具有最小值：

E = Σ_{i = 1}^{n} {| | H_{P} x_{i} - x_{i}^{'} | |}^{2}

令

\frac{δE}{δ H_{P}} = 0,

对H_P求导可以通过对其每个元素求导推出。

例如，

Σ {| | [\begin{matrix} h_{11} & h_{12} & h_{13} \\ h_{21} & h_{22} & h_{23} \\ h_{31} & h_{32} & h_{33} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}] - [\begin{matrix} x_{1}^{'} \\ x_{2}^{'} \\ x_{3}^{'} \end{matrix}] | |}^{2}

对h₁₁求偏导，展开得到：

∑2(h₁₁x₁+h₁₂x₂+h₁₃x₃-x₁′)x₁＝0

对H_P中的每个元素都如上式对h₁₁求偏导一样展开，再将结果合并在一起可以得到：

2 \underset{i}{Σ} (H_{P} x_{i} - x_{i}^{'}) \cdot x^{T} = 0

即

H_{P} \underset{i}{Σ} x_{i} {x_{i}}^{T} = \underset{i}{Σ} x_{i}^{'} {x_{i}}^{T} .

令左右两边两个3×1和1×3的列矢量和行矢量相乘得到的矩阵分别为：

A = \underset{i}{Σ} x_{i} {x_{i}}^{T}

和

B = \underset{i}{Σ} x_{i}^{'} {x_{i}}^{T},

则H_PA＝B，可求出H_P的解为：

H_P＝BA^-1

如图1所示，在步骤102中，当视频序列中存在运动物体时，应将其去除。本发明采用帧差法来确定运动物体的大致范围，以此作为初始值，结合帧内及帧间各像素之间的相关性，定义能量方程，利用图切割方法解此能量方程而得到最终的分割结果。

步骤101已经介绍了求取摄像机全局运动参数的方法。利用此参数，可将一帧图像I_i+1投影到相邻帧I_i的坐标系中，得到新图像I_i+1′。此图像相对于I_i的背景静止。假设图像I_i+1和I_i满足投影关系P，即xⁱ⁺¹＝Pxⁱ，其中xⁱ和xⁱ⁺¹分别表示图像I_i和I_i+1上对应点的坐标，则新图像I_i+1′的计算过程为：

①生成一幅大小和原图像相同的空白图像I_i+1′；

②对于x∈I_i+1′，求出其在原图像中的对应点坐标x′＝P^-1x(P^-1为P的逆投影)；

③求出的对应坐标x′，该坐标通常不是整数，用双线性插值法进行插值。

需要说明的是由于二帧图像的范围并不完全相同，因此在把一帧图像投影到另一帧图像的坐标系时，会出现一些“盲区”(计算所得的坐标值超出了图像边界)，盲区的点像素值置为0。

理想情况下，当序列中不存在运动物体时，I_i+1′和I_i是同样的图像。若序列中存在运动物体，I_i+1′和I_i会在有运动物体的区域内有差别。因此，可定义I_i中的运动物体区域为：

{x_i|x_i∈I_i，|f(x_i)-f(x_i+1′)|＞T}

上式中，f(x_i)表示I_i中位置为x_i的点的象素值，f(x₊₁′)则是由I_i+1投影到I_i所生成的新图像I_i+1′中坐标为x_i+1′的象素值，T是所设定的阈值。当对应点相减的结果大于此阈值T时，认为此点是运动物体上的点，否则视为静止的背景点。

为了尽可能多地保留每帧图像中静止背景图像的信息，可再加入第三帧的信息，即用前后帧图像来估计当前帧中的运动物体，因此对上式进行了修改，

{x_i|x_i∈I_i，|f(x_i)-f(x_i+1′)|＞T&|f(x_i)-f(x_i-1′)|＞T}

受到噪声等因素的影响，直接由上式得到的结果常常会出现一些错误孤立点或者小块区域，可用形态学算子做简单的处理。

如果图切割法以像素点为节点则计算量较大，会影响算法的效率。因此，在运用图切割算法之前，本发明先用均值偏移方法对图像做预分割，用分割后得到的各区域作为图的节点。这样不仅可以减小计算量，而且由于均值偏移能够较准确的定位各颜色区域的边缘，还可以保证分割结果的准确性。

关于均值偏移算法可参考文献2：Fukunaga K.and Hostetler L.D.Theestimation of the gradient of a density function，with applications in patternrecognition，IEEE Transactions on Information Theory，1975，21(1)：32～40.

基于均值偏移的颜色分割算法主要分两个步骤：首先，图像在联合域中进行均值偏移滤波，该滤波具有不连续保持性，将每个像素都划分至联合域中最近的模式，并将相应模式中的三维彩色分量替换各像素原先值。然后，采用迭代方法融合位于色彩空间中h_r/2范围内的模式吸引域，直至收敛，最终得到分割后图像。

基于均值偏移的颜色分割算法利用彩色信息和空间位置将图像划分成小块区域。但是分割的结果不具有语义上的知识，根据此结果无法区分运动物体和背景。因此我们用图切割的方法建立起运动物体区域和彩色均值偏移算法结果的关系，从而可以将时域和空域信息结合起来，得到比较准确的分割结果。

关于图切割算法可参考文献3：Yuri Boykov，Olga Veksler，Ramin Zabih.Efficient Approximate Energy Minimization via Graph Cuts.IEEE transactions onPatternAnalysis andMachine Intelligence，2001，20(12)：1222-1239.

如图1所示，在步骤103中，全景图拼接采用平面拼接方法，选取其中一帧所在平面为参考帧，利用平面投影模型，将其它所有帧都投影到此帧所在平面，构造出全景图。步骤101已经详细介绍了利用匹配估计全局运动参数的方法。假设x_i代表第i帧图像上点的坐标，P_i，j代表i，j两帧间的透视投影矩阵，帧间的投影关系公式表示为：

x_i＝P_i，i+1x_i+1

利用相邻帧之间的传递性，可以得到各帧图像与第一帧图像间的投影关系，即：

x₁＝P_1，2x₂

x₂＝P_2，3x₃



x_n-1＝P_n-1，nx_n

由此可以计算出每帧图像和第一帧图像之间的投影关系：

x₁＝P_1，2x₂＝P_1，2P_2，3x₃＝P_1，3x₃(其中，P_1，3＝P_1，2P_2，3)



x₁＝P_1，2P_2，3…P_n-1，nx_n＝P_1，nx_n(其中，P_1，n＝P_1，2P_2，3…P_n-1，n)

选取第一帧图像为参考帧，就可得到每帧图像与全景图的投影关系。

确定各帧与全景图坐标系之间的投影关系后，接下来需要计算全景图的大小：计算出每帧图像的四个顶点在全景图坐标系下的投影位置，记其坐标为(x，y)。比较其坐标的大小，得到x_max、x_min和y_max、y_min，则全景图的大小可确定为W×H，其中W＝x_max-x_min，H＝y_max-y_min。

由于透视变换是一种线性可逆变换，因此全景图上的点到各帧的投影关系可表示为：

x_{n} = P_{1, n}^{- 1} x,

其中矩阵P_1，n ^-1是P_1，n的逆矩阵。在此投影关系下，可求出全景图上的像素点{x，y}在第n帧图像上的坐标{x_n，y_n}。由于得到的{x_n，y_n}可能不是整数，可通过双线性插值计算此点的像素值。

当视频序列中相邻帧间的摄像机运动比较小时，全景图上点通常情况下与多视频帧图像上的点相对应。假设与其对应的视频帧数为M，可取对应的这M个点的像素值的中值为全景图上点的像素值。

如图1所示，在步骤104中，根据视频编辑的具体要求，对由步骤103生成的全景图进行图像内容编辑，对图像编辑的方法很多，本发明中，采用了下列三种方法：

①图像移植：图2中给出了图像移植的示意图，将选中的左边区域的图像g移植到右边的区域Ω中，Ω′表示Ω的内部边界。令所求的移植后的合成图像为u，被移植的图像为g，而被移植到的区域Ω的原始图像为f。

为了引入移植图像的信息，令合成图像的一阶微分与移植图像相同u＝g，即：

\{\begin{matrix} \frac{&PartialD; u}{&PartialD; x} = \frac{&PartialD; g}{&PartialD; x} & for u &Element; Ω \\ \frac{&PartialD; u}{&PartialD; y} = \frac{&PartialD; g}{&PartialD; y} & for u &Element; Ω \end{matrix}

同时，移植后的合成图像还会受到移植区域边界上的约束。通常情况下，为了保持图像的连续性，要满足u＝f for u∈Ω′。

上面两个约束条件可以用同一个能量函数J(u)来表示：

J (u) = \underset{Ω}{&Integral;} ({(\frac{&PartialD; u}{&PartialD; x} - \frac{&PartialD; g}{&PartialD; x})}^{2} + {(\frac{&PartialD; u}{&PartialD; y} - \frac{&PartialD; g}{&PartialD; y})}^{2}) d (x, y) + λ \underset{Ω^{'}}{&Integral;} {(u - f)}^{2} d (x, y)

能使此能量函数J(u)值最小的u就是合成后的图像。其中λ(λ＞0)是Lagrange乘数，它调节上面两个条件在整个约束中所占比重。

②基于信息繁衍的图像编辑：利用围绕着待编辑区域边界的已知信息，沿着梯度最小的方向将边界上的灰度信息“繁殖”到待编辑区域内来实现。

令I_o(i，j)：[0，M]×[0，N]→R表示一幅大小为M×N的图像。图像修复算法会通过迭代得到一系列的图像I(i，j，n)：[0，M]×[0，N]×N→R，满足I(i，j，0)＝I_o(i，j)且

\lim_{n &RightArrow; \infty} I (i, j, n) = I_{R} (i, j) (I_{R} (i, j))

是输出图像)，其数学表达式写为：

I^{n + 1} (i, j) = I^{n} (i, j) + Δt I_{t}^{n} (i, j), &ForAll; (i, j) &Element; Ω

上式中，n表示修复的时间，即迭代的次数，(i，j)表示像素的坐标，而Δt是每次迭代的步长，I_t ⁿ(i，j)表示图像Iⁿ(i，j)的更新对象，而Iⁿ⁺¹(i，j)则为Iⁿ(i，j)在I_t ⁿ(i，j)的约束下经过一次迭代后得到的结果。这个等式的有效区域为手工指定的待修改区域Ω的内部。在n次迭代后可以得到修复好的图像。

算法的关键在于找一个合适的I_t ⁿ(i，j)。在人工修复技术中，人们通常会将损坏区域外部的信息沿着损坏区域的外部边界慢慢的扩充到损坏区域内，。因此在用计算机模仿人工修复时，可以借用此思想，将Ω外部信息平滑扩充到Ω内部。假设Lⁿ(i，j)是待扩充的信息，而是扩充的方向，可得到I_t ⁿ(j，j)的表达式为：

I_{t}^{n} (i, j) = \overset{&RightArrow;}{{δL}^{n}} (i, j) \cdot \overset{&RightArrow;}{N^{n}} (i, j)

其中

是信息Lⁿ(i，j)的变化量。在此等式中可以估计出图像的信息Lⁿ(i，j)并可计算出其在方向

上的变化量。在稳定后的状态也就是算法收敛时，满足Iⁿ⁺¹(i，j)＝Iⁿ(i，j)，也就是

\overset{&RightArrow;}{{δL}^{n}} (i, j) \cdot \overset{&RightArrow;}{N^{n}} (i, j) = 0,

意味着信息量L已经完全扩充到

方向中。

因为希望信息是平滑地扩散到图像中，故Lⁿ(i，j)是一个平滑算子，可以选取拉普拉斯算子，其表示为

L^{n} (i, j) = I_{zz}^{n} (i, j) + I_{yy}^{n} (i, j) .

当然，其它的平滑算子也是适用的。

由于等照度线的连续性总是沿着边界的法线方向，故选择边界Ω的法线方向为平滑信息变化的方向

。对于Ω内的每个点(i，j)，的方向垂直此点所在的边界Ω。修复区域是任意的，故Ω的方向与原图像本身无关。如果等照度线的方向和

一致，则选取

时，最好的方向就是等照度线的方向。对任意点(i，j)，梯度Iⁿ(i，j)是变化最大的方向，因此与梯度垂直的方向^⊥Iⁿ(i，j)是变化最小的方向。定义^⊥Iⁿ(i，j)为等照度线的方向，从而方向矢量

的表达式为：

\overset{&RightArrow;}{N} (i, j, n) = {&dtri;}^{&perp;} I^{n} (i, j)

③纹理图像半自动填充：上述提供的二种方法主要针对平滑的图像区域，对于纹理丰富的区域要用纹理图像的半自动填充来解决。用图像中未损坏的区域为采样标本，以块为单位对图像进行修复。定义每“块”的大小为w×w，以w为标准将损坏区域划分为n块，{B₁，B₂，...，B_n}，然后依次修复每一小块。

如图3所示，对当前要修补的损坏块B_k，在它周围已知的区域中取一个宽度w_B的带E_Bk，图3中阴影所示的部分。对图中所示的当前损坏块B_k，它右边的图像仍属于损坏部分，故右边的带状区域的信息为未知，所以取的带状区域为左、上、下三边。同样，对于其它的损坏块，也只考虑四边中信息已知的带状区域。对采样区域中(这里就是图像中未损坏的部分)的任一采样标本B_(x，y)(B_(x，y)表示左下角的点为(x，y)的块)，取同样位置和大小的带状区域E_B(x，y)，如图3中未损坏区域内用阴影所表示的部分。计算两个带状区域的距离，可以得到与当前损坏块B_k距离小于某一给定阈值的块的集合ψ_B。定义集合ψ_B为：

Ψ_{B} = {B_{(x, y)} | d (E_{B_{(x, y)}}, E_{B_{k}}) < d_{\max}}

其中，d_max为给定的阈值。在集合ψ_B中随机选择一块，把这块中每点的灰度值依次拷贝到当前损坏块B_k中。按照同样的方法处理剩下的损坏块(已经修补好的区域可能为下一块要修补的区域提供边界约束条件)。直到最后一块的值确定，整幅图像即修补完毕。

如图1所示，在步骤105中，根据视频编辑的具体要求，对由步骤104进行编辑后的全景图中恢复出视频序列。

各视频帧图像和全景图之间的投影关系表示为：

x＝P_1，nx_n

由于透视变换是一种线性可逆变换，因此可得到：

x_{n} = P_{1, n}^{- 1} x,

其中P_1，n ^-1是P_1，n的逆矩阵。

在此投影关系下，即可各视频帧上的像素点在全景图上的坐标，如果改坐标点为非整数，则可通过双线性插值计算得到该点的像素值。

Claims

1.一种基于全景图拼接的视频编辑方法，其特征在于，该方法的步骤如下：

1)用多个视频帧生成一描述运动视频全貌的视频全景图；

2)对得到的视频全景图进行图像内容编辑；

2.根据权利要求1所述的一种基于全景图拼接的视频编辑方法，其特征在于，所述的视频全景图生成包括下列步骤：

2)如果运动视频序列中包含有运动物体，则首先将其去除；

4)根据各视频帧之间的平面投影关系，计算全景图上每个像点在多个视频帧图像中的对应点，将这多个对应点进行排序，取中值作为全景图上的值，构成视频全景图。

3.根据权利要求2所述的一种基于全景图拼接的视频编辑方法，其特征在于，所述的全局运动估计包括：

4.根据权利要求2所述的一种基于全景图拼接的视频编辑方法，其特征在于，所述运动物体去除方法包括：

1)利用帧差法确定运动物体的大致范围；

2)利用基于颜色的区域分割将图像划分为颜色不同的区域；

5.根据权利要求2所述的一种基于全景图拼接的视频编辑方法，其特征在于，还包括对各视频帧图像进行颜色亮度校正，以消除拍摄时由于曝光和白平衡不一样造成的颜色差异。

6.根据权利要求1所述的一种基于全景图拼接的视频编辑方法，其特征在于，所述的全景图内容编辑方法包括：

3)纹理图像的半自动填充：自动填充有纹理的区域。

7.根据权利要求1所述的一种基于全景图拼接的视频编辑方法，其特征在于，所述的编辑后的视频序列生成包括下列步骤：

1)计算从视频全景图到各视频帧坐标系的逆投影矩阵；