CN103761734A

CN103761734A - 一种时域一致性保持的双目立体视频场景融合方法

Info

Publication number: CN103761734A
Application number: CN201410008677.XA
Authority: CN
Inventors: 陈小武; 邹冬青; 赵沁平; 丁峰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-01-08
Filing date: 2014-01-08
Publication date: 2014-04-30
Anticipated expiration: 2034-01-08
Also published as: CN103761734B; US9578312B2; US20150195510A1

Abstract

一种时域一致性保持的双目立体视频场景融合方法，步骤如下：1、立体视频A的运动对象轮廓传播与提取；2、时域一致的运动对象与动态场景时差融合变形；3、时域一致的运动对象与动态场景颜色融合，利用中值坐标融合方法，对运动对象与动态场景进行颜色融合。本发明提出的方法，简单有效，利用少量的用户交互，就可以提取出时域一致的、左右目对应一致的立体视频运动对象；发掘了多种约束条件，以指导运动对象与动态场景的视差融合变形，使得运动对象符合动态场景的透视规则。并且，运动对象的变形结果平滑一致，可以有效避免“抖动”现象的发生。

Description

一种时域一致性保持的双目立体视频场景融合方法

技术领域

本发明是一种新型的时域一致性保持的双目立体视频场景融合方法，属于视频图像处理、双目立体视觉技术领域。

背景技术

随着3D影视技术的发展，双目视频图像的编辑方法近年来受到了越来越多的关注。然而，将现有的2D视频图像编辑方法扩展到双目视频图像上，由于要处理视差等额外信息，使之成为一个较难的问题。

双目立体视频场景融合是指，给定两段双目立体视频，将立体视频A的运动对象，融入立体视频B的动态场景，并保持颜色、视差和时域一致性,得到双目立体视频场景融合结果。

计算机视觉和计算机图形学领域对于2D视频图像编辑方法与双目视频图像编辑方法已有较多文献，我们不试图尽列所有方法。重点介绍视频时域一致性编辑的相关工作，也会涉及视频图像场景融合方法和双目图像编辑方法。

普通单目视频编辑方法近年来已经有较多的研究。2002年，Chuang等人将双向光流应用到三分图在视频帧间的传播算法中。2009年，Bai等人利用一组局部分类器配合光流算法得到了时域一致性方面更优的结果。2010年，Bai等人又将颜色流应用到视频对象精准提取的三分图传播步骤中。这些方法对于普通单目视频编辑有较好的效果。但是，这些蒙版（mask）传播方法并不能直接应用到双目立体视频编辑方法中。2008年Sand等人提出了一种实用的长期跟踪方法。2009年Lee等人利用尺度不变特征转换（即SIFT）流场，提出了一种视频去抖算法。Bhat等人2010年将光流算法应用到了多种梯度域视频编辑算法中。2012年，Chen等人将局部线性结构保持的思想应用到了视频编辑传播中。这些时域一致的视频编辑算法主要关注对象跟踪和内容编辑，本发明的目标是同时编辑双目立体视频对象的形状和颜色。

视频图像场景融合方法是一种经典的视频图像编辑方法。2003年Pérez等人提出泊松融合方法通过求解泊松方程将融合区域无缝的融入新场景中。2009年Jia等人利用精准对象提取进一步提高了泊松融合的效果。2009年Farbman等人利用中值坐标大大提高了融合速率。2010年Xie等人将中值坐标融合扩展到了单目视频融合上。Chen等人2013年利用光流将中值坐标融合扩展到了视频合成上。这些方法并没有保持提取运动对象的时域一致性。

双目视频图像编辑方法同样与本发明的工作相关。Lo等人2010年提出了一种名为“广告牌”的双目图像对象场景合成方法。Luo等人2012年提出了一种迭代的双目图像场景融合方法，能够同时调整形变与颜色。2012年Niu等人提出了一种根据用户交互和视差图的双目图像变形方法。这些方法都是针对双目图像的编辑操作。2008年Wang等人，2006年Weng等人分别提出了一种图像变形方法。2010年Lang等人提出了一种视频重定位（video retargeting）方法，该方法利用光流保证了帧间的变形传播。

发明内容

本发明的目的是提出一种新型的时域一致性保持的双目立体视频场景融合方法。为完成本发明的目的，本发明采用的技术方案是：首先提取立体视频A的运动对象。利用SIFT特征匹配算法，将立体视频A左目第一帧的指定运动对象的轮廓，自动传播到立体视频A右目第一帧的相应运动对象，然后建立立体视频A的左目运动对象与右目运动对象之间的特征匹配关系，在SIFT流、左右目对象轮廓形变的联合约束下，将立体视频A左目/右目第一帧的运动对象轮廓，分别传播到左目/右目其他每一帧的相应运动对象，提取出立体视频A的运动对象；然后，将立体视频A的运动对象放置到立体视频B的动态场景中，进行时域一致的运动对象与动态场景的视差融合变形。利用泊松融合等融合方法，得到运动对象与动态场景的融合后视差图序列，根据融合后视差图，指导运动对象变形；最后，利用中值坐标融合等融合方法，对运动对象与动态场景进行时域一致的颜色融合。其具体步骤如下所述。

本发明一种时域一致性保持的双目立体视频场景融合方法，包括如下步骤：

步骤S100，立体视频A的运动对象轮廓传播与提取：用户采用画笔式等交互方式，选定立体视频A左目第一帧的运动对象的轮廓，将立体视频A左目第一帧的运动对象的轮廓，自动传播到右目第一帧的相应运动对象；以此为基准，将立体视频A左目/右目第一帧的运动对象轮廓，分别传播到左目/右目其他每一帧的相应运动对象，提取出立体视频A的运动对象；（注：本发明中，如不经特别说明，左目、右目的处理顺序可以交替，为表意清楚，本发明中，均以左目为例）

步骤S200，时域一致的运动对象与动态场景时差融合变形：用户指定立体视频A的运动对象置入立体视频B的动态场景的位置，将立体视频A的运动对象区域的视差图，与立体视频B的视差图进行融合，并根据融合后的视差图，对运动对象进行时域一致的变形，以符合动态场景的透视规则；

步骤S300，时域一致的运动对象与动态场景颜色融合：利用中值坐标融合方法，对运动对象与动态场景进行颜色融合。

其中，在步骤S100中所述的“立体视频A的运动对象轮廓传播与提取”，其作法包含以下步骤：

步骤S110，对立体视频A，分别计算其各帧左右目之间的SIFT流场，计算其左目/右目视频前后帧之间的SIFT流场；对于立体视频A左目第一帧和右目第一帧，计算其SIFT特征匹配点对，并使用随机抽样一致（即RANSAC）方法去除误匹配；

步骤S120，用户通过画笔等交互方式，在立体视频A左目第一帧上，选定运动对象的大致轮廓；以S110步骤中的落在运动对象轮廓内的SIFT匹配点，以及运动对象轮廓的采样点为网格顶点，对运动对象进行三角剖分，得到立体视频A左目第一帧的运动对象网格，利用Luo等人提出的方法，通过SIFT特征点匹配与三角网格畸变约束，将网格从立体视频A左目第一帧，传播到右目第一帧；

步骤S130，将立体视频A左目/右目第一帧的运动对象网格，传播到立体视频A的其余各帧的运动对象上，完成运动对象的提取；令分别代表当前帧已知的左目/右目运动对象的三角网格的所有三角形的集合，

分别代表当前对应网格的所有顶点的集合，那么，运动对象轮廓的传播就是求取左目/右目下一帧运动对象的三角网格

的顶点集合的所有顶点的坐标；本发明通过最小化如下能量方程，完成运动对象的轮廓传播；

E=λ₁E₁+λ₂E₂+λ₃E₃+λ₄E₄

式中，E代表总体能量，E₁代表帧间特征点对应约束能量，E₂代表三角网格畸变约束能量，E₃代表左右目网格的关联关系约束能量，E₄代表纵向对齐约束能量，λ₁、λ₂、λ₃、λ₄代表各个能量项的权重；

能量方程包含四个能量项，分别代表四种约束条件，其中，E₁为帧间特征点对应约束能量，通过SIFT流，我们可以将当前帧的网格顶点传播到相应的帧上，本发明选取可信度较高的顶点进行传播，满足能量项：

E_{1} = Σ_{i = 1}^{n_{f}} {| | v_{n}^{L} (i) - v_{n}^{L} (s (i)) | |}^{2} + Σ_{i = 1}^{n_{f}} {| | v_{n}^{R} (i) - v_{n}^{R} (s (i)) | |}^{2}

这个能量项约束下一帧网格的各个顶点

应该尽可能的靠近当前帧各个顶点

通过SIFT流传播到下一帧的位置n_f为可信的顶点的数目。本发明首选步骤S110匹配的点对的对应顶点作为可信点，或者根据SIFT特征的特性，让用户选择可信度较高的点进行传播；

E₂为三角网格畸变约束能量，网格从上一帧传播到下一帧，其形状不应该发生剧烈的变化。对于网格的一个三角形，有(v_i,v_j,v_k)三个顶点。顶点vi可以用另外两个顶点v_j,v_k线性表示v_i=F_S(v_j,v_k)。控制三角网格畸变能量为:

\begin{matrix} E_{2} = \underset{(v_{n}^{L} (i), v_{n}^{L} (j), v_{n}^{L} (k)) &Element; T_{n}^{L}}{Σ} {| | v_{n}^{L} (i) - F_{S}^{L} (v_{n}^{L} (j), v_{n}^{L} (k)) | |}^{2} \\ + \underset{(v_{n}^{R} (i), v_{n}^{R} (j), v_{n}^{R} (k)) &Element; T_{n}^{R}}{Σ} {| | v_{n}^{R} (i) - F_{S}^{R} (v_{n}^{R} (j), v_{n}^{R} (k)) | |}^{2} \end{matrix}

分别代表左右目对应三角形各个顶点间的线性关系。该能量项约束了下一帧三角网格中的每个三角形的形状尽可能与当前帧对应的三角形的形状相似。

E₃为左右目网格的关联关系约束能量,对于双目立体视频而言，其左目/右目之间有相应的关联关系。如果让左目/右目运动对象的轮廓各自单独向下传播，则有很大的可能出现左目/右目网格对应不一致的情况，造成左目运动对象与右目运动对象的不一致。为了保持左目/右目网格之间的关联关系，保证左目/右目运动对象内容上的一致性，需要引入左目/右目之间关联关系的限制：

\begin{matrix} E_{3} = Σ_{i = 1}^{n_{f}} {| | v_{n}^{L} (i) - v_{n}^{R &RightArrow; L} (s (i)) | |}^{2} \\ + Σ_{i = 1}^{n_{f}} {| | v_{n}^{R} (i) - v_{n}^{L &RightArrow; R} (s (i)) | |}^{2} \end{matrix}

由于下一帧的左右目网格的位置都不可知，所以不能直接建立下一帧左目右目网格之间的关联关系。所以，本发明通过当前帧网格的顶点位置坐标，经过两次传递后得到的位置作为约束优化的方向。以从左目网格到右目网格的关联关系约束为例，对于当前帧左目网格的可信顶点

首先通过左目当前帧与左目下一帧之间的SIFT流，传播到左目下一帧的位置s(i)，再通过左目下一帧与右目下一帧之间的SIFT流，将s(i)传播到右目的相应位置

本发明约束右目下一帧的顶点位置

与计算所得的顶点位置尽可能相近。同理，约束右目网格到左目网格的关联关系。

E₄为纵向对齐约束能量，对于双目立体图像，左右目的对应内容在图像空间的纵向是一致的，所以，本发明限制下一帧左目/右目网格对应顶点的y坐标尽量相同；能量项如下：

E_{4} = Σ_{i = 1}^{n} {(v_{n}^{L} (i) [y] - v_{n}^{R} (i) [y])}^{2}

这四个能量项共同构成了运动对象轮廓传播的联合能量约束，我们使用λ₁=λ₃=λ₄=10，λ₂=1作为各能量项的参考权重。

其中，在步骤S200中所述的“时域一致的运动对象与动态场景视差融合变形”,其作法包含以下步骤：

步骤S210，计算立体视频A和立体视频B的每一帧的视差图。利用泊松融合或其他融合方法，将立体视频A的运动对象对应区域的视差图，与立体视频B的视差图进行融合，得到融合后视差图序列，可以表示为D={d₁,d₂,d₃...}。

步骤S220，利用Luo等人提出的基于视角感知变形的方法，对第一帧的运动对象与动态场景进行视差融合变形，将其结果作为初始解。

步骤S230，对于剩余帧的运动对象与动态场景，自动进行时域一致的视差调整与变形。假定第i帧的运动对象变形结果已知。令V_i ^L,V_i ^R分别为第i帧左目/右目运动对象的对应三角网格的顶点集合。第i+1帧和第i+2帧的运动对象变形结果通过最小化如下能量方程实现：

N=γ₁N₁+γN₂₂+γ₃N₃

式中，N代表总体能量，N₁代表视差对应一致约束能量，N₂代表放置位置约束能量，N₃代表运动对象网格畸变约束能量。γ₁、γ₂、γ₃代表各个能量项的权重。

能量方程包含三个能量项，分别代表三种约束条件。其中，N₁是视差对应一致约束能量，用来约束运动对象网格各顶点的视差尽量与融合后视差图的对应位置的视差保持一致。

分别代表第i帧左目/右目运动对象变形后的网格顶点集合，

代表第i+1帧左目运动对象变形前网格顶点集合。第i+2帧的符号表示同第i+1帧。

代表相应顶点的x坐标。

N₂是放置位置约束能量，用来限制左目运动对象的几何中心点的位置尽量与变形前的左目运动对象的几何中心点一致。

N_{2} = {| | c_{i + 1}^{l} - \frac{1}{| V^{L} |} \underset{v_{t}^{L} &Element; v_{i + 1}^{L}}{Σ} v_{t}^{L} | |}^{2} + {| | c_{i + 2}^{l} - \frac{1}{| V^{L} |} \underset{v_{t}^{L} &Element; V_{i + 2}^{L}}{Σ} v_{t}^{L} | |}^{2}

分别是第i+1帧左目运动对象和第i+2帧左目运动对象变形前的网格几何中心点。

N₃是运动对象网格畸变约束能量，用来限制前后和左右帧的变形不能过于剧烈。

\begin{matrix} N_{3} = \underset{(v_{i + 1}^{L} (t), v_{i + 1}^{L} (j), v_{i + 1}^{L} (k) &Element; T_{i + 1}^{L})}{Σ} δ_{i + 1}^{L} {| | v_{i + 1}^{L} (t) - F^{L} (v_{i + 1}^{L} (j), v_{i + 1}^{L} (k)) | |}^{2} \\ + \underset{(v_{i + 1}^{R} (t), v_{i + 1}^{R} (j), v_{i + 1}^{R} (k)) &Element; T_{i + 1}^{R}}{Σ} δ_{i + 1}^{R} {| | v_{i + 1}^{R} (t) - F^{R} (v_{i + 1}^{R} (j), v_{i + 1}^{R} (k)) | |}^{2} \\ + \underset{(v_{i + 2}^{L} (t), v_{i + 2}^{L} (j), v_{i + 2}^{L} (k)) &Element; T_{i + 2}^{L}}{Σ} δ_{i + 2}^{L} {| | v_{i + 2}^{L} (t) - F^{L} (v_{i + 2}^{L} (j), v_{i + 2}^{L} (l)) | |}^{2} \\ + \underset{(v_{i + 2}^{R} (t), v_{i + 2}^{R} (j), v_{i + 2}^{R} (k)) &Element; T_{i + 2}^{R}}{Σ} δ_{i + 2}^{R} {| | v_{i + 2}^{R} (t) - F^{R} (v_{i + 2}^{R} (j), v_{i + 2}^{R} (k)) | |}^{2} \end{matrix}

分别为第i+1帧左目/右目运动对象三角网格的三角形集合，同理

为第i+2帧左目/右目运动对象三角网格的三角形集合。v(t),v(j),v(k)分别为对应三角形的三个顶点。F^L,F^R分别为第i帧左目/右目运动对象网格各个三角形的顶点间的线性关系。δ_i+1为平滑因子，其计算方式为

δ_i+2的计算方式同理。

这三个能量项公共构成了时域一致的运动对象变形的联合能量约束。我们使用γ₁=50，γ₂=γ₃=1作为各能量项的参考权重。

步骤S240，在S230步之后，对于每一帧左目/右目运动对象对应网格的每一个顶点的坐标值，都有两个解，对其求平均值作为最终的变形结果。

其中，在步骤S300中所述的“时域一致的运动对象与动态场景颜色融合”,其作法为：利用中值坐标融合方法，计算运动对象网格内部顶点，相对于网格边界顶点的中值坐标；通过中值坐标以及运动对象边界点所对应像素，与动态场景对应位置的像素的颜色差值，计算运动对象内部顶点的颜色差值。对于非顶点的像素点的颜色差值，通过其所在的三角形网格面片的三个顶点的颜色差值，进行线性插值得到。将颜色差值与运动对象原像素颜色值相加，得到颜色融合结果。

本发明一种新型的时域一致性保持的双目立体视频场景融合方法，其优点和功效是：1.本发明提出的方法，简单有效，利用少量的用户交互，就可以提取出时域一致的、左右目对应一致的立体视频运动对象；2.本发明提出的方法，发掘了多种约束条件，以指导运动对象与动态场景的视差融合变形，使得运动对象符合动态场景的透视规则。并且，运动对象的变形结果平滑一致，可以有效避免“抖动”现象的发生。

附图说明：

图1是本发明的流程图；

图2是本发明的运动对象轮廓传播对象之间关联关系示意图；

图3是本发明的运动对象与动态场景的视差融合变形对象间关联关系示意图；

具体实施方式：

下面结合附图对本发明作详细说明。

图1是本发明的流程图，本发明的方法分为三个步骤：

步骤S100，立体视频A的运动对象轮廓传播与提取：用户采用画笔式等交互方式，选定立体视频A左目第一帧的运动对象的轮廓。将立体视频A左目第一帧的运动对象的轮廓，自动传播到右目第一帧的相应运动对象。以此为基准，将立体视频A左目/右目第一帧的运动对象轮廓，分别传播到左目/右目其他每一帧的相应运动对象，提取出立体视频A的运动对象。

步骤S200，时域一致的运动对象与动态场景时差融合变形：用户指定立体视频A的运动对象置入立体视频B的动态场景的位置。将立体视频A的运动对象区域的视差图，与立体视频B的视差图进行融合，并根据融合后的视差图，对运动对象进行时域一致的变形，以符合动态场景的透视规则。

在步骤S100中，立体视频A的运动对象轮廓传播与提取，包含以下步骤：

步骤S110，对立体视频A，分别计算其各帧左右目之间的SIFT流场，计算其左目/右目视频前后帧之间的SIFT流场。对于立体视频A左目第一帧和右目第一帧，计算其SIFT特征匹配点对，并使用RANSAC方法去除误匹配。

步骤S120，用户通过画笔等交互方式，在立体视频A左目第一帧上，选定运动对象的大致轮廓。以S110步骤中的落在运动对象轮廓内的SIFT匹配点，以及运动对象轮廓的采样点为网格顶点，对运动对象进行三角剖分，得到立体视频A左目第一帧的运动对象网格。利用Luo等人提出的方法，通过SIFT特征点匹配与三角网格畸变约束，将网格从立体视频A左目第一帧，传播到右目第一帧。

步骤S130，将立体视频A左目/右目第一帧的运动对象网格，传播到立体视频A的其余各帧的运动对象上，完成运动对象的提取。令

分别代表当前帧已知的左目/右目运动对象的三角网格的所有三角形的集合，

分别代表当前对应网格的所有顶点的集合。那么，运动对象轮廓的传播就是求取左目/右目下一帧运动对象的三角网格的顶点集合

的所有顶点的坐标。本发明通过最小化如下能量方程，完成运动对象的轮廓传播。

E=λ₁E₁+λ₂E₂+λ₃E₃+λ₄E₄

能量方程包含四个能量项，分别代表四种约束条件。其中，E₁为帧间特征点对应约束能量。通过SIFT流，可以将当前我们可以将当前帧的网格顶点传播到相应的帧上，本发明选取可信度较高的顶点进行传播。满足能量项：

E_{1} = Σ_{i = 1}^{n_{f}} {| | v_{n}^{L} (i) - v_{n}^{L} (s (i)) | |}^{2} + Σ_{i = 1}^{n_{f}} {| | v_{n}^{R} (i) - v_{n}^{R} (s (i)) | |}^{2}

这个能量项约束下一帧网格的各个顶点

应该尽可能的靠近当前帧各个顶点

通过SIFT流传播到下一帧的位置

n_f为可信的顶点的数目。本发明首选S110匹配的点对的对应顶点作为可信点，或者根据SIFT特征的特性，让用户选择可信度较高的点进行传播。

\begin{matrix} E_{2} = \underset{(v_{n}^{L} (i), v_{n}^{L} (j), v_{n}^{L} (k)) &Element; T_{n}^{L}}{Σ} {| | v_{n}^{L} (i) - F_{S}^{L} (v_{n}^{L} (j), v_{n}^{L} (k)) | |}^{2} \\ + \underset{(v_{n}^{R} (i), v_{n}^{R} (j), v_{n}^{R} (k)) &Element; T_{n}^{R}}{Σ} {| | v_{n}^{R} (i) - F_{S}^{R} (v_{n}^{R} (j), v_{n}^{R} (k)) | |}^{2} \end{matrix}

E₃为左右目网格的关联关系约束能量,如图2所示。对于双目立体视频而言，其左目/右目之间有相应的关联关系。如果让左目/右目运动对象的轮廓各自单独向下传播，则有很大的可能出现左目/右目网格对应不一致的情况，造成左目运动对象与右目运动对象的不一致。为了保持左目/右目网格之间的关联关系，保证左目/右目运动对象内容上的一致性，需要引入左目/右目之间关联关系的限制：

\begin{matrix} E_{3} = Σ_{i = 1}^{n_{f}} {| | v_{n}^{L} (i) - v_{n}^{R &RightArrow; L} (s (i)) | |}^{2} \\ + Σ_{i = 1}^{n_{f}} {| | v_{n}^{R} (i) - v_{n}^{L &RightArrow; R} (s (i)) | |}^{2} \end{matrix}

本发明约束右目下一帧的顶点位置

与计算所得的顶点位置

尽可能相近。同理，约束右目网格到左目网格的关联关系。

E₄为纵向对齐约束能量。对于双目立体图像，左右目的对应内容在图像空间的纵向是一致的。所以，本发明限制下一帧左目/右目网格对应顶点的y坐标尽量相同。能量项如下：

E_{4} = Σ_{i = 1}^{n} {(v_{n}^{L} (i) [y] - v_{n}^{R} (i) [y])}^{2}

图2是本发明的运动对象轮廓传播对象之间关联关系示意图。代表了左右目运动对象网格的关联关系约束。

N=γ₁N₁+γN₂₂+γ₃N₃

分别代表第i帧左目/右目运动对象变形后的网格顶点集合，

代表相应顶点的x坐标。

N_{2} = {| | c_{i + 1}^{l} - \frac{1}{| V^{L} |} \underset{v_{t}^{L} &Element; v_{i + 1}^{L}}{Σ} v_{t}^{L} | |}^{2} + {| | c_{i + 2}^{l} - \frac{1}{| V^{L} |} \underset{v_{t}^{L} &Element; V_{i + 2}^{L}}{Σ} v_{t}^{L} | |}^{2}

\begin{matrix} N_{3} = \underset{(v_{i + 1}^{L} (t), v_{i + 1}^{L} (j), v_{i + 1}^{L} (k) &Element; T_{i + 1}^{L})}{Σ} δ_{i + 1}^{L} {| | v_{i + 1}^{L} (t) - F^{L} (v_{i + 1}^{L} (j), v_{i + 1}^{L} (k)) | |}^{2} \\ + \underset{(v_{i + 1}^{R} (t), v_{i + 1}^{R} (j), v_{i + 1}^{R} (k)) &Element; T_{i + 1}^{R}}{Σ} δ_{i + 1}^{R} {| | v_{i + 1}^{R} (t) - F^{R} (v_{i + 1}^{R} (j), v_{i + 1}^{R} (k)) | |}^{2} \\ + \underset{(v_{i + 2}^{L} (t), v_{i + 2}^{L} (j), v_{i + 2}^{L} (k)) &Element; T_{i + 2}^{L}}{Σ} δ_{i + 2}^{L} {| | v_{i + 2}^{L} (t) - F^{L} (v_{i + 2}^{L} (j), v_{i + 2}^{L} (l)) | |}^{2} \\ + \underset{(v_{i + 2}^{R} (t), v_{i + 2}^{R} (j), v_{i + 2}^{R} (k)) &Element; T_{i + 2}^{R}}{Σ} δ_{i + 2}^{R} {| | v_{i + 2}^{R} (t) - F^{R} (v_{i + 2}^{R} (j), v_{i + 2}^{R} (k)) | |}^{2} \end{matrix}

δ_i+2的计算方式同理。

图3是本发明的运动对象与动态场景的视差融合变形对象间关联关系示意图。

综上所述，本发明公开了一种时域一致性保持的双目立体视频场景融合方法,可以将立体视频A的运动对象，融入立体视频B的动态场景，并保持颜色、视差和时域一致性。该方法分为三个步骤：首先将立体视频A左目第一帧的指定运动对象的轮廓，自动传播到立体视频A右目第一帧的相应运动对象，建立立体视频A的左目运动对象与右目运动对象之间的特征匹配关系，在SIFT流、左右目对象轮廓形变的联合约束下，将立体视频A左目/右目第一帧的运动对象轮廓，分别传播到左目/右目其他每一帧的相应运动对象，提取出立体视频A的运动对象；然后，将立体视频A的运动对象放置到立体视频B的动态场景中，并利用泊松融合算法得到融合后视差图序列，在视差、形变等条件的共同作用下，完成时域一致的视差融合变形；最后，利用中值坐标融合算法，实现立体视频A的运动对象与立体视频B的动态场景之间的时域一致颜色融合。本发明提出了两点创新之处，第一是时域一致的立体视频运动对象轮廓传播与提取方法；第二是运动对象与动态场景的时域一致的颜色、时差融合方法。本发明可以应用于视频图像处理、影视制作等领域。

Claims

1.一种时域一致性保持的双目立体视频场景融合方法，其特征在于：它包括如下步骤：

步骤S100，立体视频A的运动对象轮廓传播与提取：用户采用画笔式等交互方式，选定立体视频A左目第一帧的运动对象的轮廓，将立体视频A左目第一帧的运动对象的轮廓，自动传播到右目第一帧的相应运动对象；以此为基准，将立体视频A左目/右目第一帧的运动对象轮廓，分别传播到左目/右目其他每一帧的相应运动对象，提取出立体视频A的运动对象；

2.根据权利要求1所述的一种时域一致性保持的双目立体视频场景融合方法，其特征在于：在步骤S100中所述的“立体视频A的运动对象轮廓传播与提取”，其作法包含以下步骤：

步骤S110，对立体视频A，分别计算其各帧左右目之间的SIFT流场，计算其左目/右目视频前后帧之间的SIFT流场；对于立体视频A左目第一帧和右目第一帧，计算其SIFT特征匹配点对，并使用随机抽样一致即RANSAC方法去除误匹配；

步骤S120，用户通过画笔等交互方式，在立体视频A左目第一帧上，选定运动对象的大致轮廓；以S110步骤中的落在运动对象轮廓内的SIFT匹配点，以及运动对象轮廓的采样点为网格顶点，对运动对象进行三角剖分，得到立体视频A左目第一帧的运动对象网格，利用Luo人提出的方法，通过SIFT特征点匹配与三角网格畸变约束，将网格从立体视频A左目第一帧，传播到右目第一帧；

的顶点集合

的所有顶点的坐标；本发明通过最小化如下能量方程，完成运动对象的轮廓传播；

E=λ₁E₁+λ₂E₂+λ₃E₃+λ₄E₄

能量方程包含四个能量项，分别代表四种约束条件，其中，E₁为帧间特征点对应约束能量，通过SIFT流，我们将当前帧的网格顶点传播到相应的帧上，选取可信度较高的顶点进行传播，满足能量项：

E_{1} = Σ_{i = 1}^{n_{f}} {| | v_{n}^{L} (i) - v_{n}^{L} (s (i)) | |}^{2} + Σ_{i = 1}^{n_{f}} {| | v_{n}^{R} (i) - v_{n}^{R} (s (i)) | |}^{2}

这个能量项约束下一帧网格的各个顶点

应该尽可能的靠近当前帧各个顶点通过SIFT流传播到下一帧的位置

n_f为可信的顶点的数目；首选步骤S110匹配的点对的对应顶点作为可信点，及根据SIFT特征的特性，让用户选择可信度较高的点进行传播；

E₂为三角网格畸变约束能量，网格从上一帧传播到下一帧，其形状不应该发生剧烈的变化；对于网格的一个三角形，有(v_i,v_j,v_k)三个顶点，顶点vi用另外两个顶点v_j,v_k线性表示v_i=F_S(v_j,v_k)，控制三角网格畸变能量为:

\begin{matrix} E_{2} = \underset{(v_{n}^{L} (i), v_{n}^{L} (j), v_{n}^{L} (k)) &Element; T_{n}^{L}}{Σ} {| | v_{n}^{L} (i) - F_{S}^{L} (v_{n}^{L} (j), v_{n}^{L} (k)) | |}^{2} \\ + \underset{(v_{n}^{R} (i), v_{n}^{R} (j), v_{n}^{R} (k)) &Element; T_{n}^{R}}{Σ} {| | v_{n}^{R} (i) - F_{S}^{R} (v_{n}^{R} (j), v_{n}^{R} (k)) | |}^{2} \end{matrix}

分别代表左右目对应三角形各个顶点间的线性关系，该能量项约束了下一帧三角网格中的每个三角形的形状尽可能与当前帧对应的三角形的形状相似；

E₃为左右目网格的关联关系约束能量,对于双目立体视频而言，其左目/右目之间有相应的关联关系；如果让左目/右目运动对象的轮廓各自单独向下传播，则能出现左目/右目网格对应不一致的情况，造成左目运动对象与右目运动对象的不一致；为了保持左目/右目网格之间的关联关系，保证左目/右目运动对象内容上的一致性，需要引入左目/右目之间关联关系的限制：

\begin{matrix} E_{3} = Σ_{i = 1}^{n_{f}} {| | v_{n}^{L} (i) - v_{n}^{R &RightArrow; L} (s (i)) | |}^{2} \\ + Σ_{i = 1}^{n_{f}} {| | v_{n}^{R} (i) - v_{n}^{L &RightArrow; R} (s (i)) | |}^{2} \end{matrix}

由于下一帧的左右目网格的位置都不可知，所以不能直接建立下一帧左目右目网格之间的关联关系；所以，通过当前帧网格的顶点位置坐标，经过两次传递后得到的位置作为约束优化的方向；以从左目网格到右目网格的关联关系约束为例，对于当前帧左目网格的可信顶点

约束右目下一帧的顶点位置

与计算所得的顶点位置

尽可能相近；同理，约束右目网格到左目网格的关联关系；

E₄为纵向对齐约束能量，对于双目立体图像，左右目的对应内容在图像空间的纵向是一致的，所以，限制下一帧左目/右目网格对应顶点的y坐标尽量相同；能量项如下：

E_{4} = Σ_{i = 1}^{n} {(v_{n}^{L} (i) [y] - v_{n}^{R} (i) [y])}^{2}

3.根据权利要求1所述的一种时域一致性保持的双目立体视频场景融合方法，其特征在于：在步骤S200中所述的“时域一致的运动对象与动态场景视差融合变形”,其作法包含以下步骤：

步骤S210，计算立体视频A和立体视频B的每一帧的视差图；利用泊松融合及其他融合方法，将立体视频A的运动对象对应区域的视差图，与立体视频B的视差图进行融合，得到融合后视差图序列，表示为D={d₁,d₂,d₃...};

步骤S220，利用Luo人提出的基于视角感知变形的方法，对第一帧的运动对象与动态场景进行视差融合变形，将其结果作为初始解；

步骤S230，对于剩余帧的运动对象与动态场景，自动进行时域一致的视差调整与变形；假定第i帧的运动对象变形结果已知，令V_i ^L,V_i ^R分别为第i帧左目/右目运动对象的对应三角网格的顶点集合，第i+1帧和第i+2帧的运动对象变形结果通过最小化如下能量方程实现：

N=γ₁N₁+γN₂₂+γ₃N₃

式中，N代表总体能量，N₁代表视差对应一致约束能量，N₂代表放置位置约束能量，N₃代表运动对象网格畸变约束能量，γ₁、γ₂、γ₃代表各个能量项的权重；

能量方程包含三个能量项，分别代表三种约束条件，其中，N₁是视差对应一致约束能量，用来约束运动对象网格各顶点的视差尽量与融合后视差图的对应位置的视差保持一致；

分别代表第i帧左目/右目运动对象变形后的网格顶点集合，

代表第i+1帧左目运动对象变形前网格顶点集合，第i+2帧的符号表示同第i+1帧，

代表相应顶点的x坐标；

N₂是放置位置约束能量，用来限制左目运动对象的几何中心点的位置尽量与变形前的左目运动对象的几何中心点一致；

N_{2} = {| | c_{i + 1}^{l} - \frac{1}{| V^{L} |} \underset{v_{t}^{L} &Element; v_{i + 1}^{L}}{Σ} v_{t}^{L} | |}^{2} + {| | c_{i + 2}^{l} - \frac{1}{| V^{L} |} \underset{v_{t}^{L} &Element; V_{i + 2}^{L}}{Σ} v_{t}^{L} | |}^{2}

分别是第i+1帧左目运动对象和第i+2帧左目运动对象变形前的网格几何中心点；N₃是运动对象网格畸变约束能量，用来限制前后和左右帧的变形不能过于剧烈；

\begin{matrix} N_{3} = \underset{(v_{i + 1}^{L} (t), v_{i + 1}^{L} (j), v_{i + 1}^{L} (k) &Element; T_{i + 1}^{L})}{Σ} δ_{i + 1}^{L} {| | v_{i + 1}^{L} (t) - F^{L} (v_{i + 1}^{L} (j), v_{i + 1}^{L} (k)) | |}^{2} \\ + \underset{(v_{i + 1}^{R} (t), v_{i + 1}^{R} (j), v_{i + 1}^{R} (k)) &Element; T_{i + 1}^{R}}{Σ} δ_{i + 1}^{R} {| | v_{i + 1}^{R} (t) - F^{R} (v_{i + 1}^{R} (j), v_{i + 1}^{R} (k)) | |}^{2} \\ + \underset{(v_{i + 2}^{L} (t), v_{i + 2}^{L} (j), v_{i + 2}^{L} (k)) &Element; T_{i + 2}^{L}}{Σ} δ_{i + 2}^{L} {| | v_{i + 2}^{L} (t) - F^{L} (v_{i + 2}^{L} (j), v_{i + 2}^{L} (l)) | |}^{2} \\ + \underset{(v_{i + 2}^{R} (t), v_{i + 2}^{R} (j), v_{i + 2}^{R} (k)) &Element; T_{i + 2}^{R}}{Σ} δ_{i + 2}^{R} {| | v_{i + 2}^{R} (t) - F^{R} (v_{i + 2}^{R} (j), v_{i + 2}^{R} (k)) | |}^{2} \end{matrix}

为第i+2帧左目/右目运动对象三角网格的三角形集合，v(t),v(j),v(k)分别为对应三角形的三个顶点，F^L,F^R分别为第i帧左目/右目运动对象网格各个三角形的顶点间的线性关系，δ_i+1为平滑因子，其计算方式为δ_i+2的计算方式同理；

这三个能量项公共构成了时域一致的运动对象变形的联合能量约束，我们使用γ₁=50，γ₂=γ₃=1作为各能量项的参考权重；

4.根据权利要求1所述的一种时域一致性保持的双目立体视频场景融合方法，其特征在于：在步骤S300中所述的“时域一致的运动对象与动态场景颜色融合”,其作法为：利用中值坐标融合方法，计算运动对象网格内部顶点，相对于网格边界顶点的中值坐标；通过中值坐标以及运动对象边界点所对应像素，与动态场景对应位置的像素的颜色差值，计算运动对象内部顶点的颜色差值；对于非顶点的像素点的颜色差值，通过其所在的三角形网格面片的三个顶点的颜色差值，进行线性插值得到；将颜色差值与运动对象原像素颜色值相加，得到颜色融合结果。