CN103761734A - 一种时域一致性保持的双目立体视频场景融合方法 - Google Patents
一种时域一致性保持的双目立体视频场景融合方法 Download PDFInfo
- Publication number
- CN103761734A CN103761734A CN201410008677.XA CN201410008677A CN103761734A CN 103761734 A CN103761734 A CN 103761734A CN 201410008677 A CN201410008677 A CN 201410008677A CN 103761734 A CN103761734 A CN 103761734A
- Authority
- CN
- China
- Prior art keywords
- order
- moving objects
- frame
- grid
- dimensional video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/261—Image signal generators with monoscopic-to-stereoscopic image conversion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/122—Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/15—Processing image signals for colour aspects of image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/361—Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0085—Motion estimation from stereoscopic image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/003—Aspects relating to the "2D+depth" image format
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/005—Aspects relating to the "3D+depth" image format
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
一种时域一致性保持的双目立体视频场景融合方法,步骤如下:1、立体视频A的运动对象轮廓传播与提取;2、时域一致的运动对象与动态场景时差融合变形;3、时域一致的运动对象与动态场景颜色融合,利用中值坐标融合方法,对运动对象与动态场景进行颜色融合。本发明提出的方法,简单有效,利用少量的用户交互,就可以提取出时域一致的、左右目对应一致的立体视频运动对象;发掘了多种约束条件,以指导运动对象与动态场景的视差融合变形,使得运动对象符合动态场景的透视规则。并且,运动对象的变形结果平滑一致,可以有效避免“抖动”现象的发生。
Description
技术领域
本发明是一种新型的时域一致性保持的双目立体视频场景融合方法,属于视频图像处理、双目立体视觉技术领域。
背景技术
随着3D影视技术的发展,双目视频图像的编辑方法近年来受到了越来越多的关注。然而,将现有的2D视频图像编辑方法扩展到双目视频图像上,由于要处理视差等额外信息,使之成为一个较难的问题。
双目立体视频场景融合是指,给定两段双目立体视频,将立体视频A的运动对象,融入立体视频B的动态场景,并保持颜色、视差和时域一致性,得到双目立体视频场景融合结果。
计算机视觉和计算机图形学领域对于2D视频图像编辑方法与双目视频图像编辑方法已有较多文献,我们不试图尽列所有方法。重点介绍视频时域一致性编辑的相关工作,也会涉及视频图像场景融合方法和双目图像编辑方法。
普通单目视频编辑方法近年来已经有较多的研究。2002年,Chuang等人将双向光流应用到三分图在视频帧间的传播算法中。2009年,Bai等人利用一组局部分类器配合光流算法得到了时域一致性方面更优的结果。2010年,Bai等人又将颜色流应用到视频对象精准提取的三分图传播步骤中。这些方法对于普通单目视频编辑有较好的效果。但是,这些蒙版(mask)传播方法并不能直接应用到双目立体视频编辑方法中。2008年Sand等人提出了一种实用的长期跟踪方法。2009年Lee等人利用尺度不变特征转换(即SIFT)流场,提出了一种视频去抖算法。Bhat等人2010年将光流算法应用到了多种梯度域视频编辑算法中。2012年,Chen等人将局部线性结构保持的思想应用到了视频编辑传播中。这些时域一致的视频编辑算法主要关注对象跟踪和内容编辑,本发明的目标是同时编辑双目立体视频对象的形状和颜色。
视频图像场景融合方法是一种经典的视频图像编辑方法。2003年Pérez等人提出泊松融合方法通过求解泊松方程将融合区域无缝的融入新场景中。2009年Jia等人利用精准对象提取进一步提高了泊松融合的效果。2009年Farbman等人利用中值坐标大大提高了融合速率。2010年Xie等人将中值坐标融合扩展到了单目视频融合上。Chen等人2013年利用光流将中值坐标融合扩展到了视频合成上。这些方法并没有保持提取运动对象的时域一致性。
双目视频图像编辑方法同样与本发明的工作相关。Lo等人2010年提出了一种名为“广告牌”的双目图像对象场景合成方法。Luo等人2012年提出了一种迭代的双目图像场景融合方法,能够同时调整形变与颜色。2012年Niu等人提出了一种根据用户交互和视差图的双目图像变形方法。这些方法都是针对双目图像的编辑操作。2008年Wang等人,2006年Weng等人分别提出了一种图像变形方法。2010年Lang等人提出了一种视频重定位(video retargeting)方法,该方法利用光流保证了帧间的变形传播。
发明内容
本发明的目的是提出一种新型的时域一致性保持的双目立体视频场景融合方法。为完成本发明的目的,本发明采用的技术方案是:首先提取立体视频A的运动对象。利用SIFT特征匹配算法,将立体视频A左目第一帧的指定运动对象的轮廓,自动传播到立体视频A右目第一帧的相应运动对象,然后建立立体视频A的左目运动对象与右目运动对象之间的特征匹配关系,在SIFT流、左右目对象轮廓形变的联合约束下,将立体视频A左目/右目第一帧的运动对象轮廓,分别传播到左目/右目其他每一帧的相应运动对象,提取出立体视频A的运动对象;然后,将立体视频A的运动对象放置到立体视频B的动态场景中,进行时域一致的运动对象与动态场景的视差融合变形。利用泊松融合等融合方法,得到运动对象与动态场景的融合后视差图序列,根据融合后视差图,指导运动对象变形;最后,利用中值坐标融合等融合方法,对运动对象与动态场景进行时域一致的颜色融合。其具体步骤如下所述。
本发明一种时域一致性保持的双目立体视频场景融合方法,包括如下步骤:
步骤S100,立体视频A的运动对象轮廓传播与提取:用户采用画笔式等交互方式,选定立体视频A左目第一帧的运动对象的轮廓,将立体视频A左目第一帧的运动对象的轮廓,自动传播到右目第一帧的相应运动对象;以此为基准,将立体视频A左目/右目第一帧的运动对象轮廓,分别传播到左目/右目其他每一帧的相应运动对象,提取出立体视频A的运动对象;(注:本发明中,如不经特别说明,左目、右目的处理顺序可以交替,为表意清楚,本发明中,均以左目为例)
步骤S200,时域一致的运动对象与动态场景时差融合变形:用户指定立体视频A的运动对象置入立体视频B的动态场景的位置,将立体视频A的运动对象区域的视差图,与立体视频B的视差图进行融合,并根据融合后的视差图,对运动对象进行时域一致的变形,以符合动态场景的透视规则;
步骤S300,时域一致的运动对象与动态场景颜色融合:利用中值坐标融合方法,对运动对象与动态场景进行颜色融合。
其中,在步骤S100中所述的“立体视频A的运动对象轮廓传播与提取”,其作法包含以下步骤:
步骤S110,对立体视频A,分别计算其各帧左右目之间的SIFT流场,计算其左目/右目视频前后帧之间的SIFT流场;对于立体视频A左目第一帧和右目第一帧,计算其SIFT特征匹配点对,并使用随机抽样一致(即RANSAC)方法去除误匹配;
步骤S120,用户通过画笔等交互方式,在立体视频A左目第一帧上,选定运动对象的大致轮廓;以S110步骤中的落在运动对象轮廓内的SIFT匹配点,以及运动对象轮廓的采样点为网格顶点,对运动对象进行三角剖分,得到立体视频A左目第一帧的运动对象网格,利用Luo等人提出的方法,通过SIFT特征点匹配与三角网格畸变约束,将网格从立体视频A左目第一帧,传播到右目第一帧;
步骤S130,将立体视频A左目/右目第一帧的运动对象网格,传播到立体视频A的其余各帧的运动对象上,完成运动对象的提取;令分别代表当前帧已知的左目/右目运动对象的三角网格的所有三角形的集合,分别代表当前对应网格的所有顶点的集合,那么,运动对象轮廓的传播就是求取左目/右目下一帧运动对象的三角网格的顶点集合的所有顶点的坐标;本发明通过最小化如下能量方程,完成运动对象的轮廓传播;
E=λ1E1+λ2E2+λ3E3+λ4E4
式中,E代表总体能量,E1代表帧间特征点对应约束能量,E2代表三角网格畸变约束能量,E3代表左右目网格的关联关系约束能量,E4代表纵向对齐约束能量,λ1、λ2、λ3、λ4代表各个能量项的权重;
能量方程包含四个能量项,分别代表四种约束条件,其中,E1为帧间特征点对应约束能量,通过SIFT流,我们可以将当前帧的网格顶点传播到相应的帧上,本发明选取可信度较高的顶点进行传播,满足能量项:
这个能量项约束下一帧网格的各个顶点应该尽可能的靠近当前帧各个顶点通过SIFT流传播到下一帧的位置nf为可信的顶点的数目。本发明首选步骤S110匹配的点对的对应顶点作为可信点,或者根据SIFT特征的特性,让用户选择可信度较高的点进行传播;
E2为三角网格畸变约束能量,网格从上一帧传播到下一帧,其形状不应该发生剧烈的变化。对于网格的一个三角形,有(vi,vj,vk)三个顶点。顶点vi可以用另外两个顶点vj,vk线性表示vi=FS(vj,vk)。控制三角网格畸变能量为:
E3为左右目网格的关联关系约束能量,对于双目立体视频而言,其左目/右目之间有相应的关联关系。如果让左目/右目运动对象的轮廓各自单独向下传播,则有很大的可能出现左目/右目网格对应不一致的情况,造成左目运动对象与右目运动对象的不一致。为了保持左目/右目网格之间的关联关系,保证左目/右目运动对象内容上的一致性,需要引入左目/右目之间关联关系的限制:
由于下一帧的左右目网格的位置都不可知,所以不能直接建立下一帧左目右目网格之间的关联关系。所以,本发明通过当前帧网格的顶点位置坐标,经过两次传递后得到的位置作为约束优化的方向。以从左目网格到右目网格的关联关系约束为例,对于当前帧左目网格的可信顶点首先通过左目当前帧与左目下一帧之间的SIFT流,传播到左目下一帧的位置s(i),再通过左目下一帧与右目下一帧之间的SIFT流,将s(i)传播到右目的相应位置本发明约束右目下一帧的顶点位置与计算所得的顶点位置尽可能相近。同理,约束右目网格到左目网格的关联关系。
E4为纵向对齐约束能量,对于双目立体图像,左右目的对应内容在图像空间的纵向是一致的,所以,本发明限制下一帧左目/右目网格对应顶点的y坐标尽量相同;能量项如下:
这四个能量项共同构成了运动对象轮廓传播的联合能量约束,我们使用λ1=λ3=λ4=10,λ2=1作为各能量项的参考权重。
其中,在步骤S200中所述的“时域一致的运动对象与动态场景视差融合变形”,其作法包含以下步骤:
步骤S210,计算立体视频A和立体视频B的每一帧的视差图。利用泊松融合或其他融合方法,将立体视频A的运动对象对应区域的视差图,与立体视频B的视差图进行融合,得到融合后视差图序列,可以表示为D={d1,d2,d3...}。
步骤S220,利用Luo等人提出的基于视角感知变形的方法,对第一帧的运动对象与动态场景进行视差融合变形,将其结果作为初始解。
步骤S230,对于剩余帧的运动对象与动态场景,自动进行时域一致的视差调整与变形。假定第i帧的运动对象变形结果已知。令Vi L,Vi R分别为第i帧左目/右目运动对象的对应三角网格的顶点集合。第i+1帧和第i+2帧的运动对象变形结果通过最小化如下能量方程实现:
N=γ1N1+γN22+γ3N3
式中,N代表总体能量,N1代表视差对应一致约束能量,N2代表放置位置约束能量,N3代表运动对象网格畸变约束能量。γ1、γ2、γ3代表各个能量项的权重。
能量方程包含三个能量项,分别代表三种约束条件。其中,N1是视差对应一致约束能量,用来约束运动对象网格各顶点的视差尽量与融合后视差图的对应位置的视差保持一致。
N2是放置位置约束能量,用来限制左目运动对象的几何中心点的位置尽量与变形前的左目运动对象的几何中心点一致。
N3是运动对象网格畸变约束能量,用来限制前后和左右帧的变形不能过于剧烈。
分别为第i+1帧左目/右目运动对象三角网格的三角形集合,同理为第i+2帧左目/右目运动对象三角网格的三角形集合。v(t),v(j),v(k)分别为对应三角形的三个顶点。FL,FR分别为第i帧左目/右目运动对象网格各个三角形的顶点间的线性关系。δi+1为平滑因子,其计算方式为δi+2的计算方式同理。
这三个能量项公共构成了时域一致的运动对象变形的联合能量约束。我们使用γ1=50,γ2=γ3=1作为各能量项的参考权重。
步骤S240,在S230步之后,对于每一帧左目/右目运动对象对应网格的每一个顶点的坐标值,都有两个解,对其求平均值作为最终的变形结果。
其中,在步骤S300中所述的“时域一致的运动对象与动态场景颜色融合”,其作法为:利用中值坐标融合方法,计算运动对象网格内部顶点,相对于网格边界顶点的中值坐标;通过中值坐标以及运动对象边界点所对应像素,与动态场景对应位置的像素的颜色差值,计算运动对象内部顶点的颜色差值。对于非顶点的像素点的颜色差值,通过其所在的三角形网格面片的三个顶点的颜色差值,进行线性插值得到。将颜色差值与运动对象原像素颜色值相加,得到颜色融合结果。
本发明一种新型的时域一致性保持的双目立体视频场景融合方法,其优点和功效是:1.本发明提出的方法,简单有效,利用少量的用户交互,就可以提取出时域一致的、左右目对应一致的立体视频运动对象;2.本发明提出的方法,发掘了多种约束条件,以指导运动对象与动态场景的视差融合变形,使得运动对象符合动态场景的透视规则。并且,运动对象的变形结果平滑一致,可以有效避免“抖动”现象的发生。
附图说明:
图1是本发明的流程图;
图2是本发明的运动对象轮廓传播对象之间关联关系示意图;
图3是本发明的运动对象与动态场景的视差融合变形对象间关联关系示意图;
具体实施方式:
下面结合附图对本发明作详细说明。
图1是本发明的流程图,本发明的方法分为三个步骤:
步骤S100,立体视频A的运动对象轮廓传播与提取:用户采用画笔式等交互方式,选定立体视频A左目第一帧的运动对象的轮廓。将立体视频A左目第一帧的运动对象的轮廓,自动传播到右目第一帧的相应运动对象。以此为基准,将立体视频A左目/右目第一帧的运动对象轮廓,分别传播到左目/右目其他每一帧的相应运动对象,提取出立体视频A的运动对象。
步骤S200,时域一致的运动对象与动态场景时差融合变形:用户指定立体视频A的运动对象置入立体视频B的动态场景的位置。将立体视频A的运动对象区域的视差图,与立体视频B的视差图进行融合,并根据融合后的视差图,对运动对象进行时域一致的变形,以符合动态场景的透视规则。
步骤S300,时域一致的运动对象与动态场景颜色融合:利用中值坐标融合方法,对运动对象与动态场景进行颜色融合。
在步骤S100中,立体视频A的运动对象轮廓传播与提取,包含以下步骤:
步骤S110,对立体视频A,分别计算其各帧左右目之间的SIFT流场,计算其左目/右目视频前后帧之间的SIFT流场。对于立体视频A左目第一帧和右目第一帧,计算其SIFT特征匹配点对,并使用RANSAC方法去除误匹配。
步骤S120,用户通过画笔等交互方式,在立体视频A左目第一帧上,选定运动对象的大致轮廓。以S110步骤中的落在运动对象轮廓内的SIFT匹配点,以及运动对象轮廓的采样点为网格顶点,对运动对象进行三角剖分,得到立体视频A左目第一帧的运动对象网格。利用Luo等人提出的方法,通过SIFT特征点匹配与三角网格畸变约束,将网格从立体视频A左目第一帧,传播到右目第一帧。
步骤S130,将立体视频A左目/右目第一帧的运动对象网格,传播到立体视频A的其余各帧的运动对象上,完成运动对象的提取。令分别代表当前帧已知的左目/右目运动对象的三角网格的所有三角形的集合,分别代表当前对应网格的所有顶点的集合。那么,运动对象轮廓的传播就是求取左目/右目下一帧运动对象的三角网格的顶点集合的所有顶点的坐标。本发明通过最小化如下能量方程,完成运动对象的轮廓传播。
E=λ1E1+λ2E2+λ3E3+λ4E4
能量方程包含四个能量项,分别代表四种约束条件。其中,E1为帧间特征点对应约束能量。通过SIFT流,可以将当前我们可以将当前帧的网格顶点传播到相应的帧上,本发明选取可信度较高的顶点进行传播。满足能量项:
这个能量项约束下一帧网格的各个顶点应该尽可能的靠近当前帧各个顶点通过SIFT流传播到下一帧的位置nf为可信的顶点的数目。本发明首选S110匹配的点对的对应顶点作为可信点,或者根据SIFT特征的特性,让用户选择可信度较高的点进行传播。
E2为三角网格畸变约束能量,网格从上一帧传播到下一帧,其形状不应该发生剧烈的变化。对于网格的一个三角形,有(vi,vj,vk)三个顶点。顶点vi可以用另外两个顶点vj,vk线性表示vi=FS(vj,vk)。控制三角网格畸变能量为:
E3为左右目网格的关联关系约束能量,如图2所示。对于双目立体视频而言,其左目/右目之间有相应的关联关系。如果让左目/右目运动对象的轮廓各自单独向下传播,则有很大的可能出现左目/右目网格对应不一致的情况,造成左目运动对象与右目运动对象的不一致。为了保持左目/右目网格之间的关联关系,保证左目/右目运动对象内容上的一致性,需要引入左目/右目之间关联关系的限制:
由于下一帧的左右目网格的位置都不可知,所以不能直接建立下一帧左目右目网格之间的关联关系。所以,本发明通过当前帧网格的顶点位置坐标,经过两次传递后得到的位置作为约束优化的方向。以从左目网格到右目网格的关联关系约束为例,对于当前帧左目网格的可信顶点首先通过左目当前帧与左目下一帧之间的SIFT流,传播到左目下一帧的位置s(i),再通过左目下一帧与右目下一帧之间的SIFT流,将s(i)传播到右目的相应位置本发明约束右目下一帧的顶点位置与计算所得的顶点位置尽可能相近。同理,约束右目网格到左目网格的关联关系。
E4为纵向对齐约束能量。对于双目立体图像,左右目的对应内容在图像空间的纵向是一致的。所以,本发明限制下一帧左目/右目网格对应顶点的y坐标尽量相同。能量项如下:
这四个能量项共同构成了运动对象轮廓传播的联合能量约束,我们使用λ1=λ3=λ4=10,λ2=1作为各能量项的参考权重。
图2是本发明的运动对象轮廓传播对象之间关联关系示意图。代表了左右目运动对象网格的关联关系约束。
其中,在步骤S200中所述的“时域一致的运动对象与动态场景视差融合变形”,其作法包含以下步骤:
步骤S210,计算立体视频A和立体视频B的每一帧的视差图。利用泊松融合或其他融合方法,将立体视频A的运动对象对应区域的视差图,与立体视频B的视差图进行融合,得到融合后视差图序列,可以表示为D={d1,d2,d3...}。
步骤S220,利用Luo等人提出的基于视角感知变形的方法,对第一帧的运动对象与动态场景进行视差融合变形,将其结果作为初始解。
步骤S230,对于剩余帧的运动对象与动态场景,自动进行时域一致的视差调整与变形。假定第i帧的运动对象变形结果已知。令Vi L,Vi R分别为第i帧左目/右目运动对象的对应三角网格的顶点集合。第i+1帧和第i+2帧的运动对象变形结果通过最小化如下能量方程实现:
N=γ1N1+γN22+γ3N3
式中,N代表总体能量,N1代表视差对应一致约束能量,N2代表放置位置约束能量,N3代表运动对象网格畸变约束能量。γ1、γ2、γ3代表各个能量项的权重。
能量方程包含三个能量项,分别代表三种约束条件。其中,N1是视差对应一致约束能量,用来约束运动对象网格各顶点的视差尽量与融合后视差图的对应位置的视差保持一致。
N2是放置位置约束能量,用来限制左目运动对象的几何中心点的位置尽量与变形前的左目运动对象的几何中心点一致。
N3是运动对象网格畸变约束能量,用来限制前后和左右帧的变形不能过于剧烈。
分别为第i+1帧左目/右目运动对象三角网格的三角形集合,同理为第i+2帧左目/右目运动对象三角网格的三角形集合。v(t),v(j),v(k)分别为对应三角形的三个顶点。FL,FR分别为第i帧左目/右目运动对象网格各个三角形的顶点间的线性关系。δi+1为平滑因子,其计算方式为δi+2的计算方式同理。
这三个能量项公共构成了时域一致的运动对象变形的联合能量约束。我们使用γ1=50,γ2=γ3=1作为各能量项的参考权重。
步骤S240,在S230步之后,对于每一帧左目/右目运动对象对应网格的每一个顶点的坐标值,都有两个解,对其求平均值作为最终的变形结果。
图3是本发明的运动对象与动态场景的视差融合变形对象间关联关系示意图。
综上所述,本发明公开了一种时域一致性保持的双目立体视频场景融合方法,可以将立体视频A的运动对象,融入立体视频B的动态场景,并保持颜色、视差和时域一致性。该方法分为三个步骤:首先将立体视频A左目第一帧的指定运动对象的轮廓,自动传播到立体视频A右目第一帧的相应运动对象,建立立体视频A的左目运动对象与右目运动对象之间的特征匹配关系,在SIFT流、左右目对象轮廓形变的联合约束下,将立体视频A左目/右目第一帧的运动对象轮廓,分别传播到左目/右目其他每一帧的相应运动对象,提取出立体视频A的运动对象;然后,将立体视频A的运动对象放置到立体视频B的动态场景中,并利用泊松融合算法得到融合后视差图序列,在视差、形变等条件的共同作用下,完成时域一致的视差融合变形;最后,利用中值坐标融合算法,实现立体视频A的运动对象与立体视频B的动态场景之间的时域一致颜色融合。本发明提出了两点创新之处,第一是时域一致的立体视频运动对象轮廓传播与提取方法;第二是运动对象与动态场景的时域一致的颜色、时差融合方法。本发明可以应用于视频图像处理、影视制作等领域。
Claims (4)
1.一种时域一致性保持的双目立体视频场景融合方法,其特征在于:它包括如下步骤:
步骤S100,立体视频A的运动对象轮廓传播与提取:用户采用画笔式等交互方式,选定立体视频A左目第一帧的运动对象的轮廓,将立体视频A左目第一帧的运动对象的轮廓,自动传播到右目第一帧的相应运动对象;以此为基准,将立体视频A左目/右目第一帧的运动对象轮廓,分别传播到左目/右目其他每一帧的相应运动对象,提取出立体视频A的运动对象;
步骤S200,时域一致的运动对象与动态场景时差融合变形:用户指定立体视频A的运动对象置入立体视频B的动态场景的位置,将立体视频A的运动对象区域的视差图,与立体视频B的视差图进行融合,并根据融合后的视差图,对运动对象进行时域一致的变形,以符合动态场景的透视规则;
步骤S300,时域一致的运动对象与动态场景颜色融合:利用中值坐标融合方法,对运动对象与动态场景进行颜色融合。
2.根据权利要求1所述的一种时域一致性保持的双目立体视频场景融合方法,其特征在于:在步骤S100中所述的“立体视频A的运动对象轮廓传播与提取”,其作法包含以下步骤:
步骤S110,对立体视频A,分别计算其各帧左右目之间的SIFT流场,计算其左目/右目视频前后帧之间的SIFT流场;对于立体视频A左目第一帧和右目第一帧,计算其SIFT特征匹配点对,并使用随机抽样一致即RANSAC方法去除误匹配;
步骤S120,用户通过画笔等交互方式,在立体视频A左目第一帧上,选定运动对象的大致轮廓;以S110步骤中的落在运动对象轮廓内的SIFT匹配点,以及运动对象轮廓的采样点为网格顶点,对运动对象进行三角剖分,得到立体视频A左目第一帧的运动对象网格,利用Luo人提出的方法,通过SIFT特征点匹配与三角网格畸变约束,将网格从立体视频A左目第一帧,传播到右目第一帧;
步骤S130,将立体视频A左目/右目第一帧的运动对象网格,传播到立体视频A的其余各帧的运动对象上,完成运动对象的提取;令分别代表当前帧已知的左目/右目运动对象的三角网格的所有三角形的集合,分别代表当前对应网格的所有顶点的集合,那么,运动对象轮廓的传播就是求取左目/右目下一帧运动对象的三角网格的顶点集合的所有顶点的坐标;本发明通过最小化如下能量方程,完成运动对象的轮廓传播;
E=λ1E1+λ2E2+λ3E3+λ4E4
式中,E代表总体能量,E1代表帧间特征点对应约束能量,E2代表三角网格畸变约束能量,E3代表左右目网格的关联关系约束能量,E4代表纵向对齐约束能量,λ1、λ2、λ3、λ4代表各个能量项的权重;
能量方程包含四个能量项,分别代表四种约束条件,其中,E1为帧间特征点对应约束能量,通过SIFT流,我们将当前帧的网格顶点传播到相应的帧上,选取可信度较高的顶点进行传播,满足能量项:
这个能量项约束下一帧网格的各个顶点应该尽可能的靠近当前帧各个顶点通过SIFT流传播到下一帧的位置nf为可信的顶点的数目;首选步骤S110匹配的点对的对应顶点作为可信点,及根据SIFT特征的特性,让用户选择可信度较高的点进行传播;
E2为三角网格畸变约束能量,网格从上一帧传播到下一帧,其形状不应该发生剧烈的变化;对于网格的一个三角形,有(vi,vj,vk)三个顶点,顶点vi用另外两个顶点vj,vk线性表示vi=FS(vj,vk),控制三角网格畸变能量为:
E3为左右目网格的关联关系约束能量,对于双目立体视频而言,其左目/右目之间有相应的关联关系;如果让左目/右目运动对象的轮廓各自单独向下传播,则能出现左目/右目网格对应不一致的情况,造成左目运动对象与右目运动对象的不一致;为了保持左目/右目网格之间的关联关系,保证左目/右目运动对象内容上的一致性,需要引入左目/右目之间关联关系的限制:
由于下一帧的左右目网格的位置都不可知,所以不能直接建立下一帧左目右目网格之间的关联关系;所以,通过当前帧网格的顶点位置坐标,经过两次传递后得到的位置作为约束优化的方向;以从左目网格到右目网格的关联关系约束为例,对于当前帧左目网格的可信顶点首先通过左目当前帧与左目下一帧之间的SIFT流,传播到左目下一帧的位置s(i),再通过左目下一帧与右目下一帧之间的SIFT流,将s(i)传播到右目的相应位置约束右目下一帧的顶点位置与计算所得的顶点位置尽可能相近;同理,约束右目网格到左目网格的关联关系;
E4为纵向对齐约束能量,对于双目立体图像,左右目的对应内容在图像空间的纵向是一致的,所以,限制下一帧左目/右目网格对应顶点的y坐标尽量相同;能量项如下:
这四个能量项共同构成了运动对象轮廓传播的联合能量约束,我们使用λ1=λ3=λ4=10,λ2=1作为各能量项的参考权重。
3.根据权利要求1所述的一种时域一致性保持的双目立体视频场景融合方法,其特征在于:在步骤S200中所述的“时域一致的运动对象与动态场景视差融合变形”,其作法包含以下步骤:
步骤S210,计算立体视频A和立体视频B的每一帧的视差图;利用泊松融合及其他融合方法,将立体视频A的运动对象对应区域的视差图,与立体视频B的视差图进行融合,得到融合后视差图序列,表示为D={d1,d2,d3...};
步骤S220,利用Luo人提出的基于视角感知变形的方法,对第一帧的运动对象与动态场景进行视差融合变形,将其结果作为初始解;
步骤S230,对于剩余帧的运动对象与动态场景,自动进行时域一致的视差调整与变形;假定第i帧的运动对象变形结果已知,令Vi L,Vi R分别为第i帧左目/右目运动对象的对应三角网格的顶点集合,第i+1帧和第i+2帧的运动对象变形结果通过最小化如下能量方程实现:
N=γ1N1+γN22+γ3N3
式中,N代表总体能量,N1代表视差对应一致约束能量,N2代表放置位置约束能量,N3代表运动对象网格畸变约束能量,γ1、γ2、γ3代表各个能量项的权重;
能量方程包含三个能量项,分别代表三种约束条件,其中,N1是视差对应一致约束能量,用来约束运动对象网格各顶点的视差尽量与融合后视差图的对应位置的视差保持一致;
N2是放置位置约束能量,用来限制左目运动对象的几何中心点的位置尽量与变形前的左目运动对象的几何中心点一致;
分别为第i+1帧左目/右目运动对象三角网格的三角形集合,同理为第i+2帧左目/右目运动对象三角网格的三角形集合,v(t),v(j),v(k)分别为对应三角形的三个顶点,FL,FR分别为第i帧左目/右目运动对象网格各个三角形的顶点间的线性关系,δi+1为平滑因子,其计算方式为δi+2的计算方式同理;
这三个能量项公共构成了时域一致的运动对象变形的联合能量约束,我们使用γ1=50,γ2=γ3=1作为各能量项的参考权重;
步骤S240,在S230步之后,对于每一帧左目/右目运动对象对应网格的每一个顶点的坐标值,都有两个解,对其求平均值作为最终的变形结果。
4.根据权利要求1所述的一种时域一致性保持的双目立体视频场景融合方法,其特征在于:在步骤S300中所述的“时域一致的运动对象与动态场景颜色融合”,其作法为:利用中值坐标融合方法,计算运动对象网格内部顶点,相对于网格边界顶点的中值坐标;通过中值坐标以及运动对象边界点所对应像素,与动态场景对应位置的像素的颜色差值,计算运动对象内部顶点的颜色差值;对于非顶点的像素点的颜色差值,通过其所在的三角形网格面片的三个顶点的颜色差值,进行线性插值得到;将颜色差值与运动对象原像素颜色值相加,得到颜色融合结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410008677.XA CN103761734B (zh) | 2014-01-08 | 2014-01-08 | 一种时域一致性保持的双目立体视频场景融合方法 |
US14/444,421 US9578312B2 (en) | 2014-01-08 | 2014-07-28 | Method of integrating binocular stereo video scenes with maintaining time consistency |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410008677.XA CN103761734B (zh) | 2014-01-08 | 2014-01-08 | 一种时域一致性保持的双目立体视频场景融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103761734A true CN103761734A (zh) | 2014-04-30 |
CN103761734B CN103761734B (zh) | 2016-09-28 |
Family
ID=50528967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410008677.XA Active CN103761734B (zh) | 2014-01-08 | 2014-01-08 | 一种时域一致性保持的双目立体视频场景融合方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9578312B2 (zh) |
CN (1) | CN103761734B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104159098A (zh) * | 2014-08-29 | 2014-11-19 | 杭州道玄影视科技有限公司 | 一种视频的时域一致性半透明边缘提取方法 |
CN104601978A (zh) * | 2015-01-06 | 2015-05-06 | 北京中科广视科技有限公司 | 自由视点图像的获取系统与方法 |
CN109191506A (zh) * | 2018-08-06 | 2019-01-11 | 深圳看到科技有限公司 | 深度图的处理方法、系统及计算机可读存储介质 |
CN111652900A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大华技术股份有限公司 | 基于场景流的客流量的计数方法、系统及设备、存储装置 |
CN112488967A (zh) * | 2020-11-20 | 2021-03-12 | 中国传媒大学 | 基于室内场景的对象和场景合成方法及系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10187623B2 (en) * | 2014-12-26 | 2019-01-22 | Korea Electronics Technology Institute | Stereo vision SoC and processing method thereof |
KR102455632B1 (ko) | 2017-09-14 | 2022-10-17 | 삼성전자주식회사 | 스테레오 매칭 방법 및 장치 |
CN109859300B (zh) * | 2019-01-24 | 2022-12-23 | 宁波大学 | 一种基于美学的立体图像内容编辑方法 |
CN110111255B (zh) * | 2019-04-24 | 2023-02-28 | 天津大学 | 一种立体图像拼接方法 |
US11810266B2 (en) * | 2021-03-19 | 2023-11-07 | Apple Inc. | Pattern radius adjustment for keypoint descriptor generation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142055A (zh) * | 2011-04-07 | 2011-08-03 | 上海大学 | 基于增强现实交互技术的真三维设计方法 |
US8390675B1 (en) * | 2005-10-21 | 2013-03-05 | Thomas Paul Riederer | Stereoscopic camera and system |
CN103136793A (zh) * | 2011-12-02 | 2013-06-05 | 中国科学院沈阳自动化研究所 | 一种基于增强现实的实景融合方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850352A (en) * | 1995-03-31 | 1998-12-15 | The Regents Of The University Of California | Immersive video, including video hypermosaicing to generate from multiple video views of a scene a three-dimensional video mosaic from which diverse virtual video scene images are synthesized, including panoramic, scene interactive and stereoscopic images |
US20120019614A1 (en) * | 2009-12-11 | 2012-01-26 | Tessera Technologies Ireland Limited | Variable Stereo Base for (3D) Panorama Creation on Handheld Device |
-
2014
- 2014-01-08 CN CN201410008677.XA patent/CN103761734B/zh active Active
- 2014-07-28 US US14/444,421 patent/US9578312B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8390675B1 (en) * | 2005-10-21 | 2013-03-05 | Thomas Paul Riederer | Stereoscopic camera and system |
CN102142055A (zh) * | 2011-04-07 | 2011-08-03 | 上海大学 | 基于增强现实交互技术的真三维设计方法 |
CN103136793A (zh) * | 2011-12-02 | 2013-06-05 | 中国科学院沈阳自动化研究所 | 一种基于增强现实的实景融合方法及装置 |
Non-Patent Citations (2)
Title |
---|
XIAOJIE GUO等: "Video Editing with Temporal, Spatial and Appearance Consistency", 《COMPUTER VISION AND PATTERN RECOGNITION》, 28 June 2013 (2013-06-28), pages 2283 - 2290, XP032493145, DOI: doi:10.1109/CVPR.2013.296 * |
张艺江 等: "虚拟群体与动态视频场景的在线实时融合", 《计算机辅助设计与图形学学报》, vol. 23, no. 1, 31 January 2011 (2011-01-31), pages 185 - 191 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104159098A (zh) * | 2014-08-29 | 2014-11-19 | 杭州道玄影视科技有限公司 | 一种视频的时域一致性半透明边缘提取方法 |
CN104601978A (zh) * | 2015-01-06 | 2015-05-06 | 北京中科广视科技有限公司 | 自由视点图像的获取系统与方法 |
CN109191506A (zh) * | 2018-08-06 | 2019-01-11 | 深圳看到科技有限公司 | 深度图的处理方法、系统及计算机可读存储介质 |
CN109191506B (zh) * | 2018-08-06 | 2021-01-29 | 深圳看到科技有限公司 | 深度图的处理方法、系统及计算机可读存储介质 |
CN111652900A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大华技术股份有限公司 | 基于场景流的客流量的计数方法、系统及设备、存储装置 |
CN111652900B (zh) * | 2020-05-29 | 2023-09-29 | 浙江大华技术股份有限公司 | 基于场景流的客流量的计数方法、系统及设备、存储介质 |
CN112488967A (zh) * | 2020-11-20 | 2021-03-12 | 中国传媒大学 | 基于室内场景的对象和场景合成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103761734B (zh) | 2016-09-28 |
US9578312B2 (en) | 2017-02-21 |
US20150195510A1 (en) | 2015-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103761734A (zh) | 一种时域一致性保持的双目立体视频场景融合方法 | |
CN100355272C (zh) | 一种交互式多视点视频系统中虚拟视点的合成方法 | |
CN102592275B (zh) | 虚拟视点绘制方法 | |
CN102663766B (zh) | 一种基于非真实感的艺术插画效果绘制方法 | |
CN104299263B (zh) | 一种基于单幅图像建模云场景的方法 | |
CN107578436A (zh) | 一种基于全卷积神经网络fcn的单目图像深度估计方法 | |
CN101287142A (zh) | 基于双向跟踪和特征点修正的平面视频转立体视频的方法 | |
CN106504190A (zh) | 一种基于3d卷积神经网络的立体视频生成方法 | |
CN103581650B (zh) | 双目3d视频转多目3d视频的方法 | |
CN105374039B (zh) | 基于轮廓锐度的单目图像深度信息估计方法 | |
CN102509338A (zh) | 一种基于轮廓骨架图的视频场景行为生成方法 | |
CN106548494A (zh) | 一种基于场景样本库的影视图像深度提取方法 | |
CN106447718B (zh) | 一种2d转3d深度估计方法 | |
CN105608666A (zh) | 一种二维图形生成三维图像的方法及系统 | |
CN102446366A (zh) | 时空联合多视角视频插值及三维建模方法 | |
CN103826032A (zh) | 深度图后期处理方法 | |
CN102609950A (zh) | 一种二维视频深度图的生成方法 | |
CN104159098B (zh) | 一种视频的时域一致性半透明边缘提取方法 | |
CN104599305A (zh) | 一种二三维结合的动画生成方法 | |
CN102695070B (zh) | 一种立体图像的深度一致性融合处理方法 | |
Xie et al. | Seamless video composition using optimized mean-value cloning | |
CN103247065B (zh) | 一种裸眼3d视频生成方法 | |
CN104751508B (zh) | 3d立体影视制作中新视图的全自动快速生成及补全方法 | |
CN107018400B (zh) | 一种将2d视频转换成3d视频的方法 | |
CN104301706B (zh) | 一种增强裸眼立体显示效果的合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |