CN108605119B

CN108605119B - 2d到3d视频帧转换

Info

Publication number: CN108605119B
Application number: CN201680056142.7A
Authority: CN
Inventors: M·M·赫菲达; K·A·A·卡拉加里; M·A·A·M·埃尔克哈利比; W·毛图希克; P·蒂迪克; A·卡斯帕
Original assignee: A Kasipa; K AAKalajiali; M AAMAierkehalibi; P Didike; W Maotuxike; M MHefeida
Current assignee: A Kasipa; K AAKalajiali; M AAMAierkehalibi; P Didike; W Maotuxike; M MHefeida
Priority date: 2015-08-03
Filing date: 2016-08-03
Publication date: 2020-12-01
Anticipated expiration: 2036-08-03
Also published as: AU2016302049B2; EP3326364A1; IL257304B; JP2018528733A; BR112018002224A8; US20180227574A1; KR20180094835A; IL257304A; AU2016302049A1; US10425634B2; MX2018001450A; AU2016302049C1; JP6903657B2; US20200053345A1; US10834379B2; CN108605119A; CA2994514A1; BR112018002224A2; WO2017021731A1

Abstract

一种广泛传播的3D视频和技术的采用由于缺乏高质量的3D内容而被阻碍。一种有效的处理此问题的解决方案是使用2D到3D的自动转换。但是，当前的转换方法虽然是通用的，却产生了带有伪影的低质量结果，其中伪影对于很多观看者来说是不可接受的。但是，使用精确深度创建3D立体视频的数据库非常困难。计算机生成的内容能够被用于生成用于2D到3D转换的高质量的3D视频参考数据库。所述方法将深度信息从3D参考数据库中的帧转移到目标帧，同时保持目标边界。该方法通过深度梯度计算深度图，并且输出立体视频。

Description

2D到3D视频帧转换

发明描述

我们呈现一种用于2D到3D视频转换的数据驱动技术。我们的技术基于从高质量的合成图像的数据库中转移深度梯度。可以从视频游戏中收集这些图像，视频游戏通常具有可用的各种各样的体裁，即运动及其子类、动作及其子类、正常图形等等……使用这些合成图像作为2D+深度仓库消除了对昂贵的立体相机的需求。这使得我们的技术比现有技术对于一般数据更加可扩展。此外，与以前的数据驱动技术不同，我们的方法不需要查询图像和数据库之间的全局相似性。相反，它仅需要局部块(部分)的相似性。这大大地减少了所需的2D+深度的数据库的规模，同时保持了相似的深度质量。结果更易于扩展到更加通用的数据，并且更易于适应消费品。

介绍

随着大部分的大制作以这种格式发行，立体3D(S3D)电影正在变得流行。但是，在实践中，大多数电影是以2D摄制的，然后将它们通过手动地绘制深度图并且渲染相应视图上转换为S3D。这个过程产生了非常好的结果，但是非常昂贵并且耗时。现场实况的S3D制作更加困难。手动的上转换是不可能的。直接地摄制立体的现场实况(例如足球比赛)需要在体育场内放置多个立体装备。这是非常有挑战性的，并且很少被尝试。因此，对于现场实况非常需要高质量的2D到3D的自动转换方法。当前的自动转换方法很缺乏。大多数方法是通用的—可以将它们应用于任何视频流。但是，输出或者充满了很多观看者难以接受的伪影，或者上转换方法非常保守—仅向导出视频增加非常小的深度。

我们展示如何开发高质量的2D到3D的自动转换。我们的方法是开发特定领域的上转换代替通用方法。特别地，我们推荐用于生成S3D足球视频的方法。我们的方法是数据驱动，依靠S3D视频的参考数据库。这类似于以前的工作[13、11]；但是，我们的关键洞察力在于，不是依靠使用计算机视觉方法计算或者通过深度传感器获得深度数据，而是我们能够使用来自当前计算机体育游戏的计算机生成深度创建合成3D数据库。因为当前计算机游戏的视频质量接近于真实视频的质量，我们的方法提供了两个优点：1)我们获得了视频帧的多样数据库，以促进与输入视频帧的良好匹配；以及2)对于每个视频帧，我们获得具有完美深度间断的精确深度图。给定查询图像，我们基于数据库中的相似图像和它们的深度图推断其深度。我们建议将深度梯度(即沿着x和y方向的深度值的变化率)从合成3D数据库的相似图像中转移到查询图像。在本发明的一方面，我们将查询分为块(部分)，并且通过可能属于合成3D数据库(参考数据库)中的不同帧的匹配块(部分)来转移深度梯度。这与使用整个帧[13、11]上的绝对深度的以前的方法是非常不同的。我们的方法提供了很多优点：(i)对于更小的区域/对象(例如，运动员)分配更精细的深度，(ii)更小的数据库，因为我们仅匹配小块(部分)而不是整个帧(帧可能具有太多的变化)，以及(iii)对被选为参考的相似图像的(不)精确度更加稳健，因为我们在深度计算中仅使用单个的区块(部分)。在转移深度梯度以后，我们通过使用泊松重建从这些梯度中恢复深度。泊松重建是传统上用于通过求解泊松方程[18、7]从图片的梯度信息中恢复图像的稳健性技术。优选地，为了维持清晰的运动员边界，我们的方法通过创建对象掩膜以及探测对象边界来处理深度间断。我们展示了处理一系列的足球视频镜头的能力，这些足球视频镜头具有不同的相机视图、遮挡、特写、干扰和运动复杂度。

我们使用各种视频分割进行广泛的用户学习。我们遵循ITU BT.2021推荐规范[6]进行这些学习。结果显示：(i)我们的方法制造的3D视频与原始地立体摄制的视频几乎无差别，(ii)通过我们的方法制作的视频的可感知的深度质量和视觉舒适度在大多数时间被测试人员评价为优秀，以及(iii)我们的方法极大地优于现有技术[11]。

背景技术

在过去几年中，用于3D媒体的应用已经远远地超越了相机，并且已经成为很多研究人员的极大的兴趣。Liu等人[15]讨论了3D电影艺术原理，以及它们甚至对于非电影的3D内容的重要性。Wu等人[23]将3D内容质量适应于实时的远程沉浸式应用。Calagari等人[9]建议了具有深度定制的用于各种各样的视图显示的3D流系统。Yang等人[24]基于客户观看角度在远程沉浸式环境中优先考虑3D内容流。虽然这样的系统建议有用的3D应用，但是有限的3D内容仍是3D技术的主要瓶颈。为了处理这个问题，许多研究人员已经探索了2D到3D的转换技术。但是，以前的方法或者是半自动的[19、26]，或者不能处理复杂的运动[12、21、13、10、11]。据我们所知，还没有一种用于足球的2D到3D的转换技术能够处理具有各种场景结构的复杂运动。

在2D到3D的转换中，图像或一系列图像使用相应的深度图增强。使用这种信息能够同步立体图像对。能够使用传统的计算机视觉方法(例如来自运动的结构或者来自散焦的深度)计算深度图。Rzeszutek等人[19]基于运动评估背景深度。Zhang等人[26]建议了基于多个深度线索(包括运动和散焦)的2D到3D的半自动转换系统。[25]中可以找到关于2D到3D的自动转换技术和深度线索的调查。而且，在给定的场景内部，通常对于深度分布进行强假定。例如，Ko等人[12]将镜头分类为长镜头或非长镜头，长镜头被假定具有大视野，并且对整个图像分配深度斜坡，对运动员分配恒定深度。类似地，Schnyder等人[21]探测运动员并为他们分配恒定深度。但是，这产生了众所周知的“纸板效应”，在立体地观看时，这些对象出现。

数据驱动方法提供合成深度图以及相应的立体视图的替代方法。Hoiem等人[10]将场景分割为平面区域，并且为每个区域分配方向。该方法提供了相对粗略的深度估计。Konrad等人[13]基于图像和深度图对的数据库推断输入图像的深度。他们的工作针对静止图像进行设计，并且假定具有相似的基于梯度特征的图像倾向于具有相似的深度。对于查询图像，从数据库中找到最相似的图像。查询图像深度被评估为检索到的图像的深度的中值。Karsch等人[11]将此方法扩展到图像序列。他们也使用图片和深度图对的大数据库。对于查询帧，他们找到数据库中最相似的图像，然后将检索到的图像变换为查询图像。最后，合并变换后的深度图以估计最终深度。[11]中的工作最接近于我们的方案，并且我们与它进行了比较。

提供2D到3D自动转换的有几个商用产品，作为单机盒(例如，JVC的IF-2D3D1立体图像处理器，3D Bee)或软件包(例如，DDD的TriDef 3D)出售。虽然这些系统的细节未知，但是它们的深度质量仍然是突出的问题[25]。

以下现有技术已被认为与本发明的各个方面相关，并且在某些方面它们与本发明存在主要区别。

专利文献US 2013/0147911 A1，发明人：Karsch等人，日期：2013年6月：

US 2013/0147911的方法从数据库中选择与查询帧最相似的图像(候选图像)。将候选图片变换并融合它们的深度，以评估查询深度。这种方法不执行局部搜索(区块匹配)，并且不是基于深度梯度，也不使用泊松方程基于梯度执行深度重建。以下方面将我们的方法与所述现有技术的工作区分开来，因为我们：

●使用合成3D数据库(2D图像和深度信息的数据库)。

●在候选者上执行局部搜索(区块匹配)：对于查询中的每一区块，我们在候选图像中搜索所有区块(部分)，从而找到最匹配的区块。

●将候选者的深度的空间梯度而不是绝对深度复制到查询中。

●使用泊松方程从其梯度中重建查询深度图。

●描绘对象边界，通过在对象边界上切割泊松方程允许深度间断。

专利文献US 2015/0093017 A1，发明人：Hefeeda等人，日期：2015年4月：

US 2015/0093017是具有不同的输入和输出的完全不同的系统。主要区别为：

●输入为3D视频(不同于我们推荐的输入为2D视频的系统)，输出为该视频的唯一签名(不同于我们推荐的输出为该视频的3D版本的系统)。

●在此系统中，SIFT作为一种工具使用，以将左视图和右视图中的像素相匹配，并且测量它们的距离，而我们将SIFT作为工具使用，以搜索数据库，为查询中的每一区块找到最匹配的区块，并且复制其深度梯度。

●因为此系统的目标不同，不评估深度图，因此没有使用以下任何一种技术：视觉搜索、局部搜索(区块匹配)、梯度映射、边界切割和泊松重建。

专利文献US 8,953,905 B2，发明人：Sandrew等人，日期：2015年2月。

与我们的完全自动的方法相比，US 8,953,905 B2的方法是半自动的方法。此发明的方面假定“很多电影现在包括计算机生成的元素(也被称为计算机图形或CG，或者也被称为计算机生成的影像或CGI)”，这些元素包括在现实中不存在的对象，例如，举例来说，机器人或宇宙飞船，或者被作为效果添加到电影中的对象，例如，尘埃、雾、云等等。”这些对象是仅有的自动地为它们推断其深度的对象，现有技术叙述：“本发明的实施例导入了与计算机生成的元素相关联的任何类型的数据文件，从而为与计算机生成的元素相关联的图像的部分提供即刻的深度值。”“除了由计算机生成的对象以外的所有对象都被艺术地调整深度。”这种现有技术与我们的方法的主要区别为：

●不同于我们的方法，这种现有技术不能从数据库中自动地推断不是由计算机生成的对象的深度。鉴于运动视频中的大多数场景不是由计算机生成的，因此，此发明不适用于运动视频。

●此现有技术，除了不是由计算机生成的对象以外，还使用接口工具手动地调整用于关键帧的对象掩膜，而在我们的方法中是自动描绘对象边界的。

●在此现有技术中，没有使用视觉搜索、局部搜索(区块匹配)、梯度映射和从深度梯度中进行深度重建，而这些是我们的方法的核心部分。

Calagari,Kiana等人《Anahita：具有深度定制的用于3D视频流的系统》。ACM国际会议多媒体记录。ACM，2014年。

Calagari的系统的目标和输入/输出完全不同。主要区别为：

●此系统的主要目标为增强3D视频，而我们建议的系统的目标为生成3D视频。此系统的输入为3D视频，而我们建议的系统的输入为2D视频。

●没有使用3D数据库。

●此系统不包括深度评估，因为视频已经是3D的了。因此没有使用任意一种以下技术中：视觉搜索、局部搜索(区块匹配)、梯度映射、边界切割和泊松重建(从深度梯度中进行深度重建)。

Corrigan，David等人《用于开发立体3D后制作算法的视频数据库》。视觉媒体制造(CVMP)，2010年会议，IEEE,2010年。

Corrigan的工作的目的是提供立体3D视频的数据库，此数据库是在典型的制造过程中生成的代表性的连续镜头的示例，以允许研究人员更好地理解涉及3D后制作的技术挑战，例如，色彩失调、立体对纠正、深度编辑。与我们的方法的主要区别为：

●此工作仅呈现了3D数据库，不是转换方法。

●此3D数据库的目标在于增强3D视频镜头的质量，而我们的方法使用数据库将2D的视频镜头转换为3D。

●与我们的数据库不同，此数据库不是合成的，因此高质量的深度图不可用。

Dominic、Jean maria和J.K.Arsha的《通过学习示例和双边缘限制的图像修复的2D到3D的图像和视频的自动转换》，计算机科学和软件工程的高级研究国际杂志(2014)。

Dominic的方法和我们的技术的主要区别为：

●这里使用的数据库不是合成的。

●此方法使用数据库图像的绝对深度，而不是使用数据库图像的深度梯度。

●在找到候选图像以后，此方法不执行局部搜索(区块匹配)、梯度映射、边界切割或泊松重建(从深度梯度中进行深度重建)；它只是使用候选深度图的中数作为查询的评估深度。

Kiana Calagari，《使用3D数据库对足球场景的2D到3D的转换》，2013年7月。

Kiana类似于上文的Dominic，Kiana呈现的技术与我们的技术的主要区别为：

●这里使用的数据库不是合成的，它也不是深度梯度数据库，而是2D+深度图像数据库。

●此方法使用数据库图像的绝对深度，而不是使用数据库图像的深度梯度。使用深度梯度的需要被建议作为未来工作的想法，但是并未描述。

●在找到候选图像以后，此方法不执行局部搜索(区块匹配)、梯度映射、边界切割，也不使用泊松重建(从深度梯度中进行深度重建)，它转而使用SIFT流变换候选图像，并且使用变换后的候选深度图的中数作为查询的评估深度。注意，SIFT流是变换方法，此方法使用SIFT作为底层工具，但是与我们所做的采用不同的方式，并且用于不同的目的。SIFT流通过基于由SIFT描述的流移动每个像素，使用SIFT将RGB图像变换为另一RGB图像。但是，我们使用SIFT为查询中的每个区块找到最佳匹配的区块，并且将其深度图的梯度复制到查询中的那个块。

Zhang,Chenxi等人《使用互联网照片收集增强个人照片》，视觉和计算机图形，IEEE会报20.2(2014):262-275。

Zhang，具体地关注主要城市和旅游景点的图像，在互联网上具有与那些地方完全相同的地方的大量照片。他们使用这种巨大的“互联网照片收集”(IPC)执行很多图像增强技术。这些增强之一将2D图像转换为3D。此工作和我们的方法的主要区别如下：

●在此工作中，他们首先执行前景/背景分割，并且使用IPC数据库仅仅是为了将深度分配给背景。手动地分配前景深度。但是，在我们的方法中，前景深度和后景深度都是自动地评估的。

●不同于我们的方法，此方法需要数据库以包括完全相同的地方的照片，并且不能使用仅是视觉上相似的图像执行。

●通过使用完全相同的地点的照片生成此地点的3D模型来评估背景深度。他们的2D到3D转换技术不包括局部搜索(区块匹配)、梯度匹配、边界切割或泊松重建(从深度梯度中进行深度重建)。泊松方程用于他们的其他光度测定增强技术(不是2D到3D的转换)，以重建图像本身而不是其深度图。

发明内容

本发明及其实施例寻求克服或减小现有技术面临的困难，并且提供2D到3D转换的替代机制。

本发明一方面提供了从视频流处理2D视频图像用于将2D视频图像转换为3D图像的方法，所述方法包括：

提供视频帧的参考数据库，所述数据库的每个入口包括2D图像以及用于所述2D图像的相应深度信息；

将输入视频帧提交给所述参考数据库；

在所述参考数据库中将输入视频帧与2D图像相匹配，并且选择用于所述2D图像的相应深度信息；以及

将选中的深度信息应用于被匹配的输入视频帧，以生成2D加深度信息的帧。

本发明的另一方面提供：

将所述输入视频帧分为多个部分；其中所述在所述参考数据库中将输入视频帧与2D图像相匹配包括：

在所述参考数据库中将所述输入视频帧的部分与所述2D图像的部分相匹配。

在本发明的另一方面，所述部分为n×n个像素的区块。

本发明的另一方面还包括在所述参考数据库中将所述输入视频帧的另一部分与另一2D图像的部分匹配，使得所述输入视频帧的多个部分与多个2D图像的相应部分相匹配。

所述发明的另一部分提供：将选中的深度信息应用于被匹配的输入视频帧包括将2D图像的相匹配部分的深度信息应用于相匹配的输入视频帧的相应的被匹配部分。

本发明的另一方面包括：将选中的深度信息应用于被匹配的输入视频帧包括将所述2D图像的被匹配部分的一个或多个相应像素映射到所述输入视频帧的所述被匹配部分的相应像素。

本发明的另一方面提供：使用视觉技术识别用于与所述输入视频帧相匹配的候选2D图像。

在本发明的另一方面中，所述视觉技术包括使用所述帧的GIST和颜色信息。

本发明的另一方面提供：所述深度信息为深度梯度。

本发明的另一方面包括：

在所述输入视频帧中识别对象；

确定用于识别出的对象的对象掩膜；以及

使用已确定的对象掩膜和所述被匹配的输入视频帧评估所述深度信息。

本发明的另一方面提供：使用泊松重建评估所述已确定的深度信息。

在本发明的另一方面中：所述泊松重建包括一阶和更高阶导数。

本发明的另一方面提供：使用所述2D加深度信息的帧生成左立体图像和右立体图像。

在本发明的另一方面中：使用软件生成的视频帧填充所述参考数据库。

在本发明的另一方面中，所述软件为视频游戏。

本发明的另一方面提供从视频流中处理2D视频图像的用于将所述2D视频图像转换为3D图像的系统，所述系统包括：

视频帧的参考数据库，所述数据库中的每个入口包括2D图像和用于所述2D图像的相应深度信息；

搜索模块，可操作地将输入视频帧提交给所述参考数据库；

匹配模块，在所述参考数据库中可操作地将输入视频帧与2D图像相匹配，并且选择用于所述2D图像的相应深度信息；以及

生成器模块，可操作地将选中的深度信息应用于所述被匹配的输入视频帧，以生成2D加深度信息的帧。

本发明的另一方面提供：计算机可读的、被指令编程的介质，所述指令被执行时将来自视频流的2D视频图像转换为3D图像，所述指令包括：

提供视频帧的参考数据库，所述数据库中的每个入口包括2D图像以及用于所述2D图像的相应深度信息；

将输入视频帧提交给所述参考数据库；

在所述参考数据库中，将输入视频帧与2D图像相匹配，并且选择用于所述2D图像的相应深度信息；以及

在本发明的另一方面中，生成参考数据库的方法包括使用软件生成的视频帧。

附图说明

为了使本发明更易于理解，现在以示例并参考附图的方式描述本发明的实施例，其中：

图1示出了一个实施例的示意图；

图2示出了使用深度评估的效果，(a)查询图像，(b)其K个候选的子集，(c)创建被匹配的图像，(d)对象边界切割，(e)使用泊松重建的深度评估，(f)梯度微调和泊松重建，(g)使用对象边界切割的深度，(h)平滑的最终深度评估，以及(i)放大和扩大版本的黄色块h。

图3示出了一个实施例的示意图；

图4示出矩阵A的泊松方程的示意图，(a)示出采样像素p及其邻近像素的示例4×4图像，(b)用于像素p的方程3的系数，(c)矩阵A中对应于像素p的行的非零值；

图5中顶行为：合成序列的帧3；底行为：真实序列的帧24，我们使用地面实况/立体匹配[8]、DT、DT+和DGC示出提取到的深度，我们的技术DGC在两个序列中都最佳地重构了地面实况/立体匹配；

图6示出我们的方法DGC和文献中最接近的方法DT及其扩展DT+关于合成足球序列之间的客观比较；

图7示出使用我们的方法对于不同的足球序列的深度评估。我们的方法处理各种各样的镜头，包括特写镜头(例如，顶部最左)、中镜头(例如，底部最左)、鸟瞰(例如，底部最右)以及长镜头(例如，顶部最右)；

图8示出用于足球场景的不同类型的深度感知和视觉舒适的平均意见得分；

图9示出用于不同的非足球的户外运动的深度感知和视觉舒适的平均意见得分；

图10示出使用(从左)：DT、DT+和我们的方法DGC对不同序列的深度评估。DT生成错误估计量，DT+生成有噪音测量并且不探测选手。我们的技术优于这两种方法；

图11示出我们的转换后的序列和原始3D之间的平均意见得分差值(DMOS)。零表示我们的转换后的序列与原始3D相同；

图12示出我们的转换后的序列和深度转移DT+之间的平均意见得分差值(DMOS)。正的DMOS意味着我们的技术优于DT+。

具体实施方式

图3示出我们的2D到3D的足球视频转换系统的概览。我们的技术从合成生成的深度的数据库中推断深度。从提供高质量的深度图的视频游戏中收集此数据库。我们从数据库中转移深度梯度字段，并且使用泊松重建来重建深度。为了维持锐利和精确的对象边界，我们创建对象掩膜，并且在对象边界上修改泊松方程。最后，使用[11]中的立体变换技术，使用2D帧和它们的评估深度渲染左立体和右立体对。在这种技术中，基于2D帧的评估深度变换2D帧，使得突出的区域不被修改，同时拉伸背景区域以填充不封闭的区域。在这一节中，我们讨论我们的合成3D数据库和对象掩膜创建。第4节讨论我们的深度评估技术。

合成3D数据库：已创建许多RGBD(红、绿、蓝和深度)的图像[2、1、5]和视频[11、3]的数据库。使用飞行时间成像[20]或主动立体(例如，使用微软的Kinect)获得深度通道。虽然具有当前的RGBD数据库，它们中没有一个能够用于体育赛事的高质量的2D到3D的转换。获得用于体育赛事的深度图是具有挑战性的，因为需要在高度动态的环境中的日光条件下获得深度数据。

为了处理这个挑战，我们建议从视频游戏中创建合成RGBD(S-RGBD)数据库，视频游戏具有非常高的图像质量，从中能够很容易地生成大量内容。这样的数据库能够用于数据驱动的2D到3D的转换。我们被“微软Kinect姿势评估”在合成数据库[22]上训练的成功鼓舞。在我们的案例中，我们通过从FIFA13视频游戏中提取图像和深度信息来收集我们的S-RGBD数据。我们使用微软的Directx工具PIX[4]。PIX记录应用程序调用的所有Directx命令。通过运行这些命令，它能够渲染并且保存每个被记录的帧。此外，PIX允许访问每个被渲染的帧的深度缓冲区。每个被提取的帧的分辨率为每10秒帧数1916×1054。我们从40个不同的序列中提取16500个2D+深度的帧。这些序列包括各种各样的预期将在足球比赛中出现的镜头，具有一系列的相机视图、运动复杂度和色变。40个序列中的两个为每个6至7分钟长，包含一半时间，并且被设计为捕捉贯穿整个比赛的共用场景。其余的序列更短，在15至60秒的范围，但是，它们更多地关注于捕捉较少共用的活动，例如特写镜头、目标背后、变焦的地面视图等等。我们的数据库包括不同的团队、体育场、季节和相机角度。

创建对象掩膜：为了更好地处理深度间断，并且使选手边界具有锐利和清晰的深度，我们的方法通过创建对象掩膜描绘对象边界。不指定对象边界，选手的深度将与地面混合，这会降低深度质量。为了创建这些掩膜，我们通过基于运动和外观预处理每个视频序列来自动地探测对象。由于空间限制，我们提供这个步骤的简要描述。我们建议两个不同的对象探测方法：一个用于特写镜头，其特点为大的选手尺寸、小的运动区域；另一个用于非特写镜头，具有大视野。非特写镜头的视频切割依赖于全局特征，例如，运动场的颜色。对于这些镜头，我们使用基于颜色的方法探测运动场。我们在从运动场中收集到的样本上训练高斯混合模型(GMM)。对于特写镜头，我们更多地依靠局部特征，例如功能点轨道[16]。我们采用基于抠图的方法[14]使用功能点轨道切割进行初始化。我们随后使用运动区域探测纠正可能的误分类。我们的系统的核心是从深度梯度中获得深度评估；对于输入2D视频，从我们的S-RGBD数据库中推断深度。图1概述了这个过程。对于被检测的2D帧，我们在我们的数据库中找到最接近的K个帧。我们为被检测的帧创建匹配图像。这个匹配图像被一区块一区块地创建，我们为被检测的帧中的每一区块在K个候选图像中找到最匹配的区块。我们随后从被匹配的区块(部分)将深度梯度复制到被检测的帧中。我们最终通过求解泊松方程从其已复制的梯度中重建深度。我们使用对象掩膜(第三节)确保对象边界周围的锐利的深度间断。我们现在更详细地讨论每个步骤。

对于被检测的视频的每个帧，我们在我们的S-RGBD数据库上执行视觉搜索，以识别K个(在我们的工作中K＝10)最相似的帧。我们使用两个主要特征进行视觉搜索：GIST[17]和颜色。前一偏好与整体的相似结构匹配，而后一偏好与整体的相似颜色匹配。对于颜色，我们使用色彩值的归一化的直方图，我们对色彩值应用二进制的临界值0、1仅表示占优势的颜色。最终的图像搜索描述符是GIST和颜色级联的直方图。图2(b)示出为图2(a)中的帧生成的K个候选者的4个样本。

我们使用K个候选图像构造与被检测的帧相似的图像，我们称之为被匹配的图像。被匹配的图像提供候选者和被检测的帧之间的映射，在被检测的帧中，每个像素被映射到相应的候选像素。Karsch等人[11]使用全局方法进行这样的映射。他们变换候选者以构造与被检测的帧相似的图片。虽然这种方法对于局部图像伪影很稳健，但是它需要被检测的帧和数据库之间具有很强的相似性。例如，如果被检测的帧包含4个选手，则数据库需要具有相似内容的图像。取而代之的是，我们使用局部方法，并且通过区块匹配构造相似的图像。这使我们能够执行更加稳健的匹配。例如，我们可以在两个帧之间进行良好的匹配，虽然这两个帧是从不同的角度、具有不同数量的选手、位于不同的位置拍摄的。这在图2的示例中示出，图2(b)的图片被用于创建高质量的被匹配的图像(图2(c))，这使用[11]中的全局方法可能是不可行的。我们的局部方法实现了良好的深度评估而无需巨大的数据库尺寸，这对于我们的方法是一个高度可取的优点，因为正如第三节中所讨论的，创建精确的3D数据库很困难。

为了构造匹配图像，我们首先将被检测的帧分为n×n个区块(部分)。在我们所有的试验中，n被设置为9个像素。对于被检测的帧的每一区块，我们将其与K个候选图像中的所有可能的区块(部分)进行比较。我们选取具有最小的欧几里得距离的区块作为相应区块。候选图像的尺寸被调整为被检测的帧的尺寸。对于区块描述符，我们使用SIFT与所述区块的平均RGB值级联。SIFT描述符被以更大的碎片尺寸5n_5n计算，被居中地放置在所述区块中央。这是为了捕捉更典型的结构。RGB值被归一化为0至1之间。图2(c)使用我们的区块匹配方法示出被匹配的图像。注意，垂直广告牌与垂直区块(部分)全部匹配，水平运动场与水平运动场匹配，倾斜的观众与观众也匹配。

计算深度梯度：给定来自S-RGBD的输入帧及其被匹配的图像，我们复制相应的深度梯度。我们复制水平和垂直方向(G_x，G_y)的一阶空间导数。与图像匹配类似，我们在n×n个像素的区块(部分)中从相应区块(部分)复制梯度。

泊松重建：我们使用泊松方程从被复制的深度梯度中重建深度值：

其中G＝(G_x，G_y)为被复制的深度梯度，D为我们寻求评估的深度。

为G的散度：

在这个离散域中，方程(1)和方程(2)分别变为方程(3)和方程(4)：

我们以Ax＝b的形式求解，其中

x＝D，并且A存储泊松方程(方程(3))的系数。对于尺寸为H×W的被检测图像，A为尺寸为HW×HW的方矩阵，每行对应于被检测的帧中的像素。此行中的值对应于方程(3)的系数。图4示出了为小样本图像设置的A。注意，因为一个或多个邻近像素不存在，应对图像边界的像素给予额外的关注。在这种情况下，我们通过移除方程(4)中指向不存在的像素的项来更新

的值。最后，给定Ax＝b，我们求解x。图2(e)示出了重建后的深度(x)的示例。

虽然捕捉了整个的深度结构，也出现一些伪影(参见图2(e)的右下角)。

通常由于不精确的SIFT匹配生成这些人工产物。例如，在图4(c)中，一些运动场的区块(部分)被匹配为非运动场区域。当查询区块(其来源的区域被预期具有平滑的深度(例如，运动场))被不正确地匹配到在深度上包含锐利的变化(例如，目标或者选手的边缘)的参考区块时，从参考区块转移的锐利梯度能够在产生的深度中引入小的伪影。为了克服这个问题，在求解x以前，我们首先通过梯度微调减小大的被转移的梯度，并且改为使用我们的对象掩膜在适当的地方加强深度间断。以下描述这两个步骤。

梯度微调：为了减少由于一些不正确的区块匹配引入的错误，我们使用以下微调深度梯度：

这维持了低梯度，而呈指数地减小了可能被不正确地评估的大梯度。α为配置微调的强度的参数。高α可能恶化正确的梯度，而低α可能允许伪影。根据我们所有的试验，将α设置为60。图2(f)示出了为图2(a)进行深度评估的梯度微调的效果。与图2(e)比较，移除了伪影，并且深度变得更加平滑。

对象边界切割：泊松重建连接像素与其所有的邻近像素。这使得大多数的对象边界淡化，尤其是在消除了强梯度的梯度微调以后(参见图2(f))。为了解决这个问题，我们通过修改对象边界上的泊松方程来允许对象边界上的深度间断。给定对象掩膜，我们通过Canny边缘探测器探测边缘(参见图2(d))。我们随后通过不允许它们使用对象边界像素作为有效的邻近像素来将像素从对象边界断开。对于与边界像素相邻的每个像素，我们将A中的相应连接设置为0，并且相应地更新其

值。因此，与对象边界相邻的像素被视为与图像边界像素相似。

注意：如果一个像素或一组像素被完全地与图像的其余部分断开连接，那么泊松重建将会出错。这能够使得被孤立的区域变黑和/或能够影响整个图像的深度评估。因此，保持对象边界像素与图像其余部分相连接同时确保边界的两侧仍然断开很重要。为了这样做，我们将每个边界像素与其顶部或者底部像素相连接。如果边界像素与查询图像的顶部像素更加相似，那么我们将其连接到顶部像素，否则，我们将其连接到底部像素。因此，每个边界像素成为其顶部或底部区域的一部分，同时保持这两个区域彼此不可访问。我们还注意到，由于切割误差，经常从对象掩膜的内部发现洞。将边缘探测应用于这些掩膜会将这些洞与图像的其余部分隔离。为了避免这些问题，我们在边缘探测以前填充这些洞。但是注意，在对象本身上应用边缘探测将使它们被边界像素包围，因此，将它们与背景隔离。为了克服这个问题，我们从每个对象的底部(即，选手的腿部)打开其对象边缘。这允许泊松从地面向对象扩散深度，产生自然的深度，同时避免隔离。图2(d)示出为图2(a)生成的对象边界。图2(g)示出在泊松重建过程中切割对象边界时的评估深度。与图2(f)相比较，现在，在图2(g)中，选手更加可见。

平滑度：我们通过强制更高阶的深度导数为零来向泊松重建中增添平滑度约束。在连续的域中，我们设置

在离散域中，这变为：

12D(i,j)+

D(i,j+2)-4D(i,j+1)-4D(i,j-1)+D(i,j-2)+

D(i+2,j)-4D(i+1,j)-4D(i-1,j)+D(i-2,j)＝0

(7)

我们生成A的平滑版本As。我们使用方程(7)的新系数填充As。为了保持对象边界周围的深度间断，我们将边界切割应用于平滑约束。我们随后将A和As级联，并求解

而不使用原始的Ax＝b。β配置所需要的平滑度的量。大β能够引起过平滑，而低β能够产生弱平滑。对于所有的试验，我们设置β＝0.01。注意，平滑度的效果不同于梯度微调的效果。后者被设计为移除锐利的伪影，同时保持图像的其余部分不受损害；平滑度为所有的深度结构增添了细腻的触感。使用平滑度移除锐利的伪影可能引起过平滑。此外，强梯度微调将损害基本的梯度。

产生最终输出：评估深度(方程(8)中的x)被归一化为(0；255)之间，并且与查询图像组合形成我们的查询视频的转换后的2D+深度。图2(f)示出了用于图2(a)的最终评估深度，包括平滑度的所有步骤。我们的深度是平滑的，并且正确地重构场地、观众和选手的深度。我们还注意到，我们的方法不产生“纸板效应”，在“纸板效应”中，每个选手被分配相同的深度。为了展示这一点，我们对图2(h)中的选手之一变焦深度区块，并且通过将该区块的深度值归一化为(0；255)的范围来放大它。图2(i)示出了在图2(h)中被标记为黄色的区块的变焦和放大版本。注意，被标记的区块中的选手在其不同的身体部分具有不同的深度值。这个示例示出了我们的基于梯度的方法在评估小的深度细节时的强大。

我们评价本发明的实施方面，在图中我们指的是DGC、“基于梯度的深度变换”的简写。我们考虑合成序列和真实的序列，并且我们在可用时与地面实况做比较。我们还与文献[11]中最接近的系统进行比较，我们将此系统称为DT(代表深度转移)。此外，我们展示了将我们的技术应用于其他户外运动的潜力，结果显示对于网球、棒球、美式足球和曲棍球的2D到3D的转换很有前途。

注意，我们的方法具有几个参数，通过试验一次对所有序列调整这些参数。具体地，将K(候选图片的数量)设置为10，将n(区块尺寸)设置为9，将α(梯度微调参数)设置为60，将β(平滑度参数)设置为0.01。

我们将我们的2D到3D的转换技术(DGC)与多个技术进行比较。

DT：在其自己的数据库上训练的深度转移方法[11]。深度转移是现有技术的数据驱动的2D到3D的转换。其数据库MSR-V3D包括由微软的Kinect捕捉的视频，并且在线可用。

DT+：在我们的合成数据库(参考数据库)S-RGBD上训练的深度转移方法。正如[11]中陈述的，Kinect 2D+深度捕捉被限制于室内环境。这加上其错误的测量和不足的分辨率限制了它生成大的足球数据库的能力。为了严格对比，当使用我们的足球数据库训练时，我们将我们的技术与深度转移进行对比。

地面实况深度：如第3节中描述的，从FIFA13的视频游戏通过PIX[4]提取地面实况深度图。但是，这仅对合成数据可用。

原始3D：由3D相机捕捉的原始并排3D视频。我们主观地比较结果。

来自立体的深度：为了客观地将结果与原始的3D镜头进行比较，我们使用立体匹配[8]来近似地面实况深度。注意，立体匹配技术并不总是精确的。但是，我们的结果显示，有时它们会捕捉深度的整体结构，因此，对于客观的分析可能是有用的。

本发明的各方面已被应用于八个真实的测试序列：四个足球序列和四个非足球序列。我们还有一个合成足球序列(被称为Synth)。

足球：我们的真实足球序列包括从原始的3D镜头视频中提取的片段。这些序列被小心地创建以包括四个主要分类：长镜头、鸟瞰、中镜头和特写镜头。在长镜头中，相机被放置于高位，整个场地几乎都是可见的(图7，最右上)。鸟瞰类似，但是相机被放置在场地以上(图7，最右下)。中镜头将相机放置在更低的高度，具有更小的视野(图7，最左下)。特写镜头将相机对焦到具有小视野的一个或几个选手上(图7，最左上)。

非足球：我们的真实非足球序列包括来自网球、棒球、美式足球和曲棍球的片段。我们使用这些序列评价我们的方法在其他户外运动上的潜在应用。

Synth：我们以与创建S-RGBD类似的方式提取120个2D+深度的合成帧。给定地面实况深度，我们使用这种合成序列将我们的技术客观地与DT和DT+进行比较。

我们进行客观的试验，此试验在真实序列和合成序列上都使用本发明的各方面测量我们的深度图的质量。图5(顶部)示出了合成序列的帧及其地面实况深度，紧随其后的是使用DT、DT+和我们的DGC的评估深度。注意，所有的深度图都被归一化为(0-255)的范围。DT生成具有大量错误的测量，因为MSR-V3D很难与足球数据相像。由于在我们的数据库上做训练，DT+生成极大改善的结果。但是没有探测到大多数选手。我们的技术DGC探测选手，生成平滑的结果，并且与地面实况最相像。图6示出了对于Synth的全部120个帧的地面实况的平均绝对误差(MAE)。此图显示，我们的方法比DT和DT+产生更低的MAE。

对真实的序列进行客观的分析是具有挑战性的，因为缺乏地面实况深度。在[11]中，作者使用Kinect深度作为地面实况。但是，Kinect不能捕捉户外环境中的深度信息，因此，它不能生成用于足球比赛的地面实况评估。我们改为遵循不同的方法。给定3D的足球序列镜头，我们使用立体匹配[8]来近似地面实况的深度图。随后，我们将其与从2D到3D的转换所评估的深度进行比较。图5(底部)使用立体匹配示出了最有挑战性的足球测试序列之一的帧及其提取深度。虽然还远不完美，但是呈现了整体的深度结构，因此，能够被开发用于推断转换后的深度有多么好。在图5(底部)中，我们示出了使用DT、DT+和我们的DGC的评估深度。我们的技术DGC最佳地重构了地面实况。这也客观地捕捉了一系列超过100个帧，与DT和DT+比较，DGC分别减少了高至19％和高至86％的MAE。由于空间有限，图被省略。

此外，我们进行试验研究合成数据库(参考数据库)的尺寸的重要性。首先，我们使用能够出现在足球比赛中的各种各样的镜头中的120个帧创建合成序列。我们检测了六个数据库尺寸：1000、2000、4000、8000、13000和16000张图像。结果显示，由于缺乏足够大的数据，在高至8000的尺寸，性能围绕着MAE为30波动。

但是，从13000张图像开始，性能有了提升，MAE减少为20左右。在数据库中有16000张左右图像时性能稳定。因此，我们在我们的评估中使用16500张图像的数据库。

我们通过多个主观试验评价3D视觉感知。

我们将我们的技术与DT+和原始3D进行比较。

准备

我们根据ITU BT.2021推荐[6]进行主观试验，此推荐建议用于3D视频评价的三个主要感知维度：图画质量、深度质量和视觉(不)舒适度。图画质量主要地受编码和/或传输影响。深度质量测量感知到的深度的量，视觉不舒适度测量由于3D感知引起的任何形式的生理上的不愉悦感，即疲劳、眼疲劳、头痛等等。这些不舒适的出现通常是由于3D伪影、深度改变、舒适区扰乱和/或串音。在我们的试验中，我们测量深度质量和视觉舒适度。我们不测量图画质量，因为我们不改变任何压缩或编码参数，我们也不传输序列。

根据ITU推荐，我们的每个测试序列具有10至15秒之间的持续时间。我们在低光线条件下使用被动极化眼镜在55”的飞利浦电视上显示序列。根据ITU推荐，对于1920×1080分辨率的视频，观看距离在2m左右；对于1280×720的视频，观看距离在3m左右。十五个测试人员参加了主观试验。他们都是计算机科学的学生和研究人员。在此试验以前，使用静态和动态的随机点立体图测试了他们的立体视觉。在实际的试验以前，测试人员经历了稳定化阶段。他们对代表不同3D质量的4个序列按照从最佳到最差评分。那4个序列没有包括在实际的测试中。这个步骤稳定测试人员的预期，并且使他们熟悉评分规则。我们请测试人员阐明他们所有的问题，并且确保他们完全理解试验的过程。

评估我们的技术

我们通过测量当观看我们的转换后的序列时的平均测试人员满意度来评估我们的2D到3D的转换。我们检测4个足球序列和4个非足球序列。我们使用ITU推荐的单刺激(SS)方法评价深度质量和视觉舒适度。序列以随机的顺序展示给测试人员。每个序列为10至15秒，并且在开头有5秒的灰色字段表示序列编码后的名称，后面跟随10秒的灰色字段请测试人员投票。我们使用标准的ITU连续数值范围对深度质量和舒适度评分。深度质量标签被以连续的数值范围标记，为优秀、好、一般、差和很差，而舒适度标签为非常舒适、舒适、轻微不适、不适和极度不适。测试人员被要求在这些连续的数值范围中标记他们的分数。随后，我们将他们的标记映射为0至100之间的整数值，并且计算平均意见得分(MOS)。

图8示出了用于足球序列的MOS。在四个足球序列中，大多数测试人员将DGC评分在优秀的范围内。图7示出了一些评估深度的图像。注意我们可以怎样处理各种各样的视频镜头，包括不同的相机视图和混杂。

图9示出了用于非足球序列的MOS。曲棍球得分最高，因为它与足球最相像。但是，美式足球得分最低。虽然一些测试人员报告非常好的深度，其他人报告，由于美式足球的高度动态的环境具有很强的闭塞和混杂，很难感知深度。由于同样的原因，那些测试人员也报告了轻微不适。重要的是注意到，非足球的结果仅仅意味着展示我们的方法的潜力，因为我们实际上是使用足球数据库转换它们。在未来，我们将创建用于不同运动的更多样的数据库。

与原始3D进行比较

我们使用立体相机将我们的2D到3D的转换与原始的3D视频镜头进行比较。我们为此试验使用ITU推荐的双刺激连续质量数值范围(DSCQS)方法。基于DSCQS，测试人员在投票以前观看每一对序列(我们创建的3D序列和原始3D)至少两次，以便适当地评价它们的差异。序列以随机顺序示出，测试人员不知道哪个是原始序列，哪个是转换后的序列。测试人员被要求使用标准的ITU连续数值范围对两个序列的深度质量和舒适度评分。我们随后将他们的标记映射到0至100之间的整数值，并且计算意见得分差值(＝对于DGC的评分-对于原始3D的评分)。最后，我们计算平均意见得分差值(DMOS)。

DMOS为零表明我们的转换后的3D被评价为与原始3D相同，而负的DMOS表明我们的3D比原始3D具有更低的深度感知/舒适。图11示出了每个足球序列的深度质量和视觉舒适的DMOS。我们的转换与原始3D是可比较的，尤其是在占据整个足球比赛[9]70％左右的长镜头上。有趣的是，注意到一些测试人员发现我们的转换比原始3D更加舒适。他们报告原始3D中的弹出效果有时会引起不舒适。

与现有技术进行比较

我们将我们的3D转换与深度转移DT+[11]进行比较。正如在以前的试验中，我们使用DSCQS评估规则，并且计算深度质量和视觉舒适的DMOS。我们检测了大多数具有挑战性的足球序列、特写镜头和中镜头。它们的各种各样的相机角度、复杂运动、混杂和闭塞使它们成为2D到3D转换的最具有挑战性的序列。图12示出了特写镜头和中镜头的DMOS与DT+的DMOS的对比。我们的技术在中镜头上优于DT+平均15个点，在特写镜头上优于DT+12个点。此外，所有的15个测试人员将我们的技术评分为高于或等于DT+，报告的差异在统计上是显著的(p值<0.05)。

图10示出了DT、DT+和我们的DGC的一些已提取的深度图。注意，深度转移的原始实施为DT，这比DT+差得多(参见图10)。而且，除了DT+更低的主观评分更低以外，它们的深度有时具有非常大的噪声(参见图10和图5)。这可能引起长期的眼疲劳。

我们对545个特写镜头的帧和1726个非特写镜头的帧测量DGC和DT+的平均运行时间。空间分辨率为960×1080个像素。DGC对于特写镜头花费3.53分钟/帧，对于非特写镜头花费1.86分钟/帧。DT+的平均处理时间为15.2分钟/帧，这比我们的技术在特写镜头和非特写镜头上都更慢。由于更耗时的掩膜创建步骤，DGC对于特写镜头需要更多的时间。由于非特写镜头可以占到足球比赛的高至95％[9]，我们可以从更快的非特写镜头处理中受益。尽管如此，我们不能忽视特写镜头，因为它们通常包含丰富的深度信息。用于改进计算复杂度的未来努力可以集中于用于视频处理的时空的多分辨率模式。报告中所有的数字来源于在服务器上的处理，此服务器具有英特尔至强CPU E5-26500、2.00GHz的六个处理器、8核、总共264GB RAM和86GB缓存。

本发明的各方面提供2D到3D的视频转换方法，我们使用足球作为示例展示使用参考数据库(合成3D数据库)中的计算机生成的图片和深度信息进行实时转换。以前的方法不能处理如示例性的足球比赛中使用的各种各样的场景和运动复杂性。我们的方法基于转移合成数据库(参考数据库)中的深度梯度，并且通过泊松重建评估深度。我们实施了建议的方法，并且使用真实的和合成的序列评估它。结果显示，我们的方法能够处理呈现的一系列视频镜头，例如，足球比赛中的镜头，包括不同的相机视图、运动复杂度、遮挡、混杂和不同的颜色。我们的主观研究的参与者大多数时间将我们创建的3D视频评价为优秀。试验结果还显示，我们的方法在客观和主观上对于真实的和合成的序列都优于现有技术。

本发明的各方面影响2D到3D的视频转换的区域，并且一般而言，潜在地影响3D视频处理。首先，特定于域的转换能够比通用方法提供更好的效果。第二，在区块的基础上转移深度梯度不仅产生了平滑自然的深度，而且它减少了所需要的参考数据库的尺寸。第三，从计算机生成的内容创建的合成数据库(参考数据库)能够很容易地提供用于各种3D视频处理的应用程序的大而多样并且精确的结构和深度参考。

本发明的各方面能够扩展到多个方向，例如，转换不同运动的视频可能需要创建更大的合成数据库(参考数据库)。

当在此说明和权利要求中使用时，术语“包括”和“包含”以及由此的变体意味着包含特定的特征、步骤或整数。这些术语不应被解释为排除其他特征、步骤或组件的出现。

前述说明书或前述权利或附图公开的、以它们的具体形式或以用于执行公开的功能的方式表达的特征，或者用于获得公开的结果的方法或过程，可以适当地分别地或以这些特征的任意组合被利用，用于以在此的多样形式实现本发明。

[1]Berkeley《3D对象数据集》，http://kinectdata.com/。

[2]《制造3D》，http://make3d.cs.cornell.edu/data.html。

[3]NYU《深度数据集》第二版，

http://cs.nyu.edu/～silberman/datasets/nyu_depth_v2.html。

[4]《用于Xbox(PIX)的性能研究器》，

https://msdn.microsoft.com/en-us/library/

windows/desktop/ee663275％28v＝vs.85％29.aspx。

[5]《RGB-D对象数据集》，

http://rgbd-dataset.cs.washington.edu/。

[6]ITU-R BT.2021，《用于评定立体3DTV系统的主观方法》，瑞士日内瓦，2012年11月，国际电信联盟。

[7]P.Bhat、B.Curless、M.Cohen和C.Zitnick，《用于梯度域问题的2D筛过的泊松方程的傅里叶分析》，欧洲计算机视觉会议(ECCV'08)会报，第114页{128.法国马赛，2008年10月。

[8]T.Brox、A.Bruhn、N.Papenberg和J.Weickert，《基于变换理论的高度精确的光ow评估》，欧洲计算机视觉会议(ECCV'04)会报，第25页{36，捷克共和国布拉格，2004年5月。

[9]K.Calagari、K.Templin、T.Elgamal、K.Diab、P.Didyk、W.Matusik和M.Hefeeda.Anahita：《具有深度定制的用于3D视频流的系统》，ACM多媒体(MM'14)会报，第337页{346，佛罗里达州奥兰多，2014年11月。

[10]D.Hoiem、A.A.Efros和M.Hebert，《自动照片弹出》，ACM关于图形的会报，24(3)：577{584，2005年。

[11]K.Karsch、C.Liu和S.B.Kang，《深度转移：使用非参数抽样从视频中进行深度提取》，IEEE关于模式分析和机器智能的会报，36(11)：2144{2158，2014年。

[12]J.Ko，《2D到3D的立体转换：2D图像和足球视频中的深度评估》，硕士论文，韩国科学技术学院(KAIST)，2008年。

[13]J.Konrad、M.Wang、P.Ishwar、C.Wu和D.Mukherjee，《基于学习的2D到3D的图像和视频的自动转换》，IEEE关于图像处理的会报，22(9)：3485{3496，2013年。

[14]A.Levin、D.Lischinski和Y.Weiss，《自然抠图的封闭形式求解》，IEEE关于模式分析和机器智能的学报，30(2)：228{242，2008年。

[15]C.-W.Liu、T.-H.Huang、M.-H.Chang、K.-Y.Lee、C.-K.Liang和Y.-Y.Chuang，《3D电影艺术原理和它们在立体媒体处理中的应用》，ACM多媒体会议(MM'11)会报，第253页{262，亚利桑那州斯科茨代尔，2011年11月。

[16]P.Ochs、J.Malik和T.Brox，《通过长期视频分析对运动对象进行切割》，IEEE关于模式分析和机器智能的会报，36(6)：1187{1200，2014年。

[17]A.Oliva和A.Torralba，《场景具体化建模：空间信封的整体表示》，计算机视觉国际期刊，42(3)：145{175，2001年。

[18]P.P_erez、M.Gangnet和A.Blake，《泊松图像编辑》，ACM关于图形的会报，22：313{318，2003年。

[19]R.Rzeszutek、R.Phan和D.Androutsos，《用于2D到3D的半自动转换的深度评估》，ACM多媒体会议(MM'12)会报，第817页{820，日本奈良，2012年10月。

[20]A.Saxena、S.H.Chung和A.Y.Ng，《从单个的单眼图像学习深度》，高级神经信息处理系统(NIPS'05)会报，第1161页{1168，加拿大温哥华，2005年12月。

[21]L.Schnyder、O.Wang和A.Smolic，《使用全景对运动内容进行2D到3D的转换》，IEEE会议关于图像处理(ICIP'11)的会报，第1961页{1964，比利时布鲁塞尔，2011年9月。

[22]J.Shotton、A.Fitzgibbon、M.Cook、T.Sharp、M.Finocchio、R.Moore、A.Kipman和A.Blake，《部分地来自单个深度图片的实时人类姿势识别》，IEEE会议关于计算机视觉和模式识别(CVPR'11)的会报，第1297页{1304，罗德岛州普罗维登斯，2011年6月。

[23]W.Wu、A.Are_n、G.Kurillo、P.Agarwal、K.Nahrstedt和R.Bajcsy，《3D远程沉浸式视频的颜色加深度的细节水平：生理学方法》，ACM多媒体会议(MM'11)会报，第13页{22，亚利桑那州斯科茨代尔，2011年11月。

[24]Z.Yang、W.Wu、K.Nahrstedt、G.Kurillo和R.Bajcsy，《后处理模块：用于多方3D远程沉浸式环境的视图传播和管理》，ACM多媒体会议(MM'07)会报，第882页{891，德国奥巴伐利亚州格斯堡，2007年9月。

[25]L.Zhang、C.V_azquez和S.Knorr，《3D-TV内容创建：2D到3D的视频自动转换》，IEEE关于广播的会报，57(2)：372{383，2011年。

[26]Z.Zhang、C.Zhou、B.Xin、Y.Wang和W.Gao，《立体视频转换的交互式系统》，ACM多媒体会议(MM'12)会报，第149页{158，日本奈良，2012年10月。