CN102170577A

CN102170577A - 用于处理视频图像的方法和系统

Info

Publication number: CN102170577A
Application number: CN201110049534XA
Authority: CN
Inventors: 乔纳森·理查德·索尔佩
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-02-26
Filing date: 2011-02-28
Publication date: 2011-08-31
Anticipated expiration: 2031-02-28
Also published as: US20110210965A1; CN102170577B; GB201003289D0; US8766973B2; GB2478156A

Abstract

本发明提供用于处理视频图像的方法和系统。描述了生成位差地图的方法。该方法用于可在限定屏幕平面的屏幕上显示的图像序列，该序列包括可被观看者在不同于屏幕平面的图像平面上感知的可立体观看的第一对象，该对象包括可被观看者的一眼观看的第一图像和可被该观看者的另一眼观看的第二图像，该方法包括：对第一图像帧执行第一边缘像素检测处理以识别第一图像帧内的边缘；从检测到的边缘识别第一图像的特征像素；生成包括特征像素的像素块；利用来自第一图像帧的像素块对第二图像的搜索区域执行块匹配，其中从第一帧生成的像素块被与搜索区域进行相关；以及通过识别第一图像帧的特征像素相对于第二图像帧中的相应特征像素的相对位移生成位差地图。

Description

用于处理视频图像的方法和系统

技术领域

本发明涉及用于处理视频图像的方法和装置。

背景技术

为了增强观看者在观看视频素材时的体验，可以应用已知的技术以便给予观看者视频素材内的某些图像具有三维(3D)质量的印象。这是通过将视频布置为包括立体图像的序列来实现的，其中观看者通过一只眼睛看到第一图像，并且通过另一只眼睛看到第二图像。如果第一图像和第二图像是同一对象的图像，但这些图像对于观看者看到的观看平面(例如电视显示屏或影院屏幕)而言相互之间有水平位移，则观看者通过感知到有对象的单个图像并且此图像具有某个程度的深度(即位于观看平面的前方或后方)来调和此视觉信息。通过将两个图像布置成同一对象的图像但是是从略微不同的角度捕捉的，可以增强3D效果。因为人类眼睛间隔开了一小段距离，所以这模仿了当通过双眼观看真实对象时观看者看到的信息，从而观看者将显示的图像感知为3D对象。

与传统的二维(2D)视频序列不同，为了让观看者观看3D图像，其眼睛必须指向略微不同的方向，这是因为同一对象的位移版本的水平位移。当观看立体图像时，观看者的眼睛可能发生不自然的运动。例如，观看者的眼睛可能不自然地分散，可能太过聚拢，或者可能在垂直方向上分散(由于图像中的垂直视差(parallax))。这可导致不适。因此分析3D视频序列以通过产生指示出第一和第二对象的相对位置的位差地图(disparity map)来确定观看者必须使其眼睛指向不同方向的程度，可能是有用的。

另外，当在视频序列中将2D图像的显示与3D图像相组合时，必须仔细地考虑以确保3D幻觉不会失效。这在实况录像(live footage)中尤其重要，其中录像中的对象可能移动“经过”说明文字。

发明内容

根据本发明的第一方面，提供了一种为可在限定屏幕平面的屏幕上显示的图像序列生成位差地图的方法，其中图像序列包括可被观看者在不同于屏幕平面的图像平面上感知到的可立体观看的第一对象，该可立体观看的对象包括可被观看者的一只眼睛观看的第一图像和可被该观看者的另一只眼睛观看的第二图像，该方法包括：对第一图像帧执行第一边缘像素检测处理以识别第一图像帧内的边缘；从检测到的边缘中识别第一图像的特征像素；生成包括特征像素的像素的块；利用来自第一图像帧的像素的块对第二图像的搜索区域执行块匹配，其中从第一帧生成的像素的块被与搜索区域进行相关；以及通过识别第一图像帧的特征像素相对于第二图像帧中的相应特征像素的相对位移，来生成位差地图。

这是有利的，因为通过执行边缘检测并且从检测到边缘的像素中选择关键特征像素，可以利用比当前情况更少的计算机资源迅速地产生位差地图。

该方法可包括通过将预先限定的指示出可立体观看的第一对象的深度的深度参数与由位差地图标识的对象位置相关联，来从位差地图生成深度地图，该深度地图提供对屏幕平面与图像平面之间的距离的指示。

该方法可包括依据由深度地图或位差地图指示的可立体观看的第一对象的位差来将可立体观看的第一对象与图形指示物相关联。

该方法可包括如果深度等于或大于预定的视差阈值则将可立体观看的第一对象与图形指示物相关联。

图形指示物可包括向3D图像施加颜色。

该方法可包括对第二图像帧执行第二边缘像素检测处理以识别第二图像帧内的边缘，根据识别出的边缘和所生成的位差地图确定第一图像帧中的预测边缘像素，并且当预测边缘像素和第一图像中检测到的边缘像素的位置在预定的阈值距离内时证实位差地图。

这是有利的，因为通过证实位差地图，地图的精确度得以提高。

在边缘像素检测步骤之前，可向第一图像帧和第二图像帧中的至少一个帧的自相关版本应用亚谐求和处理以确定存在于该至少一个帧中的重复图案的基本频率的大小，并且边缘像素检测处理和位差处理步骤是依据该至少一个图像帧的基本频率的大小来执行的。

这是有利的，因为通过识别图像的可能导致混淆的区域，并且通过据此调整位差地图的产生，可以改进地图的整体结果。

位差地图可包括相应特征像素之间的水平位移，并且边缘检测处理使用Sobel边缘检测技术。

这是有利的，因为当检测水平位差时，可以仅检测垂直边缘。这减小了计算花费。

第一边缘检测处理可包括将第一图像分成多个像素块并且确定每个像素块中的边缘的数目的步骤，其中如果边缘的数目低于阈值，则认为没有边缘位于该像素块中。

这是有利的，因为忽略了多余的边缘，这样又减小了计算花费。

阈值可与该像素块中的垂直像素数目相同。

如果在一像素块中检测到的边缘的数目高于第二阈值，则可认为该像素块中的边缘的数目是第二阈值。

这同样是有利的，因为其减小了计算花费。

根据另一方面，提供了一种可操作来为可在限定屏幕平面的屏幕上显示的图像序列生成位差地图的视频处理装置，其中图像序列包括可被观看者在不同于屏幕平面的图像平面上感知到的可立体观看的第一对象，该可立体观看的对象包括可被观看者的一只眼睛观看的第一图像和可被该观看者的另一只眼睛观看的第二图像，该装置包括：边缘像素检测器，该边缘像素检测器可操作来对第一图像帧执行第一边缘像素检测处理以识别第一图像帧内的边缘；识别器，该识别器可操作来从检测到的边缘中识别第一图像的特征像素；块生成器，该块生成器可操作来生成包括特征像素的像素的块；块匹配器，该块匹配器可操作来利用来自第一图像帧的像素的块对第二图像的搜索区域执行块匹配，其中从第一帧生成的像素的块被与搜索区域进行相关；以及位差地图生成器，该位差地图生成器可操作来通过识别第一图像帧的特征像素相对于第二图像帧中的相应特征像素的相对位移，来生成位差地图。

该装置可包括深度地图生成器，该深度地图生成器可操作来通过将预先限定的指示出可立体观看的第一对象的深度的深度参数与由位差地图标识的对象位置相关联，来从位差地图生成深度地图，该深度地图提供对屏幕平面与图像平面之间的距离的指示。

该装置可包括关联设备，该关联设备可操作来依据由深度地图或位差地图指示的可立体观看的第一对象的位差来将可立体观看的第一对象与图形指示物相关联。

关联设备可操作来在深度等于或大于预定的视差阈值的情况下将可立体观看的第一对象与图形指示物相关联。

图形指示物可包括向3D图像施加颜色。

边缘检测器还可操作来对第二图像帧执行第二边缘像素检测处理以识别第二图像帧内的边缘，根据识别出的边缘和所生成的位差地图确定第一图像帧中的预测边缘像素，并且当预测边缘像素和第一图像中检测到的边缘像素的位置在预定的阈值距离内时证实位差地图。

在边缘像素检测步骤之前，亚谐求和设备可操作来向第一图像帧和第二图像帧中的至少一个帧的自相关版本应用亚谐求和处理以确定存在于该至少一个帧中的重复图案的基本频率的大小，并且边缘像素检测处理和位差处理步骤是依据该至少一个图像帧的基本频率的大小来执行的。

在第一边缘检测处理期间，边缘检测器可操作来将第一图像分成多个像素块并且确定每个像素块中的边缘的数目，其中如果边缘的数目低于阈值，则认为没有边缘位于该像素块中。

阈值与该像素块中的垂直像素数目相同。

在所附权利要求中进一步限定了本发明的各种方面和特征。

附图说明

现在将参考附图以示例方式描述本发明的实施例，附图中：

图1提供了图示3D视频序列的示意图；

图2提供了图示用于显示图1所示的3D视频序列的系统的示意图；

图3提供了图示在图2的系统中显示的图像可如何被观看者看到的示意图；

图4提供了图示在图2的系统中显示的图像可如何被观看者看到的示意图；

图5和6提供了图示图2和3所示的显示的自上而下的版本的示意图；

图7a至7d提供了图示根据本发明实施例用于减轻观看者不适的技术的示意图；

图8提供了图示图7a至7d中所示的技术的示例的示意图；

图9提供了图示用于实现图7a至7d所示的技术的系统的示意图；

图10提供了图示被插入到3D视频序列的2D图像的示例的示意图；

图11提供了图示屏幕上的2D图像的定位的示意图；

图12提供了图示如何以传统方式比较3D视频序列的左快门帧和右快门帧以生成位差地图的示意图；

图13提供了图示用于提高生成位差地图的速度和效率的改进技术的示例的示意图；

图14提供了图示位差映射单元的示意图；

图15a提供了图示来自3D视频序列的场景的示意图；

图15b提供了图示用于示出来自3D视频序列的场景的技术的示意图；

图16提供了图示用于执行图15b所示的技术的系统的示意图；

图17提供了图示来自3D视频序列的右快门帧和左快门帧的示例的示意图；

图18a至18e提供了图示用于识别包含在位差映射期间可能导致混淆的内容的帧部分的技术的示意图；

图19提供了用于实现图18a至18e所示的技术的系统的示意图；并且

图20提供了图示根据本发明实施例的处理的流程图。

具体实施方式

有若干种用于在视频序列中提供立体(即3D)图像的技术。例如，观看者可以佩戴一副眼镜，其中一个透镜包括只允许在一个方向上偏振的光通过的光学滤波器，而另一透镜包括只允许在另一方向上偏振的光通过的光学滤波器。观看者随后观看视频序列，在该视频序列中通过显示第一和第二图像生成了3D图像，其中每个图像是以不同极性的光来显示的。这确保了观看者的每只眼睛只看到一个图像。在影院中，这可通过使用两个单独的放映机将视频序列的两个版本投影到影院屏幕上并且其中每个不同版本通过不同的偏振滤波器来实现。在电视机和计算机监视器中，此技术可通过提供经适应性修改的隔行显示屏来实现，在该显示屏中，偶数行的像素发出在第一方向上偏振的光，而奇数行的像素发出在第二方向上偏振的光。利用奇数行像素显示第一图像，并且利用偶数行像素显示第二图像。

其他示例包括基于双凸透镜的显示屏，其包括垂直双凸透镜的阵列，这些垂直双凸透镜被布置成以不同的显示角度来投影构成3D图像的两个不同图像。通过使显示角度与观看者的眼睛之间的间距相匹配，观看者将通过每只眼睛看到不同的图像。

在另一示例中，使用快门透镜系统。向观看者提供一副“快门眼镜”。快门眼镜包括标准眼镜布置，只不过在传统上一对光学透镜所在之处，改为一对快门，该对快门能够非常迅速地打开和关闭以允许或限制光的透射。每个快门通常是利用液晶显示透镜来实现的，通过施加适当的电压可将这种液晶显示透镜变成不透明的。快门眼镜与显示屏同步。显示屏示出“左快门帧”和“右快门帧”的序列。在一个视频帧期间，有一个左快门帧和一个右快门帧的一个完整周期。当“左快门帧”被示出时，快门眼镜的右透镜中的快门关闭，从而观看者仅通过其左眼看到屏幕。当“右快门帧”被示出时，快门眼镜的左透镜中的快门关闭，并且观看者仅通过其右眼看到屏幕。因此，左快门帧和右快门帧的序列可用于允许用户通过每只眼睛观看不同的图像。

以下描述中说明的方法和系统主要是按照快门透镜系统来描述的。然而，将会明白，这里公开的系统和方法可利用任何上述立体视频系统来实现。具体而言，所有的立体视频系统在某种程度上都包括仅被左眼看到的“左帧”和仅被右眼看到的“右帧”的概念。

图1提供了图示包括若干个3D视频帧的3D视频序列101的示意图。每个3D视频帧103包括一个左快门帧102和一个右帧104。从图1可见，左快门帧和右快门帧被交替布置。

图2提供了图示用于显示图1所示的3D视频序列的系统的示意图。

图2示出了显示屏201，例如传统的电视机，其连接到3D视频源202，该3D视频源202中存储着图1所示的3D视频序列。存储在3D视频源202中的3D视频序列被输入到显示屏201并且来自3D视频序列的每个3D视频帧被顺序地显示在显示屏201上。观看者203被示为佩戴着一副快门眼镜204。快门眼镜204包括左快门204a和右快门204b。快门眼镜204通过连接205与从3D视频存储202的3D视频序列输出同步。连接205在一些示例中可以是无线连接或者在其他示例中可以是物理连接。快门眼镜204与从3D视频源202的3D视频序列输出同步，因为当显示屏201显示左快门帧时，快门眼镜204的右快门204b被关闭，以基本上防止任何光通过右快门204b。其效果是观看者203仅用其左眼看到显示屏201。相应地，在来自3D视频序列的左快门帧中示出的第一图像206被观看者通过其左眼看到。在左快门帧已被显示后，来自3D视频序列的随后的右快门帧被显示。快门眼镜204与3D视频源202之间的同步使得当右快门帧被显示时，快门眼镜204的左快门204a被关闭，从而观看者203仅通过其右眼看到显示屏201。当右快门帧被显示时，第二图像207被显示，第二图像207与在左快门帧中示出的第一图像206相对应，然而第二图像207相对于第一图像206的位置有水平位移。将会明白，帧以如下速率被显示给观看者203：该速率使得观看者无法察觉到正在显示交替的图像206、207。观看者而是会将两个图像206、207感知为具有某种程度的三维“深度”的单个图像。这在下文中参考图3来进一步说明。

图3示出了图示图2所示的系统的示意图，只不过示出了显示屏201上的图像如何被观看者203看到。观看者203经由快门眼镜204的左快门的顺序打开和快闭而通过其左眼看到第一图像206，并且经由快门眼镜204的右快门顺序打开和关闭而通过其右眼看到第二图像207。人类大脑将通过感知存在位于显示屏201前方某个距离处的3D图像208来调和来自显示屏的此信息。以这种方式位于显示屏前方的3D图像被说成是具有“负”视差。

将会明白，此技术也可用于向观看者赋予3D图像位于屏幕后方的印象。这在图4中示出。图4示出了图示观看者203通过其右眼看到的第一图像401和观看者203通过其左眼看到的第二图像402的示意图。从图4可以看出，这向观看者203赋予了3D图像403位于显示屏201后方的印象。

减轻由于从在一个图像平面上感知的图像切换到要在不同的第二图像平面上感知的图像(例如2D)而引起的不适

在如图2至4所示显示给观看者的视频序列中，由于3D视频序列从显示3D图像(即，通过向观看者的右眼示出第一图像并且向观看者的左眼示出水平偏移的第二图像而生成的图像)突然切换到不同平面上的图像(例如，观看者通过双眼看到的显示在屏幕上的2D图像，或者具有不同3D效果的图像)，可能发生问题。参考图5和图6来说明此概念。图5示出了图示图2和3中所示的显示屏201的自上而下版本的示意图，该显示屏201示出了第一图像206和第二图像207，它们分别被观看者的右眼501和观看者的左眼502观看，从而导致观看者感知到3D图像208。

图6与图5一样示出了显示屏201的自上而下视图，只不过这次示出了3D视频序列的后续帧，从而3D图像208在此示例中被观看者用双眼看到的2D图像601所替换。通过比较图6与图5可以看出，当显示屏201突然从显示3D图像208改变到显示2D图像601时，观看者的眼睛的方向必须突然改变以聚焦在2D图像601上。如果3D视频序列包括从显示3D图像到显示2D图像以及从显示2D图像到显示3D图像的这样若干个突然切换，则观看者必须迅速改变其眼睛指向的方向这一事实可能导致强烈的不适。

图7a至7d提供了图示根据本发明实施例用于减轻观看者不适的技术的示意图。

图7a示出了3D视频序列帧的序列所提供的两个图像206、207，观看者将这两个图像感知为显示在图像平面(201)(例如显示屏)上的3D图像208。换言之，图像206在左快门帧期间被显示，图像207在右快门帧期间被显示。图7b示出了3D视频序列的下一视频帧，其中存在从3D图像208到2D图像601的切换。然而，从图7b可以看出，在屏幕201上提供了2D图像601的两个拷贝，即第一拷贝601a和第二拷贝601b。二维图像的第一和第二拷贝的位置对应于构成3D图像208的第一图像206和第二图像207的位置。图7c示出了视频序列的下一帧，其中示出了2D图像的第一拷贝601a和2D图像的第二拷贝601b聚拢到一起。图7d示出了在图7c中所示的帧之后3D视频序列的帧，其中2D图像的第一和第二拷贝已经聚拢在屏幕201上的单个点，从而提供了2D图像601的单个表示。此单个点对应于在该图像平面中向将观看者显示2D图像的位置。

因此，在一小段时间中，2D图像被立体地显示(因此将具有轻微的3D效果)。随着2D图像在屏幕上逐渐朝着单个点聚拢，3D效果将会减小，直到快到单个点时或在单个点处，图像将变成几乎2D的或完全2D的。实际上，当几乎(或确实)完全聚拢时，可以使快门眼镜停止工作，从而使得眼镜中的两个透镜都透明。于是此时可显示单个2D图像。可以在即将完全聚拢之前只显示2D图像，因为眼睛上的转变不会那么大。

将会理解，通过采用此技术，而不是强迫观看者突然将其眼睛的方向从两个有位移的图像变成单个图像，观看者的眼睛被更逐渐地引导至要显示2D图像的最终点。此技术可被应用在少量的帧上，例如12个帧上，使得2D图像的两个拷贝在显示屏201上的单个点的聚拢对于观看者来说的可察觉性减小。实际上，在现实中，对于用户来说不可察觉的帧的数目很有可能高于12，因为观看者在3D空间中感知2D图像是比较困难的。另外，可以控制2D到单个点的聚拢以使其对于观看者而言不可察觉或可察觉。通过使该转变对于用户而言可察觉，可以实现有用的编辑效果。实际上，可以在任何数目的帧上做出该转变，这样将减轻其眼睛从观看3D图像到2D图像对观看者的影响。因此，在转变对于观看者而言不可察觉的情况下，虽然观看者不会感知到在一小段时间中2D图像被立体地显示在显示屏上(因此不会感知到2D图像具有3D效果)，但其眼睛仍将被逐渐引导至显示屏201上的2D图像的位置。

图8示出了图示此技术的示例的示意图。图8示出了图2和3中所示的显示屏201。从图8可以看出，在t＝0，观看者感知到显示屏201上的3D图像208。在t＝1，2D图像的两个拷贝801a、801b被显示在显示屏201上先前由第一图像206和第二图像207占据的位置处。这具有2D对象在一小段时间中出现在3D空间中的效果。在时间t＝2，可以看到2D图像的两个拷贝801a和801b朝着显示屏201上的单个点聚拢。这使得2D对象的位置看起来更靠近屏幕。在t＝3，单个2D图像801被显示在2D图像的两个拷贝聚拢的点。

可以控制图像聚拢成2D图像的速率。例如，在转变期间图像的聚拢可以是恒定的(即2D图像聚拢的速率是恒定的)。或者，转变开始时图像的聚拢可以快于转变结束时的(即转变开始时2D图像聚拢的速率快于转变结束时的)。或者，转变结束时图像的聚拢可以快于转变开始时的(即转变结束时2D图像聚拢的速率快于转变开始时的)。这可能是有利的，尤其是在转变可察觉的情况下，因为这样可产生有用的编辑工具。然而，即使在不可察觉的转变的情况下，通过具有不同的转变速率也可进一步减轻对观看者的眼睛的不利影响。例如，在观看者的眼睛处于其最分散的状态的情况下(即在转变开始时)，开始缓慢转变可能是有用的。这样可以在观看者的眼睛处于其最不自然的位置时对其影响较小。然而，随着观看者的眼睛在转变期间变得不那么分散，聚拢速率可增大，因为对观看者的眼睛的影响更小了。

另外，虽然以上描述了帧的数目是对转变的可察觉性的一个影响因素，但也存在其他影响因素。例如，当从3D平面移动到2D平面时感知到的对象深度也可影响转变的可察觉性。

图9示出了图示用于实现图7a至7d和图8中所示的技术的系统的示意图。图9所示的系统可以实现为视频编辑套件的一部分，例如现有技术中已知的用于编辑实况或预录的视频内容的那些。

图9包括编辑单元91，用于执行传统的视频编辑功能，例如将视频的不同帧编辑在一起以产生输出视频序列，以及用于向视频序列应用各种效果。用户可利用用户控件95来控制编辑单元91。诸如来自电视摄像机的实况馈送或者正从某种形式的存储介质中读取的视频序列之类的视频序列源92被发送到编辑单元91。在图9所示的示例中，来自视频源92的视频序列是3D视频序列。编辑单元91还从第二视频源94接收视频内容。在一些示例中，这可以是计算机生成的内容，尤其是计算机生成的2D内容，比如要插入到视频序列中的徽标和/或补充信息。系统包括位差映射单元93，来自视频源92的3D视频序列也被输入其中。位差映射单元93被布置成比较3D视频序列的左快门帧和右快门帧以确定其中显示的图像之间的位差。例如，参考图2，可以看出，3D视频序列的左快门帧和右快门帧显示基本相同的图像，只不过这些图像相对于彼此有水平位移。位差映射单元93被布置成检测此水平位移(即位差)并将此信息传递给编辑单元91。位差是左图像和右图像中的相应像素之间的像素差数目。位差地图可用于生成深度，其利用摄像机参数将任何点处的位差映射到真实空间中的点。因此，利用从位差映射单元93提供来的位差映射信息，编辑单元可以跟踪组合在一起构成3D图像的左快门帧中的图像位置和右快门帧中的图像位置。位差映射信息可以是以信号形式提供的立体元数据。此映射信息可由捕捉图像的摄像机产生。立体元数据可与捕捉到的图像相关联地存储。此位差映射信息使得编辑单元可以将2D图像的两个拷贝插入在与先前显示的第一和第二图像的位置相对应的位置处，以便执行上述技术。在下文中更详细说明位差地图生成器的功能。

这里应当注意，以上是参考3D至2D切换来描述的。然而，本发明并不限于此。在本发明的实施例中，此交接技术同样可应用到3D到3D转变。例如，如果存在从其中对象被呈现在屏幕前方的一段3D录像到其中对象被呈现在屏幕后方的一段3D录像的切换，则仍可能存在不适。因此，上述交接技术对于对象从呈现在一个图像平面中移动到另一不同图像平面中的任何情形都是有用的。

2D图像对象插入

在一些情形中，可能希望将对象(即图像对象)的2D图像插入到3D视频序列中。例如，如果正示出实况体育事件，例如赛车事件，则可能希望将计算机生成的图形插入到示出比赛车辆的3D视频录像中，以向观看者提供关于赛车的进一步信息。这种信息可以是说明文字或字幕，或者实际上像图10中那样是数字。图10示出了图示2D图像被插入到3D视频序列中的示例的示意图。

从图10可以看出，第一图像206被显示给观看者的左眼并且第二图像207被显示给观看者的右眼，从而形成3D图像208，3D图像208在此示例中是比赛车辆。图10示出了插入2D图像，例如计算机生成的图形，比如数字。虽然此数字是对3D图像的补充并因此被插入在屏幕201上与第一和第二图像不同的位置处，但是2D图像110在第一图像206与第二图像207之间的定位可能导致3D图像208的深度幻觉失效。这在图11中更清楚示出，该图提供了图示在屏幕201上将2D图像110定位于第一图像206和第二图像207之间的某个位置处的示意图。观看者可以通过左眼和右眼看到2D图像110，但这个定位从观看者的角度来看是没有道理的，因为它处于观看者感知到3D图像208的位置的后方，其中3D图像208将位于屏幕的前方。

为了解决该问题，2D图像应当被插入到屏幕上的更适当位置处。具体而言，该位置不应受3D幻觉的影响，或者它应当被放置在屏幕上的如下位置处：该位置将在3D幻觉中最靠近观看者的对象的前方。为了确定此信息，使用位差地图。

识别可插入2D图像的区域的此技术是通过图9所示的系统利用来自位差映射单元93的信息确定来自3D视频序列的帧的将会构成3D图像的第一和第二图像的相对位置，同时利用编辑单元91插入来自第二视频源94的计算机生成的2D内容，来实现的。

另外，对于实况内容，不能保证屏幕上或3D空间中先前“安全”的位置仍将是安全的。例如，某人可能在摄像机前方走动，或者朝着摄像机奔跑。在这些情况下，希望在对象移动到图形前方时自动去除图形，或者去除图形的被对象遮蔽的部分。在前一种情况下，可以从在本发明的实施例中确定的位差地图获得此信息。然而，在第二种情况下，将必须生成具有针对每个像素的深度信息的密集位差地图。这种地图可利用任何已知的技术来生成，例如参考图12说明的那种，这是本领域的技术人员将会明白。

位差地图生成

图12提供了图示通过比较3D视频序列的左快门帧141和右快门帧142来生成位差地图的传统技术。左快门帧141和右快门帧142被对齐，然后，逐像素地，来自每个帧的每个点被与来自另一帧的相应点相比较，以识别帧之间像素的水平位移(即位差)。此信息随后可被图示到二维地图143上，该二维地图143图示了来自一个帧的像素相对于来自另一帧的像素有水平位移的区域。在一些示例中，该二维地图上的较暗的区域可用于指示较大水平的位差。

利用此传统技术，右快门帧的每条线145被与左快门帧的相应线146逐像素地相比较，以确定该线上的点的的位差。因为这是以逐像素方式进行的，所以虽然生成了非常详细的位差地图143，但它是非常计算密集的并且可能花费大量时间。对于可构成3D视频序列的帧的高清晰度图像，实时或接近实时地生成位差地图可以是不现实的。

图13提供了图示用于提高生成视频序列的位差地图的速度和效率的改进技术的示例的示意图。

首先，左快门帧151经历边缘检测处理。然而，同样地，可以改为用右快门帧进行边缘检测处理。此边缘检测处理可以利用诸如Sobel边缘检测处理之类的传统边缘检测算法来进行。实际上，使用Sobel边缘检测技术是有用的，因为在图像中只检测垂直边缘。检测垂直边缘是因为在实施例中只确定水平位差。因此，通过只检测垂直边缘，减少了候选关键特征的数目。这样就减小了计算花费。然而，本发明并不限于此，也设想了其他边缘检测处理，以及对任何方向上的边缘的检测。在执行边缘检测之后，生成示出从左快门帧检测到的边缘像素的边缘检测图像153。可以看出，第一图像153包含若干个多余边缘像素155、156，这些多余边缘像素不对应于来自3D视频序列的左快门帧中的主对象157。

于是，进行边缘检测的第二阶段，从而将第一图像153分解成较小的像素块，例如8×8像素块或16×16像素块(或者实际上任何大小的像素块)，并且分析这些块中存在的边缘像素的数目。如果每个块中的边缘像素的数目低于阈值，则假定该块不包含边缘像素。在实施例中，块的阈值与块长度和高度相同。这是因为穿过块的垂直线中将至少具有该数目的像素。然而，本发明并不限于此，并且预期到了任何阈值，例如5。于是，由于来自帧的背景中的对象(这些对象对于生成位差地图是无关的)而产生的多余边缘像素往往可被排除。在一些情形中，在一像素块中可能有许多边缘像素。因此，可以设定边缘像素的最大数目，例如12个，并且如果一像素块中的边缘像素的数目超过了此值，则可以随机挑选来自该块的预定数目的边缘像素，例如8个，并且假定这些边缘像素是该块的边缘像素。这是提高此技术的速度的方便方式。

在边缘像素检测的第二阶段之后，选择一个或多个关键特征。关键特征是从像素块中的检测到的边缘取出的像素。在实施例中，该选择是从被假定为包含边缘像素的像素块中包含的边缘像素中的随机选择，但其他非随机选择也是可能的。或者，像素块中的每个边缘像素可以是关键特征。在从每个像素块中选择关键特征之后，生成左侧快门帧中关键特征所在的第二块。此另一块例如是16像素×16像素的，并且以关键特征像素为中心。设想了该另一块可以是任何大小的。这意味着右侧图像中的关键特征像素是从具有检测到边缘的像素的像素块中选择的。

在右快门帧中(在左快门帧已经历了边缘检测处理的情况下)，确定搜索区域。此搜索区域在其中心处有关键像素，并且通常是宽201个像素且高11个像素的。换言之，右侧图像中的搜索区域的起始点在左侧图像中的关键特征的像素位置处。这里应当注意，可以使用任何大小的搜索区域，并且搜索区域的大小取决于左快门帧和右快门帧之间预期的最大水平和垂直视差。201个像素宽的搜索区域允许了-100像素到+100像素的范围中的水平视差，并且11个像素高的搜索区域允许了-5像素到+5像素的范围中的垂直视差。如果预期视差的范围是已知的，则可以相应地调整搜索区域大小。随后将来自左快门帧的16×16块与右快门帧中的搜索区域相“匹配”，其方式是利用传统的块匹配技术将该16×16块与搜索区域中的每个像素位置相比较。该比较是通过将示例块与搜索区域中的所有搜索块进行相关来进行的。具有最高相关值的搜索块成为最佳匹配。通过将左快门帧中的关键特征像素位置与右快门帧中的最佳匹配像素位置相比较来计算垂直和水平位差值。在确定一个关键特征像素的搜索块之后，对于所有关键特征像素重复该处理。

既计算水平视差也计算垂直视差是有用的，因为此技术对于在垂直方向上没有正确对齐的3D摄像机套组而言是健壮的。另外，通过确定垂直视差，可以校正这种误差。

将会明白，通过在位差映射处理中只使用边缘像素来生成关键特征，与在没有任何进一步处理的情况下对于3D视频序列的左快门帧151和右快门帧152逐像素地生成位差地图的情况相比，可以更迅速且更高效地生成位差地图。

可以进一步改进此技术以确保减少位差估计中的误差的数目。为了确证位差结果，一旦发生了块匹配，右图像中的边缘检测就可发生。因为已经确定了左侧图像中的边缘的位置并且计算了位差，所以可以识别出右侧图像内的哪些像素位置应当是边缘像素。然后在右侧图像中边缘像素应当所在之处(如果位差是正确的)和在右侧图像中是否有边缘像素位于该像素位置处之间进行比较。如果右图像中的最佳匹配像素位于右图像中的边缘上或者边缘附近，则位差结果得到确证。术语“附近”可以是在一个像素内，但也可设想任何像素数目。

图14示出了图示可被布置来实现图13所示的方法的位差映射单元(例如像图9所示的那种)的示意图。

图14示出了位差映射单元1601，其包括缓冲器1602、边缘检测单元1603和位差地图生成器1604。3D视频序列的第一帧被输入到缓冲器1602中，随后被传递到边缘检测单元1603，边缘检测单元1603进行图15所示的边缘检测处理。边缘检测信息随后被传递到位差地图生成器1604，在这里确定位差。位差地图生成器1604输出位差地图作为元数据。

深度预算检测

如参考图3将会明白的，位差地图可被布置在显示屏上，使之看起来好像在该显示屏前方的某个位置处。另外，3D图像离屏幕越远、离观看者越近，构成3D图像的两个图像之间的水平位移(即位差)就越大。因此，为了赋予3D图像非常靠近观看者的印象，必须使构成3D图像的两个图像隔得相当远。将会明白，如果构成3D图像的两个图像之间的距离太大，则观看者调和起来将会不适或者不可能调和，因为在某个点之后，观看者将不能同时将双眼指向相对于彼此有很大位移的两个图像。因此，可以设定“深度预算”(depth budget)，其限定了3D图像可具有的最大负或正视差，在此之后认为观看者观看3D图像将会过度不适。3D图像是否超过其深度预算是对于汇编3D视频序列的编辑器将会有用的信息。图15a和15b图示了用于使此信息可为3D视频序列编辑器所用的技术。

在一个示例中，提供了一种技术，用于清楚且方便地向观看者(例如正在编辑3D视频录像的用户)指出，哪些三维图像位于接近或超过深度预算的负视差处。图15a示出了图示来自3D视频序列的场景171a的示意图，该3D视频序列包含具有非常高的负视差的第一图像172a、具有中等负视差的第二图像173a和具有可忽略的负视差的第三图像174a。

根据此技术，在3D视频序列帧中显示的达到或超过深度预算的3D图像被赋予一种颜色，以向3D视频序列编辑者指出特定的3D图像超过了深度预算。图15b示出了图示来自3D视频序列的第二场景171b的示意图，其中各种3D图像已被着色以指示出其关于深度预算的相对视差。具体地，第一3D图像172b被赋予了深色，以表明其达到或超过了深度预算。第二图像173b被赋予了中等深色，以表明其接近或即将超过3D深度预算，而第三3D图像174b被赋予浅色，以表明它不超过深度预算。

将会明白，不同的技术可用于指示出3D对象距离有多接近于超过深度预算。例如，如果3D对象在深度预算许可的最大正视差的10％内，则3D对象将被赋予浅红色。如果3D对象在达到或超过深度预算的正视差处，则它可被赋予亮红色。

图16示出了图示用于执行图15b所示的技术的系统的示意图。从图16可以看出，该系统包括与图9所示的系统相同的部件，因此将不再说明相似的部件。然而，图16所示的系统包括深度映射单元181和深度参数单元182。

如上所述，位差映射单元93提供位差地图，其指示出来自3D视频序列的左快门帧和右快门帧的图像之间的水平位移。从位差地图中，可以确定是存在正视差还是负视差。这是因为当创建深度地图时，可以判定左图像中的像素是位于右侧图像中的同一像素的左边还是右边。如果像素在右边，则存在负视差。然而，如果像素在左边，则存在正视差。因此，图16的系统包括深度映射单元181，其从位差映射单元93取得位差地图，并且向其应用由深度参数单元182提供的深度参数。深度参数提供了指示出来自3D视频序列的对象的相对深度的另一信息来源。可通过若干种不同手段来提供深度参数。例如，如果3D视频序列是利用传统电视摄像机捕捉，则与在捕捉该特定帧期间电视摄像机的镜头的焦距相关联的元数据可用于确定所关注的3D图像的相对位置。此信息可作为元数据被存储在深度参数单元182中并在适当时被提供给深度映射单元181。在另一示例中，深度参数可能就是由观看3D视频序列并且为每个3D图像确定一定深度的观察者手工生成的。在任何情况下，深度映射单元181把由深度参数单元182提供的深度参数与由位差映射单元93提供的位差地图相比较，以提供指示出3D视频帧内的对象的相对深度的完整深度地图。此信息随后被传递到编辑单元91，编辑单元91随后判定3D视频序列中存在的3D图像是否达到或超过深度预算，并且如果是，则如以上参考图15b所述向有关3D对象应用某种图形指示物。将会明白，也可以简单地通过查看来自位差地图的位差来判定是否超过深度预算。

混淆减轻技术

在一些情形中，当来自3D视频序列的两个帧经历位差映射时，位差映射处理可能受到左快门帧和右快门帧之间的混淆(aliasing)的影响。这在图17中图示出。

图17示出了来自示出网球场的场景的3D视频序列的右快门帧192和左快门帧191的示例的示意图。该网球场包括网球网193a、193b。网球网193a、193b是由网状材料构成的，这种材料在视频帧191、192中被示为规律重复的图案。

将会明白，当在位差映射期间比较右快门帧192和左快门帧191时，由于球网的重复图案，位差处理可能混淆左快门帧191和右快门帧192之间的实际水平移位。

图18a至18e提供了图示用于识别帧的包含在位差映射期间有可能导致混淆的内容的部分的技术的示意图。

首先，利用已知的图像自相关技术对帧之一进行自相关。这可使用检测到边缘的区域的亚谐求和(Subharmonic summation)或块匹配概率的梳状滤波中的一种。

对于亚谐求和，对关注区域进行边缘检测。对于检测到边缘的区域中的每条扫描线，将其与该扫描线的按1、2或3的倍数压缩的版本求和，以识别“谐波”结构。如果此扫描线的响应高于阈值，则它被分类为谐波，因此混淆有可能发生。于是从位差映射计算中排除此区域。

对于块匹配概率结果的梳状滤波，将左快门帧中的关注区域与右快门帧的搜索区域相匹配。这产生了块匹配概率矩阵，其中对于搜索区域的每个像素有一个概率值。以与亚谐求和技术中的扫描线相同的方式处理此矩阵的行。重复的结构将会在矩阵行上的规律点处导致概率最大值，这些最大检测被检测到。概率矩阵是有噪声的，这可能产生假阳性响应，这种假阳性响应是由简单地对概率矩阵中的“噪声”求和而导致的。因此，向概率矩阵应用梳状滤波器，该梳状滤波器的梳齿相隔给定的间距，该间距与给定的空间频率有关。梳齿处的响应被取平均并被从梳齿之间等距离的点处的响应的平均中减去。通过减去梳齿之间的噪声，降低了假阳性的可能性。利用某一范围的梳状滤波器重复此处理，这些梳状滤波器的梳齿相隔某一范围的距离，该范围与空间频率范围相对应。给定某一范围的频率的响应范围，如果任何一个响应大于阈值，则该扫描线被分类为谐波。

这样产生了图18a所示的输出。图18a示出了跨帧的宽度取得的曲线图的示意图。尖峰194指示出图片的自相关的区域，其指示出重复的图案。

图18a所示的曲线图随后被大小减半，产生了图18b所示的曲线图。1图18b所示的曲线图随后被大小减半，产生了图18c所示的曲线图。图18c所示的曲线图随后被大小减半，产生了图18d所示的曲线图。来自图18a至18d所示的曲线图的数据随后被求和以产生图18e所示的曲线图。

图18e所示的曲线图包括尖峰195，其对应于经历了该处理的帧的基本重复频率(即谐波)。如果该尖峰高于预定的阈值水平th，则这表明帧中的重复图案足够明显，以至于其在位差映射期间可能导致混淆。

尖峰195高于阈值水平这个事实可用于确保不发生混淆，其方式例如是通过确保所关注的帧中的将产生混淆的部分不经历位差映射。用于进行参考图18a至18d说明的技术的系统在图19中示出。

图19示出了与图9的系统相对应的系统的示意图，只不过图19的系统在视频序列源92与位差映射单元之间包括亚谐求和单元210。

亚谐求和单元210被布置成对来自存储在视频序列源92中的3D视频序列的左右快门帧对中的至少一个执行亚谐求和处理。

如果亚谐求和单元210确定所关注的帧的基本重复频率产生了如图18e所示的高于阈值水平的尖峰，则亚谐求和单元210被布置成向位差映射单元93发送信号，以确保它不对帧的可能发生混淆的部分进行位差映射。

图20示出了图示实现以上所述的减轻由于从3D图像切换到2D图像而引起的不适的技术的方法的示例的流程图，其中通过用非3D图像替换3D图像，修改了3D视频序列中从3D图像到非3D图像的切换。由于可被观看者的左眼观看的来自视频帧序列的第一图像和可被观看者的右眼观看来自视频帧序列的第二图像，并且第一图像和第二图像在图像平面中相对于彼此有位移，因此观看者可在视频序列的图像平面中感知到3D图像。在步骤S101，识别图像平面中的第一图像的第一位置。在步骤S102，识别图像平面中的第二图像的第二位置。在从3D图像切换到非3D图像之后，在步骤S103，基本上在第一位置处的非3D图像的第一拷贝被插入在视频序列的第一切换后帧中。在步骤S104，非3D图像的第二拷贝被基本上插入在视频序列的第一切换后帧的第二位置处。在步骤S105，非3D图像的第一拷贝和非3D图像的第二拷贝被插入在预定数目的后续帧的图像平面的一些位置处，插入第一和第二拷贝的位置逐渐聚拢在图像平面上的预定点上。

将会明白，在本发明的实施例中，以上所述的方法和系统的要素可以用任何适当的方式来实现。从而，所需的对传统等同设备的现有部件的适应性修改可以以包括处理器可实现指令的计算机程序产品的形式来实现，所述处理器可实现指令是存储在数据载体(例如软盘、光盘、硬盘、PROM、RAM、闪存或者这些或其他存储介质的任何组合)上、在网络(例如以太网、无线网络、因特网或者这些或其他网络的任何组合)上经由数据信号传输或者用硬件(例如ASIC(专用集成电路)或FPGA(现场可编程门阵列)或其他可配置或定制的适合用于对传统等同设备进行适应性修改的电路)实现的。

Claims

1.一种为可在限定屏幕平面的屏幕上显示的图像序列生成位差地图的方法，其中所述图像序列包括可被观看者在不同于所述屏幕平面的图像平面上感知到的可立体观看的第一对象，该可立体观看的对象包括可被观看者的一只眼睛观看的第一图像和可被该观看者的另一只眼睛观看的第二图像，所述方法包括：

对所述第一图像帧执行第一边缘像素检测处理以识别所述第一图像帧内的边缘；

从检测到的边缘中识别所述第一图像的特征像素；

生成包括所述特征像素的像素的块；

利用来自所述第一图像帧的像素的块对所述第二图像的搜索区域执行块匹配，其中从所述第一帧生成的像素的块被与所述搜索区域进行相关；以及

通过识别所述第一图像帧的特征像素相对于所述第二图像帧中的相应特征像素的相对位移，来生成位差地图。

2.根据权利要求1所述的方法，包括通过将预先限定的指示出所述可立体观看的第一对象的深度的深度参数与由所述位差地图标识的对象位置相关联，来从所述位差地图生成深度地图，该深度地图提供对所述屏幕平面与所述图像平面之间的距离的指示。

3.根据权利要求2所述的方法，包括依据由所述深度地图或所述位差地图指示的所述可立体观看的第一对象的位差来将所述可立体观看的第一对象与图形指示物相关联。

4.根据权利要求2所述的方法，包括如果所述深度等于或大于预定的视差阈值则将所述可立体观看的第一对象与所述图形指示物相关联。

5.根据权利要求3或4所述的方法，其中，所述图形指示物包括向所述3D图像施加颜色。

6.根据权利要求1所述的方法，包括对所述第二图像帧执行第二边缘像素检测处理以识别所述第二图像帧内的边缘，根据识别出的边缘和所生成的位差地图确定所述第一图像帧中的预测边缘像素，并且当所述预测边缘像素和所述第一图像中检测到的边缘像素的位置在预定的阈值距离内时证实所述位差地图。

7.根据权利要求1所述的方法，其中，在边缘像素检测步骤之前，向所述第一图像帧和所述第二图像帧中的至少一个帧的自相关版本应用亚谐求和处理以确定存在于该至少一个帧中的重复图案的基本频率的大小，并且

所述边缘像素检测处理和位差处理步骤是依据所述至少一个图像帧的基本频率的大小来执行的。

8.根据权利要求1所述的方法，其中，所述位差地图包括相应特征像素之间的水平位移，并且所述边缘检测处理使用Sobel边缘检测技术。

9.根据权利要求1所述的方法，其中，所述第一边缘检测处理包括将所述第一图像分成多个像素块并且确定每个像素块中的边缘的数目的步骤，其中如果边缘的数目低于阈值，则认为没有边缘位于该像素块中。

10.根据权利要求9所述的方法，其中，所述阈值与该像素块中的垂直像素数目相同。

11.根据权利要求9或10中任一个所述的方法，其中，如果在一像素块中检测到的边缘的数目高于第二阈值，则认为该像素块中的边缘的数目是所述第二阈值。

12.一种用于图像的图形用户界面，一可立体观看的第一对象位于该图像中，该图形用户界面包括：依据由深度地图或位差地图指示的所述可立体观看的第一对象的位差来将所述可立体观看的第一对象与图形指示物相关联，其中所述图形指示物包括向所述3D图像施加颜色。

13.一种用于图像的图形用户界面，一可立体观看的第一对象位于该图像中，该图形用户界面包括：如果所述第一对象的深度地图指示的深度等于或大于预定的视差阈值，则将所述可立体观看的第一对象与图形指示物相关联，其中所述图形指示物包括向所述3D图像施加颜色。

14.一种可操作来为可在限定屏幕平面的屏幕上显示的图像序列生成位差地图的视频处理装置，其中所述图像序列包括可被观看者在不同于所述屏幕平面的图像平面上感知到的可立体观看的第一对象，该可立体观看的对象包括可被观看者的一只眼睛观看的第一图像和可被该观看者的另一只眼睛观看的第二图像，所述装置包括：

边缘像素检测器，该边缘像素检测器可操作来对所述第一图像帧执行第一边缘像素检测处理以识别所述第一图像帧内的边缘；

识别器，该识别器可操作来从检测到的边缘中识别所述第一图像的特征像素；

块生成器，该块生成器可操作来生成包括所述特征像素的像素的块；

块匹配器，该块匹配器可操作来利用来自所述第一图像帧的像素的块对所述第二图像的搜索区域执行块匹配，其中从所述第一帧生成的像素的块被与所述搜索区域进行相关；以及

位差地图生成器，该位差地图生成器可操作来通过识别所述第一图像帧的特征像素相对于所述第二图像帧中的相应特征像素的相对位移，来生成位差地图。

15.根据权利要求14所述的装置，包括深度地图生成器，该深度地图生成器可操作来通过将预先限定的指示出所述可立体观看的第一对象的深度的深度参数与由所述位差地图标识的对象位置相关联，来从所述位差地图生成深度地图，该深度地图提供对所述屏幕平面与所述图像平面之间的距离的指示。

16.根据权利要求15所述的装置，包括关联设备，该关联设备可操作来依据由所述深度地图或所述位差地图指示的所述可立体观看的第一对象的位差来将所述可立体观看的第一对象与图形指示物相关联。

17.根据权利要求15所述的装置，其中，所述关联设备可操作来在所述深度等于或大于预定的视差阈值的情况下将所述可立体观看的第一对象与所述图形指示物相关联。

18.根据权利要求16或17所述的装置，其中，所述图形指示物包括向所述3D图像施加颜色。

19.根据权利要求14所述的装置，其中，所述边缘检测器还可操作来对所述第二图像帧执行第二边缘像素检测处理以识别所述第二图像帧内的边缘，根据识别出的边缘和所生成的位差地图确定所述第一图像帧中的预测边缘像素，并且当所述预测边缘像素和所述第一图像中检测到的边缘像素的位置在预定的阈值距离内时证实所述位差地图。

20.根据权利要求14所述的装置，其中，在边缘像素检测步骤之前，亚谐求和设备可操作来向所述第一图像帧和所述第二图像帧中的至少一个帧的自相关版本应用亚谐求和处理以确定存在于该至少一个帧中的重复图案的基本频率的大小，并且

21.根据权利要求14所述的装置，其中，所述位差地图包括相应特征像素之间的水平位移，并且所述边缘检测处理使用Sobel边缘检测技术。

22.根据权利要求14所述的装置，其中，在所述第一边缘检测处理期间，所述边缘检测器可操作来将所述第一图像分成多个像素块并且确定每个像素块中的边缘的数目，其中如果边缘的数目低于阈值，则认为没有边缘位于该像素块中。

23.根据权利要求22所述的装置，其中，所述阈值与该像素块中的垂直像素数目相同。

24.根据权利要求22或23中任一个所述的装置，其中，如果在一像素块中检测到的边缘的数目高于第二阈值，则认为该像素块中的边缘的数目是所述第二阈值。

25.一种计算机软件，其在被计算机执行时使得该计算机执行根据权利要求1至13中任何一个所述的方法。

26.一种存储介质，被配置为在其中或其上存储如权利要求25所述的计算机软件。