CN102740117A

CN102740117A - 3d视频分析

Info

Publication number: CN102740117A
Application number: CN2012101041921A
Authority: CN
Inventors: 萨拉·伊丽莎白·威特
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-04-08
Filing date: 2012-04-09
Publication date: 2012-10-17
Also published as: US20120257816A1; GB2489931A; GB201105974D0

Abstract

本发明公开了3D视频分析。一种用于表示场景的对应的左眼和右眼视图的3D图像对的图像分析装置，所述装置包括：图像裁剪检测器，该图像裁剪检测器被配置为检测在所述图像的一者的横向边缘上的图像裁剪的存在；以及帧违规检测器，该帧违规检测器被配置为在排除了任何检测到的图像裁剪的图像的区域内检测在右图像中没有找到的左图像的左边缘的阈值距离内的图像特征，或者在左图像中没有找到的右图像的右边缘的阈值距离内的图像特征。

Description

3D视频分析

技术领域

本发明涉及一种用于分析三维(3D)视频素材(video material)的方法和装置。

背景技术

三维(3D)视频电视最近已经面向了消费者，并且预期3D设备和节目的量在接下来的几年内将快速增加。

3D电视依赖于立体技术，即，图像对(一对图像)被对应的相机捕获，该对应的相机横向地相距(即，基本上在水平的图像方向上)某一距离，例如用户的眼睛的典型间距。图像对因此表示同一场景中略微不同的视图；一般而言，它们将包含场景内的相同项目(偶尔在图像的极端位置处会有例外)，但是两幅图像之间的项目的相对位置将取决于诸如相机对齐和该项目距相机布置的距离之类的因素。

当图像被显示时，以下要求是重要的：用户的每只眼睛(至少主要地)看着图像对中对应的一个。实际上，这是通过各种方式实现的，例如通过用户佩戴偏振的、时间复用或者颜色过滤的眼镜，或者通过电视屏幕自身设有特殊的镜头装置，该镜头装置将两幅图像中的每一幅转向到观看者的对应的眼睛位置。其中，在3D电视技术中一般不使用早期在3D影院中通常尝试的颜色过滤技术。

返回到3D相机系统，图像对中的每一个由独立的相机捕获，该独立的相机具有其自身的镜头和图像捕获装置(例如CCD装置)。但是，为了维持观看者的3D错觉，很重要的是：每个图像对的两幅图像在显示器处相组合以给出以下印象：观看者正在通过与显示屏幕一致的窗口观看真实的3D屏幕。

潜在的问题可能破坏这种错误，当具有负的视差的对象(也就是说，将被3D显示器显示为处于显示屏幕的平面的前面的对象)离开相机，也就是说，离开显示器时。该问题可能发生是因为对象在离开一只眼睛的图像之前离开了另一只眼睛的图像。在真实生活中，这种配置不会发生，因此在显示器上看到该配置会打破观看者正观看3D场景的错觉。当对象缓慢地向一侧或者另一侧离开屏幕时，这尤其是个问题。

对象是否出现在屏幕的前面的问题取决于对象相对于相机会聚点的位置。因此，一种可能的解决方案是改变会聚点，以使得视图中的所有对象都在屏幕的后面。另一种可能的解决方案是裁剪左图像和右图像以便从任一眼睛的视图中去除对象。然而，这可能对图像的艺术构图有其他显著的和不期望的影响。第三种技术是仅裁剪一幅图像，以便减少在该图像中对象的出现而使得其匹配另一幅图像。这被公知为将“浮动窗”或者“浮动裁剪”添加到图像。利用浮动窗，左图像和右图像的边缘根据哪些对象在屏幕的边缘上或者接近屏幕的边缘被动态裁剪。该性质的临时浮动窗的值是如果谨慎地实施该值，那么很有可能用户甚至不能注意到它的存在。

换句话说，如果没有应用适当的浮动窗，但是对象在图像的左侧的边缘或者右侧的边缘上，并且该对象在屏幕平面的前面，那么该图像可能会显得在一只眼睛中被不自然地截断。例如，图片的左侧的边缘上在屏幕前面的对象将显得在右眼中被不自然地截断。这是因为右眼将期望比左眼看到对象的更多部分，就像对象在屏幕周围的窗口的后面。如前所述，场景中的对象的这种明显不正确的截断可能引起观看者的不舒适感觉并且可能破坏3D感觉。

发明内容

本发明提供了一种用于表示场景的对应的左眼和右眼视图的3D图像对的图像分析装置，所述装置包括：

图像裁剪检测器，该图像裁剪检测器被配置为检测在所述图像的一者的横向边缘上的图像裁剪的存在；以及

帧违规检测器，该帧违规检测器被配置为在排除了任何检测到的图像裁剪的图像的区域内检测在右图像中没有找到的左图像的左边缘的阈值距离内的图像特征，或者在左图像中没有找到的右图像的右边缘的阈值距离内的图像特征。

本发明意图检测在3D视频中的帧违规，但是认识到如果浮动窗已经存在，则浮动窗自身可能被不正确地检测为表示帧违规，因为它将被检测为靠近图像边缘的具有负视差的图像特征。

本发明通过以下方式来解决该问题：首先检测构成3D对的图像的横向边缘上的图像裁剪，然后在由任何检测到的图像裁剪限定的区域内应用帧违规测试。

本发明的另外的各个方面和特征在权利要求中定义。

附图说明

现将仅通过示例的方式并参考如下的附图描述本发明的实施例：

图1示意性地图示了3D相机系统

图2示意性地图示了3D视频分析装置；

图3示意性地图示了3D视频分析装置的另一实施例；

图4示意性地图示了视频处理器；

图5示意性地图示了单元处理器；

图6是提供了关于接收到的3D(L/R)视频信号的视频处理器的操作的概况的示意图；

图7示意性地图示了深度检测器和深度指南时间绘图器；

图8是示意性示例图像；

图9示意性地图示了图8的图像的一部分；

图10示意性地图示了颜色表示尺度；

图11示意性地图示了深度直方图；

图12示意性地图示了直方图历史显示；

图13示意性地图示了帧违规(frame violation)情况；

图14示意性地图示了关于接近3D图像的左边缘和右边缘的正视差和负视差；

图15示意性地图示了帧违规检测器；

图16示意性地图示了聚焦失配检测器；

图17示意性地图示了两个对比度图；以及

图18示意性地图示了局部对比度误差检测处理。

具体实施方式

本发明的实施例针对三维(3D)电视信号进行操作。该实施例一般独立于该信号源。也就是说，该装置可以操作以便生成提供给该装置的3D电视信号(无论何来源)的定性评估。这可能是来自3D相机装置的直接馈送信号，计算机生成的或者计算机增强的3D信号，从记录介质重放的3D信号，通过传输介质从另一供应商接收的3D信号，诸如视频混合器之类的3D视频处理装置的输出等。然而，为了本说明的清晰性，将提供3D相机装置用作该3D信号的一个可能的源的简要描述。

参考图1，示出了用于捕获用于在生成3D图像中使用的场景的图像的系统100。系统100具有相机平台115，在其上安装了两个相机105。这些相机105L和105R可以是视频相机或者静止相机。本描述的剩余部分将涉及视频相机，但是应明白，不依赖于连续的视频帧的时间关系的该技术的那些方面同样可适用于静止相机。

虽然在图1中没有明确地示出，但是相机105相对于彼此的偏转(yaw)可以改变。具体地，当相机105安装在平台115时，每个相机105的俯仰(pitch)和滚转(roll)通常相对于彼此是固定的。然而，相机105的偏转可以彼此独立地进行调节。这允许改变相机会聚角或者“内倾”。一旦将相机锁定在适当位置(即固定在平台115上)，就可以一致地移动平台115和相机的偏转、俯仰和滚转。通过手臂120以移动平台115的偏转、俯仰和滚转。可以通过摇动手臂120将平台115的取向锁定在适当的位置。

来自每个相机105的输出馈送包括一起形成3D视频信号的左(L)和右(R)信号的对应的一个。因此，这些输出包括图像数据。然而，还将其他数据馈送出每个相机。例如，还可以将元数据馈送出每个相机。该元数据可以涉及诸如每个相机的孔径设置、焦距和/或变焦之类的相机设置。相应地，元数据可以包括关于相机操作者或者“好的拍摄者”等的信息。可以将来自相机105的输出馈送使用线缆或者通过网络连接到随后的处理设备。在相机105和随后的处理设备间的连接可以是无线的。

图2示意性地图示了根据本发明的实施例的3D视频分析装置。图2中的装置包括视频处理器200、显示器210和用户控件220。在本发明的实施例中，可以实时地实施该分析，也就是说可以在一个视频帧周期内完成涉及视频帧的分析。

包括(至少包括)R和L视频流的3D视频信号130被提供给视频处理器200。视频处理器200工作在分析模式中，也就是说视频处理器200不形成视频信号路径的部分，相反，它分析视频信号，而无需对视频信号进行任何的变更。因此，在图2中，视频处理器200被示出作为分支连接到主视频信号路径，通过视频处理器200的操作，L和R被不加改变地传送到(130’)以进行随后的处理、显示或者存储。

视频处理器200实施3D视频信号130的分析。以下将描述该分析的特征。分析结果可以在显示器210上显示，或者提供作为数据流240以进行随后的处理和/或存储。

用户控件可以包括诸如键盘、鼠标等之类的传统控件，并且允许用户控制视频处理器200的操作。

图3示意性地图示了视频处理器200的操作的可能模式。在很多方面，该操作类似于图2中示出的操作。然而，也设有诸如视频磁带记录器、硬盘记录器以及光盘记录器等之类的视频存储设备230。

该信号处理如下。所接收的3D信号130被提供给视频处理器200以进行分析，并且还被提供给存储设备230以进行存储。来自视频处理器200的分析结果被可选择地提供(如以上描述的)给显示器210并作为数据输出240。然而，分析结果也被存储设备230存储为与存储的3D视频信号相关联的元数据。

可以通过多种方式实现与视频信号相关联的元数据的存储。例如，可以提供元数据的单独存储，其中提供了链接(例如，存储的时间码变量)以提供元数据的项目和存储的视频信号中对应的时间位置之间的清楚关联。在这种情况中，实际上不要求元数据被与视频信号相同的存储介质存储，或者甚至被相同的物理设备存储一从而使得在图3中被简单地标记为“存储设备”的一般项实际上包括两个或者更多的物理的或者逻辑的存储装置，其中的至少一者甚至可以物理地被实现为视频处理器200的一部分。另一种可能性是将元数据嵌入到存储的视频信号中，例如，通过将元数据存储为与视频信号相关联的数据格式中的用户数据。取决于使用的视频存储的类型，这可能需要缓冲器(未示出)来延迟视频帧的记录，直到由视频处理器200得出的元数据准备好被嵌入到视频数据中为止。这对于诸如磁带存储之类的线性介质将是适当的，但是对于诸如基于磁盘的存储之类的随机访问介质则很少需要(或者根本不需要)。对于实时操作的系统，期望视频处理器200在单个帧周期内完成一个视频帧的处理，因此例如可以使用单个帧缓冲器。

可以将具有或者不具有由视频处理器200生成的元数据的所存储的视频信号重放为输出3D视频信号130”。

在图3的装置中，视频处理器仍不对实际的视频信号具有任何的影响(除了将视频信号与元数据相关联以外)。然而，本实施例不排除视频处理器改变视频信号；下面将描述的特定功能仅仅涉及视频信号130的分析，而不涉及视频信号130的变更。

在图3中，用户可以启动由存储设备230存储的视频信号的重放，该重放的启动或者是直接地(在这种意义上用户控件可以直接与存储设备230交互)或者是间接地(在这种意义上用户可以与视频处理器200交互，视频处理器200继而启动存储的视频信号的重放)。以下将描述这些类型的操作的相关性。

视频处理器200也可以被实现为在适当的软件控制下操作的诸如个人计算机之类的通用数据处理机。然而，在本发明的实施例中，将视频处理器200实现为在适当的软件控制下操作的

MPE-200^TM立体图像处理器。可以通过

SRW-5100^TM高清晰度立体视频磁带记录机实现与真实视频信号存储相关的存储设备，或者至少是该存储设备的部分功能。这两种设备在本申请的优先权日时都是可购得的。

图4是图示了MPE-200视频处理器的结构和相关联的硬件的示意性框图，并且将简要地描述该图以提供视频处理器200的操作的技术背景。

参考图4，视频处理器200包括立体处理装置300(可以将其实现为MPE-200设备)和控制计算机400。

将明白考虑软件和/或计算机程序产品来形成本发明的实施例，该软件控制设备200或者400的其中之一的操作，该计算机程序产品包括通过其对软件进行存储或者提供的存储或者其他计算机可读的介质。

可以例如将立体处理装置300设计在单元处理器310周围，并且该立体处理装置300包括全部通过总线装置连接在一起的随机访问存储器320、具有专用视频随机访问存储器(VRAM)340的真实合成图形单元(RSX)330、以及输入/输出(I/O)桥350。I/O桥350提供了到外围部件的接口，包括：包括高清晰度串行数字接口(HD-SDI)输入360和HD-SDI输出370的视频输入和输出连接、RS-232C数据I/O端口380、一个或者多个网络接口390、非易失性(例如，硬盘)存储装置400以及视频同步信号输入410。

控制计算机400经由网络接口和控制计算机上的对应接口(未示出)连接到立体处理装置300。控制计算机具有与立体处理装置类似的内部结构，除了控制计算机使用传统的个人计算机处理设备而不是单元处理器以外。控制计算机400设置了用户接口以控制立体处理装置的操作，并且将它自身的个人计算机格式显示器210和用户控件220进行连接。立体处理装置还可以经由HD-SDI输出端子连接它自身的显示器。

RSX单元330是基于

G70/71架构的视频加速器，其处理和呈现由单元处理器310产生的视频渲染命令的列表。

参考图5，单元处理器310具有包括四个基本部件的架构：包括存储器控制器312(用于与系统RAM 320连接)和用于与立体处理装置300的其他部件连接的双总线接口控制器314的外部输入和输出结构；被称为电力处理元件(PPE)316的主处理器；被称为协作处理元件(SPE)318A-H的八个协同处理器；以及被称为元件互连总线(E1B)322的连接以上部件的环形数据总线。

PPE 316是基于有相关联的512kB的二级(L2)缓存和32kB的一级(L1)缓存的双通道并行多线程PowerPC核心的。PPE 316的主要用途是作为用于处理绝大部分计算工作负载的协作处理元件318A-H的控制器。在操作中，PPE 316维护一个工作队列，为协作处理元件318A-H调度工作并且监视它们的进程。因此，每一协作处理元件318A-H运行一个内核，该内核的用途为取得工作、执行该工作并且与PPE 316同步。

每一协作处理元件318A-H包括对应的协作处理单元(SPU)、对应的存储器控制器和对应的总线接口。为了示图的清晰性，该SPE的内部结构没有示出。每一SPU是一RISC处理器，其可以在单个时钟周期内操作4个单精度浮点元、4个32位数、8个16位整数或者16个8位整数。在同一时钟周期内每一SPU还可以执行存储器操作。

EIB 222是连接以上处理器元件的单元处理器310内部的逻辑环形双向通信总线。所连接的元件可以以每时钟周期8字节的速率同时读和写入总线。

在操作中，PPE和SPE在软件控制下操作。该软件可从非易失性存储装置400取出和/或经由网络接口390接收，并且存储在RAM 320中以供执行。由控制计算机400提供包括操作指令和设置的控制信号。响应于该控制信号，PPE 316分配任务并且控制各个SPE的操作。

在本发明的实施例中，立体处理装置不仅能够处理视频，而且能够操纵3D对象，对对象进行投影和照明，实时地将视频映射到移动表面上。然而，在本实施例中使用立体处理装置来评定接收的3D视频信号的质量。现在将描述用于实现此的技术。

图6是提供了针对接收的3D(L/R)视频信号的视频处理器200的操作的概要的示意图。

视频处理器200用作下采样器480、深度检测器500、聚焦检测器520、帧违规检测器540和深度指南时间绘图器560。由深度指南时间绘图器560、聚焦检测器520和帧违规检测器540生成的输出数据被控制计算机400呈现以显示(在显示器210上)。视频处理器200的这些功能由在适当的软件控制下操作的单元处理器310的SPE来实现。以下将描述这些功能操作的方式以及作为结果的分析数据的显示方式。

下采样

下采样器480使用单个SPU将进入的左和右视频图像下采样为四分之一尺寸，例如将进入的1920×1080i下采样为480×135像素。该下采样允许随后的处理更有效率地操作下采样的视频，而没有可注意到的分析质量的损失。该下采样处理自身是传统处理。

深度分析

图7示意性地图示了深度检测器500和深度指南时间绘图器560。在本发明的实施例中，这用来处理包括表示一场景的不同对应视图的连续对的图像的3D视频信号以生成图像深度指示符。

深度检测器500包括垂直边缘检测器502、块匹配器504、深度指南渲染器506和相异(disparity)直方图生成器508。在本发明的实施例中分配给各种处理的SPU的数目(即，SPE的数目)在圆括号中指示。

深度分析的第一阶段是在左图像中的垂直边缘的检测。这些垂直边缘假定在右图像中是相同的；用于识别边缘的左图像的选择是任意的。为了实现此目的，垂直边缘检测器502将四分之一尺寸的图像(由下采样器480输出)分解为8×8个块，并且使用垂直苏贝尔(Sobel)边缘检测器检测在每一块中的可能的边缘。针对每个块的输出或者包括单个边缘位置(如果找到强边缘，也就是说，对其的边缘检测处理超过了阈值边缘似然性的边缘，这暗示着该边缘是(a)垂直的或者接近垂直的(例如，在垂直的阈值角内)，和/或(b)在图像块中清晰的)或者包括在该块中没有找到边缘(即，无强边缘)的指示。因此，例如，偏离垂直超过阈值角的清晰的边缘可以被认为不代表边缘的检测。这些输出被整理到跨图像的边缘位置的列表中。

该边缘位置列表随后被块匹配器504使用(再次在SPU中运行)。这用作相关器，该相关器被配置为将图像对中的一者中的图像区域与图像对中的另一者中的图像区域相关，以便检测两幅图像之间对应图像区域的位移。块匹配器对每个检测到的边缘进行操作(如根据上述标准检测到的)并且搜索以该边缘位置为中心的四分之一左图像的16×16块和右图像的周围区域中对应块或者搜索区域之间的相似度。

换句话说，块匹配器504尝试将左图像中检测到的边缘的周围区域匹配到右图像中类似或者基本上相同的图像内容的区域，以检测相应图像区域之间的空间偏移。在来自良好设置的3D源的3D视频中，可能期望空间偏移仅在水平方向上。也就是说，理想情况下3D视频相机(诸如图1中示出的)应当被设置为使得将两个相机105L、R垂直对齐。基于此，在以下描述的处理中可以忽略位移的任何垂直分量。

块匹配处理被配置为不针对未检测到包含边缘的块执行块匹配。

相应图像特征之间的水平偏移是该特征相对于相机位置的深度的指示，或者换句话说，是在正交于图像平面的方向上该图像特征距相机位置的距离。在相机被对齐以供会聚的相机布置中，两个相机的图像平面将稍微偏离平行。在这种情况下，深度可以被认为部分代表在某一方向上偏离相机位置的距离，该方向表示相对于两个对应的图像平面的两个法向方向的平均。

水平偏移自身不提供距相机位置的距离的确切测量。其他因素是相关的，包括相机的横向分离和相机的会聚角。这些其他因素不能单独从左图像和右图像检测出来，尽管它们可在与视频信号相关联的元数据中定义。然而，如果横向分离和会聚一般保持恒定(其很有可能在视频信号内随图像的不同而保持恒定)，则该水平偏移不表示距3D相机的距离的有用的定性指示，即使绝对距离的计算需要进一步的信息也是如此。考虑到这些，为了方便讨论，这里将使用术语“深度”以指示仅取决于两幅图像的水平偏移的度量。因此，当观看图像时，该“深度”度量与观看者对深度的感知相关联，而不是在捕获内容时距相机的实际物理距离。在观看时，深度是对象看起来所位于的屏幕外或者屏幕后的距离的度量。这部分地取决于观看者的显示屏幕的尺寸。

右图像中的搜索区域是原始位置周围的±48像素和±3行，也就是说，与左图像中所检测的边缘位置相对应的右图像中的位置周围。块匹配处理使用已知的“绝对差之和”(SAD)技术来找到右图像中最接近的匹配位置。也就是说，左图像的16×16块中的相应像素和右图像中的16×16测试块之间的绝对差被求和，并且引起最低的这种和的块位置(右图像中)被用来表示左图像和右图像之间的图像内容的最佳匹配。

使用SAD分析来进行块匹配的公知问题是可能发生所谓的混淆(aliasing)现象，尤其是如果图像在右图像的搜索区域中包括重复样式。该重复样式可能导致SAD数据中多个最小值的检测，并且因此导致水平偏移的不确定。为了解决该潜在的问题，基于指示图像中重复样式的块匹配结果中的多个SAD最小值的检测，还针对每个块匹配结果计算“混淆可能性”。可能仍然存在单个“极端最小值”或者主要最小值，但是也会检测到其他最小值，如果(a)它们是局部最小值以及(b)(可选地)它们在块位置中与主要最小值分离且相对于测试块相距至少预定分离度。具有高混淆可能性的结果(也就是说，对于其块匹配处理生成多个SAD最小值的结果)被从深度结果中排除。

生成了等于对其找到匹配的块的数目除以块的总数的“会聚估计”。这指示块匹配数据中的置信度。

由块匹配器检测到的水平偏移被传送到深度指南渲染器506，深度指南渲染器506操作为另一SPU处理以在平面(0(zero)alpha)纹理缓冲器上绘制彩色的深度标记，随后该标记可以被渲染以覆盖到视频信号的分析显示上，以指示超出用户设置的“深度预算”的点。可替代地，所有测得的相异性都可以被渲染，这对于检查左和右输入是正确的方向是有用的。

3D视频显示器的观看者对深度的正确的和愉悦的感知受一些因素的影响，但是其自身受本装置的分析的一个重要因素是图像两侧的深度值(即，所检测的水平偏移)是否在视频制作者设置的深度预算内。典型的深度预算可能是±3％，也就是说左图像和右图像中的相应特征之间的绝对水平偏移绝不应当超过图像的水平大小的3％。

图8示意性地图示了这些概念，并且还以对于视频处理器200的操作者来说便利的方式示意性地图示了深度指南渲染器506被布置为指示深度值(表示图像深度指示符)的方式。

图8示意性地图示了被渲染以显示在诸如显示器210之类的二维显示器上的3D图像。该渲染处理将左图像和右图像相结合。因为左图像和右图像是从不同的对应相机位置捕获的，所以在渲染的图像内的不同位置处存在不同的水平偏移量，这取决于相应的图像特征距相机位置的距离。在图8中表示的渲染图像被提供作为图像分析系统的一部分，因此期望指示(而不是尝试掩盖)这种水平偏移。

左图像和右图像的简单组合(例如，来自每一图像的简单的50％贡献因子)将导致难以评定渲染的2D图像，这是因为该水平偏移恰好导致许多图像特征表现为双图像(double image)。从这样一个简单的组合中将不清楚该双图像的哪一部分源自于左图像而哪一部分源自于右图像。因此为了使得该渲染的图像对于用户更清晰，采用了彩色表示。

具体地，3D图像被渲染以显示为红/蓝绿色(red/cyan)立体图片，以使得显示的图像包括：

R_out＝R_L；G_out＝G_R；B_out＝B_R

其中，R、G、B表示红、绿和蓝分量，下标“out”指示用于显示的值，并且下标L和R分别表示来自左图像和右图像的分量。

该带色表示意味着(a)两幅图像(L和R)能够在显示器上容易地区分开，以及(b)用户可以容易地看到水平偏移的方向。当对象位于3D相机的左和右相机的相机轴会聚的点上时，将不存在水平偏移并且因此对象将显得被正确地渲染为彩色对象。当对象距离3D相机比会聚点远时，将表现为在右图像中向右侧位移并且在左图像中向左侧位移，因此它的右侧有蓝绿色边界，它的左侧有红色边界。当对象距离3D相机比会聚点近时，将表现为在右图像中向左侧位移并且在左图像中向右侧位移，因此它的右侧有红色边界，它的左侧有蓝绿色边界。真实颜色取决于是图像的前景部分更亮还是背景部分更亮，但是对于本实施例的目的，使用的颜色表示与标准的红/蓝绿色立体图片相同，因此这些情形能够容易地在带色表示中区分。当然，这仅仅是用于将两个3D图像显示为单个2D图像的格式的一个示例。也可以使用其他格式，诸如简单的两个图像的50∶50混合。其目的是提供3D素材的2D表示以形成一个基础，在该基础上可以显示或者覆盖错误或者质量标记(见下文)。

图8是单色专利附图，因此不得不使用阴影指示这些彩色边界。在真实的图像中，该彩色边界效果当然可以应用到远离表示在左和右相机的会聚点处的对象的特征的每一图像特征。然而，为了本图的清晰性，并非图8中的每一对象都被注解以指示彩色边界。具体地，仅将前面的人600、后面的人610和球620以这种方式标注。阴影指示人600和球620在3D相机的会聚点630的前面，而人610在会聚点630的后面。

深度指南渲染器506将深度信息渲染在此类图像上。如上所述，通过将深度指南信息渲染在包括空白图像(即，0alpha值的图像)的纹理(或者图像)缓冲器中来实现此目的。alpha值确定相关联的图像的透明度，0表示完全透明。因此，如果具有0alpha值的图像区域与另一图像相结合，则对另一图像没有任何影响。深度标记被渲染在该0alpha的背景上，但是以这样一种方式，其使得深度标记具有非0alpha值(例如0.5的alpha值(50％透明度))，以使得深度标记将示出在深度指南渲染器的输出和渲染的2D图像的组合上，但是将不能完全隐藏在下方的渲染的2D图像。

在实施例中，该深度指南渲染器仅针对检测到的绝对水平偏移大于深度预算(其可以是预定的或者可以由操作者利用用户控件220设置)的图像区域生成指示符。在图9中示意性地图示了使用该指示符的示例，该示例仅示出了图8的球620，但是(为了本图的清晰性)没有示出球的标记。该球是最接近于3D相机的对象，并且所检测的左图像和右图像之间的球的水平偏移超过了为该视频信号设置的深度预算。为了指示这一点，深度指南渲染器506渲染了指示深度预算已经被超出的位置处的标记640、650。注意，该标记被示出为与球形状的垂直特征对齐；取决于垂直边缘检测器使用的容限，很有可能仅球的形状的一部分被检测为包括边缘，这是因为球的许多特征更接近于水平的而不是垂直边缘。在本示例中，仅具有接近垂直切线的球轮廓的一部分已经被检测为具有垂直边缘。因为在本发明的实施例中仅那些具有所检测的垂直边缘的位置被传递到随后处理(块匹配和深度指南渲染)，因此在这些位置处生成深度预算告警标记。

如先前提及的，通过深度指南渲染器可以生成关于成功检测到垂直边缘的所有位置的深度指南指示符。该指示符可以(例如)被进行颜色编码以指示在该位置处检测到的深度(即，水平偏移)。该颜色编码可以基于绝对深度值，因此独立于深度值的符号，或者可以针对正和负水平偏移是不同的。该颜色编码可以基于深度值的带，例如，如果深度值少于图像宽度的2％则为一种颜色，而如果深度值为图像宽度的2％到5％之间则为第二种颜色，并且如果深度值超过5％则为第三种颜色。或者颜色改变可以是渐进尺度的，以使得(例如)由绿色指示符表示深度值0，且随着深度值变得更负，指示符的颜色逐渐地变为更黄然后变为更红。图10中指示了这样的连续的颜色变化(在由单色图施加的限制之内)的一个示例。

在将要指示深度值的符号时，应用惯例，例如以使得将指示对象比会聚点更接近于相机的深度值视为负深度值，以及将指示对象比会聚点距离相机更远的深度值视为正深度值。然而，这仅是一个惯例，可以使用其他极性来表示深度值。

因此，使用关于图8的示意图的图10的颜色表示，球620比会聚点更接近于相机，所以将深度值视为负值。因此标记640、650两者根据深度值大小或者是黄色或者是红色。

注意在一些实施例中，图10中图示类型的颜色编码可以取决于深度预算。因此，例如，可以将绿色和黄色间的界限布置在位于近似于深度预算的水平(在本示例中为-3％)，且用户能够设置第二、更高的阈值(在图10的示例中为±4％)，在该阈值处发生进一步的颜色改变。因此该布置是用户设置深度预算以及一个或者多个其他阈值，并且系统将类似于图10的颜色变化映射到可能的深度值上，以使得一般地将显著的颜色变化和阈值对齐。当然，图10中的颜色变化是连续的，因此不存在一种颜色和下一个颜色之间的单一的精确定义的界限。然而，可以导出当颜色从一种颜色占主导变为另一种颜色变主导时的想象界限，并针对深度预算和这里描述的其他可能阈值进行定位。

由块匹配器测量的水平偏移(在整个图像的两侧)也被组合以由相异性直方图生成器508形成水平相异性直方图。直方图生成包括对每一可能的偏移值或者“容器(bin)”的水平偏移的情况进行计数。根据由块匹配器检测的像素偏移值(检测的位移)来对容器进行排序，也就是说在-48到48像素的偏移值之间设置了97个这样的容器。注意，这些像素值是针对正处理的四分之一尺寸的图像的像素导出的，并且可以被容易地转换为百分比深度值，该转换是通过(a)除以所讨论图像的像素宽度，并且(b)乘以100而获得的。还应注意，这些容器可以被布置为存在更少的容器，但是每个容器包含一个像素偏移的范围。例如，这些容器可以说若干像素值的宽度。每个容器因此表示一个或多个可能的位移值。

对直方图数据使用如针对图10所描述的同一颜色编码方案来指派颜色。注意图10是用百分比深度值校准的，而容器可以通过像素偏移布置，但是如上所述，一者可以很容易转换为另一者。

图11中图示了颜色编码直方图的示意性示例。将该直方图根据深度值而不是像素偏移来显示。采用图10的颜色编码方案，并且真正的将该颜色编码方案显示为水平(二进制)轴表示的一部分。在任何水平位置处的直方图的垂直范围指示在该深度值上的对应容器的数量。阴影面积660被根据与水平位置相关的颜色来上色。因此，在阴影面积660内，颜色根据图10的颜色方案随着水平位置变化，但是颜色不随着垂直位置变化。

针对视频信号的每个连续图像来更新图10的直方图。还可以在每一图像周期更新直方图的显示。

深度指南时间绘图器560存储和显示相异性直方图的最近的历史。图12中示出了这样一个历史显示的示意性示例。可以在与图11的显示相同的屏幕上同时示出该显示。

在垂直轴上表示时间，其中通过距表示的底部的距离的增大来表示在当前时刻之前的时间的增大。该表示被划分为行700、710...。出于说明的目的，在图12中示出了行界限(水平线)，但是在真实的显示屏幕上不显示这些行界限。

该表示的底部行700被用来显示从当前图像(例如，当前帧)导出的深度直方图。因为该显示被限制在很窄的一行内，所以不可能以与图10相同的方式来表示该直方图的这个方面。因此，相反地，直方图的高度或者容器占有率用具有与该容器或深度值相关联的颜色的相应显示点的亮度或强度来表示。该高度因此可以由显示强度表示，并且位移值可以由显示位置和该显示点的颜色中的一者或者两者来指示。这是通过以下方式实现的：将与沿着该行的一位置相关联的alpha(透明度)值设置为依赖于该位置处的直方图高度，以使得对于较大的直方图高度alpha也较大(透明度较低，更加不透明)。该行中的可显示点可以表示可显示点的邻近行。行700之上的类似行被针对每一历史直方图显示(未在图12中示出)。

当在每一新图像被处理时，图形表示被重新绘制以使得先前的当前直方图行700向上移动到下一个更高的行位置710(表示下一个较旧的图像)，并且新的当前直方图被绘制在当前对显示位置(它是行700)中，以便形成按时间排序的显示点的行的堆栈，每一行对应于图像对的时间顺序中各个图像对的直方图表示。一般来说，当新的行700可得时，整个显示的每行向上移动一个行位置，除了位于显示的顶部的行以外(该行被丢弃)。这提供了一时间段的直方图数据的历史数据，该时间段等于行数目乘以视频信号的图像速率。其结果是深度数据的趋势可以被观察作为垂直显示的样式，例如样式720。

为了实现此目的，深度指南时间绘图器560包括用于存储n个最近的直方图的缓冲存储器，其中n是可以在图12的显示上显示的行数。深度指南时间绘图器还包括用于将存储的直方图渲染为显示中的连续的行的逻辑。

该历史显示也适合图3的实施例使用，其中定义3D素材的质量的元数据可以被存储在存储设备230上，并且视频处理器200具有存储设备230的重放控件。例如，如果视频处理器的操作者注意到诸如图12中的不连续性722之类的历史深度数据中的不连续性，那么该操作者可以指示存储设备230(经由用户控件220)来重放不连续点周围的视频片段，例如从不连续点之前的两秒到不连续点之后的两秒。操作者可以例如通过在历史深度数据显示的区域内的期望重放的时间位置上双击鼠标控件来实现该目的。因此视频处理器可以提供重放控制器，用于响应于对一个或多个图形表示的用户选择来控制3D视频信号的存储版本的重放。

更一般地，图3的布置可以用于获取与接收到的3D视频相关的质量信息，并且随后允许操作者评审质量数据，如果需要，评审之后伴随的视频素材。操作者可以手动地选择用于重放的部分，或者视频处理器可以自动地评审存储的质量数据并且选择用于操作者评审的部分，在该部分中例如存在任何存储的数据值的不连续性、超出可接受的限制的偏移(例如深度值偏移超出诸如10％之类的“告警”阈值)等。

因此，深度指南渲染器506用作被配置为图像对两侧的位移的分布(针对可能的位移值范围)的图形表示的图形生成器；并且深度指南时间绘图器560用作用于生成显示关于当前对显示位置处的当前图像对和关于其他显示位置处的多个在前图形对的图形表示，以便提供位移的分布中的变化的基于时间的表示。在本发明的实施例中，由图形生成器处理的位移数据仅包括所检测的图形位移的水平分量。

帧(边缘)违规

帧(或边缘)违规检测处理的目标是确定是在图片的左边缘或者右边缘处的对象是否在屏幕的前面。

当具有负视差的对象(也就是说，将要由3D显示器显示的对象在显示屏幕的平面的前面)离开相机，也就是说离开显示器时，在3D电视中可能出现潜在的问题。这个问题发生是因为对象在其离开一只眼睛的图像前离开了另一只眼睛的图像。在真实生活中，这种配置不会发生，因此在显示器上看到该配置会打破观看者观看3D场景的错觉。当对象缓慢地向一侧或者另一侧离开屏幕时，这尤其是个问题。

对象是否显得在屏幕的前面的问题取决于对象相对于相机会聚点的位置。因此可能的解决方案是改变会聚点，使得在视图中的全部对象都在屏幕的后面。另一个可能的方案是裁剪左图像和右图像以便将对象从任一眼睛的视图中去除。然而，这可能对图像的艺术构图有其他显著的和不期望的影响。第三种技术是仅裁剪一幅图像，以便减少在该图像中对象的出现而使得其匹配另一幅图像。这被公知为将“浮动窗”或者“浮动裁剪”添加到图像。利用浮动窗，左图像和右图像的边缘根据哪些对象在屏幕的边缘上或者接近屏幕的边缘被动态裁剪。该性质的临时浮动窗的值是如果谨慎地实施该值，那么很有可能用户甚至不能注意到它的存在。

在图像的左边缘或者右边缘上并且在屏幕的前面的对象被称为“帧违规”。

图13示意性地图示了在显示屏幕810上显示的3D图像的上下文中观看者的左眼和右眼的视图。示出了由3D系统显示为在屏幕810的前面(比屏幕810更接近于观看者)的两个示例对象820。图14的上面的行示意性地图示了该对象的左眼和右眼的视图。观看者将感到对象被不正确地裁剪，也就是说，针对“错误”的眼睛裁剪了对象。这部分地因为3D显示的错觉依赖于用户的以下信念：显示屏幕表示进入3D世界的窗口。真实的窗口将以一种期望的方式来裁剪窗口后面的对象，但是真实的窗口不会引起在图14的上部行中示出的不正确的裁剪类型。为了比较，图14的下部行示意性地图示了可接受的裁剪类型，如果对象已经在帧的边缘上但是在显示屏幕810的平面的后面，那么这种裁剪将会发生。

因此本发明的实施例提供了包括帧违规检测器540的图像分析装置，用于处理表示场景的左眼和右眼的视图的3D图像对。

图15更详细地示意性图示了帧违规检测器540。帧违规检测器540包括浮动窗检测器830、左块匹配器840、右块匹配器850和比较器860。图15表示用于左边缘帧违规检测的功能。使用完全相同的技术(尽管将左和右交换)来检测右边缘帧违规，但是为了本示图的清晰性，仅图示了左边缘检测。

为了检测在屏幕的边缘上的帧违规，图像被划分为块，仅处理图片的左侧和右侧的边缘的每一个上的16×16像素块的2列。左块匹配器840搜索右图像中的每一左图像块(在左图像的每一边缘上的2列内)。右块匹配器850搜索左图像中的每一右图像块(在右图像的每一边缘上的2列内)。来自图像边缘的块的两列的区域内的检测表示距该边缘在阈值距离(在该示例中，为32像素)之内的检测。也可以使用其他阈值距离。在本示例中，对于两个边缘阈值距离相同，但是如果期望它们可以不同。

在左手边缘，如果在右手图像中找到左图像块，那么不存在帧违规。但是如果在左图像中找到右图像块(但是它比在右图像中它的位置距右侧远)，但是在右图像中没有找到左图像块，那么出现帧违规。

对应的测试被应用到图片的右边缘。

该测试可以被概括为：如果在左图像的左边缘的阈值距离(诸如32个像素)之内的图像特征没有在右图像中找到，或者如果在右图像的右边缘的阈值距离之内的图像特征没有在左图像中找到，那么检测到帧违规存在。

然而，如果浮动窗已经出现在输入视频上，那么检测帧违规的处理应当仅起始于图片的新边缘上，也就是说该帧违规发生在排除了任何检测的图像裁剪(浮动窗)的图像的区域之内。换句话说，要被测试的像素块的2列应该对齐，以使得测试起始于浮动窗的内边缘处，或者换句话说，起始于还没有被浮动窗裁剪的像素的第一列处。因此该阈值距离起始于所检测的浮动窗的内边缘处(从检测的浮动窗的内边缘处测量该阈值距离)。

如果浮动窗先前已经被正确地应用到图像上，那么通常将不存在帧违规。然而，即使已经应用浮动窗，仍可能存在所检测的帧违规，例如这是因为浮动窗没有充分大到能够遮盖帧违规。

因此帧违规检测器540提供图像裁剪检测器以检测图像的一者或者两者的横向(左侧或者右侧)边缘上的图像裁剪的存在，该检测通过以下步骤实现：提供预处理步骤以通过浮动窗检测器检测浮动窗(在左图像的左边缘上，以及在右图像的右边缘上)，该浮动窗检测器检测在图像的左手边缘和右手边缘处的黑色视频条带的存在，并且如果检测到一条黑色视频则测量其宽度。注意该浮动窗通常被假定为是黑色的，其被形成为与图像的横向边缘垂直的条带并且覆盖了整个图像的高度。然而，除了黑色，它们还可以简单地为一种均匀的颜色。因此，该图像裁剪检测处理可以检测在图像中的一者的横向边缘上占据全部图像高度的均匀颜色的一部分的存在。通常使用暗的颜色。关于一个图像对可以检测出零到四个浮动窗(四个浮动窗为在两幅图像的每一横向边缘上各一个)。如果在特定边缘处检测出两个或者更多个相邻的浮动窗，例如图像的全部高度上有多个相邻的区域(每一区域具有均匀但不同的颜色)，那么系统将它们视为多个区域的组合宽度的单个合成浮动窗。

例如，如果在左图像的左手边缘上检测出一个3像素宽度的浮动窗，那么仅从图形的原始边缘起的3个像素中开始对图形的左边缘检测帧违规的处理(通过左块匹配器840和右块匹配器850)。

当检测到帧违规时，通过该装置可以增强图像的显示，以便示出被布置为指示相对于一个(或者每个)所检测的帧违规的图像的位置的指示符。例如，箭头或者其他标记可以被绘制到纹理缓冲器(背景：黑色，0alpha)中，其可以覆盖在视频输出上以指示帧违规的存在和位置。换句话说，相同的技术可以被深度指南渲染器用来将告警标记引入到图像中以显示在显示屏幕210上。图8中示意性地图示了这样的告警标记的一个示例870，该示例870是关于在相机的会聚点的前面一只鸟飞过所捕获的图像的边缘。

如上所述，帧违规检测处理是利用单个SPU处理每一边缘从而对四分之一尺寸的视频执行的(因此，总共两个SPU)。

聚焦失配检测

本发明的实施例提供了聚焦失配告警特征，该聚焦失配告警特征使用图像分析来检测左图像和右图像之间的聚焦的任何差异并向用户告警。该算法尝试检测聚焦水平中的整体全局失配，然后进行到使用由深度检测器500的块匹配器504导出的数据来检测和显示可能具有聚焦失配的图像的具体区域。如下实现的算法表示一种包括聚焦检测器的图像分析装置用于处理图像以生成图像聚焦指示符的操作，聚焦检测器被配置为针对多个图像块检测各自的局部聚焦估计，并组合局部聚焦估计以为该图像生成图像聚焦指示符。

全局聚焦失配检测处理意图检测全部场景中的聚焦失配，而不管整个图像是否是对焦的。因此其考虑了视场的深度和艺术的非对焦效果。然而，当图像的至少一幅基本上对焦时，对聚焦失配的敏感度更大。

局部聚焦失配检测通过检测围绕一些或者每一对应的块的像素群组中的图像对比度来检测局部聚焦估计。在本发明的实施例中，可以使用独立生成的水平偏移数据来比较左图像和右图像的对应的局部区域的聚焦。接着可以向用户指示失配的具体位置。然而，因为块匹配处理仅在一幅图像(本实施例中的左图像)中找到的垂直边缘上生成水平偏移信息，所以将仅仅在左图像处于精确对焦的位置处生成局部聚焦失配告警。

图16示意性地图示了聚焦检测器520。

到聚焦检测器520的输入是四分之一尺寸格式的左(900)图像和右(910)图像，以及由块匹配器504针对该左图像和右图像的对生成的像素偏移数据。

左图像和右图像被传递到对应的对比度图生成器，该对比度图生成器作为SPU处理来操作以生成左图像和右图像的对比度图。为了进行该操作，在本示例实施例中，一组像素(例如诸如3×3窗口之类的一个正方形像素阵列)被越过图像中的全部可能位置，并且将每一点处的对比度估计为该窗口内像素的最大亮度(明亮度)值减去该窗口内像素的最小亮度(明亮度)值。这被表示为用八比特表示的从0到255的值。在本发明的实施例中，该像素群组可以是围绕对应的块定位的，因此在本示例中，与(对比度值所关联的)窗口位置有关的单个像素或点可以例如是3×3窗口的中央像素位置。

全局平均值计算器和比较器950接着导出跨左图像和右图像的每一个的全部的对比度的平均值，以生成对应的左平均值和右平均值。左平均值和右平均值的差值被计算并且被用作左图像和右图像之间的整体聚焦差值的指示。全局平均值计算器和比较器950将该差值与阈值相比较，以生成以下判决：在左图像和右图像之间的聚焦中存在明显的差异。这种聚焦中的明显差异的存在可以通过适当的用户显示指示给用户。其也可以记录在与图像相关联的元数据中。

图17示意性地图示了左图像和右图像的示例以及它们对应的对比度图。该装置检测关于每一图像的聚焦指示符(诸如全局平均值)，并且比较聚焦指示符以检测图像对是否具有相似的聚焦程度。在示出的示例中，左图像比右图像更好的对焦，因此为对比度图生成的值稍微不同。在两幅对比度图间的平均对比度也不同。

形成聚焦检测器520的操作的一部分并且在图16中绘制作为局部对比度平均值比较器的局部聚焦告警处理可以使用由块匹配器504生成的水平偏移数据来比较左图像和右图像的相应小区域之间的聚焦。具体而言，聚焦检测器可以被配置为检测图像对的相应区域的局部聚焦估计之间的差值。如前所述，聚焦检测可以响应于指示图像对中的图像特征之间的位移的位移数据(诸如水平偏移数据)，该聚焦检测器被配置为在图像对的相应区域的选择中应用位移数据。

因此聚焦检测处理利用了对比度检测器和对比度差异检测器，该对比度检测器被配置为检测图像对的每一者的块内的图像对比度，该对比度差异检测器被配置为检测图像对的对应区域之间的对比度的差异，该对应区域是响应于由上述块匹配处理检测出的位移而选出的以进行比较。

注意块匹配器504仅对那些在左图像中检测到垂直边缘的图像的小区域进行操作。换句话说，对比度差异检测处理被布置为不对边缘检测器对其没有检测到边缘的图像区域检测对比度差异。

另外，还可能存在在其上块匹配器504尝试导出水平偏移值但是却不能导出的区域，这可能是由于SAD数据中混淆现象的检测。因此由块匹配器504输出的数据是稀疏的，这是因为一些图片区域可能具有相关联的水平偏移数据，而其他图片区域可能没有任何相关联的水平偏移数据。

左图像和右图像被视为被分解为64×60像素的固定的栅格(四分之一的分辨率)，或者对于隔行视频为64×30像素。栅格的每个这样的块内的水平偏移值(如果有的话)被组合到该块的水平相异性的单个平均值估计中。如果在一个块中没有找到水平偏移值，那么忽略该块。

参考图18，示出了示例图像1000，其中小的方形图标1010指示这样的图像位置，在该位置处，水平偏移数据被块匹配器504成功地获得。为了说明的清楚，图像1000的小区域以放大的形式1020示出。

针对每一栅格位置实施接下来的处理部分。与一个栅格位置相关的左对比度图1030，以及距该栅格位置有平均水平相异性的位置偏移的右对比度图1040被访问。分别通过左平均值计算器1050和右平均值计算器1060计算出对比度图的两个子区域的平均值对比度。减法器1070从一者中减去另一者以导出差异，该差异可以被表示为绝对差异。

可以通过比较器1080将差值与阈值进行比较来确定是否存在关于该栅格位置的局部聚焦误差(即，在本实施例中使用的关于左对比度图1030的栅格位置)。因为该差异(在减法器1070的输出处)可能容易受到原始块匹配处理中错误的影响，因此用于检测局部聚焦差异的阈值需要是用于全局聚焦差异的阈值的10倍。检测到局部聚焦差异的区域可以被标记在屏幕上，例如通过绘制围绕其的红色方框。这种方框的示例在图8中被示为框1100。

Claims

1.一种用于表示场景的对应的左眼和右眼视图的3D图像对的图像分析装置，所述装置包括：

2.根据权利要求1所述的装置，其中，所述帧违规检测器被配置为检测以下情况作为帧违规：

关于所述的左边缘，在所述左图像中右图像的块的存在，但是比在所述右图像中它的位置更加远离右侧，但是在所述右图像中没有找到相应定位的左图像的块；和/或

关于所述的右边缘，在所述右图像中左图像的块的存在，但是比在所述左图像中它的位置更加远离左侧，但是在所述左图像中没有找到相应定位的右图像的块。

3.根据权利要求1或者权利要求2所述的装置，其中，所述图像裁剪检测器被配置为检测在所述图像的一者的横向边缘上占据全部图像高度的均匀颜色的一部分的存在。

4.根据权利要求3所述的装置，其中，所述均匀颜色为黑色。

5.根据上述权利要求中任一项所述的装置，包括显示器，用于显示所述图像对的表示以及被布置为指示相对于所检测的帧违规的图像的位置的指示符。

6.一种用于处理表示场景的对应的左眼和右眼视图的3D图像对的图像分析方法，所述方法包括：

检测在所述图像的一者的横向边缘上的图像裁剪的存在；以及

在排除了任何检测到的图像裁剪的图像的区域内检测在右图像中没有找到的左图像的左边缘的阈值距离内的图像特征，或者在左图像中没有找到的右图像的右边缘的阈值距离内的图像特征。

7.一种用于执行根据权利要求6所述的方法的计算机软件。

8.一种包括存储了根据权利要求7所述的软件的存储介质的计算机程序产品。