CN103238338B

CN103238338B - 3d人机接口的混合现实

Info

Publication number: CN103238338B
Application number: CN201180057284.2A
Authority: CN
Inventors: 张雪瑞; 毕宁; 齐英勇
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-12-03
Filing date: 2011-11-28
Publication date: 2016-08-10
Anticipated expiration: 2031-11-28
Also published as: JP2014505917A; EP2647207A1; JP5654138B2; CN103238338A; WO2012074937A1; US20120139906A1

Abstract

一种三维3D混合现实系统组合例如由3D相机俘获的真实3D图像或视频与由计算机或其它机器呈现的虚拟3D图像，以呈现3D混合现实图像或视频。3D相机可获取共同场景的两个单独图像(左和右)，且将所述两个单独图像叠加以形成具有3D深度效果的真实图像。所述3D混合现实系统可确定到所述真实3D图像的零视差平面的距离，基于到所述零视差平面的所述距离确定投影矩阵的一个或一个以上参数，基于所述投影矩阵呈现虚拟3D对象，组合所述真实图像与所述虚拟3D对象以产生混合现实3D图像。

Description

3D人机接口的混合现实

本申请案主张2010年12月3日申请的第61/419,550号美国临时申请案的权益，所述临时申请案的整个内容以全文引用的方式并入本文中。

技术领域

本发明大体上涉及多媒体数据的处理和呈现，且更特定来说，涉及处理和呈现具有虚拟对象和真实对象两者的三维(3D)图片和视频数据。

背景技术

立体视频处理的计算复杂性是三维(3D)图形的呈现过程，尤其是低功率装置中或实时环境中3D场景的视觉化过程中的重要考虑因素。一般来说，在具有立体功能的显示器(例如，自动立体或立体显示器)上呈现3D图形的困难可归因于立体视频处理的计算复杂性而产生。

计算复杂性对于产生具有真实对象和虚拟对象两者的混合现实场景的实时混合-现实视频装置可能是特别重要的考虑因素。混合现实3D场景的视觉化可用于例如视频游戏、用户接口和其它3D图形应用等许多应用中。低功率装置的有限计算资源可致使3D图形的呈现成为过分耗时的例程，且耗时的例程通常与实时应用不兼容。

发明内容

三维(3D)混合现实组合例如由3D相机俘获的真实3D图像或视频与由计算机或其它机器呈现的虚拟3D图像。3D相机可获取共同场景的两个单独图像(例如，左和右)，且将所述两个单独图像叠加以形成具有3D深度效果的真实图像。虚拟3D图像通常不从相机获取的图像产生，而是通过例如OpenGL等计算机图形程序绘制。利用组合真实和虚拟3D图像两者的混合现实系统，用户可感到置身于由通过计算机绘制的虚拟对象和由3D相机俘获的真实对象两者组成的空间中。本发明描述可用于以计算高效方式产生混合场景的技术。

在一个实例中，一种方法包含：确定到真实三维(3D)图像的零视差平面的距离；至少部分基于到所述零视差平面的所述距离确定投影矩阵的一个或一个以上参数；至少部分基于投影矩阵呈现虚拟3D对象；以及组合所述真实图像与所述虚拟对象以产生混合现实3D图像。

在另一实例中，一种用于处理三维(3D)视频数据的系统包含：真实3D图像源，其中所述真实图像源经配置以确定到所俘获的3D图像的零视差平面的距离；虚拟图像源，其经配置以至少基于到所述零视差平面的所述距离确定投影矩阵的一个或一个以上参数，且至少部分基于投影矩阵呈现虚拟3D对象；以及混合场景合成单元，其经配置以组合所述真实图像与所述虚拟对象以产生混合现实3D图像。

在另一实例中，一种设备包含：用于确定到真实三维(3D)图像的零视差平面的距离的装置；用于至少部分基于到所述零视差平面的所述距离确定投影矩阵的一个或一个以上参数的装置；用于至少部分基于投影矩阵呈现虚拟3D对象的装置；以及用于组合所述真实图像与所述虚拟对象以产生混合现实3D图像的装置。

本发明中所描述的技术可以硬件、软件、固件或其任一组合来实施。如果以硬件实施，那么设备可作为集成电路、处理器、离散逻辑或其任何组合而实现。如果以软件来实施，则可在例如微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)等一个或一个以上处理器中执行软件。可最初将执行所述技术的软件存储于计算机可读媒体中且在处理器中加载并执行。

因此，在另一实例中，一种非暂时性计算机可读存储媒体有形地存储一个或一个以上指令，所述指令当由一个或一个以上处理器执行时致使所述一个或一个以上处理器确定到真实三维(3D)图像的零视差平面的距离；至少部分基于到所述零视差平面的所述距离确定投影矩阵的一个或一个以上参数；至少部分基于投影矩阵呈现虚拟3D对象；且组合所述真实图像与所述虚拟对象以产生混合现实3D图像。

本发明的一个或一个以上方面的细节在附图及以下描述中陈述。从描述和图式并从权利要求书将明白本发明中所描述的技术的其它特征、目的和优点。

附图说明

图1是说明经配置以执行本发明的技术的实例系统的框图。

图2是说明根据本发明的技术其中源装置将三维(3D)图像数据发送到目的地装置的实例系统的框图。

图3A-3C分别是说明基于像素的深度的正、零和负视差值的实例的概念图。

图4A是用于获取真实场景的立体图和所得3D图像所涵盖的视场的两个相机系统的概念俯视图。

图4B是如图4A所示的相同两个相机系统的概念侧视图。

图5A是虚拟显示场景的概念俯视图。

图5B是如图5A所示的相同虚拟显示场景的概念侧视图。

图6是用于呈现混合现实场景的3D视见平截头体的3D说明。

图7是图6的视见平截头体的概念俯视图。

图8是说明本发明的技术的流程图。

具体实施方式

三维(3D)混合现实组合例如由3D相机俘获的真实3D图像或视频与由计算机或其它机器呈现的虚拟3D图像。3D相机可获取共同场景的两个单独图像(例如，左和右)，且将所述两个单独图像叠加以形成具有3D深度效果的真实图像。虚拟3D图像通常不从相机获取的图像产生，而是通过例如OpenGL等计算机图形程序绘制。利用组合真实和虚拟3D图像两者的混合现实系统，用户可感到置身于由通过计算机绘制的虚拟对象和由3D相机俘获的真实对象两者组成的空间中。在单向混合现实场景的实例中，观看者可能够观看展示厅中的推销员(真实对象)，其中推销员与例如计算机产生的虚拟3D汽车(虚拟对象)等虚拟对象交互。在双向混合现实场景的实例中，在例如虚拟国际象棋游戏等虚拟游戏中，第一计算机处的第一用户可与第二计算机处的第二用户交互。两个计算机可相对于彼此位于远程物理位置处，且可经由例如因特网等网络连接。在3D显示器上，第一用户可能够看到第二用户(真实对象)以及计算机产生的棋盘和棋子(虚拟对象)的3D视频。在不同3D显示器上，第二用户可能能够看到第一用户(真实对象)与相同的计算机产生的棋盘(虚拟对象)的3D视频。

在混合现实系统中，如上文描述，由虚拟对象组成的虚拟场景的立体显示视差需要与由真实对象组成的真实场景的立体显示视差匹配。术语“视差”通常描述一个图像(例如，左真实图像)中的像素相对于其它图像(例如，右真实图像)中的对应像素的水平偏移以产生3D效果(例如，深度)。真实场景与虚拟场景之间的视差失配可在真实场景与虚拟场景组合为混合现实场景时导致不合意的效果。举例来说，在虚拟国际象棋游戏中，视差失配可致使混合场景中的棋盘(虚拟对象)部分出现在用户(真实对象)后方，或可显得突出到用户身体中，而不是出现在用户前方。作为虚拟国际象棋游戏中的另一实例，视差失配可致使棋子(虚拟对象)具有不正确的纵横比且在与人(真实对象)的混合现实场景中显得失真。

除了虚拟场景和真实场景的匹配视差外，还需要使真实场景与虚拟场景的投影尺度匹配。如下文将更详细论述，投影尺度通常指代当投影到显示平面上时图像的大小和纵横比。真实场景与虚拟场景之间的投影尺度失配可致使虚拟对象相对于真实对象来说太大或太小，或可致使虚拟对象具有相对于真实对象失真的形状。

本发明的技术包含用于实现真实场景的真实图像与虚拟场景的虚拟图像之间的投影尺度匹配的方法，以及用于实现真实场景的真实图像与虚拟场景的虚拟图像之间的视差尺度匹配的方法。所述技术可以计算高效方式例如由3D图像内容的发送者或3D图像内容的接收者应用于通信网络的上游或下游方向上。不同于现有解决方案，本发明的技术还可应用于显示链中以实现实时应用中的真实场景与虚拟场景之间的正确深度感知。

如本发明中使用的术语“视差”通常描述一个图像中的像素相对于其它图像中的对应像素的水平偏移以便产生3D效果。如本发明中使用的对应像素通常指代当左图像与右图像合成以呈现3D图像时与3D对象中的相同点相关联的像素(一个在左图像中，且一个在右图像中)。

一对立体图像的多个视差值可存储在被称为视差图的数据结构中。与所述对立体图像相关联的视差图表示二维(2D)函数d(x,y)，其将第一图像中的像素坐标(x,y)映射到视差值(d)，使得第一图像中的任何给定(x,y)坐标处的d的值对应于需要施加到第二图像中的(x,y)坐标处的像素以找到第二图像中的对应像素的x坐标上的移位。举例来说，作为特定说明，视差图可存储第一图像中的坐标(250,150)处的像素的d值6。在此说明中，给定d值6，描述第一图像中的像素(250,150)的数据(例如，色度和量度值)出现在第二图像中的像素(256,150)处。

图1是说明用于实施本发明的各方面的实例系统(系统110)的框图。如图1所示，系统110包含真实图像源122、虚拟图像源123、混合场景合成单元(MSSU)145和图像显示器142。MSSU145接收来自真实图像源122的真实图像，且接收来自虚拟图像源123的虚拟图像。真实图像可例如为3D相机俘获的3D图像，且虚拟图像可例如为计算机产生的3D图像。MSSU145产生包含真实对象和虚拟对象两者的混合现实场景，且将混合现实场景输出到图像显示器142。根据本发明的技术，MSSU145确定真实图像的多个参数，且基于那些参数产生虚拟图像，使得虚拟图像的投影尺度和视差与真实图像的投影尺度和视差匹配。

图2是说明用于实施本发明的各方面的实例系统(系统210)的框图。如图2所示，系统210可包含源装置220，源装置220具有真实图像源222、虚拟图像源223、视差处理单元224、编码器226和发射器228；且可进一步包含目的地装置240，目的地装置240具有图像显示器242、真实视图合成单元244、混合场景合成单元(MSSU)245、解码器246和接收器248。图1和图2的系统仅是其中可实施本发明的各方面的系统的类型的两个实例，且将用于阐释的目的。如下文将更详细论述，在实施本发明的各方面的替代系统中，系统210的各个元件可以不同方式布置，由替代元件代替，或在一些情况下一起省略。

在图2的实例中，目的地装置240接收来自源装置220的经编码图像数据254。源装置220和/或目的地装置240可包括个人计算机(PC)、桌上型计算机、膝上型计算机、平板计算机、专用计算机、例如智能电话等无线通信装置，或可经由通信信道传送图片和/或视频信息的任何装置。在一些例子中，单一装置可为支持双向通信的源装置和目的地装置两者，且因此可包含源装置220和目的地装置240两者的功能性。源装置220与目的地装置240之间的通信信道可包括有线或无线通信信道，且可为例如因特网等网络连接，或可为直接通信链路。目的地装置240可被称为三维(3D)显示器装置或3D呈现装置。

真实图像源222将包含第一视图250和第二视图256的一对立体图像提供到视差处理单元224。视差处理单元224使用第一视图250和第二视图256来产生3D处理信息252。视差处理单元224将3D处理信息252以及两个视图中的一者(图2的实例中，第一视图250)传递到编码器226，编码器226将第一视图250和3D处理信息252编码以形成经编码图像数据254。编码器226还在经编码图像数据254中包含来自虚拟图像源223的虚拟图像数据253。发射器228将经编码图像数据254发射到目的地装置240。

接收器248接收来自发射器228的经编码图像数据254。解码器246将经编码图像数据254解码以提取第一视图250且提取3D处理信息252以及来自经编码图像数据254的虚拟图像数据253。基于第一视图250和3D处理信息252，视图合成单元244可重建第二视图256。基于第一视图250和第二视图256，真实视图合成单元244可呈现真实3D图像。尽管图1未展示，但第一视图250和第二视图256可经历源装置220或目的地装置240处的额外处理。因此，在一些实例中，由视图合成单元244接收的第一视图250或由图像显示器242接收的第一视图250及第二视图256可实际上为从图像源256接收的第一视图250和第二视图256的经修改版本。

3D处理信息252可例如包含视差图，或可含有基于视差图的深度信息。存在用于基于视差信息确定深度信息的各种技术，且反之亦然。因此，每当本发明论述编码、解码或发射视差信息时，也预期可编码、解码或发射基于视差信息的深度信息。

真实图像源222可包含图像传感器阵列(例如，数字静态图片相机或数字录像机)、包括一个或一个以上所存储图像的计算机可读存储媒体，或用于接收来自外部源的数字图像的接口。在一些实例中，真实图像源222可对应于例如桌上型计算机、膝上型计算机或平板计算机等个人计算装置的3D相机。虚拟图像源223可包含例如通过执行视频游戏或其它交互式多媒体源或其它图像数据源而产生数字图像的处理单元。真实图像源222可对应于任一类型的所俘获或预先俘获的图像的源。一般来说，本发明中对图像的参考包含静态图片以及视频数据帧两者。因此，本发明的各方面可应用于静态数字图片以及所俘获数字视频数据或计算机产生的数字视频数据的帧两者。

真实图像源222将一对立体图像250和256的图像数据提供到视差处理单元224以计算图像之间的视差值。所述对立体图像250和256包括第一视图250和第二视图256。视差处理单元224可经配置以自动计算所述对立体图像250和256的视差值，其又可用于计算3D图像中的对象的深度值。举例来说，真实图像源222可以不同视角俘获场景的两个视图，且接着基于所确定的视差图计算场景中的对象的深度信息。在各个实例中，真实图像源222可包括标准二维相机、提供场景的立体视图的双相机系统、俘获场景的多个视图的相机阵列，或俘获一个视图加深度信息的相机。

真实图像源222可提供多个视图(即，第一视图250和第二视图256)，且视差处理单元224可基于这些多个视图计算视差值。然而，源装置220可仅发射第一视图250加3D处理信息252(即，视差图，或依据视差图确定的场景的每一对视图的深度信息)。举例来说，真实图像源222可包括八个相机阵列，其希望产生待从不同角度观看的场景的四对视图。源装置220可计算每一对视图的视差信息或深度信息，且仅将每一对的一个图像加上所述对的视差信息或深度信息发射到目的地装置240。因此，不是发射八个视图，源装置220可在此实例中以包含经编码图像数据254的位流的形式发射四个视图加上四个视图中的每一者的深度/视差信息(即，3D处理信息252)。在一些实例中，视差处理单元224可接收来自用户或来自另一外部装置的图像的视差信息。

视差处理单元224将第一视图250和3D处理信息252传递到编码器226。3D处理信息252可包括一对立体图像250和256的视差图。编码器226形成经编码图像数据254，经编码图像数据254包含第一视图250的经编码图像数据、3D处理信息252和虚拟图像数据253。在一些实例中，编码器226可应用各种无损耗或有损耗译码技术来减少将经编码图像数据254从源装置220发射到目的地装置240所需的位数目。编码器226将经编码图像数据254传递到发射器228。

当第一视图250为数字静态图片时，编码器226可经配置以将第一视图250编码为例如联合图像专家组(JPEG)图像。当第一视图250是视频数据帧时，编码器226可经配置以根据视频译码标准编码第一视图250，所述视频译码标准例如为运动图片专家组(MPEG)、MPEG-2、国际电信联盟(ITU)H.263、ITU-T H.264/MPEG-4、H.264高级视频译码(AVC)、新兴的HEVC标准(有时称为ITU-T H.265)，或其它视频编码标准。ITU-TH.264/MPEG-4(AVC)标准例如由ITU-T视频译码专家组(VCEG)连同ISO/IEC移动图片专家组(MPEG)一起被制定为称为联合视频小组(JVT)的集体合作伙伴的产品。在一些方面中，本发明中所描述的技术可应用于一般符合H.264标准的装置。ITU-T研究组在2005年3月在ITU-T推荐H.264“用于通用视听服务的高级视频译码(Advanced Video Codingfor generic audiovisual services)”中描述了H.264标准，其在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。联合视频小组(JVT)继续致力于对H.264/MPEG-4AVC的扩展。例如新兴的HEVC标准等新的视频译码标准持续发展且涌现。本发明中描述的技术可与例如H.264等当前代标准以及例如新兴的HEVC标准等将来代标准两者兼容。

视差处理单元224可产生呈视差图的形式的3D处理信息252。编码器226可经配置以将作为位流中发射的3D内容的一部分的视差图编码为经编码图像数据254。此过程可产生针对一个所俘获视图的一个视差图或针对若干所发射视图的多个视差图。编码器226可接收一个或一个以上视图以及视差图，且利用比如可对多个视图联合译码的H.264或HEVC或可对深度和纹理联合译码的可缩放视频译码(SVC)等视频译码标准对其译码。

如上所述，图像源222可将同一场景的两个视图提供到视差处理单元224，以用于产生3D处理信息252的目的。在此类实例中，编码器226可编码视图的仅一者连同3D处理信息256。一般来说，源装置220可经配置以将第一图像250连同3D处理信息252一起发送到目的地装置(例如，目的地装置240)。连同视差图或深度图一起发送仅一个图像可减少原本可由于发送场景的两个经编码视图以产生3D图像而产生的带宽消耗和/或存储空间使用。

发射器228可将包含经编码图像数据254的位流发送到目的地装置240的接收器248。举例来说，发射器228可使用例如MPEG-2系统技术等输送层级囊封技术将经编码图像数据254囊封在位流中。发射器228可包括(例如)网络接口、无线网络接口、射频发射器、发射器/接收器(收发器)或其它发射单元。在其它实例中，源装置220可经配置以将包含经编码图像数据254的位流存储到物理媒体，例如光学存储媒体(例如，压缩光盘、数字视频光盘、蓝光光盘)、快闪存储器、磁性媒体或其它存储媒体。在此类实例中，存储媒体可被物理上输送到目的地装置240的位置且由适当接口单元读取以用于检索数据。在一些实例中，包含经编码图像数据254的位流可在由发射器228发射之前由调制器/解调器(MODEM)调制。

在接收到具有经编码图像数据254的位流且将数据解囊封之后，在一些实例中，接收器248可将经编码图像数据254提供到解码器246(或在一些实例中，提供到对位流进行解调的MODEM)。解码器246将来自经编码图像数据254的第一视图250、3D处理信息252和虚拟图像数据253解码。举例来说，解码器246可从3D处理信息252重新创建第一视图250以及第一视图250的视差图。在解码视差图之后，可实施视图合成算法以产生尚未发射的其它视图的纹理。解码器246还可将第一视图250和3D处理信息252发送到真实视图合成单元244。真实视图合成单元244基于第一视图250和3D处理信息252重新创建第二视图256。

一般来说，人类视觉系统(HVS)基于到对象的收敛角而感知深度。相对靠近观看者的对象被感知为较接近观看者，因为观看者的眼睛以比相对远离观看者的对象大的角在对象上收敛。为模拟例如图片和视频等多媒体中的三维，向观看者显示两个图像，针对观看者的眼睛中的每一者显示一个图像(左和右)。位于图像内的同一空间位置处的对象通常将被感知为在与正在上面显示图像的屏幕相同的深度处。

为产生深度的幻象，可沿着水平轴在图像中的每一者中的略微不同位置处展示对象。两个图像中对象的位置之间的差异被称为视差。一般来说，为使对象显得相对于屏幕更靠近观看者，可使用负视差值，而为使对象显得相对于屏幕更远离用户，可使用正视差值。在一些实例中，具有正或负视差的像素可以更多或更少分辨率显示以增加或减小锐度或模糊度，从而进一步产生距焦点的正或负深度的效果。

视图合成可被视为使用密集取样的视图以任意视角产生视图的取样问题。然而，在实际应用中，密集取样的视图所需的存储或发射带宽可相对较大。因此，已相对于视图合成基于稀疏取样的视图及其深度图执行研究。尽管详细区分，但基于稀疏取样的视图的算法可很大程度上基于3D翘曲。在3D翘曲中，给定深度和相机型号，参考视图的像素可首先从2D相机坐标返回投影到世界坐标中的点P。点P可接着投影到目的地视图(待产生的虚拟视图)对应于世界坐标中的同一对象的不同投影的两个像素可具有相同颜色强度。

真实视图合成单元244可经配置以基于对象(例如，像素、块、像素群组或块群组)的深度值计算对象的视差值，或可接收在具有经编码图像数据254的位流中编码的视差值。真实视图合成单元244可使用所述视差值从第一视图250产生第二视图256，这在观看者用一只眼观看第一视图250且用另一只眼观看第二视图256时产生三维效果。真实视图合成单元244可将第一视图250和第二视图256传递到待包含在将在图像显示器242上显示的混合现实场景中的MSSU245。

图像显示器242可包括立体显示器或自动立体显示器。一般来说，立体显示器通过显示两个图像而模拟三维。观看者可佩戴头戴式单元(例如，护目镜或眼镜)以便将一个图像引导到一只眼中且将第二图像引导到另一只眼中。在一些实例中，例如通过使用偏光眼镜或彩色滤光镜同时显示每一图像。在一些实例中，图像快速交替，且眼镜或护目镜与显示器同步地快速交替快门，以致使仅向对应的眼睛展示正确图像。自动立体显示器不使用眼镜而是可将正确图像引导到观看者的对应眼睛中。举例来说，自动立体显示器可装备有相机以确定观看者的眼睛位于何处，以及用于将图像引导到观看者的眼睛的机械和/或电子装置。还可使用彩色滤光技术、偏振滤光技术或其它技术将图像分离和/或引导到用户的不同眼睛。

真实视图合成单元244可用相对于观看者在屏幕后方、屏幕处和屏幕前方的深度值来配置。真实视图合成单元244可用将经编码图像数据254中表示的对象的深度映射到视差值的函数来配置。因此，真实视图合成单元244可执行函数中的一者以计算对象的视差值。在基于3D处理信息252计算第一视图250的对象的视差值之后，真实视图合成单元244可从第一视图250和视差值产生第二视图256。

真实视图合成单元244可用用于在屏幕前方或后方以最大深度显示对象的最大视差值来配置。以此方式，真实视图合成单元244可用零与最大正和负视差值之间的视差范围来配置。观看者可调整所述配置以修改由目的地装置240显示对象的屏幕前方或后方的最大深度。举例来说，目的地装置240可与观看者可操纵的远程控制或其它控制单元通信。远程控制可包括用户接口，其允许观看者控制显示对象的屏幕前方的最大深度和显示对象的屏幕后方的最大深度。以此方式，观看者可能够调整图像显示器242的配置参数以便改进观看体验。

通过配置将在屏幕前方和屏幕后方显示的对象的最大视差值，视图合成单元244可能够使用相对简单的计算基于3D处理信息252计算视差值。举例来说，视图合成单元244可经配置以应用将深度值映射到视差值的函数。所述函数可包括深度与对应视差范围内的一个视差值之间的线性关系，使得具有在收敛深度区间内的深度值的像素被映射到零视差值，而屏幕前方的最大深度处的对象被映射到最小(负)视差值，因此展示为在屏幕前方，且处于最大深度因此展示为在屏幕后方的对象被映射到针对屏幕后方的最大(正)视差值。

在真实世界坐标的一个实例中，深度范围可为例如[200,1000]，且收敛深度距离可为例如约400。于是，屏幕前方的最大深度对应于200，且屏幕后方的最大深度为1000，且收敛深度区间可为例如[395,405]。然而，真实世界坐标系中的深度值可能不可用或可量化到较小动态范围，所述较小动态范围可例如为八位值(从0到255的范围)。在一些实例中，具有从0到255的值的此类经量化深度值可在将存储或发射深度图时或在估计深度图时的情境中使用。典型的基于深度-图像的呈现(DIBR)过程可包含将低动态范围经量化深度图转换为真实世界深度图中的图，随后计算视差。注意，常规上，较小经量化深度值对应于真实世界坐标中的较大深度值。然而，在本发明的技术中，可能不必执行此转换，且因此可能不必知道真实世界坐标中的深度范围，或从经量化深度值到真实世界坐标中的深度值的转换函数。考虑实例性视差范围[-dis_n,dis_p]，当经量化深度范围包含从d_min(其可为0)到d_max(其可为255)的值时，深度值d_min被映射到dis_p，且深度值d_max(其可为255)被映射到-dis_n。注意，在此实例中，dis_n为正。如果假定收敛深度图区间为[d₀-δ,d₀+δ]，那么此区间中的深度值被映射到视差0。一般来说，在本发明中，短语“深度值”指代较低动态范围[d_min,d_max]内的值。δ值可被称作容限值，且无需在每一方向上相同。即，d₀可通过第一容限值δ₁和第二潜在不同容限值δ₂来修改，使得[d₀-δ₂,d₀+δ₁]可表示可全部映射到视差值零的深度值的范围。以此方式，目的地装置240可在不使用考虑例如焦距、所采取的相机参数和真实世界深度范围值等额外值的更复杂程序的情况下计算视差值。

系统210仅是与本发明一致的一个实例性配置。如上文论述，本发明的技术可由源装置220或目的地装置240执行。在一些替代配置中，举例来说，MSSU245的一些功能性可在源装置220处而不是目的地装置240处。在此配置中，虚拟图像源223可实施本发明的技术以产生对应于实际虚拟3D图像的虚拟图像数据223。在其它配置中，虚拟图像源223可产生描述3D图像的数据，使得目的地装置240的MSSU245可呈现虚拟3D图像。另外，在其它配置中，源装置220可将真实图像250和256直接发射到目的地装置240，而不是发射一个图像和视差图。在又其它配置中，源装置220可产生混合现实场景且将混合现实场景发射到目的地装置。

图3A-3C是说明基于像素的深度的正、零和负视差值的实例的概念图。一般来说，为产生三维效果，例如在屏幕上展示两个图像。待在屏幕前方或后方显示的对象的像素分别具有正或负视差值，而待在屏幕的深度处显示的对象具有零视差值。在一些实例中，例如，当用户佩戴头戴式护目镜时，“屏幕”的深度可对应于共同深度d₀。

图3A-3C说明其中屏幕382同时或快速连续地显示左图像384和右图像386的实例。图3A描绘像素380A在屏幕382后方(或内部)出现。在图3A的实例中，屏幕382显示左图像像素388A和右图像像素390A，其中左图像像素388A和右图像像素390A通常对应于同一对象且因此可具有类似或相同像素值。在一些实例中，左图像像素388A和右图像像素390A的亮度和色度值可略微不同以进一步增强三维观看体验，(例如)以考虑到可能当从略微不同角度观看对象时出现的亮度或颜色差异的略微变化。

在此实例中，当由屏幕382显示时，左图像像素388A的位置出现在右图像像素90A的左侧。即，左图像像素388A与右图像像素390A之间存在正视差。假定视差值为d，且左图像像素392A出现在左图像384中的水平位置x处，其中左图像像素392A对应于左图像像素388A，那么右图像像素394A出现在右图像386中的水平位置x+d处，其中右图像像素394A对应于右图像像素390A。此正视差可致使当用户的左眼聚焦在左图像像素88A上且用户的右眼聚焦在右图像像素390A上时观看者的眼睛在相对在屏幕后方的点处收敛，从而产生像素80A出现在屏幕382后方的幻象。

左图像384可对应于如图2中说明的第一图像250。在其它实例中，右图像386可对应于第一图像250。为了计算图3A的实例中的正视差值，真实视图合成单元244可接收左图像384和左图像像素392A的深度值，所述深度值指示左图像像素392A在屏幕382后方的深度位置。真实视图合成单元244可复制左图像384以形成右图像386并改变右图像像素394A的值以与左图像像素392A的值匹配或相似。即，右图像像素394A可具有与左图像像素392A相同或类似的亮度和/或色度值。因此，屏幕382(其可对应于图像显示器242)可大体同时或快速连续地显示左图像像素388A和右图像像素390A，以产生像素380A在屏幕382后方出现的效果。

图3B说明其中在屏幕382的深度处描绘像素380B的实例。在图3B的实例中，屏幕382在同一位置中显示左图像像素388B和右图像像素390B。即，在此实例中，左图像像素388B与右图像像素390B之间存在零视差。假定左图像384中的左图像像素392B(其对应于如屏幕382显示的左图像像素388B)出现在水平位置x处，右图像像素394B(其对应于如屏幕382显示的右图像像素390B)出现在右图像386中的水平位置x处。

真实视图合成单元244可确定左图像像素392B的深度值在等效于屏幕382的深度或距屏幕382的深度较小距离δ内的深度d₀处。因此，真实视图合成单元244可向左图像像素392B指派零视差值。当由左图像384和视差值构建右图像386时，真实视图合成单元244可让右图像像素394B的值与左图像像素392B相同。

图3C描绘屏幕382前方的像素380C。在图3C的实例中，屏幕382在右图像像素390C的右侧显示左图像像素388C。即，在此实例中，左图像像素388C与右图像像素390C之间存在负视差。因此，用户的眼睛可在屏幕382前方的位置处收敛，这可产生像素380C出现在屏幕382前方的幻象。

真实视图合成单元244可确定左图像像素392C的深度值处于屏幕382前方的深度。因此，真实视图合成单元244可执行将左图像像素392C的深度映射到负视差值-d的函数。真实视图合成单元244可接着基于左图像384和负视差值构建右图像386。举例来说，当构建右图像386时，假定左图像像素392C具有水平位置x，真实视图合成单元244可将右图像386中的水平位置x-d处的像素(即，左图像像素394C)的值改变为左图像像素392C的值。

真实视图合成单元244可将第一视图250和第二视图256发射到MSSU245。MSSU245组合第一视图250和第二视图256以产生真实3D图像。MSSU245还基于虚拟图像数据253将虚拟3D对象添加到真实3D图像以产生混合现实3D图像以供图像显示器242显示。根据本发明的技术，MSSU245基于从真实3D图像提取的一组参数呈现虚拟3D对象。

图4A展示用于获取真实场景的立体视图和由所得3D图像涵盖的视场的两个相机系统的图的俯视图，且图4B展示如图4A所示的相同两个相机系统的侧视图。两个相机系统可例如对应于图1中的真实图像源122或图2中的真实图像源222。L'表示两个相机系统的左相机位置，且R'表示两个相机系统的右相机位置。位于L'和R'处的相机可获取上文论述的第一视图和第二视图。M'表示显微镜相机位置，且A表示M'与L'之间以及M'与R'之间的距离。因此，L'与R'之间的距离为2*A。

Z'表示距零视差平面(ZDP)的距离。当在显示器上呈现时，ZDP处的点将显得在显示器平面上。当在显示器上呈现时，ZDP后方的点将显得在显示器平面后方，且当在显示器上呈现时，ZDP后前方的点将显得在显示器平面前方。从M'到ZDP的距离可由相机使用激光测距仪、红外测距仪或其它此类测距工具来测量。在一些操作环境中，Z'的值可为无需测量的已知值。

在照相术中，术语视角(AOV)通常用于描述由相机成像的给定场景的角范围。AVO通常可与更一般术语视场(FOV)互换地使用。相机的水平视角(θ'_h)是基于特定相机的设置的已知值。基于θ'_h的已知值和Z'的所确定的值，表示相机设置俘获的ZDP的宽度的一半的W'的值可计算如下：

{θ^{'}}_{h} = 2 \arctan \frac{W^{'}}{Z^{'}} - - - (1)

使用给定纵横比(其为相机的已知参数)，表示相机俘获的ZDP的高度的一半的H'的值可确定如下：

R^{'} = \frac{W^{'}}{H^{'}} - - - (2)

因此，相机设置的垂直视角(θ'_v)可计算如下：

{θ^{'}}_{v} = 2 \arctan \frac{W^{'}}{Z^{'} R^{'}} - - - (3)

图5A展示虚拟显示场景的俯视概念图，且图5B展示同一虚拟显示场景的侧视图。描述图5A和5B中的显示场景的参数是基于针对图4A和4B的真实场景确定的参数而选择。特定来说，将虚拟场景的水平AOV(θ_h)选择成与真实场景的水平AOV(θ'_h)匹配，将虚拟场景的垂直AOV(θ_v)选择成与真实场景的垂直AOV(θ'_v)匹配，且将虚拟场景的纵横比(R)选择成与真实场景的垂直纵横比(R')匹配。将虚拟显示场景的视场选择成与相机俘获的真实3D图像的视场匹配，使得虚拟场景具有与真实场景相同的观看体积，且当呈现虚拟对象时不存在视觉失真。

图6是展示用于呈现混合现实图像的3D视见平截头体的3D说明。3D视见平截头体可由应用程序接口(API)界定以用于产生3D图形。开放图形库(OpenGL)例如是用于产生3D计算机图形的一个共同跨平台API。OpenGL中的3D视见平截头体可由图6所示的六个参数(左边界(l)、右边界(r)、顶部边界(t)、底部边界(b)、Z_near和Z_far)界定。l、r、t和b参数可使用上文确定的水平和垂直AOV来确定，如下：

{l = Z}_{near} \tan (\frac{θ_{h}}{2}) - - - (4)

t = Z_{near} \tan (\frac{θ_{v}}{2}) - - - (5)

为了确定l和t的值，需要确定Z_near的值。Z_near和Z_far经选择以满足以下约束：

Z_near<Z_ZDP<Z_far (6)

使用上文确定的W和θ_h的值，可确定Z_ZDP的值，如下：

Z_{ZDP} = \frac{W}{\tan \frac{θ_{h}}{2}} - - - (7)

在确定Z_ZDP的值之后，基于对应于虚拟显示平面的真实场景近和远裁剪平面选择Z_near和Z_far的值。举例来说，如果ZDP在显示器上，那么ZDP等于观看者距显示器的距离。尽管Z_far与Z_near之间的比率可归因于深度缓冲器非线性问题而影响深度缓冲器精度，但深度缓冲器通常在较接近近平面的区域中具有较高精度且在较接近远平面的区域中具有较低精度。精度的变化可改进较接近观看者的对象的图像质量。因此，Z_near和Z_far的值可能选择如下：

Z_{near} = C_{Zn} \cot (\frac{θ_{h}}{2})

和

Z_{far} = C_{Zf} \cot (\frac{θ_{h}}{2}) - - - (8)

C_Zn=0.6和C_Zf=3.0 (9)

还可基于系统设计者和系统用户的偏好选择C_Zn和C_Zf的其它值。在确定Z_near和Z_far的值之后，可使用以上等式(4)和(5)确定l和t的值。r和b的值可分别为l和t的负数。导出OpenGL平截头体参数。因此，OpenGL投影矩阵可导出如下：

[\begin{matrix} \cot (\frac{θ_{h}}{2}) & 0 & 0 & 0 \\ 0 & \cot (\frac{θ_{v}}{2}) & 0 & 0 \\ 0 & 0 & - \frac{Z_{near} + Z_{far}}{Z_{far} - Z_{near}} & \frac{- 2 Z_{near} Z_{far}}{Z_{far} - Z_{near}} \\ 0 & 0 & - 1 & 0 \end{matrix}]

使用以上投影矩阵，可呈现混合现实场景，其中场景中的虚拟对象的投影尺度与场景中的真实对象的投影尺度匹配。基于以上等式4和5，可看出：

\cot (\frac{θ_{h}}{2}) = \frac{Znear}{l},

和 (10)

\cot (\frac{θ_{v}}{2}) = \frac{Znear}{t} - - - (11)

除了投影尺度匹配外，本发明的各方面进一步包含使真实3D图像与虚拟3D图像之间的视差尺度匹配。返回参看图4，真实图像的视差可确定如下：

{d^{'}}_{N} = \frac{2 A (Z^{'} - N^{'})}{N^{'}}

和

{d^{'}}_{F} = \frac{2 A (F^{'} - Z^{'})}{F^{'}} - - - (12)

如先前论述，A的值基于所使用的3D相机是已知的，且Z'的值可为已知的或经测量。N'和F'的值分别等于上文确定的Z_near和Z_far的值。为使虚拟3D图像与真实3D图像的视差尺度匹配，虚拟图像的近平面视差(d_N)设定为等于d'_N，且虚拟图像的远平面视差(dF)设定为等于d'_F。为确定虚拟图像的眼睛间隔值(E)，可对以下等式的任一者求解：

d_{N} = \frac{2 EN}{Z - N}

和

d_{F} = \frac{2 EF}{Z + F} - - - (13)

使用近平面视差(d_N)作为实例

N'=kZ'和N=(1-k)Z (14)

因此，针对近平面视差的等式13转变为：

{d^{'}}_{N} = \frac{2 A (1 - k)}{k} - - - (15)

接下来，需要将真实世界坐标映射到图像平面像素坐标。假定3D相机的相机分辨率已知为W'_P×H'_P，则近平面视差变为：

{d^{'}}_{NP} = \frac{2 A (1 - k)}{k W^{'}} {W^{'}}_{p} - - - (16)

将来自图形坐标的观看者空间视差映射到显示器像素坐标中，显示器分辨率为W_p×H_p，其中：

d_{NP} = \frac{2 E (1 - k)}{kW} W_{p} - - - (17)

使用视差的等式(其中d'_Np=d_Np)和显示器与所俘获图像的以下缩放比(S)：

S = \frac{W_{p}}{{W^{'}}_{p}} - - - (18)

可用于确定OpenGL中的观看者位置的眼睛间隔值可确定如下：

E = \frac{AW}{S W^{'}} - - - (19)

眼睛间隔值是用于产生虚拟3D图像的OpenGL函数调用中使用的参数。

图7展示例如图6的视见平截头体等视见平截头体的俯视图。在OpenGL中，通常将视见平截头体内的所有点投影到近裁剪平面(例如，图7所示)上，接着映射到视口屏幕坐标。通过移动左视口和右视口两者，可更改场景的某些部分的视差。因此，可实现ZDP调整和视图深度调整两者。为了保持不失真的立体视图，左视口和右视口两者可在相反方向上对称地移位相同量的距离。图7展示当左视口向左移位较小量的距离且右视口向右移位相同量的距离时的视图空间几何形状。线701a和701b表示原始左视口配置，且线702a和702b线表示改变的左视口配置。线703a和703b表示原始右视口配置，且线704a和704b表示改变的右视口配置。Z_obj表示视口移位之前的对象距离，且Z'_obj表示视口移位之后的对象距离。Z_ZDP表示视口移位之前的零视差平面距离，且Z'_ZDP表示视口移位之后的零视差平面距离。Z_near表示近裁剪平面距离，且E表示上文确定的眼睛间隔值。点A是视口移位之前的对象深度位置，且A'是视口移位之后的对象深度位置。

移位视口的深度改变的数学关系导出如下，其中Δ是对象的投影视口大小的一半，VP_S是视口移位的量。基于点A、A'的三角学以及左眼和右眼的位置，可导出等式(20)和(21)：

Δ = E * \frac{Z_{obj} - Z_{near}}{Z_{obj}} - - - (20)

{VP}_{S} + Δ = E * \frac{{Z^{'}}_{obj} - Z_{near}}{{Z^{'}}_{obj}} - - - (21)

等式(20)和(21)可经组合以导出视口移位之后观看者空间中的对象距离，如下：

{Z^{'}}_{obj} = \frac{Z_{near} * Z_{obj} * E}{Z_{near} * E - Z_{obj} * {VP}_{S}} - - - (22)

基于等式(22)，可导出观看者空间中的新的ZDP位置，如下：

{Z^{'}}_{ZDP} = \frac{Z_{near} * Z_{ZDP} * E}{Z_{near} * E - Z_{ZDP} * {VP}_{S}} - - - (23)

使用Z'_ZDP，可使用Z_near和Z_far的新的值产生新的投影矩阵。

图8是说明本发明的技术的流程图。参考图2的系统210描述所述技术，但所述技术不限于此系统。对于所俘获的真实3D图像，真实图像源222可确定到零视差平面的距离(810)。基于到零视差平面的距离，MSSU245可确定投影矩阵的一个或一个以上参数(820)。基于到零视差平面的距离，MSSU245还可确定虚拟图像的眼睛间隔值(830)。至少部分基于投影矩阵和眼睛间隔值，可呈现虚拟3D对象(840)。如上文论述，投影矩阵的确定和虚拟3D对象的呈现可由源装置(例如，源装置220)或由目的地装置(例如，目的地装置240)执行。MSSU245可组合虚拟3D对象与真实3D图像以产生混合现实3D场景(850)。混合现实场景的产生可类似地由源装置或目的地装置执行。

本发明的所述技术可体现于广泛多种装置或设备中，所述装置或设备包括无线手持机及集成电路(IC)或一组IC(即，芯片组)。已描述经提供以强调功能方面的任何组件、模块或单元，且未必需要通过不同硬件单元等来实现。

因此，本文描述的技术可实施在硬件、软件、固件或其任何组合中。被描述为模块或组件的任何特征可共同实施于集成的逻辑装置中或单独实施为离散但可互操作的逻辑装置。如果以软件实施，那么所述技术可至少部分地由包括指令的计算机可读媒体实现，所述指令在处理器中执行时实施上述方法中中的一者或一者以上。计算机可读媒体可包括有形的计算机可读存储媒体，且可形成计算机程序产品(其可包括封装材料)的一部分。计算机可读媒体可包括例如同步动态随机存取存储器(SDRAM)的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等。另外或替代地，所述技术可至少部分由载运或传送呈指令或数据结构的形式的代码且可由计算机存取、读取和/或执行的计算机可读通信媒体来实现。

所述代码可由一个或一个以上处理器执行，例如，一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散的逻辑电路。因此，如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在某些方面中，可将本文中所描述的功能性提供于经配置以用于编码和解码的专用软件模块或硬件模块内或并入组合的视频编码器-解码器(CODEC)中。并且，可将所述技术完全实施于一个或一个以上电路或逻辑元件中。

已描述本发明的各个方面。这些及其它方面均处于所附权利要求书的范围内。

已描述本发明的许多方面。可在不脱离权利要求书的范围的情况下进行各种修改。这些及其它方面均处于所附权利要求书的范围内。

Claims

1.一种用于处理三维(3D)视频数据的方法，其包括：

确定到相机俘获三维(3D)图像的零视差平面的距离，其中所述相机俘获3D图像包括由第一相机俘获图像和第二相机俘获图像形成的第一立体图像；

至少部分基于到所述零视差平面的所述距离、所述零视差平面的垂直视角、及所述零视差平面的水平视角来确定投影矩阵的一个或一个以上参数；

至少部分基于所述投影矩阵呈现虚拟3D对象，其中，所述虚拟3D对象包括由第一虚拟图像和第二虚拟图像形成的第二立体图像；

组合所述相机俘获3D图像与所述虚拟3D对象以产生混合现实3D图像；

移位所述混合现实3D图像的第一视口；

移位所述混合现实3D图像的第二视口，其中移位所述第一视口和移位所述第二视口调整所述混合现实3D图像的视图深度。

2.根据权利要求1所述的方法，其进一步包括：

至少部分基于到所述零视差平面的所述距离确定所述虚拟3D对象的眼睛间隔值；

至少部分基于所述眼睛间隔值呈现所述虚拟3D对象。

3.根据权利要求1所述的方法，其中通过立体相机俘获所述相机俘获3D图像。

4.根据权利要求3所述的方法，其中所述方法进一步包括：

确定所述立体相机的纵横比；以及，

使用所述纵横比确定所述投影矩阵的所述一个或一个以上参数中的至少一者。

5.根据权利要求1所述的方法，其中所述参数包括左边界参数、右边界参数、顶部边界参数、底部边界参数、近裁剪平面参数和远裁剪平面参数。

6.根据权利要求1所述的方法，其进一步包括：

确定所述相机俘获3D图像的近平面视差值；

以所述近平面视差值呈现所述虚拟3D对象。

7.根据权利要求1所述的方法，其进一步包括：

确定所述相机俘获3D图像的远平面视差值；

以所述远平面视差值呈现所述虚拟3D对象。

8.一种用于处理三维(3D)视频数据的系统，所述系统包括：

相机，其经配置以捕获相机俘获3D图像；

一个或多个处理器，其经配置以：

确定到所俘获的3D图像的零视差平面的距离，其中所述相机俘获3D图像包括由第一相机俘获图像和第二相机俘获图像形成的第一立体图像；

至少基于到所述零视差平面的所述距离、所述零视差平面的垂直视角、及所述零视差平面的水平视角来确定投影矩阵的一个或一个以上参数；

至少部分基于所述投影矩阵呈现虚拟3D对象，其中，所述虚拟3D对象包括由第一虚拟图像和第二虚拟图像形成的第二立体图像；以及

移位所述混合现实3D图像的第一视口；

移位所述混合现实3D图像的第二视口，其中移位所述第一视口和移位所述第二视口来调整所述混合现实3D图像的视图深度。

9.根据权利要求8所述的系统，其中所述一个或多个处理器进一步经配置以，

至少部分基于到所述零视差平面的所述距离确定所述虚拟3D对象的眼睛间隔值，且至少部分基于所述眼睛间隔值呈现所述虚拟3D对象。

10.根据权利要求8所述的系统，其中所述相机包括立体相机。

11.根据权利要求10所述的系统，其中所述一个或多个处理器进一步经配置以确定所述立体相机的纵横比，且使用所述纵横比确定所述投影矩阵的所述一个或一个以上参数中的至少一者。

12.根据权利要求8所述的系统，其中所述参数包括左边界参数、右边界参数、顶部边界参数、底部边界参数、近裁剪平面参数和远裁剪平面参数。

13.根据权利要求8所述的系统，其中所述一个或多个处理器进一步经配置以确定所述相机俘获3D图像的近平面视差值，且以同一近平面视差值呈现所述虚拟3D对象。

14.根据权利要求8所述的系统，其中所述一个或多个处理器进一步经配置以确定所述相机俘获3D图像的远平面视差值，且以同一远平面视差值呈现所述虚拟3D对象。

15.一种用于处理三维(3D)视频数据的设备，其包括：

用于确定到相机俘获三维(3D)图像的零视差平面的距离的装置，其中所述相机俘获3D图像包括由第一相机俘获图像和第二相机俘获图像形成的第一立体图像；

用于至少部分基于到所述零视差平面的所述距离、所述零视差平面的垂直视角、及所述零视差平面的水平视角来确定投影矩阵的一个或一个以上参数的装置；

用于至少部分基于所述投影矩阵呈现虚拟3D对象的装置，其中，所述虚拟3D对象包括由第一虚拟图像和第二虚拟图像形成的第二立体图像；

用于组合所述相机俘获3D图像与所述虚拟3D对象以产生混合现实3D图像的装置；

用于移位所述混合现实3D图像的第一视口的装置；

用于移位所述混合现实3D图像的第二视口的装置，其中移位所述第一视口和移位所述第二视口来调整所述混合现实3D图像的视图深度。

16.根据权利要求15所述的设备，其进一步包括：

用于至少部分基于到所述零视差平面的所述距离确定所述虚拟3D对象的眼睛间隔值的装置；

用于至少部分基于所述眼睛间隔值呈现所述虚拟3D对象的装置。

17.根据权利要求15所述的设备，其中所述相机俘获3D图像是由立体相机俘获。

18.根据权利要求17所述的设备，其中所述设备进一步包括：

用于确定所述立体相机的纵横比的装置；以及，

用于使用所述纵横比确定所述投影矩阵的所述一个或一个以上参数中的至少一者的装置。

19.根据权利要求15所述的设备，其中所述参数包括左边界参数、右边界参数、顶部边界参数、底部边界参数、近裁剪平面参数和远裁剪平面参数。

20.根据权利要求15所述的设备，其进一步包括：

用于确定所述相机俘获3D图像的近平面视差值的装置；

用于以所述近平面视差值呈现所述虚拟3D对象的装置。

21.根据权利要求15所述的设备，其进一步包括：

用于确定所述相机俘获3D图像的远平面视差值的装置；

用于以所述远平面视差值呈现所述虚拟3D对象的装置。