CN103931177A

CN103931177A - 显示对象在三维场景中的显示方法及设备

Info

Publication number: CN103931177A
Application number: CN201280053273.1A
Authority: CN
Inventors: 爱默德·鲍阿齐齐; 基奥万尼·科达拉; 卢卡斯·康德拉德
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-04-10
Filing date: 2012-04-10
Publication date: 2014-07-16
Also published as: KR101652186B1; WO2013152784A1; EP2803197A1; US20150022645A1; JP2015517236A; KR20140127287A

Abstract

本发明涉及用于确定要连同三维(3D)场景一起显示的显示对象(303)的显示位置(x,y,z)的方法(100)，所述方法(100、300)包含：提供(101、305)包含在所述3D场景中的一个或多个可显示对象相对于显示平面(201)的显示距离(znear)；以及根据在所述3D场景中的所述一个或多个可显示对象的所述显示距离(znear)来提供(103、307)所述显示位置(x,y,z)，其中包含所述显示对象(303)的显示距离(zbox)。

Description

显示对象在三维场景中的显示方法及设备

技术领域

本发明涉及3D多媒体领域，包括立体3D和多视角3D视频及静止图像。确切地说，本发明涉及用于在3D座标系中操控定时文字和定时图形的平面位置的信令信息。

背景技术

目前，可用的媒体文件格式标准包括ISO基媒体文件格式(ISO/IEC14496-12)、MPEG-4文件格式(ISO/IEC14496-14，也被称为MP4格式)、AVC文件格式(ISO/IEC14496-15)、3GPP文件格式(3GPP TS26.244，也被称为3GP格式)，以及DVB文件格式。其中，ISO文件格式是基础，其可衍生出所有上述文件格式(ISO文件格式本身除外)。因此，这些文件格式(包括ISO文件格式本身)也被称作ISO文件格式家族。

图8图示了根据ISO基媒体文件格式的简化文件结构800。ISO基媒体文件格式中的基本构建模块被称为“框(box)”。每个框具有各自的标题栏(header)和负荷。该标题栏指示所属框的类型，并以字节数来指示所属框的大小。单个框也可在其内包含其他框，并且，在ISO文件格式中，规定了在某种类型的单个框内所允许出现的框类型。另外，规定每个文件必须拥有某些类型的框，而其他类型的框则是任选的。而且，对于一些框类型，允许在单个文件中出现一个以上的此类框。由此可知，ISO基媒体文件格式规定了框的层次结构。

根据ISO文件格式家族，文件800由分别包含在独立的框，即媒体数据(mdat)框801和电影(moov)框803中的媒体数据和元数据组成。若想使文件800具有可操作性，则必须使其具有这两种框801、803。电影框803可含有一个或多个轨迹805、807，并且每个轨迹驻留在一个单个轨迹框中。所谓轨迹可为以下类型之一：媒体、提示、时间元数据。媒体轨迹指代根据某一媒体压缩格式，或根据ISO基媒体文件格式对该媒体压缩格式的封装而格式化的样本。提示轨迹指代提示样本，该等提示样本含有作业程序书指令，用于构建可通过所指示的通信协议进行传输的数据包。这些作业程序书指令可含有构建包头部的指导，还包括构建数据包负荷的指导。在数据包负荷构建中，可能引用驻留在其他轨迹或项目中的数据，即，在数据包构建过程期间通过索引来指示需要将特定轨迹或项目中的哪些数据复制到正在构建的数据包。定时元数据轨迹指代用来描述所涉及的媒体及/或提示样本的样本。通常，会选择一个媒体轨迹(例如，视频轨迹805或音频轨迹807)来展示一种媒体类型。轨迹的样本与样本标号暗中关联，每个样本标号会按照所指示的样本解码次序而比前一个样本标号递增1。

注意到，对于在单个文件800中包含展示，ISO基媒体文件格式并不加以限制，而且此类展示可包含在多个文件中。单个文件800还包含用于整体展示的元数据803。该文件800也可包含全部媒体数据801，而媒体数据801自身即为展示。对于其他文件而言(如果使用的话)，并不需要将其格式化为ISO基媒体文件格式，也不需要使用其来包含媒体数据，这些其他文件还可含有尚未使用的媒体数据或其他信息。ISO基媒体文件格式仅关注展示文件的结构。媒体数据文件的格式仅受ISO基媒体文件格式或其衍生格式的约束，这是因为媒体文件中的媒体数据的格式化须遵守ISO基媒体文件格式或其衍生格式的规定。

3GPP SA4(第三代移动通信标准化伙伴项目规范制定工作组，服务及系统方面：编解码器)已致力于对3GPP服务的定时文字及定时图形进行研发，研发成果包括定时文字的技术规格TS26.245以及定时图形的技术规格TS26.430。图9图示了在二维(2D)座标系中由3GPP定时文字定义的文字呈现位置及组成的实例图示。定时文字及定时图形这两种格式允许实现在多媒体场景中文字903及图形相对于视频元件905的布置，视频元件905显示在显示区域907中。3GPP定时文字及定时图形构建于所显示的视频905的顶部，并且与视频905的左上角911相关联。区域903的界定是通过提供左上角911的座标(t_x,t_y)913以及该区域903的宽度/高度915、917来实现。除非被文字样本中的“tbox”覆盖，在其他情况下默认地将文字框901设置在区域903中。然后将框值定义为相对于区域903的顶部位置和左侧位置的相对值919、921。

可使用超文本传输协议(HTTP,RFC2616)将定时文字及定时图形作为文件格式的一部分来下载，或者可通过实时传输协议(RTP,RFC3550)来对定时文字及定时图形进行流式传输。

在技术规范3GPP TS26.245中规定了用于存储定时文字的3GP文件扩展名，在标准RFC4396中规定了RTP负荷格式。

可以下列两种方式中的一者来实现定时图形：基于可缩放矢量图形(SVG)的定时图形，和简单定时图形模式。在基于SVG的定时图形中，布局及定时由SVG场景来控制。为了传输及存储，定时图形再次使用了动态交互式多媒体场景(DIMS,3GPP TS26.142)、RTP负荷格式及3GP文件格式扩展名。这些定时图形还再次使用了会话描述协议(SDP)语法以及针对DIMS定义的媒体类型参数。在简单定时图形模式中，定义了二值表示格式，以便实现图形元件的简单嵌入。定时图形是通过使用定时文字RTP负荷格式(RFC4396)及在3GPP TS26.430中规定的3GP文件格式扩展名来以简单形式传输的。

深度感知是指感知三维(3D)世界及对象的距离的视觉能力。立体3D视频指代一种技术，该技术通过将两个偏移的场景图像分别独立地呈现给观看者的左眼和右眼，来建立对于场景深度的错觉。立体3D视频通过用两台独立的相机对场景进行拍摄来传达场景的3D感知效果，这样就造成了场景中的对象被投影到左图像及右图像中的不同位置。

通过用两台以上的独立相机对场景进行拍摄，就建立了多视角3D视频。由于所拍摄的左右图像的所选角度不同，可呈现出不同的场景透视角度(视角)。多视角3D视频允许观看者以交互的方式来对观看角度进行控制。可将多视角3D视频看做从不同的透视角度来表示同一场景的数个立体3D视频的多重效果。

将对象或像素从左视角到右视角的位移称为像差(disparity)。该像差与所呈现的视频场景的感知深度成反比例。

可以按帧兼容方式来编码立体3D视频。在编码器侧，将立体左右图像空间封装成单个帧，并对这些单个帧进行编码。由解码器生成的输出帧将含有立体左右图像的构成帧。在通常的操作模式中，各个视角的原始帧与封装后的单个帧具有相同的空间分辨率。在这种情况中，编码器于封装操作之前对两个视角的立体视频进行降采样。空间封装可以使用并排格式、层层叠放格式、交织格式或棋盘格式。在编码器侧通过恰当的信令信息来指示所使用的帧封装格式。例如，在H.264/AVC视频编码的情况中，利用作为立体3D视频位元流的一部分的补充强化信息(SEI)消息来发出关于帧封装的信号。在解码器侧以常规方式对帧进行解码，从解码器的输出帧中对该两个构成帧进行解封装，进行升采样以逆转编码器侧的降采样过程，并最终在3D显示器上显示该等构成帧。在大多数商用部署中，仅应用了并排的帧封装排列或层层叠放的帧封装排列。

可通过使用多视角视频编码技术来编码多视角3D视频，此类编码技术的一个实例是H.264/MVC，其被作为对H.264/AVC标准的扩展而标准化。多视角视频含有大量的视角间统计相关性，这是因为各个相机是从不同的观看角度来拍摄同一场景的。对于某一相机的帧而言，既可通过时间相关帧来进行预测，也可通过邻近相机的帧来进行预测。多视角视频编码应用了组合的时间预测及视角间预测，而此正是高效编码的关键。

也可将立体3D视频看做仅有一个3D视角的多视角3D视频。因此，立体3D视频也能使用多视角编码技术来进行编码。

随着在3GPP中引入对于立体3D视频的支持，定时文字和定时图形的布置显得更有挑战性。根据目前的3GPP规范，定时文字框或定时图形框将被布置在立体3D视频的两个视角上的相同位置中。此意味着像差为零，因而观看对象将被布置在屏幕上。然而，简单地将文字元件或图形元件叠放在立体3D视频上并不能产生令人满意的结果，这是因为有可能因传达相互矛盾的深度暗示而使观看者感到混淆。例如，被布置在图像平面上的定时文字框(即，像差为0)会由于负的像差将场景中的观看对象不良地渲染，而对于观看者而言，观看对象本应显现在屏幕前方，结果破坏了立体3D视频场景的组成。

蓝光技术能提供深度控制技术，为避免在立体3D视频、定时文字与定时图形之间的干扰而引入蓝光技术。在蓝光技术规范中定义了针对立体3D视频中的各种定时文字及定时图形格式的两种展示类型。它们分别是a)单一平面加偏移展示类型以及b)立体展示类型。

图10a图示了由蓝光技术定义的单一平面加偏移展示类型的平面叠放模型的实例图示，其中3D显示表面1001构成该单一平面，而3D副标题框1003a及3D选单框1005a为平面框(flat box)，并且其相对于3D显示器1001的位置1007与1009由所谓“偏移值”来界定，此偏移值与像差相关。

在由蓝光技术界定的单一平面加偏移展示类型中，用户可看到距屏幕1001距离为1007和1009的平面对象1003a、1005a，距离1007和1009可由作为信号发出的偏移值来界定。在期望文字框1003a中的文字出现在屏幕1001与用户之间的情况中，被偏移值向右移位的文字框叠放在立体3D视频的左视角上，并且被偏移值向左移位的文字框叠放在立体3D视频的右视角上。偏移元数据是在H.264/MVC附属(即第二)视角视频流的每个画面群组(GOP)的第一个画面的补充强化信息(SEI)中被传输。偏移元数据包括多个偏移序列，并且每种图形类型通过偏移序列id而与该等偏移序列中的一者建立关联。

在由蓝光技术定义的立体表示类型中，定时图形含有两个预先定义的独立框，该两个预先定义的独立框对应于立体3D视频的两个视角。其中一个独立框被叠放在立体3D视频的左视角上，而另一个独立框被叠放在立体3D视频的右视角上。结果，用户可以看到定位在所呈现的场景中定位的3D对象。另外，图形框的距离由作为信号发出的偏移值来界定。

在蓝光技术解决方案中，文字框或图形框的位置由作为信号发出的偏移值来界定，而不管所使用的展示类型如何。图10b图示了由蓝光技术界定的立体展示类型的平面叠放模型的实例图示，其中3D视频屏幕1001构成该单一平面，而3D副标题框1003b及3D选单框1005b为3D框，并且其相对于3D视频屏幕1001的位置1007和1009由作为信号发出的偏移值来界定。

发明内容

本发明及其实施方案的目的旨在提供一种用于在三维(3D)场景中提供显示对象(例如定时文字或定时图形)的显示位置的较灵活的概念方法。

本发明及其实施方案的进一步目的旨在提供一种用于提供显示对象(例如，定时文字或定时图形)的显示位置的概念方法，该方法完全不依赖或至少较少依赖于显示3D场景的目标器件的显示器特性(屏幕大小、分辨率等)，并且/或者完全不依赖或至少较少依赖于观看条件，例如观看距离(即在观看者与显示屏幕之间的距离)。

本发明及其实施方案的进一步目的还包括提供一种通过将深度纳入考量来恰当地布置显示对象，例如定时文字框或定时图形框的概念方法。

上述所有目的或其中之一将通过独立权利要求中的特征来达成。进一步实施形态可从从属权利要求、说明书和附图中清楚地了解。

本发明基于以下发现：通过基于Z值，即相距显示表面的距离来提供定时文字或定时图形框的位置，可基于硬件特性及用户观看距离来计算准确的像差，进而摆脱对于目标器件及观看条件的依赖。

也可使用允许无需像差计算来基于Z值建立立体3D视频的第二视角或多视角3D视频的任何视角的技术。因而，定时文字及定时图形框具有相距显示表面的固定位置，而与硬件特性及观看条件无关。

该3D视频概念方法还通过将不同的位置信息，即所谓Z值指派给该等框的不同区域来在定时文字框及定时图形框的定位过程中提供更多自由。因而，定时文字框及定时图形框并不限于平行地定位在显示表面上。

由于使用了位置信息，可将定时文字框及定时图形框通过变换操作映射到两个以上的视角中。因而，可将此处所述的概念方法应用到具有两个以上视角的3D场景(例如，多视角3D视频)，因此该概念方法并不限于仅有两个视角的3D场景，例如，立体3D视频。

可使用信令来维持显示对象(例如，定时文字及定时图形平面)的预定义深度，而不管显示硬件的特性及观看条件如何。

为了详细描述本发明，将使用以下术语、缩写和符号：

2D:二维。

3D:三维。

AVC:高级视频编码，其定义了AVC文件格式。

MPEG-4：运动图像专家组标准4，其定义了一种用于对音频及视觉(AV)数字数据进行压缩的方法，也被称作MP4格式。

3GPP：第三代移动通信标准化伙伴项目，其定义了3GPP文件格式，也被称作3GP文件格式。

DVB:数字视频广播，其定义了DVB文件格式。

ISO:国际标准化组织。该ISO文件格式规定了一种框层次结构。

mdat:媒体数据，其描述视频或音频文件的一个或多个轨迹。

moov:电影，视频或音频文件的视频及/或音频帧。

定时文字：其指代与音频及视频等的其他媒体同步的文字媒体的展示。定时文字的典型应用包括外语电影的实时字幕、用于帮助听力有障碍的人群的文字说明、滚动新闻或用于电视演说的读词提示机。在MPEG-4第17部分——定时文字中规定了对于MPEG-4电影及手机媒体的定时文字，并且RFC3839及3GPP26.245规定了该定时文字的MIME类型(即互联网媒体类型)。

定时图形：其指代与音频及视频等的其他媒体同步的图形媒体的展示。定时图形由3GPP TS26.430规定。

HTTP:超文本传输协议，由RFC2616定义。

RTP:实时传输协议，由RFC3550定义。

SVG:可缩放矢量图形，一种用于实现定时图形的方法。

DIMS:动态交互式多媒体场景，由3GPP TS26.142定义，为一种用来传输及存储定时图形的协议。

SDP:会话描述协议，由RFC4566定义，为一种被定时图形使用的格式，用来描述流媒体的初始化参数。

SEI:补充强化信息，为一种用来发出关于帧封装的信号的协议。

GOP:画面群组，视频流的多个画面。

术语“可显示(的)对象”用来指代已包含在三维场景中的二维(2D)或三维(3D)对象，以区别于在该3D场景中被添加或被一起显示的额外“显示对象”。术语“可显示(的)”还指示，已存在的可显示对象中的一者或多者在与“显示对象”一起显示时可部分地或全部地被该显示对象覆盖。

根据第一方面，本发明涉及一种用于确定要在三维(3D)场景中显示或连同3D场景一起显示的显示对象的显示位置的方法，该方法包含：提供包含在3D场景中的一个或多个可显示对象相对于显示平面的显示距离；以及根据在该3D场景中的所述一个或多个可显示对象的显示距离来提供包含该显示对象的显示距离的显示位置。

在根据第一方面的方法的第一可能实施形态中，该显示对象为图形对象，确切地说为至少一个定时图形框或一个定时文字框。

在根据第一方面的方法的第二可能实施形态中，或者说根据第一方面的第一实施形态的方法的第二可能实施形态中，显示平面为由显示3D场景的器件的显示表面所确定的平面。

在根据第一方面的方法的第三可能实施形态中，或者说根据第一方面的前述实施形态中任一者的方法的第三可能实施形态中，提供所述一个或多个可显示对象的显示距离的步骤包含确定深度图并根据该深度图来计算显示距离(znear)。

在根据第一方面的方法的第四可能实施形态中，或者说根据第一方面的前述实施形态中任一者的方法的第四可能实施形态中，提供显示位置的步骤包含：提供显示对象的显示距离，以使得所感知的显示对象在连同3D场景一起显示时，较之于3D场景中的任何其他可显示对象，能同等地接近或更接近观看者。

在根据第一方面的方法的第五可能实施形态中，或者说根据第一方面的前述实施形态中任一者的方法的第五可能实施形态中，提供显示对象的显示位置的步骤包含：将该显示对象的显示位置的显示距离确定为，较之于在3D场景中的多个可显示对象中距离观看者的可显示对象的显示距离，与之相等或比其更大。

将该显示对象的显示位置的显示距离确定为某个差值，确切地说，是百分比差，该差值是指在3D场景中的多个可显示对象中距离观看者最远的可显示对象的显示距离与在该3D场景中的该等可显示对象中距离观看者最近的可显示对象的显示距离之间的差值；或

将该显示对象的显示位置的显示距离确定为该显示对象的至少一个边角显示位置，该边角显示位置大于或等于某个显示距离，确切地说，大于或等于在3D场景中的多个可显示对象中距离观看者最近的可显示对象的显示距离。

在根据第一方面的方法的第六可能实施形态中，或者说根据第一方面的前述实施形态中任一者的方法的第六可能实施形态中，提供显示位置的步骤包含：提供该显示对象的显示距离，以使得该显示对象的显示距离(zbox)等于或大于定位在显示平面中与该显示对象相同侧上的任何其他可显示对象的显示距离。

在根据第一方面的方法的第七可能实施形态中，或者说根据第一方面的前述实施形态中任一者的方法的第七可能实施形态中，该方法包含将该显示对象的显示位置连同该显示对象通过通信网络一起传输。

在根据第一方面的方法的第八可能实施形态中，或者说根据第一方面的前述实施形态中任一者的方法的第八可能实施形态中，该方法包含将该显示对象的显示位置连同该显示对象一起存储。

在根据第一方面的方法的第九可能实施形态中，或者说根据第一方面的前述实施形态中任一者的第九可能实施形态中，针对某个3D场景来确定该显示对象的显示位置，并且针对另一个3D场景来确定该显示对象的另一个显示位置。

在根据第一方面的方法的第十可能实施形态中，或者说根据第一方面的前述实施形态中任一者的第十可能实施形态中，该3D场景为3D静止图像，可显示对象为图像对象，显示对象为图形框或文字框。

在根据第一方面的方法的第十一可能实施形态中，或者说根据第一方面的第一至第九实施形态中任一者的第十一可能实施形态中，3D场景为3D视频图像，可显示对象为视频对象，显示对象为定时图形框或定时文字框，其中该3D视频图像为包含在3D视频序列中的多个3D视频图像中之一者。

在根据第一方面的方法的第十二可能实施形态中，或者说根据第一方面的前述实施形态中任一者的方法的第十二可能实施形态中，显示对象及/或可显示对象为2D或3D对象。

根据第二方面，本发明涉及一种用于在三维(3D)场景中显示显示对象或连同3D场景一起显示显示对象的方法，该3D场景包含一个或多个可显示对象，该方法包含：接收该3D场景；接收该显示对象的显示位置，该显示位置包含该显示对象相对于显示平面的显示距离(zbox)；以及在显示该3D场景时在所接收的显示位置处显示该显示对象。

根据第三方面，本发明涉及一种用于确定要在三维(3D)场景中显示或连同该3D场景一起显示的显示对象的显示位置的设备，该设备包含处理器，该处理器用于提供包含在该3D场景中的一个或多个可显示对象相对于显示平面的显示距离；以及

根据在该3D场景中的所述一个或多个可显示对象的显示距离来提供包含该显示对象的显示距离的该显示位置。

在根据第三方面的设备的第一可能实施形态中，该处理器包含：第一提供器，用于提供一个或多个可显示对象相对于该显示平面的显示距离；以及第二提供器，用于根据在该3D场景中的所述一个或多个可显示对象的显示距离来提供该显示对象的显示位置。

根据第四方面，本发明涉及一种用于在三维(3D)场景中显示显示对象或连同该3D场景一起显示该显示对象的设备，该3D场景包含一个或多个可显示对象，该设备包含：接口，用于接收包含所述一个或多个可显示对象的该3D场景，用于接收该显示对象，并且用于接收该显示对象的显示位置，包含该显示对象相对于显示平面的显示距离；以及显示器，用于在显示包含所述一个或多个可显示对象的3D场景时在所接收的显示位置处显示该显示对象。

根据第五方面，本发明涉及一种具有程序代码计算机程序，所述程序代码用于在计算机上执行时执行根据第一方面的方法，或者说根据第一方面的前述实施形态中任一者的方法，或者说根据第二方面的方法。

本文描述的方法可实施为数字信号处理器(DSP)、微控制器或任何其他边处理器中的软件或实施为专用集成电路(ASIC)内的硬件电路。

本发明可在数字电子电路中或在计算机硬件、固件、软件中或在其组合中实施。

附图说明

本发明的其他实施例将围绕以下附图进行描述，其中：

图1图示根据某实施形态的用于在三维场景中确定显示对象的显示位置的方法的示意图；

图2图示根据某实施形态的用于在三维场景中确定显示对象的显示位置的平面叠放模型的示意图；

图3图示根据某实施形态的用于在三维场景中确定显示对象的显示位置的方法的示意图；

图4图示根据某实施形态的用于在三维场景中显示显示对象的方法的示意图；

图5图示根据某实施形态的用于在三维场景中显示显示对象的方法的示意图；

图6图示根据某实施形态的用于在三维场景中确定显示对象的显示位置的设备的方框图；

图7图示根据某实施形态的用于在三维场景中显示显示对象的设备的方框图；

图8图示根据ISO基媒体文件格式的ISO文件的简化结构的方框图；

图9图示在2D座标系中由3GPP定时文字定义的文字呈现位置及组成的示意图；

图10a图示由蓝光技术定义的单一平面加偏移展示类型的平面叠放模型的示意图；以及

图10b图示由蓝光技术定义的立体展示类型的平面叠放模型的另一个示意图。

具体实施方式

在描述本发明实施例的细节之前，将围绕现有技术来描述进一步的发现，以便更好地理解本发明。如之前提到，将观看对象或像素从左视角到右视角的位移称为像差(disparity)。该像差与所呈现的视频场景中的感知深度成比例，其被作为信号发出并被用来建立3D印象。

但是，观看者所感知到的深度还取决于显示器特性(屏幕大小、像素密度)、观看距离(在观看者与显示图像的屏幕之间的距离)以及观看者的先天条件(如观看者的瞳孔间距离)。在观看者所感知到的深度、像差与显示器特性(即显示器大小及显示分辨率)之间的关系可如下计算：

D = \frac{v}{\frac{1}{s_{D} * d} - 1} - - - (1)

其中D为所感知的3D深度，V为观看距离，I为观看者的瞳孔间距离，s_D为屏幕的(水平维度中的)显示像素间距，而d为像差。

从方程式(1)中可看出，在蓝光技术解决方案中，最终所感知的深度(即3D对象相距3D显示器1001的距离1007、1009)并不仅仅取决于偏移值(其等于像差值的一半)，还和显示器1001的特性(屏幕大小及分辨率)以及观看距离有关。但是，在蓝光技术解决方案中提供的偏移值必须在尚未完全知晓目标器件和观看条件的情况下提前设置。正因为此，感知深度随不同器件而变化，这是因为其依赖于观看条件。另外，蓝光技术解决方案限制了将文字框1003b或图形框1005b定位为平行于屏幕1001的2D表面的定位过程的自由。结果，使得不可能将图形或文字加入立体3D视频中。最终，蓝光技术解决方案受限于立体3D视频，并且不能解决在多视角3D视频中如何布置文字框或图形框的问题。

图1图示根据某实施形态的用于确定在3D场景中的显示对象的显示位置的方法100的示意图。方法100用于根据在3D场景中的一个或多个可显示对象来确定要与该3D场景一起显示的显示对象的显示位置x,y,z。方法100包含：提供(101)在3D场景中的所述一个或多个可显示对象相对于显示平面的显示距离；以及根据在该3D场景中的所述一个或多个可显示对象的显示距离来提供(103)包含该显示对象的显示距离的显示位置x,y,z。

该显示位置是指三维座标系中的位置，其中x表示x轴上的位置，y表示y轴上的位置，而z表示z轴上的位置。将围绕图2来解释可能的座标系。该显示对象及该等可显示对象是指要在器件的显示表面上显示的对象。该显示器件可为，例如含对应显示器或屏幕的具有3D显示能力的电视机或监视器，或是3D移动终端，或是含对应显示器或屏幕的任何其他便携式器件。

该显示对象可为图形对象。在静止图像的实施方案中，该3D场景可为3D静止图像，该等可显示对象可为2D或3D图像对象，该显示对象可为2D或3D图形框，或是2D或3D文字框。在视频的实施方案中，该3D场景可为3D视频图像，该等可显示对象可为2D或3D视频对象，该显示对象可为2D或3D定时图形框，或是定时文字框。

定时文字指代与音频及视频等的其他媒体同步的文字媒体的展示。定时文字的典型应用包括外语电影的实时字幕、用于帮助听力有障碍的人群的文字说明、滚动新闻或用于电视演说的读词提示机。在MPEG-4第17部分——定时文字中规定了对于MPEG-4电影及手机媒体的定时文字，并且RFC3839及3GPP26.245规定了该定时文字的MIME类型(即互联网媒体类型)。

定时图形指代与音频及视频等的其他媒体同步的图形媒体的展示。定时图形由3GPP TS26.430规定。该视频对象为在电影中展示的观看对象，例如人物，或是物件，诸如汽车、花朵、房屋、球或其他。该视频对象处于移动状态中，或是具有固定位置。该3D视频序列包含多个视频对象。该3D场景可包含一个或多个视频对象、定时文字对象、定时图形对象或该等对象的组合。

该显示平面为显示显示对象的参考平面，例如，屏幕、监视器、工业显示屏或任何其他种类的显示器。该显示距离为该显示对象相对于座标系的z轴距该显示平面的距离。由于显示对象具有相距显示平面的距离，所以能给观看者带来3D效果。在实施形态中，座标系的原点位于显示器表面的左上角。

图2图示根据某实施形态的用于在三维座标系中确定显示对象的显示位置的平面叠放模型200的示意图。

可显示对象或该显示对象的显示位置是在三维座标系中定义的，其中x表示x轴上的位置，y表示y轴上的位置，而z表示z轴上的位置，如图2所示。该显示平面是由x轴及y轴定义的，其构成了用于定义可显示对象或显示对象在z方向中的显示距离的参考平面。该显示平面可被界定为对应于显示3D场景的器件的物理显示表面，或对应于与显示3D场景的器件的物理显示表面平行的任何其他平面。

在图2中所示的座标系中，座标系的原点处于显示表面的左上角。x轴平行于显示表面，其方向朝向显示表面的右上角。y轴平行于显示表面，其方向朝向显示表面的左下角。z轴垂直于显示表面，其方向朝向观看者，即正z轴的方向，也就是说，z值为零的可显示对象或显示对象定位在显示平面上，z值大于零的可显示对象或显示对象定位在或显示在显示平面前方，并且对于观看者而言，z值越大，则所感知到的可显示对象或显示对象越接近于观看者。z值小于零(即负z值)的可显示对象或显示对象定位在或显示在显示平面后方，并且对于观看者而言，z值越小，所感知到的可显示对象或显示对象越远离于观看者。

图2中的平面叠放模型200在视频平面201上叠放图形平面205(例如定时图形框)及文字平面203(例如定时文字框)。

在其中布置文字元件或图形元件的定时文字框203或定时图形框205被准确地定位在3D场景中。

尽管图2涉及含视频平面的3D视频实施方案，但是也可将相同的平面叠放模型200应用到3D静止图像，参考数字201接下来仍指代图像平面，但总体上也可指代任何种类的3D场景。参考数字201接下来将指代任何显示平面。

图2中示出的座标系仅为其中一种可能的座标系，也可以使用其他座标系来实施本发明的实施例，确切地说，这些其他座标系是指原点定义不同，并且正值方向不同的其他笛卡尔座标系。

图3图示根据某实施形态的用于在三维场景中确定显示对象的显示位置的方法300的示意图。图3示例性地图示了用于在3D视频图像或3D视频场景中确定定时文字及/或定时图形对象的显示位置的方法300的示意图。

方法300用于确定在包含多个可显示对象的3D场景301中要显示的显示对象303(例如，定时文字对象或定时图形对象)的显示位置x,y,z。方法300包含：提供3D场景(例如3D视频301)，并提供定时文字及/或定时图形对象303。方法300进一步包含：确定(305)该3D场景(例如，3D视频301)的深度信息，在针对定时文字及/或定时图形的3D座标系中设置(307)定时文字及/或定时图形对象303的位置，并产生对应的信令数据。方法300进一步包含：存储及/或传输(309)3D场景外加定时文字及/或定时图形的位置，连同定时文字及/或定时图形自身。

尽管图3涉及以3D视频作为3D场景并以定时文字及/或定时图形对象作为显示对象的3D视频实施方案，也可将相同的方法应用到3D静止图像，参考数字301此时将指代3D静止图像，参考数字303此时将指代文字及/或图形对象，步骤305将指代确定3D静止图像的深度信息，步骤307将指代在3D座标系中设置文字及/或图形对象303的位置，而步骤309将指代存储及/或传输3D静止图像外加文字及/或图形的位置，连同文字及/或图形自身。

换言之，图3描绘了特定的视频实施方案，但是也可将相同的方法应用到更广泛的3D场景中，参考数字301此时将指代3D场景，参考数字303此时将指代显示对象，步骤305将指代确定3D场景的深度信息，步骤307将指代在3D座标系中设置显示对象303的位置，步骤309将指代存储及/或传输该3D场景外加显示对象的位置，连同显示对象自身。

确定(305)3D场景(例如3D视频301)的深度信息的步骤可对应于围绕图1描述的提供(101)一个或多个可显示对象相对于显示平面的显示距离的步骤。

在3D座标系中针对定时文字及/或定时图形设置位置(307)深度并产生信令数据的步骤可对应于围绕图1描述的根据在3D场景中的所述一个或多个可显示对象的显示距离来提供(103)显示对象的显示位置x,y,z的步骤。

在第一实施形态中，根据步骤307作出的定时文字及定时图形的3D布置如下。提取或估计Z_near，其为最接近3D场景的观看者的可显示对象的显示位置的显示距离。Z_box是定时文字对象或定时图形对象(或统称为显示对象)的显示位置在z维度中的显示距离，较之于3D场景(例如，3D视频301)中的最接近观看者的可显示对象，将Z_box设置为比其更接近观看者，即Z_box>Z_near。Z_box及Z_near为如图2所示的座标系的z轴座标。

在第一实施形态的实施例中，将如下确定Z_near：

首先找到在3D视频的左视角及右视角中的相同特征，该过程被称作对应(correspondence)。此步骤的输出为视差图，其中该等视差为在左视角与右视角中的相同特征的图像平面上的x座标之间的差。x_l–x_r。其中x_l和x_r分别为该特征在左视角与右视角中的x座标的位置。通过使用用于拍摄3D视频的相机的几何排列信息来将视差图转化成距离，即深度图。或者，若已知产生3D视频的目标屏幕大小及观看距离，则可通过使用上述方程式(1)来计算深度图。Z_near值提取自深度图数据。Z_near为如图2所示座标系的z轴座标，x_l与x_r为x轴座标。

在第一实施形态的实施例中，3D视频的文件格式含有关于在空间中相邻的视角之间的最大视差的信息。在ISO/IEC14496-15的信息技术——音频及视觉对象的编码——第15部分：“高级视频编码(AVC)文件格式”(2010年6月)中，对含有此类信息的框(“vwdi”)进行了说明。使用作为信号发出的视差来提取在给定场景中的最大深度。

在第二实施形态中，根据步骤307的定时文字对象或定时图形对象(或统称为显示对象)的3D布置如下：提取或估计Z_near，其为最接近3D场景(例如3D视频301)的观看者的可显示对象的显示位置的显示距离。提取或估计Z_far，其为最远离3D场景(例如3D视频301)的观看者的可显示对象的显示位置的显示距离。Z_box是定时文字对象或定时图形对象(或统称为显示对象)的显示位置在z维度中的显示距离，其由Z_percent来表示，Z_percent为3D场景(例如，3D视频301)的距离差Z_far-Z_near的百分比。Z_near、Z_box及Z_far为如图2所示的座标系的z轴座标。

在第三实施形态中，根据步骤307的定时文字对象及定时图形对象(或统称为显示对象)的3D布置如下：给框的每个边角(Z_{corner_top_left}、Z_{corner_top_right}、Z_{corner_bottom_left}、Z_{corner_bottom_right})指派独立的Z值，其中对于每个边角而言，Z_corrner>Z_near，其中仅对给定边角的区域估计Z_near。Z_{corner_top_left}、Z_{corner_top_right}、Z_{corner_bottom_left}及Z_{corner_bottom_right}为如图2所示的座标系的z轴座标。

在第三实施形态的实施例中，通过规定新的类3DRecord和新的文字类型框“3dtt”，将作为定时文字对象或显示对象的实施方案的定时文字框的Z_corner值按照3GPP文件格式作为信号发出，新的类3DRecord和新的文字类型框“3dtt”如下：

其中，

startChar为此类型的应用周期的开始时的字符偏移(在样本描述中总为0)，

endChar为不再应用此类型时的第一个字符偏移(在样本描述中总为0)，并且endChar应大于或等于startChar。所有字符，包括换行符以及任何其他非印刷类字符，均包括在字符计数中；top-left、top-right、bottom-left及bottom-right为边角的(x,y,z)座标；正z值指示屏幕前方的位置，即距观看者较近处，负z值指示屏幕后方的位置，即距观看者较远处；

其中，

“3dtt”规定了文字位置的3D座标。其由一系列如上定义的3D记录组成，前面加有3D记录的数目的16位计数。每项记录规定了应用该类型的文字的开始字符位置及结束字符位置。这些3D记录会根据开始字符偏移来排序，其中任一3D记录的开始偏移应大于或等于前一个记录的结束字符偏移；3D记录不应与其字符范围重叠。

在第三实施形态的实施例中，根据步骤307的定时文字对象及/或定时图形框(或统称为显示对象)的布置如下：通过规定新的文字类型框“3dtg”，将定时图形框(或统称为显示对象)的Z_corner值按照3GPP文件格式作为信号发出，新的文字类型框“3dtg”如下：

其中，

top-left、top-right、bottom-left及bottom-right为边角的(x,y,z)座标。正z值指示屏幕前方的位置，即距观看者较近处；负z值指示屏幕后方的位置，即距观看者较远处。

在第四实施形态中，根据步骤307的定时文字对象或定时图形对象(或统称为显示对象)的布置如下：可变的文字框及/或图形框是基于以下内容的信令来实现的，包括在3D空间或3D场景中的框的一个边角(通常为左上角)的位置(x,y,z)、该框的宽度及高度(width,height)，以及旋转(alpha_x,alpha_y,alpha_z)及平移(trans_x,trans_y)运算。终端机接着通过使用旋转矩阵Rx*Ry*Rz来计算3D空间中的框的所有边角的位置，其中

Rx＝{100；0cos(alpha_x)sin(alpha_x)；0–sin(alpha_x)cos(alpha_x)}

Ry＝{cos(alpha_y)0–sin(alpha_y)；010；sin(alpha_y)0cos(alpha_y)}

Rz＝{cos(alpha_z)sin(alpha_z)0；-sin(alpha_z)cos(alpha_z)0；001}

并加入平移矢量(trans_x,trans_y,0)。为存储及传输此类信息，按照与第三实施方案的实施例的描述相似的方式来产生例如3GP文件格式的ISO基媒体文件格式的新框及新类。

图4图示根据某实施形态的用于连同3D场景一起来显示显示对象的方法400的示意图。

方法400用于在连同包含在3D场景中的一个或多个可显示对象一起显示时在3D场景中的某显示位置处显示要显示的显示对象。方法400包含：接收该3D场景，其包含一个或多个可显示对象；接收(401)该显示对象；接收(403)显示位置x,y,z，包含该显示对象相对于显示平面的显示距离；以及在显示该3D场景时，在所接收到的显示位置x,y,z处显示(405)该显示对象，并连同该3D场景的一个或多个可显示对象一起显示。该显示对象可对应于围绕图3描述的定时文字对象或定时图形对象303。

在围绕图3描述的第一至第四实施形态中，执行了投影操作，以将该框投影到3D场景的目标视角上(例如，立体3D视频的左视角及右视角)。此投影变换是基于以下方程式执行的(或该方程式的任何变体，包括座标系的调整)：

s^{'} (x, y) = s (cx + (x - cx) \frac{v_{x}}{v_{x - z}}, cy + (y - cy) \frac{v_{y}}{v_{y - z}})

其中v_x及v_y表示与观看距离相乘后的在水平及垂直方向中的像素大小，cx和cy表示投影中心的座标。

图5图示根据某实施形态的用于在3D场景中显示显示对象的方法500的示意图。图5示例性地图示了用于在3D视频图像或3D视频场景中显示定时文字及/或定时图形对象的方法500的示意图。

尽管图5涉及以3D视频作为3D场景及/或以定时文字及定时图形对象作为显示对象的3D视频实施方案，仍可将相同方法应用到3D静止图像以及文字及/或图形对象，或者说可应用到更广泛的3D场景及显示对象。

方法500用于在三维场景中在所接收的显示位置x,y,z处显示要显示的显示对象。方法500包含：打开/接收(501)多媒体数据及信令数据；将定时文字对象及/或定时图形对象布置(503)在所接收的显示位置x,y,z的3D座标；产生(505)计时文字及计时图形的视图；对该3D视频进行解码(511)；将定时文字及/或定时图形的视图叠放(507)在经解码的3D视频上；最后显示(509)。

打开/接收(501)多媒体数据及信令数据的步骤可对应于围绕图4描述的接收(401)显示对象的步骤。将显示对象布置(503)在相应3D座标的步骤及产生(505)显示对象的视图的步骤可对应于围绕图4描述的接收(403)显示对象的显示位置的步骤。将定时文字及/或定时图形对象的视图叠放(507)在3D视频上及显示(509)的步骤可对应于围绕图4描述的在显示3D场景中的所述一个或多个可显示对象时在相应显示位置处显示(405)该显示对象的步骤。

在接收器或解码器侧，根据步骤501来分析信令信息。根据步骤503，基于该信令信息来将定时文字对象及/或定时图形对象投影到3D座标空间。在下一步骤505中，通过变换操作将定时文字对象及/或定时图形对象投影到3D场景的视角中。终端机接着根据步骤507来将定时文字视图及/或定时图形视图叠放在3D场景的视图上，在步骤509中这些内容将显示到终端机的屏幕上。图5中，参考数字503所在的说明为定时文字对象及/或定时图形对象的座标的计算，参考数字505所在的说明为在解码器侧的处理链中产生定时文字及定时图形的对应视图。

图6图示了根据某实施形态的设备600的的方框图。设备600用于在包含多个可显示对象的三维(3D)场景中确定要在3D场景中显示的显示对象的显示位置x,y,z，显示对象例如围绕图3描述的显示对象303，显示位置例如围绕图3描述的某可显示对象301的前方。设备600包含处理器601，处理器601用于提供3D场景中的一个或多个可显示对象相对于显示平面的显示距离z，以及根据该3D场景中的所述一个或多个可显示对象的显示距离z来提供该显示位置x,y,z，其中包含相对于显示对象的显示平面的显示距离z。

处理器601包含：第一提供器603，用于提供3D场景中的一个或多个可显示对象相对于显示平面的显示距离z；以及第二提供器605，用于根据该3D场景中的所述一个或多个可显示对象的显示距离z来提供该显示位置x,y,z，其中包含相对于显示对象的显示平面的显示距离z。

图7图示了根据某实施形态的设备700的的方框图。设备700用于在3D场景中显示或连同3D场景来一起显示要显示的显示对象，该显示对象例如围绕图3描述的显示对象303，该3D场景例如围绕图3描述的3D视频301，该3D场景包含多个可显示对象。设备700包含：接口701，用于接收该显示对象及用于接收该显示对象的显示位置x,y,z，包含相距显示平面的距离，例如恒定距离；以及显示器703，用于在显示在该3D场景中的一个或多个可显示对象时，在所接收的显示位置x,y,z处显示该显示对象。

通过阅读以上内容，所属领域的技术人员将清楚地了解，可提供多种方法、系统、记录媒体上的计算机程序及其类似者。

本发明还支持包含计算机可执行代码或计算机可执行指令的计算机程序产品，这些计算机可执行代码或计算机可执行指令在执行时使得至少一台计算机执行本文所述的执行及计算步骤。

本发明还支持经配置成执行本文所述的执行及计算步骤的系统。

通过以上教示，所属领域的技术人员将易于想到许多其他的替代产品、修改及变体。显然，所属领域的技术人员易于想到，除了本文所述的应用之外，还存在本发明的众多其他应用。虽然已参考一个或多个特定实施例描述了本发明，但是所属领域的技术人员将认识到，在不偏离本发明的精神及范畴的前提下，仍可对本发明作出许多改变。因此，应理解，只要是在所附权利要求书及其等效文句的范围内，那么也可以用不同于本文具体描述的方式来实践本发明。

Claims

1.一种用于确定要连同三维(3D)场景一起显示的显示对象(303)的显示位置(x,y,z)的方法(100、300)，所述方法(100、300)包含：

提供(101、305)包含在所述3D场景中的一个或多个可显示对象相对于显示平面(201)的显示距离(znear)；以及

根据在所述3D场景中的所述一个或多个可显示对象的所述显示距离(znear)来提供(103、307)所述显示位置(x,y,z)，其中包含所述显示对象(303)的显示距离(zbox)。

2.根据权利要求1所述的方法(100、300)，其中所述显示对象(303)为图形对象，或者

其中所述3D场景为3D静止图像，所述可显示对象为图像对象，所述显示对象(303)为图形框或文字框，或者

其中所述3D场景为3D视频图像，所述可显示对象为视频对象，所述显示对象为定时图形框或定时文字框，并且

其中所述显示对象及/或所述可显示对象为2D或3D对象。

3.根据权利要求1或2所述的方法(100、300)，其中所述显示平面(201)为由用于显示所述3D场景的器件的显示表面所确定的平面。

4.根据前述权利要求中任一权利要求所述的方法(100、300)，其中提供(101、305)所述一个或多个可显示对象的所述显示距离(znear)的步骤包含确定深度图并通过所述深度图计算所述显示距离(znear)。

5.根据前述权利要求中任一权利要求所述的方法(100、300)，其中提供(103、307)所述显示位置的步骤包含：

提供所述显示对象(303)的所述显示距离(zbox)，以使得所感知的所述显示对象在连同所述3D场景一起显示时，较之于所述3D场景中的任何其他可显示对象，能同等地接近或更接近观看者。

6.根据前述权利要求中任一权利要求所述的方法(100、300)，其中提供(103、307)所述显示位置的步骤包含：

提供所述显示对象(303)的所述显示距离(zbox)，以使得所述显示对象的所述显示距离(zbox)等于或大于定位在所述显示平面中与所述显示对象相同侧上的任何其他可显示对象的所述显示距离。

7.根据前述权利要求中任一权利要求所述的方法(100、300)，其中提供(103、307)所述显示对象(303)的所述显示位置(x,y,z)的步骤包含：

将所述显示对象的所述显示位置的所述显示距离(zbox)确定为等于或大于某个特定的可显示对象的显示距离(znear)，所述特定的可显示对象是指在所述3D场景中的所述多个可显示对象中距离最接近观看者的那一个；或

将所述显示对象的所述显示位置(x,y,z)的所述显示距离确定为差，确切地说是百分比差，所述差是指在所述3D场景中的所述多个可显示对象中距离观看者最远的可显示对象(301)的显示距离(z)与在所述3D场景中的所述可显示对象中距离观看者最近的另一个可显示对象之间的差；或

将所述显示对象的所述显示位置(x,y,z)的所述显示距离确定为所述显示对象(303)的至少一个边角显示位置，所述边角显示位置大于或等于所述显示距离(z)，确切地说，大于或等于在所述3D场景中的所述多个可显示对象中距离观看者最近的所述可显示对象(301)的所述显示距离(z)。

8.根据前述权利要求中任一权利要求所述的方法(100、300)，其中所述方法包含确定所述显示对象的所述显示位置，以使得所述显示对象显示在包含在所述3D场景中的某个可显示对象的前方，

其中提供(101、305)包含在所述3D场景中的一个或多个可显示对象相对于显示平面(201)的所述显示距离(znear)的步骤包含：

提供(101、305)所述某个可显示对象的所述显示距离；并且

其中根据在所述3D场景中的所述一个或多个可显示对象的所述显示距离(znear)来提供(103、307)包含所述显示对象(303)的所述显示距离(zbox)的所述显示位置(x,y,z)的步骤包含：

根据所述某个可显示对象的所述显示距离(znear)来提供(103、307)所述显示对象(303)的所述显示距离(zbox)。

9.根据前述权利要求中任一权利要求所述的方法(100、300)，其包含：

将所述显示对象(303)的所述显示位置(x,y,z)连同所述显示对象(303)一起通过通信网络传输，或将所述显示对象(303)的所述显示位置(x,y,z)连同所述显示对象(303)一起存储。

10.根据前述权利要求中任一权利要求所述的方法(100、300)，其中针对某个3D场景来确定所述显示对象(303)的所述显示位置(x,y,z)，并且其中针对另一个3D场景来确定所述显示对象(303)的另一个显示位置。

11.用于将显示对象连同包含一个或多个可显示对象的三维(3D)场景来一起显示的方法(400、500)，所述方法包含：

接收(401、501)所述3D场景(301)；

接收(403、503)所述显示对象(303)的显示位置(x,y,z)，包含所述显示对象(303)相对于显示平面的显示距离(zbox)；以及

在显示(509)所述3D场景时在所述所接收的显示位置(x,y,z)处显示(405、507)所述显示对象(303)。

12.一种用于确定要连同三维(3D)场景一起显示的显示对象(303)的显示位置(x,y,z)的设备(600)，所述设备(600)包含处理器(601)，所述处理器(601)用于：

提供(603)包含在所述3D场景中的一个或多个可显示对象相对于显示平面(201)的显示距离(znear)；以及

根据在所述3D场景中的所述一个或多个可显示对象的所述显示距离(znear)来提供(605)所述显示位置(x,y,z)，其中包含所述显示对象(303)的显示距离(zbox)。

13.根据权利要求12所述的设备(600)，其中所述处理器(601)包含用于提供(603)一个或多个可显示对象相对于所述显示平面(201)的所述显示距离(z)的第一提供器，以及用于根据在所述3D场景中的所述一个或多个可显示对象的所述显示距离(z)来提供(605)所述显示对象(303)的所述显示位置(x,y,z)的第二提供器。

14.一种用于将显示对象(303)连同包含一个或多个可显示对象的三维(3D)场景来一起显示的设备(700)，所述设备(700)包含：

接口(701)，用于接收包含所述一个或多个可显示对象的所述3D场景，用于接收所述显示对象(303)，并且用于接收所述显示对象(303)的显示位置(x,y,z)，其中包含所述显示对象(303)相对于显示平面的显示距离(zbox)；及

显示器(703)，用于在显示包含所述一个或多个可显示对象的所述3D场景时在所接收的显示位置(x,y,z)处显示所述显示对象(303)。

15.一种具有程序代码的计算机程序，其中程序代码用于在计算机上执行时执行根据权利要求1至10中任一项权利要求所述的方法(100、300)及/或根据权利要求11所述的方法(400、500)。