CN102292993B

CN102292993B - 三维字幕显示方法以及用于实现该方法的三维显示装置

Info

Publication number: CN102292993B
Application number: CN201080004897.5A
Authority: CN
Inventors: 徐琮烈; 金镇泌; 宋在炯; 洪昊泽
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2009-01-20
Filing date: 2010-01-19
Publication date: 2015-05-13
Anticipated expiration: 2030-01-19
Also published as: WO2010085074A3; WO2010085074A2; EP2389767A2; CN102292993A; EP2389767A4

Abstract

公开了一种在3D显示装置中三维(3D)字幕的显示方法以显示字幕以便字幕自然地与3D图像相融合。在一种用于在3D显示装置中显示三维(3D)字幕的方法中，接收3D图像信号、字幕数据、关于所述字幕数据的与深度相关的信息、和用于定义所述字幕数据的显示区域的3D区域组合信息。采用接收到的与深度相关的信息和所述3D区域组合信息将所述字幕数据形成为三维形式的，而所述3D图像信号连同所形成的字幕数据一起被显示。

Description

三维字幕显示方法以及用于实现该方法的三维显示装置

技术领域

本发明涉及三维字幕显示方法以及用于实现该方法的三维显示装置。

背景技术

为在屏幕上显示关于广播节目的文本信息(例如，字幕、隐藏字幕等)，可以通过将文本信息(例如，字幕)包含在广播信号本身中来生成广播节目并将文本信息与节目一起发送，或者可以将没有同广播信号相集成的文本信息(字幕)单独发送以使得广播接收器有选择地显示这种字幕。所谓的隐藏字幕广播可以向观看者显示语音转文本输出、歌词、电影剧本翻译、网上TV指南信息、紧急广播数据和其他文本类型的业务。近来，由于隐藏字幕广播在多媒体存取权限方面倾向于为有限地必选项并提供综合业务，故而其应用预计将会急剧增加。

具体来说，根据ETSI(欧洲电信标准协会)所规定的DVB(数字视频广播)标准，额外提供至接收器的辅助图像可以包括除简单文本以外的图形元素，以增强对辅助图像的利用(参见关于DVB系统业务信息标准的‘ETSI EN 300468V1.9.1’标准和关于DVB字幕系统的‘ETSI EN 300743V 1.2.1’与‘ETSI EN 300743V 1.3.1’标准等)。在这些标准中，这些包括文本和/或图形元素的辅助图像称为“字幕”，而最近，涉及到图像显示装置和DVB技术中术语“字幕(subtitles)”得到更加普遍的使用。这里，术语‘字幕编辑(subtitliing)’用来表示用于显示字幕(和/或其他文本的信息)的整体处理。

同时，电视技术的发展已经达到实现用于显示立体图像(或三维(3D)图像)的装置的水平，并且具体来说，完全商业化的立体类型的3D电视正在研发过程中。在立体3D显示系统中，通过相隔大约65毫米的两个图像传感器来获取两幅图像，该间隔距离模拟了人的双眼的定位，并接着作为广播信号将该两幅图像发送至接收器。接下来，接收器生成待由观看者的左眼和右眼观看的两幅图像，从而来模拟双目视差以实现深度感觉和立体视觉。

当希望在立体类型3D电视(或其他类型的三维显示装置)中实现字幕(文本的信息等)时，也应该实现具有3D效果的字幕数据(或者关于字幕或文本的其他信息)以便最小化该3D图像的整体图像质量的劣化程度。例如可以通过在交替显示的左图和右图上同时显示该字幕来实现连同字幕的立体3D图像。但是，在实践中很难在技术上实现对具有3D效果的字幕的处理和显示。

发明内容

解决问题的方案

在规定DVB技术的上述技术标准中定义了涉及传输这种字幕信息的技术细节。但是，在这些标准所定义的内容仅仅适用于传输关于普通2D电视的字幕数据，而不适用于传输所谓的3D电视信号。如果所谓的三维(3D)字幕数据计划根据上述标准来传输，则必须传输与用来实现3D图像的一对图像相对应的额外的字幕数据(或信息)，然而这导致需要被处理的至少两倍信息量，因此引起在信号处理、信号发送和信号接收中的资源低效使用的问题。

可以考虑这样一种方法，在该方法中，广播站传输2D字幕图像数据而接收器本身基于所接收到的2D字幕数据呈现所希望的3D字幕图像，但是正确地定义并呈现关于持续地输入的字幕的多种3D属性(例如，文字/字幕文本的厚度和立体色彩、文字/字幕文本显示区域的色彩和透明度等)会显著地增加接收器的运算负担。也可以考虑这样一种方法，在该方法中，接收器事先确定待无差别地应用于字幕的3D属性并根据该固定的3D属性对该字幕执行3D呈现。在这种情况下，虽然运算负担可以在一定程度上减小，但是所显示的3D字幕的美学性质可能会劣化，因此所显示的3D字幕不满足观看者的需要。

因此，存在一种开发用于在以一种有效的方式使用有限的带宽资源并最小化在接收器处地运算负担的同时、以最小的图像劣化有效地显示与接收器中的3D图像相对应的所谓的三维字幕(或其他文本形式的信息)的方法的需求。

本发明人认识到上面所指出的需求和缺陷，并基于对这样问题的认识构想出以下所描述的各种特征。因此，开发了一种如通过以下实施方式所描述的用于有效地显示3D图像和信息的方法，该方法使得字幕和其他文本形式的信息有效地同3D图像融合以便该字幕适当地对应于该3D图像。

这里的实施方式的另外一个方面提供了一种适合于实现这样的显示方法的3D显示装置。

为了实现上述技术方面，提供一种用于在三维(3D)显示装置中显示3D字幕的方法，其中接收三维图像信号、字幕数据、关于所述字幕数据的与深度相关的信息、和用于定义所述字幕的显示区域的三维区域组合信息。接着，利用接收到的与深度相关的信息和所述三维区域组合信息将所述字幕数据形成(例如，生成、合成、产生等)为三维字幕数据。接下来，将所述三维图像信号与所形成的字幕数据一起显示。

经由广播信号接收所述三维图像信号、所述字幕数据、所述与深度相关的信息和所述三维区域组合信息。

根据此后所描述的实施方式，由于所述图像信号和字幕(文本)数据可以按照像素来表示，因此所述与深度相关的信息也可以按照像素来进行处理。

在一个示例性实施方式中，所述3D字幕显示方法还可以包括生成用于存储伪深度信息与真实深度信息之间的相互关系的深度值查找表。在这种情况下，将所述与深度相关的信息表示为关于每个像素的伪深度信息，并且在显示步骤中，参考所述深度值查找表将所述伪深度信息转换为所述真实深度信息。同时在这个实施方式中，在所述广播信号中可以包括用于生成或更新所述深度值查找表的查找表定义信息。作为其修改例，显示装置可以预存储所述深度值查找表以备以后使用。

在一个实施方式中，关于像素的所述真实深度信息可以是针对所述像素在前向/后向方向上的深度值。这里，所述“前向/后向方向”可以指的是相对垂直于所述接收器的显示装置的显示屏幕的方向。所述查找表定义信息可以指示针对所述伪深度信息的放大率和接收器的显示屏幕之间的相互关系，并且根据所述查找表定义信息，所述深度值查找表可以被生成以指示所述伪深度信息与所述真实深度信息之间的相互关系。同时，在一种不同的实施方式中，所述真实深度信息可以是关于所述像素的水平差异值。

在另外一个实施方式中，可以以字幕对象为单位接收所述字幕数据，而所述字幕对象可以包括字符、字符串或图形元素。所述字幕数据的显示区域可以以字幕对象为单位设置。所述显示区域可以是通过在诸如DVB标准下在前向/后向方向上延伸对象区域而获取的3D对象空间。同时，所述字幕数据的所述显示区域可以被设置为包括多个字幕对象。这个显示区域可以是通过在诸如DVB标准下在前向/后向方向上延伸页而获取的3D页空间。

另外，提供一种包含广播信号接收单元和组合与输出单元的3D显示装置。所述广播信号接收单元可以接收广播信号，并对所述广播信号进行解调和解码，该广播信号包括三维图像信号、字幕数据、关于字幕的与深度相关的信息、和用于定义所述字幕数据的显示区域的三维区域组合信息。所述组合与输出单元可以采用所述与深度相关的信息和所述3D区域组合信息将所述字幕数据形成(例如，生成、合成、产生等)是三维字幕数据，并将所述3D图像连同被形成为三维字幕数据的字幕数据一起显示。

所述3D显示装置还可以包括存储器，其用于存储指示伪深度信息与真实深度信息之间的相互关系的深度值查找表。包括在所述广播信号中的所述与深度相关的信息可以被表示为关于每个像素的伪深度信息。在这种情况下，所述组合与输出单元可以参考所述深度值查找表将所述伪深度信息转换为真实深度信息并基于所述真实深度信息来配置所述字幕数据。

在该示例性实施方式中，字幕(也可以是其他类型的文本形式的信息)可以被显示为具有特定的诸如立体效果或三维效果的视觉效果，以便在不显著增加为在电视接收器处执行3D呈现所需的运算负担的情况下使字幕可以对应于3D图像。因此，所述字幕的实用性和视觉吸引力可以极大地增强。而且，基于那些应用于现有字幕信号发送和接收技术的技术标准，可以补充并提供其他参数以描述3D字幕显示区域、深度信息等，因此可以实现同特定的现有技术标准的向后兼容性。

附图说明

图1例示了根据一个示例性实施方式的广播系统的示意框图；

图2例示了字幕编辑描述符的示例性语法；

图3例示了向在图2的字幕编辑描述符中的字幕编辑类型字段分配特定字段值的一个示例；

图4例示了通常的字幕包数据的语法；

图5例示了根据一个示例性实施方式的字幕段的一些示例性类型；

图6例示了字幕编辑段的公共语法的一种示例性结构；

图7例示了3D显示定义段(3D_DDS)语法的一种示例性结构；

图8例示了3D页组合段(3D_PCS)语法的一种示例性结构；

图9例示了3D区域组合段(3D_RCS)语法的一种示例性结构；

图10例示了根据一个示例性实施方式的在实现3D字幕编辑时所定义的对象区域空间的示例性尺寸和参考点坐标；

图11和12例示了3D对象数据段(3D_ODS)语法的示例性结构；

图13例示了用于定义深度值查找表(DVLUT：depth value loop-up table)的DVLUT定义段(DVLUTDS：depth value loop-up table definition segment)的语法的一种示例性结构；

图14例示了DVLUT的结构的一种示例；

图15例示了DVLUT的结构的另一个示例；

图16是根据一个示例性实施方式的电视接收器的示意框图；以及

图17是例示在如图16所示的电视接收器中显示3D字幕的一个示例性过程的流程图。

具体实施方式

关于3D(三维)视频标准技术，基本上存在五种主要技术，通过该五种技术3D/立体成像可以被编码成标准的视频信号。这些技术可以称为场序制(field-sequential)、边场制(side-field)(并排：side-by-side)、子场制(sub-fields)(邻两层：over-under)、单独信道和立体制。可以认为场序制和边场制方法是现在最为普遍使用的方法。

而且，对于要转换成另外一种标准的视频信号而言，可以认为视频信号的三个方面需要改变：场速率、行/帧与色彩编码。为做到这一点，需要执行场/行省略和/或复制技术、场/行插值技术和动作估计技术。

以上提供的所有技术都可应用到在该示例性实施方式中的以下特征。

图1例示了根据一个示例性实施方式的广播系统的示意性框图。所例示的系统可以支持现有的(或正在开发中)DVB标准中的至少一种类型，并包括3D图像/视频拍摄部件(例如双目照相机100)、处理部件(例如预处理单元102)、编码部件(例如节目编码单元104)、控制部件(例如控制器114)和信道处理部件(例如信道适配器120)。因为也可以实现其他等同和/或替代元件，因此这些和其他元件的示例性的标记或名称并不意在起限制作用。

(双目)照相机100包括两个透镜和相应的用来拍摄一对前景2D图像的图像获取装置。该两个透镜和图像获取装置如人眼一样相隔大约65毫米(mm)放置，并相应地，该照相机100获取具有双眼差异的两幅2D图像。在以下说明中，在构成一对立体图像的两幅2D图像当中，通过左透镜(和其图像获取装置)获取的图像将称为左图像，而通过右透镜(和其图像获取装置)获取的图像将称为右图像。

预处理单元102执行适当的处理以删除(或至少最小化)在通过照相机100所获取的原始左和右图像中可能存在的任何噪声或其他类型的信号干扰，接着执行图像处理以对这样的图像进行任何校正，并解决亮度分量不平衡现象。经由预处理器102执行预处理之前和/或之后的图像可以存储在存储单元(或其他存储器装置)中，并且可以对该图像进行编辑或其他进一步的图像处理。因此，在照相机100拍摄图像和节目编码单元104对所拍摄的图像进行编码这两个操作之间可能存在一些时间延迟。

在节目编码单元104中，语音/音频编码单元106从安装在针对图像拍摄场地/区域而言是合适的位置处的多个麦克风(或其他音频获取装置)中接收语音/音频信号，并根据合适的技术标准(例如AC-3标准)对该语音/音频信号进行编码以生成音频基本流(ES：elementary stream)输出。

图像编码单元108根据特定的技术标准对通过照相机100所获取的图像进行编码并通过去除时间和空间上的冗余对编码后的图像进行压缩以生成视频基本流(ES)输出。在一个示例性实施方式中，图像编码单元108根据ISO/IEC 13838-2的MPEG-2标准和ETSI所规定的数字视频广播(DVB)标准对图像信号进行编码。图像编码单元108也可以根据ISO/IEC JTC1/SC29/WG11和ITU-T SG16 Q.6的联合视频组(JVT：Joint Video Team)所规定的H.264/AVC标准或其他各种编码方案对图像进行编码。

字幕编码单元110从控制器114处接收字幕数据，对接收到的字幕数据进行压缩和编码，并输出字幕流。字幕编码单元110执行的编码过程和图像编码单元108执行的编码过程可以以一种类似的方式来执行。

包生成单元(或其他类型的包处理部件)将音频ES输出、视频ES输出和字幕流打包以生成打包基本流(PES)输出。

传输复用单元112接收语音PES、图像PES和字幕PES，并且还从控制器处接收节目专用信息(PSI)和业务信息(SI)，并将该PES包和PSI/SI信息复用以生成传输流(TS：transport stream)输出。

包括字幕生成单元116和PSI/SI生成单元118的控制器114也控制整个系统的一般操作，并生成字幕数据和PSI/SI数据。

字幕生成单元116生成时间编码字幕信息并将其提供给字幕编码单元110。在一个修改例中，字幕编码单元110可以同字幕生成单元116集成在一起。同时，字幕生成单元116也向PSI/SI生成单元118提供关于字幕业务的信息。具体而言，根据一个示例性实施方式，该字幕业务信息可以包括用来指示该字幕以一种三维方式来提供的信息。

PSI/SI生成单元118用来生成PSI/SI数据。具体而言，在PSI/SI数据中，节目映射表(PMT：program map table)包括用以标志(或描述)字幕业务信息的字幕编辑描述符(或用于提供描述信息或指示符的其他类型的手段)。在一个示例性实施方式中，依据ETSI EN 300468V 1.9.1标准生成该字幕编辑描述符，该标准是用于DVB系统的业务信息(SI)的一种技术标准。关于字幕编辑描述符的详细的语法结构将会在本公开中的后文中进行描述。

信道适配器120对传输流(TS)执行纠错编码以便在经由传输信道时由噪声(或其他干扰)导致的任何错误可以从接收器中检测出来并适当地被纠正。接下来，根据系统所采用的特定的调制方案(例如，OFDM调制方案)执行合适的调制，并将经过调制的信号发送出去。在一个示例性实施方式中，信道适配器120根据ETSI EN 300744V 1.6.1标准执行源编码和调制过程，该ETSI EN 300744V 1.6.1标准是适用于数字无线电(无线)信道/(OTA：空中传送)接口传输的用于源编码和调制方案的一种技术标准。

在图1所示的系统中，字幕流携带或传送一个或更多个字幕(例如，字幕数据)，并且每个字幕业务(或其他内容业务)包括为正确显示该字幕所需的文本和/或图形信息。每个字幕业务包括要被显示以重叠在广播图像之上的一个或更多个对象页(或其他形式的图形呈现)。每个(字幕)对象页可以包括一个或更多个对象区域(或场地)，而每个对象区域可以具有含有特定属性的矩形或类似箱体的形状。图形对象连同对象区域可以放置在背景图像中。每个图形对象可以由字符(字母)、单词、句子构成，或者可以是标识、图标、任何其他类型的图形元素或其任意组合。根据一个示例性的实施方式，在针对每个图形对象发送至少一个像素值(或其他图形元素单位)时，可以提供每个像素的至少一个深度值(或代表特定3D图形/图像特征的其他值)或者可以提供用于实现立体3D图像的2D图像之间的水平差异值(或代表图形差别、差异、不一致性、不均等等的其他值)以便可以在接收器中正确地呈现每个图形对象并将其以三维方式显示。

在根据这里所描述的至少一个示例性实施方式的基于特定的DVB字幕技术标准的字幕编辑系统中，定义了提供用于显示每个对象的对象区域的安排或组合的页(或其他图形布局方案)，根据该页来显示字幕。为此，为每个页指定页标识符(例如，page_ID或其他类型的标识方式)，并且当关于对象区域或对象的特定定义信息被传送到接收器时，指示与这样的相应信息相关联的特定页的页标识符包含其中。撇开通过PES包传输用于定义或更新页的信息来说，在图1中的系统中，通过PMT内的字幕编辑描述符(或其他参数形式)来发信号通知(或以其他方式通知)字幕和页标识符的语言，而通过在PES包报头(或包的其他部分)内提供的显示时间戳(PTS：presentation timing stamp)或其他类型的与时间相关的参数来指定(针对显示位置和/或显示时间的)精确的显示点。

同时，在相同字幕流内的两个或更多个字幕业务之间可以共享该字幕数据(或信息)的一个或更多部分。即，在该字幕流内，每个数据单元(即，以下待描述的段)可以包括仅仅应用于单个特定字幕业务的数据或者可以包括由两个或更多个字幕业务所共享的数据。由两个或更多个字幕业务所共享的数据的示例可以是以多种语言发送共用于字幕业务的标识(或其他图像元素)的段。相应地，页标识符被指定给每个段。该也标识符可以包括用于发信号通知或标识仅仅应用于单个字幕业务的段的组合页标识符(或其他类型的指示)和用于发信号通知或标识在多个字幕业务中所共享的数据段的辅助页标识符(或其他类型的指示)。字幕编辑描述符可以发送为解码每个字幕业务所需的段的页标识符值。

图2显示了字幕编辑描述符语法的一种示例性结构。虽然可以采用具有多种比特长度的多种类型的字段或参数，但是如下将会说明一些示例性语法特征：

字段“descriptor_tag”是一个8比特描述符标识符。在其为字幕编辑描述符的情况下，其值可以为‘0x59’。“descriptor_length”是指示跟随这个字段值的描述符部分的总共字节数的8比特字段。“ISO_639_language_code”是指示字幕语言作为根据ISO-639技术标准的三字符语言编码的24比特字段。“subtitling_type”是用于发送关于预期的屏幕比例的字幕和信息的内容的8比特字段。这里很清楚，以上所描述的示例并不意在起限制作用，因为很多其他类型的标签、字段、比特长度、参数等可以被采用并用于实现这里所描述的示例性实施方式。

图3例示了向“subtitling_type”字段分配的字段值的一个示例。虽然可以采用多种其他值，但是如下将会说明一些示例性字段值：

根据针对用于DVB系统的业务信息的特定技术标准的ETSI EN 300468V1.9.1技术标准，在字段“subtitling_type”中，字段值‘0x00’被保留以备以后使用，字段值‘0x01’指示是欧洲广播联盟(EBU：European Broadcasting Union)远程文本字幕业务，字段值‘0x02’指示与EPU远程文本业务相关联的业务，字段值‘0x03’指示垂直消隐间隔数据，而字段值从‘0x04’到‘0x0F’被保留以备以后使用。字段值‘0x10’指示是没有屏幕比例限制的(普通的)DVB字幕，字段值‘0x11’指示是待显示在具有屏幕比例为4∶3的显示器上的(普通的)DVB字幕，字段值‘0x12’指示是待显示在具有屏幕比例为16∶9的显示器上的(普通的)DVB字幕，字段值‘0x13’指示是待显示在具有屏幕比例为2.21∶1的显示器上的(普通的)DVB字幕，而字段值‘0x14’指示是待显示在HD(高清)显示器上的(普通的)DVB字幕。字段值从‘0x15’到‘0x1F’被保留以备以后使用。字段值‘0x20’指示是没有屏幕比例限制的DVB字幕(对于听力受损者)，字段值‘0x21’指示是待显示在具有屏幕比例为4∶3的显示器上的DVB字幕(对于听力受损者)，字段值‘0x22’指示是待显示在具有屏幕比例为16∶9的显示器上的DVB字幕(对于听力受损者)，字段值‘0x23’指示是待显示在具有屏幕比例为2.21∶1的显示器上的DVB字幕(对于听力受损者)，而字段值‘0x24’指示是待显示在高清(HD)显示器上的DVB字幕(对于听力受损者)。字段值从‘0x25’到‘0x2F’被保留以备以后使用。字段值‘0x30’指示是对于听力受损者的开放语言翻译业务，而字段值‘0x31’指示是对于听力受损者的关闭语言翻译业务。字段值从‘0x32’到‘0xAF’被保留以备以后使用，字段值从‘0xB0’到‘0xFE’允许由用户来定义和使用，而字段值‘0xFF’被保留以备以后使用。

这里很清楚，以上所描述的字段值并不意在起限制作用，因为很多其他类型的标签、字段、比特长度、参数等可以被采用并用于实现这里所描述的示例性实施方式。

在一个实施方式中，诸如从‘0xB0’到‘0xB4’的一些字段值允许由用户来定义和使用，并指示字幕段(此后将会描述)含有3D字幕信息。具体而言，在“subtitling_type”中，字段值‘0xB0’指示是没有屏幕比例限制的3D字幕，字段值‘0xB1’指示是待显示在具有屏幕比例为4∶3的显示器上的3D字幕业务，字段值‘0xB2’指示是待显示在具有屏幕比例为16∶9的显示器上的3D字幕业务，字段值‘0xB3’指示是待显示在具有屏幕比例为2.21∶1的显示器上的3D字幕业务，而字段值‘0xB4’指示是待显示在HD显示器上的3D字幕业务。显然，也可以以补充和/或替代方式针对上述字段值采用其他的字段值。

在图2中，“composition_page_id”是用于对页(即组合页)进行区分的16比特字段，该页包括仅仅应用于单个字幕业务的数据。这个字段可以用于段，也就是定义字幕屏幕的数据结构的3D页组合段(3D_PCS)和3D区域组合段(3D_RCS)。同时，“ancillary_page_id”是用于对页(即辅助页)进行区分的16比特字段，该页包括由两个或更多个业务所共享的数据。优选地这个字段不用于组合段，而有选择地仅仅用于色彩查找表定义段(CLUTDS：color look-up tabledefinition segment)、3D对象数据段(3D_ODS)、深度值查找表定义段(DVLUTDS：depth value look-up table definition segment)等。

以这种方式，修改(或配置)本示例性实施方式的字幕编辑描述符(或用于提供描述信息或指示符的其他类型的方式)以提供关于至少字幕语言、字幕类型、为解码业务所需的composition_page_id值和关于包含于流中的每个业务的ancillary_page_id值的指示(或信号)。

如上所述，字幕流的基本结构块或单元是字幕段。字幕段包含于PES包中，而PES包包含于TS的传输包中并被传送至接收器。字幕的显示时间点(例如，应该显示字幕的时间)可以由PES包的报头内的显示时间戳(PTS)或类似时间信息来确定。PES包包括包报头和包数据，而字幕数据在包数据(或包报头)内以PES_data_field()的语法的形式来编码。在图4中，在DVB字幕流的情况下，字段“data_identifier”编码成‘0x20’值。在DVB字幕流的情况下，在PES包中的作为字幕流的识别信息的字段“subtitle_stream_id”具有值‘0x00’。在while循环中，字幕数据根据subtitlinig_segment()的语法被格式化以从比特流‘0000 1111’开始进行排列。字段“end_of_PES_data_field_maker”为数据结束标识符。同相同PTS相关联的字幕业务段的完整集合称为显示集合，字段“end_of_PES_data_field_maker”指示该显示集合的最后一段已经完成。这里，能够清楚的理解可以相应地改变其中的特定字段和值。

图5例示了根据一个示例性实施方式所使用的字幕段的一些示例性类型。3D显示定义段(3D_DDS)、3D页组合段(3D_PCS)和3D区域组合段(3D_RCS)是用于传送用来定义字幕的显示区域的3D区域配置信息的段。3D对象数据段(3D_ODS)是用来定义关于每个对象的字幕数据及其与深度相关的信息的段。CLUTDS和DVLUTDS用于发送当翻译关于对象的编码数据时要参照的数据，其用以减少为传送字幕数据和与深度相关的信息所需的带宽。显示集合段的结尾可以用来清楚地指示已经完成了一个(信息的)显示集合。

字幕业务可以被构造成具有不同于接收器的总体屏幕尺寸的尺寸，而相应地，在传输字幕流时，可以清楚地指定考虑到字幕业务而构造的显示尺寸。3D显示定义段(3D_DDS)可以有选择地用来定义在该接收器中显示字幕的图像区域的最大范围。具体而言，根据本示例性实施方式，可以以三维方式提供字幕，因此可以在三维方式中，也就是在3D矩形坐标系统的三个轴方向上通过指定最大值和最小值来定义该显示的适用范围。

如上所述，可以将字幕以(对象)页为单位构成为用于显示图形对象的对象区域的排列或组合，并接着被传输并在接收器处显示。3D页组合段(3D_PCS)在具有特定参考点的3D空间中定义了组成每个对象区域的页和位置的对象区域列表。这里，按照水平扫描线不重叠的方式来设置各个对象区域。而且，页组合段(3D_PCS)包括页的状态信息，也就是，关于通过相应段传送的数据是否来更新该页地一部分(“通常情况”)的信息、关于是否要重新发送组成页的每个元素以更正现有页(“获取点”)的信息、或关于是否丢弃现有页并定义全新的页(“模式改变”)的信息。这里，“模式改变”状态很少用到，例如，仅仅在程序的开始点或仅仅当在字幕的形式上存在显著差异时用到该“模式改变”状态。同时，页组合段(3D_PCS)还可以包括关于该特定页的超时信息，也就是关于该页的特定实例的有效期限的信息。

3D区域组合段(3D_RCS)定义了在3D空间中单独对象区域的尺寸、用于表达色彩的CLUT(色彩查找表)指定信息等的属性、和待在对象区域中显示的对象列表。在本示例性实施方式中，每个对象区域可以具有立体结构，而不是平面结构，因此，其可以具有在由3D电视所提供的3D显示空间内的虚拟的箱体形状。考虑到这一点，根据本示例性实施方式的3D区域组合段包括关于平面和在用户方向上的平面的属性定义字段。

3D对象数据用来描述每个对象的特定编码数据。根据本示例性实施方式，对象数据段包括每个对象的立体配置信息，该信息使得接收器能够基于该立体配置信息正确地显示3D对象。

用于将特定像素的像素值定义成伪色彩(CLUT_entry_id)值和真实色彩(Y，Cr，Cb，和T)之间的映射关系的色彩查找表(CLUT)同各个对象区域相关联，以便接收器可以参考该CLUT确定包含于字幕流中的伪色彩值的真实显示色彩。而且，CLUT定义段(CLUTDS)可以被标记为用于向接收器配置该CLUT的传送信息。可以对各对象区域应用特定的CLUT，并且可以传送新的CLUT的定义以更新伪色彩值和真实色彩之间的映射关系。在一个实施方式中，CLUTDS遵循针对特定类型的DVB字幕编辑系统的ETSI EN 300743V1.3.1技术标准，因此，仅为简洁起见省略对其特定细节的描述，但是该标准应该被本领域的技术人员所了解。

在本示例性实施方式中，以与通过使用CLUT的伪色彩值来显示关于像素的色彩的方法相类似的方式可以按照伪深度值来表达3D字幕对象的立体坐标信息。也就是说，在接收器中将伪深度值和物理深度坐标信息之间的相互关系存储在深度值查找表(DVLUT：depth value look-up table)中。在传输3D字幕信息时，像素深度表示为一个或多个伪深度值，而接收器参考DVLUT将这样的伪深度值转换成物理深度坐标，从而减少所需的传输带宽。DVLUT定义段(DVLUTDS)用来向接收器传送用于配置DVLUT的信息。这里，DVLUT可以当构造接收器时事先确定，并且DVLUTDS可以单独传送或不单独传送。而且，在这种情况下，DVLUT当然可以通过DVLUTDS来更新。

同时，字幕编辑段可以在语法结构上包括公共部分。在解释每个段之前，现在将参考图6描述这样的公共语法结构。

图6例示了特定字幕编辑段的公共语法的结构。

“sync_byte”是采用值‘0000 1111’进行编码的8比特同步字段。当解码器基于PES包中的“segment_length”来解析段时，该解码器可以通过采用字段“sync_byte”检验其同步来确定传输包是否有丢失部分。

字段“segment_type”指示在segment_data_field()中的数据的类型。就特定字幕编辑过程而言，如果字段“segment_type”值为‘0x10’，那么这表示该段具有页组合段数据(3D_PCS)。此外，字段值‘0x11’、‘0x12’、‘0x13’和‘0x14’分别指示段为区域组合段(3D_RCS)、CLUT定义段(CLUTDS)、对象数据段(3D_ODS)和显示定义段(3D_DDS)。字段值‘0x80’可以指示显示集合段的结束。例如，DVLUT定义段(DVLUTDS)可以被指示为字段值‘0x40’，该字段值是在ETSI EN300743V1.3.1技术标准中的一种被保留以备以后使用的值。

“page_id”值通过与包含于字幕编辑描述符中的值进行比较来区分包含于字幕编辑段中的数据的字幕业务。这里，具有标志为字幕编辑描述符中的组合页标识符的page_id的段用来传输特别地应用在单个字幕业务的字幕编辑数据。相比之下，具有标志为字幕编辑描述符中的辅助页标识符的页标识符(例如，page_id)的段可以用来传输由多个字幕业务所共享的字幕编辑数据。

字段“segment_length”指示包含于segment_data_field()中的字节的数量，并且可以设置(或放置)在“segment_length”之后。

segment_data_field()是相应段地有效载荷。根据段的类型，有效载荷的语法可以变化，并且其细节将会在此后依次描述。

图7例示了3D显示定义段(3D_DDS)语法的结构。

字段“dds_version_number”指示显示定义段的版本。如果该显示定义段的内容中的任何一项发生改变，那么可以以对16取模(modulo-16)的方式增加其版本号。

当字段“display_window_flag”设定为1时，这指示与DDS相关联的字幕显示集合应该显示在该显示中设置的最大显示适用范围(此后称为“窗口区域(windowregion)”)内。通过以下参数，也就是通过字段“display_window_horizontal_position_maximum”、“display_window_horizontal_position_minimum”、“display_window_vertical_position_minimum”、“display_window_vertical_position_maximum”、“display_window_z-position_minimum”、和“display_window_z-position_maximum”来定义窗口区域的尺寸和位置。同时，当字段“display_window_flag”设定为0，这指示与DDS相关联的字幕显示集合必须(或应该)直接显示在由字段“display_width”和字段“display_height”所定义的显示平面的前空间和后空间中。

字段“display_width”指示由与段相关联的字幕流所假定的显示器的最大水平方向宽度。同时字段“display_height”可以在值为1时指示由与段相关联的该字幕流所假定的显示的最大垂直方向高度。

字段“display_window_horizontal_position_minimum”可以基于显示器的最左端的像素指示该字幕窗口区域的最左端像素。字段“display_window_horizontal_position_maximum”可以基于显示器的最左端的像素指示该字幕窗口区域的最右端像素。

字段“display_window_vertical_position_minimum”可以基于显示器的最上端扫描线指示该字幕窗口区域的最上端线。字段“display_window_vertical_position_maximum”可以基于显示的最上端扫描线指示该字幕窗口区域的最下端线。

根据一个示例性实施方式，由于该最大显示适用范围(也就是，字幕窗口区域)以三维方式来定义，因此，除去在ETSI EN 300743V1.3.1技术标准中所描述的四个二维字段以外，显示定义段(3D_DDS)还可以额外包括两个特定字段(也就是，字段“display_window_z-position_minimum”和“display_window_z-position_maximum”)。

字段“display_window_z-position_minimum”指示在窗口区域的z轴上的最小坐标值。也就是说，这个字段值指示在相对以3D形式所表述的字幕而言的z轴值范围内距离观看者最远的位置的值。这个字段值的单位可以与二维字段中的单独像素尺寸值相同。

字段“display_window_z-position_maximum”指示在窗口区域的z轴上的最大坐标值。也就是说，这个字段值指示在相对以3D形式所表述的字幕而言的z轴值范围内距离观看者最近的位置的值。

图8例示了3D页组合段(3D_PCS)语法的结构。

字段“page_time_out”以秒为单位指示为由于其不再有效而待从屏幕上删除的页实例所花费的持续时间。

字段“page_version_number”指示页组合段的版本。如果该页组合段的内容中的任何一项发生改变，那么该版本号以对16取模(modulo-16)的方式增加。

字段“page_state”表示在页组合段中所描述的字幕编辑页实例的状态。如在下面所示的表1(参见关于DVB类型字幕编辑系统的ETSI EN 300743V1.3.1技术标准)所示来定义字段“page_state”值。

表1

【表1】

当“page_state”字段值指示“模式改变”或“获取点”时，显示集合必须(或应该)包括关于每个对象区域的区域组合段(3D_RCS)，该每个对象区域构成与页组合段(3D_PCS)相关联的页。

在由解码器所处理的字节所积累的数值以内，也就是在当processed_length小于“segment_length”值时所重复执行的while循环内部，以“region_vertical_address”值增加的顺序来排列关于每个对象区域的信息，并在每次重复时清楚的表述关于单个对象区域的信息。

在while循环内部，字段“region_id”是关于单个对象区域的唯一标识符。每个对象区域显示在页组合段中所定义的页实例内。字段“region_horizontal_address”指示对象区域的最上端左边像素的水平地址，而字段“region_vertical_address”指示该对象区域的最上端线的垂直地址。

在一个示例性实施方式中，由于每个对象区域可以具有以三维方式来定义的格式，因此，在页组合段(3D_PCS)中所描述的对象区域位置信息额外地包括字段“region_z_address”。字段“region_z_address”指示相对该对象区域的后平面的z轴坐标值。在这种情况下，如果该对象区域不具有平面结构或均匀的表面，那么字段“region_z_address”指示该z坐标的最小值。

图9例示了3D区域组合段(3D_RCS)语法的结构。

字段“region_id”是关于包含在RCS中的信息的对象区域的8比特的唯一的标识符。

字段“region_version_number”是该对象区域的版本。当“region_fill_flag”设定为1，并且当该对象区域的色彩查找表(CLUT)改变或者当该对象区域具有对象列表且该对象列表具有不为0的长度，则该版本号以对16取模(modulo-16)的方式增加。

字段“region_fill_flag”指示对象区域的前表面应该由字段“region_8-bit_pixel-code”所定义的背景色彩来填充。

字段“region_width”通过像素数量来指示对象区域的水平方向长度，而字段“region_height”通过像素数量来指示对象区域的垂直方向高度。

作为对象区域的3D属性中的一项所添加的字段“region_z-length”指示3D对象区域在z轴上的长度。相应地，该3D对象区域空间的尺寸由“region_width”、“region_height”和“region_z-length”来决定。

图10例示了根据一个示例性实施方式的在实现3D字幕编辑时由页组合段(3D_PCS)所定义的对象区域空间的3D对象区域和参考点坐标的量度。

字段“region_level_of_compatibility”指示解码器用以解码对象区域所需的最小CLUT类型。如果这个字段值为‘0x01’，其指示需要2比特/输入CLUT；如果这个字段值为‘0x02’，其指示需要4比特/输入CLUT；如果这个字段值为‘0x03’，其指示需要8比特/输入CLUT。

字段“region_depth”指示对象区域打算使用的像素色彩深度。如果这个字段值为‘0x01’，其指示像素色彩深度为2比特；如果这个字段值为‘0x02’，其指示像素色彩深度为4比特；如果这个字段值为‘0x03’，其指示像素色彩深度为8比特。

字段“CLUT_id”对用于特定对象区域的CLUT进行区分。

字段“region_8-bit_pixel-code”在当设置字段“region_fill_flag”时指示在要被用作针对对象区域的背景色彩(或其他图形显示特征)的8比特CLUT中的输入值(或输入数据)，也就是伪色彩值。当2比特或4比特被用作像素深度值时，不对字段“region_8-bit_pixel-code”进行定义。

在对象区域的色彩深度为4比特的情况下，或者在对象区域的色彩深度为8比特并且字段“region_level_of_compatibility”指示4比特/输入CLUT满足最小需求的情况下，字段“region_4-bit_pixel-code”指示在要被用作针对对象区域的背景色彩(或其他图形显示特征)的4比特CLUT中的输入值(或输入数据)。

在对象区域的色彩深度为2比特的情况下，或者在对象区域的色彩深度为4比特或8比特并且字段“region_level_of_compatibility”指示2比特/输入CLUT满足最小需求的情况下，字段“region_2-bit_pixel-code”在当字段“region_fill_flag”被设置时指示在要被用作针对对象区域的背景色彩(或其他图形显示特征)的2比特CLUT中的输入值(或输入数据)。在其他情况下，没有对该字段值进行定义。

字段“DVLUT_id”对应用于对象区域的DVLUT进行区分。

在由解码器所处理的字节所积累的数量以内，也就是在当processed_length小于“segment_length”值时所重复执行的while循环内部，以适当的方式来排列关于每个对象区域的信息。

在while循环内部，字段“region_id”是在对象区域内所显示的对象的唯一标识符。也就是说，当字段“object_type”值为‘0x00’，其指示是位图对象；如果字段“object_type”值为‘0x01’，则其指示是字符对象；如果字段“object_type”值为‘0x02’，则其指示是字符串对象。

字段“object_provider_flag”是指示如何提供对象的2比特标志。如果这个字段值为‘0x00’，其指示作为字幕编辑流来提供对象；而如果这个字段值为‘0x01’其指示以一种对象存储在接收器的解码器的ROM中的状态来提供该对象。

字段“object_horizontal_position”以像素为单位指示在对象的最上端处的左边像素的水平方向位置，而字段“object_vertical_position”以像素为单位指示在该对象的最上端处的左边像素的垂直方向位置。

在一个实施方式中，每个对象可以具有3D形状，因此，在区域组合段(3D_RCS)中所描述的对象位置信息额外地包括字段“object_z_position”。这个字段指示在字幕对象的后表面上的z轴上的坐标。当对象具有不均匀的表面时，这个字段指示在对象空间的z轴上的最小值。这个字段的值必定在从0到region_z-length-1范围内，并且如果接收到在该范围之外的值，那么该值是错误的信息。因此接收器自身需要执行错误处理。

同时，如果“object_type”字段值为指示对应对象是字符对象的‘0x01’或当该字段值为指示对应对象是字符串对象的‘0x02’时，则提供关于对应对象的前景或背景色彩信息(或其他图形特征)。字段“foreground_pixel_code”指示在被选作字符或字符串的前景色彩的8比特CLUT中的输入值(即，伪色彩值)，而字段“background_pixel_code”指示被选作该字符或字符串的背景色彩(即，该对象区域的背景色彩)的伪色彩值。

根据一个实施方式，还考虑到坐标轴的设置提供了关于顶部表面和侧表面的类型的信息。字段“top_surface_type”指示3D字符的顶部表面的类型，其值对应于“均匀平面”、“圆形的”、或其他图形特征。字段“side_surface_type”指示与该3D字符的顶部表面相接触的侧边的类型，该字段值对应于“阴影的”、“倾斜的”、“无倾斜的”等。

图11和12例示了3D对象数据段(3D_ODS)语法的示例性结构。

字段“object_id”是针对与该段数据相关的对象的8比特唯一标识符。

字段“object_version_number”是该段数据的版本。当该段内的任何内容发生改变时，版本号都会以对16取模(modulo-16)的方式增加。

字段“object_coding_method”指示对对象进行编码的方法。如果这个字段值为‘0x00’，其指示已经按照像素对2D对象进行编码，而如果这个字段值为‘0x01’，其指示2D对象已经被编码成字符串。在一个实施方式中，当这个字段值为‘0x02’时，其指示已经按照像素对3D对象进行编码，而当这个字段值为‘0x03’时，其指示待进行3D显示的字符串被进行了编码。

当字段“non_modifying_color_flag”设定为1，其指示CLUT的输入值1是一种不能够被修改的色彩(例如，不可修改的色彩)。当该不可以修改的色彩指定至对象像素时，不能够对应像素所在的背景的色彩或对象的色彩进行修改。这种方案可以用来在对象中生成“透明孔”。

同时，应当注意，还可以包括像素编码数据。当字段“object_coding_method”具有指示是按照像素对2D对象进行编码的字段值‘0x00’时，可以插入像素编码数据。如果字段“object_coding_method”具有指示是按照字符串对2D对象进行编码的值‘0x01’时，可以插入字符串编码数据。当字段“object_coding_method”具有指示是3D编码的对象时的值‘0x02’或‘0x03’时，可以插入3D像素编码数据。

更详细来说，就关于2D对象的像素编码数据而言，字段“top_field_data_block_length”指示包含于关于在两幅隔行扫描的屏幕图像中的奇数扫描线屏幕图像(上部区域)的像素数据子块中的字节的数量。字段“bottom_field_data_block_length”指示包含于关于在两幅隔行扫描的屏幕图像中的偶数扫描线屏幕图像(下部区域)的像素数据子块中的字节的数量。接着，有序地插入关于与“top_field_data_block_length”字段值相对应的上部区域(topfield)的像素数据子块pixel-data_sub-block()的字节。并且，有序地插入关于与“bottom_field_data_block_length”字段值相对应的下部区域(bottom field)的像素数据子块pixel-data_sub-block()的字节。在插入像素数据子块pixel-data_sub-blocks()之后，如果没有进行单词对准，也就是说，如果字节的总数不是为构成单词而需要的字节数倍数，则可以通过填充8位(或其他适当的数量)填充位来调整该单词长度。

在关于2D字符串对象的编码数据中，字段‘number_of_codes’指示待由解码器处理的码字节的数量。在这个字段之后布置有对应于字段值的字符码。

在3D像素编码数据中，字段“top_surface_color_block_length”和字段“top_surface_depth_block_length”指示表示在该3D对象数据中的前表面的数据的字节的数量。这里，该前表面指的是向该表面暴露的部分(即，被用户看到的表面)。具体来说，字段“top_surface_color_block_length”指示是像素值数据的字节数量，而字段“top_surface_depth_block_length”指示是关于该前表面的深度信息的字节数量。

字段“hidden_surface_color_block_length”和字段“hidden_surface_depth_block_length”指示是用于表示该3D对象数据中的隐藏表面所使用的代码数据的字节的数量。这里，该隐藏表面指的是关于被前表面所阻隔的3D对象的(或者，无法直接看到的)区域的信息，即，关于在前表面被设置为至少部分透明或半透明时可以透过该前表面被过滤而能被看到的区域的信息。如同前表面数据，表示这种隐藏表面的代码数据包括像素值数据和深度信息。具体来说，字段“hidden_surface_color_block_length”指示是关于隐藏表面的像素值数据的字节数量，而字段“hidden_surface_depth_block_length”指示是关于隐藏表面的深度信息的字节数量。

接着，相应地根据“top_surface_color_block_length”字段值有序地插入关于前表面的像素数据子块pixel-data_sub-block()的字节。在像素数据子块pixel-data_sub-block()中，关于构成3D对象的前表面的每个像素的色彩值被表述成伪色彩值，也就是表述成CLUT的输入值。因此，接收器从像素数据子块pixel-data_sub-block()中以伪色彩值的形式提取各自像素的像素值，并通过利用该CLUT执行转换来获取用于显示的真实色彩和所应用的透明度值。在一个实施方式中，pixel-data_sub-block()的语法结构与在关于DVB类型字幕编辑系统的ETSI EN 300743V1.3.1技术标准中所描述的相同。因此，关于DVB类型字幕编辑系统的ETSI EN 300743V1.3.1技术标准将被引用来使用，并且仅为简洁起见将省略对其详细的描述，但是显然本领域的技术人员将了解这一点。

接下来，有序地插入关于3D对象的前表面的3D坐标数据子块z_data_sub-block_3D()的字节。这里，3D坐标数据子块z_data_sub-block_3D()由通过对3D对象进行编码所获取的字节串构成，该子块包括关于3D对象的前表面的每个像素的深度坐标的编码数据。关于每个像素的深度坐标指的是在关于对应像素的z轴方向上的位置，而接收器可以通过使用该深度坐标而在相应部分执行3D呈现从而以3D方式呈现显示。

最后，相应地根据字段“hidden_surface_color_block_length”有序地插入关于隐藏表面的像素数据子块pixel-data_sub-block()的字节。接着，相应地根据“hidden_surface_depth_block_length”字段值有序地插入关于隐藏表面的3D坐标数据子块z_data_sub-block_3D()的字节。

现在将描述用于描述3D坐标数据子块z_data_sub-block_3D()的方法。该3D坐标数据子块z_data_sub-block_3D()具有与像素数据子块pixel-data_sub-block()相类似的语法。但是，在这种情况下，如上所述，在一个示例性实施方式中，在指示3D对象的深度坐标时，可以采用一种与通过采用CLUT输入值来表述像素值的方法相类似的方法。也就是说，将用来定义伪深度值和物理深度坐标之间的相互关系的深度值查找表(DVLUT)事先传送给接收器，并且在3D坐标数据子块z_data_sub-block_3D()中通过DVLUT的输入值(即，通过伪深度值)来显示深度信息，从而减小了传输带宽。这里，由于每个3D显示装置具有能够被表达的不同的z轴范围并且存在关于相同深度值的实际物理呈现的3D深度值可能被不同解读的可能性，因此该深度信息可以被表示为经由DVLUT作为基于屏幕宽度的相对值传送的深度输入值。在一个实施方式中，DVLUT可以由DVLUT定义段(DVLUTDS)来定义和更新。而在一种修改例中，DVLUT定义段(DVLUTDS)可以事先存储在接收器中。

在描述所有对象数据之后，如果没有进行单词对准，也就是说，如果字节的总数不是构成单词的字节数的倍数，那么可以通过填充8位(或其他适当的数量)填充位来调整该单词长度。

图13例示了用于定义DVLUT的深度值查找表定义段(DVLUTDS)的语法的示例性结构。在一个实施方式中，DVLUT是用于采用8比特未编码整数来定义从0到255的伪深度值与真实深度信息之间的相互关系的表格。

图14和15例示了DVLUT的结构的示例。如图14所示，DVLUT可以按照像素存储输入值(DVLUT_entry_id)(即，具有从0到255的伪深度值)与物理深度值之间的相互关系。另选的是，如图15所示，DVLUT可以按照像素存储输入值(DVLUT_entry_id)(即，具有从0到255的伪深度值)与水平差异(或视差)值之间的相互关系。DVLUT可以为每个对象单独定义。图13中的DVLUT定义段(DVLUTDS)用来定义或更新DVLUT。

重新参考图13，字段“DVLUT_id”指示关于DVLUT的唯一标识符。字段“DVLUT_version_number”指示DVLUTDS的版本。即便在该段中的一项发生改变，版本号也会以对16取模(modulo-16)的方式增加。

字段“output_type”指示由DVLUTDS定义的DVLUT的输出值的类型。详细来说，如果字段“output_type”值为0，那么其指示由DVLUTDS定义的DVLUT的输出值是物理深度值。同时，如果字段“output_type”值为1，那么其指示由DVLUTDS定义的DVLUT的输出是关于像素的水平差异(或视差)值。

在由解码器处理的累积字节数以内，也就是在当processed_length小于“segment_length”值时所重复执行的while循环内部，可以合适地排列关于每个DVLUT映射的信息。

在关于DVLUT映射信息的数据中，字段“DVLUT_entry_id”指示DVLUT的输入值。DVLUT的首个输入值的值为‘0’。当“output_type”字段值为0并该字段值指示DVLUT的输出值是物理深度值(即，关于像素的z轴方向位置值)时，为了将z轴方向的深度坐标值表示为相对于接收器的屏幕宽度的比例或以倍数为单位来表示以使得深度坐标值对应该DVLUT输入值，插入“output_num_value”字段数据和“output_den_value”字段数据。同时，如果“output_type”字段值为1并该字段值指示DVLUT的输出值是水平差异值，那么相应地根据该DVLUT输入值插入指示关于像素的水平差异值的“视差值(parallax value)”字段数据。

基于所传送的DVLUT映射信息数据，接收器可以配置图14或图15中的DVLUT，并解读在3D深度坐标数据子块z_data_sub-block_3D()中所传送的伪深度值以呈现特定的3D字幕。

更加详细地说，当“output_type”字段值为0时，接收器可以根据下方所示的方程式1并采用关于各自DVLUT输入值(即伪深度值)的“output_num_value”字段数据和“output_den_value”字段数据来计算物理深度值(z_value)，并在DVLUT中存储该计算出的物理深度值。

【方程式1】

z - value = \frac{output_num_value}{output_den_value} * width

这里，“width”指屏幕宽度。当每个接收器的显示尺寸被相对显示时，根据尺寸，每个装置可以保证普通的立体效果。在每个对象上，接收器通过采用DVLUT将在3D_ODS的3D深度坐标数据子块z_data_sub-block_3D()中所传输的伪深度值转换成物理深度值以获取关于在字幕内的每个对象的每个点的物理3D信息，并以提供该物理3D信息以便在3D显示装置上进行显示。

“output_num_value”值可以包括正的或负的符号(或记号)，这样深度值(z-value)不可以既具有正值又具有负值。在为负数的情况下，基于显示参考面(z＝0)在后侧面形成3D图像，而在为正数的情况下，基于显示参考面在前侧面(即朝向观看者)形成3D图像。通过这样的方式，深度值(z-value)的绝对大小指的是基于屏幕宽度的相对大小，而图像形成在显示参考面的后侧面或前侧面取决于深度值(z-value)是负值还是正值。

同时，如果字段“output_type”值为1，那么接收器在DVLUT中存储每个DVLUT输入值(即，伪深度值与水平差异值对)。接收器将由像素数据子块pixel-data_sub-block()表示的图像视为在该2D图像对中的基本视图(例如，左图)，并将该左图的像素移动关于对应像素的水平差异值以配置关于扩展的视图的字幕对象图像。这里，优选地以像素表示水平差异值的单位。如果水平差异值为0，则表示是与显示参考面(例如，z轴坐标是“region_z_address”字段值的对象区域的后表面)位于相同的位置。如果水平差异值是负值，则表示在显示参考值的前侧面聚焦图像。如果水平差异值是正值，则表示在显示参考值的后侧面聚焦图像。

图16是根据一个示例性实施方式的电视接收器的示例性示意框图。这样的电视接收器可以适用于基于一种或更多种用来再现图像和视频的DVB技术标准接收广播信号。

广播信号接收单元190(或其他等同部件)可以被配置来接收包括3D图像信号、字幕数据、涉及该字幕数据的深度相关信息和定义该字幕数据的显示区域的3D区域组合信息的广播信号。

与广播信号接收单元协同工作的解调和信道解码单元200(或其他等同部件)从多个广播信号中选择一个信道的广播信号，对所选择的广播信号进行解调，并对所解调的广播信号进行纠错解码以输出传输流(TS)。这里，解调和信道解码单元200可以由解调单元(或其他等同部件)和解码单元(或其他等同部件)构成，该解调单元配置为对由广播信号接收单元接收到的广播信号的至少部分进行解调，该解码单元配置为对由解调单元所解调的至少部分广播信号进行解码。这里解码单元还可以包括解复用单元202、语音解码单元204和图像解码单元206，将在下文对这些部件进行进一步说明。

解复用单元202(或其他等同部件)对TS进行解复用以分离视频PES、音频PES和字幕PES，并提取包括节目映射表(PMT)的PSI/SI信息。拆包单元(或其他等同部件)对视频PES和音频PES的包进行拆分以恢复视频ES和音频ES。

语音解码单元204(或其他等同部件)将音频ES解码以输出数字音频比特流。该音频比特流由数模转换器转换成模拟音频信号，由放大器放大，并接着通过扬声器(或其他等同部件)输出。

图像解码单元206(或其他等同部件)解析该视频ES以提取报头数据和MPEG-2视频比特流。图像解码单元206还对该MPEG-2视频比特流进行解码并输出用于实现和显示立体3D图像的左和右广播图像信号。

选择过滤器208、字幕解码单元210、CLUT 212、像素缓冲器214、组合缓冲器216、DVLUT 218和3D图形引擎220(连同其他额外的和/或可替代的部件)构成用于对该字幕流进行解码以生成3D字幕位图图像的电路(或硬件、软件和/或其组合的其他方案或方法)。

选择过滤器208(或其他等同部件)从解复用单元202处接收字幕流(即，字幕PES包)，将报头分离以拆分该包，并恢复字幕段。在所述拆分过程中，选择过滤器208从每个PES包的报头中提取显示时间戳(PTS)(或类似成分)并将其存储在存储器中，以便可以在字幕再现过程中参照该数据。在一种修改例中，选择过滤器208可以不直接提取该PTS而是可以由其他处理提取该PTS。而且，选择过滤器208可以从解复用单元202处接收PMT并对该PMT进行解析以提取字幕编辑描述符。

选择过滤器208基于页标识符(page_id)值将字幕段分类。在经过选择过滤器208分类的段中，对象数据段(3D_ODS)被提供到字幕解码单元210并被解码。显示定义段(3D_DDS)、页组合段(3D_PCS)、区域组合段(3D_RCS)被提供到组合缓冲器216并被用于对对象数据段(3D_ODS)进行解码以及对3D字幕进行呈现。CLUTDS用来生成或更新CLUT，而CLUT可以存储在组合缓冲器216中或存储在其他存储器中。DVLUTDS用来配置或更新DVLUT，而在这种情况下DVLUT也可以存储在组合缓冲器216中或存储在其他存储器中。同时，诸如3D_DDS、3D_PCS、3D_RCS、CLUTDS、DVLUTDS等的段可以通过字幕解码单元210或其他处理器来解码并接着提供给相应的单元，而不是从选择过滤器208直接提供给这些单元。

字幕解码单元210(或其他等同部件)参考CLUT、3D_DDS、3D_PCS和3D_RCS解码对象数据段(3D_ODS)，并暂时将经过解码的像素数据存储在像素缓冲器214中。

当“object_coding_method”字段值为‘0x00’且该字段值指示按照像素编码的2D对象时，字幕解码单元210对关于上区域的像素数据子块pixel-data_sub-block()和关于下区域的像素数据子块pixel-data_sub-block()进行解码，并按照像素将经过解码的像素数据存储在像素缓冲器214中。当字段“object_coding_method”值为‘0x01’且该字段值指示按照字符串编码的2D对象时，字幕解码单元210对字符代码进行解码，在相应字符串对象处生成位图图像，并将生成的位图图像存储在像素缓冲器214中。

同时，当“object_coding_method”字段值为‘0x02’或‘0x03’且字段值指示3D编码的对象时，字幕解码单元210对关于对象的前表面和隐藏表面的像素数据子块pixel-data_sub-block()进行解码，并将经过解码的像素数据存储在像素缓冲器214中。具体来说，在这个步骤中，字幕解码单元210参考CLUT 212将表示每个像素色彩值的伪色彩值转换成真实色彩值并存储该真实色彩值。另外，字幕解码单元210还对关于对象的前表面和隐藏表面的3D坐标数据子块z_data_sub-block_3D()进行解码，并将经过解码的3D坐标数据存储在像素缓冲器214中。具体来说，在这个步骤中，字幕解码单元210参考DVLUT 218将表示每个像素的深度值的伪深度值转换成物理深度值，并存储该物理深度值。按照该方式，当对3D编码后的对象进行解码时，关于针对每个像素的深度坐标值和水平差异值的映射关系连同2D像素位图一起存储在像素缓冲器214中。

组合缓冲器216暂时性地存储和更新包含于3D_DDS、3D_PCS、3D_RCS中的数据，以便字幕解码单元210在解码对象数据段(3D_ODS)时可以参阅该数据。另外，当3D图形引擎220呈现该3D字幕时使用存储于组合缓冲器216中的数据。

DVLUT 218存储深度值查找表。字幕解码单元210可以在解码对象数据段(3D_ODS)时参阅该深度值查找表。而且，当DVLUT 218由3D图形引擎220执行呈现时，可以参阅该深度值查找表。

3D图形引擎220(或其他诸如图形加速芯片或处理器的等同部件)参考存储于组合缓冲器216中的显示定义段(3D_DDS)、页组合段(3D_PCS)和区域组合段(3D_RCS)以及存储于该存储器中的显示时间戳(PTS)来配置构成页的字幕页和对象区域。另外，3D图形引擎220从关于与每个对象区域相对应的每个对象的像素缓冲器214中接收像素位图数据和像素深度映射数据，并基于接收到的数据执行3D呈现以生成3D字幕图像信号。在一个示例性实施方式中，电视接收器以全息/立体方式显示3D图像，而3D图形引擎220输出适合该格式的3D图形数据。在一种以立体方式显示3D图像的修改例中，3D图形引擎220输出一对待输出到左图像屏幕平面和右图像屏幕平面的字幕OSD图像。

如上所述，像素深度映射数据存储在像素缓冲器214中，而像素深度映射数据包括关于每个像素的深度坐标值或水平差异值。在一个优选的实施方式中，关于每个像素的深度坐标值或水平差异值被字幕解码单元210从伪深度值转换成物理深度值并接着被存储。在一种不同的实施方式中，关于每个像素的深度坐标值或水平差异值可以按照伪深度值的形式存储在像素缓冲器214中。在这种情况下，3D图形引擎220可以在参考DVLUT 218将伪深度值转换成物理深度值时执行3D呈现操作。

实际上的3D呈现操作可以通过采用现有的3D呈现方案或在将来可能被提出的方案中的一个或者通过采用可应用方案的在一起的任何组合来实现。本领域的技术人员可以很容易地实现这样的技术，因此仅仅为简洁起见将省略其详细的描述。

混合器/格式化器222(或其他等同部件)混合从3D图形引擎220传送来的3D字幕图像信号和从图像解码单元206传送来的左和右广播图像信号，并将混合后的信号输出至屏幕平面224。因此，包含于立体区域中的3D字幕以重叠的方式输出在屏幕平面224的3D图像上。

现在将参考图17详细描述如图16所示的接收字幕信息并在电视接收器中显示3D字幕的过程。

首先，从DVB广播流中提取节目映射表(PMT)并读出在该PMT中的字幕编辑描述符以识别关于字幕的基本信息。具体来说，利用在字幕编辑描述符内的字段“subtitling_type”来识别该字幕业务是否是3D业务(S250)。

接下来，解析PMT以识别“stream_type”值为‘0x06’的流的PID值(S252)。当“stream_type”值为‘0x06’时，其表示TS传送了包括关于MPEG-2的ISO/IEC 13818.1标准下的私有数据的PES包。由于DVB字幕编辑流是通过私有数据PES包来传送的，所以其可以是基于“stream_type”值所检测的字幕PES包的候选项。

在PES包中，DVB字幕PES具有字段值被设定为‘0x20’的“data_identifer”和字段值被设定为‘0x00’的“subtitle_stream_id”。因此在步骤S254中，检测具有字段值为‘0x20’的“data_identifer”和字段值为‘0x00’的“subtitle_stream_id”的PES包。

接下来，根据“segment_type”字段值分类并提取段数据(S256)。这里，如果“segment_type”字段值为‘0x40’，那么该段被分类为3D页组合段(3D_PCS)。如果“segment_type”字段值为‘0x41’，那么该段被分类为3D区域组合段(3D_RCS)。如果“segment_type”字段值为‘0x12’，那么该段被分类为CLUT定义段(CLUTDS)。如果“segment_type”字段值为‘0x42’，那么该段被分类为3D对象数据段(3D_ODS)。如果“segment_type”字段值为‘0x43’，那么该段被分类为3D显示定义段(3D_DDS)。如果“segment_type”字段值为‘0x44’，那么该段被分类为DVLUT定义段(DVLUTDS)。

在步骤S258中，通过利用3D_DDS、3D_PCS和3D_RCS识别要显示3D字幕的窗口空间(或区域)、页空间、对象区域空间的大小和位置、3D对象组合信息。在步骤S260中，对像素数据子块pixel-data_sub-block()和包含于3D_ODS中的3D坐标数据子块z_data_sub-block_3D()进行解码以获取关于3D字幕对象的伪色彩值和伪深度值。接下来，通过采用CLUT将伪色彩值转换成在3D显示中实际上要被输出的色彩值。而且，通过使用DVLUT将伪深度值转换成在3D显示中实际上要被输出的深度值(S262)。

最后，执行3D呈现以生成3D字幕位图，根据3D显示方案进行格式化，并接进行输出(S264)。

该示例性实施方式的特征可以在不改变这里所描述的技术思想或本质特征的情况下变化地修改，并且可以以很多种形式来实现。

例如，在上述描述中，为了向2D字幕提供3D属性，在像素级的水平差异值被用作额外地传送至接收器的信息的一个示例。但是，在一种不同的实施方式中，该水平差异值可以作为在立体图像对(例如，左图和右图)之间的值来提供。也就是说，代替关于每个平面的空间坐标，可以基于在该左图和右图中的基本视图通过每个段将关于扩展值的水平差异值(即，在该左图和右图中的另一个视图)提供为包含于3D_DDS、3D_PCS和3D_RCS中的z轴方向上的位置信息。在这种情况下，针对3D_DDS、3D_PCS和3D_RCS，通过将关于该基本视图的图像移动了包含在每个段中的水平差异值来生成关于该扩展的视图的图像，并与广播图像合成(例如，构成、组合等)以便被输出到立体显示器。在这种情况下，可以不发送3D坐标数据字块z_data_sub-block_3D()。在3D_ODS中，字段“top_surface_depth_block_length”和字段“hidden_surface_depth_block_length”被设定为0。此时，接收器可以通过使用3D_DDS、3D_PCS和3D_RCS和DVLUT来获取字幕的水平差异信息，并通过使用该水平差异信息来控制该字幕在立体显示器中的输出。

同时，在以上描述中，DVLUT被用来解读用于向关于每个对象的2D字幕提供立体效果的空间信息。在一种修改例中，采用DVLUT的伪深度值可以被用来指示在显示定义段(3D_DDS)中的字段“display_window_z-position_minimum”和字段“display_window_z-position_maximum”值和/或在对象区域组合段(3D_RCS)中的字段“region_z_address”值。

重新参考图16，该示例性实施方式的特定特征可以是(例如，控制装置、电路、专用处理器、集成芯片、和/或连同具有存储在存储媒介中的可由微处理器等执行的适当代码/命令的软件、硬件、和/或其组合而被实现的)装置的一部分，其至少包括选择器(208)或其他等同部件、3D字幕解码器(210)或其他等同部件、以及3D图形引擎(220)或其他等同部件。

选择器(208)可以接收从广播多媒体信号中获取的字幕数据流，并将接收到的字幕数据流中的多种字幕段分类为在定义涉及图形对象的字幕数据时所使用的3D对象数据段、在传送用于定义字幕显示区域的3D区域配置信息时所使用的至少三种3D显示特征段、在生成/更新深度值查找表时所使用的与深度相关联的定义段、和在生成/更新色彩查找表时所使用的与色彩相关联的定义段。

与所述选择器协同工作的3D字幕解码器(210)可以参考所述色彩查找表和所述3D显示特征段对所述3D对象数据段进行解码，并且参考用于将每个像素的伪深度值转换成物理深度值的所述深度查找表对按照像素进行编码的2D/3D对象进行解码，从而生成3D字幕位图图像信息。

与所述3D字幕解码器协同工作的3D图形引擎(220)可以基于所述深度值查找表和所述3D显示特征段将所述3D字幕位图图像信息处理成用来在图形上显示字幕以获得三维视觉显示效果的3D字幕图像信号。

该装置还可以包括处理单元(222)(或其他等同部件)，该处理单元接收在所述图形引擎处生成的3D字幕图像信号，并且接收从所述广播多媒体信号中所获取的经过解码的3D图像信号，并对所述3D字幕图像信号和所述经过解码的3D图像信号进行处理以使其适合以三维方式将图像和字幕一起显示。

另外，该装置还可以包括存储媒介，该存储媒介包括：至少存储包括3D显示定义段、3D页组合段、3D区域组合段的所述3D显示特征段的组合缓冲器(216)；至少存储所述3D字幕位图图像信息的像素缓冲器(214)；至少存储关于像素的深度信息的所述深度值查找表(DVLUT)(218)；和至少存储关于像素的色彩信息的所述色彩查找表(CLUT)(212)。

而且，可以理解，可以在三维显示装置中实现具有这种选择器、这种存储媒介、这种3D字幕解码器、这种3D图形引擎和这种处理单元的装置。

同时，应当注意，在本说明书中提到了ETSI(欧洲电信标准协会)所规定的数字视频广播(DVB)标准的多种技术标准。本领域的技术人员可以清楚地理解，这里所描述的许多特征可以依照与数字多媒体技术(例如，关于MPEG的标准、Blu-rayTM 3D标准、MVC：多视角视频编码、AVC：高级视频编码、关于SMPTE的标准、关于IEEE的标准、关于ITU的标准、关于SCTE的标准、DVB Mobile TV(DVB-H、DVB-SH、DVB-IPDC等)、以及包括NTSC、PAL、SECM、ATSC、HDTV、无线HD Video等技术的标准)、三维图形处理技术(例如，OpenGL标准、X3D标准、Mobile Graphics标准等)、3D显示相关的技术(例如，3D-NTSC、3D-PAL、3D-SECAM、MUTED：多用户3D电视显示、3D-TV、3D-HD、3D-PDPs、3D-LCDs等)等相关的、显然可适用于这里所描述的多种特征中的至少一些特征的附加和/或替代技术标准来实现。

由于本示例性的实施方式可以在不脱离其特征的情况下以多种形式实现，因此应当理解，除非另外规定，否则以上所描述的实施方式不应被上述的说明的任何细节所限制，而是应该在所附权利要求所限定的保护范围内广泛地理解。因此，落入权利要求的保护范围或者这种范围的等同物内的多种变型和修改故而应被所附权利要求所包括。

工业应用性

根据所描述的示例性实施方式，迄今为止，电视接收器(或其他类型的数字内容接收部件)可以按照立体或3D效果来显示字幕或其他文本形式的信息，以使得字幕可以与3D图像或视频自然地混合在一起。相应地，由于额外参数辅助地添加到现有的字幕信号传输/接收方法，因此可以实现与现有的技术标准的向后兼容性。

对于任何具有3D图像显示能力并且需要具有隐藏字幕(例如，字幕、文本形式的信息等)显示功能的显示装置而言，这里所描述的多种特征都可以实现。具体而言，本发明特征特别适用于立体显示装置，而与诸如双模式显示、时间序列模式显示等的格式化类型无关。

Claims

1.一种用于在三维3D显示装置中显示三维字幕的方法，该方法包括以下步骤：

接收步骤，在数字视频广播DVB方案中接收广播信号，该广播信号包括三维图像信号、字幕流、业务信息SI以及节目专用信息PSI，

其中所述字幕流包括多个字幕段并且所述业务信息SI和节目专用信息PSI包括在所述DVB方案中使用的具有多个字幕编辑描述符的节目映射表PMT，

其中所述多个字幕段的每一个包括与2D字幕和3D字幕相关的信息；

识别步骤，识别所述多个字幕编辑描述符，

其中所述多个字幕编辑描述符指示所述多个字幕段是否包括与3D字幕相关的信息，并且

其中所述多个字幕编辑描述符具有指示所述多个字幕段包括与3D字幕相关的信息的特定字段；以及

基于所述特定字段的值将所述多个字幕段分类为用于显示3D字幕的信号。

2.根据权利要求1所述的方法，其中，所述多个字幕段中的一段包括与深度相关的信息并且所述多个字幕段中的另一段包括所述三维区域组合信息。

3.根据权利要求2所述的方法，所述方法还包括以下步骤：

生成用于存储伪深度信息与真实深度信息之间的相互关系的深度值查找表；

其中，将所述与深度相关的信息表示为关于每个像素的伪深度信息，所述显示步骤包括参考所述深度值查找表将所述伪深度信息转换为所述真实深度信息。

4.根据权利要求3所述的方法，其中，在所述广播信号中包括用于生成或更新所述深度值查找表的查找表定义信息，并且所述接收步骤包括根据所述查找表定义信息来生成或更新所述深度值查找表。

5.根据权利要求3所述的方法，其中，关于像素的所述真实深度信息是针对所述像素在前向/后向方向上的深度值。

6.根据权利要求3所述的方法，其中，将关于所述像素的真实深度信息表示为对所述三维显示装置的屏幕平面的宽度的放大率。

7.根据权利要求4所述的方法，其中，所述查找表定义信息包括针对关于所述像素的所述伪深度信息的放大率与接收器的显示屏幕之间的相互关系。

8.根据权利要求3所述的方法，其中，所述真实深度信息是针对所述像素的水平差异值。

9.一种三维3D显示装置，该三维显示装置包括：

广播信号接收单元，其被配置为在数字视频广播DVB方案中接收广播信号，该广播信号包括三维图像信号、字幕流、业务信息SI以及节目专用信息PSI，

其中所述多个字幕段的每一个包括与2D字幕和3D字幕相关的信息，并且

其中所述多个字幕编辑描述符具有指示所述多个字幕段包括与3D字幕相关的信息的特定字段

选择过滤单元，其被配置为识别所述多个字幕编辑描述符，

其中所述多个字幕编辑描述符指示所述多个字幕段是否包括与3D字幕相关的信息，

其中所述多个字幕段基于所述特定字段的值被分类为用于显示3D字幕的信号；以及

解调单元，其被配置为对由所述广播信号接收单元接收到的所述广播信号的至少部分进行解调；

解码单元，其被配置为对经过所述解调单元解调的所述广播信号的至少部分进行解码；以及

显示单元，其被配置为将所述三维图像信号与所述三维字幕一起显示。

10.根据权利要求9所述的装置，所述多个字幕段中的一段包括与深度相关的信息并且所述多个字幕段中的另一段包括三维区域组合信息；并且所述装置还包括：

存储器，其被配置为存储指示伪深度信息与真实深度信息之间的相互关系的深度值查找表；

其中，将所述与深度相关的信息表示为关于每个像素的伪深度信息，并且所述组合与输出单元参考所述深度值查找表将所述伪深度信息转换为真实深度信息并基于所述真实深度信息来配置已经被形成为三维字幕数据的所述字幕流。

11.根据权利要求10所述的装置，其中，关于所述像素的所述真实深度信息是针对所述像素在前向/后向方向上的深度值。

12.根据权利要求10所述的装置，其中，关于所述像素的所述真实深度信息是针对所述像素的水平差异值。