CN101897193A

CN101897193A - 用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法

Info

Publication number: CN101897193A
Application number: CN2008801198629A
Authority: CN
Inventors: 尹国镇; 曹叔嬉; 许南淏; 金镇雄; 李寿寅
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2007-10-10
Filing date: 2008-06-19
Publication date: 2010-11-24
Also published as: US8396906B2; WO2009048216A1; US20100217785A1; EP2198625A4; KR101398168B1; KR20090037283A; JP2011502375A; CN103281589A; EP2198625A1

Abstract

提供了一种用于存储和再现立体数据的元数据结构以及一种用于基于该元数据结构来存储立体内容文件的方法。所述立体内容文件存储方法包括：存储立体内容的流；以及，当立体内容具有多于两个基础流时，存储用于将基础流划分为主要轨道和补充轨道的信息。

Description

用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法

技术领域

本发明涉及一种用于存储和再现立体数据的元数据结构、以及用于使用该元数据结构来存储立体内容文件的方法；且更具体地，涉及一种当一起提供二维(2D)和三维(3D)内容时所需的元数据结构(控制信息)、以及用于使用所述元数据结构来存储立体内容文件的方法。

该项工作得到了MIC/IITA的IT R&D计划[2005-S-403-02，“Developmentof Super-intelligent Multimedia Anytime-anywhere Realistic TV(SmarTV)Technology”]的支持。

背景技术

已经基于移动电话、数字相机、数字视频盘(DVD)、和PDP而在国内和国际上形成了使用立体内容的应用服务以及相关装置的市场。相应地，已经存在一种对于定义用于捕捉、存储、和再现立体内容的系统信息或控制信息(元数据)的标准以及包括所述标准的文件格式的需求。

题目为“Apparatus and method for processing 3D moving images usingMPEG-4 object descriptor and structure(用于使用MPEG-4对象描述符和结构来处理3D运动图像的设备和方法)”的韩国专利公布第2006-0056070号(在下文中，称为第一专利)公开了一种具有诸如3D运动图像的类型、各个显示类型、和视点之类的新信息的3D运动图像对象描述符。题目为method fortransmitting stereoscopic image data(用于传送立体图像数据的方法)的韩国专利申请第2006-0100258号(在下文中：第二专利)公开了一种包括视频数据单元和报头单元的文件格式、作为用于为了立体内容而解码的视频数据的文件格式，所述视频数据单元包括立体图像信息，并且所述报头单元包括用于解码和再现立体图像信息的元数据。

然而，所述第一和第二专利未能引入一种用于当一起组织和提供2D内容或3D内容时(即，当一起使用2D内容和3D内容时)标识内容的方法、一种用于提供当3D内容具有不同的立体相机和显示信息时的立体相机和显示信息、以及当3D内容由两个基础(elementary)流形成时的立体轨道参考信息的方法。

发明内容

技术问题

本发明的实施例旨在提供一种用于存储立体内容的方法。

本发明的另一实施例旨在提供一种用于当在各个3D终端环境中下载和再现2D内容和3D内容时通过标识2D内容和3D内容来存储立体内容、并且通过自动地接通/关断视差屏障而显示所标识的2D内容和3D内容的方法。

本发明的又一实施例旨在提供一种用于当立体内容具有不同的立体相机和显示信息时、通过片段来存储立体相机/显示信息的方法。

本发明的又一实施例旨在提供一种用于当立体内容具有两个基础流时存储用于标识主要/子轨道的立体内容、并且在维持与典型2D终端处的兼容性的同时去除在每个轨道中包括并使用的立体相机/显示信息的冗余的方法。

本发明的其他目的和优点可以通过以下描述来理解，并且通过参考本发明的实施例而变得明显。同样，对于本发明的领域的技术人员明显的是，可以通过所要求保护的部件及其组合来实现本发明的目的和优点。

技术方案

根据本发明的一方面，提供了一种用于存储立体内容的方法，所述方法包括：存储立体内容的流；以及当立体内容具有多于两个基础流时，存储用于将基础流划分为主要轨道和补充轨道的信息。

根据本发明的另一方面，提供了一种用于存储立体内容的文件格式结构，所述文件格式结构包括：媒体数据逻辑框(box)，用于存储立体内容的流；以及轨道参考逻辑框，用于当立体内容包括多于两个基础流时，存储用于将基础流划分为主要轨道和补充轨道的信息。

根据本发明的另一方面，提供了一种用于基于高级视频编码(AVC)补足增强信息(SEI)来存储立体内容的方法，所述方法包括：存储基于AVC而编码的立体内容，其中“立体视频信息SEI”包括指示了立体视频是“并排”类型的信息。

有益效果

根据本发明，可以方便地存储和提供由2D内容和3D内容形成的立体内容。通过经由2D内容和3D内容定界符信息而将视差屏障自动地改变为2D或3D显示，来使得用户能够方便地享受立体内容。

附图说明

图1是图示了用于提供立体内容的各个内容配置类型的图。

图2是图示了当存在MPEG-4系统信息时的、根据本发明实施例的用于立体视频应用格式的基本文件格式的图。

图3是图示了当不存在MPEG-4系统信息时的、根据本发明实施例的用于立体视频应用格式的基本文件格式的图。

图4是图示了当存在MPEG-4系统信息时的、根据本发明第一实施例的立体视频应用格式的图。

图5是图示了当不存在MPEG-4系统信息时的、根据本发明第一实施例的立体视频应用格式的图。

图6是图示了根据本发明实施例的“ishd”逻辑框被包括在“moov”逻辑框中的存储格式的图。在图6中，图a)示出了用于由一个源形成的3D内容的格式，而图b)示出了用于由两个源形成的3D内容的格式。

图7是图示了根据本发明实施例的“ishd”逻辑框被包括在“mdat”逻辑框中的存储格式的图。在图7中，图a)示出了由一个源形成的3D内容，而图b)示出了由两个源形成的3D内容。

图8是图示了根据本发明实施例的包括“ishd”和“meta”的存储格式的图。在图8中，图a)示出了由一个源形成的3D内容，而图b)示出了由两个源形成的3D内容。

图9是图示了根据本发明实施例的包括“ishd”逻辑框和LASeR的格式的图。在图9中，图a)示出了包括在“moov”逻辑框中包括的“ishd”逻辑框和LASer的格式，图b)示出了“ishd”逻辑框被包括在“moov”逻辑框中并且LASeR被包括在“mdat”逻辑框中的格式，而图c)示出了“ishd”和LASer被包括在“meta”逻辑框中。

图10是根据本发明实施例的当ES＝1时包括“ishd”逻辑框和“iloc”逻辑框的SS-VAF的图。

图11是根据本发明实施例的包括“ishd”逻辑框和“iloc”逻辑框的SS-VAF的图。

图12a)示出了在AVC中的SEI的基本结构中的包括“立体视频信息SEI(stereo video information SEI)”和“reserved_sei_message(保留的sei消息)”的部分，而图12b)示出了SEI在AVC流中的位置。

图13是图示了根据本发明实施例的使用“立体视频信息SEI”和“reserved_sei_message”的SS-VAF的图。

图14是图示了当ES＝2时仅仅由单一格式立体流形成内容的情况下的、根据本发明实施例的具有“tref”、“ishd”、和“iloc”逻辑框的SS-VAF的图。

图15是图示了根据本发明实施例的具有“tref”、“ishd”、和“iloc”逻辑框的SS-VAF的图。

图16是图示了根据本发明实施例的用于存储立体内容的方法的流程图。

图17是图示了根据本发明另一实施例的用于存储立体内容的方法的流程图。

图18是图示了根据本发明又一实施例的用于存储立体内容的方法的流程图。

具体实施方式

图1图示了用于提供立体内容的各个内容配置。图1的图a)示出了用于具有一个基础流ES(ES＝1)的内容的格式，而图1的图b)示出了用于具有两个基础流ES(ES＝2)的内容的格式。单一格式是当立体图像形成方案相同时并且当仅仅包括一个相机参数和一个显示信息时的用于内容的格式。多个格式是当立体图像形成方案不同时、当尽管立体图像形成方案相同但是相机参数不同时、或当包括多个显示信息或另一信息时的格式。

Stereoscopic_Content_Type包括：i)诸如双目3D视频服务之类的立体视频内容、ii)诸如双目3D静止图像服务(例如：幻灯片)、2D(单)视频和3D数据服务(预定的场景或部分)的组合之类的立体图像内容、iii)诸如2D(单)视频和3D视频(预定的场景或部分)的组合之类的单视场(monoscopic)和立体混合内容。

图2和3示出了根据本发明实施例的立体视频应用格式(SS-VAF)的基本结构。

图2是包括MPEG-4系统信息的文件格式结构，而图3是不包括MPEG-4系统信息的文件格式结构。如所示的，SS-VAF包括“ftyp”逻辑框、“moov”逻辑框、和“mdat”逻辑框。在下文中，将描述SS-VAF的逻辑框的语法和语义。在SS-VAF的结构中包括根据本实施例的逻辑框，可以根据其类型来改变其位置，并且可以独立地使用在所述逻辑框中包括的信息。

1.“scty”(立体内容类型)

“scty”表示内容的基本类型。即，通过“scty”来将内容分类为单视场内容或立体内容。这里，单视场内容意味着一般的2D图像。表1示出了“scty”的语法。可以在“ftyp”逻辑框或另一逻辑框中包括“scty”中的“Stereoscopic_Content_Type”。

表1

Aligned(8)class StereoscopicContentTypeBox extend Box(′sfty′){unsigned int(2) Stereoscopic_Content_Type:unsigned int(6) reserved；}

在表1，“Stereoscopic_Content_Type”表示立体内容类型，并且具有表2的含义。

表2

值	描述
		00	立体内容(3D)
01	单视场/立体混合内容(2D+3D)
		10～11	保留

2.“sovf”(立体对象视觉格式)

“sovf”表示立体内容的图像配置格式(或视觉格式)。表3示出了“sovf”的语法。“sovf”包括“Stereoscopic_Object_VisualFormat”。可以在典型的其他逻辑框或为了存储立体内容而新定义的逻辑框中包括“Stereoscopic_Object_VisualFormat”。

Table 3

Aligned(8)class StereoscopicObjectDataVisualFormat extend Box(′sovf′){unsigned int(4) Stereoscopic_Object_VisualFormat:unsigned int(4) reserved；}

在表3中，“Stereoscopic_Object_VisualFormat”表示立体内容的图像配置信息，并且具有表4的含义。

表4

值	描述
		0000	并排(side by side)

0001	从上到下
		0010	基于水平方向的场序
0011	基于垂直方向的场序
		0100	帧序
0101～0111	保留
		1000	主要+附加(完全尺寸)
1001	主要+附加(垂直方向的一半)
		1010	主要+附加(水平方向的一半)
1011	主要+附加(垂直方向/水平方向的一半)
		1100	主要+深度图

在表4中，“完全尺寸”意指补充图像的尺寸与主要图像的尺寸相同。“垂直方向的一半”表示补充图像的尺寸在垂直方向上是主要图像的尺寸的一半。“水平方向的一半”表示补充图像的尺寸在水平方向上是主要图像的尺寸的一半。“垂直方向/水平方向的一半”意指补充图像的尺寸在水平方向和垂直方向上是主要图像尺寸的一半。

3.“ssci”(立体内容信息)

“ssci”表示关于立体内容的最小/最大深度或视差(disparity)的信息。“ssci”使得3D终端能够再现适合于3D显示的3D图像。表5表示了“ssci”的语法。可以在其他典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括在“ssci”中包括的最小/最大深度信息。在表5中，“Max_of_depth(视差))”表示最大深度/视差信息(像素单位)，而“Min_of_depth(视差)”表示最小深度/视差信息(像素单位)。

表5

Aligned(8)class StereoscopicObjectContentInformation extend Box(′ssci′){unsigned int(32)Max_of_depth or disparity；unsigned int(32)Min_of_depth or disparity；}

4.“scpi”(立体相机参数信息)

“scpi”表示由立体相机捕捉的或者由相关的工具创建的立体内容的相机参数信息。表6示出了“scpi”的语法。同样，可以在其他典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括在“scpi”中包括的每个字段。

表6

Aligned(8)class StereoscopicCameraParameterInformation extend Box(′scpi′){unsigned int(32)Baseline；unsigned int(32)Focal_Length；unsigned int(32)Convergence_point_distnace；unsigned int(1)StereoscopicCamera_setting；unsigned int(7)Reserved；}

在表6中，“基线(Baseline)”表示左侧相机和右侧相机之间的距离，“Focal_Length”意指图像平面(CCD传感器)和相机中心之间的距离，而“Convergence_point_distance”表示会聚点和基线之间的距离。这里，会聚点意指左侧相机和右侧相机的视觉线的交叉点。“StereoscopicCamera_setting”表示立体摄影/数据的相机安排，并且具有表7的含义。

表7

值	描述
		0	平行安排
1	交叉安排

5.“iods”(对象描述符逻辑框)

“iods”表示关于初始对象描述符(IOD)的信息，所述初始对象描述符用于当包括诸如BIFS或LASeR之类的场景信息时、表现BIFS流或OD流的位置。表8示出了“iods”的语法。

表8

Aligned(8)class ObjectDescriptoratBox extend Box(′iods′){ObjectDescriptor OD；}

6.“soet”(立体一个ES类型逻辑框)

“soet”表示当编码器输出一个基础流(ES)时的ES的类型。表9示出了“soet”的语法。

表9

Aligned(8)class StereoscopicOnesTypeBox extend Box(′soet′){unsigned int(3)Stereoscopic_OneES_Type:unsigned int(5)Rreserved；}

在表9中，“Stereoscopic_OneES_Type”表示由一个ES形成的立体数据的图像配置格式的实施例，并且具有表10的含义。

表10

值	描述
		000	并排
001	从上到下
		010	基于水平方向的场序
011	基于垂直方向的场序
		100	帧序
101	单视场/立体混合数据
		110	基于补充数据而形成的参考图像/立体数据
111	保留

7.“stet”(立体两个ES类型逻辑框)

“stet”表示当编码器输出两个基础流(ES)时的每个ES的类型。表11表示了“stet”的语法。

表11

Aligned(8)class StereoscopicTwoesTypeBox extend Box(′stet′){unsigned int(2) Stereoscopic_TwoES_Type:}

在表11中，“Stereoscopic_TwoES_Type”表示由两个ES形成的立体数据的图像配置格式的实施例，并且具有表12的含义。

表12

值	描述
		000	参考图像
001	补充数据(具有参考图像的相同尺寸的图像)
		010	补充数据(具有参考图像的垂直方向上一半尺寸的图像)

011	补充数据(具有参考图像的水平方向上一半尺寸的图像)
		100	补充数据(具有参考图像的水平方向和垂直方向上一半尺寸的图像)
101	补充数据(深度图)
		110	补充数据(视差图)
111	保留

8.“sstt”(立体时间表逻辑框)

“sstt”表示关于当一起使用单视场内容和立体内容时、场景中的单视场内容和立体内容的开始和结束的信息。表13示出了根据本发明第一实施例的“sstt”的语法。可以在其他典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括“sstt”的每个字段。

表13

Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i；unsigned int(8)Mono/stereoscopic_Scene_count；for(i＝0；i＜＝Mono/stereoscopic_Scene_count；i++){unsigned int(4)Mono/stereoscopic_identifier；unsigned int(4)Reserved；unsigned int(32)Start_Time；}

在表13中，“Mono/stereoscopic_Scene_count”表示当由2D内容和3D内容一起形成立体内容时单视场/立体场景改变的数目。即，如果立体内容由2D→3D→2D形成，则将“Mono/stereoscopic_Scene_count”设置为2。同样，如果立体内容仅仅由3D内容形成，而没有2D内容，则将“Mono/stereoscopic_Scene_count”设置为2。这种信息可以用于3D终端中的2D/3D显示自动改变。

“Mono/stereoscopic_identifier”通过时间来表示内容类型，并且具有表14的含义。同样，“Mono/stereoscopic_identifier”可以用于标识2D内容或3D内容。例如，向“Mono/stereoscopic_identifier”分配1比特。如果“Mono/stereoscopic_identifier”是“0”，则“Mono/stereoscopic_identifier”表示2D内容。如果“Mono/stereoscopic_identifier”是“1”，则“Mono/stereoscopic_identifier”表示3D内容。“Start_Time”通过时间来表示内容开始时间。

表14

值	描述
		0000	单视场
0001	并排
		0010	从上到下
0011	基于水平方向的场序
		0100	基于垂直方向的场序
0101	帧序
		0110～0111	保留
1000	主要+附加(完全尺寸)
		1001	主要+附加(垂直方向的一半)
1010	主要+附加(水平方向的一半)
		1011	主要+附加(垂直方向/水平方向的一半)
1100	主要+深度图
		1101	主要+视差图

表15示出了根据本发明第二实施例的“sstt”的语法。在表15中，“Start_Time”表示立体内容的开始时间，而“End_Time”表示立体内容的结束时间。

表15

Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i；unsigned int(8)Stereoscopic_Scene_count；for(i＝0；i＜＝Stereoscopic_Scene_count；i++){unsigned int(32)Start_Time；unsigned int(32)End_Time；}

表16示出了根据本发明第三实施例的“sstt”的语法。“Start_Sample_number”表示单视场/立体内容开始采样数目或采样的数目。即，采样的数目表示与单视场或立体对应的全部采样的数目。这里，采样意味着单独的视频帧和一系列时间邻接的视频帧。

表16

Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i；unsigned int(16)Mono/stereoscopic_Scene_count；for(i＝0；i＜＝Mono/stereoscopic_Scene_count；i++){unsigned int(4)Mono/stereoscopic_identifier；unsigned int(32)Start_Sample_number；}

表17示出了根据本发明第三实施例的“sstt”的语法。

表17

Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i；unsigned int(8)Stereoscopic_Scene_count；for(i＝0；i＜＝Stereoscopic_Scene_count；i++){unsinged int(4)Stereoscopic_compositiontype；unsigned int(32)Start_sample_number；unsigned int(32)End_sample_number；}

在表17中，当“Stereoscopic_compositiontype”由各个立体配置类型形成时，它通过时间来表示内容类型，并且具有表18的含义。“End_Sample_number”表示立体内容结束采样数目或采样的数目。

表18

值	描述
		0000	并排
0001	从上到下
		0010	基于水平方向的场序
0011	基于垂直方向的场序
		0100	帧序
0101～0111	保留
		1000	主要+附加(完全尺寸)

1001	主要+附加(垂直方向的一半)
		1010	主要+附加(水平方向的一半)
1011	主要+附加(垂直方向/水平方向的一半)
		1100	主要+深度图
1101	主要+视差图

9.“sesn”(立体ES Num逻辑框)

“sesn”表示从编码器输出的基础流的数目。表19示出了“sesn”的语法。在表19中，“stereoscopic_ESNum”表示从用于立体内容的编码输出的基础流的数目。

表19

Aligned(8)class StereoscopicESNumbBox extend Box(′seen′){unsigned int(16)stereoscopic_ESNum；}

10.“tref”(轨道参考逻辑框)

“tref”是在提供用于使得一个轨道能够参考其他轨道的信息的基于ISO的文件格式中定义的逻辑框。在“trak”(轨道逻辑框)中包括“tref”。表20示出了根据本发明实施例的“tref”的语法。这里，“track_ID”表示要参考的轨道的标识。“reference_type”具有表21的含义。

表20

aligned(8)class TrackReferenceBox extends Box(′tref′){}aligned(8)class TrackReferenceTypeBox(unsigned int(32) reference_type)extends Box(reference_type){unsigned int(32)track_IDs[]；}

表21

hint(提示)	所参考的(多个)轨道包含用于该提示轨道的原始媒体
		cdsc	该轨道描述所参考的轨道

svdp	该轨道具有对于作为其主视图轨道的所参考轨道的依赖性，并且它可以包含用于所参考的轨道的立体相关“元(meta)”信息。

具有两个基础流(ES)的立体视频包括两个轨道，并且连接到与作为场景描述的LASeR(如，传统的LASeR)中的视频相关的两个节点。即，根据传统技术来将具有两个ES的立体视频识别为两个对象。然而，因为将立体视频最终转换为一个3D视频格式并在终端中进行再现，所以将立体视频识别为一个对象。即，尽管使用两个轨道来形成立体视频，但是应该仅仅使用一个节点来连接立体视频，这是因为将立体视频转换为一个3D视频格式以再现场景。如果立体视频包括两个ES，则需要具有关于两个轨道之间的关系的信息，并且在“tref”中的“svdp”处定义立体轨道参考信息(如表22所示)，并且进行使用。尽管没有使用LASeR，但是需要使用诸如“svdp”之类的立体轨道参考信息，以用于存储具有两个ES的立体内容。

如果立体内容包括两个基础流，则“tref”使得能够将两个轨道标识为主要轨道和附加轨道。同样，“tref”使得附加轨道能够参考主要轨道，并且仅仅在所述轨道之一中存储立体视频相关的立体相机和显示信息。因此，可以消除信息的冗余。此外，尽管立体内容包括两个轨道，但是可以将一个轨道连接到LASeR的一个视频节点。

在本发明中，引入了初始立体报头(ishd)的结构，以便使得立体内容能够支持各个立体图像配置格式和相机参数。根据本发明的实施例，可以独立地使用在初始立体报头(ishd)中包括的信息。

在立体流具有各个立体格式和相机参数的情况下，通过“iloc”来标识每个立体流以及每个立体流的开始和长度，并且向每个片段分配item_ID。因此，初始立体报头(ishd)必须基于该item_ID来提供关于每个立体格式或相机参数的信息。这里，当立体流一起包括立体片段和单视场片段作为一个序列时，项目意指一个立体片段。

如果立体流包括三个立体片段、并且每个立体片段包括不同的ishd信息，则通过item_ID及其描述信息来标识所述立体片段。然而，如果三个立体片段具有相同的ishd信息，则第二和第三立体片段包括示出第二和第三立体片段包括第一立体片段的相同ishd信息的字段。这种结构可以有利地去除在初始立体报头(ishd)中包括的信息冗余。

图4是图示了根据本发明实施例的具有MPEG-4系统信息的立体视频应用格式(SS-VAF)的图，而图5是图示了根据本发明实施例的不具有MPEG-4系统信息的立体视频应用格式(SS-VAF)的图。

当一起使用单视场内容和立体内容时，需要定界符信息来确定单视场内容或立体内容什么时候开始或结束。可以根据其中包括的单视场/立体内容的开始/结束信息、采样的2D/3D标识、和采样的数目(AU)来标识单视场内容和立体内容。

图6到图8示出了用于支持像图1一样的各个内容配置格式的存储格式的构思结构。其基本结构包括“ftyp”逻辑框、“moov”逻辑框、和“mdat”逻辑框。“ftyp”逻辑框定义文件类型。即，“ftyp”逻辑框通过包括表现它是立体内容文件还是单视场/立体内容文件的字段来表现3D内容文件。“moov”逻辑框包括用于再现媒体数据的所有系统(元)信息，而“mdat”逻辑框包括实际的媒体数据。需要具有基于所示格式的用于立体内容的新补充信息，并且根据补充信息的位置来改变存储格式的结构。

图6示出了包括在“moov”逻辑框中包括的初始立体报头(ishd)的存储格式的结构，所述初始立体报头具有关于形成了3D内容的源的数目的信息和新的补充信息。图6的图a)示出了用于具有一个源的3D内容的存储格式。如图a)所示，一个帧包括左侧图像信息和右侧图像信息两者(例如，并排)。图6的图b)示出了用于具有两个源的3D内容的存储格式。如图b)所示，在对应的帧中单独地包括左侧图像信息和右侧图像信息中的每一个。根据所包括的媒体数据的数目来改变“moov”逻辑框中的轨道的数目。“moov”逻辑框的轨道包括用于再现包括在“mdat”逻辑框中的媒体数据的整个系统信息(元信息)。

这种存储格式需要一种用于新补充信息并且支持该新补充信息的结构。在本实施例中，新定义初始立体报头(ishd)，并且将其包括在“moov”逻辑框的轨道中。可以在“moov”逻辑框中或在存储格式中改变初始立体报头(ishd)的位置。

图7示出了具有含有关于新定义的初始立体报头的信息的“mdat”逻辑框的存储格式结构。图7的图a)示出了用于由一个源形成的3D内容的存储格式，而图7的图b)示出了用于由两个源形成的3D内容的存储格式。如所示的，可以在维持“moov”逻辑框的典型结构的同时、通过包括在“mdat”逻辑框中包括“ishd”流的信息来实施该存储格式。

图8示出了包括具有ishd信息的“meta”逻辑框的存储格式。图8的图a)示出了用于由一个源形成的3D内容的存储格式，而图8的图b)示出了用于由两个源形成的3D内容的存储格式。

表22示出了用于通知在“mdat”逻辑框中包括ishd信息的结构。在“stsd”(采样描述)逻辑框中包括这种结构。

表22

//ishd序列Class ishdsampleEntry(codingname)extends SampleEntry(′ishd′){}

图9示出了基于图6到图8所示的结构的、具有关于场景描述符的信息的存储格式。场景描述符用于各个多媒体和与用户的交互的场景配置。在本实施例中，将LASeR用作场景描述符。

图9的图a)示出了在“moov”逻辑框中包括用于存储场景描述符流的附加逻辑框的存储格式。图9的图b)示出了包括具有场景描述符流的“mdat”逻辑框、具有用于通知场景描述符流被包括在“mdat”逻辑框中的附加轨道的“moov”逻辑框、和具有关于场景描述符流的信息的“stsd”逻辑框的存储格式。即，它涉及在轨道中搜索“stsd”逻辑框、分析该轨道表现哪个信息(场景描述符/视频/音频)、和基于分析结果而使用在“mdat”逻辑框中存储的信息来进行解码。图9的图c)示出了包括具有关于所定义的场景描述符的信息的“meta”逻辑框的存储格式结构。

表23到表25示出了支持图1的所有3D内容配置格式的ishd结构的实施例。

表23

Class ishd{

unsigned int(16)num_MonoStereo_scene；if(num_MonoStereo_scene){for(i＝0；i＜num_MonoStereo_scene；i++)unsigned int(16)start_sample_index；unsigned int(3)Composition_type；unsigned int(1)numofES；unsigned int(1)LR_first；unsigned int(3)Reserved；}}elseunsigned int(3)Composition_type；unsigned int(1)numofES；unsigned int(1)LR_first；stereoscopicCameraInfo[0...1]；stereoscopicContentsInfo[0...1]；}

表24

Class ishd{unsigned int(16)num_MonoStereo_scene；if(num_MonoStereo_scene){for(i＝0；i＜num_MonoStereo_scene；i++)unsigned int(16)start_sample_index；unsigned int(3)Composition_type；unsigned int(1)numofES；unsigned int(1)LR_first；unsigned int(3)Reserved；}}elseunsigned int(3)Composition_type；unsigned int(1)numofES；
	unsigned int(1) LR_first；}

表25

Class ishd{unsigned int(16)num_MonoStereo_scene；if(num_MonoStereo_scene){for(i＝0；i＜num_MonoStereo_scene；i++)unsigned int(16)start_sample_index；unsigned int(3)Composition_type；unsigned int(1)numofES；unsigned int(1)LR_first；stereoscopicCameraInfo[0...1]；stereoscopicContentsInfo[0...1]；unsigned int(3) Reserved；}}elseunsigned int(3)Composition_type；unsigned int(1)numofES；unsigned int(1)LR_first；stereoscopicCameraInfo[0...1]；stereoscopicContentsInfo[0...1]；}

在表23到表25中，“num_MonoStereo_scene”表示当立体内容由2D内容和3D内容一起形成时的场景的数目。“num_MonoStereo_scene”还表示当立体内容由各个3D内容形成时的场景的数目。例如，立体内容由2D内容、3D内容、和2D内容[(2D)(3D)(2D)]形成，num_MonoStereo_scene变为3(Num_MonoStereo_scene＝3)。如果以并排方案(场序)来形成立体内容，则num_MonoStereo_scene变为2(Num_MonoStereo_scene＝2)。此外，如果立体内容以单一格式由3D内容形成，则num_MonoStereo_scene变为1(Num_MonoStereo_scene＝1)。

可以将“Start_sample_index”用作每个内容的开始采样数目(即，一般的帧数)或根据每个内容类型而包括的采样的数目。“numofES”表示在“mdat”逻辑框中包括的视频流的数目。

“Composition_type”表示用于标识2D内容和3D内容的格式的信息。可以将“Start_sample_index”和“Composition_type”用作用于支持2D/3D显示模式的各个3D终端处的自动显示开/关的基本信息。“Composition_type”具有表26的含义。

表26

“LR_first”表示左侧图像和右侧图像之间具有较高优先级的一个。即，“LR_first”通知左侧图像和右侧图像之间首先编码的图像。

“stereoscopicCameraInfo(立体相机信息)”对象表示用于3D内容的相机参数信息。表27示出了“stereoscopicCameraInfo”对象的实施例。可以在其他典型的逻辑框或根据本发明实施例而新定义的逻辑框中包括根据本实施例的相机参数信息。在表27中，“StereoscopicCamera_setting”表示当再现或摄影3D内容时的相机安排。即，“StereoscopicCamera_setting”表示“平行”和“交叉”之一。“Baseline(基线)”表示立体相机之间的距离，而“Focal_Length”表示从镜头到图像平面的距离。同样，“ConvergencePoint_distance”表示从连接了左侧相机和左侧相机的基线到会聚点的图。

表27

StereeoscopicCameraInfo{
	unsigned int(1) StereoscopicCamera_setting；unsigned int(7) Reserved＝1111；unsigned int(16)Baseline；unsigned int(16)Focal_Length；unsigned int(16)ConvergencePoint_distance；}

“StereoscopicContentsInfo(立体内容信息)”对象表示用于显示3D内容的最小信息。表28示出了“StereoscopicContentsInfo”对象的实施例。可以在其他典型的逻辑框或根据本实施例而新定义的逻辑框中包括在“StereoscopicContentsInfo”中包括的信息。“Max_disparity”表示3D内容的最大视差尺寸，而“Min_disparity”表示3D内容的最小视差尺寸。

表28

StereeoscopicContentsinfo{unsigned int(16)Max_disparity；unsigned int(16)Min_disparity；}

可以将“StereoscopicCameraInfo”和“StereeoscopicContentsinfo”中的信息表达为诸如MPEG-7元数据之类的附加描述，并且进行存储。

图10是图示了当ES＝1时的根据本发明实施例的SS-VAF的图。

“ftyp”逻辑框表示是否包括立体内容。当整个基础流是3D时，并且当基础流由2D/3D混合流形成时，它们被认为是立体内容。

当立体内容由2D/3D流形成时，需要2D/3D流的开始信息和长度信息。针对开始信息和长度信息，使用作为基于ISO的文件格式(11496-12)的典型逻辑框的“iloc”逻辑框。在立体内容的情况下，“iloc”逻辑框提供所存储文件中的立体片段的位置。

通过“ishd”逻辑框来获得与区别2D流和3D流相关的信息。尽管在2D/3D混合流的情况下包括多个3D流，但是如果多个3D流是相同的信息(即，如果它是单一格式)，则通过参考一个“ishd”信息来获得与3D流相关的信息。

在立体内容仅仅由单一格式的3D流形成的情况下，可以使用“ishd”逻辑框、而不使用“iloc”逻辑框来表达立体数据。同样，使用“iloc”逻辑框来检测每个格式的偏移/长度值，并且如果当ES＝1时、3D流由多个格式形成，则通过“ishd”逻辑框来获得格式信息。在此情况下，“ishd”逻辑框包括关于多个格式的信息。

图11是图示了当ES＝2时的根据本发明实施例的SS-VAF的图。在ES＝2的情况下，在对应的“trak”逻辑框中包括左侧流信息和右侧流信息。由于如上所述将立体数据转换为预定格式并进行显示，则将左侧流信息和右侧流信息形成为两个轨道。然而，需要示出左侧流和右侧流之间的关系，以便使得将两个轨道识别为一个对象。例如，如果左侧图像是主要图像而右侧图像是附加图像，则可能通过表达在具有右侧图像流信息的“trak”逻辑框和具有左侧图像流信息的“trak”逻辑框之间的关系来去除“ishd”逻辑框中的冗余。如果在右侧图像流信息中包括的“ishd”中的相机参数和显示信息与在左侧图像流信息中包括的“ishd”中相同，则可以使用在左侧图像流信息中的“ishd”中包括的信息，而无需附加描述。为了表达这种关系，在本实施例中引入了“tref”逻辑框和“svdp”逻辑框。

当与每个格式对应的3D流是由存储为左侧和右侧流的3D流上的多个格式的3D流形成时，需要检测它的定界符、开始、和长度。通过作为基于ISO的文件格式(14496-12)的典型逻辑框的“iloc”逻辑框来获得所述开始和长度信息。同样，通过“ishd”逻辑框来获得与多个格式的3D流的定界符相关的信息。表29示出了根据本发明实施例的单一格式的“ishd”逻辑框的语法。

表29

Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0)unsigned int(8)Stereoscopic_Composition_Type；unsigned int(1)LR_first；unsigned int(1)Is_camParams；unsigned int(1)Is_disInfo；unsigned int(5)Reserved；//所有以下是可选字段if(Is_CamParams){unsigned int(32)Baseline；unsigned int(32)focallength；unsigned int(32)convergence_distance；
	unsigned int(1)Is_camera_cross}if(Is_camera_cross){unsigned int(32)rotation[]；unsgiend int(32)translation[]；unsigned int(7)reserved；}if(Is_disInfo){Int(16)MinofDisparity；Int(16)MaxofDisparity；}

“Is_camParams”表示是否存在相机参数，“Is_disInfo”表示是否存在立体内容显示信息，“Bseline”表示左侧相机和右侧相机之间的距离，“focallength”表示从镜头到图像平面(底片)的距离，而“convergence_distance”表示从基线的中心到会聚点的距离。基线连接左侧相机和右侧相机，而会聚点是左侧和右侧相机的视线的交叉点。在平行轴相机的情况下，“convergence_distance”具有无穷大的值。为了表达它，向所有比特分派1。

同样，当“Is_camera_cross”是“1”时，“Is_camera_cross”表示交叉轴相机，而当“Is_camera_cross”是“0”时，“Is_camera_cross”表示平行轴相机。“rotation(旋转)”表示到对象的相机方位角。“translation(平移)”表示立体相机是否运动(当所有比特是0时，没有立体相机运动)。“MinofDisparity”表示左侧和右侧图像的最小视差尺寸，而“MaxofDisparity”表示左侧和右侧图像的最大视差。

表30示出了多个格式的“ishd”逻辑框的语法。“Item_count”表示多个格式情况下的格式的信息描述的数目。“Item_ID”表示每个格式的整体(integer)名称，并且用于标识立体内容中的各个立体格式。这里，与“iloc”逻辑框的item_ID一起使用该“Item_ID”。

表30

Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0)unsigned int(16)item_count；for(i＝0；i＜item_count；i++){unsigned int(16)item_ID；unsigned int(8)Stereoscopic_Composition_Type；unsigned int(1)LR_first；unsigned int(1)Is_camParams；unsigned int(1)Is_disInfo；unsigned int(5)Reserved；//所有以下是可选字段if(Is_CamParams){unsigned int(32)baseline；unsigned int(32)focallength；unsigned int(32)convergence_distance；unsigned int(1)Is_camera_cross}if(Is_camera_cross){unsigned int(32)rotation[]；unsigend int(32)translation[]；unsigned inet(7)reserved；}if(Is_disInfo){Int(16)MinofDisparity；Int(16)MaxofDisparity；}//其他附加信息if(other_flag){}}

在下文中，将描述高级视频编码(AVC)和补足增强信息(SEI)。SEI包括具有与解码和显示相关的消息信息的“立体视频信息SEI”，并且在AVC流内传送SEI消息。

图12是包含NAL单元的单一视频基础流的流程图。图12的图a)示出了包括“立体视频信息SEI”和“reserved_sei_message”的部分，而图12的图b)示出了AVC流中的SEI的位置。表31示出了“立体视频信息SEI”消息。

表31

stereo_video_info(payloadSize){	C	描述符
			field_views_flag	5	u(1)
if(field_views_flag)
			top_field_is_left_view_flag	5	u(1)
else{
			current_frame_is_left_view_flag	5	u(1)
next_frame_is_second_view_flag	5	u(1)
			}
left_view_self_contained_flag	5	u(1)
			right_view_self_contained_flag	5	u(1)
}

“Field_views_flag”表示是否存在基于场的立体流。当“Top_field_is_left_view_flag”是“1”时，它表示以垂直方向交织格式(左侧视图优先)而形成的立体内容，而当“Top_field_is_left_view_flag”是“0”时，它表示以垂直方向行交织格式(右侧视图优先)而形成的立体内容。当“Current_frame_is_left_view_flag”是“1”时，它表示当前帧表现了左侧视图，而当它是“0”时，表示当前帧示出了右侧视图。当“Next_frame_is_second_view_flag”是“1”时，它表示立体图像由当前帧和下一帧形成，而当它是“0”时，表示立体图像由当前帧和前一帧形成。当“Left_view_self_contained_flag”是“1”时，它表示将流包覆(coat)为与右侧视图没有相关性的独立流，而当它是“0”时，表示基于与右侧视图的相关性来包覆流。当“Right_view_self_contained_flag”是“1”时，它表示将流包覆为与左侧视图没有相关性的独立流，而当它是“0”时，表示基于与左侧视图的相关性来包覆流。

“立体视频信息SEI”信息包括“stereoscopic_composition_type”之中的表32的格式。然而，不支持“并排”格式

表32

1	垂直方向交织格式
		2	帧序格式

3	场序格式
		4	单视场左侧图像
5	单视场右侧图像

在下文中，引入了用于使用典型的AVC SEI信息来服务立体内容的方法和存储格式。仅当通过AVC来编码立体内容时，它是可能的。

引入使用“reserved_sei_message”的SS-VAF，作为添加基于典型的“立体视频信息SEI”的每个立体流所需的相机参数和显示信息。同样，可以像表33一样扩展和使用“立体视频信息SEI”。当“Side_by_side_flag”是“1”时，在左侧视图优先的情况下，将它形成为一帧中的左侧图像和右侧图像。当“Side_by_side_flag”是“0”时，在右侧视图优先的情况下，将它形成为一帧中的左侧图像和右侧图像。在表33中，“C”表示语法的类别，而“u(1)”意指使用1比特的“无符号整数”。

表33

stereo_video_info(payloadSize){	C	描述符
			field_views_flag	5	u(1)
if(field_views_flag)
			top_field_is_left_view_flag	5	u(1)
else{
			current_frame_is_left_view_flag	5	u(1)
next_frame_is_second_view_flag	5	u(1)
			}
else{
			left_view_self_contained_flag	5	u(1)
right_view_self_contained_flag	5	u(1)
			}

side_by_side_flag		u(1)
			}

表34定义了使用AVC的SEI信息之中的“reserved_sei_message(有效负载尺寸)”的立体相机信息。这里，可以添加其他的相机信息。可以独立地使用所添加的信息。基于此，可以获得用于立体内容流的相机参数信息。

表34

stereo_camera_info(payloadSize){if(Is_CamParams){baseline；focallength；convergence_distance；if(Is_camera_cross){rotation[]；translation[]；}}

C55555

描述符U(32)U(32)U(32)U(32)U(32)

表35定义了用于使用AVC的SEI信息之中的“reserved_sei_message(有效负载尺寸)”来显示立体内容的信息。基于在表35中定义的信息，提取立体内容视差值。

表35

stereo_display_info(payloadSize){if(Is_disInfo){MinofDisparity；MaxofDisparity；}

C55

描述符U(16)U(16)

然而，可能通过将上面信息组合为一个SEI_message(SEI消息)来提供立体相机和显示信息。

图13是图示了使用立体视频信息和保留的SEI的SS-VAF的图。在所示的应用格式中选择性地包括LASeR。

在立体内容由2D/3D混合流形成的情况下，通过“iloc”逻辑框而在3D流片段期间获得在AVC流SEI消息中定义的3D流信息。这里，3D流信息可以包括“立体视频信息SEI”、“立体相机信息SEI”、和“立体显示信息SEI”。在立体内容仅仅由单一格式的3D流形成的情况下，可以使用在AVC流SEI消息中定义的3D流信息来表达立体内容。这里，3D流信息可以包括“立体视频信息SEI”、“立体相机信息SEI”、和“立体显示信息SEI”。

图14是图示了当立体内容包括两个基础流(ES)并且仅仅由单一格式立体流形成时的SS-VAF的图。在ES＝2的情况下，在每个对应的“trak”中包括左侧流信息和右侧流信息。这里，必须示出左侧流和右侧流之间的关系。例如，如果左侧图像是主要图像而右侧图像是补充图像，则可能通过示出在包括右侧图像流信息的“trak”逻辑框和包括左侧图像流信息的另一“trak”逻辑框之间的关系来去除“ishd”信息的冗余。这种关系使用在基于ISO的文件格式中包括的“tref”逻辑框。它允许描述用于再现所必须的所有trak_ID(轨道ID)。因此，利用右侧图像流(补充图像)中的“trak”中的“tref”来描述所有的trak_ID。

表36示出了根据本发明实施例的支持各个立体配置格式和相机参数情况下的“ishd”逻辑框的语法。“item_ID”表示定义了下一信息的项目的ID，并且具有大于1的值。当“current_indicator”是“1”时，它表示接下来描述的信息的有效性，而当它是“0”时，表示先前描述的信息与接下来描述的信息相同。然而，如果item_ID＝1，则它意指不存在接下来将描述的信息。即，终端基于“current_indicator”来确定接下来将描述的信息的有效性，并且当它是0时，确定出它与先前描述的“ishd”信息相同。

同样，“LR_first”表示左侧图像和右侧图像的参考位置选择。“Is_camParams”表示是否存在相机参数。“Is_displaySafeInfo”表示是否存在立体内容显示信息。“Baseline”表示左侧相机和右侧相机之间的距离。“focallength”表示从CCD到图像平面(底片)的距离。当“Is_camera_cross”是“1”时，它表示交叉轴相机，当它是“0”时，表示平行轴相机。

表36

Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0)unsigned int(16)item_ID；

unsigned int(1)current_indicatior；unsigned int(8)Stereoscopic_Composition_Type；unsigned int(1)LR_first；unsigned int(1)Is_camParams；unsigned int(1)Is_displaySafeInfo；unsigned int(4)Reserved；//所有以下字段是可选字段if(Is_CamParams){unsigned int(32)baseline；unsigned int(32)focallength；unsigned int(1)Is_camera_crossif(Is_camera_cross){unsigned int(32)convergence_distance；unsigned int(32)rotation[]；unsgiend int(32)translation[]；unsigned int(7)reserved；}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance；int(16)VerticalDisparity；int(16)MinofDisparity；Int(16)MaxofDisparity；}//其他附加信息if(other_flag){}aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0){unsigned int(16)item_count；ishdEntry[item_count]ishds；}

此外，“convergence_distance”表示从基线的中心到会聚点的距离(在平行相机的情况下，“convergence_distance”具有无穷大的值。当所有的比特都是1时，它表示无穷大的距离。)“rotation(旋转)”表示对于对象的相机方位角，而“translation(平移)”表示立体相机的运动(当所有的比特都是0时，它表示没有立体相机运动)。同样，“VerticalDisparity(垂直方向视差)”表示左侧和右侧图像的垂直方向视差尺寸，“MinofDisparity”表示左侧和右侧图像的最小水平方向视差尺寸，“MaxofDisparity”表示左侧和右侧图像的最小视差尺寸，而“项目计数”表示下一阵列中的条目的数目。

表37示出了根据本发明第一实施例的用于支持各个相机参数的“ishd”逻辑框的语法。这里，如果立体配置格式相同，则参考右侧前一“ishd”信息。同样，可以将在“ishd”中包括的相机参数和显示信息分割到附加逻辑框，并进行存储。

表37

Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0)unsigned int(16)item_ID；unsigned int(8)Stereoscopic_Composition_Type；unsigned int(1)LR_first；unsigned int(1)current_indicatior；unsigned int(1)Is_camParams；unsigned int(1)Is_displaySafeInfo；unsigned int(4)Reserved；//所有以下字段是可选字段if(Is_CamParams){unsigned int(32)baseline；unsigned int(32)focallength；unsigned int(1)Is_camera_crossif(Is_camera_cross){unsigned int(32)convergence_distance；unsigned int(32)rotation[]；unsgiend int(32)translation[]；{unsigned int(7) reserved；}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance；

int(16)VerticalDisparity；int(16)MinofDisparity；int(16)MaxofDisparity；}//其他附加信息if(other_flag){}aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0){unsigned int(16)item_count；ishdEntry[item_count]ishds；}

表38示出了根据本发明第二实施例的用于支持各个相机参数的“ishd”逻辑框的语法。假设立体配置格式相同并且参考右侧前一“ishd”。

表38

Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0)unsigned int(8)Stereoscopic_Composition_Type；unsigned int(1)LR_first；unsigned int(7)Reserved；unsigned int(16)item_count；for(i＝0；i＜item_count；i++){unsigned int(16)item_ID；unsigned int(1)current_indicatior；unsigned int(1)Is_camParams；unsigned int(1)Is_displaySafeInfo；unsigned int(5)Reserved；//所有以下字段是可选字段if(Is_CamParams){unsigned int(32)baseline；unsigned int(32)focallength；unsigned int(1)Is_camera_cross

unsigned int(7)reserved；if(Is_camera_cross){unsigned int(32)convergence_distance；unsigned int(32)rotation[]；unsgiend int(32)translation[]；}}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance；int(16)VerticalDisparity；int(16)MinofDisparity；int(16)MaxofDisparity；}//其他附加信息if(other_flag){}}

表39示出了根据本发明第三实施例的用于支持各个相机参数的“ishd”逻辑框的语法。假设立体配置格式相同并且参考诸如“cameParams(相机参数)”和“displaysafeInfo(显示安全信息)”之类的预定Item_ID。

在表39中，当“Is_ref”是“0”时，它表示不存在所参考的相机参数和显示信息，而当它是“1”时，表示存在所参考的Item_ID。“current_refIndex”表示所参考的项目ID。

表39

Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0)unsigned int(8) Stereoscopic_Composition_Type；unsigned int(1) LR_first；unsigned int(7) Reserved；unsigned int(16) item_count；for(i＝0；i＜item_count；i++){unsigned int(16)item_ID；unsigned int(1)Is_camParams；

unsigned int(1)Is_displaySafeInfo；unsigned int(1)Is_ref；unsigned int(5)Reserved；//所有以下字段是可选字段If(Is_ref){unsigned int(16)current_refIndex；}else{if(Is_CamParams){unsigned int(32)baseline；unsigned int(32)focallength；unsigned int(1)Is_camera_crossunsigned int(7)reserved；}if(Is_camera_cross){unsigned int(32)convergence_distance；unsigned int(32)rotation[]；unsgiend int(32)translation[]；}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance；int(16)VerticalDisparity；int(16)MinofDisparity；int(16)MaxofDisparity；}}//其他附加信息if(other_flag){}}

表40示出了根据本发明第四实施例的用于支持各个相机参数的“ishd”逻辑框的语法。假设立体配置格式相同并且“cameParams”和“displaysafeInfo”参考不同的Item_ID。

表40

Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′，version＝0，0)unsigned int(8)Stereoscopic_Composition_Type；unsigned int(1)LR_first；unsigned int(7)Reserved；unsigned int(16) item_count；for(i＝0；i＜item_count；i++){unsigned int(16)item_ID；unsigned int(1) Is_camParams；unsigned int(1) Is_displaySafeInfo；unsigned int(1) Is_camParamsref；unsigned int(1) Is_displaySafeInforef；unsigned int(4) Reserved；//所有以下字段是可选字段If(Is_camParamsref||Is_displaySafeInforef){unsigned int(16)current_camrefIndex；unsigned int(16)current_displayrefIndex；}else{if(Is_CamParams){unsigned int(32)baseline；unsigned int(32)focallength；unsigned int(1) Is_camera_crossunsigned int(7) reserved；if(Is_camera_cross){unsigned int(32)convergence_distance；unsigned int(32)rotation[]；unsgiend int(32)translation[]；}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance；int(16)VerticalDisparity；int(16)MinofDisparity；int(16)MaxofDisparity；}

}//其他附加信息if(other_flag){}}

在表40中，当“Is_camParamsref”是“0”时，它表示不存在所参考的相机参数信息，而当它是“1”时，表示存在所参考的Item_ID。当“Is_displaySafeInforef”是“0”时，它表示不存在所参考的显示安全信息，而当它是“1”时，表示存在所参考的Item_ID。“current_cameraIndex”表示所参考的Item_ID，而“Current_displayIndex”表示所参考的Item_ID。

可以将“ishd”逻辑框划分为用于记录立体视频媒体信息的“svmi”逻辑框(立体视频媒体信息逻辑框)和用于记录相机参数和显示信息的“scdi”逻辑框(立体相机和显示信息逻辑框)。由于“svmi”逻辑框是强制性的而“scdi”逻辑框不是强制性的，所以有利地将“ishd”逻辑框划分为“svmi”逻辑框和“scdi”逻辑框，以便去除不必要的信息。

“svmi”逻辑框提供立体视觉类型和片段信息。更详细地，立体视频媒体信息包括关于立体图像配置类型的信息、关于左侧图像和右侧图像之间首先编码的图像的信息、当立体内容的基础流从立体片段改变为单视场片段或者从单视场片段改变为立体片段时的关于片段的数目的信息、关于连续采样的数目或者计数开始采样数目的信息、以及关于当前采样是否是立体的信息。

“scdi”逻辑框包括关于是否存在相机参数的信息、左侧相机和右侧相机之间的距离、左侧和右侧相机的安排、从主要视图相机到子视图相机的相对角、以及在左侧图像和右侧图像之间的最大视差和最小视差。表41示出了根据本发明实施例的“scdi”逻辑框的语法。

表41

unsigned int(16)item_count；for(i＝0；i＜item_count；i++){unsigned int(16)item_ID；unsigned int(1)Is_camParams；unsigned int(1)Is_displaySafeInfo；unsigned int(1)Is_ref；unsigned int(5)Reserved；

//所有以下字段是可选字段If(Is_ref){unsigned int(16)current_refIndex；}else{if(Is_CamParams){unsigned int(32)baseline；unsigned int(32)focallength；unsigned int(1)Is_camera_crossunsigned int(7)reserved；}if(Is_camera_cross){unsigned int(32)convergence_distance；unsigned int(32)rotation[]；unsgiend int(32)translation[]；}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance；int(16)VerticalDisparity；int(16)MinofDisparity；int(16)MaxofDisparity；}}

如所示的，可能通过“tref”逻辑框(轨道参考逻辑框)来去除在每个轨道中包括的“scdi”信息的冗余。当ES＝2时，每个轨道的“iloc”逻辑框划分立体片段，以便提供“scdi”信息。这里，每个轨道的立体片段具有相同的item_ID以及相同的相机参数和显示信息。通过“tref”的“svdp”来将基础流划分为主要/补充轨道。尽管仅仅在一个轨道中包括“iloc”逻辑框，但是当执行3D显示时，可能经由通过立体片段而同步“iloc”逻辑框来再现它。

还可能通过“tref”逻辑框来去除在每个轨道中包括的相同立体视频媒体信息(“svmi”)的冗余。在通过“ftyp”逻辑框来识别立体内容之后，通过“tref”逻辑框的“svdp”逻辑框来划分主要/补充轨道。如果一个轨道包括“svmi”逻辑框，则可以自动地识别另一轨道。由于“svmi”逻辑框是强制性的，所以可以在主要/补充轨道中包括它。可以仅仅在主要轨道中包括“svmi”逻辑框。

图15是图示了根据本发明实施例的当ES＝2时的SS-VAF的图。如图15所示，SS-VAF包括“svmi”逻辑框和“scdi”逻辑框。

当立体内容包括两个基础流(ES)时，包括两个轨道(“trak”)。可以将它划分为主要轨道和补充轨道。因此，使用补充轨道中的“tref”的“svdp”来参考主要轨道，并且提供在相关的“scdi”信息中包括的信息。这种结构具有去除在每个轨道中包括的相同“scdi”信息的冗余的优点。这里，track_ID表示所参考的轨道的ID。如果reference_type是“svdp”，则它还表示轨道包括用于参考轨道的立体相机和显示信息。

当在用户正在利用3D显示模式来观看预定的图像的时候、用户将3D显示模式改变为2D显示模式时，通过在终端处显示与主要轨道对应的图像来满足2D显示模式。其间，相同的单视场数据可以存在于具有两个基础流的轨道中的基础流的中间。在单视场数据中，在两个轨道中存储相同的内容。因此，单视场数据是不能显示为3D的数据。在此情况下，终端必须决定两个轨道之一，以显示其单视场数据。终端显示与根据本实施例而划分的主要轨道对应的图像。

当立体视频的基础流是两个时，存在两个轨道。通过诸如传统的LASeR之类的场景描述符来将立体视频识别为两个对象，并且将立体视频连接到LASeR中的两个视频相关节点。然而，最终，必须将立体视频转换为一个3D视频格式，并且在终端中进行再现。因此，必须通过LASeR来将它识别为一个对象。即，由于需要将立体视频转换为一个3D视频格式，以用于再现立体视频的场景，所以它与所使用的一个节点相连。根据本实施例，使用“tref”中的“svdp”来将立体视频划分为主要/补充轨道，并且LASeR中的视频相关节点仅仅链接与主要轨道或媒体流对应的“轨道ID”。

图16是图示了根据本发明实施例的用于将立体存储为基于ISO的媒体文件格式的方法的流程图。首先，在步骤S1602中，在基于ISO的媒体文件格式的“mdat”逻辑框中存储目标立体内容。然后，在步骤S1604和S1606中，作为立体内容的元数据来在“moov”逻辑框中存储立体内容的立体视频媒体信息以及立体相机和显示信息。

图17是图示了根据本发明另一实施例的用于以基于ISO的媒体文件格式来存储立体内容的方法的流程图。首先，在步骤S1702中，在基于ISO的媒体文件格式的“mdat”逻辑框中存储目标立体内容。然后，如果立体内容包括两个基础流，则在步骤S1704中在基于ISO的媒体文件格式的“tref”逻辑框中存储用于将基础流划分为主要轨道和补充轨道的信息(“svdp”)。然后，在步骤S1706中，存储用于立体内容的、具有仅仅链接到主要轨道的视频相关节点的LASeR。这里，不使用链接到LASeR的部分，而仅仅使用“tref”。

图18是图示了根据本发明又一实施例的用于存储立体内容的方法的流程图。这里，使用如上所述的AVC SEI来存储立体内容。首先，在步骤S1802中存储通过AVC而编码的立体内容。然后，在步骤S1804中，使用“reserved_sei_message”来存储对于立体内容的每个流所需的相机参数和显示信息。

这里，“立体视频信息SEI”附加地包括表示了立体图像配置是“并排”类型的信息。相机参数包括：左侧相机和右侧相机之间的距离、左侧和右侧一致的焦距(focal_length)、从基线到会聚点的距离、当左侧和右侧相机彼此交叉时左侧和右侧相机的旋转和平移中的至少一个。显示信息包括左侧图像和右侧图像之间的最大视差和最小视差。

发明模式

如上所述，可以将本发明的技术实现为程序，并且存储在诸如CD-ROM、RAM、ROM、软盘、硬盘、和磁光盘之类的计算机可读记录介质中。由于本发明领域的技术人员可以容易地实现该处理，所以在这里将不提供进一步的描述。

尽管已经针对具体实施例而描述了本发明，但是对于本领域技术人员明显的是，可以做出各种改变和修改，而不脱离由以下权利要求限定的本发明的精神和范围。

Claims

1.一种用于存储立体内容的方法，包括：

存储立体内容的流；以及

当立体内容具有多于两个基础流时，在轨道参考逻辑框中存储用于将基础流划分为主要轨道和补充轨道的信息。

2.根据权利要求1的方法，还包括：

存储包括仅仅链接到主要轨道的视频相关节点的、用于立体内容的场景描述信息。

3.根据权利要求1的方法，其中所述轨道参考逻辑框是基于ISO的媒体文件的“tref”逻辑框。

4.根据权利要求2的方法，其中将场景描述信息的视频相关节点链接到与主要轨道对应的轨道标识(ID)或媒体流。

5.根据权利要求2的方法，其中当要以二维显示模式来示出立体内容时，按照仅仅显示主要轨道的视频的方式来存储立体内容。

6.根据权利要求2的方法，其中当在立体内容中间的基础流中存在相同的单视场数据时，按照仅仅显示主要轨道的视频的方式来存储立体内容。

7.根据权利要求1的方法，还包括：

存储关于立体内容的部分信息的立体视频媒体信息，作为立体内容的元数据信息。

8.根据权利要求7的方法，其中向主要轨道或补充轨道、或者向主要轨道和补充轨道两者提供立体视频媒体信息。

9.根据权利要求1的方法，还包括：

存储立体内容的立体相机和显示信息，作为立体内容的元数据信息。

10.根据权利要求9的方法，其中向主要轨道或补充轨道提供所述立体相机和显示信息。

11.根据权利要求9的方法，其中所述立体相机和显示信息包括：立体片段的数目、用于标识立体部分的项目ID、关于是否存在参考项目ID的信息、和用于提供关于立体部分的相机和显示信息的参考项目ID之中的至少一个。

12.一种用于存储立体内容的文件格式结构，包括：

媒体数据逻辑框，用于存储立体内容的流；以及

轨道参考逻辑框，用于当立体内容包括多于两个基础流时，存储用于将基础流划分为主要轨道和补充轨道的信息。

13.根据权利要求12的文件格式结构，还包括：

被配置为存储包括仅仅链接到主要轨道的视频相关节点的、用于立体内容的场景描述信息的逻辑框。

14.根据权利要求12的文件格式结构，还包括：

被配置为存储用于立体内容的部分信息的立体视频媒体信息、作为立体内容的元数据信息的逻辑框。

15.根据权利要求12的文件格式结构，还包括：

被配置为存储立体内容的多立体相机和显示信息、作为立体内容的元数据的逻辑框。

16.根据权利要求12的文件格式结构，其中所述文件格式结构是基于ISO的媒体文件格式，而轨道参考逻辑框是“tref”逻辑框。

17.一种用于基于高级视频编码(AVC)补足增强信息(SEI)来存储立体内容的方法，包括：

存储基于AVC而编码的立体内容，

其中“立体视频信息SEI”包括指示立体视频是“并排”类型的信息。

18.根据权利要求17的方法，还包括：

基于“reserved_sei_message”来存储对于立体内容的每个流所需的相机参数和显示信息。

19.根据权利要求17的方法，其中所述相机参数包括：左侧相机和右侧相机之间的距离、左侧和右侧相同的焦距(focal_length)、基线和会聚点之间的距离、以及当左侧和右侧相机彼此交叉时左侧和右侧相机的旋转和平移之中的至少一个。

20.根据权利要求17的方法，其中所述显示信息包括左侧和右侧图像之间最大视差和最小视差。