CN101897193A - 用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法 - Google Patents

用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法 Download PDF

Info

Publication number
CN101897193A
CN101897193A CN2008801198629A CN200880119862A CN101897193A CN 101897193 A CN101897193 A CN 101897193A CN 2008801198629 A CN2008801198629 A CN 2008801198629A CN 200880119862 A CN200880119862 A CN 200880119862A CN 101897193 A CN101897193 A CN 101897193A
Authority
CN
China
Prior art keywords
information
content
box
int
stereoscopic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2008801198629A
Other languages
English (en)
Inventor
尹国镇
曹叔嬉
许南淏
金镇雄
李寿寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of CN101897193A publication Critical patent/CN101897193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/44029Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4347Demultiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

提供了一种用于存储和再现立体数据的元数据结构以及一种用于基于该元数据结构来存储立体内容文件的方法。所述立体内容文件存储方法包括:存储立体内容的流;以及,当立体内容具有多于两个基础流时,存储用于将基础流划分为主要轨道和补充轨道的信息。

Description

用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法
技术领域
本发明涉及一种用于存储和再现立体数据的元数据结构、以及用于使用该元数据结构来存储立体内容文件的方法;且更具体地,涉及一种当一起提供二维(2D)和三维(3D)内容时所需的元数据结构(控制信息)、以及用于使用所述元数据结构来存储立体内容文件的方法。
该项工作得到了MIC/IITA的IT R&D计划[2005-S-403-02,“Developmentof Super-intelligent Multimedia Anytime-anywhere Realistic TV(SmarTV)Technology”]的支持。
背景技术
已经基于移动电话、数字相机、数字视频盘(DVD)、和PDP而在国内和国际上形成了使用立体内容的应用服务以及相关装置的市场。相应地,已经存在一种对于定义用于捕捉、存储、和再现立体内容的系统信息或控制信息(元数据)的标准以及包括所述标准的文件格式的需求。
题目为“Apparatus and method for processing 3D moving images usingMPEG-4 object descriptor and structure(用于使用MPEG-4对象描述符和结构来处理3D运动图像的设备和方法)”的韩国专利公布第2006-0056070号(在下文中,称为第一专利)公开了一种具有诸如3D运动图像的类型、各个显示类型、和视点之类的新信息的3D运动图像对象描述符。题目为method fortransmitting stereoscopic image data(用于传送立体图像数据的方法)的韩国专利申请第2006-0100258号(在下文中:第二专利)公开了一种包括视频数据单元和报头单元的文件格式、作为用于为了立体内容而解码的视频数据的文件格式,所述视频数据单元包括立体图像信息,并且所述报头单元包括用于解码和再现立体图像信息的元数据。
然而,所述第一和第二专利未能引入一种用于当一起组织和提供2D内容或3D内容时(即,当一起使用2D内容和3D内容时)标识内容的方法、一种用于提供当3D内容具有不同的立体相机和显示信息时的立体相机和显示信息、以及当3D内容由两个基础(elementary)流形成时的立体轨道参考信息的方法。
发明内容
技术问题
本发明的实施例旨在提供一种用于存储立体内容的方法。
本发明的另一实施例旨在提供一种用于当在各个3D终端环境中下载和再现2D内容和3D内容时通过标识2D内容和3D内容来存储立体内容、并且通过自动地接通/关断视差屏障而显示所标识的2D内容和3D内容的方法。
本发明的又一实施例旨在提供一种用于当立体内容具有不同的立体相机和显示信息时、通过片段来存储立体相机/显示信息的方法。
本发明的又一实施例旨在提供一种用于当立体内容具有两个基础流时存储用于标识主要/子轨道的立体内容、并且在维持与典型2D终端处的兼容性的同时去除在每个轨道中包括并使用的立体相机/显示信息的冗余的方法。
本发明的其他目的和优点可以通过以下描述来理解,并且通过参考本发明的实施例而变得明显。同样,对于本发明的领域的技术人员明显的是,可以通过所要求保护的部件及其组合来实现本发明的目的和优点。
技术方案
根据本发明的一方面,提供了一种用于存储立体内容的方法,所述方法包括:存储立体内容的流;以及当立体内容具有多于两个基础流时,存储用于将基础流划分为主要轨道和补充轨道的信息。
根据本发明的另一方面,提供了一种用于存储立体内容的文件格式结构,所述文件格式结构包括:媒体数据逻辑框(box),用于存储立体内容的流;以及轨道参考逻辑框,用于当立体内容包括多于两个基础流时,存储用于将基础流划分为主要轨道和补充轨道的信息。
根据本发明的另一方面,提供了一种用于基于高级视频编码(AVC)补足增强信息(SEI)来存储立体内容的方法,所述方法包括:存储基于AVC而编码的立体内容,其中“立体视频信息SEI”包括指示了立体视频是“并排”类型的信息。
有益效果
根据本发明,可以方便地存储和提供由2D内容和3D内容形成的立体内容。通过经由2D内容和3D内容定界符信息而将视差屏障自动地改变为2D或3D显示,来使得用户能够方便地享受立体内容。
附图说明
图1是图示了用于提供立体内容的各个内容配置类型的图。
图2是图示了当存在MPEG-4系统信息时的、根据本发明实施例的用于立体视频应用格式的基本文件格式的图。
图3是图示了当不存在MPEG-4系统信息时的、根据本发明实施例的用于立体视频应用格式的基本文件格式的图。
图4是图示了当存在MPEG-4系统信息时的、根据本发明第一实施例的立体视频应用格式的图。
图5是图示了当不存在MPEG-4系统信息时的、根据本发明第一实施例的立体视频应用格式的图。
图6是图示了根据本发明实施例的“ishd”逻辑框被包括在“moov”逻辑框中的存储格式的图。在图6中,图a)示出了用于由一个源形成的3D内容的格式,而图b)示出了用于由两个源形成的3D内容的格式。
图7是图示了根据本发明实施例的“ishd”逻辑框被包括在“mdat”逻辑框中的存储格式的图。在图7中,图a)示出了由一个源形成的3D内容,而图b)示出了由两个源形成的3D内容。
图8是图示了根据本发明实施例的包括“ishd”和“meta”的存储格式的图。在图8中,图a)示出了由一个源形成的3D内容,而图b)示出了由两个源形成的3D内容。
图9是图示了根据本发明实施例的包括“ishd”逻辑框和LASeR的格式的图。在图9中,图a)示出了包括在“moov”逻辑框中包括的“ishd”逻辑框和LASer的格式,图b)示出了“ishd”逻辑框被包括在“moov”逻辑框中并且LASeR被包括在“mdat”逻辑框中的格式,而图c)示出了“ishd”和LASer被包括在“meta”逻辑框中。
图10是根据本发明实施例的当ES=1时包括“ishd”逻辑框和“iloc”逻辑框的SS-VAF的图。
图11是根据本发明实施例的包括“ishd”逻辑框和“iloc”逻辑框的SS-VAF的图。
图12a)示出了在AVC中的SEI的基本结构中的包括“立体视频信息SEI(stereo video information SEI)”和“reserved_sei_message(保留的sei消息)”的部分,而图12b)示出了SEI在AVC流中的位置。
图13是图示了根据本发明实施例的使用“立体视频信息SEI”和“reserved_sei_message”的SS-VAF的图。
图14是图示了当ES=2时仅仅由单一格式立体流形成内容的情况下的、根据本发明实施例的具有“tref”、“ishd”、和“iloc”逻辑框的SS-VAF的图。
图15是图示了根据本发明实施例的具有“tref”、“ishd”、和“iloc”逻辑框的SS-VAF的图。
图16是图示了根据本发明实施例的用于存储立体内容的方法的流程图。
图17是图示了根据本发明另一实施例的用于存储立体内容的方法的流程图。
图18是图示了根据本发明又一实施例的用于存储立体内容的方法的流程图。
具体实施方式
图1图示了用于提供立体内容的各个内容配置。图1的图a)示出了用于具有一个基础流ES(ES=1)的内容的格式,而图1的图b)示出了用于具有两个基础流ES(ES=2)的内容的格式。单一格式是当立体图像形成方案相同时并且当仅仅包括一个相机参数和一个显示信息时的用于内容的格式。多个格式是当立体图像形成方案不同时、当尽管立体图像形成方案相同但是相机参数不同时、或当包括多个显示信息或另一信息时的格式。
Stereoscopic_Content_Type包括:i)诸如双目3D视频服务之类的立体视频内容、ii)诸如双目3D静止图像服务(例如:幻灯片)、2D(单)视频和3D数据服务(预定的场景或部分)的组合之类的立体图像内容、iii)诸如2D(单)视频和3D视频(预定的场景或部分)的组合之类的单视场(monoscopic)和立体混合内容。
图2和3示出了根据本发明实施例的立体视频应用格式(SS-VAF)的基本结构。
图2是包括MPEG-4系统信息的文件格式结构,而图3是不包括MPEG-4系统信息的文件格式结构。如所示的,SS-VAF包括“ftyp”逻辑框、“moov”逻辑框、和“mdat”逻辑框。在下文中,将描述SS-VAF的逻辑框的语法和语义。在SS-VAF的结构中包括根据本实施例的逻辑框,可以根据其类型来改变其位置,并且可以独立地使用在所述逻辑框中包括的信息。
1.“scty”(立体内容类型)
“scty”表示内容的基本类型。即,通过“scty”来将内容分类为单视场内容或立体内容。这里,单视场内容意味着一般的2D图像。表1示出了“scty”的语法。可以在“ftyp”逻辑框或另一逻辑框中包括“scty”中的“Stereoscopic_Content_Type”。
表1
 Aligned(8)class StereoscopicContentTypeBox extend Box(′sfty′){unsigned int(2) Stereoscopic_Content_Type:unsigned int(6) reserved;}
在表1,“Stereoscopic_Content_Type”表示立体内容类型,并且具有表2的含义。
表2
  值   描述
  00   立体内容(3D)
  01   单视场/立体混合内容(2D+3D)
  10~11   保留
2.“sovf”(立体对象视觉格式)
“sovf”表示立体内容的图像配置格式(或视觉格式)。表3示出了“sovf”的语法。“sovf”包括“Stereoscopic_Object_VisualFormat”。可以在典型的其他逻辑框或为了存储立体内容而新定义的逻辑框中包括“Stereoscopic_Object_VisualFormat”。
Table 3
 Aligned(8)class StereoscopicObjectDataVisualFormat extend Box(′sovf′){unsigned int(4) Stereoscopic_Object_VisualFormat:unsigned int(4) reserved;}
在表3中,“Stereoscopic_Object_VisualFormat”表示立体内容的图像配置信息,并且具有表4的含义。
表4
  值   描述
  0000   并排(side by side)
  0001   从上到下
  0010   基于水平方向的场序
  0011   基于垂直方向的场序
  0100   帧序
  0101~0111   保留
  1000   主要+附加(完全尺寸)
  1001   主要+附加(垂直方向的一半)
  1010   主要+附加(水平方向的一半)
  1011   主要+附加(垂直方向/水平方向的一半)
  1100   主要+深度图
在表4中,“完全尺寸”意指补充图像的尺寸与主要图像的尺寸相同。“垂直方向的一半”表示补充图像的尺寸在垂直方向上是主要图像的尺寸的一半。“水平方向的一半”表示补充图像的尺寸在水平方向上是主要图像的尺寸的一半。“垂直方向/水平方向的一半”意指补充图像的尺寸在水平方向和垂直方向上是主要图像尺寸的一半。
3.“ssci”(立体内容信息)
“ssci”表示关于立体内容的最小/最大深度或视差(disparity)的信息。“ssci”使得3D终端能够再现适合于3D显示的3D图像。表5表示了“ssci”的语法。可以在其他典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括在“ssci”中包括的最小/最大深度信息。在表5中,“Max_of_depth(视差))”表示最大深度/视差信息(像素单位),而“Min_of_depth(视差)”表示最小深度/视差信息(像素单位)。
表5
  Aligned(8)class StereoscopicObjectContentInformation extend Box(′ssci′){unsigned int(32)Max_of_depth or disparity;unsigned int(32)Min_of_depth or disparity;}
4.“scpi”(立体相机参数信息)
“scpi”表示由立体相机捕捉的或者由相关的工具创建的立体内容的相机参数信息。表6示出了“scpi”的语法。同样,可以在其他典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括在“scpi”中包括的每个字段。
表6
  Aligned(8)class StereoscopicCameraParameterInformation extend Box(′scpi′){unsigned int(32)Baseline;unsigned int(32)Focal_Length;unsigned int(32)Convergence_point_distnace;unsigned int(1)StereoscopicCamera_setting;unsigned int(7)Reserved;}
在表6中,“基线(Baseline)”表示左侧相机和右侧相机之间的距离,“Focal_Length”意指图像平面(CCD传感器)和相机中心之间的距离,而“Convergence_point_distance”表示会聚点和基线之间的距离。这里,会聚点意指左侧相机和右侧相机的视觉线的交叉点。“StereoscopicCamera_setting”表示立体摄影/数据的相机安排,并且具有表7的含义。
表7
  值   描述
  0   平行安排
  1   交叉安排
5.“iods”(对象描述符逻辑框)
“iods”表示关于初始对象描述符(IOD)的信息,所述初始对象描述符用于当包括诸如BIFS或LASeR之类的场景信息时、表现BIFS流或OD流的位置。表8示出了“iods”的语法。
表8
  Aligned(8)class ObjectDescriptoratBox extend Box(′iods′){ObjectDescriptor OD;}
6.“soet”(立体一个ES类型逻辑框)
“soet”表示当编码器输出一个基础流(ES)时的ES的类型。表9示出了“soet”的语法。
表9
 Aligned(8)class StereoscopicOnesTypeBox extend Box(′soet′){unsigned int(3)Stereoscopic_OneES_Type:unsigned int(5)Rreserved;}
在表9中,“Stereoscopic_OneES_Type”表示由一个ES形成的立体数据的图像配置格式的实施例,并且具有表10的含义。
表10
  值   描述
  000   并排
  001   从上到下
  010   基于水平方向的场序
  011   基于垂直方向的场序
  100   帧序
  101   单视场/立体混合数据
  110   基于补充数据而形成的参考图像/立体数据
  111   保留
7.“stet”(立体两个ES类型逻辑框)
“stet”表示当编码器输出两个基础流(ES)时的每个ES的类型。表11表示了“stet”的语法。
表11
  Aligned(8)class StereoscopicTwoesTypeBox extend Box(′stet′){unsigned int(2) Stereoscopic_TwoES_Type:}
在表11中,“Stereoscopic_TwoES_Type”表示由两个ES形成的立体数据的图像配置格式的实施例,并且具有表12的含义。
表12
  值  描述
  000  参考图像
  001  补充数据(具有参考图像的相同尺寸的图像)
  010  补充数据(具有参考图像的垂直方向上一半尺寸的图像)
  011  补充数据(具有参考图像的水平方向上一半尺寸的图像)
  100  补充数据(具有参考图像的水平方向和垂直方向上一半尺寸的图像)
  101  补充数据(深度图)
  110  补充数据(视差图)
  111   保留
8.“sstt”(立体时间表逻辑框)
“sstt”表示关于当一起使用单视场内容和立体内容时、场景中的单视场内容和立体内容的开始和结束的信息。表13示出了根据本发明第一实施例的“sstt”的语法。可以在其他典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括“sstt”的每个字段。
表13
 Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i;unsigned int(8)Mono/stereoscopic_Scene_count;for(i=0;i<=Mono/stereoscopic_Scene_count;i++){unsigned int(4)Mono/stereoscopic_identifier;unsigned int(4)Reserved;unsigned int(32)Start_Time;}
在表13中,“Mono/stereoscopic_Scene_count”表示当由2D内容和3D内容一起形成立体内容时单视场/立体场景改变的数目。即,如果立体内容由2D→3D→2D形成,则将“Mono/stereoscopic_Scene_count”设置为2。同样,如果立体内容仅仅由3D内容形成,而没有2D内容,则将“Mono/stereoscopic_Scene_count”设置为2。这种信息可以用于3D终端中的2D/3D显示自动改变。
“Mono/stereoscopic_identifier”通过时间来表示内容类型,并且具有表14的含义。同样,“Mono/stereoscopic_identifier”可以用于标识2D内容或3D内容。例如,向“Mono/stereoscopic_identifier”分配1比特。如果“Mono/stereoscopic_identifier”是“0”,则“Mono/stereoscopic_identifier”表示2D内容。如果“Mono/stereoscopic_identifier”是“1”,则“Mono/stereoscopic_identifier”表示3D内容。“Start_Time”通过时间来表示内容开始时间。
表14
  值   描述
  0000   单视场
  0001   并排
  0010   从上到下
  0011   基于水平方向的场序
  0100   基于垂直方向的场序
  0101   帧序
  0110~0111   保留
  1000   主要+附加(完全尺寸)
  1001   主要+附加(垂直方向的一半)
  1010   主要+附加(水平方向的一半)
  1011   主要+附加(垂直方向/水平方向的一半)
  1100   主要+深度图
  1101   主要+视差图
表15示出了根据本发明第二实施例的“sstt”的语法。在表15中,“Start_Time”表示立体内容的开始时间,而“End_Time”表示立体内容的结束时间。
表15
 Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i;unsigned int(8)Stereoscopic_Scene_count;for(i=0;i<=Stereoscopic_Scene_count;i++){unsigned int(32)Start_Time;unsigned int(32)End_Time;}
表16示出了根据本发明第三实施例的“sstt”的语法。“Start_Sample_number”表示单视场/立体内容开始采样数目或采样的数目。即,采样的数目表示与单视场或立体对应的全部采样的数目。这里,采样意味着单独的视频帧和一系列时间邻接的视频帧。
表16
 Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i;unsigned int(16)Mono/stereoscopic_Scene_count;for(i=0;i<=Mono/stereoscopic_Scene_count;i++){unsigned int(4)Mono/stereoscopic_identifier;unsigned int(32)Start_Sample_number;}
表17示出了根据本发明第三实施例的“sstt”的语法。
表17
 Aligned(8)class StereoscopicTimeTable Box extend Box(′sstt′){int i;unsigned int(8)Stereoscopic_Scene_count;for(i=0;i<=Stereoscopic_Scene_count;i++){unsinged int(4)Stereoscopic_compositiontype;unsigned int(32)Start_sample_number;unsigned int(32)End_sample_number;}
在表17中,当“Stereoscopic_compositiontype”由各个立体配置类型形成时,它通过时间来表示内容类型,并且具有表18的含义。“End_Sample_number”表示立体内容结束采样数目或采样的数目。
表18
  值   描述
  0000   并排
  0001   从上到下
  0010   基于水平方向的场序
  0011   基于垂直方向的场序
  0100   帧序
  0101~0111   保留
  1000   主要+附加(完全尺寸)
  1001   主要+附加(垂直方向的一半)
  1010   主要+附加(水平方向的一半)
  1011   主要+附加(垂直方向/水平方向的一半)
  1100   主要+深度图
  1101   主要+视差图
9.“sesn”(立体ES Num逻辑框)
“sesn”表示从编码器输出的基础流的数目。表19示出了“sesn”的语法。在表19中,“stereoscopic_ESNum”表示从用于立体内容的编码输出的基础流的数目。
表19
 Aligned(8)class StereoscopicESNumbBox extend Box(′seen′){unsigned int(16)stereoscopic_ESNum;}
10.“tref”(轨道参考逻辑框)
“tref”是在提供用于使得一个轨道能够参考其他轨道的信息的基于ISO的文件格式中定义的逻辑框。在“trak”(轨道逻辑框)中包括“tref”。表20示出了根据本发明实施例的“tref”的语法。这里,“track_ID”表示要参考的轨道的标识。“reference_type”具有表21的含义。
表20
aligned(8)class TrackReferenceBox extends Box(′tref′){}aligned(8)class TrackReferenceTypeBox(unsigned int(32) reference_type)extends Box(reference_type){unsigned int(32)track_IDs[];}
表21
  hint(提示)   所参考的(多个)轨道包含用于该提示轨道的原始媒体
  cdsc   该轨道描述所参考的轨道
  svdp   该轨道具有对于作为其主视图轨道的所参考轨道的依赖性,并且它可以包含用于所参考的轨道的立体相关“元(meta)”信息。
具有两个基础流(ES)的立体视频包括两个轨道,并且连接到与作为场景描述的LASeR(如,传统的LASeR)中的视频相关的两个节点。即,根据传统技术来将具有两个ES的立体视频识别为两个对象。然而,因为将立体视频最终转换为一个3D视频格式并在终端中进行再现,所以将立体视频识别为一个对象。即,尽管使用两个轨道来形成立体视频,但是应该仅仅使用一个节点来连接立体视频,这是因为将立体视频转换为一个3D视频格式以再现场景。如果立体视频包括两个ES,则需要具有关于两个轨道之间的关系的信息,并且在“tref”中的“svdp”处定义立体轨道参考信息(如表22所示),并且进行使用。尽管没有使用LASeR,但是需要使用诸如“svdp”之类的立体轨道参考信息,以用于存储具有两个ES的立体内容。
如果立体内容包括两个基础流,则“tref”使得能够将两个轨道标识为主要轨道和附加轨道。同样,“tref”使得附加轨道能够参考主要轨道,并且仅仅在所述轨道之一中存储立体视频相关的立体相机和显示信息。因此,可以消除信息的冗余。此外,尽管立体内容包括两个轨道,但是可以将一个轨道连接到LASeR的一个视频节点。
在本发明中,引入了初始立体报头(ishd)的结构,以便使得立体内容能够支持各个立体图像配置格式和相机参数。根据本发明的实施例,可以独立地使用在初始立体报头(ishd)中包括的信息。
在立体流具有各个立体格式和相机参数的情况下,通过“iloc”来标识每个立体流以及每个立体流的开始和长度,并且向每个片段分配item_ID。因此,初始立体报头(ishd)必须基于该item_ID来提供关于每个立体格式或相机参数的信息。这里,当立体流一起包括立体片段和单视场片段作为一个序列时,项目意指一个立体片段。
如果立体流包括三个立体片段、并且每个立体片段包括不同的ishd信息,则通过item_ID及其描述信息来标识所述立体片段。然而,如果三个立体片段具有相同的ishd信息,则第二和第三立体片段包括示出第二和第三立体片段包括第一立体片段的相同ishd信息的字段。这种结构可以有利地去除在初始立体报头(ishd)中包括的信息冗余。
图4是图示了根据本发明实施例的具有MPEG-4系统信息的立体视频应用格式(SS-VAF)的图,而图5是图示了根据本发明实施例的不具有MPEG-4系统信息的立体视频应用格式(SS-VAF)的图。
当一起使用单视场内容和立体内容时,需要定界符信息来确定单视场内容或立体内容什么时候开始或结束。可以根据其中包括的单视场/立体内容的开始/结束信息、采样的2D/3D标识、和采样的数目(AU)来标识单视场内容和立体内容。
图6到图8示出了用于支持像图1一样的各个内容配置格式的存储格式的构思结构。其基本结构包括“ftyp”逻辑框、“moov”逻辑框、和“mdat”逻辑框。“ftyp”逻辑框定义文件类型。即,“ftyp”逻辑框通过包括表现它是立体内容文件还是单视场/立体内容文件的字段来表现3D内容文件。“moov”逻辑框包括用于再现媒体数据的所有系统(元)信息,而“mdat”逻辑框包括实际的媒体数据。需要具有基于所示格式的用于立体内容的新补充信息,并且根据补充信息的位置来改变存储格式的结构。
图6示出了包括在“moov”逻辑框中包括的初始立体报头(ishd)的存储格式的结构,所述初始立体报头具有关于形成了3D内容的源的数目的信息和新的补充信息。图6的图a)示出了用于具有一个源的3D内容的存储格式。如图a)所示,一个帧包括左侧图像信息和右侧图像信息两者(例如,并排)。图6的图b)示出了用于具有两个源的3D内容的存储格式。如图b)所示,在对应的帧中单独地包括左侧图像信息和右侧图像信息中的每一个。根据所包括的媒体数据的数目来改变“moov”逻辑框中的轨道的数目。“moov”逻辑框的轨道包括用于再现包括在“mdat”逻辑框中的媒体数据的整个系统信息(元信息)。
这种存储格式需要一种用于新补充信息并且支持该新补充信息的结构。在本实施例中,新定义初始立体报头(ishd),并且将其包括在“moov”逻辑框的轨道中。可以在“moov”逻辑框中或在存储格式中改变初始立体报头(ishd)的位置。
图7示出了具有含有关于新定义的初始立体报头的信息的“mdat”逻辑框的存储格式结构。图7的图a)示出了用于由一个源形成的3D内容的存储格式,而图7的图b)示出了用于由两个源形成的3D内容的存储格式。如所示的,可以在维持“moov”逻辑框的典型结构的同时、通过包括在“mdat”逻辑框中包括“ishd”流的信息来实施该存储格式。
图8示出了包括具有ishd信息的“meta”逻辑框的存储格式。图8的图a)示出了用于由一个源形成的3D内容的存储格式,而图8的图b)示出了用于由两个源形成的3D内容的存储格式。
表22示出了用于通知在“mdat”逻辑框中包括ishd信息的结构。在“stsd”(采样描述)逻辑框中包括这种结构。
表22
//ishd序列Class ishdsampleEntry(codingname)extends SampleEntry(′ishd′){}
图9示出了基于图6到图8所示的结构的、具有关于场景描述符的信息的存储格式。场景描述符用于各个多媒体和与用户的交互的场景配置。在本实施例中,将LASeR用作场景描述符。
图9的图a)示出了在“moov”逻辑框中包括用于存储场景描述符流的附加逻辑框的存储格式。图9的图b)示出了包括具有场景描述符流的“mdat”逻辑框、具有用于通知场景描述符流被包括在“mdat”逻辑框中的附加轨道的“moov”逻辑框、和具有关于场景描述符流的信息的“stsd”逻辑框的存储格式。即,它涉及在轨道中搜索“stsd”逻辑框、分析该轨道表现哪个信息(场景描述符/视频/音频)、和基于分析结果而使用在“mdat”逻辑框中存储的信息来进行解码。图9的图c)示出了包括具有关于所定义的场景描述符的信息的“meta”逻辑框的存储格式结构。
表23到表25示出了支持图1的所有3D内容配置格式的ishd结构的实施例。
表23
  Class ishd{
  unsigned int(16)num_MonoStereo_scene;if(num_MonoStereo_scene){for(i=0;i<num_MonoStereo_scene;i++)unsigned int(16)start_sample_index;unsigned int(3)Composition_type;unsigned int(1)numofES;unsigned int(1)LR_first;unsigned int(3)Reserved;}}elseunsigned int(3)Composition_type;unsigned int(1)numofES;unsigned int(1)LR_first;stereoscopicCameraInfo[0...1];stereoscopicContentsInfo[0...1];}
表24
 Class ishd{unsigned int(16)num_MonoStereo_scene;if(num_MonoStereo_scene){for(i=0;i<num_MonoStereo_scene;i++)unsigned int(16)start_sample_index;unsigned int(3)Composition_type;unsigned int(1)numofES;unsigned int(1)LR_first;unsigned int(3)Reserved;}}elseunsigned int(3)Composition_type;unsigned int(1)numofES;
    unsigned int(1) LR_first;}
表25
 Class ishd{unsigned int(16)num_MonoStereo_scene;if(num_MonoStereo_scene){for(i=0;i<num_MonoStereo_scene;i++)unsigned int(16)start_sample_index;unsigned int(3)Composition_type;unsigned int(1)numofES;unsigned int(1)LR_first;stereoscopicCameraInfo[0...1];stereoscopicContentsInfo[0...1];unsigned int(3) Reserved;}}elseunsigned int(3)Composition_type;unsigned int(1)numofES;unsigned int(1)LR_first;stereoscopicCameraInfo[0...1];stereoscopicContentsInfo[0...1];}
在表23到表25中,“num_MonoStereo_scene”表示当立体内容由2D内容和3D内容一起形成时的场景的数目。“num_MonoStereo_scene”还表示当立体内容由各个3D内容形成时的场景的数目。例如,立体内容由2D内容、3D内容、和2D内容[(2D)(3D)(2D)]形成,num_MonoStereo_scene变为3(Num_MonoStereo_scene=3)。如果以并排方案(场序)来形成立体内容,则num_MonoStereo_scene变为2(Num_MonoStereo_scene=2)。此外,如果立体内容以单一格式由3D内容形成,则num_MonoStereo_scene变为1(Num_MonoStereo_scene=1)。
可以将“Start_sample_index”用作每个内容的开始采样数目(即,一般的帧数)或根据每个内容类型而包括的采样的数目。“numofES”表示在“mdat”逻辑框中包括的视频流的数目。
“Composition_type”表示用于标识2D内容和3D内容的格式的信息。可以将“Start_sample_index”和“Composition_type”用作用于支持2D/3D显示模式的各个3D终端处的自动显示开/关的基本信息。“Composition_type”具有表26的含义。
表26
Figure GPA00001155268100191
“LR_first”表示左侧图像和右侧图像之间具有较高优先级的一个。即,“LR_first”通知左侧图像和右侧图像之间首先编码的图像。
“stereoscopicCameraInfo(立体相机信息)”对象表示用于3D内容的相机参数信息。表27示出了“stereoscopicCameraInfo”对象的实施例。可以在其他典型的逻辑框或根据本发明实施例而新定义的逻辑框中包括根据本实施例的相机参数信息。在表27中,“StereoscopicCamera_setting”表示当再现或摄影3D内容时的相机安排。即,“StereoscopicCamera_setting”表示“平行”和“交叉”之一。“Baseline(基线)”表示立体相机之间的距离,而“Focal_Length”表示从镜头到图像平面的距离。同样,“ConvergencePoint_distance”表示从连接了左侧相机和左侧相机的基线到会聚点的图。
表27
  StereeoscopicCameraInfo{
    unsigned int(1) StereoscopicCamera_setting;unsigned int(7) Reserved=1111;unsigned int(16)Baseline;unsigned int(16)Focal_Length;unsigned int(16)ConvergencePoint_distance;}
“StereoscopicContentsInfo(立体内容信息)”对象表示用于显示3D内容的最小信息。表28示出了“StereoscopicContentsInfo”对象的实施例。可以在其他典型的逻辑框或根据本实施例而新定义的逻辑框中包括在“StereoscopicContentsInfo”中包括的信息。“Max_disparity”表示3D内容的最大视差尺寸,而“Min_disparity”表示3D内容的最小视差尺寸。
表28
  StereeoscopicContentsinfo{unsigned int(16)Max_disparity;unsigned int(16)Min_disparity;}
可以将“StereoscopicCameraInfo”和“StereeoscopicContentsinfo”中的信息表达为诸如MPEG-7元数据之类的附加描述,并且进行存储。
图10是图示了当ES=1时的根据本发明实施例的SS-VAF的图。
“ftyp”逻辑框表示是否包括立体内容。当整个基础流是3D时,并且当基础流由2D/3D混合流形成时,它们被认为是立体内容。
当立体内容由2D/3D流形成时,需要2D/3D流的开始信息和长度信息。针对开始信息和长度信息,使用作为基于ISO的文件格式(11496-12)的典型逻辑框的“iloc”逻辑框。在立体内容的情况下,“iloc”逻辑框提供所存储文件中的立体片段的位置。
通过“ishd”逻辑框来获得与区别2D流和3D流相关的信息。尽管在2D/3D混合流的情况下包括多个3D流,但是如果多个3D流是相同的信息(即,如果它是单一格式),则通过参考一个“ishd”信息来获得与3D流相关的信息。
在立体内容仅仅由单一格式的3D流形成的情况下,可以使用“ishd”逻辑框、而不使用“iloc”逻辑框来表达立体数据。同样,使用“iloc”逻辑框来检测每个格式的偏移/长度值,并且如果当ES=1时、3D流由多个格式形成,则通过“ishd”逻辑框来获得格式信息。在此情况下,“ishd”逻辑框包括关于多个格式的信息。
图11是图示了当ES=2时的根据本发明实施例的SS-VAF的图。在ES=2的情况下,在对应的“trak”逻辑框中包括左侧流信息和右侧流信息。由于如上所述将立体数据转换为预定格式并进行显示,则将左侧流信息和右侧流信息形成为两个轨道。然而,需要示出左侧流和右侧流之间的关系,以便使得将两个轨道识别为一个对象。例如,如果左侧图像是主要图像而右侧图像是附加图像,则可能通过表达在具有右侧图像流信息的“trak”逻辑框和具有左侧图像流信息的“trak”逻辑框之间的关系来去除“ishd”逻辑框中的冗余。如果在右侧图像流信息中包括的“ishd”中的相机参数和显示信息与在左侧图像流信息中包括的“ishd”中相同,则可以使用在左侧图像流信息中的“ishd”中包括的信息,而无需附加描述。为了表达这种关系,在本实施例中引入了“tref”逻辑框和“svdp”逻辑框。
当与每个格式对应的3D流是由存储为左侧和右侧流的3D流上的多个格式的3D流形成时,需要检测它的定界符、开始、和长度。通过作为基于ISO的文件格式(14496-12)的典型逻辑框的“iloc”逻辑框来获得所述开始和长度信息。同样,通过“ishd”逻辑框来获得与多个格式的3D流的定界符相关的信息。表29示出了根据本发明实施例的单一格式的“ishd”逻辑框的语法。
表29
 Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0)unsigned int(8)Stereoscopic_Composition_Type;unsigned int(1)LR_first;unsigned int(1)Is_camParams;unsigned int(1)Is_disInfo;unsigned int(5)Reserved;//所有以下是可选字段if(Is_CamParams){unsigned int(32)Baseline;unsigned int(32)focallength;unsigned int(32)convergence_distance;
    unsigned int(1)Is_camera_cross}if(Is_camera_cross){unsigned int(32)rotation[];unsgiend int(32)translation[];unsigned int(7)reserved;}if(Is_disInfo){Int(16)MinofDisparity;Int(16)MaxofDisparity;}
“Is_camParams”表示是否存在相机参数,“Is_disInfo”表示是否存在立体内容显示信息,“Bseline”表示左侧相机和右侧相机之间的距离,“focallength”表示从镜头到图像平面(底片)的距离,而“convergence_distance”表示从基线的中心到会聚点的距离。基线连接左侧相机和右侧相机,而会聚点是左侧和右侧相机的视线的交叉点。在平行轴相机的情况下,“convergence_distance”具有无穷大的值。为了表达它,向所有比特分派1。
同样,当“Is_camera_cross”是“1”时,“Is_camera_cross”表示交叉轴相机,而当“Is_camera_cross”是“0”时,“Is_camera_cross”表示平行轴相机。“rotation(旋转)”表示到对象的相机方位角。“translation(平移)”表示立体相机是否运动(当所有比特是0时,没有立体相机运动)。“MinofDisparity”表示左侧和右侧图像的最小视差尺寸,而“MaxofDisparity”表示左侧和右侧图像的最大视差。
表30示出了多个格式的“ishd”逻辑框的语法。“Item_count”表示多个格式情况下的格式的信息描述的数目。“Item_ID”表示每个格式的整体(integer)名称,并且用于标识立体内容中的各个立体格式。这里,与“iloc”逻辑框的item_ID一起使用该“Item_ID”。
表30
  Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0)unsigned int(16)item_count;for(i=0;i<item_count;i++){unsigned int(16)item_ID;unsigned int(8)Stereoscopic_Composition_Type;unsigned int(1)LR_first;unsigned int(1)Is_camParams;unsigned int(1)Is_disInfo;unsigned int(5)Reserved;//所有以下是可选字段if(Is_CamParams){unsigned int(32)baseline;unsigned int(32)focallength;unsigned int(32)convergence_distance;unsigned int(1)Is_camera_cross}if(Is_camera_cross){unsigned int(32)rotation[];unsigend int(32)translation[];unsigned inet(7)reserved;}if(Is_disInfo){Int(16)MinofDisparity;Int(16)MaxofDisparity;}//其他附加信息if(other_flag){}}
在下文中,将描述高级视频编码(AVC)和补足增强信息(SEI)。SEI包括具有与解码和显示相关的消息信息的“立体视频信息SEI”,并且在AVC流内传送SEI消息。
图12是包含NAL单元的单一视频基础流的流程图。图12的图a)示出了包括“立体视频信息SEI”和“reserved_sei_message”的部分,而图12的图b)示出了AVC流中的SEI的位置。表31示出了“立体视频信息SEI”消息。
表31
stereo_video_info(payloadSize){   C   描述符
  field_views_flag   5   u(1)
  if(field_views_flag)
    top_field_is_left_view_flag   5   u(1)
  else{
    current_frame_is_left_view_flag   5   u(1)
    next_frame_is_second_view_flag   5   u(1)
  }
  left_view_self_contained_flag   5   u(1)
  right_view_self_contained_flag   5   u(1)
}
“Field_views_flag”表示是否存在基于场的立体流。当“Top_field_is_left_view_flag”是“1”时,它表示以垂直方向交织格式(左侧视图优先)而形成的立体内容,而当“Top_field_is_left_view_flag”是“0”时,它表示以垂直方向行交织格式(右侧视图优先)而形成的立体内容。当“Current_frame_is_left_view_flag”是“1”时,它表示当前帧表现了左侧视图,而当它是“0”时,表示当前帧示出了右侧视图。当“Next_frame_is_second_view_flag”是“1”时,它表示立体图像由当前帧和下一帧形成,而当它是“0”时,表示立体图像由当前帧和前一帧形成。当“Left_view_self_contained_flag”是“1”时,它表示将流包覆(coat)为与右侧视图没有相关性的独立流,而当它是“0”时,表示基于与右侧视图的相关性来包覆流。当“Right_view_self_contained_flag”是“1”时,它表示将流包覆为与左侧视图没有相关性的独立流,而当它是“0”时,表示基于与左侧视图的相关性来包覆流。
“立体视频信息SEI”信息包括“stereoscopic_composition_type”之中的表32的格式。然而,不支持“并排”格式
表32
  1   垂直方向交织格式
  2   帧序格式
  3   场序格式
  4   单视场左侧图像
  5   单视场右侧图像
在下文中,引入了用于使用典型的AVC SEI信息来服务立体内容的方法和存储格式。仅当通过AVC来编码立体内容时,它是可能的。
引入使用“reserved_sei_message”的SS-VAF,作为添加基于典型的“立体视频信息SEI”的每个立体流所需的相机参数和显示信息。同样,可以像表33一样扩展和使用“立体视频信息SEI”。当“Side_by_side_flag”是“1”时,在左侧视图优先的情况下,将它形成为一帧中的左侧图像和右侧图像。当“Side_by_side_flag”是“0”时,在右侧视图优先的情况下,将它形成为一帧中的左侧图像和右侧图像。在表33中,“C”表示语法的类别,而“u(1)”意指使用1比特的“无符号整数”。
表33
  stereo_video_info(payloadSize){   C   描述符
    field_views_flag   5   u(1)
    if(field_views_flag)
      top_field_is_left_view_flag   5   u(1)
    else{
      current_frame_is_left_view_flag   5   u(1)
      next_frame_is_second_view_flag   5   u(1)
    }
    else{
    left_view_self_contained_flag   5   u(1)
    right_view_self_contained_flag   5   u(1)
    }
    side_by_side_flag   u(1)
  }
表34定义了使用AVC的SEI信息之中的“reserved_sei_message(有效负载尺寸)”的立体相机信息。这里,可以添加其他的相机信息。可以独立地使用所添加的信息。基于此,可以获得用于立体内容流的相机参数信息。
表34
  stereo_camera_info(payloadSize){if(Is_CamParams){baseline;focallength;convergence_distance;if(Is_camera_cross){rotation[];translation[];}}   C55555   描述符U(32)U(32)U(32)U(32)U(32)
表35定义了用于使用AVC的SEI信息之中的“reserved_sei_message(有效负载尺寸)”来显示立体内容的信息。基于在表35中定义的信息,提取立体内容视差值。
表35
  stereo_display_info(payloadSize){if(Is_disInfo){MinofDisparity;MaxofDisparity;}   C55   描述符U(16)U(16)
然而,可能通过将上面信息组合为一个SEI_message(SEI消息)来提供立体相机和显示信息。
图13是图示了使用立体视频信息和保留的SEI的SS-VAF的图。在所示的应用格式中选择性地包括LASeR。
在立体内容由2D/3D混合流形成的情况下,通过“iloc”逻辑框而在3D流片段期间获得在AVC流SEI消息中定义的3D流信息。这里,3D流信息可以包括“立体视频信息SEI”、“立体相机信息SEI”、和“立体显示信息SEI”。在立体内容仅仅由单一格式的3D流形成的情况下,可以使用在AVC流SEI消息中定义的3D流信息来表达立体内容。这里,3D流信息可以包括“立体视频信息SEI”、“立体相机信息SEI”、和“立体显示信息SEI”。
图14是图示了当立体内容包括两个基础流(ES)并且仅仅由单一格式立体流形成时的SS-VAF的图。在ES=2的情况下,在每个对应的“trak”中包括左侧流信息和右侧流信息。这里,必须示出左侧流和右侧流之间的关系。例如,如果左侧图像是主要图像而右侧图像是补充图像,则可能通过示出在包括右侧图像流信息的“trak”逻辑框和包括左侧图像流信息的另一“trak”逻辑框之间的关系来去除“ishd”信息的冗余。这种关系使用在基于ISO的文件格式中包括的“tref”逻辑框。它允许描述用于再现所必须的所有trak_ID(轨道ID)。因此,利用右侧图像流(补充图像)中的“trak”中的“tref”来描述所有的trak_ID。
表36示出了根据本发明实施例的支持各个立体配置格式和相机参数情况下的“ishd”逻辑框的语法。“item_ID”表示定义了下一信息的项目的ID,并且具有大于1的值。当“current_indicator”是“1”时,它表示接下来描述的信息的有效性,而当它是“0”时,表示先前描述的信息与接下来描述的信息相同。然而,如果item_ID=1,则它意指不存在接下来将描述的信息。即,终端基于“current_indicator”来确定接下来将描述的信息的有效性,并且当它是0时,确定出它与先前描述的“ishd”信息相同。
同样,“LR_first”表示左侧图像和右侧图像的参考位置选择。“Is_camParams”表示是否存在相机参数。“Is_displaySafeInfo”表示是否存在立体内容显示信息。“Baseline”表示左侧相机和右侧相机之间的距离。“focallength”表示从CCD到图像平面(底片)的距离。当“Is_camera_cross”是“1”时,它表示交叉轴相机,当它是“0”时,表示平行轴相机。
表36
  Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0)unsigned int(16)item_ID;
        unsigned int(1)current_indicatior;unsigned int(8)Stereoscopic_Composition_Type;unsigned int(1)LR_first;unsigned int(1)Is_camParams;unsigned int(1)Is_displaySafeInfo;unsigned int(4)Reserved;//所有以下字段是可选字段if(Is_CamParams){unsigned int(32)baseline;unsigned int(32)focallength;unsigned int(1)Is_camera_crossif(Is_camera_cross){unsigned int(32)convergence_distance;unsigned int(32)rotation[];unsgiend int(32)translation[];unsigned int(7)reserved;}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance;int(16)VerticalDisparity;int(16)MinofDisparity;Int(16)MaxofDisparity;}//其他附加信息if(other_flag){}aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0){unsigned int(16)item_count;ishdEntry[item_count]ishds;}
此外,“convergence_distance”表示从基线的中心到会聚点的距离(在平行相机的情况下,“convergence_distance”具有无穷大的值。当所有的比特都是1时,它表示无穷大的距离。)“rotation(旋转)”表示对于对象的相机方位角,而“translation(平移)”表示立体相机的运动(当所有的比特都是0时,它表示没有立体相机运动)。同样,“VerticalDisparity(垂直方向视差)”表示左侧和右侧图像的垂直方向视差尺寸,“MinofDisparity”表示左侧和右侧图像的最小水平方向视差尺寸,“MaxofDisparity”表示左侧和右侧图像的最小视差尺寸,而“项目计数”表示下一阵列中的条目的数目。
表37示出了根据本发明第一实施例的用于支持各个相机参数的“ishd”逻辑框的语法。这里,如果立体配置格式相同,则参考右侧前一“ishd”信息。同样,可以将在“ishd”中包括的相机参数和显示信息分割到附加逻辑框,并进行存储。
表37
  Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0)unsigned int(16)item_ID;unsigned int(8)Stereoscopic_Composition_Type;unsigned int(1)LR_first;unsigned int(1)current_indicatior;unsigned int(1)Is_camParams;unsigned int(1)Is_displaySafeInfo;unsigned int(4)Reserved;//所有以下字段是可选字段if(Is_CamParams){unsigned int(32)baseline;unsigned int(32)focallength;unsigned int(1)Is_camera_crossif(Is_camera_cross){unsigned int(32)convergence_distance;unsigned int(32)rotation[];unsgiend int(32)translation[];{unsigned int(7) reserved;}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance;
          int(16)VerticalDisparity;int(16)MinofDisparity;int(16)MaxofDisparity;}//其他附加信息if(other_flag){}aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0){unsigned int(16)item_count;ishdEntry[item_count]ishds;}
表38示出了根据本发明第二实施例的用于支持各个相机参数的“ishd”逻辑框的语法。假设立体配置格式相同并且参考右侧前一“ishd”。
表38
  Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0)unsigned int(8)Stereoscopic_Composition_Type;unsigned int(1)LR_first;unsigned int(7)Reserved;unsigned int(16)item_count;for(i=0;i<item_count;i++){unsigned int(16)item_ID;unsigned int(1)current_indicatior;unsigned int(1)Is_camParams;unsigned int(1)Is_displaySafeInfo;unsigned int(5)Reserved;//所有以下字段是可选字段if(Is_CamParams){unsigned int(32)baseline;unsigned int(32)focallength;unsigned int(1)Is_camera_cross
  unsigned int(7)reserved;if(Is_camera_cross){unsigned int(32)convergence_distance;unsigned int(32)rotation[];unsgiend int(32)translation[];}}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance;int(16)VerticalDisparity;int(16)MinofDisparity;int(16)MaxofDisparity;}//其他附加信息if(other_flag){}}
表39示出了根据本发明第三实施例的用于支持各个相机参数的“ishd”逻辑框的语法。假设立体配置格式相同并且参考诸如“cameParams(相机参数)”和“displaysafeInfo(显示安全信息)”之类的预定Item_ID。
在表39中,当“Is_ref”是“0”时,它表示不存在所参考的相机参数和显示信息,而当它是“1”时,表示存在所参考的Item_ID。“current_refIndex”表示所参考的项目ID。
表39
  Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0)unsigned int(8)  Stereoscopic_Composition_Type;unsigned int(1)  LR_first;unsigned int(7)  Reserved;unsigned int(16) item_count;for(i=0;i<item_count;i++){unsigned int(16)item_ID;unsigned int(1)Is_camParams;
  unsigned int(1)Is_displaySafeInfo;unsigned int(1)Is_ref;unsigned int(5)Reserved;//所有以下字段是可选字段If(Is_ref){unsigned int(16)current_refIndex;}else{if(Is_CamParams){unsigned int(32)baseline;unsigned int(32)focallength;unsigned int(1)Is_camera_crossunsigned int(7)reserved;}if(Is_camera_cross){unsigned int(32)convergence_distance;unsigned int(32)rotation[];unsgiend int(32)translation[];}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance;int(16)VerticalDisparity;int(16)MinofDisparity;int(16)MaxofDisparity;}}//其他附加信息if(other_flag){}}
表40示出了根据本发明第四实施例的用于支持各个相机参数的“ishd”逻辑框的语法。假设立体配置格式相同并且“cameParams”和“displaysafeInfo”参考不同的Item_ID。
表40
  Aligned(8)class Initial Stereoscopic Header box extend FullBox(′ishd′,version=0,0)unsigned int(8)Stereoscopic_Composition_Type;unsigned int(1)LR_first;unsigned int(7)Reserved;unsigned int(16)   item_count;for(i=0;i<item_count;i++){unsigned int(16)item_ID;unsigned int(1)  Is_camParams;unsigned int(1)  Is_displaySafeInfo;unsigned int(1)  Is_camParamsref;unsigned int(1)  Is_displaySafeInforef;unsigned int(4)  Reserved;//所有以下字段是可选字段If(Is_camParamsref||Is_displaySafeInforef){unsigned int(16)current_camrefIndex;unsigned int(16)current_displayrefIndex;}else{if(Is_CamParams){unsigned int(32)baseline;unsigned int(32)focallength;unsigned int(1) Is_camera_crossunsigned int(7) reserved;if(Is_camera_cross){unsigned int(32)convergence_distance;unsigned int(32)rotation[];unsgiend int(32)translation[];}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance;int(16)VerticalDisparity;int(16)MinofDisparity;int(16)MaxofDisparity;}
    }//其他附加信息if(other_flag){}}
在表40中,当“Is_camParamsref”是“0”时,它表示不存在所参考的相机参数信息,而当它是“1”时,表示存在所参考的Item_ID。当“Is_displaySafeInforef”是“0”时,它表示不存在所参考的显示安全信息,而当它是“1”时,表示存在所参考的Item_ID。“current_cameraIndex”表示所参考的Item_ID,而“Current_displayIndex”表示所参考的Item_ID。
可以将“ishd”逻辑框划分为用于记录立体视频媒体信息的“svmi”逻辑框(立体视频媒体信息逻辑框)和用于记录相机参数和显示信息的“scdi”逻辑框(立体相机和显示信息逻辑框)。由于“svmi”逻辑框是强制性的而“scdi”逻辑框不是强制性的,所以有利地将“ishd”逻辑框划分为“svmi”逻辑框和“scdi”逻辑框,以便去除不必要的信息。
“svmi”逻辑框提供立体视觉类型和片段信息。更详细地,立体视频媒体信息包括关于立体图像配置类型的信息、关于左侧图像和右侧图像之间首先编码的图像的信息、当立体内容的基础流从立体片段改变为单视场片段或者从单视场片段改变为立体片段时的关于片段的数目的信息、关于连续采样的数目或者计数开始采样数目的信息、以及关于当前采样是否是立体的信息。
“scdi”逻辑框包括关于是否存在相机参数的信息、左侧相机和右侧相机之间的距离、左侧和右侧相机的安排、从主要视图相机到子视图相机的相对角、以及在左侧图像和右侧图像之间的最大视差和最小视差。表41示出了根据本发明实施例的“scdi”逻辑框的语法。
表41
unsigned int(16)item_count;for(i=0;i<item_count;i++){unsigned int(16)item_ID;unsigned int(1)Is_camParams;unsigned int(1)Is_displaySafeInfo;unsigned int(1)Is_ref;unsigned int(5)Reserved;
//所有以下字段是可选字段If(Is_ref){unsigned int(16)current_refIndex;}else{if(Is_CamParams){unsigned int(32)baseline;unsigned int(32)focallength;unsigned int(1)Is_camera_crossunsigned int(7)reserved;}if(Is_camera_cross){unsigned int(32)convergence_distance;unsigned int(32)rotation[];unsgiend int(32)translation[];}if(Is_displaySafeInfo){unsigned int(16)ViewingDisatance;int(16)VerticalDisparity;int(16)MinofDisparity;int(16)MaxofDisparity;}}
如所示的,可能通过“tref”逻辑框(轨道参考逻辑框)来去除在每个轨道中包括的“scdi”信息的冗余。当ES=2时,每个轨道的“iloc”逻辑框划分立体片段,以便提供“scdi”信息。这里,每个轨道的立体片段具有相同的item_ID以及相同的相机参数和显示信息。通过“tref”的“svdp”来将基础流划分为主要/补充轨道。尽管仅仅在一个轨道中包括“iloc”逻辑框,但是当执行3D显示时,可能经由通过立体片段而同步“iloc”逻辑框来再现它。
还可能通过“tref”逻辑框来去除在每个轨道中包括的相同立体视频媒体信息(“svmi”)的冗余。在通过“ftyp”逻辑框来识别立体内容之后,通过“tref”逻辑框的“svdp”逻辑框来划分主要/补充轨道。如果一个轨道包括“svmi”逻辑框,则可以自动地识别另一轨道。由于“svmi”逻辑框是强制性的,所以可以在主要/补充轨道中包括它。可以仅仅在主要轨道中包括“svmi”逻辑框。
图15是图示了根据本发明实施例的当ES=2时的SS-VAF的图。如图15所示,SS-VAF包括“svmi”逻辑框和“scdi”逻辑框。
当立体内容包括两个基础流(ES)时,包括两个轨道(“trak”)。可以将它划分为主要轨道和补充轨道。因此,使用补充轨道中的“tref”的“svdp”来参考主要轨道,并且提供在相关的“scdi”信息中包括的信息。这种结构具有去除在每个轨道中包括的相同“scdi”信息的冗余的优点。这里,track_ID表示所参考的轨道的ID。如果reference_type是“svdp”,则它还表示轨道包括用于参考轨道的立体相机和显示信息。
当在用户正在利用3D显示模式来观看预定的图像的时候、用户将3D显示模式改变为2D显示模式时,通过在终端处显示与主要轨道对应的图像来满足2D显示模式。其间,相同的单视场数据可以存在于具有两个基础流的轨道中的基础流的中间。在单视场数据中,在两个轨道中存储相同的内容。因此,单视场数据是不能显示为3D的数据。在此情况下,终端必须决定两个轨道之一,以显示其单视场数据。终端显示与根据本实施例而划分的主要轨道对应的图像。
当立体视频的基础流是两个时,存在两个轨道。通过诸如传统的LASeR之类的场景描述符来将立体视频识别为两个对象,并且将立体视频连接到LASeR中的两个视频相关节点。然而,最终,必须将立体视频转换为一个3D视频格式,并且在终端中进行再现。因此,必须通过LASeR来将它识别为一个对象。即,由于需要将立体视频转换为一个3D视频格式,以用于再现立体视频的场景,所以它与所使用的一个节点相连。根据本实施例,使用“tref”中的“svdp”来将立体视频划分为主要/补充轨道,并且LASeR中的视频相关节点仅仅链接与主要轨道或媒体流对应的“轨道ID”。
图16是图示了根据本发明实施例的用于将立体存储为基于ISO的媒体文件格式的方法的流程图。首先,在步骤S1602中,在基于ISO的媒体文件格式的“mdat”逻辑框中存储目标立体内容。然后,在步骤S1604和S1606中,作为立体内容的元数据来在“moov”逻辑框中存储立体内容的立体视频媒体信息以及立体相机和显示信息。
图17是图示了根据本发明另一实施例的用于以基于ISO的媒体文件格式来存储立体内容的方法的流程图。首先,在步骤S1702中,在基于ISO的媒体文件格式的“mdat”逻辑框中存储目标立体内容。然后,如果立体内容包括两个基础流,则在步骤S1704中在基于ISO的媒体文件格式的“tref”逻辑框中存储用于将基础流划分为主要轨道和补充轨道的信息(“svdp”)。然后,在步骤S1706中,存储用于立体内容的、具有仅仅链接到主要轨道的视频相关节点的LASeR。这里,不使用链接到LASeR的部分,而仅仅使用“tref”。
图18是图示了根据本发明又一实施例的用于存储立体内容的方法的流程图。这里,使用如上所述的AVC SEI来存储立体内容。首先,在步骤S1802中存储通过AVC而编码的立体内容。然后,在步骤S1804中,使用“reserved_sei_message”来存储对于立体内容的每个流所需的相机参数和显示信息。
这里,“立体视频信息SEI”附加地包括表示了立体图像配置是“并排”类型的信息。相机参数包括:左侧相机和右侧相机之间的距离、左侧和右侧一致的焦距(focal_length)、从基线到会聚点的距离、当左侧和右侧相机彼此交叉时左侧和右侧相机的旋转和平移中的至少一个。显示信息包括左侧图像和右侧图像之间的最大视差和最小视差。
发明模式
如上所述,可以将本发明的技术实现为程序,并且存储在诸如CD-ROM、RAM、ROM、软盘、硬盘、和磁光盘之类的计算机可读记录介质中。由于本发明领域的技术人员可以容易地实现该处理,所以在这里将不提供进一步的描述。
尽管已经针对具体实施例而描述了本发明,但是对于本领域技术人员明显的是,可以做出各种改变和修改,而不脱离由以下权利要求限定的本发明的精神和范围。

Claims (20)

1.一种用于存储立体内容的方法,包括:
存储立体内容的流;以及
当立体内容具有多于两个基础流时,在轨道参考逻辑框中存储用于将基础流划分为主要轨道和补充轨道的信息。
2.根据权利要求1的方法,还包括:
存储包括仅仅链接到主要轨道的视频相关节点的、用于立体内容的场景描述信息。
3.根据权利要求1的方法,其中所述轨道参考逻辑框是基于ISO的媒体文件的“tref”逻辑框。
4.根据权利要求2的方法,其中将场景描述信息的视频相关节点链接到与主要轨道对应的轨道标识(ID)或媒体流。
5.根据权利要求2的方法,其中当要以二维显示模式来示出立体内容时,按照仅仅显示主要轨道的视频的方式来存储立体内容。
6.根据权利要求2的方法,其中当在立体内容中间的基础流中存在相同的单视场数据时,按照仅仅显示主要轨道的视频的方式来存储立体内容。
7.根据权利要求1的方法,还包括:
存储关于立体内容的部分信息的立体视频媒体信息,作为立体内容的元数据信息。
8.根据权利要求7的方法,其中向主要轨道或补充轨道、或者向主要轨道和补充轨道两者提供立体视频媒体信息。
9.根据权利要求1的方法,还包括:
存储立体内容的立体相机和显示信息,作为立体内容的元数据信息。
10.根据权利要求9的方法,其中向主要轨道或补充轨道提供所述立体相机和显示信息。
11.根据权利要求9的方法,其中所述立体相机和显示信息包括:立体片段的数目、用于标识立体部分的项目ID、关于是否存在参考项目ID的信息、和用于提供关于立体部分的相机和显示信息的参考项目ID之中的至少一个。
12.一种用于存储立体内容的文件格式结构,包括:
媒体数据逻辑框,用于存储立体内容的流;以及
轨道参考逻辑框,用于当立体内容包括多于两个基础流时,存储用于将基础流划分为主要轨道和补充轨道的信息。
13.根据权利要求12的文件格式结构,还包括:
被配置为存储包括仅仅链接到主要轨道的视频相关节点的、用于立体内容的场景描述信息的逻辑框。
14.根据权利要求12的文件格式结构,还包括:
被配置为存储用于立体内容的部分信息的立体视频媒体信息、作为立体内容的元数据信息的逻辑框。
15.根据权利要求12的文件格式结构,还包括:
被配置为存储立体内容的多立体相机和显示信息、作为立体内容的元数据的逻辑框。
16.根据权利要求12的文件格式结构,其中所述文件格式结构是基于ISO的媒体文件格式,而轨道参考逻辑框是“tref”逻辑框。
17.一种用于基于高级视频编码(AVC)补足增强信息(SEI)来存储立体内容的方法,包括:
存储基于AVC而编码的立体内容,
其中“立体视频信息SEI”包括指示立体视频是“并排”类型的信息。
18.根据权利要求17的方法,还包括:
基于“reserved_sei_message”来存储对于立体内容的每个流所需的相机参数和显示信息。
19.根据权利要求17的方法,其中所述相机参数包括:左侧相机和右侧相机之间的距离、左侧和右侧相同的焦距(focal_length)、基线和会聚点之间的距离、以及当左侧和右侧相机彼此交叉时左侧和右侧相机的旋转和平移之中的至少一个。
20.根据权利要求17的方法,其中所述显示信息包括左侧和右侧图像之间最大视差和最小视差。
CN2008801198629A 2007-10-10 2008-06-19 用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法 Pending CN101897193A (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
KR20070101964 2007-10-10
KR10-2007-0101964 2007-10-10
KR10-2007-0119740 2007-11-22
KR20070119740 2007-11-22
KR10-2007-0122945 2007-11-29
KR20070122945 2007-11-29
KR20070133764 2007-12-18
KR10-2007-0133764 2007-12-18
KR10-2008-0016280 2008-02-22
KR20080016280 2008-02-22
PCT/KR2008/003482 WO2009048216A1 (en) 2007-10-10 2008-06-19 Metadata structure for storing and playing stereoscopic data, and method for storing stereoscopic content file using this metadata

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2013100850016A Division CN103281589A (zh) 2007-10-10 2008-06-19 非瞬态性计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN101897193A true CN101897193A (zh) 2010-11-24

Family

ID=40549343

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2013100850016A Pending CN103281589A (zh) 2007-10-10 2008-06-19 非瞬态性计算机可读存储介质
CN2008801198629A Pending CN101897193A (zh) 2007-10-10 2008-06-19 用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2013100850016A Pending CN103281589A (zh) 2007-10-10 2008-06-19 非瞬态性计算机可读存储介质

Country Status (6)

Country Link
US (1) US8396906B2 (zh)
EP (1) EP2198625A4 (zh)
JP (1) JP2011502375A (zh)
KR (1) KR101398168B1 (zh)
CN (2) CN103281589A (zh)
WO (1) WO2009048216A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103004215A (zh) * 2011-05-19 2013-03-27 索尼公司 图像数据传送装置、图像数据传送方法和图像数据接收装置
CN103493493A (zh) * 2011-04-28 2014-01-01 索尼公司 编码装置和编码方法以及解码装置和解码方法
CN103548345A (zh) * 2011-05-30 2014-01-29 索尼公司 记录设备和方法、再现设备和方法、程序和记录再现设备
US10869016B2 (en) 2018-04-12 2020-12-15 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content
US10939086B2 (en) 2018-01-17 2021-03-02 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content
US10944977B2 (en) 2018-04-03 2021-03-09 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding overlay compositions

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5231563B2 (ja) * 2007-10-19 2013-07-10 サムスン エレクトロニクス カンパニー リミテッド 立体映像データを記録する方法
KR101530713B1 (ko) * 2008-02-05 2015-06-23 삼성전자주식회사 영상 파일을 생성하고 표시하기 위한 장치 및 방법
US8316148B2 (en) * 2008-02-22 2012-11-20 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for obtaining media over a communications network
WO2009103344A1 (en) * 2008-02-22 2009-08-27 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for obtaining media over a communications network
KR101490689B1 (ko) 2008-05-27 2015-02-06 삼성전자주식회사 카메라 파라미터를 이용한 스테레오스코픽 영상데이터스트림 생성 방법 및 그 장치와 스테레오스코픽 영상복원 방법 및 그 장치
KR20100002032A (ko) * 2008-06-24 2010-01-06 삼성전자주식회사 영상 생성 방법, 영상 처리 방법, 및 그 장치
US8743178B2 (en) 2010-01-05 2014-06-03 Dolby Laboratories Licensing Corporation Multi-view video format control
JP2011142586A (ja) * 2010-01-08 2011-07-21 Sony Corp 画像処理装置、情報記録媒体、および画像処理方法、並びにプログラム
JP2011142585A (ja) * 2010-01-08 2011-07-21 Sony Corp 画像処理装置、情報記録媒体、および画像処理方法、並びにプログラム
US20120188340A1 (en) * 2010-06-23 2012-07-26 Toru Kawaguchi Content distribution system, playback apparatus, distribution server, playback method, and distribution method
KR101711009B1 (ko) * 2010-08-26 2017-03-02 삼성전자주식회사 영상 저장장치, 영상 재생장치, 영상 저장방법, 영상 제공방법, 저장매체 및 촬영장치
KR101750047B1 (ko) * 2010-10-11 2017-06-22 삼성전자주식회사 3차원 영상 제공 및 처리 방법과 3차원 영상 제공 및 처리 장치
US20140036033A1 (en) * 2011-04-28 2014-02-06 Sony Corporation Image processing device and image processing method
CN102972024A (zh) * 2011-05-11 2013-03-13 松下电器产业株式会社 动态图像发送装置以及动态图像发送方法
JP2013090185A (ja) * 2011-10-19 2013-05-13 Sharp Corp 画像ファイル生成装置、画像ファイル読込装置、画像ファイル生成方法、画像ファイル読込方法およびプログラム
US10120891B2 (en) 2013-02-11 2018-11-06 International Business Machines Corporation Data placement optimization
KR102114346B1 (ko) * 2013-08-30 2020-05-22 삼성전자주식회사 스테레오 컨버전스 제어 방법 및 이를 적용한 스테레오 이미지 프로세서
JP2018517329A (ja) * 2015-07-08 2018-06-28 エルジー エレクトロニクス インコーポレイティド 放送信号送信装置、放送信号受信装置、放送信号送信方法、及び放送信号受信方法
GB2567624B (en) 2017-10-12 2021-05-26 Canon Kk Method, device and computer program for transmitting media content
JP7457506B2 (ja) 2019-07-01 2024-03-28 キヤノン株式会社 画像ファイル生成装置、画像ファイル生成方法、画像ファイル再生装置、画像ファイル再生方法、及びプログラム
WO2021002165A1 (ja) * 2019-07-01 2021-01-07 キヤノン株式会社 画像ファイル作成装置、画像ファイル作成方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005026800A (ja) * 2003-06-30 2005-01-27 Konica Minolta Photo Imaging Inc 画像処理方法、撮像装置、画像処理装置及び画像記録装置
JP2005510187A (ja) * 2001-11-21 2005-04-14 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 両眼/多視点3次元動画像処理システム及びその方法
JP2006013759A (ja) * 2004-06-24 2006-01-12 Matsushita Electric Ind Co Ltd 立体視用の画像ファイルを生成する電子機器、3次元画像データを生成する電子機器、画像ファイル生成方法、3次元画像データ生成方法および画像ファイルのファイル構造
KR100716142B1 (ko) * 2006-09-04 2007-05-11 주식회사 이시티 스테레오스코픽 영상 데이터의 전송 방법

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2101496B1 (en) * 1996-02-28 2013-01-23 Panasonic Corporation High-resolution optical disk for recording stereoscopic video, optical disk reproducing device and optical disk recording device
WO2000068946A1 (fr) * 1999-05-07 2000-11-16 Kabushiki Kaisha Toshiba Structure de donnees pour donnees en continu, et procede d'enregistrement et de reproduction de donnees en continu
US6831677B2 (en) 2000-02-24 2004-12-14 Yissum Research Development Company Of The Hebrew University Of Jerusalem System and method for facilitating the adjustment of disparity in a stereoscopic panoramic image pair
JP2001251616A (ja) * 2000-03-02 2001-09-14 Media Glue Corp 多重化音響・動画圧縮符号化信号変換方法、装置および変換プログラムを記録した媒体
JP2002318807A (ja) 2001-04-19 2002-10-31 Matsushita Electric Ind Co Ltd メタデータ作成装置およびメタデータ作成方法
US7319720B2 (en) * 2002-01-28 2008-01-15 Microsoft Corporation Stereoscopic video
US20030156649A1 (en) * 2002-01-28 2003-08-21 Abrams Thomas Algie Video and/or audio processing
AU2003231510A1 (en) 2002-04-25 2003-11-10 Sharp Kabushiki Kaisha Image data creation device, image data reproduction device, and image data recording medium
US7054888B2 (en) * 2002-10-16 2006-05-30 Microsoft Corporation Optimizing media player memory during rendering
KR100556826B1 (ko) 2003-04-17 2006-03-10 한국전자통신연구원 Mpeg-4 기반의 양안식 3차원 동영상을 서비스하기 위한 인터넷 방송 시스템 및 그 방법
CN1833439A (zh) * 2003-08-08 2006-09-13 松下电器产业株式会社 数据处理装置和数据处理方法
JP2005094168A (ja) 2003-09-12 2005-04-07 Sharp Corp ファイル構造及びそれを用いる画像記録装置並びに画像再生装置
KR100679740B1 (ko) * 2004-06-25 2007-02-07 학교법인연세대학교 시점 선택이 가능한 다시점 동영상 부호화/복호화 방법
JP4580787B2 (ja) 2005-03-16 2010-11-17 株式会社東芝 半導体記憶装置およびその形成方法
KR100657322B1 (ko) * 2005-07-02 2006-12-14 삼성전자주식회사 로컬 3차원 비디오를 구현하기 위한 인코딩/디코딩 방법 및장치
CN101292538B (zh) * 2005-10-19 2012-11-28 汤姆森特许公司 使用可缩放的视频编码的多视图视频编码
KR100747598B1 (ko) * 2005-12-09 2007-08-08 한국전자통신연구원 디지털방송 기반의 3차원 입체영상 송수신 시스템 및 그방법
JP2009060154A (ja) * 2005-12-22 2009-03-19 Panasonic Corp 映像コンテンツ記録方法、映像コンテンツ記録装置、映像コンテンツ再生方法及び映像コンテンツ再生装置
GB2439578B (en) * 2006-06-30 2011-11-09 Data Equation Ltd Data processing
US7877706B2 (en) * 2007-01-12 2011-01-25 International Business Machines Corporation Controlling a document based on user behavioral signals detected from a 3D captured image stream
US7971156B2 (en) * 2007-01-12 2011-06-28 International Business Machines Corporation Controlling resource access based on user gesturing in a 3D captured image stream of the user
US8588464B2 (en) * 2007-01-12 2013-11-19 International Business Machines Corporation Assisting a vision-impaired user with navigation based on a 3D captured image stream
US8295542B2 (en) * 2007-01-12 2012-10-23 International Business Machines Corporation Adjusting a consumer experience based on a 3D captured image stream of a consumer response
US7801332B2 (en) * 2007-01-12 2010-09-21 International Business Machines Corporation Controlling a system based on user behavioral signals detected from a 3D captured image stream
US7840031B2 (en) * 2007-01-12 2010-11-23 International Business Machines Corporation Tracking a range of body movement based on 3D captured image streams of a user
CN101803394A (zh) * 2007-06-19 2010-08-11 韩国电子通信研究院 存储和播放立体数据的元数据结构以及使用该元数据存储立体内容文件的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005510187A (ja) * 2001-11-21 2005-04-14 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 両眼/多視点3次元動画像処理システム及びその方法
JP2005026800A (ja) * 2003-06-30 2005-01-27 Konica Minolta Photo Imaging Inc 画像処理方法、撮像装置、画像処理装置及び画像記録装置
JP2006013759A (ja) * 2004-06-24 2006-01-12 Matsushita Electric Ind Co Ltd 立体視用の画像ファイルを生成する電子機器、3次元画像データを生成する電子機器、画像ファイル生成方法、3次元画像データ生成方法および画像ファイルのファイル構造
KR100716142B1 (ko) * 2006-09-04 2007-05-11 주식회사 이시티 스테레오스코픽 영상 데이터의 전송 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103493493A (zh) * 2011-04-28 2014-01-01 索尼公司 编码装置和编码方法以及解码装置和解码方法
CN103004215A (zh) * 2011-05-19 2013-03-27 索尼公司 图像数据传送装置、图像数据传送方法和图像数据接收装置
CN103548345A (zh) * 2011-05-30 2014-01-29 索尼公司 记录设备和方法、再现设备和方法、程序和记录再现设备
US10939086B2 (en) 2018-01-17 2021-03-02 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content
TWI734951B (zh) * 2018-01-17 2021-08-01 新加坡商聯發科技(新加坡)私人有限公司 用於編碼和解碼虛擬實境內容的方法和裝置
US10944977B2 (en) 2018-04-03 2021-03-09 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding overlay compositions
US10869016B2 (en) 2018-04-12 2020-12-15 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content

Also Published As

Publication number Publication date
US8396906B2 (en) 2013-03-12
WO2009048216A1 (en) 2009-04-16
US20100217785A1 (en) 2010-08-26
EP2198625A4 (en) 2013-11-06
KR101398168B1 (ko) 2014-05-22
KR20090037283A (ko) 2009-04-15
JP2011502375A (ja) 2011-01-20
CN103281589A (zh) 2013-09-04
EP2198625A1 (en) 2010-06-23

Similar Documents

Publication Publication Date Title
CN101897193A (zh) 用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法
KR101310214B1 (ko) 스테레오스코픽 데이터의 저장 및 재생을 위한 메타데이터 구조 및 이를 이용하는 스테레오스코픽 콘텐츠 파일의 저장 방법
JP5519647B2 (ja) カメラ・パラメータを利用したステレオスコピック映像データ・ストリーム生成方法及びその装置、
CN102224737B (zh) 组合三维视频和辅助数据
CN102474638B (zh) 组合3d视频与辅助数据
KR101362941B1 (ko) 스테레오스코픽 콘텐츠 재생에 이용되는 메타 데이터의복호화 방법 및 장치
US20090199100A1 (en) Apparatus and method for generating and displaying media files
US20170134709A1 (en) Method and apparatus for generating stereoscopic file
AU2009210926B2 (en) Apparatus and method for generating and displaying media files
CN101562036A (zh) 用于生成和播放用于幻灯片的图像文件的系统和方法
KR101434674B1 (ko) 스테레오스코픽 파일을 생성하기 위한 장치 및 방법
KR101176065B1 (ko) 스테레오스코픽 영상에 관한 데이터를 전송하는 방법, 스테레오스코픽 영상을 재생하는 방법, 및 스테레오스코픽 영상 데이터의 파일 생성 방법
KR101382618B1 (ko) 콘텐츠 정보 생성 방법 및 콘텐츠 정보를 이용한 콘텐츠처리 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101124