CN110100435A - 生成装置、识别信息生成方法、再现装置和图像再现方法 - Google Patents

生成装置、识别信息生成方法、再现装置和图像再现方法 Download PDF

Info

Publication number
CN110100435A
CN110100435A CN201780079711.4A CN201780079711A CN110100435A CN 110100435 A CN110100435 A CN 110100435A CN 201780079711 A CN201780079711 A CN 201780079711A CN 110100435 A CN110100435 A CN 110100435A
Authority
CN
China
Prior art keywords
image
region
frame
packaged
packing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780079711.4A
Other languages
English (en)
Other versions
CN110100435B9 (zh
CN110100435B (zh
Inventor
高桥辽平
平林光浩
铃木辉彦
中神央二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN110100435A publication Critical patent/CN110100435A/zh
Application granted granted Critical
Publication of CN110100435B publication Critical patent/CN110100435B/zh
Publication of CN110100435B9 publication Critical patent/CN110100435B9/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/349Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes
    • H04N13/359Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/361Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23605Creation or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4343Extraction or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及被配置成能够识别打包方法的生成装置、识别信息生成方法、再现装置、以及图像再现方法。本发明生成立体打包识别信息,该立体打包识别信息识别针对被打包在打包帧中的球形图像的多个区域图像的打包方法。当使用多种打包方法之一来执行打包时,可以通过生成识别信息、基于指示打包方法的立体打包识别信息来容易地生成并呈现投影帧。本发明可以应用于在接收侧发送和再现球形立体图像的情况。

Description

生成装置、识别信息生成方法、再现装置和图像再现方法
技术领域
本技术涉及生成装置、识别信息生成方法、再现装置和图像再现方法,具体地,涉及能够识别打包方案的生成装置、识别信息生成方法、再现装置和图像再现方法。
背景技术
存在这样的记录装置:根据由多个摄像装置拍摄的拍摄图像生成其中在水平方向上360度且在垂直方向上180度的图像被映射为2D图像(平面图像)的全天球图像(celestial sphere image),并且对全天球图像进行编码和记录(例如,参见专利文献1)。
在这样的记录装置中,使用等量矩形投影、立方体映射方法等的方法被用作生成全天球图像的方法。在生成全天球图像的方法是使用等量矩形投影的方法的情况下,全天球图像是当捕获图像被映射到球体的表面时根据球体的等量矩形投影的图像。另外,在生成全天球图像的方法是立方体映射方法的情况下,全天球图像是当拍摄图像被映射到立方体的表面时立方体的展开图的图像。
另一方面,作为流式运动图像内容,存在基于HTTP的运动图像专家组阶段-动态自适应流传输(Moving Picture Experts Group phase-Dynamic Adaptive Streaming overHTTP,MPEG-DASH)。在MPEG-DASH中,用于管理运动图像内容的编码流的管理文件从递送服务器传输到终端装置,并且终端装置基于管理文件来选择作为再现目标的编码流并且请求来自递送服务器的编码流。
在将全天球图像应用于虚拟现实(VR)图像的情况下,需要立体图像。
引用列表
专利文献
专利文献1:JP 2006-14174A
发明内容
技术问题
在ISO基础媒体文件格式(ISOBMFF)中,使用stvi(Stereo VideoBox,立体视频框)的stereo_indication_type字段,并且可以将诸如在立体图像中使用的并排(side byside)或上下(top&bottom)的打包方案传送到再现装置侧。
然而,由于作为通常的二维图像的立体图像是目标,所以相关技术的打包方案不足以对全天球图像进行打包。因此,期望开发适合于全天球图像的打包方案,并且优选地在再现装置侧识别打包方案。
考虑到这样的状况而想出了本技术,并且本技术能够识别打包方案。针对问题的解决方案
本技术的一个方面是一种生成装置,包括:生成单元,其被配置成生成立体打包识别信息,该立体打包识别信息用于识别针对被打包在打包帧中的全天球图像的多个区域图像的打包类型。
还可以设置打包单元,其被配置成将用于生成全天球图像的多个区域的投影帧的全天球立体图像的第一图像和第二图像打包在打包帧中。
第一图像和第二图像可以是左眼区域图像和右眼区域图像,或者是纹理图像和深度图像。
立体打包识别信息可以包括用于识别下述打包类型的信息,在该打包类型中,对应区域的第一图像和第二图像被布置成构成整体上为矩形的打包帧。
立体打包识别信息可以包括用于识别下述打包类型的信息,在该打包类型中,对应区域的第一图像和第二图像被打包成在打包帧中相邻。
立体打包识别信息可以包括用于识别下述打包类型的信息,在该打包类型中,对应区域的第一图像和第二图像被布置在矩形的打包帧中的任意位置处。
立体打包识别信息可以包括用于识别下述打包类型的信息,在该打包类型中,执行打包,使得整体上为矩形的第一帧以对应区域的第一图像和无效区域构成,整体上为矩形的第二帧以对应区域的第二图像和无效区域构成,并且第一帧和第二帧被布置在预定位置处以构成矩形的打包帧。
全天球图像的投影结构可以是球体,并且与正面的区域的左侧相邻的区域的第一图像和第二图像以及与正面的区域的右侧相邻的区域的第一图像和第二图像可以被收集在一个大的区域中。
区域可以由球面坐标系中的该区域的中心的偏航角和俯仰角、该区域的宽度和高度的角度、或者该区域在二维坐标系中的宽度和高度以及该区域的一个角度的x坐标和y坐标表示。
立体打包识别信息可以在ISOBMFF的方案信息框下面的框中被描述。
生成单元还可以生成用于识别为了进行打包而针对第一图像和第二图像改变了位置或尺寸中的至少一个的打包识别信息。
在打包识别信息是用于识别为了进行打包而改变了位置或尺寸中的至少一个的打包识别信息的情况下,可以描述第一图像。
生成单元还可以生成用于识别区域图像的布置的识别信息、用于识别区域图像是立体的还是单视场的识别信息、用于识别针对投影结构的投影的类型的识别信息、或者用于识别投影结构的区域的宽度和高度的角度的标准的识别信息。
生成单元还可以生成用于识别每个区域的视点数量的识别信息。在立体打包识别信息是用于识别其中对应区域的第一图像和第二图像被布置在矩形的打包帧的任意位置处的打包类型的识别信息的情况下,可以描述具有与用于识别每个区域的视点数量的识别信息相对应的数量的视点的区域图像。
立体打包识别信息可以是根据MPEG-DASH来描述的。
在配置了划分和存储打包帧的图像的轨道的情况下,可以将打包帧与存储在轨道中的图像的立体打包识别信息相对应地进行打包。
在配置了存储有一对立体图像的轨道的情况下,打包帧可以被打包成使得显示区域相匹配的第一图像和第二图像在打包帧中形成任意的连续矩形区域。
本技术的一个方面是一种识别信息生成方法,该识别信息生成方法包括:由生成装置生成立体打包识别信息的生成步骤,该立体打包识别信息用于识别针对被打包在打包帧中的全天球图像的多个区域图像的打包类型。
本技术的一个方面是一种再现装置,包括:获取单元,其被配置成获取识别信息,所述识别信息用于识别将全天球图像的多个区域图像打包在打包帧中的类型;生成单元,其被配置成基于所获取的识别信息来生成投影帧;以及呈现单元,其被配置成呈现投影帧。
本技术的一个方面是一种图像再现方法,包括:由再现装置获取识别信息的获取步骤,该识别信息用于识别将全天球图像的多个区域图像打包打包帧中的类型;由再现装置基于所获取的识别信息来生成投影帧的生成步骤;以及由再现装置呈现投影帧的呈现步骤。
本技术的一个方面是一种生成装置,包括:打包单元,其被配置成将用于生成全天球图像的多个区域的投影帧的全天球立体图像的第一图像和第二图像打包在打包帧中;以及生成单元,其被配置成生成立体视频信息,该立体视频信息包括针对每个轨道指示在其中存储有打包帧的第一图像或第二图像中的至少一个的轨道中所存储的图像是否为立体可再现图像的信息。
根据本技术的一个方面,生成单元生成立体打包识别信息,该立体打包识别信息用于识别针对被打包在打包帧中的全天球图像的多个区域图像的上述打包类型。
本发明的有益效果
如上所述,根据本技术的一个方面,可以识别打包方案。注意,本说明书中描述的效果不是限制性的,而仅仅是示例,并且可以存在其他效果。
附图说明
图1是示出投影帧和打包帧的说明图。
图2是示出立方体映射的示例的图。
图3是示出打包的示例的图。
图4是示出打包的示例的图。
图5是示出立体指示类型的说明图。
图6是示出打包的示例的图。
图7是示出打包的示例的图。
图8是示出区域映射框的配置示例的图。
图9是示出区域映射框的字段的说明图。
图10是示出区域映射框的字段的说明图。
图11是示出递送系统的配置示例的框图。
图12是示出生成装置的配置示例的框图。
图13是示出生成处理的说明性流程图。
图14是示出在立体打包类型为0的情况下的打包的说明图。
图15是示出在立体打包类型为0的情况下的字段的说明图。
图16是示出在立体打包类型为1的情况下的打包的说明图。
图17是示出在立体打包类型为1的情况下的字段的说明图。
图18是示出等量矩形投影的投影的说明图。
图19是示出对等量矩形投影的投影的打包的说明图。
图20是示出在通过等量矩形投影的投影来进行打包的情况下的字段的说明图。
图21是示出区域映射框的配置示例的图。
图22是示出区域映射框的字段的说明图。
图23是示出打包布置的变化的说明图。
图24是示出在打包布置变化的情况下的字段的说明图。
图25是示出在立体打包类型为2的情况下的打包的说明图。
图26是示出在立体打包类型为2的情况下的字段的说明图。
图27是示出区域映射框的配置示例的图。
图28是示出区域映射框的字段的说明图。
图29是示出区域映射框的配置示例的图。
图30是示出区域映射框的字段的说明图。
图31是示出区域映射框的配置示例的图。
图32是示出区域映射框的字段的说明图。
图33是示出再现装置的配置示例的框图。
图34是示出再现处理的说明性流程图。
图35是示出VR信息框的配置示例的图。
图36是示出VR信息框的字段的说明图。
图37是示出应用了DASH的MPD文件的示例的图。
图38是示出存储在一个轨道上的全天球立体图像的说明图。
图39是示出存储在多个轨道上的全天球立体图像的说明图。
图40是示出仅可以进行单视场再现(monoscopic reproduction)的子图片轨道的图像的说明图。
图41是示出在立体打包类型为1的情况下的子图片轨道的示例的图。
图42是示出在立体打包类型为0的情况下的子图片轨道的示例的图。
图43是示出在立体打包类型为2的情况下的子图片轨道的示例的图。
图44是示出其中形成连续的矩形区域的逐区域打包(region-wise packing)的说明图。
图45是示出其中未形成连续的矩形区域的逐区域打包的说明图。
图46是示出RegionWisePackingBox的配置的图。
图47是示出RegionWisePackingStruct的配置的图。
图48是示出RectRegionPacking的配置的图。
图49是示出RegionWisePackingStruct和RectRegionPacking的字段的说明图。
图50是示出投影图片和打包图片的说明图。
图51是示出投影图片的图。
图52是示出RegionWisePackingStruct的配置的图。
图53是示出逐区域立体打包标志的说明图。
图54是示出在全天球立体图像存储在一个轨道中的情况下的框的说明图。
图55是示出在全天球立体图像存储在六个轨道中的情况下的框的说明图。
图56是示出在全天球立体图像存储在四个轨道中的情况下的框的说明图。
图57是示出子图片合成框的配置的图。
图58是示出子图片合成框的字段的说明图。
图59是示出轨道立体视频框的配置的图。
图60是示出轨道立体视频框的字段的说明图。
图61是示出轨道立体视频框的配置的图。
图62是示出轨道立体视频框的字段的说明图。
图63是示出立体视频框的配置的图。
图64是示出立体视频框的配置的图。
图65是示出在多个轨道中存储全天球立体图像的说明图。
图66是示出子图片合成框的配置的图。
图67是示出子图片合成框的字段的说明图。
图68是示出子图片合成框的配置的图。
图69是示出子图片合成框的字段的说明图。
图70是示出在多个轨道中存储全天球立体图像的说明图。
图71是示出生成处理的说明性流程图。
图72是示出选择处理的说明性流程图。
图73是示出纹理图像和深度图像的说明图。
图74是示出图像成分的三维位置的说明图。
图75是示出计算机的说明性硬件配置的框图。
具体实施方式
在下文中,将描述用于执行本技术的实施方式。注意,将按以下顺序进行描述。
1.实施方式
(1)投影原理(图1)
(2)打包(图2至图10)
(3)递送系统(图11)
(4)生成装置(图12至图32)
(5)再现装置(图33和图34)
(6)全天球立体图像打包的属性信息的递送(图35至图37)
(7)子图片跟踪(图38至图74)
2.计算机(图75)
3.其他
<实施方式>
<投影原理(图1)>
在本技术中,例如,全天球图像作为视频流从服务器被递送到客户端,并且在客户端侧被接收、再现和观看。因此,首先将描述生成并递送全天球图像的处理的原理。
在本技术中,生成全天球图像的投影帧和打包帧。图1是示出投影帧和打包帧的说明图。如图1所示,由摄像装置1拍摄全方位图像(全天球图像)。全天球图像是在上、下、左和右方向上为360度的图像。注意,在下文中,在用片假名书写词汇时难以理解词汇的情况下,用英文描述词汇。
可以将全天球图像投影到投影结构以获得投影帧。然后,通过针对每个区域而改变投影帧的位置和尺寸、并且将投影帧布置并打包在二维表面上,可以获得打包帧。以这种方式,针对用于打包的每个区域而改变位置或尺寸中的至少一种被称为逐区域打包。在打包帧中,投影帧被布置成使得每个区域在整体上是矩形的。通过使用打包帧,通过提高其中优选为高质量的区域的分辨率并且降低其中低质量就足够的区域的分辨率,可以优化传输容量。
在图1的示例中,示出了球体11和立方体12作为投影结构。通过根据等量矩形投影将全天球图像投影到球体11并且二维地表现球体,可以获得投影帧13。在该示例中,投影帧13包括中间区域A、位于上方的区域B和位于下方的区域C。
然后,可以通过对投影帧13执行逐区域打包来获得打包帧15。在该示例中,区域A的分辨率被视为保持不变,区域B被布置在区域A上方的左侧,并且区域C被布置在右侧。区域B和区域C的分辨率降低。
通过将全天球图像投影到立方体12(执行立方体映射投影)并且二维地表现全天球图像,可以获得投影帧14。包括立方体12的正面、右面、背面、左面、上面和下面的六个面(区域)的图像被布置在投影帧14中并且包括总共12个(即4×3个)区域。左面(left)、正面(front)、右面(right)和背面(back)的区域图像从左侧起被依次布置在四个中间区域中,上面(top)的区域图像被布置在正面(front)上方的区域中,下面(bottom)的区域图像被布置在正面下方的区域中。
通过对投影帧14执行逐区域打包,可以获得打包帧16。在该示例中,正面(front)的区域图像的分辨率增大,而其他区域图像的分辨率保持不变。左面(left)的区域图像被布置在正面(front)的区域图像的左侧,以及上面(top)的区域图像被布置在其右侧0右面(right)、背面(back)和下面(bottom)的区域图像从上方起被依次布置在正面(front)的区域图像的右侧。
注意,以上描述了来自一个视点(view)的图像。然而,在本技术中,由于使用立体图像(全天球立体图像),因此存在来自两个视点的图像,即,来自左眼视点的图像(L视图图像)和来自右眼视点的图像(R视图图像)。即,来自左眼视点的图像(L视点图像)和来自右眼视点的图像(R视点图像)由摄像装置1拍摄并获取。
<打包示例(图2至图10)>
接下来,将描述在本技术中执行的打包。图2是示出立方体映射的示例的图。作为在执行立方体映射的情况下获得的投影帧,存在图2的A中所示的投影帧21和图2的B中所示的投影帧22这些类型。图2的A中的投影帧21具有与图1中所示的投影帧14的结构相同的结构。在下文中,为方便起见,将这种布置称为类型A。
在投影帧22中,正面(front)、右面(right)、背面(back)和左面(left)的区域图像从左侧起被依次布置在总共12(即4×3)个区域中的四个中间区域中,上面(top)的区域图像被布置在正面(front)上方的区域中,以及下面(bottom)的区域图像被布置在正面下方。在下文中,为方便起见,将这种布置称为类型B。
在图2中(类似地,在下面描述的图3和图4中),有效像素数据未被布置在其中没有显示区域的文本(诸如“front”、“right”、“back”、“left”、“front”和“top”等文本)的区域(阴影区域)中(实际上,布置了无效数据),并且这些区域可以被称为无效区域。有效面的所有区域图像和无效区域都是矩形的,并且构成可以对其进行编码的帧。
如上所述,在本技术中,拍摄来自左眼视点的图像(在下文中也称为L视图图像)和来自右眼视点的图像(在下文中也称为R视图图像)。因此,在L视图图像和R视图图像中,存在图2的A中所示的投影帧21,并且存在图2的B中所示的投影帧22。
在下文中,将通过例示通过立方体映射来对投影帧进行打包的情况来描述对全天球立体图像的打包。
在本技术中,使用以下三种打包方案中的任一种来对全天球立体图像进行打包。
第一打包方案(方案1)
将其中六个面的区域图像被布置在4×3个区域之中的六个预定区域中的投影帧的L视图图像和类似地配置的投影帧的R视图图像并排或上下打包。
第二打包方案(方案2)
针对全天球立体图像的帧中的每个区域而对L视图图像和R视图图像进行打包。
第三打包方案(方案3)
针对全天球立体图像的帧中的任意区域而对L视图图像和R视图图像进行打包。
在第一打包方案(方案1)中,其中六个面的区域图像被布置在4×3个区域之中的六个预定区域中的投影帧的L视图图像和类似地配置的投影帧的R视图图像被并排或上下打包。
图3和图4都是示出打包示例的图。图3和图4示出了第一打包方案(方案1)的示例。图3示出了对如图2的A中所示的类型A那样映射的投影帧的打包,以及图4示出了对如图2的B中所示的类型B那样映射的投影帧的打包。
除图3和图4之外,在以下附图中,left_L表示L视图图像的左面的区域图像,以及front_L表示L视图图像的正面的区域图像。在下文中,类似地,right_L表示L视图图像的右面的区域图像,back_L表示L视图图像的背面的区域图像,top_L表示L视图图像的上面的区域图像,以及bottom_L表示L视图图像的下面的区域图像。类似地,left_R表示R视图图像的左面的区域图像,以及front_R表示R视图图像的正面的区域图像。在下文中,类似地,right_R表示R视点图像的右面的区域图像,back_R表示R视点图像的背面的区域图像,top_R表示R视点图像的上面的区域图像,以及bottom_R表示R视图图像的下面的区域图像。
在图3的A所示的示例中,以类型A映射的整个矩形的R视图的投影帧被布置在如图2的A所示的投影帧21一样以类型A映射的整个矩形L视图的投影帧的右侧。即,整个矩形打包帧31是通过将图像并排打包来构成的。在每个区域中,纵向分辨率与横向分辨率相比减小到1/2。
在图3的B所示的示例中,以类型A映射的整个矩形R视图的投影帧被布置在如图2的A所示的投影帧2一样以类型A映射的整个矩形L视图的投影帧的下侧。即,整个矩形打包帧32是通过上下打包来构成的。在每个区域中,横向分辨率与纵向分辨率相比减小到1/2。
在图4的A所示的示例中,以类型B映射的R视图的投影帧被布置在如图2的B所示的投影帧22一样以类型B映射的L视图的投影帧的右侧。即,打包帧41是通过将图像并排打包来构成的。在每个区域中,纵向分辨率与横向分辨率相比减小到1/2。
在图4的B所示的示例中,以类型B映射的R视图的投影帧被布置在如图2的B所示的投影帧22一样以类型B映射的L视图的投影帧的下侧。即,打包帧42是通过上下打包图像来构成的。在每个区域中,横向分辨率与纵向分辨率相比减小到1/2。
图3和图4中所示的第一打包方案类似于相关技术的打包方案。因此,为了确保兼容性,执行根据立体视频框(stvi:StereoVideoBox)的立体指示类型(stereo_indication_type)的处理。即,将L视图图像和R视图图像通过并排和上下中的一种方式打包到一个视频帧中。由于由无效数据形成的无效区域包括在打包帧中,所以打包帧的传输可能是低效的(即,传输效率降低)。注意,如下面将要描述的图5所示的、与除了并排和上下以外的指示类型的对应也是可能的。
图5是示出立体指示类型的说明图。stereo_indication_type的值0表示棋盘格,值1表示基于列的交织(interleaving),值2表示基于行的交织。值3表示并排,值4表示上下。值5表示帧顺序,值6表示未进行帧打包(2D),值7表示基于图块(tile)的打包。
接下来,将参照图6描述第二打包方案(方案2)。图6是示出打包的示例的图。在第二打包方案中,针对全天球立体图像的帧中的每个区域而对一对L视图图像与R视图图像进行打包。
在图6的A中的打包帧51中,左右对应区域的区域图像被并排布置在4×3个区域中。即,left_L和left_R的区域图像被布置成在顶行的左侧的水平方向上的两个区域中相邻。top_L和top_R的区域图像被布置成在顶行的右侧的水平方向上的两个区域中相邻。back_L和back_R的区域图像被布置成在中间行的左侧的水平方向上的两个区域中相邻,以及front_L和front_R的区域图像被布置成在中间行的右侧的水平方向上的两个区域中相邻。right_L和right_R的区域图像被布置成在底行的左侧的水平方向上的两个区域中相邻,以及bottom_L和bottom_R的区域图像被布置成在底行的右侧的水平方向上的两个区域中相邻。
在图6的B中的打包帧51中,左右对应区域的区域图像被上下布置在2×6个区域中。即,left_L和left_R的区域图像被布置成在左列的顶行的纵向方向上的两个区域中相邻,以及right_L和right_R的区域图像被布置成在下方的纵向方向上的两个区域中相邻。另外,top_L和top_R的区域图像被布置成在更下方的纵向方向上的两个区域中相邻。front_L和front_R的区域图像被布置成在右列的顶行的纵向方向上的两个区域中相邻,以及back_L和back_R的区域图像被布置成在下方的纵向方向上的两个区域中相邻。另外,bottom_L和bottom_R的区域图像被布置成在更下方的纵向方向上的两个区域中相邻。
在图6的C中的打包帧53中,左右对应区域的区域图像被并排布置或上下布置。即,在该示例中,并排或上下是混合的。left_L和left_R的区域图像被布置成在4×3个区域之中的最左侧的纵向方向上的两个区域中相邻,以及front_L和front_R的区域图像被布置成在最左侧的右侧的纵向方向上的两个区域中相邻。此外,right_L和right_R的区域图像被布置成在更右侧的纵向方向上的两个区域中相邻,以及back_L和back_R的区域图像被布置成在右侧的纵向方向上的两个区域中相邻。
top_L和top_R的区域图像被布置成在底行的左侧的水平方向上的两个区域中相邻,以及bottom_L和bottom_R的区域图像被布置成在底行的右侧的水平方向上的两个区域中相邻。
由于针对每个区域而布置了一对L视图图像与R视图图像,因此容易获取一对区域图像。因此,可以通过立体显示时的视点移动来平滑地执行显示转换。另外,立体(下文中也简称为stereo)显示与单视场(下文中也简称为mono)显示之间的转换也是容易的。在单视场再现时,仅再现L视图图像。
此外,通过针对每个区域而将L视图图像和R视图图像(例如,一对left_L图像与left_R图像、一对top_L图像与top_R图像等)配对成一个图块(高效视频编码(HEVC)工具)、并且将R视图图像编码为与L视图图像的差分等以允许R视图图像参考L视图图像的关系,可以使编码效率得以改进。
注意,本技术不限于立方体映射投影,并且还可以在诸如等量矩形投影、截头四角锥(truncated square pyramid)和圆柱体的投影类型中实现类似的有益效果。注意,本技术还可以对应于除图5中所示的并排或上下之外的指示类型。
接下来,将参照图7描述第三打包方案(方案3)。图7是示出打包示例的图。根据第三打包方案,将L视图图像和R视图图像打包在全天球立体图像的帧中的任意区域中。
在图7的A中的打包帧61中,左右对应区域的区域图像被布置在4×3个区域中的任意位置处。在该示例中,top_R、top_L、front_R和right_R的区域图像在顶行中被布置成从左侧起在水平方向上依次相邻。left_L、front_L、right_L和back_L的区域图像在中间行中被布置成从左侧起在水平方向上依次相邻。bottom_R、bottom_L、back_R和left_R的区域图像在底行中被布置成从左侧起在水平方向上依次相邻。
即,在打包帧61中,L视图图像以图2的A中所示的类型A布置,并且R视图的各区域图像被布置在其余区域中。
在图7的B中的打包帧62中,左右对应区域的区域图像被布置在4×3个区域中的任意位置处。在该示例中,top_L、right_R、back_R和left_R的区域图像在顶行中被布置成从左侧起在水平方向上依次相邻。front_L、right_L、back_L和left_L的区域图像在中间行中被布置成从左侧起在水平方向上依次相邻。bottom_L、top_R、front_R和bottom_R的区域图像在底行中被布置成从左侧起在水平方向上依次相邻。
即,在打包帧62中,L视图图像以图2的B中所示的类型B布置,并且R视图的各区域图像被布置在其余区域中。
在图7的C中的打包帧63中的各区域图像的布置基本上类似于图7的B中的打包帧62的情况。此处,作为底行中的三个右侧区域图像的top_R、front_R和bottom_R的区域图像中的每一个的方向与在图7的B的情况下的这三个右侧区域图像中的每一个的方向不同。
即,在图7的B中的打包帧62中,top_R、front_R和bottom_R的区域图像被布置成图像的上方向如在其他区域图像中那样面向该图的上方向。相反,在图7的C中的打包帧63中,top_R、front_R和bottom_R的区域图像被布置成使得图像连续。与图7的B中的打包帧62的情况相比,top_R、front_R和bottom_R的区域图像逆时针旋转了90度。
即,如从图1中显而易见,在bottom_R的区域图像的纵向方向上连续的区域图像是front_R的区域图像,以及在front_R的区域图像的纵向方向上连续的区域图像是top_R的区域图像。即,top_R、front_R和bottom_R的区域图像均在纵向方向上相邻。因此,例如,当考虑在top_R、front_R和bottom_R的各区域中连续的一条线的图像时,这些线在打包帧63C中被表示为一条连续的线(在图7的C中的横向方向上连续的线)。即,保持立方体面的连续性。
相反,在图7的B中的打包帧62中,由于在top_R、front_R和bottom_R的各区域中,一条线被表示为每幅图的上方向上的线,因此三条线被表示为分别平行。即,在图7的B中的打包帧62中,top_R、front_R和bottom_R的区域未被布置成使得图像连续。
在图7的A至图7的C中所示的第三打包方案中,与图3的A、图3的B、图4的A和图4的B中所示的第一打包方案相比,可以使每个立方体面的分辨率加倍、同时保持传输容量。
另外,在图7的A和图7的B中的第三打包方案中,L视图的各区域图像的布置被认为各自类似于图2的A和图2的B的情况的布置。R视图的区域图像被布置在未布置有L视图的各区域图像(未使用的区域)的位置处。结果,在不与第三打包方案对应的客户端中,同样可以获取、再现和显示L视图的立方体面的区域图像。因此,可以认为该方案是具有向后兼容性的打包方案。
为了使客户端接收全天球图像以使得可以观看全天球图像,需要递送全天球图像,使得客户端可以从递送的流中获取上述全天球图像的区域图像,并且可以呈现和显示区域图像。因此,将描述获取区域图像所需的信息的递送格式。
在本技术中,新的框被布置在由ISOBMFF定义的schi(SchemeInformationBox)下面,并且用该框来递送框信息。在下文中,该框被称为区域映射框(RegionMappingBox)。在Scheme Type='rmap'的情况下布置RegionMappingBox。此外,立体视频框(StereoVideoBox)也与区域映射框一起被布置在schi下面。此时,关于立体视频框的信息与关于区域映射框的信息相关联地被使用。当然,布置有RegionMappingBox和StereoVideoBox的位置可以是除schi下面的位置之外的位置。
图8是示出区域映射框的配置示例的图。图9是示出区域映射框的字段的说明图。图9中示出了在图8中的区域映射框中描述的字段的含义。
在图8的示例中,在RegionMappingBox中描述了projection_format、packing_flag、FOV_flag、stereo_packing_type和num_regions。此处,projection_format表示投影类型,其值0意味着是等量矩形投影,而其值1意味着是立方体映射投影。此处,packing_flag表示是否使用逐区域打包,其值0意味着不使用逐区域打包,而其值1意味着使用逐区域打包。
FOV_flag指示object_width和object_height的角度信息的标准,其值0意味着是球体的表面,而其值1意味着是透视投影的表面。如下面参照图10所述,object_width表示投影结构中的区域的宽度(角度),以及object_height表示投影结构中的区域的高度(角度)。
此处,stereo_packing_type是用于识别立体打包类型的识别信息,并且其值0符合stvi的stereo_indication_type。当不存在stvi时,stereo_packing_type表示单视场。在存在stvi的情况下,stereo_packing_type表示对于每帧使用并排、上下等方式的打包。即,其值0意味着是图3和图4所示的打包。stereo_packing_type的值1意味着是针对全天球立体图像的帧中的每个区域而对L视图和R视图的打包。即,值1意味着是图6所示的打包。值2意味着是根据全天球立体图像的帧中的区域的L视图和R视图的任意布置的打包。即,值2意味着是图7所示的打包。此处,num_regions表示打包帧的区域的数量。
在RegionMappingBox中,还描述了center_yaw、center_pitch、object_width和object_height。此处,center_yaw表示投影结构中的区域中心的偏航,以及center_pitch表示投影结构中的区域中心的间距。
在packing_flag的值为真(1)的情况下,描述了rect_width,rect_height、rect_left和rect_top。此处,rect_width表示打包帧中的区域宽度,以及rect_height表示打包帧中的区域高度。另外,rect_left和rect_top分别表示打包帧中的区域的x坐标和y坐标。这些将在后面参照图10进一步描述。
在stereo_packing_type=2为真(即,全天球立体图像的帧中的区域的L视图和R视图被布置在任意位置处)的情况下,描述了rect_width_r、rect_height_r、rect_left_r和rect_top_r。此处,rect_width_r和rect_height_r分别表示打包帧中的R视图的区域的宽度和高度。另外,rect_left_r和rect_top_r分别表示打包帧中的R视图的区域的x坐标和y坐标。
图10是示出区域映射框的字段的说明图。参照图10的A,将进一步描述center_yaw,center_pitch,object_width和object_height。在图10的A中,图像被投影到作为投影结构的球体11的表面上的表面91。此处,示出了xyz坐标,在该xyz坐标中,图10的A中的球体11的中心O是原点。将中心O与表面91的中心C连接的线是线92,以及通过将线92投影到xy坐标表面而获得的线是线93。由线93与x轴形成的角度Ay是center_yaw。由线92与线93形成的角度Ap是center_pitch。
从中心O观看表面91的右边和左边时的角度是object_width,以及从中心O观看上边和下边时的角度是object_height。
关于投影结构中的区域的信息在L视图图像与R视图图像之间是共同的,并且以具有center_yaw、center_pitch、object_width和object_height的球面坐标系来表示。
参照图10的B,将进一步描述rect_width、rect_height、rect_left和rect_top。图10的B示出了包括区域102的打包帧101。区域102的宽度是rect_width,以及其高度是rect_height。区域102的左上角的x坐标是rect_left,以及其y坐标是rect_top。
图10的B描述了L视图图像,并且该描述同样符合R视图图像。R视图的与L视图中的rect_width、rect_height、rect_left和rect_top对应的字段是rect_width_r、rect_height_r、rect_left_r和rect_top_r。
如图8所示,在RegionMappingBox中的for循环中描述的信息被称为打包信息,并且在打包信息中,在投影结构和打包帧的坐标处表示的信息也被称为在这些坐标处的区域信息。另外,在for循环之外描述的信息被称为属性信息。另外,在RegionMappingBox中描述的信息统称为框信息。
<递送系统(图11)>
接下来,将描述递送全天球立体图像的系统。图11是示出递送系统的配置示例的框图。
图11中的递送系统210包括拍摄装置211、生成装置212、递送服务器213、再现装置214和头戴式显示器215。递送系统210根据由拍摄装置211拍摄的拍摄图像来产生全天球图像,并且通过使用全天球图像来显示具有观看者的视场范围的显示图像。
具体地,递送系统210的拍摄装置211包括六个摄像装置211A-1至211A-6以及麦克风211B。摄像装置211A-1至211A-6被配对为右眼摄像装置和左眼摄像装置以拍摄立体图像。注意,在下文中,在不需要具体地将摄像装置211A-1至211A-6彼此区分的情况下,将摄像装置211A-1至211A-6统称为摄像装置211A。
每个摄像装置211A拍摄运动图像,并且麦克风211B获取周围声音。递送系统210将拍摄图像(即)以及作为运动图像内容的由麦克风211B获取的声音提供给生成装置212,其中,拍摄图像是由各摄像装置211A拍摄的六个方向的运动图像。注意,拍摄装置211中包括的摄像装置的数量可以是除了六以外的数量,只要摄像装置的数量是多个即可。
生成装置212根据使用等量矩形投影的方法来从由拍摄装置211提供的拍摄图像生成全天球图像,并且以一个或更多个比特率对全天球图像进行编码,以生成各比特率的等量矩形流(equirectangular stream)。另外,生成装置212通过立方体映射来根据拍摄图像生成全天球图像,并且以一个或更多个比特率对全天球图像进行编码,以生成各比特率的立方体流(cube stream)。另外,生成装置212对从拍摄装置211提供的声音进行编码以生成音频流。
生成装置212形成各比特率的等量矩形流、各比特率的立方体流以及音频流作为ISOBMFF文件。生成装置212将作为结果生成的ISOBMFF文件上传到递送服务器213。
注意,在本文中,等量矩形流和立方体流的比特率的数量是一个或更多个,并且除比特率之外的条件(例如,图像的尺寸等)可以是一个或更多个。
另外,生成装置212生成用于管理运动图像内容的片段文件的MPD文件,并且将MPD文件上传到递送服务器213。通过以从大约几秒到10秒的时间单位将视频流和音频流形成为文件来形成片段。例如,递送包括RegionMappingBox的ISOBMFF文件作为片段文件。
例如,使用MEPG-DASH(ISO/IEC 23009-1)来执行递送的递送服务器213存储从生成装置212上传的片段文件和MPD文件。递送服务器213响应于来自用作客户端的再现装置214的请求而将所存储的片段文件递送到再现装置214。
再现装置214向递送服务器213提出对ISOBMFF文件的请求,并且接收响应于该请求而传送的ISOBMFF文件。另外,再现装置214基于ISOBMFF文件而请求根据产生与再现装置214可以执行的映射对应的全天球图像的方法生成的全天球图像的片段文件,并且接收响应于该请求而传送的片段文件。再现装置214对所接收到的片段文件中包括的立方体流进行解码(或者可以对等量矩形流进行解码)。再现装置214通过将作为解码结果而获得的全天球图像映射到3D模型来生成3D模型图像。
另外,再现装置214包含摄像装置214A并且拍摄附接至头戴式显示器215的标记215A。然后,再现装置214基于标记215A的拍摄图像来检测在3D模型的坐标系处的观看位置。此外,再现装置214从头戴式显示器215接收头戴式显示器215的陀螺仪传感器215B的检测结果。再现装置214基于陀螺仪传感器215B的检测结果来决定观看者在3D模型的坐标系上的视线方向。再现装置214基于观看位置和视线方向来决定位于3D模型内的观看者的视场范围。
再现装置214通过使用观看位置作为焦点来在观看者的视场范围内对3D模型图像执行透视投影,从而产生在观看者的视场范围内的图像作为显示图像。再现装置214将显示图像提供给头戴式显示器215。
头戴式显示器215被安装在观看者的头部上并且显示从再现装置214提供的显示图像。由摄像装置214A拍摄的标记215A附接至头戴式显示器215。因此,观看者可以指定观看位置,从而在头戴式显示器215被安装在他的或她的头部上的状态下移动。另外,陀螺仪传感器215B包含在头戴式显示器215中,并且陀螺仪传感器215B对角速度的检测结果被传送到再现装置214。因此,观看者可以指定视线方向,从而旋转其上安装有头戴式显示器215的他的或她的头部。
<生成装置(图12至图32)>
图12是示出生成装置的配置示例的框图。生成装置212包括拼接(stitching)处理单元231、映射处理单元232、逐区域打包处理单元233、编码器234、声音处理单元235、编码器236、文件生成单元237和上传单元238。
拼接处理单元231执行如下拼接处理:使得从图11中的摄像装置211A提供的六个方向的拍摄图像的颜色或亮度对于每帧而言是相同的,并且去除重叠以进行连接。拼接处理单元231将拼接处理之后的帧单位的拍摄图像提供给映射处理单元232。
在该示例中,映射处理单元232通过立方体映射、根据从拼接处理单元231提供的拍摄图像来生成全天球图像。具体地,映射处理单元232将拼接处理之后的拍摄图像作为纹理映射到立方体,以生成立方体的展开图的图像作为全天球图像。映射处理单元232将全天球图像提供给逐区域打包处理单元233。注意,拼接处理单元231和映射处理单元232可以被集成。
逐区域打包处理单元233执行逐区域打包处理。即,通过针对每个区域而改变投影帧的位置和大小、将投影帧布置在二维表面上并且执行打包来生成打包帧。
编码器234以一个或更多个比特率对从逐区域打包处理单元233提供的全天球图像进行编码,以生成立方体流。编码器234将各比特率的立方体流提供给文件生成单元237。
声音处理单元235获取从图11中的麦克风211B提供的声音,并且将声音提供给编码器236。编码器236对从声音处理单元235提供的声音进行编码以生成音频流。编码器236将音频流提供给文件生成单元237。
文件生成单元237以片段为单位将各比特率的立方体流和音频流形成为文件。文件生成单元237将作为结果而生成的片段文件提供给上传单元238。
文件生成单元237还生成ISOBMFF文件。具体地,文件生成单元237生成RegionMappingBox,在RegionMappingBox中,下面将描述的stereo_packing_type包括在ISOBMFF文件中。
上传单元238将从文件生成单元237提供的片段文件和ISOBMFF文件上传到图11中的递送服务器213。
接下来,将参照图13描述生成装置212的处理。图13是示出生成处理的说明性流程图。
拼接处理单元231执行如下拼接处理:使得从图11中的摄像装置211A提供的六个方向的拍摄图像的颜色或亮度对于每个帧而言是相同的,并且去除重叠以进行连接。拼接处理单元231将拼接处理之后的帧单位的拍摄图像提供给映射处理单元232。
映射处理单元232通过立方体映射、根据从拼接处理单元231提供的拍摄图像来生成全天球图像。即,映射处理单元232将拼接处理之后的拍摄图像作为纹理映射到立方体,以生成立方体的展开图的图像作为全天球图像。映射处理单元232将全天球图像提供给逐区域打包处理单元233。
在步骤S1中,逐区域打包处理单元233确定全天球图像是否是立体的。在全天球图像是立体的情况下,在步骤S2中,逐区域打包处理单元233基于来自用户的指令来确定执行哪种立体打包方案。即,确定是否采用方案1至方案3之一作为立体打包方案。
在所采用的立体打包方案是方案1(图3或图4中所示的打包方案)的情况下,在步骤S3中,逐区域打包处理单元233基于来自用户的指令来确定是否使用逐区域打包作为打包方案。
在使用逐区域打包作为打包方案的情况下,在步骤S4中,逐区域打包处理单元233执行对于L视图和R视图而言共同的逐区域打包处理。然后,逐区域打包处理单元233生成L视图和R视图的打包帧,并且对每个帧执行打包。在步骤S5中,编码器234对帧进行编码,并且将经编码的帧提供给文件生成单元237。
在步骤S6中,文件生成单元237根据帧的打包布置来生成StereoVideoBox。在stereo_indication_type中,值3或值4(参见图5)是根据打包类型来设置的。
在步骤S7中,文件生成单元237设置packing_flag=1(其中,使用逐区域打包),并且设置stereo_packing_type=0(方案1)。然后,文件生成单元237生成包括上述设置的RegionMappingBox。
在步骤S3中确定不使用逐区域打包的情况下,在步骤S8中,逐区域打包处理单元233针对每个帧而对L视图和R视图的投影帧(例如,图1中的投影帧14)进行打包。在步骤S9中,编码器234对打包帧进行编码。
在步骤S10中,文件生成单元237根据帧的打包布置来生成StereoVideoBox。即,如在步骤S6的情况下一样,在其stereo_indication_type中,值3或值4(参见图5)是根据打包类型来设置的。
在步骤S11中,文件生成单元237设置packing_flag=0(其中不使用逐区域打包),并且设置stereo_packing_type=0(方案1)。然后,文件生成单元237生成包括上述设置的RegionMappingBox。
在步骤S2中确定立体打包方案是方案2(针对全天球立体图像的帧中的每个区域而将L视图图像和R视图图像进行打包)的情况下,处理进行到步骤S12。在步骤S12中,逐区域打包处理单元233针对每个区域而将L视图和R视图成对地打包以生成打包帧。在步骤S13中,编码器234对打包帧进行编码。
在步骤S14中,文件生成单元237针对每个区域而根据L视图与R视图对的打包布置来生成StereoVideoBox。然后,在其stereo_indication_type中,值3或值4(参见图5)是根据打包类型来设置的。在步骤S15中,文件生成单元237设置packing_flag=1(其中使用逐区域打包)并且设置stereo_packing_type=1(方案2)。然后,文件生成单元237生成包括上述设置的RegionMappingBox。
在步骤S2中确定立体打包方案是方案3(L视图图像和R视图图像被打包在全天球立体图像的帧中的任意区域中)的情况下,处理进行到步骤S16。在步骤S16中,逐区域打包处理单元233针对每个区域而将L视图和R视图打包在任意位置以生成打包帧。在步骤S17中,编码器234对打包帧进行编码。
在步骤S18中,文件生成单元237设置packing_flag=1(其中,使用逐区域打包)并且设置stereo_packing_type=2(方案3)。然后,文件生成单元237生成包括上述设置的RegionMappingBox。
在步骤S1中确定全天球图像不是立体的情况下,在步骤S19中,逐区域打包处理单元233基于来自用户的指令来确定是否使用逐区域打包作为打包方案。
在使用逐区域打包作为打包方案的情况下,在步骤S20中,逐区域打包处理单元233执行逐区域打包处理以生成打包帧。在步骤S21中,编码器234对打包帧进行编码。
在步骤S22中,生成单元237设置packing_flag=1(其中,使用逐区域打包)并且设置stereo_packing_type=0(方案1)。然后,文件生成单元237生成包括打包信息的RegionMappingBox。
在步骤S19中确定不使用逐区域打包作为打包方案的情况下,在步骤S23中,编码器234对投影帧进行编码。
在步骤S24中,生成单元237设置packing_flag=0(其中不使用逐区域打包)并且设置stereo_packing_type=0(方案1)。然后,文件生成单元237生成包括上述设置的RegionMappingBox。
在步骤S7、步骤S11、步骤S15、步骤S18、步骤S22和步骤S24的处理之后,在步骤S25中,文件生成单元237执行ISOBMFF生成处理。
由文件生成单元237生成的文件从上传单元238被上传到递送服务器213。
接下来,下面将描述图13中的生成处理的流程图中的立体打包的方案1至方案3的处理的具体示例。
首先,将描述stereo_packing_type=0的示例(方案1:使用相关技术中的并排、上下等的针对每个帧的打包)。
在这种情况下,使用在ISOBMFF中定义的stvi框来递送并排、上下等作为stereo_indication_type(图13的步骤S6和S10)。即,根据stvi框、通过诸如并排或上下的打包来传输投影帧或打包帧。在这种情况下,packing_flag可以被设置为任何值。即使在不存在stvi的情况下,即,在单视场的情况下,仍然递送stereo_packing_type=0。
图14是示出在立体打包类型为0的情况下的打包的说明图。即,图14示出了在stereo_packing_type=0的情况下的立方体映射投影的示例。根据作为投影结构的立方体12来生成具有对于L视图和R视图而言共同的面布置的投影帧14,并且使用RegionMappingBox递送框信息。由于未使用打包帧,因此考虑packing_flag=0。
当假定O是图14中的立方体12的中心并且从中心O绘制至右面的垂直线325时,垂直线325与右面相交的点被假定为中心C。垂直线325与从中心O到正面绘制的垂直线之间的角度是center_yaw,以及垂直线325与平行于包括垂直线325的下面的表面之间的角度是center_pitch。
从中心O朝向右面的左边311的垂直线323与朝向右边312的垂线324之间的角度是object_width。从中心O朝向右面的上边313的垂直线321与朝向下边314的垂直线322之间的角度是object_height。
例如,center_yaw和center_pitch的值指示面。当center_yaw为0时,指示正面。当center_yaw为90时,指示左面。当center_yaw是-90时,指示右面等。
在图14的示例中,L视图和R视图的投影帧14被上下打包成帧351,并且作为值4(上下)用stvi的stereo_indication_type递送,如图5所示。
在如图14所示的递送的情况下,框信息如图15所示。图15是示出在立体打包类型为0的情况下的字段的说明图。此处,projection_format为1,packing_flag为0,stereo_packing_type为0,num_regions为6,FOV_flag为1,以及center_yaw、center_pitch、object_width和object_height分别为-90、0、90、90。注意,作为图15中的字段值center_yaw、center_pitch、object_width和object_height,仅示出了与立方体映射投影的右面有关的信息。
投影帧的视角是1920×1440,该视角在例如轨道标题框(tkhd')中与宽度字段和高度字段一起被递送。
接下来,将描述stereo_packing_type=1的示例(方案2:针对全天球立体图像的帧中的每个显示区域而对L视图和R视图进行打包)。
在这种情况下,使用在ISOBMFF中定义的stvi框来递送并排、上下等作为stereo_indication_type。将打包帧中的一对L视图与R视图作为一个区域来递送,并且根据该区域中的stereo_indication_type来传送并排、上下等的打包。在这种情况下,在管理中设置packing_flag=1。
图16是示出在立体打包类型为1的情况下的打包的说明图。另外,图17是示出在立体打包类型为1的情况下的字段的说明图。
图16示出了在stereo_packing_type=1的情况下的立方体映射投影的示例。在该示例中,根据立方体12生成其中各面的一对L视图与R视图并排相邻的打包帧401,并且用RegionMappingBox递送打包信息。在打包帧401中,大的区域411作为该对L视图与R视图被统一地传送。并排作为stvi的stereo_indication_type被递送。
在图17中示出了RegionMappingBox的字段的信息。此处,projection_format被设置为1,packing_flag被设置为1,stereo_packing_type被设置为1,num_regions被设置为6,以及FOV_flag被设置为1。此外,center_yaw、center_pitch、object_width和object_height分别被设置为-90、0、90和90。此外,rect_left、rect_top、rect_width和rect_height分别为0、960、960和480。仅示出了右面的字段值。注意,rect_left、rect_top、rect_width和rect_height是通过将L视图和R视图并排打包在区域411(参见图16)中而获得的值。打包帧的视角为1920×1440。
注意,可以将每对L视图与R视图编码为独立流并且用ISOBMFF的多个轨道传送。
当然,也可以使用等量矩形投影。图18至图20是示出在其中使用了图8的语法的stereo_packing_type=1的情况下的等量矩形投影的示例的图。图18是示出等量矩形投影的投影的说明图。图19是示出对等量矩形投影的投影的打包的说明图。图20是示出在通过等量矩形投影进行打包的情况下的字段的说明图。
如图18所示,当从球体11的中心O观看表面91的下边432的两端时的角度Aw是object_width,并且当从球体11的中心O观看表面91的上边431和下边432时的角度Ah是object_height。此处,center_yaw和center_pitch类似于在参照图10描述的情况下的center_yaw和center_pitch。即,在从球体11的中心O到表面91绘制的垂直线92与穿过中心O的x轴(未示出)之间形成的角度是center_yaw,并且在垂直线92与包括垂直线92的水平面之间形成的角度是center_pitch。
如图19所示,等量矩形投影的投影帧461被划分成五个区域A、B、C、D和E。被认为是与在正面附近的区域(区域B)相比不重要的上下区域(区域D和E)被缩小并打包,以生成打包帧471。视角为1920×1440。后部区域(区域A和C)被共同地打包。即,在区域472中,从左侧起依次布置区域C的L视图、区域A的L视图、区域C的R视图和区域A的R视图。这些在图19中被简要记录为C_L、A_L、C_R和A_R。即,前面的字母代表区域,后面的字母代表视图。
区域A和C在投影帧461中被划分开,但是作为全天球图像,区域A和C在作为投影结构的球体11中是连续区域。由于区域A和C被视为一个区域,因此设置num_regions=4。通过将区域A和C共同地打包,除了通过打包方案预期的编码效率改进之外,还可以获得以区域B为中心来对视线移动进行平滑化的有益效果。
如图20所示,projection_format被设置为0,packing_flag被设置为1,stereo_packing_type被设置为1,num_regions被设置为4,以及FOV_flag被设置为0。此处,center_yaw、center_pitch、object_width和object_height分别被设置为180、0、180和135(区域A和C)。另外,rect_left、rect_top、rect_width和rect_height分别被设置为1280、160、640、1280(区域472)。此处,rect_width被设置为使L视图和R视图共同地并排打包为区域472中的一个视图的值。打包帧的视角是1920×1440。
作为变型例,通过使用图21和图22的语法和语义,如图23和图24所示,可以针对该对L视图与R视图的每个区域来改变打包布置(并排、上下等)。另外,此时,不通过stvi递送stereo_indication_type。
图21是示出区域映射框的配置示例的图。图22是示出区域映射框的字段的说明图。另外,图23是示出打包布置的变化的说明图。图24是示出在改变打包布置的情况下的字段的说明图。
除了图21中的stereo_packing_type和stereo_indication字段之外的字段的语义基本上类似于图8的情况。stereo_packing_type字段表示立体打包类型。如图22所示,其值0意味着是单视场。值1意味着是针对全天球立体图像的每帧而对L视图和R视图的打包。值2意味着是针对全天球立体图像的帧中的每个区域而对L视图和R视图的打包。值3意味着是通过对在全天球立体图像的帧中的区域的L视图和R视图的任意布置来进行打包。
在stereo_packing_type是1或2的情况下,描述了stereo_indication。在stereo_packing_type=1或2时,存在stereo_indication字段。当stereo_indication字段是值1时,可以针对每帧而递送诸如并排或上下的打包方法。当stereo_indication字段是值2时,可以针对每对L视图和R视图的区域而递送诸如并排或上下的打包方法。如图22所示,stereo_indication的值3意味着是并排打包,以及stereo_indication的值4意味着是上下打包。可以利用stereo_indication递送的打包布置不限于并排和上下。如在变型例中一样,在执行利用stereo_indication进行的递送的情况下,可以不通过stvi递送stereo_indication_type。此时,与图13和(下面将描述的)图34中的立体视频框相关的步骤被替换为设置RegionMappingBox的stereo_packing_type和stereo_indication的值。
注意,在针对每对L视图与R视图的区域而不改变打包布置的情况下,可以在for循环之外执行发信号通知,而不是在for循环中用stereo_indication执行发信号通知。
在图23的打包帧501中,左面、背面、上面和正面被上下打包在区域502中,以及右面和下面被并排打包在区域503中。
如图24所示,projection_format被设置为1,packing_flag被设置为1,stereo_packing_type被设置为2,num_regions被设置为6,以及FOV_flag被设置为1。此处,左面的center_yaw、center_pitch、object_width和object_height分别被设置为90、0、90和90,以及stereo_indication被设置为4(上下)。此外,rect_left、rect_top、rect_width和rect_height分别被设置为0、0、480和960。
此处,右面的center_yaw、center_pitch、object_width和object_height分别被设置为-90、0、90和90,stereo_indication被设置为3(并排),以及右面的rect_left、rect_top、rect_width和rect_height分别被设置为0、960、960和480。应注意,rect_width被设置为其中L视图和R视图被共同地并排打包为一个视图的区域503的值。
以这种方式,在center_yaw、center_pitch、object_width、object_height、rect_left、rect_top、rect_width和rect_height中,仅描述与立方体映射投影的立方体12的左面和右面有关的信息。打包帧的视角为1920×1440。
接下来,将描述stereo_packing_type=2的示例(方案3:通过全天球立体图像的帧中的显示区域的L视图和R视图的任意布置来进行打包)。
在该示例中,未使用ISOBMFF中定义的stvi框。每个区域的L视图和R视图被任意布置在要传送的打包帧中。在这种情况下,在管理中设置packing_flag=1。
图25是示出在立体打包类型为2的情况下的打包的说明图。图26是示出在立体打包类型为2的情况下的字段的说明图。
在图25的stereo_packing_type=2的情况下的立方体映射投影的示例中,立方体12的每个面的L视图图像和R视图图像被布置在任意位置处,并且生成并传送打包帧511。然后,用RegionMappingBox递送打包信息。注意,图26仅示出了立方体映射投影的右面的示例。
在图26的示例中,projection_format被设置为1,packing_flag被设置为1,stereo_packing_type被设置为2,num_regions被设置为6,并且FOV_flag被设置为1。此处,右面的center_yaw、center_pitch、object_width和object_height分别被设置为-90、0、90和90。另外,右面的L视图的rect_left、rect_top、rect_width和rect_height分别被设置为960、480和480,并且R视图的rect_left_r、rect_top_r、rect_width_r和rect_height_r分别被设置为1440、0、480和480。打包帧的视角为1920×1440。
作为变型例,当使用图27和图28的语法和语义时,可以使得针对每个区域而混合单视场图像和立体图像。图27是示出区域映射框的配置示例的图。图28是示出区域映射框的字段的说明图。
图27中的RegionMappingBox的配置基本上类似于图8中所示的情况。在图8的示例的情况下,当stereo_packing_flag=2时,描述了rect_width_r、rect_height_r、rect_left_r和rect_top_r。另一方面,在图27的示例的情况下,在描述mono_region之后,当mono_region不为1时描述rect_width_r、rect_height_r、rect_left_r和rect_top_r。如图28所示,mono_region为0的区域是立体的,并且mono_region为1的区域是单视场的。除mono_region字段之外的字段类似于图8的情况。
例如,在立方体映射投影中,可以利用RegionMappingBox生成并递送其中仅上面和下面是单视场而其他面是立体的打包帧。此时,通过将全天球图像中重要的在水平方向上的图像(立方体映射投影中的正面、左面、背面和右面)设置为立体的并且将相对不重要的上面和下面设置为单视场的,可以获得降低传输容量并且提高视频在水平方向上的分辨率的有益效果。
此外,作为变型例,当使用图29和图30的语法和语义时,除了关于投影帧的一个区域的L视图和R视图之外,打包帧可以具有针对三个或更多个视图的区域。图29是示出区域映射框的配置示例的图。图30是示出区域映射框的字段的说明图。
注意,除图29和图30中所述的字段的语义之外的语义类似于图8的情况。在图29中,描述了rect_width_av、rect_height_av、rect_left_av和rect_top_av,而不是图8中的rect_width_r、rect_height_r、rect_left_r和rect_top_r。
如图30所示,stereo_packing_type表示立体打包类型,并且其值0意味着是使用并排、上下等对每个帧打包。其值1意味着是针对全天球立体图像的帧中的每个区域而对L视图和R视图进行打包。即,值1意味着是图6所示的打包。值2意味着是通过对全天球立体图像的帧中的区域中的多个视图的任意布置来进行打包。即,值2意味着是图7所示的打包。此处,num_additional_view表示针对每个区域的视图的数量。视图的总数为num_additional_view+1。
此处,rect_width_av、rect_height_av、rect_left_av和rect_top_av分别指的是打包帧中的附加视图的区域的宽度、高度、x坐标和y坐标。
例如,通过提供立方体映射投影中除L视图和R视图之外的中心视图,可以通过在立体显示的情况下使用L视图和R视图来在单视场显示时使用中心视图。注意,通过扩展stvi的stereo_indication_type,即使在stereo_packing_type=0和1的情况下也可以实现。
以上描述了以球面坐标系表示与投影帧中的区域的位置和大小有关的信息的示例,但是该信息可以以2维坐标系表现。例如,在图31和图32中示出了在图8和图9的语法和语义中以二维坐标系表现投影帧中的区域的位置和大小的示例。图31是示出区域映射框的配置示例的图。图32是示出区域映射框的字段的说明图。注意,除图31和图32中所述的字段的语义之外的语义类似于图8和图9中所示的情况。
在图31的示例中,省略了图8的示例中的FOV_flag,并且使用了pf_region_width、pf_region_height、pf_region_left和pf_region_top来替代图8中的center_yaw、center_pitch、object_width和object_height。如图32所示,pf_region_width、pf_region_height、pf_region_left和pf_region_top分别指的是投影帧中的区域的宽度、高度、x坐标和y坐标。
另外,以上描述了立方体映射投影或者等量矩形投影作为示例,但是也可以与其他投影类型(例如,截头四角锥、圆柱等)对应。
此外,在stereo_packing_type=0和1的示例中(图14和图15或者图16和图17的示例),描述了stvi的stereo_indication_type是并排、上下等的情况。然而,与其他列交织、行交织,棋盘格等的对应也是可能的。打包视图不限于L视图和R视图。例如,可以使用诸如中心视图的另一视图。
<再现装置(图33和图34)>
接下来,将描述再现装置214的配置示例。图33是示出再现装置的配置示例的框图。再现装置214包括文件获取单元601、流提取单元602、解码器603、投影帧生成单元604、映射处理单元605、绘制单元606、接收单元607、视线检测单元608和摄像装置214A。
文件获取单元601从图11中的递送服务器213获取再现目标文件。流提取单元602从文件获取单元601获取的文件中提取视频流。解码器603对由流提取单元602提取的视频流进行解码。投影帧生成单元604根据经解码器603解码的图像数据生成投影帧。
映射处理单元605基于映射信息而将从投影帧生成单元604提供的全天球图像作为纹理映射到立方体12的六个面中的每一个。
绘制单元606通过将从视线检测单元608提供的观看位置设置为焦点来将从映射处理单元605提供的3D模型图像透视投影到观看者的视场范围,从而生成具有观看者的视场范围的图像作为显示图像。绘制单元606将显示图像提供给头戴式显示器215。
接收单元607从头戴式显示器215接收图11中的陀螺仪传感器215B的检测结果,并且将检测结果提供给视线检测单元608。
视线检测单元608基于从接收单元607提供的陀螺仪传感器215B的检测结果,决定观看者在3D模型的坐标系上的视线方向。另外,视线检测单元608从摄像装置214A获取标记215A的拍摄图像,并且基于拍摄图像来检测3D模型的坐标系上的观看位置。视线检测单元608基于3D模型的坐标系上的观看位置和视线方向,决定观看者在3D模型的坐标系上的视场范围。视线检测单元608将观看者的视场范围和观看位置提供给绘制单元606。
接下来,将参照图34描述再现装置214的操作。图34是示出再现处理的说明性流程图。文件获取单元601从图11中的递送服务器213获取再现目标文件。
在步骤S51中,文件获取单元601确定RegionMappingBox的stereo_packing_type是哪种类型。即,确定立体打包方案是方案1(stereo_packcing_type=0)、方案2(stereo_packing_type=1)还是方案3(stereo_packing_type=2)。在立体打包方案是方案1(stereo_packcing_type=0)的情况下,处理进行到步骤S52。在立体打包方案是方案2(stereo_packing_type=1)的情况下,处理进行到步骤S70。另外,在立体打包方案是方案3(stereo_packing_type=2)的情况下,处理进行到步骤S77。
在步骤S52中,文件获取单元601确定是否存在StereoVideoBox。在文件获取单元601确定存在StereoVideoBox的情况下,文件获取单元601在步骤S53中确定packing flag是哪种类型。即,确定packing flag是0(不使用逐区域打包)还是1(使用逐区域打包)。基于确定结果的流由流提取单元602提取并且被提供给解码器603。
在packing flag为1的情况(使用逐区域打包的情况)下,解码器603在步骤S54中对图像帧进行解码。在步骤S55中,投影帧生成单元604根据StereoVideoBox和RegionMappingBox的打包信息来生成L视图和R视图的投影帧。
在步骤S56中,映射单元605将L视图图像和R视图图像作为全天球立体图像映射到投影结构。另外,绘制单元606基于来自视线检测单元608的视线信息而呈现在与视线对应的方向上的图像,并且将图像提供给头戴式显示器215以使图像被显示。
在步骤S57中,绘制单元606确定是否处理了最后的图像帧。在未处理最后的图像帧的情况下,处理返回到步骤S54,并且重复步骤S54到S56的处理。在确定处理了最后的图像帧的情况下,处理结束。
在步骤S53中确定packing flag为0(不使用逐区域打包)的情况下,解码器603在步骤S58中对图像帧进行解码。在步骤S59中,投影帧生成单元604根据StereoVideoBox的信息生成L视图和R视图的投影帧。
在步骤S60中,映射单元605将L视图图像和R视图图像作为全天球立体图像映射到投影结构。绘图单元606基于来自视线检测单元608的视线信息而呈现在与视线对应的方向上的图像,并且将图像提供给头戴式显示器215以使图像被显示。
在步骤S61中,绘制单元606确定是否处理了最后的图像帧。在未处理最后的图像帧的情况下,处理返回到步骤S58,并且重复步骤S58到S60的处理。在确定处理了最后的图像帧的情况下,处理结束。
在步骤S52中确定不存在StereoVideoBox的情况下,文件获取单元601在步骤S62中确定packing flag是哪种类型。即,确定packing flag是值0(不使用逐区域打包)还是值1(使用逐区域打包)。基于确定结果的流由流提取单元602提取并且被提供给解码器603。
在packing flag为1的情况(使用逐区域打包的情况)下,解码器603在步骤S63中对图像帧进行解码。在步骤S64中,投影帧生成单元604根据RegionMappingBox的打包信息来生成投影帧。
在步骤S65中,映射单元605将投影帧作为全天球单视场图像映射到投影结构。绘图单元606基于来自视线检测单元608的视线信息而呈现在与视线对应的方向上的图像,并且将图像提供给头戴式显示器215以使图像被显示。
在步骤S66中,绘制单元606确定是否处理了最后的图像帧。在未处理最后的图像帧的情况下,处理返回到步骤S63,并且重复步骤S63到S65的处理。在确定处理了最后的图像帧的情况下,处理结束。
在步骤S62中确定packing flag为0(不使用逐区域打包)的情况下,解码器603在步骤S67中对图像帧进行解码。
在步骤S68中,映射单元605将投影帧作为全天球单视场图像映射到投影结构。绘制单元606基于来自视线检测单元608的视线信息而呈现在与视线对应的方向上的图像,并且将图像提供给头戴式显示器215以使图像被显示。
在步骤S69中,绘制单元606确定是否处理了最后的图像帧。在未处理最后的图像帧的情况下,处理返回到步骤S67,并且重复步骤S67和S68的处理。在确定处理了最后的图像帧的情况下,处理结束。
在步骤S51中确定立体打包方案是方案2(stereo_packing_type=1)的情况下,文件获取单元601在步骤S70中确定是否存在StereoVideoBox。在文件获取单元601确定存在StereoVideoBox的情况下,在步骤S71中,文件获取单元601确定packing flag是哪种类型。即,确定packing flag是值0(不使用逐区域打包)还是值1(使用逐区域打包)。基于确定结果的流由流提取单元602提取并且被提供给解码器603。
在packing flag为1的情况(使用逐区域打包的情况)下,解码器603在步骤S72中对图像帧进行解码。在步骤S73中,投影帧生成单元604获取StereoVideoBox和RegionMappingBox的打包信息,然后生成L视图和R视图的投影帧。
在步骤S74中,映射单元605将L视图和R视图的投影帧作为全天球立体图像映射到投影结构。绘制单元606基于来自视线检测单元608的视线信息而呈现在与视线对应的方向上的图像,并且将图像提供给头戴式显示器215以使图像被显示。
在步骤S75中,绘制单元606确定是否处理了最后的图像帧。在未处理最后的图像的情况下,处理返回到步骤S72,并且重复步骤S72到S74的处理。在确定处理了最后的图像帧的情况下,处理结束。
在步骤S70中确定不存在StereoVideoBox的情况以及在步骤S71中确定packingflag为0(不使用逐区域打包)的情况下,在步骤S76中,文件获取单元601结束处理,这是因为所获取的文件是未授权的文件。
在步骤S51中确定立体打包方案是方案3(stereo_packing_type=2)的情况下,在步骤S77中,文件获取单元601确定packing flag是哪种类型。即,确定packing flag是值0(不使用逐区域打包)还是值1(使用逐区域打包)。基于确定结果的流由流提取单元602提取并且被提供给解码器603。
在packing flag为1的情况(使用逐区域打包的情况)下,在步骤S78中,解码器603对图像帧进行解码。在步骤S79中,投影帧生成单元604根据RegionMappingBox的打包信息生成L视图和R视图的投影帧。
在步骤S80中,映射单元605将L视图和R视图的投影帧作为全天球立体图像映射到投影结构。绘制单元606基于来自视线检测单元608的视线信息而呈现在与视线对应的方向上的图像,并且将图像提供给头戴式显示器215以使图像被显示。
在步骤S81中,绘制单元606确定是否处理了最后的图像帧。在未处理最后的图像的情况下,处理返回到步骤S78,并且重复步骤S78到S80的处理。在确定处理了最后的图像帧的情况下,处理结束。
在步骤S77中确定packing flag为0(不使用逐区域打包)的情况下,在步骤S82中,文件获取单元601结束处理,这是因为所获取的文件是未授权文件。
<全天球立体图像打包的属性信息的递送(图35至图37)>
可以将关于根据本技术的立体打包方案的属性信息作为VR信息框统一地递送,如图35和图36所示。例如在SchemeType='vrif'时,在ISOBMFF中定义的方案信息框(schi')下面布置VR信息框,但是本技术不限于该位置处的布置。
图35是示出VR信息框的配置示例的图。图36是示出VR信息框的字段的说明图。如图35所示,在VR信息框中描述了projection_format、stereo_packing_type、coordinate_system。
如图36所示,projection_format表示投影类型,其值0意味着是等量矩形投影,以及值1意味着是立方体映射投影。此处,stereo_packing_type类似于图9的情况。即,stereo_packing_type表示立体打包类型,并且其值0符合stvi的stereo_indication_type。当不存在stvi时,stereo_packing_type指的是单视场的。在存在stvi的情况下,stereo_packing_type指的是使用并排、上下等的针对每帧的打包,即,stereo_packing_type指的是图3和图4中所示的打包。stereo_packing_type的值1意味着是针对全天球立体图像的帧中的每个显示区域而对L视图和R视图的打包,以及值2意味着是根据全天球立体图像的帧中的每个显示区域的L视图和R视图的任意布置来进行打包。
此处,coordinate_system表示投影结构和投影帧的区域表现的坐标系,其值0意味着是二维坐标系,而其值1意味着是球面坐标系。
再现装置214可以在内容再现之前参考VR信息框来统一地获取关于全天球图像的信息。即,可以统一地获取使用哪种类型的立体打包、以及区域的位置和大小是在投影帧的二维坐标系上表现还是在投影结构的球面坐标系上表现。
注意,存储在VR信息框中的信息不限于立体打包类型或者投影帧的区域的位置和大小的坐标系信息,不限于关于全天球图像的信息以及关于可以存储的音频、字幕等的信息。
以上描述了ISOBMFF的示例,但是本技术也可以应用于使用MEPG-DASH(ISO/IEC23009-1)的递送。图37是示出应用了DASH的MPD文件的示例的图。帧打包类型为3(并排)这一事实用图37中的每个AdaptationSet中的schemeIdUri=“urn:mpeg:mpegB:cicp:VideoFramePackingType”的EssentialProperty递送。此处,schemeIdUri=“urn:mpeg:dash:vr:ProjectionType”的EssentialProperty的值=“cube”表示全天球图像是通过立方体投影映射而形成的。此外,立体打包类型是通过第二个AdaptationSet中的schemeIdUri=“urn:mpeg:dash:vr:StereoPackingType”的EssentialProperty递送的。EssentialProperty中的值与stereo_packing_type具有相同的语义。
在第一个AdaptationSet中,递送与相关技术的打包类似的针对每帧的并排打包。注意,立体打包类型为“0”(针对每帧进行打包)这一事实可以使用该AdaptationSet中的schemeIdUri=“urn:mpeg:dash:vr:StereoPackingType”的SupplementalProperty来明确地递送。
在第二个AdaptationSet中,立体打包类型为“1”,并且针对打包帧的每个区域的并排打包与帧打包类型一起被递送。DASH客户端可以例如根据与DASH客户端对应的立体打包类型,通过选择和获取AdaptationSet和Representation来执行再现。
请注意,与EssentialProperty的schemeIdUri不对应的DASH客户端必须忽略编写了该属性的AdaptationSet(或者在某些情况下为Representation等)。另外,与SupplementalProperty的schemeIdUri不对应的DASH客户端可以忽略属性值并且使用其AdaptationSet(在某些情况下为Representation等)。
此外,在stereo_packing_type=1的情况下(方案2:针对全天球立体图像的帧中的每个显示区域而将L视图和R视图进行打包),可以将每对L视图与R视图编码为独立的流。然后,该流可以存储在ISOBMFF的单个轨道中,并且可以通过MPEG-DASH(ISO/IEC 23009-1)传送。
本技术不限于通过schemeIdUri=“urn:mpeg:dash:vr:StereoPackingType”的SupplementalProperty来递送立体打包类型,并且可以通过SupplementalProperty或EssentialProperty、用DASH MPD文件递送信息。例如,可以递送Representation中引用的内容是否使用逐区域打包、以及投影结构/投影帧中的区域信息是在二维坐标系上表现还是在球面坐标系上表现。另外,在使用了逐区域打包的情况下,可以用DASH MPD文件递送打包信息。当然,可以在DASH MPD文件中进一步描述其他信息。
以上主要描述了图像处理,但是也将声音信息也与图像信息一起递送。
<子图片跟踪(图38至图74)>
在上述示例中,全天球立体图像被存储在一个轨道上。图38是示出存储在一个轨道上的全天球立体图像的说明图。在图38的示例中,通过将在左侧示出L视图图像和R视图图像并排布置并且从通过帧打包而形成的投影帧开始对在左侧和右侧中的每一侧的六个面的图像执行逐区域打包来生成在图的右侧示出的打包帧。
打包帧包括4×3个区域。在打包帧中,left_L、back_L和right_L的图像被布置在最左侧的列上,left_R、back_R和right_R的图像被布置在其右侧的列上,top_L、front_L和bottom_L的图像被布置在其右侧的列上,并且top_R、front_R和bottom_R的图像布置在其最右侧的列上。打包帧被存储在一个轨道上。注意,轨道是管理独立音频视频(AV)数据的单位。
相反,全天球立体图像可以被划分并存储在多个轨道上。图39是示出存储在多个轨道上的全天球立体图像的说明图。如图39所示,通过对如该图的最左侧所示的、在其中L视图图像和R视图图像并排布置的投影帧的右侧和左侧中的每一侧的六个面的图像执行逐区域打包来生成在该图的中间示出的包括4×3个区域的打包帧。此外,打包帧被划分成子图片轨道。在该示例中,由显示区域相匹配的L视图图像和R视图图像对(即,立体对)形成的六个面的图像各自被划分为六个轨道以进行存储。
作为存储在子图片轨道中的图像的类型,存在可以进行立体再现的图像和仅可以进行单视场再现的图像。在图39中示出可以立体再现的子图片轨道的图像。即,在该示例中,由显示区域相匹配的L视图图像与R视图图像对形成的六个面(top、front、left、right、back、bottom)的图像各自被划分为六个轨道以进行存储。即,left_L和left_R、top_L和top_R、back_L和back_R、front_L和front_R、right L和right_R、以及bottom_L和bottom_R的图像各自被划分为六个轨道以进行存储。
另一方面,在图40中示出了仅可以进行单视场再现的子图片轨道的图像。图40是示出仅可以进行单视场再现的子图片轨道的图像的说明图。与图39所示的情况类似,通过对在如该图的最左侧所示的、投影帧的左右两侧中的每一侧的六个面的图像执行逐区域打包,来生成如在该图的中间示出的包括4×3个区域的打包帧。在图40的示例中,仅由打包帧中的L视图图像构成的图像,即,由left_L、back_L和right_L构成的图像以及由top_L、front_L和bottom_L构成的图像,各自被存储在不同的轨道中。类似地,仅由R视图图像构成的图像,即,由left_R、back_R和right_R构成的图像以及由top_R、front_R和bottom_R构成的图像各自被存储在不同的轨道中。注意,即使在不执行逐区域打包的情况下,这也可以实现。
下面将描述用于实现子图片轨道的两种逐区域打包方法。
在用于实现子图片轨道的第一逐区域打包方法中,针对每个stereo_packing_type来划分全天球立体图像并存储在子图片轨道中。即,为了实现子图片轨道,使用stereo_packing_type来执行逐区域打包。
具体地,在配置了存储有立体对的子图片轨道的情况下,执行stereo_packing_type的值1的逐区域打包。
图41是示出在立体打包类型为1的情况下的子图片轨道的示例的图。在该示例中,由left_L与left_R这一个立体对形成的图像、由back_L、back_R、right_L和right_R这两个立体对形成的图像、以及由top_L、top_R,front_L、front_R、bottom_L和bottom_R这三个立体对形成的图像各自被存储在三个不同的轨道(子图片轨道)中。
如图41所示,在配置了存储有立体对的子图片轨道的情况下,stereo_packing_type的值为1。例如,执行图6的A中所示的逐区域打包。在图6的A所示的打包帧中,存储在一个子图片轨道中的一个立体对left_L与left_R被布置为相邻,并且存储在一个子图片轨道中的两个立体对back_L与back_R、right_L与right_R被布置为相邻。此外,存储在一个子图片轨道中的三个立体对top_L与top_R、front_L与front_R、bottom_L与bottom_R被布置为相邻。
以这种方式,在配置了存储有立体对的子图片轨道的情况下,执行逐区域打包,使得立体对(即,显示区域相同的L视图图像和R视图图像)相邻,并且还将存储在子图片轨道中的立体对布置为相邻。因此,可以按原样划分立体对,并且可以实现图41所示的子图片轨道。
另一方面,在仅L视图图像或者仅存储R视图图像存储在子图片轨道中的情况下,在逐区域打包中设置stereo_packing_type=0或者stereo_packing_type=2。替选地,可以不应用逐区域打包。
图42是示出在立体打包类型为0的情况下的子图片轨道的示例的图。在该示例中,left_L的图像、top_L、front_L和bottom_L的图像、right_L和back_L的图像、left_R的图像、top_R、front_R和bottom_R的图像、以及right_R和back_R的图像各自被存储在六个子图片轨道中。
如图42所示,在仅配置了存储有L视图图像或R视图图像的子图片轨道的情况下,例如,执行如图3的A中所示的、其中stereo_packing_type的值为0的逐区域打包。在图3的A中所示的打包帧中,存储在一个子图片轨道中的top_L、front_L和bottom_L的图像被布置成在从左侧起的第二列中相邻,并且存储在一个子图片轨道中的top_R、front_R和bottom_R的图像被布置成在从右侧起的第三列中相邻。存储在一个子图片轨道中的right_L和back_L的图像被布置成在中间行的第三列和第四列中相邻,并且存储在一个子图片轨道中的right_R和back_R的图像被布置成在中间行的从右侧起的第二列和第一列中相邻。此外,存储在一个子图片轨道中的left_L的图像被布置在中间行的从左侧起的第一列中,并且存储在一个子图片轨道中的left_R的图像被布置在中间行的从左侧起的第五列中。因此,可以实现图42中所示的子图片轨道。
图43是示出在立体打包类型为2的情况下的子图片轨道的示例的图。在该示例中,top_R的图像、left_L的图像、bottom_R的图像、top_L、front_L和bottom_L的图像、front_R和right_R的图像、right_L和backL的图像、以及back_R和left_R的图像各自被存储在七个子图片轨道中。
在配置了仅存储有图43所示的L视图图像或R视图图像的子图片轨道的情况下,例如,执行如图7的A所示的、stereo_packing_type的值为2的逐区域打包。在图7的A中所示的打包帧中,存储在一个子图片轨道中的top_L、front_L和bottom_L的图像被布置成在从左侧起的第二列中相邻,front_R和right_R的图像被布置在第一行的第三列和第四列中,right_L和back_L的图像被布置在第二行的第三列和第四列中,以及back_R和left_R的图像被布置在第三行的第三列和第四列中。top_R的图像、left_L的图像和bottom_R的图像被布置在第一列的第一行、第二行和第三行中。因此,可以实现图43所示的子图片轨道。
可以根据stereo_packing_type检查使用哪种类型的逐区域打包。在可以在内容生成时生成一个轨道而不划分内容、然后单独地实现子图片轨道的情况下,可以参考该标志,因此该标志是有用的。
在用于实现子图片轨道的第二逐区域打包方法中,在配置了存储有区域的立体对的子图片轨道的情况下,执行以下逐区域打包。即,执行逐区域打包,使得显示区域相匹配的区域的L视图图像和R视图图像(即,被构成为立体对的L视图图像和R视图图像)形成打包帧中的任意的连续矩形区域。另一方面,在配置了仅存储有L视图图像或R视图图像的子图片轨道的情况下,执行任意的逐区域打包或者不应用逐区域打包。
图44是示出其中形成有连续的矩形区域的逐区域打包的说明图。如图44的A所示,通过对如该图的左侧所示的、其中L视图图像和R视图图像并排布置的投影帧的右侧和左侧中的每一侧的六个面的图像执行逐区域打包,来形成如该图的右侧所示的包括4×3个区域的打包帧。在打包帧中,left_L和left_R的区域立体对被布置成左右相邻,使得在该示例中形成了一个连续的矩形区域631。
在下文中,类似地,top_L和top_R的立体对、back_L和back_R的立体对、front_L和front_R的立体对、right_L和right_R的立体对、以及bottom_L和bottom_R的立体对被布置成左右相邻。在该示例中,(left_L、left_R)、(top_L、top_R)、(back_L、back_R)、(front_L、front_R)、(right_L、right_R)和(bottom_L、bottom_R)的立体对被布置在打包帧的最上行的左右侧、中间行的左右侧以及最下行的左右侧。
例如,如图44的B所示,也可以形成连续的矩形区域。在该示例中,构成left_L、back_L、back_R和left_R这两个立体对的四个区域的图像形成一个连续的矩形区域。在该示例中,构成立体对的区域的图像不相邻,但是构成立体对的区域的图像可以被布置在连续的矩形区域中。
注意,在图44的示例中,连续的矩形区域在水平方向上是长的,但是可以在垂直方向上是长的。
以这种方式,通过执行逐区域打包以使得由立体对(即,显示区域相同的L视图图像和R视图图像)形成任意的连续矩形区域,可以从连续的矩形区域中按原样划分立体对,并且可以实现子图片轨道。
图45是示出其中没有形成连续的矩形区域的逐区域打包的说明图。在该示例中,在从左上到右下的方向上布置有top_L、right_R、left_L、bottom_R、front_L、left_R、back_L、front_R、bottom_L、back_R、right_L和top_R的L视图图像或R视图图像。在这种配置中,由于立体对未形成连续区域,因此难以实现子图片轨道。
在如下框中描述通过逐区域打包而形成的打包帧,从而形成连续的矩形区域。
图46是示出RegionWisePackingBox的配置的图。图47是示出RegionWisePackingStruct的配置的图。图48是示出RectRegionPacking的配置的图。图49是示出RegionWisePackingStruct和RectRegionPacking的字段的说明图。图50是示出投影图片和打包图片的说明图。图51是示出投影图片的图。
图46中所示的RegionWisePackingBox等同于图31中所示的RegionMappingBox,并且是图31中所示的RegionMappingBox的变型例。在图46的RegionWisePackingBox中描述了RegionWisePackingStruct。在RegionWisePackingStruct中,如图47所示,描述了num_regions、proj_picture_width和proj_picture_height。另外,在第i个num_regions中描述了packing_type。当packing_type的值为0时,描述了图48中所示的RectRegionPacking。在图48的RectRegionPacking中,描述了proj_reg_width[i]、proj_reg_height[i]、proj_reg_top、proj_reg_left、packed_reg_width[i]、packed_reg_height[i]、packed_reg_top和packed_reg_left。
在图49中示出了图47的RegionWisePackingStruct和图48的RectRegionPacking的字段的含义。
在RegionWisePackingStruct中,num_regions表示区域的数量。如图50所示,该区域表示作为其中在该图的左侧的L视图图像和R视图图像通过帧打包而并排形成的投影图片的有效图像区域的区域的数量。区域的数量等于在该图的右侧的打包图片的区域的数量。在图50的示例中,区域的数量是12。此处,proj_picture_width表示投影图片的宽度,以及proj_picture_height表示投影图片的高度。
即,在该示例中,通过帧打包将L视图图像和R视图图像并排打包而形成的图像被认为是投影图片。这一点不同于如图51所示的如下示例:将在并排帧打包之前的L视图图像或R视图图像形成为投影图片,proj_picture_width是投影图片的宽度,以及proj_picture_height是投影图片的高度。
如图49所示,packing_type[i]表示12个区域中的第i个区域的逐区域打包的类型,以及其值0指示矩形区域的打包。
此处,proj_reg_width[i]表示投影图片的第i个区域的宽度,以及proj_reg_height[i]表示投影图片的第i个区域的高度。另外,pro_reg_top表示投影图片的第i个区域的左上像素在垂直方向上的位置,以及pro_reg_left表示投影图片的第i个区域的左上像素在水平方向上的位置。
对于在图50的左侧的投影图片,具体示出了proj_picture_width和proj_picture_height的范围。对于作为投影图片的一个区域的top_L,具体示出了pro__reg_width和proj_reg_height的范围以及pro_reg_left和pro_reg_top的位置。
此处,packed_reg_width[i]和packed_reg_height[i]分别表示在图50的右侧所示的打包图片的第i个区域的宽度和高度。另外,packed_reg_left[i]和packed_reg_top[i]分别表示打包图片的第i个区域的左上像素在水平方向和垂直方向上的位置。针对作为在图50的右侧的投影图片的一个区域的top_L而示出了该具体示例。
然后,在该示例中,将标志进一步添加到参照图47描述的RegionWisePackingStruct,如图52所示。因此,如所示,执行逐区域打包,使得显示区域相匹配的L视图图像和R视图图像的区域形成任意的连续矩形区域。
图52是示出RegionWisePackingStruct的配置的图。在该示例中,在图47所示的RegionWisePackingStruct中进一步描述了region_wise_stereo_packing_flag。其他配置类似于图47的情况。
图53是示出逐区域立体打包标志的说明图。如图53所示,region_wise_stereo_packing_flag的值0指示投影图片是单视场的、或者显示区域相匹配的L视图和R视图的区域在通过逐区域打包而形成的打包图片中不形成任意的连续区域。region_wise_stereo_packing_flag的值1意味着,显示区域相匹配的L视图和R视图的区域在通过逐区域打包而形成的打包图片中形成任意的连续区域。
因此,可以基于该标志来检查立体对的存在,并且容易地实现子图片轨道。
接下来,将描述发信号通知子图片轨道的立体视频信息的方法。图54是示出在全天球立体图像存储在一个轨道中的情况下的框的说明图。图55是示出在全天球立体图像存储在六个轨道中的情况下的框的说明图。图56是示出在全天球立体图像存储在四个轨道中的情况下的框的说明图。
在图54的示例中,如在图38所示的情况下一样,在图54的左侧所示的投影图片通过逐区域打包而被打包在图54的右侧所示的打包图片中。在打包图片中,在左半部的两列中,left_L、back_L和right_L的图像被布置在左侧,left_R、back_R和right_R的图像被布置在右侧。在右半部的两列中,top_L、front_L和bottom_L的图像被布置在左侧,以及top_R、front_R和bottom_R的图像被布置在右侧。在StereoVideoBox(stvi)中描述了关于投影图片的立体视频信息。另外,在RegionWisePackingBox(rwpk)中描述了关于打包图片的立体视频信息(参见图46)。
在图55的示例中,如在图54所示的情况下一样,在图55的左侧所示的投影图片通过逐区域打包而被打包在图55的中间所示的打包图片中。在StereoVideoBox(stvi)中描述了关于投影图片的立体视频信息。另外,在RegionWisePackingBox(rwpk)中描述了关于打包图片的region_wise_stereo_packing_flag信息。
在图55的示例中,如在图39所示的情况下一样,在图55的中间所示的打包图片的图像被进一步划分以存储在六个子图片轨道中,如在最右侧所示。即,其中打包图片的面的显示区域相匹配的区域的L视图图像和R视图图像被并排布置的立体对被存储在六个子图片轨道中。具体地,left_L和left_R、top_L和top_R、back_L和back_R、front_L和front_R、right_L和right_R、以及bottom_L和bottom_R的图像分别被认为是并排立体对,并且被划分成六个子图片轨道以进行存储。
在图56的示例中,如在图38(图55)所示的情况下一样,在图56的左侧所示的投影图片通过逐区域打包而被打包在图56的中间所示的打包图片中。在StereoVideoBox中描述了投影图片的立体视频信息,并且在RegionWisePackingBox中描述了打包图片的region_wise_stereo_packing_flag。
此外,在图56的示例中,在图56的中间所示的打包图片的图像被进一步划分以存储在四个子图片轨道中,如在最右侧所示。具体地,left_L、back_L和right_L的L视图图像、left_R、back_R和right_R的R视图图像、top_L、front_L和bottom_L的L视图图像、top_R、front_R和bottom_R的R视图图像被划分为四个子图片轨道以进行存储。即,打包图片的L视图图像的区域和R视图图像的区域被认为是单视场配置并且被存储在四个子图片轨道中。
接下来,将描述SubPictureCompositionBox。图57是示出子图片合成框的配置的图。图58是示出子图片合成框的字段的说明图。
在SubPictureCompositionBox中,对存储有整个图片中包括的子图片的轨道进行分组。在SubPictureCompositionBox中,存在指示在整个图片中在哪个位置以哪种尺寸布置每个轨道的子图片的信息。在track_group_type='spco'时,SubPictureCompositionBox位于TrackGroupBox下面。
具体地,如图57所示,在SubPictureCompositionBox中描述了track_x、track_y、track_width、track_height、composition_width和composition_height。此处,track_x表示在整个图片中、存储在轨道中的子图片的左上像素在水平方向上的位置,以及track_y表示在整个图片中、存储在轨道中的子图片的左上像素在垂直方向上的位置。
另外,track_width表示在整个图片中、存储在轨道中的子图片的宽度,以及track_height表示在整个图片中、存储在轨道中的子图片的高度。另外,composition_width表示整个图片的宽度,以及composition_height表示整个图片的高度。
为了确定每个子图片轨道的子图片是L视图图像、R视图图像还是立体图像,需要基于上述的SubPictureCompositionBox、RegionWisePackingBox和StereoVideoBox来执行计算。因此,通过用现有的StereoVideoBox指示整个图片的立体打包信息并且进一步针对每个子图片轨道而添加立体视频信息,可以容易地执行该确定。因此,与立体图像不对应(能够仅执行单视场再现)的装置可以选择性地再现L视图图像或R视图图像的轨道,并且与立体图像对应的装置可以根据视口而选择性地再现立体图像的轨道。
在发信号通知子图片轨道的立体视频信息的第一方法中,新定义了用于发信号通知仅可以在子图片轨道配置中使用的子图片轨道的立体视频信息的TrackStereoVideoBox(tstv)。可以在RestrictedSchemeInformationBox(rinf)/SchemeInformationBox(schi)下面或者在StereoVideoBox(stvi)的末尾的光学框区域中设置定义位置。
立体视频信息是下面将描述的图62、图67、图69等中所示的信息。
作为新定义TrackStereoVideoBox的方法,存在不发信号通知诸如并排或上下的帧打包的方法(例如,下面将描述的图59的示例)以及发信号通知帧打包的方法(例如,下面将描述的图61的示例)。
图59是示出轨道立体视频框的配置的图,并且示出了在没有用信号通知帧打包的情况下的配置。图60是示出轨道立体视频框的字段的说明图。
如图59所示,在没有用信号通知帧打包的情况下,在TrackStereoVideoBox中描述了view_idc。如图60所示,view_idc的值1意味着,仅左视图存储在轨道中并且可以进行单视场显示,而值2意味着,仅右视图存储在轨道中并且可以进行单视场显示。另外,值3意味着,在轨道中可以进行立体显示。
图61是示出轨道立体视频框的配置的图,并且示出了在发信号通知帧打包的情况下的配置。图62是示出轨道立体视频框的字段的说明图。
如图61所示,在发信号通知帧打包的情况下的TrackStereoVideoBox中,除了view_idc之外,在view_idc的值是的3的情况下进一步描述了signal_view_allowed、stereo_scheme、length、stereo_indication_type。如图62所示,view_idc的值的含义类似于参照图60描述的情况。
single_view_allowed的值0意味着,内容旨在仅被显示在支持立体图像的显示器上。值1(single_view_allowed&1=1)意味着,允许内容的右视图的显示为单视场显示。值2(single_view_allowed&2=2)意味着,允许内容的左视图的显示为单视场显示。
stereo_scheme的值1意味着,帧打包方法符合ISO/IEC 14496-10的帧打包布置SEI,而值2意味着,帧打包方法符合ISO/IEC 13818-2的Annex.L。值3意味着,帧打包方法符合ISO/IEC 23000-11兼容的2D/3D混合服务和帧/服务。此处,length表示stereo_indication_type的字节长度,以及stereo_indication_type表示符合stereo_scheme的帧打包方法。
在图63和图64中示出TrackStereoVideoBox被存储在StereoVideoBox中的情况。图63是示出立体视频框的配置并且示出在发信号通知轨道立体视频框之前的配置的图。图64是示出立体视频框的配置并且示出了在发信号通知轨道立体视频框之后的配置的图。
如图63所示,在StereoVideoBox中,any_box被认为可选地是可添加的。当TrackStereoVideoBox被添加为any_box时,在图64中所示StereoVideoBox。
注意,在图64的StereoVideoBox中描述的single_view_allowed、stereo_scheme、length和stereo_indication_type的含义类似于图62中所示的情况,因此,将省略重复的描述。
仅在轨道中存在SubPictureCompositionBox和StereoVideoBox时,TrackStereoVideoBox才可以存在。在轨道中存在SubPictureCompositionBox和StereoVideoBox而不存在TrackStereoVideoBox的情况下,如图65所示,可以将轨道的子图片设置成使得在不是仅有L视图图像或仅有R视图图像的情况下不可以进行立体视频显示。
图65是示出在多个轨道中存储全天球立体图像的说明图。在该示例中,在该图的最左侧所示的投影图片通过逐区域打包而被打包在该图的中间所显示的打包图片中。在打包图片中,从左上方到右下方的方向上布置有top_L、right_R、left_L、bottom_R、front_L、left_R、back_L、front_R、bottom_L、back_R、right_L和top_R的区域的图像。
在图65的最右侧,示出了存储在每个子图片轨道中的图像。在该示例中,top_L和right_R的图像、left_L和bottom_R的图像、front_L和left_R的图像、back_L和front_R的图像、bottom_L和back_R的图像、以及right_L和top_R的图像各自被存储在六个子图片轨道中。在L视图图像和R视图图像的区域不相匹配(即,没有立体对)的情况下,子图片轨道的图像不可以被显示为立体图像。另外,各子图片轨道的图像是L视图图像和R视图图像,而既不是仅为L视图图像,也不是仅为R视图图像。
如上所述,在发信号通知子图片轨道的立体视频信息的第一方法中,新定义了其中发信号通知仅在配置子图片轨道时可用的子图片轨道的立体视频信息的TrackStereoVideoBox。相反,在发信号通知子图片轨道的立体视频信息的第二方法中,扩展SubPictureCompositionBox(spco)。
作为扩展SubPictureCompositionBox的方法,存在不发信号通知诸如并排或上下的帧打包的方法(例如,下面将描述的图66的示例)以及发信号通知帧打包的方法(例如,下面将描述的图68的示例)。
图66是示出子图片合成框的配置并且示出在没有用信号通知诸如并排和上下的帧打包的情况下的配置的图。在SubPictureCompositionBox中,描述了view_idc_presence_flag。在view_idc_presence_flag的值为1的情况下,描述了view_idc。另外,如在图57的情况下一样,描述了track_x、track_y、track_width、track_height、composition_width和composition_height。
图67是示出子图片合成框的字段的说明图。如图67所示,view_idc_presence_flag的值0意味着,不存在view_idc,而其值1意味着,存在view_idc。view_idc的值0到值3的含义类似于参照图60描述的情况。在该示例中,添加了意味着未知的值4。在存储在每个子图片轨道中的图像不是单视场图像、L视图图像、R视图图像和立体图像中的任一个的情况下使用view_idc的值4,例如,如图65所示。
SubPictureCompositionBox的track_x、track_y、track_width、track_height、composition_width和composition_height的含义类似于参照图58描述的情况。
图68是示出子图片合成框的配置并且示出了在发信号通知诸如并排和上下的帧打包的情况下的配置的图。在图68的SubPictureCompositionBox中,不仅描述了stereo_info_presence_flag,而且还描述了track_x、track_y、track_width、track_height、composition_width和composition_height,如在图66的情况下一样。此外,在stereo_info_presence_flag的值为1的情况下,描述了view_idc。此外,当view_idc的值为3时,描述了single_view_allowed、stereo_scheme、length和stereo_indication_type。
图69是示出子图片合成框的字段的说明图。如图69所示,stereo_info_presence_flag的值0表示不存在立体相关信息,而其值1表示存在立体相关信息。立体相关信息是图62中所示的信息。view_idc的含义类似于在不发信号通知诸如并排或上下的帧打包的情况下、在图66中所示的SubPictureCompositionBox时的含义(图67所示的情况)。
single_view_allowed、stereo_scheme、length和stereo_indication_type的含义类似于图62所示的情况,并且track_x、track_y、track_width、track_height、composition_width和composition_height的含义类似于图58中所示的情况。
可以配置其中立体投影图片的L视图图像和R视图图像被划分并且覆盖与L视图图像和R视图图像不同的范围的子图片轨道。例如,通过将正面设置为立体显示并且将其他面设置为单视场显示等,可以在依赖于视口的立体视图处执行与用例对应的发信号通知。
图70是示出在多个轨道中存储全天球立体图像的说明图。在图70的用例的示例中,在图70的最左侧所示的投影图片通过逐区域打包而被打包在右侧所示的打包图片中。在打包图片中,在左半部的两列中,left_L、back_L和right_L的图像被布置在左侧,top_L、front_L和bottom_L的图像被布置在右侧。在右半部的两列中,left_R、back_R和right_R的图像被布置在左侧,以及top_R、front_R和bottom_R的图像被布置在右侧。
在图70的示例中,如在最右侧所示,打包图片被进一步划分为七个子图片轨道以进行存储。即,诸如left_L、back_L、right_L、top_L、front_L和bottom_L的六个面的图像存储在一个子图片轨道中。在这种情况下,在TrackStereoVideoBox或SubPictureCompositionBox中,view_idc的值被认为是1。
此外,诸如left_R、back_R、right_R、top_R、front_R和bottom_R的六个面的图像分别存储在六个子图片轨道中。在这种情况下,在TrackStereoVideoBox或SubPictureCompositionBox中,view_idc的值被认为是2。
即,在图70的示例中,L视图图像显示在六个表面上,并且R视图图像仅显示在左表面上。因此,仅在左表面上可以进行立体显示,并且在其他表面上可以进行单视场显示。
如上所述,通过使现有的StereoVideoBox指示整个图片的立体打包信息、新定义TrackStereoVideoBox、或者扩展SubPictureCompositionBox等,进一步添加了每个子图片轨道的立体视频信息。作为变型例,可以使现有的StereoVideoBox指示每个子图片轨道的立体视频信息,并且可以新添加整个图片的立体打包信息。例如,在整个图片的立体打包信息中,可以使用与现有的StereoVideoBox的语法和语义相同的语法和语义。
接下来,将参照图71来描述在使用stereo_packing_type来执行逐区域打包以实现上述子图片轨道的情况下图12的生成装置212的处理。注意,在该示例中,如图64所示,假设TrackStereoVideoBox存储在StereoVideoBox中。图71是示出生成处理的说明性流程图。
拼接处理单元231执行如下拼接处理:使得从图11中的摄像装置211A提供的六个方向的拍摄图像的颜色或亮度对于每帧而言是相同的,并且去除重叠以进行连接。拼接处理单元231将拼接处理之后的帧单位的拍摄图像提供给映射处理单元232。
映射处理单元232通过立方体映射、根据从拼接处理单元231提供的拍摄图像来生成全天球图像。即,映射处理单元232将拼接处理之后的拍摄图像作为纹理映射到立方体,以生成立方体的展开图的图像作为全天球图像。映射处理单元232将全天球图像提供给逐区域打包处理单元233。
在步骤S201中,逐区域打包处理单元233确定全天球图像是否是立体的。在全天球图像是立体的情况下,在步骤S202中,逐区域打包处理单元233基于来自用户的指令来确定执行哪种立体打包方案。即,确定是否采用方案1至方案3中的一个作为立体打包方案。
在所采用的立体打包方案是方案1(图3或图4所示的打包方案)的情况下,在步骤S203中,逐区域打包处理单元233基于来自用户的指令来确定是否使用逐区域打包作为打包方案。
在使用逐区域打包作为打包方案的情况下,在步骤S204中,逐区域打包处理单元233执行对于L视图和R视图而言共同的逐区域打包处理。然后,逐区域打包处理单元233生成L视图和R视图各自的打包帧,并且对每帧执行打包。
在步骤S205中,逐区域打包处理单元233根据帧的打包布置来生成StereoVideoBox。在步骤S206中,逐区域打包处理单元233设置packing_flag=1和stereo_packing_type=0,并且生成包括打包信息的RegionMappingBox。
在步骤S203中确定不使用逐区域打包的情况下,在步骤S207中,逐区域打包处理单元233针对每帧而对L视图和R视图的投影帧执行打包。
在步骤S208中,逐区域打包处理单元233根据帧的打包布置来生成StereoVideoBox。在步骤S209中,逐区域打包处理单元233设置packing_flag=0和stereo_packing_type=0,并且生成RegionMappingBox。
在步骤S202中确定立体打包方案是方案2(针对全天球立体图像的帧中的每个区域而将L视图图像和R视图图像进行打包的方案)的情况下,处理进行到步骤S210。在步骤S210中,逐区域打包处理单元233针对每个区域而将L视图和R视图成对地打包以生成打包帧。
在步骤S211中,逐区域打包处理单元233根据区域的一对L视图与R视图的打包布置来生成StereoVideoBox。在步骤S212中,逐区域打包处理单元233设置packing_flag=1和stereo_packing_type=1,并且生成包括打包信息的RegionMappingBox。
在步骤S202中确定立体打包方案是方案3(将L视图图像和R视图图像打包在全天球立体图像的帧中的任意区域中的方案)的情况下,处理进行到步骤S213。在步骤S213中,逐区域打包处理单元233针对每个区域而将L视图和R视图打包在任意位置处以生成打包帧。
在步骤S214中,逐区域打包处理单元233设置packing_flag=1和stereo_packing_type=2,并且生成包括打包信息的RegionMappingBox。
在步骤S206、步骤S209、步骤S212和步骤S214的处理之后,在步骤S215中,编码器234将所生成的图片划分成子图片轨道,对所划分的图片进行编码,并且将经编码的图片提供给文件生成单元237。
在步骤S216中,文件生成单元237针对每个子图片轨道而生成SubPictureCompositionBox。在步骤S217中,文件生成单元237根据子图片的立体视频信息来生成TrackStereoVideoBox。
在步骤S201中确定全天球图像不是立体的情况下,在步骤S218中,逐区域打包处理单元233基于来自用户的指令来确定是否使用逐区域打包作为打包方案。
在使用逐区域打包作为打包方案的情况下,在步骤S219中,逐区域打包处理单元233执行逐区域打包处理以生成打包帧。在步骤S220中,逐区域打包处理单元233设置packing_flag=1(使用逐区域打包),并且设置stereo_packing_type=0(方案1)。然后,逐区域打包处理单元233生成包括打包信息的RegionMappingBox。
在步骤S218中确定不使用逐区域打包作为打包方案的情况下,在步骤S221中,逐区域打包处理单元233设置packing_flag=0(不使用逐区域打包),并且设置stereo_packing_type=0(方案1)。然后,逐区域打包处理单元233生成包括上述设置的RegionMappingBox。
在步骤S220和步骤S221的处理之后,在步骤S222中,编码器234将所生成的图片划分为子图片,对所划分的图片进行编码,并且将经编码的图片提供给文件生成单元237。在步骤S223中,文件生成单元237针对每个子图片轨道而生成SubPictureCompositionBox。
在步骤S217和步骤S223的处理之后,在步骤S224中,文件生成单元237生成具有多个轨道的ISOBMFF文件。
将由文件生成单元237生成的文件从上传单元238上传到递送服务器213。
接下来,将参照图72来描述图33中的再现装置214的轨道选择处理。图72是示出选择处理的说明性流程图。
在步骤S251中,文件获取单元601参考SubPictureCompositionBox来选择与要呈现的区域对应的轨道。在步骤S252中,文件获取单元601确定是否对所选择的轨道执行立体再现。基于来自用户的指令来执行步骤S251和步骤S252的处理。
在步骤S252中确定执行立体再现的情况下,在步骤S253中,文件获取单元601参考TrackStereoVideoBox来在所选择的轨道中选择可以进行立体再现的轨道。在步骤S252中确定不执行立体再现的情况下,在步骤S254中,文件获取单元601参考TrackStereoVideoBox来在所选择的轨道中选择可以进行单视场再现的轨道。
在图72的前述选择处理之后,执行图34的上述再现处理。
如上所述,根据L视图图像和R视图图像生成立体图像,但是可以根据纹理图像和深度图像生成立体图像。纹理图像是用作用于生成立体图像的基础的图像,以及深度图像是表示在纹理图像的预定单位区域中对象在深度方向上的位置的图像。关于深度图像的信息被量化为预定位数的值(例如,0到255的值)并且被认为是要被编码的像素值。
接下来,将参照图73和图74来描述纹理图像和深度图像。图73是示出纹理图像和深度图像的说明图。图74是示出图像成分的三维位置的说明图。
图73中的输入图像数据包括用作图73的A中的纹理图像的彩色图像数据951和图73的B中的深度图像数据952。在图73的A中,彩色图像数据的颜色信息以图形示出。如图73的A所示,彩色图像数据包括背景970、部分被丢失的部分圆971和972、矩形973、圆柱974和圆柱975。
另外,在图73的B的示例中,深度图像数据的像素值随着距离越远而越大。在图73的B的示例中,背景970是最白的(亮的),部分圆971、部分圆972和矩形973、圆柱体974和圆柱体975按此顺序逐渐变黑(变暗),并且深度方向上的位置按此顺序远离。
图74示出了图73中的背景970、部分圆971、部分圆972、矩形973、圆柱974和圆柱975的三维位置。
如图74所示,背景970、部分圆971、部分圆972、矩形973、圆柱974和圆柱975的三维位置的x坐标和y坐标对应于颜色图像数据951在画面上的水平方向和垂直方向上的位置坐标。另外,背景970、部分圆971、部分圆972、矩形973、圆柱974和圆柱975的三维位置的z坐标对应于深度图像数据952的像素值。
以这种方式,可以根据纹理图像和深度图像来生成在不同视点处的图像,并且可以如L视图图像和R视图图像中那样基于所生成的图像来生成立体图像。即,视图图像(左眼区域图像)和R视图图像(右眼区域图像)或者纹理图像和深度图像可以用作用于生成立体图像的第一图像和第二图像。
根据本技术,可以根据对于全天球立体图像的新打包方案来实现编码效率的提高或者传输图像区域布置的优化。因此,在传输全天球立体图像中观看全天球立体图像时,可以实现传输容量的降低、分辨率的提高以及平滑的视点移动。
另外,根据本技术,通过在文件中递送新的打包方案,可以规定在再现装置中使用的打包方案并且容易地执行再现处理。
注意,在不背离本技术的本质的情况下,本技术可以在本技术的范围内以各种变型例实施。
<计算机(图75)>
图75是示出通过程序执行上述的一系列处理的计算机的示例性硬件配置的框图。
在计算机1000中,中央处理单元(CPU)1001、只读存储器(ROM)1002和随机存取存储器(RAM)1003通过总线1004彼此连接。
输入/输出接口1005还连接到总线1004。输入单元1006、输出单元1007、存储单元1008、通信单元1009和驱动器1010连接到输入/输出接口1005。
输入单元1006包括键盘、鼠标、麦克风等。输出单元1007包括显示器、扬声器等。存储单元1008包括硬盘、非易失性存储器等。通信单元1009包括网络接口等。驱动器1010驱动可移动介质1011,诸如磁盘、光盘、磁光盘或者半导体存储器。
在如上所述的那样配置的计算机1000中,CPU 1001将例如存储在存储单元1008中的程序经由输入/输出接口1005和总线1004加载到RAM1003上,并且执行该程序。因此,执行上述一系列处理。
由计算机1000(CPU 1001)执行的程序被设置为记录在作为打包介质等的可移动介质1011中。此外,可以经由诸如局域网、因特网或者数字卫星广播的有线或无线传输介质提供程序。
在计算机1000中,通过将可移动介质1011插入驱动器1010中,可以经由输入/输出接口1005将程序安装在存储单元1008中。此外,程序可以由通信单元1009经由有线或无线传输介质来接收并被安装在存储单元1008中。此外,程序可以被预先安装在ROM 1002或存储单元1008中。
应当注意,由计算机1000执行的程序可以是根据本说明书中描述的顺序、按时间序列处理的程序,或者是并行处理的程序,或者是在诸如调用时的必要时刻处理的程序。
此外,在本公开内容中,系统具有一组多个构成元件(诸如设备或模块(部件))的含义,并且不考虑是否所有构成元件都在同一壳体中。因此,该系统可以是容纳于分离的壳体中且通过网络连接的多个设备、或者单个壳体内的多个模块。
此外,本说明书中描述的有益效果仅是示例而非限制性的,并且可以实现其他有益效果。
此外,本公开内容的实施方式不限于上述实施方式,并且在不背离本公开内容的范围的情况下可以进行各种改变和变型。
<3.其他>
另外,本技术还可以进行如下配置。
(1)一种生成装置,包括:
生成单元,其被配置成生成立体打包识别信息,所述立体打包识别信息用于识别针对被打包在打包帧中的全天球图像的多个区域图像的打包类型。
(2)根据(1)所述的生成装置,还包括:
打包单元,其被配置成将用于生成所述全天球图像的多个区域的投影帧的全天球立体图像的第一图像和第二图像打包在所述打包帧中。
(3)根据(2)所述的生成装置,其中,所述第一图像和所述第二图像是左眼区域图像和右眼区域图像,或者是纹理图像和深度图像。
(4)根据(2)或者(3)所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,对应区域的第一图像和第二右侧图像被布置成构成整体上为矩形的所述打包帧。
(5)根据(2)至(4)中任一项所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,对应区域的第一图像和第二图像被打包成在所述打包帧中相邻。
(6)根据(2)至(5)中任一项所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,所述对应区域的第一图像和第二图像被布置在矩形的打包帧中的任意位置处。
(7)根据(2)至(6)中任一项所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,执行打包,使得整体上为矩形的第一帧以所述对应区域的第一图像和无效区域构成,整体上为矩形的第二帧以所述对应区域的第二图像和无效区域构成,并且所述第一帧和所述第二帧被布置在预定位置处以构成矩形的打包帧。
(8)根据(2)至(7)中任一项所述的生成装置,其中,所述全天球图像的投影结构是立方体,并且所述区域图像包括其中所述区域的图像在左右方向上连续相邻的区域图像以及其中所述区域的图像在上下方向上连续相邻的区域图像。
(9)根据(2)至(8)中任一项的所述生成装置,其中,对应区域的第一图像和第二图像被收集在一个的大区域中。
(10)根据(2)至(9)中任一项所述的生成装置,其中,所述大的区域包括在纵向方向上长的区域以及在横向方向上长的区域。
(11)根据(2)至(10)中任一项所述的生成装置,其中,所述全天球图像的投影结构是球体,并且与正面的区域的左侧相邻的区域的第一图像和第二图像以及与所述正面的区域的右侧相邻的区域的第一图像和第二图像被收集在一个大的区域中。
(12)根据(2)至(11)中任一项所述的生成装置,其中,区域由球面坐标系中的所述区域的中心的偏航角和俯仰角、所述区域的宽度和高度的角度、或者所述区域在二维坐标系中的宽度和高度以及所述区域的一个角的x坐标和y坐标表示。
(13)根据(2)至(12)中任一项所述的生成装置,其中,所述立体打包识别信息在ISOBMFF的方案信息框下面的框中被描述。
(14)根据(2)至(13)中任一项所述的生成装置,其中,所述生成单元还生成用于识别为了进行所述打包而针对所述第一图像和所述第二图像改变了位置或尺寸中的至少一个的打包识别信息。
(15)根据(2)至(14)中任一项所述的生成装置,其中,在所述打包识别信息是用于识别为了进行所述打包而改变了位置或尺寸中的至少一个的打包识别信息的情况下,描述所述第一图像。
(16)根据(2)至(15)中任一项所述的生成装置,其中,在所述立体打包识别信息是用于识别如下打包类型的识别信息的情况下,描述所述第一图像,在该打包类型中,对应区域的左眼区域图像和所述第二图像被布置在矩形的打包帧的任意位置处。
(17)根据(2)至(16)中任一项所述的生成装置,其中,所述生成单元还生成用于识别所述区域图像的布置的识别信息、用于识别所述区域图像是立体的还是单视场的识别信息、用于识别针对所述投影结构的投影的类型的识别信息、或者用于识别所述投影结构的所述区域的宽度和高度的角度的标准的识别信息。
(18)根据(2)至(17)中任一项所述的生成装置,
其中,所述生成单元还生成用于识别每个区域的视点数量的识别信息,以及
在所述立体打包识别信息是用于识别其中所述对应区域的第一图像和第二图像被布置在矩形的打包帧的任意位置处的打包类型的识别信息的情况下,描述具有与用于识别每个区域的视点数量的识别信息相对应的数量的视点的区域图像。
(19)根据(2)至(18)中任一项所述的生成装置,其中,所述立体打包识别信息是根据MPEG-DASH来描述的。
(20)根据(2)至(19)中任一项所述的生成装置,其中,在配置了划分并存储有所述打包帧的图像的轨道的情况下,将所述打包帧与存储在所述轨道中的图像的立体打包识别信息相对应地进行打包。
(21)根据(2)至(20)中任一项所述的生成装置,其中,在配置了存储有一对立体图像的轨道的情况下,将所述打包帧打包成使得显示区域相匹配的所述第一图像和所述第二图像在所述打包帧中形成任意的连续矩形区域。
(22)一种识别信息生成方法,包括:
由生成装置生成立体打包识别信息的生成步骤,所述立体打包识别信息用于识别针对被打包在打包帧中的全天球图像的多个区域图像的打包类型。
(23)一种再现装置,包括:
获取单元,其被配置成获取识别信息,所述识别信息用于识别将全天球图像的多个区域图像打包在打包帧中的类型;
生成单元,其被配置成基于所获取的识别信息来生成投影帧;以及
呈现单元,其被配置成呈现所述投影帧。
(24)一种图像再现方法,包括:
由再现装置获取识别信息的获取步骤,所述识别信息用于识别将全天球图像的多个区域图像打包在打包帧中的类型;
由所述再现装置基于所获取的识别信息来生成投影帧的生成步骤;以及
由所述再现装置呈现所述投影帧的呈现步骤。
(25)一种生成装置,包括:
打包单元,其被配置成将用于生成全天球图像的多个区域的投影帧的全天球立体图像的第一图像和第二图像打包在打包帧中;以及
生成单元,其被配置成生成立体视频信息,所述立体视频信息包括针对每个轨道指示在其中存储有所述打包帧的第一图像或第二图像中的至少一个的轨道中所存储的图像是否为立体可再现图像的信息。
附图标记列表
210 递送系统
211 成像装置
212 生成装置
213 递送服务器
214 再现装置
215 头戴式显示器
231 拼接处理单元
232 映射处理单元
233 逐区域打包处理单元
234 编码器
237 文件生成单元
238 上传单元
601 文件获取单元
604 打包帧生成单元
605 映射处理单元
606 绘制单元

Claims (21)

1.一种生成装置,包括:
生成单元,其被配置成生成立体打包识别信息,所述立体打包识别信息用于识别针对被打包在打包帧中的全天球图像的多个区域图像的打包类型。
2.根据权利要求1所述的生成装置,还包括:
打包单元,其被配置成将用于生成所述全天球图像的多个区域的投影帧的全天球立体图像的第一图像和第二图像打包在所述打包帧中。
3.根据权利要求2所述的生成装置,其中,所述第一图像和所述第二图像是左眼区域图像和右眼区域图像,或者是纹理图像和深度图像。
4.根据权利要求2所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,对应区域的第一图像和第二图像被布置成构成整体上为矩形的所述打包帧。
5.根据权利要求4所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,所述对应区域的第一图像和第二图像被打包成在所述打包帧中相邻。
6.根据权利要求4所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,所述对应区域的第一图像和第二图像被布置在矩形的打包帧中的任意位置处。
7.根据权利要求4所述的生成装置,其中,所述立体打包识别信息包括用于识别下述打包类型的信息,在该打包类型中,执行打包,使得整体上为矩形的第一帧以所述对应区域的第一图像和无效区域构成,整体上为矩形的第二帧以所述对应区域的第二图像和无效区域构成,并且所述第一帧和所述第二帧被布置在预定位置处以构成矩形的打包帧。
8.根据权利要求2所述的生成装置,其中,所述全天球图像的投影结构是球体,并且与正面的区域的左侧相邻的区域的第一图像和第二图像以及与所述正面的区域的右侧相邻的区域的第一图像和第二图像被收集在一个大的区域中。
9.根据权利要求4所述的生成装置,其中,区域由球面坐标系中的所述区域的中心的偏航角和俯仰角、所述区域的宽度和高度的角度、或者所述区域在二维坐标系中的宽度和高度以及所述区域的一个角的x坐标和y坐标表示。
10.根据权利要求4所述的生成装置,其中,所述立体打包识别信息在ISOBMFF的方案信息框下面的框中被描述。
11.根据权利要求10所述的生成装置,其中,所述生成单元还生成用于识别为了进行所述打包而针对所述第一图像和所述第二图像改变了位置或尺寸中的至少一个的打包识别信息。
12.根据权利要求11所述的生成装置,其中,在所述打包识别信息是用于识别为了进行所述打包而改变了位置或尺寸中的至少一个的打包识别信息的情况下,描述所述第一图像。
13.根据权利要求10所述的生成装置,其中,所述生成单元还生成用于识别所述区域图像的布置的识别信息、用于识别所述区域图像是立体的还是单视场的识别信息、用于识别针对所述投影结构的投影的类型的识别信息、或者用于识别所述投影结构的所述区域的宽度和高度的角度的标准的识别信息。
14.根据权利要求10所述的生成装置,
其中,所述生成单元还生成用于识别每个区域的视点数量的识别信息,以及
在所述立体打包识别信息是用于识别其中所述对应区域的第一图像和第二图像被布置在矩形的打包帧的任意位置处的打包类型的识别信息的情况下,描述具有与用于识别每个区域的视点数量的识别信息相对应的数量的视点的区域图像。
15.根据权利要求4所述的生成装置,其中,所述立体打包识别信息是根据MPEG-DASH来描述的。
16.根据权利要求2所述的生成装置,其中,在配置了划分并存储有所述打包帧的图像的轨道的情况下,将所述打包帧与存储在所述轨道中的图像的立体打包识别信息相对应地进行打包。
17.根据权利要求2所述的生成装置,其中,在配置了存储有一对立体图像的轨道的情况下,将所述打包帧打包成使得显示区域相匹配的所述第一图像和所述第二图像在所述打包帧中形成任意的连续矩形区域。
18.一种识别信息生成方法,包括:
由生成装置生成立体打包识别信息的生成步骤,所述立体打包识别信息用于识别针对被打包在打包帧中的全天球图像的多个区域图像的打包类型。
19.一种再现装置,包括:
获取单元,其被配置成获取识别信息,所述识别信息用于识别将全天球图像的多个区域图像打包在打包帧中的类型;
生成单元,其被配置成基于所获取的识别信息来生成投影帧;以及
呈现单元,其被配置成呈现所述投影帧。
20.一种图像再现方法,包括:
由再现装置获取识别信息的获取步骤,所述识别信息用于识别将全天球图像的多个区域图像打包在打包帧中的类型;
由所述再现装置基于所获取的识别信息来生成投影帧的生成步骤;以及
由所述再现装置呈现所述投影帧的呈现步骤。
21.一种生成装置,包括:
打包单元,其被配置成将用于生成全天球图像的多个区域的投影帧的全天球立体图像的第一图像和第二图像打包在打包帧中;以及
生成单元,其被配置成生成立体视频信息,所述立体视频信息包括针对每个轨道指示在其中存储有所述打包帧的第一图像或第二图像中的至少一个的轨道中所存储的图像是否为立体可再现图像的信息。
CN201780079711.4A 2016-12-28 2017-12-15 生成装置、识别信息生成方法、再现装置和图像再现方法 Active CN110100435B9 (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2016-255630 2016-12-28
JP2016255630 2016-12-28
JP2017132057 2017-07-05
JP2017-132057 2017-07-05
PCT/JP2017/045043 WO2018123645A1 (ja) 2016-12-28 2017-12-15 生成装置、識別情報生成方法、再生装置および画像再生方法

Publications (3)

Publication Number Publication Date
CN110100435A true CN110100435A (zh) 2019-08-06
CN110100435B CN110100435B (zh) 2021-08-24
CN110100435B9 CN110100435B9 (zh) 2021-10-12

Family

ID=62707365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780079711.4A Active CN110100435B9 (zh) 2016-12-28 2017-12-15 生成装置、识别信息生成方法、再现装置和图像再现方法

Country Status (6)

Country Link
US (1) US10951871B2 (zh)
EP (1) EP3565244A4 (zh)
JP (1) JP7151486B2 (zh)
KR (1) KR102405101B1 (zh)
CN (1) CN110100435B9 (zh)
WO (1) WO2018123645A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114930868A (zh) * 2019-12-31 2022-08-19 诺基亚技术有限公司 用于视频编码和视频解码的方法、装置和计算机程序产品

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102598082B1 (ko) * 2016-10-28 2023-11-03 삼성전자주식회사 영상 표시 장치, 모바일 장치 및 그 동작방법
US10880617B2 (en) * 2017-04-25 2020-12-29 Sharp Kabushiki Kaisha Systems and methods for signaling quality information for regions in virtual reality applications
GB2567624B (en) * 2017-10-12 2021-05-26 Canon Kk Method, device and computer program for transmitting media content
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
KR20210094646A (ko) * 2018-12-14 2021-07-29 지티이 코포레이션 몰입형 비디오 비트 스트림 처리
WO2020179473A1 (ja) * 2019-03-05 2020-09-10 ソニー株式会社 画像処理装置、画像生成方法、および、画像処理方法
US11263729B2 (en) * 2020-05-26 2022-03-01 Microsoft Technology Licensing, Llc Reprojection and wobulation at head-mounted display device
US11743600B2 (en) 2021-08-12 2023-08-29 Aspeed Technology Inc. Multiple-processor system for multiple-lens camera and method thereof
TWI778749B (zh) * 2021-08-17 2022-09-21 睿至股份有限公司 適用虛擬實境的影像傳輸方法、影像處理裝置及影像生成系統
TWI769054B (zh) * 2021-08-17 2022-06-21 信驊科技股份有限公司 適用於多鏡頭照相機之多處理器系統及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102742281A (zh) * 2010-01-08 2012-10-17 索尼公司 图像处理装置、信息记录介质、图像处理方法和程序
CN103348685A (zh) * 2011-02-18 2013-10-09 索尼公司 图像处理装置和图像处理方法
CN104160698A (zh) * 2012-02-16 2014-11-19 S.I.Sv.El.意大利电子发展股份公司 使用新的3d编码“帧兼容”格式的帧打包方法、装置和系统
CN106537894A (zh) * 2014-07-14 2017-03-22 索尼互动娱乐股份有限公司 用于回放全景视频内容的系统和方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6141034A (en) * 1995-12-15 2000-10-31 Immersive Media Co. Immersive imaging method and apparatus
JP4475643B2 (ja) * 2004-06-29 2010-06-09 キヤノン株式会社 画像符号化装置及び方法
US8274551B2 (en) * 2007-06-11 2012-09-25 Samsung Electronics Co., Ltd. Method and apparatus for generating header information of stereoscopic image data
IT1393713B1 (it) * 2008-10-21 2012-05-08 S I R I Société Internationale De Rech Ind S A Sistema per codificare e decodificare immagini stereoscopiche
KR101648454B1 (ko) * 2009-04-27 2016-08-16 엘지전자 주식회사 방송 송신기, 방송 수신기 및 3d 비디오 데이터 처리 방법
JP2011142585A (ja) * 2010-01-08 2011-07-21 Sony Corp 画像処理装置、情報記録媒体、および画像処理方法、並びにプログラム
JP5450118B2 (ja) * 2010-01-14 2014-03-26 ソニー株式会社 映像伝送装置、映像表示装置、映像表示システム、映像伝送方法及びコンピュータプログラム
IT1401731B1 (it) * 2010-06-28 2013-08-02 Sisvel Technology Srl Metodo per la decodifica 2d-compatibile di flussi video stereoscopici
JP5483027B2 (ja) * 2011-02-04 2014-05-07 国際航業株式会社 3次元画像計測方法、及び3次元画像計測装置
JP5891426B2 (ja) * 2011-03-31 2016-03-23 パナソニックIpマネジメント株式会社 全周囲立体画像の描画を行う画像描画装置、画像描画方法、画像描画プログラム
JP6126821B2 (ja) * 2012-11-09 2017-05-10 任天堂株式会社 画像生成方法、画像表示方法、画像生成プログラム、画像生成システム、および画像表示装置
KR20150068299A (ko) * 2013-12-09 2015-06-19 씨제이씨지브이 주식회사 다면 영상 생성 방법 및 시스템
JP2016127377A (ja) * 2014-12-26 2016-07-11 カシオ計算機株式会社 画像処理装置及び画像処理方法、画像再生装置及び画像再生方法、並びにプログラム
EP3267687B1 (en) * 2015-03-05 2021-10-20 Sony Group Corporation Image processing device and image processing method
US10389999B2 (en) * 2016-02-17 2019-08-20 Qualcomm Incorporated Storage of virtual reality video in media files
EP3451675A4 (en) * 2016-04-26 2019-12-04 LG Electronics Inc. -1- METHOD FOR TRANSFERRING 360 DEGREE VIDEOS, METHOD FOR RECEIVING 360 DEGREE VIDEOS, DEVICE FOR TRANSMITTING 360 DEGREE VIDEOS AND DEVICE FOR RECEIVING 360 DEGREE VIDEOS
CN117201817A (zh) * 2016-09-02 2023-12-08 Vid拓展公司 用于用信号通知360度视频信息的方法和系统
KR102412955B1 (ko) * 2016-12-28 2022-06-24 소니그룹주식회사 생성 장치, 식별 정보 생성 방법, 재생 장치 및 화상 생성 방법
KR102503342B1 (ko) * 2017-01-10 2023-02-28 삼성전자주식회사 스테레오 스코픽 비디오 콘텐츠를 전송하기 위한 방법 및 장치
US10880617B2 (en) * 2017-04-25 2020-12-29 Sharp Kabushiki Kaisha Systems and methods for signaling quality information for regions in virtual reality applications
US10893256B2 (en) * 2017-06-26 2021-01-12 Nokia Technologies Oy Apparatus, a method and a computer program for omnidirectional video
US11082719B2 (en) * 2017-07-03 2021-08-03 Nokia Technologies Oy Apparatus, a method and a computer program for omnidirectional video
US10587883B2 (en) * 2017-07-14 2020-03-10 Qualcomm Incorporated Region-wise packing, content coverage, and signaling frame packing for media content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102742281A (zh) * 2010-01-08 2012-10-17 索尼公司 图像处理装置、信息记录介质、图像处理方法和程序
CN103348685A (zh) * 2011-02-18 2013-10-09 索尼公司 图像处理装置和图像处理方法
CN104160698A (zh) * 2012-02-16 2014-11-19 S.I.Sv.El.意大利电子发展股份公司 使用新的3d编码“帧兼容”格式的帧打包方法、装置和系统
CN106537894A (zh) * 2014-07-14 2017-03-22 索尼互动娱乐股份有限公司 用于回放全景视频内容的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114930868A (zh) * 2019-12-31 2022-08-19 诺基亚技术有限公司 用于视频编码和视频解码的方法、装置和计算机程序产品

Also Published As

Publication number Publication date
EP3565244A4 (en) 2019-12-11
JP7151486B2 (ja) 2022-10-12
CN110100435B9 (zh) 2021-10-12
CN110100435B (zh) 2021-08-24
US20200077070A1 (en) 2020-03-05
JPWO2018123645A1 (ja) 2019-11-21
WO2018123645A1 (ja) 2018-07-05
US10951871B2 (en) 2021-03-16
KR102405101B1 (ko) 2022-06-07
KR20190099411A (ko) 2019-08-27
EP3565244A1 (en) 2019-11-06

Similar Documents

Publication Publication Date Title
CN110100435A (zh) 生成装置、识别信息生成方法、再现装置和图像再现方法
US10757392B2 (en) Method of transmitting 360-degree video, method of receiving 360-degree video, device for transmitting 360-degree video, and device for receiving 360-degree video
KR102322508B1 (ko) 스티칭 및 리프로젝션 관련 메타데이터를 이용한 6dof 비디오를 송수신하는 방법 및 그 장치
KR102208129B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
US20200389640A1 (en) Method and device for transmitting 360-degree video by using metadata related to hotspot and roi
US20200244942A1 (en) Method and device for transmitting stereo media content
WO2019202207A1 (en) Processing video patches for three-dimensional content
US20190364261A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video and apparatus for receiving 360-degree video
US10965928B2 (en) Method for 360 video processing based on multiple viewpoints and apparatus therefor
JP7218826B2 (ja) 再生装置および画像生成方法
JP7035401B2 (ja) 画像処理装置およびファイル生成装置
KR20200000363A (ko) 360도 비디오를 송수신하는 방법 및 그 장치
CN109328462B (zh) 一种用于流视频内容的方法及装置
US11710274B2 (en) Image processing apparatus and file generation apparatus
US20190200096A1 (en) File generation device, file generation method, reproducing device, and reproducing method
KR102243666B1 (ko) 360도 비디오를 전송하는 방법, 360도 비디오를 수신하는 방법, 360도 비디오 전송 장치, 360도 비디오 수신 장치
US20210274146A1 (en) Video transmitting method, video transmitting device, video receiving method and video receiving device
JP2022044835A (ja) 画像処理装置およびファイル生成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent

Correction item: Claims

Correct: Claims 1-5 submitted on June 7, 2021

False: Claims 1-5 modified ex officio by the examiner on May 17, 2021

Number: 35-01

Page: ??

Volume: 37

CI03 Correction of invention patent