CN111557096A - 发送装置、发送方法、接收装置和接收方法 - Google Patents

发送装置、发送方法、接收装置和接收方法 Download PDF

Info

Publication number
CN111557096A
CN111557096A CN201980007260.2A CN201980007260A CN111557096A CN 111557096 A CN111557096 A CN 111557096A CN 201980007260 A CN201980007260 A CN 201980007260A CN 111557096 A CN111557096 A CN 111557096A
Authority
CN
China
Prior art keywords
information
stream
image
encoded stream
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201980007260.2A
Other languages
English (en)
Inventor
塚越郁夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN111557096A publication Critical patent/CN111557096A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明使得可以根据用途或用户在接收机之间一致地显示宽视角图像内的给定的部分图像。所述发送装置发送通过对宽视角图像的图像数据进行编码而获得的编码流,并且发送包括分组和记录的预定数量的视点的信息的渲染元信息。例如,视点的信息具有指示该视点位置的方位角(方位角信息)和仰角(仰角信息)的信息。

Description

发送装置、发送方法、接收装置和接收方法
技术领域
本技术涉及发送装置、发送方法、接收装置和接收方法,更具体地,涉及发送宽视角图像的发送装置等。
背景技术
使用对应于宽视角的反射镜、透镜等来捕获宽视角图像。例如,专利文献1将全向图像等描述为宽视角图像。
在发送宽视角图像的运动图像数据的情况下,根据转换方式,在显示时要显示的部分在接收侧有所不同。因此,在期望在接收机之间一致地显示宽视角图像中的某部分图像的情况下,通常存在没有这样的方法的问题。
引文列表
专利文献
专利文献1:日本专利申请公开号2009-200939
发明内容
本发明要解决的问题
本技术的目的在于按照用途或用户能够在接收机之间一致地显示宽视角图像中的某个部分图像。
问题的解决方案
本技术的概念在于一种发送装置,包括:发送单元,其被配置为发送通过对宽视角图像的图像数据进行编码而获得的编码流,并且发送包括以组记录的预定数量的视点的信息的渲染元信息。
在本技术中,发送单元发送通过对宽视角图像的图像数据进行编码而获得的编码流,并发送渲染元信息。渲染元信息包括以组记录的预定数量的视点的信息。例如,宽视角图像可以是通过切取部分或全部球面捕获图像并对切取的球面捕获图像执行平面打包而获得的投影图片。此外,例如,视点的信息可以包括指示视点位置的方位角(方位角信息)和仰角(仰角信息)的信息。
例如,发送单元可以将渲染元信息插入编码流的层和/或包括编码流的容器的层中,并发送渲染元信息。在这种情况下,例如,发送单元可以还发送包括关于编码流的元信息的元文件,并且所述元文件可以包括指示在编码流和/或容器的层中插入渲染元信息的标识信息。
此外,在这种情况下,例如,容器可以是ISOBMFF,并且发送单元可以将渲染元信息插入到moov框中,并且发送渲染元信息。此外,在这种情况下,容器可以是ISOBMFF,并且发送单元可以使用与包括通过对宽视角图像的图像数据进行编码而获得的编码流的轨道不同的轨道,来发送渲染元信息。
此外,在这种情况下,例如,容器可以是MPEG2-TS,并且发送单元可以将渲染元信息插入到节目映射表中,并且发送渲染元信息。此外,在这种情况下,例如,容器可以是MMT流,并且发送单元可以将渲染元信息插入到MMT封包表中,并且发送渲染元信息。
此外,例如,通过对宽视角图像的图像数据进行编码而获得的编码流可以是对应于通过划分宽视角图像而获得的划分区域的编码流。在这种情况下,例如,可以通过单独编码宽视角图像的每个划分区域,获得每个划分区域的编码流。此外,在这种情况下,例如,通过使用将宽视角图像的每个划分区域用作方块(tile,铺片)的方块功能,执行编码,可以获得每个划分区域的编码流。此外,在这种情况下,例如,视点的信息可以包括视点所在的划分区域的信息。
如上所述,在本技术中,发送通过对宽视角图像的图像数据进行编码而获得的编码流和包括以组记录的预定数量的视点的信息的渲染元信息。因此,接收侧可以基于渲染元信息对通过对编码流进行解码而获得的宽视角图像的图像数据进行处理,以获得显示图像数据,并且可以根据用途或用户在接收机之间一致地显示宽视角图像中的某个部分图像。
此外,本技术的另一概念在于一种接收装置,包括:接收单元,其被配置为接收通过对宽视角图像的图像数据进行编码而获得的编码流,并接收包括以组记录的预定数量的视点的信息的渲染元信息;以及处理单元,其被配置为基于渲染元信息对通过对编码流进行解码而获得的宽视角图像的图像数据进行处理,以获得显示图像数据。
在本技术中,接收单元接收通过对宽视角图像的图像数据进行编码而获得的编码流,并接收渲染元信息。渲染元信息包括以组记录的预定数量的视点的信息。
处理单元基于渲染元信息对通过对编码流进行解码而获得的宽视角图像的图像数据进行处理,以获得显示图像数据。例如,处理单元可以使用根据用户的属性或合同内容确定的组的视点的信息。在这种情况下,例如,处理单元可以获得显示图像数据,所述显示图像数据具有由用户操作选择的视点的信息指示的位置作为中心位置。
此外,例如,接收单元可以接收通过划分宽视角图像而获得的每个划分区域的编码流,作为通过对宽视角图像的图像数据进行编码而获得的编码流,并且所述处理单元可以对编码流的预定数量的划分区域的编码流进行解码以获得显示图像数据,每个编码流对应于每个划分区域。在这种情况下,例如,接收单元可以请求分发服务器发送预定数量的划分区域的编码流,并且从分发服务器接收预定数量的划分区域的编码流。
如上所述,在本技术中,基于包括以组记录的预定数量的视点的信息的渲染元信息,处理通过对编码流进行解码而获得的宽视角图像的图像数据,以获得显示图像数据。因此,可以根据用途或用户在接收机之间一致地显示宽视角图像中的某个部分图像。
本发明的效果
根据本技术,可以根据用途使用或用户在接收机之间一致地显示宽视角图像中的某个部分图像。注意,此处描述的效果不一定受限,并且可以展示本公开中描述的任何效果。
附图说明
图1是示出基于MPEG-DASH的流分发系统的配置示例的框图;
图2是示出在MPD文件中分层排列的结构之间的关系的示例的示图;
图3是示出作为实施方式的发送/接收系统的配置示例的框图;
图4是示意性地示出发送/接收系统的整个系统的配置示例的示图;
图5是用于描述用于从球面捕获图像获得投影图片的平面打包的示图;
图6是示出HEVC编码中的SPS NAL单元的结构示例的示图;
图7是用于描述切取位置的中心O(p,q)与投影图片的参考点RP(x,y)重合的示图;
图8是示出投影图片的划分示例的示图;
图9是示出渲染元数据的结构示例的示图;
图10是示出图9所示的结构示例中的主要信息的内容的示图;
图11是用于描述图9所示的结构示例中的每条信息的示图;
图12是示出“viewpoint_grid()”的结构示例的示图;
图13是示出图12所示的结构示例中的主要信息的内容的示图;
图14是用于描述作为记录的视点的视点网格的示图;
图15是用于描述通过视点网格类别分组的示例的示图;
图16是示出图15中的分组中的组1至3的用户的显示示例的示图;
图17是用于描述通过视点网格类别分组的另一示例的示图;
图18是示出图17中的分组中的组1至3的用户的显示示例的示图;
图19是用于描述通过视点网格类别分组的另一示例的示图;
图20是示出图19中的分组中的组1和2的用户的显示示例的示图;
图21是示出作为分发流的MP4流的示例的示图;
图22是用于描述使用将每个分区用作方块的方块功能进行编码的示图;
图23是示出分区描述符的结构示例的示图;
图24是示出图23中的结构示例中的主要信息的内容的示图;
图25是示出对应于基于方块的MP4流(基于方块的容器)的MPD文件的描述示例的示图;
图26是示出对应于每个分区的MP4流的MPD文件的描述示例的示图;
图27是示意性地示出在使用将每个分区用作方块的方块功能来执行编码的情况下的MP4流(轨道)的示例的示图;
图28是示意性示出在单独编码每个分区的情况下的MP4流(轨道)的示例的示图;
图29是示出将8K/60Hz类投影图片除以1920×1080(全HD)分区大小的示例的示图;
图30是示出在使用HMD作为显示装置的情况下显示区域的移动控制的示例的示图;
图31是示出在使用显示面板作为显示装置的情况下显示区域的移动控制的示例的示图;
图32是示出切换与显示区域的移动相关联的分发流集的示例的示图;
图33是示出切换与显示区域的移动相关联的分发流集的示例的示图;
图34是示出服务发送系统的配置示例的框图;
图35是示出服务接收机的配置示例的框图;
图36是示出在视频编码是方块兼容的情况下的发送流的配置示例的示图;
图37是示出在视频编码是方块兼容的情况下的MMT流的配置示例的示图;
图38是示出在方块流具有单流配置的情况下的MPD文件的描述示例的示图;
图39是示意性示出在方块流具有单流配置的情况下的MP4流(轨道)的示例的示图;
图40是示出在方块流具有单流配置的情况下发送流的配置示例的示图;
图41是示出在方块流具有单流配置的情况下的MMT流的配置示例的示图;
图42是示意性地示出在使用将每个分区用作方块的方块功能来执行编码的情况下的MP4流(轨道)的另一示例的示图;
图43是示意性地示出在单独编码每个分区的情况下的MP4流(轨道)的另一示例的示图;
图44是示意性示出在方块流具有单流配置的情况下的MP4流(轨道)的示例的示图。
具体实施方式
在下文中,将描述实现本发明的方式(以下称为“实施方式”)。注意,将按以下顺序给出描述。
1.实施方式
2.修改
<1.实施方式>
[基于MPEG-DASH的流分发系统的概况]
首先,将描述可应用本技术的基于MPEG-DASH的流分发系统的概况。
图1示出了基于MPEG-DASH的流分发系统30的配置示例。在该配置示例中,通过通信网络传输路径(通信传输路径)发送媒体流和媒体呈现描述(MPD)文件。流分发系统30包括DASH流文件服务器31和DASH MPD服务器32以及经由内容传送网络(CDN)34连接到上述服务器31和32的N个服务接收机33-1、33-2,...33-N。
DASH流文件服务器31基于预定的内容媒体数据(视频数据、音频数据、字幕数据等)生成DASH规范中的流片段(下文中,适当地称为“DASH片段”),并响应于来自服务接收机的HTTP请求发送片段。DASH流文件服务器31可以是专用于流的服务器,或者也可以用作网络服务器。
此外,DASH流文件服务器31经由CDN 34将预定流的片段发送到请求者接收机,对应于经由CDN 34从服务接收机33(33-1、33-2,...或33-N)发送的流的片段的请求。在这种情况下,服务接收机33参考媒体呈现描述(MPD)文件中描述的速率值,根据客户端所在的网络环境的状态选择具有最佳速率的流,并发送请求。
DASH MPD服务器32是生成用于获取在DASH流文件服务器31中生成的DASH片段的MPD文件的服务器。DASH MPD服务器32基于来自内容管理服务器(未示出)的内容元数据和在DASH流文件服务器31中生成的片段(segment)地址(url)来生成MPD文件。注意,DASH流文件服务器31和DASH MPD服务器32在物理上可以是相同的。
在MPD格式中,针对每个流,例如,视频或音频,使用称为表示(Representation)的元素来描述每个属性。例如,在MPD文件中,对表示进行划分,并且针对具有不同速率的多个视频数据流描述相应的速率。如上所述,服务接收机33可以参考速率值,根据服务接收机33所在的网络环境的状态来选择最佳流。
图2示出了在MPD文件中分层排列的结构之间的关系的示例。如图2的(a)所示,在作为整个MPD文件的媒体呈现(Media Presentation)中存在由时间间隔分隔的多个周期(Periods)。例如,第一周期从0秒开始,下一周期从100秒开始,依此类推。
如图2的(b)所示,在一个周期中存在多个适配集(AdaptationSet)。每个适配集取决于媒体类型(例如,视频或音频)的差异、语言差异(即使媒体类型相同)、视点差异等。如图2的(c)所示,在适配集中存在多个表示(Representation)。每个表示都依赖于流属性,例如,速率差异。
如图2的(d)所示,表示包括片段信息(SegmentInfo)。如图2的(e)所示,在片段信息中,存在初始化片段(Initialization Segment)和多个媒体片段(Media Segments),其中,描述了通过进一步分离周期而获得的每个片段(Segment)的信息。在媒体片段中,存在用于实际获取片段数据(例如,视频和音频)的地址(url)的信息。
注意,流可以在适配集中包括的多个表示之间自由切换。结果,可以根据接收侧的网络环境的状态来选择具有最佳速率的流,并且可以执行连续的视频分发。
[发送/接收系统的配置示例]
图3示出了作为实施方式的发送/接收系统10的配置示例。发送/接收系统10包括服务发送系统100和服务接收机200。在发送/接收系统10中,服务发送系统100对应于图1所示的流分发系统30的DASH流文件服务器31和DASH MPD服务器32。此外,在发送/接收系统10中,服务接收机200对应于图1所示的流分发系统30的服务接收机33(33-1,33-2,...或33-N)。
服务发送系统100通过通信网络传输路径(见图1)发送DASH/MP4,即,包括作为元文件的MPD文件的MP4(ISOBMFF)流和媒体流(媒体片段),例如,视频和音频。
MP4流包括通过对宽视角图像的图像数据进行编码而获得的编码流,即,在该实施方式中,对应于通过划分宽视角图像而获得的每个划分区域(分区)的编码流(编码图像数据)。在此处,宽视角图像是但不限于通过切取部分或全部球面捕获图像并对切取的球面捕获图像执行平面打包而获得的投影图片(Projection picture)。
渲染元信息插入到编码流的层和/或容器的层中。渲染元信息插入到视频流的层中,使得渲染元信息可以动态地改变,而不管容器的类型。渲染元信息包括以组记录的预定数量的视点的信息,因此包括预定数量的分组视点网格的信息。视点指示显示图像的中心位置,并且记录的视点称为“视点网格”。在此处,关于视点网格的信息包括方位角的信息(方位角信息)和仰角的信息(仰角信息)。
注意,也可以设想发送所有编码流,每个编码流对应于宽视角图像的每个划分区域。然而,在本实施方式中,发送对应于所请求的划分区域的编码流。因此,可以防止传输频带不必要地加宽,并有效地使用传输频带。
指示渲染元信息插入到容器和/或视频流的层中的标识信息、向后兼容性信息以及投影图片的其他格式类型信息插入在MPD文件中。
服务接收机200经由通信网络传输路径接收从服务发送系统100发送的上述MP4(ISOBMFF)流(参见图1)。服务接收机200从MPD文件获取关于对应于宽视角图像的每个划分区域的编码流的元信息。
服务接收机200请求服务发送系统(分发服务器)100发送对应于显示区域的预定数量的编码流,例如,接收并解码预定数量的编码流,以获得显示区域的图像数据,并显示图像。当接收到预定数量的编码流时,服务接收机200还接收渲染元信息。如上所述,渲染元信息包括分组视点网格的信息。
服务接收机200基于渲染元信息处理通过对预定数量的编码流进行解码而获得的宽视角图像的图像数据,以获得显示图像数据。例如,服务接收机200获得这样的显示图像数据,该显示图像数据具有根据用户的属性或合同内容确定的组的预定数量的视点网格中由用户操作单元选择的预定视点网格,作为中心位置。
图4示意性地示出了发送/接收系统10的整个系统的配置示例。服务发送系统100包括360°图像捕获单元102、平面打包单元103、视频编码器104、容器编码器105和存储器106。
在本实施方式中,360°图像捕获单元102使用预定数量的相机对对象成像,以获得宽视角图像的图像数据,即,球面捕获图像(360°VR图像)的图像数据。例如,360°图像捕获单元102获得具有作为180°或更高视角的超宽视角的正面图像和背面图像,所述正面图像和背面图像是由鱼眼透镜捕获的球面捕获图像或球面捕获图像的一部分。
平面打包单元103切取在360°图像捕获单元102中获得的球面捕获图像的部分或全部,并对切取的球面捕获图像执行平面打包,以获得投影图片(Projection picture)。在这种情况下,作为投影图片的格式类型,例如,选择等矩形(Equirectangular)、十字立方体(Cross-cubic)等。注意,平面打包单元103根据需要对投影图片进行缩放,以获得具有预定分辨率的投影图片。
图5的(a)示出了具有超宽视角的正面图像和背面图像的示例作为使用相机102拍摄的球面捕获图像。图5的(b)示出了在平面打包单元103中获得的投影图片的示例。该示例是投影图片的格式类型是等矩形的情况的示例。此外,该示例是在图5的(a)所示的每个图像中由虚线指示的纬度处切取图像的情况的示例。图5的(c)示出了缩放后的投影图片的示例。
返回图4,视频编码器104例如对来自平面打包单元103的投影图片的图像数据应用诸如MPEG4-AVC或HEVC等的编码,以获得编码图像数据,并生成包括编码图像数据的视频流。切取位置信息插入到视频流的SPS NAL单元中。例如,“conformance_window”对应于HEVC编码,“frame_crop_offset”对应于MPEG4-AVC编码。
图6示出了HEVC编码中的SPS NAL单元的结构示例(语法)。“pic_width_in_luma_samples”字段指示投影图片的水平分辨率(像素大小)。“pic_height_in_luma_samples”字段指示投影图片的垂直分辨率(像素大小)。然后,当设置“conformance_window_flag”时,存在切取位置信息。切取位置信息是以投影图片的左上角为基点(0,0)的偏移信息。
“conf_win_left_offset”字段指示切取位置的左端位置。“conf_win_right_offset”字段指示切取位置的右端位置。“conf_win_top_offset”字段指示切取位置的上端位置。“conf_win_bottom_offset”字段指示切取位置的下端位置。
在本实施方式中,由切取位置信息指示的切取位置的中心与投影图片的参考点重合。在此处,p和q分别由以下表达式表示,其中,切取位置的中心是O(p,q)。
p=(conf_win_right_offset-conf_win_left_offset)*1/2
+conf_win_left_offset
q=(conf_win_bottom_offset-conf_win_top_offset)*1/2
+conf_win_top_offset
图7示出切取位置的中心O(p,q)与投影图片的参考点RP(x,y)重合。在所示的示例中,“projection_pic_size_horizontal”表示投影图片的水平像素大小,“projection_pic_size_vertical”表示投影图片的垂直像素大小。注意,VR兼容终端可以渲染投影图片,以获得显示视图(显示图像),但是默认视图以参考点RP(x,y)为中心。
在这种情况下,例如,当投影图片包括包含以参考点RP(x,y)为中心的默认区域的多个区域时,由切取位置信息指示的位置被设置为与默认区域的位置重合。在这种情况下,由切取位置信息指示的切取位置的中心O(p,q)与投影图片的参考点RP(x,y)重合。
返回图4,视频编码器104将投影图片分成多个分区(划分区域),以获得对应于每个分区的编码流。图8示出了投影图片的格式类型是等矩形的情况下的划分示例。
例如,视频编码器104单独编码每个分区,共同编码整个投影图片,或者使用将每个分区用作方块的方块功能来执行编码,以便获得对应于投影图片的每个分区的编码流。因此,接收侧可以独立地解码对应于每个分区的编码流。
视频编码器104将具有渲染元数据(渲染元信息)的SEI消息(SEI消息)插入到接入单元(AU)的“SEI”部分。图9示出了渲染元数据(Rendering_metadata)的结构示例(语法)。图10示出了结构示例中的主要信息的内容(语义)。
16位字段“rendering_metadata_id”是用于标识渲染元数据结构的ID。16位字段“rendering_metadata_length”指示渲染元数据结构的字节大小。
16位字段“start_offset_sphere_latitude”、“start_offset_sphere_longitude”、“end_offset_sphere_latitude”和“end_offset_sphere_longitude”中的每一个指示在对球面捕获图像执行平面打包的情况下的切取范围的信息(参见图11的(a))。“start_offset_sphere_latitude”字段表示从球面开始的切取起始偏移的纬度(垂直方向)。“start_offset_sphere_longitude”字段表示从球面开始的切取起始偏移的经度(水平方向)。“end_offset_sphere_latitude”字段表示从球面开始的切取结束偏移的纬度(垂直方向)。“end_offset_sphere_longitude”字段表示从球面开始的切取结束偏移的经度(水平方向)。
16位字段“projection_pic_size_horizontal”和“projection_pic_size_vertical”中的每一个表示投影图片(Projection picture)的尺寸信息(见图11的(b))。“projection_pic_size_horizontal”字段指示投影图片的大小中从左上角(左上角)开始的水平像素计数。“projection_pic_size_vertical”字段指示投影图片的大小中从左上角(左上角)开始的垂直像素计数。
16位字段“scaling_ratio_horizontal”和“scaling_ratio_vertical”中的每一个表示与投影图片的原始尺寸的缩放比例(参见图5的(b)和图5的(c))。“scaling_ratio_horizonta”字段表示与投影图片的原始尺寸的水平缩放比例。“scaling_ratio_vertical”字段表示与投影图片的原始尺寸的垂直缩放比例。
16位字段“reference_point_horizontal”和“reference_point_vertical”中的每一个指示投影图片的参考点RP(x,y)的位置信息(参见图11的(b))。“reference_point_horizontal”字段表示参考点RP(x,y)的水平像素位置“x”。“reference_point_vertical”字段表示参考点RP(x,y)的垂直像素位置“y”。
5位字段“format_type”指示投影图片的格式类型。例如,“0”表示等矩形(Equirectangular),“1”表示交叉立方(Cross-cubic),“2”表示划分的交叉立方(partitioned cross cubic)。
1位字段“backwardcompatible”指示是否已经设置了向后兼容,即,由切取位置信息指示并插入视频流的层中的切取位置处的中心O(p,q)是否已经被设置为与投影图片的参考点RP(x,y)重合(参见图7)。例如,“0”表示尚未设置向后兼容性,“1”表示已设置向后兼容性。“viewpoint_grid()”是用于存储分组的视点网格的信息的字段。
图12示出了“viewpoint_grid()”的结构示例(语法)。图13示出了结构示例中的主要信息的内容(语义)。8位字段“number_of_group”表示组数。以下字段由该数字重复。8位字段“group_id”表示组ID。8位字段“category”表示组的类别(分类类型)。
8位字段“number_of_viewpoint_grids”表示视点网格(viewpoint_grids)的数量。以下字段由该数字重复。8位字段“viewpoint_grid_id”表示视点网格的ID。8位字段“region_id”表示存在视点网格的区域的ID。1位字段“region_in_stream_flag”指示目标区域是否包括在编码流中。例如,“1”表示包括目标区域,“0”表示不包括目标区域。
当“region_in_stream_flag”为“1”时,即,当目标区域包括在编码流中时,存在指示视点网格的位置信息的以下字段。16位字段“center_azimuth[j]”指示视点网格的方位角(方位角信息)。16位字段“center_elevation[j]”指示视点网格的仰角(仰角信息)。
此处,将描述视点网格。图14的(a)示出了平面转换后的图像。该图像由水平长矩形包围,并且通过对上述投影图片(见图8)应用转换处理而获得,使得失真部分变为适当的图像。
在所示的示例中,八个视点VpA至VpH被记录为平面转换后的图像(宽视角图像)中的视点网格。注意,已经进行了以上描述,使得使用方位角(方位角信息)和仰角(仰角信息)来指定每个视点网格的位置。然而,每个视点网格的位置(坐标值)可以由相对于参考点RP(x,y)的像素偏移来表示(见图9)。如图14的(b)所示,接收侧可以从由视点网格ID A至H标识的视点网格中选择期望的视点网格,从而显示具有选择的视点网格作为中心位置的图像。
图15的(a)示出了通过视点网格类别进行分组的示例。在所示的示例中,组1包括三个视点网格VpC、VpD和VpG。此外,组2包括两个视点网格VpB和VpE。此外,组3包括三个视点网格VpA、VpF和VpH。图15的(b)示出了类别和由图15的(a)的示例中的组ID所绑定的视点网格ID的列表。
图16的(a)示出了组1的用户显示的示例。此处,如下所述,组1的用户是指根据用户的属性或合同内容允许使用包括在组1中的视点网格的用户。这同样适用于其他组的用户。这同样适用于其他示例。
所示的示例示出了通过用户操作选择视点网格VpD的状态,并且示出了具有视点网格VpD作为中心位置的图像(显示范围D中的图像,参见对应于图15的(a)中的VpD的虚点线框),作为主图像。然后,在所示的示例中,在右下位置以叠加在主图像上的形式显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,并且在矩形区域m1内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“D”相对应的视点网格的ID,并且在矩形区域m1内的相应位置进一步显示指示可选择的视点网格的ID的“C”和“G”。
图16的(b)示出了组2的用户显示的示例。所示的示例示出了通过用户操作选择视点网格VpB的状态,并且示出了具有视点网格VpB作为中心位置的图像(显示范围B中的图像,参见图15的(a)中对应于VpB的虚点线框),作为主图像。然后,在所示的示例中,在右下位置以叠加在主图像上的形式显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,并且在矩形区域m1内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“B”对应的视点网格的ID,并且在矩形区域m1内的对应位置进一步显示指示可选择的视点网格的ID的“E”。
图16的(c)示出了组3的用户显示的示例。所示的示例示出了通过用户操作选择视点网格VpF的状态,并且示出了在中心位置具有视点网格VpF的图像(显示范围F中的图像,参见对应于图15的(a)中的VpF的虚点线框),作为主图像。然后,在所示的示例中,在右下位置以叠加在主图像上的形式显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,并且在矩形区域m1内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“F”相对应的视点网格的ID,并且在矩形区域m1内的相应位置进一步显示指示可选择的视点网格的ID的“A”和“H”。
图17的(a)示出了将视点网格的可显示图像范围分组的示例。在所示的示例中,组1包括三个视点网格VpC、VpD和VpE。此外,组2包括五个视点网格:VpB、VpC、VpD、VpE和VpF。此外,组3包括八个视点网格VpA、VpB、VpC、VpD、VpE、VpF、VpG和VpH。图17的(b)示出了类别和由图17的(a)的示例中的组ID所绑定的视点网格ID的列表。
图18的(a)示出了组1的用户显示的示例。所示的示例示出了通过用户操作选择视点网格VpD的状态,并且示出了具有视点网格VpD作为中心位置的图像(显示范围D中的图像,参见图17的(a)中的对应于VpD的虚点线框),作为主图像。然后,在所示的示例中,在右下位置以叠加在主图像上的形式显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,并且在矩形区域m1内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“D”相对应的视点网格的ID,并且在矩形区域m1内的相应位置进一步显示指示可选择的视点网格的ID的“C”和“E”。
图18的(b)示出了组2的用户显示的示例。所示的示例示出了通过用户操作选择视点网格VpD的状态,并且示出了具有视点网格VpD作为中心位置的图像(显示范围D中的图像,参见图17的(a)中对应于VpD的虚点线框),作为主图像。然后,在所示的示例中,在右下位置以叠加在主图像上的形式显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,并且在矩形区域m1内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“D”相对应的视点网格的ID,并且在矩形区域m1内的相应位置进一步显示指示可选择的视点网格的ID的“B”、“C”、“E”和“F”。
图18的(c)示出了组3的用户显示的示例。所示的示例示出了通过用户操作选择视点网格VpD的状态,并且示出了具有视点网格VpD作为中心位置的图像(显示范围D中的图像,参见图17的(a)中的对应于VpD的虚点线框),作为主图像。然后,在所示的示例中,在右下位置以叠加在主图像上的形式显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,并且在矩形区域m1内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“D”相对应的视点网格的ID,并且在矩形区域m1内的相应位置进一步显示指示可选择的视点网格的ID的“A”、“B”、“C”、“E”、“F”、“G”和“H”。
图19的(a)示出了通过按视点网格的类别划分可显示图像来分组的又一示例。在所示的示例中,组1的类别是“左播放器”,并且组1包括两个视点网格VpA和VpB。此外,组2的类别是“右播放器”,并且组2包括三个视点网格VpF、VpG和VpH。此外,组3的类别是“共享”,并且组3包括三个视点网格VpC、VpD和VpE。组3中包括的视点网格可以由组1的用户和组2的用户选择。图19的(b)示出了类别和由图19的(a)的示例中的组ID所绑定的视点网格ID的列表。
图20的(a)示出了组1的用户显示的示例。所示的示例示出了通过用户操作选择视点网格VpA的状态,并且示出了具有视点网格VpA作为中心位置的图像(显示范围A中的图像,参见图19的(a)中的对应于VpA的虚点线框),作为主图像。然后,在所示的示例中,以叠加在主图像上的形式,在从下中心到右下的位置显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,在矩形区域m1内示出了指示组1的图像范围的矩形区域m3和指示组3的图像范围的矩形区域m4,并且在矩形区域m3内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“A”相对应的视点网格的ID,并且在矩形区域m3和m4内的相应位置进一步显示指示可选择的视点网格的ID的“B”、“C”、“D”和“E”。
图20的(b)示出了组2的用户显示的示例。所示的示例示出了通过用户操作选择视点网格VpH的状态,并且示出了具有视点网格VpH作为中心位置的图像(显示范围A中的图像,参见图19的(a)中的对应于VpH的虚点线框),作为主图像。然后,在所示的示例中,以叠加在主图像上的形式,在从下中心到右下的位置显示UI图像。在UI图像中,示出了指示整个图像的范围的矩形区域m1,在矩形区域m1内示出了指示组2的图像范围的矩形区域m5和指示组3的图像范围的矩形区域m4,并且在矩形区域m5内示出了指示当前显示范围的矩形区域m2。此外,在UI图像中,显示与当前显示范围“H”相对应的视点网格的ID,并且在矩形区域m5和m4内的相应位置进一步显示指示可选择的视点网格的ID的“C”、“D”、“E”、“F”和“G”。
返回图4,容器编码器105生成包括在视频编码器104中生成的编码流(此处是MP4流)的容器,作为分发流。在这种情况下,容器编码器105将渲染元数据(参见图9)插入到容器的层中。注意,在本实施方式中,渲染元数据插入到视频流(编码流)的层和容器层中。也可以设想将渲染元数据仅插入到其中一层中。如上所述由容器编码器105获得的MP4分发流经由存储器106发送到服务接收机200。
图21示出了作为分发流的MP4流的示例。分段并发送整个服务流,以便在发送期间输出图像和声音,例如,在通常的广播中。每个随机访问周期都有一个配置,从初始化片段(IS)开始,然后是“styp”框、“sidx框(片段索引框)”、“ssix框(子片段索引框)”、“moof框(电影片段框)”和“mdat框(媒体数据框)”。
初始化片段(IS)具有基于ISO基本媒体文件格式(ISOBMFF)的框(Box)结构。表示文件类型(文件类型)的“ftyp”框设置在头部,后面是“moov”框,用于控制。尽管省略了详细描述,但是“trak”框、“mdia”框、“minf”框、“stbl”框、“stsd”框和“schi”框分层地设置在“moov”框中,并且渲染元数据(Rendering_metadata)(参见图9)插入到“schi”框中。
“styp”框包括片段类型信息。“sidx”框包括每个轨道(轨道)的范围信息,指示“moof”/“mdat”的位置,并且还指示“mdat”中每个样本(图片)的位置。“ssix”框包括轨道的分类信息,并进行I/P/B类型的分类。
“moof”框包括控制信息。“mdat”框包括信号(发送媒体)的实体本身,例如,视频或音频。“moof”框和“mdat”框构成电影片段(Movie fragment)。由于通过将发送媒体分段(分段)而获得的片段包括在电影片段的“mdat”框中,所以包括在“moof”框中的控制信息是关于该片段的控制信息。
在每个电影片段的“mdat”框中,布置了预定数量的图片,例如,投影图片的编码图像数据(接入单元)的一个GOP。在此处,每个接入单元包括NAL单元,例如,“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”。注意,“VPS”和“SPS”插入到例如GOP的第一图片中。
作为切取位置信息的信息“conformance_window”插入到SPS NAL单元中(见图6)。此外,插入具有渲染元数据(Rendering_metadata)(见图9)的SEI消息,作为“SSEI”的NAL单元。
在本实施方式中,容器编码器105生成多个MP4流,每个MP4流包括对应于每个分区的编码流。在使用将每个分区用作方块的方块功能来执行编码的情况下,还可以生成一个MP4流,该MP4流包括作为子流的对应于所有分区的编码流。然而,在本实施方式中,假设生成多个MP4流,每个MP4流包括对应于每个分区的编码流。
注意,在使用将每个分区用作方块的方块功能来执行编码的情况下,除了多个MP4流(每个MP4流包括对应于每个分区的编码流)之外,容器编码器105还生成包括参数集(例如,SPS)的基本(base)的MP4流(基本容器)。
在此处,将参考图22描述使用将每个分区用作方块的方块功能的编码。方块可以通过在水平和垂直方向上划分图片来获得,并且可以被独立地编码/解码。在方块中,图片中的帧内预测、循环滤波和熵编码可以更新,因此划分为方块的每个区域可以被独立地编码和解码。
图22的(a)示出了将图片分成总共四个部分的情况的示例,四个部分包括垂直方向上的两个部分和水平方向上的两个部分,并且使用每个分区作为方块来执行编码。在这种情况下,如图22的(b)所示,关于被划分为方块的分区(方块)a、b、c和d,在切片报头中描述每个方块的第一数据的字节位置的列表,使得可以独立解码。
由于图片中的方块的起始块之间的位置关系可以用图片的左上角(左上角)的相对位置来识别,所以即使在使用另一封包进行每个分区(方块)的编码流的容器发送的情况下,也可以在接收侧重建原始图片。例如,如图22的(c)所示,当由虚点线矩形框包围的分区b和d的编码流被解码时,可以显示分区(方块)b和d。
注意,在使用另一封包进行每个分区(方块)的编码流的容器发送的情况下,元信息(例如,参数集)存储在基于方块的MP4流(基于方块的容器)中。然后,对应于每个分区的编码流作为切片信息存储在每个分区的MP4流(方块容器)中。
此外,容器编码器105在容器的层中插入分区的像素数和帧速率的信息。在本实施方式中,分区描述符(partition_descriptor)插入到MP4流的初始化片段(IS)中。在这种情况下,可以以最大频率基于图片插入多个分区描述符。
图23示出了分区描述符的结构示例(语法)。此外,图24示出了结构示例中的主要信息的内容(语义)。8位字段“partition_descriptor_tag”表示描述符类型,此处表示分区描述符。8位字段“partition_descriptor_length”指示描述符的长度(大小),并指示后续字节数,作为描述符的长度。
8位字段“frame_rate”指示分区(划分图片)的帧速率(全帧速率)。1位字段“tile_partition_flag”指示是否通过方块方法划分图片。例如,“1”表示通过方块方法划分图片,“0”表示未通过方块方法划分图片。1位字段“tile_base_flag”指示在方块方法的情况下容器是否是基本容器。例如,“1”表示基本容器,“0”表示基本容器以外的容器。
8位字段“partition_ID”表示分区的ID。16位字段“whole_picture_size_horizontal”表示整个图片的水平像素数。16位字段“whole_picture_size_vertical”表示整个图片的垂直像素数。
16位字段“partition_horizontal_start_position”指示分区的水平起始像素位置。16位字段“partition_horizontal_end_position”指示分区的水平结束像素位置。16位字段“partition_vertical_start_position”指示分区的垂直起始像素位置。16位字段“partition_vertical_end_position”表示分区的垂直结束像素位置。这些字段中的每一个构成了整个图片的分区的位置信息,并且构成了分区的像素数的信息。
返回图4,存储器106临时累积由容器编码器105生成的分区的MP4流。注意,在通过方块方法划分分区的情况下,存储器106还累积基于方块的MP4流。如上所述累积的MP4流中的安排了发送请求的分区的MP4流发送到服务接收机200。注意,在通过方块方法划分分区的情况下,也同时发送基本MP4流。
图25示出了对应于基于方块的MP4流(基于方块的容器)的MPD文件的描述示例。在MPD文件中,对应于一个MP4流(轨道)的适配集(AdaptationSet)被呈现为基于方块的容器。
在适配集中,“<AdaptationSet mimeType=“video/mp4”codecs=“hev1.xx.xx.Lxxx,xx,hev1.yy.yy.Lxxx,yy”>””的描述表示视频流的适配集(AdaptationSet)的存在、作为MP4文件结构提供视频流以及HEVC编码视频流(编码图像数据)的存在。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:format_type"value/>”的描述表示投影图片的格式类型。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:framerate"value/>”的描述表示图片的帧速率。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:tilepartitionflag"value="1"/>”的描述表示通过方块方法划分图片。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:tilebaseflag"value="1"/>”的描述表示该容器是基于方块的容器。
此外,在适配集中,存在对应于视频流的表示(Representation)。在这种表示中,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:renderingmetadata"value="1"/>”的描述指示存在渲染元数据(Rendering_metadata)。
此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:projectiontype"value="0"/>”的描述指示投影图片的格式类型是等矩形(Equirectangular)。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:backwardcompatible"value="1"/>”的描述表示指示已经设置了向后兼容性,即,由切取位置信息指示并插入到视频流层中的切取位置的中心O(p,q)已经被设置为与投影图片的参考点RP(x,y)重合。
此外,在表示中,“width=“”height=“”frameRate=“””、“codecs=“hev1.xx.xx.Lxxx,xx””以及“level=“0””的描述表示分辨率、帧速率和编解码器类型,并且进一步提供级别“0”作为标签信息。此外,“<BaseURL>videostreamVR.mp4</BaseURL>”的描述指示MP4流的位置为“videostreamVR.mp4”。
图26示出了对应于每个分区的MP4流的MPD文件的描述示例。在MPD文件中,存在分别对应于多个MP4流(轨道)的适配集(AdaptationSets)。注意,在所示的示例中,为了简化附图,仅示出了一个适配集(AdaptationSet)。
将描述一个适配集,并且省略对其他适配集的描述,因为它们是相似的。在适配集中,“<AdaptationSet mimeType=“video/mp4”codecs=“hev1.xx.xx.Lxxx,xx,hev1.yy.yy.Lxxx,yy”>”的描述表示视频流的适配集(AdaptationSet)的存在、作为MP4文件结构提供视频流以及HEVC编码视频流(编码图像数据)的存在。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:format_type"value/>”的描述指示投影图片的格式类型。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:framerate"value/>”的描述表示分区的帧速率(全帧速率)。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:tilepartitionflag"value="1"/>”的描述指示是否通过方块方法划分图片。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:tilebaseflag"value="0"/>”的描述指示该容器是除了基于方块的容器以外的容器。“<SupplementaryDescriptorschemeIdUri="urn:brdcst:video:partitionid"value="1"/>”的描述指示分区ID为“1”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:wholepicturesizehorizontal"value/>”的描述指示整个图片的水平像素数。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:wholepicturesizevertical"value/>”的描述指示整个图片的垂直像素数。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitionstartpositionhorizontal"value/>”的描述指示分区的水平起始像素位置。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitionendpositionhorizontal"value/>”“的描述指示分区的水平结束像素位置。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitiontartpositionvertical"value/>”的描述指示分区的垂直起始像素位置。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitionendpositionvertical"value/>”的描述指示分区的垂直结束像素位置。
此外,在适配集中,存在对应于视频流的表示(Representation)。在这种表示中,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:renderingmetadata"value="1"/>”的描述指示渲染元数据(Rendering_metadata)的存在。
此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:projectiontype"value="0"/>”的描述指示投影图片的格式类型是等矩形(Equirectangular)。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:backwardcompatible"value="1"/>”的描述指示已经设置了向后兼容性,即,由切取位置信息指示并插入到视频流层中的切取位置的中心O(p,q)已经被设置为与投影图片的参考点RP(x,y)重合。
此外,在表示中,“width=“”height=“”frameRate=“””、“codecs=“hev1.xx.xx.Lxxx,xx””以及“level=“0””的描述表示分辨率、帧速率和编解码器类型,并且进一步提供级别“0”作为标签信息。此外,“<BaseURL>videostreamVR.mp4</BaseURL>”的描述指示MP4流的位置为“videostreamVR.mp4”。
图27示意性地示出了在使用将每个分区用作方块的方块功能来执行编码的情况下的MP4流(轨道)。在这种情况下,存在一个基于方块的MP4流(基于方块的容器)和四个分区的MP4流(方块容器)。类似地,在每个MP4流中,类似地,每个随机访问周期具有以下配置:以初始化片段(IS)开始,其后是“styp框”、“sidx框(片段索引框)”、“ssix框(子片段索引框)”、“moof框(电影片段框)”和“mdat框(媒体数据框)”。
初始化片段(IS)具有基于ISO基本媒体文件格式(ISOBMFF)的框(Box)结构。分区描述符(见图23)插入到该初始化片段(IS)。此外,渲染元数据(Rendering_metadata)(见图9)插入到初始化片段(IS)中。在基于方块的MP4流(基于方块的容器)中,分区描述符具有“方块基础标志=1”。此外,在第一至第四分区的MP4流(方块容器)中,“分区ID”是1至4。
“styp”框包括片段类型信息。“sidx”框包括每个轨道(轨道)的范围信息,指示“moof”/“mdat”的位置,还指示“mdat”中每个样本(图片)的位置。“ssix”框包括轨道的分类信息,并进行I/P/B类型的分类。
“moof”框包括控制信息。在基于方块的MP4流(基于方块的容器)的“mdat”框中,设置了“VPS”、“SPS”、“PPS”、“PSEI”和“SSEI”的NAL单元。切取位置的信息“Conformance_window”插入到“SPS”中。此外,插入具有渲染元数据(Rendering_metadata)(见图9)的SEI消息,作为“SSEI”的NAL单元。同时,在每个分区的MP4流(方块容器)的“mdat”框中,设置具有每个分区的编码图像数据的“切片(SLICE)”的NAL单元。
图28示意性地示出了在单独编码每个分区的情况下的MP4流(轨道)。在这种情况下,存在四个分区的MP4流。类似地,在每个MP4流中,每个随机访问周期具有这样的配置:以初始化片段(IS)开始,其后是“styp”框、“sidx(片段索引框)”框、“ssix(子片段索引框)”框、“moof(电影片段框)”框和“mdat(媒体数据框)”框。
初始化片段(IS)具有基于ISO基本媒体文件格式(ISOBMFF)的框(Box)结构。分区描述符(见图23)插入到该初始化片段(IS)。此外,渲染元数据(Rendering_metadata)(见图9)插入到初始化片段(IS)中。在第一至第四分区的MP4流中,“分区ID”是1至4。
“styp”框包括片段类型信息。“sidx”框包括每个轨道(轨道)的范围信息,指示“moof”/“mdat”的位置,还指示“mdat”中每个样本(图片)的位置。“ssix”框包括轨道的分类信息,并进行I/P/B类型的分类。
“moof”框包括控制信息。在每个分区的MP4流的“mdat”框中,设置“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”的NAL单元。切取位置“Conformance_window”的信息插入到“SPS”中。此外,插入具有渲染元数据(Rendering_metadata)(见图9)的SEI消息,作为“SSEI”的NAL单元。
返回图4,服务接收机200包括容器解码器203、视频解码器204、渲染器205和发送请求单元206。发送请求单元206请求服务发送系统100发送投影图片的分区中对应于显示区域的预定数量的分区的MP4流。
在这种情况下,在发送请求单元206中,基于解码能力以及投影图片的每个分区的编码流中的像素数和帧速率的信息,预定数量的值是可解码的最大值或与其接近的值。在此处,可以从预先从服务发送系统100接收的MPD文件(见图25和图26)中获取每个分区的编码流中的像素数和帧速率的信息。
“最大值的计算示例”
图29示出了将8K/60Hz等级的投影图片除以1920×1080(全HD)分区大小的示例。在这种情况下,分区的面内像素数量是1920*1080=2073600,像素速率是1920*1080*60=124416000。在这种情况下,解码分区所需的复杂度等级值是“等级4.1”。
例如,在服务接收机200具有用于4K/60Hz解码的“5.1级”解码器的情况下,平面中亮度像素的最大数量是8912896,像素速率(每秒可处理像素的最大数量)是534773760。因此,在这种情况下,534773760/124416000=4.29,...,最大值计算为4。在这种情况下,服务接收机200可以解码多达四个分区。由箭头P指示的四个分区指示对应于在这种情况下选择的显示区域的分区的示例。
此外,例如,在服务接收机200具有用于4K/120Hz解码的“5.2级”解码器的情况下,平面中亮度像素的最大数量是8912896,并且像素速率(每秒可处理像素的最大数量)是1069547520。因此,在这种情况下,1069547520/124416000=8.59,...,最大值计算为8。在这种情况下,服务接收机200可以解码多达八个分区。由箭头Q指示的八个分区指示对应于在这种情况下选择的显示区域的分区的示例。
返回图4,容器解码器203从对应于从服务发送系统100发送的显示区域的预定数量的分区的MP4流中提取每个分区的编码流,并将提取的编码流发送到视频解码器204。注意,在通过方块方法执行划分的情况下,从服务发送系统100不仅发送对应于显示区域的预定数量的分区的MP4流,而且还发送基于方块的MP4流。因此,容器解码器203还将包括基于方块的MP4流中包括的参数集信息等的编码流发送到视频解码器204。
视频解码器204将解码处理应用于对应于显示区域的预定数量的分区的编码流,以获得对应于显示区域的预定数量的分区的图像数据。渲染器205对如上所述获得的预定数量的分区的图像数据应用渲染处理,以获得对应于显示区域的渲染图像(图像数据)。
在这种情况下,当用户从根据用户的属性或合同内容确定的组中选择预定的视点网格时,渲染器205获得具有视点网格作为中心位置的显示图像数据。用户可以识别整个图像的范围m1中的当前显示范围,并且还可以基于叠加在主图像上的UI图像(参见图16、图18和图20)来识别用户可以进一步选择的视点网格。用户可以选择任意视点网格,并基于该识别来切换显示图像。
注意,在选择任意视点网格并切换显示图像之后,用户可以使显示图像的中心位置从视点网格的位置移动。例如,用户可以如下选择视点网格并移动显示图像的中心位置。
图30示出了使用HMD作为显示装置的情况的示例。在这种情况下,如图30的(b)所示,当佩戴HMD的用户以P1→P2→P3的方式从左向右转动头部时,HMD观察到的显示区域以P1'→P2'→P3'的方式移动,如图30的(a)所示。在这种情况下,例如,在用户突然转动头部的情况下,即,在加速度大的情况下,选择在旋转方向位于下一个的视点网格,并且显示图像间歇地改变。同时,在用户缓慢转动头部的情况下,即,在加速度小的情况下,显示区域以滚动方式连续变化。在这种情况下,可以想到使用UI显示来向用户通知显示区域与视点网格的位置匹配,即显示区域与视点网格同步。在所示的示例中,例如,显示区域与P3’方向上的视点网格位置匹配并同步,并且显示表示同步的感叹号“!”。
此外,图31示出了使用显示面板(例如,电视)作为显示装置的情况的示例。在这种情况下,如图31的(b)所示,当诸如P1→P2→P3来改变语音指令时,在显示面板上显示的显示区域以P1'→P2'→P3'的方式移动,如图31的(a)所示。在这种情况下,显示区域以滚动方式连续变化。通过诸如“左侧视点”或“右侧视点”的语音指令,选择指令方向上的视点网格,并且显示图像间歇地改变。在这种情况下,可以想到使用UI显示来向用户通知显示区域与视点网格的位置匹配,即显示区域与视点网格同步。在所示的示例中,例如,显示区域与P3’方向上的视点网格的位置匹配并同步,并且显示表示同步的感叹号“!”。
在预测显示区域超出解码范围的情况下,发送请求单元206确定对应于显示区域的预定数量的分区的MP4流的集合的切换,以获得包括显示区域的解码范围,并请求服务发送系统100发送新的集合(分发流集)。
图32示出了切换与显示区域的移动相关联的分发流集的示例。在该示例中,发送(分发)对应于显示区域的四个分区的MP4流。当显示区域处于图32的(a)所示的位置时,对应于显示区域的分区是位于(H0、V1)、(H1、V1)、(H0、V2)和(H1、V2)的四个分区,并且以例如(1)→(2)→(5)→(6)的顺序发送这些分区的MP4流。
在这种情况下,在服务接收机200中,从这些分区的MP4流中提取编码流,并由视频解码器204解码。即,这种情况下的解码范围是(H0、V1)、(H1、V1)、(H0、V2)和(H1、V2)位置处的分区。
接下来,当显示区域移动到图32的(b)所示的位置时,对应于显示区域的分区是位于(H1、V1)、(H2、V1)、(H1、V2)和(H2、V2)的四个分区。因此,执行分配流集的切换,并且以例如(2)→(3)→(6)→(7)的顺序发送这些分区的MP4流。
在这种情况下,在服务接收机200中,从这些分区的MP4流中提取编码流,并由视频解码器204解码。即,这种情况下的解码范围是在(H1、V1)、(H2、V1)、(H1、V2)和(H2、V2)的位置处的分区。
接下来,当显示区域移动到图32的(c)所示的位置时,对应于显示区域的分区是位于(H2、V1)、(H3、V1)、(H2、V2)和(H3、V2)的四个分区。因此,执行分配流集的切换,并且以例如(3)→(4)→(7)→(8)的顺序发送这些分区的MP4流。
在这种情况下,在服务接收机200中,从这些分区的MP4流中提取编码流,并由视频解码器204解码。即,这种情况下的解码范围是在(H2、V1)、(H3、V1)、(H2、V2)和(H3、V2)的位置处的分区。
图33示出了切换与显示区域的移动相关联的分发流集的另一示例。在该示例中,发送(分发)对应于显示区域的六个分区的MP4流。当显示区域位于图33的(a)中左侧所示的位置时,对应于显示区域的分区是位于(H0、V1)、(H1、V1)、(H2、V1)、(H0、V2)、(H1、V2)和(H2、V2)的六个分区,并且以例如(1)→(2)→(3)→(5)→(6)→(7)的顺序发送这些分区的MP4流。
在这种情况下,在服务接收机200中,从这些分区的MP4流中提取编码流,并由视频解码器204解码。即,这种情况下的解码范围是在(H0、V1)、(H1、V1)、(H2、V1)、(H0、V2)、(H1、V2)和(H2、V2)位置处的分区。
接下来,当显示区域移动到图33的(a)中右侧所示的位置时,将对应于显示区域的分区保持为位于(H0、V1)、(H1、V1)、(H2、V1)、(H0、V2)、(H1、V2)和(H2、V2)的六个分区。因此,不切换分配流集,并且以例如(1)→(2)→(3)→(5)→(6)→(7)的顺序发送这些分区的MP4流。
在这种情况下,在服务接收机200中,从这些分区的MP4流中提取编码流,并由视频解码器204解码。即,这种情况下的解码范围是在(H1、V1)、(H2、V1)、(H1、V2)和(H2、V2)的位置处的分区。
接下来,当显示区域移动到图33的(b)所示的位置时,对应于显示区域的分区是位于(H1、V1)、(H2、V1)、(H3、V1)、(H1、V2)、(H2、V2)和(H3、V2)的六个分区。因此,执行分配流集的切换,并且以例如(2)→(3)→(4)→(6)→(7)→(8)的顺序发送这些分区的MP4流。
在这种情况下,在服务接收机200中,从这些分区的MP4流中提取编码流,并由视频解码器204解码。即,这种情况下的解码范围是在(H1、V1)、(H2、V1)、(H3、V1)、(H1、V2)、(H2、V2)和(H3、V2)的位置处的分区。
从图32和图33所示的示例中可以清楚地看出,随着对应于显示区域的分区的数量变得越来越大,由于显示区域的变化而切换分发流集的频率降低。当切换分发流集时,发出发送请求,并且需要接收新集合的MP4流的发送,出现从解码处理完成到显示开始的时间延迟,并且VR再现中的显示性能恶化。
在本实施方式中,对应于显示区域的分区的数量被服务接收机200设置为可解码的最大值或与其接近的值。因此,可以减少与显示区域的移动相关联的分发流集的切换频率,并且可以提高VR再现的显示性能。
“服务发送系统的配置示例”
图34示出了服务发送系统100的配置示例。服务发送系统100包括控制单元101、用户操作单元101a、360°图像捕获单元102、平面打包单元103、视频编码器104、容器编码器105和包括存储器106的通信单元107。
控制单元101包括中央处理单元(CPU),并基于控制程序控制服务发送系统100的每个单元的操作。用户操作单元101a是用于用户执行各种操作的键盘、鼠标、触摸面板、遥控器等。
360°图像捕获单元102使用预定数量的相机对对象成像,以获得球面捕获图像(360°VR图像)的图像数据。例如,360°图像捕获单元102通过背对背(背对背)方法对对象成像,以获得具有180°或更高视角的超宽视角的正面图像和背面图像,这些图像都使用鱼眼透镜进行成像,以作为球面捕获图像(参见图5的(a))。
平面打包单元103切取在360°图像捕获单元102中获得的球面捕获图像的一部分或全部,并对切取的球面捕获图像执行平面打包,以获得矩形投影图片(Projectionpicture)(参见图5的(b))。在这种情况下,作为投影图片的格式类型,例如,选择等矩形(Equirectangular)、十字立方体(Cross-cubic)等。注意,平面打包单元根据需要对投影图片进行缩放,以获得具有预定分辨率的投影图片(参见图5的(c))。
视频编码器104例如对来自平面打包单元103的投影图片的图像数据应用诸如MPEG4-AVC或HEVC的编码,以获得编码图像数据,并生成包括编码图像数据的编码流。在这种情况下,视频编码器104将投影图片分成多个分区(划分区域),以获得对应于这些分区的编码流。切取位置信息插入到编码流的SPS NAL单元中(参见图6中的“conformance_window”信息)。
在此处,例如,视频编码器104单独编码每个分区,共同编码整个投影图片,或者使用将每个分区用作方块的方块功能来执行编码,以便获得对应于投影图片的每个分区的编码流。因此,接收侧可以独立地解码对应于每个分区的编码流。
此外,视频编码器104将具有渲染元数据(渲染元信息)的SEI消息(SEI消息)插入接入单元(AU)的“SEI”部分。在渲染元信息中,插入了在对球面捕获图像执行平面打包的情况下的切取范围的信息、相对于投影图片的原始尺寸的缩放比例的信息、投影图片的格式类型的信息、指示是否已经设置了用于使切取位置处的中心O(p,q)与投影图片的参考点RP(x,y)重合的向后兼容性的信息等(参见图9)。
此外,渲染元信息包括预定数量的分组视点网格的信息(参见图12)。视点网格的信息包括方位角信息(方位角信息)和仰角信息(仰角信息)。
容器编码器105生成包括在视频编码器104中生成的编码流的容器,此处是MP4流,作为分发流。在这种情况下,生成多个MP4流,每个MP4流包括对应于每个分区的编码流(参见图27和图28)。在这种情况下,容器编码器105将渲染元数据(参见图9)插入到容器的层中。
在此处,在使用将每个分区用作方块的方块功能来执行编码的情况下,除了均包括对应于每个分区的编码流的多个MP4流之外,容器编码器105生成包括参数集(例如,包括子层信息等的SPS)的基础(基础)的MP4(基础容器)(见图27)。
此外,容器编码器105将分区描述符(见图23)插入到容器的层中,具体地,插入到MP4的初始化片段(IS)中。分区描述符包括诸如分区的像素数和帧速率之类的信息。
通信单元107中包括的存储器106累积由容器编码器105生成的分区的MP4流。注意,在通过方块方法划分分区的情况下,存储器106还累积基于方块的MP4流。此外,存储器106累积例如在容器解码器105中生成的MPD文件(参见图25和图26)。
通信单元107从服务接收机200接收分发请求,并响应于该请求向服务接收机200发送MPD文件。服务接收机200根据MPD文件识别分发流的配置。
此外,通信单元107从服务接收机200接收与对应于显示区域的预定数量的分区对应的MP4流的分发请求(发送请求),并且将MP4流发送到服务接收机200。例如,由来自服务接收机200的分发请求中的分区ID指定所需的分区。
“服务接收机的配置示例”
图35示出了服务接收机200的配置示例。服务接收机200包括控制单元201、UI单元201a、传感器单元201b、通信单元202、容器解码器203、视频解码器204、渲染器205和显示单元207。
控制单元201包括中央处理单元(CPU),并基于控制程序控制服务接收机200的每个单元的操作。UI单元201a用于执行用户接口,并且包括例如用于用户操作显示区域的移动的指示装置、用于用户输入语音以指示显示区域的移动的麦克风等。传感器单元201b包括用于获取用户状态和环境信息的各种传感器,并且包括例如安装在头戴式显示器(HMD)上的姿势检测传感器等。
在控制单元201的控制下,通信单元202向服务发送系统100发送分发请求,并响应于该请求从服务发送系统100接收MPD文件(参见图25和图26)。通信单元202向控制单元201发送MPD文件。由此,控制单元201识别分发流的配置。
此外,在控制单元201的控制下,通信单元202将对应于与显示区域对应的预定数量的分区的MP4流的分发请求(发送请求)发送到服务发送系统100,并且响应于该请求从服务发送系统100接收对应于预定数量的分区的MP4流。
在此处,控制单元101基于由安装在HMD等上的陀螺仪传感器获得的移动的方向和量的信息,或者基于用户操作的指示信息或者用户的语音UI信息,获得显示区域的移动的方向和速度,并且进一步获得视点网格的切换的信息,并且选择对应于显示区域的预定数量的分区。在这种情况下,控制单元101基于解码能力以及从MPD文件识别的每个分区的编码流中的像素数和帧速率的信息,将预定数量的值设置为可解码的最大值或与其接近的值。图4所示的发送请求单元206由控制单元101配置。
此外,控制单元201具有用户识别功能。控制单元201基于用户属性(年龄、性别、兴趣、熟练程度、登录信息等)或合同内容来识别什么类型的用户,并确定用户可用的一组视点网格。然后,控制单元201设置渲染器205,以使用用户可用的一组视点网格。
注意,所示的示例仅包括渲染器205和显示单元207的一个系统。然而,例如,在游戏机等的情况下,可以想到具有渲染器205和显示单元207的多个系统,以使得多个用户能够彼此独立地看到显示图像。在这种情况下,对多个用户执行类似于以上描述的用户识别,并且可以执行控制,以使得各个用户能够使用各个系统的渲染器205和一组视点网格。
容器解码器203基于“moof”框等的信息从由通信单元202接收的对应于显示区域的预定数量的分区的MP4流中提取每个分区的编码流,并将编码流发送到视频解码器204。注意,在使用方块方法执行划分的情况下,通信单元202不仅接收对应于显示区域的预定数量的分区的MP4流,还接收基于方块的MP4流。因此,容器解码器203还向视频解码器204发送包括基于方块的MP4流等中包括的参数集信息的编码流。
此外,容器解码器203提取插入到每个MP4流的初始化片段(IS)中的分区描述符(见图23),并将分区描述符发送到控制单元201。控制单元201从描述符获取每个分区中的像素数和帧速率的信息。此外,容器解码器203从每个MP4流中提取“moov”框等的信息,并将该信息发送到控制单元201。存在渲染元数据(见图9),作为“moov”框的信息之一,并且控制单元201获取分组视点网格等的信息。
视频解码器204将解码处理应用于从容器解码器203提供的对应于显示区域的预定数量的分区的编码流,以获得图像数据。此外,视频解码器204提取由容器解码器203提取的视频流中插入的参数集和SEI消息,并将提取的信息发送到控制单元201。提取的信息包括插入到SPS NAL封包中的切取位置“conformance_window”的信息以及进一步包括包含渲染元数据的SEI消息(见图9)。
渲染器205将渲染处理应用于在视频解码器204中获得的预定数量的分区的图像数据,以获得对应于显示区域的渲染图像(图像数据)。在这种情况下,当用户从根据用户的属性或合同内容确定的组中选择预定的视点网格时,渲染器205获得具有视点网格作为中心位置的显示图像数据。
用户可以识别整个图像的范围m1中的当前显示范围,并且还可以基于叠加在主图像上的UI图像(参见图16、图18和图20)来识别用户可以进一步选择的视点网格。用户可以选择任意视点网格,并基于该识别来切换显示图像(参见图30和图31)。显示单元207显示由渲染器205获得的渲染图像(图像数据)。显示单元207包括例如头戴式显示器(HMD)、显示面板等。如上所述,还从控制单元201向显示单元207提供网格位置同步通知信息,以便使用标记显示等(见图30和图31)向用户通知显示区域与视点网格的位置同步。注意,可以通过声音来执行向用户的通知。
如上所述,图3所示的发送/接收系统10中的服务发送系统100发送通过对宽视角图像的图像数据进行编码并渲染包括预定数量的分组视点网格的信息的元信息而获得的编码流。因此,服务接收机200可以基于渲染元信息处理通过对编码流进行解码而获得的宽视角图像的图像数据,以获得显示图像数据,并且可以按照用途或用户在接收机之间一致地显示宽视角图像中的某个部分图像。
<2.修改>
“应用于MPEG-2TS和MMT”
注意,在上述实施方式中,已经描述了容器是MP4(ISOBMFF)的示例。然而,在本技术中,容器不限于MP4,并且本技术可以类似地应用于其他格式的容器,例如,MPEG-2TS和MMT。
例如,在MPEG-2TS的情况下,图4所示的服务发送系统100的容器编码器105生成包括投影图片的每个分区的编码流的发送流(Transport Stream)。
图36示出了视频编码是方块兼容的情况下的发送流的配置示例。在该配置示例中,存在用PID0标识的基于方块的编码流的PES封包“视频PES0”。在PES封包“视频PES0”的有效载荷中,设置了设置“AUD”、“VPS”、“SPS”、“PPS”、“PSEI”和“SSEI”的NAL单元。切取位置“Conformance_window”的信息插入到“SPS”中。此外,在“SSEI”中插入了具有渲染元数据的SEI消息(见图9)。
此外,存在用PID1至PID4标识的第一至第四分区(方块)的编码流的PES封包“视频PES1”至“视频PES4”。在这些PES封包的有效载荷中,设置了“AUD”和“切片(SLICE)”的NAL单元。
此外,对应于PES封包“视频PES0”到“视频PES4”的视频基本流循环(视频ES循环)存在于PMT中。在每个循环中,诸如流类型和封包标识符(PID)之类的信息对应于编码流来设置,并且描述关于编码流的信息的描述符也对应于编码流来设置。该流类型设置为“0x24”,表示视频流。此外,插入包括分区描述符(见图23)和渲染元数据(见图9)的渲染元数据描述符,作为一个描述符。
注意,在视频编码是对每个分区的独立流进行编码的情况下的发送流的配置示例没有示出,但是类似的配置。在这种情况下,没有对应于基于方块的编码流的PES封包“视频PES0”的部分,并且在第一至第四分区的编码流的PES封包“视频PES1”至“视频PES4”的有效载荷中设置了“AUD”、“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”的NAL单元。
此外,例如,在MMT的情况下,图4所示的服务发送系统100的容器编码器104生成包括视频流的MMT流(MMT流)。
图37示出了在视频编码是方块兼容的情况下的MMT流的配置示例。在该配置示例中,存在由ID0标识的基于方块的编码流的MPU封包“视频MPU0”。在MPU封包“视频MPU0”的有效载荷中,设置了“AUD”、“VPS”、“SPS”、“PPS”、“PSEI”和“SSEI”的NAL单元。切取位置“Conformance_window”的信息插入到“SPS”中。此外,在“SSEI”中插入了具有渲染元数据的SEI消息(见图9)。
此外,存在由ID1至ID4标识的第一至第四分区(方块)的编码流的MPU封包“视频MPU1”至“视频MPU4”。在这些MPU封包的有效载荷中,设置了“AUD”和“SLICE”的NAL单元。
此外,在MPT存在对应于MPU封包“视频MPU0”到“视频MPU4”的视频资产循环(videoasset loop)。在每个循环中,诸如资产类型和资产标识符(ID)之类的信息对应于编码流来设置,并且描述关于编码流的信息的描述符也对应于编码流来设置。该资产类型设置为“0x24”,表示视频流。此外,插入包括分区描述符(见图23)和渲染元数据(见图9)的渲染元数据描述符,作为一个描述符。
注意,在视频编码是对每个分区的独立流进行编码的情况下的MMT流的配置示例没有示出,但是类似的配置。在这种情况下,没有对应于基于方块的编码流的MPU封包“视频MPU0”的部分,并且在MPU封包“视频MPU1”至“视频MPU4”的有效载荷中设置了“AUD”、“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”的NAL单元。
此外,在上述实施方式中,已经描述了在视频编码是方块兼容的情况下方块流具有多流配置的示例。然而,也可以想到方块流具有单流配置。
图38示出了在方块流具有单流配置的情况下的MPD文件的描述示例。在MPD文件中,存在对应于与方块流对应的MP4流(轨道)的适配集(AdaptationSet)。
在适配集中,“<AdaptationSet mimeType=“video/mp4”codecs=“hev1.xx.xx.Lxxx,xx,hev1.yy.yy.Lxxx,yy”>”的描述指示视频流的适配集(AdaptationSet)的存在、作为MP4文件结构提供视频流以及HEVC编码视频流(编码图像数据)的存在。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:format_type"value/>”的描述表示投影图片的格式类型。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:framerate"value/>”的描述表示图片的帧速率(全帧速率)。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:tilepartitionflag"value="1"/>”的描述表示是否通过方块方法划分图片。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:tilebaseflag"value="0"/>”的描述表示该容器是除了基于方块的容器以外的容器。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:wholepicturesizehorizontal"value/>”的描述表示整个图片的水平像素数。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:wholepicturesizevertical"value/>”的描述表示整个图片的垂直像素数。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitionid"value/>”的描述表示分区ID。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitionstartpositionhorizontal"value/>”的描述表示分区的水平起始像素位置。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitionendpositionhorizontal"value/>”的描述表示分区的水平结束像素位置。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitiontartpositionvertical"value/>”的描述表示分区的垂直起始像素位置。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:partitionendpositionvertical"value/>”的描述表示分区的垂直结束像素位置。此外,上面从分区ID到子层的帧速率的描述通过方块编码中的分区数量来重复。
此外,在适配集中,存在对应于视频流的表示(Representation)。在这种表示中,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:renderingmetadata"value="1"/>”的描述表示渲染元数据(Rendering_metadata)的存在。
此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:projectiontype"value="0"/>”的描述表示投影图片的格式类型是等矩形(Equirectangular)。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:backwardcompatible"value="1"/>”的描述表示已经设置了向后兼容性,即,由切取位置信息指示并插入到视频流层中的切取位置的中心O(p,q)已经被设置为与投影图片的参考点RP(x,y)重合。
此外,在表示中,“width=“”height=“”frameRate=“””、“codecs=“hev1.xx.xx.Lxxx,xx””以及“level=“0””的描述表示分辨率、帧速率和编解码器类型,并且进一步提供级别“0”,作为标签信息。此外,“<BaseURL>videostreamVR.mp4</BaseURL>”的描述指示MP4流的位置为“videostreamVR.mp4”。
图39示意性地示出了在方块流具有单流配置的情况下的MP4流(轨道)。在这种情况下,存在对应于方块流的一个MP4流。在MP4流中,类似地,每个随机访问周期具有这样的配置:以初始化片段(IS)开始,其后是“styp”、“sidx(片段索引框)”、“ssix(子片段索引框)”、“moof(电影片段框)”和“mdat(媒体数据框)”框。
初始化片段(IS)具有基于ISO基本媒体文件格式(ISOBMFF)的框(Box)结构。在初始化片段(IS)中插入分区描述符(见图23)和渲染元数据(见图9)。注意,在这种情况下,分区描述符包括方块编码中所有分区(方块)的信息。在“mdat”框中,设置了“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”的NAL单元。切取位置“Conformance_window”的信息插入到“SPS”中。此外,插入具有渲染元数据(Rendering_metadata)(见图9)的SEI消息,作为“SSEI”的NAL单元。
图40示出了在方块流具有单流配置的情况下的发送流的配置示例。在该配置示例中,存在用PID1标识的方块流的PES封包“视频PES1”。在PES封包(“视频PES1”)的有效载荷中,设置了“AUD”、“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”的NAL单元。切取位置“Conformance_window”的信息插入到“SPS”中。此外,在“SSEI”中插入了具有渲染元数据的SEI消息(见图9)。
此外,在PMT中存在对应于PES封包“视频PES1”的视频基本流循环(视频ES1循环)。在该循环中,诸如流类型和封包标识符(PID)之类的信息对应于方块流设置,并且描述关于方块流的信息的描述符也对应于方块流设置。该流类型设置为“0x24”,表示视频流。此外,插入包括分区描述符(见图23)和渲染元数据(见图9)的渲染元数据描述符,作为一个描述符。注意,在这种情况下,分区描述符包括方块编码中所有分区(方块)的信息。
图41示出了在方块流具有单流配置的情况下的MMT流的配置示例。在该配置示例中,存在用ID1标识的方块流的MPU封包“视频MPU1”。在MPU封包“视频MPU1”的有效载荷中,设置了“AUD”、“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”的NAL单元。切取位置“Conformance_window”的信息插入到“SPS”中。此外,在“SSEI”中插入了具有渲染元数据的SEI消息(见图9)。
此外,在MPT中存在对应于MPU封包“视频MPU1”的视频资产循环(视频资产1循环)。在该循环中,诸如资产类型和资产标识符(ID)之类的信息对应于方块流设置,并且描述关于方块流的信息的描述符也对应于方块流设置。该资产类型设置为“0x24”,表示视频流。此外,插入包括分区描述符(见图23)和渲染元数据(见图9)的渲染元数据描述符,作为一个描述符。注意,在这种情况下,分区描述符包括方块编码中所有分区(方块)的信息。
此外,在上述实施方式中,已经描述了在容器是MP4的情况下在包含编码视频的“切片(SLICE)”的轨道中包含分区描述符和渲染元数据的示例(参见图27、图28和图39)。然而,如图42、图43和图44所示,对于包含编码视频的“SLICE”的“轨道1A、2A、3A和4A”,也可以想到在其他“轨道1B、2B、3B和4B”的“mdat”中包含分区描述符和渲染元数据的配置。
利用图42、图43和图44中所示的配置,对于每个样本(Sample),确保了与相关图片的时间同步。在这种情况下,包含每个分区描述符和渲染元数据的轨道在其自己的初始化片段(IS)中通过“tref”指定包含编码视频的轨道的参考目标。
此外,在上述实施方式中,已经描述了包括服务发送系统100和服务接收机200的发送/接收系统10的示例。然而,可以应用本技术的发送/接收系统的配置不限于该示例。例如,还可以想到,服务接收机200的部分是通过数字接口(例如,高清晰度多媒体接口(HDMI))连接的机顶盒或显示器。注意,“HDMI”是注册商标。
此外,本技术还可以具有以下配置。
(1)一种发送装置,包括:
发送单元,其被配置为发送通过对宽视角图像的图像数据进行编码而获得的编码流,并且发送包括以组记录的预定数量的视点的信息的渲染元信息。
(2)根据(1)所述的发送装置,其中,
所述宽视角图像是通过切取球面捕获图像的部分或全部并对切取的球面捕获图像执行平面打包而获得的投影图片。
(3)根据(1)或(2)所述的发送装置,其中,
所述视点的信息包括指示视点位置的方位角和仰角的信息。
(4)根据(1)至(3)中任一项所述的发送装置,其中,
所述发送单元将渲染元信息插入编码流的层和/或包括编码流的容器的层中,并发送渲染元信息。
(5)根据(4)所述的发送装置,其中,
所述发送单元还发送包括关于编码流的元信息的元文件,并且
所述元文件包括指示在编码流的层和/或容器的层中插入渲染元信息的标识信息。
(6)根据(4)所述的发送装置,其中,
所述容器是ISOBMFF,并且
所述发送单元将渲染元信息插入moov框中,并发送渲染元信息。
(7)根据(4)所述的发送装置,其中,
所述容器是ISOBMFF,并且
所述发送单元使用与包括通过对宽视角图像的图像数据进行编码而获得的编码流的轨道不同的轨道,来发送渲染元信息。
(8)根据(4)所述的发送装置,其中,
所述容器是MPEG2-TS,并且
所述发送单元将渲染元信息插入到节目映射表中,并发送渲染元信息。
(9)根据(4)所述的发送装置,其中,
所述容器是MMT流,并且
所述发送单元将渲染元信息插入到MMT封包表中,并发送渲染元信息。
(10)根据(1)至(9)中任一项所述的发送装置,其中,
通过对宽视角图像的图像数据进行编码而获得的编码流是对应于通过划分宽视角图像而获得的每个划分区域的编码流。
(11)根据(10)所述的发送装置,其中,
通过单独编码宽视角图像的每个划分区域,获得每个划分区域的编码流。
(12)根据(10)所述的发送装置,其中,
通过使用将宽视角图像的每个划分区域用作方块的方块功能执行编码,来获得每个划分区域的编码流。
(13)根据(10)至(12)中任一项所述的发送装置,其中,
所述视点的信息包括视点所在的划分区域的信息。
(14)一种发送方法,包括以下步骤
由发送单元发送通过对宽视角图像的图像数据进行编码而获得的编码流,并发送以组记录的预定数量的视点的信息。
(15)一种接收装置,包括:
接收单元,其被配置为接收通过对宽视角图像的图像数据进行编码而获得的编码流,并接收以组记录的预定数量的视点的信息;以及
处理单元,其被配置为基于视点信息处理通过对编码流进行解码而获得的宽视角图像的图像数据,以获得显示图像数据。
(16)根据(15)所述的接收装置,其中,
所述处理单元使用根据用户的属性或合同内容确定的组的视点的信息。
(17)根据(16)所述的接收装置,其中,
所述处理单元获得显示图像数据,所述显示图像数据具有由用户操作选择的视点的信息指示的位置作为中心位置。
(18)根据(15)至(17)中任一项所述的接收装置,其中,
所述接收单元接收对应于通过划分宽视角图像而获得的每个划分区域的编码流,作为通过对宽视角图像的图像数据进行编码而获得的编码流,并且
所述处理单元对对应于每个划分区域的编码流中用于获得显示图像数据的预定数量的划分区域的编码流进行解码。
(19)根据(18)所述的接收装置,其中,
所述接收单元请求分发服务器发送预定数量的划分区域的编码流,并从分发服务器接收预定数量的划分区域的编码流。
(20)一种接收方法,包括:
接收步骤,由接收单元接收通过对宽视角图像的图像数据进行编码而获得的编码流,并接收包括以组记录的预定数量的视点的信息的渲染元信息;以及
处理步骤,由处理单元基于渲染元信息处理通过对编码流进行解码而获得的宽视角图像的图像数据,以获得显示图像数据。
本技术的主要特征是发送通过对宽视角图像的图像数据进行编码并渲染包括预定数量的成组视点网格的信息的元信息而获得的编码流,从而按照用途或用户在接收机之间一致地显示宽视角图像中的某个部分图像(参见图12和图15至图20)。
附图标记列表
10 发送/接收系统
100 服务发送系统
101 控制单元
101a 用户操作单元
102 360°图像捕获单元
103 平面打包单元
104 视频编码器
105 容器编码器
106 存储器
107 通信单元
200 服务接收机
201 控制单元
201a UI单元
201b 传感器单元
202 通信单元
203 容器解码器
204 视频解码器
205 渲染器
206 发送请求单元
207 显示单元

Claims (20)

1.一种发送装置,包括:
发送单元,被配置为发送通过对宽视角图像的图像数据进行编码而获得的编码流,并且发送包括以组记录的预定数量的视点的信息的渲染元信息。
2.根据权利要求1所述的发送装置,其中,
所述宽视角图像是通过切取球面捕获图像的部分或全部并对切取的球面捕获图像执行平面打包而获得的投影图片。
3.根据权利要求1所述的发送装置,其中,
所述视点的信息包括指示所述视点的位置的方位角和仰角的信息。
4.根据权利要求1所述的发送装置,其中,
所述发送单元将所述渲染元信息插入所述编码流的层和/或包括所述编码流的容器的层中,并发送所述渲染元信息。
5.根据权利要求4所述的发送装置,其中,
所述发送单元还发送包括关于所述编码流的元信息的元文件,并且
所述元文件包括指示在所述编码流的层和/或所述容器的层中插入了所述渲染元信息的标识信息。
6.根据权利要求4所述的发送装置,其中,
所述容器是ISOBMFF,并且
所述发送单元将所述渲染元信息插入moov框中,并发送所述渲染元信息。
7.根据权利要求4所述的发送装置,其中,
所述容器是ISOBMFF,并且
所述发送单元使用与包括通过对所述宽视角图像的图像数据进行编码而获得的所述编码流的轨道不同的轨道,来发送所述渲染元信息。
8.根据权利要求4所述的发送装置,其中,
所述容器是MPEG2-TS,并且
所述发送单元将所述渲染元信息插入到节目映射表中,并发送所述渲染元信息。
9.根据权利要求4所述的发送装置,其中,
所述容器是MMT流,并且
所述发送单元将所述渲染元信息插入到MMT封包表中,并发送所述渲染元信息。
10.根据权利要求1所述的发送装置,其中,
通过对所述宽视角图像的图像数据进行编码而获得的所述编码流是对应于通过划分所述宽视角图像而获得的每个划分区域的编码流。
11.根据权利要求10所述的发送装置,其中,
通过单独编码所述宽视角图像的每个划分区域,获得每个划分区域的编码流。
12.根据权利要求10所述的发送装置,其中,
通过使用将所述宽视角图像的每个划分区域用作方块的方块功能执行编码,来获得每个划分区域的编码流。
13.根据权利要求10所述的发送装置,其中,
所述视点的信息包括所述视点所在的划分区域的信息。
14.一种发送方法,包括以下步骤:
由发送单元发送通过对宽视角图像的图像数据进行编码而获得的编码流,并发送以组记录的预定数量的视点的信息。
15.一种接收装置,包括:
接收单元,被配置为接收通过对宽视角图像的图像数据进行编码而获得的编码流,并接收以组记录的预定数量的视点的信息;以及
处理单元,被配置为基于所述视点的信息处理通过对所述编码流进行解码而获得的所述宽视角图像的所述图像数据,以获得显示图像数据。
16.根据权利要求15所述的接收装置,其中,
所述处理单元使用根据用户的属性或合同内容确定的组的视点的信息。
17.根据权利要求16所述的接收装置,其中,
所述处理单元获得所述显示图像数据,所述显示图像数据具有由用户操作选择的视点的信息指示的位置作为中心位置。
18.根据权利要求15所述的接收装置,其中,
所述接收单元接收对应于通过划分所述宽视角图像而获得的每个划分区域的编码流,作为通过对所述宽视角图像的图像数据进行编码而获得的所述编码流,并且
所述处理单元对与每个划分区域对应的编码流中的用于获得所述显示图像数据的预定数量的划分区域的编码流进行解码。
19.根据权利要求18所述的接收装置,其中,
所述接收单元请求分发服务器发送预定数量的划分区域的编码流,并从所述分发服务器接收所述预定数量的划分区域的编码流。
20.一种接收方法,包括:
接收步骤,由接收单元接收通过对宽视角图像的图像数据进行编码而获得的编码流,并接收包括以组记录的预定数量的视点的信息的渲染元信息;以及
处理步骤,由处理单元基于所述渲染元信息处理通过对所述编码流进行解码而获得的所述宽视角图像的所述图像数据,以获得显示图像数据。
CN201980007260.2A 2018-01-12 2019-01-10 发送装置、发送方法、接收装置和接收方法 Withdrawn CN111557096A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018003860 2018-01-12
JP2018-003860 2018-01-12
PCT/JP2019/000591 WO2019139099A1 (ja) 2018-01-12 2019-01-10 送信装置、送信方法、受信装置および受信方法

Publications (1)

Publication Number Publication Date
CN111557096A true CN111557096A (zh) 2020-08-18

Family

ID=67219567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980007260.2A Withdrawn CN111557096A (zh) 2018-01-12 2019-01-10 发送装置、发送方法、接收装置和接收方法

Country Status (5)

Country Link
US (1) US20210084346A1 (zh)
EP (1) EP3739889A4 (zh)
JP (1) JPWO2019139099A1 (zh)
CN (1) CN111557096A (zh)
WO (1) WO2019139099A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11736675B2 (en) * 2018-04-05 2023-08-22 Interdigital Madison Patent Holdings, Sas Viewpoint metadata for omnidirectional video
EP3823274A4 (en) * 2018-07-13 2022-03-30 LG Electronics Inc. METHOD AND DEVICE FOR TRANSMITTING AND RECEIVING METADATA ON A DYNAMIC POINT COORDINATE SYSTEM
JPWO2021177044A1 (zh) * 2020-03-04 2021-09-10
EP4162695A4 (en) * 2020-06-09 2023-08-02 Telefonaktiebolaget LM ERICSSON (PUBL) PROVISION OF SEMANTIC INFORMATION WITH ENCODED IMAGE DATA

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192207A (ja) * 2002-12-10 2004-07-08 Sony Corp 表示画像制御処理装置、取得画像制御処理装置、画像制御情報通信システム、および方法、並びにコンピュータ・プログラム
CN105340281A (zh) * 2013-07-05 2016-02-17 索尼公司 发送装置、发送方法、接收装置和接收方法
CN105453580A (zh) * 2013-08-30 2016-03-30 松下电器(美国)知识产权公司 接收方法、发送方法、接收装置及发送装置
CN106031180A (zh) * 2014-02-18 2016-10-12 Lg电子株式会社 收发用于全景服务的广播信号的方法和设备
CN106664443A (zh) * 2014-06-27 2017-05-10 皇家Kpn公司 根据hevc拼贴视频流确定感兴趣区域
WO2017202899A1 (en) * 2016-05-25 2017-11-30 Koninklijke Kpn N.V. Spatially tiled omnidirectional video streaming
CN109218755A (zh) * 2017-07-07 2019-01-15 华为技术有限公司 一种媒体数据的处理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009200939A (ja) 2008-02-22 2009-09-03 Sony Corp 画像処理装置と画像処理方法および画像処理システム
JPWO2019031469A1 (ja) * 2017-08-10 2020-07-09 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US20200294188A1 (en) * 2017-11-30 2020-09-17 Sony Corporation Transmission apparatus, transmission method, reception apparatus, and reception method
CN110035316B (zh) * 2018-01-11 2022-01-14 华为技术有限公司 处理媒体数据的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192207A (ja) * 2002-12-10 2004-07-08 Sony Corp 表示画像制御処理装置、取得画像制御処理装置、画像制御情報通信システム、および方法、並びにコンピュータ・プログラム
CN105340281A (zh) * 2013-07-05 2016-02-17 索尼公司 发送装置、发送方法、接收装置和接收方法
CN105453580A (zh) * 2013-08-30 2016-03-30 松下电器(美国)知识产权公司 接收方法、发送方法、接收装置及发送装置
CN106031180A (zh) * 2014-02-18 2016-10-12 Lg电子株式会社 收发用于全景服务的广播信号的方法和设备
CN106664443A (zh) * 2014-06-27 2017-05-10 皇家Kpn公司 根据hevc拼贴视频流确定感兴趣区域
WO2017202899A1 (en) * 2016-05-25 2017-11-30 Koninklijke Kpn N.V. Spatially tiled omnidirectional video streaming
CN109218755A (zh) * 2017-07-07 2019-01-15 华为技术有限公司 一种媒体数据的处理方法和装置

Also Published As

Publication number Publication date
EP3739889A1 (en) 2020-11-18
EP3739889A4 (en) 2020-11-25
US20210084346A1 (en) 2021-03-18
WO2019139099A1 (ja) 2019-07-18
JPWO2019139099A1 (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
EP3459247B1 (en) Most-interested region in an image
US10565463B2 (en) Advanced signaling of a most-interested region in an image
CN106664443B (zh) 根据hevc拼贴视频流确定感兴趣区域
JP2019024197A (ja) ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト
CN110999308B (zh) 发送装置、发送方法、接收装置和接收方法
CN111557096A (zh) 发送装置、发送方法、接收装置和接收方法
US10567734B2 (en) Processing omnidirectional media with dynamic region-wise packing
WO2019107175A1 (ja) 送信装置、送信方法、受信装置および受信方法
US10992961B2 (en) High-level signaling for fisheye video data
EP4125275A1 (en) A method, an apparatus and a computer program product for video conferencing
KR101898822B1 (ko) 뷰포트 정보 시그널링을 이용한 가상 현실 비디오 스트리밍
CN113574903A (zh) 针对媒体内容中的后期绑定的方法和装置
CN110800306A (zh) 一种沉浸式视频传送方法
CN111684823B (zh) 发送装置、发送方法、处理装置以及处理方法
CN114930869A (zh) 用于视频编码和视频解码的方法、装置和计算机程序产品
CN108271068B (zh) 一种基于流媒体技术的视频数据的处理方法及装置
WO2019181493A1 (ja) 受信装置、受信方法、送信装置および送信方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200818