CN110999308B - 发送装置、发送方法、接收装置和接收方法 - Google Patents

发送装置、发送方法、接收装置和接收方法 Download PDF

Info

Publication number
CN110999308B
CN110999308B CN201880050128.5A CN201880050128A CN110999308B CN 110999308 B CN110999308 B CN 110999308B CN 201880050128 A CN201880050128 A CN 201880050128A CN 110999308 B CN110999308 B CN 110999308B
Authority
CN
China
Prior art keywords
image
rendering
video stream
information
projection image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201880050128.5A
Other languages
English (en)
Other versions
CN110999308A (zh
Inventor
塚越郁夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN110999308A publication Critical patent/CN110999308A/zh
Application granted granted Critical
Publication of CN110999308B publication Critical patent/CN110999308B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/363Image reproducers using image projection screens
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8451Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明能够在VR内容分发期间在VR兼容终端和VR不兼容终端之间获取公共图像。根据本发明,通过切取一部分或全部捕捉的球形图像并执行平面打包来获取矩形投影图像。通过编码投影图像的图像数据来获取视频流。传输包含视频流的容器。投影图像的渲染元信息插入到视频流和/或容器的层中。由插入视频流层的切取位置信息指示的切取位置的中心与由渲染元信息指示的投影图像的参考点重合。

Description

发送装置、发送方法、接收装置和接收方法
技术领域
本技术涉及一种发送装置、一种发送方法、一种接收装置和一种接收方法。更详细地,本技术涉及一种发送装置等,其发送通过从球形捕捉图像中平面打包切取图像而获得的投影图像。
背景技术
最近,已经考虑虚拟现实(VR)内容的分发。例如,专利文献1描述了通过使用背靠背技术执行成像来获得具有180o或更大视角的超宽视角的前面图像和后面图像,并且从这两个图像创建等距柱面图像并将其传输到通信终端。在此处,具有180o或更大视角的超宽视角的前图像和后图像构成球形捕捉图像(360o VR图像),并且等距圆柱方法是一种面内打包方法。
引用列表
专利文献
专利文献1:日本专利申请公开号2016-194784
发明内容
本发明要解决的问题
VR内容分发对VR兼容终端有效。然而,如果不考虑传统VR不兼容终端接收VR内容的情况,则在VR不兼容终端上显示失真的图像。需要确保在显示方面与传统终端向后兼容。
本技术的目的是当分发VR内容时,能够在VR兼容终端和VR不兼容终端之间获得公共图像。
问题的解决方案
当前技术的一个概念是
一种发送装置,包括:
处理单元,其切取一部分或全部球形捕捉图像,并对切取的球形捕捉图像执行面内打包,以获得具有矩形形状的投影图像;
编码单元,其对投影图像的图像数据进行编码,以获得视频流;
发送单元,其发送包括视频流的容器;以及
插入单元,其将用于渲染投影图像的元信息插入到容器和/或视频流的层中,其中,
由插入视频流层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。
在本技术中,切取一部分或全部球形捕捉图像(360o VR图像),并且通过处理单元对切取的球形捕捉图像进一步执行面内打包,从而获得具有矩形形状的投影图像。例如,球形捕捉图像由具有180o或更大视角的超宽视角的前图像和后图像构成。此外,平面内打包的格式类型的示例包括等矩形、交叉立方体等。
投影图像的图像数据由编码单元编码,从而获得视频流。包括该视频流的容器由发送单元发送。例如,所述容器采用国际标准化组织的基本媒体文件格式(ISOBMFF)流、运动图像专家组2-传输流(MPEG2-TS)、运动图像专家组媒体传输(MMT)流等。用于渲染投影图像的元信息由插入单元插入到容器和/或视频流的层中。通过将用于渲染的元信息插入到视频流的层中,无论容器类型如何,用于渲染的元信息都可以动态改变。
由插入视频流层中的切取位置信息指示的切取位置的中心被调整为与由用于渲染的元信息指示的投影图像的参考点重合。例如,投影图像可以由包括默认区域的多个区域组成,该默认区域的位置以参考点为中心,并且可以调整由切取位置信息指示的位置,以与默认区域的位置重合。
例如,用于渲染的元信息可以具有关于参考点的位置信息。此外,例如,用于渲染的元信息可以具有向后兼容性信息,指示由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。此外,例如,发送单元可以进一步发送具有关于视频流的元信息的元文件,并且指示用于渲染的元信息插入到容器和/或视频流的层中这一事实的标识信息可以进一步插入到元文件。
例如,容器可以在ISOBMFF中,并且插入单元可以将用于渲染的元信息插入moov框中。此外,例如,容器可以是MPEG2-TS,并且插入单元可以将用于渲染的元信息插入到节目映射表中。此外,例如,容器可以是MMT流,并且插入单元可以将用于渲染的元信息插入MMT包表中。
如上所述,在本技术中,由插入视频流层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。因此,当分发VR内容时,可以在VR兼容终端和VR不兼容终端之间获得公共图像。
此外,本技术的另一概念是
一种接收装置,包括
接收单元,接收包括通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取部分或全部球形捕捉图像并对切取的球形捕捉图像进行面内打包,而获得所述投影图像,
用于渲染投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合,
所述接收装置还包括控制单元,所述控制单元控制:解码视频流以获得投影图像的处理;基于用于渲染的元信息渲染投影图像以获得第一显示图像的处理;基于切取位置信息切取投影图像以获得第二显示图像的处理;以及选择性地检索第一显示图像或第二显示图像的处理。
在本技术中,接收单元接收包括通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器。通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像执行面内打包,而获得该投影图像。此外,用于渲染投影图像的元信息插入容器和/或视频流的层中。此外,由插入视频流层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。
控制单元控制解码视频流以获得投影图像的处理、基于用于渲染的元信息渲染所获得的投影图像以获得第一显示图像的处理、基于切取位置信息切取投影图像以获得第二显示图像的处理以及选择性地检索第一显示图像或第二显示图像的处理。
如上所述,在本技术中,选择性地检索通过基于用于渲染的元信息渲染投影图像而获得的第一显示图像或者通过基于切取位置信息切取投影图像而获得的第二显示图像。因此,可以选择性地显示这两个图像。在这种情况下,由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合,并且第一显示图像和第二显示图像形成公共图像。
本发明的效果
根据本技术,当分发VR内容时,可以在VR兼容终端和VR不兼容终端之间获得公共图像。注意,本文描述的效果不一定受到限制,并且可以应用本公开中描述的任何效果。
附图说明
图1是示出基于运动图像专家组——基于超文本传输协议的动态自适应(HTTP)(MPEG-DASH)流分发系统的配置示例的框图;
图2是示出在媒体呈现描述(MPD)文件中分层排列的相应结构之间的关系的示例的示图;
图3是示出用作实施方式的发送/接收系统的配置示例的框图;
图4是示意性示出发送/接收系统的整个系统的配置示例的示图;
图5是用于解释从球形捕捉图像获得投影图像的面内打包的示图;
图6是示出高效视频编码(HEVC)编码中的序列参数集网络抽象层(SPS NAL)单元的结构示例的示图;
图7是用于解释切取位置的中心O(p,q)被调整为与投影图像的参考点RP(x,y)重合的示图;
图8是用于解释由切取位置信息指示的位置被调整为与默认区域的位置重合的示图;
图9是示出渲染元数据的结构示例的示图;
图10是用于解释图9所示的结构示例中的每条信息的示图;
图11是示出渲染元数据的另一结构示例的示图;
图12是用于解释图11所示的结构示例中的每条信息的示图;
图13是示出图9和11所示的结构示例中的主要信息的内容的示图;
图14是示出作为分发流的MP4流的示例的示图;
图15是示出MPD文件的描述示例的示图;
图16是示出“SupplementaryDescriptor”的“值”语义的示图;
图17是用于解释相对于投影图像的VR兼容终端和VR不兼容终端的处理的示图;
图18是示出服务发送系统的配置示例的框图;
图19是示出服务接收机(VR兼容终端)的配置示例的框图;
图20是示出服务接收机(VR兼容终端)中的显示转换序列的示图;
图21是示出服务接收机(VR不兼容终端)的配置示例的框图;
图22是示出传输流的配置示例的示图;
图23是示出MMT流的配置示例的示图;
图24是示出其格式类型是交叉立方体的投影图像的示图;
图25是用于解释参考点RP(x,y)的规范和切取位置“Conformance_window”的规范的示图;
图26是示出了一个示例的示图,其中,交叉立方体的六个视图(区域),即,“顶”、“前”、“底”、“右”、“后”和“左”,分成四个分区并以四个MP4流传输;
图27是示出以分区的交叉立方体渲染元数据的结构示例的示图;
图28是示出当格式类型是分区交叉立方体时渲染元数据的另一结构示例的示图;
图29是示出图27和28所示的结构示例中的主要信息的内容的示图;
图30是示出当格式类型是分区交叉立方体时MPD文件的描述示例的示图;
图31是示意性示出对应于四个分区的MP4流(轨道)的示图;
图32是示出传输流的配置示例的示图;
图33是示出MMT流的配置示例的示图;
图34是示出发送/接收系统的另一配置示例的示图;
图35是示出用于渲染元数据的高清晰度多媒体接口(HDMI)信息帧的结构示例的示图;
图36是示出用于渲染元数据的HDMI信息帧的结构示例的示图。
具体实施方式
将在下面描述实施本发明的方式(以下称为“实施方式”)。注意,将按以下顺序给出描述。
1.实施方式
2.变形例
<1.实施方式>
[基于MPEG-DASH的流分发系统的概要]
首先,将描述可以应用本技术的基于MPEG-DASH的流分发系统的概要。
图1的(a)示出了基于MPEG-DASH的流分发系统30A的配置示例。在该配置示例中,媒体流和媒体呈现描述(MPD)文件通过通信网络传输路径(通信传输路径)传输。该流分配系统30A具有这样的配置,其中,N个服务接收机33-1、33-2、...33-N经由内容传送网络(CDN)34连接到DASH流文件服务器31和DASH MPD服务器32。
DASH流文件服务器31基于预定内容片段的媒体数据(视频数据、音频数据、字幕数据等)生成满足DASH规范的流片段(以下适当地称为“DASH片段”),并根据来自服务接收机的HTTP请求传输片段。该DASH流文件服务器31可以是专用的流服务器,或者有时由网络服务器执行。
此外,响应于经由CDN 34从服务接收机33(33-1、33-2、...、33-N)发送的预定流段的请求,DASH流文件服务器31经由CDN 34将所请求的流段传输到请求接收机。在这种情况下,服务接收机33参考媒体呈现描述(MPD)文件中描述的速率值,以根据客户端所在的网络环境的状态选择具有最佳速率的流,并做出请求。
DASH MPD服务器32是生成用于获取DASH流文件服务器31中生成的DASH段的MPD文件的服务器。根据来自内容管理服务器(未示出)的内容元数据和在DASH流文件服务器31中生成的片段的地址(url)生成MPD文件。注意,DASH流文件服务器31和DASH MPD服务器32可以是物理上相同的服务器。
在MPD格式中,使用一个称为“表示”的元素来描述每个属性,用于每个单流,例如,视频流和音频流。例如,在MPD文件中,对于具有不同速率的多个视频数据流中的每一个,使用其相应的表示来描述相应的速率。如上所述,服务接收机33可以参考每个速率的值,根据服务接收机33所处的网络环境的状态选择最佳流。
图1的(b)示出了基于MPEG-DASH的流分发系统30B的配置示例。在该配置示例中,媒体流和MPD文件通过射频(RF)传输路径(广播传输路径)传输。该流分发系统30B由连接有DASH流文件服务器31和DASH MPD服务器32的广播发送系统36和M个服务接收机35-1、35-2、...35-M构成。
在该流分发系统30B的情况下,广播发送系统36在要传输的广播波上携带满足由DASH流文件服务器31生成的DASH规范(DASH段)的流段和由DASH MPD服务器32生成的MPD文件。
图2示出了在MPD文件中分层排列的相应结构之间的关系的示例。如图2的(a)所示,整个MPD文件的媒体呈现(Media Presentation)包含由时间间隔分隔的多个周期(周期)。例如,第一周期从零秒开始,下一个周期从100秒开始,依此类推。
如图2的(b)所示,周期包含多个适配集(AdaptationSet)。每个适配集取决于媒体类型的变化(例如,视频和音频)以及语言、视点等的变化,即使是相同的媒体类型。如图2的(c)所示,适配集包含多个表示(Representations)。每个表示取决于流属性,例如,速率的变化。
如图2的(d)所示,该表示包括片段信息(segmentinfo)。如图2的(e)所示,该片段信息包含初始化片段(Initialization Segment)和多个媒体片段(Media Segments),这些片段描述了通过进一步分离该周期而获得的关于每个片段(Segment)的信息。媒体片段包含用于实际获取视频、音频等片段数据的地址(url)信息等。
注意,可以在适配集中包括的多个表示之间自由执行流切换。利用这种配置,可以根据接收侧的网络环境的状态选择具有最佳速率的流,并且能够不间断地进行视频分发。
[发送/接收系统的配置示例]
图3示出了用作实施方式的发送/接收系统10的配置示例。该发送/接收系统10由服务发送系统100和服务接收机200构成。在该发送/接收系统10中,服务发送系统100对应于上述图1的(a)所示的流分发系统30A的DASH流文件服务器31和DASH MPD服务器32。此外,在该发送/接收系统10中,服务发送系统100对应于上述图1的(b)所示的流分发系统30B的DASH流文件服务器31、DASH MPD服务器32和广播发送系统36。
另外,在发送/接收系统10中,服务接收机200对应于上述图1的(a)所示的流分发系统30A的服务接收机33(33-1、33-2、...33-N)。同样,在该发送/接收系统10中,服务接收机200对应于上述图1的(b)所示的流量分配系统30B的服务接收机35(35-1、35-2、...35M)。
服务发送系统100通过通信网络传输路径(参见图1的(a))或RF传输路径(参见图1的(b))传输DASH/MP4,即,作为元文件的MPD文件和包括视频、音频等的媒体流(媒体段)的MP4(ISOMMFF)。
在该实施方式中,包括通过编码矩形投影图像的图像数据获得的视频流,作为媒体流。通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像进行面内打包,而获得投影图像。
用于渲染投影图像的元信息插入到容器和/或视频流的层中。通过将用于渲染的元信息插入到视频流的层中,无论容器类型如何,用于渲染的元信息都可以动态改变。
此外,由插入视频流的层中的切取位置信息指示的切取位置的中心被调整为与由用于渲染的元信息指示的投影图像的参考点重合。例如,投影图像由包括默认区域的多个区域组成,该默认区域的位置以参考点为中心,并且由切取位置信息指示的位置被调整为与默认区域的位置重合。
用于渲染的元信息具有用于计算参考点的信息。此外,用于渲染的元信息也具有向后兼容性信息。该向后兼容性信息指示由插入视频流层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。
在MPD文件中,插入指示用于渲染的元信息插入到容器和/或视频流的层中这一事实的识别信息、向后兼容性信息以及关于投影图像的格式类型信息。
服务接收机200通过通信网络传输路径(参见图1的(a))或RF传输路径(参见图1的(b))接收从服务发送系统100发送的上述MP4(ISOMMFF)。服务接收机200从MPD文件获取关于视频流的元信息。此外,当服务接收机200是VR兼容终端时,服务接收机200从MPD文件获取指示用于渲染的元信息插入到容器和/或视频流的层中这一事实的标识信息、向后兼容性信息以及关于投影图像的格式类型信息。
当服务接收机200是VR兼容终端时,服务接收机200解码视频流,以获得投影图像,并且基于用于渲染的元信息渲染所获得的投影图像,以获得渲染图像(第一显示图像)。注意,在该实施方式中,当服务接收机200是VR兼容终端时,服务接收机200进一步基于切取位置信息切取投影图像,以获得切取图像(第二显示图像),并且选择性地显示渲染图像或切取图像。
另外,当服务接收机200是VR不兼容终端时,服务接收机200解码视频流,以获得投影图像,并且基于切取位置信息切取所获得的投影图像,以获得切取图像(第二显示图像)。如上所述,由插入视频流的层中的切取位置信息指示的切取位置的中心被调整为与由用于渲染的元信息指示的投影图像的参考点重合。因此,切取图像与渲染图像相同,因此可以在VR兼容终端和VR不兼容终端之间获得共同的图像。
图4示意性地示出了发送/接收系统10的整个系统的配置示例。服务发送系统100包括相机102、面内打包单元103、视频编码器104和容器编码器105。
相机102对对象成像,并获得球形捕捉图像(360oVR图像)的图像数据。例如,相机102使用背靠背技术执行成像,并且获得具有超宽视角的前图像和后图像,作为球形捕捉图像,超宽视角具有180o或更大的视角,使用鱼眼透镜捕捉每个图像。
面内打包单元103切取由相机102获得的一部分或全部球形捕捉图像,并且对切取的球形捕捉图像执行面内打包,以获得矩形投影图像。在这种情况下,选择等矩形、交叉立方体等,作为投影图像的格式类型。注意,面内打包单元根据需要对投影图像执行缩放,以获得具有预定分辨率的投影图像。
图5的(a)示出了具有超宽视角的前面图像和后面图像的示例,作为由相机102获得的球形捕捉图像。图5的(b)示出了由面内打包单元103获得的投影图像的示例。该示例是投影图像的格式类型是等矩形的情况的示例。此外,该示例是在由图5的(a)中示出的以虚线指示的纬度切取每个图像的情况的示例。图5的(c)示出了缩放后的投影图像的示例。
返回参考图4,视频编码器104对来自面内打包单元103的投影图像的图像数据执行编码,例如,运动图像专家组4-高级视频编码(MPEG4-AVC)或HEVC,以获得编码图像数据,并生成包括获得的编码图像数据的视频流。切取位置信息插入视频流的SPS NAL单元中。例如,“conformance_window”对应于HEVC编码中的SPS NAL单元,“frame_crop_offset”对应于MPEG4-AVC编码中的SPS NAL单元。
图6示出了HEVC编码中SPS NAL单元的结构示例(语法)。“pic_width_in_luma_samples”字段指示投影图像的水平方向的分辨率(像素大小)。“pic_height_in_luma_samples”字段指示投影图像的垂直方向的分辨率(像素大小)。然后,当激活“conformance_window_flag”时,包含切取位置信息。该切取位置信息被配置为以投影图像的左上角为基点(0,0)的偏移信息。
“conf_win_left_offset”字段指示切取位置的左端位置。“conf_win_right_offset”字段指示切取位置的右端位置。“conf_win_top_offset”字段指示切取位置的上端位置。“conf_win_bottom_offset”字段指示切取位置的下端位置。
在该实施方式中,由该切取位置信息指示的切取位置的中心被调整为与投影图像的参考点重合。在此处,如果切取位置的中心被假定为0(p,q),p和q均由以下数学公式表示。
p=(conf_win_right_offset-conf_win_left_offset)*1/2+conf_win_left_offset
q=(conf_win_bottom_offset-conf_win_top_offset)*1/2+conf_win_top_offset
图7示出了切取位置的中心O(p,q)被调整为与投影图像的参考点RP(x,y)重合。在所示的示例中,“projection_pic_size_horizontal”表示投影图像的水平像素大小,“projection_pic_size_vertical”表示投影图像的垂直像素大小。注意,VR兼容终端可以通过渲染投影图像来获得显示视图(显示图像),但是默认视图以参考点RP(x,y)为中心。
在这种情况下,例如,当投影图像由包括其位置以参考点RP(x,y)为中心的默认区域的多个区域组成时,由切取位置信息指示的位置被调整为与默认区域的位置重合。在这种情况下,由切取位置信息指示的切取位置的中心O(p,q)与投影图像的参考点RP(x,y)重合。
图8的(a)示出了由切取位置信息指示的位置被调整为与默认区域的位置重合。在图示的示例中,假设投影图像由从区域0到区域8的九个区域组成,并且区域4是默认区域。VR兼容终端可以通过渲染投影图像来获得显示视图(显示图像),并且可以通过指定区域来执行显示视图的转换,但是默认视图对应于默认区域。
图8的(b)示出了如何基于关于默认区域的位置信息来设置切取位置信息。切取位置的上端位置“conf_win_top_offset”被调整为等于默认区域的上端位置“proj_reg_top”。此外,切取位置的左端位置“conf_win_left_offset”被调整为等于默认区域的左端位置“proj_reg_left”。同时,切取位置的下端位置“conf_win_bottom_offset”被调整为等于默认区域的上端位置“proj_reg_top”加上默认区域的垂直尺寸“proj_reg_height”所获得的位置。同样,切取位置的右端位置“conf_win_right_offset”被调整为等于默认区域的左端位置“proj_reg_left”加上默认区域的水平尺寸“proj_reg_width”所获得的位置。
返回参考图4,视频编码器104将具有渲染元数据(用于渲染的元信息)的补充增强信息(SEI)消息插入访问单元(AU)的“SEI”部分。图9示出了渲染元数据(Rendering_metadata)的结构示例(语法)。该示例是传送关于参考点RP(x,y)的位置信息的示例。此外,图11示出了渲染元数据(Rendering_metadata)的另一结构示例(语法)。该示例是不传送参考点RP(x,y)上的位置信息的示例。图13示出了相应结构示例中的主要信息的内容(语义)。
首先,将描述图9中的渲染元数据的结构示例。“rendering_metadata_id”的16位字段是识别渲染元数据结构的标识符(ID)。“rendering_metadata_length”的16位字段指示渲染元数据结构的字节大小。
“start_offset_sphere_latitude”、“start_offset_sphere_longitude”、“end_offset_sphere_latitude”和“end_offset_sphere_longitude”的各16位字段指示在球面捕捉图像上执行面内打包的情况下的关于截止范围的信息(参见图10的(a))。“start_offset_sphere_latitude”字段指示从球体表面切取的起点偏移的纬度(垂直方向)。“start_offset_sphere_longitude”字段指示从球体表面切取的起点偏移的经度(水平方向)。“end_offset_sphere_latitude”字段指示从球体表面切取的末端偏移的纬度(垂直方向)。“end_offset_sphere_longitude”字段指示用于从球体表面切取的端点偏移的经度(水平方向)。
“projection_pic_size_horizontal”和“projection_pic_size_vertical”的每个16位字段指示关于投影图像的尺寸信息(参见图10的(b))。“projection_pic_size_horizontal”字段指示投影图像大小中从左上角开始的水平像素数。“projection_pic_size_vertical”字段指示投影图像大小中从左上角开始的竖排像素数。
“scaling_ratio_horizontal”和“scaling_ratio_vertical”的每个16位字段指示投影图像原始尺寸的缩放比例(参见图5的(b)和5的(c))。“scaling_ratio_horizontal”字段指示投影图像原始大小的水平缩放比例。“scaling_ratio_vertical”字段指示投影图像原始尺寸的垂直缩放比例。
“reference_point_horizontal”和“reference_point_vertical”的每个16位字段指示投影图像的关于参考点RP(x,y)的位置信息(参见图10的(b)和10的(c))。“reference_point_horizontal”字段指示参考点RP(x,y)的水平像素位置“x”。“reference_point_vertical”字段指示参考点RP(x,y)的垂直像素位置“y”。
如图10的(b)所示,在投影图像中没有设置区域的情况下,参考点RP(x,y)被指定并分配为默认视图的中心。另一方面,如图10的(c)所示,在投影图像中设置区域的情况下,定义区域位置,使得参考点RP(x,y)与默认区域的中心对准。
“format_type”的5位字段指示投影图像的格式类型。例如,“0”表示等矩形,“1”表示交叉立方体,“2”表示分区交叉立方体。
“backwardcompatible”的1位字段指示是否设置了向后兼容,即,由插入视频流层中的切取位置信息指示的切取位置的中心O(p,q)是否被设置为与投影图像的参考点RP(x,y)重合。例如,“0”表示未设置向后兼容性,“1”表示设置了向后兼容性。
“number_of_regions”的8位字段指示投影图像中的区域数量。当区域数量为两个或更多时,重复准备与区域数量一样多的“region_id[i]”、“start_offset_horizontal_region[i]”、“start_offset_vertical_region[i]”、“width_region[i]”、“height_region[i]”和“default_region_flag[i]”的相应字段。
“region_id[i]”的8位字段指示该区域的标识号。“start_offset_horizontal_region[i]”的16位字段指示第i个区域的水平起始像素偏移。“start_offset_vertical_region[i]”的16位字段指示第i个区域的垂直起始像素偏移。
“width_region[i]”的16位字段通过像素数指示第i个区域的水平宽度。“height_region[i]”的16位字段通过像素数指示第i个区域的垂直宽度。“default_region_flag[i]”的1位字段指示第1个区域是否是默认区域。例如,“0”表示第i个区域不是默认区域,“1”表示第i个区域是默认区域。
接下来,将描述图11中的渲染元数据的结构示例。“rendering_metadata_id”的16位字段是识别渲染元数据结构的标识符(ID)。“rendering_metadata_length”的16位字段指示渲染元数据结构的字节大小。
与图9中的结构示例一样,各个16位字段“start_offset_sphere_latitude”、“start_offset_sphere_longitude”、“end_offset_sphere_latitude”和“end_offset_sphere_longitude”指示在球面捕捉图像上执行面内打包的情况下的截止范围(参见图12的(a))。如图9中的结构示例中,各个16位字段“projection_pic_size_horizontal”和“projection_pic_size_horizontal”指示关于投影图像的尺寸信息(参见图12的(b))。如图9中的结构示例中,“scaling_ratio_horizontal”和“scaling_ratio_vertical”的每个16位字段指示投影图像的原始尺寸的缩放比例(参见图5的(b)和5的(c))。
“format_type”的5位字段指示投影图像的格式类型。“backwardcompatible”的1位字段指示是否设置了向后兼容。“number_of_regions”的8位字段指示投影图像中的区域数量。当区域的数量为两个或更多时,如图9中的结构示例,重复准备与区域数量一样多的“region_id[i]”、“start_offset_horizontal_region[i]”、“start_offset_vertical_region[i]”、“width_region[i]”、“height_region[i]”和“default_region_flag[i]”的相应字段。
通过从图9所示的结构示例中移除指示投影图像的关于参考点RP(x,y)的位置信息的各个16位字段“reference_point_horizontal”和“reference_point_vertical”,而获得图11所示的结构示例。
在投影图像中没有设置区域的情况下,如图12的(b)所示,投影图像的中心被视为参考点RP(x,y),因此被视为默认视图的中心。另一方面,在投影图像中没有设置区域的情况下,如图12的(c)所示,区域位置被定义为使得默认区域的中心与参考点RP(x,y)对准。
返回图4,容器编码器105生成容器,在此处是MP4流,包括由视频编码器104生成的视频流,作为分发流STM。在这种情况下,容器编码器105将渲染元数据(参见图9和11)插入容器的层中。注意,在该实施方式中,渲染元数据插入到视频流的层和容器的层中;然而,也可以将渲染元数据仅插入这些层中的一层。由容器编码器105如此获得的MP4分发流STM在广播波或网络分组上传送,并传输到服务接收机200A和200B。
图14示出了作为分发流STM的MP4流的示例。整个服务流被分段并被发送,使得在传输过程中输出图像和声音,如在常规广播等中。每个随机访问周期都有以初始化段(IS)开始的配置,后面是框,即“styp”、“sidx(段索引框)”、“ssix(子段索引框)”、“moof(电影片段框)”和“mdat(媒体数据框)”。
初始化段(IS)具有基于ISO基本媒体文件格式(ISOBMFF)的框结构。指示文件类型的“ftyp”框设置在头部,用于控制的“moov”框设置在“ftyp”框之后。尽管省略了详细说明,但是“trak”框、“mdia”框、“minf”框、“stbl”框、“stsd”框和“schi”框在上述“moov”框中分层排列,并且渲染元数据(Rendering_metadata)(参见图9和11)插入到该“schi”框中。
“styp”框保存段类型信息。“sidx”框保存关于每个轨道的距离信息,通过该信息,指示“moof”/“mdat”的位置,并且还指示“mdat”中每个样本(图像)的位置。“ssix”框保存轨道分类信息,通过该信息可以对I/P/B类型进行分类。
“moof”框保存控制信息。“mdat”框保存视频、音频等的实际信号(传输介质)。电影片段由“moof”和“mdat”框组成。由于一个电影片段的“mdat”框保存通过分割传输介质(将传输介质分成片段)获得的片段,所以“moof”框中保存的控制信息是关于所保存的片段的控制信息。
在每个电影片段的“mdat”框中,投影图像的编码图像数据(访问单元)被设置用于预定数量的图像,例如,一个图像组(GOP)。在此处,每个接入单元由NAL单元构成,例如,“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”。注意,例如,“VPS”和“SPS”插入到GOP的先头图像中。
关于“conformance_window”的信息作为切取位置信息插入SPS NAL单元(参见图6)。此外,插入具有渲染元数据(Rendering_metadata)(参见图9和11)的SEI消息,作为“SSEI”的NAL单元。
图15示出了MPD文件的描述示例。在此处,为了简化解释,示出了仅描述关于视频流的信息的示例;然而,实际上,也描述了关于其他媒体流的信息。图16示出了“SupplementaryDescriptor”的“值”语义。
“<AdaptationSet mimeType=“video/mp4”codecs=“hev1.xx.xx.Lxxx,xx””的描述指示有视频流的适配集(AdaptationSet),以mp4文件结构提供视频流,并且具有Lxxx级别的HEVC视频流(编码图像数据)。
该MPD文件包含对应于视频流的表示(Representation)。在此表示中,“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:renderingmetadata”value=“1”/>”的描述指示渲染元数据(Rendering_metadata)的存在。
此外,“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:projectiontype”value=“0”/>”的描述指示投影图像的格式类型是等矩形的。“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:backwardcompatible”value=“1”/>”的描述指示设置了向后兼容性,即由插入视频流层中的切取位置信息指示的切取位置的中心O(p,q)被设置为与投影图像的参考点RP(x,y)重合。
此外,“width=“”height=“”frameRate=“””、“codecs=“hev1.xx.xx.Lxxx,xx””、“level=“0””的描述指示分辨率、帧速率和编解码器的类型,并且进一步指示级别“0”作为标签信息,并且视频流(编码流)的级别是“Lxxx”。此外,对“<BaseURL>videostreamVR.mp4</BaseURL>”的描述将该视频流的位置目标指示为“videostreamVR.mp4”。
返回图4,服务接收机200A是VR兼容终端,包括容器解码器203、视频解码器204和渲染器205。容器解码器203从接收到的MP4分发流STM中检索视频流,并将检索到的视频流传输到视频解码器204。
视频解码器204对容器解码器203检索的视频流执行解码处理,以获得投影图像(图像数据)。渲染器205基于插入容器和/或视频流的层中的渲染元数据(用于渲染的元信息),对投影图像(图像数据)执行渲染处理,以获得渲染图像(图像数据)。
在这种情况下,渲染器205生成对应于以投影图像的参考点RP(x,y)为中心的默认视图的渲染图像,并且还可以根据用户操作或用户动作生成对应于另一视图的渲染图像。例如,在投影图像由多个区域组成的情况下,生成对应于默认区域的默认视图的渲染图像,并且另外可以生成对应于用户指定的另一区域的视图的渲染图像。
注意,尽管未示出,但是接收机200A也可以通过使用插入视频流层中的切取位置信息执行切取处理,来从投影图像(图像数据)获得切取图像(图像数据)。然后,服务接收机200A可以根据用户的切换操作选择性地将渲染图像或切取图像显示为显示图像。
同时,作为VR不兼容终端的服务接收机200B包括容器解码器233、视频解码器234和切取单元235。容器解码器233从接收到的MP4分发流STM中检索视频流,并将检索到的视频流传输到视频解码器234。
视频解码器234对容器解码器233检索的视频流执行解码处理,以获得投影图像(图像数据)。切取单元235通过使用插入视频流层中的切取位置信息执行切取处理,从投影图像(图像数据)获得切取图像(图像数据)。即,服务接收机200B可以显示该切取图像。
图17的(a)示出了投影图像的示例,该投影图像是视频解码器204和234的输出。在此处,由插入视频流层中的切取位置信息指示的切取位置“conformance_window”的中心O(p,q)被调整为与投影图像的参考点RP(x,y)重合。
图17的(b)示出作为VR兼容终端的服务接收机200A可以选择性地显示通过处理投影图像而获得的渲染图像或切取的图像。在此处,通过对投影图像执行渲染处理来获得渲染图像。此外,默认渲染图像对应于以投影图像的参考点RP(x,y)为中心的默认视图。此外,通过从投影图像中切取所述切取位置“conformance_window”的区域来获得切取的图像。
图17的(c)示出了作为VR不兼容终端的服务接收机200B可以显示切取图像。通过从投影图像中切取出切取位置“conformance_window”的区域,而获得该切取的图像。
如上所述,由于切取位置“conformance_window”的中心O(p,q)与投影图像的参考点RP(x,y)重合,所以对应于在服务接收机200A上显示的默认视图的渲染图像和在服务接收机200B上显示的切取图像形成公共图像。即,可以在作为VR兼容终端的服务接收机200A和作为VR不兼容终端的服务接收机200B之间获得公共图像。
“服务发送系统的配置示例”
图18示出了服务发送系统100的配置示例。该服务发送系统100包括控制单元101、用户操作单元101a、相机102、面内打包单元103、视频编码器104、容器编码器105和发送单元106。
控制单元101在其配置中包括中央处理单元(CPU),并且基于控制程序控制服务发送系统100中相应元件的动作。用户操作单元101a是键盘、鼠标、触摸面板、遥控器等,用于用户执行各种操作。
相机102对对象成像,并获得球形捕捉图像(360oVR图像)的图像数据。例如,相机102使用背靠背技术执行成像,并且获得具有超宽视角的前图像和后图像,作为球形捕捉图像,超宽视角具有180o或更大的视角,使用鱼眼透镜捕捉每个图像。
面内打包单元103切取由相机102获得的一部分或全部球形捕捉图像,并且对切取的球形捕捉图像执行面内打包以获得矩形投影图像(参见图5的(b))。在这种情况下,选择等矩形、交叉立方体等,作为投影图像的格式类型。注意,面内打包单元根据需要对投影图像执行缩放,以获得具有预定分辨率的投影图像(参见图5的(c))。
视频编码器104例如对来自面内打包单元103的投影图像的图像数据执行诸如HEVC等编码,以获得编码图像数据,并且生成包括获得的编码图像数据的视频流。切取位置信息插入到视频流的SPS NAL单元中(参见图6中关于“conformance_window”的信息)。
在此处,由切取位置信息指示的切取位置的中心O(p,q)被调整为与投影图像的参考点RP(x,y)重合(参见图7)。在这种情况下,例如,当投影图像由包括其位置以参考点RP(x,y)为中心的默认区域的多个区域组成时,由切取位置信息指示的位置被调整为与默认区域的位置重合(参见图8)。在这种情况下,由切取位置信息指示的切取位置的中心O(p,q)与投影图像的参考点RP(x,y)重合。
此外,视频编码器104将具有渲染元数据(用于渲染的元信息)的SEI消息插入访问单元(AU)的“SEI”部分。在用于渲染的元数据中,插入了在球面捕捉图像上执行面内打包的情况下关于截止范围的信息、关于投影图像的原始尺寸的缩放比例的信息、关于投影图像的格式类型的信息、指示是否设置向后兼容性以使截止位置的中心O(p,q)与投影图像的参考点RP(x,y)重合的信息等(参见图9和11)。
此外,存在关于参考点RP(x,y)的位置信息插入到渲染元数据中(参见图9)以及位置信息没有插入到渲染元数据中(参见图11)的情况。在没有插入位置信息的情况下,投影图像的中心被视为参考点RP(x,y)(参见图12的(b)),或者默认区域的中心被视为参考点RP(x,y)(参见图12的(c))。
容器编码器105生成容器,此处是MP4流,包括由视频编码器104生成的视频流,作为分发流STM(参见图14)。在这种情况下,容器编码器105将渲染元数据(参见图9和11)插入容器的层中。发送单元106在广播波或网络分组上携带由容器编码器105获得的MP4分发流STM,并将携带的分发流STM传输到服务接收机200A和200B。
“服务接收机(VR兼容终端)的配置示例”
图19示出了作为VR兼容终端的服务接收机200A的配置示例。该服务接收机200A包括控制单元201、用户操作单元201a、接收单元202、容器解码器203、视频解码器204、渲染器205、切取单元206、转换开关207、缩放单元208和显示单元209。
控制单元201在其配置中包括中央处理单元(CPU),并且基于控制程序控制服务接收机200A中的相应元件的动作。用户操作单元201a是用于用户执行各种操作的键盘、鼠标、触摸板、遥控器等,并且用户操作信息提供给控制单元231。此外,控制单元231还提供有来自感测用户动作的传感器(未示出)的传感器信息。接收单元202接收在广播波或网络分组上携带并从服务发送系统100发送的MP4分发流STM。
在控制单元201的控制下,容器解码器(多路复用器)203基于“moof”框等中的信息从由接收单元202接收的MP4分发流STM中检索视频流,并将检索到的视频流发送到视频解码器204。容器解码器203还从分发流STM中检索“moov”框等中的信息,并将检索到的信息发送到控制单元201。渲染元数据(参见图9和11)作为一条信息包含在“moov”框中。
视频解码器204对容器解码器203检索的视频流执行解码处理,以获得投影图像(图像数据)。此外,视频解码器204提取插入由容器解码器203检索的视频流中的参数集和SEI消息,并将提取的项目发送到控制单元201。该提取的信息包括关于插入到SPS NAL分组中的切取位置“conformance_window”的信息以及具有渲染元数据的SEI消息(参见图9和11)。
在控制单元201的控制下,渲染器205基于渲染元数据对投影图像(图像数据)执行渲染处理,以获得渲染图像(图像数据)。
在这种情况下,渲染器205生成对应于以投影图像的参考点RP(x,y)为中心的默认视图的渲染图像,并且还可以根据用户操作或用户动作生成对应于另一视图的渲染图像。例如,在投影图像由多个区域组成的情况下,生成对应于默认区域的默认视图的渲染图像,并且另外可以生成对应于用户指定的另一区域的视图的渲染图像。
在控制单元201的控制下,切取单元206使用插入视频流层中的切取位置信息对投影图像执行切取处理,以获得切取图像(图像数据)。在控制单元201的控制下,转换开关207根据传感器信息或用户的转换操作,选择性地检索并输出由渲染器205获得的渲染图像(图像数据)或由切取单元206获得的切取图像(图像数据)。
缩放单元208对转换开关207检索的图像(图像数据)执行缩放处理,使得检索的图像与显示单元209的尺寸匹配。显示单元209显示已经经过缩放处理的渲染图像或切取图像。
图20示出了服务接收机200A中的显示转换序列。该显示转换序列是一个示例,并且显示转换序列不限于该示例。
当粗略划分显示状态时,所示的显示转换序列包含三种状态:用于显示切取图像的基本显示状态、用于显示对应于默认视图(或默认区域)的渲染图像的VR显示(默认视图)状态以及VR显示(另一视图)状态。
在启动或转换频道时,设置基本显示状态。在这种情况下,由切取单元206获得切取图像(图像数据),并且由转换开关207检索获得的切取图像(图像数据),并通过缩放单元208提供给显示单元209;然后,显示切取图像。
在该基本显示状态下,当用户操作选择VR模式时,放置VR显示(默认视图)状态。在这种情况下,首先,由渲染器205获得对应于默认视图(或默认区域)的渲染图像(图像数据),并且由转换开关207检索获得的渲染图像(默认视图),并通过缩放单元208提供给显示单元209;然后,显示对应于默认视图(或默认区域)的渲染图像。
此外,在该基本显示状态下,当通过用户操作或用户动作选择另一视图(或另一区域)时,则设置VR显示(另一视图)状态。在这种情况下,由渲染器205获得对应于已经选择的另一视图(或区域)的渲染图像(图像数据),并且由转换开关207检索获得的渲染图像(另一视图),并且通过缩放单元208提供给显示单元209;然后,显示对应于另一视图(或区域)的渲染图像。
此外,当在该VR显示(另一视图)状态中选择默认回归时,设置VR显示(默认视图)状态。此外,当在该VR显示(默认视图)状态下通过用户操作选择返回时,设置基本显示状态。注意,也可以通过用户的返回操作从VR显示(另一视图)状态直接切换到基本显示。
“服务接收机(VR不兼容终端)的配置示例”
图21示出了服务接收机200B的配置示例,服务接收机200B是VR不兼容终端。该服务接收机200B包括控制单元231、用户操作单元231a、接收单元232、容器解码器233、视频解码器234、切取单元235、缩放单元236和显示单元237。
控制单元231在其配置中包括中央处理单元(CPU),并且基于控制程序控制服务接收机200B中相应元件的动作。用户操作单元231a是键盘、鼠标、触摸板、遥控器等,用于用户执行各种操作,并且用户操作信息提供给控制单元231。此外,控制单元231还提供有来自感测用户动作的传感器(未示出)的传感器信息。接收单元232接收在广播波或网络分组上携带并从服务发送系统100发送的MP4分发流STM。
在控制单元231的控制下,容器解码器(多路复用器)233基于“moof”框等中的信息从由接收单元232接收的MP4分发流STM中检索视频流,并将检索到的视频流传输到视频解码器234。容器解码器233还从分发流STM中检索“moov”框等中的信息,并将检索到的信息传输到控制单元231。
视频解码器234对容器解码器233检索的视频流执行解码处理,以获得投影图像(图像数据)。此外,视频解码器234提取插入由容器解码器233检索的视频流中的参数集和SEI消息,并将提取的项目发送到控制单元231。该提取的信息包括插入SPS NAL分组中的切取位置“conformance_window”的信息。
在控制单元231的控制下,切取单元235使用插入视频流层中的切取位置信息对投影图像执行切取处理,以获得切取图像(图像数据)。缩放单元236对由切取单元235获得的切取图像(图像数据)执行缩放处理,使得获得的切取图像与显示单元237中指定的尺寸匹配。显示单元237显示已经经过缩放处理的切取图像。
如上所述,在图3所示的发送/接收系统10中,由插入视频流层中的切取位置信息指示的切取位置“conformance_window”的中心O(p,q)被调整为与投影图像的参考点RP(x,y)重合。因此,对应于在作为VR兼容终端的服务接收机200A上显示的默认视图的渲染图像和在作为VR不兼容终端的服务接收机200B上显示的切取图像形成公共图像;因此,可以在VR兼容终端和VR不兼容终端之间获得公共图像。
<2.变形例>
“应用于MPEG-TS和MMT”
注意,在上述实施方式中,已经示出了容器在MP4(ISOMMFF)中的示例。然而,容器不限于MP4,并且本技术可以类似地应用于其他格式的容器,例如,MPEG-2TS和MMT。
例如,在MPEG-2TS的情况下,图4所示的服务发送系统100的容器编码器105生成包括视频流的传输流(Transport Stream)。
此时,容器编码器105将包括渲染元数据的渲染元数据描述符(Rendering_metadata_descriptor)插入到对应于节目映射表(PMT)中的每个编码流的视频基本流循环中。
图22示出了传输流的配置示例。该配置示例包含由PID1识别的视频流的分组基本流(PES)分组“视频PES1”。这个PES分组“视频PES1”的有效载荷包括每个图像的访问单元(编码图像数据)。
在由PES分组“视频PES1”封装的访问单元(编码图像数据)中,关于切取位置“conformance_window”的信息插入到“SPS”中。此外,具有渲染元数据的SEI消息(参见图9和11)插入到“SSEI”中。
此外,PMT包含对应于PES分组“视频PES1”的视频基本流循环(视频ES1循环)。诸如流类型和分组标识符等信息设置在对应于视频流(视频PES1)的视频基本流循环(视频ES1循环)中,并且描述与该视频流相关联的信息的描述符也被设置在其中。该流类型假定为“0x24”,表示视频流。此外,插入包括渲染元数据的渲染元数据描述符(参见图9和11),作为一个描述符。
同时,例如,在MMT的情况下,图4所示的服务发送系统100的容器编码器105生成包括视频流的MMT流(MMT Stream)。
此时,容器编码器105将包括渲染元数据(参见图9和11)的渲染元数据描述符(Rendering_metadata_descriptor)插入到对应于MMT包表(MPT)中的扩展视频流的视频资源循环中。
图23示出了MMT流的配置示例。该配置示例包含由ID1识别的视频流的媒体处理单元(MPU)分组“视频MPU1”。这个MPU分组“视频MPU1”的有效载荷包括每个图像的访问单元(编码图像数据)。
在由MPU分组“视频MPU1”封装的访问单元(编码图像数据)中,关于切取位置“conformance_window”的信息插入到“SPS”中。此外,具有渲染元数据的SEI消息(参见图9和11)插入到“SSEI”中。
此外,MPT包含对应于MPU分组“视频MPU1”的视频资源循环(视频资源1循环)。诸如流类型和分组标识符等信息设置在对应于视频流(视频MPU1)的视频资源循环(视频资源1循环)中,并且描述与该视频流相关联的信息的描述符也设置在其中。该资源类型假定为“0x24”,表示视频流。此外,插入包括渲染元数据的渲染元数据描述符,作为一个描述符。
另外,在上述实施方式中,描述基于投影图像的格式类型是等矩形的假设(参见图5、7和8)。如上所述,投影图像的格式类型不限于等矩形,并且可以是其他格式。
“格式类型为交叉立方体的情况”
图24示出了其格式类型是交叉立方体的投影图像。该投影图像包含“顶”、“前”、“底”、“右”、“后”和“左”六个视图。
图25的(a)示出了在“前”视图(由图24中的虚线矩形指示)是默认视图的情况1中参考点RP(x,y)的规范和切取位置“conformance_window”的规范。
在这种情况下,参考点RP(x,y)的x和y按以下数学公式指定。
x=projection_pic_size_horizontal*1/8
y=projection_pic_size_vertical*1/2
此外,在这种情况下,在以下数学公式中指定切取位置“conformance_window”,使得切取位置的中心与参考点RP(x,y)重合。
conf_win_left_offset=0
conf_win_right_offset=projection_pic_size_horizontal*1/4
conf_win_top_offset=projection_pic_size_vertical*1/3
conf_win_bottom_offset=projection_pic_size_vertical*2/3
图25的(b)示出了在“左”视图(由图24中的虚线矩形指示)是默认视图的情况2中参考点RP’(x,y)的规范和切取位置“conformance_window”的规范。
在这种情况下,在以下数学公式中指定参考点RP’(x,y)的x和y。
x=projection_pic_size_horizontal*7/8
y=projection_pic_size_vertical*1/2
此外,在这种情况下,在以下数学公式中指定切取位置“conformance_window”,使得切取位置的中心与参考点RP’(x,y)重合。
conf_win_left_offset==projection_pic_size_horizontal*3/4
conf_win_right_offset=projection_pic_size_horizontal
conf_win_top_offset=projection_pic_size_vertical*1/3
conf_win_bottom_offset=projection_pic_size_vertical*2/3
在上述具有交叉立方体格式类型的投影图像的情况下,六个视图“顶”、“前”、“底”、“右”、“后”和“左”中的每一个也可以作为一个区域来处理。在这种情况下,不是传送关于参考点RP(x,y)的信息,而是将一个视图指定为默认区域,并且默认区域的中心被视为参考点RP(x,y);然后,以上述方式指定切取位置“conformance_window”。
“格式类型是分区交叉立方体的情况”
此外,在上述实施方式中,示出了在一个MP4流(一个轨道)中传输投影图像的整个图像数据的示例(参见图14)。然而,例如,在投影图像的格式类型是交叉立方体的情况下,投影图像包含基本上没有图像数据的区域(参见图24),这导致使用不必要的传输带。
因此,可以设想,通过将交叉立方体的六个视图(区域)(即,“顶”、“前”、“底”、“右”、“后”和“左”)分成多个分区,并在多个MP4流(多个轨道)中执行传输来提高传输效率。
图26示出了一个示例,其中,交叉立方体的六个视图(区域)(即,“顶”、“前”、“底”、“右”、“后”和“左”)分成四个分区,并以四个MP4流传输。
在这种情况下,“前”和“右”的视图(区域)包括在由“partition_id=0”识别的分区0(Partition 0)中,“后”和“左”的视图(区域)包括在由“partition_id=1”识别的分区1(Partition 1)中,“顶”的视图(区域)包括在由“partition_id=2”识别的分区2(Partition 2)中,“底”的视图(区域)包括在由“partition_id=3”识别的分区3(Partition 3)中。
注意,在该示例中,如图24所示的示例,假设参考点RP(x,y)被定义在“前”的视图(区域)的中心,并且参考点RP’(x,y)被定义在“前”的视图(区域)的中心。
图27示出了插入每个MP4流中的渲染元数据(用于渲染的元信息)的结构示例(语法)。该示例是传输关于参考点RP(x,y)的位置信息的示例。图28示出了渲染元数据(Rendering_metadata)的另一结构示例(语法)。该示例是不传输关于参考点RP(x,y)的位置信息的示例。图29示出了相应结构示例中的主要信息的内容(语义)。
图27和28中的渲染元数据结构示例分别对应于上述通过一个MP4流传输的情况下的图9和11中的渲染元数据结构示例,并且不同之处在于,进一步插入了关于分区的信息。
“partition_id”的8位字段指示分区(Partition)标识信息。“partition_start_offset_horizontal”的16位字段通过从投影图像的起始点(0,0)开始的像素数来指示水平分区开始位置。“partition_start_offset_vertical”的16位字段通过从投影图像的起始点(0,0)开始的像素数来指示垂直分区开始位置。“partition_end_offset_horizontal”的16位字段通过从投影图像的起始点(0,0)开始的像素数来指示水平分区结束位置。“partition_end_offset_vertical”的16位字段通过从投影图像的起始点(0,0)开始的像素数来指示垂直分区结束位置。
注意,在图27和28所示的渲染元数据结构示例中,“format_type”的5位字段具有指示分区的交叉立方体的值“2”。
图30示出了MPD文件的描述示例。在此处,为了简化解释,示出了仅描述关于视频流的信息的示例;然而,实际上,也描述了关于其他媒体流的信息。该MPD文件包含与四个MP4流(轨道)中的每一个相对应的适配集(adaptationset)。注意,在图示的示例中,仅生成了两个适配集(AdaptationSet),以简化绘图。
在每个适配集中,“<AdaptationSet mimeType=“video/mp4”codecs=“hev1.xx.xx.Lxxx,xx””的描述指示存在视频流的适配集(AdaptationSet),视频流以mp4文件结构提供,并且存在HEVC编码的视频流(编码的图像数据)。
“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:formattype”value=“2”/>”的描述表示投影图像的格式类型是分区交叉立方体。“<SupplementaryDescriptor schemeIdUri“urn:brdcst:video:partitionid”value/>”的描述指示分区标识信息。
“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:partitionstartpositionhorizontal”value/>”的描述指示水平分区开始位置。“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:partitionstartpositionvertical”value/>”的描述指示垂直分区开始位置。“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:partitionendpositionhorizontal”value/>”的描述指示水平分区结束位置。“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:partitionendpositionvertical”value/>”的描述指示垂直分区结束位置。
“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:renderingmetadata”value=“1”/>”的描述指示渲染元数据(Rendering_metadata)的存在。“<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:backwardcompatible”value=“1”/>”的描述指示设置了向后兼容性,即由插入视频流层中的切取位置信息指示的切取位置的中心O(p,q)被设置为与投影图像的参考点RP(x,y)重合。
此外,每个适配集包含对应于视频流的表示(Representation)。在该表示中,“width=“”height=“”frameRate=“””、“codecs=“hev1.xx.xx.Lxxx,xx””、“level="0"”的描述指示分辨率、帧率和编解码器的类型,并进一步指示级别“0”作为标签信息。此外,对“<BaseURL>videostreamVR.mp4</BaseURL>”的描述将该视频流的位置目标指示为“videostreamVR.mp4”。
图31示意性地示出了对应于四个分区的MP4流(轨道)。类似地,每个MP4流具有这样的配置,其中,每个随机访问周期以初始化段(IS)开始,后面跟着框,即,“styp”、“sidx(段索引框)”、“ssix(子段索引框)”、“moof(电影片段框)”和“mdat(媒体数据框)”。
初始化段(IS)具有基于国际标准化组织基本媒体文件格式(ISOBMFF)的框结构。指示文件类型的“ftyp”框设置在顶部,用于控制的“moov”框设置在“ftyp”框之后。尽管省略了详细说明,但是“trak”框、“mdia”框、“minf”框、“stbl”框、“stsd”框和“schi”框在上述“moov”框中分层排列,并且渲染元数据(Rendering_metadata)(参见图27和28)插入到该“schi”框中。
“styp”框保存段类型信息。“sidx”框保存每个轨道的距离信息,通过该信息指示“moof”/“mdat”的位置,并且还指示“mdat”中每个样本(图像)的位置。“ssix”框保存轨道分类信息,通过该信息可以对I/P/B类型进行分类。
“moof”框保存控制信息。“mdat”框保存视频、音频等的实际信号(传输介质)。电影片段由“moof”和“mdat”框组成。由于一个电影片段的“mdat”框保存通过分割传输介质(将传输介质分成片段)获得的片段,所以“moof”框中保存的控制信息是关于所保存的片段的控制信息。
在每个电影片段的“mdat”框中,投影图像的编码图像数据(访问单元)被设置用于预定数量的图像,例如,一个图像组(GOP)。在此处,每个接入单元由NAL单元构成,例如,“VPS”、“SPS”、“PPS”、“PSEI”、“SLICE”和“SSEI”。注意,例如,“VPS”和“SPS”插入到GOP的顶部图像中。
关于“conformance_window”的信息作为切取位置信息插入SPS NAL单元(参见图6)。此外,插入具有渲染元数据(Rendering_metadata)(参见图27和28)的SEI消息,作为“SSEI”的NAL单元。
注意,上面的描述指示了一个示例,其中,交叉立方体的六个视图(区域)(即,“顶”、“前”、“底”、“右”、“后”和“左”)分成四个分区,并以四个MP4流传输(参见图26)。然而,分区的数量和划分为所采用的分区数量的方式不限于此示例。例如,也可以将交叉立方体的六个视图(区域)(即,“顶”、“前”、“底”、“右”、“后”和“左”)中的每一个视为一个分区,并将这些分区传输到六个MP4流中。
此外,通过将交叉立方体的六个视图(区域)(即,“顶”、“前”、“底”、“右”、“后”和“左”)划分成多个分区,并且在多个MP4流(多个轨道)中执行传输来提高传送效率,不限于容器在MP4(ISOMMFF)中的情况,并且也可以类似地应用于其他格式的容器,例如,MPEG-2TS和MMT。
图32示出了在分区应用于MPEG-2TS的情况下传输流的配置示例。该配置示例示出了这样一个示例,其中,交叉立方体的六个视图(区域)(即,“顶”、“前”、“底”、“右”、“后”和“左”)分为四个分区(参见图26),其中,分区ID(partition_id)为0至3,并且在每个分区的四个视频流中传输。
该配置示例包含四个视频流中每一个的PES分组“视频PES”。注意,在图示的示例中,仅详细示出了对应于分区1(partition_id=1)的PES分组“视频PES1”的部分。每个PES分组“视频PES”的有效载荷包括每个图像的访问单元(编码图像数据)。
在由PES分组“视频PES”封装的访问单元(编码图像数据)中,关于切取位置“conformance_window”的信息插入“SPS”中。此外,具有渲染元数据的SEI消息(参见图27和28)插入“SSEI”中。
此外,PMT包含对应于四个视频流中的每一个的PES分组“视频PES1”的视频基本流循环(视频ES1循环)。诸如流类型和分组标识符等信息对应于视频流设置在每个视频基本流循环(视频ES循环)中,并且描述与该视频流相关联的信息的描述符也设置在其中。此外,插入包括渲染元数据的渲染元数据描述符(参见图27和28),作为一个描述符。
图33示出了在分区应用于MMT的情况下的MMT流的配置示例。该配置示例示出了这样一个示例,其中,交叉立方体的六个视图(区域)(即,“顶”、“前”、“底”、“右”、“后”和“左”)分为四个分区(参见图26),其中,分区ID(partition_id)为0至3,并且在每个分区的四个视频流中传输。
该配置示例包含四个视频流中每一个的MPU分组“视频MPU”。注意,在图示的示例中,仅详细示出了对应于分区1(partition_id=1)的MPU分组“视频MPU1”的部分。每个MPU分组“视频MPU”的有效载荷包括每个图像的访问单元(编码图像数据)。
在由MPU分组“视频MPU1”封装的访问单元(编码图像数据)中,关于切取位置“conformance_window”的信息插入到“SPS”中。此外,具有渲染元数据的SEI消息(参见图27和28)插入“SSEI”中。
此外,MPT包含对应于四个视频流中每一个的MPU分组“视频MPU”的视频资源循环(video asset1 loop)。诸如流类型和分组标识符(PID)等信息设置在对应于视频流(视频MPU)的视频资源循环(视频资源1循环)中,并且描述与该视频流相关联的信息的描述符也设置在其中。此外,插入包括渲染元数据的渲染元数据描述符(参见图27和28),作为一个描述符。
“HDMI传输的情况”
另外,上述实施方式已经示出了由服务发送系统100和服务接收机200构成的发送/接收系统10的示例;然而,可以应用本技术的发送/接收系统的配置不限于该示例。例如,电视接收机200的一部分由机顶盒和通过诸如高清多媒体接口(HDMI)等数字接口连接的显示器来执行的情况也是可以想象的。注意,“HDMI”是注册商标。
图34示出了发送/接收系统10A的配置示例。该发送/接收系统10A具有包括服务发送系统100、机顶盒(STB)200-1和显示器200-2的配置。机顶盒(STB)200-1和显示器200-2通过HDMI连接。
由于服务发送系统100与图3所示的发送/接收系统10中的发送装置100相同,因此将省略其描述。机顶盒200-1通过通信网络传输路径或RF传输路径接收从服务发送系统100传输的MP4。
此外,机顶盒200-1从MP4检索视频流,并解码检索到的视频流,以获得投影图像的图像数据。当显示器200-2是VR兼容显示器时,机顶盒200-1经由HDMI传输路径将从容器和/或视频流的层提取的投影图像和渲染元数据(用于渲染的元信息)的图像数据传输到显示器200-2。
另一方面,当显示器200-2是VR不兼容显示器时,机顶盒200-1基于插入视频流层中的切取位置信息对投影图像执行切取处理,以获得切取图像的图像数据。然后,机顶盒200-1经由HDMI传输路径将该切取图像的图像数据传输到显示器200-2。
当显示器200-2是VR兼容显示器时,显示器200-2经由HDMI传输路径从机顶盒200-1接收投影图像的图像数据和渲染元数据。然后,显示器200-2基于用于渲染的元信息来渲染投影图像,以获得并显示渲染图像。在这种情况下,根据用户操作获得并显示对应于默认视图(默认区域)或另一视图(区域)的渲染图像。
当显示器200-2是VR不兼容显示器时,显示器200-2经由HDMI传输路径从机顶盒200-1接收切取图像的图像数据,并显示切取图像。
机顶盒200-1将渲染元数据(用于渲染的元信息)插入投影图像的图像数据的消隐周期,并将渲染元数据传输到作为VR兼容显示器的显示器200-2。在此处,使用新定义的用于渲染元数据的HDMI信息帧(HDMI信息帧)。
图35和36示出了用于渲染元数据的HDMI信息帧的结构示例(语法)。该HDMI信息帧的前三个字节是报头部分,并且设置了关于信息帧类型、版本号和数据字节的字节长度的信息。
“投影格式类型”的5位信息从数据字节1(Data Byte 1)的第七位到第三位排列。该5位信息表示投影图像的格式类型。此外,1位信息“BW兼容”设置在数据字节1(Data Byte1)的第0位。该1位信息指示是否设置了向后兼容性,即,由切取位置信息指示的切取位置的中心O(p,q)是否被设置为与投影图像的参考点RP(x,y)重合。
在数据字节2(Data Byte 2)中设置了8位信息“区域数量”。该8位信息表示投影图像中的区域数量。
在数据字节3(Data Byte 3)和数据字节4(Data Byte 4)的每一个中设置16位信息“起始偏移球面纬度”。这些16位信息表示从球体表面切取的起始偏移的纬度(垂直方向)。
在数据字节5(Data Byte 5)和数据字节6(Data Byte 6)的每一个中设置16位信息“起始偏移球体经度”。这些16位信息表示从球体表面切取的起始偏移的经度(水平方向)。
在数据字节7(Data Byte 7)和数据字节8(Data Byte 8)中的每一个中设置16位信息“末端偏移球面纬度”。这些16位信息表示从球体表面切取的末端偏移的纬度(垂直方向)。
在数据字节9(Data Byte 9)和数据字节10(Data Byte 10)中的每一个中设置16位信息“末端偏移球体经度”。这些16位信息表示从球体表面切取的末端偏移的经度(水平方向)。
在数据字节11(Data Byte 11)和数据字节12(Data Byte 12)的每一个中设置16位信息“水平投影图尺寸”。这些16位信息表示投影图像大小从左上角开始的水平像素计数。
在数据字节13(Data Byte 13)和数据字节14(Data Byte 14)中的每一个中设置了16位信息“垂直投影图尺寸”。这些16位信息表示投影图像大小从左上角开始的垂直像素计数。
在数据字节15(Data Byte 15)和数据字节16(Data Byte 16)中的每一个中设置16位信息“水平缩放比例”。这些16位信息表示投影图像原始尺寸的水平缩放比例。
在数据字节17(Data Byte 17)和数据字节18(Data Byte 18)中的每一个中设置16位信息“垂直缩放比例”。这些16位信息表示投影图像原始尺寸的垂直缩放比例。
在数据字节19(Data Byte 19)和数据字节20(Data Byte 20)中的每一个中设置16位信息“水平参考点”。这些16位信息指示投影图像的参考点RP(x,y)的水平像素位置“x”。
在数据字节21(Data Byte 21)和数据字节22(Data Byte 22)中的每一个中设置16位信息“垂直参考点”。这些16位信息指示投影图像的参考点RP(x,y)的垂直像素位置“y”。
在由上述8位信息“区域数目”指示的投影图像中的区域数目是两个或更多的情况下,包含数据字节23(Data Byte 23)和随后的数据字节。在数据字节23(Data Byte 23)中设置了8位信息“Region_id[0]”。该8位信息表示第一区域的标识号。
在数据字节24(Data Byte 24)和数据字节25(Data Byte 25)的每一个中设置16位信息“起始偏移水平区域[0]”。这些16位信息指示第一区域的水平起始像素偏移。
在数据字节26(Data Byte 26)和数据字节27(Data Byte 27)的每一个中设置16位信息“起始偏移垂直区域[0]”。这些16位信息指示第一区域的垂直起始像素偏移。
在数据字节28(Data Byte 28)和数据字节29(Data Byte 29)的每一个中设置16位信息“宽度区域[0]”。这些16位信息通过像素数指示第一区域的水平宽度。
在数据字节30(Data Byte 30)和数据字节31(Data Byte 31)的每一个中设置16位信息“高度区域[0]”。这些16位信息通过像素数指示第一区域的垂直宽度。
数据字节32的第七位(Data Byte 32)包括1位信息“默认区域标志[0]”。该1位信息指示第一个区域是否是默认区域。
在数据字节33(Data Byte 33)和随后的数据字节中,根据“区域数”的值,即区域数,重复插入类似于上述从数据字节23(Data Byte 23)到数据字节32(Data Byte 32)的空间。
注意,在图35和36所示的用于渲染元数据的HDMI信息帧的结构示例中,插入了对应于图9的渲染元数据;然而,可以类似地考虑插入对应于图11的渲染元数据的情况,该渲染元数据不具有关于投影图像的参考点RP(x,y)的信息。
同样在图34所示的发送/接收系统10A中,对应于与VR兼容的显示器200-2上显示的默认视图的渲染图像和与VR不兼容的显示器200-2上显示的切取图像形成公共图像;因此,可以在VR兼容显示器和VR不兼容显示器之间获得公共图像。
注意,本技术也可以如下所述进行配置。
(1)一种发送装置,包括:
处理单元,其切取一部分或全部球形捕捉图像,并对切取的球形捕捉图像执行面内打包,以获得具有矩形形状的投影图像;
编码单元,其对投影图像的图像数据进行编码,以获得视频流;
发送单元,其发送包括视频流的容器;以及
插入单元,其将用于渲染投影图像的元信息插入到容器和/或视频流的层中,其中,
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。
(2)根据上述(1)所述的发送装置,其中,
所述投影图像由多个区域组成,多个区域包括以参考点为中心的位置的默认区域,并且
由切取位置信息指示的位置被调整为与默认区域的位置重合。
(3)根据上述(1)或(2)所述的发送装置,其中,
用于渲染的元信息具有关于参考点的位置信息。
(4)根据上述(1)至(3)中任一项所述的发送装置,其中,
用于渲染的元信息具有向后兼容性信息,向后兼容性信息指示由插入视频流层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。
(5)根据上述(1)至(3)中任一项所述的发送装置,其中,
所述发送单元还发送具有关于视频流的元信息的元文件,并且
指示用于渲染的元信息插入到容器和/或视频流的层中这一事实的标识信息进一步被插入到元文件。
(6)根据上述(1)至(4)中任一项所述的发送装置,其中,
所述容器采用国际标准化组织的基本媒体文件格式(ISOBMFF),并且
所述插入单元将用于渲染的元信息插入到moov框中。
(7)根据上述(1)至(4)中任一项所述的发送装置,其中,
所述容器包括运动图像专家组2-传输流(MPEG2-TS),并且
所述插入单元将用于渲染的元信息插入到节目映射表中。
(8)根据上述(1)至(4)中任一项所述的发送装置,其中,
所述容器包括运动图像专家组媒体传输(MMT)流,并且
所述插入单元将用于渲染的元信息插入到MMT包表中。
(9)一种发送方法,包括:
由处理单元进行的处理步骤:切取一部分或全部球形捕捉图像,并对切取的球形捕捉图像进行面内打包,以获得具有矩形形状的投影图像;
由编码单元进行的编码步骤:对投影图像的图像数据进行编码,以获得视频流;
由发送单元进行的发送步骤:发送包括视频流的容器;以及
由插入单元进行的插入步骤:将用于渲染投影图像的元信息插入到容器和/或视频流的层中,其中,
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合。
(10)一种接收装置,包括
接收单元,接收包括通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取部分或全部球形捕捉图像并对切取的球形捕捉图像进行面内打包,而获得所述投影图像,
将用于渲染投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合,
所述接收装置还包括控制单元,所述控制单元控制:解码视频流以获得投影图像的处理;基于用于渲染的元信息渲染投影图像以获得第一显示图像的处理;基于切取位置信息切取投影图像以获得第二显示图像的处理;以及选择性地检索第一显示图像或第二显示图像的处理。
(11)一种接收方法,包括
由接收单元进行的接收步骤:接收包括通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像进行面内打包,而获得所述投影图像,
将用于渲染投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合,
所述接收方法还包括由处理单元进行的控制步骤,控制:解码视频流以获得投影图像的处理;基于用于渲染的元信息渲染投影图像以获得第一显示图像的处理;基于切取位置信息切取投影图像以获得第二显示图像的处理;以及选择性地检索第一显示图像或第二显示图像的处理。
(12)一种接收装置,包括
接收单元,其接收包括通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取部分或全部球形捕捉图像并对切取的球形捕捉图像进行面内打包,而获得所述投影图像,
将用于渲染投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合,
所述接收装置还包括控制单元,所述控制单元控制:解码视频流以获得投影图像的处理;以及基于切取位置信息切取投影图像以获得显示图像的处理。
(13)一种接收方法,包括
由接收单元进行的接收步骤:接收包括通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像进行面内打包,而获得所述投影图像,
将用于渲染投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合,
所述接收方法还包括由控制单元进行的控制步骤,用于控制:解码视频流以获得投影图像的处理;以及基于切取位置信息切取投影图像以获得显示图像的处理。
本技术的主要特征在于,由插入视频流层中的切取位置信息指示的切取位置的中心被设置为与投影图像的参考点重合,由此对应于在VR兼容终端上显示的默认视图的渲染图像和在VR不兼容终端上显示的切取图像形成为公共图像(参见图7、8和17)。
附图标记列表
10、10 发送/接收系统
100 服务发送系统
101 控制单元
102 相机
103 面内打包单元
104 视频编码器
105 容器编码器
106 发送单元
200、200A、200B 服务接收机
201、231 控制单元
202、232 接收单元
203、233 容器解码器
204、234 视频解码器
205 渲染器
206、235 切取装置
207 转换开关
208、236 缩放单元
209、237 显示单元

Claims (12)

1.一种发送装置,包括:
处理单元,其切取一部分或全部球形捕捉图像,并对切取的球形捕捉图像执行面内打包,以获得具有矩形形状的投影图像;
编码单元,其对所述投影图像的图像数据进行编码,以获得视频流;
发送单元,其发送包含视频流的容器;以及
插入单元,其将用于渲染所述投影图像的元信息插入到容器和/或视频流的层中,其中,
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的所述投影图像的参考点重合,
其中,
所述投影图像由多个区域组成,所述多个区域包括以参考点为中心位置的默认区域,并且
由所述切取位置信息指示的位置被调整为与所述默认区域的位置重合。
2.根据权利要求1所述的发送装置,其中,
用于渲染的元信息具有关于参考点的位置信息。
3.根据权利要求1所述的发送装置,其中,
用于渲染的元信息具有向后兼容性信息,所述向后兼容性信息指示由插入视频流层中的所述切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的所述投影图像的参考点重合。
4.根据权利要求1所述的发送装置,其中,
所述发送单元还发送具有关于视频流的元信息的元文件,并且指示将用于渲染的元信息插入到容器和/或视频流的层中这一事实的标识信息进一步被插入到所述元文件中。
5.根据权利要求1所述的发送装置,其中,
所述容器采用国际标准化组织的基本媒体文件格式,并且
所述插入单元将用于渲染的元信息插入到moov框中。
6.根据权利要求1所述的发送装置,其中,
所述容器包括运动图像专家组2-传输流,并且
所述插入单元将用于渲染的元信息插入到节目映射表中。
7.根据权利要求1所述的发送装置,其中,
所述容器包括运动图像专家组媒体传输流,并且
所述插入单元将用于渲染的元信息插入到运动图像专家组媒体传输分组表中。
8.一种发送方法,包括:
由处理单元进行的处理步骤:切取一部分或全部球形捕捉图像,并对切取的球形捕捉图像执行面内打包,以获得具有矩形形状的投影图像;
由编码单元进行的编码步骤:对所述投影图像的图像数据进行编码,以获得视频流;
由发送单元进行的发送步骤:发送包含视频流的容器;以及
由插入单元进行的插入步骤:将用于渲染所述投影图像的元信息插入到容器和/或视频流的层中,其中,
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的所述投影图像的参考点重合,
其中,所述投影图像由多个区域组成,所述多个区域包括以参考点为中心位置的默认区域,并且
由所述切取位置信息指示的位置被调整为与所述默认区域的位置重合。
9.一种接收装置,包括
接收单元,接收包含通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像执行面内打包,来获得所述投影图像,
将用于渲染所述投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的所述投影图像的参考点重合,
所述接收装置还包括控制单元,所述控制单元控制:解码视频流以获得所述投影图像的处理;基于用于渲染的元信息渲染所述投影图像以获得第一显示图像的处理;基于切取位置信息切取所述投影图像以获得第二显示图像的处理;以及选择性地检索第一显示图像或第二显示图像的处理,
其中,所述投影图像由多个区域组成,所述多个区域包括以参考点为中心位置的默认区域,并且
由所述切取位置信息指示的位置被调整为与所述默认区域的位置重合。
10.一种接收方法,包括
由接收单元进行的接收步骤:接收包含通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像执行面内打包,来获得所述投影图像,
将用于渲染所述投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的所述投影图像的参考点重合,
所述接收方法还包括由处理单元进行的控制步骤,控制:解码视频流以获得投影图像的处理;基于用于渲染的元信息渲染投影图像以获得第一显示图像的处理;基于切取位置信息切取投影图像以获得第二显示图像的处理;以及选择性地检索第一显示图像或第二显示图像的处理,
其中,所述投影图像由多个区域组成,所述多个区域包括以参考点为中心位置的默认区域,并且
由所述切取位置信息指示的位置被调整为与所述默认区域的位置重合。
11.一种接收装置,包括
接收单元,其接收包含通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像执行面内打包,来获得所述投影图像,
将用于渲染投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的投影图像的参考点重合,
所述接收装置还包括控制单元,所述控制单元控制:解码视频流以获得投影图像的处理;以及基于切取位置信息切取投影图像以获得显示图像的处理,
其中,所述投影图像由多个区域组成,所述多个区域包括以参考点为中心位置的默认区域,并且
由所述切取位置信息指示的位置被调整为与所述默认区域的位置重合。
12.一种接收方法,包括
由接收单元进行的接收步骤:接收包含通过编码具有矩形形状的投影图像的图像数据而获得的视频流的容器,其中,
通过切取一部分或全部球形捕捉图像并对切取的球形捕捉图像执行面内打包,来获得所述投影图像,
将用于渲染投影图像的元信息插入到容器和/或视频流的层中,并且
由插入视频流的层中的切取位置信息指示的切取位置的中心与由用于渲染的元信息指示的所述投影图像的参考点重合,
所述接收方法还包括由控制单元进行的控制步骤,控制:解码视频流以获得所述投影图像的处理;以及基于切取位置信息切取投影图像以获得显示图像的处理,
其中,所述投影图像由多个区域组成,所述多个区域包括以参考点为中心位置的默认区域,并且
由所述切取位置信息指示的位置被调整为与所述默认区域的位置重合。
CN201880050128.5A 2017-08-10 2018-08-06 发送装置、发送方法、接收装置和接收方法 Expired - Fee Related CN110999308B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-155800 2017-08-10
JP2017155800 2017-08-10
PCT/JP2018/029492 WO2019031469A1 (ja) 2017-08-10 2018-08-06 送信装置、送信方法、受信装置および受信方法

Publications (2)

Publication Number Publication Date
CN110999308A CN110999308A (zh) 2020-04-10
CN110999308B true CN110999308B (zh) 2022-02-01

Family

ID=65271209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880050128.5A Expired - Fee Related CN110999308B (zh) 2017-08-10 2018-08-06 发送装置、发送方法、接收装置和接收方法

Country Status (5)

Country Link
US (1) US11089285B2 (zh)
EP (1) EP3668102A4 (zh)
JP (1) JPWO2019031469A1 (zh)
CN (1) CN110999308B (zh)
WO (1) WO2019031469A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019139099A1 (ja) * 2018-01-12 2020-12-24 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US11265580B2 (en) * 2019-03-22 2022-03-01 Tencent America LLC Supplemental enhancement information messages for neural network based video post processing
US11659201B2 (en) * 2019-08-16 2023-05-23 Qualcomm Incorporated Systems and methods for generating scaling ratios and full resolution pictures
US11533351B2 (en) * 2020-09-24 2022-12-20 Apple Inc. Efficient delivery of multi-camera interactive content
US20240012655A1 (en) * 2022-07-11 2024-01-11 Xilinx, Inc. Distributed configuration of programmable devices

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102783142A (zh) * 2010-03-04 2012-11-14 松下电器产业株式会社 图像显示装置和图像显示方法
JP2013106341A (ja) * 2012-04-16 2013-05-30 Sony Corp 送信装置、送信方法、受信装置および受信方法
CN103227947A (zh) * 2012-01-27 2013-07-31 三星电子株式会社 信号处理装置及方法、显示装置及系统、音频处理方法
CN103607568A (zh) * 2013-11-20 2014-02-26 深圳先进技术研究院 立体街景视频投影方法及系统
CN105227963A (zh) * 2015-08-31 2016-01-06 北京暴风科技股份有限公司 对终端进行流媒体采集自动识别方向并调整的方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859433B (zh) * 2009-04-10 2013-09-25 日电(中国)有限公司 图像拼接设备和方法
JP2011155412A (ja) * 2010-01-26 2011-08-11 Panasonic Electric Works Co Ltd 投影システムおよび投影システムにおける歪み修正方法
JP2013027021A (ja) * 2011-07-26 2013-02-04 Canon Inc 全方位撮像装置及び全方位撮像方法
JP2015156051A (ja) * 2012-06-06 2015-08-27 ソニー株式会社 画像処理装置、画像処理方法、プログラム
CN105340281B (zh) * 2013-07-05 2019-06-28 索尼公司 发送装置、发送方法、接收装置和接收方法
JP2016194784A (ja) 2015-03-31 2016-11-17 株式会社リコー 画像管理システム、通信端末、通信システム、画像管理方法、及びプログラム
US20190373245A1 (en) * 2017-03-29 2019-12-05 Lg Electronics Inc. 360 video transmission method, 360 video reception method, 360 video transmission device, and 360 video reception device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102783142A (zh) * 2010-03-04 2012-11-14 松下电器产业株式会社 图像显示装置和图像显示方法
CN103227947A (zh) * 2012-01-27 2013-07-31 三星电子株式会社 信号处理装置及方法、显示装置及系统、音频处理方法
JP2013106341A (ja) * 2012-04-16 2013-05-30 Sony Corp 送信装置、送信方法、受信装置および受信方法
CN103607568A (zh) * 2013-11-20 2014-02-26 深圳先进技术研究院 立体街景视频投影方法及系统
CN105227963A (zh) * 2015-08-31 2016-01-06 北京暴风科技股份有限公司 对终端进行流媒体采集自动识别方向并调整的方法及系统

Also Published As

Publication number Publication date
JPWO2019031469A1 (ja) 2020-07-09
EP3668102A1 (en) 2020-06-17
US20200186780A1 (en) 2020-06-11
EP3668102A4 (en) 2020-06-17
WO2019031469A1 (ja) 2019-02-14
CN110999308A (zh) 2020-04-10
US11089285B2 (en) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110999308B (zh) 发送装置、发送方法、接收装置和接收方法
US10582201B2 (en) Most-interested region in an image
US10805650B2 (en) Signaling important video information in network video streaming using mime type parameters
KR20200030053A (ko) 미디어 콘텐츠를 위한 영역별 패킹, 콘텐츠 커버리지, 및 시그널링 프레임 패킹
KR20190014501A (ko) 이미지에서 가장 관심있는 영역의 진보된 시그널링
US10567734B2 (en) Processing omnidirectional media with dynamic region-wise packing
US11606586B2 (en) Transmission apparatus, transmission method, reception apparatus, and reception method
WO2019139099A1 (ja) 送信装置、送信方法、受信装置および受信方法
RU2767300C2 (ru) Высокоуровневая передача служебных сигналов для видеоданных типа &#34;рыбий глаз&#34;
WO2019107175A1 (ja) 送信装置、送信方法、受信装置および受信方法
CN110915221B (zh) 发送装置、发送方法、接收装置、以及接收方法
CN111684823B (zh) 发送装置、发送方法、处理装置以及处理方法
EP3136733B1 (en) Transmission device, transmission method, reception device, and reception method
KR102117805B1 (ko) 전방향성 미디어 포맷을 이용한 미디어 데이터 프로세싱
WO2019181493A1 (ja) 受信装置、受信方法、送信装置および送信方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220201