CN114026849A - 信息处理装置、信息处理方法、再现处理装置以及再现处理方法 - Google Patents

信息处理装置、信息处理方法、再现处理装置以及再现处理方法 Download PDF

Info

Publication number
CN114026849A
CN114026849A CN202080047166.2A CN202080047166A CN114026849A CN 114026849 A CN114026849 A CN 114026849A CN 202080047166 A CN202080047166 A CN 202080047166A CN 114026849 A CN114026849 A CN 114026849A
Authority
CN
China
Prior art keywords
transition
information
viewpoint
file
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080047166.2A
Other languages
English (en)
Inventor
木山由佳
高桥辽平
平林光浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN114026849A publication Critical patent/CN114026849A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • H04N21/4725End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content using interactive regions of the image, e.g. hot spots
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Computer Graphics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供一种向用户提供高质量的视听体验的信息处理装置、信息处理方法、再现处理装置和再现处理方法。元数据生成单元生成用于识别第二视点的转变识别信息,该第二视点是可以从第一图像转变的第二图像中的视点位置,第一图像的视点位置是第一视点。文件生成单元生成包括第一图像的数据和转变识别信息的文件。

Description

信息处理装置、信息处理方法、再现处理装置以及再现处理 方法
技术领域
本发明涉及信息处理装置、信息处理方法、再现处理装置以及再现处理方法。
背景技术
运动图片专家组-基于HTTP的动态自适应流(MPEG-DASH)作为基于超文本传输协议(HTTP)的自适应内容递送技术的标准而存在。此外,作为用于运动图像压缩的国际标准技术“MPEG-4”的文件容器规范的国际标准化组织基础媒体文件格式(ISOBMFF)被提供作为MPEG-DASH的文件格式。
顺便提及,存在一种视频,其将通过映射三维结构图像获得的全向图像再现为平面图像,该三维结构图像是通过将绕水平方向360度的图像和绕竖直方向180度的图像投影到三维结构上而获得的图像,如同所谓的全向视频。全向视频也被称为3自由度(3DoF)视频,并且全向图像也被称为投影平面图像或3DoF图像。在MPEG-I全向媒体格式(OMAF)中,已经考虑使用MPEG-DASH来递送形成全向图像的三维结构图像。
此外,在MPEG-I Phase 1b要求中,已提出了一种用于从被称为多视点的多个视点递送全向视频的技术。通过使用该多视点,可以通过执行从某个视点的全向视频到另一视点的全向视频的切换来向用户提供内容。视点是指全向视频的视点位置。
引文列表
非专利文献
非专利文献1:“ISO/IEC”14496-12:2015年,信息技术,视听对象的编码,第12部分:ISO基本媒体文件格式,2015年12月
发明内容
技术问题
然而,客户端装置不具有指示创建者的意图(例如,可以从当前观看的全向视频向哪个其他全向视频转变)的信息。在客户端装置不具有指示可转变全向视频等的信息的递送系统中,难以提供包括向可转变的全向视频的转变的观看体验,并且观看者的观看体验的质量可能受损。
此外,由于实现视频转变的功能取决于在客户端装置中实现的功能的类型,因此在再现内容时不总是适当地反映创建者的意图。因此,可能损害用户的观看体验质量。
因此,本公开内容提供了向用户提供高质量观看体验的信息处理装置、信息处理方法、再现处理装置和再现处理方法。
问题的解决方案
根据本公开内容,元数据生成单元生成用于识别第二视点的转变识别信息,该第二视点是能够从视点位置为第一视点的第一视频转变的第二视频的视点位置。文件生成单元生成包括第一视频数据的数据和转变识别信息的文件。
附图说明
图1是递送系统的示例的系统配置图。
图2是文件生成装置的框图。
图3是用于描述转变识别信息的存储的图。
图4是客户端装置的框图。
图5是由文件生成装置执行的文件生成处理的流程图。
图6是元数据生成处理的流程图。
图7是由客户端装置执行的再现处理的流程图。
图8是视点转变处理的流程图。
图9是示出VWPT描述符的扩展示例的图。
图10是示出其中在VWPT描述符中包括ViewpintInfo.SwitchableContent的MPD文件的示例的图。
图11是示出以视点组作为转变目的地的转变识别信息的存储的示例的图。
图12是示出SphereRegionStruct()和RegionForViewpoint()的示例的图。
图13是示出覆盖的控制结构的图。
图14是示出SphereRelativeOmniOverlay()和AssociatiedSpereRegion()的示例的图。
图15是示出新添加了用于存储转变执行区域信息的新控制结构的overlay_control_struct()的示例的图。
图16是示出Associatedviewpointregion()的示例的图。
图17是示出新添加了用于存储转变识别信息的新控制结构的overlay_control_struct()的示例的图。
图18是示出Associatedviewpointregion()和AssociatedViewpoint()的示例的图。
图19是示出在视频显示区域被转移至转变执行区域的情况下的AssociatedSphereRegion()的示例的图。
图20是示出在一定时间段之后显示转变执行区域信息的情况下的RegionForViewpoint()的示例的图。
图21是示出在切换用户交互的情况下的RegionForViewpoint()的示例的图。
图22是示出Matroska媒体容器的格式的图。
图23是计算机的硬件配置图。
具体实施方式
在下文中,将参照附图详细描述本公开内容的实施方式。注意,在以下每个实施方式中,相同的附图标记表示相同的部分,并且将省略重复的描述。此外,本技术中所公开的范围不限于实施方式的内容,并且包括在提交时已知的以下非专利文献中描述的内容。
非专利文献1:(如上所述)
非专利文献2:ISO/IEC 23090-2:2019年,信息技术,沉浸式媒体的编码表示,第2部分:全向媒体格式,2019年1月
非专利文献3:N18393,ISO/IEC 23090-2OMAF第2版的WD5,2019年5月16日
非专利文献4:m47385,[OMAF]多视点切换转变,2019年3月
非专利文献5:“Matroska Media Container”,[2020年3月12日检索],因特网<URL:https://www.matroscka.org/>
即,上述非专利文献中描述的内容也通过引用并入本文中。即,上述非专利文献中描述的内容也用作确定支持要求的基础。例如,即使在本发明的详细描述中未直接限定非专利文献1至5中描述的文件结构的情况下,它们也落入本公开内容的范围内,并且满足权利要求的支持要求。此外,例如,即使在本发明的详细描述中也未直接限定诸如解析、语法和语义的技术术语的情况下,这些技术术语也落入本公开内容的范围内,并且满足权利要求的支持要求。
此外,将按以下顺序描述本公开内容。
1.第一实施方式
1.1第一实施方式的修改示例(1)
1.2第一实施方式的修改示例(2)
2.第二实施方式
2.1第二实施方式的修改示例(1)
2.2第二实施方式的修改示例(2)
2.3第二实施方式的修改示例(3)
2.3第二实施方式的修改示例(4)
3.第三实施方式
4.第四实施方式
[1.第一实施方式]
(第一实施方式的递送系统的配置)
图1是递送系统的示例的系统配置图。递送系统100包括:作为信息处理装置的文件生成装置1、作为再现处理装置的客户端装置2、以及web服务器3。文件生成装置1、客户端装置2和web服务器3连接至网络4。文件生成装置1、客户端装置2和web服务器3可以经由网络4彼此执行通信。这里,虽然图1示出了每个装置的数量是一的情况,但递送系统100可以包括多个文件生成装置1和多个客户端装置2。
文件生成装置1生成作为用于提供3自由度(3DoF)视频的数据的3DoF内容。文件生成装置1将生成的3DoF内容上载至web服务器3。这里,在本实施方式中将描述web服务器3向客户端装置2提供3DoF内容的配置,但是递送系统100可以具有另一种配置。例如,文件生成装置1可以具有web服务器3的功能,将生成的3DoF内容存储在该web服务器3中,并将3DoF内容提供给客户端装置2。
web服务器3保存从文件生成装置1上载的3DoF内容。然后,web服务器3提供由来自客户端装置2的请求指定的3DoF内容。
客户端装置2向web服务器3发送对3DoF内容的传输请求。然后,客户端装置2从web服务器3获取由传输请求指定的3DoF内容。然后,客户端装置2对3DoF内容进行解码以生成视频,并使诸如监测器的显示装置显示该视频。
(根据第一实施方式的文件生成装置的配置)
接下来,将描述文件生成装置1的细节。图2是文件生成装置的框图。如图2所示,作为信息处理装置的文件生成装置1包括文件生成处理单元10、控制单元11和通信单元12。控制单元11执行与文件生成处理单元10的控制有关的处理。例如,控制单元11对文件生成处理单元10等的每个单元的操作的定时执行集中控制。文件生成处理单元10包括数据获取单元101、编码单元102、元数据生成单元103和文件生成单元104。
数据获取单元101接收用于显示3DoF视频的3DoF内容的原始数据。3DoF内容的原始数据包括用于生成3DoF图像的图像数据和用于生成元数据的控制信息。控制信息包括例如每条图像数据的时间信息、每条图像数据的视点位置信息以及能够从每条图像数据转变的图像数据的信息。此外,控制信息包括指示与每条图像数据对应的视点的信息、每个视点的位置信息、指示与可转变视点的对应关系的信息等。数据获取单元101将包括在3DoF内容的原始数据中的获取的图像数据输出至编码单元102。此外,数据获取单元101将包括在3DoF内容的原始数据中的获取的控制信息输出至元数据生成单元103。
编码单元102从数据获取单元101接收图像数据。然后,编码单元102对图像数据执行编码处理,以生成3DoF图像数据。然后,编码单元102将生成的3DoF图像数据输出至文件生成单元104。
在下文中,视点位置可以被称为视点。此外,在强调3DoF图像数据是从各个视点位置观看时的图像的事实的情况下,3DoF图像数据可以被称为“视点图像数据”,并且在再现视点图像数据的情况下显示的全向图像可以被称为“视点图像”。
元数据生成单元103从数据获取单元101接收控制信息。接下来,元数据生成单元103基于控制信息来生成元数据。元数据包括与图像生成和再现有关的控制信息,例如使用何种编解码器以进行压缩。此外,元数据生成单元103生成以下信息作为元数据。
元数据生成单元103基于所获取的控制信息来生成用于识别可从每个视点转变的视点的转变识别信息。具体地,元数据生成单元103向每个视点分配作为识别信息的viewpoint_id。此外,元数据生成单元103将可转变视点的识别信息与作为转变源的视点的识别信息相关联。通过使用转变识别信息,客户端装置2可以识别能够从特定视点转变的视点,并且可以实现到可转变视点的转变。然后,元数据生成单元103将以该视点作为转变源的转变识别信息与每个视点处的视点图像数据相关联。
此外,元数据生成单元103基于包括在控制信息中的视点的位置信息,来计算与转变目的地视点对应的转变执行区域在转变源的视点图像中的显示位置。接下来,元数据生成单元103通过使用计算的转变执行区域的显示位置,来生成指示每个视点图像上的转变执行区域的转变执行区域信息。
接下来,元数据生成单元103生成转变触发信息,其指示用作用于执行由控制信息指定的转变的触发器的操作。此后,元数据生成单元103将对应的转变执行区域信息和转变触发信息与每条视点图像数据相关联。以这种方式,元数据生成单元103将转变识别信息和转变执行区域信息与对应的视点图像数据相关联,从而生成指示可转变视点的3DoF图像数据。
此后,元数据生成单元103将包括转变识别信息、转变执行区域信息和转变触发信息的元数据输出至文件生成单元104。
文件生成单元104从编码单元102接收3DoF图像数据。此外,文件生成单元104从元数据生成单元103接收包括转变识别信息、转变执行区域信息和转变触发信息的元数据。然后,文件生成单元104将获取的3DoF图像数据按每个片段存储在ISOBMFF文件中以形成文件,从而生成3DoF图像数据的片段文件。此外,文件生成单元104在每个ISOBMFF文件中存储各种信息,例如,在元数据中包括的转变识别信息、转变执行区域信息和转变触发信息。IOSBMFF文件的每个TrackBox包括关于一个视点图像的信息。在下文中,IOSBMFF文件中的每个TrackBox都可以简称为轨迹。例如,IOSBMFF文件的每个轨迹包括到特定视点图像数据的链接等。
这里,将描述由文件生成单元104在ISOBMFF文件中存储转变识别信息。文件生成单元104生成由图3的语法111指示的ViewpointTrackGroupBox,以存储转变识别信息。图3是用于描述转变识别信息的存储的图。
ViewpointTrackGroupBox是在使用OMAF的多视点(Multiple Viewpoint)的情况下使用的盒。ViewpointTrackGroupBox是ISOBMFF文件的TrackBox中包括的盒,并且存储在TrackBox中包括的视频的视点信息、位置信息、分组信息、坐标旋转信息等。即,ViewpointTrackGroupBox对应于一个视点图像数据。
由语法112指示的带符号的viewpoint_lavel表示轨迹中包括的视频的视点信息。视点信息例如是viewpoint_id,其是视点的标识信息,并且与track_group_id一致。此外,ViewPosStruct()表示视点的位置信息。
ViewpointGroupStruct()是用于对视点进行分组的信息,并且包括VWPT_group_id和VWPT_group_descrption。一组视点例如是某建筑物中的一组视点。在该组中使用相同的坐标。
ViewpointGlobalCoordinateSysRotationStruct()包括视点所参考的全局坐标系中的旋转信息。ViewpointGlobalCoordinateSysRotationStruct()取决于图像捕获时的设置。两个视点之间的关系可以通过ViewpointGlobalCoordinateSysRotationStruct()来表达。
此外,根据本实施方式的文件生成单元104扩展如语法111中所示的ViewpointTrackGroupBox,并且将指示转变识别信息的SwitchableContentStruct()存储在ViewpointTrackGroupBox中。
文件生成单元104新限定由语法112指示的SwitchableContentStruct()。文件生成单元104表达用于识别能够通过SwitchableContentStruct()从作为某个视点处的全向视频的视点图像转变的视点的转变识别信息。如上所述,通过将作为转变识别信息的SwitchableContentStruct()存储在ViewpointTrackGroupBox中,将与特定视点图像数据对应的转变识别信息存储在存储特定视点图像数据的ISOBMFF文件中。
这里,在本实施方式中,文件生成单元104将作为转变识别信息的SwitchableContentStruct()存储在ViewpointTrackGroupBox中,但本发明不限于此,也可以将SiwtchableContentStruct()存储在TrackGroupTypeBox()中。此外,文件生成单元104将与特定视点图像数据对应的转变执行区域信息和转变触发信息存储在用于存储特定视点图像数据的ISOBMFF文件中。因此,文件生成单元104完成了3DoF内容的片段文件。
此外,文件生成单元104基于从元数据生成单元103获取的元数据来生成媒体呈现描述(MPD)文件。在MPD文件中,存储有诸如媒体类型的3DoF内容的元信息和运动图像或声音的片段文件的信息。此后,文件生成单元104将生成的3FoF内容的片段文件和MPD文件输出至通信单元12。
通信单元12从文件生成单元104获取3DoF内容的存储有3DoF图像数据、元数据、转变识别信息、转变执行区域信息和转变触发信息的片段文件和MPD文件。然后,通信单元12将所获取的3DoF内容的片段文件和MPD文件发送并上载至web服务器3。
(根据第一实施方式的客户端装置的配置)
图4是客户端装置的框图。如图4所示,客户端装置2包括再现处理单元20、控制单元21和通信单元22。控制单元21控制再现处理单元20的每个单元的操作。例如,控制单元单元21对再现处理单元20的每个单元的操作的定时执行集中控制。再现处理单元20包括文件获取单元201、测量单元202、文件处理单元203、解码处理单元204、显示信息生成单元205和显示单元206。
通信单元22从web服务器3获取3DoF内容的片段文件和MPD文件。然后,通信单元22将所获取的3DoF内容的片段文件和MPD文件输出至文件获取单元201。
文件获取单元201经由通信单元22从web服务器3获取与要再现的3DoF内容对应的MPD文件。MPD文件包括关于3DoF内容的数据的存储目的地的信息和关于视频再现的信息例如编码速度或图像大小。然后,文件获取单元201将所获取的MPD文件输出至文件处理单元203。此后,文件获取单元201从文件处理单元203接收关于要再现的3DoF内容的数据的存储目的地的信息。
文件获取单元201通过使用所获取的关于3DoF内容的数据的存储目的地的信息来向web服务器3发出用于获取3DoF内容的数据的请求。然后,文件获取单元201获取3DoF内容的片段文件。此后,文件获取单元201将3DoF内容的片段文件输出至文件处理单元203。
测量单元202测量客户端装置2与web服务器之间的传输路径的传输频带。然后,测量单元202将测量传输频带的结果输出至文件处理单元203。此外,测量单元202接收操作者的诸如视点的移动的操作。例如,在监测器上显示的3DoF图像中显示转变执行区域的情况下,操作者执行诸如点击转变执行区域的操作。然后,测量单元202将用户的操作输出至文件处理单元203。
文件处理单元203从文件获取单元201接收与要再现的3DoF内容对应的MPD文件。然后,文件处理单元203解析所获取的MPD文件,并获取指示要再现的3DoF内容的数据的信息。此外,文件处理单元203还识别用于自适应递送的多条数据。例如,在切换比特率的自适应递送的情况下,文件处理单元203获取与每个比特率对应的3DoF图像数据的信息。此后,文件处理单元203选择要再现的3DoF内容,并且将所选择的3DoF内容的信息输出至文件获取单元201。
文件处理单元203从文件获取单元201接收存储有要再现的3DoF内容的数据的片段文件。文件处理单元203解析所获取的片段文件。然后,文件处理单元203获取3DoF图像数据、元数据、转变识别信息、转变执行区域信息和转变触发信息。
此外,文件处理单元203从测量单元202接收测量传输频带的结果。然后,文件处理单元203基于解析结果来选择要再现的3DoF图像数据,该信息指示从测量单元202获取的传输频带等。然后,文件处理单元203将所选择的3DoF图像数据输出至解码处理单元204。此外,文件处理单元203将所获取的元数据和转变执行区域信息输出至显示信息生成单元205。
此外,文件处理单元203从测量单元202接收操作者的操作。然后,文件处理单元203通过使用转变执行区域信息来确定输入操作是否是对接受视点转变操作的转变执行区域的操作。此外,文件处理单元203通过使用转变触发信息来确定操作者的操作是否是用作引起视点转变的转变触发器的操作。
在操作者的操作是用作用于转变执行区域的转变触发器的操作的情况下,文件处理单元203从所获取的转变识别信息获取与输入操作对应的转变被执行的情况下的转变目的地视点。然后,文件处理单元203指定与所获取的视点对应的3DoF内容。
在未获取指定的3DoF内容的情况下,文件处理单元203将指定的3DoF内容的信息输出至文件获取单元201以请求所指定的3DoF内容的获取。此后,一旦获取所指定的3DoF内容的片段文件,文件处理单元203就执行解析,以获取3DoF内容的3DoF图像数据、元数据和转变识别信息。然后,文件处理单元203将获取的3DoF图像数据输出至解码处理单元204。此外,文件处理单元203将元数据输出至显示信息生成单元205,并且给出用于切换3DoF内容的指令。
解码处理单元204从文件处理单元203接收3DoF图像数据。然后,解码处理单元204对所获取的3DoF图像数据的数据执行解码处理。此后,解码处理单元204将经受解码处理的3DoF图像数据输出至显示信息生成单元205。
显示信息生成单元205从解码处理单元204接收经解码的3DoF图像数据。此外,显示信息生成单元205从文件处理单元203接收元数据和转变执行区域信息。然后,显示信息生成单元205通过使用关于由元数据指定的视点位置、视点方向和时间的信息,根据3DoF图像数据生成显示图像。此外,显示信息生成单元205将由转变执行区域信息指定的显示图像的区域设置为转变执行区域。此后,显示信息生成单元205将所生成的显示图像提供给显示单元206以进行显示。
此外,在显示单元206上显示根据3DoF图像数据生成的显示图像的同时,显示信息生成单元205可以从文件处理单元203接收用于切换3DoF内容的指令。在这种情况下,显示信息生成单元205从由文件处理单元203指定的3DoF内容中获取3DoF图像数据。然后,显示信息生成单元205使显示单元206显示根据所获取的3DoF图像数据生成的显示图像,并且切换视点。同样在这种情况下,显示信息生成单元205也在视点转变之后的显示图像中设置转变执行区域。
显示单元206包括诸如监测器的显示装置。显示单元206接收由显示信息生成单元205生成的显示图像。然后,显示单元206使显示装置显示所获取的显示图像。
(根据第一实施方式的文件生成过程)
接下来,将参照图5详细描述根据第一实施方式的由文件生成装置1执行的文件生成处理的流程。图5是由文件生成装置执行的文件生成处理的流程图。
数据获取单元101获取3DoF内容的原始数据。原始数据包括从多个视点观看的图像的图像数据和控制信息。然后,数据获取单元101将包括在所获取的原始数据中的控制信息输出至元数据生成单元103。元数据生成单元103通过使用控制信息来生成包括转变识别信息、转变执行区域信息和转变触发信息的元数据(步骤S101)。
此外,数据获取单元101将包括在所获取的原始数据中的图像数据输出至编码单元102。编码单元102使用图像数据来生成作为从多个视点观看时的每个图像的数据的多条视点图像数据(步骤S102)。
接下来,元数据生成单元103将转变识别信息、转变执行区域信息和转变触发信息与由编码单元102生成的每条视点图像数据相关联,并且生成指示可转变视点的视点图像数据(步骤S103)。
文件生成单元104从编码单元102获取经编码的视点图像数据。此外,文件生成单元104从元数据生成单元103获取元数据,该元数据包括在其中转变识别信息、转变执行区域信息和转变触发信息与每条视点图像数据相关联的信息。然后,文件生成单元104将包括多条视点图像数据的3DoF图像数据按每个片段存储在ISOBMFF文件中。此外,文件生成单元104将与每条视点图像数据对应的转变识别信息、转变执行区域信息和转变触发信息存储在ISOBMFF文件中,并且生成3DoF内容的片段文件(步骤S104)。
接下来,文件生成单元104将所生成的3DoF内容的片段文件输出至通信单元12。通信单元12将由文件生成单元104生成的3DoF内容的片段文件输出至web服务器3(步骤S105)。
接下来,将参照图6详细描述元数据生成处理。图6是元数据生成处理的流程图。图6的流程图中所示的处理与图5的步骤S101中执行的处理的示例对应。
元数据生成单元103将识别信息分配给由从数据获取单元101获取的控制信息提供的每个视点通知。接下来,元数据生成单元103基于包括在控制信息中的可转变视点的对应关系,通过使用每个视点的识别信息来生成指示能够从作为转变源的视点转变的视点的转变识别信息(步骤S111)。
接下来,元数据生成单元103基于包括在控制信息中的视点的位置信息来计算与转变目的地视点对应的转变执行区域在转变源的视点图像中的显示位置(步骤S112)。
接下来,元数据生成单元103通过使用计算的转变执行区域的显示位置来生成指示每个视点图像上的转变执行区域的转变执行区域信息(步骤S113)。
接下来,元数据生成单元103生成指示用作用于执行由控制信息指定的转变的触发器的操作的转变触发信息(步骤S114)。此后,元数据生成单元103还生成与图像生成和再现有关的控制信息等,例如要使用的编解码器,并且结束包括转变识别信息、转变执行区域信息和转变触发信息的元数据的生成。
[根据第一实施方式的再现处理过程]
接下来,将参照图7描述由客户端装置2执行的再现处理的流程。图7是由客户端装置执行的再现处理的流程图。
文件获取单元201经由通信单元22从web服务器3获取与要再现的3DoF内容对应的MPD文件。接下来,文件处理单元203解析MPD文件并执行分析处理。然后,文件获取单元201从web服务器3获取在由文件处理单元203在分析结果中指定的要再现的3DoF内容的片段文件(步骤S201)。
文件处理单元203对由文件获取单元201获取的3DoF内容的片段文件进行解析。接下来,文件处理单元203对通过解析获得的元数据执行分析处理(步骤S202)。
然后,在从测量单元202接收到操作者的操作的情况下,文件处理单元203考虑这样的信息根据元数据分析处理结果来确定要再现的内容的配置(步骤S203)。
文件处理单元203根据所确定的内容的配置来获取3DoF内容的片段文件(步骤S204)。
文件处理单元203从所获取的3DoF内容的片段文件中获取3DoF图像数据,并且将3DoF图像数据输出至解码处理单元204。解码处理单元204对3DoF图像数据执行解码处理。此后,解码处理单元204将经解码的3DoF图像数据输出至显示信息生成单元205。显示信息生成单元205通过使用包括在元数据中的信息来执行生成包括转变执行区域的显示图像并将显示图像显示在显示单元206上的观看处理(步骤S205)。
接下来,将参照图8详细描述视点转变处理。图8是视点转变处理的流程图。
文件处理单元203对3DoF内容的片段文件进行解析,以获取元数据,并且从元数据中获取转变识别信息、转变执行区域信息和转变触发信息(步骤S211)。
接下来,文件处理单元203获取要显示的3DoF图像数据(步骤S212)。
接下来,文件处理单元203将获取的3DoF图像数据输出至解码处理单元204。文件处理单元203将获取的元数据输出至显示信息生成单元205。解码处理单元204对3DoF图像数据进行解码,并将解码的3DoF图像数据输出至显示信息生成单元205。显示信息生成单元205根据3DoF图像数据和元数据来生成显示图像,并使显示单元206显示该显示图像(步骤S213)。
此后,文件处理单元203从测量单元202接收操作者的操作的通知(步骤S214)。
接下来,文件处理单元203确认输入操作是用作用于转变执行区域的转变触发器的操作。然后,文件处理单元203根据该操作来指定转变目的地视点。接下来,文件处理单元203获取包括指定的转变目的地视点的视点图像数据的片段文件(步骤S215)。
接下来,文件处理单元203获取转变目的地视点图像数据,使解码处理单元204对视点图像数据进行解码,将经解码的视点图像数据发送至显示信息生成单元205,并且给出用于切换内容的指令。显示信息生成单元205从文件处理单元203接收用于切换内容的指令连同转变目的地视点图像数据。此后,显示信息生成单元205根据所获取的视点图像数据生成显示图像,并将显示图像显示在显示单元206上,从而将显示图像的视点切换至转变目的地视点(步骤S216)。
如上所述,根据本实施方式的文件生成装置生成指示可转变视点的信息,并将该信息与每个3DoF图像的视点相关联地存储在3DoF内容中。因此,客户端装置可以在所显示的3DoF图像的视点之中识别可转变视点,并将这些视点提供给操作者。此外,一旦操作者在提供的可转变视点之中指定转变目的地视点并给出用于切换的指令,客户端装置就可以执行从自当前视点观看的3DoF图像到从指定视点观看的3DoF图像的切换。换言之,在根据本实施方式的递送系统中,操作者可以识别可转变视点,并且可以在可转变视点之中指定转变目的地视点,以执行到期望视频的转变。因此,可以向用户提供观看体验,例如按照创建者的意图转变到期望的图像,使得可以向用户提供高质量的观看体验。
[1.1第一实施方式的修改示例(1)]
接下来,将描述第一实施方式的修改示例(1)。在本修改示例中,将转变识别信息存储在由MPEG-DASH限定的VWPT描述符中。
根据本修改示例的元数据生成单元103扩展如图9所示的MPD文件中的VWPT描述符,以存储转变识别信息。图9是示出VWPT描述符的扩展示例的图。元数据生成单元103在VWPT描述符中从图9的底部起在两行中新限定了ViewPointInfo.SwitchableContent和ViewPointInfo.SwitchableContent@content。ViewPointInfo.SwitchableContent@content表示视点的识别信息。
文件生成单元104生成由图10所示的语法指示的3DoF内容的MPD文件,并将ViewpintInfo.SwitchableContent存储在VWPT描述符中。图10是示出其中在VWPT描述符中包括ViewpintInfo.SwitchableContent的MPD文件的示例的图。在图10的MPD文件中,为每个视点提供了AdaptationoSet,并且能够从视点转变的视点的ID由其中的SwitchableContent内容的值指示。
如上所述,转变识别信息也可以存储在VWPT描述符中。如上所述,即使在被存储在VWPT描述符中的情况下,也可以向客户端装置提供可转变视点的识别信息,并且向用户提供高质量的观看体验。
[1.2第一实施方式的修改示例(2)]
接下来,将描述第一实施方式的修改示例(2)。在本修改示例中,使用包括作为转变目的地的多个可转变视点的视点组的信息作为转变识别信息。
根据本修改示例的元数据生成单元103向每个视点添加识别信息。此外,元数据生成单元103生成包括多个视点的视点组,并且向该视点组添加识别信息。例如,元数据生成单元103通过对视点的多条识别信息进行分组来生成视点组。然后,对于每个视点,元数据生成单元103选择包括能够从该视点转变的视点的视点组。然后,元数据生成单元103通过使用视点和视点组的识别信息来生成用于从每个视点的视点图像数据识别可转变视点组的转变识别信息。然后,元数据生成单元103将转变识别信息输出至文件生成单元104。
文件生成单元104从元数据生成单元103接收转变识别信息。然后,文件生成单元104新限定表示由图11的语法131指示的转变识别信息的SwitchableContentStruct()。语法131中的VQPT_group_id对应于视点组的识别信息。图11是示出以视点组作为转变目的地的转变识别信息的存储的示例的图。此外,元数据生成单元103将SwitchableContentStruct()存储在ISOBMFF文件的ViewpointTrackGroup中。因此,文件生成单元104将存储在ISOBMFF文件中的视点图像数据与转变识别信息相关联,使得可以从视点图像数据中识别可转变视点组。
在以上描述中,视点组被设置为转变目的地,但是另一视频的信息也可以被设置为转变目的地。例如,元数据生成单元103可以使用关于对由统一资源定位符(URL)(例如,表示MPD的URL或表示web上的位置的URL)指定的另一视频的访问的信息,作为指示作为转变目的地的另一视频的信息。在这种情况下,元数据生成单元103生成以另一视频作为转变目的地的转变识别信息,并且将转变识别信息输出至文件生成单元104。
文件生成单元104从元数据生成单元103接收以另一视频作为转变目的地的转变识别信息。然后,文件生成单元104新限定由图11的语法132指示的SwitchableContentStruct(),并存储转变识别信息。在语法32中,MPD_URL与作为转变目的地的另一视频的识别信息对应。
如上所述,在根据本修改示例的文件生成装置中,除了该视点之外的一个视点被指定为转变目的地,并且客户端装置可以识别转变目的地。以这种方式,通过将除了该视点之外的一个视点指定为转变目的地,可以向用户提供从由特定视点图像数据表示的图像起的转变目的地,并且向用户提供高质量的观看体验。
[2.第二实施方式]
在本实施方式中,将详细描述指示作为用于接受用于转变视频的操作的区域的转变执行区域的转变执行区域的生成。根据本实施方式的文件生成装置1提供转变执行区域作为用于将视点转变的交互区域。根据本实施方式的文件生成装置1也由图2的框图表示。在下面的描述中,可以省略由与第一实施方式的单元类似的每个单元执行的处理的描述。
元数据生成单元103基于包括在控制信息中的视点的位置信息和方向信息,来计算与转变目的地视点对应的转变执行区域在转变源的视点图像中的显示位置。例如,元数据生成单元103获得作为视点图像的全向视频中的转变执行区域的大小和转变执行区域的显示位置作为转变执行区域信息。在本实施方式中,元数据生成单元103将全向视频上的交互矩形区域设置为转变执行区域。在转变执行区域为矩形的情况下,转变执行区域的大小由长度和宽度来表示。例如,元数据生成单元103将转变执行区域确定为用于显示关于可在全向图像上的视点方向上转变的视点的信息的区域,并且生成转变执行区域信息。此外,元数据生成单元103生成其中转变执行区域和与转变执行区域对应的视点的识别信息相关联的信息。
然后,元数据生成单元103向文件生成单元104输出转变执行区域信息和其中转变执行区域和与转变执行区域对应的视点相关联的信息。此时,元数据生成单元103还将转变识别信息输出至文件生成单元104。
文件生成单元104从元数据生成单元103接收转变识别信息、转变执行区域信息以及其中转变执行区域和与转变执行区域对应的视点相关联的信息。接下来,文件生成单元104生成指示作为矩形区域的转变执行区域的SphereRegionStruct()。然后,文件生成单元104新限定图12所示的SphereRegionStruct()和用于存储转变识别信息的RegionForViewpoint()。图12是示出SphereRegionStruct()和RegionForViewpoint()的示例的图。语法211中的SphereRegionStruct()与转变执行区域信息对应。此外,在语法211中,存储其中可转变视点由viewpoint_id指示的转变识别信息。即,转变识别信息和转变执行区域信息两者被存储在RegionForViewpoint()中。
此外,文件生成单元104扩展如语法212所示的ViewpointTrackGroup,并将新限定的RegionForViewpoint()存储在ViewpointTrackGroup中。也就是说,文件生成单元104将转变执行区域信息存储在ISOBMFF文件的TrackckBox中的ViewpointTrackGroupBox中。客户端装置2可以通过使用存储在ViewpointTrackGroupBox中的转变执行区域信息,向观看3DoF视频的用户提供关于转变目的地的视频的信息,作为交互视觉信息。
如上所述,根据本实施方式的文件装置在作为3DoF图像的全向视频上布置用于转变视点的交互区域,作为转变执行区域。然后,通过在全向图像上布置并且显示转变执行区域信息,客户端装置可以向用户提供交互式转变执行区域,并且可以提高用户的观看体验的质量。
[2.1第二实施方式的修改示例(1)]
根据本修改示例的文件生成装置1通过使用OMAF技术向客户端装置2提供转变执行区域。这里,将描述OMAF的覆盖。
在现有的OMAF技术中,覆盖被限定为用于在全向视频上叠加另一视频等的技术。通过覆盖而叠加的视频可以是运动图像或静止图像。OverlayStruct()在ISOBMFF中被指定为与要叠加的视频有关的信息的存储目的地。OverlayStruct()在运动图像的情况下被存储在ISOBMFF文件中的VisualDample()中,并且在静止图像的情况下被存储在ISOBMFF文件中的ItemPropertyContainerBox()中。
图13是示出覆盖的控制结构的图。在OverlayStruct()中限定其内容是图13的表221中所示的控制结构的Overlay_control_struct[i]。Overlay_control_struct[i]通过i的值提供指示各种覆盖结构的属性信息。在这些属性之中,i=1的情况下的SphereRelativeOmniOverlay()是指示全向视频上的覆盖区域的属性。此外,i=10的情况下的AssociatedSphereRegion()是指示与覆盖有关的区域的属性,并且通过点击该区域,可以在相关联的覆盖的显示与不显示之间执行切换。
根据本修改示例的文件生成装置1通过使用上述OMAF的覆盖技术向客户端装置2提供转变执行区域。在下文中,将描述由本修改示例中的每个单元执行的处理。
元数据生成单元103计算转变执行区域。然后,元数据生成单元103生成转变执行信息以对应于OMAF的覆盖。此后,元数据生成单元103将转变执行信息输出至文件生成单元104。
文件生成单元104从元数据生成单元103接收转变执行区域信息。然后,文件生成单元104使用由图14的语法222指示的SphereRelativeOmniOverlay()在显示有转变执行区域的全向图像上覆盖视频显示区域。图14是示出SphereRelativeOmniOverlay()和AssociatiedSpereRegion()的示例的图。
SphereRelativeOmniOverlay()指示覆盖在全向图像上的视频显示区域。语法222中的proj_picture_width和proj_picture_hight表示要粘贴在被覆盖的视频显示区域上的图像。此外,语法222中的proj_reg_width、roj_reg_hight、proj_reg_top和proj_reg_reft表示要粘贴图像的覆盖的被覆盖视频显示区域。
此外,根据本实施方式的文件生成单元104使用覆盖的控制结构中的Overlay_control_struct[10]的情况下的AssociatedSphereRegion(),以用于存储转变执行区域。AssociatiedSpereRegion()指示与覆盖有关的区域。例如,由AssociatiedSpereRegion()指示的区域是可以在执行诸如点击的操作的情况下切换与该区域相关联的覆盖的显示和不显示的区域。
在这种情况下,文件生成单元104生成由图14的语法223指示的AssociatiedSpereRegion()。这里,为了将转变执行区域与可转变视点相关联,文件生成单元104扩展如由语法223指示的AssociatiedSpereRegion(),并且存储作为要关联的视点的识别信息的viewpoint_id。
如上所述,在本修改示例中,通过使用OMAF的覆盖技术在全向视频上显示转变执行区域。因此,用户可以确认在全向视频上显示的转变执行区域,并且可以容易地移动视点。
[2.2第二实施方式的修改示例(2)]
根据本修改示例的文件生成装置1向覆盖的结构添加新的限定,并且通过使用该结构来存储转变执行区域信息。在下文中,将描述本修改示例中的存储转变执行区域信息的方法的细节。
代替使用AssociatedSphereRegion(),文件生成单元104新限定了用于在表示覆盖的控制结构的overlay_control_struct()中存储转变执行区域信息的新控制结构,如图15的表231中所示。图15是示出新添加了用于存储转变执行区域信息的新控制结构的overlay_control_struct()的示例的图。在本修改示例中,文件生成单元104将i=12的情况下的Associatedviewpointregion()添加到overlay_control_struct()作为新的控制结构。
然后,文件生成单元104生成由如图16所示的语法232指示的Associatedviewpointregion()。图16是示出Associatedviewpointregion()的示例的图。同样在这种情况下,文件生成单元104将转变执行区域与视点相关联的信息存储在Associatedviewpointregion()中。
如上所述,在本修改示例中,在覆盖中限定新的控制结构,并且在全向视频上显示转变执行区域。同样利用这样的方法,用户可以确认在全向视频上显示的转变执行区域,并且可以容易地转变视点。
[2.3第二实施方式的修改示例(3)]
在上述第二实施方式的修改示例(1)中,扩展AssociatedSphereRedion以将转变执行区域与可转变视点相关联。另一方面,根据本修改示例的文件生成装置1向覆盖的结构添加新的限定,并且通过使用该结构将转变执行区域与可转变视点相关联。在下文中,将描述本修饰示例中的存储转变执行区域的方法的细节。
根据本实施方式的文件生成单元104使用覆盖的控制结构中的Overlay_control_struct[10]的情况下的AssociatedSphereRegion()来存储转变执行区域信息。此外,如图17的表241中所示,文件生成单元104新限定用于将转变识别信息存储在overlay_control_struct()中的新控制结构。图17是示出新添加了用于存储转变识别信息的新控制结构的overlay_control_struct()的示例的图。在本修改示例中,文件生成单元104将i=12的情况下的AssociatedViewpoint()添加到overlay_control_struct()作为新的控制结构。
图18是示出Associatedviewpointregion()和AssociatedViewpoint()的示例的图。例如,文件生成单元104生成由图18所示的语法242指示的Associatedviewpointregion()。此外,文件生成单元104生成由语法243指示的AssociatedViewpoint()。然后,文件生成单元104通过将AssociatedSphereRegion()与AssociatedViewpoint()相关联来将转变执行区域与可转变视点相关联。
如上所述,在本修改示例中,在覆盖中限定新的控制结构,存储可转变视点的信息,并且将该信息与转变执行区域相关联。同样利用这样的方法,用户可以确认在全向视频上显示的转变执行区域,并且可以容易地移动视点。
[2.4第二实施方式的修改示例(4)]
在第二实施方式的上述修改示例(1)至(3)中,分别指定了视频显示区域和转变执行区域,但在这些区域具有相同的位置和相同的大小的情况下,在两个地方限定相同的区域,这是效率低下的。因此,根据本修改示例的文件生成装置1通过使用指示转变执行区域与视频显示区域是相同的标志来转移区域。在下文中,将描述本修饰示例中的存储转变执行区域的方法的细节。
元数据生成单元103确定转变执行区域,使得OMAF的覆盖中的视频显示区域和转变执行区域相同。元数据生成单元103生成指示视频显示区域与转变执行区域匹配的标志。然后,元数据生成单元103向文件生成单元104输出包括指示视频显示区域和转变执行区域彼此匹配的标志的转变执行区域信息。
文件生成单元104从元数据生成单元103接收包括指示视频显示区域和转变执行区域彼此匹配的标志的转变执行区域信息。然后,文件生成单元104指定ShereRalativeOverlay()中的视频显示区域。接下来,文件生成单元104生成用于存储转变执行区域信息的AssociatedSphereRegion()。此外,文件生成单元104扩展如由图19的语法251所示的AssociatedSphereRegion(),并设置指示转变执行区域与视频显示区域相同的标志。图19是示出视频显示区域被转移用于转变执行区域的情况下的AssociatedSphereRegion()的示例的图。文件生成单元104通过使用在AssociatedSphereRegion()中设置的标志来指示转变执行区域与视频显示区域匹配,从而将视频显示区域的信息转移用于转变执行区域,而无需存储转变执行区域的信息。
这里,在本修改示例中已经描述了使用AssociatedSphereRegion()的情况,但是文件生成单元104也可以使用Associatedviewpointregion()来指示转变执行区域。同样在这种情况下,文件生成单元104可以通过在Associatedviewpointregion()中设置指示转变执行区域与视频显示区域相同的标志来将视频显示区域的信息转移用于转变执行区域。
如上所述,在本修改示例中,通过使用在AssociatedSphereRegion()中新提供的标志来将视频显示区域的信息转移用于转变执行区域。因此,可以减少数据。
[第二实施方式的修改示例(4)]
在上述第二实施方式中,转变执行区域信息总是显示在作为3DoF图像的全向视频上。因此,向对视点的转变不感兴趣的用户呈现不必要的信息,并且用户的观看体验的质量可能劣化。因此,根据本修改示例的文件生成装置1在用户观看包括转变执行区域的相同全向视频达一定时间段的情况下在全向视频上显示转变执行区域信息。在下文中,将描述本修改示例中的存储转变执行区域信息的方法的细节。
元数据生成单元103计算转变执行区域信息。此外,元数据生成单元103生成用于控制全向视频上的转变执行区域的显示的时间信息。例如,元数据生成单元103生成时间信息,该时间信息指示直到显示与所显示的全向视频相关联的转变执行区域信息为止的时间。然后,元数据生成单元103将时间信息与转变执行区域信息一起输出至文件生成单元104。
文件生成单元104从元数据生成单元103接收转变执行区域信息和时间信息。然后,文件生成单元104新限定SphereRegionStruct()和用于存储转变识别信息的RegionForViewpoint()。此外,文件生成单元104将时间信息存储在RegionForViewpoint()中。
例如,文件生成单元104在如由图20的语法261所示的RegionForViewpoint()中存储直到显示与所显示的全向视频相关联的转变执行区域信息为止的时间。图20是示出在一定时间段之后显示转变执行区域信息的情况下的RegionForViewpoint()的示例的图。语法261中的time_to_ovelay是直到显示转变执行区域信息为止的时间。
客户端装置2的文件处理单元203获取直到显示RegionForViewpoint()中包括的转变执行区域信息为止的时间。然后,在使显示信息生成单元205显示3DoF图像之后显示3DoF图像的状态下,在已经过了指定时间段时,文件处理单元203指示显示信息生成单元205显示执行区域。因此,在客户端装置2中,在从3DoF图像的显示起经过一定时间段之后显示转变执行区域,并且可以转变视点。
如上所述,在本修改示例中,最初不显示关于全向视频的转变执行区域信息,而是在经过一定时间段之后显示该转变执行区域信息。因此,在用户对转变执行区域感兴趣并且高度可能将视点转变的情况下显示转变执行区域信息。因此,可以减少不必要信息的显示,并且可以提高用户的观看体验的质量。
3.[第三实施方式]
在本实施方式中,将详细描述作为在转变视点的情况下的操作的信息的转变触发信息的生成。根据本实施方式的文件生成装置1向客户端装置2提供用于在将视点转变时切换对区域的操作(用户交互)的信息。根据本实施方式的文件生成装置1也由图2的框图表示。在下面的描述中,可以省略由与第一实施方式的单元类似的每个单元执行的处理的描述。
元数据生成单元103根据关于由操作者指定的用户交互的信息来生成指示用户交互的转变触发信息。在存在多个指定的用户交互的情况下,元数据生成单元103生成指示可以在各个用户交互之间进行切换的转变触发信息。例如,在将点击和缩放指定为用户交互的情况下,元数据生成单元103生成包括指示可以在点击与缩放之间进行切换的信息的转变触发信息。此外,例如,在使用缩放作为用户交互的情况下,元数据生成单元103可以设置引起转变的缩放的阈值,并且将该阈值添加到转变触发信息。此后,元数据生成单元103将所生成的转变触发信息输出至文件生成单元104。
文件生成单元104从元数据生成单元103接收转变触发信息。接下来,文件生成单元104新限定SphereRegionStruct()和用于存储转变识别信息的RegionForViewpoint()。此外,文件生成单元104在如由图21的语法311所示的RegionForViewpoint()中存储用于切换关于区域的用户交互的信息。图21是示出在切换用户交互的情况下的RegionForViewpoint()的示例的图。
在语法311中的action_control_flag是用于切换关于转变执行区域的用户交互的标志。例如,文件生成单元104如下限定action_control_flag。在action_control_flag的值为0的情况下,点击转变执行区域,以切换到从由viewpoint_id指定的视点观看的全向视频。此外,在action_control_flag的值为1的情况下,缩放转变执行区域,以切换到从由viewpoint_id指定的视点观看的全向视频。
此外,在用户交互是缩放的情况下,文件生成单元104设置引起转变的缩放的阈值,如语法311所示。语法311中的Zoom_threshold是用于在触发转变的用户交互是缩放的情况下执行转变的阈值。例如,文件生成单元104如下限定Zoom_threshold。在缩放的阈值被限定成使得Zoom_threshold>1的情况下,在缩放可转变区域时的缩放比大于1的情况下执行转变。此外,在缩放的阈值被限定成使得Zoom_threshold<1的情况下,在缩小可转变区域时的缩放比率大于1的情况下执行转变。
用于切换用户交互的信息的设置和发生转变的阈值的设置也可以应用于第二实施方式的修改示例(2)的AssociatedSphereRegion()等。此外,在本实施方式中,已经描述了使用点击和缩放作为用户交互的情况,但是可以类似地设置其他操作。
[4.第四实施方式]
在以上实施方式及其修改示例中,已经描述了存储在ISOBMFF中的情况。然而,即使在使用图22所示的Matroska媒体容器(http://www.matroska.org/)进行传输的情况下,也可以提供转变识别信息、转变执行区域信息和转变触发信息。图22是示出Matroska媒体容器的格式的图。在这种情况下,文件生成单元104将转变识别信息、转变执行区域信息和转变触发信息存储在Track Entry元素中新限定的元素中。
[硬件配置]
图23是计算机的硬件配置图。文件生成装置1和客户端装置2可以由图23中示出的计算机90来实现。在计算机90中,处理器91、存储器92、网络接口93、非易失性存储装置94、输入/输出接口95和显示接口86经由总线彼此连接。
例如,诸如输入装置、输出装置、存储装置和驱动器的外部装置连接至输入/输出接口95。输入装置例如是键盘、鼠标、麦克风、触摸面板、输入端子等。输出装置例如是扬声器、输出端子等。存储装置例如是硬盘、随机存取存储器(RAM)盘等。驱动器驱动可移除介质,例如磁盘、光盘、磁光盘、或半导体存储器。此外,作为显示装置的显示器98连接至显示接口96。
网络接口93连接至外部网络。文件生成装置1和客户端装置2经由网络接口93彼此连接。此外,文件生成装置1和客户端装置2经由网络接口93连接至web服务器3。非易失性存储94是内置的辅助存储装置,例如硬盘或固态驱动器(SSD)。
在如上所述配置的计算机90中,例如,处理器91经由总线将存储在非易失性存储装置94中的程序加载到存储器92,中并执行该程序,由此执行上述的一系列处理。存储器92还适当地存储处理器91执行各种处理所需的数据等。
例如,可以通过将记录在作为封装介质等的可移除介质中来应用由处理器91执行的程序。在这种情况下,可以通过将可移除介质安装在作为外部装置97的驱动器中,经由输入/输出接口95将程序安装在非易失性存储器94中。
此外,还可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供该程序。在这种情况下,可以通过网络接口93接收该程序,并且将其安装在非易失性存储装置94中。
此外,该程序可以预先安装在非易失性存储装置94中。
尽管以上描述了本公开内容的实施方式,但是本公开内容的技术范围不限于上述实施方式,并且可以在不脱离本公开内容的范围的情况下进行各种修改。此外,可以适当地组合不同实施方式和修改示例的部件。
注意,本说明书中描述的效果仅仅是示例。本公开内容的效果不限于此,并且可以获得其他效果。
注意,本技术还可以具有以下配置。
(1)
一种信息处理装置,包括:
元数据生成单元,其生成用于识别第二视点的转变识别信息,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;以及
文件生成单元,其生成包括所述第一视频的数据和所述转变识别信息的文件。
(2)
根据(1)所述的信息处理装置,其中,所述元数据生成单元生成包括用于指定所述第二视点的识别信息的转变识别信息。
(3)
根据(1)或(2)所述的信息处理装置,其中,所述元数据生成单元生成包括视点组的识别信息的转变识别信息,所述视点组包括多个所述第二视点。
(4)
根据(1)至(3)中任一项所述的信息处理装置,其中,所述元数据生成单元生成包括关于对由URL(统一资源定位符)指定的另一视频的访问的信息的转变识别信息。
(5)
根据(1)至(4)中任一项所述的信息处理装置,其中,所述文件生成单元将所述转变识别信息存储在ISOBMFF文件的TrackBox中的ViewpointTrackGroupBox中。
(6)
根据(1)至(4)中任一项所述的信息处理装置,其中,所述文件生成单元将所述转变识别信息存储在MPD(媒体呈现描述)文件的VWPT描述符中。
(7)
根据(1)所述的信息处理装置,其中,
所述元数据生成单元生成转变执行区域信息,所述转变执行区域信息指示所述第一视频上的、接收用于从所述第一视点转变到所述第二视点的操作的转变执行区域,并且
所述文件生成单元生成包括所述转变执行区域信息的文件。
(8)
根据(7)所述的信息处理装置,其中,所述元数据生成单元生成包括所述转变执行区域的大小和所述第一视频中的显示位置的转变执行区域信息。
(9)
根据(7)或(8)所述的信息处理装置,其中,所述文件生成单元将所述转变执行区域信息存储在ISOBMFF文件的TrackBox中的ViewpointTrackGroupBox中。
(10)
根据(7)或(8)所述的信息处理装置,其中,所述元数据生成单元通过OMAF的覆盖来显示所述转变执行区域信息。
(11)
根据(10)所述的信息处理装置,其中,所述元数据生成单元生成包括以下标志的转变执行区域信息,所述标志指示所述覆盖中的视频显示区域与所述转变执行区域相同。
(12)
根据(7)至(11)中任一项所述的信息处理装置,其中,所述元数据生成单元包括用于控制所述转变执行区域在所述第一视频上的显示的时间信息。
(13)
根据(1)所述的信息处理装置,其中,
所述元数据生成单元生成转变触发信息,所述转变触发信息指示引起从所述第一视点到所述第二视点的转变的操作,并且
所述文件生成单元在所述文件中包括所述转变执行区域信息。
(14)
根据(13)所述的信息处理装置,其中,所述元数据生成单元生成指示将通过点击引起所述转变的转变触发信息。
(15)
根据(13)或(14)所述的信息处理装置,其中,所述元数据生成单元生成指示将通过缩放引起所述转变的转变触发信息。
(16)
根据(15)所述的信息处理装置,其中,所述元数据生成单元生成包括引起所述转变的缩放阈值的转变触发信息。
(17)
一种信息处理方法,所述方法使计算机执行以下处理:
生成用于识别第二视点的转变识别信息,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;以及生成包括所述第一视频的数据和所述转变识别信息的文件。
(18)
一种再现处理装置,包括:
文件获取单元,其获取包括用于识别第二视点的转变识别信息的文件,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;
文件处理单元,其从由所述文件获取单元获取的文件中获取所述转变识别信息,并且基于所获取的转变识别信息来指定能够从所述第一视点转变的第二视点;以及
再现单元,其再现所述第一视频并且输出由所述文件处理单元指定的第二视点的信息。
(19)
一种再现处理方法,所述方法使计算机执行以下处理:
获取包括用于识别第二视点的转变识别信息的文件,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;
从所获取的文件中获取所述转变识别信息,并且基于所获取的转变识别信息来指定能够从所述第一视点转变的第二视点;以及
再现所述第一视频并且输出所指定的第二视点的信息。
附图标记列表
1 文件生成装置
2 客户端装置
3 web服务器
4 网络
10 文件生成处理单元
11 控制单元
12 通信单元
20 再现处理单元
21 控制单元
22 通信单元
100 递送系统
101 数据获取单元
102 编码单元
103 元数据生成单元
104 文件生成单元
201 文件获取单元
202 测量单元
203 文件处理单元
204 解码处理单元
205 显示信息生成单元
206 显示单元

Claims (19)

1.一种信息处理装置,包括:
元数据生成单元,其生成用于识别第二视点的转变识别信息,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;以及
文件生成单元,其生成包括所述第一视频的数据和所述转变识别信息的文件。
2.根据权利要求1所述的信息处理装置,其中,所述元数据生成单元生成包括用于指定所述第二视点的识别信息的转变识别信息。
3.根据权利要求1所述的信息处理装置,其中,所述元数据生成单元生成包括视点组的识别信息的转变识别信息,所述视点组包括多个所述第二视点。
4.根据权利要求1所述的信息处理装置,其中,所述元数据生成单元生成包括关于对由URL(统一资源定位符)指定的另一视频的访问的信息的转变识别信息。
5.根据权利要求1所述的信息处理装置,其中,所述文件生成单元将所述转变识别信息存储在ISOBMFF文件的TrackBox中的ViewpointTrackGroupBox中。
6.根据权利要求1所述的信息处理装置,其中,所述文件生成单元将所述转变识别信息存储在MPD(媒体呈现描述)文件的VWPT描述符中。
7.根据权利要求1所述的信息处理装置,其中,
所述元数据生成单元生成转变执行区域信息,所述转变执行区域信息指示所述第一视频上的、接收用于从所述第一视点转变到所述第二视点的操作的转变执行区域,并且
所述文件生成单元生成包括所述转变执行区域信息的文件。
8.根据权利要求7所述的信息处理装置,其中,所述元数据生成单元生成包括所述转变执行区域的大小和所述第一视频中的显示位置的转变执行区域信息。
9.根据权利要求7所述的信息处理装置,其中,所述文件生成单元将所述转变执行区域信息存储在ISOBMFF文件的TrackBox中的ViewpointTrackGroupBox中。
10.根据权利要求7所述的信息处理装置,其中,所述元数据生成单元通过OMAF的覆盖来显示所述转变执行区域信息。
11.根据权利要求10所述的信息处理装置,其中,所述元数据生成单元生成包括以下标志的转变执行区域信息,所述标志指示所述覆盖中的视频显示区域和所述转变执行区域是所述第一视频上的相同区域。
12.根据权利要求7所述的信息处理装置,其中,所述元数据生成单元包括用于控制所述转变执行区域在所述第一视频上的显示的时间信息。
13.根据权利要求1所述的信息处理装置,其中,
所述元数据生成单元生成转变触发信息,所述转变触发信息指示引起从所述第一视点到所述第二视点的转变的操作,并且
所述文件生成单元生成包括所述转变触发信息的文件。
14.根据权利要求13所述的信息处理装置,其中,所述元数据生成单元生成指示将通过点击引起所述转变的转变触发信息。
15.根据权利要求13所述的信息处理装置,其中,所述元数据生成单元生成指示将通过缩放引起所述转变的转变触发信息。
16.根据权利要求15所述的信息处理装置,其中,所述元数据生成单元生成包括引起所述转变的缩放阈值的转变触发信息。
17.一种信息处理方法,所述方法使计算机执行以下处理:
生成用于识别第二视点的转变识别信息,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;以及
生成包括所述第一视频的数据和所述转变识别信息的文件。
18.一种再现处理装置,包括:
文件获取单元,其获取包括用于识别第二视点的转变识别信息的文件,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;
文件处理单元,其从由所述文件获取单元获取的文件中获取所述转变识别信息,并且基于所获取的转变识别信息来指定能够从所述第一视点转变的第二视点;以及
再现单元,其再现所述第一视频并且输出由所述文件处理单元指定的第二视点的信息。
19.一种再现处理方法,所述方法使计算机执行以下处理:
获取包括用于识别第二视点的转变识别信息的文件,所述第二视点是能够从视点位置为第一视点的第一视频转变的第二视频中的视点位置;
从所获取的文件中获取所述转变识别信息,并且基于所获取的转变识别信息来指定能够从所述第一视点转变的第二视点;以及
再现所述第一视频并且输出所指定的第二视点的信息。
CN202080047166.2A 2019-07-03 2020-06-29 信息处理装置、信息处理方法、再现处理装置以及再现处理方法 Pending CN114026849A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962870507P 2019-07-03 2019-07-03
US62/870,507 2019-07-03
PCT/JP2020/025591 WO2021002338A1 (ja) 2019-07-03 2020-06-29 情報処理装置、情報処理方法、再生処理装置及び再生処理方法

Publications (1)

Publication Number Publication Date
CN114026849A true CN114026849A (zh) 2022-02-08

Family

ID=74100136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080047166.2A Pending CN114026849A (zh) 2019-07-03 2020-06-29 信息处理装置、信息处理方法、再现处理装置以及再现处理方法

Country Status (5)

Country Link
EP (1) EP3996376A4 (zh)
JP (1) JPWO2021002338A1 (zh)
KR (1) KR20220031560A (zh)
CN (1) CN114026849A (zh)
WO (1) WO2021002338A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949829B (zh) * 2021-10-15 2022-09-20 腾讯科技(深圳)有限公司 媒体文件封装及解封装方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015187797A (ja) * 2014-03-27 2015-10-29 シャープ株式会社 画像データ生成装置および画像データ再生装置
CN105519131A (zh) * 2013-07-19 2016-04-20 索尼公司 信息处理装置和方法
US20180270463A1 (en) * 2017-03-16 2018-09-20 Square Enix Co., Ltd. Recording medium, image generation apparatus, and image generation method
WO2018211613A1 (ja) * 2017-05-17 2018-11-22 三菱電機株式会社 符号化映像再生装置および符号化映像再生方法
CN109257587A (zh) * 2017-07-12 2019-01-22 联发科技(新加坡)私人有限公司 一种编解码视频数据的方法及装置
WO2019031306A1 (ja) * 2017-08-07 2019-02-14 シャープ株式会社 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体
WO2019066436A1 (ko) * 2017-09-26 2019-04-04 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5520471B2 (ja) * 2008-11-11 2014-06-11 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
US10272329B2 (en) * 2016-08-10 2019-04-30 Google Llc Cooperative immersive live action 360-degree video and virtual reality

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105519131A (zh) * 2013-07-19 2016-04-20 索尼公司 信息处理装置和方法
JP2015187797A (ja) * 2014-03-27 2015-10-29 シャープ株式会社 画像データ生成装置および画像データ再生装置
US20180270463A1 (en) * 2017-03-16 2018-09-20 Square Enix Co., Ltd. Recording medium, image generation apparatus, and image generation method
WO2018211613A1 (ja) * 2017-05-17 2018-11-22 三菱電機株式会社 符号化映像再生装置および符号化映像再生方法
CN109257587A (zh) * 2017-07-12 2019-01-22 联发科技(新加坡)私人有限公司 一种编解码视频数据的方法及装置
WO2019031306A1 (ja) * 2017-08-07 2019-02-14 シャープ株式会社 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体
WO2019066436A1 (ko) * 2017-09-26 2019-04-04 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DESHPANDE (SHARP): "[OMAF] DASH Viewpoint Information and Group Signaling"", ISO/IEC JTC1/SC29/WG11/MPEG2018/M44623, 28 September 2018 (2018-09-28), pages 8 *
EMMANUEL THOMAS (TNO): "[OMAF] On switching viewpoint: analysis derived from recently released content by Netflix", ISO/IEC JTC1/SC29/WG11 MPEG2019/M47605, 20 March 2019 (2019-03-20), pages 3 *
MARY-LUC CHAMPEL (XIAOMI): "[OMAF] Viewpoint Switching transitions", ISO/IEC JTC1/SC29/WG11 MPEG2017/M47385, 20 March 2019 (2019-03-20), pages 1 *
YE-KUI WANG 等: "WD of ISO/IEC 23090-2 2nd edition OMAF", ISO/IEC JTC1/SC29/WG11 N18337-V1, 15 February 2019 (2019-02-15), pages 7 *

Also Published As

Publication number Publication date
KR20220031560A (ko) 2022-03-11
WO2021002338A1 (ja) 2021-01-07
EP3996376A1 (en) 2022-05-11
JPWO2021002338A1 (zh) 2021-01-07
US20220150461A1 (en) 2022-05-12
EP3996376A4 (en) 2023-08-09

Similar Documents

Publication Publication Date Title
US10257638B2 (en) Audio object processing based on spatial listener information
KR102246002B1 (ko) 가상 현실 미디어 콘텐트의 스트리밍을 개선하는 방법, 디바이스, 및 컴퓨터 프로그램
RU2711591C1 (ru) Способ, устройство и компьютерная программа для адаптивной потоковой передачи мультимедийного контента виртуальной реальности
US11330310B2 (en) Encoding device and method, reproduction device and method, and program
JP7085816B2 (ja) 情報処理装置、情報提供装置、制御方法、及びプログラム
TWI674797B (zh) 球面區域呈現之方法與裝置
CN111316652A (zh) 使用对齐编码内容片段的个性化内容流
US10931930B2 (en) Methods and apparatus for immersive media content overlays
EP4013042A1 (en) Information processing device, reproduction processing device, and information processing method
KR20130118824A (ko) 증강현실 지원을 위한 데이터 처리 방법 및 장치
EP3883250A1 (en) Information processing device and information processing method
EP4016994A1 (en) Information processing device and information processing method
KR101944601B1 (ko) 기간들에 걸쳐 오브젝트들을 식별하기 위한 방법 및 이에 대응하는 디바이스
CN114026849A (zh) 信息处理装置、信息处理方法、再现处理装置以及再现处理方法
TWI820490B (zh) 利用衍生視訊軌道實現場景描述的方法和系統
US11985290B2 (en) Information processing device, information processing method, reproduction processing device, and reproduction processing method
EP3972260A1 (en) Information processing device, information processing method, reproduction processing device, and reproduction processing method
EP3982638A1 (en) Information processing device, information processing method, reproduction processing device, and reproduction processing method
US20210321019A1 (en) Methods and apparatus for re-timing and scaling input video tracks
KR20230086792A (ko) 미디어 스트리밍 및 재생 동안 프리롤 및 미드롤을 지원하기 위한 방법 및 장치
JPWO2019138927A1 (ja) 情報処理装置および方法
VRT et al. First Version of Playout Clients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination