CN112514398A - 用于针对全向内容而标记在覆盖物上的用户交互并将对背景的覆盖物分组的方法和装置 - Google Patents
用于针对全向内容而标记在覆盖物上的用户交互并将对背景的覆盖物分组的方法和装置 Download PDFInfo
- Publication number
- CN112514398A CN112514398A CN201980050372.6A CN201980050372A CN112514398A CN 112514398 A CN112514398 A CN 112514398A CN 201980050372 A CN201980050372 A CN 201980050372A CN 112514398 A CN112514398 A CN 112514398A
- Authority
- CN
- China
- Prior art keywords
- overlay
- overlays
- metadata
- media content
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/36—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
- G09G5/37—Details of the operation on graphic patterns
- G09G5/377—Details of the operation on graphic patterns for mixing or overlaying two or more graphic patterns
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/172—Processing image signals image signals comprising non-image signal components, e.g. headers or format information
- H04N13/178—Metadata, e.g. disparity information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
- G06F3/147—Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/14—Display of multiple viewports
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
- H04N13/117—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/172—Processing image signals image signals comprising non-image signal components, e.g. headers or format information
- H04N13/183—On-screen display [OSD] information, e.g. subtitles or menus
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/332—Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
- H04N13/344—Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/366—Image reproducers using viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43074—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4722—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
- H04N21/4725—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content using interactive regions of the image, e.g. hot spots
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/85406—Content authoring involving a specific file format, e.g. MP4 format
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2340/00—Aspects of display data processing
- G09G2340/12—Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2340/00—Aspects of display data processing
- G09G2340/12—Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels
- G09G2340/125—Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels wherein one of the images is motion video
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2350/00—Solving problems of bandwidth in display systems
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2354/00—Aspects of interface with display user
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2370/00—Aspects of data communication
- G09G2370/02—Networking aspects
- G09G2370/022—Centralised management of display operation, e.g. in a server instead of locally
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2370/00—Aspects of data communication
- G09G2370/20—Details of the management of multiple sources of image data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4316—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Library & Information Science (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一种方法、装置和计算机程序产品将对背景媒体内容的覆盖物(例如语义相关覆盖物)分组。在方法的上下文中,定义对背景媒体内容的一组覆盖物。覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,语义相关覆盖物具有表示具有不同细节水平的内容的可替代覆盖物。该方法还包括接收客户端从该组覆盖物中对相应覆盖物的选择。响应于客户端从该组覆盖物中选择相应覆盖物,该方法使相应覆盖物被提供。
Description
本申请要求于2018年6月1日提交的题为“A METHOD AND APPARATUS FORSEPARATELY SIGNALING USER INTERACTIONS ON OVERLAY FOR MONIDIRECTIONAL CONTENT(用于分别标记在用于全向内容的覆盖物上的用户交互的方法和装置)”的美国临时申请No.62/679,240和于2018年7月6日提交的题为“METHOD AND APPARATUS FOR GROUPINGOVERLAYS TO BACKGROUND MEDIA CONTENT(用于将对背景媒体内容的覆盖物分组的方法和装置)”的美国临时申请No.62/694,459的优先权,其全部内容通过引用被并入本文。
技术领域
示例实施例通常涉及对媒体内容进行编码,特别是在流传输虚拟现实和其他视听内容的上下文中。
背景技术
虚拟现实视听内容(例如360°视频和其他类似内容)在喜欢或以其他方式享受从这些内容中可得的沉浸式观看体验的观看者和内容创建者中变得越来越流行。虚拟现实内容的流行程度的增加已推动了观看者对流传输提供高质量观看体验的虚拟现实内容的需求。
沉浸式多媒体的消费(例如用于虚拟现实和其他应用的全向内容消费)对于客户端而言比二维内容的消费更为复杂。这种增加的复杂性可归因于在消费沉浸式多媒体时对客户端可用的较高自由度。尽管增强了用户体验,但较高自由度导致不确定性增加。在例如结合对背景媒体内容的一个或多个覆盖物的渲染来渲染内容层的实例中,这种增加的复杂性进一步复杂化。
全向媒体应用格式(OMAF)版本1(v1)标准定义了具有三个自由度的全向内容流传输。期望后续的标准化不仅能够实现具有三个自由度的全向内容流传输,而且还支持覆盖物和用户与覆盖物的交互。
发明内容
根据示例实施例,提供了一种方法、装置和计算机程序产品,以便渲染与背景内容相关联的视觉覆盖物。
在示例实施例中,提供了一种方法,该方法包括接收定义对背景媒体内容的一组覆盖物的元数据。覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,语义相关覆盖物包括表示具有不同细节水平的内容的可替代覆盖物。该方法还包括使得从该组覆盖物中对相应覆盖物的选择被提供。该方法还包括接收相应覆盖物以用于与背景媒体内容同时呈现。
示例实施例的元数据包括关于该组语义相关覆盖物中的可替代覆盖物所需的带宽的信息。附加地或可替代地,元数据包括关于该组语义相关覆盖物中的可替代覆盖物的分辨率的信息。示例实施例的元数据附加地或可替代地包括可替代覆盖物的序列信息。示例实施例的元数据附加地或可替代地包括可替代覆盖物的序列信息。
示例实施例的方法还可以包括接收背景媒体内容。示例实施例的背景媒体内容包括全向媒体内容。该示例实施例的方法还包括使全向媒体内容和相应覆盖物被同时呈现。
示例实施例的方法还可以包括接收与视觉覆盖物相关联的用户交互。该示例实施例的方法还包括在标志指示用户交互类型被允许的实例中,基于用户交互和元数据来调整视觉覆盖物的渲染。
在另一示例实施例中,提供了一种装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置接收定义对背景媒体内容的一组覆盖物的元数据。覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,其中语义相关覆盖物包括表示具有不同细节水平的内容的可替代覆盖物。至少一个处理器和计算机程序代码还被配置为与至少一个处理器一起使该装置使得从该组覆盖物中对相应覆盖物的选择被提供,并接收相应覆盖物以用于与背景媒体内容同时呈现。
示例实施例的元数据包括关于该组语义相关覆盖物中的可替代覆盖物所需的带宽的信息。附加地或可替代地,元数据包括关于该组语义相关覆盖物中的可替代覆盖物的分辨率的信息。示例实施例的元数据附加地或可替代地包括关于该组语义相关覆盖物中的可替代覆盖物的保真度的信息。示例实施例的元数据附加地或可替代地包括可替代覆盖物的序列信息。
至少一个存储器和计算机程序代码还被配置为与至少一个处理器一起使示例实施例的装置接收背景媒体内容。背景媒体内容可以包括全向媒体内容。在该示例实施例中,至少一个存储器和计算机代码还被配置为与至少一个处理器一起使该装置使全向媒体内容和相应覆盖物被同时呈现。
至少一个存储器和计算机程序代码还被配置为与至少一个处理器一起使示例实施例的装置接收与视觉覆盖物相关联的用户交互。在该示例实施例中,至少一个存储器和计算机代码还被配置为与至少一个处理器一起使该装置在标志指示用户交互类型被允许的实例中,基于用户交互和元数据来调整视觉覆盖物的渲染。
在另一示例实施例中,提供了一种计算机程序产品,该计算机程序产品包括至少一个非暂时性计算机可读存储介质,该介质在其中存储有计算机可执行程序代码指令,并且该计算机可执行程序代码指令包括在执行时被配置为接收定义对背景媒体内容的一组覆盖物的元数据的程序代码。覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,其中语义相关覆盖物包括表示具有不同细节水平的内容的可替代覆盖物。计算机可执行程序代码指令还包括在执行时被配置为使得从该组覆盖物中对相应覆盖物的选择被提供并接收相应覆盖物以用于与背景媒体内容同时呈现的程序代码指令。
示例实施例的元数据包括关于该组语义相关覆盖物中的可替代覆盖物所需的带宽的信息。附加地或可替代地,元数据包括关于该组语义相关覆盖物中的可替代覆盖物的分辨率的信息。示例实施例的元数据附加地或可替代地包括关于该组语义相关覆盖物中的可替代覆盖物的保真度的信息。示例实施例的元数据附加地或可替代地包括可替代覆盖物的序列信息。
在示例实施例中,计算机可执行程序代码指令还包括在执行时被配置为接收背景媒体内容的程序代码指令。背景媒体内容可以包括全向媒体内容。在该示例实施例中,计算机可执行程序代码指令还包括在执行时被配置为使全向媒体内容和相应覆盖物被同时呈现的程序代码指令。
在示例实施例中,计算机可执行程序代码指令还包括在执行时被配置为接收与视觉覆盖物相关联的用户交互的程序代码指令。在该示例实施例中,计算机可执行程序代码指令还包括在执行时被配置为在标志指示用户交互类型被允许的实例中基于用户交互和元数据来调整视觉覆盖物的渲染的程序代码指令。
在又一个示例实施例中,提供了一种装置,该装置包括用于接收定义对背景媒体内容的一组覆盖物的元数据的模块。覆盖物包括语义相关覆盖物,其包括表示具有不同细节水平的内容的可替代覆盖物或提供不同内容选择的覆盖物。该装置还包括用于使得从该组覆盖物中对相应覆盖物的选择被提供的模块。该装置还包括用于接收相应覆盖物以用于与背景媒体内容同时呈现的模块。
示例实施例的元数据包括关于该组语义相关覆盖物中的替换覆盖物所需的带宽的信息。附加地或可替代地,元数据包括关于该组语义相关覆盖物中的可替代覆盖物的分辨率的信息。示例实施例的元数据附加地或可替代地包括关于该组语义相关覆盖物中的可替代覆盖物的保真度的信息。示例实施例的元数据附加地或可替代地包括可替代覆盖物的序列信息。
示例实施例的装置还可以包括用于接收背景媒体内容的模块。示例实施例的背景媒体内容包括全向媒体内容。该示例实施例的装置还包括用于使全向媒体内容和相应覆盖物被同时呈现的模块。
示例实施例的装置还可包括用于接收与视觉覆盖物相关联的用户交互的模块。该示例实施例的装置还包括用于在标志指示用户交互类型被允许的实例中基于用户交互和元数据来调整视觉覆盖物的渲染的模块。
附图说明
因此,已经概括描述了本公开的某些示例实施例,在下文中将参考附图,这些附图不一定按比例绘制,并且其中:
图1A和1B是结合描述本文所包含的一些示例实施例而引用的术语的图形表示;
图1C示出背景媒体内容以及对背景媒体内容的四个语义相关覆盖物和三个可替代评论频道;
图2是根据本发明的示例实施例的可被具体配置的装置的框图;
图3是示出根据本发明的示例实施例的例如由图2的装置执行的一组操作的流程图;
图4是示出根据本发明的示例实施例的例如由图2的装置执行的一组操作的流程图;
图5是示出根据本公开的示例实施例的例如由图2的装置执行的与元数据的提供有关的操作的流程图,该元数据与对背景媒体内容的一组语义相关或可替代覆盖物有关;以及
图6是示出根据本公开的示例实施例的诸如由图2的装置执行的与从对背景媒体内容的一组语义相关或可替代覆盖物中选择相应覆盖物有关的操作的流程图。
具体实施方式
现在将在下文中参考附图更充分地描述一些实施例,在附图中示出了本发明的一些但不是全部实施例。实际上,本发明的各种实施例可以以许多不同的形式来体现,并且不应被解释为限于在此阐述的实施例;相反,提供这些实施例是为了使本公开满足适用的法律要求。贯穿全文,相同的附图标记指代相同的元件。如本文所使用的,根据本发明的实施例,术语“数据”、“内容”、“信息”和类似术语可以互换地使用以指代能够被发送、接收和/或存储的数据。因此,任何这样的术语的使用不应被认为限制本发明的实施例的精神和范围。
另外,如本文所使用的,术语“电路”是指(a)仅硬件电路实现方式(例如,采用模拟电路和/或数字电路的实现方式);(b)电路和计算机程序产品的组合,计算机程序产品包括被存储在一个或多个计算机可读存储器上的软件和/或固件指令,这些软件和/或固件指令一起工作以使装置执行本文所述的一个或多个功能;以及(c)电路,例如微处理器或微处理器的一部分,其即使软件或固件在物理上不存在也需要软件或固件才能运行。“电路”的定义适用于该术语在本文中(包括在任何权利要求中)的所有使用。作为另一示例,如本文所使用的,术语“电路”还包括包括一个或多个处理器和/或其(一个或多个)部分以及随附的软件和/或固件的实现方式。作为另一个示例,如本文所使用的术语“电路”还包括例如用于移动电话的基带集成电路或应用处理器集成电路或服务器、蜂窝网络设备、其他网络设备和/或其他计算设备中的类似集成电路。
如本文中所定义的,“计算机可读存储介质”(其指代非暂时性物理存储介质(例如,易失性或非易失性存储器设备))可与指代电磁信号的“计算机可读传输介质”进行区分。
如本文中所定义的,“视觉覆盖物”是指被配置为被渲染为多层全向视觉内容的一部分的视频或图像和/或图像序列的层。视觉覆盖物可被覆盖在另一全向视频序列或图像之上(从观看者的角度)和/或被另一视觉覆盖物覆盖。视觉覆盖物可以与另一全向视频序列或图像和/或其他视觉覆盖物部分或完全地重叠。
根据示例实施例,提供了一种方法、装置和计算机程序产品,以便提供和利用覆盖物元数据文件,该覆盖物元数据文件定义用于多层全向视觉内容的不同部分(诸如3DoF/3DoF+/6DoF内容)的用户交互能力和在多层全向视觉内容被消费为覆盖物时的行为。
与二维(2D)内容的消费相比,沉浸式多媒体(诸如全向内容)消费对于最终用户更复杂。这是由于对最终用户可用的自由度更高。该自由还导致更多的不确定性,因为将在任何时间点被观看的沉浸式内容可能(在视场方面)与典型的2D内容有所不同,2D内容由于其固有的有限视场而具有更加确定的性质。当例如在覆盖物的情况下渲染内容层时,情况进一步复杂。如果是(在相同或不同时间和位置捕获的)多个3DoF/3DoF+/6DoF内容,则如果存在包括2D/3DoF/3DoF+/6DoF内容的覆盖物,则重要的是阐明与覆盖物的用户交互并指示方式以及交互的目标。此外,如果用户交互(例如,头部运动、头部旋转或平移)由客户端实现方式决定被应用于前景和背景内容,则可对用户体验产生不利影响。仅仅依靠客户端实现方式可能会扭曲内容创建者或发布者对内容的创作意图,导致非最佳用户体验。背景媒体是在其上叠加有覆盖物的一种视觉媒体。覆盖物是在全向视频或图像项目上或在视口(viewport)上被渲染的一种视觉媒体。
该方法、装置和计算机程序产品可以与多种不同的视觉和/或视听内容文件(包括根据多种不同格式(包括各种视频、视听和图像文件格式)格式化的视觉和/或视听内容文件)结合使用。
可用的媒体文件格式标准包括国际标准组织(ISO)基本媒体文件格式(ISO/IEC14496-12,其可被缩写为ISOBMFF)、运动图像专家组(MPEG)-4文件格式(ISO/IEC 14496-14,也被称为MP4格式)、用于NAL(网络抽象层)单元结构化视频的文件格式(ISO/IEC14496-15)和高效视频编码标准(HEVC或H.265/HEVC)。
下面描述ISOBMFF的一些概念、结构和规范,作为基于其可以实现一些实施例的容器文件格式的示例。本公开的各方面不限于ISOBMFF,而是出于一种可能的基础给出了描述,在此基础上,可以至少部分地或完全地实现至少一些实施例。
ISO基础媒体文件格式中的基本构建块被称为盒子。每个盒子都有头部和有效载荷。盒子头部以字节指示盒子的类型和盒子的大小。盒子类型通常由无符号的32位整数(其被解释为四字符代码(4CC))标识。盒子可封入其他盒子,并且ISO文件格式指定哪些盒子类型在某一类型的盒子内被允许。此外,在每个文件中存在某些盒子可以是强制性的,而其他盒子的存在可以是可选的。此外,对于某些盒子类型,可允许在文件中有超过一个盒子。因此,ISO基础媒体文件格式可被考虑以指定盒子层次结构。
在符合ISO基础媒体文件格式的文件中,媒体数据可以在MediaDataBox(mdat)的一个或多个实例中被提供,而MovieBox(moov)可被用于封入定时媒体的元数据。在某些情况下,为了使文件可操作,可能需要“mdat”和“moov”盒子两者都存在。“moov”盒子可包括一个或多个轨道,并且每个轨道可驻留在一个对应的TrackBox(“trak”)中。每个轨道与指定轨道类型的由四字符代码标识的处理程序(handler)相关联。视频、音频和图像序列轨道可以被统称为媒体轨道,并且它们包含基本媒体流。其他轨道类型包括提示轨道和定时元数据轨道。
轨道包括样本,例如音频或视频帧。对于视频轨道,媒体样本可以对应于编码图片或访问单元。
媒体轨道是指根据媒体压缩格式被格式化的样本(其也可以被称为媒体样本)(及其对ISO基础媒体文件格式的封装)。提示轨道是指提示样本,包含用于构建分组以通过所指示的通信协议进行传输的食谱指令。定时元数据轨道可以是指描述所参考的媒体的样本和/或提示样本。
“trak”盒子在它的盒子层次结构中包括SampleDescriptionBox,其给出有关所使用的编码类型的详细信息以及该编码所需的任何初始化信息。SampleDescriptionBox包含条目计数和与该条目计数所指示的一样多的样本条目。样本条目的格式是特定于轨道类型的,但是是从通用类(例如VisualSampleEntry、AudioSampleEntry)衍生的。哪种类型的样本条目形式被用于特定于轨道类型的样本条目格式的导出是由轨道的媒体处理程序确定的。
轨道参考机制可用于将轨道彼此关联。TrackReferenceBox包括一个或多个盒子,每个盒子提供从包含轨道到一组其他轨道的参考。这些参考通过被包含的盒子的盒子类型(例如,盒子的四字符代码)来被标记。
ISO基础媒体文件格式包含用于可与特定样本相关联的定时元数据的三种机制:样本组、定时元数据轨道、和样本辅助信息。衍生规范可以提供与这三种机制中的一种或多种类似的功能。
基于分组准则,在ISO基础媒体文件格式及其衍生物(例如高级视频编码(AVC)文件格式和可伸缩视频编码(SVC)文件格式)中的样本分组可被定义为每个样本在轨道中的分配以作为一个样本组的成员。样本分组中的样本组不限于是连续的样本,可以包含非相邻样本。由于针对轨道中的样本可能有多个样本分组,因此,每个样本分组都可以具有类型字段以指示分组类型。样本分组可由两个链接的数据结构表示:(1)SampleToGroupBox(sbgp盒子)表示样本到样本组的分配;以及(2)SampleGroupDescriptionBox(sgpd盒子)包含用于每个样本组的描述该组的属性的样本组条目。基于不同的分组准则,可存在SampleToGroupBox和SampleGroupDescriptionBox的多个实例。这些可以通过用于指示分组类型的类型字段来区分。SampleToGroupBox可以包括可被用于例如指示分组的子类型的grouping_type_parameter字段。
符合ISOBMFF的文件可以在元盒子(四字符代码:“meta”)中包含任何非定时对象,其被称为项目、元项目、或元数据项目。虽然元盒子的名称是指元数据,但项目通常可以包含元数据或媒体数据。元盒子可以驻留在文件的顶层、在电影盒子(四字符代码:“moov”)内、以及在轨道盒子(四字符代码:“trak”)内,但最多一个元盒子可出现在文件级别、电影级别、或轨道级别的每个级别上。可要求元盒子包含“hdlr”盒子,其指示“meta”盒子内容的结构或格式。元盒子可以列出并表征可被参考的任何数量的项目,并且每个项目可与文件名相关联并在文件内由项目标识符(item_id)(其是整数值)唯一地标识。元数据项目可例如被存储在元盒子的“idat”盒子中或在“mdat”盒子中、或者驻留在单独的文件中。如果元数据位于文件以外,则它的位置可以由DataInformationBox(四字符代码:“dinf”)声明。在元数据使用可扩展标记语言(XML)语法被格式化并被要求直接存储在MetaBox中的特定情况下,元数据可被封装到XMLBox(四字符代码:'xml')或BinaryXMLBox(四字符代码:“bxml”)中。项目可被存储为连续的字节范围,或者它可被存储在若干范围中,每个范围是连续的字节范围。换句话说,项目可被分段存储到范围中,例如以使得能够进行交错。范围是资源的字节的连续子集。资源可以通过级联这些范围来形成。
ItemPropertiesBox使得能够将任何项目与项目属性的有序集合相关联。项目属性可被认为是小数据记录。ItemPropertiesBox由两部分组成:包含项目属性的隐式索引列表的ItemPropertyContainerBox,以及将项目与项目属性相关联的ItemPropertyAssociationBox。
高效图像文件格式(HEIF)是由运动图像专家组(MPEG)开发的用于存储图像和图像序列的标准。尤其,该标准促进了根据高效视频编码(HEVC)标准被编码的数据的文件封装。HEIF包括在所使用的ISO基础媒体文件格式(ISOBMFF)之上的特征构建。
ISOBMFF结构和特征被很大程度地用在HEIF的设计中。HEIF的基本设计包括被存储为项目的静止图像和被存储为轨道的图像序列。
在HEIF的上下文中,以下盒子可被包含在根级别“meta”盒子内,并且可以按以下说明使用。在HEIF中,“meta”盒子的处理程序盒子的处理程序值为“pict”。包含编码媒体数据的资源(无论是在同一文件内,还是在由统一资源标识符标识的外部文件中)通过数据信息(“dinf”)盒子来解析,而项目位置(“iloc”)盒子存储每个项目在被参考文件内的位置和大小。项目参考('iref')盒子使用类型化参考来记录项目之间的关系。如果在项目集合中有在某种程度上被认为是与其他项目相比最重要的项目,则该项目通过主项目(“pitm”)盒子来标记。除了此处提到的盒子外,“meta”盒子也灵活地包括描述项目可能需要的其他盒子。
同一文件中可以包括任意数量的图像项目。给定通过使用“meta”盒子方法来存储的图像集合,有时必须限定(qualify)图像之间的某些关系。这样的关系的示例包括指示用于集合的封面图像、对集合中的一些或所有图像提供缩略图、以及将集合中的一些或所有图像与诸如α平面的辅助图像相关联。使用“pitm”盒子指示图像集合中的封面图像。缩略图或辅助图像分别使用类型“thmb”或“auxl”的项目参考来被链接到主图像项目。
如本文所使用的,术语“全向”可以是指具有比渲染内容的设备的视场更大的空间范围的媒体内容。全向内容可以例如在水平维度上基本覆盖360度,而在垂直维度上基本覆盖180度,但是全向也可以是指在水平方向上覆盖小于360度视图和/或在垂直方向上覆盖小于180度视图的内容。
在水平上覆盖360度视场和在垂直上覆盖180度视场的全景图像可以通过球体来表示,该球体已使用等距圆柱投影(ERP)被映射到二维图像平面。在这种情况下,在不应用任何变换或缩放的情况下,水平坐标可被认为等同于经度,而垂直坐标可被认为等同于纬度。在某些情况下,具有360度水平视场但具有小于180度垂直视场的全景内容可被认为是等距圆柱投影的特殊情况,其中该球体的极坐标区域尚未被映射到二维图像平面。在某些情况下,全景内容可具有小于360度的水平视场和高达180度的垂直视场,而在其他情况下则具有等距圆柱投影格式的特性。
在立方体贴图投影格式中,球形视频被投影到立方体的六个面(也称为侧面)。可以例如通过首先从视点渲染球形场景六次来生成立方体贴图,其中视图由表示每个立方体面的90度视锥来定义。立方体侧面可被框架包装到同一框架中,或者每个立方体侧面可被单独处理(例如,在编码中)。存在许多可能的顺序以将立方体侧面定位到框架上,和/或立方体侧面可被旋转或镜像。可以选择用于框架包装的框架宽度和高度,以“紧密地”适合立方体侧面,例如,以3x2立方体侧面网格,或可以包括未使用的构成框架,例如以4x3立方体侧面网格。
通常,360度内容可被映射到不同类型的实体几何结构上,例如多面体(即,包含平坦多边形面、直边和尖角或顶点的三维实体,例如立方体或金字塔)、圆柱体(通过将球形图像投影到圆柱体上,如上面用等距圆柱投影来描述的)、圆柱体(直接而不首先投影到球体上)、圆锥体等,然后被展开到二维图像平面。二维图像平面也可被认为是几何结构。换句话说,360度内容可被映射到第一几何结构上,并进一步被展开到第二几何结构。但是,有可能直接获得从原始360度内容或从其他宽视图视觉内容到第二几何结构的变换。通常,全向投影格式可被定义为在二维图像平面上表示(最多)360度内容的格式。全向投影格式的示例包括等距圆柱投影格式和立方体贴图投影格式。
视口可被定义为适合于显示并由用户观看的全向图像或视频的区域。当前视口(其有时可能简称为视口)可被定义为球形视频的当前被显示的部分,并且因此可由用户观看。在任何时间点,由应用在头戴式显示器(HMD)上渲染的视频渲染360度视频的一部分,其被称为视口。同样,当在传统显示器上观看360度内容的空间部分时,当前被显示的空间部分是视口。视口是在通过渲染显示器显示的全向视频中表示的360度世界上的窗口。视口可通过水平视场(VHFoV)和垂直视场(VVFoV)来表征。在下文中,视口的水平视场将被缩写为HFoV,视口的垂直视场将被缩写为VFoV。
球体区域可被定义为球体上可由四个大圆或者由两个方位角圆和两个仰角圆再加上倾斜角指定的区域,该倾斜角指示沿着源自球体原点并通过球体区域的中心点的轴的旋转。大圆可被定义为球体与通过球体的中心点的平面的相交。大圆也被称为大圆线或黎曼(Riemannian)圆。方位角圆可被定义为球体上连接具有相同方位角值的所有点的圆。仰角圆可被定义为球体上连接具有相同仰角值的所有点的圆。
全向媒体格式(“OMAF”)标准(ISO/IEC 23090-2)规定用于球体区域的通用定时元数据语法。定时元数据轨道的目的由轨道样本条目类型来指示。所规定的用于球体区域的所有元数据轨道的样本格式均以公共部分开始,并且在其后可跟随特定于元数据轨道的样本条目的扩展部分。每个样本指定一个球体区域。
在OMAF中规定的特定球体区域定时元数据轨道之一被称为推荐视口定时元数据轨道,其指示在用户不能控制观看取向或已释放了对观看取向的控制时应被显示的视口。推荐视口定时元数据轨道可被用于基于“导演的剪辑”或基于观看统计的测量来指示推荐视口。推荐视口的文本描述可样本条目中被提供。推荐视口的类型可以在样本条目中被指示,并且可以在以下之中:
-按导演剪辑的推荐视口,例如,根据内容作者或内容提供者的创作意图来建议的视口。
-基于观看统计的测量而选择的推荐视口。
-未指定(供除了OMAF以外的应用或规范使用)。
视频和/或图像可被覆盖在全向视频和/或图像上。被编码的覆盖视频可以是单独的流或当前被渲染的360度视频/图像的比特流的一部分。全向流传输系统可以将视频/图像覆盖在正被渲染的全向视频/图像之上。被覆盖的二维视频/图像可以具有矩形网格或非矩形网格。覆盖过程可以覆盖该被覆盖的视频/图像或该视频/图像的一部分,或者可存在某一透明度/不透明度级别或多于一个的透明度/不透明度级别,其中被覆盖的视频/图像可在覆盖视频/图像下被看到,但亮度较低。换句话说,可存在与前景覆盖物中视频/图像和背景中的视频/图像(VR场景的视频/图像)相对应的关联透明度级别。术语“不透明度”和“透明度”可以互换使用。
被覆盖区域可以具有一个或多于一个的透明度级别。例如,被覆盖区域可以具有带有不同透明度级别的不同部分。根据实施例,透明度级别可被定义在某一范围(例如从0到1)内,以使得该值越小,则透明度越小,反之亦然。
另外,内容提供者可以选择将相同全向视频的一部分覆盖在用户的当前视口上。内容提供者可能想要基于用户的观看条件来覆盖视频。例如,如果用户的视口与内容提供者的推荐视口不匹配,则可以执行覆盖。在这种情况下,客户端播放器逻辑将内容提供者的推荐视口(作为预览窗口)覆盖在用户的当前视口之上。如果用户当前的视口不匹配,则也可以覆盖推荐视口,以使得被覆盖视频的位置是基于用户正观看的方向。例如,如果推荐视口是到用户的当前视口的左侧,则推荐视口可被覆盖至显示器的左侧。也可以覆盖整个360度视频。又一个示例是使用覆盖视觉信息作为引导机制来将用户引导向推荐视口,例如,引导听力受损的人。
可存在关于何时和如何显示视觉覆盖物的一个或多个条件。因此,渲染设备可能需要接收渲染设备可用于执行覆盖的信息,如所标记的信息所指示的。
下面描述用于编写关于何时且如何显示视觉覆盖物的一个或多个条件的方法。内容作者获取全向内容(例如背景)和覆盖内容(例如前景覆盖物),并将它们提供给封装设备,该封装设备可以例如是编码器或另一装置的一部分,例如处理电路。全向内容可被封装并存储在例如容器文件中,并且可以在清单中被描述。内容作者生成第一指示,并将第一指示插入比特流中、容器文件中、和/或清单中。第一指示表明要被传送到内容渲染设备的全向视频序列或图像。内容作者还可以生成第二指示符,其指示被配置为被渲染为具有全向视频序列或图像的多层视觉内容的视觉覆盖物。第二指示符也可被插入比特流中、容器文件中、和/或清单中。此外,内容作者可以确定覆盖条件,例如全向视频序列或图像或其一部分打算如何、何时、何地被覆盖内容覆盖。覆盖条件可以包括其中视觉覆盖物将被覆盖的第一条件或其中视觉覆盖物将不被覆盖的第二条件。然后,内容作者还可以生成指示第一条件或第二条件的第三指示。第三指示也可被插入比特流中、容器文件中和/或清单中。
全向内容、覆盖内容和指示符可被存储到一个或多个文件中和/或例如在从接收装置接收到对内容传送的请求时被传送到接收装置。
在一种方法中,接收装置可以执行以下操作以渲染所接收的内容。接收装置可以接收比特流、容器文件、和/或清单,并从比特流、容器文件、和/或清单中解析全向视频序列或图像的第一指示。接收装置还可以从比特流、容器文件、和/或清单中解析打算在某些条件下被覆盖在全向视频序列或图像上以用于显示的视觉覆盖物的第二指示。此外,接收装置可以从比特流、容器文件、和/或清单中解析其中视觉覆盖物将要被覆盖的第一条件或其中视觉覆盖物将不被覆盖的第二条件。接收装置可以对全向视频序列或图像解码。然后,接收装置可以渲染被解码的全向视频序列或图像,并将其显示在接收装置的显示器上,或者将全向视频序列或图像传送给能够显示全向视频序列或图像的另一装置。接收装置还可以检查是否接收到第一条件或第二条件。如果接收到第一条件,则接收装置可以检查第一条件是否被满足。接收装置可以对覆盖内容解码。如果检查揭示第一条件被满足,则接收装置可以在显示器上渲染被解码的覆盖内容,或者将覆盖内容传送给可以显示覆盖内容的另一装置。然而,如果接收到第二条件,则接收装置可以检查第二条件是否被满足。如果检查揭示第二条件被满足,则覆盖内容将不会被显示。另一方面,如果检查揭示第二条件不被满足,则接收装置可以在显示器上渲染覆盖内容,或者将覆盖内容传送给可以显示覆盖内容的另一装置。
尽管上面已经描述了接收装置执行第一/第二条件的检查,但是接收装置也可以将第一/第二条件的信息和覆盖内容发送到可选的其他装置,然后可选的其他装置可以执行第一/第二条件的检查,并确定是否显示覆盖内容。
在示例中,包含有关何时和如何显示视觉覆盖物的一个或多个条件的语法结构(OverlayStruct)可以被如下规定:
num_overlays指定由该结构描述的覆盖物数量。等于0的num_overlays被保留。num_flag_bytes指定由overlay_control_flag[i]语法元素共同分配的字节数量。num_flag_bytes等于0被保留。overlay_control_flag[i]在被设置为1时定义如第i个overlay_control_struct[i]定义的结构是存在的。overlay_control_essential_flag[i]等于0指定播放器不被要求处理如由第i个overlay_control_struct[i]定义的结构。overlay_control_essential_flag[i]等于1指定播放器被要求处理如由第i个overlay_control_struct[i]定义的结构。当overlay_control_essential_flag[i]等于1并且播放器不能解析或处理如由第i个overlay_control_struct[i]定义的结构时,播放器应该既不显示该结构所指定的覆盖物,也不显示背景视觉媒体。byte_count[i]给出由第i个overlay_control_struct[i]表示的结构的字节计数。overlay_control_struct[i][byte_count[i]]定义具有如由byte_count[i]定义的字节计数的第i个结构。
OverlayStruct可以例如如在以下包含结构中被使用:
-被包括在包含视觉覆盖物的轨道的要本条目中的盒子。OverlayStruct的信息适用于参考包含该盒子的样本条目的样本。
-覆盖物项目属性。OverlayStruct的信息适用于被包含在关联图像项目中的覆盖物。
-定时元数据轨道中的样本。定时元数据样本的OverlayStruct的信息适用于在如通过一个或多个轨道参考所指示的一个或多个被参考的媒体轨道中的时间对齐的一个或多个样本。
可被指示用于例如OverlayStruct中的覆盖物的条件或特征的示例可包括但不限于以下一个或多个:
-相对于视口的覆盖物(指示覆盖物相对于视口的位置和大小)
-用于相对于球体的覆盖物的球体位置、取向、和/或球体区域
-例如相对于单位球体的覆盖物深度
-覆盖物的不透明度或覆盖物的透明度
-指示被标识的推荐视口轨道被用作覆盖物
下面提供要在OverlayStruct中被指示的特定条件的示例:当启用overlay_control_struct[X]时定义OverlayOpacity,其中X是特定的无符号整数。OverlayOpacity定义要被应用在用于在背景视觉媒体上渲染的覆盖物上的不透明度。术语不透明度和透明度可以互换使用。以下语法可用于在overlay_control_struct[i][byte_count[i]]中携带的字节:
aligned(8)class OverlayOpacity(){
unsigned int(8)opacity;
}
其中,不透明度是指定要被应用于覆盖物的不透明度的整数值。在示例实施例中,值0是完全透明的,而值100是完全不透明的,中间值定义部分透明度的对应相对值。大于100的值被保留。
一个或多个覆盖物可被携带在单个视觉媒体轨道或单个图像项目中。当超过一个覆盖物被携带在单个轨道或图像项目中时,或者当覆盖物用其他媒体(例如背景)携带时,可以例如在OverlayStruct中或与之相关联地提供从轨道或图像项目的样本到覆盖物元数据的区域映射。
当若干轨道或图像项目共同携带一个或多个覆盖物和/或背景视觉媒体时,可以在容器文件中指示一组轨道和图像项目。例如,ISOBMFF的实体组可以用于此目的。
内容作者可能想要允许或禁止应用于一个或多个覆盖物的用户交互。但是,缺少一种机制来指示对在覆盖物上的用户交互的被允许和/或不被允许的类型和/或指示用户交互被允许具有的影响范围的范围和其他参数进行标记。
图1A和1B是结合描述本文中包含的一些示例实施例而参考的术语的图形表示。图1A示出了包括横向的移动、头部旋转和平移(向前或向后)的用户交互。在图1B中,用户观看具有前景覆盖物和背景的全向内容。前景覆盖物和背景可以是任何全向内容,包括采用各种不同格式(例如HEVC)提供的2D/3DoF/3DoF+内容。
不管视觉和视听内容的文件格式如何,示例实施例的装置可以由包括例如视频编码器、视频解码器、计算机工作站、服务器等的各种计算设备中的任何一种或者由各种移动计算设备中的任何一种(例如,移动终端(例如智能手机、平板计算机、视频游戏机等))来提供。可替代地,该装置可以由能够接收一个或多个数据流并渲染可被呈现给用户的视觉和视听内容的虚拟现实系统(例如虚拟现实耳机)体现。
一个或多个覆盖物可以与诸如全向内容的沉浸式多媒体相关联。如图1C所示,例如,可以提供诸如全向内容的背景媒体内容。在所示的示例中,背景媒体内容描绘了足球比赛。一个或多个覆盖物可以被提供给背景媒体内容,以便丰富用户体验。在某些情况下,提供对相同背景媒体内容的多个可替代覆盖物。这些覆盖物可以在语义上相关,因为所有可替代覆盖物都与相同的背景媒体内容有关,并传达相同的一般内容,但表示具有不同细节级别的内容。关于图1C的示例,覆盖物1是大视场视频,例如讨论足球比赛的评论小组的视频。覆盖物2是小视场视频,例如讨论足球比赛的评论员之一的视频。覆盖物3是表示性图像,例如正在讨论足球比赛的评论员之一的图像。最后,覆盖物4是由小组提供的评论的文本版本。该示例实施例的覆盖物1、2、3和4是表示相同内容的可替代覆盖物,尽管细节级别不同。这样,在任何时候,通常只有一个可替代覆盖物与背景媒体内容一起被呈现。作为另一场景,多个可替代覆盖物表示对内容的不同选择。例如,可以向用户提供不同的评论频道以供选择。
但是,没有提供用于标记和存储与可替代覆盖物相对应的不同轨道或图像项目之间的关系的机制。实际上,当前用于速率适配的机制是降低单个覆盖媒体流(例如通过超文本传输协议(HTTP)(DASH)表示集的动态自适应流传输)的覆盖质量,或丢弃覆盖物。因此,客户端无法通过用更简单的覆盖物(例如小视场视频覆盖物、表示性图像覆盖物或纹理覆盖物)替换更复杂的覆盖物(例如视频覆盖物)来降低客户端所消耗的比特率或降低解码要求。此外,对于某些场景,不同的替代方案不仅是相同内容的不同表示。这些也可以是不同的内容,例如不同的评论频道或较长视频的剧集。
然而,根据示例实施例提供了一种方法、装置和计算机程序产品以便对覆盖物进行分组。这样,客户端可以从一组覆盖物中选择期望的覆盖物,然后该期望的覆盖物可以连同背景媒体内容一起被下载以供客户端呈现。因此,所得到的呈现是为客户端定制的,并且可以是基于各种因素的,包括下载所选择的覆盖物所需的带宽、所选择的覆盖物的分辨率、相应覆盖物的保真度等。因此,在客户端对由覆盖物提供的信息不太感兴趣的情况下,可以选择并下载不太复杂的覆盖物,例如文本覆盖物或表示性图像覆盖物,以用于与背景媒体内容同时呈现,从而节省与覆盖物的传输相关联的网络资源以及与覆盖物的解码和呈现相关联的处理资源。然而,在其中由覆盖物提供的信息更感兴趣的情况下,客户端可以选择更复杂的覆盖物(例如更详细的视频覆盖物),该覆盖物提供增强信息并改善用户体验,尽管代价是附加网络和处理资源的消耗。
在示例实施例中,背景媒体内容和覆盖物由源计算设备(例如源服务器、边缘服务器、缓存服务器等)提供。在该示例实施例中,背景媒体内容和所选择的覆盖物由客户端计算设备接收和呈现。客户端计算设备可以由包括固定计算设备(例如个人计算机、计算机工作站、电视等)、移动计算设备(例如移动电话、平板计算机、笔记本计算机等)的各种计算设备中的任何一个、或各种音频和视频系统中的任何一种来实现。
各种计算设备可以包括装置20或以其他方式与装置20相关联,并且示例实施例的装置20包括处理电路22、存储器24、通信接口26以及可选的用户接口28(如图2所示)、或与之相关联、或与之通信。
处理电路22可以经由总线与存储器设备24通信,以在装置20的组件之间传送信息。存储器设备可以是非暂时性的,并且可以包括例如一个或多个易失性和/或非易失性存储器。换句话说,例如,存储器设备可以是电子存储设备(例如,计算机可读存储介质),其包括被配置为存储可由机器(例如,诸如处理电路的计算设备)检索的数据(例如,位)的门。存储器设备可被配置为存储信息、数据、内容、应用、指令等,以用于使得该装置能够根据本公开的示例实施例执行各种功能。例如,存储器设备可被配置为缓冲输入数据以供处理电路处理。附加地或可替代地,存储器设备可被配置为存储指令以供处理电路执行。
在一些实施例中,装置20可以被体现在如上所述的各种计算设备中。然而,在一些实施例中,该装置可以体现为芯片或芯片组。换句话说,该装置可以包括一个或多个物理封装(例如,芯片),该物理封装包括在结构组装件(例如,基板)上的材料、部件和/或电线。该结构组装件可向在其上包括的组件电路提供物理强度、尺寸保持、和/或电相互作用的限制。因此,在某些情况下,该装置可被配置为在单个芯片上或作为单个“芯片上系统”实现本发明的实施例。这样,在某些情况下,芯片或芯片组可以构成用于执行用于提供本文所述功能的一个或多个操作的模块。
处理电路22可以以多种不同方式体现。例如,处理电路可被体现为各种硬件处理模块中的一个或多个,例如协处理器、微处理器、控制器、数字信号处理器(DSP)、具有或不具有随附DSP的处理元件、或各种其他电路(包括集成电路(例如ASIC(专用集成电路)、FPGA(现场可编程门阵列)、微控制器单元(MCU)、硬件加速器、专用计算机芯片等))。这样,在一些实施例中,处理电路可以包括一个或多个被配置为独立执行的处理核。多核处理电路可以使得能够在单个物理封装内进行多处理。附加地或可替代地,处理电路可以包括经由总线串联配置的一个或多个处理器,以使得能够实现指令的独立执行、流水线化和/或多线程化。
在示例实施例中,处理电路22可被配置为执行被存储在存储器设备24中或者以其他方式可被处理电路访问的指令。可替代地或附加地,处理电路可被配置为执行硬编码功能。这样,无论是通过硬件或软件方法来配置,还是通过其组合来配置,处理电路都可以表示能够根据本公开的实施例执行操作并相应被配置的实体(例如,物理地体现在电路中)。因此,例如,当处理电路被体现为ASIC、FPGA等时,处理电路可以是用于进行本文描述的操作的专门配置的硬件。可替代地,作为另一示例,当处理电路被体现为指令的执行器时,指令可以具体地配置处理器以在指令被执行时执行本文所述的算法和/或操作。然而,在某些情况下,处理电路可以是特定设备(例如,图像或视频处理系统)的处理器,其被配置为通过用于执行本文描述的算法和/或操作的指令进一步配置处理电路来采用本发明的实施例。尤其是,处理电路可以包括时钟、算术逻辑单元(ALU)和被配置为支持处理电路的操作的逻辑门。
通信接口26可以是诸如以硬件或硬件和软件的组合体现的设备或电路之类的任何模块,其被配置为接收和/或发送数据,包括采用视频或图像文件形式的视觉内容、一个或多个音频轨道等。就这一点而言,通信接口可以包括例如天线(或多个天线)以及用于使得能够与无线通信网络进行通信的支持硬件和/或软件。附加地或可替代地,通信接口可以包括用于与天线交互以引起信号经由天线的传输或处理经由天线接收的信号的接收的电路。在某些环境中,通信接口可以可替代地或还支持有线通信。这样,例如,通信接口可以包括通信调制解调器和/或用于支持经由电缆、数字用户线(DSL)、通用串行总线(USB)或其他机制的通信的其他硬件/软件。
在一些实施例中,例如在装置20被配置为处理采用视频或图像文件形式的视觉内容并渲染采用视频或图像文件形式的视觉内容的情况下,装置20可以可选地包括用户接口28,该用户接口28可以与处理电路22通信以例如通过渲染采用视频或图像文件形式的视觉内容来向用户提供输出,并在一些实施例中接收对用户输入的指示。这样,用户接口可以包括显示器,并且在一些实施例中,还可以包括键盘、鼠标、操纵杆、触摸屏、触摸区域、软键、麦克风、扬声器、或其他输入/输出机制。可替代地或附加地,处理电路可以包括用户接口电路,该用户接口电路被配置为控制一个或多个用户接口单元(诸如显示器以及在一些实施例中的扬声器、振铃器、麦克风等)的至少一些功能。处理电路和/或包括处理电路的用户接口电路可被配置为通过被存储在处理电路可访问的存储器(例如,存储器设备24等)上的计算机程序指令(例如,软件和/或固件)来控制一个或多个用户接口单元的一个或多个功能。
若干实施例涉及指示例如在比特流、容器文件、和/或清单中定义被允许和/或不被允许的交互的例如一组指示(以下也称为文件)或从比特流、容器文件和/或清单中解析信息。一组指示的示例是用户交互定义文件,该用户交互定义文件可以定义被允许由用户执行的第一组交互类型。比特流可以例如是视频或图像比特流(诸如HEVC比特流),其中该指示可以利用例如补充增强信息(SEI)消息。容器文件可以例如符合ISO基础媒体文件格式、Matroska文件格式、或素材交换格式(MXF)。清单可以例如符合MPEG-DASH(ISO/IEC23009-1)的媒体呈现描述(MPD)、M3U格式、或可交互母版格式(IMF)的合成播放列表(CPL)或由VR-IF定义的视频主格式。需要理解的是,这些格式被提供作为示例,并且实施例不限于这些格式。某些实施例可以用诸如会话描述协议(SDP)之类的任何其他类似的容器或媒体描述格式类似地实现。示例实施例可以用包括指示的比特流格式、容器文件格式和清单格式的套件来实现。MPEG OMAF是这种格式套件的示例。
需要理解的是,代替或除了清单之外,示例实施例类似地适用于容器文件格式和/或媒体比特流。例如,代替或除了在清单中指示要被覆盖的空间区域和用于覆盖的空间区域以外,它们还可以在还包含或参考编码比特流的容器文件格式的元数据内被指示。
现在参考图3,描绘了根据示例实施例的例如由图2的装置20执行的操作,以创建包括与视觉覆盖物相关联的用户交互定义文件的覆盖物元数据文件。如框30所示,该装置包括诸如处理电路22、通信接口26等的部件,用于接收视觉覆盖物,该视觉覆盖物被配置为与全向视频序列或图像一起被渲染为多层视觉内容。视觉覆盖物可以是在OMAF中定义的视觉覆盖物。全向视频序列或图像可以是一个或多个其他前景视觉覆盖物和/或背景,即最远的视觉覆盖物。
“视觉覆盖物”是视频或图像和/或图像序列的层,其被配置为被渲染为多层全向视觉内容的一部分。视觉覆盖物可被覆盖在另一个全向视频序列或图像之上和/或被另一视觉覆盖物覆盖。视觉覆盖物可以与另一全向视频序列或图像和/或其他视觉覆盖物部分或完全重叠。
如框32所示,在接收到视觉覆盖物后,装置20包括用于构建与视觉覆盖物相关联的覆盖物元数据文件的部件,例如处理电路22,其中覆盖物元数据文件包括用户交互定义文件。在一些实施例中,覆盖物元数据文件是在OMAF中规定的SingleOverlayStruct元数据文件。
用户交互定义文件可以定义被允许由用户执行并且可被包括在编码前景覆盖物或背景内容中或与其一起被包括(例如,作为封装编码前景覆盖物和/或背景内容的容器文件中的元数据)的第一组交互类型。可替代地或附加地,不被允许由用户执行的第二组交互类型可被包括在编码前景覆盖物或背景内容中或与其一起被包括。可以被包括在第一组和/或在第二组中的交互类型可以包括但不限于以下一个或多个:
i.将覆盖物移动或滑动到不同视口
ii.将覆盖物移动或滑动到不同视点;当被包括在第一组中时,该交互类型会例如允许用户在从一个视点切换到另一个视点时保持相同的视口锁定覆盖物可见
iii.移动或推动或拉动覆盖物到不同深度
iv.例如沿水平轴和垂直轴旋转覆盖物。用于旋转的坐标轴及其相对于参考坐标轴的取向可被另外标记。对于视口锁定覆盖物,坐标轴可被预先定义为视口的X轴和Y轴。
v.调整覆盖物的大小
vi.放大覆盖物
vii.更改覆盖物的透明度或不透明度
viii.打开/关闭覆盖物
ix.在覆盖物窗口内滚动场景
X.与覆盖物相关联的音频的音量
xi.对覆盖物进行切片(例如,水平地或垂直地或在一些其他预定义的方向上)
xii.裁剪覆盖物,以便仅使该覆盖物的一部分对观看者可见
在一些实施例中,用户交互定义文件可以具有以下数据结构:
语法元素的对应语义在以下阐述的示例实施例中被定义:
change_position_flag,当被设置为1时,覆盖物窗口可被移动到观看球体或视口上的任何位置,而无需改变覆盖物的深度。在一个实施例中,覆盖物的深度可由覆盖物的中心的深度值来确定。
change_viewport_flag,当被设置为1时,覆盖物的视口可通过用户交互来选择。(用户可以更改视口但不能改变覆盖物的深度)
change_depth_flag,当被设置为1时,覆盖物的深度可以通过用户交互来选择。(用户可以改变深度但不能更改视口)
当change_viewport_flag和change_depth_flag两者都被设置为1或当change_position_flag和change_depth_flag被设置为1时,覆盖物的位置可以通过用户交互来自由选择。
switch_on_off_flag,当被设置为1时,用户可以打开/关闭覆盖物。
change_opacity_flag,当被设置为1时,用户可以改变覆盖物的透明度或不透明度。
resize_flag,当被设置为1时,用户可以调整覆盖物窗口的大小。调整大小后的覆盖物窗口的视场可以与原始覆盖物窗口的视场相同。
max_width_percent和max_height_percent分别以相对于覆盖物的原始宽度和高度的百分比来指定覆盖物的最大宽度和高度。一个实施例的值以2-16%为单位被指示。如果被定义,则用户不能调整覆盖物的大小超出最大值。在另一个实施例中,最小调整大小值也可以以类似的方式用诸如min_width_percent和min_height_percent的标志来定义,这些标志可以以相对于覆盖物的原始宽度和高度的百分比来指定覆盖物的最小允许宽度和高度。这些值也可以具有与上面针对最大宽度和高度百分比值所定义的单位相同的单位。
resize_change_FOV_flag,当被设置为1时,用户可以调整覆盖物窗口的大小。调整大小后的覆盖物窗口的视场可以不与原始覆盖物窗口的视场相同。
max_FOV_Hor和max_FOV_Ver分别指定用户可以调整覆盖物窗口大小的在水平方向和垂直方向上的最大FOV。如果被定义,则用户不能调整覆盖物的大小超出最大值。
rotation_flag,当被设置为1时,用户可以旋转覆盖物窗口,可对覆盖物执行的旋转量受到overlayRotation结构的限制。如果rotation_flag被设置为1并且没有定义overlayRotation结构,则用户可以在任意方向上自由旋转覆盖物。旋转交互可以使得在用户旋转了覆盖物之后,覆盖物的内容可对于观看覆盖物的用户不被遮挡。
change_audio_flag,当被设置为1时,用户可以独立于背景视觉媒体来改变覆盖物视觉媒体的音频。
scroll_flag,当被设置为1时,用户可以滚动在覆盖物窗口中显示的内容。
OverlayInteraction语法结构可以例如作为单个结构被包括在SingleOverlayStruct内,它是如上所述的与视觉覆盖物相关联的覆盖物元数据文件,并且特定索引值i指示OverlayInteraction语法结构在SingleOverlayStruct内的存在。
在与如上所述的SingleOverlayStruct有关的实施例中,针对每个交互类型分配单独的索引值i,并且提供overlay_control_flag[i]来定义是否允许/不允许交互。当SingleOverlayStruct内的overlay_control_flag[i]等于1时,相应的交互类型被允许由用户控制。当SingleOverlayStruct内的overlay_control_flag[i]等于0时,相应的交互类型不被允许由用户控制。当第i个交互类型被允许由用户控制时,可以在overlay_control_struct[i][byte_count[i]]内提供用于第i个交互类型的附加参数。
OverlayRotation结构定义用户可以对覆盖物执行的旋转。
max_yaw、max_pitch和max_roll分别定义用户可以旋转覆盖物窗口的偏航角、俯仰角和滚转角的绝对值。旋转量是从0到在对应方向上定义的最大值。
OverlayParallax数据结构定义覆盖物的可访问观看空间,即,头部运动视差将被响应的范围。maxX、maxY和maxZ分别定义在X轴、Y轴和Z轴上的可访问观看范围。在一些实施例中,可访问观看空间小于覆盖物3DOF+观看空间。
旋转交互可以使得在用户旋转了覆盖物之后,覆盖物的内容可对于观看覆盖物的用户不被遮挡。
在构建与视觉覆盖物相关联的覆盖物元数据文件后,如框34所示,装置20包括用于存储视觉覆盖物和覆盖物元数据文件的模块,诸如处理电路22。此后,可以发送视觉覆盖物和覆盖物元数据文件,或者可以采取其他动作。例如,视觉覆盖物和覆盖物元数据文件可与全向视频序列或图像一起被提供给全向内容播放器。
在一些实施例中,回放具有覆盖物的全向内容的全向内容播放器提供了用于与用户交互的模块,以使得用户可以执行以下一个或多个:
·将覆盖物移动或滑动到不同视口
·将覆盖物移动或滑动到不同视点,或将覆盖物冻结到视口上而不管视点变化
·移动或推动或拉动覆盖物到不同深度
·将覆盖物灵活地移动到任何位置
·沿偏航、俯仰、和滚转方向旋转覆盖物
·调整覆盖物窗口的大小
·改变覆盖物的视场
·改变覆盖物的透明度或不透明度
·打开/关闭覆盖物
·放大覆盖物
·在覆盖物窗口内滚动场景
·控制与覆盖物相关联的音频音量,例如,通过在覆盖物被观看时增大音量
·对覆盖物进行切片(例如,水平地或垂直地或在其他预定义方向上)
·裁剪覆盖物(即,仅使覆盖物的一部分对观看者可见)
这样,结合图4描述与回放全向视频序列或图像连同视觉覆盖物和覆盖物元数据文件相关联的操作。尽管以下相对于图2的装置20参考了被配置为执行图4的操作的装置,但用于执行图4的操作的装置可以是相同的装置或不同的装置,也就是说,由与创建了覆盖物元数据文件的计算设备不同的计算设备体现。然而,被配置为执行图5的操作的装置可以包括如下所述的用户接口28。
如框40所示,装置20包括用于接收全向视频序列或图像的模块,例如处理电路22、通信接口26等。在一些实施例中,全向视频序列或图像可以是根据OMAF格式化的文件。
如框42所示,装置20包括用于接收视觉覆盖物的模块,诸如处理电路22、通信接口26等,该视觉覆盖物被配置为与全向视频序列或图像以及与视觉覆盖物相关联的覆盖物元数据文件一起被渲染为多层视觉内容。全向视频序列或图像可以包括一个或多个其他视觉覆盖物和/或背景,例如,最远的视觉覆盖物。覆盖物元数据文件包括用户交互定义文件。覆盖物元数据文件和用户交互定义文件可以是结合图3描述的覆盖物元数据文件和用户交互定义文件。“视觉覆盖物”是被配置为被渲染为多层全向视觉内容的一部分的视频或图像和/或图像序列的层。视觉覆盖物可被覆盖在另一全向视频序列或图像之上和/或被另一视觉覆盖物覆盖。视觉覆盖物可以与其他全向视频序列或图像和/或其他视觉覆盖物部分或完全重叠。
如框44所示,装置20包括用于渲染全向视频序列或图像以及视觉覆盖物的模块,诸如处理电路22、通信接口26等。
如框46所示,装置20包括用于接收与视觉覆盖物相关联的用户交互的模块,诸如处理电路22、通信接口26等。所接收的用户交互可以是结合图3描述的任何用户交互。
如框48所示,装置20包括用于基于用户交互和覆盖物元数据文件来调整视觉覆盖物的渲染的模块,诸如处理电路22、通信接口26等。用户交互可以是以下之一:
·将覆盖物移动或滑动到不同视口
·将覆盖物移动或滑动到不同视点,或将覆盖物冻结到视口上而不管视点变化
·移动或推动或拉动覆盖物到不同深度
·将覆盖物灵活地移动到任何位置
·沿偏航、俯仰、和滚转方向旋转覆盖物
·调整覆盖物窗口的大小
·改变覆盖物的视场
·改变覆盖物的透明度或不透明度
·打开/关闭覆盖物
·放大覆盖物
·在覆盖物窗口内滚动场景
·控制与覆盖物相关联的音频音量,例如,通过在覆盖物被观看时增大音量
·对覆盖物进行切片(例如,水平地或垂直地或在其他预定义方向上)
·裁剪覆盖物(即,仅使覆盖物的一部分对观看者可见)
覆盖物元数据文件中的用户交互定义文件可以定义是否允许或不允许所接收的用户交互。如果所接收的用户交互是在用户交互定义文件中被允许的用户交互类型,则装置20将相应地调整视觉覆盖物的渲染。如果用户交互是在用户交互定义文件中不被允许的用户交互类型,则装置20将不基于用户交互来调整视觉覆盖物的渲染。
现在参考图5,示出了诸如由被源计算设备体现的或以其它方式与源计算设备相关联的图2的装置10执行的操作。如框50所示,该装置包括用于定义对背景媒体内容(诸如全向媒体内容)的一组覆盖物的模块,诸如处理电路12等。在示例实施例中,被分组的覆盖物是语义相关覆盖物,其全部与相同的背景媒体内容有关并传送相同的一般内容,但表示具有不同细节水平的内容,例如不同的视场和/或不同的分辨率。尽管可以提供各种不同类型的语义相关覆盖物,但是语义相关覆盖物的示例包括具有不同视场和/或不同分辨率的视频覆盖物轨道、具有不同视场和/或不同分辨率的覆盖物图像项目、文本信息、图形信息、点云编码对象等。在另一个示例实施例中,覆盖物可以提供不同的内容选择,例如,在被包括在虚拟现实环境内的电视或其他显示器上的不同电影、节目或频道的呈现,或者可在虚拟现实环境中被浏览的不同照片集合的呈现。作为示例而非限制,在下面总体描述多组语义相关覆盖物。
可选地,示例实施例的装置10还包括用于使与该组覆盖物有关的元数据被提供给诸如客户端计算设备的模块,诸如处理电路12、通信接口16等。参见框52。可替代地,与该组覆盖物有关的元数据可以由客户端计算设备基于例如媒体属性(诸如分辨率、带宽、编解码器等)来导出。在元数据被提供的实施例中,元数据不仅识别相应的覆盖物,而且提供有关该覆盖物的附加信息。可以针对一组语义相关覆盖物提供各种类型的元数据。在示例实施例中,元数据包括关于该组语义相关覆盖物中的可替代覆盖物所需的带宽的信息。就这一点而言,可替代覆盖物可要求不同的带宽量以将覆盖物从源计算设备发送到客户端计算设备,其中,视频覆盖物轨道通常需要比覆盖物图像项目更多的带宽,而覆盖物图像项目通常需要比提供文本信息的覆盖物更多的带宽。附加地或可替代地,元数据可以包括关于该组语义相关覆盖物中的可替代覆盖物的分辨率的信息。像带宽一样,可替代覆盖物可具有不同的分辨率,并因此可以提供不同的用户享受级别。然而,相对于较低分辨率覆盖物,具有增加的分辨率的覆盖物通常需要附加的网络资源(例如带宽)和处理资源以发送和呈现该覆盖物。在一些实施例中,元数据可以被包括在先前结合图3描述的覆盖物元数据文件中和/或作为覆盖物元数据文件被提供。
附加地或可替代地,元数据可以包括关于该组语义相关覆盖物中的可替代覆盖物的保真度的信息。尽管可以以各种方式来定义保真度,但是在一个示例实施例中,可以按照保真度排名来提供关于可替代覆盖物的保真度的信息。基于保真度排名,客户端可以确定不同覆盖物的保真度之间的相对关系。关于图1的示例,具有完整视场的视频覆盖物1具有最高的保真度,具有评论者面部的有限视场的视频覆盖物2具有第二高的保真度,提供评论者面部的静态图像的视频覆盖物3具有的保真度,包括文本信息的覆盖物4具有最低的保真度。覆盖物可以表示不同的内容选择。
如图5的框54所示,源计算设备的示例实施例的装置10包括用于接收从一组覆盖物中对相应覆盖物的选择(诸如客户端的选择)的模块,诸如处理电路12、通信接口16等。响应于该选择,该示例实施例的装置包括用于使已被诸如客户端选择的相应覆盖物被提供给客户端的模块,诸如处理电路、通信接口等。该组覆盖物中未被客户端选择的其他可替代覆盖物不需要被下载到客户端计算设备,从而节省源计算设备和客户端计算设备两者的网络资源以及处理资源。
如框56所示,示例实施例的装置10还可选地包括用于使相应覆盖物被提供的模块,诸如处理电路12、通信接口16等。
如框58所示,示例实施例的装置10还可选地包括用于使背景媒体内容被提供的模块,诸如处理电路12、通信接口16等。背景媒体内容可以在图5所示的操作序列中的任一点(包括与所选择的覆盖物的提供同时或者在所选择的覆盖物的提供之前或之后)被提供。可替代地,客户端计算设备可被配置为采用背景媒体内容的颜色或内容,从而不需要渲染背景媒体内容的提供。在一些实施例中,以上在图3中描述的操作也可以与在图5中描述的操作结合。
可以以各种不同的方式来提供与该组覆盖物有关的元数据的提供。然而,在示例实施例中,与该组覆盖物有关的元数据由一个或多个数据结构和在文件格式级别的相关控制标志来提供。在其中背景媒体内容是全向媒体内容的该示例实施例中,与该组覆盖物有关的元数据可以如在国际标准化组织基础媒体文件格式(ISOBMFF)兼容文件中被提供和存储。ISOBMFF中的基本构建块被称为盒子。每个盒子都有头部和有效载荷。盒子头部以字节指示盒子的类型和盒子的大小。盒子类型通常由无符号的32位整数(其被解释为四字符代码(4CC))标识。盒子可封入其他盒子,并且ISO文件格式指定哪些盒子类型在某一类型的盒子内被允许。在该示例实施例中,EntityToGroupBox文件可被定义以提供与该组语义相关覆盖物有关的元数据。EntityToGroupBox文件可以包括具有预定义值(例如“oval”)的grouping_type,该值指示该组中的每个轨道或项目是要被渲染为覆盖物的可替代物。在由EntityToGroupBox标识的可替代覆盖物中,仅有一个覆盖物旨在与背景媒体内容以及来自其他组覆盖物的任何其他覆盖物一起被呈现。可替代覆盖物可以是用户可切换的。
在一个示例实施例中,一组的可替代覆盖物的排名按照覆盖物(例如,轨道标识符或图像项目标识符)在EntityToGroupBox中的顺序来提供。轨道标识符或图像项目标识符的出现顺序可以由客户端计算设备用作元数据形式,以选择要与背景媒体内容一起被呈现的可替代覆盖物。该实施例向客户端计算设备建议内容消费序列。例如,电子学习教程覆盖物可以包括EntityToGroupBox中按特定顺序的不同章节,其中引言章节在EntityToGroupBox中更详细的章节之前,从而向客户端计算设备建议引言章节在更详细的章节之前被呈现。
该组覆盖物中的每个轨道(例如每个视频)可以由与相应的轨道相关联的ProjectOmniVideoBox内的OverlayConfigBox表示。类似地,该组覆盖物中的每个图像项目还可以在相应的图像项目的ItemPropertyContainerBox中有OverlayConfigBox。为了指示在grouping_type是预定义值(例如“oval”)的EntityToGroupBox中的覆盖物(例如轨道或图像项目)是可替代物,每个覆盖物可在TrackHeaderBox中具有相同的alterate_group值,或者可以属于相同的子图片合成轨道组。在示例实施例中,在grouping_type是预定义值(诸如“oval”)的同一EntityToGroupBox中的任何可替代覆盖物(例如轨道或图像项目)也应属于相同的实体组,例如“altr”实体组。
在示例实施例中,可以如下提供与该组覆盖物的相应覆盖物有关的元数据:
在该示例实施例中,overlay_id唯一地标识相应覆盖物,并且overlay_fidelity_ranking是指定相应覆盖物在该组覆盖物中的排名的值,诸如整数值。保真度排名可以是主观的,并且可以例如由内容的创建者例如基于内容分析、主观评估或专业判断来提供。在内容分析方面,保真度排名可以考虑存在或不存在感兴趣的人、存在或不存在感兴趣的对象等,与不存在感兴趣的人或感兴趣的对象相比,存在感兴趣的人或感兴趣的对象导致更高的保真度排名。举例来说,相对于图1C的足球比赛,显示手球犯规的重播的覆盖物可能最好作为视频来观看,而在文本信息方面则是最少兴趣的。因此,手球犯规的视频的保真度排名将大于对应的文本信息的保真度排名。另一方面,与提供相同信息的电视主持人的视频相比,股票行情机提供实质上有用的信息,并且在某些情况下,电视主持人的视频可能会分散注意力,诸如在背景视频内容是不同电视频道的呈现的情况下。因此,表示股票行情机的文本信息的保真度排名可能比对应的视频呈现的保真度排名更高。如前面的示例所示,保真度排名的确定还可以考虑覆盖物将要与其被同时呈现的背景媒体内容类型。
保真度排名可以提供相对于与每个覆盖物相关联的优先级信息(例如overlay_priority)的正交信息。overlay_priority指示在客户端计算设备不能解码所有覆盖物的情况下(例如在客户端计算设备缺乏足够的解码能力的情况下)哪个覆盖物应被优先。就这一点而言,优先级信息使得能够选择被优先于另一个覆盖物进行渲染的一个覆盖物,而保真度排名便于从单组覆盖物中选择特定的覆盖物。
另外,由与覆盖物相关联的元数据的前述示例提供的overlay_bandwidth是指定将覆盖物从源计算设备下载到客户端计算设备所需的比特率(诸如平均比特率,例如以每秒千比特为单位的平均比特率)的值(诸如整数值)。在一些实施例中,overlay_bandwidth可以表示在将覆盖物从源计算设备下载到客户端计算设备期间所需的峰值比特率值。
在示例实施例中,可针对相应覆盖物渲染多个可替代轨道。在示例实施例中,与相同覆盖物(即,具有相同覆盖物属性的覆盖物)相对应的OverlayConfigBox可在alternative_group中的多于一个媒体轨道中存在。在多个可替代音频轨道中包括具有相同属性的覆盖物与对具有不同覆盖物属性的多个覆盖可替代物的分组有所不同,这是因为考虑到不同的图像/视频分辨率或定时文本尺寸的更大的灵活性。
在对覆盖物的分组的另一个实施例中,其中覆盖物是用于切换的可替代物,下面所示的grouping_type等于“oval”的这一类型的EntityToGroupBox指示该轨道或项目是旨在被呈现为用于同一实体组中的覆盖物轨道/项目的客户端可切换的可替代物的覆盖物轨道/项目。
在该示例中,ref_overlay_id[i]指定来自由第i个entity_id标识的轨道或图像项目的overlay_id,其中该轨道或图像项目是该组中的可切换覆盖物。第i个参考轨道或图像项目应具有与存在的ref_overlay_id[i]相等的overlay_id。当由该实体组的entity_id值标识的轨道和图像项目中的每一个都恰好包含一个覆盖物时,允许不存在ref_layer_id[i]语法元素。
在一个示例实施例中,在实体组(诸如“oval”实体组)中列出覆盖物的顺序例如通过已预先定义或指示的语义来传达附加信息。在示例中,覆盖物的列表的升序(例如,ref_overlay_id[i](当存在时)中的i的升序)指定向前/向上的切换顺序。换句话说,当用户或客户端从overlay_id等于ref_overlay_id[i]的覆盖物开始向前/向上切换时,在没有从i的最后一个值到0的包覆(wrapover)的情况下,要被显示的下一个覆盖物的overlay_id等于ref_overlay_id[i+1]。
如果基于客户端交互来进行可替代覆盖物选择,则可以例如通过如下对类OverlayInteraction进行扩展来实现覆盖物选择:
在该示例中,source_switching_flag在被设置为1时指定客户端被允许从当前覆盖物切换到新覆盖物。当被设置为0时,source_switching_flag指定客户端不被允许从当前覆盖物切换到新覆盖物。
在另一个实施例中,可以通过用以下语法来定义被称为OverlaySwitchingSequence()的新结构来实现覆盖物的切换:
在该示例中,forward_switch在被设置为1时指定当客户端向前/向上切换时,选择如由fwd_switch_track_ref_idx指定的对应覆盖物轨道/项目。此外,backward_switch在被设置为1时指定当客户端向后/向下切换时,选择如由bwd_switch_track_ref_idx指定的对应覆盖物轨道/项目。此外,fwd_switch_track_ref_idx是对被包含在grouping_type等于“oval”的EntityToGroupBox中的track_ID/Item列表的基于1的索引。最后,bwd_switch_track_ref_idx是对被包含在grouping_type等于“oval”的EntityToGroupBox中的track_ID/Item列表的基于1的索引。
现在从客户端计算设备的角度参考图6,用客户端计算设备体现或以其他方式与客户端计算设备相关联的装置10包括用于诸如从源计算设备接收定义对背景媒体内容的一组覆盖物的元数据的模块,诸如处理电路12、通信接口16等。参见图6的框60。如上所述,该组覆盖物可以包括一组语义相关覆盖物,该组语义相关覆盖物包括表示与相同的背景媒体内容有关的内容并传达相同的一般内容但具有不同细节水平的可替代覆盖物。可替代地,该组覆盖物可以提供不同的内容选择,诸如在被包括在虚拟现实环境内的电视或其他显示器上的不同电影、节目或频道的呈现,或者可以在虚拟现实环境中被浏览的不同照片集合的呈现。尽管可以如上所述地提供各种各样的元数据,但其中该组覆盖物包括语义相关覆盖物的示例实施例的元数据包括关于该组语义相关覆盖物中的可替代覆盖物被下载所需的带宽的信息、关于该组语义相关覆盖物中的可替代覆盖物的分辨率的信息和/或关于该组语义相关覆盖物中的可替代覆盖物的保真度的信息。在一些实施例中,元数据可以被包括在先前结合图3描述的覆盖物元数据文件中和/或作为覆盖物元数据文件被提供。
参考图6的框62,该示例实施例的装置10还包括用于使从该组覆盖物中对相应覆盖物的选择被提供的模块,诸如处理电路12、用户接口18等之类。就这一点而言,选择可以由用户进行,或者可以例如由客户端计算设备基于例如被考虑的评估所提供的与该组覆盖物中的可替代覆盖物有关的元数据的预定义规则来自动进行。例如,客户端计算设备可以将选择基于网络带宽需求、图像或视频分辨率和/或用户偏好。在一个实施例中,例如,客户端计算设备可以要求所选择的覆盖物需要不超过预定义最大带宽或者至少具有预定义最小分辨率和/或至少预定义保真度排名。
在已向源计算设备提供了相应覆盖物的选择之后,该示例实施例的装置10包括用于接收相应覆盖物的模块,诸如处理电路12、通信接口16等。参见框64。如图6的框66所示,该装置还可选地包括用于接收背景媒体内容的模块,例如处理电路、通信接口等。就这一点而言,客户端计算设备可以与相应覆盖物同时或者在某一其他时间点(诸如在接收相应覆盖物之前或在接收到相应覆盖物之后)接收背景媒体内容。可替代地,背景媒体内容可以由客户端计算设备隐式地生成,而无需源计算设备提供背景媒体内容。此后,该示例实施例的装置包括用于使背景媒体内容和相应覆盖物被同时呈现的模块,诸如处理电路、用户接口18等。参见框68。因此,通过定制与背景媒体内容同时呈现给客户端的覆盖物,可以增强用户体验。然而,通过允许相应覆盖物的选择是基于用于该组覆盖物的所有覆盖物的元数据、同时仅要求被选择的相应覆盖物从源计算设备下载到客户端计算设备,可以节省源计算设备和客户端计算设备两者的网络资源和处理资源。
上面图4中描述的操作也可以与图6中描述的操作组合,特别地,在一些实施例中,可以添加上面描述的操作46和48。
装置20可以包括用于接收与相应视觉覆盖物相关联的用户交互的模块,诸如处理电路22、通信接口26等。所接收的用户交互可以是结合图3描述的任何用户交互。
装置20可以包括用于基于用户交互和覆盖物元数据文件来调整相应视觉覆盖物的渲染的模块,诸如处理电路22、通信接口26等。用户交互可以是以下之一:
·将覆盖物移动或滑动到不同视口
·将覆盖物移动或滑动到不同视点,或将覆盖物冻结到视口上,而不管视点变化
·移动或推动或拉动覆盖物到不同深度
·将覆盖物灵活地移动到任何位置
·沿偏航、俯仰和滚转方向旋转覆盖物
·调整覆盖物窗口的大小
·改变覆盖物的视场
·改变覆盖物的透明度或不透明度
·打开/关闭覆盖物
·在覆盖物窗口内滚动场景
·放大覆盖物
·控制与覆盖物相关联的音频音量,例如通过在覆盖物被观看时增大音量
·对覆盖物进行切片(例如,水平地或垂直地或在其他预定义方向上)
·裁剪覆盖物(即,仅使覆盖物的一部分对观看者可见)
覆盖物元数据文件中的用户交互定义文件可以定义是否允许或不允许所接收的用户交互。如果所接收的用户交互是在用户交互定义文件中被允许的用户交互类型,则装置20将相应地调整视觉覆盖物的渲染。如果用户交互是在用户交互定义文件中不被允许的用户交互类型,则装置20将不基于用户交互来调整视觉覆盖物的渲染。
如上所述,图3、4、5和6是根据某些示例实施例的装置20、方法和计算机程序产品的流程图。将理解,流程图的每个框以及流程图中的框的组合可以通过各种模块(诸如硬件、固件、处理器、电路、和/或与包括一个或多个计算机程序指令的软件的执行相关联的其他设备)来实现。例如,上述过程中的一个或多个可以由计算机程序指令来体现。在这方面,体现上述过程的计算机程序指令可以由采用本发明的实施例的装置的存储器设备24存储,并由该装置的处理电路22执行。将会理解,任何这样的计算机程序指令可被加载到计算机或其他可编程装置(例如,硬件)上以产生机器,以使得所得到的计算机或其他可编程装置实现在流程图框中指定的功能。这些计算机程序指令还可以被存储在计算机可读存储器中,该计算机可读存储器可以指导计算机或其他可编程装置以特定方式起作用,以使得被存储在计算机可读存储器中的指令产生制品,该制品的执行实现了在流程图框中指定的功能。计算机程序指令也可以被加载到计算机或其他可编程装置上,以使一系列操作在该计算机或其他可编程装置上执行以产生计算机实现的过程,以使得在该计算机或其他可编程装置上执行的指令提供用于实现在流程图框中指定的功能的操作。
因此,计算机程序产品在其中计算机程序指令(例如计算机可读程序代码部分)被至少一个非暂时性计算机可读存储介质存储的那些实例中被定义,其中,计算机程序指令(例如计算机可读程序代码部分)被配置为在执行时执行以上例如结合图3、4、5和6的流程图描述的功能。在其他实施例中,计算机程序指令(例如计算机可读程序代码部分)不需要被非暂时性计算机可读存储介质存储或以其他方式体现,而可以替代地由暂时性介质来体现,其中计算机程序指令(例如计算机可读程序代码部分)仍然被配置为在执行时执行上述功能。
因此,流程图的框支持用于执行指定功能模块的组合以及用于执行指定功能的操作的组合。还应理解,流程图的一个或多个框以及流程图中的框的组合可以由执行指定功能的基于专用硬件的计算机系统、或专用硬件和计算机指令的组合来实现。
在一些实施例中,可以修改或进一步放大上述操作中的某些操作。此外,在一些实施例中,可以包括附加的可选操作。对以上操作的修改、添加或放大可以以任何顺序和以任何组合来执行。
受益于前述说明书和相关联附图中呈现的教导,与这些发明有关的本领域技术人员将想到本文阐述的本发明的许多修改和其他实施例。因此,应当理解,本发明不限于所公开的特定实施例,并且修改和其他实施例旨在被包括在所附权利要求的范围内。此外,尽管前述说明和相关联的附图在元件和/或功能的某些示例性组合的上下文中描述了示例性实施例,但是应当理解,在不脱离所附权利要求的范围的情况下,可以由可替代实施例提供元件和/或功能的不同组合。就这一点而言,例如,如上文所附权利要求中的一些所阐述的,与上文明确描述的元件和/或功能的不同组合也被考虑。尽管本文中使用了特定术语,但是它们仅在一般和描述性意义上使用,而不是出于限制的目的。
Claims (28)
1.一种方法,包括:
接收定义对背景媒体内容的一组覆盖物的元数据,所述覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,所述语义相关覆盖物包括表示具有不同细节水平的内容的可替代覆盖物;
使得从所述一组覆盖物中对相应覆盖物的选择被提供;以及
接收所述相应覆盖物以用于与所述背景媒体内容同时呈现。
2.根据权利要求1所述的方法,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物所需的带宽的信息。
3.根据权利要求1所述的方法,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物的分辨率的信息。
4.根据权利要求1所述的方法,其中,所述元数据包括所述可替代覆盖物的序列信息。
5.根据权利要求1所述的方法,还包括:接收所述背景媒体内容,其中,所述背景媒体内容包括全向媒体内容。
6.根据权利要求5所述的方法,还包括:使所述全向媒体内容和所述相应覆盖物被同时呈现。
7.根据权利要求1至6中的任一项所述的方法,进一步包括:
接收与视觉覆盖物相关联的用户交互,其中,所述用户交互与所述元数据中定义用户交互类型的标志相对应;以及
在所述标志指示所述用户交互类型被允许的实例中,基于所述用户交互和所述元数据来调整所述视觉覆盖物的渲染。
8.一种装置,包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置:
接收定义对背景媒体内容的一组覆盖物的元数据,所述覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,所述语义相关覆盖物包括表示具有不同细节水平的内容的可替代覆盖物;
使得从所述组覆盖物中对相应覆盖物的选择被提供;以及
接收所述相应覆盖物以用于与所述背景媒体内容同时呈现。
9.根据权利要求8所述的装置,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物所需的带宽的信息。
10.根据权利要求8所述的装置,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物的分辨率的信息。
11.根据权利要求8所述的装置,其中,所述元数据包括所述可替代覆盖物的序列信息。
12.根据权利要求8所述的装置,其中,所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置接收所述背景媒体内容,其中,所述背景媒体内容包括全向媒体内容。
13.根据权利要求12所述的装置,其中,所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置使所述全向媒体内容和所述相应覆盖物被同时呈现。
14.根据权利要求8至13中的任一项所述的装置,其中,所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置:
接收与视觉覆盖物相关联的用户交互,其中,所述用户交互与所述元数据中定义用户交互类型的标志相对应;以及
在所述标志指示所述用户交互类型被允许的实例中,基于所述用户交互和所述元数据来调整所述视觉覆盖物的渲染。
15.一种装置,包括:
用于接收定义对背景媒体内容的一组覆盖物的元数据的模块,所述覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,所述语义相关覆盖物包括表示具有不同细节水平的内容的可替代覆盖物;
用于使得从所述组覆盖物中对相应覆盖物的选择被提供的模块;以及
用于接收所述相应覆盖物以用于与所述背景媒体内容同时呈现的模块。
16.根据权利要求15所述的装置,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物所需的带宽的信息。
17.根据权利要求15所述的装置,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物的分辨率的信息。
18.根据权利要求15所述的装置,其中,所述元数据包括所述可替代覆盖物的序列信息。
19.根据权利要求15所述的装置,进一步包括用于接收所述背景媒体内容的模块,其中所述背景媒体内容包括全向媒体内容。
20.根据权利要求19所述的装置,进一步包括用于使所述全向媒体内容和所述相应覆盖物被同时呈现的模块。
21.根据权利要求15至20中的任一项所述的装置,还包括:
用于接收与视觉覆盖物相关联的用户交互的模块,其中,所述用户交互与所述元数据中定义用户交互类型的标志相对应;以及
用于在所述标志指示所述用户交互类型被允许的实例中基于所述用户交互和所述元数据来调整所述视觉覆盖物的渲染的模块。
22.一种计算机程序产品,包括在其中存储有计算机可执行程序代码指令的至少一个非暂时性计算机可读存储介质,所述计算机可执行程序代码指令包括被配置为在执行时执行以下操作的程序代码指令:
接收定义对背景媒体内容的一组覆盖物的元数据,所述覆盖物包括语义相关覆盖物或提供不同内容选择的覆盖物,所述语义相关覆盖物包括表示具有不同细节水平的内容的可替代覆盖物;
使得从所述组覆盖物中对相应覆盖物的选择被提供;以及
接收所述相应覆盖物以用于与所述背景媒体内容同时呈现。
23.根据权利要求22所述的计算机程序产品,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物所需的带宽的信息。
24.根据权利要求22所述的计算机程序产品,其中,所述元数据包括关于所述一组语义相关覆盖物中的所述可替代覆盖物的分辨率的信息。
25.根据权利要求22所述的计算机程序产品,其中,所述元数据包括所述可替代覆盖物的序列信息。
26.根据权利要求22所述的计算机程序产品,其中,所述计算机可执行程序代码指令还包括被配置为在执行时接收所述背景媒体内容的计算机程序指令,其中,所述背景媒体内容包括全向媒体内容。
27.根据权利要求26所述的计算机程序产品,其中,所述计算机可执行程序代码指令还包括被配置为在执行时使所述全向媒体内容和所述相应覆盖物被同时呈现的程序代码指令。
28.根据权利要求22至27中的任一项所述的装置,其中,所述计算机可执行程序代码指令还包括被配置为在执行时执行以下操作的程序代码指令:
接收与视觉覆盖物相关联的用户交互,其中,所述用户交互与所述元数据中定义用户交互类型的标志相对应;以及
在所述标志指示所述用户交互类型被允许的实例中,基于所述用户交互和所述元数据来调整所述视觉覆盖物的渲染。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862679240P | 2018-06-01 | 2018-06-01 | |
US62/679,240 | 2018-06-01 | ||
US201862694459P | 2018-07-06 | 2018-07-06 | |
US62/694,459 | 2018-07-06 | ||
PCT/FI2019/050418 WO2019229304A2 (en) | 2018-06-01 | 2019-05-31 | Method and apparatus for signaling user interactions on overlay and grouping overlays to background for omnidirectional content |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112514398A true CN112514398A (zh) | 2021-03-16 |
CN112514398B CN112514398B (zh) | 2023-07-14 |
Family
ID=68697870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980050372.6A Active CN112514398B (zh) | 2018-06-01 | 2019-05-31 | 用于针对全向内容而标记在覆盖物上的用户交互并将对背景的覆盖物分组的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11651752B2 (zh) |
EP (1) | EP3804335A4 (zh) |
KR (1) | KR102429241B1 (zh) |
CN (1) | CN112514398B (zh) |
PH (1) | PH12020552061A1 (zh) |
WO (1) | WO2019229304A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024169691A1 (zh) * | 2023-02-15 | 2024-08-22 | 北京字跳网络技术有限公司 | 视频处理方法、装置、电子设备及存储介质 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11532128B2 (en) * | 2017-03-23 | 2022-12-20 | Qualcomm Incorporated | Advanced signaling of regions of interest in omnidirectional visual media |
CN110971564B (zh) * | 2018-09-28 | 2021-03-30 | 华为技术有限公司 | 传输媒体数据的方法、客户端和服务器 |
WO2020113229A1 (en) * | 2018-11-30 | 2020-06-04 | Warner Bros. Entertainment Inc. | Partial frame replacement enabling multiple versions in an integrated video package |
GB2585052B (en) * | 2019-06-26 | 2023-07-26 | Canon Kk | Method and apparatus for encapsulating panorama images in a file |
US12108124B2 (en) * | 2019-07-03 | 2024-10-01 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and apparatus with improved overlay design used in a virtual reality environment |
EP3873095A1 (en) * | 2020-02-27 | 2021-09-01 | Nokia Technologies Oy | An apparatus, a method and a computer program for omnidirectional video |
US11688079B2 (en) * | 2020-03-31 | 2023-06-27 | Nant Holdings Ip, Llc | Digital representation of multi-sensor data stream |
WO2021198550A1 (en) * | 2020-04-03 | 2021-10-07 | Nokia Technologies Oy | A method, an apparatus and a computer program product for streaming conversational omnidirectional video |
EP4135321A4 (en) * | 2020-04-11 | 2024-03-27 | LG Electronics, Inc. | POINT CLOUD DATA TRANSMISSION APPARATUS, POINT CLOUD DATA TRANSMISSION METHOD, POINT CLOUD DATA RECEIVING APPARATUS AND POINT CLOUD DATA RECEIVING METHOD |
GB2596325B (en) * | 2020-06-24 | 2023-04-19 | Canon Kk | Method and apparatus for encapsulating annotated region in ISOBMFF tracks |
US11978177B2 (en) * | 2020-09-25 | 2024-05-07 | Intel Corporation | Method and system of image processing of omnidirectional images with a viewpoint shift |
CN116508323A (zh) * | 2020-11-12 | 2023-07-28 | 交互数字Ce专利控股有限公司 | 用于体积视频的透明度范围 |
US11863767B2 (en) * | 2021-03-30 | 2024-01-02 | Qualcomm Incorporated | Transporting HEIF-formatted images over real-time transport protocol |
US11943073B2 (en) * | 2021-05-11 | 2024-03-26 | Tencent America LLC | Multiple grouping for immersive teleconferencing and telepresence |
US12002128B2 (en) * | 2021-07-19 | 2024-06-04 | Advanced Micro Devices, Inc. | Content feedback based on region of view |
JP7524501B2 (ja) * | 2022-06-28 | 2024-07-29 | 楽天グループ株式会社 | 動画に提供情報を重畳する動画配信 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104219559A (zh) * | 2013-05-31 | 2014-12-17 | 奥多比公司 | 在视频内容中投放不明显叠加 |
US20150128174A1 (en) * | 2013-11-04 | 2015-05-07 | Broadcom Corporation | Selecting audio-video (av) streams associated with an event |
US20150271553A1 (en) * | 2014-03-18 | 2015-09-24 | Vixs Systems, Inc. | Audio/video system with user interest processing and methods for use therewith |
WO2017096517A1 (en) * | 2015-12-08 | 2017-06-15 | Faraday&Future Inc. | A crowd-sourced broadcasting system and method |
EP3193286A1 (en) * | 2016-01-14 | 2017-07-19 | Nokia Technologies Oy | Previewing visual content relating to an object field |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5826025A (en) | 1995-09-08 | 1998-10-20 | Sun Microsystems, Inc. | System for annotation overlay proxy configured to retrieve associated overlays associated with a document request from annotation directory created from list of overlay groups |
US8087044B2 (en) | 2006-09-18 | 2011-12-27 | Rgb Networks, Inc. | Methods, apparatus, and systems for managing the insertion of overlay content into a video signal |
US20120092327A1 (en) | 2010-10-14 | 2012-04-19 | Sony Corporation | Overlaying graphical assets onto viewing plane of 3d glasses per metadata accompanying 3d image |
US9618747B2 (en) * | 2013-03-13 | 2017-04-11 | Jason Villmer | Head mounted display for viewing and creating a media file including omnidirectional image data and corresponding audio data |
US8752113B1 (en) | 2013-03-15 | 2014-06-10 | Wowza Media Systems, LLC | Insertion of graphic overlays into a stream |
US10045065B2 (en) | 2014-09-05 | 2018-08-07 | Qualcomm Incorporated | Synchronization and control of overlay contents for video streaming in a wireless communication system |
US10298985B2 (en) | 2015-05-11 | 2019-05-21 | Mediamelon, Inc. | Systems and methods for performing quality based streaming |
WO2018038520A1 (ko) | 2016-08-25 | 2018-03-01 | 엘지전자 주식회사 | 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치 |
US11689705B2 (en) | 2018-01-17 | 2023-06-27 | Nokia Technologies Oy | Apparatus, a method and a computer program for omnidirectional video |
WO2019141907A1 (en) | 2018-01-22 | 2019-07-25 | Nokia Technologies Oy | An apparatus, a method and a computer program for omnidirectional video |
EP3777137B1 (en) | 2018-04-06 | 2024-10-09 | Nokia Technologies Oy | Method and apparatus for signaling of viewing extents and viewing space for omnidirectional content |
-
2019
- 2019-05-31 US US17/057,815 patent/US11651752B2/en active Active
- 2019-05-31 CN CN201980050372.6A patent/CN112514398B/zh active Active
- 2019-05-31 WO PCT/FI2019/050418 patent/WO2019229304A2/en unknown
- 2019-05-31 KR KR1020207037897A patent/KR102429241B1/ko active IP Right Grant
- 2019-05-31 EP EP19811258.3A patent/EP3804335A4/en active Pending
-
2020
- 2020-12-01 PH PH12020552061A patent/PH12020552061A1/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104219559A (zh) * | 2013-05-31 | 2014-12-17 | 奥多比公司 | 在视频内容中投放不明显叠加 |
US20150128174A1 (en) * | 2013-11-04 | 2015-05-07 | Broadcom Corporation | Selecting audio-video (av) streams associated with an event |
US20150271553A1 (en) * | 2014-03-18 | 2015-09-24 | Vixs Systems, Inc. | Audio/video system with user interest processing and methods for use therewith |
WO2017096517A1 (en) * | 2015-12-08 | 2017-06-15 | Faraday&Future Inc. | A crowd-sourced broadcasting system and method |
EP3193286A1 (en) * | 2016-01-14 | 2017-07-19 | Nokia Technologies Oy | Previewing visual content relating to an object field |
Non-Patent Citations (2)
Title |
---|
MAARTEN WIJNANTA: "Web-mediated augmentation and interactivity enhancement of Omni-directional video in both 2d and 3d", 《PROCEEDINGS OF THE 11TH INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS AND TECHNOLOGIES》 * |
SALMIMAA M: "Live delivery of neurosurgical operating theater experience in virtual reality", 《JOURNAL OF THE SOCIETY FOR INFORMATION DISPLAY,》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024169691A1 (zh) * | 2023-02-15 | 2024-08-22 | 北京字跳网络技术有限公司 | 视频处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3804335A2 (en) | 2021-04-14 |
US20210201855A1 (en) | 2021-07-01 |
WO2019229304A3 (en) | 2020-01-16 |
PH12020552061A1 (en) | 2021-05-31 |
EP3804335A4 (en) | 2022-03-09 |
CN112514398B (zh) | 2023-07-14 |
US11651752B2 (en) | 2023-05-16 |
KR102429241B1 (ko) | 2022-08-04 |
KR20210016579A (ko) | 2021-02-16 |
WO2019229304A2 (en) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112514398B (zh) | 用于针对全向内容而标记在覆盖物上的用户交互并将对背景的覆盖物分组的方法和装置 | |
JP6735415B2 (ja) | オーディオビジュアルコンテンツの観察点および観察向きの制御された選択のための方法および装置 | |
US11272159B2 (en) | Method and device for transmitting stereo media content | |
RU2711591C1 (ru) | Способ, устройство и компьютерная программа для адаптивной потоковой передачи мультимедийного контента виртуальной реальности | |
US11094130B2 (en) | Method, an apparatus and a computer program product for video encoding and video decoding | |
US11582496B2 (en) | Method, device, and computer program for transmitting media content | |
US12088862B2 (en) | Method, device, and computer program for transmitting media content | |
CN109257587B (zh) | 一种编解码视频数据的方法及装置 | |
US10931930B2 (en) | Methods and apparatus for immersive media content overlays | |
CN112771883B (zh) | 用于实现全向内容播放的多时间线支持的方法和装置 | |
CN109218755B (zh) | 一种媒体数据的处理方法和装置 | |
US11438731B2 (en) | Method and apparatus for incorporating location awareness in media content | |
US11218685B2 (en) | Method, an apparatus and a computer program product for virtual reality | |
US12074934B2 (en) | Method and apparatus for grouping entities in media content | |
CN116248947A (zh) | 处理媒体数据的方法、客户端和服务器 | |
CN114930869A (zh) | 用于视频编码和视频解码的方法、装置和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |