CN110036641A - 虚拟现实视频中的用信号表示的感兴趣区域或视点的优选呈现 - Google Patents

虚拟现实视频中的用信号表示的感兴趣区域或视点的优选呈现 Download PDF

Info

Publication number
CN110036641A
CN110036641A CN201780075275.3A CN201780075275A CN110036641A CN 110036641 A CN110036641 A CN 110036641A CN 201780075275 A CN201780075275 A CN 201780075275A CN 110036641 A CN110036641 A CN 110036641A
Authority
CN
China
Prior art keywords
preferred
interest
viewpoint
area
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780075275.3A
Other languages
English (en)
Other versions
CN110036641B (zh
Inventor
王业奎
G·范德奥维拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110036641A publication Critical patent/CN110036641A/zh
Application granted granted Critical
Publication of CN110036641B publication Critical patent/CN110036641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/14Display of multiple viewports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/045Zooming at least part of an image, i.e. enlarging it or shrinking it
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种处理视频数据的方法包含:接收360度视频数据;接收指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;接收指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及基于所述优选呈现操作而呈现所述360度视频数据。

Description

虚拟现实视频中的用信号表示的感兴趣区域或视点的优选 呈现
本申请主张2016年12月19日提交的第62/436,245号美国临时申请的权益,所述申请的全部内容以引用的方式并入本文中。
技术领域
本公开涉及虚拟现实(VR)视频,例如360度视频的处理及传输。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置等。数字视频装置实施视频译码技术,例如描述于以下标准中的那些技术:由MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)、也称为高效视频译码(HEVC)的ITU-T H.265定义的标准,及此类标准的扩展。视频装置可通过实施这些视频译码技术而更有效率地传输、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,视频切片(例如,视频帧或视频帧的一部分)可分割成视频块,针对一些技术,视频块还可称为树块、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测产生待译码块的预测性块。残余数据表示待译码原始块与预测性块之间的像素差。经帧间译码块根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据来编码。经帧内译码块根据帧内译码模式及残余数据来编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描最初布置成二维阵列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多压缩。
近年来,已开发用于译码及传输360度视频(例如,对于VR应用)的技术。由于VR视频技术的最新发展,用户所体验的视频环境已变得与视频本身的主题一样重要。此种VR视频技术可使用360度视频技术,所述360度视频技术涉及360度视频图形的实时流式传输及/或360度视频从360度摄像机或网站实时流式传输到实时视频显示器,例如,VR头戴式显示器。VR HMD允许用户通过转头改变视角来体验在其周围发生的动作。为了创建360度视频,可使用一组特殊的相机同时记录场景的全部360度,或多个视图(例如,视频及/或计算机产生的图像)可拼接在一起以形成图像。
在已对视频数据进行编码之后,可将视频数据包化以用于传输或存储。视频数据可汇编到符合多种标准中的任一者,例如国际标准化组织(ISO)基础媒体文件格式及其扩展,例如AVC文件格式的视频文件中。
发明内容
本公开大体上描述与虚拟现实(VR)视频中的感兴趣区域或视点的译码(例如,编码或解码)有关的技术。在一些实例中,本公开描述用于用信号表示虚拟现实视频(例如,360度视频)中的优选感兴趣区域(ROI)或优选视点的优选或优先化呈现操作的技术。此种优选呈现操作可用于调整优选ROI或视点(例如,在导演的3D视频剪辑中)以适合用户显示器的大小及/或纵横比的情况。
在本公开的一个实例中,处理视频数据的方法包括:接收360度视频数据;接收指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;接收指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及基于所述优选呈现操作而呈现所述360度视频数据。
在本公开的另一实例中,经配置以处理视频数据的设备包括:存储器,其经配置以存储360度视频数据;及一或多个处理器,其与所述存储器通信,所述设备经配置以接收360度视频数据;接收指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;接收指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及基于所述优选呈现操作而呈现所述360度视频数据。
在另一实例中,本公开描述一种非暂时性计算机可读存储媒体,所述非暂时性计算机可读存储媒体存储指令,所述指令在执行时使经配置以处理视频数据的装置的一或多个处理器执行以下操作:接收360度视频数据;接收指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;接收指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及基于所述优选呈现操作而呈现所述360度视频数据。
在本公开的另一实例中,处理视频数据的方法包括:对360度视频数据进行编码;产生指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;产生指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及通过所述经编码360度视频数据用信号表示所述一或多个第一语法元素及所述一或多个第二语法元素。
附图及以下描述中阐述了一或多个实例的细节。其它特征、目标及优点将从描述及图式以及权利要求书中显而易见。
附图说明
图1是说明实施用于在网络上发送媒体数据的技术的实例系统的框图。
图2是更详细地说明图1的系统的框图。
图3是说明可经配置以执行本公开的技术的视频编码器的实例的框图。
图4是说明可经配置以执行本公开的技术的视频解码器的实例的框图。
图5是说明本公开的实例方法的流程图。
图6是说明本公开的另一实例方法的流程图。
具体实施方式
本公开涉及虚拟现实(VR)视频。更具体来说,本公开描述用于用信号表示VR视频中的优选感兴趣区域(ROI)及/或视点(也称为最感兴趣区域)的技术。本公开还描述用信号表示及接收用于VR视频数据中的用信号表示的ROI及/或视点的优选呈现及/或解码的指示的技术。本公开的一或多个技术可包含用于在VR视频中创建一组一或多个ROI的技术;用于用信号表示及重构ROI的信息的技术;及用于在VR视频内容的编码、流式传输、播放及管理时使用所述信息的技术。
一般来说,本公开描述用于产生视频内容的技术,所述视频内容包含表示视频数据(例如,360度VR视频数据)的图像的一或多个优选感兴趣区域或优选视点的数据。导演或制作者可选择一或多个最感兴趣区域,或计算装置可从服务或内容提供商的用户统计数据中导出一或多个最感兴趣区域,例如,当通过流式传输服务提供全向视频内容时,通过已请求/用户看到最多的哪些区域的统计数据。在任何情况下,客户端装置可使用一或多个最感兴趣区域来预提取一或多个最感兴趣区域的视频数据,以改进视频,例如还称为360度视频的虚拟现实视频的播放。在一些实例中,本公开描述用于用信号表示虚拟现实视频(例如,360度视频)中的优选感兴趣区域(ROI)或优选视点的优选或优先化呈现操作的技术。此种优选呈现操作可用于调整优选ROI或视点(例如,在导演的3D视频剪辑中)以适合用户显示器的大小及/或纵横比的情况。
举例来说,客户端装置可使用在标头或消息中接收的用于传输的信息来确定位流的视频译码层数据、代表一或多个最感兴趣区域的数据(例如,语法元素),及指示VR视频数据的最感兴趣区域的优选呈现操作的语法元素。在确定优选呈现操作之后,客户端装置可根据优选呈现操作呈现所指示的最感兴趣区域。此种优选呈现操作可用于调整优选ROI或视点(例如,在导演的3D视频剪辑中)以适合用户显示器的大小及/或纵横比的情况。
本公开的技术可应用于符合根据以下文件格式中的任一者封装的视频数据的视频文件:ISO基础媒体文件格式(ISOBMFF)、ISOBMFF的扩展、可缩放视频译码(SVC)文件格式、高级视频译码(AVC)文件格式、高效视频译码(HEVC)文件格式、第三代移动通信标准化伙伴项目(3GPP)文件格式,及/或多视点视频写码(MVC)文件格式,或其它视频文件格式。ISO BMFF的草案在ISO/IEC 14496-12中指定,可从phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip获得。另一实例文件格式,即MPEG-4文件格式的草案在ISO/IEC 14496-15中指定,可从wg11.sc29.org/doc_end_user/documents/115_Geneva/wg11/w16169-v2-w16169.zip获得。
ISOBMFF用作许多编解码器封装格式,例如AVC文件格式,以及许多多媒体容器格式,例如MPEG-4文件格式、3GPP文件格式(3GP)及数字视频广播(DVB)文件格式的基础。
除连续媒体(例如,音频及视频)、静态媒体(例如,图像)之外,元数据同样可存储在符合ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多目的,包含本地媒体文件播放、远程文件的即看式下载、动态自适应HTTP串流(DASH)的片段、待流式传输的内容的容器及其包化指令,及记录接收到的实时媒体流。.
框是在ISOBMFF中的基础语法结构,其包含四字符经译码的框类型、框的字节数及有效负载。ISOBMFF文件包含一系列框,并且框可含有其它框。根据ISOBMFF,电影框(“moov”)含有用于存在于文件中的连续媒体流的元数据,每一者在文件中表示为轨迹。根据ISOBMFF,用于轨迹的元数据封闭在轨迹框(“trak”)中,而轨迹的媒体内容或者封闭在媒体数据框(“mdat”)中或者直接地提供于单独的文件中。轨迹的媒体内容包含一系列样本,例如音频或视频存取单元。
ISOBMFF指定以下类型的轨迹:媒体轨迹,其含有基础媒体流;提示轨迹,其包含媒体传输指令或者表示接收到的包流;及定时元数据轨迹,其包括时间同步的元数据。
尽管ISOBMFF最初设计用于存储,但是已经证实ISOBMFF对于流式传输,例如即看式下载或DASH而言是有价值的。出于流式传输目的,可使用在ISOBMFF中定义的电影片段。
用于每一轨迹的元数据包含样本描述条目的列表,每一条目提供在轨迹中使用的译码或封装格式及处理所述格式所需要的初始化数据。每个样本与轨迹的样本描述条目中的一者相关联。
ISOBMFF实现了以各种机制指定样本特定的元数据。已经标准化在样本表框(“stbl”)内的特定框以响应于通用需要。举例来说,同步样本框(“stss”)用于列出轨迹的随机存取样本。样本分组机制实现根据四字符分组类型将样本映射到共享相同特征的样本的群组中,所述性质被指定为文件中的样本群组描述条目。在ISOBMFF中已经指定了若干分组类型。
一般来说,术语VR可指虚拟地存在于通过呈现与沉浸用户的移动相关的自然及/或合成图像及声音而创建的非物理世界中的能力,由此允许用户与所述世界交互。随着在例如,头戴式显示器(HMD)及VR视频(通常也称为360度视频)创建等呈现装置中取得的最近进程,可提供显著的体验质量。VR应用包含游戏、训练、教育、体育视频、线上购物、成人娱乐等。
典型的VR系统可包含以下组件及特征:
-相机集合,其通常由指向不同方向且理想地共同覆盖围绕相机集合的所有视点的多个个别相机组成。
-图像拼接,其中通过多个个别相机拍摄的视频图片在时域中同步并且在空间域中拼接以成为球面视频,但是映射到矩形格式,例如,相等矩形图(如同世界地图)或立方体地图。
-编码,其中映射的矩形格式的视频使用视频编解码器进行编码/压缩,例如,H.265/HEVC或H.264/AVC。
-封装,其中压缩视频位流可以媒体格式存储及/或封装,并且通过网络传输(可能仅覆盖仅用户看到的区域的子集)到接收器。
-接收/解码,其中接收器接收可能以某种格式封装的视频位流或其部分,并且将经解码视频信号或其部分发送到呈现装置。
-呈现/显示器,其中呈现装置可为例如HMD,其可追踪头部移动及甚至眼睛移动并且呈现视频的对应部分,使得沉浸体验传递到用户。
图1是说明实施用于在网络上流式传输视频数据的技术的实例系统10的框图。在此实例中,系统10包含内容准备装置20、服务器装置60及客户端装置40。客户端装置40及服务器装置60通过网络74以通信方式耦合,所述网络可包括因特网。在一些实例中,内容准备装置20及服务器装置60还可通过网络74或另一网络耦合,或者可直接以通信方式耦合。在一些实例中,内容准备装置20及服务器装置60可包括相同装置。
在图1的实例中,内容准备装置20包括音频源22及视频源24。举例来说,音频源22可包括麦克风,所述麦克风产生表示将由音频编码器26编码的所捕获音频数据的电信号。或者,音频源22可包括存储先前记录的音频数据的存储媒体、音频数据产生器,例如计算机化的合成器,或音频数据的任何其它源。视频源24可包括:摄像机,其产生将由视频编码器28编码的视频数据;存储媒体,其通过先前记录的视频数据编码;视频数据产生单元,例如,计算机图形源;或视频数据的任何其它源。内容准备装置20未必在所有实例中都以通信方式耦合到服务器装置60,而是可将多媒体内容存储到由服务器装置60读取的单独媒体。
原始音频及视频数据可包括模拟或数字数据。模拟数据可在通过音频编码器26及/或视频编码器28编码之前进行数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据,并且视频源24可同时获得说话参与者的视频数据。在其它实例中,音频源22可包括含有所存储音频数据的计算机可读存储媒体,且视频源24可包括含有所存储视频数据的计算机可读存储媒体。以此方式,本公开中所描述的技术可应用于实况、流式传输、实时音频及视频数据或所存档的、预先记录的音频及视频数据。
对应于视频帧的音频帧通常为含有通过音频源22捕获(或产生)的音频数据的音频帧,所述音频数据同时伴随包含于视频帧中的通过视频源24捕获(或产生)的视频数据。举例来说,当说话参与者通常通过说话而产生音频数据时,音频源22捕获音频数据,且视频源24同时,即在音频源22正捕获音频数据时捕获说话参与者的视频数据。因此,音频帧可在时间上对应于一或多个特定视频帧。因此,对应于视频帧的音频帧一般对应于以下情况:同时捕获音频数据及视频数据,并且其中音频帧及视频帧分别包括同时捕获的音频数据及视频数据。
在一些实例中,音频编码器26可对每一经编码音频帧中的表示记录经编码音频帧的音频数据的时间的时戳进行编码,并且类似地,视频编码器28可对每一经编码视频帧中的表示记录经编码视频帧的视频数据的时间的时戳进行编码。在此类实例中,对应于视频帧的音频帧可包括包含时戳的音频帧及包含相同时戳的视频帧。内容准备装置20可包含内部时钟,音频编码器26及/或视频编码器28可从所述内部时钟产生时戳,或音频源22及视频源24可使用所述内部时钟以分别使音频及视频数据与时戳相关联。
在一些实例中,音频源22可向音频编码器26发送对应于记录音频数据的时间的数据,且视频源24可向视频编码器28发送对应于记录视频数据的时间的数据。在一些实例中,音频编码器26可对经编码音频数据中的序列标识符进行编码,以指示经编码音频数据的相对时间排序,但未必指示记录音频数据的绝对时间,且类似地,视频编码器28也可使用序列标识符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列标识符可映射或以其它方式与时戳相关。
音频编码器26一般产生经编码音频数据流,而视频编码器28产生经编码视频数据流。每一个别数据流(不论是音频还是视频)可称为基本流。基本流是一个表示的单个经数字译码的(可能经压缩)分量。举例来说,所述表示的经译码视频或音频部分可为基本流。基本流可在封装在视频文件内之前转换成包化基本流(PES)。在相同表示内,可使用流ID来区分属于一个基本流的PES包与属于其它基本流的PES包。基本流的数据的基本单元是包化基本流(PES)包。因此,经译码视频数据通常对应于基本视频流。类似地,音频数据对应于一或多个相应的基本流。
例如ITU-T H.264/AVC及ITU-T H.265/高效视频译码(HEVC)标准等许多视频译码标准定义无误差位流的语法、语义及解码过程,所述无误差位流中的任一者符合特定简档或水平。视频译码标准通常并不指定编码器,但编码器具有保证所产生的位流对于解码器来说符合标准的任务。在视频译码标准的背景下,“简档”对应于算法、特征或工具及适用于其的约束的子集。举例来说,如通过H.264标准所定义,“简档”是通过H.264标准指定的整个位流语法的子集。“水平”对应于解码器资源消耗的限制,例如,解码器存储器及计算,其涉及图片分辨率、位速率及块处理速率。可使用profile_idc(简档指示符)值用信号表示简档,而可使用level_idc(水平指示符)值用信号表示水平。
举例来说,H.264标准承认,在给定简档的语法所施加的界限内,仍然可能需要编码器及解码器的性能有较大变化,这取决于位流中的例如经解码图片的指定大小等语法元素获取的值。H.264标准进一步承认,在许多应用中,实施能够处理特定简档内的语法的所有假设使用的解码器既不实际又不经济。因此,H.264标准将“水平”定义为强加于位流中的语法元素的值的指定约束集合。这些约束可为对值的简单限制。或者,这些约束可采用值的算术组合(例如,图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。H.264标准进一步规定,个别实施方案对于每个所支持的简档可支持不同水平。
符合简档的解码器通常支持简档中定义的所有特征。举例来说,作为一个译码特征,B图片译码在H.264/AVC的基础简档中不被支持,但是在H.264/AVC的其它简档中被支持。符合水平的解码器应能够对不需要超出所述水平中定义的限制的资源的任何位流进行解码。简档及水平的定义可有助于可解释性。举例来说,在视频传输期间,可针对整个传输会话协商及同意一对简档及水平定义。更确切地说,在H.264/AVC中,水平可定义对于需要处理的宏块数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、垂直运动向量范围、每两个连续MB的运动向量的最大数目及B块是否可具有小于8x8像素的子宏块分区的限制。以此方式,解码器可确定解码器是否能够恰当地对位流进行解码。
在图1的实例中,内容准备装置20的封装单元30从视频编码器28接收包括经译码视频数据的基本流,且从音频编码器26接收包括经译码音频数据的基本流。在一些实例中,视频编码器28及音频编码器26可各自包含用于从经编码数据形成PES包的包化器。在其它实例中,视频编码器28及音频编码器26可各自与用于从经编码数据形成PES包的相应包化器介接。在另外其它实例中,封装单元30可包含用于从经编码视频及视频数据形成PES包的包化器。
视频编码器28可用多种方式对多媒体内容的视频数据进行编码,以便以各种位速率且用各种特性产生多媒体内容的不同表示,所述特性例如,像素分辨率、帧速率、对于各种译码标准的符合性、对于各种译码标准的各种简档和/或简档水平的符合性、具有一或多个视图的表示(例如,对于二维或三维播放)或其它此些特性。如本公开中所使用,表示可包括音频数据、视频数据、文本数据(例如,用于隐藏字幕)或其它此数据中的一者。表示可包含例如音频基本流或视频基本流的基本流。每个PES包可包含stream_id,其识别PES包所属的基本流。包封单元30负责将基本流汇编成各种表示的视频文件(例如,片段)。
封装单元30从音频编码器26及视频编码器28接收用于表示的基本流的PES包且从所述PES包形成对应的网络抽象层(NAL)单元。经译码视频片段可组织成NAL单元,其提供“网络友好的”视频表示,从而解决例如视频电话、存储、广播或流式传输等应用。NAL单元可分类成视频译码层(VCL)NAL单元(例如,VCL数据)及非VCL NAL单元。VCL单元(还称为VCL数据)可包含核心压缩引擎并且可包含块、宏块及/或切片级数据。其它NAL单元可为非VCLNAL单元。在一些实例中,一个时间例子中的经译码图片(通常呈现为初级经译码图片)可包含在存取单元中,所述存取单元可包含一或多个NAL单元。
非VCL NAL单元可包含参数集NAL单元及SEI NAL单元等等。参数集可含有序列级标头信息(在序列参数集(SPS)中)及不频繁改变的图片级标头信息(在图片参数集(PPS)中)。在参数集(例如,PPS及SPS)的情况下,不频繁改变的信息不需要对于每一序列或图片重复,因此可改进译码效率。另外,使用参数集可实现重要标头信息的频带外传输,这避免了对于用于错误恢复的冗余传输的需要。在带外传输实例中,参数集NAL单元可在与其它NAL单元,例如SEI NAL单元不同的信道上传输。
辅助增强信息(SEI)可含有对于对来自VCL NAL单元的经译码图片样本进行解码不是必需的信息,但是可辅助与解码、显示、错误恢复及其它目的的过程。非VCL NAL单元中可含有SEI消息。SEI消息是一些标准规范的规范性部分,且因此对于标准的顺应性解码器实施方案并非始终是必选的。SEI消息可为序列级SEI消息或图片级SEI消息。SEI消息中可含有一些序列级信息,所述SEI消息例如,SVC的实例中的可扩展性信息SEI消息,及MVC中的视图可扩展性信息SEI消息。这些实例SEI消息可传达关于例如,操作点的提取及操作点的特性的信息。另外,封装单元30可形成清单文件,例如描述表示的特性的媒体呈现描述符(MPD)。封装单元30可根据可扩展标记语言(XML)将MPD格式化。
封装单元30可向输出接口32提供用于多媒体内容的一或多个表示的数据以及清单文件(例如,MPD)。输出接口32可包括网络接口或用于向存储媒体进行写入的接口,例如通用串行总线(USB)接口、CD或DVD写入器或烧录器、到磁性或快闪存储媒体的接口、服务器,或用于存储或传输媒体数据的其它接口。封装单元30可向输出接口32提供多媒体内容的表示中的每一者的数据,所述输出接口可经由网络传输或存储媒体向服务器装置60发送数据。在图1的实例中,服务器装置60包含存储媒体62,其存储各种多媒体内容64,每一多媒体内容包含相应的清单文件66及一或多个表示68A-68N(表示68)。在一些实例中,输出接口32还可向网络74直接发送数据。
在一些实例中,表示68可分成自适应集合。也就是说,表示68的各种子集可包含特性的相应共同集合,例如,编解码器、简档及水平、分辨率、视图数目、片段的文件格式、可识别将通过表示显示的文本的语言或其它特性的文本类型信息及/或例如,将通过扬声器解码及呈现的音频数据、可描述用于自适应集合中的表示的场景的相机角度或现实世界相机视角的相机角度信息、描述特定观众的内容适用性的分级信息等。
清单文件66可包含指示对应于特定自适应集合的表示68的子集,以及所述自适应集合的共同特性的数据。清单文件66还可包含表示自适应集合的个别表示的个别特性,例如位速率的数据。以此方式,自适应集合可提供用于简化的网络带宽自适应。自适应集合中的表示可使用清单文件66的自适应集合元素的子代元素来指示。
服务器装置60包含请求处理单元70及网络接口72。在一些实例中,服务器装置60可包含多个网络接口。此外,服务器装置60的特征中的任一者或全部可在内容传递网络的其它装置,例如路由器、桥接器、代理装置、交换器或其它装置上实施。在一些实例中,内容传递网络的中间装置可高速缓存多媒体内容64的数据,并且包含基本上与服务器装置60的那些组件相符的组件。一般来说,网络接口72经配置以经由网络74发送及接收数据。
请求处理单元70经配置以从客户端装置,例如客户端装置40接收对于存储媒体62的数据的网络请求。举例来说,请求处理单元70可实施超文本传输协议(HTTP)版本1.1,如RFC 2616中R.费尔丁(R.Fielding)等人(网络工作组,IETF,1999年6月)的“超文本传输协议-HTTP/1.1(Hypertext Transfer Protocol-HTTP/1.1,)”中所描述。也就是说,请求处理单元70可经配置以接收HTTP GET或部分GET请求,且响应于所述请求而提供多媒体内容64的数据。所述请求可例如使用表示68中的一者的片段的URL来指定所述片段。在一些实例中,所述请求还可指定所述片段的一或多个字节范围,因此包括部分GET请求。请求处理单元70可进一步经配置以服务于HTTP HEAD请求以提供表示68中的一者的片段的标头数据。在任何情况下,请求处理单元70可经配置以处理所述请求以向请求装置,例如客户端装置40提供所请求的数据。
另外或替代地,请求处理单元70可经配置以经由广播或多播协议,例如eMBMS传递媒体数据。内容准备装置20可与所描述大体上相同的方式产生DASH片段及/或子片段,但服务器装置60可使用eMBMS或另一广播或多播网络传输协议传递这些片段或子片段。举例来说,请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。也就是说,服务器装置60可将与多播群组相关联的因特网协议(IP)地址播发到与特定媒体内容(例如,实时事件的广播)相关联的客户端装置,包含客户端装置40。客户端装置40又可提交加入所述多播群组的请求。此请求可遍及网络74,例如构成网络74的路由器传播,使得导致所述路由器将去往与多播群组相关联的IP地址的业务引导到预订的客户端装置,例如客户端装置40。
请求处理单元70可经配置以汇编来自请求的数据。举例来说,请求处理单元70可从来自客户端装置的每个请求中提取已请求的图像的一或多个区域的指示。举例来说,请求处理单元70可从来自客户端装置40的请求中提取特定图像的用户的视场。在提取之后,请求处理单元70可产生表或数据库中的条目,所述条目对于每个图像指示客户端装置(例如,客户端装置40)请求的用户的视场的一或多个区域。
请求处理单元70可从汇编的数据中获得一或多个最感兴趣区域。更具体来说,举例来说,响应于确定与图像的其它区域相比,图像的一或多个区域是图像的最频繁请求区域,请求处理单元70可选择一或多个区域作为图像的一或多个最感兴趣区域。在一些实例中,当在满足阈值的频率下,一或多个区域已包含在用户的视场中时,请求处理单元70可选择一或多个区域作为图像的一或多个最感兴趣区域。举例来说,当汇编数据指示至少一半的用户的视场包含一或多个区域时,请求处理单元70可选择一或多个区域作为图像的一或多个最感兴趣区域。
如图1的实例中所说明,多媒体内容64包含清单文件66,其可对应于媒体呈现描述(MPD)。清单文件66可含有不同替代表示68(例如,具有不同质量的视频服务)的描述,并且所述描述可包含例如编解码器信息、简档值、水平值、位速率及表示68的其它描述性特性。客户端装置40可检索媒体呈现的MPD以确定如何接入表示68的片段。
具体来说,检索单元52可检索客户端装置40的配置数据(未展示)以确定视频解码器48的解码能力及视频输出44的呈现能力。配置数据还可包含客户端装置40的用户选择的语言偏好、对应于客户端装置40的用户设置的深度偏好的一或多个相机视角,及/或客户端装置40的用户选择的分级偏好中的任一者或全部。举例来说,检索单元52可包括网络浏览器或媒体客户端,其经配置以提交HTTP GET及部分GET请求。检索单元52可对应于客户端装置40的一或多个处理器或处理单元(未展示)执行的软件指令。在一些实例中,相对于检索单元52描述的功能性的全部或部分可实施于硬件,或硬件、软件及/或固件的组合中,其中可提供例如呈固定功能及/或可编程处理电路形式的必需硬件以执行软件或固件的指令。
检索单元52可将客户端装置40的解码及呈现能力与清单文件66的信息所指示的表示68的特性相比较。检索单元52可最初地检索清单文件66的至少一部分以确定表示68的特性。举例来说,检索单元52可请求描述一或多个自适应集合的特性的清单文件66的一部分。检索单元52可选择具有可通过客户端装置40的译码及呈现能力满足的特性的表示68的子集(例如,自适应集合)。随后,检索单元52可确定自适应集合中的表示的位速率、确定网络带宽的目前可用量及从具有网络带宽可满足的位速率的表示中的一者检索片段。
一般来说,较高位速率表示可产生较高质量的视频播放,而在可用的网络带宽减少时较低位速率表示可提供足够质量的视频播放。因此,当可用的网络带宽相对高时,检索单元52可从相对较高的位速率表示检索数据,而当可用的网络带宽较低时,检索单元52可从相对较低的位速率表示中检索数据。以此方式,客户端装置40可经由网络74流式传输多媒体数据,同时还适应于网络74的改变的网络带宽可用性。
另外或替代地,检索单元52可经配置以根据例如eMBMS或IP多播等广播或多播网络协议接收数据。在此类实例中,检索单元52可提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后,检索单元52可在无发布到服务器装置60或内容准备装置20的进一步请求的情况下接收多播群组的数据。检索单元52可提交当不再需要多播群组的数据时离开多播群组的请求,例如停止播放或将信道改变到不同多播群组的请求。
网络接口54可接收所选择表示的片段的数据并且向检索单元52提供所述数据,所述检索单元又可向解封装单元50提供所述片段。解封装单元50可将视频文件的元素解封装成组成PES流,将PES流解包化以检索经编码数据并且根据经编码数据是音频流还是视频流的一部分,例如,如通过流的PES包标头所指示而向音频解码器46或视频解码器48发送经编码数据。音频解码器46对经编码音频数据进行解码,并且向音频输出42发送经解码音频数据,而视频解码器48对经编码视频数据进行解码,并且向视频输出44发送所述经解码视频数据,其可包含流的多个视图。
视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52及解封装单元50在适当时各自可实施为各种合适处理电路中的任一者,包含固定功能及/或可编程处理电路,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28及视频解码器48中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为组合视频编码器/解码器(CODEC)的一部分。同样,音频编码器26及音频解码器46中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为组合CODEC的一部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52及/或解封装单元50的设备可包括集成电路、微处理器及/或无线通信装置,例如蜂窝电话。
封装单元30可确定图像的一或多个最感兴趣区域。如本文所使用,最感兴趣区域(还可称为优选ROI及/或优选视点)可指具有由用户查看的高可能性的图像的区域。举例来说,最感兴趣区域可指由导演或制作者选择的图像的区域。在此背景下,由视频数据的导演或制作者选择的最感兴趣区域可称为优选感兴趣区域或优选视点。导演可将某些视点及/或感兴趣区域指定为优选地由用户从内容产生器的视角查看以获得更好的用户体验(例如,为了更好地讲故事)。视点可定义为用户观察到的视场/视野(FOV)。因此,优选视点可为用户的优选FOV。优选感兴趣区域可为视频数据的导演或制作者指示为优选地由用户查看的视频数据(例如,360度视频数据)的任何区域。优选感兴趣区域可大于、等于或小于用户的FOV。
在其它实例中,最感兴趣区域可指由计算装置从服务或内容提供商的用户统计数据中导出的图像的区域,例如,当通过流式传输服务提供全向视频内容时,通过已请求/用户看到最多的哪些区域的统计数据。
封装单元30可封装表示一或多个最感兴趣区域的数据。在一些实例中,封装单元30可封装表示VCL数据外部的一或多个最感兴趣区域的数据,所述数据可包含视频译码引擎使用的实际视频数据。在一些实例中,位流中可包含表示一或多个最感兴趣区域的数据。举例来说,封装单元30可封装SEI消息,所述SEI消息包含表示VCL数据外部的一或多个最感兴趣区域的数据。在一些实例中,封装单元30可封装文件格式数据,所述文件格式数据包含表示视频位流外部(及因此还在位流的VCL数据外部)的一或多个最感兴趣区域的数据。举例来说,封装单元30可封装框(例如,样本到群组)或定时元数据轨迹,其包含表示VCL数据外部的一或多个最感兴趣区域的数据。
在一些情况下,在位流中指示的优选感兴趣区域或优选视点可能与用户正使用的显示器的纵横比的大小不同。用户装置可具有可用于调整优选感兴趣区域或视点以适合显示器的多种技术。如下文将更详细地论述,本公开提出技术,其中内容准备装置20产生一或多个语法元素,所述一或多个语法元素指示在对优选感兴趣区域或视点进行此类调整以适合显示器时执行的优选呈现操作。同样,客户端装置40可经配置以接收位流、解析指示优选呈现操作的一或多个语法元素,及根据所指示的优选呈现操作呈现优选感兴趣区域或视点以适合显示器。
图2更详细地为图1的系统10的内容准备装置20及客户端装置40的框图。内容准备装置20及客户端装置40可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记本型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置等。在一些情况下,内容准备装置20及客户端装置40可经装备以用于无线通信。在一个实例中,客户端装置40可为虚拟现实(VR)头戴式显示器(HMD),并且视频源装置24可产生360度视频并将360度视频流式传输到客户端装置40。
客户端装置40可经由计算机可读媒体11接收待解码的经编码视频数据并将所述经编码视频数据存储在存储器29中。计算机可读媒体11可包括能够将经编码视频数据从内容准备装置20移动到客户端装置40的任何类型的媒体或装置。在一个实例中,计算机可读媒体11可包括通信媒体,以使内容准备装置20能够实时地将经编码视频数据直接传输到客户端装置40。经编码视频数据可根据通信标准,例如无线通信协议进行调制,并且被传输到客户端装置40。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络,例如局域网、广域网或例如因特网的全球网络的部分。通信媒体可包含路由器、交换机、基站或可用于促进从内容准备装置20到客户端装置40的通信的任何其它设备。
客户端装置40可通过包含因特网连接的任何标准数据连接来存取经编码视频数据。这可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的传输可为流式传输、下载传输或其组合。
本公开的技术不必限于无线应用或设置。所述技术可应用于视频译码并且支持多种多媒体应用中的任一者,例如空中协议电视广播、有线电视传输、卫星电视传输、因特网流式视频传输(例如动态自适应HTTP串流(DASH))、经编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频播放、视频广播及/或视频电话等应用。
如图2的实例系统10中所说明,内容准备装置20包含视频编码器28,所述视频编码器对来自视频源24的视频数据,例如360度视频数据进行编码并且通过输出接口32传输经编码视频。在包含位于客户端装置40中的一或多个传感器33(例如,以检测头部移动/位置、身体移动/位置或提供眼睛/凝视跟踪)的实例中,视频编码器28可经由输出接口32从客户端装置接收传感器数据,以便确定用户的移动。在一些实例中,还可通过图形处理单元(GPU)19从视频源24接收视频数据,所述GPU任选地可经配置以将处理后的视频数据传输到输出接口32。另外,处理器15可经配置以从视频源24接收视频数据且处理视频数据以供视频编码器28及/或GPU 19使用。内容准备装置20可包含能够对环绕声音频进行编码的麦克风或麦克风阵列(未展示)。
客户端装置可包含视频解码器48及GPU 23。经编码视频数据可从内容准备装置20无线地传输,并且经由网络接口54在客户端装置40处接收并由处理器21处理。随后,所得经处理视频数据由解码器48解码,及/或由图形处理单元(GPU)23用于经由显示处理器25及显示器27产生或呈现FOV。根据本公开的技术,客户端装置40可接收经编码视频数据,所述经编码视频数据包含指示优选感兴趣区域或优选视点的一或多个语法元素,以及指示优选感兴趣区域或优选视点的优选呈现操作的语法元素。客户端装置40可经配置以解析位流并且根据语法元素的值确定优选呈现操作。GPU 23、处理器21,及/或显示处理器25可经配置以执行优选呈现操作,以调整优选感兴趣区域或优选视点以供显示在显示器27上。
在客户端装置40是虚拟现实(VR)头戴式显示器(HMD)的实例中,举例来说,还可包含一或多个传感器33,例如一或多个运动传感器以感测用户的定向及移动。显示处理器25接收来自视频解码器48的经解码视频数据,以及来自GPU 23的所呈现优选感兴趣区域或优选视点,并且处理接收到的数据以便实现产生360度视频,以在客户端装置40的显示器27上供用户查看。
显示装置27向用户显示经解码视频数据,并且可包含各种显示装置中的任一者,例如,360度视频显示器和VR HMD、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
显示处理器25可为经配置以对图像数据执行2D操作的处理器,例如,上采样、下采样、混合、合成、缩放、旋转及其它像素处理,包含下文所描述的优选呈现操作。在一些实例中,显示处理器25可处理来自多个层的像素。举例来说,显示处理器25可混合来自多个层的像素,并将混合像素以瓦片格式写回到存储器中。随后,以光栅格式从存储器读取混合像素,并将其发送到显示器27以供呈现。
最新开发的视频译码标准,即高效率视频译码(HEVC)由ITU-T视频译码专家组(VCEG)及ISO/IEC运动图片专家组(MPEG)的视频译码联合合作小组(JCT-VC)开发。HEVC的草案可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip获得。HEVC标准也在建议ITU-T H.265及国际标准ISO/IEC23008-2中联合呈现,两者的标题都是“高效视频译码(High efficiency video coding)”,并且都发布于2014年10月。
JCT-VC开发了HEVC标准。HEVC标准化努力是基于称为HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码裝置根据例如ITU-T H.264/AVC相对于现有裝置的几个附加能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HEVC HM可提供多达三十三种帧内预测编码模式。视频编码器28及视频解码器48可经配置以根据HEVC对视频数据进行编码及解码。
一般来说,HM的工作模型描述视频帧或图片可划分成包含亮度及色度样本两者的一系列树块或最大译码单元(LCU)。位流内的语法数据可界定LCU(就像素数目来说,其为最大译码单位)的大小。切片包含呈译码次序的多个连续树块。视频帧或图片可分成一或多个切片。每个树块可根据四叉树分成译码单元(CU)。一般来说,四叉树数据结构包含每个CU一个节点,其中根节点对应于所述树块。如果CU分成四个子CU,则对应于CU的节点包含四个叶节点,每个叶节点对应于所述子CU中的一者。
四叉树数据结构的每一节点可提供对应CU的语法数据。举例来说,四叉树中的节点可包含分裂标志,指示对应于节点的CU是否分成子CU。CU的语法元素可递归地来定义,且可取决于CU是否分成子CU。如果CU未进一步分裂,则将其称为叶CU。在本公开中,叶CU的四个子CU也将称为叶CU,即使不存在原始叶CU的显式分裂。举例来说,如果16×16大小的CU不进一步分裂,则尽管16×16CU从未分裂,四个8×8子CU也将称为叶CU。
CU具有与H.264标准的宏块类似的目的,除了CU不具有大小区别。举例来说,树块可分成四个子节点(也称为子CU),且每一子节点又可为父节点且可分成另外四个子节点。最后未分裂的子节点(称为四叉树的叶节点)包括译码节点,也称为叶CU。与经译码位流相关联的语法数据可定义树块可分裂的最大次数,称为最大CU深度,且还可定义译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本公开使用术语“块”在HEVC的背景下指CU、PU或TU中的任一者,或在其它标准的背景下指类似数据结构(例如,在H.264/AVC中的宏块及其子块)。
CU包含译码节点及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小,且必须为正方形形状。CU的大小可在8x8像素直到具有最大64x64像素或更大树块的大小的范围中。每个CU可含有一或多个PU及一或多个TU。举例来说,与CU相关联的语法数据可描述CU分割成一或多个PU。分割模式可在CU被跳过还是经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不同。PU可分割成非正方形形状。与CU相关联的语法数据还可描述例如根据四叉树将CU分割成一或多个TU。ATU可为正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU的变换,TU可针对不同CU而有所不同。TU通常基于针对经分割LCU定义的给定CU内的PU的大小而定大小,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可称为变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数,所述变换系数可进行量化。
叶CU可包含一或多个预测单元(PU)。一般来说,PU表示对应于对应CU的全部或一部分的空间区域,并且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含在残余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU进行帧间模式编码时,PU可包含限定PU的一或多个运动向量的数据。举例来说,限定PU的运动向量的数据可描述运动向量的水平分量、运动向量的竖直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片,及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可使用RQT(也称为TU四叉树结构)来指定,如上文所论述。举例来说,分裂标志可指示叶CU是否分成四个变换单元。随后,每个变换单元可进一步分成更多子TU。当TU不进一步分裂时,其可称为叶TU。一般来说,对于帧内译码,属于叶CU的所有叶TU共享相同的帧内预测模式。也就是说,一般应用相同的帧内预测模式来计算叶CU的全部TU的预测值。对于帧内译码,视频编码器可使用帧内预测模式将每个叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU未必限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU可与相同CU的对应叶TU并置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU还可与称为残余四叉树(RQT)的相应四叉树数据结构相关联。也就是说,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点通常对应于叶CU,而CU四叉树的根节点通常对应于树块(或LCU)。未经分裂的RQT的TU称为叶TU。一般来说,除非以其它方式提及,否则本公开分别使用术语CU及TU来指叶CU及叶TU。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列的一或多个所述视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它处的语法数据,其描述GOP中所包含的多个图片。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器28通常对各个视频切片内的视频块进行操作,以便对视频数据进行编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,并且根据指定译码标准可具有不同大小。
举例来说,HM支持各种PU大小的预测。假定特定CU的大小为2N×2N,则HM支持2N×2N或N×N的PU大小的帧内预测,及2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是将另一方向分割成25%及75%。CU的对应于25%分区的部分通过“n”后面跟着“上”、“下”、“左”或“右”的指示来指示。因此,举例来说,“2NxnU”是指经水平分割的2Nx2N CU,其中顶部为2Nx0.5N PU,而底部为2Nx1.5N PU。
在本公开中,“N×N”及“N乘N”可互换使用以指在竖直及水平尺寸方面的视频块的像素尺寸,例如,16×16个像素或16乘16个像素。一般来说,16×16块将在竖直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样,NxN块一般在竖直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可按行及列布置。此外,块未必需要在水平方向及竖直方向上具有相同数目个像素。举例来说,块可包括N×M个像素,其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器28可计算CU的TU的残余数据。PU可包括描述在空间域(也称为像素域)中产生预测性像素数据的方法或模式的语法数据,且TU可包括在对残余视频数据应用变换,例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似变换之后变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器28可形成包含用于CU的残余数据的TU,并且随后变换TU以产生用于CU的变换系数。
在用于产生变换系数的任何变换之后,视频编码器28可执行变换系数的量化。量化一般是指一种过程,其中对变换系数进行量化以可能减少用于表示系数的数据量,从而提供进一步压缩。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说,可在量化期间将n位值向下舍入到m位值,其中n大于m。
在量化之后,视频编码器可扫描变换系数,从而从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(及因此较低频率)系数放置在阵列的前面,并且将较低能量(及因此较高频率)系数放置在阵列的后面。在一些实例中,视频编码器28可利用预定义扫描顺序来扫描经量化变换系数,以产生可进行熵编码的串行化向量。在其它实例中,视频编码器28可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器28可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对一维向量进行熵编码。视频编码器28还可对与经编码视频数据相关联的语法元素进行熵编码,以供视频解码器48在解码视频数据时使用。
为了执行CABAC,视频编码器28可将上下文模型内的上下文指派给待传输的符号。举例来说,上下文可涉及符号的相邻值是否为非零。为了执行CAVLC,视频编码器28可选择用于待传输的符号的可变长度码。VLC中的码字可经构造,使得相对较短码对应于更有可能符号,而较长码对应于不太可能符号。以此方式,举例来说,与针对待传输的每个符号使用等长码字相比,使用VLC可实现位节省。概率确定可基于指派给符号的上下文。
图3是说明可经配置以执行本公开的技术的视频编码器28的实例的框图。视频编码器28可执行视频切片内的视频块的帧内及帧间译码。帧内译码依赖于空间预测来减小或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的相邻帧或图片内的视频中的时间冗余。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。
如图3中所示,视频编码器28接收待编码视频帧内的当前视频块。在图3的实例中,视频编码器28包含模式选择单元41、参考图片存储器65、求和器51、变换处理单元53、量化单元55,及熵编码单元57。模式选择单元41又包含运动补偿单元45、运动估计单元43、帧内预测单元47及分割单元49。为了视频块重构,视频编码器28还包含逆量化单元59、逆变换单元61,及求和器63。还可包含解块滤波器(图3中未展示)以对块边界进行滤波,以从经重构视频去除成块伪影。必要时,解块滤波器通常将对求和器63的输出进行滤波。除了解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未展示这些滤波器,但是必要时,这些滤波器可对求和器51的输出进行滤波(作为环路内滤波器)。
在编码过程期间,视频编码器28接收待译码的视频帧或切片。帧或切片可划分成多个视频块。运动估计单元43及运动补偿单元45相对于一或多个参考帧中的一或多个块执行接收到的视频块的帧间预测性译码以提供时间预测。帧内预测单元47可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测性译码以提供空间预测。视频编码器28可执行例如多个译码遍次,以针对每一视频数据块选择适当的译码模式。
此外,分割单元49可基于先前译码遍次中的先前分割方案的评估而将视频数据块分割成子块。举例来说,分割单元49可最初将帧或切片分割成LCU,并且基于速率失真分析(例如,速率失真优化)将LCU中的每一者分割成子CU。模式选择单元41可进一步产生指示将LCU分割成若干子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU及一或多个TU。
模式选择单元41可例如基于误差结果而选择帧内或帧间译码模式中的一者,并且向求和器51提供所得经帧内或帧间译码块以产生残余块数据并且向求和器63提供所得经帧内或帧间译码块以重构经编码块来用作参考帧。模式选择单元41还将语法元素,例如运动向量、帧内模式指示符、分割信息及其它此类语法信息提供到熵编码单元57。
运动估计单元43及运动补偿单元45可高度集成,但出于概念目的单独地说明。由运动估计单元43执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测块是被发现就像素差而言与待译码块紧密匹配的块,其可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器28可计算存储于参考图片存储器65中的参考图片的子整数像素位置的值。举例来说,视频编码器28可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元43可相对于整数像素位置及分数像素位置执行运动搜索,并且输出具有分数像素精确度的运动向量。
运动估计单元43通过比较PU的位置与参考图片的预测性块的位置来计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一者识别存储在参考图片存储器65中的一或多个参考图片。运动估计单元43将计算出的运动向量发送到熵编码单元57及运动补偿单元45。
运动补偿单元45执行的运动补偿可涉及基于运动估计单元43确定的运动向量来提取或产生预测性块。同样,在一些实例中,运动估计单元43及运动补偿单元45可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元45可在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器51通过从正被译码的当前视频块的像素值减去预测性块的像素值,从而形成像素差值来形成残余视频块,如下文所论述。一般来说,运动估计单元43相对于亮度分量执行运动估计,且运动补偿单元45将基于亮度分量计算出的运动向量用于色度分量及亮度分量两者。模式选择单元41还可产生与视频块及视频切片相关联的语法元素,以供视频解码器48在对视频切片的视频块进行解码时使用。
假设运动补偿单元45选择执行合并模式,则运动补偿单元45可形成包含合并候选者集合的候选者列表。运动补偿单元45可基于特定的预定次序将候选者添加到候选者列表。如上文所论述,运动补偿单元45还可添加额外候选者并执行对候选者列表的精简。最终,模式选择单元41可确定将使用哪些候选者来对当前块的运动信息进行编码,并且对表示所选候选者的合并索引进行编码。
如上文所描述,作为运动估计单元43及运动补偿单元45所执行的帧间预测的一个替代方案,帧内预测单元47可对当前块进行帧内预测。具体而言,帧内预测单元47可确定用于对当前块进行编码的帧内预测模式。在一些实例中,帧内预测单元47例如在单独的编码遍次期间使用各种帧内预测模式对当前块进行编码,并且帧内预测单元47(或在一些实例中,模式选择单元41)可从测试模式中选择合适的帧内预测模式来使用。
举例来说,帧内预测单元47可使用速率失真分析计算各种测试帧内预测模式的速率失真值,并在所述测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始未编码块之间的失真(或误差)量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元47可根据用于各种经编码块的失真及速率计算比率,以确定哪一帧内预测模式对于所述块展现最佳速率失真值。
在针对块选择帧内预测模式之后,帧内预测单元47可将指示用于所述块的所选择帧内预测模式的信息提供给熵编码单元57。熵编码单元57可对指示所选择帧内预测模式的信息进行编码。视频编码器28可在所传输的位流中包含配置数据,所述配置数据可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(还称为码字映射表)、编码各种块的上下文的定义,及用于所述上下文中的每一者的最可能帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示。
视频编码器28通过从经译码的原始视频块减去来自模式选择单元41的预测数据而形成残余视频块。求和器51表示执行此减法运算的一或多个组件。变换处理单元53将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元53可执行概念上类似于DCT的其它变换。还可使用小波变换、整数变换、子频带变换或其它类型的变换。
在任何情况下,变换处理单元53向残余块应用所述变换,从而产生残余变换系数的块。变换可将残余信息从像素值域转换到变换域,例如频域。变换处理单元53可将所得变换系数发送到量化单元55。量化单元55对变换系数进行量化以进一步减少位速率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化的程度。在一些实例中,量化单元55可随后执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元57可执行扫描。
在量化之后,熵编码单元57对经量化变换系数进行熵译码。举例来说,熵编码单元57可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的情况下,上下文可基于相邻块。在由熵编码单元57进行熵译码之后,可将经编码位流传输到另一装置(例如,视频解码器48),或者将所述经编码位流存档以用于稍后传输或检索。
逆量化单元59及逆变换单元61分别应用逆量化及逆变换以在像素域中重构残余块,例如以供稍后用作参考块。运动补偿单元45可通过将残余块添加到参考图片存储器65的帧中的一者的预测性块来计算参考块。运动补偿单元45还可将一或多个内插滤波器应用于经重构残余块以计算供用于运动估计的子整数像素值。求和器63将经重构残余块添加到由运动补偿单元45产生的经运动补偿预测块,以产生经重构视频块以用于存储在参考图片存储器65中。经重构视频块可由运动估计单元43及运动补偿单元45用作参考块,以对后续视频帧中的块进行帧间译码。
图4是说明可经配置以执行本公开的技术的视频解码器48的实例的框图。在图4的实例中,视频解码器48包含熵解码单元71、运动补偿单元73、帧内预测单元75、逆量化单元77、逆变换单元79、参考图片存储器83,及求和器81。在一些实例中,视频解码器48可执行总体上与关于视频编码器28(图3)描述的编码遍次互逆的解码遍次。运动补偿单元73可基于从熵解码单元71接收的运动向量产生预测数据,而帧内预测单元75可基于从熵解码单元71接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器48从视频编码器28接收经编码视频位流,其表示经编码视频切片的视频块及相关联的语法元素。视频解码器48的熵解码单元71对位流进行熵解码以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元71将运动向量及其它语法元素转发到运动补偿单元73。视频解码器48可接收视频切片层级及/或视频块层级处的语法元素。
当视频切片译码为经帧内译码(I)切片时,帧内预测单元75可基于用信号表示的内部预测模式及来自当前帧或图片的先前解码块的数据而产生当前视频切片的视频块的预测数据。当视频帧译码为经帧间译码(即,B或P)切片时,运动补偿单元73基于运动向量及从熵解码单元71接收的其它语法元素而产生当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器48可基于存储在参考图片存储器83中的参考图片而使用默认构造技术构造参考帧列表,即列表0及列表1。
运动补偿单元73通过解析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息,且使用所述预测信息来产生用于正被解码的当前视频块的预测性块。举例来说,运动补偿单元73使用一些接收到的语法元素来确定用于对视频切片的视频块进行译码的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、用于切片的参考图片列表中的一或多者的结构信息、用于切片的每个经帧间编码视频块的运动向量、用于切片的每个经帧间译码视频块的帧间预测状态,及用于对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元73也可基于内插滤波器执行内插。运动补偿单元73可使用如由视频编码器28在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元73可从所接收语法元素确定由视频编码器28使用的内插滤波器并使用所述内插滤波器来产生预测性块。
假设语法元素指示执行合并模式,则运动补偿单元73可形成包含合并候选者集合的候选者列表。运动补偿单元73可基于特定的预定次序将候选者添加到候选者列表。如上文所论述,运动补偿单元73还可添加额外候选者并执行对候选者列表的精简。最终,运动补偿单元73可对表示使用哪些候选者对当前块的运动信息进行译码的合并索引进行解码。
逆量化单元77对提供于位流中且由熵解码单元71解码的经量化变换系数进行逆量化,即解量化。逆量化过程可包含使用视频解码器48为视频切片中的每一视频块计算出的量化参数QPY,以确定应该应用的量化程度及同样地逆量化程度。
逆变换单元79对变换系数应用逆变换,例如逆DCT、逆整数变换,或概念上类似的逆变换过程,以便产生像素域中的残余块。
在运动补偿单元73基于运动向量及其它语法元素产生当前视频块的预测性块之后,视频解码器48通过对来自逆变换单元79的残余块与由运动补偿单元73产生的对应预测性块求和而形成经解码视频块。求和器81表示执行此求和运算的一或多个组件。必要时,还可应用解块滤波器以对经解码块进行滤波,以便去除成块伪影。还可使用其它环路滤波器(在译码环路中或在译码环路之后),以使像素转变平滑或者以其它方式改善视频质量。随后,将给定帧或图片中的经解码视频块存储在参考图片存储器83中,所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器83还存储经解码视频以用于稍后呈现在显示装置,例如图2的显示器27上。
现将描述与360度(VR)视频数据有关的技术,包含与视点有关的VR视频系统相关的技术。与普通视频相比,VR视频的一个实例特征是VR通常使用由视频图片表示的与所显示的当前FOV相对应的整个视频区域的子集。在普通视频应用中,通常显示整个视频区域。FOV有时还称为视点,即,用户当前正看到的区域。可利用此特征来改进VR视频系统的性能,例如,通过使用视点相关的投影映射或视点相关的视频译码。在呈现给用户的视频部分的相同分辨率/质量下,与常规的VR视频系统相比,性能改进可为较低传输带宽及较低解码复杂度中的任一者或两者。
视点相关的投影映射也可称为不对称投影映射。一个实例是经子采样的立方体图。典型的立方体图由六个相等大小的面组成。在经子采样的立方体图的一个实例中,面中的一者可保持不变,而在相对侧上的面可进行子采样或向下缩放到位于原始面形状的中心区域处的较小大小,并且其它面相应地在几何学上按比例缩放(仍然保持六个面)。极端情况是将相对侧上的面向下缩放为单个点,并且因此立方体变为角锥形。在经子采样的立方体图的另一实例中,一些面按比例缩小尺寸,例如按2×2比率(即,在平行于面的边缘的每个方向上为2:1)。
此种缩小尺寸缩放也可适用于其它投影映射的不同区域,例如,相等矩形。一个实例是将上部区域及下部区域(即,极点)缩小尺寸。
视点相关的视频译码还可称为基于视点的部分视频解码。在视点相关译码中,客户端装置40可经配置以对整个经编码视频区域进行解码,以提供足够信息来显示当前FOV或视点。
在视点相关的视频译码的一个实例中,使用运动受约束的瓦片集对VR视频进行译码,使得可独立于其它区域对覆盖FOV或视点的每一潜在区域进行解码。对于特定当前FOV或视点,覆盖当前FOV或视点的最小可独立解码瓦片集的经译码视频数据被发送到客户端,进行解码及进行显示。此方法的缺点在于,当用户将其头部快速转动到不被发送的视频数据覆盖的新FOV时,在覆盖新FOV的数据到达之前可能看不见不被视频数据的瓦片覆盖的区域中的任何事物。这可容易地发生,除非网络往返时间极低,例如,在10ms的量值,这并非是可实行的或至少是在当今或在近期内的巨大挑战。
在2016年2月26日提交的第201641006779号临时申请及2016年6月28日提交的第15/195,439号美国专利申请(2017年8月31日公开的第20170251204号美国专利公开案)中提出视点相关的视频译码的另一实例,两个申请的全部内容以引用的方式并入本文中,命名为独立的多分辨率译码(IMRC),其中彼此独立地以多个不同分辨率对球形/全景视频进行编码,并且使用运动受约束的瓦片集对每个表示进行译码。接收器选择以不同分辨率对球形/全景视频的不同部分进行解码。通常,用户当前观察到的球形视频的部分,即,当前FOV或当前视点为以最高分辨率译码的视频位流的一部分。当前FOV周围的区域是使用略微低的分辨率进行译码的视频位流的一部分等。在观察者的头部正后方的全景的部分是以最低分辨率译码的视频位流的一部分。在用户进行头部移动的情况下,在大多数情况下用户体验可仅少量降级,并且仅在罕见的非常大的突然头部移动的情况下,质量降级可最严重。
在视点相关的视频译码的又另一个实例中,使用可扩展视频编解码器,例如SHVC对多个分辨率的视频位流进行可扩展译码。另外,总是发生最低分辨率视频(或基底层)的整个位流。最低分辨率视频不需要使用瓦片或运动受约束的瓦片集进行译码,但是如果使用瓦片或运动受约束的瓦片集进行译码,则最低分辨率视频也会工作。对于其它方面,施加上述相同策略。此方法允许最低分辨率视频的更高效译码,因为瓦片或运动受约束的瓦片集的译码降低译码效率,并且由于层间预测的使用还允许更高分辨率流的更高效译码。此外,此方法还允许更高效的FOV切换,因为一旦FOV切换开始,服务器或边缘服务器可立即停止发送视频数据,所述视频数据来自更高分辨率(相较于基底层)且不覆盖新FOV的任何区域。如果不发送覆盖当前FOV的最低分辨率的视频数据(即,发送仅覆盖当前FOV的最高分辨率的视频数据),则在FOV切换期间,服务器有时将必须继续发送要准备的视频数据,使得用户可在其回到旧FOV或其部分的情况下至少看到最低质量视频,所述视频数据来自最高分辨率的视频流并且仅覆盖旧FOV或其部分。
在一些实例中,向用户显示何种视点或感兴趣区域可基于导演的指导。在一个实例贡献中,讨论关于用信号表示及使用指示导演的剪辑的信息的使用案例,使得即使在用户不转动其头部或通过其它UI改变视点时,VR播放也可显示导演想要观众关注的动态变化的视点。已提及,此类视点可逐场景提供有全向视频。
为了便于描述现有技术中的缺点,本公开在VR视频的上下文中如下定义最感兴趣区域(或优选感兴趣区域/视点)的概念:在VR视频的特定图片集合中的最感兴趣区域集合被定义为预期或建议用户在对应于图片集合的呈现时间的时刻看到的区域集合。
2017年5月8日提交的第15/589,782号美国专利申请(2017年11月23日公开的第20170339415号美国专利申请)描述由服务或内容提供商的用户统计数据产生关于最感兴趣区域的信息,例如,当通过流式传输服务提供VR视频内容时,通过已请求/用户看到最多的哪些区域的统计数据,其中VR视频图片中的最感兴趣区域是在图片的呈现时间以统计方式最可能呈现给用户的区域中的一者。而且,在第15/589,782号美国专利申请中描述使用关于最感兴趣区域的信息以用于各种VR性能改进目的,例如,通过边缘服务器或客户端在VR自适应流式传输中的数据预提取,当VR视频被转码到例如不同编解码器时的转码优化或投影映射,通过边缘服务器或缓存的缓存管理,及通过VR视频流式传输服务器的内容管理。还公开最感兴趣区域的用信号表示,例如,通过使用视频位流中的SEI消息,媒体文件中的文件格式样本群组,或使用样本群组的动态自适应HTTP串流(DASH)媒体呈现描述(MPD)元素或属性。
关于VR视频应用的已知设计与至少以下问题相关联:
1.如果用户实际上对VR视频中的其它区域感兴趣,则在不需要用户控制的情况下使用关于最感兴趣区域的信息来显示最感兴趣区域可降低VR视频体验。相反,关于最感兴趣区域的信息可通过其它方法用于改进的VR视频体验。
2.与导演的剪辑相比,可通过其它方法确定或创建VR视频的特定图片集合中的最感兴趣区域。
3.缺乏一种用信号表示关于最感兴趣区域的信息的具体方法。
第15/589,782号美国专利申请描述用于用信号表示及重构VR视频中的一或多个最感兴趣区域,及在VR视频编码、解码、流式传输及播放时的对应处理的若干技术。这些技术中的一或多者可独立地应用或与其它技术组合应用。
在第一实例中,最感兴趣区域可由导演或制作者的意图,或由服务或内容提供商的用户统计数据确定,例如,当通过流式传输服务提供VR视频内容时,通过已请求/用户看到最多的哪些区域确定。
在第二实例中,在视频编码或转码期间,最感兴趣区域可有意地以较高质量(例如,通过使用较低量化参数)、较高分辨率(例如,如果在视频拼接或视频编码期间用不同子采样比例对视频图片的不同区域进行子采样)或相较于其它区域较高的可随机存取性频率来编码。
在第三实例中,本公开提出使用视频位流中的SEI消息、媒体文件中的文件格式元数据,或动态自适应HTTP串流(DASH)媒体呈现描述(MPD)元素或属性来用信号表示关于最感兴趣区域的信息。
可使用SEI消息用信号表示关于VR视频位流的特定图片集合的最感兴趣区域的信息。通过语法、语义或两者指定此SEI消息的实例适用于(一或多个)图片的集合。SEI消息可含有至少以下语法元素:
i.指示最感兴趣区域的数目的语法元素。
ii.语法元素集合的环路,每个集合描述最感兴趣区域的位置及大小。举例来说,每个集合可包含四个语法元素,其在亮度样本相对于整个图片的数目上指示作为最感兴趣区域的矩形的四个角的上、下、左及右偏移。在另一实例中,每个集合可包含在亮度样本相对于整个图片的数目上指示作为最感兴趣区域的矩形的左上角的坐标的两个语法元素;及指示矩形的宽度及高度的两个语法元素。
iii.对于最感兴趣区域中的每一者,可通过语法元素指示优先级,其中高优先级指示区域的更高兴趣。
iv.语法元素指示是否按解码次序取消此SEI消息的所有先前实例的效果。
v.语法元素指示在按输出次序的下一图片,或新的经译码视频序列开始,或位流结束之前,此SEI消息的当前实例中的消息是否持续。
可包含SEI消息作为H.264/AVC、H.265/HEVC,或任何其它视频编解码器规范的一部分。含有SEI消息的NAL单元可直接包含在以下项中:1)用于以文件格式用信号表示信息的文件格式框或结构,2)用于用信号表示SDP中的信息的SDP域,3)用于用信号表示DASHMPD中的信息的DASH MPD属性或元素,及/或4)用于用信号表示MPEG-2TS中的信息的MPEG-2传输流(TS)描述符。
上述相同信息可例如,通过使用新的样本群组,或通过包含在定时元数据轨迹中而直接携载于文件格式数据结构中。
可使用DASH MPD中的一些新元素、属性及/或描述符直接携载上述相同信息。
在第四实例中,在例如DASH的受客户端控制的视频流式传输期间,当内容传递网络(CDN)在使用中时,边缘服务器(例如,服务器装置60)或缓存可使用关于最感兴趣区域的信息来获得更高质量表示的视频数据,并且在从客户端装置40接收请求之前略微覆盖即将出现图像的最感兴趣区域,从而预测很可能很快请求视频数据。即将出现的图像可为紧接在其一或多个区域近来已被发送到客户端装置40并且正被呈现或很快通过客户端装置40呈现的图像之后的图像。
在第五实例中,在例如DASH的受客户端控制的视频流式传输期间,客户端装置40可使用关于最感兴趣区域的信息来请求更高质量表示的视频数据,并且在用户转动其头部并发送请求之前略微覆盖即将出现的图像的最感兴趣区域,从而预测有可能很快请求视频数据。同样,即将出现的图像可为紧接在其一或多个区域近来已被发送到客户端装置40并且正被呈现或很快通过客户端装置40呈现的图像之后的图像。
在第六实例中,受服务器控制的视频流式传输系统(例如,服务器装置60),例如,3GPP TS 26.234中的3GPP分组交换流式传输(PSS)可配置有特征,所述特征使流式传输客户端(例如,客户端装置40)能够发送关于服务器的当前FOV的方向的反馈,以选择发送覆盖最感兴趣区域的合适视频数据。在此种配置的受服务器控制的视频流式传输系统中,服务器装置60可使用关于最感兴趣区域的信息来发送更高质量表示的视频数据,并且在接收关于当前FOV的方向的流式传输客户端的反馈之前,略微覆盖即将出现的图像的最感兴趣区域,从而预测很可能需要很快发送视频数据。举例来说,响应于确定特定流式传输客户端正输出特定图像,服务器装置60可将更高质量表示的视频数据输出到特定流式传输客户段,并且覆盖紧接在特定图像之后的即将出现的图像的最感兴趣区域。
在第七实例中,为了存储涉及缓存(例如,在服务器装置60处)的内容(例如,VR内容)的管理,服务器装置60可确定特定图像的哪些区域使用表示特定图像中的一或多个最感兴趣区域的数据存储在缓存中。开发者可设计存储选择算法,并且服务器装置60可执行算法以基于区域中的所选择感兴趣程度(例如,基于导演的观点),及/或基于区域中的所推导感兴趣程度(例如,基于在内容可用一段时间之后观看行为的用户统计数据)而向图像的区域提供分级。服务器装置60可将具有满足阈值(例如,大于阈值)的等级值的特定图像的区域的视频数据存储在缓存中。举例来说,当仅特定图像的最感兴趣区域的等级值满足阈值时,服务器装置60可仅将特定图像的最感兴趣区域的视频数据存储在缓存中。在此实例中,客户端装置40可从缓存检索特定图像的最感兴趣区域的视频数据,并且可从主要服务器存储装置检索特定图像的其它区域的视频数据,所述主要服务器存储装置相较于缓存可更远离用户定位。另外或替代地,服务器装置60可基于缓存中的可用空间量动态地确定阈值。
在第八实例中,为了长期存储VR内容,服务器装置60可使用表示(例如,VR视频的)特定图像中的一或多个最感兴趣区域的数据来决定存储图像的哪些区域。开发者可设计存储选择算法,并且服务器装置60可执行算法以基于区域中的所选择感兴趣程度(例如,基于导演的观点),及/或基于区域中的所推导感兴趣程度(例如,基于在内容可用一段时间之后观看行为的用户统计数据)而向区域提供分级。服务器装置60可将具有满足阈值(例如,大于阈值)的等级值的特定图像的区域的视频数据存储在长期存储装置(例如,经配置以将视频数据存储数周、数月、数年等)中。举例来说,当仅特定图像的最感兴趣区域的等级值满足阈值时,服务器装置60可仅将特定图像的最感兴趣区域的视频数据存储在长期存储装置中并从长期存储装置清除特定图像的其它区域的视频数据。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同顺序来执行,可添加、合并或全部省略所述动作或事件(例如,实践所述技术未必需要所有所描述动作或事件)。此外,在某些实例中,可例如通过多线程处理、中断处理或多个处理器同时而非依序地执行动作或事件。
2017年5月10日提交的第15/591,805号美国专利申请(2017年11月30日公开的第20170344843号美国专利公开案)描述用于高级地用信号表示VR视频中的一或多个最感兴趣区域的若干技术,包含以下项等等:
-当包含在轨迹片段框中时,样本群组可记录在含有轨迹中的样本群组(分组类型的SampleToGroupBox及对应样本群组描述框)的轨迹片段之后的后续轨迹片段中的样本信息;
-上述样本群组的一些详细实施例;
-直接使用在HEVC中指定的瓦片ID、在ISO/IEC 14496-15中定义的groupID、在ISO/IEC 14496-12中定义的轨迹ID,或在ISO/IEC 23009-1中定义的DASH表示ID用信号表示最感兴趣区域。
用于用信号表示关于VR视频的最感兴趣区域的信息的实例设计可具有一些潜在问题。作为一个实例,没有机制可用于确保在信息所关于的视频图片之前,关于VR视频的最感兴趣区域的信息可由自适应流式传输客户端或边缘服务器接收。当包含在SEI消息中时,如在第15/589,782号美国专利申请中描述,信息将与信息所关于的经译码图片一起出现。当包含在轨迹片段中时,文件格式样本群组描述关于所述轨迹片段中的视频样本的信息。作为另一实例,在一些情况下,例如当瓦片轨迹用于承载运动受限瓦片或瓦片区域时,不需要通过区域的位置及大小用信号表示关于最感兴趣区域的信息,而是可使用更简单且更高效的信令。
第15/591,805号美国专利申请描述用于高级地用信号表示VR视频中的一或多个最感兴趣区域的若干技术,使得在信息所关于的视频图片之前,关于VR数据的最感兴趣区域的信息可由流式传输客户端或边缘服务器接收。这些技术中的一或多者可独立地应用或与其它技术组合应用。
在一个实例中,提出当包含在轨迹片段框中时,样本群组可记录在含有轨迹中的样本群组(分组类型的SampleToGroupBox及对应样本群组描述框)的轨迹片段之后的后续轨迹片段中的样本信息。举例来说,定义SampleToGroupBox的新版本,并且当特定分组类型的SampleToGroupBox包含在轨迹片段中时,需要使用SampleToGroupBox的新版本,并且包含在相同分组类型的对应样本群组条目中的信息可记录含有轨迹中的样本群组的后续轨迹片段中的样本信息。
在另一实例中,用于描述最感兴趣区域的样本群组可至少含有以下语法元素中的一或多者。
样本群组可包含指示最感兴趣区域的数目的语法元素。
样本群组可包含语法元素集合的环路,每个集合描述最感兴趣区域的位置及大小。举例来说,每个集合可包含四个语法元素,其在亮度样本相对于整个图片的数目上指示作为最感兴趣区域的矩形的四个角的上、下、左及右偏移。对于最感兴趣区域中的每一者,优先级可由语法元素指示,其中高优先级指示区域的更高兴趣。
在一个实例中,每个集合可包含在亮度样本相对于整个图片的数目上指示作为最感兴趣区域的矩形的左上角的坐标的两个语法元素;及指示矩形的宽度及高度的两个语法元素。
在第二实例中,每个集合可包含在亮度样本相对于整个图片的数目上指示最感兴趣区域的左上角的坐标的两个语法元素。应注意,通过此坐标指向的最感兴趣区域可能不具有矩形形状。文件解析器应能够将坐标与视点中的区域相关联,并且找到其中此区域用最高分辨率/质量译码的轨迹/DASH表示。
在第三实例中,可合并第一及第二替代方案,其中引入标志以指示最感兴趣区域是否具有通过宽度及高度描述的矩形形状。
在第四实例中,每个集合可包含在亮度样本相对于球体的数目上指示作为最感兴趣区域的矩形的左上角的坐标的三个语法元素(例如,偏航度、俯仰度及半径长度);及指示矩形的俯仰宽度及高度偏航的两个语法元素。文件解析器应能够将球体中的所描述区域与相对于整个图片的区域相关联,并且找到其中此区域用最高分辨率/质量译码的轨迹/DASH表示。
在另一实例中,代替直接用信号表示最感兴趣区域的位置及大小,可用信号表示覆盖最感兴趣区域的瓦片的在HEVC规范中指定的瓦片ID。
在另一实例中,代替直接用信号表示最感兴趣区域的位置及大小,可用信号表示覆盖最感兴趣区域的瓦片区域的在ISO/IEC 14496-15的条款10中定义的区域ID或群组ID。
在另一实例中,当使用在ISO/IEC 14496-15的条款10中定义的瓦片轨迹时,代替直接用信号表示最感兴趣区域的位置及大小,可用信号表示覆盖最感兴趣区域的承载运动受限瓦片或瓦片区域的轨迹的轨迹ID。
在另一实例中,当DASH用于流式传输VR视频时,使用在ISO/IEC 14496-15的条款10中定义的瓦片轨迹,并且每个瓦片轨迹封装在一个DASH表示中,代替直接用信号表示最感兴趣区域的位置及大小,在MPD或MPD的更新中,可用信号表示与覆盖最感兴趣区域的承载运动受限瓦片或瓦片区域的轨迹相对应的表示的表示ID。
在另一实例中,当使用在ISO/IEC 14496-15的条款10中定义的瓦片轨迹时,一或多个最感兴趣区域的信息可在基础瓦片轨迹或非瓦片化轨迹(即,由其它轨迹通过‘TBAS’轨迹参考指代的轨迹)中用信号表示,或可仅在基础瓦片轨迹中用信号表示。在这种情况下,当样本群组用于用信号表示时,样本数目是与当前轨迹相关联的瓦片轨迹的那些数目。并且在这种情况下,可能需要样本数目与瓦片轨迹相同,并且样本数目与瓦片轨迹对准。
在另一实例中,代替使用样本群组,还可在直接或间接包含在样本表框、轨迹片段框及/或片段索引框中的新框中用信号表示最感兴趣区域的信息,并且允许新框记录关于在含有轨迹中的新框的一个轨迹片段之后的后续轨迹片段或后续片段的样本的信息。
在另一实例中,可使用SEI消息用信号表示关于VR视频位流的特定图片集合的最感兴趣区域的信息。通过语法、语义或两者指定此SEI消息的实例适用于(一或多个)图片的集合。SEI消息可含有以下语法元素中的一或多者。
SEI消息可含有指示最感兴趣区域的数目的语法元素。
SEI消息可含有语法元素集合的环路,每个集合描述最感兴趣区域的位置及大小。举例来说,每个集合可包含四个语法元素,其在亮度样本相对于整个图片的数目上指示作为最感兴趣区域的矩形的四个角的上、下、左及右偏移。或者,每个集合可包含在亮度样本相对于整个图片的数目上指示作为最感兴趣区域的矩形的左上角的坐标的两个语法元素;及指示矩形的宽度及高度的两个语法元素。
SEI消息可含有,对于最感兴趣区域中的每一者,可由语法元素指示优先级,其中高优先级指示区域的更高兴趣。
SEI消息可含有指示是否按解码次序取消此SEI消息的所有先前实例的效果的语法元素。
SEI消息可含有指示按输出次序的未来图片或存取单元的语法元素,通过此SEI消息描述的关于最感兴趣区域的信息开始从所述语法元素应用。此指示可实施为相对于与SEI消息相关联的图片或存取单元的POC的△POC(图片次序计数),或△输出时间。
SEI消息可包含指示在按输出次序的下一图片,或新的经译码视频序列开始,或位流结束之前,此SEI消息的当前实例中的信息是否持续的语法元素。
样本群组的详细实例如下。
新的样本群组设计用于用信号表示VR视频的最感兴趣区域。样本分组类型是‘mir’。
最感兴趣区域样本群组记录在文件中表示的VR视频的最感兴趣区域。最感兴趣区域可通过导演或制作者的意图,或通过服务或内容提供商的用户统计数据确定,例如,当通过流式传输服务提供VR视频内容时,通过已请求/用户看到最多的哪些区域的统计数据确定。VR视频图片中的最感兴趣区域是在图片的呈现时间最可能以统计方式呈现给用户的区域中的一者。
注解:最感兴趣区域的信息可用于通过边缘服务器或客户端在VR自适应流式传输中的数据预提取,及/或当VR视频被转码到例如不同编解码器时的转码优化,投影映射。
当具有等于‘mir’的grouping_type的SampleToGroupBox包含在轨迹片段框(‘traf’)中时,SampleToGroupBox的版本应等于2。
SampleToGroupBox的版本2允许记录在SampleToGroupBox中样本指代包含在一或多个后续轨迹片段中的样本。换句话说,当版本2用于SampleToGroupBox时,此框中的总样本计数大于当前轨迹片段框中的总样本数目不是误差,但是从轨迹中的当前轨迹片段开始,此框中的总样本技术大于所有轨迹片段中的总样本数目是误差,并且在这种情况下,读取器行为将是不确定的。
样本群组条目的语法如下:
语义如下:
entry_count指定样本群组条目中的条目数目。
left_horizontal_offset、top_vertical_offset、region_width及region_height是指示最感兴趣区域的位置及大小的整数值。left_horizontal_offset及top_vertical_offset分别指示在亮度样本中在此样本群组条目所适用的经译码图片中的最感兴趣区域的左上角的水平及竖直坐标。region_width及region_height分别指示在亮度样本中在此样本群组条目所适用的经译码图片中的最感兴趣区域的宽度及高度。
或者,left_horizontal_offset、top_vertical_offset、region_width及region_height的语义如下:
left_horizontal_offset、top_vertical_offset、region_width及region_height是指示最感兴趣区域的位置及大小的整数值。left_horizontal_offset及top_vertical_offset分别指示在亮度样本中在经译码图片中的最感兴趣区域的左上角的水平及竖直坐标,此样本群组条目适用于所述经译码图片并且所述经译码图片在所有替代轨迹中具有最高分辨率。region_width及region_height分别指示在亮度样本中在经译码图像图片中的最感兴趣区域的宽度及高度,此样本群组条目适用于所述经译码图像图片并且所述经译码图像图片在所有替代轨迹中具有最高分辨率。
或者,样本群组条目的语法如下:
并且语义如下:
regionbase_track_id指定基础区域的说明的轨迹,相对于所述基础区域指定最感兴趣区域的位置及大小。假设样本处于当前轨迹中并且此样本群组条目适用于作为目标样本。样本处于具有等于regionbase_track_id的track_id的轨迹中,并且作为并置样本具有与目标样本相同的样本数目。基础区域是完全或部分由并置样本中承载的经译码视频数据表示的整个图片区域。
entry_count指定样本群组条目中的条目数目。
left_horizontal_offset、top_vertical_offset、region_width及region_height是指示最感兴趣区域的位置及大小的整数值。left_horizontal_offset及top_vertical_offset分别指示在亮度样本中最感兴趣区域的左上角相对于基础区域的水平及竖直坐标。region_width及region_height分别指示在亮度样本中最感兴趣区域相对于基础区域的宽度及高度。
VR/360度视频中的ROI可通过至少两种方法定义。定义VR/360度视频中的RIO的一种方法是基于球体坐标系,例如,通过限定360度视频的球形表面上的区域来定义ROI。另一方法是基于2D图片上的2D笛卡尔坐标系定义ROI。后一者是用于第62/339,009号美国临时申请(2017年11月23日公开的第2017033941号美国公开案)及第62/341,017号美国临时申请(2017年11月30日公开的第20170344843号美国公开案)的技术中的方法。
VR视频的一个实例贡献论述用于基于球体坐标系定义感兴趣区域的若干方法。具体来说,这些方法指定球形表面上的区域,所述区域由四个大圆或两个大圆及两个小圆的四个片段包围,每个片段在球形表面上的两个点之间。圆、大圆及小圆在本文中如下定义:
平面及球体的交点是圆(除了当交点是一个点时)。此圆的所有点属于球体的表面。球体的大圆(也称为大圆或黎曼圆)是球体及穿过球体的中心点的平面的交点。球体的中心及大圆的中心总是处于相同位置。平面及球体的任何其它交点不满足此情况并且不是点,而是小圆。
当在头戴式显示器(HMD)或例如TV的非HMD显示器上播放VR/360度视频时,向用户呈现(例如,解码及显示)视点。通常,视点是与球体成切线(即,在一个点处与球体相交)的平面上的矩形区域,其中视点平面与用户的观看方向正交。可通过应用直线投影来产生视点,例如,如在以下文献中论述:ITU-T SG 16 WP 3及ISO/IEC JTC 1/SC 29/WG 11的博伊斯(Boyce)等人的“360度视频的JVET通用测试条件及评估程序”,联合视频勘查小组(JVET),第4次会议:2016年10月15至21日,中国成都(JVET-D1030)。球体上的对应于视点的区域是由四个大圆的四个片段包围的区域。
给定VR视频中的用信号表示的感兴趣区域或视点,例如,作为导演的剪辑的一部分的所指示最感兴趣区域,为了从内容产生器的视角获得最佳用户体验,优选的是向用户呈现整个用信号表示的感兴趣区域或视点,而不需要剪掉用信号表示区域的任何部分。然而,取决于客户端装置40的显示器27的特征,有时在呈现用信号表示的感兴趣区域或视点时可能需要一些调整以适合显示器27。
在本公开的上下文中,呈现可包含对视频数据进行解码,图形处理待显示的优选感兴趣区域或视点,待显示的优选感兴趣区域或视点的显示处理,及/或优选感兴趣区域或视点的显示中的一或多者。呈现可通过显示处理器25、视频解码器48、处理器21及/或GPU23中的一或多者执行。在一些实例中,可能需要调整用信号表示的优选感兴趣区域或视点的纵横比(即,宽度与高度之间的比率),因为显示器27具有与优选感兴趣区域或视点不同的纵横比。在其它实例中,还可能需要呈现与用信号表示的优选感兴趣区域或视点相邻的VR视频的一些部分,以适合显示器的大小及纵横比。在其它实例中,可能优选的是剪掉用信号表示的优选感兴趣区域或视点的某一部分。作为另一实例,用信号表示的优选感兴趣区域或视点可具有随时间变化的分辨率,并且在此情况下,可在呈现期间执行放大或缩小。在这种情况下,可能需要上述调整中的一或多者。
VR视频的导演或创建者可能对应如何对不同情形中的优选感兴趣区域或视点作出调整及应对不同情形中的优选感兴趣区域或视点作出何种调整具有不同意图或偏好。在一些实例中,可能优选的是用信号表示的优选感兴趣区域或视点的纵横比保持不变。在此类实例中,与最小化未由用信号表示的优选感兴趣区域或视点覆盖的呈现部分相比,保持优选感兴趣区域或视点的纵横比用具有更高优先级,且反之亦然。
在许多情况下,优选的是保持用信号表示的优选感兴趣区域或视点的纵横比,以避免呈现器(例如,GPU 23)引起的优选感兴趣区域或视点的变形,以适合显示器27的纵横比。这可通过以下方式实现:剪切ROI以适合显示器,从而导致一些内容损耗,或通过呈现与ROI相邻的部分,从而导致显示附加内容,或通过将横幅添加到ROI。横幅可为任何呈现图像或图像,以填充未通过用信号表示的ROI或视点完全填充的FOV的任何空间。举例来说,横幅可为黑条。然而,当前不存在用于用信号表示此类优选或优先化呈现操作的机构。
如下文所描述,本公开描述用于用信号表示VR视频中的用信号表示的优选感兴趣区域或视点的优选或优先化呈现操作的实例技术。内容准备装置20(图1)可经配置以实施本公开的技术。视频编码器28、处理器15及/或GPU 19中的任一者可经配置以实施本公开的一或多个技术。另外,客户端装置40可经配置以解码、解析、呈现及显示根据本公开的技术用信号表示的VR视频数据。显示处理器25、视频解码器48、处理器21及/或GPU 23中的任一者可经配置以实施本公开的技术。
在本公开的一个实例中,内容准备装置20可经配置以针对用信号表示的优选感兴趣区域或视点而用信号表示附加指示,在呈现用信号表示的ROI或视点时需要一些调整来适合显示器的情况下,所述附加指示指示了优选呈现操作。如上所述,内容准备装置20可经配置以产生指示优选感兴趣区域或视点的一或多个第一语法元素。另外,内容准备装置20可经配置以产生指示用于优选感兴趣区域或视点的优选呈现操作的一或多个第二语法元素。
客户端装置40可经配置以根据用信号表示的指示(例如,第二语法元素)呈现优选感兴趣区域或视点。也就是说,客户端装置40可经配置以解析指定优选呈现操作的指示(例如,第二语法元素),并且随后执行所述优选呈现操作。在一个实例中,客户端装置40可根据优选的呈现操作使用信号表示的优选感兴趣区域或视点适合显示器27。
在另一实例中,内容准备装置20可经配置以用信号表示指示,所述指示优选地为保持用信号表示的优选感兴趣区域或视点的纵横比不变,而不是最小化未由用信号表示的优选感兴趣区域或视点覆盖的呈现部分。客户端装置40可经配置以解析对指定保持纵横比的偏好的指示,并且不执行优选感兴趣区域或视点的任何纵横比调整。
在另一实例中,内容准备装置20可经配置以用信号表示指示,所述指示优选地为最小化未由用信号表示的优选感兴趣区域或视点覆盖的呈现部分,而不是保持用信号表示的优选感兴趣区域或视点的纵横比不变。客户端装置40可经配置以解析指定对最小化呈现部分的偏好的指示,并且随后剪切及/或处理VR视频,使得不显示不作为优选感兴趣或视点的一部分的呈现部分。
在另一实例中,内容准备装置20可经配置以用信号表示指示,所述指示优选地为保持用信号表示的优选感兴趣区域或视点的纵横比不变,及通过剪切优选感兴趣区域或视点以适合显示器27的纵横比来最小化未由用信号表示的优选感兴趣区域或视点覆盖的呈现部分。客户端装置40可经配置以解析指示并剪切优选感兴趣区域或视点以适合显示器27的纵横比,而不改变用信号表示的优选感兴趣区域或视点的纵横比。
在另一实例中,内容准备装置20可经配置以用信号表示指示,所述指示优选地为保持用信号表示的优选感兴趣区域或视点的纵横比不变,及通过呈现相邻区域以适合显示器27的纵横比来最小化未由用信号表示的优选感兴趣区域或视点覆盖的呈现部分。客户端装置40可经配置以解析指示并呈现相邻区域以适合显示器的纵横比,而不改变用信号表示的优选感兴趣区域或视点的纵横比。
在另一实例中,内容准备装置20可经配置以用信号表示指示,所述指示优选地为保持用信号表示的优选感兴趣区域或视点的纵横比不变,及将横幅添加到优选感兴趣区域或视点以适合显示器27的纵横比来最小化未由用信号表示的优选感兴趣区域或视点覆盖的呈现部分。客户端装置40可经配置以解析指示并将横幅添加到优选感兴趣区域或视点以适合显示器的纵横比,而不改变用信号表示的优选感兴趣区域或视点的纵横比。
在另一实例中,内容准备装置20可经配置以用信号表示以下指示:用信号表示的优选感兴趣区域或视点的纵横比可通过非线性翘曲技术修改以适合显示器27的纵横比。客户端装置40可经配置以解析指示并使用非线性翘曲技术修改用信号表示的优选感兴趣区域或视点的纵横比,以适合显示器27的纵横比。
上述技术中的每一者可一起使用或以任何组合使用。举例来说,内容准备装置20及客户端装置40可经配置以实施上述技术中的每一者,并且内容准备装置20及客户端装置40中的每一者可经配置以将上述技术选择性地应用于图片的每个帧(例如,FOV)。
上述指示(例如,第一及第二语法元素)可以任何可接受的语法结构用信号表示,包含一或多个参数集、辅助增强信息(SEI)消息,或以文件格式的任何语法(例如,样本群组)用信号表示。
作为特定实例,优选呈现操作的指示可为在全向视点SEI消息中用信号表示的preferred_rendering_operation语法元素。preferred_rendering_operation语法元素的值指示建议视点(例如,优选感兴趣区域或视点)优选呈现操作,以保持视点区域的纵横比并在可能的空间分辨率缩放操作之后最小化未由视点覆盖的呈现部分。preferred_rendering_operation语法元素的值指示未指定呈现偏好(例如,值0)、呈现优选感兴趣区域或优选视点的相邻区域(例如,值1)、将横幅添加在优选感兴趣区域或优选视点周围(例如,值2),或剪切优选感兴趣区域或优选视点(例如,值3)中的一者。
图5是说明本公开的实例方法的流程图。内容准备装置20可经配置以执行图5的方法。
内容准备装置20可经配置以:对360度视频数据进行编码(500);产生指示360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素(502);产生指示用于呈现优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素(504);及用经编码360度视频数据用信号表示一或多个第一语法元素及一或多个第二语法元素(506)。在一个实例中,内容准备装置20可进一步经配置以确定360度视频数据的优选感兴趣区域或优选视点。
在一个实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含呈现优选感兴趣区域或优选视点,而不改变优选感兴趣区域或优选视点的纵横比。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分来呈现优选感兴趣区域或优选视点。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过保持优选感兴趣区域或优选视点的纵横比不变,及通过剪切优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现优选感兴趣区域或优选视点。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过保持优选感兴趣区域或优选视点的纵横比不变,及通过呈现360度视频的相邻区域以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现优选感兴趣区域或优选视点。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过保持优选感兴趣区域或优选视点的纵横比不变,及通过将横幅添加到优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现优选感兴趣区域或优选视点。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过使用非线性翘曲技术修改优选感兴趣区域或优选视点的纵横比以适合显示器的纵横比来呈现优选感兴趣区域或优选视点。
在另一实例中,产生一或多个第二语法元素包括产生全向视点辅助增强信息(SEI)消息中的preferred_rendering_operation语法元素,其中preferred_rendering_operation语法元素的相应值指示未指定呈现偏好、呈现优选感兴趣区域或优选视点的相邻区域、将横幅添加在优选感兴趣区域或优选视点周围,或剪切优选感兴趣区域或优选视点中的一者。
图6是说明本公开的实例方法的流程图。客户端装置40可经配置以执行图6的方法。
客户端装置40可经配置以:接收360度视频数据(600);接收指示360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素(602);接收指示用于呈现优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素(604);及基于优选呈现操作而呈现360度视频数据(606)。客户端装置40可进一步经配置以对360度视频数据进行解码。
在一个实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含呈现优选感兴趣区域或优选视点,而不改变优选感兴趣区域或优选视点的纵横比;及呈现360度视频数据包括通过呈现优选感兴趣区域或优选视点,而不改变优选感兴趣区域或优选视点的纵横比来呈现360度视频数据。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分来呈现优选感兴趣区域或优选视点;及呈现360度视频数据包括通过最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分来呈现所述感兴趣区域或优选视点,呈现360度视频数据。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过保持优选感兴趣区域或优选视点的纵横比不变,及通过剪切优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现优选感兴趣区域或优选视点;及呈现360度视频数据包括通过保持优选感兴趣区域或优选视点的纵横比不变,及通过剪切优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现360度视频数据。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过保持优选感兴趣区域或优选视点的纵横比不变,及通过呈现360度视频的相邻区域以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现优选感兴趣区域或优选视点;及呈现360度视频数据包括通过保持优选感兴趣区域或优选视点的纵横比不变,及通过呈现360度视频的相邻区域以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现360度视频数据。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过保持优选感兴趣区域或优选视点的纵横比不变,及通过将横幅添加到优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现优选感兴趣区域或优选视点;及呈现360度视频数据包括通过保持优选感兴趣区域或优选视点的纵横比不变,及通过将横幅添加到优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由优选感兴趣区域或优选视点覆盖的360度视频数据的呈现部分而呈现360度视频数据。
在另一实例中,一或多个第二语法元素包含以下指示:优选呈现操作包含通过使用非线性翘曲技术修改优选感兴趣区域或优选视点的纵横比以适合显示器的纵横比来呈现优选感兴趣区域或优选视点;及呈现360度视频数据包括通过使用非线性翘曲技术修改优选感兴趣区域或优选视点的纵横比以适合显示器的纵横比来呈现360度视频数据。
在另一实例中,接收一或多个第二语法元素包括接收全向视点辅助增强信息(SEI)消息中的preferred_rendering_operation语法元素,其中preferred_rendering_operation语法元素的值指示未指定呈现偏好、呈现优选感兴趣区域或优选视点的相邻区域、将横幅添加在优选感兴趣区域或优选视点周围,或剪切优选感兴趣区域或优选视点中的一者。
在一或多个实例中,所描述的功能可实施于硬件、软件、固件或其任何组合中。如果在软件中实施,则功能可作为一或多个指令或代码存储在计算机可读媒体上或通过计算机可读媒体传输,并且由基于硬件的处理单元,例如,固定功能处理电路、可编程处理电路或两者的组合执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体或通信媒体的有形媒体,所述通信媒体例如根据通信协议包含有助于将计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如,信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取,以检索用于实施本公开中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存存储器,或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。并且,适当地将任何连接称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包括在计算机可读媒体的范围内。
指令可由一或多个处理器执行,例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些实例中,本文中所描述的功能性可在配置用于编码及解码的专用硬件及/或软件模块内提供,或并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本公开的技术可实施于各种装置或设备中,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本公开中描述各种组件、模块或单元是为了强调经配置以执行所公开技术的装置的功能方面,但未必需要由不同硬件单元实现。相反,如上所述,各种单元可结合合适的软件及/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合,包含上述一或多个处理器来提供。
描述了各种实例。这些及其它实例在以下权利要求书的范围内。

Claims (30)

1.一种处理视频数据的方法,所述方法包括:
接收360度视频数据;
接收指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;
接收指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及
基于所述优选呈现操作而呈现所述360度视频数据。
2.根据权利要求1所述的方法,进一步包括:
对所述接收到的360度视频数据进行解码。
3.根据权利要求1所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含呈现所述优选感兴趣区域或优选视点,而不改变所述优选感兴趣区域或优选视点的纵横比,及
其中呈现所述360度视频数据呈现所述优选感兴趣区域或优选视点,而不改变所述优选感兴趣区域或优选视点的所述纵横比。
4.根据权利要求1所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分来呈现所述优选感兴趣区域或优选视点,及
其中呈现所述360度视频数据包括通过最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分来呈现所述优选感兴趣区域或优选视点。
5.根据权利要求1所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过剪切所述优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点,及
其中呈现所述360度视频数据包括通过保持所述优选感兴趣区域或优选视点的所述纵横比不变,及通过剪切所述优选感兴趣区域或优选视点以适合所述显示器的所述纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述360度视频数据。
6.根据权利要求1所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过呈现所述360度视频的相邻区域以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点,及
其中呈现所述360度视频数据包括通过保持所述优选感兴趣区域或优选视点的所述纵横比不变,及通过呈现所述360度视频的相邻区域以适合所述显示器的所述纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述360度视频数据。
7.根据权利要求1所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过将横幅添加到所述优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点,及
其中呈现所述360度视频数据包括通过保持所述优选感兴趣区域或优选视点的所述纵横比不变,及通过将横幅添加到所述优选感兴趣区域或优选视点以适合所述显示器的所述纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述360度视频数据。
8.根据权利要求1所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过使用非线性翘曲技术修改所述优选感兴趣区域或优选视点的纵横比以适合显示器的纵横比来呈现所述优选感兴趣区域或优选视点,及
其中呈现所述360度视频数据包括通过使用非线性翘曲技术修改所述优选感兴趣区域或优选视点的所述纵横比以适合所述显示器的所述纵横比来呈现所述360度视频数据。
9.根据权利要求1所述的方法,其中接收所述一或多个第二语法元素包括接收全向视点辅助增强信息SEI消息中的preferred_rendering_operation语法元素,其中所述preferred_rendering_operation语法元素的值指示未指定呈现偏好、呈现所述优选感兴趣区域或优选视点的相邻区域、将横幅添加在所述优选感兴趣区域或优选视点周围,或剪切所述优选感兴趣区域或优选视点中的一者。
10.一种经配置以处理视频数据的设备,所述设备包括:
存储器,其经配置以存储360度视频数据;及
与所述存储器通信的一或多个处理器,所述设备经配置以:
接收360度视频数据;
接收指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;
接收指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及
基于所述优选呈现操作而呈现所述360度视频数据。
11.根据权利要求10所述的设备,其中所述一或多个处理器进一步经配置以:
对所述接收到的360度视频数据进行解码。
12.根据权利要求10所述的设备,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含呈现所述优选感兴趣区域或优选视点,而不改变所述优选感兴趣区域或优选视点的纵横比,及
其中所述一或多个处理器进一步经配置以呈现所述优选感兴趣区域或优选视点,而不改变所述优选感兴趣区域或优选视点的所述纵横比。
13.根据权利要求10所述的设备,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分来呈现所述优选感兴趣区域或优选视点,及
其中所述一或多个处理器进一步经配置以通过最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分来呈现所述优选感兴趣区域或优选视点。
14.根据权利要求10所述的设备,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过剪切所述优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点,及
其中所述一或多个处理器进一步经配置以通过保持所述优选感兴趣区域或优选视点的所述纵横比不变,及通过剪切所述优选感兴趣区域或优选视点以适合所述显示器的所述纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述360度视频数据。
15.根据权利要求10所述的设备,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过呈现所述360度视频的相邻区域以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点,及
其中所述一或多个处理器进一步经配置以通过保持所述优选感兴趣区域或优选视点的所述纵横比不变,及通过呈现所述360度视频的相邻区域以适合所述显示器的所述纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述360度视频数据。
16.根据权利要求10所述的设备,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过将横幅添加到所述优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点,及
其中所述一或多个处理器进一步经配置以通过保持所述优选感兴趣区域或优选视点的所述纵横比不变,及通过将横幅添加到所述优选感兴趣区域或优选视点以适合所述显示器的所述纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述360度视频数据。
17.根据权利要求10所述的设备,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过使用非线性翘曲技术修改所述优选感兴趣区域或优选视点的纵横比以适合显示器的纵横比来呈现所述优选感兴趣区域或优选视点,及其中所述一或多个处理器进一步经配置以通过使用非线性翘曲技术修改所述优选感兴趣区域或优选视点的所述纵横比以适合所述显示器的所述纵横比来呈现所述360度视频数据。
18.根据权利要求10所述的设备,其中为了接收所述一或多个第二语法元素,所述一或多个处理器经配置以接收全向视点辅助增强信息SEI消息中的preferred_rendering_operation语法元素,其中所述preferred_rendering_operation语法元素的值指示未指定呈现偏好、呈现所述优选感兴趣区域或优选视点的相邻区域、将横幅添加在所述优选感兴趣区域或优选视点周围,或剪切所述优选感兴趣区域或优选视点中的一者。
19.根据权利要求10所述的设备,其中所述一或多个处理器包含经配置以基于所述优选呈现操作而呈现所述360度视频数据的图形处理单元GPU或显示处理器中的一者。
20.根据权利要求10所述的设备,进一步包括:
显示器,其经配置以显示所述呈现的360度视频数据。
21.一种非暂时性计算机可读存储媒体,其存储在执行时使经配置以处理视频数据的装置的一或多个处理器执行以下操作的指令:
接收360度视频数据;
接收指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;
接收指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及
基于所述优选呈现操作而呈现所述360度视频数据。
22.一种处理视频数据的方法,所述方法包括:
对360度视频数据进行编码;
产生指示所述360度视频数据的优选感兴趣区域或优选视点的一或多个第一语法元素;
产生指示用于呈现所述优选感兴趣区域或优选视点的优选呈现操作的一或多个第二语法元素;及
用所述经编码360度视频数据用信号表示所述一或多个第一语法元素及所述一或多个第二语法元素。
23.根据权利要求22所述的方法,进一步包括:
确定所述360度视频数据的所述优选感兴趣区域或优选视点。
24.根据权利要求22所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含呈现所述优选感兴趣区域或优选视点,而不改变所述优选感兴趣区域或优选视点的纵横比。
25.根据权利要求22所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分来呈现所述优选感兴趣区域或优选视点。
26.根据权利要求22所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过剪切所述优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点。
27.根据权利要求22所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过呈现所述360度视频的相邻区域以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点。
28.根据权利要求22所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过保持所述优选感兴趣区域或优选视点的纵横比不变,及通过将横幅添加到所述优选感兴趣区域或优选视点以适合显示器的纵横比来最小化未由所述优选感兴趣区域或优选视点覆盖的所述360度视频数据的呈现部分而呈现所述优选感兴趣区域或优选视点。
29.根据权利要求22所述的方法,其中所述一或多个第二语法元素包含以下指示:所述优选呈现操作包含通过使用非线性翘曲技术修改所述优选感兴趣区域或优选视点的纵横比以适合显示器的纵横比来呈现所述优选感兴趣区域或优选视点。
30.根据权利要求22所述的方法,其中产生所述一或多个第二语法元素包括产生全向视点辅助增强信息SEI消息中的preferred_rendering_operation语法元素,其中所述preferred_rendering_operation语法元素的值指示未指定呈现偏好、呈现所述优选感兴趣区域或优选视点的相邻区域、将横幅添加在所述优选感兴趣区域或优选视点周围,或剪切所述优选感兴趣区域或优选视点中的一者。
CN201780075275.3A 2016-12-19 2017-12-19 一种处理视频数据的方法、设备及计算机可读存储介质 Active CN110036641B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662436245P 2016-12-19 2016-12-19
US62/436,245 2016-12-19
US15/845,862 2017-12-18
US15/845,862 US20180176468A1 (en) 2016-12-19 2017-12-18 Preferred rendering of signalled regions-of-interest or viewports in virtual reality video
PCT/US2017/067389 WO2018118972A1 (en) 2016-12-19 2017-12-19 Preferred rendering of signalled regions-of-interest or viewports in virtual reality video

Publications (2)

Publication Number Publication Date
CN110036641A true CN110036641A (zh) 2019-07-19
CN110036641B CN110036641B (zh) 2023-06-27

Family

ID=62556411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780075275.3A Active CN110036641B (zh) 2016-12-19 2017-12-19 一种处理视频数据的方法、设备及计算机可读存储介质

Country Status (4)

Country Link
US (1) US20180176468A1 (zh)
EP (1) EP3556100B1 (zh)
CN (1) CN110036641B (zh)
WO (1) WO2018118972A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428359A (zh) * 2019-08-09 2019-11-08 南京地平线机器人技术有限公司 用于处理感兴趣区域数据的装置和方法
CN111586414A (zh) * 2020-04-07 2020-08-25 南京师范大学 一种基于svc和dash的360°视频流调度方法
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质
CN114786037A (zh) * 2022-03-17 2022-07-22 青岛虚拟现实研究院有限公司 一种面向vr投影的自适应编码压缩方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106412582B (zh) * 2016-10-21 2019-01-29 北京大学深圳研究生院 全景视频感兴趣区域的描述方法和编码方法
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
WO2018131813A1 (en) * 2017-01-10 2018-07-19 Samsung Electronics Co., Ltd. Method and apparatus for generating metadata for 3d images
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US10687050B2 (en) * 2017-03-10 2020-06-16 Qualcomm Incorporated Methods and systems of reducing latency in communication of image data between devices
US11532128B2 (en) * 2017-03-23 2022-12-20 Qualcomm Incorporated Advanced signaling of regions of interest in omnidirectional visual media
WO2018182144A1 (ko) * 2017-03-29 2018-10-04 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
US10506255B2 (en) * 2017-04-01 2019-12-10 Intel Corporation MV/mode prediction, ROI-based transmit, metadata capture, and format detection for 360 video
US10331862B2 (en) * 2017-04-20 2019-06-25 Cisco Technology, Inc. Viewport decryption
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
GB2563387B (en) * 2017-06-09 2020-04-15 Sony Interactive Entertainment Inc Image processing device and system
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
WO2019070686A1 (en) 2017-10-04 2019-04-11 Vid Scale, Inc. 360 DEGREES MULTIMEDIA VISUALIZATION CUSTOMIZED
CN108111899B (zh) * 2017-12-29 2021-05-11 中兴通讯股份有限公司 视频传输方法与装置、客户端、服务器及存储介质
US10715832B2 (en) * 2018-03-16 2020-07-14 Mediatek Inc. Method and apparatus of block partition for VR360 video coding
WO2019195036A1 (en) 2018-04-03 2019-10-10 Futurewei Technologies, Inc. File format signaling of error mitigation in sub-picture bitstream based viewport dependent video coding
WO2020007554A1 (en) * 2018-07-05 2020-01-09 Telefonaktiebolaget Lm Ericsson (Publ) Compact description of region-wise packing information
CN109063131B (zh) * 2018-08-02 2021-09-28 陶雷 一种基于结构化数据处理进行内容输出的系统及方法
CN109213904B (zh) * 2018-08-02 2021-09-28 陶雷 一种基于结构化方案对呈现数据进行处理的系统及方法
WO2020033455A1 (en) * 2018-08-07 2020-02-13 Core Omnidirectional video streaming
WO2020060449A1 (en) 2018-09-23 2020-03-26 Huawei Technologies Co., Ltd. Method and apparatus for intra reference sample interpolation filter switching
US10779014B2 (en) * 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
CN109348276B (zh) * 2018-11-08 2019-12-17 北京微播视界科技有限公司 视频画面调整方法、装置、计算机设备和存储介质
EP4102852A1 (en) * 2018-12-03 2022-12-14 Sony Group Corporation Information processing apparatus and method
CN110677701A (zh) * 2019-11-20 2020-01-10 咪咕文化科技有限公司 视频流推荐方法、电子设备和存储介质
US20230026014A1 (en) * 2019-12-24 2023-01-26 Koninklijke Kpn N.V. Video processing device and manifest file for video streaming
KR20220140706A (ko) * 2020-02-17 2022-10-18 인텔 코포레이션 컨볼루션 신경망(cnn) 기반 필터를 사용한 360도 비디오의 향상
US11991376B2 (en) * 2020-04-09 2024-05-21 Intel Corporation Switchable scalable and multiple description immersive video codec
EP4221234A4 (en) * 2020-09-23 2024-02-28 Sony Group Corp INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING SYSTEM
US20220103965A1 (en) * 2020-09-25 2022-03-31 Apple Inc. Adaptive Audio Centering for Head Tracking in Spatial Audio Applications
WO2022097921A1 (ko) * 2020-11-09 2022-05-12 삼성전자 주식회사 영상 내 관심 오브젝트 영역을 위한 ai 부호화 장치 및 방법, 및 ai 복호화 장치 및 방법
EP4292041A1 (en) * 2021-02-11 2023-12-20 C360 Technologies, Inc. Real-time fiducials and event-driven graphics in panoramic video
US11570417B2 (en) 2021-05-20 2023-01-31 Apple Inc. Immersive video streaming using view-adaptive prefetching and buffer control

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383962A (zh) * 2007-09-07 2009-03-11 武汉大学 基于感兴趣区域的低码率空域增强层编解码方法
US8218895B1 (en) * 2006-09-27 2012-07-10 Wisconsin Alumni Research Foundation Systems and methods for generating and displaying a warped image using fish eye warping
EP2824884A1 (en) * 2013-07-12 2015-01-14 Alcatel Lucent A video client for smooth display of a panoramic video
CN104376118A (zh) * 2014-12-03 2015-02-25 北京理工大学 基于全景图的精确标注兴趣点的户外移动增强现实方法
CN104735464A (zh) * 2015-03-31 2015-06-24 华为技术有限公司 一种全景视频交互传输方法、服务器和客户端
US20160057494A1 (en) * 2013-06-19 2016-02-25 Lg Electronics Inc. Signal transmitting and receiving device and method of controlling said device
US20160142697A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing
CN106031180A (zh) * 2014-02-18 2016-10-12 Lg电子株式会社 收发用于全景服务的广播信号的方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110088334A (ko) * 2010-01-28 2011-08-03 삼성전자주식회사 3차원 멀티미디어 서비스를 제공하기 위한 데이터스트림 생성 방법 및 장치, 3차원 멀티미디어 서비스를 제공하기 위한 데이터스트림 수신 방법 및 장치
US20170033941A1 (en) 2015-07-29 2017-02-02 Ignasi Elias De Gispert Messaging systems
US10225546B2 (en) 2016-02-26 2019-03-05 Qualcomm Incorporated Independent multi-resolution coding
US10582201B2 (en) 2016-05-19 2020-03-03 Qualcomm Incorporated Most-interested region in an image
US10565463B2 (en) 2016-05-24 2020-02-18 Qualcomm Incorporated Advanced signaling of a most-interested region in an image

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218895B1 (en) * 2006-09-27 2012-07-10 Wisconsin Alumni Research Foundation Systems and methods for generating and displaying a warped image using fish eye warping
CN101383962A (zh) * 2007-09-07 2009-03-11 武汉大学 基于感兴趣区域的低码率空域增强层编解码方法
US20160057494A1 (en) * 2013-06-19 2016-02-25 Lg Electronics Inc. Signal transmitting and receiving device and method of controlling said device
EP2824884A1 (en) * 2013-07-12 2015-01-14 Alcatel Lucent A video client for smooth display of a panoramic video
CN106031180A (zh) * 2014-02-18 2016-10-12 Lg电子株式会社 收发用于全景服务的广播信号的方法和设备
US20160337706A1 (en) * 2014-02-18 2016-11-17 Lg Electronics Inc. Method and apparatus for transreceiving broadcast signal for panorama service
US20160142697A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing
CN104376118A (zh) * 2014-12-03 2015-02-25 北京理工大学 基于全景图的精确标注兴趣点的户外移动增强现实方法
CN104735464A (zh) * 2015-03-31 2015-06-24 华为技术有限公司 一种全景视频交互传输方法、服务器和客户端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵枫: "自由视点视频信号处理中的关键技术研究", 《中国优秀硕士学位论文全文数据库电子期刊》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428359A (zh) * 2019-08-09 2019-11-08 南京地平线机器人技术有限公司 用于处理感兴趣区域数据的装置和方法
CN110428359B (zh) * 2019-08-09 2022-12-06 南京地平线机器人技术有限公司 用于处理感兴趣区域数据的装置和方法
CN111586414A (zh) * 2020-04-07 2020-08-25 南京师范大学 一种基于svc和dash的360°视频流调度方法
CN111586414B (zh) * 2020-04-07 2022-04-15 南京师范大学 一种基于svc和dash的360°视频流调度方法
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质
CN113949829B (zh) * 2021-10-15 2022-09-20 腾讯科技(深圳)有限公司 媒体文件封装及解封装方法、装置、设备及存储介质
CN114786037A (zh) * 2022-03-17 2022-07-22 青岛虚拟现实研究院有限公司 一种面向vr投影的自适应编码压缩方法
CN114786037B (zh) * 2022-03-17 2024-04-12 青岛虚拟现实研究院有限公司 一种面向vr投影的自适应编码压缩方法

Also Published As

Publication number Publication date
EP3556100A1 (en) 2019-10-23
US20180176468A1 (en) 2018-06-21
EP3556100B1 (en) 2023-01-18
CN110036641B (zh) 2023-06-27
WO2018118972A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
CN110036641A (zh) 虚拟现实视频中的用信号表示的感兴趣区域或视点的优选呈现
CN110024400B (zh) 感兴趣区的信号发送的系统和方法
KR102614206B1 (ko) 비디오 코딩을 위한 서브-픽처 비트스트림들을 포함한 비디오 컨텐츠의 시그널링
JP6874169B2 (ja) コンテナファイルおよびビデオビットストリームにおける関心領域の発展型シグナリング
CN108605168B (zh) 一种处理虚拟现实数据的方法、装置以及非暂时性计算机可读媒体
CN103733623B (zh) 视频译码中用于各种维度的译码参数集
CN105659607B (zh) 多层视频文件格式设计
CN103155571B (zh) 译码立体视频数据
TWI520575B (zh) 用於視訊寫碼之訊框封裝立體三維(3d)視訊資料之指示
CN105744295B (zh) 提供用于串流传输视频数据的序列数据集
CN104769948B (zh) 一种编解码方法、装置及可读存储介质
US11438600B2 (en) Immersive media metrics for virtual reality content with multiple viewpoints
CN109076245A (zh) 图片中的区域性随机存取
CN109792548A (zh) 用于处理360度视频数据的方法和系统
CN110431522A (zh) 全向视觉媒体中的感兴趣区的高级信号发送
CN109076229A (zh) 在图片中最感兴趣的区域
CN109155865A (zh) 在图像中的最感兴趣的区域的先进信号传送
CN108702503A (zh) 用于视频编码和解码的装置、方法及计算机程序
CN102918836A (zh) 用于非对称立体视频的帧封装
CN108702518A (zh) 在分层高效视频译码文件格式中的位流结尾网络抽象层单元的处理和对高效视频译码和分层高效视频译码频块播放轨的改善
CN106464911A (zh) 多层视频编解码器中的恢复点sei消息
CN116584099A (zh) 媒体文件处理方法及媒体文件处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant