CN109076245A - 图片中的区域性随机存取 - Google Patents

图片中的区域性随机存取 Download PDF

Info

Publication number
CN109076245A
CN109076245A CN201780028533.2A CN201780028533A CN109076245A CN 109076245 A CN109076245 A CN 109076245A CN 201780028533 A CN201780028533 A CN 201780028533A CN 109076245 A CN109076245 A CN 109076245A
Authority
CN
China
Prior art keywords
picture
area
video
independently
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780028533.2A
Other languages
English (en)
Other versions
CN109076245B (zh
Inventor
伏努·亨利
王业奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN109076245A publication Critical patent/CN109076245A/zh
Application granted granted Critical
Publication of CN109076245B publication Critical patent/CN109076245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • H04N19/68Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience involving the insertion of resynchronisation markers into the bitstream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一般来说,本发明涉及用于视频数据的图片内的区域性随机存取的技术。举例来说,视频译码装置按译码顺序接收多个图片。所述多个图片中的每一相应图片包括多个区域。对于所述多个图片中的第一图片中的第一区域,所述视频译码装置确定所述第一区域可独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码,并且响应于做出此类确定,确定所述第一图片中的所述第一区域具有可随机存取性。所述视频译码装置独立于所述第一区域外部的任何视频块而对每一视频块进行译码。

Description

图片中的区域性随机存取
本申请案主张2016年5月19日申请的第62/339,012号美国临时专利申请案的权益,所述美国临时专利申请案的整个内容以引用的方式并入本文中。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可以并入到多种多样的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、手提式或台式计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置等等。数字视频装置实施视频译码技术,例如描述于包含由以下定义的各种标准以及此类标准的扩展中的那些技术:ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-TH.263、ISO/IEC MPEG-4Visual、ITU-T H.264或ISO/IEC MPEG-4AVC,包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展,以及高效视频译码(HEVC),其也被称作ITU-T H.265和ISO/IEC 23008-2,包含其可缩放译码扩展(即,可缩放高效视频译码,SHVC)、多视图扩展(即,多视图高效视频译码,MV-HEVC),和3D扩展(即,3D高效视频译码,3D-HEVC)。视频装置可通过实施这些视频译码技术更有效率地发射、接收、编码、解码和/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(例如,视频帧或视频帧的部分)分割成若干视频块,其也可被称作树块、译码单元(CU)和/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测,或关于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测产生用于待译码块的预测性块。残余数据表示待译码原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量以及指示经译码块与预测性块之间的差的残余数据经编码。经帧内译码块是根据帧内译码模式和残余数据经编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描一开始按二维阵列布置的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以达成更大压缩。
发明内容
一般来说,本发明涉及用于视频数据的图片内的区域性随机存取的技术。举例来说,视频译码装置可按译码顺序接收多个图片。所述多个图片中的每一相应图片包括多个区域。对于所述多个图片中的第一图片中的第一区域,所述视频译码装置可确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码,并且响应于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码,确定所述第一图片中的所述第一区域具有可随机存取性。所述视频译码装置可独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域而对所述第一图片中的所述第一区域中的每一视频块进行译码。
在一个实例中,本发明涉及一种对视频数据进行译码的方法,所述方法包含:按译码顺序接收多个图片,其中所述多个图片中的每一相应图片包括多个区域;对于所述多个图片中的第一图片中的第一区域:确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码;和响应于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码,确定所述第一图片中的所述第一区域具有可随机存取性;和独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域而对所述第一图片中的所述第一区域中的每一视频块进行译码。
在另一实例中,本发明涉及一种视频译码装置,其包括:存储器,其被配置成存储视频数据;和一或多个处理器,其被配置成:按译码顺序接收多个图片,其中所述多个图片中的每一相应图片包括多个区域;对于所述多个图片中的第一图片中的第一区域:确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码;和响应于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码,确定所述第一图片中的所述第一区域具有可随机存取性;和独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域而对所述第一图片中的所述第一区域中的每一视频块进行译码。
在另一实例中,本发明涉及一种用于视频译码的设备,所述设备包含用于按译码顺序接收多个图片的装置,其中所述多个图片中的每一相应图片包括多个区域;对于所述多个图片中的第一图片中的第一区域:用于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码的装置;和用于响应于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码,确定所述第一图片中的所述第一区域具有可随机存取性的装置;和用于独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域而对所述第一图片中的所述第一区域中的每一视频块进行译码的装置。
在另一实例中,本发明涉及一种存储指令的非暂时性计算机可读存储媒体,所述指令在由视频译码装置的一或多个处理器执行时致使所述一或多个处理器:按译码顺序接收多个图片,其中所述多个图片中的每一相应图片包括多个区域;对于所述多个图片中的第一图片中的第一区域:确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码;和响应于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码,确定所述第一图片中的所述第一区域具有可随机存取性;和独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域而对所述第一图片中的所述第一区域中的每一视频块进行译码。
在附图和以下描述中阐明本发明的一或多个实例的细节。本发明的其它特征、目标和优势将从所述描述和图式以及从权利要求书中显而易见。
附图说明
图1是说明可利用本发明中描述的技术的实例视频编码和解码系统的实例的框图。
图2是说明可实施本发明中描述的技术的视频编码器的实例的框图。
图3是说明可实施本发明中描述的技术的视频解码器的实例的框图。
图4是说明根据本发明中所描述的一或多种技术的可随机存取区域的实例交错的概念图。
图5是说明左眼视图和右眼视图这两个视图的视频数据序列的概念图。
图6是说明根据本发明中所描述的一或多种技术的用于确定视频数据图片内的可随机存取区域的实例技术的流程图。
图7是说明具有六个面且每一面划分成四个瓦片总计二十四个瓦片(或区域)的360度视频数据立方体的概念图。
图8是说明与图7的实例瓦片相对的瓦片和相邻的瓦片的实例的概念图。
图9是说明实例立方体图投影的概念图。
图10是说明另一实例立方体图投影的概念图。
图11是说明另一实例立方体图投影的概念图。
具体实施方式
一般来说,本发明描述与译码有关的技术和用于以如下方式对视频序列中的区域进行译码的用信号发送方法:可从特定图片开始随机存取所述区域,同时可或可不从所述特定图片开始随机存取其它区域。换句话说,本文中所描述的技术可使得视频译码器能够编码图片以使得可随机存取所述图片的仅一部分而非整个图片。此类区域性随机存取可应用于使用部分视频解码的虚拟现实(VR)应用和其中随机存取整个视频区域的仅一部分可为合意的任何其它视频应用中。出于本发明的目的,译码不应一般性地受限于编码或解码。实际上,译码在本文中用作可涵盖编码或解码或编码和解码两者的一般性术语。
举例来说,在VR应用中,当用户的视点改变时,视频译码装置必须通过定位可随机存取图片,开始对新视点进行译码。然而,如果新视点含有必须解码的五十个图片,且仅可随机存取单个图片,那么在译码过程进行到改变的视点时,剩余图片的质量将为极低的。然而,对于同一位速率,视频译码装置可使用本文中描述的技术使多个不同图片的一部分可被随机存取。使用本文中所描述的技术的视频译码装置受益于在较短时间量内达到高品质VR视频输出或大幅减小在与先前技术相同的时间量内达到高质量的VR视频流的位速率。以此方式,视频译码装置需要较少处理功率并且消耗较少功率。
本发明的技术通常相对于如下描述:ITU-T H.265,也称为高效视频译码(HEVC),其描述于“H系列:视听和多媒体系统,视听服务的基础设施-移动视频的译码(SERIESH:AUDIOVISUAL AND MULTIMEDIA SYSTEMS,Infrastructure of audiovisual services-Coding of moving video)”(高效视频译码,ITU-T H.265,2013年4月)中,包含其可缩放译码扩展(即,可缩放高效视频译码,SHVC)、多视图扩展(即,多视图高效视频译码,MV-HEVC)和3D扩展(即,3D高效视频译码,3D-HEVC)。然而,这些技术可应用于其它视频译码标准,包含HEVC的扩展和其它标准的扩展。其它视频译码标准的实例包含ITU-T H.261、ISO/IECMPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-T H.264或ISO/IEC MPEG-4AVC,包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展,以及高效视频译码(HEVC),也被称作ITU-T H.265和ISO/IEC 23008-2,包含其可缩放译码扩展(即,可缩放高效视频译码,SHVC)、多视图扩展(即,多视图高效视频译码,MV-HEVC)和3D扩展(即,3D高效视频译码,3D-HEVC),以及此类标准的扩展。
H.265标准最近由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)完成。最新的HEVC草案说明书(在下文中称为HEVCWD)可从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC- N1003-v1.zip获得。
对HEVC的多视图扩展MV-HEVC也已由JCT-3V开发出。MV-HEVC的工作草案(WD)的实例(被称为MV-HEVC WD8)可从phenix.it-sudparis.eu/jct2/doc_end_user/documents/8_Valencia/wg11/JCT3V-H1002-v5.zip获得。对HEVC的可缩放扩展SHVC也已由JCT-VC开发出。SHVC的工作草案(WD)(被称为SHVC WD6)的实例可从phenix.it-sudparis.eu/jct/doc_end_user/documents/17_Valencia/wg11/JCTVC-Q1008-v2.zip获得。
图1是说明可利用本发明中描述的技术的实例视频编码和解码系统10的实例的框图。如图1中所示出,系统10包含提供稍后将由目的地装置14解码的经编码视频数据的源装置12。特定来说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14可包括广泛范围的装置中的任一个,包含台式计算机、笔记型(例如,手提式)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”平板、电视、摄像机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置等。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体以使源装置12能够实时地将经编码视频数据直接传输到目的地装置14。经编码视频数据可根据通信标准(例如,无线通信协议)经调制,并且传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的一部分。通信媒体可包含路由器、交换机、基站或可用于促进从源装置12到目的地装置14的通信的任何其它设备。
在一些实例中,经编码数据可从输出接口22输出到存储装置。类似地,经编码数据可通过输入接口从存储装置存取。存储装置可包含各种分布式或本地存取的数据存储媒体中的任一个,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器、或用于存储经编码视频数据的任何其它适合的数字存储媒体。在再一实例中,存储装置可对应于可存储由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取存储的视频数据。文件服务器可为能够存储经编码视频数据并将经编码视频数据传输到目的地装置14的任何类型服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由包含因特网连接的任何标准数据连接来存取经编码视频数据。这可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的传输可为流式传输、下载传输或其组合。
本发明的技术未必限于无线应用或设置。所述技术可应用于支持多种多媒体应用中的任一个的视频译码,例如空中电视广播、有线电视传输、卫星电视传输、因特网流视频传输(例如,HTTP动态自适应流式传输(DASH))、被编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可被配置成支持单向或双向视频传输,以支持例如视频流式传输、视频回放、视频广播和/或视频电话的应用。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。根据本发明,源装置12的视频编码器20可被配置成应用本发明中描述的技术,例如与使用位置相依性预测组合的改进的视频帧内预测有关的技术。根据本发明,目的地装置14的视频解码器30可被配置成应用本发明中描述的技术,例如与使用位置相依性预测组合的改进的视频帧内预测有关的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如,外部相机)接收视频数据。同样地,目的地装置14可以与外部显示装置介接,而不是包括集成显示装置。
如上所述,源装置12包含输出接口22且目的地装置14包含输入接口28。在一些实例中,输出接口22表示发射器且输入接口28表示接收器。在其它实例中,输出接口22和输入接口28表示收发器的实例(即,能够无线地发射和接收数据信号的接口)。收发器可被配置成发送和接收无线信号中的视频数据。举例来说,输出接口22当实施为收发器时可发送包含经编码视频数据的数据信号(例如,计算机可读媒体16),而输入接口28当实施为收发器时可接收包含经编码视频数据的数据信号(例如,计算机可读媒体16)。如上文所论述,视频编码器20可将经编码视频数据提供到输出接口22,而输入接口28可将经编码视频数据提供到视频解码器30。
图1中所说明的系统10仅为一个实例。本发明中描述的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术通常由视频编码装置执行,但是所述技术也可通过视频编码器/解码器(通常被称作“编解码器”)执行。此外,本发明的技术还可由视频预处理器执行。源装置12和目的地装置14仅为此类译码装置的实例,其中源装置12产生经译码视频数据以用于传输到目的地装置14。在一些实例中,装置12、14可以大体上对称的方式操作,使得装置12、14中的每一个包含视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传输以例如用于视频流式传输、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频捕获装置,例如摄像机、含有先前所捕获视频的视频档案和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18为摄像机,那么源装置12和目的地装置14可形成所谓的摄像机电话或视频电话。然而,如上文所提及,本发明中所描述的技术一般可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,捕获、预先捕获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络传输,或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未示出)可例如经由网络传输,从源装置12接收经编码视频数据以及将经编码视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置12接收经编码视频数据且生产含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息还供视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32将经解码的视频数据显示给用户,且可包括多种显示装置中的任一个,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可根据例如上文所描述的标准的视频译码标准,且在一些实例中根据高效视频译码(HEVC)标准(也称为ITU-T H.265)或HEVC标准的扩展,或根据下一代视频译码标准操作。然而,本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2和ITU-T H.263。尽管图1中未示出,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用的话,那么MUX-DEMUX单元可以符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)的其它协议。
视频编码器20和视频解码器30各自可实施为多种合适的编码器和/或解码器电路中的任一个,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时,装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中且在硬件中使用一或多个处理器执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一个可以包含在一或多个编码器或解码器中,所述编码器或解码器中的任一个可以集成为相应装置中的组合编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置,例如蜂窝式电话。
一般来说,视频帧或图片可分成也称为最大译码单元(LCU)的树块序列,所述树块可包含明度样本和色度样本两者。位流内的语法数据可定义LCU(就像素数目来说,其为最大译码单位)的大小。切片包含按译码顺序的若干连续树块。视频帧或图片可以被分割成一或多个切片。每一树块可根据四叉树数据结构拆分成若干译码单元(CU)。一般来说,四叉树数据结构包含每一CU一个节点,其中根节点对应于树块。如果CU拆分成四个子CU,那么对应于CU的节点包含四个叶节点,其中叶节点中的每一个对应于所述子CU中的一个。
四叉树数据结构的每一节点可提供对应的CU的语法数据。举例来说,四叉树中的节点可包含拆分旗标,从而指示对应于节点的CU是否拆分成子CU。CU的语法元素可以递归地定义,且可以取决于所述CU是否拆分成若干子CU。如果CU未进一步拆分,那么将其称作叶CU。在本发明中,叶CU的四个子CU也被称作叶CU,即使不存在原始叶CU的明确拆分。举例来说,如果16×16大小的CU未进一步拆分,那么这四个8×8子CU也被称作叶CU,虽然16×16CU从未拆分。
除了CU不具有大小区别之外,CU具有与H.264标准的宏块类似的目的。举例来说,树块可拆分成四个子节点(还称为子CU),并且每一子节点又可为父节点并且可拆分成另外四个子节点。最后未拆分的子节点(被称作四叉树的叶节点)包括译码节点,也被称作叶CU。与经译码位流相关联的语法数据可定义树块可拆分的最大次数,被称作最大CU深度,且还可定义译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代在HEVC的上下文中的CU、预测单元(PU)或变换单元(TU)中的任一个,或在其它标准的上下文中的类似数据结构(例如,H.264/AVC中的宏块和其子块)。
CU包含译码节点和与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小,且通常为正方形形状。CU的大小可在从8×8像素到具有最大大小例如64×64像素或更大的树块大小的范围内。每一CU可含有一或多个PU和一或多个TU。举例来说,与CU相关联的语法数据可描述例如将CU分割成一或多个PU。分割模式可在CU被跳过或经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不同。PU可被分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU的形状可为正方形或非正方形(例如,矩形)。
HEVC标准允许根据TU进行变换,TU可针对不同CU而有所不同。TU通常是基于针对经分割LCU定义的给定CU内的PU的大小而定大小,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用被称为“残余四叉树”(RQT)的四叉树结构细分成更小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数,所述变换系数可经量化。
叶CU可包含一或多个PU。一般来说,PU表示对应于所述对应CU的全部或一部分的空间区域,且PU可包含用于对于PU检索和/或产生参考样本的数据。此外,PU包含与预测相关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含在残余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。RQT也可被称作变换树。在一些实例中,可在叶CU语法,而不是在RQT中用信号发送帧内预测模式。作为另一实例,当PU经帧间模式编码时,PU可包括定义PU的运动信息(例如,一或多个运动向量)的数据。定义PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,以及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个TU。变换单元可使用RQT(也称为TU四叉树结构)来指定,如上文所论述。举例来说,拆分旗标可以指示叶CU是否拆分成四个变换单元。接着,每一变换单元可以进一步拆分成更多子TU。当TU未经进一步拆分时,其可被称作叶TU。总体上,对于帧内译码,所有属于一叶CU的叶TU共享相同的帧内预测模式。也就是说,一般应用相同的帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可以使用帧内预测模式将每一叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU未必限于PU的大小。因而,TU可比PU大或小。对于帧内译码,PU可以与相同CU的对应叶TU并置。在一些实例中,叶TU的最大大小可以对应于对应叶CU的大小。
此外,叶CU的TU还可与相应四叉树数据结构相关联,所述相应四叉树数据结构如上所述被称为残余四叉树(RQT)或变换树。也就是说,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。RQT的未拆分的TU被称作叶TU。一般来说,除非另有指出,否则本发明分别使用术语CU和TU指代叶CU和叶TU。
视频序列通常包含从随机存取点(RAP)图片开始的一系列视频帧或图片。视频序列可包含表示视频序列的特性的序列参数集(SPS)中的语法数据。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可以对应于CU内的译码节点。视频块可以具有固定或变化的大小,并且可以根据指定译码标准而有不同大小。
作为实例,可针对不同大小的PU执行预测。假设特定CU的大小是2N×2N,那么可在2N×2N或N×N的PU大小上执行帧内预测并且可在2N×2N、2N×N、N×2N或N×N的对称PU大小上执行帧间预测。还可针对2N×nU、2N×nD、nL×2N和nR×2N的PU大小执行帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是将另一方向分割成25%和75%。CU的对应于25%分区的部分通过“n”后面跟着“上”、“下”、“左”或“右”的指示来指示。因此,例如,“2N×nU”指代经水平分割的2N×2N CU,其中顶部为2N×0.5N PU,且底部为2N×1.5NPU。
在本发明中,“N×N”与“N乘N”可互换使用来指在垂直和水平尺寸方面的视频块的像素尺寸,例如16×16个像素或16乘16个像素。一般来说,16×16块在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样地,N×N块总体上在垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可按行和列布置。此外,块未必需要在水平方向与垂直方向上具有相同数目的像素。例如,块可包括N×M个像素,其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算CU的TU的残余数据。PU可包括描述在空间域(也称为像素域)中产生预测性像素数据的方法或模式的语法数据,且TU可包括在对残余视频数据应用变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后变换域中的系数。所述残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成TU以包含表示CU的残余数据的经量化变换系数。也就是说,视频编码器20可计算残余数据(采用残余块的形式)、变换残余块以产生变换系数的块,且接着量化变换系数以形成经量化变换系数。视频编码器20可形成包含经量化变换系数的TU,以及其它语法信息(例如,TU的拆分信息)。
如上所述,在任何变换以产生变换系数后,视频编码器20可执行变换系数的量化。量化总体上是指对变换系数进行量化以可能地减少用以表示变换系数的数据的量从而提供进一步压缩的过程。量化过程可减小与系数中的一些或全部相关联的位深度。举例来说,可在量化期间将n位值向下舍入到m位值,其中n大于m。
在量化之后,视频编码器20可以扫描变换系数,从包括经量化变换系数的二维矩阵产生一维向量。所述扫描可经设计以将较高能量(以及因此较低频率)的系数放置在阵列的前面,并且将较低能量(以及因此较高频率)的系数放置在阵列的后面。在一些实例中,视频编码器20可利用预定义扫描顺序来扫描经量化变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可以执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法,对一维向量进行熵编码。视频编码器20还可以对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在解码视频数据时使用。
为了执行CABAC,视频编码器20可以向待传输的符号指派上下文模型内的上下文。举例来说,所述上下文可与符号的相邻值是否为非零有关。为了执行CAVLC,视频编码器20可选择用于待传输符号的可变长度码。VLC中的码字可建构成使得相对较短码对应于更有可能符号,而较长码对应于不太可能符号。以此方式,使用VLC可较之于例如对待传输的每一符号使用等长码字而实现位节省。概率确定可基于指派给符号的上下文。
一般来说,视频解码器30执行尽管与由视频编码器20执行的过程互逆但与其大体上类似的过程,以对经编码数据进行解码。举例来说,视频解码器30逆量化且逆变换所接收TU的系数以再现残余块。视频解码器30使用用信号发送的预测模式(帧内预测或帧间预测)形成预测的块。随后,视频解码器30(在逐像素基础上)使预测的块与残余块组合以再现原始块。可执行额外处理,例如执行解块过程以减少沿块边界的视觉假影。此外,视频解码器30可通过尽管与视频编码器20的CABAC编码过程互逆但与其大体上类似的方式使用CABAC来解码语法元素。
视频编码器20可例如在帧标头、块标头、切片标头或GOP标头中进一步将例如基于块的语法数据、基于帧的语法数据和基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的帧的数目,且帧语法数据可指示用以编码对应帧的编码/预测模式。
根据本发明的技术,视频译码装置例如视频编码器20可确定图片中的区域是否具有可随机存取性。举例来说,视频编码器20可以译码顺序接收多个图片。所述多个图片中的每一相应图片包括多个区域。对于所述多个图片中的第一图片中的第一区域,视频编码器20可确定第一区域可独立于所述第一图片中的每一其它区域进行译码。视频编码器20也可以确定所述第一区域可独立于按译码顺序在所述第一图片之前的每一图片中的区域进行译码。响应于确定第一区域可独立于第一图片的每一其它区域进行译码且第一区域可独立于按译码顺序在第一图片之前的第二图片中的第一区域进行译码,视频编码器20可确定所述第一图片中的第一相应区域具有可随机存取性。视频编码器20接着可独立于所述第一图片的每一其它区域并且独立于按译码顺序在所述第一图片之前的第二图片中的第一区域而对所述第一图片中的第一区域中的每一视频块进行译码。
图2是说明可实施本发明中描述的技术的视频编码器20的实例的框图。根据本发明,视频编码器20可被配置成按译码顺序例如从图1的视频源18接收多个图片。这仅是可执行本文中所描述的技术的视频编码器的一个实例。包含具有额外特征或更少特征的视频编码器的其它视频编码器仍可用以执行本文中所描述的技术。举例来说,视频编码器20可另外包含电池或其它电源。在其它情况下,视频编码器20可包含存储器或其它被配置成存储输入视频数据的存储装置。
如图2中所示出,视频编码器20接收待编码的视频帧内的当前视频块。在图2的实例中,视频编码器20包含模式选择单元40、参考图片存储器64(也可被称作经解码图片缓冲器(DPB))、求和器50、变换处理单元52、量化单元54和熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46和分割单元48。为了视频块重构,视频编码器20还包含逆量化单元58、逆变换单元60和求和器62。还可包含解块滤波器(图2中未示出)以对块边界进行滤波,从而从经重构视频移除成块假影。在需要时,解块滤波器通常将对求和器62的输出进行滤波。除了解块滤波器外,还可使用额外滤波器(回路中或回路后)。为简洁起见未示出此类滤波器,但是必要时,此类滤波器可对求和器50的输出进行滤波(如环路内滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可划分成多个视频块。运动估计单元42和运动补偿单元44执行所接收视频块相对于一或多个参考帧中的一或多个块的帧间预测性编码以提供时间预测。帧内预测单元46可替代地执行对接收到的视频块相对于与待译码块相同的帧或切片中的一或多个相邻块的帧内预测性编码以提供空间预测。视频编码器20可执行多个译码遍次,例如以为每一视频数据块选择适当的译码模式。
此外,分割单元48可基于前述译码遍次中的前述分割方案的评估,将视频数据块分割成子块。举例来说,分割单元48可起初将帧或切片分割成LCU,并且基于速率-失真分析(例如,速率-失真优化),将LCU中的每一个分割成子CU。模式选择单元40可另外产生指示将LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。
模式选择单元40可例如基于错误结果选择预测模式(帧内或帧间)中的一个,并且将所得经预测块提供给求和器50以产生残余数据并且提供给求和器62以重构经编码块以供用作参考帧。模式选择单元40还将语法元素(例如,运动向量、帧内模式指示符、分割信息和其它此类语法信息)提供给熵编码单元56。
运动估计单元42和运动补偿单元44可高度集成,但出于概念目的分别加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测块是被发现就像素差来说与待译码块紧密匹配的块,其可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置来计算所述PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一个识别存储在参考图片存储器64中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56和运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量来获取或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44可在参考图片列表中的一个中定位所述运动向量指向的预测性块。如下文所论述,求和器50通过从正被译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块。一般来说,运动估计单元42相对于亮度分量执行运动估计,并且运动补偿单元44对于色度分量和亮度分量两者使用基于亮度分量计算的运动向量。模式选择单元40也可产生与视频块和视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可对当前块进行帧内预测。特定来说,帧内预测单元46可以确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可例如在独立编码遍次期间使用各种帧内预测模式编码当前块,且帧内预测单元46(或在一些实例中,模式选择单元40)可从测试的模式选择使用适当的帧内预测模式。
举例来说,帧内预测单元46可使用速率-失真分析计算各种经测试帧内预测模式的速率-失真值,并在所述测试的模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析一般确定经编码块与经编码以产生所述经编码块的原始未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元46可从各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率-失真值。
在选择用于块的帧内预测模式之后,帧内预测单元46可将指示用于所述块的选定帧内预测模式的信息提供给熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20可在所传输的位流中包含配置数据,所述配置数据可包含多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(还被称作码字映射表)、编码各种块的上下文的定义,以及用于所述上下文中的每一个的最可能帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示。
视频编码器20通过从正被译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上相似的变换的变换应用于残余块,从而产生包括残余变换系数值的视频块。可使用小波变换、整数变换、子频带变换、离散正弦变换(DST)或其它类型的变换来替代DCT。在任何情况下,变换处理单元52将变换应用于残余块,从而产生残余变换系数块。所述变换可将残余信息从像素域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可量化所述变换系数以进一步减小位速率。量化过程可减小与系数中的一些或全部相关联的位深度。可以通过调整量化参数来修改量化程度。
在量化之后,熵编码单元56扫描经量化变换系数并且对所述经量化变换系数进行熵编码。举例来说,熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的情况下,上下文可基于相邻块。在由熵编码单元56进行熵编码之后,可将经编码位流传输到另一装置(例如,视频解码器30),或将经编码位流存档以供稍后传输或检索。
逆量化单元58和逆变换单元60分别应用逆量化及逆变换以重建像素域中的残余块。特定来说,求和器62将经重构残余块添加到较早由运动补偿单元44或帧内预测单元46产生的运动补偿预测块以产生经重构视频块以存储在参考图片存储器64中。经重构视频块可由运动估计单元42和运动补偿单元44用作参考块以帧间译码后续视频帧中的块。
根据本发明的技术,视频编码器20的模式选择单元40可确定图片中的区域是否具有可随机存取性。举例来说,视频编码器20的模式选择单元40可按译码顺序接收多个图片。所述多个图片中的每一相应图片包括多个区域。对于所述多个图片中的第一图片中的第一区域,视频编码器20的模式选择单元40可确定第一区域可独立于所述第一图片的每一其它区域进行译码。
视频编码器20的模式选择单元40也可以确定第一区域可独立于按译码顺序在所述第一图片之前的每一图片中的区域进行译码。在一些实例中,第一相应区域可为瓦片、切片、瓦片的集合,或切片的集合。在一些实例中,在确定第一区域可独立于按译码顺序在所述第一图片之前的第二图片中的第一区域进行译码时,视频编码器20的模式选择单元40可确定按译码顺序在所述第一图片之前的每一相应图片中的相应NAL单元标头中的相应语法元素指示所述相应图片不可用。
响应于确定第一区域可独立于第一图片的每一其它区域进行译码且第一区域可独立于按译码顺序在所述第一图片之前的第二图片中的第一区域进行译码,视频编码器20的模式选择单元40可确定所述第一图片中的第一相应区域具有可随机存取性。视频编码器20的熵编码单元52接着可独立于所述第一图片的每一其它区域并且独立于按译码顺序在所述第一图片之前的第二图片中的第一区域而对所述第一图片中的第一区域中的每一视频块进行译码。
如果视频编码器20的模式选择单元40确定第一区域不可独立于所述第一图片的其它区域进行译码或第一区域不可独立于按译码顺序在所述第一图片之前的第二图片中的第一区域进行译码,那么视频编码器20的模式选择单元40可确定所述第一图片中的第一相应区域不具有可随机存取性。如此,视频编码器20的熵编码单元52可至少部分地基于所述第一图片的另一区域中的视频块的运动信息或至少部分地基于按译码顺序在所述第一图片之前的图片中的区域中的视频块的运动信息,对所述第一图片中的所述第一区域中的视频块进行译码。
在一些实例中,视频编码器20的模式选择单元40可进一步确定所述第一图片中的每一区域具有可随机存取性。响应于确定所述第一图片中的每一区域已可随机存取性,视频编码器20的模式选择单元40可确定所述第一图片是帧内随机存取点图片。如此,视频编码器20的熵编码单元52可按译码顺序独立于每一其它图片对所述第一图片中的每一视频块进行译码。
在一些实例中,响应于确定第一区域具有可随机存取性,视频编码器20的模式选择单元40可用信号发送指示所述第一区域具有可随机存取性的语法元素。所述语法元素可位于第一图片的标头、切片的标头、第一相应区域的标头、NAL单元标头中,或元数据中。视频编码器20的熵编码单元52可编码位流中的语法元素。
在一些实例中,响应于确定第一相应区域具有可随机存取性,视频编码器20的模式选择单元40可确定第一图片是帧内随机存取点图片。
在一些实例中,视频编码器20的模式选择单元40可定义指示第一图片具有可随机存取区域的样本分组。替代地,视频编码器20的模式选择单元40可定义指示是否是完全可随机存取第一图片或是否是仅可随机存取第一图片的区域的一部分的样本分组。
在一些实例中,视频编码器20的模式选择单元40可另外对于按译码顺序跟在第一图片之后的第三图片,确定由于译码第一图片的第一区域而已对译码顺序中的阈值数目个图片进行译码。响应于确定由于译码第一图片的第一区域而已对译码顺序中的阈值数目个图片进行译码,视频编码器20的模式选择单元40可确定第三图片中的对应于第一图片的第一区域的区域具有可随机存取性。如此,视频编码器20的熵编码单元52可独立于第三图片的每一其它区域并且独立于按译码顺序在第三图片之前的第四图片中的任何区域而对第三图片中的对应于第三图片的第一区域的区域中的每一视频块进行译码。
视频编码器20一般使用上文论述的过程对经译码视频序列中的每一图片的每一块进行编码。另外,在一些实例中,视频编码器20可确定向其指派图片中的每一个的时间层。此外,视频编码器20可被配置成编码其它层例如其它视图、可缩放视频译码层等的图片。在任何情况下,视频编码器20可进一步编码针对(例如,各种视频尺寸的)一或多个层指示每一图片属于哪个层的数据。
图3是说明可实施本发明中描述的技术的视频解码器30的实例的框图。这仅是可执行本文中所描述的技术的视频解码器的一个实例。包含具有额外特征或更少特征的视频解码器的其它视频解码器仍可用以执行本文中所描述的技术。举例来说,视频解码器30可另外包含电池或其它电源。在其它情况下,视频解码器30可包含存储器或其它被配置成存储输入视频数据的存储装置。
在图3的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考图片存储器82和求和器80。在一些实例中,视频解码器30可执行大体与关于视频编码器20(图2)描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符以及其它语法元素。熵解码单元70将运动向量和其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级和/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可以基于用信号发送的帧内预测模式和来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量和其它语法元素产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一个内的参考图片中的一个产生预测性块。视频解码器30可基于存储在参考图片存储器82中的参考图片使用默认构建技术构建参考帧列表,即列表0和列表1。运动补偿单元72通过解析运动向量和其它语法元素来确定用于当前视频切片的视频块的预测信息,且使用所述预测信息产生用于正被解码的当前视频块的预测性块。举例来说,运动补偿单元72使用所接收的语法元素中的一些确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一或多个的构建信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态,以及用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元72也可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元72可从所接收的语法元素来确定供视频编码器20使用的内插滤波器,且使用所述内插滤波器产生预测性块。
逆量化单元76对提供于位流中且由熵解码单元70解码的经量化变换系数进行逆量化,即解量化。逆量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算以确定应应用的量化程度以及同样地逆量化程度的量化参数QPY
逆变换单元78将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数以便产生像素域中的残余块。
在运动补偿单元72基于运动向量和其它语法元素产生当前视频块的预测性块后,视频解码器30通过对来自逆变换单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码的视频块。求和器80表示执行此求和运算的一或多个组件。必要时,解块滤波器还可应用于对经解码块进行滤波以便移除成块假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改进视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器82中,所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以用于稍后呈现在显示装置(例如,图1的显示装置32)上。
视频解码器30一般使用上述过程来对经译码视频序列中的每一图片的每一块进行解码。另外,在一些实例中,视频解码器30可对指示向其指派图片的时间层的数据进行解码。此外,视频解码器30可被配置成解码其它层例如其它视图、可缩放视频译码层等的图片。在任何情况下,视频解码器30可进一步解码针对(例如,各种视频尺寸的)一或多个层指示每一图片属于哪个层的数据。
根据本文中所描述的技术,视频解码器30可解码视频数据的图片,其中图片的一或多个区域是可随机存取的且图片的一或多个区域不是可随机存取的。视频解码器30可接收具有多个图片的VR视频数据并且取决于当前视口而解码图片中的一或多个。当视频解码器30改变视点时,视频解码器30可在新视口的图片中的一或多个中搜索可随机存取区域。可随机存取区域可处于另外包含其它不可随机存取区域的图片中。在定位具有可随机存取性的区域之后,视频解码器30可在解码新视口中的图片的剩余部分之前首先解码所述可随机存取区域。视频解码器30可基于从视频编码器20接收的位流中的语法元素确定哪些区域是可随机存取的。
出于本发明的目的,随机存取是指视频位流的解码是从不是位流中的第一经译码图片的经译码图片开始。在多个视频应用例如广播和流式传输中使用对位流的随机存取,以例如用于用户在不同信道之间切换,跳到视频的具体部分,或切换到用于(位速率、帧速率、空间分辨率等的)流调适的不同位流。此特征通过以规律的间隔将随机存取图片或随机存取点多次插入到视频位流中实现。
位流拼接可指代两个或更多个位流或其部分的串接。举例来说,第一位流可由第二位流附加,可能对所述位流中的一个或两者具有一些修改以产生经拼接位流。第二位流中的第一经译码的图片也可被称作拼接点。因此,跟在经拼接位流中的拼接点之后的图片可来源于第二位流,而在经拼接位流中的拼接点之前的图片可来源于第一位流。
位流的拼接可以通过位流拼接器来执行。位流拼接器通常为轻型(即,要求较小硬件或较不复杂的软件)且没有编码器智能。举例来说,位流拼接器可能不配备有熵解码和编码能力。
位流切换可用于自适应流式传输环境中。在切换到的位流中的某一图片处的位流切换操作实际上是位流拼接操作,其中拼接点是位流切换点,即来自切换到的位流的第一图片。
如在AVC或HEVC中所规定的瞬时解码刷新(IDR)可以用于随机存取。然而,由于按解码顺序在IDR图片之后的图片无法使用在IDR图片之前解码的图片作为参考图片,所以依赖于用于随机存取的IDR图片的位流可显著地降低译码效率。
为了提高译码效率,在HEVC中引入清洁随机存取(CRA)图片的概念以允许按解码顺序在CRA图片之后但按输出顺序在CRA图片之前的图片使用在CRA图片之前解码的图片作为参考图片。按解码顺序在CRA图片之后但按输出顺序在CRA图片之前的图片可以被称作与CRA图片相关联的前导图片(或CRA图片的前导图片)。如果解码从当前CRA图片之前的IDR或CRA图片开始,那么CRA图片的前导图片可被正确地解码。然而,当发生从CRA图片的随机存取时,可能不正确地解码CRA图片的前导图片。因此,通常在随机存取解码期间丢弃所述前导图片。为防止从取决于解码开始处而可能不可用的参考图片的错误传播,按解码顺序和输出顺序两者在CRA图片之后的所有图片可能不使用按解码顺序或输出顺序在CRA图片之前的任何图片(其包含前导图片)作为参考图片。
断链存取(BLA)图片的概念在HEVC中是在CRA图片的引入之后进一步引入且是基于CRA图片的概念。BLA图片通常来源于CRA图片的位置处的位流拼接操作。在经拼接位流中,拼接点CRA图片改变为BLA图片。
IDR图片、CRA图片和BLA图片统称为帧内随机存取点(IRAP)图片。BLA图片与CRA图片之间的一个差异在于,对于CRA图片,如果从按解码顺序在CRA图片之前的RAP图片开始解码,那么相关联的前导图片是可正确解码的,并且当发生从CRA图片的随机存取时(即,当从CRA图片开始解码时,或换句话说,当CRA图片是位流中的第一图片时),相关联的前导图片可能是不可正确地解码的。对于BLA图片,相关联的前导图片可在所有情况下为不可正确地解码的,即便在从按解码顺序在BLA图片之前的RAP图片开始解码的情况下仍如此。
对于特定CRA或BLA图片,相关联的前导图片中的一些是可正确解码的,即便在CRA或BLA图片是位流中的第一图片的情况下仍如此。这些前导图片被称为随机存取可解码前导(RADL)图片,且其它前导图片被称为随机存取跳过前导(RASL)图片。
随机存取可用于包含虚拟现实(VR)的各种应用中。VR是虚拟地存在于通过允许与无形世界交互的沉浸式用户的动作相关的天然和/或合成图像和声音的再现产生的无形世界中的能力。随着再现装置中取得的最近进程,例如头戴式显示器(HMD)和VR视频(通常也称为360度视频)创建,可提供显著的体验质量。VR应用包含游戏、训练、教育、体育视频、线上购物、成人娱乐等。
典型的VR系统可以包含各种组件和步骤。可使用一相机组捕获VR视频,所述相机组通常由指向不同方向并且理想地共同覆盖围绕所述相机组的所有视点的多个个别相机组成。从这些视点,视频装置可使用图像拼接的过程,其中通过多个个别相机取得的视频图片在时域上同步化且在空间域上拼接为球形视频,但映射为矩形格式,例如等矩形(如全局图)或立方体图。映射的矩形格式的视频可使用视频编解码器经编码/压缩,例如,H.265/HEVC或H.264/AVC。
经压缩视频位流可存储和/或包封于媒体格式中并且通过网络(可能仅为仅覆盖用户看见的区域的子集)传输到接收器。接收器接收可能包封于一格式中的视频位流或其部分,并将经解码视频信号或其部分发送到再现装置。再现装置可以是例如HMD,其可以追踪头部移动以及甚至眼睛移动时刻并且再现视频的对应部分以便将沉浸式体验传递给用户。
VR视频与正常视频相比的相异特征为在VR中,通常仅可显示由视频图片表示的整个视频区域的对应于当前视场(FOV)的子集,而在正常视频应用中,通常显示整个视频区域。FOV有时也称为视口,例如当前用户看见的区域。可使用此特征例如通过使用视口相依性投影映射或视口相依性视频译码,改进VR视频系统的性能。所述性能改进可为与常规VR视频系统相比,在呈现给用户相同分辨率或质量的视频部分下,传输带宽降低和解码复杂性降低中的任一个或两者。
视口相依性投影映射也可被称作不对称投影映射。一个实例是对立方体图进行二次取样。典型的立方体图由六个相等大小的面组成。在对立方体图进行二次取样的一个实例中,所述面中的一个可以保持不变,而可对立方体的相对侧上的面进行二次取样或按比例缩小到位于原始面形状的中心区域的较小大小,并且其它面相应地在几何形状上按比例缩放(仍然保持六个面)。极端实例为将立方体的相对侧上的面按比例缩小到单个点,且因此,立方体变成金字塔。在对立方体图进行二次取样的另一实例中,一些面相应地按比例缩小例如2×2比率(即,在平行于面的边缘的每一方向上为2:1)。此类大小按比例缩小也可以适用于其它投影映射的不同区域,例如等矩形。一个实例是缩小形状的上部和底部区域(即,极点)的大小。
视口相依性视频译码也可被称作基于视口的部分视频解码,因为关键是使得能够针对经编码视频区域仅部分地进行解码以提供用于显示当前FOV或视口的足够信息。在视口相依性视频译码的一个实例中,可使用运动受约束的瓦片集译码VR视频,使得可独立于其它区域解码覆盖FOV或视口的每一潜在区域。对于特定当前FOV或视口,覆盖当前FOV或视口的最小集合的可独立解码的瓦片的经译码视频数据可发送到客户端,经解码以及被显示。此方法的缺点可为当用户将头部快速转动到不被发送的视频数据覆盖的新FOV时,在覆盖新FOV的数据到达之前可能看不见不被视频数据的瓦片覆盖的区域中的任何事物。这可能除以下情况之外都会发生:网络的往返时间极低,例如10ms的量值,其可能不可行,或至少可能在计算上是具有挑战性的准则。
视口相依性视频译码的另一实例可为非相依性多分辨率译码(IMRC)。在IMRC中,球形/全景视频可在多个不同分辨率下彼此独立编码,且可使用运动受约束的瓦片集合译码每一表示。所述接收器可选择以不同分辨率解码球形/全景视频的不同部分。通常,球形视频的用户当前观察到的部分(即,当前视场(FOV)或当前视口)可以是在最高分辨率下经译码的视频位流的部分。环绕当前FOV的区域是使用略低分辨率经译码的视频位流的部分。紧挨观测者头部后方的全景的部分是在最低分辨率下经译码的视频位流的部分。应声明,在用户移动头部的情况下,用户体验在大多数情况下将仅稍微降级,且质量降级仅在头部突然大幅度移动的情况下非常严重。
在视口相依性视频译码的又另一个实例中,使用可缩放视频编解码器译码多分辨率的视频位流,例如SHVC。另外,可发送最低分辨率视频(或基底层)的整个位流。不需要使用瓦片或运动受约束的瓦片集译码最低分辨率视频,不过此视口相依性视频译码方法还将在使用瓦片或运动受约束的瓦片集进行译码的情况下工作。对于其它方面,应用如上文所描述的相同策略。此方法因为瓦片或瓦片运动受约束的瓦片集的译码减小译码效率而允许最低分辨率视频的更高效译码,并且还允许归因于使用层间预测的较高分辨率的流的更高效译码。此外,此方法还允许更高效FOV切换,这是因为一旦起始FOV切换,服务器或边缘服务器便可立即停止发送来自较高分辨率(而非基底层)的视频流并且不覆盖新FOV的任何区域的视频数据。如果不发送覆盖当前FOV的最低分辨率的视频数据(例如,仅发送覆盖当前FOV的最高分辨率的视频数据),那么在FOV切换期间,服务器可继续发送来自最高分辨率的视频流并且仅覆盖旧FOV或其部分的视频数据,使得用户在转动回到旧FOV或其部分的情况下至少可看见最低质量的视频。
使用视口相依性VR系统,当用户改变其FOV时,可仅从下一个IRAP图片开始新视口的解码和显示。通常,IRAP图片不频繁地(例如,每秒一次)呈现于经译码位流中,这是因为当与其它类型的经译码图片(例如,P图片或B图片)相比较时,对IRAP图片进行译码的效率要低得多,且因此需要更多个位。当VR系统使用视口相依性投影映射时,在新视口中接收到下一个IRAP图片之前,VR播放器仅可显示来自具有较低图片质量的当前视口的区域,这是因为用户的FOV归因于此类投影映射的每度像素的显著不均匀分布而可能不是具有最高质量的经译码的所述视口中的图片的部分。类似地,当VR系统使用视口相依性部分视频解码(例如,基于IMRC或SHVC的部分视频解码方案)时,在下一个IRAP图片呈现于具有高质量/分辨率的表示或层之前,VR播放器仅可显示来自具有较低质量/分辨率的表示/层的区域。为最小化当用户改变其FOV时显示较低质量/分辨率区域的周期,视频译码装置可用较频繁IRAP图片编码位流。然而,此类策略因此降低位流的译码效率并且使位流具有较高位速率。
本发明描述解决上文所提及的问题的技术。可独立地或结合其它技术应用下文描述的这些技术中的一或多种。
代替将整个图片译码为IRAP图片,视频编码器20可仅译码覆盖整个图片的子集的具有可随机存取性的一或多个区域。在如下情况下将一特定图片的一区域视为具有(或视为拥有)可随机存取性:有可能正确地解码所述特定图片的所述区域以及按输出顺序在所有后续图片中的对应区域,此时,这些图片的所有其它区域的经译码视频数据不可用且按解码顺序在所述特定图片之前的图片不可用。这可引起所述特定图片的所述区域和按输出顺序在所有后续图片中的对应区域不直接或间接取决于按解码顺序在所述特定图片之前的图片的任何经译码视频数据或在所有这些图片中的任何其它区域的经译码视频数据。替代地,上文的“按输出顺序”的两种情况可改变为“按解码顺序”。
对于按译码顺序跟在具有可随机存取区域的图片后的图片,或对于在与可随机存取区域相同的图片内的其它区域,视频编码器20可在相应区域的译码中使用用以编码可随机存取区域的运动信息。换句话说,在与可随机存取区域或图片相同的图片中的按译码顺序或输出顺序跟在可随机存取区域后的其它区域可取决于所述可随机存取区域,或可取决于继而取决于所述可随机存取区域的其它区域。
将可随机存取的经译码区域可为瓦片、切片、瓦片集、切片集,或为图片的子集的其它区域。对应区域可定义为空间并置的区域,或以其它方式定义的不同区域。具有可随机存取性的区域被称为可随机存取区域且被视为可随机存取的。可随机存取区域的实例是经帧内译码的瓦片,且其在后续图片中的并置瓦片以约束运动的方式经译码,如为由HEVC中的时间性约束运动的瓦片集SEI消息指示的约束运动的瓦片集中的仅有瓦片的瓦片。IRAP图片还被视为完全可随机存取的,且含有可随机存取区域但也可以含有不可随机存取区域的图片也被视为区域性可随机存取的。当图片中的所有区域为可随机存取的时,泽所述图片是完全可随机存取的且可经译码为IRAP图片。然而,IRAP图片中的区域可或可不为可随机存取的。换句话说,完全可随机存取的图片可或可不为区域性可随机存取的。
视频编码器20可进一步使用指示/用信号发送来指示可随机存取区域。视频编码器20可在经译码图片的标头、切片的标头、区域自身的标头(为简单起见称为区域标头)、含有位流的ISOBMFF文件中的某一特定元数据、特定补充增强信息(SEI)消息或任何其它装置中提供此类用信号发送。
新图片类型可定义为指示区域性可随机存取的图片,即,其中图片内的一或多个区域/切片/瓦片是可随机存取的图片。对于此新图片类型(例如,由特定NAL单元类型识别),(例如,通过NAL单元标头、切片标头或区域标头中的字段或语法元素)提供用以指示图片的哪些区域是可随机存取的额外用信号发送。
替代地,可扩大IRAP图片的定义以使得在图片中的一或多个区域/切片/瓦片可随机存取的情况下,可将所述图片视为IRAP图片。在此情况下,IRAP图片是区域性可随机存取的图片。
视频编码器20也可以提供用以指示是否可正确地解码对应于按解码顺序为后续但按输出顺序为较早(如前导图片)的图片中的可随机存取区域的区域的指示或用信号发送。视频编码器20可为此目的使用新图片类型(例如,由类似于HEVC中的RADL和RASL图片的NAL单元类型所识别)。
对于文件格式化,新样本分组可定义为指示图片具有可随机存取的经译码区域、切片、瓦片、切片集或瓦片集的样本。替代地,用于随机存取点(RAP)样本的现有样本分组可更新为具有对样本是完全可随机存取还是区域性可随机存取的指示。对于后一情况,进一步指示可随机存取区域。
图4是说明根据本发明中所描述的一或多种技术的可随机存取区域90A-90D、91A-91D、92A-92D、93A-93D和94A-94D的实例交错的概念图。可随机存取区域(例如,区域90A、90C、93B和93D)可以规律且均匀的频率(例如,每16个图片或32个图片等;或每0.5秒、1秒或2秒等)呈现。此外,虽然可随机存取区域的发生频率可为相同的,但其可以例如图4中说明的交错方式发生。
可随机存取区域也可以不规律的频率呈现。一个区域可比另一区域更频繁地译码为可随机存取的(因此在更多图片中译码为可随机存取的)。可随机存取区域的发生频率可取决于多个因素。因素可包含场景或内容特性,例如含有新场景、更多动作或更多对象移动的区域可比其它区域更频繁地译码为可随机存取的。另一因素可包含指导者的意图,例如根据指导者的意图覆盖用户期望聚焦的FOV的区域可比其它区域更频繁地译码为可随机存取的。
图5是说明左眼视图和右眼视图这两个视图的视频数据序列150的概念图。特定来说,在此实例中,左眼视图包含随机存取点(RAP)图片154A、154B和非RAP图片156A-156E,且右眼视图包含非RAP图片158A-158E和RAP图片160A、160B。RAP图片也可被称作切换点。图片群组(GOP)通常是指包含RAP图片和按译码顺序随后为非RAP图片且达下一个RAP图片的图片序列。在此实例中,GOP具有四个图片的GOP周期152,不过应理解,出于实例的目的示出此实例周期。一般来说,GOP周期可具有任何长度/数目个图片。
此外,出于本发明的技术的目的,左眼视图和右眼视图的图片通常具有相同质量(例如,相同空间分辨率)。因此,一般来说,当选择特定质量时,基于用户的视觉焦点所指向的区域,将对左眼视图和右眼视图一起检索这些图片。可例如使用加速计、相机跟踪或其它这类方法确定用户的视觉焦点。
根据本发明的某些实例技术,如下可在立体视频数据的情况下减小GOP结构相关的时延(最大I帧延迟)。左信道和右信道I帧(例如,RAP图片154A、154B、160A、160B)可在时间上与彼此偏移一个半GOP周期。因此,在左信道或右信道处的I帧的延迟将总是小于或等于1/2GOP周期。人类眼睛可在任一眼睛观察到较高分辨率内容的情况下能够感知图片质量的改进。因此,可使用这些技术使在从低分辨率偏移到高分辨率时感知的时延降低GOP周期的1/2
因此,在图5的实例中,右眼视图的RAP图片在左眼视图的RAP图片的GOP周期之间的中部发生。也就是说,右眼视图的RAP图片160A在左眼视图的RAP图片154A、154B之间的中部发生,且左眼视图的RAP图片154B在右眼视图的RAP图片160A、160B之间的中部发生。
因此,如果在例如RAP图片154A和非RAP图片158A处发生切换到左眼视图和右眼视图的图片,那么目的地装置14可在切换到右眼视图之前切换到左眼视图。也就是说,目的地装置14可检索左眼视图的RAP图片154和非RAP图片156A,但继续检索具有不同质量(例如,空间分辨率)的右眼视图图片来代替非RAP图片158A、158B。接着,在到达RAP图片160A后,目的地装置14即刻可检索非RAP图片156B和RAP图片160A。这与左眼和右眼视图的RAP图片两者在RAP图片160A的位置处发生的情况相比可减小GOP图像模式相关时延。
类似地,如果所述切换在RAP图片160A的位置发生,那么目的地装置14可检索右眼视图的RAP图片160A和非RAP图片158C,但继续检索前一个左眼视图的图片而非非RAP图片156B、156C。不过在到达RAP图片154B后,目的地装置14即刻可检索RAP图片154B和非RAP图片158D。
在用户的视觉焦点改变且视频数据包含两个或更多个视图(例如,用于三维回放)的情况下,区域确定单元34可在不同时间切换视图的视频数据集,如相对于图5所解释。也就是说,视图的随机存取点(RAP)(也称为切换点)可在所述视图之间偏移,这可减小与从一个视频数据集切换到另一视频数据集相关联的时延。以此方式,可从一个视图的一个视频数据集检索具有比从另一视图的另一视频数据集检索的视频数据高的质量的视频数据,直到可检索到另一视图的RAP图片。
可根据一或多个特性定义各个视频数据集的质量。如上文所解释,一个实例质量度量是空间分辨率(即,像素密度)。另一可另外或在替代方案中使用的可能的质量度量是对应视频数据的位速率。以此方式,可为所述区域中的每一个提供视频数据的不同表示(例如,根据HTTP动态自适应流式传输(DASH))。举例来说,可为所述区域中的每一个提供各种表示,且在一些实例中,可提供对应于多个区域的一或多个表示。用于给定区域(或区域集)的表示中的每一个通常可可切换到其它表示,例如使得切换点或随机存取点(RAP)可在所述表示之间对准。
此外,给定区域(区域集)的表示中的每一个可具有相异位速率。清单文件例如媒体呈现描述(MPD)可包含用于所述表示的元数据,例如所述表示的位速率、所述表示的区段的统一资源定位器(URL)和/或到显示器的区域的表示的映射。元数据/清单文件也可以描述所述表示内的切换点的位置。以此方式,目的地装置14可基于用户的视觉焦点(以及因此,区域到用户的视场的接近度)选择区域的表示和表示的质量,其可指表示的位速率。质量特性的其它实例包含视频数据中的块、切片和/或图片的量化参数(QP)、视频数据的峰值信噪比(PSNR)以及视频数据的位速率。
图6是说明根据本发明中所描述的一或多种技术的用于确定视频数据图片内的可随机存取区域的实例技术的流程图。相对于视频译码装置例如图1的视频编码器20解释图6的方法,不过应理解,其它装置可被配置成执行相同或类似方法。
根据本发明的技术,视频译码装置可确定图片中的区域是否具有可随机存取性。举例来说,视频译码装置可按译码顺序接收多个图片(102)。所述多个图片中的每一相应图片包括多个区域。对于所述多个图片中的第一图片中的第一区域,视频译码装置可确定第一区域可独立于第一图片的每一其它区域进行译码(104)。
如果视频译码装置确定此为真(104的是分支),那么视频译码装置也可以确定第一区域可独立于按译码顺序在第一图片之前的第二图片中的第一区域进行译码(106)。在一些实例中,第一相应区域可为瓦片、切片、瓦片集或切片集。在一些实例中,在确定第一区域可独立于按译码顺序在第一图片之前的第二图片中的第一区域进行译码时,视频译码装置可确定按译码顺序在第一图片之前的每一相应图片中的相应NAL单元标头中的相应语法元素指示相应图片不可用。
响应于确定第一区域可独立于第一图片的每一其它区域进行译码且第一区域可独立于按译码顺序在第一图片之前的第二图片中的第一区域进行译码(106的是分支),视频译码装置可确定第一图片中的第一相应区域具有可随机存取性(108)。视频译码装置接着可独立于第一图片的每一其它区域并且独立于按译码顺序在第一图片之前的第二图片中的第一区域,对第一图片中的第一区域中的每一视频块进行译码(110)。
如果视频译码装置确定第一区域不可独立于第一图片的每一其它区域进行译码(104的否分支)或第一区域不可独立于按译码顺序在第一图片之前的第二图片中的第一区域进行译码(106的否分支),那么视频译码装置可确定第一图片中的第一相应区域不具有可随机存取性(112)。如此,视频译码装置可至少部分地基于第一图片的另一区域中的视频块的运动信息或至少部分地基于按译码顺序在第一图片之前的图片中的区域中的视频块的运动信息,对第一图片中的第一区域中的视频块进行译码(114)。
在一些实例中,视频译码装置可进一步确定第一图片中的每一区域具有可随机存取性。响应于确定第一图片中的每一区域具有可随机存取性,视频译码装置可确定第一图片是帧内随机存取点图片。如此,视频译码装置可按译码顺序独立于每一其它图片译码第一图片中的每一视频块。
在一些实例中,响应于确定第一区域具有可随机存取性,视频译码装置可用信号发送指示第一区域具有可随机存取性的语法元素。所述语法元素可位于第一图片的标头、切片的标头、第一相应区域的标头、NAL单元标头中,或元数据中。视频译码装置可编码位流中的语法元素。
在一些实例中,响应于确定第一相应区域具有可随机存取性,视频译码装置可确定第一图片是帧内随机存取点图片。响应于确定第一图片是帧内随机存取点图片,视频译码装置可用信号发送指示第一图片是帧内随机存取点图片的语法元素。视频译码装置接着可编码位流中的语法元素。
在一些实例中,视频译码装置可定义指示第一图片具有可随机存取区域的样本分组。替代地,视频译码装置可定义指示是否是完全可随机存取第一图片或是否是仅可随机存取第一图片的区域的一部分的样本分组。
在一些实例中,视频译码装置可另外针对按译码顺序跟在第一图片后的第三图片,确定由于译码第一图片的第一区域而已对译码顺序中的阈值数目个图片进行译码。响应于确定由于译码第一图片的第一区域而已对译码顺序中的阈值数目个图片进行译码,视频译码装置可确定第三图片中的对应于第一图片的第一区域的区域具有可随机存取性。如此,视频译码装置可独立于第三图片的每一其它区域并且独立于按译码顺序在第三图片之前的第四图片中的任何区域,对第三图片中的对应于第三图片的第一区域的区域中的每一视频块进行译码。
图7是说明具有六个面且每一面划分成四个瓦片总计二十四个瓦片(或区域)的360度视频数据立方体的概念图。所述瓦片在三维x、y和z轴空间中表示,其中每一正方形面示出为在对应二维空间中具有一个单位乘一个单位的面积。第一面含有瓦片3、4、9和10,第二面含有瓦片1、2、7和8,第三面含有瓦片15、16、21和22,第四面含有瓦片13、14、19和20,第五面含有5、6、11和12,且最后的第六面含有瓦片17、18、23和24。
下文相对于图7和8描述用于基于用户的视场(FOV)请求瓦片的视频数据(即,具有不同质量(例如,空间分辨率)的视频数据)的实例算法。目的地装置14(例如,区域确定单元34)可被配置成执行此算法或类似算法。
假设区域确定单元34接收具有二十四个瓦片配置(每个立方体面四个瓦片)的立方体图输入,如图7所示。假设视频数据可以四个质量(例如,分辨率层)用于瓦片中的每一者,并且瓦片编号遵循图7中所示的顺序。
图8是说明与图7的瓦片编号3相对的瓦片和相邻的瓦片的实例的概念图。对于立方体结构上的每一瓦片,其相对瓦片定义为通过穿过立方体的中心镜射瓦片位置获得的瓦片。与当前瓦片(例如,瓦片3)相邻的四个瓦片是立方体结构中的具有与当前瓦片相邻的边缘的四个瓦片。举例来说,如图8中所说明,瓦片编号3的相对瓦片是瓦片21。瓦片编号3的相邻瓦片是瓦片2、4、9和12。立方体结构中的每一瓦片的相对瓦片编号和四个相邻瓦片编号可保存在目的地装置14的存储器(例如区域确定单元34的存储器)中的查找表中。
给定用户的FOV,目的地装置14可执行解决将立方体结构的二十四个瓦片指派给不同质量(例如,分辨率层)的视频数据的问题的算法,其中层一是最高质量(例如,分辨率),且层四是最低质量(例如,分辨率)。基于用户所请求的FOV,目的地装置14执行首先计算被每一瓦片覆盖的FOV的区域的算法。出于解释的目的,分辨率用作以下论述中的质量的实例,不过应理解,可使用额外和/或替代性质量度量。
根据所述算法,目的地装置14定义面积覆盖率Ath的阈值(例如,立方体图投影总面积的5%)。覆盖大于或等于阈值Ath的面积的所有瓦片(即,具有大于阈值面积,例如大于或等于立方体图投影的总面积的5%的面积的瓦片,其中可计算以像素为单位的面积)指派给分辨率层一。目的地装置14将层一瓦片的相对瓦片指派给层四。目的地装置14将具有小于阈值Ath的非零面积覆盖率的瓦片指派给分辨率层二,且将层二瓦片的相对瓦片指派给层三。在此阶段,所述算法通常致使目的地装置14将24个瓦片中的大部分指派给其对应分辨率层。
对于剩余的未指派的瓦片中的每一个,目的地装置14可计算瓦片度量TA。特定瓦片的瓦片度量TA等于被其4个相邻瓦片覆盖的FOV面积的总和。举例来说,瓦片3的TA=被瓦片2、4、9和12覆盖的FOV面积的总和。目的地装置14可基于其TA度量以降序分类剩余的未指派的瓦片。目的地装置14可将剩余的瓦片中的具有最高TAs的一半瓦片指派给分辨率层二,且将另一半具有最低TAs的瓦片指派给分辨率层三。
应注意,所述算法仅依赖于每一瓦片的面积覆盖率。因此,瓦片指派的复杂性较低。使用面积覆盖率Ath的阈值可控制将从最高分辨率层一所请求的瓦片的最大数目。在上文所论述的实例中,所述算法还通过施行以下条件平衡来自不同分辨率层的请求:层一瓦片的数目=层四瓦片的数目,且层二瓦片的数目=层三瓦片的数目。因此,所述算法可控制在观察者的装置上的最大数目个总解码像素的最不利情况,并且确保此数目在终端用户解码器(例如,视频解码器30)的能力内。
上文所论述的瓦片请求算法可简化到较少分辨率层。举例来说,如果仅存在三个分辨率层,那么可执行同一算法,但来自分辨率层二和三(或层三和四)的瓦片指派可组合成单个分辨率层。所述算法可扩展到通过为FOV面积覆盖率定义多于一个的阈值,使用超过四个的分辨率层。最终,除具有二十四个瓦片的立方体图(CubeMap)输入以外,所述算法还可扩展到覆盖输入360度视频的不同几何表示。
图9是说明实例立方体图投影200的概念图。立方体图投影200包含六个面202A-202F(面202),其包含正面202A、顶面202B、左面202C、底面202D、右面202E和背面202F。在此实例中,面202中的任一个或全部可划分成区域(在本文中也称为瓦片)。举例来说,面202中的每一个可划分成四个瓦片,包含左上瓦片、右上瓦片、左下瓦片和右下瓦片。源装置例如源装置12(图1)可为瓦片中的每一个提供多个质量等级(例如,空间分辨率、QP、位速率、PSNR等)的视频数据。
另外,可组合瓦片中的两个或更多个。举例来说,如上文所论述(例如,相对于图4),源装置12(图1)可提供可涵盖四个小瓦片的大瓦片的视频数据。举例来说,大瓦片可覆盖面202中的一整个。因此,独立的视频数据集可用于大瓦片,其可包含针对大瓦片的一或多个质量等级。
虽然如上文所论述覆盖面202中的单个面的大瓦片是可能的,但在其它实例中,可以其它方式组合较小瓦片,使得视频数据可用于其它组合。在图9的实例中,在正面202A上示出两个水平瓦片204A、204B。因此,虽然上文所论述,正面202A通常可分割成四个瓦片,但可组合左上瓦片和右上瓦片以形成水平瓦片204A,且可组合左下瓦片和右下瓦片以形成水平瓦片204B。以此方式,源装置12(图1)可为水平瓦片204A、204B提供一或多个质量等级的视频数据。
因此,取决于用户的FoV,目的地装置14(图1)以及特定来说区域确定单元34可确定应检索水平瓦片204A、204B中的任一个或两个的视频数据。举例来说,如果用户的FoV指向或靠近毗邻正面202A和顶面202B的边缘的中心,那么区域确定单元34可检索水平瓦片204A的高质量版本的视频数据,或水平瓦片204A的中间质量版本的视频数据。
另外,图9还示出较小瓦片的实例。举例来说,源装置12(图1)可为半部瓦片(例如半部瓦片206)或四分之一瓦片(例如四分之一瓦片208A、208B)提供视频数据。一般来说,可为立方体图200的多个分区中的任一个提供视频数据。因此,不应假设每立方体面可能仅四个瓦片,这是因为可根据本发明的技术使用成为瓦片的任何数目个分区。
图10是示出实例立方体图投影210的概念图。立方体图投影210包含六个面212A-212F(面212),包含正面212A、顶面212B、左面212C、底面212D、右面212E和背面212F。
如上文所论述,源装置12(图1)可以为立方体面(例如面212)的瓦片提供视频数据,其中面212中的每一个可以有四个瓦片。然而,另外,源装置12可以为覆盖例如整个立方体面和相邻立方体面的部分的“巨型瓦片”提供视频数据。在图10所说明的实例中,此类巨型瓦片覆盖区域214A-214E,其中区域214A完全覆盖正面212A,区域214B部分地覆盖顶面212B,区域214C部分地覆盖左面212C,区域214D部分地覆盖底面212D,并且区域214E部分地覆盖右面212E。在此实例中,巨型瓦片不覆盖背面212F的任何部分。
另外,源装置12可以提供多个此类巨型瓦片(其可以被称为以立方体面为中心的巨型瓦片)。图10示出的实例巨型瓦片以正面212A为中心。在一些实例中,源装置12可提供六个此类巨型瓦片,一个巨型瓦片以面212中的每一个为中心。此外,在另外或替代方案中,源装置12可提供中心定在立方体图投影210的拐角顶点处的巨型瓦片如下文所论述。
图11是说明实例立方体图投影220的概念图。立方体图投影220包含六个面222A-222F(面222),其包含正面222A、顶面222B、左面222C、底面222D、右面222E和背面222F。图11的实例还描绘了以立方体图投影220的顶点226为中心的巨型瓦片。特定来说,巨型瓦片包含顶面222B上的瓦片224A、224B和224C,左面222C的瓦片226A、226B和226C,以及背面222F上的瓦片228A、228B和228C。
源装置12(图1)可提供多个此类巨型瓦片(其可以被称作以顶点为中心的巨型瓦片)。举例来说,源装置12可提供八个此类巨型瓦片,每个巨型瓦片是针对立方体图投影220的每一拐角顶点。图11的技术可与图10的技术组合,使得源装置12可提供十四个巨型瓦片、六个以立方体面为中心的巨型瓦片和八个以顶点为中心的巨型瓦片。
应认识到,取决于实例,本文中所描述的技术中的任一个的某些动作或事件可用不同顺序来执行,可添加、合并或全部省略所述动作或事件(例如,实践所述技术未必需要所有所描述动作或事件)。此外,在某些实例中,可例如通过多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体或通信媒体的有形媒体,通信媒体包含例如根据通信协议促进将计算机程序从一处传递到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。此外,适当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么所述同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含于计算机可读媒体的范围内。
指令可由一或多个处理器执行,例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可在被配置成用于编码和解码的专用硬件和/或软件模块内提供,或并入在组合编解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于多种装置或设备中,包含无线手持机、集成电路(IC)或IC的集合(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调被配置成执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述了本发明的各种实例。预期所描述的系统、操作或功能的任何组合。这些和其它实例在所附权利要求书的范围内。

Claims (23)

1.一种对视频数据进行译码的方法,所述方法包含:
按译码顺序接收多个图片,其中所述多个图片中的每一相应图片包括多个区域;
对于所述多个图片中的第一图片中的第一区域:
确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码;和
响应于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码,确定所述第一图片中的所述第一区域具有可随机存取性;和
独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域而对所述第一图片中的所述第一区域中的每一视频块进行译码。
2.根据权利要求1所述的方法,其另外包括:
对于所述多个图片中的所述第一图片中的第二区域:
确定所述第二区域不可独立于所述第一图片的第三区域进行译码或所述第二区域不可独立于按所述译码顺序在所述第一图片之前的第三图片中的第二区域进行译码;和
响应于确定所述第二区域不可独立于所述第一图片的所述第三区域进行译码或所述第二区域不可独立于按所述译码顺序在所述第一图片之前的所述第三图片中的所述第二区域进行译码,确定所述第一图片中的所述第二区域不具有可随机存取性;和
至少部分地基于所述第一图片的所述第三区域中的视频块的运动信息或至少部分地基于按所述译码顺序在所述第一图片之前的所述第三图片中的所述第二区域中的视频块的运动信息,对所述第一图片中的所述第二区域中的视频块进行译码。
3.根据权利要求1所述的方法,其中所述第一区域包括瓦片、切片、瓦片的集合或切片的集合。
4.根据权利要求1所述的方法,其另外包括:
确定所述第一图片中的每一区域具有可随机存取性;
响应于确定所述第一图片中的每一区域具有可随机存取性,确定所述第一图片是帧内随机存取点图片;和
按所述译码顺序独立于每一其它图片而对所述第一图片中的每一视频块进行译码。
5.根据权利要求1所述的方法,其另外包括:
响应于确定所述第一区域具有可随机存取性,用信号发送指示所述第一区域具有可随机存取性的语法元素;和
在位流中编码所述语法元素。
6.根据权利要求5所述的方法,其中所述语法元素位于所述第一图片的标头、切片的标头、所述第一区域的标头、NAL单元标头中,或元数据中。
7.根据权利要求1所述的方法,其另外包括:
响应于确定所述第一区域具有可随机存取性,确定所述第一图片是帧内随机存取点图片;
响应于确定所述第一图片是所述帧内随机存取点图片,用信号发送指示所述第一图片是所述帧内随机存取点图片的语法元素;和
在位流中编码所述语法元素。
8.根据权利要求1所述的方法,其中确定所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码包括:
确定按所述译码顺序在所述第一图片之前的每一相应图片中的相应NAL单元标头中的相应语法元素指示所述相应图片不可用。
9.根据权利要求1所述的方法,其另外包括:
定义指示所述第一图片具有可随机存取区域的样本分组。
10.根据权利要求1所述的方法,其另外包括:
定义指示是否是完全可随机存取所述第一图片或是否是仅可随机存取所述第一图片的所述区域的一部分的样本分组。
11.根据权利要求1所述的方法,其另外包括:
对于按所述译码顺序跟在所述第一图片后的第三图片,确定由于译码所述第一图片的所述第一区域而已对所述译码顺序中的阈值数目个图片进行译码;
响应于确定由于译码所述第一图片的所述第一区域而已对所述译码顺序中的所述阈值数目个图片进行译码,确定所述第三图片中的对应于所述第一图片的所述第一区域的区域具有可随机存取性;和
独立于所述第三图片的每一其它区域并且独立于按所述译码顺序在所述第三图片之前的第四图片中的任何区域而对所述第三图片中的对应于所述第三图片的所述第一区域的所述区域中的每一视频块进行译码。
12.一种视频译码装置,其包括:
存储器,其被配置成存储视频数据;和
一或多个处理器,其被配置成:
按译码顺序接收多个图片,其中所述多个图片中的每一相应图片包括多个区域;
对于所述多个图片中的第一图片中的第一区域:
确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的第二图片中的第一区域进行译码;和
响应于确定所述第一区域可独立于所述第一图片的每一其它区域进行译码且所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码,确定所述第一图片中的所述第一区域具有可随机存取性;和
独立于所述第一图片的每一其它区域且独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域而对所述第一图片中的所述第一区域中的每一视频块进行译码。
13.根据权利要求12所述的视频译码装置,其中所述一或多个处理器进一步被配置成:对于所述多个图片中的所述第一图片中的第二区域:
确定所述第二区域不可独立于所述第一图片的第三区域进行译码或所述第二区域不可独立于按所述译码顺序在所述第一图片之前的第三图片中的第二区域进行译码;和
响应于确定所述第二区域不可独立于所述第一图片的所述第三区域进行译码或所述第二区域不可独立于按所述译码顺序在所述第一图片之前的所述第三图片中的所述第二区域进行译码,确定所述第一图片中的所述第二区域不具有可随机存取性;和
至少部分地基于所述第一图片的所述第三区域中的视频块的运动信息或至少部分地基于按所述译码顺序在所述第一图片之前的所述第三图片中的所述第二区域中的视频块的运动信息,对所述第一图片中的所述第二区域中的视频块进行译码。
14.根据权利要求12所述的视频译码装置,其中所述第一区域包括瓦片、切片、瓦片的集合或切片的集合。
15.根据权利要求12所述的视频译码装置,其中所述一或多个处理器进一步被配置成:
确定所述第一图片中的每一区域具有可随机存取性;
响应于确定所述第一图片中的每一区域具有可随机存取性,确定所述第一图片是帧内随机存取点图片;和
按所述译码顺序独立于每一其它图片而对所述第一图片中的每一视频块进行译码。
16.根据权利要求12所述的视频译码装置,其中所述一或多个处理器进一步被配置成:
响应于确定所述第一区域具有可随机存取性,用信号发送指示所述第一区域具有可随机存取性的语法元素;和
在位流中编码所述语法元素。
17.根据权利要求16所述的视频译码装置,其中所述语法元素位于所述第一图片的标头、切片的标头、所述第一区域的标头、NAL单元标头中,或元数据中。
18.根据权利要求12所述的视频译码装置,其中所述一或多个处理器进一步被配置成:
响应于确定所述第一区域具有可随机存取性,确定所述第一图片是帧内随机存取点图片。
19.根据权利要求12所述的视频译码装置,其中所述一或多个处理器被配置成确定所述第一区域可独立于按所述译码顺序在所述第一图片之前的所述第二图片中的所述第一区域进行译码包括所述一或多个处理器被配置成:
确定按所述译码顺序在所述第一图片之前的每一相应图片中的相应NAL单元标头中的相应语法元素指示所述相应图片不可用。
20.根据权利要求12所述的视频译码装置,其中所述一或多个处理器进一步被配置成:
定义指示所述第一图片具有可随机存取区域的样本分组。
21.根据权利要求12所述的视频译码装置,其中所述一或多个处理器进一步被配置成:
定义指示是否是完全可随机存取所述第一图片或是否是仅可随机存取所述第一图片的所述区域的一部分的样本分组。
22.根据权利要求12所述的视频译码装置,其中所述一或多个处理器进一步被配置成:
对于按所述译码顺序跟在所述第一图片后的第三图片,确定由于译码所述第一图片的所述第一区域而已对所述译码顺序中的阈值数目个图片进行译码;
响应于确定由于译码所述第一图片的所述第一区域而已对所述译码顺序中的所述阈值数目个图片进行译码,确定所述第三图片中的对应于所述第一图片的所述第一区域的区域具有可随机存取性;和
独立于所述第三图片的每一其它区域并且独立于按所述译码顺序在所述第三图片之前的第四图片中的任何区域而对所述第三图片中的对应于所述第三图片的所述第一区域的所述区域中的每一视频块进行译码。
23.根据权利要求12所述的视频译码装置,其中所述视频译码装置包括视频编码器,所述视频编码器包括以下中的至少一个:
微处理器;
集成电路IC;和
无线通信装置,其包括所述视频编码器。
CN201780028533.2A 2016-05-19 2017-05-19 对视频数据进行译码的方法和装置 Active CN109076245B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662339012P 2016-05-19 2016-05-19
US62/339,012 2016-05-19
US15/599,295 US11184624B2 (en) 2016-05-19 2017-05-18 Regional random access in pictures
US15/599,295 2017-05-18
PCT/US2017/033543 WO2017201408A1 (en) 2016-05-19 2017-05-19 Regional random access in pictures

Publications (2)

Publication Number Publication Date
CN109076245A true CN109076245A (zh) 2018-12-21
CN109076245B CN109076245B (zh) 2021-03-09

Family

ID=58794226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780028533.2A Active CN109076245B (zh) 2016-05-19 2017-05-19 对视频数据进行译码的方法和装置

Country Status (5)

Country Link
US (2) US11184624B2 (zh)
EP (2) EP3843407A1 (zh)
CN (1) CN109076245B (zh)
ES (1) ES2875418T3 (zh)
WO (1) WO2017201408A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10419770B2 (en) 2015-09-09 2019-09-17 Vantrix Corporation Method and system for panoramic multimedia streaming
US11108670B2 (en) 2015-09-09 2021-08-31 Vantrix Corporation Streaming network adapted to content selection
US11287653B2 (en) 2015-09-09 2022-03-29 Vantrix Corporation Method and system for selective content processing based on a panoramic camera and a virtual-reality headset
US10694249B2 (en) * 2015-09-09 2020-06-23 Vantrix Corporation Method and system for selective content processing based on a panoramic camera and a virtual-reality headset
US20180098090A1 (en) * 2016-10-04 2018-04-05 Mediatek Inc. Method and Apparatus for Rearranging VR Video Format and Constrained Encoding Parameters
EP3975559A1 (en) 2016-10-04 2022-03-30 B1 Institute of Image Technology, Inc. Image data encoding/decoding method and apparatus
US10573076B2 (en) * 2016-12-14 2020-02-25 Mediatek Inc. Method and apparatus for generating and encoding projection-based frame with 360-degree content represented by rectangular projection faces packed in viewport-based cube projection layout
US11290755B2 (en) 2017-01-10 2022-03-29 Qualcomm Incorporated Signaling data for prefetching support for streaming media data
US10818087B2 (en) 2017-10-02 2020-10-27 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
US10659815B2 (en) 2018-03-08 2020-05-19 At&T Intellectual Property I, L.P. Method of dynamic adaptive streaming for 360-degree videos
US10740957B1 (en) * 2018-06-14 2020-08-11 Kilburn Live, Llc Dynamic split screen
US10419738B1 (en) 2018-06-14 2019-09-17 Telefonaktiebolaget Lm Ericsson (Publ) System and method for providing 360° immersive video based on gaze vector information
US10432970B1 (en) 2018-06-14 2019-10-01 Telefonaktiebolaget Lm Ericsson (Publ) System and method for encoding 360° immersive video
US10567780B2 (en) 2018-06-14 2020-02-18 Telefonaktiebolaget Lm Ericsson (Publ) System and method for encoding 360° immersive video
US10573060B1 (en) * 2018-06-14 2020-02-25 Kilburn Live, Llc Controller binding in virtual domes
US10623736B2 (en) 2018-06-14 2020-04-14 Telefonaktiebolaget Lm Ericsson (Publ) Tile selection and bandwidth optimization for providing 360° immersive video
US11108841B2 (en) 2018-06-19 2021-08-31 At&T Intellectual Property I, L.P. Apparatus, storage medium and method for heterogeneous segmentation of video streaming
WO2019245302A1 (en) * 2018-06-22 2019-12-26 Lg Electronics Inc. Method for transmitting 360-degree video, method for providing a user interface for 360-degree video, apparatus for transmitting 360-degree video, and apparatus for providing a user interface for 360-degree video
KR102073230B1 (ko) * 2018-06-28 2020-02-04 주식회사 알파서클 특정 영역의 화질을 개선하기 위해 복수의 가상현실영상을 재생하는 가상현실영상재생장치 및 가상현실영상생성방법
DE112019003203T5 (de) * 2018-06-28 2021-05-27 Apple Inc. Ratensteuerung für videocodierung und -übertragung mit niedriger latenz
US10523914B1 (en) 2018-07-26 2019-12-31 Telefonaktiebolaget Lm Ericsson (Publ) System and method for providing multiple 360° immersive video sessions in a network
US10841662B2 (en) 2018-07-27 2020-11-17 Telefonaktiebolaget Lm Ericsson (Publ) System and method for inserting advertisement content in 360° immersive video
CN112673634A (zh) * 2018-09-11 2021-04-16 深圳市大疆创新科技有限公司 用于支持渐进式视频比特流切换的系统和方法
US10440416B1 (en) 2018-10-01 2019-10-08 Telefonaktiebolaget Lm Ericsson (Publ) System and method for providing quality control in 360° immersive video during pause
US10757389B2 (en) 2018-10-01 2020-08-25 Telefonaktiebolaget Lm Ericsson (Publ) Client optimization for providing quality control in 360° immersive video during pause
KR102585878B1 (ko) * 2018-10-11 2023-10-10 삼성전자주식회사 타일 및 타일 그룹을 이용하는 비디오 부호화 및 복호화 방법, 및 타일 및 타일 그룹을 이용하는 비디오 부호화 및 복호화 장치
US10779014B2 (en) * 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
US11991376B2 (en) * 2020-04-09 2024-05-21 Intel Corporation Switchable scalable and multiple description immersive video codec
CN116684687B (zh) * 2023-08-01 2023-10-24 蓝舰信息科技南京有限公司 基于数字孪生技术的增强可视化教学方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060034367A1 (en) * 2004-08-13 2006-02-16 Gwang-Hoon Park Method and apparatus to encode image, and method and apparatus to decode image data
CN102100069A (zh) * 2008-07-16 2011-06-15 汤姆逊许可证公司 用于快速信道改变以增大编码效率的可分级视频编码方法
US20150195555A1 (en) * 2014-01-03 2015-07-09 Qualcomm Incorporated Method for coding recovery point supplemental enhancement information (sei) messages and region refresh information sei messages in multi-layer coding
CN105519118A (zh) * 2013-07-11 2016-04-20 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100097124A (ko) * 2007-11-05 2010-09-02 톰슨 라이센싱 신속한 채널 변경 및 향상된 오류 복원성을 위한 스케일러블 비디오 코딩 방법
US8493390B2 (en) * 2010-12-08 2013-07-23 Sony Computer Entertainment America, Inc. Adaptive displays using gaze tracking
US9402082B2 (en) * 2012-04-13 2016-07-26 Sharp Kabushiki Kaisha Electronic devices for sending a message and buffering a bitstream
US9596486B2 (en) * 2013-04-05 2017-03-14 Qualcomm Incorporated IRAP access units and bitstream switching and splicing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060034367A1 (en) * 2004-08-13 2006-02-16 Gwang-Hoon Park Method and apparatus to encode image, and method and apparatus to decode image data
CN102100069A (zh) * 2008-07-16 2011-06-15 汤姆逊许可证公司 用于快速信道改变以增大编码效率的可分级视频编码方法
CN105519118A (zh) * 2013-07-11 2016-04-20 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
US20150195555A1 (en) * 2014-01-03 2015-07-09 Qualcomm Incorporated Method for coding recovery point supplemental enhancement information (sei) messages and region refresh information sei messages in multi-layer coding

Also Published As

Publication number Publication date
EP3459254A1 (en) 2019-03-27
EP3843407A1 (en) 2021-06-30
WO2017201408A1 (en) 2017-11-23
US20170339416A1 (en) 2017-11-23
EP3459254B1 (en) 2021-03-03
US20220159272A1 (en) 2022-05-19
US11184624B2 (en) 2021-11-23
ES2875418T3 (es) 2021-11-10
CN109076245B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN109076245A (zh) 图片中的区域性随机存取
CN103155571B (zh) 译码立体视频数据
CN104769948B (zh) 一种编解码方法、装置及可读存储介质
CN104823449B (zh) 在视频译码中用信号表示关注区和逐渐解码刷新
CN105409219B (zh) 高效率视频译码扩展中的目标输出层的选择
CN106464917B (zh) 用信号表示用于位流分区的hrd参数
CN105191315B (zh) 一种用于对视频信息进行译码的方法和设备
CN104813668B (zh) 在三维视频译码中的自适应性明度补偿
KR101658694B1 (ko) 비디오 코딩에서의 모션 벡터 예측
CN110036641A (zh) 虚拟现实视频中的用信号表示的感兴趣区域或视点的优选呈现
CN104704843B (zh) 视频性质的指示
CN105191317B (zh) 视图内以及跨越视图的深度查找表的预测性译码
CN105874788B (zh) 对3d视频译码中较大预测块的逐段dc译码的简化
CN104604224B (zh) 可缩放视频译码中的变换基底调整
CN104584557B (zh) 对视频数据进行编码、解码的方法、装置以及计算机可读介质
KR101909331B1 (ko) 비디오 코딩에서의 타겟 출력 레이어
CN104429072B (zh) 自适应差域空间和时间参考重构及平滑
CN104885459B (zh) 用于多层译码的多分辨率经解码图片缓冲器管理
CN104704833A (zh) 多视图或3维视频译码中的高级视图间残差预测
CN104641652A (zh) 用于视频译码的帧封装立体三维(3d)视频数据的指示
CN105379286A (zh) 跨层的图片分割的位流限制
CN105580374B (zh) 一种对多层视频数据进行编解码的方法、视频解码设备及存储媒体
CN104685883A (zh) 用于3d视频的经视图间预测运动向量
CN104429083A (zh) 译码用于视频译码的定时信息
CN104471942A (zh) 重新使用参数集用于视频译码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant