CN104756499B - 用于视频译码的方法、设备及计算机可读存储媒体 - Google Patents
用于视频译码的方法、设备及计算机可读存储媒体 Download PDFInfo
- Publication number
- CN104756499B CN104756499B CN201380055112.0A CN201380055112A CN104756499B CN 104756499 B CN104756499 B CN 104756499B CN 201380055112 A CN201380055112 A CN 201380055112A CN 104756499 B CN104756499 B CN 104756499B
- Authority
- CN
- China
- Prior art keywords
- picture
- video
- decoded
- state information
- motion vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/573—Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/58—Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明的技术通常可涉及图片的参考状态。所述技术可存储在对图片进行译码的情况下的所述图片的参考图片的参考状态信息。所述技术接着可利用在对所述图片进行译码的情况下的所述图片的所述参考图片的所述参考状态信息来对后续图片的视频块进行帧间预测。
Description
本申请案主张2012年10月25日申请的美国临时申请案61/718,629的权益,所述申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及视频译码,且更确切地说,涉及关于用于视频译码的参考图片状态的技术。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所定义的标准、目前正在开发的高效率视频译码(HEVC)标准及这些标准的扩展中所描述的视频压缩技术。视频装置可通过实施此类视频压缩技术来更有效率地发射、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测来减少或移除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,视频块也可称作树块、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测,或相对于其它参考图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测产生用于待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据编码的。经帧内译码块是根据帧内译码模式及残余数据而编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可以对残余变换系数进行量化。可扫描一开始按二维阵列排列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以达成更多压缩。
发明内容
本发明中所描述的技术通常涉及视频译码过程,且存储在对使用参考图片中的一或多者的图片进行译码的情况下的参考图片的参考状态信息。以此方式,即使参考图片的参考状态随后改变,视频译码器仍能够确定在对图片进行译码的情况下的参考图片的参考状态。
在一个实例中,本发明描述一种用于对视频数据进行译码的方法。所述方法包含存储第一图片的一或多个参考图片的参考状态信息,所述参考状态信息指示在对第一图片进行译码的情况下的一或多个参考图片的参考状态信息,及基于第一图片的一或多个参考图片的在对第一图片进行译码的情况下的所存储的参考状态信息对第二不同图片内的视频块进行译码。
在一个实例中,本发明描述一种用于对视频数据进行译码的设备。所述设备包含视频译码器,所述视频译码器经配置以存储第一图片的一或多个参考图片的参考状态信息,所述参考状态信息指示在对第一图片进行译码的情况下的一或多个参考图片的参考状态信息,及基于第一图片的一或多个参考图片的在对第一图片进行译码的情况下的所存储的参考状态信息对第二不同图片内的视频块进行译码。
在一个实例中,本发明描述一种用于对视频数据进行译码的设备。所述设备包含用于存储第一图片的一或多个参考图片的参考状态信息的装置,所述参考状态信息指示在对第一图片进行译码的情况下的一或多个参考图片的参考状态信息,及用于基于第一图片的一或多个参考图片的在对第一图片进行译码的情况下的所存储的参考状态信息对第二不同图片内的视频块进行译码的装置。
在一个实例中,本发明描述一种具有存储于其上的指令的计算机可读存储媒体,所述指令在执行时致使一或多个处理器存储第一图片的一或多个参考图片的参考状态信息,所述参考状态信息指示在对第一图片进行译码的情况下的一或多个参考图片的参考状态信息,及基于第一图片的一或多个参考图片的在对第一图片进行译码的情况下的所存储的参考状态信息对第二不同图片内的视频块进行译码。
随附图式及以下描述中陈述一或多个实例的细节。其它特征、目标及优势将从所述描述及所述图式以及从权利要求书显而易见。
附图说明
图1是说明可利用本发明中描述的技术的实例视频编码及解码系统的框图。
图2是说明可实施本发明中描述的技术的实例视频编码器的框图。
图3是说明可实施本发明中描述的技术的实例视频解码器的框图。
图4是说明根据本发明中所描述的一或多个实例技术的实例操作的流程图。
具体实施方式
本发明中所描述的技术通常涉及视频译码过程中的图片的参考状态的检查。作为参考状态的实例,视频译码器可将图片指明(例如,标记)为“用于长期参考”、“用于短期参考”或“不用于参考”。举例来说,为了对图片内的视频块进行帧间预测,视频译码器可建构一个或两个参考图片列表(RefPicList0及/或RefPicList1)。参考图片列表识别可用以帧间预测所述图片内的视频块的参考图片。在本发明中所描述的技术中,视频译码器存储在对图片进行译码的情况下的在RefPicList0及/或RefPicList1中识别的参考图片的参考状态信息。
在一些状况下,视频译码器可需要在对后续图片的视频块进行译码时确定图片的参考图片的参考状态信息。然而,图片的参考图片的参考状态可能已从视频译码器对图片进行译码改变为视频译码器对后续图片进行译码。通过存储在对图片进行译码的情况下的图片的参考图片的参考状态信息,本发明中所描述的技术可允许视频译码器在对后续图片进行译码时确定图片的参考图片的参考状态。
举例来说,视频译码器可需要在改变参考状态的时间之前获得参考图片的参考状态,以实施用于对视频块进行译码的合并/跳过模式或高级运动向量预测(AMVP)模式。仅出于说明的目的,描述关于合并/跳过模式或AMVP模式的技术。然而,本发明中所描述的技术不应被视为限于合并/跳过模式或AMVP模式。
如更详细地描述,在合并/跳过模式或AMVP模式中,视频译码器利用运动向量预测子来确定将进行帧间预测的块的运动向量。运动向量预测子的一个实例为时间运动向量预测子(TMVP)。
TMVP参考时间相邻块的运动向量。时间相邻块存在于除包含进行帧间预测的块的图片之外的图片内。时间相邻块可为不同于与经译码的视频块相关联的图片的图片的相同位置块,但也可使用其它非相同位置块。为易于描述,进行帧间预测的块被称作当前图片中的当前块。时间相邻块存在于时间图片内,其中时间图片为除当前图片之外的图片。
TMVP参考为时间图片的参考图片的图片。举例来说,视频译码器可建构时间图片的两个参考图片列表(RefPicList0及RefPicList1)。为时间相邻块的运动向量的TMVP参考时间图片的RePicList0或RefPicList1中的一者中的参考图片。在用两个运动向量对时间相邻块进行帧间预测(即,双向预测)的实例中,一个运动向量参考RefPicList0中的参考图片,且另一运动向量参考RefPicList1中的图片。在这些实例中,可存在两个TMVP。
在一些实例中,为了利用时间相邻块的一或多个运动向量作为当前块的一或多个运动向量预测子(即,作为当前块的一或多个TMVP),视频译码器可需要确定时间相邻块的一或多个运动向量所参考的参考图片的参考状态。换句话说,视频译码器可需要确定在视频译码器对时间图片进行译码的情况下的在时间图片的RefPicList0及/或RefPicList1中识别的参考图片的参考状态。
一般来说,视频译码器可能已经经配置以存储图片的参考状态信息。然而,图片的参考状态信息可改变。因此,在对时间图片进行译码的情况下的时间图片的RefPicList0及RefPicList1中识别的图片的的参考状态可在随后对当前图片进行译码时丢失。
举例来说,假设在对时间图片进行译码的情况下,时间图片的参考图片的参考状态“用于长期参考图片”。接着,假设在对当前图片进行译码之前,参考图片的参考状态从“用于长期参考图片”改变为“用于短期参考图片”。在此实例中,在视频译码器对时间图片进行译码的情况下为“所使用的长期参考图片”的参考图片的参考状态可在视频译码器对当前图片进行译码时丢失。
在本发明中所描述的技术中,视频译码器存储在对第一图片进行译码的情况下的第一图片(例如,时间图片)的参考图片的参考状态信息。接着,在对第一图片进行译码的情况下的第一图片的参考图片的参考状态信息在对第二不同图片(例如,当前图片)进行译码时可用。举例来说,如果第一图片中的块的运动向量为第二不同图片中的块的运动向量预测子,那么视频译码器可能能够确定在对第一图片进行译码的情况下的第一图片中的块的运动向量所参考的参考图片的参考状态,以确保恰当地帧间预测第二不同图片中的块。
图1为说明可利用本发明中所描述的技术的实例视频编码和解码系统10的框图。如图1中所示,系统10包含源装置12,所述源装置产生经编码视频数据以在稍后时间由目的地装置14解码。源装置12和目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板电脑、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,源装置12和目的地装置14可能经装备以用于无线通信。
目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如,无线通信协议)加以调制,且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可以用于促进从源装置12到目的地装置14的通信的设备。
替代地,可将经编码数据从输出接口22输出到存储装置34。类似地,可通过输入接口从存储装置34存取经编码数据。存储装置34可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置34可对应于文件服务器或可保持由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置34存取所存储的视频数据。文件服务器可以是任何类型的能够存储经编码的视频数据并且将经编码的视频数据发射到目的地装置14的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此连接可包含适合于存取存储在文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置34的传输可为流式传输、下载传输或两者的组合。
本发明的技术不必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如空中电视广播、有线电视发射、卫星电视发射、流式视频传输(例如,经由因特网)、编码数字视频以用于存储在数据存储媒体上、解码存储在数据存储媒体上的数字视频,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一些状况下,输出接口22可包含调制器/解调器(调制解调器)及/或发射器。在源装置12中,视频源18可包含例如视频俘获装置(例如,摄像机)、含有先前俘获的视频的视频存档、用于从视频内容提供者接收视频的视频馈入接口及/或用于产生计算机图形数据作为源视频的计算机图形系统,或此类源的组合等源。作为一个实例,如果视频源18是摄像机,那么源装置12和目的地装置14可以形成所谓的相机电话或视频电话。然而,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。
可由视频编码器20来编码所俘获视频、经预先俘获的视频或计算机产生的视频。可经由源装置12的输出接口22将经编码视频数据直接发射到目的地装置14。还可(或替代地)将经编码视频数据存储到存储装置34上以供稍后由目的地装置14或其它装置存取以用于解码及/或回放。
目的地装置14包括输入接口28、视频解码器30和显示装置32。在一些状况下,输入接口28可包含接收器和/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传送或在存储装置34上提供的经编码视频数据可包含由视频编码器20产生的多种语法元素以供由例如视频解码器30等视频解码器用于解码视频数据。此类语法元素可与在通信媒体上发射、存储在存储媒体上或存储在文件服务器中的经编码视频数据包含在一起。
显示装置32可与目的地装置14集成或在目的地装置14外部。在一些实例中,目的地装置14可包含集成显示装置,且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可根据各种视频译码标准操作。视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-TH.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也被称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。视频压缩标准的其它实例包含MPEG-2和ITU-T H.263。
此外,存在一种新的视频译码标准,即高效率视频译码(HEVC),其正由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。HEVC的最新工作草案(WD)(且在下文中被称作HEVC WD9)截止2013年2月21日可从http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v10.zip获得。
然而,本发明的技术不限于任何特定译码标准。此外,即使本发明中所描述的技术可能不一定符合特定标准,本发明中所描述的技术仍可进一步有助于关于各种标准的译码效率。本发明中所描述的技术也可为未来标准的部分。为便于理解,描述关于正在开发的HEVC标准的技术,但所述技术不限于HEVC标准,且可扩展到其它视频译码标准或不由特定标准定义的视频译码技术。
尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件及软件,以处置对共同数据流或单独数据流中的音频及视频两者的编码。在一些实例中,如果可适用,多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)的其它协议。
视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。在部分以软件实施所述技术时,装置可将软件的指令存储于例如非暂时性计算机可读存储媒体等合适计算机可读存储媒体中,且使用一或多个处理器执行硬件中的指令来执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可以集成为相应装置中的组合编码器/解码器(编解码器)的部分。
JCT-VC正在努力开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置根据例如ITU-T H.264/AVC相对于现有装置的几个额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但是HM可提供多达三十三种帧内预测编码模式。
一般来说,HM的工作模型描述视频帧或图片可以被划分为包含明度和色度样本两者的一连串树块或最大译码单元(LCU)。树块具有与H.264标准的宏块类似的目的。切片包含按译码次序的数个连续树块。视频帧或图片可以被分割成一或多个切片。每一树块可根据四叉树分裂成译码单元(CU)。举例来说,作为四叉树的根节点的树块可分裂成四个子节点,且每一子节点又可为父代节点且可分裂成另外四个子节点。最后的未经分裂的子节点(作为四叉树的叶节点)包括译码节点,即,经译码视频块。与经译码位流相关联的语法数据可界定树块可分裂的最大次数,且还可界定译码节点的最小大小。
CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小,且形状可为正方形。CU的大小可从8x8像素到具有最大64x64像素或更大的树块的大小变动。每一CU可以含有一或多个PU及一或多个TU。举例来说,与CU相关联的语法数据可描述将CU分割成一或多个PU。划分模式可以在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有区别。PU可分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU可为正方形或非正方形形状。
HEVC标准允许根据TU变换,TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而设置,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU残余样本可以使用一种被称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数,所述变换系数可以经量化。
一般来说,PU包含与预测过程有关的数据。举例来说,当PU经帧内模式编码时,PU可包含描述PU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含定义PU的运动向量的数据。定义PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片及/或运动向量的参考图片列表(例如,RefPicList0(L0)或RefPicList1(L1))。
TU可用于变换及量化过程。具有一或多个PU的给定CU还可包含一或多个变换单元(TU)。在预测之后,视频编码器20可计算对应于PU的残余值。残余值包括像素差值,所述像素差值可变换成变换系数、经量化且使用TU进行扫描以产生串行化变换系数以用于熵译码。本发明通常使用术语“视频块”来指CU的译码节点。在一些特定情况下,本发明还可使用术语“视频块”来指包含译码节点以及PU及TU的树块,即LCU或CU。
举例来说,对于根据当前正在开发的高效率视频译码(HEVC)标准的视频译码,可将视频图片分割成译码单元(CU)、预测单元(PU)及变换单元(TU)。CU一般是指充当基本单元的图像区域,各种译码工具被应用于所述基本单元以实现视频压缩。CU通常具有正方形几何形状,且可以被认为类似于例如ITU-T H.264等其它视频译码标准下的所谓“宏块”。
为实现更好的译码效率,CU可取决于其含有的视频数据而具有可变大小。也就是说,CU可被分割或“分裂”成较小块或子CU,其中的每一者也可被称作CU。另外,分别出于CU的预测及变换的目的,未分裂成子CU的每一CU可进一步被分割成一或多个PU及TU。
PU可以被认为类似于例如H.264等其它视频译码标准下的块的所谓分割区。PU为执行块的预测以产生“残余”系数的基础。CU的残余系数表示CU的视频数据与使用CU的一或多个PU确定的CU的经预测数据之间的差。具体来说,一或多个PU指定出于预测的目的如何分割CU,及使用哪一预测模式来预测含于CU的每一分割区内的视频数据。
CU的一或多个TU指定CU的残余系数的块的分割区,基于此将变换应用于块以产生CU的残余变换系数的块。一或多个TU也可与所应用的变换的类型相关联。变换将残余系数从像素或空间域转换成例如频域等变换域。另外,一或多个TU可指定参数,基于所述参数将量化应用于残余变换系数的所得块以产生经量化残余变换系数的块。可量化残余变换系数以可能减小用以表示系数的数据的量。
CU通常包含表示为Y的一个明度分量及表示为U及V的两个色度分量。换句话说,未进一步分裂成子CU的给定CU可包含Y、U及V分量,出于CU的预测及变换的目的,其中的每一者可进一步被分割成一或多个PU及TU,如先前描述。举例来说,取决于视频取样格式,U及V分量的大小在样本的数目方面可与Y分量的大小相同或不同。因此,可对给定CU的Y、U及V分量中的每一者执行上文关于预测、变换及量化所描述的技术。
为了对CU进行编码,首先基于CU的一或多个PU导出CU的一或多个预测子。预测子为含有CU的经预测数据的参考块,且是基于CU的对应PU导出的,如先前描述。举例来说,PU指示将确定经预测数据的CU的分割区,及用以确定经预测数据的预测模式。可经由帧内(I)预测(即空间预测)或帧间(P或B)预测(即,时间预测)模式来导出预测子。因此,一些CU可使用相对于相同帧中的相邻参考块或CU的空间预测来进行帧内译码(I),而其它CU可相对于其它帧中的参考块或CU进行帧间译码(P或B)。
在基于CU的一或多个PU识别一或多个预测子后,即刻计算对应于一或多个PU的CU的原始视频数据与含于一或多个预测子中的CU的经预测数据之间的差。也被称作预测残余的此差包括残余系数,且指代由一或多个PU指定的CU的部分与一或多个预测子之间的像素差,如先前描述。残余系数通常布置成对应于CU的一或多个PU的二维(2-D)阵列。
为实现进一步压缩,通常例如使用离散余弦变换(DCT)、整数变换、卡忽南-拉维(K-L)变换或另一变换来变换预测残余。变换将空间域中的预测残余(即,残余系数)转换成变换域(例如频域)中的残余变换系数,也如先前所描述。变换系数通常还布置成对应于CU的一或多个TU的2-D阵列。为了进一步压缩,可量化残余变换系数以可能减小用以表示系数的数据的量,也如先前所描述。
为了实现又进一步压缩,熵译码器随后使用上下文自适应可变长度译码(CAVLC)、上下文自适应二进位算术译码(CABAC)、概率区间分割熵译码(PIPE)或另一熵译码方法对所得残余变换系数进行编码。熵译码可通过相对于其它CU减少或移除由系数表示的CU的视频数据中所固有的统计冗余而实现此进一步压缩。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列视频图片中的一或多者。GOP可包含GOP的标头、图片中的一或多者的标头或其它地方中的语法数据,其描述GOP中包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可以对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
作为实例,HM支持各种PU大小的预测。假设特定CU的大小是2Nx2N,则HM支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N及nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是另一方向分割成25%及75%。CU的对应于25%分割区的部分表示成“n”,接着是用“上”、“下”、“左”或“右”指示。因而,举例来说,“2NxnU”是指水平地分割的2Nx2N CU,其中上方有2Nx0.5N PU,而下方有2Nx1.5N PU。
在本发明中,“NxN”与“N乘N”可以互换使用来指代在垂直和水平尺寸方面的视频块的像素尺寸,例如,16x16像素或16乘16像素。一般来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样,NxN块一般来说在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成行及列。此外,块未必需要在水平方向与垂直方向上具有相同数目的像素。举例来说,块可包括NxM像素,其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可以计算用于CU的TU的残余数据。PU可包括空间域(还称为像素域)中的像素数据,且TU在将变换应用到残余视频数据之后可包括变换域中的系数,所述变换例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换。所述残余数据可对应于未编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残余数据的TU,且接着变换TU以产生用于CU的变换系数。
在进行用于产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化通常是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与变换系数中的一些或全部相关联的位深度。举例来说,n位值可在量化期间被舍入到m位值,其中n大于m。
在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,视频编码器20可以例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对一维向量进行熵编码。视频编码器还20可熵编码与经编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可(例如)与符号的相邻值是否为非零有关。为了执行CAVLC,视频编码器20可选择用于待发射的符号的可变长度码。可建构VLC中的码字以使得相对较短代码对应于更有可能的符号,而较长代码对应于不太可能的符号。以此方式,使用VLC可例如实现优于针对待发射的每一符号使用等长度码字的位节省。概率确定可基于指配给符号的上下文。
视频编码器20及视频解码器30可根据本发明的技术来配置。举例来说,视频编码器20及视频解码器30可经配置以存储在对图片进行译码的情况下的每一图片的参考图片的参考状态信息。作为实例,参考状态信息指示参考图片经识别为“用于短期参考”、“用于长期参考”还是“不用于参考”。如更详细地描述,视频编码器20及视频解码器30可依赖于在对图片进行译码的情况下的图片的参考图片的参考状态信息,以帧间预测后续图片的块。
举例来说,视频编码器20及视频解码器30可经配置以实施合并/跳过模式或高级运动向量预测(AMVP)模式来帧间预测当前图片的当前块。应理解尽管描述关于合并/跳过模式及AMVP模式的技术,但技术不限于仅适用于合并/跳过模式及AMVP模式。视频编码器20及视频解码器30可经配置以甚至在合并/跳过模式或AMVP模式并未用于帧间预测的实例中实施本发明中所描述的技术。
在合并/跳过模式或AMVP模式中,视频编码器20并未用信号发出且视频解码器30并未接收当前块的实际运动向量的信息。而是,视频编码器20用信号发出且视频解码器30接收信息,视频解码器30从所述信息导出当前块的运动向量。
举例来说,在合并/跳过模式或AMVP模式中,视频编码器20及视频解码器30各自建构候选运动向量预测子的列表。运动向量预测子为除进行帧间预测的块之外的块(即,除当前块之外的块)的运动向量。举例来说,视频解码器30可确定是否对与当前块空间上相邻的块(即,当前图片中的与当前块相邻的块)进行帧间预测,且包含候选运动向量预测子的列表中的空间相邻块的一或多个运动向量。
作为另一实例,视频解码器30可确定是否对与当前块时间上相邻的块(即,除当前图片之外的图片中的块)进行帧间预测,且包含候选运动向量预测子的列表中的时间相邻块的一或多个运动向量。包含时间相邻块的图片被称作时间图片,因为在与译码或显示当前图片的时间不同的时间译码或显示时间图片。举例来说,时间图片为在当前图片之前译码的图片,但可比当前图片稍早或稍晚显示。
在一些多视图译码技术中,时间图片可为不同于包含当前块的图片的视图中的图片。在此实例中,可同时显示时间图片及当前图片。然而,可在与对当前图片进行译码的时间不同的时间对不同视图中的图片进行译码。因此,时间图片可为与当前图片相同的视图中的图片或与当前图片不同的视图中的图片。在任一实例中,时间图片为不同于当前图片(即,不同于包含将预测的当前块的图片)的图片。
在一些实例中,时间相邻块可包含当前块在当前图片中包含的时间图片中的相同区域。在此实例中,时间相邻块可被认为是与当前块位于相同位置。
在一些实例中,时间相邻块可位于右下方,其中当前块将位于时间图片中。举例来说,视频编码器20及视频解码器30可确定位于当前块的右下方的当前图片中的块的位置。视频编码器20及视频解码器30可利用当前图片中的右下块的所确定的位置信息来识别时间图片中的块。时间图片中的此经识别块为时间相邻块的另一实例。
形成当前块的运动向量预测子的空间相邻块的运动向量可被称为空间运动向量预测子(SMVP)。形成当前块的一或多个运动向量预测子的时间相邻块的一或多个运动向量可被称为一或多个时间运动向量预测子(一或多个TMVP)。因此,视频解码器30可建构包含SMVP及/或TMVP的候选运动向量预测子的列表。视频编码器20可利用类似技术也在源装置12侧上建构候选运动向量预测子的列表。
视频编码器20可用信号发出到候选运动向量预测子的列表中的索引,且视频解码器30可基于到候选运动向量预测子的列表中的用信号发出的索引选择一或多个运动向量预测子。视频解码器30利用一或多个运动向量预测子来导出当前块的一或多个运动向量。
举例来说,在合并/跳过模式中,视频解码器30将当前块的一或多个运动向量设定为等于一或多个选定运动向量预测子。在AMVP模式中,除了用信号发出到候选运动向量预测子的列表中的索引之外,视频编码器20还可用信号发出一或多个选定运动向量预测子与当前块的一或多个实际运动向量之间的运动向量差(MVD)。在此实例中,视频解码器30可接收MVD,且基于MVD及一或多个选定运动向量预测子来确定当前块的一或多个运动向量。
在一些实例中,为了实施合并/跳过模式或AMVP模式,视频编码器20及视频解码器30可需要确定在对图片进行译码的情况下的图片的参考图片的参考状态。举例来说,为了利用TMVP,视频编码器20及视频解码器30可需要确定时间图片的参考图片的参考状态。
举例来说,在对时间图片进行译码时,视频编码器20及视频解码器30可各自建构一个或两个参考图片列表(即,时间图片的RefPicList0及时间图片的RefPicList1)。时间图片的RefPicList0及RefPicList1识别可用以帧间预测时间图片的块的参考图片,所述参考图片包含用以帧间预测时间相邻块的参考图片。如果对时间相邻块进行单向预测(即,用一个运动向量进行预测),那么时间相邻块的运动向量可参考RefPicList0中的参考图片或RefPicList1中的参考图片。如果对时间相邻块进行双向预测(即,用两个运动向量进行预测),那么时间相邻块的第一运动向量可参考RefPicList0中的参考图片,且时间相邻块的第二运动向量可参考RefPicList1中的参考图片。
如果视频编码器20及视频解码器30确定在当前块的候选运动向量预测子的列表中将包含时间相邻块的一或多个运动向量,或确定时间相邻块的一或多个运动向量将用于导出当前块的一或多个运动向量,那么视频编码器20及视频解码器30可需要确定在对时间图片进行译码的情况下的时间相邻块的一或多个运动向量所参考的一或多个参考图片的参考状态。举例来说,假设用参考时间图片的RefPicList0中的第三图片的运动向量对时间相邻块进行单向预测。在此实例中,视频编码器20及视频解码器30可需要确定在视频编码器20及视频解码器30对时间图片进行译码的情况下的时间图片的RefPicList0中的第三图片的参考状态。
举例来说,在子条款8.5.3.1中,HEVC WD9定义函数LongTermRefPic。在子条款8.5.3.1中,HEVC WD9陈述如下:
如下定义函数LongTermRefPic(picX,refIdx,LX),其中X为0或1。如果来自图片picX的参考图片列表LX的具有索引refIdx的图片在picX为当前图片时被标记为“用于长期参考”,那么LongTermRefPic(picX,refIdx,LX)等于1;否则LongTermRefPic(picX,refIdx,LX)等于0。
跟上先前实例(例如,用参考时间图片的RefPicList0中的第三图片的运动向量对时间相邻块进行单向预测),为了实施当前图片中的当前块的LongTermRefPic函数,picX等于时间图片,refIdx等于2(假定第一参考图片的索引为0),且LX等于RefPicList0。换句话说,在此实例中,LongTermRefPic函数可被认为是LongTermRefPic(时间图片,2,RefPicList0)。在此实例中,如果在视频编码器20及视频解码器30对时间图片进行译码的情况下时间图片的RefPicList0中的第三图片经识别为“用于长期参考”,那么LongTermRefPic函数等于一。而且,在此实例中,如果在视频编码器20及视频解码器30对时间图片进行译码的情况下时间图片的RefPicList0中的第三图片未被识别为“用于长期参考”,那么LongTermRefPic函数等于零。
根据上文实例,LongTermRefPic函数是基于在对时间图片进行译码的情况下(即,“在picX为当前图片时”,如HEVC WD9中所陈述)的时间图片的参考图片的参考状态。如果在对时间图片进行译码的情况下的时间图片的参考图片的参考状态丢失,那么视频编码器20及视频解码器30可能不能够符合HEVC标准的要求。举例来说,如果在对时间图片进行译码的情况下的时间图片的参考图片的参考状态丢失,那么视频编码器20及视频解码器30可能不能够实施LongTermRefPic函数。
应理解HEVC WD9中的LongTermRefPic函数的描述是仅出于说明的目的而提供的,且不应被视为具限制性。本发明中所描述的技术可适用于除LongTermRefPic函数之外的目的,以及可适用于除HEVC标准之外的标准。
根据本发明中所描述的技术,视频编码器20及视频解码器30存储在对图片进行译码的情况下的每一图片的参考图片的参考状态信息。以此方式,如果稍后利用图片的块的一或多个运动向量作为当前图片的当前块的一或多个TMVP,那么图片的参考图片的参考状态信息为可用的。
可存在视频编码器20及视频解码器30可存储图片的参考图片的参考状态信息的各种方式。作为一个实例,视频编码器20及视频解码器30可存储图片的参考图片列表中的每一者的旗标列表。如果在对图片进行译码的情况下参考图片经识别为“用于长期参考”,那么旗标的值可为一。如果在对图片进行译码的情况下参考图片未被识别为“用于长期参考”,那么旗标的值可为零。
举例来说,视频编码器20及视频解码器30可各自维持RefPicListX的被称作usedForLongTermX的旗标列表,其中X等于0或1。举例来说,为了对图片进行译码,视频编码器20及视频解码器30可各自建构图片的RefPicList0及/或图片的RefPicList1。在此实例中,usedForLongTerm0可包含RefPicList0中的经识别为“用于长期参考”的参考图片的旗标值一,且可包含RefPicList0中的未被识别为“用于长期参考”的参考图片的旗标值零。类似地,usedForLongTerm1可包含RefPicList1中的经识别为“用于长期参考”的参考图片的旗标值一,且可包含RefPicList1中的未被识别为“用于长期参考”的参考图片的旗标值零。
换句话说,在视频编码器20及视频解码器30建构图片的RefPicListX之后,如果经识别为RefPicListX[i]的图片被标记为“用于长期参考”,那么视频编码器20及视频解码器30可将usedForLongTermX[i]的值设定为等于一,否则等于零。在一些实例中,视频编码器20及视频解码器30可将usedForLongTermX旗标列表存储于相应经解码图片缓冲器(DPB)中;然而,对于视频编码器20及视频解码器30来说,将usedForLongTermX旗标列表存储于除相应DPB之外的位置中可为可能的。一般来说,usedForLongTermX旗标列表可用于相应DPB中的每一图片的每一参考图片列表。
视频编码器20的DPB及视频解码器30的DPB可存储经解码图片以及关于经解码图片的信息。举例来说,作为图片的编码过程的部分,视频编码器20对图片的经编码块进行解码,且将经解码图片存储于视频编码器20的DPB中,以使得视频编码器20可利用经解码图片以用于帧间预测后续图片。视频解码器30可对图片进行解码,且将经解码图片存储于其DPB中,以使得视频解码器30可利用经解码图片以用于帧间预测后续图片。因此,视频编码器20的DPB及视频解码器30的DPB可为存储在对图片进行译码(即,在适当时编码或解码)的情况下的图片的参考图片的参考状态信息的合适位置。
在本发明中所描述的技术中,视频编码器20及视频解码器30可使用在对图片进行译码的情况下的图片的所存储的参考状态信息实施LongTermRefPic函数。举例来说,LongTermRefPic(picX,refIdx,LX)传回picX的usedForLongTermX[refIdx]的值。举例来说,视频编码器20及视频解码器30可基于存储于userForLongTermX[refIdx]中的值确定在对图片进行译码的情况下的图片的参考图片的参考状态。
作为一个实例,假设picX为包含时间相邻块的时间图片,所述时间相邻块的一或多个运动向量用以确定当前块的一或多个运动向量。而且,假设用参考时间图片的RefPicList0中的第二参考图片(即,RefPicList0的refIdx为1)的一个运动向量及参考时间图片的RefPicList1中的第四参考图片(即,RefPicList1的refIdx为3)的另一运动向量对时间相邻块进行双向预测。在此实例中,为了实施LongTermRefPic(时间图片,1,RefPicList0)函数,视频编码器20及视频解码器30将确定存储于时间图片的usedForLongTerm0[1]中的值。为了实施LongTermRefPic(时间图片,3,RefPicList1)函数,视频编码器20及视频解码器30将确定存储于时间图片的usedForLongTerm1[3]中的值。以此方式,视频编码器20及视频解码器30可能能够在对当前图片进行译码时确定在对时间图片进行译码的情况下的时间图片的参考图片的参考状态。
在对图片进行译码的情况下的图片的参考图片的参考状态信息不应与视频编码器20及视频解码器30可以其它方式执行的图片的一般状态标记混淆。举例来说,视频编码器20及视频解码器30可能已经经配置以将图片指明(即,标记)为“用于长期参考”、“用于短期参考”或“不用于参考”,且将此些名称存储于相应DPB中。这些图片的名称可改变。举例来说,当前存储于DPB中的图片可标记为“用于短期参考”,但可改变为“用于长期参考”。在此状况下,视频编码器20及视频解码器30可将图片的“用于长期参考”名称存储于相应DPB中。
将图片标记为“用于长期参考”、“用于短期参考”或“不用于参考”可指示图片的当前状态。然而,图片的当前状态可不提供关于图片的先前状态的任何信息,更不用说在所述图片被用作参考图片时图片的状态。
如上文所描述,作为一个实例,usedForLongTermX旗标列表可在参考图片用以帧间预测图片时存储参考图片的状态。以此方式,可存在与每一图片相关联的usedForLongTermX旗标列表。举例来说,在第一图片的译码期间,视频编码器20及视频解码器30可存储与第一图片相关联的usedForLongTerm0及/或usedForLongTerm1旗标列表。在第二图片的译码期间,视频编码器20及视频解码器30可存储与第二图片相关联的usedForLongTerm0及/或usedForLongTerm1旗标列表,等等。
与第一图片相关联的usedForLongTerm0及/或usedForLongTerm1旗标列表可不同于与第二图片相关联的usedForLongTerm0及/或usedForLongTerm1旗标列表。举例来说,即使第一图片及第二图片使用相同参考图片中的一或多者以用于帧间预测,由第一及第二图片两者使用的参考图片的参考状态从视频编码器20或视频解码器30对第一图片进行译码改变为视频编码器20及视频解码器30对第二图片进行译码仍可为可能的。图片的usedForLongTerm0及/或usedForLongTerm1旗标列表对所述图片来说是唯一的,且视频编码器20及视频解码器30可存储进行译码的每一图片的usedForLongTerm0及/或usedForLongTerm1旗标列表。
因此,在本发明中所描述的技术中,视频编码器20及视频解码器30可经配置以存储在对另一图片进行译码的情况下的图片的当前状态,以及在所述图片为另一图片的参考图片时图片的状态。在一些状况下(例如在使用一或多个TMVP时),对当前块进行译码不应取决于为时间相邻块的参考图片的图片的当前状态。而是,在所述图片充当时间相邻块的参考图片时图片的状态可为相关的。本发明中所描述的技术允许视频编码器20及视频解码器30存储在对时间图片进行译码的情况下的时间图片的参考图片的参考状态信息。
如上文所描述,一或多个TMVP为时间相邻块的一或多个运动向量。在一些实例中,时间相邻块的一或多个运动向量可参考在与时间图片及当前图片相同的视图中的一或多个图片。然而,本发明中所描述的技术不限于此。
本发明中所描述的技术可扩展到多视图译码。在多视图译码中,存在各自包含若干图片的多个视图。举例来说,第一视图可包含图片的第一集合,且第二视图可包含图片的第二集合。可存在比第一及第二视图多的视图。图片的第一集合及图片的第二集合可包含实质上类似但具有水平视差的视频内容。在观察者同时观察到图片的第一及第二集合两者时,观察者感知到包含3D容积而非被限制于显示装置32的2D区域的3D视频。
在非多视图译码中,可仅存在一个视图。在这些实例中,时间相邻块的一或多个运动向量可参考在与时间图片相同的视图中的图片。然而,在多视图译码中,时间相邻块的一或多个运动向量可参考不同于包含时间图片的视图的另一视图中的图片。举例来说,在多视图译码中,时间图片及当前图片可在相同视图中,但时间图片的一或多个运动向量参考除包含时间图片及当前图片的视图之外的视图中的图片。
参考另一视图中的图片的运动向量可被称为视差运动向量。因此,在时间相邻块的一或多个运动向量参考另一视图中的图片的实例中,一或多个TMVP可为一或多个视差运动向量。
在一些实例中,多视图译码可需要用以帧间预测当前视图中的当前图片中的块的其它视图中的图片与当前图片同时显示。举例来说,假设当前图片及时间图片为当前视图的图片。而且,假设时间图片的运动向量参考另一视图中的图片。在此实例中,多视图译码可需要时间图片及其它视图中的图片同时显示。
显示图片的时间可由图片的图片次序计数(POC)值定义。举例来说,具有较小POC值的图片可比具有较大POC值的图片稍早显示。图片的显示时间不应与图片的译码时间混淆。举例来说,具有较小POC值的图片可比具有较大POC值的图片稍早显示,但具有较小POC值的图片可比对具有较大POC值的图片进行译码的时间稍晚进行译码。
在多视图译码中,将同时显示的不同视图中的图片可被指派相同POC值。举例来说,时间图片的POC值及时间相邻块的一或多个运动向量所参考的其它视图中的图片的POC值可相同。而且,在多视图译码中,在第一视图中的图片利用第二视图中的图片以用于帧间预测时,在对第一视图中的图片进行译码的情况下,第二视图中的图片可被认为是“用于长期参考”。
在本发明中所描述的技术中,在视频编码器20及视频解码器30建构图片的RefPicList0及/或RefPicList1时,视频编码器20及视频解码器30可包含任一或两个参考图片列表中的来自不同视图的图片。举例来说,RefPicList0及RefPicList1可识别参考图片的POC值。如果RefPicList0或RefPicList1中所识别的参考图片的POC值不同于经译码的图片的POC值,那么参考图片属于与经译码的图片相同的视图。如果RefPicList0或RefPicList1中所识别的参考图片的POC值与经译码的图片的POC值相同,那么参考图片属于不同于经译码的图片的视图。
如上文所描述,在对图片进行译码的情况下,属于不同于经译码的图片的视图的参考图片可经指明为“用于长期参考”。在一些实例中,如果由RefPicListX[i]识别的图片具有与经译码的图片相同的POC值,那么视频编码器20及视频解码器30可将usedForLongTermX[i]的值设定为等于一。在这些实例中,如果由RefPicListX[i]识别的图片不具有与经译码的图片相同的POC值,那么视频编码器20及视频解码器30可将usedForLongTermX[i]的值设定为等于零。
举例来说,在一些实例中,如果由RefPicListX[i]识别的参考图片经指明为“用于长期参考”,那么视频编码器20及视频解码器30在对图片进行译码时可将usedForLongTermX[i]的值设定为等于一,否则等于零。这些实例可适用于多视图译码及非多视图译码两者。
在一些替代实例中,如果由RefPicListX[i]识别的参考图片具有与经译码的图片相同的POC值,那么视频编码器20及视频解码器30在对图片进行译码时可将usedForLongTermX[i]的值设定为等于一,否则等于零。在这些替代实例中,如果由RefPicListX[i]识别的参考图片经指明为“用于长期参考”,但不具有与经译码的图片相同的POC值,那么视频编码器20及视频解码器30可将usedForLongTermX[i]的值设定为等于零。举例来说,在这些替代实例中,即使在对图片进行译码时参考图片经指明为“用于长期参考”,如果参考图片的POC值不同于经译码的图片的POC值,那么视频编码器20及视频解码器30仍可将对应于参考图片的usedForLongTermX的条目设定为等于零。这些替代实例可更适用于多视图译码,但在非多视图译码的情况下也可为可用的。
换句话说,在一些实例中,usedForLongTermX[i]的值是基于由RefPicListX[i]识别的参考图片是标记为“用于长期参考”还是未被标记为“用于长期参考”。在一些替代实例中,usedForLongTermX[i]的值是基于由RefPicListX[i]识别的参考图片是具有与经译码的图片相同的POC值还是不具有与经译码的图片相同的POC值。在任一实例中,视频编码器20及视频解码器30可基于与所述图片相关联的usedForLongTermX旗标列表的值实施图片的LongTermRefPic函数。
如上文所描述,在一些实例中,为了符合在HEVC标准的情况下的要求(作为一个非限制性实例),技术允许视频编码器20及视频解码器30确定在对时间图片进行译码的情况下的时间图片的参考图片的状态信息。下文描述视频编码器20及视频解码器30可确定在对时间图片进行译码的情况下的时间图片的参考图片的状态信息的一个实例原因。应理解此描述是仅出于说明的目的而提供的,且不应被视为具限制性。又,本发明中所描述的技术不限于HEVC标准,或不限于合并或AMVP模式。
在合并或AMVP模式期间,在视频编码器20或视频解码器30确定是否包含到合并或AMVP候选者列表中的空间或时间候选运动向量(即,SMVP或TMVP)时,视频编码器20或视频解码器30可比较目标参考图片(例如,时间图片)的长期或短期状态与候选运动向量的参考图片(例如,时间图片的参考图片)的长期或短期状态。在一些状况下,仅在这些图片中的两者的状态相同时(在时间图片的译码时),将候选运动向量添加到候选者列表中。需要此过程,且对于视频编码器20及视频解码器30两者可存在相同过程。
根据本发明中所描述的技术,为了存取时间候选运动向量所参考的参考图片(例如,时间图片的参考图片)的状态,可使用picX的usedForLongTermX[refIdx],其中picX为相同位置图片(例如,时间图片)。举例来说,如果picX的usedForLongTermX[refIdx]为1,那么其意味着具有picX的RefPicListX的refIdx的参考图片为长期参考图片,否则为短期参考图片。在此实例中,具有RefPicListX的refIdx的参考图片为对picX的参考图片,且picX参考时间图片。时间图片包含时间相邻块,所述时间相邻块的运动向量信息可潜在地用以确定当前块的运动向量信息。
以此方式,视频译码器(例如,视频编码器20或视频解码器30)可经配置以实施技术。举例来说,视频译码器可存储第一图片的一或多个参考图片的参考状态信息,其中参考状态信息指示在对第一图片进行译码的情况下的一或多个参考图片的参考状态信息。视频译码器可基于第一图片的一或多个参考图片的在对第一图片进行译码的情况下的所存储的参考状态信息对第二不同图片内的视频块进行译码。在一些实例中,在对第一图片进行译码的情况下的一或多个参考图片中的参考图片的参考状态不同于在对第二图片进行译码的情况下的参考图片的参考状态。
视频译码器可建构第一图片的至少一个参考图片列表。视频译码器可存储在至少一个参考图片列表中识别的参考图片中的每一者的参考状态信息。举例来说,视频译码器可存储第一图片的usedForLongTermX旗标列表。在一些实例中,usedForLongTermX旗标列表可存储第一图片的参考图片中的参考图片的值,所述值指示参考图片是经指明为“用于长期参考”还是未被指明为“用于长期参考”。在一些实例中,usedForLongTermX旗标列表可存储第二图片的参考图片中的参考图片的值,所述值指示参考图片的图片次序计数(POC)值为与第一图片的POC值相同的POC值还是参考图片的POC值不同于第一图片的POC值。
在一些实例中,视频译码器可确定是否从第一图片中的视频块的运动向量导出第二图片中的视频块的运动向量(例如,TMVP将用于合并/跳过模式或AMVP模式)。在将从第一图片中的视频块的运动向量导出第二图片中的视频块的运动向量时,视频译码器可确定第一图片中的视频块的运动向量所参考的第一图片的一或多个参考图片中的参考图片。视频译码器可基于所存储的参考状态信息确定在对第一图片进行译码的情况下的所确定的参考图片的参考状态。在这些实例中,视频译码器可基于所确定的参考状态对第二图片内的视频块进行译码(例如,编码或解码)。
图2是说明可实施本发明中描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内及帧间译码(即,帧内预测或帧间预测)。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的压缩模式中的任一者。
如图2中所示,视频编码器20接收待编码视频图片内的当前视频块。在图2的实例中,视频编码器20包含模式选择单元40、参考图片存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46及分割单元48。为了视频块重建,视频编码器20还包含反量化单元58、反变换单元60和求和器62。还可包含解块滤波器(图2中未图示)以便对块边界进行滤波,以从经重建视频移除成块效应假影。必要时,解块滤波器通常将对求和器62的输出进行滤波。除解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未图示这些滤波器,但是必要时,这些滤波器可以对求和器50的输出进行滤波(作为环路内滤波器)。
在一些实例中,模式选择单元40或模式选择单元40结合视频编码器20的其它单元可实施本发明中所描述的技术。举例来说,模式选择单元40可存储在视频编码器20对第一图片进行编码的情况下的第一图片的参考图片的参考状态信息。模式选择单元40可基于在视频编码器20对第一图片进行编码的情况下的第一图片的参考图片的参考状态信息帧间预测第二图片的块。
作为一个实例,为了帧间预测第二图片中的块,模式选择单元40可确定将从第一图片中的块的运动向量确定第二图片中的块的运动向量。在此实例中,模式选择单元40可利用第二图片的参考图片的参考状态信息来确定第二图片中的块的运动向量。模式选择单元40可将在对第一图片进行译码的情况下的第一图片的参考图片的参考状态信息存储于参考图片存储器64中。参考图片存储器64为视频编码器20的经解码图片缓冲器(DPB)的一个实例。
本发明的方面不限于实施本发明中所描述的技术的模式选择单元40。在一些实例中,处理器或处理单元(并未具体说明)可实施本发明中所描述的技术。而且,除参考图片存储器64之外的缓冲器可存储图片的参考图片的参考状态信息。
在编码过程期间,视频编码器20接收待译码的视频图片或切片。图片或切片可划分成多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个块执行所接收视频块的帧间预测性译码以提供时间压缩。帧内预测单元46可替代地相对于与待译码的块相同的图片或切片中的一或多个相邻块执行所接收视频块的帧内预测性译码以提供空间压缩。视频编码器20可以执行多个译码遍次,例如,以针对每一视频数据块选择一种适当的译码模式。
此外,分割单元48可以基于前述译码遍次中的前述划分方案的评估将视频数据块分割成子块。举例来说,分割单元48最初可以将图片或切片分割成若干LCU,并且基于速率失真分析(例如,速率失真优化)将LCU中的每一者分割成若干子CU。模式选择单元40可以进一步产生指示LCU划分成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。
模式选择单元40可例如基于误差结果选择译码模式(帧内或帧间)中的一者,且将所得经帧内或经帧间译码块提供到求和器50以产生残余块数据,且提供到求和器62以重建用作参考图片的经编码块。模式选择单元40还将语法元素(例如运动向量、帧内模式指示符、分割信息和其它这些语法信息)提供到熵编码单元56。
运动估计单元42可经配置以根据用于视频序列的预定模式确定用于视频切片的帧间预测模式。运动估计单元42与运动补偿单元44可高度集成,但出于概念目的分开加以说明。运动估计单元42执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的移位。
如上文所描述,运动向量预测子可为除当前块之外的块的运动向量,且有可能为相邻块的运动向量。运动估计单元42还可确定运动向量差(MVD)。举例来说,运动估计单元42可确定当前块的运动向量与运动向量预测子之间的差(例如,X坐标的增量及Y坐标的增量)。
预测性块是被发现在像素差方面与待译码视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可以内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可以相对于完整像素位置及分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可以选自第一参考图片列表(RefPicList0)或第二参考图片列表(RefPicList1),其中的每一个识别存储于参考图片存储器64中的一或多个参考图片。运动估计单元42向熵编码单元56和运动补偿单元44发送计算出的运动向量。
由运动补偿单元44执行的运动补偿可以涉及基于由运动估计单元42确定的运动向量提取或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44即刻可以在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器50通过从经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块,如下文所论述。一般来说,运动估计单元42相对于明度分量执行运动估计,并且运动补偿单元44对于色度分量及明度分量两者使用基于明度分量计算的运动向量。模式选择单元40还可产生与视频块及视频切片相关联的供视频解码器30在解码视频切片的视频块时使用的语法元素。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可以对当前块进行帧内预测。确切地说,帧内预测单元46可以确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可以(例如)在单独的编码编次期间使用各种帧内预测模式来编码当前块,并且帧内预测单元46(或在一些实例中为模式选择单元40)可以从测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可使用速率失真分析计算用于各种经测试帧内预测模式的速率失真值,且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元46可以根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。
在任何情况下,在选择了用于一个块的帧内预测模式之后,帧内预测单元46可以将指示用于所述块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。
视频编码器20通过从经译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可以执行概念上类似于DCT的其它变换。还可使用小波变换、整数变换、子频带变换或其它类型的变换。
在任何状况下,变换处理单元52向残余块应用所述变换,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可将所述变换系数量化以进一步减小位速率。量化过程可减少与变换系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可以接着执行对包含经量化的变换系数的矩阵的扫描。或者,熵编码单元56可在熵译码期间执行扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码方法或技术。在由熵编码单元56进行熵编码之后,可将经编码位流发射到视频解码器30,或将经编码位流存档以供稍后发射或由视频解码器30检索。熵编码单元56还可对正被编码的当前视频切片的运动向量及其它语法元素进行熵编码。
反量化单元58及反变换单元60分别应用反量化及反变换以在像素域中重建残余块,例如以供稍后用作参考块。运动补偿单元44可以通过将残余块添加到参考图片存储器64的图片中的一者的预测性块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建的残余块以计算子整数像素值用于运动估计。求和器62将经重建的残余块添加到由运动补偿单元44产生的运动补偿预测块以产生经重建视频块用于存储在参考图片存储器64中。经重建视频块可由运动估计单元42和运动补偿单元44使用作为参考块以对后续视频图片中的块进行帧间译码。
图3是说明可实施本发明中描述的技术的实例视频解码器30的框图。在图3的实例中,视频解码器30包含熵解码单元80、模式选择单元81、反量化单元86、反变换单元88、求和器90及参考图片存储器92。模式选择单元81包含运动补偿单元82和帧内预测单元84。在一些实例中,视频解码器30可执行总体上与关于来自图2的视频编码器20描述的编码遍次互逆的解码遍次。
在一些实例中,模式选择单元81或模式选择单元81结合视频解码器30的其它单元可实施本发明中所描述的技术。举例来说,模式选择单元81可存储在视频解码器30对第一图片进行解码的情况下的第一图片的参考图片的参考状态信息。模式选择单元81可基于在视频解码器30对第一图片进行解码的情况下的第一图片的参考图片的参考状态信息帧间预测第二图片的块。
作为一个实例,为了帧间预测第二图片中的块,模式选择单元81可确定将从第一图片中的块的运动向量确定第二图片中的块的运动向量。在此实例中,模式选择单元81可利用第二图片的参考图片的参考状态信息来确定第二图片中的块的运动向量。模式选择单元81可将在对第一图片进行译码的情况下的第一图片的参考图片的参考状态信息存储于参考图片存储器92中。参考图片存储器92为视频解码器30的经解码图片缓冲器(DPB)的一个实例。
本发明的方面不限于实施本发明中所描述的技术的模式选择单元81。在一些实例中,处理器或处理单元(并未具体说明)可实施本发明中所描述的技术。而且,除参考图片存储器92之外的缓冲器可存储图片的参考图片的参考状态信息。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及相关联语法元素的经编码视频位流。视频解码器30的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量及其它语法元素转发到模式选择单元81。视频解码器30可在视频切片层级和/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,模式选择单元81的帧内预测单元84可以基于用信号发出的帧内预测模式和来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频图片经译码为经帧间译码(即,B或P)切片时,模式选择单元81的运动补偿单元82基于从熵解码单元80接收到的运动向量和其它语法元素产生用于当前视频切片的视频块的预测性块。可以从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可使用默认建构技术或基于存储于参考图片存储器92中的参考图片的任何其它技术来建构参考图片列表RefPicList0及RefPicList1。
运动补偿单元82通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于经解码当前视频块的预测性块。举例来说,运动补偿单元82使用一些所接收到的语法元素确定用以译码视频切片的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用如由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在这种情况下,运动补偿单元82可根据接收的语法信息元素而确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。
反量化单元86将在位流中提供且由熵解码单元80解码的经量化变换系数反量化(即,解量化)。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块计算的量化参数以确定应应用的量化程度及同样确定应应用的反量化程度。反变换单元88将反变换应用于变换系数,例如反DCT、反整数变换或概念上类似的反变换过程,以便产生像素域中的残余块。
在运动补偿单元82基于运动向量和其它语法元素产生了当前视频块的预测性块之后,视频解码器30通过将来自反变换单元88的残余块与运动补偿单元82产生的对应预测性块求和来形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。必要时,解块滤波器还可应用于对经解码块进行滤波以便移除成块效应假影。其它环路过滤器(在译码环路中或在译码环路之后)也可用于平滑化像素转变或以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存储器92还存储经解码视频以用于稍后呈现在显示装置(例如,图1的显示装置32)上。
图4是说明根据本发明中所描述的一或多个实例技术的实例操作的流程图。视频译码器可经配置以实施图4中说明的实例技术。视频译码器的实例包含视频编码器20或视频解码器30。
如图4中所说明,视频译码器可建构第一图片的参考图片列表(例如,第一图片的RefPicList0及/或RefPicList1)(94)。视频译码器可存储参考图片列表中识别的参考图片的参考状态信息(96)。举例来说,视频译码器可存储usedForLongTermX[i]旗标列表。
在一些实例中,视频译码器存储usedForLongTermX[i]中的值,所述值指示在对第一图片进行译码的情况下由RefPicListX[i]识别的参考图片是经指明为“用于长期参考”还是未被指明为“用于长期参考”。在一些实例中,视频译码器存储usedForLongTermX[i]中的值,所述值指示第一图片的图片次序计数(POC)值是与由RefPicListX[i]识别的参考图片的POC值相同还是与由RefPicListX[i]识别的参考图片的POV值不相同。
视频译码器可对第一图片进行译码(100)。在一些实例中,视频译码器可基于经建构参考图片列表中识别的参考图片对第一图片的视频块执行帧间预测。在对第一图片进行译码之后,视频译码器可对第二不同图片进行译码。
举例来说,视频译码器可确定第一图片中的视频块的运动向量是否用以导出第二图片中的视频块的运动向量(102)。作为一个实例,视频译码器可确定第一图片中的视频块的运动向量是否将形成第二图片中的视频块的TMVP。作为另一实例,视频译码器可确定TMVP是否将用以导出第二图片中的视频块的运动向量。
如果第一图片中的视频块的运动向量将不用以导出第二图片中的视频块的运动向量(102的否),那么视频译码器可继续进行到下一块,所述块可接着形成经预测的当前块(104)。视频译码器接着可重复确定第一图片中的视频块的运动向量是否用以导出第二图片中的当前块的运动向量。
如果第一图片中的视频块的运动向量将用以导出第二图片中的视频块的运动向量(102的是),那么视频译码器可确定第一图片的视频块的运动向量所参考的参考图片(106)。举例来说,视频译码器可确定到运动向量的经建构参考图片列表中的参考索引。视频译码器可使用参考索引来确定运动向量所参考的参考图片。
视频译码器可基于所存储的参考状态信息确定所确定的参考图片的参考状态(108)。举例来说,视频译码器可利用第一块的运动向量的参考索引作为到第一图片的usedForLongTermX旗标列表中的输入。举例来说,假设第一图片的经建构参考图片列表为RefPicList0。而且,假设到RefPicList0中的参考索引为refIdx0。在此实例中,视频译码器可确定存储于第一图片的usedForLongTerm0[refIdx0]中的值,以确定由第一图片的RefPicList0[refIdx0]识别的参考图片的参考状态。
视频译码器可基于确定的参考状态对第二图片的视频块进行译码(110)。以此方式,本发明中所描述的技术可允许视频编码器20及视频解码器30符合HEVC标准的要求。然而,如上文所描述,本发明中所描述的技术不应被视为限于HEVC标准,且可扩展到其它标准以及任何视频编码技术。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果用软件实施,则所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体(例如,数据存储媒体),或包含任何促进将计算机程序从一处传送到另一处(例如,根据通信协议)的媒体的通信媒体。以此方式,计算机可读媒体一般可以对应于(1)有形计算机可读存储媒体,其为非暂时性的,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用的媒体。计算机程序产品可以包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或任何其它可用来存储呈指令或数据结构的形式的所要的程序代码并且可由计算机存取的媒体。而且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包括在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。
指令可由一个或多个处理器执行,所述一个或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可以在经配置用于编码及解码的专用硬件及/或软件模块内提供,或者并入于组合编码解码器中。而且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或IC的集合(即,芯片组)。本发明中描述各种组件、模块或单元是为了强调其经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述各种实例。这些及其它实例在所附权利要求书的范围内。
Claims (21)
1.一种用于对视频数据进行译码的方法,所述方法包括:
存储第一图片的一或多个参考图片的参考状态信息,所述参考状态信息指示在对所述第一图片进行译码的情况下的所述一或多个参考图片的参考状态;
将所存储的参考状态信息与对所述第一图片进行译码的所述情况相关联;
确定所述第一图片中的视频块及所述第一图片中的所述视频块的运动向量,其中所述第一图片中的所述视频块的所述运动向量基于所述第一图片中的所述视频块的所述运动向量的参考索引来参考来自所述第一图片的所述一或多个参考图片的参考图片;
基于从所述第一图片中的所述视频块的所述运动向量导出的不同于所述第一图片的正译码的第二图片中的视频块的运动向量,基于与对所述第一图片进行译码的所述情况相关联的所述所存储的参考状态信息,确定在对所述第一图片进行译码的情况下的所述参考图片的参考状态;及
基于在对所述第一图片进行译码的情况下的所述参考图片的所述所存储的参考状态信息对所述第二图片内的视频块进行译码,
其中在对所述第一图片进行译码的情况下的所述一或多个参考图片中的所述参考图片的所述参考状态不同于在对所述第二图片进行译码的情况下的所述参考图片的参考状态。
2.根据权利要求1所述的方法,其进一步包括:
建构所述第一图片的至少一个参考图片列表,其中所述至少一个参考图片列表识别所述第一图片的所述一或多个参考图片中的至少一者,
其中存储所述参考状态信息包括存储在所述至少一个参考图片列表中识别的所述第一图片的所述一或多个参考图片中的所述至少一者的参考状态信息。
3.根据权利要求1所述的方法,其进一步包括:
建构所述第一图片的至少一个参考图片列表,其中所述至少一个参考图片列表识别所述第一图片的所述一或多个参考图片,
其中存储所述参考状态信息包括存储在所述至少一个参考图片列表中识别的所述第一图片的所有所述一或多个参考图片的参考状态信息。
4.根据权利要求1所述的方法,其中存储所述参考状态信息包括存储所述第一图片的所述一或多个参考图片中的参考图片的值,所述值指示所述参考图片是经指明为用于长期参考还是未被指明为用于长期参考。
5.根据权利要求1所述的方法,其中存储所述参考状态信息包括存储所述第一图片的所述一或多个参考图片中的参考图片的值,所述值指示所述参考图片的图片次序计数POC值为与所述第一图片的POC值相同的POC值还是所述参考图片的所述POC值不同于所述第一图片的所述POC值。
6.根据权利要求1所述的方法,其进一步包括:
存储第三图片的一个或多个参考图片的参考状态信息,所述参考状态信息指示在对所述第三图片进行译码的情况下的所述第三图片的一或多个参考图片的参考状态;
将所述第三图片的一或多个参考图片的所存储的参考状态信息与对所述第三图片进行译码的情况相关联;
其中如果对第四图片进行译码时所述第三图片的所述参考状态不同于与对所述第三图片进行译码的情况相关联的所述第三图片的参考图片的所存储的参考状态,那么不使用所述第三图片的视频块的运动向量来预测所述第四图片的所述视频块的运动向量。
7.根据权利要求6所述的方法,其进一步包括不添加所述第三图片的所述视频块的所述运动向量作为高级运动向量预测AMVP或合并候选者列表中的候选者以用于预测所述第四图片的所述视频块的所述运动向量。
8.根据权利要求1所述的方法,
其中存储包括通过视频编码器存储所述第一图片的一或多个参考图片的所述参考状态信息,所述参考状态信息指示在对所述第一图片进行编码的情况下的所述一或多个参考图片的所述参考状态,且
其中译码包括通过所述视频编码器基于在对所述第一图片进行编码的情况下的所述参考图片的所述所存储的参考状态信息对所述第二图片内的所述视频块进行编码。
9.根据权利要求1所述的方法,
其中存储包括通过视频解码器存储所述第一图片的一或多个参考图片的所述参考状态信息,所述参考状态信息指示在对所述第一图片进行解码的情况下的所述一或多个参考图片的所述参考状态,且
其中译码包括通过所述视频解码器基于在对所述第一图片进行解码的情况下的所述参考图片的所述所存储的参考状态信息对所述第二图片内的所述视频块进行解码。
10.一种用于对视频数据进行译码的设备,所述设备包括:
存储器装置;及
包括处理电路的视频译码器,所述视频译码器经配置以:
在所述存储器装置中存储第一图片的一或多个参考图片的参考状态信息,所述参考状态信息指示在对所述第一图片进行译码的情况下的所述一或多个参考图片的参考状态;
将所存储的参考状态信息与对所述第一图片进行译码的所述情况相关联;
确定所述第一图片中的视频块及所述第一图片中的所述视频块的运动向量,其中所述第一图片中的所述视频块的所述运动向量基于所述第一图片中的所述视频块的所述运动向量的参考索引来参考来自所述第一图片的所述一或多个参考图片的参考图片;
基于从所述第一图片中的所述视频块的所述运动向量导出的不同于所述第一图片的正译码的第二图片中的视频块的运动向量,基于与对所述第一图片进行译码的所述情况相关联的所存储的参考状态信息,确定在对所述第一图片进行译码的情况下的所述参考图片的参考状态;及
基于在对所述第一图片进行译码的情况下的所述参考图片的所述所存储的参考状态信息对所述第二图片内的视频块进行译码,
其中在对所述第一图片进行译码的情况下的所述一或多个参考图片中的所述参考图片的所述参考状态不同于在对所述第二图片进行译码的情况下的所述参考图片的参考状态。
11.根据权利要求10所述的设备,其中所述视频译码器经配置以:
建构所述第一图片的至少一个参考图片列表,其中所述至少一个参考图片列表识别所述第一图片的所述一或多个参考图片中的至少一者,
其中为了存储所述参考状态信息,所述视频译码器经配置以存储在所述至少一个参考图片列表中识别的所述第一图片的所述一或多个参考图片中的所述至少一者的参考状态信息。
12.根据权利要求10所述的设备,其中所述视频译码器经配置以:
建构所述第一图片的至少一个参考图片列表,其中所述至少一个参考图片列表识别所述第一图片的所述一或多个参考图片,
其中为了存储所述参考状态信息,所述视频译码器经配置以存储在所述至少一个参考图片列表中识别的所述第一图片的所有所述一或多个参考图片的参考状态信息。
13.根据权利要求10所述的设备,其中为了存储所述参考状态信息,所述视频译码器经配置以存储所述第一图片的所述一或多个参考图片中的参考图片的值,所述值指示所述参考图片是经指明为用于长期参考还是未被指明为用于长期参考。
14.根据权利要求10所述的设备,其中为了存储所述参考状态信息,所述视频译码器经配置以存储所述第一图片的所述一或多个参考图片中的参考图片的值,所述值指示所述参考图片的图片次序计数POC值为与所述第一图片的POC值相同的POC值还是所述参考图片的所述POC值不同于所述第一图片的所述POC值。
15.根据权利要求10所述的设备,其中所述视频译码器经配置以:
存储第三图片的一个或多个参考图片的参考状态信息,所述参考状态信息指示在对所述第三图片进行译码的情况下的所述第三图片的一或多个参考图片的参考状态;
及
将所述第三图片的一或多个参考图片的所存储的参考状态信息与对所述第三图片进行译码的情况相关联;
其中如果对第四图片进行译码时所述第三图片的所述参考状态不同于与对所述第三图片进行译码的情况相关联的所述第三图片的参考图片的所存储的参考状态,那么不使用所述第三图片的视频块的运动向量来预测所述第四图片的所述视频块的运动向量。
16.根据权利要求15所述的设备,所述视频译码器经配置以不添加所述第三图片的所述视频块的所述运动向量作为高级运动向量预测AMVP或合并候选者列表中的候选者以用于预测所述第四图片的所述视频块的所述运动向量。
17.根据权利要求10所述的设备,其中所述视频译码器包括视频解码器,且其中所述视频解码器经配置以:
在存储器装置中存储所述第一图片的所述一或多个参考图片的所述参考状态信息;及
基于在对所述第一图片进行译码的情况下的所述参考图片的所存储的参考状态信息对所述第二图片内的所述视频块进行解码。
18.根据权利要求10所述的设备,其中所述视频译码器包括视频编码器,且其中所述视频编码器经配置以:
在存储器装置中存储所述第一图片的所述一或多个参考图片的所述参考状态信息;及
基于在对所述第一图片进行译码的情况下的所述所述参考图片的所存储的参考状态信息对所述第二图片内的所述视频块进行编码。
19.根据权利要求10所述的设备,其中所述设备包括以下各者中的一者:
无线通信装置;
微处理器;
集成电路;
经配置以显示所述第一图片和所述第二图片的显示器;或
经配置以捕获所述第一图片和所述第二图片的摄像机。
20.一种用于对视频数据进行译码的设备,所述设备包括:
用于存储第一图片的一或多个参考图片的参考状态信息的装置,所述参考状态信息指示在对所述第一图片进行译码的情况下的所述一或多个参考图片的参考状态;
用于将所存储的参考状态信息与对所述第一图片进行译码的所述情况相关联的装置;
用于确定所述第一图片中的视频块及所述第一图片中的所述视频块的运动向量的装置,其中所述第一图片中的所述视频块的所述运动向量基于所述第一图片中的所述视频块的所述运动向量的参考索引来参考来自所述第一图片的所述一或多个参考图片的参考图片;
用于基于从所述第一图片中的所述视频块的所述运动向量导出的不同于所述第一图片的正译码的第二图片中的视频块的运动向量,基于与对所述第一图片进行译码的所述情况相关联的所存储的参考状态信息,确定在对所述第一图片进行译码的情况下的所述参考图片的参考状态的装置;及
用于基于在对所述第一图片进行译码的情况下的所述参考图片的所述所存储的参考状态信息对所述第二图片内的视频块进行译码的装置,
其中在对所述第一图片进行译码的情况下的所述一或多个参考图片中的所述参考图片的所述参考状态不同于在对所述第二图片进行译码的情况下的所述参考图片的参考状态。
21.一种具有存储于其上的指令的计算机可读存储媒体,所述指令在执行时致使一或多个处理器:
存储第一图片的一或多个参考图片的参考状态信息,所述参考状态信息指示在对所述第一图片进行译码的情况下的所述一或多个参考图片的参考状态;
将所存储的参考状态信息与对所述第一图片进行译码的所述情况相关联;
确定所述第一图片中的视频块及所述第一图片中的所述视频块的运动向量,其中所述第一图片中的所述视频块的所述运动向量基于所述第一图片中的所述视频块的所述运动向量的参考索引来参考来自所述第一图片的所述一或多个参考图片的参考图片;
基于从所述第一图片中的所述视频块的所述运动向量导出的不同于所述第一图片的正译码的第二图片中的视频块的运动向量,基于与对所述第一图片进行译码的所述情况相关联的所存储的参考状态信息,确定在对所述第一图片进行译码的情况下的所述参考图片的参考状态;及
基于在对所述第一图片进行译码的情况下的所述参考图片的所述所存储的参考状态信息对所述第二图片内的视频块进行译码,
其中在对所述第一图片进行译码的情况下的所述一或多个参考图片中的所述参考图片的所述参考状态不同于在对所述第二图片进行译码的情况下的所述参考图片的参考状态。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261718629P | 2012-10-25 | 2012-10-25 | |
US61/718,629 | 2012-10-25 | ||
US13/803,736 | 2013-03-14 | ||
US13/803,736 US9854234B2 (en) | 2012-10-25 | 2013-03-14 | Reference picture status for video coding |
PCT/US2013/058276 WO2014065947A1 (en) | 2012-10-25 | 2013-09-05 | Reference picture status for video coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104756499A CN104756499A (zh) | 2015-07-01 |
CN104756499B true CN104756499B (zh) | 2018-12-21 |
Family
ID=49237609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380055112.0A Expired - Fee Related CN104756499B (zh) | 2012-10-25 | 2013-09-05 | 用于视频译码的方法、设备及计算机可读存储媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9854234B2 (zh) |
EP (1) | EP2912847A1 (zh) |
JP (1) | JP2015533462A (zh) |
KR (1) | KR20150076235A (zh) |
CN (1) | CN104756499B (zh) |
WO (1) | WO2014065947A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4020991A1 (en) * | 2014-12-26 | 2022-06-29 | Sony Group Corporation | Image processing apparatus and image processing method |
WO2017043734A1 (ko) * | 2015-09-07 | 2017-03-16 | 엘지전자(주) | 인터 예측 모드 기반 영상 처리 방법 및 이를 위한 장치 |
CN107071481A (zh) * | 2015-12-14 | 2017-08-18 | 联发科技股份有限公司 | 一种视频编码解码方法及装置 |
WO2020003278A1 (en) | 2018-06-29 | 2020-01-02 | Beijing Bytedance Network Technology Co., Ltd. | Update of look up table: fifo, constrained fifo |
EP3797516A1 (en) | 2018-06-29 | 2021-03-31 | Beijing Bytedance Network Technology Co. Ltd. | Interaction between lut and amvp |
CN110662056B (zh) | 2018-06-29 | 2022-06-07 | 北京字节跳动网络技术有限公司 | 哪个查找表需要更新或不更新 |
CN110662057B (zh) | 2018-06-29 | 2022-06-21 | 北京字节跳动网络技术有限公司 | 视频处理方法、装置、设备以及存储比特流的方法 |
KR20210024502A (ko) | 2018-06-29 | 2021-03-05 | 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 | Hmvp 후보를 병합/amvp에 추가할 때의 부분/풀 프루닝 |
TWI723444B (zh) | 2018-06-29 | 2021-04-01 | 大陸商北京字節跳動網絡技術有限公司 | 使用一個或多個查找表來按順序存儲先前編碼的運動信息並使用它們來編碼後面的塊的概念 |
EP3791588A1 (en) | 2018-06-29 | 2021-03-17 | Beijing Bytedance Network Technology Co. Ltd. | Checking order of motion candidates in lut |
JP7460617B2 (ja) | 2018-06-29 | 2024-04-02 | 北京字節跳動網絡技術有限公司 | Lut更新条件 |
EP4307679A3 (en) | 2018-07-02 | 2024-06-19 | Beijing Bytedance Network Technology Co., Ltd. | Luts with intra prediction modes and intra mode prediction from non-adjacent blocks |
TW202025760A (zh) | 2018-09-12 | 2020-07-01 | 大陸商北京字節跳動網絡技術有限公司 | 要檢查多少個hmvp候選 |
CN111416981B (zh) * | 2019-01-07 | 2023-06-02 | 浙江大学 | 视频图像解码、编码方法及装置 |
CN113273186A (zh) | 2019-01-10 | 2021-08-17 | 北京字节跳动网络技术有限公司 | Lut更新的调用 |
CN113383554B (zh) | 2019-01-13 | 2022-12-16 | 北京字节跳动网络技术有限公司 | LUT和共享Merge列表之间的交互 |
CN113302937B (zh) | 2019-01-16 | 2024-08-02 | 北京字节跳动网络技术有限公司 | 运动候选推导 |
CN113615193B (zh) | 2019-03-22 | 2024-06-25 | 北京字节跳动网络技术有限公司 | Merge列表构建和其他工具之间的交互 |
CN113689430B (zh) * | 2021-10-26 | 2022-02-15 | 紫东信息科技(苏州)有限公司 | 肠镜检查状态监测的图像处理方法与装置 |
CN115118977B (zh) * | 2022-08-29 | 2022-11-04 | 华中科技大学 | 针对360度视频的帧内预测编码方法、系统及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101072345A (zh) * | 2006-05-09 | 2007-11-14 | 佳能株式会社 | 图像编码设备和编码方法,图像解码设备和解码方法 |
US8170108B2 (en) * | 2006-03-30 | 2012-05-01 | Lg Electronics Inc. | Method and apparatus for decoding/encoding a video signal |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008048515A2 (en) | 2006-10-13 | 2008-04-24 | Thomson Licensing | Method for reference picture management involving multiview video coding |
CA2666452C (en) | 2006-10-16 | 2014-12-16 | Nokia Corporation | System and method for implementing efficient decoded buffer management in multi-view video coding |
KR101385808B1 (ko) | 2006-10-16 | 2014-04-17 | 톰슨 라이센싱 | 비디오 동작 동안 nal 유닛을 이용하여 동시 디코딩 리프레시를 시그널링하는 방법 |
US20100027615A1 (en) * | 2006-10-24 | 2010-02-04 | Purvin Bibhas Pandit | Picture identification for multi-view video coding |
TW201121331A (en) | 2009-12-10 | 2011-06-16 | Novatek Microelectronics Corp | Picture decoder |
JP2012019462A (ja) * | 2010-07-09 | 2012-01-26 | Panasonic Corp | 画像復号装置および画像復号方法 |
EP2630799A4 (en) | 2010-10-20 | 2014-07-02 | Nokia Corp | METHOD AND DEVICE FOR VIDEO CODING AND DECODING |
US20120230409A1 (en) | 2011-03-07 | 2012-09-13 | Qualcomm Incorporated | Decoded picture buffer management |
JP2012191298A (ja) | 2011-03-09 | 2012-10-04 | Fujitsu Ltd | 動画像復号装置、動画像符号化装置、動画像復号方法、動画像符号化方法、動画像復号プログラム及び動画像符号化プログラム |
US8934552B2 (en) | 2011-03-31 | 2015-01-13 | Qualcomm Incorporated | Combined reference picture list construction and mapping |
US9143795B2 (en) * | 2011-04-11 | 2015-09-22 | Texas Instruments Incorporated | Parallel motion estimation in video coding |
-
2013
- 2013-03-14 US US13/803,736 patent/US9854234B2/en not_active Expired - Fee Related
- 2013-09-05 JP JP2015539594A patent/JP2015533462A/ja active Pending
- 2013-09-05 EP EP13766755.6A patent/EP2912847A1/en not_active Withdrawn
- 2013-09-05 WO PCT/US2013/058276 patent/WO2014065947A1/en active Application Filing
- 2013-09-05 KR KR1020157013714A patent/KR20150076235A/ko not_active Application Discontinuation
- 2013-09-05 CN CN201380055112.0A patent/CN104756499B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8170108B2 (en) * | 2006-03-30 | 2012-05-01 | Lg Electronics Inc. | Method and apparatus for decoding/encoding a video signal |
CN101072345A (zh) * | 2006-05-09 | 2007-11-14 | 佳能株式会社 | 图像编码设备和编码方法,图像解码设备和解码方法 |
Non-Patent Citations (1)
Title |
---|
Temporal motion vector prediction hook for MV-HEVC;Ying Chen;《Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11》;20121019;第1页第1段-第10页第1段 * |
Also Published As
Publication number | Publication date |
---|---|
EP2912847A1 (en) | 2015-09-02 |
JP2015533462A (ja) | 2015-11-24 |
US20140119447A1 (en) | 2014-05-01 |
KR20150076235A (ko) | 2015-07-06 |
CN104756499A (zh) | 2015-07-01 |
WO2014065947A1 (en) | 2014-05-01 |
US9854234B2 (en) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104756499B (zh) | 用于视频译码的方法、设备及计算机可读存储媒体 | |
CN104685883B (zh) | 用于3d视频的经视图间预测运动向量 | |
CN104904217B (zh) | 用于视频译码扩展的时间运动向量预测 | |
CN104335589B (zh) | 用于视频译码的视图间预测的视差向量产生 | |
CN105393536B (zh) | 使用位移向量从预测性块的帧内预测 | |
CN104704833B (zh) | 多视图或3维视频译码中的高级视图间残差预测 | |
CN104584550B (zh) | 用于可缩放视频译码的帧内预测改善 | |
CN105122812B (zh) | 用于三维(3d)视频译码的高级合并模式 | |
CN104662909B (zh) | 用于3d视频的视图间运动预测 | |
CN104685875B (zh) | 用于视频译码的方法、设备、计算机可读存储媒体 | |
CN105075259B (zh) | 用于视频译码预测的存储器减少 | |
CN106105203B (zh) | 块自适应颜色空间转换译码 | |
CN104429072B (zh) | 自适应差域空间和时间参考重构及平滑 | |
CN103563389B (zh) | 具有方向性分区的帧内预测模式译码 | |
CN105556969B (zh) | 视频译码中使用视差向量的块识别 | |
CN104303502B (zh) | 对多视图视频数据进行编码、解码和译码的方法、装置及计算机可读存储介质 | |
CN105191315B (zh) | 一种用于对视频信息进行译码的方法和设备 | |
CN104429082B (zh) | 用于视频译码的长期参考图片的信令 | |
CN104584557B (zh) | 对视频数据进行编码、解码的方法、装置以及计算机可读介质 | |
CN104718757B (zh) | 用于可缩放视频译码的预测模式信息上取样 | |
CN103947205B (zh) | 帧内模式译码中的参考模式选择 | |
CN105075258B (zh) | 针对具有不同纵横比的空间可缩放性的层间参考图片建构 | |
CN108781293A (zh) | 使用两级多型树框架对视频数据进行译码 | |
CN104956676B (zh) | 层间语法预测控制 | |
CN104255027B (zh) | 用于视频译码的层间纹理预测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181221 Termination date: 20190905 |