CN110431842B - 解码器侧运动向量导出 - Google Patents

解码器侧运动向量导出 Download PDF

Info

Publication number
CN110431842B
CN110431842B CN201880019170.0A CN201880019170A CN110431842B CN 110431842 B CN110431842 B CN 110431842B CN 201880019170 A CN201880019170 A CN 201880019170A CN 110431842 B CN110431842 B CN 110431842B
Authority
CN
China
Prior art keywords
block
video data
video
reference picture
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880019170.0A
Other languages
English (en)
Other versions
CN110431842A (zh
Inventor
陈义文
张凯
李翔
陈建乐
钱威俊
庄孝强
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110431842A publication Critical patent/CN110431842A/zh
Application granted granted Critical
Publication of CN110431842B publication Critical patent/CN110431842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于对视频数据进行解码的装置确定视频数据块在帧间预测模式中经译码;隐式地确定解码器侧运动向量导出DMVD模式针对所述视频数据块启用;确定所述视频数据块的运动信息;使用所述运动信息以根据所述DMVD模式确定参考块;以及基于所述参考块产生所述视频数据块的预测性块。

Description

解码器侧运动向量导出
本申请要求2017年3月22日提交的第62/475,042号美国临时专利申请的权益,所述申请以全文引用的方式并入本文中。
技术领域
本发明涉及视频编码和视频解码。
背景技术
数字视频能力可并入到各种装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置等等。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分、高级视频译码(AVC)定义的标准、最近已完成的高效率视频译码(HEVC)标准及此些标准的扩展中所描述的技术。视频装置通过实施此类视频压缩技术可以更有效地发射、接收、编码、解码和/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测来减少或移除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(即,视频帧或视频帧的部分)分割成若干视频块(其也可被称作树块)、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使相对于于同一图片中的相邻块中的参考样本的空间预测,或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测产生用于待译码块的预测性块。残余数据表示待译码原始块与预测块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块的像素之间的差的残余数据来编码。帧内译码块是根据帧内译码模式和残余数据来编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可量化残余变换系数。可扫描最初布置成二维阵列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多压缩。
发明内容
大体来说,本发明描述与解码器侧运动向量导出(DMVD)有关的技术,包含用于导出用以对视频数据块进行编码的运动信息(例如,一或多个运动向量、精度和一或多个参考图片索引)且用于由视频解码器确定与视频编码器所选的运动信息相同的运动信息的技术。使用由视频编码器使用的相同(或互逆)导出技术,视频解码器可在无需接收具体识别运动信息的任何语法元素的情况下确定使用何种运动信息对视频数据进行编码。
在一个实例中,一种方法包含确定视频数据块在帧间预测模式中经译码;隐式地确定解码器侧运动向量导出(DMVD)模式针对视频数据块启用;确定视频数据块的运动信息;使用运动信息根据DMVD模式确定参考块;以及基于参考块产生视频数据块的预测性块。
在另一实例中,一种用于对视频数据进行解码的装置包含经配置以存储视频数据的存储器和一或多个处理器,所述一或多个处理器经配置以:确定视频数据块在帧间预测模式中经译码;隐式地确定解码器侧运动向量导出(DMVD)模式针对视频数据块启用;确定视频数据块的运动信息;使用运动信息根据DMVD模式确定参考块;以及基于参考块产生视频数据块的预测性块。
在另一实例中,一种存储指令的计算机可读存储媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器:确定视频数据块在帧间预测模式中经译码;隐式地确定解码器侧运动向量导出(DMVD)模式针对视频数据块启用;确定视频数据块的运动信息;使用运动信息根据DMVD模式确定参考块;以及基于参考块产生视频数据块的预测性块。
在另一实例中,一种用于对视频数据进行解码的设备包含:用于确定视频数据块在帧间预测模式中经译码的装置;用于隐式地确定解码器侧运动向量导出(DMVD)模式针对视频数据块启用的装置;用于确定视频数据块的运动信息的装置;用于使用运动信息根据DMVD模式确定参考块的装置;以及用于基于参考块产生视频数据块的预测性块的装置。
在附图和下文描述中阐述本发明的一或多个实例的细节。其它特征、目标和优点将从所述描述、图式以及权利要求书中显而易见。
附图说明
图1是说明可利用本发明的技术用于支持解码器侧运动向量导出的实例视频编码和解码系统的框图。
图2A是示出用于合并模式的空间相邻运动向量候选者的实例的概念图。
图2B是示出用于高级运动向量预测模式的空间相邻运动向量候选者的实例的概念图。
图3A是示出时间运动向量预测符候选者的实例的概念图。
图3B是示出运动向量按比例缩放的实例的概念时序图。
图4是示出双边匹配的实例的概念图。
图5是示出模板匹配的实例的概念图。
图6A和6B是示出对帧速率向上转换模板匹配模式的实例所提出修改的流程图。
图7是示出光流轨迹的实例的概念图。
图8是示出用于8x4块的双向光流的实例的概念图。
图9是示出所提出的基于双边模板匹配的解码器侧运动向量导出的实例的概念图。
图10A和10B是示出其中可应用重叠块运动补偿的子块的实例图示的概念图。
图11A-11D是示出重叠块运动补偿加权的实例的概念图。
图12是说明可实施支持解码器侧运动向量导出的技术的视频编码器的实例的框图。
图13是说明对经编码视频序列进行解码且执行解码器侧运动向量导出的视频解码器的实例的框图。
图14是说明根据本发明中描述的技术对视频数据进行解码的实例方法的流程图。
具体实施方式
本发明描述与解码器侧运动向量导出(DMVD)有关的技术。本发明的技术可以与例如高效视频译码(HEVC)标准等现有视频编解码器结合使用,或可以用作任何未来视频译码标准中的高效译码工具。
大体来说,本发明描述用于导出用以对视频数据块进行编码的运动信息(例如,一或多个运动向量、精度和一或多个参考图片索引)且用于由视频解码器确定与视频编码器所选的运动信息相同的运动信息的技术。使用由视频编码器使用的相同(或互逆)导出技术,视频解码器可在无需接收具体识别运动信息的任何语法元素的情况下确定使用何种运动信息对视频数据进行编码。然而,在一些译码情境中,视频编码器仍可对用以对块进行编码的运动信息中的一些显式地进行编码。
可参考视频译码器来描述本发明中的各种技术,其既定为可指代视频编码器或视频解码器的通用术语。除非以其它方式明确陈述,否则不应假定相对于视频编码器或视频解码器描述的技术不可由视频编码器或视频解码器中的另一者来执行。举例来说,在许多情况下,视频解码器执行与视频编码器相同或有时互逆的译码技术,以便对经编码视频数据进行解码。在许多情况下,视频编码器还包含视频解码环,且因此视频编码器执行视频解码作为编码视频数据的一部分。因此,除非另外说明,否则本发明中相对于视频解码器所描述的技术还可由视频编码器执行,且反之亦然。
本发明还可使用例如当前层、当前块、当前图片、当前切片等术语。在本发明的上下文中,术语当前意图识别当前正译码的层、块、图片、切片等,例如与先前经译码层、块、图片及切片或待译码块、图片及切片相反。
图1为说明可利用本发明中所描述的技术的实例视频编码和解码系统10的框图。如图1中所展示,系统10包含源装置12,其产生稍后待由目的地装置14解码的经编码视频数据。源装置12和目的地装置14可包括各种各样裝置中的任一者,包含桌上型计算机、笔记本型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,源装置12和目的地装置14可经装备以用于无线通信。
目的地装置14可经由链路16接收将解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16可包括通信媒体,其用于使得源装置12能够直接将经编码视频数据实时地传输到目的地装置14。经编码视频数据可根据通信标准(例如,无线通信协议)来调制,且被传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络的部分,所述基于包的网络例如局域网、广域网或全球网络,例如因特网。通信媒体可包含路由器、交换机、基站或可用于促进从源装置12到目的地装置14的通信的任何其它设备。
在另一实例中,经编码数据可从输出接口22输出到存储装置26。类似地,经编码数据可通过输入接口从存储装置26存取。存储装置26可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置26可对应于可保持由源装置12生成的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置26存取所存储视频数据。文件服务器可为能够存储经编码视频数据和将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过包含因特网连接的任何标准数据连接来存取经编码的视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置26的发射可为流式传输发射、下载发射或两者的组合。
本发明的技术不必限于无线应用或设置。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如空中电视广播、有线电视发射、卫星电视发射、流式视频发射(例如,经由因特网)、编码数字视频以存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频,或其它应用。在一些实例中,系统10可以经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一些状况下,输出接口22可包含调制器/解调器(调制解调器)及/或发射器。在源装置12中,视频源18可包含例如以下的源:例如摄像机的视频捕获装置、含有先前所捕获视频的视频存档、用以从视频内容提供者接收视频的视频馈入接口,和/或用于产生计算机图形数据作为源视频的计算机图形系统,或此类源的组合。作为一个实例,如果视频源18是摄像机,那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,本发明中所描述的技术一般来说可适用于视频译码,且可应用于无线和/或有线应用。
所捕获、预捕获或计算机生成的视频可由视频编码器20进行编码。可通过源装置12的输出接口22将经编码视频数据直接传输到目的地装置14。经编码视频数据还可(或替代地)存储到存储装置26上以供稍后由目的地装置14或其它装置存取,以用于解码和/或回放。
目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些情况下,输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传达或提供于存储装置26上的经编码视频数据可包含由视频编码器20产生以供视频解码器(例如视频解码器30)用于解码视频数据的多种语法元素。此类语法元素可与在通信媒体上发射、存储于存储媒体上或存储文件服务器的经编码视频数据包含在一起。
显示装置32可与目的地装置14集成或在目的地装置14外部。在一些实例中,目的地装置14可包含集成显示装置,并且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一个,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可根据例如HEVC标准等视频压缩标准操作,且可符合HEVC测试模型(HM)。视频编码器20和视频解码器30可另外根据HEVC扩展例如范围扩展、多视图扩展(MV-HEVC)或已由关于视频译码的联合合作小组(JCT-VC)以及关于3D视频译码扩展开发(JCT-3V)的ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的联合合作小组开发的可缩放扩展(SHVC)操作。
视频编码器20和视频解码器30也可以根据其它专有或行业标准操作,例如ITU-TH.264标准,替代地被称为ISO/IEC MPEG-4,第10部分,高级视频译码(AVC),或此类标准的扩展,例如可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263和ISO/IEC MPEG-4Visual。
ITU-T VCEG(Q6/16)和ISO/IEC MPEG(JTC 1/SC 29/WG 11)现在正在研究对具有显著超出当前HEVC标准(包含其用于屏幕内容译码和高动态范围译码的当前扩展和近期扩展)的压缩能力的压缩能力的未来视频译码技术的标准化的潜在需要。所述组在已知为联合视频探索小组(Joint Video Exploration Team;JVET)的联合合作努力中一起从事此探索活动以评估由他们的在此区域的专家提出的压缩技术设计。JVET首先在2015年10月19至21日期间满足。且参考软件的最新版本,即联合探索模型5(JEM 5)可从https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-5.0/下载。联合探索模型5(JEM 5)的算法描述可称为JVET-E1001。
为了易于解释,本发明的技术可利用HEVC术语。然而,不应假设本发明的技术受限于HEVC,且实际上应明确地设想本发明的技术可以HEVC后续标准及其扩展实施。视频编码器20和视频解码器30可根据多个标准对视频数据进行编码和解码。
尽管图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。在一些实例中,如果适用的话,多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20和视频解码器30各自可实施为多种合适的编码器电路或解码器电路中的任一个,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地以软件实施所述技术时,装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中且使用一或多个处理器以硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可以包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可以集成为相应装置中的组合编码器/解码器(编解码器)的部分。
在HEVC及其它视频译码规范中,视频序列通常包含一系列图片。图片也可以称为“帧”。在一个实例方法中,图片可包含三个样本阵列,标示为SL、SCb和SCr。在此实例方法中,SL为明度样本的二维阵列(即,块)。SCb为Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。色度样本在本文中还可称为“色度(chroma)”样本。在其它情况下,图片可为单色的且可仅包含明度样本阵列。
为了生成图片的经编码的表示,视频编码器20可生成译码树单元(CTU)集合。CTU中的每一个可包括明度样本的译码树块、色度样本的两个对应的译码树块,以及用于对译码树块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CTU可包括单个译码树块和用于对所述译码树块的样本进行译码的语法结构。译码树块可以是NxN块的样本。CTU也可以被称为“树块”或“最大译码单元(LCU)”。HEVC的CTU可以广泛地类似于例如H.264/AVC等其它标准的宏块。然而,CTU不必限于特定大小,且可包含一或多个译码单元(CU)。切片可包含按光栅扫描次序连续排序的整数数目的CTU。
为了生成经译码CTU,视频编码器20可在CTU的译码树块上以递归方式执行四叉树分割,以将译码树块划分为译码块,因此命名为“译码树单元”。译码块可以是NxN块的样本。CU可包括具有明度样本阵列、Cb样本阵列和Cr样本阵列的图片的明度样本的译码块以及色度样本的两个对应的译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CU可包括单个译码块和用以对译码块的样本进行译码的语法结构。
视频编码器20可以将CU的译码块分割成一或多个预测块。预测块是对其应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可包括明度样本的预测块、色度样本的两个对应预测块和用以预测所述预测块的语法结构。在单色图像或具有三个单独颜色平面的图像中,PU可包括单个预测块和用以预测所述预测块的语法结构。视频编码器20可以产生用于CU的每个PU的明度预测块、Cb预测块以及Cr预测块的预测性明度块、Cb块以及Cr块。
视频编码器20可使用帧内预测或帧间预测来产生用于PU的预测性块。如果视频编码器20使用帧内预测以产生PU的预测块,那么视频编码器20可基于与PU相关联的图片的经解码样本产生PU的预测块。如果视频编码器20使用帧间预测产生PU的预测性块,则视频编码器20可基于除与PU相关的图片以外的一或多个图片的经解码样本产生PU的预测性块。
在视频编码器20产生CU的一或多个PU的预测明度块、Cb块和Cr块之后,视频编码器20可产生CU的明度残余块。CU的明度残余块中的每一样本指示CU的预测性明度块中的一者中的明度样本与CU的原始明度译码块中的对应样本之间的差异。另外,视频编码器20可以产生CU的Cb残余块。CU的Cb残余块中的每一样本可以指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中对应的样本之间的差异。视频编码器20还可生成CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差异。
此外,视频编码器20可使用四叉树分割将CU的明度、Cb及Cr残余块分解成一或多个明度、Cb及Cr变换块。变换块是应用同一变换的样本的矩形(例如,正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块和用以对变换块样本进行变换的语法结构。因此,CU的每个TU可以是与明度变换块、Cb变换块和Cr变换块相关联。与TU相关联的明度变换块可以是CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用于对变换块样本进行变换的语法结构。
视频编码器20可以将一或多个变换应用到TU的明度变换块从而为TU产生明度系数块。系数块可以是变换系数的二维阵列。变换系数可为标量。视频编码器20可将一或多个变换应用至TU的Cb变换块以产生TU的Cb系数块。视频编码器20可将一或多个变换应用于TU的Cr变换块,以生成用于TU的Cr系数块。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器20可量化系数块。量化总体上是指对变换系数进行量化以可能减少用以表示变换系数的数据量从而提供进一步压缩的过程。在视频编码器20量化系数块之后,视频编码器20可以对指示经量化变换系数的语法元素进行熵编码。举例来说,视频编码器20可对指示经量化变换系数的语法元素执行上下文自适应二进制算术译码(CABAC)。
视频编码器20可输出包含位序列的位流,所述位序列形成经译码图片和相关联数据的表示。所述位流可包括网络抽象层(NAL)单元序列。NAL单元为含有NAL单元中的数据类型类型的指示及含有所述数据的呈按需要穿插有模拟阻止位的原始字节序列有效负载(RBSP)的形式的字节的语法结构。NAL单元中的每一者包含NAL单元标头,且封装RBSP。NAL单元标头可包含指示NAL单元类型代码的语法元素。由NAL单元的NAL单元标头指定的NAL单元类型代码指示NAL单元的类型。RBSP可为含有封装在NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。
不同类型的NAL单元可封装不同类型的RBSP。举例来说,第一类型的NAL单元可封装PPS的RBSP,第二类型的NAL单元可封装经译码切片的RBSP,第三类型的NAL单元可封装SEI消息的RBSP等等。封装视频译码数据的RBSP(与参数集及SEI消息的RBSP相反)的NAL单元可被称作VCL NAL单元。
视频解码器30可接收由视频编码器20生成的位流。另外,视频解码器30可剖析位流以获得来自位流的语法元素。视频解码器30可至少部分地基于从位流获得的语法元素来重构视频数据的图片。重构视频数据的方法可大体上与由视频编码器20执行的方法互逆。另外,视频解码器30可逆量化与当前CU的TU相关联的系数块。视频解码器30可以对系数块执行逆变换以重构与当前CU的TU相关联的变换块。通过将当前CU的PU的预测性块的样本添加到当前CU的TU的变换块的对应样本,视频解码器30可重构当前CU的译码块。通过重构用于图片的每个CU的译码块,视频解码器30可重构图片。
在HEVC中,切片中的最大译码单元被称为译码树块(CTB)或译码树单元(CTU)。CTB含有四叉树,所述四叉树的节点为译码单元。CTB的大小在HEVC主规范中可在16x16到64x64的范围内(尽管技术上可支持8x8 CTB大小)。CU可与CTB一样大或与8x8一样小或者在这两者之间的大小。每一CU通常使用一个译码模式来译码。当CU经帧间译码时,经帧间译码CU可进一步被分割成2个或4个PU,或者当不应用进一步分割时具有仅一个PU。当两个PU存在于一个CU中时,所述两个PU可为CU的大小的二分之一大小矩形或者1/4或3/4大小的两个矩形。当CU经帧间译码时,针对每一PU存在运动信息的一个集合。另外,每一PU是以唯一帧间预测模式译码以导出所述运动信息的集合。
为了减少传输运动信息(例如,运动向量、参考索引和/或运动向量精度)所需要的位速率,视频译码标准通常使用不同类型的运动向量预测。在HEVC标准中,举例来说,存在两个帧间预测模式,对于PU分别被命名为合并模式(其中跳过模式视为合并模式的特殊情况)和高级运动向量预测(AMVP)模式。
在AMVP或合并模式中,视频解码器30维持用于多个运动向量预测符的运动向量(MV)候选者列表。视频解码器30通过从MV候选者列表取得一个候选而产生当前PU的运动向量以及合并模式中的参考索引。视频编码器20和视频解码器30产生相同的候选者列表。本发明将从视频解码器30的角度描述运动向量预测,但应理解,视频编码器20大体上实施相同技术。
在基本HEVC标准中,MV候选者列表含有用于合并模式的高达五个候选者和用于AMVP模式的仅两个候选者,但其它标准可使用不同数目的候选者。合并候选者可含有运动信息集合,例如对应于一个或两个参考图片列表(列表0和列表1)的运动向量和参考索引。如果通过合并索引识别合并候选者,那么视频解码器30使用所识别合并候选者的运动向量和参考图片索引用于当前块的预测。然而,在用于来自列表0或列表1的每一潜在的预测方向的AMVP模式下,需要将参考索引与MV预测符(MVP)索引一起显式地用信号发送到MV候选者列表,这是由于AMVP候选者仅含有运动向量。在AMVP模式中,可进一步优化经预测运动向量。
如可从上文看出,合并候选者对应于整个运动信息集,而AMVP候选者仅含有用于特定预测方向的一个运动向量和参考索引。可类似地从相同空间及时间相邻块导出用于两种模式的候选者。
图2A是示出用于合并模式的空间相邻运动向量候选者的实例的概念图。视频解码器30可通过将空间相邻候选者的运动信息添加到候选者列表来产生候选者列表。对于特定PU(PU0),从在图2A和2B中所示的相邻块导出空间MV候选者,不过从块产生候选者的方法对于合并模式和AMVP模式为不同的。在合并模式中,可以带有数字的图2A中所展示的次序来导出高达四个空间MV候选者,且次序如下:左(0,A1)、上方(1,B1)、右上方(2,B0)、左下方(3,A0)和左上方(4,B2),如图2A中所示。
图2B是示出用于高级运动向量预测模式的空间相邻运动向量候选者的实例的概念图。在AMVP模式中,将相邻块划分成两个群组:由块0和1组成的左侧群组,以及由块2、3和4组成的上方群组,如图2B中示出。对于每一群组,如用信号表示的参考索引所指示的参考同一参考图片的相邻块中的潜在候选者具有最高待选优先级,以形成所述群组的最终候选者。有可能所有相邻块均不含指向同一参考图片的运动向量。因此,如果无法找到此候选者,那么视频解码器30可按比例缩放第一可用候选者以形成最终候选者,因此可补偿时间距离差。
视频编码器20和视频解码器30可如HEVC标准中那样执行时间运动向量预测(TMVP)。视频解码器30可在经启用且可用的情况下将TMVP候选者添加到MV候选者列表中位于空间运动向量候选者之后。用于TMVP候选者的运动向量导出的过程针对合并模式和AMVP模式两者是相同的;然而,在HEVC中,在合并模式中用于TMVP候选者的目标参考索引始终设定成0。
图3A是示出时间运动向量预测符候选者的实例的概念图。用于TMVP候选者导出的主块位置是并置的PU外部的右下块,如在图3A中展示为块“T”,其用于补偿对用以生成空间相邻候选者的左上方块的偏置。然而,如果所述块位于当前CTB行的外部或运动信息不可供使用,那么所述块被PU的中心块取代。
视频解码器30可从切片级中指示的并置图片的并置PU导出TMVP候选者的运动向量。并置PU的运动向量称为并置MV。如果参考图片中的块和当前块各自包含对应于参考图片和当前图片中的相同相对位置的至少一个像素,那么参考图片中的块可例如视为与当前图片中的块并置。
图3B是示出运动向量按比例缩放的实例的概念时序图。类似于AVC中的时间直接模式,为了导出TMVP候选者运动向量,视频解码器30可按比例缩放并置MV以补偿时间距离差,如图3B所示。通过运动向量按比例缩放,大体上假设运动向量的值与图片在呈现时间上的距离成比例。运动向量将两个图片,即参考图片和包含运动向量的图片(即包含图片)相关联。当运动向量用以预测其它运动向量时,基于图片次序计数(POC)值来计算含有图片与参考图片的距离。
当正预测运动向量时,其参考图片和运动向量预测符的参考图片可不同。因此,计算新距离(基于POC)。并且基于这两个POC距离按比例缩放运动向量。在HEVC中,运动向量按比例缩放适用于空间和时间相邻候选者的TMVP和AMVP两者。
相对于人工运动向量候选者产生,如果运动向量候选者列表不完整,那么视频解码器30可产生人工运动向量候选者,将所述人工运动向量候选者插入在列表的末尾直到列表完整或直到针对人工候选者的选项耗尽。
在合并模式中,存在两种类型的人工MV候选者:仅针对B切片导出的组合式候选者,以及仅在第一类型并不提供足够的人工候选者的情况下使用的零候选者。
对于已经在候选者列表中且具有必要的运动信息的每对候选者,视频解码器30可通过参考列表0中的图片的第一候选者的运动向量与参考列表1中的图片的第二候选者的运动向量的组合导出双向组合的运动向量候选者。
相对于用于候选者插入的精简过程,来自不同块的候选者可能碰巧相同,这由于列表中的候选者重复而降低合并/AMVP候选者列表的效率。为了帮助减少此低效,视频解码器30可应用精简过程。作为精简过程的部分,视频解码器30比较一个候选者与当前候选者列表中的其它候选者以在某种程度上避免插入相同候选者。为了降低复杂度,可应用仅有限数目的精简过程而不是比较每个潜在的候选者与所有其它现有的候选者。
JEM参考软件包含若干帧间译码工具,其利用DMVD以导出或精炼当前块的运动向量。一个此类DMVD工具是图案匹配运动向量导出(PMMVD)模式,其为基于帧速率向上转换(FRUC)技术的特殊合并模式。当实施JEM参考软件时,在PMMVD模式中,视频解码器30可导出块的运动信息而不是接收显式信令。
视频解码器30可当用于CU的合并旗标为真时接收用于CU的FRUC旗标。当FRUC旗标为假时,则视频解码器30可接收合并索引且使用常规合并模式。当FRUC旗标为真时,视频解码器30可接收额外FRUC模式旗标以指示将使用哪一方法(例如,双边匹配或模板匹配)来导出块的运动信息。用以对用于FRUC的旗标进行译码的语法表如下:
Figure BDA0002206025760000121
在运动导出过程期间,视频解码器30可首先基于双边匹配或模板匹配导出整个CU的初始运动向量。首先,检查CU的合并列表或所谓的PMMVD种源,并选择生成最小匹配成本的候选者作为开始点。接着执行基于起始点周围的双边匹配或模板匹配的局部搜索,并且将使匹配成本最小的MV作为整个CU的MV。随后,以导出的CU运动向量作为起始点,在子块层级对运动信息进行进一步细化。
图4是示出双边匹配的实例的概念图。如图4中所示,双边匹配用以通过沿着两个不同的参考图片(Ref0和Ref1)中的当前块的运动轨迹寻找两个参考块(R0和R1)之间的最佳匹配而导出当前块(Cur)的运动信息。当将图像序列(例如,参考帧和当前帧)视为3维连续空间-时间场时,运动轨迹可以包含块中的像素在空间和时间上遵循的路径。在连续运动轨迹的假设下,指向两个参考块(R0和R1)的运动向量MV0和MV1与当前图片(Cur)和两个参考图片(Ref0和Ref1)之间的时间距离成比例。导出的MV 100和102是使用双边匹配导出且分别指向参考块R'0和R'1。作为特殊情况,当当前图片(Cur)在时间上处于两个参考图片(Ref0和Ref1)之间且从当前图片到两个参考图片的时间距离相同时,双边匹配变成基于镜像的双向MV。因此,导出的运动向量100和102类似地是镜像的。
图5是示出模板匹配的实例的概念图。如图5所示,模板匹配用以通过寻找当前图片中的模板(当前块的上方和/或左相邻块)与参考图片(Ref0和Ref1)中的块(与模板相同大小)之间的最佳匹配而导出当前块(Cur)的运动信息。模板可以包含用以通过搜索R0和R1的相邻块而比较所关注的块(Cur)与候选者参考(具有MV0的R0和具有MV1的R1)或导出参考(具有MV 110的R'0和具有MV 112的R'1)的块的相邻像素。最相似参考随后用作预测。
在视频编码器20,关于对CU是否使用FRUC合并模式的决定是基于对正常合并候选者所做的RD成本选择。通过使用RD成本选择针对CU检查这两种匹配模式(双边匹配和模板匹配)。将成本最低的一个进一步在其它CU模式进行比较。如果FRUC匹配模式是最有效的模式,则CU的FRUC标志被设置为真,并使用相关的匹配模式。
在第5次JVET会议中,提出在http://phenix.it-sudparis.eu/jvet/可获得的“FRUC模式中的增强型模板匹配(Enhanced Template Matching in FRUC Mode)”(JVET-E0035)以进一步改进FRUC模板匹配。图6A中示出示范性FRUC模板匹配模式的流程图。在第一步骤中,从列表0参考图片找到匹配于当前块的当前模板Tc的模板T0(和其对应的运动信息MV0)。在第二步骤中,从列表1参考图片找到模板T1(和其对应的运动信息MV1)。获得的运动信息MV0和MV1用以执行双向预测以产生当前块的预测符。
图6A和6B是示出对帧速率向上转换模板匹配模式的实例所提出修改的流程图。可通过在单向预测与双向预测之间引入双向模板匹配和自适应选择而增强FRUC模板匹配模式。相对于图6A的示范性修改在图6B中是带下划线的。
可基于单向模板匹配实施双向模板匹配。如图6A所示,首先在模板匹配的第一步骤中从列表0参考图片找到匹配模板T0(120)。应注意,列表0此处仅被视为实例。事实上,在第一步骤中是使用列表0还是列表1对于当前模板与对应参考图片中的初始模板之间的初始失真成本是自适应的。可用在执行第一模板匹配之前可用的当前块的初始运动信息来确定初始模板。在模板匹配的第一步骤中将使用对应于最小初始模板失真成本的参考图片列表。举例来说,如果对应于列表0的初始模板失真成本不大于对应于列表1的成本,那么在模板匹配的第一步骤中使用列表0,且在第二步骤中使用列表1),随后,当前块的当前模板TC更新如下:
'
TC=2*TC-T0
在第二模板匹配中使用更新的当前模板T'C而不是当前模板TC来从列表1参考图片找到另一匹配模板T1(122)。因此,通过联合地使用列表0和列表1参考图片找到匹配模板T1(124)。此匹配过程称为双向模板匹配。
用于运动补偿预测(MCP)的单向预测与双向预测之间的选择可基于模板匹配失真。如图6B所示,在模板匹配期间,模板T0与Tc(当前模板)之间的失真可被计算为cost0(130),可更新当前模板(132),且模板T1与T'C(更新的当前模板)之间的失真可被计算为cost1(134)。如果cost0小于0.5*cost1(136),那么可将基于MV0的单向预测应用于FRUC模板匹配模式(138);否则,应用基于MV0和MV1的双向预测(140)。应注意将cost0与0.5*cost1进行比较,因为cost1指示模板T1与T'C(更新的当前模板)之间的差,其为Tc(当前模板)与其预测0.5*(T0+T1)之间的差的2倍。应注意,MCP可应用于PU层级运动精炼。子PU层级运动精炼可保持不变。
图7是示出光流轨迹的实例的概念图。JEM还包含称为双向光流(BIO)的译码模式。BIO是在双向预测的情况下在逐块运动补偿的基础上执行的逐像素运动精炼。由于BIO补偿了块内的精细运动,因此BIO能够导致扩大块大小以进行运动补偿。样本级运动精炼可能不需要穷尽性的搜索或信令,因为显式等式可给出每一样本的精细运动向量。
假设I(k)是在补偿块运动之后来自参考k(k=0,1)的明度值,且
Figure BDA0002206025760000141
分别是I(k)梯度的水平和竖直分量。假设光流是有效的,通过下式得出运动向量场(vx,vy):
Figure BDA0002206025760000142
将光流等式与每一样本的运动轨迹的Hermite插值组合,得到一个三阶唯一多项式,其在末端处匹配函数值I(k)和导数
Figure BDA0002206025760000143
此多项式在t=0处的值是BIO预测:
Figure BDA0002206025760000144
此处τ0和τ1表示到参考帧的距离,如图7中所示。基于Ref0和Ref1的POC计算距离τ0和τ1:τ0=POC(当前)-POC(Ref0),τ1=POC(Ref1)-POC(当前)。如果两个预测来自同一时间方向(均来自过去或均来自未来),那么符号不同,τ0·τ1<0。在这种情况下,仅当预测不是来自同一时刻(τ0≠τ1)时才应用BIO,两个参考区都具有非零运动(MVx0,MVy0,MVx1,MVy1≠0),并且块运动向量与时间距离(MVx0/MVx1=MVy0/MVy1=-τ01)成比例。
通过使点A和B(图7中的运动轨迹和参考帧平面的相交点)的值之间的差Δ最小化来确定运动向量场(vx,vy)。模型仅使用局部泰勒展式的第一个线性项用于Δ:
Figure BDA0002206025760000145
(1)中的所有值取决于样本位置(i′,j′),其到目前为止省略。假定运动在局部周围环境中是一致的,那么以当前预测点(i,j)为中心的(2M+1)×(2M+1)正方形窗Ω内的Δ得以最小化:
Figure BDA0002206025760000151
对于此优化问题,可以使用首先在竖直方向上做出最小化且接着在水平方向上做出最小化的简化解决方案。其导致
Figure BDA0002206025760000152
Figure BDA0002206025760000153
其中,
Figure BDA0002206025760000154
Figure BDA0002206025760000155
Figure BDA0002206025760000156
为了避免被零或极小值除,在等式(2)、(3)中引入正则化参数r和m。
r=500·4d-8 (8)
m=700·4d-8 (9)
此处d是输入视频的内部位深度。
在一些情况下,BIO的MV方案可能由于噪声或不规则运动而不可靠。因此,在BIO中,MV方案的量值被削减到某一阈值thBIO。基于当前图片的所有参考图片是否均来自一个方向来确定阈值。如果当前图片的当前图片的所有参考图片是来自一个方向,那么阈值的值被设定成12×214-d,否则,其设定成12×213-d
使用与HEVC运动补偿过程(2D可分离FIR)一致的操作利用运动补偿内插同时计算BIO的梯度。根据块运动向量的分数部分,此2D可分离FIR的输入是与运动补偿过程和分数位置(fracX,fracY)相同的参考帧样本。在水平梯度
Figure BDA0002206025760000158
信号的情况下,首先使用对应于分数位置fracY的BIOfilterS来竖直内插,其中去除缩放移位为d-8,随后在水平方向上应用对应于分数位置fracX的梯度滤波器BIOfilterG,其中去除缩放移位为18-d。在竖直梯度
Figure BDA0002206025760000157
信号的情况下,首先使用对应于分数位置fracY的BIOfilterG来竖直应用梯度滤波器,其中去除缩放移位为d-8,随后在水平方向上使用对应于分数位置fracX的BIOfilterS来执行信号位移,其中去除缩放移位为18-d。用于梯度计算BIOfilterG和信号位移BIOfilterF的内插滤波器的长度较短(6抽头),以便维持合理的复杂度。表1展示用于BIO中的块运动向量的不同部分位置的梯度计算的滤波器。表2展示用于BIO中预测信号生成的内插滤波器。
图8是示出用于8x4块的双向光流的实例的概念图。图8示出用于执行8x4块的梯度计算的技术的实例。对于8x4块,视频解码器30需要获取运动补偿预测符,且计算在当前块内的所有像素以及外部两行像素的HOR/VER梯度,因为针对每一像素求解vx和vy需要以每一像素为中心的窗Ω内的像素的HOR/VER梯度值和运动补偿预测符,如等式(4)中所示。且在JEM中,此窗的大小被设定成5x5,因此需要获取运动补偿预测符且计算外部两行像素的梯度。
表1:用于BIO中梯度计算的滤波器
分数像素位置 用于梯度的内插滤波器(BIOfilterG)
0 {8,-39,-3,46,-17,5}
1/16 {8,-32,-13,50,-18,5}
1/8 {7,-27,-20,54,-19,5}
3/16 {6,-21,-29,57,-18,5}
1/4 {4,-17,-36,60,-15,4}
5/16 {3,-9,-44,61,-15,4}
3/8 {1,-4,-48,61,-13,3}
7/16 {0,1,-54,60,-9,2}
1/2 {1,4,-57,57,-4,1}
表2:用于BIO中预测信号生成的内插滤波器
分数像素位置 用于预测信号的内插滤波器(BIOfilterS)
0 {0,0,64,0,0,0}
1/16 {1,-3,64,4,-2,0}
1/8 {1,-6,62,9,-3,1}
3/16 {2,-8,60,14,-5,1}
1/4 {2,-9,57,19,-7,2}
5/16 {3,-10,53,24,-8,2}
3/8 {3,-11,50,29,-9,2}
7/16 {3,-11,44,35,-10,3}
1/2 {1,-7,38,38,-7,1}
在JEM中,当两个预测来自不同参考图片时,BIO被应用于所有双向预测块。当针对CU启用LIC时,禁用BIO。
图9是示出所提出的基于双边模板匹配的解码器侧运动向量导出的实例的概念图。JEM还包含称为模板匹配的译码工具。视频解码器30分别从列表0的初始MV0和列表1的MV1产生双边模板作为两个预测块的加权组合,如图9所示。
模板匹配操作包括计算产生的模板与参考图片中的样本区(初始预测块周围)之间的成本度量。对于两个参考图片中的每一个,产生最小模板成本的MV被视为所述列表的更新MV以替换原始MV。最终,两个新的MV,即如图8所示的MV0'和MV1',用于常规双向预测。如块匹配运动估计中所常用,绝对差总和(SAD)用作成本度量。
所提出的DMVD技术适用于双向预测的合并模式,其中一个来自过去的参考图片且另一个来自未来的参考图片,而无需传输额外语法元素。
在JEM4.0中,当针对一个CU选择LIC、仿射、子CU合并候选者或FRUC时,不应用DMVD
图10A和10B是示出其中可应用重叠块运动补偿(OBMC)的子块的实例图示的概念图,例如JEM中包含的OBMC。OBMC已用于早期各代的视频标准,例如如在H.263中。在JEM中,针对除了CU的右边和底部边界之外的全部运动补偿(MC)块边界执行OBMC。此外,OBMC被应用于明度和色度分量两者。在JEM中,MC块对应于译码块。当CU是以子CU模式(包含子CU合并、仿射和FRUC模式,如Kaiming He、Jian Sun和Xiaoou Tang的“导引图像滤波”,图案分析和机器智能,IEEE学报2013第35卷第6号1397-1409页中所描述)译码时,CU的每一子块是MC块。为了以统一方式处理CU边界,针对全部MC块边界在子块层级下执行OBMC,其中子块大小设定成等于4x4,如图10A和10B中所说明。
当OBMC应用于当前子块时,除了当前运动向量以外,如果四个连接的相邻子块的运动向量可获得且与当前运动向量不相同,那么所述四个连接的相邻子块的运动向量也用于推导当前子块的预测块。组合基于多个运动向量的这些多个预测块以生成当前子块的最终预测信号。
图11A-11D是示出重叠块运动补偿加权的实例的概念图。如图11A-11D所示,基于相邻子块的运动向量的预测块被表示为PN,其中N指示用于相邻的上方、下方、左侧和右侧子块的索引,并且基于当前子块的运动向量的预测块被表示为PC。当PN是基于含有与当前子块相同的运动信息的相邻子块的运动信息时,不从PN执行OBMC。否则,PN的每个像素添加到PC中的相同像素,即PN的四个行/列添加到PC。加权因数{1/4,1/8,1/16,1/32}用于PN,且加权因数{3/4,7/8,15/16,31/32}用于PC。例外的是小MC块,(即,当译码块的高度或宽度等于4或CU是以子CU模式译码时),其中PN的仅两行/列添加到PC。在这种情况下,加权因数{1/4,1/8}用于PN,且加权因数{3/4,7/8}用于PC。对于基于竖直(水平)相邻子块的运动向量生成的PN,PN的相同行(列)中的像素添加到具有相同加权因子的PC。应注意,BIO还应用于预测块Pn的导出。
在JEM中,对于大小小于或等于256个明度样本的CU,用信号表示CU层级旗标以指示对于当前CU是否应用OBMC。对于大小大于256个明度样本或不以AMVP模式译码的CU,默认地应用OBMC。在编码器处,当OBMC应用于CU时,考虑其在运动估计阶段期间的影响。通过使用上方相邻块和左相邻块的运动信息得到的预测信号用以补偿当前CU的原始信号的上方边界和左边界,且接着应用正常运动估计过程。
本发明的技术可解决上方介绍的问题中的一些或全部。所有DMVD相关方法(BIO、FRUC双边匹配、FRUC模板匹配、双边模板匹配等等)可提供显著的位速率减少。然而,DMVD方法的译码复杂性较高。此外,当前FRUC设计中存在冗余信令。本发明介绍了可修改和/或简化DMVD的技术。下文描述本发明的技术。所描述的技术可个别地应用。在一些实例中,可应用它们的任何组合。
本发明的技术包含用于DMVD模式的接通/断开控制。在一个实例中,视频解码器30可通过位流中用信号表示的语法而显式地确定DMVD模式的接通/断开。在另一实例中,视频解码器30可基于经译码信息隐式地确定DMVD模式的接通/断开。译码信息可包含(但不限于)空间或时间相邻块的译码模式、当前块的译码模式、当前POC和参考图片POC的POC信息,或者当前切片的低延迟条件(LDC)等等。低延迟条件(LDC)是当前切片的所有参考图片在显示次序方面是否在当前切片之前的条件。当当前切片的所有参考图片全部在当前切片之前时,LDC被设定成真;否则,LDC被设定成假。
在一个实例中,视频解码器30可基于当前切片的LDC为真而确定子块层级FRUC模板匹配启用,且基于当前切片的LDC为假而确定子块层级FRUC模板匹配停用。
本发明的技术还包含针对DMVD模式的约束。在一个实例中,DMVD模式的MV导出受约束为基于一些条件而执行。下文描述实例条件,但还可使用其它条件。
在第一实例中,视频解码器30可仅当参考索引等于一个或几个预定数目N时执行MV导出。在一些实例中,N可等于0,索引0对应于参考图片列表中的第一图片,其可经常是提供最佳预测的参考图片,因为第一参考图片最接近于具有最低量化参数的当前图片。可单独地或联合地针对列表0或列表1检查此条件。在一个实例中,当当前块是双向预测帧间块且被联合地检查时,仅当L0和L1参考索引均等于一个或几个预定数目N(例如,N=0)时执行MV导出。在另一实例中,当单独地检查时,当L0和L1参考索引等于一个或几个预定数目N(例如,N=0)时执行MV导出。
在第二实例中,对于DMVD模式,视频解码器30可仅当MV候选者在预定范围内时使用MV候选者。所述范围可以预定义或在位流中用信号表示。预定范围可限制必须检查的运动向量的数目,且因此减少存储器存取带宽和总体译码复杂性。
在第三实例中,对于DMVD模式,视频解码器30可仅当参考图片与当前图片之间的POC距离小于或等于预定数目N(例如,N=4)时执行MV导出。视频解码器30可单独地或联合地针对列表0或列表1检查此条件。在一个实例中,当联合地检查时,视频解码器30可仅当对于两个列表来说参考图片与当前图片之间的POC距离小于或等于预定数目N(例如,N=4)时执行MV导出。在另一实例中,当联合地检查时,视频解码器30可仅当对于L0或L1来说参考图片与当前图片之间的POC距离小于或等于预定数目N(例如,N=4)时执行MV导出。
在另一实例中,视频解码器30可首先导出使用FRUC双边匹配或FRUC模板匹配模式译码的CU的初始运动向量用于随后的局部搜索。视频解码器30可仅测试针对列表0和列表1两者具有等于零的参考索引的MV候选者,以选择初始运动向量用于进一步精炼。在另一实例中,视频解码器30可首先导出使用FRUC双边匹配或FRUC模板匹配模式译码的CU的初始运动向量用于随后的局部搜索。仅测试处于范围内的MV候选者以选择初始运动向量用于进一步精炼。在另一实例中,对在列表0或列表1MV中具有非零参考索引的MV不应用双边模板匹配。在另一实例中,对在列表0或列表1MV中具有非零参考索引的MV不应用BIO。
在另一实例中,可以如下方式执行BIO的接通/断开:如果经内插像素P0与P1之间的SAD大于阈值,那么停用BIO,因为块的运动轨迹在寻找相同对象方面可能是次最佳的。在另一实例中,计算当前经重构帧的模板与Ref0/Ref1中的相关联区域之间的SAD值。如果SAD值的比率远大于1(或远小于1),那么停用BIO。阈值可为预定的或通过SPS/PPS/切片标头用信号表示。
本发明的技术还包含信令fruc_mode的约束。当FRUC旗标为真时,用信号表示额外的FRUC模式旗标(或索引)以指示将使用哪种方法(双边匹配或模板匹配)来导出块的运动信息。然而,仅在针对当前图片存在至少两个不同参考图片时双边匹配才可起作用。在JEM中,仅当slice_type!=P_slice时用信号表示fruc_mode。然而,即使当前图片是B切片,也可能存在用于当前图片的仅一个参考图片,意味着参考列表0中存在仅一个参考图片且参考列表1中存在仅一个参考图片,且所述参考图片是同一图片。在此情况下,如果fruc_mode指示正使用双边匹配,那么解码器将以未知的方式执行。为了解决此问题,提出若干解决方案。
在一个实例中,如果参考列表0中存在仅一个参考图片且参考列表1中存在仅一个参考图片,且参考图片是同一图片,那么可以不用信号表示fruc_mode旗标(其指示对于块是否应用FRUC双边匹配)。在此情况下可隐式地完成其它FRUC模式(例如,模板匹配)。示范性语法表是
Figure BDA0002206025760000201
在另一实例中,如JEM中定义那样用信号表示FRUC模式旗标。但在当双边匹配无法起作用时的情况下将其省略。举例来说,当参考列表0中存在仅一个参考图片且参考列表1中存在仅一个参考图片,且参考图片是同一图片时,则可用信号表示FRUC模式旗标,但可省略或忽略FRUC模式旗标的值,意味着无论FRUC模式旗标的值是0还是1,都将应用模板匹配。
图12是说明可实施本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空间预测来减小或移除给定视频帧或图片内的视频的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的相邻帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指代若干基于时间的压缩模式中的任一者。
在图12的实例中,视频编码器20包含视频数据存储器33、分割单元35、预测处理单元41、求和器50、变换处理单元52、量化单元54、熵编码单元56。预测处理单元41包含运动估计单元(MEU)42、运动补偿单元(MCU)44和帧内预测单元46。对于视频块重构,视频编码器20还包含逆量化单元58、逆变换处理单元60、求和器62、滤波器单元64和经解码图片缓冲器(DPB)66。
如图12中所展示,视频编码器20接收视频数据并将所接收视频数据存储于视频数据存储器33中。视频数据存储器33可存储待由视频编码器20的组件编码的视频数据。存储于视频数据存储器33中的视频数据可(例如)从视频源18获得。DPB 66可为存储用于由视频编码器20(例如)在帧内或帧间译码模式中编码视频数据的参考视频数据的参考图片存储器。视频数据存储器33和DPB 66可由多种存储器装置中的任一者形成,例如包含同步DRAM(SDRAM)的动态随机存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM),或其它类型的存储器装置。视频数据存储器33和DPB 66可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器33可与视频编码器20的其它组件一起在芯片上,或相对于那些组件在芯片外。
分割单元35从视频数据存储器33检索视频数据并将视频数据分割成视频块。此分割还可包含分割成切片、图块或其它较大单元,以及例如根据LCU及CU的四叉树结构的视频块分割。视频编码器20一般说明对待编码视频切片内的视频块进行编码的组件。可将切片划分成多个视频块(且可能划分成被称作图块的视频块的集合)。预测处理单元41可基于误差结果(例如,译码速率和失真水平)为当前视频块选择多个可能的译码模式中的一个,例如多个帧内译码模式中的一个或多个帧间译码模式中的一个。预测处理单元41可将所得经帧内译码块或经帧间译码块提供到求和器50以生成残余块数据,且提供到求和器62以重构经编码块以用作参考图片。
预测处理单元41内的帧内预测单元46可相对于与待译码当前块在相同的帧或切片中的一或多个相邻块执行当前视频块的帧内预测性译码,以提供空间压缩。预测处理单元41内的运动估计单元42和运动补偿单元44相对于一或多个参考图片中的一或多个预测块执行当前视频块的帧间预测译码以提供时间压缩。运动估计单元42和运动补偿单元44可经配置以根据本发明中描述的技术执行DMVD。
运动估计单元42可经配置以根据用于视频序列的预定模式来确定用于视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片或B切片。运动估计单元42及运动补偿单元44可高度集成,但出于概念的目的分别加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可指示将当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的位移。
预测块是被发现在像素差方面与待译码的视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储于DPB 66中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可以相对于整数像素位置和分数像素位置执行运动搜索,并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。可从第一参考图片列表(列表0)或第二参考图片列表(列表1)来选择参考图片,所述列表中的每一个识别存储在DPB 66中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56及运动补偿单元44。
通过运动补偿单元44执行的运动补偿可以涉及基于通过运动估计(可能执行对子像素精确度的内插)确定的运动向量获取或产生预测性块。在接收到当前视频块的PU的运动向量后,运动补偿单元44可在参考图片列表中的一者中定位所述运动向量指向的预测性块。视频编码器20通过从正被译码的当前视频块的像素值中减去预测块的像素值来形成残余视频块,从而形成像素差值。像素差形成用于所述块的残余数据,并且可包含明度和色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
在预测处理单元41经由帧内预测或帧间预测产生用于当前视频块的预测性块之后,视频编码器20通过从当前视频块减去预测性块形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中,且可应用于变换处理单元52。变换处理单元52使用变换(例如,离散余弦变换(DCT)或在概念上类似的变换)来将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素值域转换到变换域,例如频域。
变换处理单元52可将所得的变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步降低位速率。量化过程可减少与系数中的一些或全部相关联的位深度。可以通过调节量化参数来修改量化程度。在一些实例中,量化单元54可接着对包含经量化变换系数的矩阵执行扫描。在另一实例中,熵编码单元56可执行扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码方法或技术。在由熵编码单元56进行熵编码之后,经编码位流可发射到视频解码器30,或存档以供稍后发射或由视频解码器30检索。熵编码单元56还可对正进行译码的当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换以在像素域中重构残余块,例如以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加到参考图片列表中的一者内的参考图片中的一者的预测性块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构的残余块以计算子整数像素值用于运动估计。求和器62将经重构残余块相加到由运动补偿单元44产生的运动补偿预测块,从而产生经重构块。
滤波器单元64滤波经重构块(例如,求和器62的输出)且将经滤波经重构块存储在DPB 66中以用作参考块。参考块可由运动估计单元42和运动补偿单元44用作参考块以对后续视频帧或图片中的块进行帧间预测。滤波器单元64既定表示解块滤波器、样本自适应偏移(SAO)滤波器和自适应环路滤波器(ALF)或任何其它类型的环路滤波器中的任一者或任何组合。举例来说,解块滤波器可应用解块滤波对块边界进行滤波,以从经重构视频去除成块效应假象。SAO滤波器可对经重构像素值应用偏移以便改进整体译码质量。也可使用额外环路滤波器(在环路或后环路中)。
图13是说明可实施本发明中描述的技术的实例视频解码器30的框图。图13的视频解码器30可例如经配置以接收上文关于图12的视频编码器20所描述的信令。在图13的实例中,视频解码器30包含视频数据存储器78、熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、求和器90、滤波器单元92和DPB 94。预测处理单元81包含运动补偿单元82和帧内预测单元84。在一些实例中,视频解码器30可执行一般与关于图12的视频编码器20描述的编码遍次互逆的解码遍次。
在解码过程期间,视频解码器30从视频编码器20接收经编码视频位流,所述经编码视频位流表示具有经编码视频切片和相关联语法元素的视频块。视频解码器20将接收到的经编码视频位流存储在视频数据存储器78中。视频数据存储器78可存储待由视频解码器30的组件解码的视频数据,例如经编码视频位流。存储在视频数据存储器78中的视频数据可例如经由链路16从存储装置26或从本地视频源(例如,相机)或通过对物理数据存储媒体进行存取来获得。视频数据存储器78可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。DPB 94可为参考图片存储器,其存储参考视频数据以用于例如在帧内或帧间译码模式中由视频解码器30对视频数据进行解码。视频数据存储器78及DPB 94可由多种存储器装置中的任一者形成,例如DRAM、SDRAM、MRAM、RRAM或其它类型的存储器装置。视频数据存储器78和DPB 94可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器78可与视频解码器30的其它组件一起在芯片上,或相对于那些组件在芯片外。
视频解码器30的熵解码单元80对存储于视频数据存储器78中的视频数据进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量和其它语法元素转发到预测处理单元81。视频解码器30可接收视频切片层级及/或视频块层级处的语法元素。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测单元84可基于用信号发送的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码切片(例如,B切片或P切片)时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量和其它语法元素产生当前视频切片的视频块的预测性块。可从参考图片列表中的一个内的参考图片中的一个产生预测性块。视频解码器30可基于存储于DPB 94中的参考图片使用默认建构技术来建构参考帧列表,列表0和列表1。
运动补偿单元82与视频解码器30的其它部分结合可经配置以根据本发明中描述的技术执行DMVD。运动补偿单元82通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于经解码当前视频块的预测性块。举例来说,运动补偿单元82使用所接收语法元素中的一些来确定用以对视频切片的视频块进行译码的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、用于切片的参考图片列表中的一或多个的构造信息、用于切片的每一经帧间编码视频块的运动向量、用于切片的每一经帧间译码视频块的帧间预测状态,以及用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在这种情况下,运动补偿单元82可根据接收的语法信息元素而确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。
逆量化单元86对在位流中提供且通过熵解码单元80解码的经量化变换系数进行逆量化,即,解量化。逆量化过程可以包含将由视频编码器20计算出的量化参数用于视频切片中的每一视频块以确定量化的程度,并且同样确定应该应用的逆量化的程度。逆变换处理单元88对变换系数应用逆变换,例如逆DCT、逆整数变换或概念上类似的逆变换过程,以便产生像素域中的残余块。
在预测处理单元使用例如帧内或帧间预测产生用于当前视频块的预测块之后,视频解码器30通过对来自逆变换处理单元88的残余块与由运动补偿单元82产生的对应预测块进行求和而形成经重构视频块。求和器90表示执行此求和运算的一个或多个组件。
滤波器单元92表示解块滤波器、SAO滤波器和ALF或任何其它类型的环路滤波器(在译码环路中或在译码环路之后)中的任一者或任何组合。接着将给定帧或图片中的经解码视频块存储于DPB 94中,所述DPB 94存储用于后续运动补偿的参考图片。DPB 94可以是存储经解码视频以供稍后呈现于例如图1的显示装置32的显示装置上的额外存储器的部分或与其分离。
图14是说明本发明中所描述的实例视频解码技术的流程图。将参考通用视频解码器描述图14的技术,例如(但不限于)视频解码器30。在一些实例中,图14的技术可由例如视频编码器20等视频编码器执行,在此情况下通用视频解码器对应于视频编码器的解码环路。
在图14的实例中,所述视频解码器确定视频数据块在帧间预测模式中经译码(202)。视频解码器隐式地确定DMVD模式针对视频数据块启用(204)。DMVD模式可例如为图案匹配运动向量导出模式、双向光流模式、双边模板匹配模式或重叠块运动补偿模式或另一DMVD模式中的一个。
在一个实例中,为了隐式地确定DMVD模式针对视频数据块启用,视频解码器可基于用以对视频数据块的一或多个相邻块进行译码的模式确定DMVD模式针对视频数据块启用。所述一或多个相邻块可为时间相邻块或空间相邻块。在另一实例中,为了隐式地确定DMVD模式针对视频数据块启用,视频解码器可响应于包括视频数据块的当前切片的低延迟条件为真而确定DMVD模式(例如,FRUC模板匹配模式)针对视频数据块启用,其中低延迟条件要求当前切片的所有参考图片按显示次序处于当前切片之前。
在另一实例中,为了隐式地确定DMVD模式针对视频数据块启用,视频解码器可响应于视频数据块为B切片,用于视频数据块的第一参考图片列表包含仅一个参考图片,用于视频数据块的第二参考图片列表包含仅一个参考图片,且第一参考图片列表的所述仅一个参考图片和第二参考图片列表的所述仅一个参考图片是同一参考图片,而确定DMVD模式针对视频数据块启用。在另一实例中,为了确定视频数据块的运动信息,视频解码器可确定用于视频数据块的参考索引,且为了隐式地确定DMVD模式针对视频数据块启用,视频解码器可响应于确定用于视频数据块的参考索引的值等于零而确定DMVD模式针对视频数据块启用。
视频解码器确定视频数据块的运动信息(206)。运动信息举例来说包含运动向量、运动向量精度和参考图片索引中的一些或全部。视频解码器使用运动信息以根据DMVD模式确定参考块(208)。视频解码器基于参考块产生视频数据块的预测性块(210)。视频解码器可将残余数据添加到预测性块以产生经重构视频数据块且处理经重构视频数据块以产生经解码视频数据块。所述处理可例如包含一或多个环路内或环路后滤波操作。
视频解码器输出经解码视频数据块。在其中视频解码器是视频编码器的部分的实例中,随后视频解码器可通过将包含经解码视频数据块的图片存储于经解码图片缓冲器中以供用作在对视频数据的后续图片进行编码时的参考图片而输出经解码视频数据块。在其中视频解码器对视频数据进行解码以供显示的实例中,随后视频解码器可通过将包含经解码视频数据块的图片存储于经解码图片缓冲器中以供用作在对视频数据的后续图片进行解码时的参考图片以及通过将包含经解码视频数据块的图片输出到显示装置而输出经解码视频数据块。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果用软件实施,则所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于如数据存储媒体或通信媒体的有形媒体,通信媒体(例如)根据通信协议包含有助于将计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如,信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
通过举例而非限制的方式,这种计算机可读存储媒体可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器、或可以用于以指令或数据结构的形式存储期望的程序代码并且可以被计算机存取的任何其它媒体。并且,适当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含在媒体的定义中。然而,应理解,有形计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而实际上是针对非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各个的组合也应包含在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。此外,在一些方面中,本文中所描述的功能性可在经配置以用于编码和解码或并入在组合编解码器中的专用硬件和/或软件模块内提供。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。已经描述各种实例。这些和其它实例在随附权利要求书的范围内。

Claims (18)

1.一种对视频数据进行解码的方法,所述方法包括:
确定视频数据块在帧间预测模式中经译码;
隐式地确定解码器侧运动向量导出DMVD模式针对所述视频数据块启用;
确定所述视频数据块的运动信息;
使用所述运动信息根据所述DMVD模式确定参考块;以及
基于所述参考块产生所述视频数据块的预测性块,
其中,隐式地确定所述DMVD模式针对所述视频数据块启用包括响应于以下各项而确定所述DMVD模式针对所述视频数据块启用:
所述视频数据块为B切片;
用于所述视频数据块的第一参考图片列表包含仅一个参考图片;
用于所述视频数据块的第二参考图片列表包含仅一个参考图片;且
所述第一参考图片列表的所述仅一个参考图片和所述第二参考图片列表的所述仅一个参考图片为同一参考图片。
2.根据权利要求1所述的方法,其中所述运动信息包括运动向量、运动向量精度和参考图片索引中的一些或全部。
3.根据权利要求1所述的方法,其中所述DMVD模式包括图案匹配运动向量导出模式、双向光流模式、双边模板匹配模式或重叠块运动补偿模式中的一个。
4.根据权利要求1所述的方法,其进一步包括:
将残余数据添加到所述预测性块以产生经重构视频数据块;
处理所述经重构视频数据块以产生经解码视频数据块;
输出所述经解码视频数据块。
5.根据权利要求1所述的方法,其中所述方法作为视频编码过程的解码环路的部分来执行。
6.一种用于对视频数据进行解码的装置,所述装置包括:
存储器,其经配置以存储所述视频数据;以及
一或多个处理器,其经配置以:
确定视频数据块在帧间预测模式中经译码;
隐式地确定解码器侧运动向量导出DMVD模式针对所述视频数据块启用;
确定所述视频数据块的运动信息;
使用所述运动信息根据所述DMVD模式确定参考块;以及
基于所述参考块产生所述视频数据块的预测性块,
其中,所述一或多个处理器响应于以下各项而隐式地确定所述DMVD模式针对所述视频数据块启用:
所述视频数据块为B切片;
用于所述视频数据块的第一参考图片列表包含仅一个参考图片;
用于所述视频数据块的第二参考图片列表包含仅一个参考图片;且
所述第一参考图片列表的所述仅一个参考图片和所述第二参考图片列表的所述仅一个参考图片为同一参考图片。
7.根据权利要求6所述的装置,其中所述运动信息包括运动向量、运动向量精度和参考图片索引中的一些或全部。
8.根据权利要求6所述的装置,其中所述DMVD模式包括图案匹配运动向量导出模式、双向光流模式、双边模板匹配模式或重叠块运动补偿模式中的一个。
9.根据权利要求6所述的装置,其中所述一或多个处理器经配置以:
将残余数据添加到所述预测性块以产生经重构视频数据块;
处理所述经重构视频数据块以产生经解码视频数据块;
输出所述经解码视频数据块。
10.根据权利要求6所述的装置,其中所述装置经配置以作为视频编码过程的解码环路的部分来对所述视频数据进行解码。
11.根据权利要求6所述的装置,其中所述装置包括无线通信装置,其进一步包括经配置以接收经编码视频数据的接收器。
12.根据权利要求11所述的装置,其中所述无线通信装置包括电话手持机,且其中所述接收器经配置以根据无线通信标准来解调包括所述经编码视频数据的信号。
13.根据权利要求6所述的装置,其中所述装置包括无线通信装置,其进一步包括经配置以发射经编码视频数据的发射器。
14.根据权利要求13所述的装置,其中所述无线通信装置包括电话手持机,且其中所述发射器经配置以根据无线通信标准来调制包括所述经编码视频数据的信号。
15.一种存储指令的计算机可读存储媒体,所述指令在由一或多个处理器执行时致使所述一或多个处理器:
确定视频数据块在帧间预测模式中经译码;
隐式地确定解码器侧运动向量导出DMVD模式针对所述视频数据块启用;
确定所述视频数据块的运动信息;
使用所述运动信息根据所述DMVD模式确定参考块;以及
基于所述参考块产生所述视频数据块的预测性块,
其中,所述指令使得所述一个或多个处理器响应于以下各项而隐式地确定所述DMVD模式针对所述视频数据块启用:
所述视频数据块为B切片;
用于所述视频数据块的第一参考图片列表包含仅一个参考图片;
用于所述视频数据块的第二参考图片列表包含仅一个参考图片;且
所述第一参考图片列表的所述仅一个参考图片和所述第二参考图片列表的所述仅一个参考图片为同一参考图片。
16.根据权利要求15所述的计算机可读存储媒体,其中所述运动信息包括运动向量、运动向量精度和参考图片索引中的一些或全部。
17.根据权利要求15所述的计算机可读存储媒体,其中所述DMVD模式包括图案匹配运动向量导出模式、双向光流模式、双边模板匹配模式或重叠块运动补偿模式中的一个。
18.根据权利要求15所述的计算机可读存储媒体,其存储进一步的指令,所述指令在由所述一或多个处理器执行时致使所述一或多个处理器:
将残余数据添加到所述预测性块以产生经重构视频数据块;
处理所述经重构视频数据块以产生经解码视频数据块;
输出所述经解码视频数据块。
CN201880019170.0A 2017-03-22 2018-03-22 解码器侧运动向量导出 Active CN110431842B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762475042P 2017-03-22 2017-03-22
US62/475,042 2017-03-22
US15/927,952 US10491917B2 (en) 2017-03-22 2018-03-21 Decoder-side motion vector derivation
US15/927,952 2018-03-21
PCT/US2018/023816 WO2018175756A1 (en) 2017-03-22 2018-03-22 Decoder-side motion vector derivation

Publications (2)

Publication Number Publication Date
CN110431842A CN110431842A (zh) 2019-11-08
CN110431842B true CN110431842B (zh) 2021-06-18

Family

ID=63583215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880019170.0A Active CN110431842B (zh) 2017-03-22 2018-03-22 解码器侧运动向量导出

Country Status (4)

Country Link
US (1) US10491917B2 (zh)
EP (1) EP3603060A1 (zh)
CN (1) CN110431842B (zh)
WO (1) WO2018175756A1 (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110383840A (zh) * 2017-03-10 2019-10-25 索尼公司 图像处理装置和方法
WO2018212111A1 (ja) 2017-05-19 2018-11-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法
WO2018212110A1 (ja) * 2017-05-19 2018-11-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法
CN110786011B (zh) 2017-06-26 2021-09-24 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法和解码方法
US11184636B2 (en) * 2017-06-28 2021-11-23 Sharp Kabushiki Kaisha Video encoding device and video decoding device
EP3451665A1 (en) * 2017-09-01 2019-03-06 Thomson Licensing Refinement of internal sub-blocks of a coding unit
US10958928B2 (en) * 2018-04-10 2021-03-23 Qualcomm Incorporated Decoder-side motion vector derivation for video coding
WO2019204234A1 (en) * 2018-04-15 2019-10-24 Arris Enterprises Llc Unequal weight planar motion vector derivation
CN110662052B (zh) 2018-06-29 2022-07-08 北京字节跳动网络技术有限公司 更新查找表(lut)的条件
SG11202012293RA (en) 2018-06-29 2021-01-28 Beijing Bytedance Network Technology Co Ltd Update of look up table: fifo, constrained fifo
TWI728390B (zh) 2018-06-29 2021-05-21 大陸商北京字節跳動網絡技術有限公司 查找表尺寸
CN110662043B (zh) 2018-06-29 2021-12-21 北京字节跳动网络技术有限公司 一种用于处理视频数据的方法、装置和计算机可读介质
EP4322533A3 (en) 2018-06-29 2024-03-06 Beijing Bytedance Network Technology Co., Ltd. Checking order of motion candidates in lut
EP3791585A1 (en) 2018-06-29 2021-03-17 Beijing Bytedance Network Technology Co. Ltd. Partial/full pruning when adding a hmvp candidate to merge/amvp
TWI731360B (zh) 2018-06-29 2021-06-21 大陸商北京字節跳動網絡技術有限公司 查找表的使用條件
WO2020008349A1 (en) 2018-07-02 2020-01-09 Beijing Bytedance Network Technology Co., Ltd. Merge index coding
WO2020031059A1 (en) 2018-08-04 2020-02-13 Beijing Bytedance Network Technology Co., Ltd. Constraints for usage of updated motion information
WO2020053800A1 (en) 2018-09-12 2020-03-19 Beijing Bytedance Network Technology Co., Ltd. How many hmvp candidates to be checked
US10911751B2 (en) * 2018-09-14 2021-02-02 Tencent America LLC Method and apparatus for video coding
WO2020084475A1 (en) 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Utilization of refined motion vector
WO2020084462A1 (en) 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Restrictions on decoder side motion vector derivation based on block size
WO2020084461A1 (en) * 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Restrictions on decoder side motion vector derivation based on coding information
WO2020084476A1 (en) 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Sub-block based prediction
CN117241017A (zh) 2018-11-05 2023-12-15 北京字节跳动网络技术有限公司 数字视频编解码的方法、设备和系统
CN111436230A (zh) 2018-11-12 2020-07-21 北京字节跳动网络技术有限公司 仿射预测的带宽控制方法
EP3861742A4 (en) 2018-11-20 2022-04-13 Beijing Bytedance Network Technology Co., Ltd. DIFFERENCE CALCULATION BASED ON SPATIAL POSITION
CN113170171B (zh) 2018-11-20 2024-04-12 北京字节跳动网络技术有限公司 组合帧间帧内预测模式的预测细化
CN113597760A (zh) 2019-01-02 2021-11-02 北京字节跳动网络技术有限公司 视频处理的方法
JP7275286B2 (ja) 2019-01-10 2023-05-17 北京字節跳動網絡技術有限公司 Lut更新の起動
US11153590B2 (en) 2019-01-11 2021-10-19 Tencent America LLC Method and apparatus for video coding
WO2020143824A1 (en) 2019-01-13 2020-07-16 Beijing Bytedance Network Technology Co., Ltd. Interaction between lut and shared merge list
WO2020147772A1 (en) 2019-01-16 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Motion candidates derivation
US11095915B2 (en) * 2019-01-31 2021-08-17 Qualcomm Incorporated Shared motion vector predictor list for intra block copy mode in video coding
CN113491124B (zh) * 2019-02-14 2024-06-25 Lg电子株式会社 基于dmvr的帧间预测方法和设备
WO2020164575A1 (en) * 2019-02-14 2020-08-20 Beijing Bytedance Network Technology Co., Ltd. Decoder side motion derivation based on processing parameters
JP2022521554A (ja) 2019-03-06 2022-04-08 北京字節跳動網絡技術有限公司 変換された片予測候補の利用
CA3132602A1 (en) * 2019-03-11 2020-09-17 Telefonaktiebolaget Lm Ericsson (Publ) Motion refinement and weighted prediction
WO2020192611A1 (en) 2019-03-22 2020-10-01 Beijing Bytedance Network Technology Co., Ltd. Interaction between merge list construction and other tools
EP3922014A4 (en) 2019-04-02 2022-04-06 Beijing Bytedance Network Technology Co., Ltd. DECODER SIDE MOTION VECTOR BYPASS
KR20230165888A (ko) 2019-04-02 2023-12-05 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 양방향 광학 흐름 기반 비디오 코딩 및 디코딩
CN113728630B (zh) 2019-04-19 2023-11-17 北京字节跳动网络技术有限公司 不同运动矢量细化中的基于区域的梯度计算
CN113711609B (zh) 2019-04-19 2023-12-01 北京字节跳动网络技术有限公司 利用光流的预测细化过程中的增量运动矢量
JP7303330B2 (ja) 2019-04-28 2023-07-04 北京字節跳動網絡技術有限公司 対称動きベクトル差分符号化
US11172212B2 (en) * 2019-06-06 2021-11-09 Qualcomm Incorporated Decoder-side refinement tool on/off control
CA3143538A1 (en) * 2019-06-14 2020-12-17 Lg Electronics Inc. Image decoding method and device for deriving weight index information for generation of prediction sample
US11272203B2 (en) * 2019-07-23 2022-03-08 Tencent America LLC Method and apparatus for video coding
KR20220038060A (ko) * 2019-07-27 2022-03-25 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 참조 픽처 유형들에 따른 툴들의 사용의 제한들
US20210092404A1 (en) * 2019-09-20 2021-03-25 Qualcomm Incorporated Reference picture constraint for decoder side motion refinement and bi-directional optical flow
US20210092427A1 (en) * 2019-09-23 2021-03-25 Qualcomm Incorporated Harmonized early termination in bdof and dmvr in video coding
CN113596457A (zh) * 2019-09-23 2021-11-02 杭州海康威视数字技术股份有限公司 编解码方法方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102131091A (zh) * 2010-01-15 2011-07-20 联发科技股份有限公司 解码端运动向量导出方法
WO2012125178A1 (en) * 2011-03-15 2012-09-20 Intel Corporation Low memory access motion vector derivation
CN102986224A (zh) * 2010-12-21 2013-03-20 英特尔公司 用于增强的解码器侧运动向量导出处理的系统及方法
CN106105196A (zh) * 2014-04-28 2016-11-09 松下电器(美国)知识产权公司 编码方法、解码方法、编码装置以及解码装置
WO2017036414A1 (en) * 2015-09-02 2017-03-09 Mediatek Inc. Method and apparatus of decoder side motion derivation for video coding

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8582660B2 (en) * 2006-04-13 2013-11-12 Qualcomm Incorporated Selective video frame rate upconversion
US9654792B2 (en) * 2009-07-03 2017-05-16 Intel Corporation Methods and systems for motion vector derivation at a video decoder
US20110176611A1 (en) * 2010-01-15 2011-07-21 Yu-Wen Huang Methods for decoder-side motion vector derivation
WO2011115659A1 (en) * 2010-03-16 2011-09-22 Thomson Licensing Methods and apparatus for implicit adaptive motion vector predictor selection for video encoding and decoding
RU2480941C2 (ru) * 2011-01-20 2013-04-27 Корпорация "Самсунг Электроникс Ко., Лтд" Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
CN102685504B (zh) * 2011-03-10 2015-08-19 华为技术有限公司 视频图像的编解码方法、编码装置、解码装置及其系统
US9420286B2 (en) * 2012-06-15 2016-08-16 Qualcomm Incorporated Temporal motion vector prediction in HEVC and its extensions
US10531116B2 (en) * 2014-01-09 2020-01-07 Qualcomm Incorporated Adaptive motion vector resolution signaling for video coding
US10958927B2 (en) * 2015-03-27 2021-03-23 Qualcomm Incorporated Motion information derivation mode determination in video coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102131091A (zh) * 2010-01-15 2011-07-20 联发科技股份有限公司 解码端运动向量导出方法
CN102986224A (zh) * 2010-12-21 2013-03-20 英特尔公司 用于增强的解码器侧运动向量导出处理的系统及方法
WO2012125178A1 (en) * 2011-03-15 2012-09-20 Intel Corporation Low memory access motion vector derivation
KR20130138301A (ko) * 2011-03-15 2013-12-18 인텔 코오퍼레이션 저 메모리 액세스 모션 벡터 유도
CN106105196A (zh) * 2014-04-28 2016-11-09 松下电器(美国)知识产权公司 编码方法、解码方法、编码装置以及解码装置
WO2017036414A1 (en) * 2015-09-02 2017-03-09 Mediatek Inc. Method and apparatus of decoder side motion derivation for video coding

Also Published As

Publication number Publication date
CN110431842A (zh) 2019-11-08
EP3603060A1 (en) 2020-02-05
US10491917B2 (en) 2019-11-26
WO2018175756A1 (en) 2018-09-27
US20180278950A1 (en) 2018-09-27

Similar Documents

Publication Publication Date Title
CN110431842B (zh) 解码器侧运动向量导出
CN111989922B (zh) 用于对视频数据进行解码的方法、设备和装置
CN111602399B (zh) 改进的解码器侧运动矢量推导
CN110431845B (zh) 约束通过解码器侧运动向量推导导出的运动向量信息
CN110915214B (zh) 用于运动向量推导的基于部分重构建的模板匹配
CN110352598B (zh) 对视频数据进行解码的方法、装置和设备,以及媒体
CN110036638B (zh) 解码视频数据的方法、装置、设备及存储媒体
CN111567043B (zh) 对视频数据进行译码的方法、装置和计算机可读存储介质
CN107690810B (zh) 确定用于视频译码的照明补偿状态的系统及方法
CN110089116B (zh) 通过光照补偿和整数运动向量限制进行编码优化
CN110754087A (zh) 用于双向光学流(bio)的高效存储器带宽设计
JP2018513611A (ja) ビデオコーディングにおける動きベクトル導出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant