CN110036638B - 解码视频数据的方法、装置、设备及存储媒体 - Google Patents

解码视频数据的方法、装置、设备及存储媒体 Download PDF

Info

Publication number
CN110036638B
CN110036638B CN201880004708.0A CN201880004708A CN110036638B CN 110036638 B CN110036638 B CN 110036638B CN 201880004708 A CN201880004708 A CN 201880004708A CN 110036638 B CN110036638 B CN 110036638B
Authority
CN
China
Prior art keywords
block
sub
video data
predictive
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880004708.0A
Other languages
English (en)
Other versions
CN110036638A (zh
Inventor
陈义文
庄孝强
李翔
张莉
钱威俊
陈建乐
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110036638A publication Critical patent/CN110036638A/zh
Application granted granted Critical
Publication of CN110036638B publication Critical patent/CN110036638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

对于双向帧间预测块,视频解码器经配置以:使用第一MV将第一预测性块定位于第一参考图片中;使用第二MV将第二预测性块定位于第二参考图片中;针对所述第一预测性块的第一子块确定第一双向光学流BIO运动量;基于所述第一BIO运动量确定用于视频数据块的第一最终预测性子块;针对所述第一预测性块的第二子块确定第二BIO运动量;基于所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块;及基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块。

Description

解码视频数据的方法、装置、设备及存储媒体
本申请案主张以下各项的权益:
2017年1月4日申请的美国临时专利申请案第62/442,357号;及
2017年1月11日申请的美国临时专利申请案第62/445,152号,
所述美国临时专利申请案两者的全部内容以引用的方式并入本文中。
技术领域
本发明是关于视频译码。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主控台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电传会议装置、视频流式传输装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4、Part 10、高级视频译码(AVC)、ITU-T H.265/高效率视频译码(HEVC)所定义的标准及此些标准的延伸中所描述的视频译码技术。视频装置可通过实施此些视频译码技术来更高效地发射、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以缩减或去除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(例如,视频帧或视频帧的部分)分割成视频块,其也可被称作树型块、译码单元(CU)及/或译码节点。图片的经帧内译码(I)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测产生用于待译码块的预测性块。残余数据表示原始待译码块与预测性块之间的像素差。根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据编码经帧间译码块。根据帧内译码模式及残余数据编码经帧内译码块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,其接着可被量化。可扫描最初布置成二维阵列的经量化变换系数以便产生变换系数的一维向量,且可应用熵译码以达成甚至更多的压缩。
发明内容
一般来说,本发明描述关于视频译码中的双向光学流(BIO)的技术。本发明的技术可结合例如高效率视频译码(HEVC)的现有视频编解码器而使用,或为用于未来视频译码标准的高效译码工具。
根据本发明的一个实例,一种解码视频数据的方法包含:确定使用双向帧间预测模式编码视频数据块;确定用于所述块的第一运动向量(MV),其中所述第一MV指向第一参考图片;确定用于所述块的第二MV,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;使用所述第一MV将第一预测性块定位于所述第一参考图片中;使用所述第二MV将第二预测性块定位于所述第二参考图片中;针对所述第一预测性块的第一子块确定第一双向光学流(BIO)运动量;基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块;针对所述第一预测性块的第二子块确定第二BIO运动量;基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块;基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块;及输出包括所述视频数据块的经解码版本的视频数据图片。
根据本发明的另一实例,一种用于解码视频数据的装置包含:存储器,其经配置以存储视频数据;及一或多个处理器,其经配置以:确定使用双向帧间预测模式编码视频数据块;确定用于所述块的第一运动向量(MV),其中所述第一MV指向第一参考图片;确定用于所述块的第二MV,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;使用所述第一MV将第一预测性块定位于所述第一参考图片中;使用所述第二MV将第二预测性块定位于所述第二参考图片中;针对所述第一预测性块的第一子块确定第一双向光学流(BIO)运动量;基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块;针对所述第一预测性块的第二子块确定第二BIO运动量;基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块;基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块;及输出包括所述视频数据块的经解码版本的视频数据图片。
根据本发明的另一实例,一种计算机可读存储媒体存储在由一或多个处理器执行时致使所述一或多个处理器进行以下操作的指令:确定使用双向帧间预测模式编码视频数据块;确定用于所述块的第一运动向量(MV),其中所述第一MV指向第一参考图片;确定用于所述块的第二MV,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;使用所述第一MV将第一预测性块定位于所述第一参考图片中;使用所述第二MV将第二预测性块定位于所述第二参考图片中;针对所述第一预测性块的第一子块确定第一双向光学流(BIO)运动量;基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块;针对所述第一预测性块的第二子块确定第二BIO运动量;基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块;基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块;及输出包括所述视频数据块的经解码版本的视频数据图片。
根据本发明的另一实例,一种用于解码视频数据的设备包含:用于确定使用双向帧间预测模式编码视频数据块的装置;用于确定用于所述块的第一运动向量(MV)的装置,其中所述第一MV指向第一参考图片;用于确定用于所述块的第二MV的装置,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;用于使用所述第一MV将第一预测性块定位于所述第一参考图片中的装置;用于使用所述第二MV将第二预测性块定位于所述第二参考图片中的装置;用于针对所述第一预测性块的第一子块确定第一双向光学流(BIO)运动量的装置;用于基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块的装置;用于针对所述第一预测性块的第二子块确定第二BIO运动量的装置;用于基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块的装置;用于基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块的装置;及用于输出包括所述视频数据块的经解码版本的视频数据图片的装置。
下文在附图及实施方式中阐述本发明的一或多个方面的细节。本发明中所描述的技术的其它特征、目标及优点将从实施方式、图式及权利要求书显而易见。
附图说明
图1为绘示可利用用于双向光学流的技术的实例视频编码及解码系统的框图。
图2为将单侧运动估计(ME)的实例绘示为经执行用于运动补偿帧速率向上转换(MC-FRUC)的块匹配算法(BMA)的概念图。
图3为将双侧ME的实例绘示为经执行用于MC-FRUC的BMA的概念图。
图4A展示用于合并模式的空间相邻MV候选者。
图4B展示用于AMVP模式的空间相邻MV候选者。
图5A展示TMVP候选者的实例。
图5B展示MV按比例调整的实例。
图6展示光学流轨迹的实例。
图7展示用于8×4块的BIO的实例。
图8展示用于8×4块的经修改BIO的实例。
图9A及9B展示OBMC适用的子块的实例绘示。
图10A到10D展示OBMC加权的实例。
图11展示用于8×4块的所提议BIO的实例。
图12A到12D展示OBMC上的所提议简化BIO的实例。
图13展示用于具有5×5窗的4×4子块的实例加权函数。
图14为绘示视频编码器的实例的框图。
图15为绘示可实施用于双向光学流的技术的视频解码器的实例的框图。
图16为绘示根据本发明的技术的视频解码器的实例操作的流程图。
具体实施方式
一般来说,本发明的技术是关于双向光学流(BIO)视频译码技术的改进。可在运动补偿期间应用BIO。如最初所提议,BIO用以基于光学流轨迹修改用于双向预测经帧间译码块的预测性样本值,以便确定优选预测性块,例如,更接近地匹配于原始视频数据块的预测性块。可单独地或以任何组合应用本发明的各种技术,以例如在运动补偿期间确定当预测视频数据块时何时及是否执行BIO。
如本发明中所使用,术语视频译码一般是指视频编码或视频解码。相似地,术语视频译码器一般可指视频编码器或视频解码器。此外,本发明中关于视频解码所描述的某些技术也可适用于视频编码,且反之亦然。举例来说,视频编码器及视频解码器时常经配置以执行相同程序或互逆程序。而且,视频编码器通常执行视频解码以作为确定如何编码视频数据的程序的部分。因此,除非有明确相反陈述,否则不应假定关于视频解码所描述的技术也无法由视频编码器执行,或反过来。
本发明也可使用例如当前层、当前块、当前图片、当前切片等等的术语。在本发明的上下文中,术语当前打算识别当前正被译码的块、图片、切片等等,此与例如先前或已经译码的块、图片及切片或尚待译码的块、图片及切片相对。
一般来说,图片被划分成块,所述块中的每一个可被预测性地译码。视频译码器可使用帧内预测技术(使用来自包含当前块的图片的数据)、帧间预测技术(使用来自相对于包含当前块的图片的经先前译码图片的数据)或例如帧内块复本、调色盘模式、字典模式等等的其它技术预测当前块。帧间预测包含单向预测及双向预测两者。
对于每一帧间预测块,视频译码器可确定运动信息集合。运动信息集合可含有用于前向及后向预测方向的运动信息。此处,前向及后向预测方向为双向预测模式的两个预测方向。术语“前向”及“后向”未必具有几何结构含义。代替地,所述术语通常对应于将在当前图片之前(“后向”)抑或之后(“前向”)显示参考图片。在一些实例中,“前向”及“后向”预测方向可对应于当前图片的参考图片列表0(RefPicList0)及参考图片列表1(RefPicList1)。当仅一个参考图片列表可用于图片或切片时,仅RefPicList0可用且切片的每一块的运动信息始终参考RefPicList0的图片(例如,为前向)。
在一些状况下,运动向量连同对应参考索引一起可用于解码程序中。具有关联参考索引的此运动向量被表示为单预测性运动信息集合。
对于每一预测方向,运动信息含有参考索引及运动向量。在一些状况下,出于简单起见,可以假定运动向量具有关联参考索引的方式参考所述运动向量自身。参考索引可用以识别当前参考图片列表(RefPicList0或RefPicList1)中的参考图片。运动向量具有水平(x)及垂直(y)分量。一般来说,水平分量指示参考图片内相对于当前图片中的当前块的位置的水平位移,需要水平位移来定位参考块的x坐标,而垂直分量指示参考图片内相对于当前块的位置的垂直位移,需要垂直位移来定位参考块的y坐标。
图片次序计数(POC)值广泛地用于视频译码标准中以识别图片的显示次序。尽管存在一个经译码视频序列内的两个图片可具有相同POC值的状况,但经译码视频序列内通常不会发生此状况。因此,图片的POC值通常是唯一的,且因此可唯一地识别对应图片。当位流中存在多个经译码视频序列时,在解码次序方面,具有相同POC值的图片可彼此较接近。图片的POC值通常用于参考图片列表构建、如HEVC中的参考图片集合导出,及运动向量按比例调整。
2015年6月,波兰华沙,ITU-电信标准化部门,研究团体16问题6,视频译码专家团体(VCEG),VCEG-AZ05,E.Alshina,A.Alshina,J.-H.Min,K.Choi,A.Saxena,M.Budagavi的“Known tools performance investigation for next generation video coding”(在下文中为“Alshina 1”),及2010年,日本名古屋,图片译码讨论会(PCS),A.Alshina,E.Alshina,T.Lee的“Bi-directional optical flow for improving motioncompensation”(在下文中为“Alshina 2”),描述了被称为双向光学流(BIO)的方法。BIO是基于像素层级光学流。根据Alshina 1及Alshina 2,BIO仅应用于具有前向及后向预测两者的块。下文概述如Alshina 1及Alshina 2中所描述的BIO:
在给出时间t时的像素值It的情况下,像素值的一阶泰勒展开式为
Figure SMS_1
It0位于It的运动轨迹上。即,公式中考虑从It0到It的运动。
在光学流的假定下:
Figure SMS_2
Figure SMS_3
假设
Figure SMS_4
(梯度),且方程式(A)变为
Figure SMS_5
在将
Figure SMS_6
及/>
Figure SMS_7
视为移动速度的情况下,可使用Vx0及Vy0表示所述移动速度。
因此,方程式(B)变为
It=It0-Gx0·Vx0·(t-t0)-Gy0·Vy0·(t-t0) (C)
假设t0时的前向参考及t1时的后向参考,且
t0-t=t-t1=Δt=1
则:
It=It0-Gx0·Vx0·(t-t0)-Gy0·Vy0·(t-t0)=It0+Gx0·Vx0+Gy0·Vy0
It=It1-Gx1·Vx1·(t-t1)-Gy1·Vy1·(t-t1)=It1-Gx1·Vx1-Gy1·Vy1
Figure SMS_8
进一步假定Vx0=Vx1=Vx且Vy0=Vy1=Vy,这是由于运动是沿着所述轨迹。因此,方程式(D)变为
Figure SMS_9
其中ΔGx=Gx0-Gx1、ΔGy=Gy0-Gy1可基于经重建参考进行计算。由于
Figure SMS_10
为常规双预测,因此/>
Figure SMS_11
在下文中出于方便起见而被称为BIO偏移。
Vx及Vy是通过最小化以下失真而在编码器及解码器两者处导出:
Figure SMS_12
在导出Vx及Vy的情况下,运用方程式(E)计算块的最终预测。Vx及Vy出于方便起见而被称为“BIO运动”。
一般来说,视频译码器在运动补偿期间执行BIO。也就是说,在视频译码器确定用于当前块的运动向量之后,视频译码器使用相对于运动向量的运动补偿来产生用于当前块的预测块。一般来说,运动向量识别参考图片中参考块相对于当前块的位置。当执行BIO时,视频译码器针对当前块在每像素基础上修改运动向量。也就是说,根据BIO,视频译码器确定对用于当前块的运动向量的每像素修改,且构建参考块,使得参考块包含由运动向量识别的参考像素及针对当前块的对应像素的每像素修改,而非检索参考块的每一像素作为块单元。因此,BIO可用以产生用于当前块的较准确参考块。
图1为绘示可利用用于双向光学流的技术的实例视频编码及解码系统10的框图。如图1所展示,系统10包含源装置12,源装置12提供稍后将由目的地装置14解码的经编码视频数据。具体来说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一个,包含台式计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏主控台、视频流式传输装置或其类似者。在一些状况下,源装置12及目的地装置14可经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体以使源装置12能够实时地将经编码视频数据直接发射到目的地装置14。经编码视频数据可根据例如无线通信协议的通信标准进行调制,且被发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成例如局域网、广域网或例如因特网的全域网络的基于包的网络的部分。通信媒体可包含路由器、交换器、基站,或可有用于促进从源装置12到目的地装置14的通信的任何其它设备。
在一些实例中,可将经编码数据从输出接口22输出到存储装置。相似地,可由输入接口从存储装置存取经编码数据。存储装置可包含多种分散式或本机存取数据存储媒体中的任一个,例如硬盘、蓝光(Blu-ray)光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适数字存储媒体。在一另外实例中,存储装置可对应于可存储由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载而从存储装置存取经存储视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置,或本机磁盘驱动器。目的地装置14可经由包含因特网连接的任何标准数据连接而存取经编码视频数据。此连接可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器等等)或此两者的组合。从存储装置的经编码视频数据的发射可为流式传输发射、下载发射或其组合。
本发明的技术未必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一个,例如:空中电视广播;有线电视发射;卫星电视发射;因特网流式传输视频发射,例如经由HTTP的动态调适性流式传输(DASH);编码到数据存储媒体上的数字视频;存储于数据存储媒体上的数字视频的解码;或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射来支持例如视频流式传输、视频播放、视频广播及/或视频电话的应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于双向光学流的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可从例如外部相机的外部视频源18接收视频数据。同样地,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。
图1的所绘示系统10仅仅为一个实例。用于双向光学流的技术可由任何数字视频编码及/或解码装置执行。尽管本发明的技术通常是由视频编码装置执行,但所述技术也可由通常被称作“编解码器”的视频编码器/解码器执行。此外,本发明的技术也可由视频预处理器执行。源装置12及目的地装置14仅仅为此些译码装置的实例,其中源装置12产生经译码视频数据以供发射到目的地装置14。在一些实例中,装置12、14可以大体上对称方式而操作,使得装置12、14中的每一个包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传播,例如,用于视频流式传输、视频播放、视频广播或视频电话。
源装置12的视频源18可包含视频捕捉装置,例如摄像机、含有经先前捕捉视频的视频文件库,及/或用以从视频内容提供者接收视频的视频馈送接口。作为另外替代例,视频源18可产生基于计算机图形的数据作为源视频,或产生实况视频、存档视频及计算机产生视频的组合。在一些状况下,如果视频源18为摄像机,那么源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术大体上可适用于视频译码,且可应用于无线及/或有线应用。在每一状况下,可由视频编码器20编码经捕捉、经预捕捉或计算机产生视频。接着可由输出接口22将经编码视频信息输出到计算机可读媒体16上。
计算机可读媒体16可包含:暂时性媒体,例如无线广播或有线网络发射;或存储媒体(即,非暂时性存储媒体),例如硬盘、随身盘、紧密光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接收经编码视频数据且将经编码视频数据提供到目的地装置14,例如经由网络发射。相似地,例如光盘冲压设施的媒体生产设施的计算装置可从源装置12接收经编码视频数据且生产含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可被理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息也由视频解码器30使用,所述语法信息包含描述视频数据的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一个,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20及视频解码器30可根据例如ITU-T H.264/AVC(高级视频译码)或高效率视频译码(HEVC)的一或多个视频译码标准而操作,所述一或多个视频译码标准也被称作ITU-T H.265。H.264被描述于2011年6月国际电信联盟的“Advanced video coding forgeneric audiovisual services”,SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS,视听服务的基础结构-移动视频的译码,H.264。H.265被描述于2015年4月国际电信联盟的“High efficiency video coding”,SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS,视听服务的基础结构-移动视频的译码。本发明的技术也可作为高效译码工具而应用于任何其它先前或未来视频译码标准。
其它视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及H.264的可调式视频译码(SVC)与多视图视频译码(MVC)延伸,以及HEVC的延伸,例如范围延伸、多视图延伸(MV-HEVC)及可调式延伸(SHVC)。在2015年4月,视频译码专家团体(VCEG)开始了目标为下一代视频译码标准的新研究计划。参考软件被称为HM-KTA。
ITU-T VCEG(Q6/16)及ISO/IEC MPEG(JTC 1/SC 29/WG 11)现在正研究针对压缩能力显著地超过当前HEVC标准(包含HEVC的当前延伸及针对屏幕内容译码及高动态范围译码的近期延伸)的压缩能力的未来视频译码技术的标准化的潜在需要。所述团体在被称为联合视频探索团队(JVET)的联合合作工作中正共同致力于此探索活动,以评估由其在此领域中的专家提议的压缩技术设计。JVET在2015年10月19日到21日期间第一次开会。可从下址下载参考软件的最新版本,即,联合探索模型3(JEM 3):https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-4.0/。联合探索测试模型3(JEM3)的算法描述可被称作JVET-D1001。
本发明中描述某些视频译码技术,例如与本发明的技术相关的H.264及HEVC的视频译码技术。可参考H.264及/或HEVC来描述本发明的某些技术以辅助理解,但所描述的技术未必限于H.264或HEVC,且可结合其它译码标准及其它译码工具而使用。
尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当MUX-DEMUX单元或其它硬件及软件,以处置共同数据流或单独数据流中的音频及视频两者的编码。适用时,MUX-DEMUX单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)的其它协议。
在HEVC及其它视频译码规范中,视频序列通常包含一系列图片。图片也可被称作“帧”。图片可包含三个样本阵列,被表示为SL、SCb及SCr。SL为明度样本的二维阵列(即,块)。SCb为Cb彩度样本的二维阵列。SCr为Cr彩度样本的二维阵列。彩度样本在本文中也可被称作“色度”样本。在其它情况下,图片可为单色的且可仅包含明度样本阵列。
为了产生图片的经编码表示,视频编码器20可产生译码树型单元(CTU)集合。所述CTU中的每一个可包括明度样本的译码树型块、色度样本的两个对应译码树型块,及用以译码所述译码树型块的样本的语法结构。在单色图片或具有三个单独色彩平面的图片中,CTU可包括单一译码树型块及用以译码所述译码树型块的样本的语法结构。译码树型块可为样本的N×N块。CTU也可被称作“树型块”或“最大译码单元”(LCU)。HEVC的CTU可大致类似于例如H.264/AVC的其它标准的宏块。然而,CTU未必限于特定大小,且可包含一或多个译码单元(CU)。切片可包含按光栅扫描次序连续地排序的整数数目个CTU。
CTB含有四叉树,四叉树的节点为译码单元。CTB的大小可在HEVC主规范中的16×16到64×64的范围内(但技术上可支持8×8CTB大小)。译码单元(CU)可具有与CTB的大小相同的大小,但可小到8×8。每一译码单元是运用一个模式被译码。当CU被帧间译码时,CU可被进一步分割成2或4个预测单元(PU),或在进一步分割不适用时变为仅仅一个PU。当两个PU存在于一个CU中时,两个PU可为一半大小的矩形或具有CU的1/4或3/4大小的两个矩形大小。
为了产生经译码CTU,视频编码器20可对CTU的译码树型块递归地执行四叉树分割,以将译码树型块划分成译码块,因此名称为“译码树型单元”。译码块可为样本的N×N块。CU可包括具有明度样本阵列、Cb样本阵列及Cr样本阵列的图片的明度样本的译码块及色度样本的两个对应译码块,及用以译码所述译码块的样本的语法结构。在单色图片或具有三个单独色彩平面的图片中,CU可包括单一译码块及用以译码所述译码块的样本的语法结构。
视频编码器20可将CU的译码块分割成一或多个预测块。预测块为被应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可包括明度样本的预测块、色度样本的两个对应预测块,及用以预测所述预测块的语法结构。在单色图片或具有三个单独色彩平面的图片中,PU可包括单一预测块及用以预测所述预测块的语法结构。视频编码器20可产生用于CU的每一PU的明度、Cb及Cr预测块的预测性明度、Cb及Cr块。
视频编码器20可使用帧内预测或帧间预测来产生用于PU的预测性块。如果视频编码器20使用帧内预测来产生用于PU的预测性块,那么视频编码器20可基于与PU相关联的图片的经解码样本产生PU的预测性块。如果视频编码器20使用帧间预测来产生PU的预测性块,那么视频编码器20可基于除了与PU相关联的图片以外的一或多个图片的经解码样本产生PU的预测性块。当CU被帧间译码时,针对每一PU可存在一个运动信息集合。另外,每一PU可运用唯一帧间预测模式被译码以导出运动信息集合。
在视频编码器20产生用于CU的一或多个PU的预测性明度、Cb及Cr块之后,视频编码器20可产生用于CU的明度残余块。CU的明度残余块中的每一样本指示CU的预测性明度块中的一个中的明度样本与CU的原始明度译码块中的对应样本之间的差。另外,视频编码器20可产生用于CU的Cb残余块。CU的Cb残余块中的每一样本可指示CU的预测性Cb块中的一个中的Cb样本与CU的原始Cb译码块中的对应样本之间的差。视频编码器20也可产生用于CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块中的一个中的Cr样本与CU的原始Cr译码块中的对应样本之间的差。
此外,视频编码器20可使用四叉树分割以将CU的明度、Cb及Cr残余块分解为一或多个明度、Cb及Cr变换块。变换块为被应用相同变换的样本的矩形(例如,正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块,及用以变换所述变换块样本的语法结构。因此,CU的每一TU可与明度变换块、Cb变换块及Cr变换块相关联。与TU相关联的明度变换块可为CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或具有三个单独色彩平面的图片中,TU可包括单一变换块及用以变换所述变换块的样本的语法结构。
视频编码器20可将一或多个变换应用于TU的明度变换块以产生用于TU的明度系数块。系数块可为变换系数的二维阵列。变换系数可为纯量。视频编码器20可将一或多个变换应用于TU的Cb变换块以产生用于TU的Cb系数块。视频编码器20可将一或多个变换应用于TU的Cr变换块以产生用于TU的Cr系数块。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器20可量化系数块。量化通常是指量化变换系数以可能地缩减用以表示变换系数的数据的量从而提供进一步压缩的程序。在视频编码器20量化系数块之后,视频编码器20可熵编码指示经量化变换系数的语法元素。举例来说,视频编码器20可对指示经量化变换系数的语法元素执行上下文调适性二进制算术译码(CABAC)。
视频编码器20可输出包含形成经译码图片及关联数据的表示的位序列的位流。位流可包括NAL单元序列。NAL单元为含有NAL单元中的数据的类型的指示的语法结构,及含有呈视需要而穿插有仿真阻止位的RBSP形式的所述数据的字节。所述NAL单元中的每一个包含NAL单元标头且囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头指定的NAL单元类型码指示NAL单元的类型。RBSP可为含有囊封于NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。
不同类型的NAL单元可囊封不同类型的RBSP。举例来说,第一类型的NAL单元可囊封用于PPS的RBSP,第二类型的NAL单元可囊封用于经译码切片的RBSP,第三类型的NAL单元可囊封用于SEI消息的RBSP等等。囊封用于视频译码数据的RBSP(与用于参数集及SEI消息的RBSP相对)的NAL单元可被称作VCL NAL单元。
视频解码器30可接收由视频编码器20产生的位流。另外,视频解码器30可解析位流以从位流获得语法元素。视频解码器30可至少部分地基于从位流获得的语法元素重建视频数据图片。用以重建视频数据的程序可与由视频编码器20执行的程序大体上互逆。另外,视频解码器30可反量化与当前CU的TU相关联的系数块。视频解码器30可对系数块执行反变换以重建与当前CU的TU相关联的变换块。视频解码器30可通过将用于当前CU的PU的预测性块的样本与当前CU的TU的变换块的对应样本相加来重建当前CU的译码块。通过重建用于图片的每一CU的译码块,视频解码器30可重建图片。
根据本发明的技术,视频编码器20及/或视频解码器30可在运动补偿期间进一步执行BIO技术,如下文更详细地所论述。
适用时,视频编码器20及视频解码器30各自可被实施为多种合适编码器或解码器电路系统中的任一个,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路系统、软件、硬件、固件或其任何组合。视频编码器20及视频解码器30中的每一个可包含于一或多个编码器或解码器中,所述一或多个编码器或解码器中的任一个可被集成为组合式编码器/解码器(编解码器)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器,及/或无线通信装置,例如蜂窝式电话。
图2为将单侧运动估计(ME)的实例绘示为经执行用于运动补偿帧速率向上转换(MC-FRUC)的块匹配算法(BMA)的概念图。一般来说,视频译码器(例如视频编码器20或视频解码器30)通过搜索用于当前帧100的当前块106的来自参考帧102的最佳匹配块(例如,参考块108)而执行单侧ME以获得运动向量(MV),例如MV 112。接着,视频译码器在经内插帧104中沿着运动向量112的运动轨迹内插经内插块110。也就是说,在图2的实例中,运动向量112穿过当前块106、参考块108及经内插块110的中点。
如图2所展示,在运动轨迹之后涉及三个帧中的三个块。尽管当前帧100中的当前块106属于经译码块,但参考帧102中的最佳匹配块(即,参考块108)无需完全属于经译码块(即,最佳匹配块可能并不落在经译码块边界上,而是可能与此边界重叠)。同样地,经内插帧104中的经内插块110无需完全属于经译码块。因此,块的重叠区域及未填充(孔)区域可出现于经内插帧104中。
为了处置重叠,简单FRUC算法可涉及平均化及覆写重叠像素。此外,孔可由来自参考或当前帧的像素值覆盖。然而,此些算法可引起块伪影及模糊。因此,运动场分段、使用离散哈特莱(Hartley)变换的连续外插及图像修复可用以处置孔及重叠而不增加块伪影及模糊。
图3为将双侧ME的实例绘示为经执行用于MC-FRUC的BMA的概念图。双侧ME为可用以避免由重叠及孔造成的问题的另一解决方案(在MC-FRUC中)。执行双侧ME的视频译码器(例如视频编码器20及/或视频解码器30)使用当前帧120的当前块126与参考帧122的参考块128之间的时间对称性获得穿过经内插帧124(其在当前帧120与参考帧122中间)的经内插块130的MV 132、134。因此,视频译码器不会在经内插帧124中产生重叠及孔。假定当前块126为视频译码器按某一次序处理的块,例如,如在视频译码的状况下,那么此些块的序列将涵盖整个中间图片而无重叠。举例来说,在视频译码的状况下,可按解码次序处理块。因此,如果可在视频译码架构中考虑FRUC想法,那么此方法可更合适。
2009年,图像信号处理国际大会(CISP),S.-F.Tu,O.C.Au,Y.Wu,E.Luo及C.-H.Yeun的“A Novel Framework for Frame Rate Up Conversion by PredictiveVariable Block-Size Motion Estimated Optical Flow”,描述了用于帧速率向上转换的混合式块层级运动估计及像素层级光学流方法。Tu陈述了混合式场景比任一个别方法更佳。
在HEVC标准中,存在两个帧间预测模式,被命名为合并模式(其中跳过模式被视为合并模式的特殊状况)及高级运动向量预测(AMVP)模式。在AMVP或合并模式任一个中,视频译码器维持用于多个运动向量预测值的MV候选者列表。视频译码器确定用于特定PU的运动向量,以及合并模式中的参考索引,正从MV候选者列表选择候选者。
在HEVC中,MV候选者列表含有用于合并模式的高达5个候选者及用于AMVP模式的仅两个候选者。其它译码标准可包含更多或更少候选者。合并候选者可含有运动信息集合,例如,对应于两个参考图片列表(列表0及列表1)及参考索引的运动向量。视频解码器接收由合并索引识别的合并候选者,且视频解码器使用经识别参考图片及运动向量预测当前PU。然而,对于AMVP模式,针对从列表0或列表1的每一潜在预测方向,需要明确地将参考索引连同MV预测值(MVP)索引一起传信到MV候选者列表,这是由于AMVP候选者仅含有运动向量。在AMVP模式中,可进一步改进预测运动向量。
合并候选者对应于运动信息全集,而AMVP候选者仅仅含有用于特定预测方向及参考索引的一个运动向量。相似地从相同空间及时间相邻块导出用于两个模式的候选者。
图4A展示用于合并模式的空间相邻MV候选者,且图4B展示用于AMVP模式的空间相邻MV候选者。对于特定PU(PU0),从图4A及4B所展示的相邻块导出空间MV候选者,但从块产生候选者的方法对于合并及AMVP模式来说不同。
在合并模式中,可按图4A所展示的次序导出高达四个空间MV候选者。排序如下:左侧(0)、上方(1)、右上方(2)、左下方(3)及左上方(4),如图4A所展示。如果所有空间MV候选者0到3都为可用且唯一的,那么视频译码器可能不会在候选者列表中包含用于左上方块的运动信息。然而,如果空间MV候选者0到3中的一或多个是不可用或不唯一的,那么视频译码器可能会在候选者列表中包含用于左上方块的运动信息。
在AVMP模式中,相邻块被划分成两个群组:由块0及1组成的左侧群组,及由块2、3及4组成的上方群组,如图4B所展示。对于每一群组,参考与由经传信参考索引指示的参考图片是同一个参考图片的相邻块中的潜在候选者具有最高优先级以被选择来形成群组的最终候选者。有可能的是,所有相邻块都不含有指向同一参考图片的运动向量。因此,如果无法找到此候选者,那么将按比例调整第一可用候选者以形成最终候选者,因此可补偿时间距离差。
图5A展示TMVP候选者的实例,且图5B展示MV按比例调整的实例。时间运动向量预测值(TMVP)候选者在被启用且可用的情况下在空间运动向量候选者之后添加到MV候选者列表中。用于TMVP候选者的运动向量导出程序对于合并及AMVP模式两者来说相同,然而,用于合并模式中的TMVP候选者的目标参考索引始终被设定为0。
用于TMVP候选者导出的主要块位置为共置型PU外部的右底部块,如在图5A中被展示为块“T”,以补偿用以产生空间相邻候选者的上方及左侧块的偏置。然而,如果所述块定位于当前CTB行外部或运动信息不可用,那么所述块被PU的中心块取代。
用于TMVP候选者的运动向量是从切片层级中所指示的共置型图片的共置型PU导出。用于共置型PU的运动向量被称为共置型MV。相似于AVC中的时间直接模式,为了导出TMVP候选者运动向量,需要按比例调整共置型MV以补偿时间距离差,如图5B所展示。
HEVC也利用运动向量按比例调整。假定在呈现时间上运动向量的值与图片的距离成比例。运动向量使两个图片相关联:参考图片,及含有运动向量的图片(即,包容图片(containing picture))。当利用运动向量以预测另一运动向量时,基于POC值计算包容图片与参考图片的距离。
对于待预测的运动向量,运动向量的关联包容图片及参考图片两者可能不同。因此,计算新距离(基于POC),且基于此些两个POC距离按比例调整运动向量。对于空间相邻候选者,用于两个运动向量的包容图片相同,而参考图片不同。在HEVC中,对于空间及时间相邻候选者,运动向量按比例调整适用于TMVP及AMVP两者。
HEVC还利用人工运动向量候选者产生。如果运动向量候选者列表不完整,那么产生人工运动向量候选者且将其插入于所述列表的末端处,直到运动向量候选者列表中的所有可用项目具有候选者。在合并模式中,存在两个类型的人工MV候选者:仅针对B-切片导出的组合式候选者;及仅针对AMVP使用的零候选者,如果第一类型未提供足够人工候选者。对于已经在候选者列表中且具有必要运动信息的每一对候选者,通过参考列表0中的图片的第一候选者的运动向量与参考列表1中的图片的第二候选者的运动向量的组合来导出双向组合式运动向量候选者。
HEVC还利用剪除程序进行候选者插入。来自不同块的候选者可能会恰巧相同,此会减低合并/AMVP候选者列表的效率。可应用剪除程序以解决此问题。剪除程序比较当前候选者列表中的一个候选者与其它候选者以避免插入相同候选者。为了缩减复杂性,可应用仅有限数目次剪除程序,而非比较每一潜在候选者与所有其它现有候选者。作为一个实例,视频译码器可将剪除程序应用于空间及时间相邻候选者,但不应用于人工产生的候选者。
现在将描述JEM中的双向光学流的方面。图6展示光学流轨迹的实例。BIO利用在双预测的状况下对逐块运动补偿的顶部执行的逐像素运动改进。因为BIO补偿块内部的精细运动,所以启用BIO可有效地引起用于运动补偿的块大小增大。样本层级运动改进并不需要竭尽式搜索或传信,而是利用针对每一样本给出精细运动向量的明确方程式。
假设I(k)为补偿块运动之后的来自参考k(k=0,1)的明度值,且
Figure SMS_13
分别为I(k)梯度的水平分量及垂直分量。假定光学流有效,那么运动向量场(vx,vy)是由以下方程式给出
Figure SMS_14
针对每一样本的运动轨迹组合光学流方程式与厄米特(Hermite)内插,得到最终匹配于函数值I(k)及导数
Figure SMS_15
两者的唯一三阶多项式。在t=0时的此多项式的值为BIO预测:
Figure SMS_16
此处,τ0及τ1表示到参考帧的距离,如图6所展示。距离τ0及τ1是针对Ref0及Ref1基于POC进行计算:τ0=POC(当前)-POC(Ref0),τ1=POC(Ref1)-POC(当前)。如果预测两者都来自同一时间方向(两者都来自过去或两者都来自未来),那么正负号不同,τ0·τ1<0。在此状况下,仅在预测并非来自同一时刻(τ0≠τ1)时才应用BIO,参考区域两者都具有非零运动(MVx0,MVy0,MVx1,MVy1≠0),且块运动向量与时间距离成比例(MVx0/MVx1=MVy0/MVy1=-τ01)。
也被称作BIO运动的量的运动向量场(vx,vy)是通过最小化点A与点B(图6上的运动轨迹与参考帧平面的相交点)的值之间的差Δ进行确定。模型仅将局域泰勒展开式的第一线性项用于Δ:
Figure SMS_17
(1)中的所有值取决于样本位置(i′,j′),其迄今为止被省略。假定运动在局域周围是一致的,那么定中心于当前预测点(i,j)的(2M+1)×(2M+1)正方形窗Ω内部的Δ可被如下最小化:
Figure SMS_18
对于此优化问题,可使用在垂直方向上且接着在水平方向上进行第一次最小化的简化解决方案,此会产生:
Figure SMS_19
Figure SMS_20
其中,
Figure SMS_21
Figure SMS_22
Figure SMS_23
为了避免除以零或极小值,在方程式(2)、(3)中引入正规化参数r及m。
r=500·4d-8 (8)
m=700·4d-8 (9)
此处,d为输入视频的内部位深度。
在一些状况下,BIO的MV改进可能归因于噪声或不规则运动而不可靠。因此,在BIO中,将MV改进的量值裁剪到某一阈值thBIO。所述阈值是基于当前图片的所有参考图片是否都来自一个方向进行确定。如果当前图片的当前图片的所有参考图片都来自一个方向,那么阈值的值可被设定为12×214-d,否则,阈值可被设定为12×213-d
使用与HEVC运动补偿程序一致的操作而在运动补偿内插的同时计算用于BIO的梯度(2D可分离FIR)。根据块运动向量的分数部分,用于此2D可分离FIR的输入为与用于运动补偿程序及分数位置(fracX,fracY)的参考帧样本相同的参考帧样本。在水平梯度
Figure SMS_24
信号首先使用对应于解按比例调整移位为d-8的分数位置fracY的BIOfilterS垂直地内插的状况下,那么在对应于解按比例调整移位为18-d的分数位置fracX的水平方向上应用梯度滤波器BIOfilterG。在使用对应于解按比例调整移位为d-8的分数位置fracY的BIOfilterG垂直地应用垂直梯度/>
Figure SMS_25
第一梯度滤波器的状况下,那么使用BIOfilterS在对应于解按比例调整移位为18-d的分数位置fracX的水平方向上执行信号位移。用于梯度计算BIOfilterG及信号位移BIOfilterF的内插滤波器的长度较短(6-分接头)以便维持合理的复杂性。表1展示用于BIO中的块运动向量的不同分数位置的梯度计算的滤波器。表2展示用于BIO中的预测信号产生的内插滤波器。
图7展示用于8×4块的梯度计算的实例。对于8×4块,视频译码器提取运动补偿预测值且计算当前块内的所有像素以及外部两列像素的HOR/VER梯度,这是因为针对每一像素求解vx及vy会需要定中心于每一像素的窗Ω内的像素的HOR/VER梯度值及运动补偿预测值,如方程式(4)中所展示。在JEM中,此窗的大小被设定为5×5。因此,视频译码器需要提取运动补偿预测值且计算用于外部两列像素的梯度。
表1:用于BIO中的梯度计算的滤波器
分数像素位置 用于梯度的内插滤波器(BIOfilterG)
0 {8,-39,-3,46,-17,5}
1/16 {8,-32,-13,50,-18,5}
1/8 {7,-27,-20,54,-19,5}
3/16 {6,-21,-29,57,-18,5}
1/4 {4,-17,-36,60,-15,4}
5/16 {3,-9,-44,61,-15,4}
3/8 {1,-4,-48,61,-13,3}
7/16 {0,1,-54,60,-9,2}
1/2 {1,4,-57,57,-4,1}
表2:用于BIO中的预测信号产生的内插滤波器
分数像素位置 用于预测信号的内插滤波器(BIOfilterS)
0 {0,0,64,0,0,0}
1/16 {1,-3,64,4,-2,0}
1/8 {1,-6,62,9,-3,1}
3/16 {2,-8,60,14,-5,1}
1/4 {2,-9,57,19,-7,2}
5/16 {3,-10,53,24,-8,2}
3/8 {3,-11,50,29,-9,2}
7/16 {3,-11,44,35,-10,3}
1/2 {1,-7,38,38,-7,1}
在JEM中,当两个预测来自不同参考图片时,将BIO应用于所有双向预测块。当针对CU启用LIC时,停用BIO。
图8展示JVET-D0042中所提议的用于8×4块的经修改BIO的实例。在第4次JVET会议中,提交了提议JVET-D0042(A.Alshina,E.Alshina,“AHG6:On BIO memory bandwidth”,JVET-D0042,2016年10月)以修改BIO操作且缩减存储器存取带宽。在此提议中,对于当前块外部的像素无需运动补偿预测值及梯度值。此外,针对每一像素求解vx及vy被修改为使用当前块内的所有像素的运动补偿预测值及梯度值,如图8所展示。换句话说,方程式(4)中的正方形窗Ω被修改为等于当前块的窗。此外,考虑加权因数w(i',j')用于导出vx及vy。w(i',j')为窗内的中心像素(i,j)的位置及像素(I',j')的位置的函数。
Figure SMS_26
Figure SMS_27
Figure SMS_28
现在将描述JEM中的重叠块运动补偿(OBMC)的方面。OBMC已用于早期几代视频标准,例如,如在H.263中。在JEM中,针对所有运动补偿(MC)块边界执行OBMC,除了CU的右侧及底部边界外。此外,OBMC可应用于明度及色度分量两者。在JEM中,MC块对应于译码块。当CU是运用子CU模式被译码(包含子CU合并、仿射及FRUC模式,如2016年10月J.Chen,E.Alshina,G.J.Sullivan,J.-R.Ohm,J.Boyce在“Algorithm Description of JointExploration Test Model 4”,JVET-D1001中所描述)时,CU的每一子块为MC块。为了按统一方式处理CU边界,针对所有MC块边界在子块层级处执行OBMC,其中子块大小被设定为等于4×4,如图9A及9B所绘示。
当OBMC应用于当前子块时,除了当前运动向量以外,四个连接相邻子块的运动向量在可用且不相同于当前运动向量的情况下也用以导出用于当前子块的预测块。组合基于多个运动向量的此些多个预测块以产生当前子块的最终预测信号。
如图10所展示,基于相邻子块的运动向量的预测块被表示为PN,其中N指示用于相邻上方、下方、左侧及右侧子块的索引,且基于当前子块的运动向量的预测块被表示为PC。当PN是基于含有与当前子块相同的运动信息的相邻子块的运动信息时,不从PN执行OBMC。否则,将PN的每一像素与PC中的同一像素相加,即,将PN中的四行/四列与PC相加。加权因数{1/4,1/8,1/16,1/32}用于PN,且加权因数{3/4,7/8,15/16,31/32}用于PC。例外状况为小MC块,(即,当译码块的高度或宽度等于4或CU是运用子CU模式被译码时),对于所述小MC块,将PN的仅两行/两列与PC相加。在此状况下,加权因数{1/4,1/8}用于PN,且加权因数{3/4,7/8}用于PC。对于基于垂直(水平)相邻子块的运动向量而产生的PN,以相同加权因数将PN的同一行(列)中的像素与PC相加。BIO也可应用于导出预测块PN
在JEM中,对于大小小于或等于256个明度样本的CU,传信CU层级旗标以指示是否针对当前CU应用OBMC。对于大小大于256个明度样本或未运用AMVP模式被译码的CU,根据默认而应用OBMC。在编码器处,当OBMC应用于CU时,在运动估计阶段期间考量其影响。通过使用顶部相邻块及左侧相邻块的运动信息的预测信号用以补偿当前CU的原始信号的顶部及左侧边界,且接着应用正常运动估计程序。
尽管BIO在JEM4.0中潜在地提供多于1%的
Figure SMS_29
位速率(BD-速率)缩减,但BIO也潜在地引入显著的计算复杂性且可针对编码器及解码器两者迫使存储器带宽增加。本发明描述可潜在地缩减与BIO相关联的计算复杂性及所需存储器带宽的技术。作为一个实例,根据本发明的技术,视频译码器可在子块层级上确定BIO运动量,例如上文所描述的vx及vy值,且使用所述经确定BIO运动量以逐样本地修改预测性块的样本值。因此,本发明的技术可通过允许视频编码器及视频解码器达成BIO的译码增益,而不会造成BIO的现有实施方案所需要的实质处理及存储器负担来改进所述视频编码器及视频解码器。
基于方程式(4),本发明引入用于通过重新定义窗Ω来缩减BIO的复杂性的技术。此些技术可例如由视频编码器20(例如,运动估计单元42及/或运动补偿单元44)或由视频解码器30(例如,运动补偿单元72)执行。窗Ω被定义为当前块内覆盖大小为M×N的当前像素的任何块,其中M及N为任何正整数。在一个实例中,当前块被划分成非重叠子块,且窗Ω被定义为覆盖当前像素的子块。在如图11所展示的另一实例中,子块被定义为覆盖当前像素的用于运动向量存储的最小块。在HEVC及JEM中,最小块大小为4×4。在另一实例中,根据例如当前块大小、译码模式的译码信息,窗Ω的大小是调适性的。当当前块大小较大时,可使用较大窗Ω。当当前块被译码为例如子CU合并、仿射及FRUC模式的子块模式时,窗Ω被设定为子块。
图11展示根据本发明的技术的用于8×4块的所提议BIO的实例,其中窗Ω用于像素A、B及C。根据本发明的技术,可使用相等加权来求解vx及vy,如方程式(7)中所展示。在另一实例中,可使用不等加权来求解vx及vy,如方程式(10)中所展示。不等加权可为中心像素与关联像素之间的距离的函数。而在另一实例中,可使用双侧途径计算加权,如例如在https://en.wikipedia.org/wiki/Bilateral_filter所描述。此外,可使用查找表以针对方程式(7)中的窗Ω存储用于每一像素的所有加权因数。
在另一实例中,当导出用于OBMC的PN时,在使用相邻者运动导出预测值时仅针对部分像素执行BIO。在一个实例中,在导出PN时针对所有像素全部停用BIO。在又一实例中,仅在外部两列中的像素上应用BIO,如图12A到12D所展示。
此外,对于每一块,可在SPS/PPS的切片层级中明确地传信多少列应用BIO。也可在SPS/PPS的切片层级中明确地传信停用抑或部分地停用BIO。
另一方面,多少列应用BIO可隐含地基于某些译码条件,例如CU模式(子块模式或非子块模式)或块大小或其它工具的组合,例如所传信的照明补偿(IC)旗标。也可基于某些条件隐含地导出停用抑或部分地停用BIO,例如CU模式(子块模式或非子块模式)或块大小或其它工具的组合,例如所传信的IC旗标。
图12A到12D展示根据本发明的技术的OBMC上的所提议简化BIO的实例,其中x表示在无BIO的情况下导出的预测值,且o表示在有BIO的情况下导出的预测值。从BIO的运动向量改进可为基于块的。假设块大小为M乘N,那么在计算方程式(7)中的项期间可使用加权函数以将不同比例因数提供到不同位置的像素。当求解方程式(5)及(6)时,可使用经内插像素及其从整个块搜集的梯度值来联合地求解vx及vy,而非针对每一像素位置个别地求解vx及vy。
在一个实例中,窗大小Ω可被定义为定中心于每一像素位置的运行窗,且使用通过将来自所有位置的值求和所得的平均值。具体来说,
Figure SMS_30
Figure SMS_31
Figure SMS_32
其中N为每一子块中的像素数目,且Ωk为针对每一像素所定义的窗。在一个实例中,Ωk可为用于每一像素的定义于当前BIO设计中的5×5窗,且因此可提前确定加权函数。图13中展示用于具有5×5窗的4×4子块的加权函数的实例。图13展示用于具有5×5窗的4×4子块的加权函数的实例。
在另一实例中,可在SPS、PPS或切片标头中发送加权函数。为了缩减传信成本,可存储预定义加权函数集合,且仅需要传信加权函数的索引。
在另一实例中,可使用处于子块的中心部分的像素得出经改进运动向量。可使用内插滤波器计算中心像素的梯度值,且可将大小为M乘N的窗应用于经内插像素以将不同权重提供到中心像素,以便计算方程式(7)中的变量s1到s6。在一个实例中,可计算中心点的梯度值,且可使用中心点的平均值(相等权重窗)。在另一实例中,可使用中值滤波器来选择代表性像素以计算方程式(7)中的变量s1到s6。
在JVET-D0042中,当求解BIO偏移时,可将每一像素的窗大小修改为整个当前块,此在当前块大于或等于8×4时潜在地增加当前设计的计算复杂性。修改的最差状况为,将128×128窗用于128×128块内的每一像素的梯度及预测值的累积。
此外,当一个CU内的子块共享同一MV或一个经帧间译码CU被划分成较小子块以用于运动补偿(MC)时,JEM-4.0在针对每一子块并行地执行MC及BIO或针对具有同一MV的子块聚集的较大块一次性执行MC及BIO方面提供灵活性。对于任一方式,JEM-4.0提供相同译码结果。然而,JVET-D0042中的经修改BIO利用块大小相依梯度计算及加权因数,使得针对两个相邻相同运动块联合地或单独地执行MC及BIO可产生不同结果。为了避免不同结果,必须规定解码器应在块层级或某一子块层级处执行MC及BIO。此约束对于实际编解码器实施方案来说可能太严格且不合乎需要。
基于方程式(4),可通过重新定义窗Ω进一步缩减BIO的复杂性。定义两种类型的窗Ω;一种为非重叠窗,且另一种为滑动窗。对于非重叠窗类型,当前块被划分成非重叠子块,且窗Ω被定义为覆盖当前像素的子块,如图11所展示。对于滑动窗类型,窗Ω被定义为定中心于当前像素的块,如图7所展示。
对于两种类型的窗Ω,可使用如下文所说明的不同方法确定窗Ω的大小。在下文中,可假定窗Ω为大小为M×N的矩形块,其中M及N可为任何非负整数,例如(4×4、8×8、16×16、8×4等等)。窗Ω并不限于矩形形状,且可为例如菱形形状的任何其它形状。适用时,所描述技术也可应用于除了矩形形状以外的形状。
窗的大小可为固定或可变的,且可被预定或在位流中被传信。当大小被传信时,所述大小可在序列参数集(SPS)、图片参数集(PPS)、切片标头中或在CTU层级处被传信。窗大小可根据以下方程式通过运动补偿(MC)块的大小联合地确定。
水平窗大小M=min(M,MC_Size);
垂直窗大小N=min(N,MC_Size)。
在一个实例中,运动补偿(MC)块纯粹地取决于例如当前块大小及译码模式的译码信息。举例来说,当当前CU是运用例如子CU合并、仿射及FRUC模式的非子块模式被译码时,运动补偿(MC)块被设定为整个CU。当使用例如子CU合并、仿射及FRUC模式的子块模式时,运动补偿(MC)块被设定为子块,而不管子块是否具有相同运动信息。
在另一实例中,运动补偿(MC)块被定义为CU内具有相同MV的样本块。在此状况下,当当前CU是运用例如子CU合并、仿射及FRUC模式的非子块模式被译码时,运动补偿(MC)块被设定为整个CU。当CU是运用例如子CU合并、仿射及FRUC模式的子块模式被译码时,具有相同运动信息的子块被合并为具有某一扫描次序的子块的运动补偿(MC)块。
调适性大小:根据例如当前块大小、译码模式的译码信息,窗Ω的大小是调适性的。在一个实例中,当当前块被译码为例如子CU合并、仿射及FRUC模式的非子块模式时,窗Ω被设定为整个当前块或当前块的四分之一;且当当前块被译码为子块模式时,窗Ω被设定为子块。调适性窗大小可根据以下方程式通过运动补偿(MC)块的大小联合地确定。
水平窗大小M=min(M,MC_Size);
垂直窗大小N=min(N,MC_Size)。
对于用于确定窗Ω的大小的各种技术,针对友好的硬件或软件实施方案可包含大小的高阶限制。举例来说,窗大小应小于或等于视频编解码器系统中所允许的最大变换单元(TU)大小。在另一实例中,窗大小应大于或等于例如4×4的最小MC块。
为了进一步简化BIO相关操作,本发明引入用于在完成所有运动补偿预测之后执行BIO作为后处理的技术。具体来说,在进行常规MC之后,接着可应用OBMC以产生用于当前块的较佳预测值。基于最终预测值,接着使用当前块的运动信息应用BIO以进一步改进预测值。举例来说,对于BIO中的梯度计算,可使用整个块的运动。在另一实例中,对于每一子块,可使用来自OBMC的平均运动向量。在另一实例中,对于每一子块,可使用中值运动向量(个别地针对每一维度)。
当考虑BIO的运动向量改进的基于块的导出时,可不同地设计加权函数。相等权重可用于上文所提及的方法中的任一个。替代地,可朝向窗的中心部分放置更多权重。在一个实例中,可通过窗中心到像素之间的反距离(包含但不限于L1范数或L2范数)计算权重。
图14为绘示可实施用于双向光学流的技术的视频编码器20的实例的框图。视频编码器20可对视频切片内的视频块执行帧内及帧间译码。帧内译码依赖于空间预测以缩减或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测以缩减或去除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一个。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的译码模式中的任一个。
如图14所展示,视频编码器20接收视频数据且将经接收视频数据存储于视频数据存储器38中。视频数据存储器38可存储待由视频编码器20的组件编码的视频数据。存储于视频数据存储器38中的视频数据可例如从视频源18获得。参考图片存储器64可为存储参考视频数据以用于由视频编码器20例如在帧内或帧间译码模式中编码视频数据的参考图片存储器。视频数据存储器38及参考图片存储器64可由多种存储器装置中的任一个形成,例如动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。视频数据存储器38及参考图片存储器64可由同一存储器装置或单独存储器装置提供。在各种实例中,视频数据存储器38可与视频编码器20的其它组件一起在芯片上,或相对于那些组件在芯片外。
视频编码器20接收待编码视频帧内的当前视频块。在图14的实例中,视频编码器20包含模式选择单元40、参考图片存储器64(其也可被称作经解码图片缓冲器(DPB))、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测处理单元46及分割单元48。为了视频块重建,视频编码器20还包含反量化单元58、反变换处理单元60及求和器62。也可包含解块滤波器(图14中未展示)来滤波块边界以从经重建视频去除块效应伪影。视需要,解块滤波器通常将滤波求和器62的输出。除了解块滤波器以外还可使用额外滤波器(环路内或环路后)。出于简洁起见而未展示此些滤波器,但视需要,此些滤波器可滤波求和器50的输出(作为环路内滤波器)。
在编码程序期间,视频编码器20接收待译码视频帧或切片。可将所述帧或切片划分成多个视频块。运动估计单元42及运动补偿单元44执行经接收视频块相对于一或多个参考帧中的一或多个块的帧间预测性编码以提供时间预测。帧内预测处理单元46可替代地使用与待译码块在同一帧或切片中的一或多个相邻块的像素帧内预测经接收视频块以提供空间预测。视频编码器20可执行多个译码遍次,例如,以选择用于每一视频数据块的适当译码模式。
此外,分割单元48可基于先前译码遍次中的先前分割方案的评估而将视频数据块分割成子块。举例来说,分割单元48最初可将帧或切片分割成LCU,且基于速率-失真分析(例如,速率-失真优化)而将所述LCU中的每一个分割成子CU。模式选择单元40可进一步产生指示将LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU及一或多个TU。
模式选择单元40可例如基于误差结果而选择帧内预测模式或帧间预测模式中的一个,且将所得预测块提供到求和器50以产生残余数据,且将所得预测块提供到求和器62以重建经编码块以用作参考帧。模式选择单元40还将例如运动向量、帧内模式指示符、分割区信息及其它此类语法信息的语法元素提供到熵编码单元56。
运动估计单元42与运动补偿单元44可高度地集成,但出于概念目的而被单独地绘示。由运动估计单元42执行的运动估计为产生估计视频块的运动的运动向量的程序。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测性块为被发现在像素差方面接近地匹配于待译码块的块,所述像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的次整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可执行相对于全像素位置及分数像素位置的运动搜索,且输出具有分数像素精确度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置而计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),列表0或列表1中的每一个识别存储于参考存储器64中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量提取或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可功能上集成。在接收到用于当前视频块的PU的运动向量后,运动补偿单元44就可在参考图片列表中的一个中定位运动向量所指向的预测性块。求和器50通过从正被译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像素差值,如下文所论述。一般来说,运动估计单元42执行相对于明度分量的运动估计,且运动补偿单元44将基于明度分量而计算的运动向量用于色度分量及明度分量两者。模式选择单元40也可产生与视频块及视频切片相关联的语法元素以供视频解码器30用来解码视频切片的视频块。
此外,运动补偿单元44可经配置以执行本发明的技术中的任一个或全部(单独地或以任何组合)。尽管关于运动补偿单元44进行论述,但应理解,模式选择单元40、运动估计单元42、分割单元48及/或熵编码单元56也可经配置以单独地或与运动补偿单元44组合地执行本发明的某些技术。在一个实例中,运动补偿单元44可经配置以执行本文中所论述的BIO技术。
作为如上文所描述的由运动估计单元42及运动补偿单元44执行的帧间预测的替代例,帧内预测处理单元46可帧内预测当前块。具体来说,帧内预测处理单元46可确定帧内预测模式以用以编码当前块。在一些实例中,帧内预测处理单元46可例如在单独编码遍次期间使用各种帧内预测模式编码当前块,且帧内预测处理单元46(或在一些实例中为模式选择单元40)可从经测试模式选择将使用的适当帧内预测模式。
举例来说,帧内预测处理单元46可使用针对各种经测试帧内预测模式的速率-失真分析来计算速率-失真值,且在经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)量,以及用以产生经编码块的位速率(即,位数目)。帧内预测处理单元46可从各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现块的最佳速率-失真值。
在选择用于块的帧内预测模式之后,帧内预测处理单元46可将指示用于块的经选择帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示经选择帧内预测模式的信息。视频编码器20可在经发射位流中包含以下各项:配置数据,其可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引表(也被称作码字映射表);编码用于各种块的上下文的定义;及待用于所述上下文中的每一个的最可能帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示。
视频编码器20通过从正被译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上相似变换的变换应用于残余块,从而产生包括变换系数值的视频块。可使用小波变换、整数变换、子频带变换、离散正弦变换(DST)或其它类型的变换,而非DCT。在任何状况下,变换处理单元52将变换应用于残余块,从而产生变换系数块。变换可将残余信息从像素域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步缩减位速率。量化程序可缩减与所述系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。
在量化之后,熵编码单元56熵译码经量化变换系数。举例来说,熵编码单元56可执行上下文调适性可变长度译码(CAVLC)、上下文调适性二进制算术译码(CABAC)、基于语法的上下文调适性二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的状况下,上下文可基于相邻块。在由熵编码单元56进行熵译码之后,可将经编码位流发射到另一装置(例如,视频解码器30)或存档以供稍后发射或检索。
反量化单元58及反变换单元60分别应用反量化及反变换以在像素域中重建残余块。具体来说,求和器62将经重建残余块与稍早由运动补偿单元44或帧内预测处理单元46产生的运动补偿预测块相加,以产生用于存储于参考图片存储器64中的经重建视频块。经重建视频块可由运动估计单元42及运动补偿单元44用作参考块以帧间译码后续视频帧中的块。
图15为绘示可实施用于双向光学流的技术的视频解码器30的实例的框图。在图15的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测处理单元74、反量化单元76、反变换处理单元78、参考图片存储器82及求和器80。在一些实例中,视频解码器30可执行与关于视频编码器20(图14)所描述的编码遍次大体上互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测处理单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码程序期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及关联语法元素的经编码视频位流。视频解码器30将所接收的经编码视频位流存储于视频数据存储器68中。视频数据存储器68可存储待由视频解码器30的组件解码的视频数据,例如经编码视频位流。存储于视频数据存储器68中的视频数据可例如经由计算机可读媒体16从存储媒体或从例如相机的本机视频源或通过存取物理数据存储媒体而获得。视频数据存储器85可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。参考图片存储器82可为存储参考视频数据以供视频解码器30例如在帧内或帧间译码模式中解码视频数据的参考图片存储器。视频数据存储器68及参考图片存储器82可由例如DRAM、SDRAM、MRAM、RRAM或其它类型的存储器装置的多种存储器装置中的任一个形成。视频数据存储器68及参考图片存储器82可由同一存储器装置或单独存储器装置提供。在各种实例中,视频数据存储器68可与视频解码器30的其它组件一起在芯片上,或相对于那些组件在芯片外。
在解码程序期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及关联语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转递到运动补偿单元72。视频解码器30可接收视频切片层级及/或视频块层级处的语法元素。
当视频切片被译码为经帧内译码(I)切片时,帧内预测处理单元74可基于经传信帧内预测模式及来自当前帧或图片的经先前解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(即,B、P或GPB)切片时,运动补偿单元72基于运动向量及从熵解码单元70接收的其它语法元素产生用于当前视频切片的视频块的预测性块。预测性块可从参考图片列表中的一个内的参考图片中的一个产生。视频解码器30可基于存储于参考图片存储器82中的参考图片使用默认构建技术来构建参考帧列表:列表0及列表1。
运动补偿单元72通过解析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息,且使用预测信息来产生用于正被解码的当前视频块的预测性块。举例来说,运动补偿单元72使用经接收语法元素的一些以确定用以译码视频切片的视频块的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、用于切片的参考图片列表中的一或多个的构建信息、用于切片的每一经帧间编码视频块的运动向量、用于切片的每一经帧间译码视频块的帧间预测状态,及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元72也可针对子像素精确度基于内插滤波器执行内插。运动补偿单元72可使用如由视频编码器20在视频块的编码期间使用的内插滤波器,以计算参考块的次整数像素的内插值。在此状况下,运动补偿单元72可根据经接收语法元素确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。
此外,运动补偿单元72可经配置以执行本发明的技术中的任一个或全部(单独地或以任何组合)。举例来说,运动补偿单元72可经配置以执行本文中所论述的BIO技术。
反量化单元76反量化(即,解量化)位流中所提供且由熵解码单元70解码的经量化变换系数。反量化程序可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QPY,以确定应被应用的量化程度且同样地确定应被应用的反量化程度。
反变换处理单元78将例如反DCT、反整数变换或概念上相似反变换程序的反变换应用于变换系数,以便在像素域中产生残余块。
在运动补偿单元72基于运动向量及其它语法元素而产生用于当前视频块的预测性块之后,视频解码器30通过将来自反变换处理单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码视频块。求和器80表示执行此求和运算的一或多个组件。视需要,也可应用解块滤波器来滤波经解码块,以便去除块效应伪影。也可使用其它环路滤波器(在译码环路中或在译码环路之后)以使像素转变平滑,或以其它方式改进视频质量。接着将给定帧或图片中的经解码视频块存储于参考图片存储器82中,参考图片存储器82存储用于后续运动补偿的参考图片。参考图片存储器82也存储经解码视频以用于稍后呈现于例如图1的显示装置32的显示装置上。举例来说,参考图片存储器82可存储经解码图片。
图16为绘示根据本发明的技术的用于解码视频数据的视频解码器的实例操作的流程图。关于图16所描述的视频解码器可例如为用于输出可显示的经解码视频的例如视频解码器30的视频解码器,或可为实施于视频编码器中的视频解码器,例如视频编码器20的解码环路,其包含反量化单元58、反变换处理单元60、求和器62及参考图片存储器64,以及模式选择单元40的部分。
根据图16的技术,视频解码器确定使用双向帧间预测模式编码视频数据块(200)。视频解码器确定用于块的第一运动向量,第一运动向量指向第一参考图片(202)。视频解码器确定用于块的第二MV,第二MV指向第二参考图片,其中第一参考图片不同于第二参考图片(204)。视频解码器使用第一MV以将第一预测性块定位于第一参考图片中(206)。视频解码器使用第二MV以将第二预测性块定位于第二参考图片中(208)。
视频解码器针对第一预测性块的第一子块确定第一BIO运动量(210)。第一子块可不同于用于块的译码单元、预测单元及变换单元。为了确定第一BIO运动量,视频解码器可在一些实例中基于第一子块中的样本及第一子块外部的样本确定第一BIO运动量,且在其它实例中仅基于第一子块中的样本确定第一BIO运动量。第一BIO运动量可例如包含运动向量场,运动向量场包含水平分量及垂直分量。
视频解码器基于第一预测性块的第一子块、第二预测性块的第一子块及第一BIO运动量确定用于视频数据块的第一最终预测性子块(212)。为了基于第一预测性块的第一子块、第二预测性块的第一子块及第一BIO运动量确定用于视频数据块的第一最终预测性子块,视频解码器可使用例如以上方程式(2)确定第一最终预测性子块。
视频解码器针对第一预测性块的第二子块确定第二BIO运动量(214)。第二子块可不同于用于块的译码单元、预测单元及变换单元。为了确定第二BIO运动量,视频解码器可在一些实例中基于第二子块中的样本及第二子块外部的样本确定第二BIO运动量,且在另一实例中仅基于第二子块中的样本确定第二BIO运动量。第二BIO运动量可例如包含运动向量场,运动向量场包含水平分量及垂直分量。
视频解码器基于第一预测性块的第二子块、第二预测性块的第二子块及第二BIO运动量确定用于视频数据块的第二最终预测性子块(216)。为了基于第一预测性块的第二子块、第二预测性块的第二子块及第二BIO运动量确定用于视频数据块的第二最终预测性子块,视频解码器可例如使用例如方程式(2)确定第二最终预测性子块。
视频解码器基于第一最终预测性子块及第二最终预测性子块确定用于视频数据块的最终预测性块(218)。视频解码器可例如将残余数据与最终预测性块相加以确定用于视频数据块的经重建块。视频解码器也可对经重建视频数据块执行一或多个滤波程序。
视频解码器输出包括视频数据块的经解码版本的视频数据图片(220)。当执行解码以作为视频编码程序的解码环路的部分时,视频解码器可例如通过将图片存储于参考图片存储器中输出图片,且视频解码器可将图片作为参考图片编码视频数据的另一图片。当视频解码器为经配置以输出可显示的经解码视频的视频解码器时,视频解码器可例如将视频数据图片输出到显示装置。
应认识到,取决于实例,本文中所描述的技术中的任一个的某些动作或事件可以不同序列被执行,可被添加、合并或完全省去(例如,并非所有所描述动作或事件都为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合进行实施。如果以软件进行实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且由基于硬件的处理单元执行。计算机可读媒体可包含:计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体;或通信媒体,其包含促进例如根据通信协议将计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,此些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。而且,任何连接被适当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光缆、双绞线、数字用户线(DSL)或例如红外线、无线电及微波的无线技术而从网站、服务器或其它远程源发射指令,那么同轴缆线、光缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是有关于非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。以上各项的组合也应包含于计算机可读媒体的范围内。
指令可由例如一或多个DSP、一般用途微处理器、ASIC、FPGA或其它等效集成式或离散逻辑电路系统的一或多个处理器执行。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可提供于经配置用于编码及解码的专用硬件及/或软件模块内,或并入于组合式编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于各种各样的装置或设备中,所述装置或设备包含无线手机、集成电路(IC)或IC集合(例如,芯片集)。在本发明中描述各种组件、模块或单元以强调经配置以执行所公开技术的装置的功能方面,但未必要求由不同硬件单元来实现。更确切地,如上文所描述,各种单元可结合合适软件及/或固件而组合于编解码器硬件单元中或由互操作硬件单元集合提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述各种实例。此些及其它实例在以下权利要求书的范围内。

Claims (27)

1.一种解码视频数据的方法,所述方法包括:
确定使用双向帧间预测模式编码视频数据块;
确定用于所述块的第一运动向量MV,其中所述第一MV指向第一参考图片;
确定用于所述块的第二MV,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;
使用所述第一MV将第一预测性块定位于所述第一参考图片中;
使用所述第二MV将第二预测性块定位于所述第二参考图片中;
针对所述第一预测性块的第一子块确定第一双向光学流BIO运动量,其中所述第一BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块;
针对所述第一预测性块的第二子块确定第二BIO运动量,其中所述第二BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块;
基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块;及
输出包括所述视频数据块的经解码版本的视频数据图片。
2.根据权利要求1所述的方法,其中确定所述第一BIO运动量包括基于所述第一子块中的样本及所述第一子块外部的样本确定所述第一BIO运动量。
3.根据权利要求1所述的方法,其中确定所述第一BIO运动量包括仅基于所述第一子块中的样本确定所述第一BIO运动量。
4.根据权利要求1所述的方法,其中确定所述第二BIO运动量包括基于所述第二子块中的样本及所述第二子块外部的样本确定所述第二BIO运动量。
5.根据权利要求1所述的方法,其中确定所述第二BIO运动量包括仅基于所述第二子块中的样本确定所述第二BIO运动量。
6.根据权利要求1所述的方法,其中所述第一子块不同于用于所述块的译码单元、预测单元及变换单元。
7.根据权利要求1所述的方法,其进一步包括:
将残余数据与所述最终预测性块相加以确定用于所述视频数据块的经重建块。
8.根据权利要求1所述的方法,其中基于所述第一预测性块的所述第一子块、所述第二预测性块的所述第一子块及所述第一BIO运动量确定用于所述视频数据块的所述第一最终预测性子块包括根据以下方程式确定所述第一最终预测性子块:
Figure QLYQS_1
其中
predBIO包括所述第一最终预测性子块的样本值;
I(0)包括所述第一预测性块的所述第一子块的样本值;
I(1)包括所述第二预测性块的所述第一子块的样本值;
vx包括所述第一BIO运动量的水平分量;
vy包括所述第一BIO运动量的垂直分量;
τ0包括到所述第一参考图片的距离;且
τ1包括到所述第二参考图片的距离。
9.根据权利要求1所述的方法,其中所述解码视频数据的方法是作为视频编码程序的解码环路的部分而执行,且其中输出包括所述视频数据块的所述经解码版本的所述视频数据图片包括将包括所述视频数据块的所述经解码版本的所述视频数据图片存储于参考图片存储器中,所述方法进一步包括:
使用包括所述视频数据块的所述经解码版本的所述视频数据图片作为参考图片来编码所述视频数据的另一图片。
10.根据权利要求1所述的方法,其中输出包括所述视频数据块的所述经解码版本的所述视频数据图片包括将包括所述视频数据块的所述经解码版本的所述视频数据图片输出到显示装置。
11.一种用于解码视频数据的装置,所述装置包括:
存储器,其经配置以存储视频数据;及
一或多个处理器,其经配置以
确定使用双向帧间预测模式编码视频数据块;
确定用于所述块的第一运动向量MV,其中所述第一MV指向第一参考图片;
确定用于所述块的第二MV,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;
使用所述第一MV将第一预测性块定位于所述第一参考图片中;
使用所述第二MV将第二预测性块定位于所述第二参考图片中;
针对所述第一预测性块的第一子块确定第一双向光学流BIO运动量,其中所述第一BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块;
针对所述第一预测性块的第二子块确定第二BIO运动量,其中所述第二BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块;
基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块;及
输出包括所述视频数据块的经解码版本的视频数据图片。
12.根据权利要求11所述的装置,其中为了确定所述第一BIO运动量,所述一或多个处理器经配置以基于所述第一子块中的样本及所述第一子块外部的样本确定所述第一BIO运动量。
13.根据权利要求11所述的装置,其中为了确定所述第一BIO运动量,所述一或多个处理器经配置以仅基于所述第一子块中的样本确定所述第一BIO运动量。
14.根据权利要求11所述的装置,其中为了确定所述第二BIO运动量,所述一或多个处理器经配置以基于所述第二子块中的样本及所述第二子块外部的样本确定所述第二BIO运动量。
15.根据权利要求11所述的装置,其中为了确定所述第二BIO运动量,所述一或多个处理器经配置以仅基于所述第二子块中的样本确定所述第二BIO运动量。
16.根据权利要求11所述的装置,其中所述第一子块不同于用于所述块的译码单元、预测单元及变换单元。
17.根据权利要求11所述的装置,其中所述一或多个处理器经配置以:
将残余数据与所述最终预测性块相加以确定用于所述视频数据块的经重建块。
18.根据权利要求11所述的装置,其中为了基于所述第一预测性块的所述第一子块、所述第二预测性块的所述第一子块及所述第一BIO运动量确定用于所述视频数据块的所述第一最终预测性子块,所述一或多个处理器经配置以根据以下方程式确定所述第一最终预测性子块:
Figure QLYQS_2
其中
predBIO包括所述第一最终预测性子块的样本值;
I(0)包括所述第一预测性块的所述第一子块的样本值;
I(1)包括所述第二预测性块的所述第一子块的样本值;
vx包括所述第一BIO运动量的水平分量;
vy包括所述第一BIO运动量的垂直分量;
τ0包括到所述第一参考图片的距离;且
τ1包括到所述第二参考图片的距离。
19.根据权利要求11所述的装置,其中所述一或多个处理器解码所述视频数据以作为视频编码程序的解码环路的部分,且其中为了输出包括所述视频数据块的所述经解码版本的所述视频数据图片,所述一或多个处理器经配置以将包括所述视频数据块的所述经解码版本的所述视频数据图片存储于参考图片存储器中,其中所述一或多个处理器经进一步配置以:
使用包括所述视频数据块的所述经解码版本的所述视频数据图片作为参考图片来编码所述视频数据的另一图片。
20.根据权利要求11所述的装置,其中为了输出包括所述视频数据块的所述经解码版本的所述视频数据图片,所述一或多个处理器经配置以将包括所述视频数据块的所述经解码版本的所述视频数据图片输出到显示装置。
21.根据权利要求11所述的装置,其中所述装置包括无线通信装置,所述装置进一步包括经配置以接收经编码视频数据的接收器。
22.根据权利要求21所述的装置,其中所述无线通信装置包括电话手机,且其中所述接收器经配置以根据无线通信标准解调制包括所述经编码视频数据的信号。
23.根据权利要求11所述的装置,其中所述装置包括无线通信装置,所述装置进一步包括经配置以发射经编码视频数据的发射器。
24.根据权利要求23所述的装置,其中所述无线通信装置包括电话手机,且其中所述发射器经配置以根据无线通信标准调制包括所述经编码视频数据的信号。
25.一种计算机可读存储媒体,其存储在由一或多个处理器执行时致使所述一或多个处理器进行以下操作的指令:
确定使用双向帧间预测模式编码视频数据块;
确定用于所述块的第一运动向量MV,其中所述第一MV指向第一参考图片;
确定用于所述块的第二MV,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;
使用所述第一MV将第一预测性块定位于所述第一参考图片中;
使用所述第二MV将第二预测性块定位于所述第二参考图片中;
针对所述第一预测性块的第一子块确定第一双向光学流BIO运动量,其中所述第一BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块;
针对所述第一预测性块的第二子块确定第二BIO运动量,其中所述第二BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块;
基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块;及
输出包括所述视频数据块的经解码版本的视频数据图片。
26.根据权利要求25所述的计算机可读存储媒体,其中所述第一子块不同于用于所述块的译码单元、预测单元及变换单元。
27.一种用于解码视频数据的设备,所述设备包括:
用于确定使用双向帧间预测模式编码视频数据块的单元;
用于确定用于所述块的第一运动向量MV的单元,其中所述第一MV指向第一参考图片;
用于确定用于所述块的第二MV的单元,其中所述第二MV指向第二参考图片,所述第一参考图片不同于所述第二参考图片;
用于使用所述第一MV将第一预测性块定位于所述第一参考图片中的单元;
用于使用所述第二MV将第二预测性块定位于所述第二参考图片中的单元;
用于针对所述第一预测性块的第一子块确定第一双向光学流BIO运动量的单元,其中所述第一BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
用于基于所述第一预测性块的所述第一子块、所述第二预测性块的第一子块及所述第一BIO运动量确定用于所述视频数据块的第一最终预测性子块的单元;
用于针对所述第一预测性块的第二子块确定第二BIO运动量的单元,其中所述第二BIO运动量包括运动向量场,所述运动向量场包括水平分量及垂直分量;
用于基于所述第一预测性块的所述第二子块、所述第二预测性块的第二子块及所述第二BIO运动量确定用于所述视频数据块的第二最终预测性子块的单元;
用于基于所述第一最终预测性子块及所述第二最终预测性子块确定用于所述视频数据块的最终预测性块的单元;及
用于输出包括所述视频数据块的经解码版本的视频数据图片的单元。
CN201880004708.0A 2017-01-04 2018-01-04 解码视频数据的方法、装置、设备及存储媒体 Active CN110036638B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762442357P 2017-01-04 2017-01-04
US62/442,357 2017-01-04
US201762445152P 2017-01-11 2017-01-11
US62/445,152 2017-01-11
US15/861,515 US10931969B2 (en) 2017-01-04 2018-01-03 Motion vector reconstructions for bi-directional optical flow (BIO)
US15/861,515 2018-01-03
PCT/US2018/012360 WO2018129172A1 (en) 2017-01-04 2018-01-04 Motion vector reconstructions for bi-directional optical flow (bio)

Publications (2)

Publication Number Publication Date
CN110036638A CN110036638A (zh) 2019-07-19
CN110036638B true CN110036638B (zh) 2023-06-27

Family

ID=62711435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880004708.0A Active CN110036638B (zh) 2017-01-04 2018-01-04 解码视频数据的方法、装置、设备及存储媒体

Country Status (13)

Country Link
US (1) US10931969B2 (zh)
EP (1) EP3566441A1 (zh)
JP (1) JP7159166B2 (zh)
KR (1) KR102579523B1 (zh)
CN (1) CN110036638B (zh)
AU (1) AU2018205783B2 (zh)
BR (1) BR112019013684A2 (zh)
CA (1) CA3043050A1 (zh)
CL (1) CL2019001393A1 (zh)
CO (1) CO2019007120A2 (zh)
TW (1) TWI761415B (zh)
WO (1) WO2018129172A1 (zh)
ZA (1) ZA201904373B (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114615493A (zh) * 2016-03-24 2022-06-10 英迪股份有限公司 视频解码方法、视频编码方法和可读记录介质
CN116156200A (zh) 2016-07-14 2023-05-23 三星电子株式会社 视频解码方法及其装置以及视频编码方法及其装置
CN117014631A (zh) * 2017-04-27 2023-11-07 松下电器(美国)知识产权公司 解码装置、编码装置以及非暂时性记录介质
AU2018271194B2 (en) * 2017-05-17 2021-04-08 Kt Corporation Method and device for video signal processing
WO2018212111A1 (ja) * 2017-05-19 2018-11-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法
WO2019003993A1 (ja) * 2017-06-26 2019-01-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法
EP3713236A4 (en) * 2017-12-14 2021-04-21 LG Electronics Inc. METHOD AND DEVICE FOR DECODING IMAGE ACCORDING TO INTER-PREDICTION IN AN IMAGE CODING SYSTEM
WO2020065520A2 (en) 2018-09-24 2020-04-02 Beijing Bytedance Network Technology Co., Ltd. Extended merge prediction
EP3751855A4 (en) 2018-02-06 2021-03-10 Panasonic Intellectual Property Corporation of America CODING DEVICE, DECODING DEVICE, CODING METHOD AND DECODING METHOD
US11109053B2 (en) * 2018-03-05 2021-08-31 Panasonic Intellectual Property Corporation Of America Encoding method, decoding method, encoder, and decoder
US11317085B2 (en) * 2018-03-30 2022-04-26 Vid Scale, Inc. Template-based inter prediction techniques based on encoding and decoding latency reduction
US10841575B2 (en) * 2018-04-15 2020-11-17 Arris Enterprises Llc Unequal weight planar motion vector derivation
CN116684594A (zh) * 2018-04-30 2023-09-01 寰发股份有限公司 照度补偿方法及相应的电子装置
WO2019234598A1 (en) * 2018-06-05 2019-12-12 Beijing Bytedance Network Technology Co., Ltd. Interaction between ibc and stmvp
MX2020013386A (es) 2018-06-11 2021-03-09 Hfi Innovation Inc Metodo y aparato de flujo optico bidireccional para la codificacion de video.
KR20210022617A (ko) 2018-06-21 2021-03-03 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 칼라 컴포넌트 간의 서브 블록 mv 상속
CN110636298B (zh) 2018-06-21 2022-09-13 北京字节跳动网络技术有限公司 对于Merge仿射模式和非Merge仿射模式的统一约束
TWI730380B (zh) 2018-08-17 2021-06-11 聯發科技股份有限公司 在視訊編解碼系統中利用雙向預測處理視訊的方法、設備和可讀介質
CN117956139A (zh) * 2018-08-17 2024-04-30 寰发股份有限公司 视频编解码的帧间预测方法及装置
US11245922B2 (en) 2018-08-17 2022-02-08 Mediatek Inc. Shared candidate list
US11665365B2 (en) 2018-09-14 2023-05-30 Google Llc Motion prediction coding with coframe motion vectors
WO2020061082A1 (en) 2018-09-21 2020-03-26 Vid Scale, Inc. Complexity reduction and bit-width control for bi-directional optical flow
US11146800B2 (en) * 2018-09-24 2021-10-12 Tencent America LLC Low latency local illumination compensation
TW202029755A (zh) * 2018-09-26 2020-08-01 美商Vid衡器股份有限公司 視訊編碼雙預測
WO2020070612A1 (en) 2018-10-06 2020-04-09 Beijing Bytedance Network Technology Co., Ltd. Improvement for temporal gradient calculating in bio
WO2020084475A1 (en) * 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Utilization of refined motion vector
WO2020084460A1 (en) * 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Decoder side motion vector derivation in the presence of multi-hypothesis prediction
WO2020084476A1 (en) 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Sub-block based prediction
WO2020084554A1 (en) 2018-10-24 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Searching based motion candidate derivation for sub-block motion vector prediction
CN117241017A (zh) 2018-11-05 2023-12-15 北京字节跳动网络技术有限公司 数字视频编解码的方法、设备和系统
WO2020094149A1 (en) 2018-11-10 2020-05-14 Beijing Bytedance Network Technology Co., Ltd. Rounding in triangular prediction mode
EP3857879A4 (en) 2018-11-12 2022-03-16 Beijing Bytedance Network Technology Co., Ltd. SIMPLIFICATION OF COMBINED INTER-INTRA PREDICTION
KR20210091161A (ko) 2018-11-20 2021-07-21 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 부분적 위치에 기반한 차분 계산
WO2020103877A1 (en) 2018-11-20 2020-05-28 Beijing Bytedance Network Technology Co., Ltd. Coding and decoding of video coding modes
KR20240024335A (ko) 2018-11-22 2024-02-23 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 서브 블록 기반 인터 예측을 위한 조정 방법
KR102572355B1 (ko) 2018-11-30 2023-08-30 텐센트 아메리카 엘엘씨 비디오 코딩을 위한 방법 및 장치
CN113228656B (zh) * 2018-12-21 2023-10-31 北京字节跳动网络技术有限公司 使用多项式模型的帧间预测
EP3900343A1 (en) * 2018-12-21 2021-10-27 VID SCALE, Inc. Symmetric motion vector difference coding
KR102635518B1 (ko) 2019-03-06 2024-02-07 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 변환된 단예측 후보의 사용
JP6867611B2 (ja) * 2019-03-11 2021-04-28 Kddi株式会社 画像復号装置、画像復号方法及びプログラム
WO2020184847A1 (ko) 2019-03-12 2020-09-17 엘지전자 주식회사 Dmvr 및 bdof 기반의 인터 예측 방법 및 장치
US11985324B2 (en) 2019-03-14 2024-05-14 Hfi Innovation Inc. Methods and apparatuses of video processing with motion refinement and sub-partition base padding
KR20220112864A (ko) 2019-03-15 2022-08-11 베이징 다지아 인터넷 인포메이션 테크놀로지 컴퍼니 리미티드 양방향 광 흐름을 위한 비트-폭 제어를 위한 방법 및 디바이스
CN117478876A (zh) 2019-03-17 2024-01-30 北京字节跳动网络技术有限公司 基于光流的预测细化的计算
KR20230169434A (ko) 2019-04-02 2023-12-15 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 디코더 측 움직임 벡터 유도
CN113812155B (zh) * 2019-05-11 2023-10-27 北京字节跳动网络技术有限公司 多种帧间编解码方法之间的交互
EP3954119A4 (en) 2019-05-21 2022-06-22 Beijing Bytedance Network Technology Co., Ltd. SYNTAX SIGNALING IN A SUBBLOCK MERGE MODE
WO2020255903A1 (ja) * 2019-06-21 2020-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、および復号方法
CN113411598B (zh) * 2019-06-21 2022-05-31 杭州海康威视数字技术股份有限公司 一种编解码方法、装置及其设备
US11272203B2 (en) * 2019-07-23 2022-03-08 Tencent America LLC Method and apparatus for video coding
CN114208184A (zh) 2019-08-13 2022-03-18 北京字节跳动网络技术有限公司 基于子块的帧间预测中的运动精度
WO2021054886A1 (en) * 2019-09-20 2021-03-25 Telefonaktiebolaget Lm Ericsson (Publ) Methods of video encoding and/or decoding with bidirectional optical flow simplification on shift operations and related apparatus
WO2021052507A1 (en) 2019-09-22 2021-03-25 Beijing Bytedance Network Technology Co., Ltd. Sub-picture coding and decoding of video
CN112868236A (zh) * 2019-09-24 2021-05-28 北京大学 视频处理方法和装置
WO2020256601A2 (en) * 2019-10-03 2020-12-24 Huawei Technologies Co., Ltd. Method and apparatus of picture-level signaling for bidirectional optical flow and decoder side motion vector refinement
CN114631317B (zh) 2019-10-18 2024-03-15 北京字节跳动网络技术有限公司 子图片的参数集信令中的语法约束
US20210337192A1 (en) * 2020-04-24 2021-10-28 Realtek Semiconductor Corp. Image processing method and associated encoder

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179354A (ja) * 2005-12-28 2007-07-12 Fujitsu Ltd オプティカルフロー算出装置、オプティカルフロー算出方法、オプティカルフロー算出プログラムおよび記録媒体
CN103039075A (zh) * 2010-05-21 2013-04-10 Jvc建伍株式会社 图像编码装置、图像编码方法及图像编码程序、以及图像解码装置、图像解码方法及图像解码程序
CN105261038A (zh) * 2015-09-30 2016-01-20 华南理工大学 基于双向光流和感知哈希的指尖跟踪方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002356364A1 (en) * 2002-01-17 2003-07-30 Koninklijke Philips Electronics N.V. Unit for and method of estimating a current motion vector
EP2557795A4 (en) * 2010-04-06 2015-07-08 Samsung Electronics Co Ltd METHOD AND APPARATUS FOR ENCODING A VIDEO AND METHOD AND APPARATUS FOR DECODING A VIDEO
JP5686019B2 (ja) * 2010-05-21 2015-03-18 株式会社Jvcケンウッド 画像復号装置、画像復号方法および画像復号プログラム
CN103327327B (zh) * 2013-06-03 2016-03-30 电子科技大学 用于高性能视频编码hevc的帧间预测编码单元选择方法
US20180249172A1 (en) * 2015-09-02 2018-08-30 Mediatek Inc. Method and apparatus of motion compensation for video coding based on bi prediction optical flow techniques
WO2017197146A1 (en) * 2016-05-13 2017-11-16 Vid Scale, Inc. Systems and methods for generalized multi-hypothesis prediction for video coding
WO2017205704A1 (en) * 2016-05-25 2017-11-30 Arris Enterprises Llc General block partitioning method
CN114157865B (zh) * 2016-12-27 2023-10-20 松下电器(美国)知识产权公司 编码装置、解码装置及非暂时性的存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179354A (ja) * 2005-12-28 2007-07-12 Fujitsu Ltd オプティカルフロー算出装置、オプティカルフロー算出方法、オプティカルフロー算出プログラムおよび記録媒体
CN103039075A (zh) * 2010-05-21 2013-04-10 Jvc建伍株式会社 图像编码装置、图像编码方法及图像编码程序、以及图像解码装置、图像解码方法及图像解码程序
CN105261038A (zh) * 2015-09-30 2016-01-20 华南理工大学 基于双向光流和感知哈希的指尖跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Two stage inter-frame prediction using pixel- and block-wise motion compensation";Yusuke Kameda等;2015 International Conference on System,Signals and Image Processing;全文 *

Also Published As

Publication number Publication date
TWI761415B (zh) 2022-04-21
CN110036638A (zh) 2019-07-19
CA3043050A1 (en) 2018-07-12
CO2019007120A2 (es) 2019-09-18
TW201830966A (zh) 2018-08-16
US20180192072A1 (en) 2018-07-05
CL2019001393A1 (es) 2019-09-27
AU2018205783A1 (en) 2019-05-23
JP7159166B2 (ja) 2022-10-24
ZA201904373B (en) 2023-03-29
JP2020503799A (ja) 2020-01-30
AU2018205783B2 (en) 2023-02-02
KR20190103171A (ko) 2019-09-04
WO2018129172A1 (en) 2018-07-12
BR112019013684A2 (pt) 2020-01-28
EP3566441A1 (en) 2019-11-13
KR102579523B1 (ko) 2023-09-15
US10931969B2 (en) 2021-02-23

Similar Documents

Publication Publication Date Title
CN110036638B (zh) 解码视频数据的方法、装置、设备及存储媒体
CN110754087B (zh) 用于双向光学流(bio)的高效存储器带宽设计
CN110915214B (zh) 用于运动向量推导的基于部分重构建的模板匹配
CN111989922B (zh) 用于对视频数据进行解码的方法、设备和装置
CN111602399B (zh) 改进的解码器侧运动矢量推导
US10523964B2 (en) Inter prediction refinement based on bi-directional optical flow (BIO)
CN110431842B (zh) 解码器侧运动向量导出
CN110301135B (zh) 解码视频数据的方法和装置以及计算机可读存储介质
JP2018513611A (ja) ビデオコーディングにおける動きベクトル導出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40005288

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant