CN110710213B - 用于估计运动补偿的光流的方法及装置 - Google Patents

用于估计运动补偿的光流的方法及装置 Download PDF

Info

Publication number
CN110710213B
CN110710213B CN201880034013.7A CN201880034013A CN110710213B CN 110710213 B CN110710213 B CN 110710213B CN 201880034013 A CN201880034013 A CN 201880034013A CN 110710213 B CN110710213 B CN 110710213B
Authority
CN
China
Prior art keywords
block
motion vector
sub
bio
current block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880034013.7A
Other languages
English (en)
Other versions
CN110710213A (zh
Inventor
林晶娟
金孝性
孙世勋
申在燮
李善英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Telecom Co Ltd
Original Assignee
SK Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SK Telecom Co Ltd filed Critical SK Telecom Co Ltd
Priority to CN202310843252.XA priority Critical patent/CN116708830A/zh
Priority to CN202310841628.3A priority patent/CN116708829A/zh
Priority to CN202310843458.2A priority patent/CN116708831A/zh
Priority to CN202310841020.0A priority patent/CN116708828A/zh
Priority claimed from PCT/KR2018/003044 external-priority patent/WO2018199468A1/ko
Publication of CN110710213A publication Critical patent/CN110710213A/zh
Application granted granted Critical
Publication of CN110710213B publication Critical patent/CN110710213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/56Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/57Motion estimation characterised by a search window with variable size or shape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于估计运动补偿的光流的方法及装置。本发明的目的是降低像素级或子块级的双向光流的复杂度和/或成本。BIO运动矢量是以针对位于以对应像素为中心的掩蔽窗口中的所有掩蔽像素所获得的流差为基础确定的。

Description

用于估计运动补偿的光流的方法及装置
技术领域
本公开涉及视频编码或解码。更具体地,本公开涉及一种用于视频编码期间的帧间预测补偿的自适应双向光流估计的方法。
背景技术
本部分中的陈述仅提供与本公开有关的背景信息,并且可能不构成现有技术。
在视频编码中,利用空间维度和时间维度的数据冗余来执行压缩。通过变换编码极大地减少了空间冗余。通过预测编码减少时间冗余。观察到时间相关性沿运动轨迹最大化,为此目的使用运动补偿预测。在这种上下文中,运动估计的主要目的不是在场景中找到“真实”运动,而是使压缩效率最大化。换句话说,运动矢量必须提供信号的准确预测。另外,由于运动信息必须作为开销在压缩比特流中传输,因此它必须启用压缩表示。在视频编码中有效的运动估计对于实现高压缩非常重要。
运动是视频序列中重要的信息来源。发生运动不仅是由于物体的运动,还因为相机的运动。视在运动(也称为光流)捕获图像序列中像素强度的时空变化。
双向光流(BIO)是JCTVC-C204和VCEG-AZ05中公开的一种运动估计/补偿技术,该技术基于光流和稳定运动的假设来推导样本级运动细化。当前正在讨论的双向光流估计方法能够对运动矢量信息进行精细细化,这是优点,但是与用于运动矢量信息的精细校正的传统双向预测相比,需要更高的计算复杂度,这是不利的。
非专利文献1:JCTVC-C204(E.Alshina,et al.,Bi-directional optical flow,Joint Collaborative Team on Video Coding(JCT-VC)of ITU-T SG 16WP 3and ISO/IECJTC1/SC 29/WG 11,3rd Meeting:Guangzhou,CN,7-15October,2010(E.Alshina等人,双向光流,ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的视频编码联合协作小组(JCT-VC),第3次会议:中国广州,2010年10月7日至15日))。
非专利文献2:VCEG-AZ05(E.Alshina,et al.,Known tools performanceinvestigation for next generation video coding,ITU-T SG 16Question 6,VideoCoding Experts Group(VCEG),52nd Meeting:19-26June 2015,Warsaw,Poland(E.Alshina等人,下一代视频编码的已知工具性能研究,ITU-T SG 16问题6,视频编码专家组(VCEG),第52次会议:2015年6月19至26日,波兰华沙))。
发明内容
技术问题
本公开的目的是减少双向光流(BIO)的复杂度和/或成本。
技术方案
根据本公开的一个方面,提供了一种用于对视频数据进行编码或解码的方法,该方法包括以下步骤:确定指示第一参考图片中与当前块最相似的第一对应区域的第一运动矢量,以及指示第二参考图片中与当前块最相似的第二对应区域的第二运动矢量;通过以子块为单位应用双向光流(BIO)处理来生成当前块的预测块;以及使用所生成的预测块重构当前块。这里,生成预测块包括:确定构成当前块的每个子块的BIO运动矢量;以及基于所确定的BIO运动矢量来生成构成对应子块的像素的预测值。
根据本发明的另一方面,提供了一种用于对视频数据进行解码的装置,该装置包括存储器;以及一个或更多个处理器,其中,一个或更多个处理器被配置为执行以下操作:确定指示第一参考图片中与当前块最相似的第一对应区域的第一运动矢量,以及指示第二参考图片中与当前块最相似的第二对应区域的第二运动矢量;通过以子块为单位应用双向光流(BIO)处理来生成当前块的预测块;以及使用所生成的预测块重构当前块的像素。这里,生成预测块的操作包括:确定构成当前块的每个子块的BIO运动矢量;以及基于所确定的BIO运动矢量来生成构成对应子块的像素的预测值。
BIO运动矢量(vx,vy)可以被确定为是使得位于搜索区域中的各个像素的流差的平方和最小的矢量,搜索区域是由以子块中的每个像素为中心的预定掩蔽窗口所限定的。另选地,BIO运动矢量(vx,vy)可以被确定为是使得位于搜索区域中的全部像素的流差的平方和最小的矢量,搜索区域是由以子块中的一些像素为中心的预定掩蔽窗口所限定的。例如,应用了掩蔽窗口的像素的位置和未应用掩蔽窗口的像素的位置可以形成格子图案、水平条纹图案或垂直条纹图案。
在一些实施方式中,代替重复计算流差,可以根据差值的重复次数来对重复的差值进行加权。在一些示例中,在确定位于当前块的边缘处的子块的BIO运动矢量时,可以不考虑位于当前块外部的区域中的像素的流差。
在一些实施方式中,可以不使用掩蔽窗口。例如,BIO运动矢量(vx,vy)可以被确定为是使得子块中的各个像素的流差的平方和最小的矢量。
根据本发明的另一方面,提供了一种用于解码视频数据的方法,该方法包括以下步骤:确定指示第一参考图片中与当前块最相似的第一对应区域的第一运动矢量以及指示第二参考图片中与当前块最相似的第二对应区域的第二运动矢量;通过以像素为单位应用双向光流(BIO)处理来生成当前块的预测块;以及使用所生成的预测块重构当前块的像素,其中,生成预测块的步骤包括确定构成当前块的每个像素的BIO运动矢量,其中,BIO运动矢量被确定为是使得针对位于以对应像素为中心的加号形状或菱形形状的掩蔽窗口中的全部掩蔽像素所获得的流差的平方和最小的矢量;以及基于所确定的BIO运动矢量来生成对应像素的预测值。
根据本发明的另一方面,提供一种用于对视频数据进行解码的装置,该装置包括存储器;以及一个或更多个处理器,其中,一个或更多个处理器被配置为执行以下操作:确定指示第一参考图片中与当前块最相似的第一对应区域的第一运动矢量以及指示第二参考图片中与当前块最相似的第二对应区域的第二运动矢量;通过以像素为单位应用双向光流(BIO)处理来生成当前块的预测块;以及使用所生成的预测块重构当前块的像素。这里,生成预测块的操作包括:确定构成当前块的每个像素的BIO运动矢量,其中,BIO运动矢量被确定为是使得针对位于以对应像素为中心的加号形状或菱形形状的掩蔽窗口中的全部掩蔽像素所获得的流差的平方和最小的矢量;以及基于所确定的BIO运动矢量来生成对应像素的预测值。
附图说明
图1是能够实现本公开技术的视频编码装置的示例性框图。
图2是当前块的相邻块的示例图。
图3是能够实现本公开技术的视频解码装置的示例性框图。
图4是用于说明BIO的基本概念的参照图。
图5a是例示了根据本公开实施方式的基于像素级BIO所执行的用于双向运动补偿的方法的流程图。
图5b是例示了根据本公开实施方式的基于子块级的BIO所执行的用于双向运动补偿的方法的流程图。
图6是例示了根据第一实施方式的用于基于BIO运动补偿的5×5掩蔽窗口和当前块的1×1块的图。
图7是例示了根据第二实施方式的可用于确定像素级BIO运动矢量的非矩形掩蔽窗口的图。
图8是例示了根据第二实施方式的用于确定像素级BIO运动矢量的菱形形状的掩蔽窗口和当前块的1×1块的图。
图9是例示了根据第三实施方式的用于确定子块级BIO运动矢量的5×5掩蔽窗口和4×4子块的图。
图10a是用于说明以交叠的方式计算在确定子块级的BIO运动矢量中所使用的差值的图。
图10b是示例性地示出在确定子块级BIO运动矢量中所使用的差值的各个像素位置的权重的图。
图11是例示了根据第四实施方式的用于确定子块级BIO运动矢量的菱形形状的掩蔽窗口和4×4子块的图。
图12是例示了根据第五实施方式的在子块中应用了掩蔽窗口的像素的三种类型的位置的图。
图13是例示了根据第五实施方式的在确定子块级的BIO运动矢量中所使用的5×5掩蔽窗口和通过对应用了掩蔽窗口的像素进行采样所获得的格子图案中的4×4子块的图。
图14是例示了根据第六实施方式的用于基于BIO的运动补偿的菱形形状的掩蔽窗口和4×4子块中的预测像素的示图。
图15是例示了根据第七实施方式的子块中的每个像素的加权的示例的图。
图16a例示了位于包括16个4×4子块的16×16当前块的边缘处的子块。
图16b是示例性地示出针对位于16×16当前块的左上角的4×4子块用于BIO运动矢量所使用的按像素位置的差值的权重的图。
具体实施方式
在下文中,将参照附图详细描述本发明的一些实施方式。应当注意,在各个附图中向构成元件添加附图标记时,尽管元件示出在不同的附图中,但是相似的附图标记指代相似的元件。此外,在本发明的以下描述中,这里并入的已知功能和配置的详细描述在可能使本发明的主题相对不清楚时将被省略。
本公开的技术总体上涉及降低双向光流(BIO)技术的复杂度和/或成本。在运动补偿期间可以应用BIO。通常,BIO用于通过光流为当前块中的每个像素计算运动矢量,并基于为每个像素计算的运动矢量值来更新位于相应像素处的预测值。
图1是能够实现本公开技术的视频编码装置的示例性框图。
视频编码装置包括块分割器110、预测器120、减法器130、变换器140、量化器145、编码器150、逆量化器160、逆变换器165、加法器170、滤波器单元180和存储器190。视频编码装置的每个元件可以被实现为硬件芯片,或者可以被实现为软件,并且微处理器可以实现为执行与各个元件相对应的软件的功能。
块分割器110将构成视频的每个图片分割为多个编码树单元(CTU),然后使用树结构来递归地分割CTU。树结构中的叶节点是编码单元(CU),该编码单元是编码的基本单位。节点(或父节点)被分割为相同尺寸的四个子节点(或子节点)的四叉树(QT)结构、或者结合了QT结构和节点被分割为两个子节点的二叉树(BT)结构的四叉树加二叉树(QTBT)结构可以用作树结构。也就是说,可以使用QTBT将CTU分割为多个CU。
在四叉树加二叉树(QTBT)结构中,能够首先根据QT结构分割CTU。可以重复四叉树分割,直到分割块的尺寸达到QT中所允许的叶节点的最小块尺寸MinQTSize。如果QT的叶节点不大于BT中所允许的根节点的最大块尺寸MaxBTSize,则可以将其进一步划分为BT结构。BT可以具有多种分割类型。例如,在一些示例中,可以存在两种分割类型,一种是将节点的块水平分割为相同尺寸的两个块(即,对称水平分割),一种是将节点的块垂直分割为相同尺寸的两个块(即,对称垂直分割)。此外,可以存在以非对称形式将节点的块分割成两个块的分割类型。非对称分割可以包括以1:3的尺寸比将节点的块分割为两个矩形块,或者沿对角线方向分割节点的块。
由块分割器110通过按照QTBT结构分割CTU而生成的分割信息由编码器150编码,并且向视频解码装置发送。
以下,与要编码或解码的CU(即,QTBT的叶节点)相对应的块称为“当前块”。
预测器120通过预测当前块来生成预测块。预测器120包括帧内预测器122和帧间预测器124。
通常,图片内的当前块可以各自被预测性地编码。通常,可以使用帧内预测技术或帧间预测技术来完成当前块的预测,该帧内预测技术使用来自包含当前块的图片的数据,该帧间预测技术针对包含当前块的图片使用来自先前编码的图像的数据。帧间预测包括单向预测和双向预测。
对于每个帧间预测块,运动信息集是可用的。运动信息的集合可以包括关于前向和后向预测方向的运动信息。这里,前向预测方向和后向预测方向是双向预测模式中的两个预测方向,并且术语“前向”和“后向”并非必须具有几何含义。相反,它们通常对应于在当前图片之前(“后向方向”)还是之后(“前向方向”)显示参考图片。在一些示例中,“前向”和“后向”预测方向可以对应于当前图片的参考图片列表0(RefPicList0)和参考图片列表1(RefPicList1)。
对于每个预测方向,运动信息包括参考索引和运动矢量。参考索引可以用于识别当前参考图片列表(RefPicList0或RefPicList1)中的参考图片。运动矢量具有水平分量x和垂直分量y。通常,水平分量表示参考图片中相对于当前图片中当前块的位置的水平位移,这是定位参考块的x坐标所需要的。垂直分量表示参考图片中相对于当前块的位置的垂直位移,这是定位参考块的y坐标所需要的。
帧间预测器124在比当前图片更早编码和解码的参考图片中搜索与当前块最相似的块,并使用搜索到的块为当前块生成预测块。然后,帧间预测器生成与当前图片中的当前块和参考图片中的预测块之间的位移相对应的运动矢量。通常,对亮度分量执行运动估计,并且基于亮度分量计算出的运动矢量被用于亮度分量和色度分量。包括关于参考图片的信息和用于预测当前块的运动矢量的运动信息由编码器150编码,并且发送给视频解码装置。
本公开的示例总体上涉及双向光流(BIO)技术。本公开的一些技术可以由帧间预测器124执行。例如,帧间预测器124可以实施以下参照图4至图13描述的本公开的技术。换句话说,在确定当前块的双向运动矢量之后,帧间预测器124可以以图像像素或子块为基础根据BIO技术使用运动补偿来生成针对当前块的预测块。在其它示例中,编码装置的一个或更多个其它组件可以附加地参与实施本公开的技术。另外,由于存在用于计算运动矢量的显式方程,所以不需要用于获取运动信息的搜索操作和用于发送运动信息的信令。
可以使用各种方法来最小化编码运动信息所需的比特数。
例如,在当前块的参考图片和运动矢量与相邻块的参考图片和运动矢量相同时,可以通过编码用于标识相邻块的信息将关于当前块的运动信息发送给解码装置。此方法称为“合并模式”。
在合并模式中,帧间预测器124从当前块的相邻块中选择预定数量的合并候选块(以下称为“合并候选”)。
如图2所示,作为推导出合并候选的相邻块,可以使用当前图片中与当前块相邻的左块L、上块A、右上块AR、左下块BL和左上块AL中的全部或一部分。另外,位于除了当前块所位于的当前图片之外的参考图片(该参考图片可以与用于预测当前块的参考图片相同或不同)内的块可以用作合并候选。例如,在参考图片中与当前块位于相同位置的共定位块(co-located block)或与该在相同位置的块相邻的块也可以用作合并候选。
帧间预测器124使用这样的相邻块来配置包括预定数量的合并候选的合并列表。从合并列表中所包括的合并候选中选择要被用作关于当前块的运动信息的合并候选,并且生成用于标识所选候选的合并索引信息。所生成的合并索引信息由编码器150编码,并且发送给解码装置。
运动信息的另一种编码方法是编码运动矢量差。
在该方法中,帧间预测器124使用当前块的相邻块来推导出当前块的运动矢量的预测运动矢量候选。作为用于推导出预测运动矢量候选的相邻块,可以使用图5中所示的在当前图片中与当前块相邻的左块L、上块A、右上块AR、左下块BL和左上块AL的全部或一部分。另外,位于除了当前块所位于的当前图片之外的参考图片(该参考图片可以与用于预测当前块的参考图片相同或不同)内的块可以用作用于推导预测运动矢量候选的相邻块。例如,在参考图片中与当前块位于相同位置的共定位块或与位于相同位置的该块相邻的块也可以用作合并候选。
帧间预测器124使用相邻块的运动矢量来推导出预测运动矢量候选,并且使用预测运动矢量候选来确定当前块的运动矢量的预测运动矢量。然后,通过从当前块的运动矢量减去预测运动矢量来计算运动矢量差。
可以通过将预定函数(例如,用于计算中位数、平均值等的函数)应用于预测运动矢量候选来获得预测运动矢量。在这种情况下,视频解码装置也知道预定函数。另外,由于用于推导出预测运动矢量候选的相邻块已经被编码和解码,所以视频解码装置也已经知道相邻块的运动矢量。因此,视频编码装置不需要对用于标识预测运动矢量候选的信息进行编码。因此,在这种情况下,关于运动矢量差的信息和关于用于预测当前块的参考图片的信息被编码。
可以通过选择预测运动矢量候选中的任意一个来确定预测运动矢量。在这种情况下,用于标识所选预测运动矢量候选的信息与关于运动矢量差的信息和关于用于预测当前块的参考图片的信息一起被进一步编码。
帧内预测器122使用包括当前块的当前图片中位于当前块周围的像素(参考像素)来预测当前块中的像素。根据预测方向存在多种帧内预测模式,并且根据每种预测模式不同地定义要使用的周边像素和方程。具体地,帧内预测器122可以确定在对当前块进行编码中要使用的帧内预测模式。在一些示例中,帧内预测器122可以使用几种帧内预测模式对当前块进行编码,并且从被测模式中选择合适的帧内预测模式来使用。例如,帧内预测器122可以使用对几种被测帧内预测模式的速率失真分析来计算速率失真值,并且可以选择被测模式中具有最佳速率失真特性的帧内预测模式。
帧内预测器122从多个帧内预测模式中选择一种帧内预测模式,并使用根据所选帧内预测模式而确定的相邻像素(参考像素)和方程来预测当前块。关于所选帧内预测模式的信息由编码器150编码,并且发送给视频解码装置。
减法器130从当前块中减去由帧内预测器122或帧间预测器124生成的预测块,以生成残差块。
变换器140将空间域中具有像素值的残差块中的残差信号变换为频域中的变换系数。变换器140可以通过使用当前块的尺寸作为变换单元来变换残差块中的残差信号,或者可以将残差块分割为多个更小的子块,并以与子块尺寸相对应的变换单位来变换残差信号。可以有各种方法将残差块分割为更小子块。例如,可以将残差块分割成相同预定义尺寸的子块,或者可以以将残差块作为根节点的四叉树(QT)的方式来分割残差块。
量化器145对从变换器140输出的变换系数进行量化,并将量化后的变换系数输出至编码器150。
编码器150使用诸如CABAC之类的编码方案对量化后的变换系数进行编码以生成比特流。编码器150对与块分割相关联的诸如CTU尺寸、MinQTSize、MaxBTSize、MaxBTDepth、MinBTSize、QT分割标志、BT分割标志和分割类型的信息进行编码、使得视频解码装置以与视频编码装置相同的方式来分割块。
编码器150对关于指示当前块是通过帧内预测还是帧间预测进行编码的预测类型的信息进行编码,并且根据预测类型对帧内预测信息或帧间预测信息进行编码。
当对当前块进行帧内预测时,用于帧内预测模式的语法元素被编码为帧内预测信息。当对当前块进行帧间预测时,编码器150对用于帧间预测信息的语法元素进行编码。帧间预测信息的语法元素包括以下信息:
(1)模式信息,该模式信息指示关于当前块的运动信息是以合并模式还是用于编码运动矢量差的模式被编码的。
(2)关于运动信息的语法元素
当以合并模式对运动信息进行编码时,编码器150可以对合并索引信息进行编码作为运动信息的语法元素,该合并索引信息指示合并候选当中被选择作为用于提取关于当前块的运动信息的候选的合并候选。
另一方面,当在用于对运动矢量差进行编码的模式下对运动信息进行编码时,关于运动矢量差的信息和关于参考图片的信息被编码为运动信息的语法元素。当以选择多个预测运动矢量候选中的一个的方式确定预测运动矢量时,运动信息的语法元素还包括用于标识所选的候选的预测运动矢量标识信息。
逆量化器160对从量化器145输出的量化后的变换系数进行逆量化以生成变换系数。逆变换器165将从逆量化器160输出的变换系数从频域变换到空间域,并重构残差块。
加法器170将重构的残差块与由预测器120生成的预测块相加以重构当前块。重构的当前块中的像素依次在执行下一个块的帧内预测时用作参考样本。
滤波器单元180对重构的块之间的边界进行解块滤波,以便消除由逐块编码/解码引起的块伪像,并将块存储在存储器190中。当重构了一张图片中的所有块时,已重构的图片用作在要编码的后续图片中的块进行帧间预测的参考图片。
以下,将描述视频解码装置。
图3是能够实现本公开技术的视频解码装置的示例性框图。
视频解码装置包括解码器310、逆量化器320、逆变换器330、预测器340、加法器350、滤波器单元360和存储器370。如图2所示的视频编码装置的情况,视频编码装置的每个元件可以实现为硬件芯片,或者可以实现为软件,并且微处理器可以实现为执行与各个元件相对应的软件的功能。
解码器310对从视频编码装置接收到的比特流进行解码,提取与块分割有关的信息以确定要解码的当前块,并且提取重构当前块所需的预测信息和关于残差信号的信息。
解码器310从序列参数集(SPS)或图片参数集(PPS)中提取关于CTU尺寸的信息,确定CTU的尺寸,并将图片分割为所确定出的尺寸的CTU。然后,解码器将CTU确定为树结构的最上层(即,根节点),并提取有关CTU的分割信息,以使用树结构分割CTU。例如,当使用QTBT结构分割CTU时,提取与QT的分割有关的第一标记(QT_split_flag)以将每个节点分割为子层的四个节点。对于与QT的叶节点相对应的节点,提取第二标志(BT_split_flag)和与BT的分割有关的分割类型信息,以将叶节点分割为BT结构。
在通过树结构的分割确定要解码的当前块时,解码器310提取关于指示当前块是帧内预测还是帧间预测的预测类型的信息。
当预测类型信息指示帧内预测时,解码器310提取关于当前块的帧内预测信息的语法元素(帧内预测模式)。
当预测类型信息指示帧间预测时,解码器310提取用于帧间预测信息的语法元素。首先,解码器提取指示多个编码模式中关于当前块的运动信息被编码的编码模式的模式信息。在此,多个编码模式包括:包括跳过模式的合并模式和运动矢量差编码模式。当模式信息指示合并模式时,解码器310提取指示在合并候选中的将从中推导出当前块的运动矢量的合并候选的合并索引信息,作为运动的语法元素。另一方面,当模式信息指示运动矢量差编码模式时,解码器310提取关于运动矢量差的信息和关于当前块的运动矢量所参考的参考图片的信息,作为运动矢量的语法元素。当视频编码装置使用多个预测运动矢量候选之一作为当前块的预测运动矢量时,预测运动矢量标识信息包括在比特流中。因此,在这种情况下,不仅提取关于运动矢量差和参考图片的信息,而且提取预测运动矢量标识信息作为运动矢量的语法元素。
解码器310提取关于当前块的已量化变换系数的信息作为关于残差信号的信息。
逆量化器320对已量化变换系数进行逆量化。逆变换器330将逆量化后的变换系数从频域逆变换到空间域以重构残差信号,从而生成当前块的残差块。
预测器340包括帧内预测器342和帧间预测器344。当当前块的预测类型是帧内预测时,激活帧内预测器342,而当当前块的预测类型是帧间预测时,激活帧间预测器344。
帧内预测器342根据从解码器310提取的关于帧内预测模式的语法元素,从多个帧内预测模式中确定当前块的帧内预测模式,并根据帧内预测模式使用当前块周围的参考像素预测当前块。
帧间预测器344使用从解码器310提取的帧内预测模式的语法元素来确定关于当前块的运动信息,并使用所确定的运动信息来预测当前块。
首先,帧间预测器344检查从解码器310提取的关于帧间预测的模式信息。当模式信息指示合并模式时,帧间预测器344使用当前块的相邻块配置包括预定数量的合并候选的合并列表。帧间预测器344以与视频编码装置的帧间预测器124的情况相同的方式配置合并列表。然后,使用从解码器310发送的合并索引信息从合并列表中的合并候选中选择一个合并候选。关于所选合并候选的运动信息(即,合并候选的运动矢量和参考图片)设置为当前块的运动矢量和参考图片。
另一方面,当模式信息指示运动矢量差编码模式时,帧间预测器344使用当前块的相邻块的运动矢量来推导出预测运动矢量候选,并使用预测运动矢量候选,确定关于当前块的运动矢量的预测运动矢量。帧间预测器344以与视频编码装置的帧间预测器124的情况相同的方式推导出预测运动矢量候选。在视频编码装置使用多个预测运动矢量候选之一作为当前块的预测运动矢量的情况下,运动信息的语法元素包括预测运动矢量标识信息。因此,在这种情况下,帧间预测器344可以在预测运动矢量候选之中选择由预测运动矢量标识信息指示的候选作为预测运动矢量。然而,当视频编码装置使用针对多个预测运动矢量候选预定义的函数来确定预测运动矢量时,帧间预测器可以使用与视频编码装置所使用的函数相同的函数来确定预测运动矢量。一旦确定了当前块的预测运动矢量,帧间预测器344将预测运动矢量与从解码器310发送的运动矢量差相加,来确定当前块的运动矢量。使用从解码器310传送的关于参考图片的信息来确定当前块的运动矢量所参考的参考图片。
当在合并模式或运动矢量差编码模式中确定当前块的运动矢量和参考图片时,帧间预测器342使用参考图片中在由运动矢量所指示的位置处的块来生成当前块的预测块。
本公开的示例通常涉及双向光流(BIO)技术。本公开的预定技术可以由帧间预测器344实施。例如,帧间预测器344可以实施以下参照图4至图13描述的本公开的技术。换句话说,帧间预测器124可以以图像像素或子块为基础,根据BIO技术使用运动补偿来生成当前块的预测块。在其它示例中,解码装置的一个或更多个其它组件可以附加地参与实施本公开的技术。
加法器350将从逆变换器输出的残差块与从帧间预测器或帧内预测器输出的预测块相加以重构当前块。重构的当前块中的像素被用作用于对稍后要被解码的块进行帧内预测的参考样本。
滤波器单元360对重构块之间的边界进行解块滤波,以消除由逐块解码引起的块伪像,并且将经解块滤波的块存储在存储器370中。当重构了一个图片中的所有块时,重构的图片用作用于对要解码的后续图片中的块进行帧间预测的参考图片。
本公开涉及使用双向光流(BIO)估计技术来细化通过帧间预测获得的运动矢量信息。编码装置在帧间预测操作中以编码单位(CU)执行运动估计和补偿,然后将得到的运动矢量(MV)值发送给解码装置。编码装置和解码装置可以使用BIO进一步以小于CU的像素为单位或子块为单位(即,子CU)细化MV值。即,BIO可以基于每个块的尺寸从n×n块中以1×1块(即,像素)为单位精确地补偿编码块CU的运动。另外,由于存在用于计算运动矢量的显式方程,所以不需要用于获取运动信息的搜索操作和用于发送运动信息的信令。
图4是用于说明BIO的基本概念的参照图。
用于视频编码和解码的BIO基于以下假设:运动矢量信息应该是双向(或双预测)信息,并且该运动是在时间轴上顺序移动的稳定运动。图4示出了参考两个参考图片Ref0和Ref1的当前图片(B图片)。
首先,假设针对当前图片中要编码的当前块已经通过(正常)双向运动预测确定了双向运动矢量MV0和MV1,其中MV0和MV1指示参考图片Ref0和Ref1中与当前块最相似的对应区域(即,参考块)。两个双向运动矢量具有表示当前块的运动的值。即,通过将当前块设置为一个单元并作为整体来估计和补偿该单元的运动来获得所述值。
在图4的示例中,P0是由运动矢量MV0指示的参考图片Ref0中的像素,以对应于当前块中的像素P,并且P1是由运动矢量MV1指示的参考图片Ref1中的像素,以对应于当前块中的像素P。此外,假设图4中的像素P的运动与当前块的整体运动略有不同。例如,当位于图4的Ref0中的像素A处的物体经由当前图片的当前块中的像素P移动到Ref1中的像素B,像素A和像素B可以具有彼此非常相似的值。另外,在这种情况下,Ref0中与当前块中的像素P最相似的点不是由运动矢量MV0指示的P0,而是已经将P0移动了预定位移矢量(vxτ0,vyτ0)的像素A。Ref1中与当前块中的像素P最相似的点不是由运动矢量MV1指示的P1,而是已经将P1移动了预定位移矢量(-vxτ1,-vyτ1)的像素B。在下文中,为简单起见,将(vx,vy)称为“BIO运动矢量”。
因此,在预测当前图片中当前块的像素P的值时,与使用由双向运动矢量MV0和MV1所指示的参考像素P0和P1相比,使用两个参考像素A和B的值能够进行更准确的预测。如上所述,考虑到由BIO运动矢量(vx,vy)指定的当前块内的像素级运动改变用于预测当前块的一个像素的参考像素的概念可以扩展到当前块内的子块。
在下文中,将描述用于根据BIO技术为当前块中的像素生成预测值的理论方法。为了简单起见,假设基于BIO的双向运动补偿是在像素的基础上执行的。
假设通过(正常)双向运动预测针对当前图像中要编码的当前块的双向运动矢量MV0和MV1,其中MV0和MV1指示参考图片Ref0和Ref1中与当前图片中编码的当前块最相似的相应区域(即,参考块)。解码装置可以根据比特流中包括的运动矢量信息生成双向运动矢量MV0和MV1。另外,将与当前块内的像素(i,j)相对应的、由运动矢量MV0表示的参考图片Ref0内的像素的亮度值定义为I(0)(i,j),并且将与当前块内的像素(i,j)相对应的、由运动矢量MV1表示的参考图片Ref1内的像素的亮度值被定义为I(1)(i,j)。
可以将与当前块中的像素相对应的、由BIO运动矢量(vx,vy)表示的参考图片Ref0中的像素A的亮度值定义为并且可以将参考图片Ref1中的像素B的亮度值定义为/>因此,像素A和像素B之间的流差Δ通常被定义为下式1。
[式1]
这里,I(k)(k=0,1)表示与当前块内要预测的像素相对应的、由运动矢量MV0和MV1表示的参考图片Ref0和Ref1内的像素的亮度。(vx,vy)是要计算的BIO运动矢量。为了简单起见,从上式1的各个项中省略了参考图片Ref0和Ref1内的像素的位置(i,j)。和/>分别表示I(k)梯度的水平和垂直分量。τ0和τ1表示当前图片与两个参考图片Ref0和Ref1之间的时间距离。可以基于图片顺序计数(POC)来计算τ0和τ1。例如,τ0=POC(当前)-POC(Ref0),并且τ1=POC(Ref1)-POC(当前)。这里,POC(当前)、POC(Ref0)和POC(Ref1)分别表示当前图片、参考图片Ref0和参考图片Ref1的POC。
基于运动与周围像素局部一致的假设,要预测的当前像素(i,j)的BIO运动矢量考虑了式1中存在于要预测的当前像素(i,j)周围的一定区域Ω中的全部像素(i',j')的差值Δ。即,当前像素(i,j)的BIO运动矢量可以确定为产生针对一定区域Ω中的各个像素获得的差值Δ[i',j']的最小平方和的矢量,如式2所示。
[式2]
在此,(i',j')表示位于搜索区域Ω中的全部像素。由于当前像素的BIO运动矢量(vx,vy)可以通过计算如式2这样的显式方程来确定,该显式方程使当前像素位置的目标函数(Δ2之和)最小,因此无需搜索用于获取详细运动信息的搜索操作和用于发送运动信息的信令。
通常,搜索区域Ω可以定义为以当前像素(i,j)为中心的尺寸为(2M+1)×(2N+1)的掩蔽窗口。掩蔽窗口的结构和尺寸极大地影响用于确定BIO运动矢量(vx,vy)的算法的复杂度和精度。因此,选择掩蔽窗口对于用于确定BIO运动矢量(vx,vy)的算法非常重要。
当确定了当前像素的BIO运动矢量(vx,vy)时,可以按照下式3计算当前像素(i,j)的基于BIO运动矢量的双向预测值predBIO
[式3]
在式3中,(I(0)+I(1))/2是典型的双向预测补偿,因此剩余项可以称为BIO偏移。
在下文中,将参照图5a和图5b描述基于BIO的双向运动补偿方法。以下描述的方法共用于视频编码装置和视频解码装置。尽管图5中未示出,但是假设编码装置已经对要用作参考图片的图片进行编码和解码,并且将该图片存储在存储器中。还假设解码装置已经对要用作参考图片的图片进行了解码并将图片存储在存储器中。
图5a是例示了根据本公开实施方式的用于基于像素级BIO所执行的双向运动补偿的方法的流程图。
首先,编码装置和解码装置确定指示第一参考图片中与当前块最相似的第一对应区域的第一运动矢量,并确定指示第二参考图片中与当前块最相似的第二对应区域的第二运动矢量(S510)。
编码装置和解码装置通过以像素为基础应用BIO处理来确定与当前块中的每个对象像素相对应的各个BIO运动矢量(vx,vy)(S520)。
可以将BIO运动矢量(vx,vy)确定为是使得位于搜索区域中的各个像素(i’,j’)的流差的平方和(即,式2)最小的矢量,该搜索区域是由以相应对象像素(i,j)为中心的预定义的掩蔽窗口限定的。
在一些示例中,在确定位于当前块的边缘处的像素的BIO运动矢量时,可以不考虑位于当前块外部的区域中的像素的流差。
在一些示例中,可以使用具有(2M+1)×(2N+1)尺寸的矩形掩蔽窗口。优选地,例如,可以使用具有5×5尺寸的正方形掩蔽窗口。在一些其它示例中,可以使用具有诸如加号形状或菱形形状的非正方形形状的掩蔽窗口。
编码装置和解码装置基于以像素为基础计算出的BIO运动矢量(vx,vy),使用双向预测来生成当前块的预测块(S530)。即,编码装置和解码装置使用各个BIO运动矢量基于式3来生成对象像素的双向预测值。
最后,编码装置和解码装置使用所生成的预测块对当前块进行编码或解码(S540)。
图5b是例示了根据本公开实施方式的用于基于子块级BIO所执行的双向运动补偿的方法的流程图。
首先,编码装置和解码装置确定指示第一参考图片中与当前块最相似的第一对应区域的第一运动矢量,并确定指示第二参考图片中与当前块最相似的第二对应区域的第二运动矢量(S560)。
编码装置和解码装置通过以子块为基础应用BIO处理来确定与当前块内的每个子块相对应的各个BIO运动矢量(vx,vy)(S570)。
可以将BIO运动矢量(vx,vy)确定为是使得位于各个搜索区域中的像素(i’,j’)的流差的平方和(即,式2)最小的矢量,该搜索区域是由子块内以每个像素(i,j)为中心的预定义掩蔽窗口限定的。另选地,可以将BIO运动矢量(vx,vy)确定为是使得位于各个搜索区域中的像素(i’,j’)的流差的平方和最小的矢量,各个搜索区域是由子块内以一些像素(i,j)为中心的预定掩蔽窗口所限定的。例如,应用了掩蔽窗口的像素的位置和未应用掩蔽窗口的像素的位置可以形成格子图案、水平条纹图案或垂直条纹图案。
在一些实施方式中,代替重复计算流差,可以根据差值的重复次数,对重复的差值进行加权。在一些示例中,在确定位于当前块的边缘处的子块的BIO运动矢量时,可以不考虑位于当前块外部的区域中的像素的流差。
在一些实施方式中,可以使用具有(2M+1)×(2N+1)尺寸的矩形掩蔽窗口。在一些实施方式中,掩蔽窗口可以具有正方形形状(例如,5×5尺寸)。在一些其它实施方式中,可以使用具有诸如加号形状或菱形形状的非正方形形状的掩蔽窗口。在一些实施方式中,可以不使用掩蔽窗口。例如,可以将BIO运动矢量(vx,vy)确定为是使得子块中的各个像素的流差的平方和最小的矢量。
编码装置和解码装置基于以子块为基础计算出的BIO运动矢量(vx,vy),使用双向预测生成当前块的预测块(S580)。子块中的所有像素共享以子块为基础计算出的BIO运动矢量(vx,vy)。即,使用针对对象子块所确定的一个BIO运动矢量(vx,vy),通过式3来计算对象子块中全部像素的基于BIO的预测值。
最后,编码装置和解码装置使用所生成的预测块对当前块进行编码或解码(S590)。
在本公开的一些实施方式中,以像素级为基础应用BIO。在一些其它实施方式中,以块级为基础应用BIO。在下文中,将首先描述像素级BIO处理的实施方式,然后将描述块级BIO处理的实施方式。
在下面描述的第一实施方式和第二实施方式中,以像素级为基础来应用BIO。BIO处理中使用的掩蔽窗口的尺寸可以具有(2M+1)×(2N+1)尺寸,并且以当前像素(i,j)为中心。为了简单起见,在下面的描述中,假设掩蔽窗口的宽度和高度彼此相等(即,M=N)。在生成当前块的预测块时,像素级BIO获得像素级的BIO运动矢量,并基于所获得的BIO运动矢量生成像素级的双向预测值。
第一实施方式
在该实施方式中,使用矩形掩蔽窗口来计算像素级的BIO运动矢量。在该实施方式中,将参照图6描述确定要预测的像素的BIO运动矢量所需的差值Δ的总数。
图6例示了在当前块中5×5掩蔽窗口610和要预测的像素621。当前块中要预测的一个像素621是图6中的阴影线所指示的掩蔽窗口610的中心,并且位于包括要预测的像素621的掩蔽窗口610内的像素数量总共为25。因此,确定当前块中要预测的像素621的BIO运动矢量(vx,vy)所需的差值Δ的数量为25。最后,通过将25个差值Δ代入式2来估计要预测的像素的BIO运动矢量(vx,vy)。一旦基于光流确定了BIO运动矢量((vx,vy),按照公式3计算当前块的对象像素的双向预测值。该处理重复应用于当前块中的每个像素,以产生构成当前块的预测块的所有像素的预测值。
然而,在确定位于当前块的边缘处的像素的BIO运动矢量时,即使位于当前块外部的区域中的像素包括在掩蔽窗口中,也可以不考虑该像素的流差。
第二实施方式
图7是例示了根据第二实施方式的基于BIO的运动补偿所使用的非矩形掩蔽窗口的图。
与使用正方形掩蔽窗口的第一实施方式不同,本实施方式采用各种形状的掩蔽窗口。在图7中,呈现了两种类型的掩蔽窗口(即,具有加号形状和菱形形状的掩蔽窗口),但是本公开不排除使用除矩形掩蔽窗口以外的任何形状的掩蔽窗口。使用这样的掩蔽窗口减少了处理在第一实施方式中所使用的正方形掩蔽窗口中的所有像素所花费的复杂度。如图7所示,可以依据参数M的值来缩放加号形状和菱形形状的掩蔽窗口的尺寸。
在该实施方式中,将参照图8描述确定子块的BIO运动矢量所需的差值Δ的总数。
图8例示了M=2的菱形形状的掩蔽窗口810和当前块中要预测的像素821。当前块中要预测的一个像素821是图8中由阴影线所指示的掩蔽窗口810的中心,并且包括要预测的像素821的掩蔽窗口810内的像素的数量为13。因此,确定当前块中要预测的像素821的BIO运动矢量(vx,vy)所需的差值Δ的数量为13。最后,通过将13个差值Δ代入式2来估计要预测的像素821的BIO运动矢量(vx,vy)。在该实施方式中,针对当前块中的每个像素执行这些处理,以计算与每个像素相对应的BIO运动矢量。
然而,在确定位于当前块的边缘处的像素的BIO运动矢量时,即使位于当前块外部的区域中的像素包括在掩蔽窗口中,也可以不考虑该像素的流差。
在下面描述的第三实施方式到第八实施方式中,在块级应用基于BIO的运动补偿。在子块级BIO运动补偿过程中,子块尺寸可以为M×N(其中,M和N为整数)。M×N子块中的全部像素共享以子块级为基础计算出的BIO运动矢量(vx,vy)。即,使用计算出的BIO运动矢量(vx,vy)按照式3来计算M×N子块中全部像素的基于光流的双向预测。尽管本公开的方法不限制子块的尺寸,但是应当注意,为了简单起见,在以下实施方式中基于4×4子块描述BIO处理。
第三实施方式
在该实施方式中,为了确定子块的一个BIO运动矢量,将以子块中的每个像素为中心的矩形掩蔽窗口应用于每个像素,并且针对位于掩蔽窗口中的像素中的每个估计式1的差值Δ。最后,将这些差值代入式2,以估计与子块相对应的BIO运动矢量。
图9例示了根据本实施方式中提出的方案的示例的5×5掩蔽窗口910和4×4子块920的示例。图9中所示的掩蔽窗口910具有M=2的正方形形状。子块920中的当前像素(i,j)921是对应于图9的阴影部分的掩蔽窗口910的中心。对于子块的一个像素(i,j),在掩蔽窗口910中的像素的总数为25(=(2M+1)×(2M+1)=5×5)。因此,基于子块的尺寸和掩蔽窗口的尺寸,确定4×4子块的BIO运动矢量所需的差值的总数为400(=16×25)。将子块的BIO运动矢量确定为是使得这些差值的平方和最小的矢量。
应当注意,在上述400个差值中,除了64个不同的差值之外的其余差值是这64个差值的重复形式。例如,如图10a所示,以位于子块1020的位置(0、0)处的像素为中心的掩蔽窗口1010a中所位于的大多数像素也位于以子块1020的位置(1,0)处的像素为中心的掩蔽窗口1010b内。因此,代替重复计算交叠的差值,可以通过根据交叠的数量为交叠的差值分配权重来简化式2的计算。例如,当将5×5掩蔽窗口应用于4×4子块时,计算出总共64个不同的差值,然后可以为每个差值分配相应权重。然后,可以确定BIO运动矢量(vx,vy)以使加权差值的平方和最小。在图10b中,标记在像素上的数字是根据交叠数量的权重值。此处,突出显示的4×4块表示子块的位置。
第四实施方式
与使用矩形的掩蔽窗口第三实施方式不同,该实施方式采用各种图案的掩蔽窗口(如图7所示)。使用这样的掩蔽窗口降低了处理矩形掩蔽窗口中的全部像素所花费的复杂度。
图11例示了菱形形状的掩蔽窗口1110和4×4子块1120。如图11所示,当使用M=2的菱形形状的掩蔽窗口1110时,掩蔽窗口1110中的像素总数为13。因此,确定子块的BIO运动矢量(vx,vy)所需的差值Δ的总数为208(=16×13)。最后,通过将208个差值代入式2来估计与4×4块相对应的BIO运动矢量。如在第三实施方式中一样,可以为差值分配与交叠的数量相对应的权重,并且可以将加权的差值代入式2以估计4×4子块的BIO运动矢量。
第五实施方式
在第三实施方式和第四实施方式中,掩蔽窗口应用于子块中的全部像素。相反,在该实施方式中,掩蔽窗口应用于子块中的一些像素。
图12是例示了在子块中应用了掩蔽窗口的像素的三种类型的位置的图。在一种类型中,应用了掩蔽窗口的像素的位置和未应用掩蔽窗口的像素的位置形成格子图案(参见图12中的(a))。在其它两种类型中,像素分别形成水平条纹图案和垂直条纹图案(参见图12中的(b)和(c))。除了图12中所示出的类型之外,本公开不排除使用仅对子块中的一些像素进行采样和处理的任何类型。因此,在上述实施方式中,可以减少对于子块中的所有像素计算数量与掩蔽窗口相对应的差值所需的计算复杂度。
在本实施方式中,将参照图13描述确定子块的BIO运动矢量所需的差值Δ的总数。图13例示了5×5正方形掩蔽窗口1310和在格子图案中采样的4×4子块1320的像素。5×5正方形掩蔽窗口1310中的像素的总数为25。应该通过将掩蔽窗口应用于子块中由阴影指示的八个像素中的每一个来估计式1的25个差值Δ。因此,确定4×4子块的BIO运动矢量(vx,vy)所需的差值Δ的总数为200(=8×25)。最后,将200个差值代入式2,以估计对应于4×4块的BIO运动矢量。如在第三实施方式中一样,可以为差值分配与交叠的数量相对应的权重,并且可以将加权的差值代入式2以估计4×4子块的BIO运动矢量。
第六实施方式
该实施方式是在第四实施方式和第五实施方式中呈现的方案的组合。也就是说,本实施方式采用除了矩形形状之外的各种其它图案的掩蔽窗口(类似于第四实施方式)并且仅将掩蔽窗口应用于子块中的一些采样像素(类似于第五实施方式)。因此,与第四实施方式和第五实施方式相比,该实施方式的技术的计算复杂度低。
图14例示了根据本实施方式中提出的方案的示例的菱形形状的掩蔽窗口1410和在4×4子块1420中应用了BIO处理的采样像素。在图14的情况下,确定子块的BIO运动矢量(vx,vy)所需的差值Δ的总数为104(=8×13)。最后,将104个差值代入式2以估计对应于4×4子块的BIO运动矢量(vx,vy)。如同第三实施方式中一样,可以向差值分配与交叠的数量相对应的权重,并且可以将加权的差值代入式2以估计4×4子块的BIO运动矢量。
第七实施方式
在先前的实施方式中,针对子块的(全部或一些)像素中的每个计算数量对应于掩蔽窗口的尺寸的差值Δ。例如,在第三实施方式中,使用5×5掩蔽窗口确定4×4子块的BIO运动矢量所需的差值的总数为400(=16×25)。相反,该实施方式不采用掩蔽窗口。该实施方式可以被视为使用1×1掩蔽窗口。即,对于子块中的每个像素,仅计算式1的一个差值Δ。例如,估计4×4子块的BIO运动矢量所考虑的差值Δ的总数为16。最后,仅16个差值Δ被代入式2以估计4×4子块的BIO运动矢量。即,计算BIO运动矢量以使16个差值的平方和最小化。
另选地,可以通过为16个差值分配不同的权重并且将加权的差值代入式2来估计与4×4子块相对应的BIO运动矢量。这里,可以为子块内部的区域分配更高的权重,并且可以为子块边缘区域分配更低的权重。图15示出了为子块的每个像素分配权重的示例。
第八实施方式
在本实施方式中,在确定位于当前块的边缘处的子块的BIO运动矢量时,强加了在当前块外部的区域中不计算差值Δ的约束。例如,假设当前块的尺寸是16×16,并且针对每个4×4子块计算BIO运动矢量,如图16a所示。在确定16个4×4子块中位于当前块的边缘的12个4×4子块的BIO运动矢量时,不考虑位于当前块外部的区域中的掩蔽像素的差值Δ。这里,位于当前块外部的区域中的掩蔽像素可以根据子块的尺寸以及掩蔽窗口的尺寸和位置而变化。因此,在本实施方式中,确定子块的BIO运动矢量所要计算的差值Δ的数量可以取决于相应子块当前块中的位置。
当该方案与第三实施方式的用于将权重分配给交叠的差值的方案相结合时,如图16b所示,给出了每个掩蔽像素的权重。即,在图16b中标记有0的像素是位于当前块外部的像素,并且不计算其差值。根据该方案,要计算的差值的数量比第三实施方式中的少。因此,减少了计算量,并且由于不参考位于当前块外部的像素的值,因此可以节省存储器。
该方案不限于使用正方形掩蔽窗口的情况,甚至可以应用于使用包括菱形形状和加号形状的各种形状的掩蔽窗口的情况。
尽管出于示例性目的已经描述了示例性实施方式,但是本领域技术人员将理解,在不脱离实施方式的构思和范围的情况下,可以有各种修改和变型。为了简洁和清楚起见,已经描述了示例性实施方式。因此,本领域普通技术人员将理解,实施方式的范围不限于以上明式地描述的实施方式,而是包括权利要求及其等同物。
相关申请的交叉引用
本申请要求于2017年4月24日在韩国提交的专利申请No.10-2017-0052290和于2017年6月19日在韩国提交的专利申请No.10-2017-0077246的优先权,全部内容通过引用合并于此。

Claims (6)

1.一种用于解码视频数据的方法,该方法包括以下步骤:
确定指示第一参考图片中与当前块相对应的的第一区域的第一运动矢量,以及指示第二参考图片中与所述当前块相对应的的第二区域的第二运动矢量;
通过以逐个子块为基础应用双向光流BIO处理来生成当前块的预测块;以及
使用所生成的预测块重构所述当前块,
其中,生成所述预测块的步骤包括以下步骤:
确定构成所述当前块的每个子块的BIO运动矢量;以及
基于所确定的BIO运动矢量来生成针对构成对应子块的像素中的每一个的预测值,
其中,所述BIO运动矢量基于针对围绕所述对应子块的方块内的像素所获得的流差来确定,并且
其中,针对所述方块内的给定像素的所述流差是基于所述第一参考图片上的与所述方块内的所述给定像素相对应的第一点与所述第二参考图片上的与所述方块内的所述给定像素相对应的第二点来计算的。
2.根据权利要求1所述的方法,其中,所述BIO运动矢量被确定为是使得针对围绕所述对应子块的所述方块内的各个像素所获得的流差的平方和或加权平方和最小的矢量。
3.根据权利要求2所述的方法,其中,针对位于围绕所述对应子块的所述方块的内部区域的像素所获得的流差,分配的权重更高;并且针对位于围绕所述对应子块的所述方块的边缘区域的像素所获得的流差,分配的权重更低。
4.一种用于编码视频数据的方法,该方法包括以下步骤:
确定指示第一参考图片中与当前块相对应的第一区域的第一运动矢量,以及指示第二参考图片中与所述当前块相对应的的第二区域的第二运动矢量;
通过以逐个子块为基础应用双向光流BIO处理来生成所述当前块的预测块;
使用所述预测块来确定所述当前块的残差块;以及
将所述第一运动矢量、所述第二运动矢量和所述当前块的所述残差块编码成比特流,
其中,生成所述预测块的步骤包括以下步骤:
确定构成所述当前块的每个子块的BIO运动矢量;以及
基于所确定的BIO运动矢量来生成针对构成对应子块的像素中的每一个的预测值,
其中,所述BIO运动矢量基于针对围绕所述对应子块的方块内的像素所获得的流差来确定,并且
其中,针对所述方块内的给定像素的所述流差是基于所述第一参考图片上的与所述方块内的所述给定像素相对应的第一点与所述第二参考图片上的与所述方块内的所述给定像素相对应的第二点来计算的。
5.根据权利要求4所述的方法,其中,所述BIO运动矢量被确定为是使得针对围绕所述对应子块的所述方块内的各个像素所获得的流差的平方和或加权平方和最小的矢量。
6.根据权利要求5所述的方法,其中,针对位于围绕所述对应子块的所述方块的内部区域的像素所获得的流差,分配的权重更高;并且针对位于围绕所述对应子块的所述方块的边缘区域的像素所获得的流差,分配的权重更低。
CN201880034013.7A 2017-04-24 2018-03-15 用于估计运动补偿的光流的方法及装置 Active CN110710213B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202310843252.XA CN116708830A (zh) 2017-04-24 2018-03-15 编解码视频数据的装置、存储编码视频数据比特流的方法
CN202310841628.3A CN116708829A (zh) 2017-04-24 2018-03-15 编解码视频数据的装置、发送编码视频数据比特流的方法
CN202310843458.2A CN116708831A (zh) 2017-04-24 2018-03-15 编解码视频数据的方法、发送编码视频数据比特流的方法
CN202310841020.0A CN116708828A (zh) 2017-04-24 2018-03-15 编解码视频数据的方法、发送编码视频数据比特流的方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2017-0052290 2017-04-24
KR20170052290 2017-04-24
KR10-2017-0077246 2017-06-19
KR1020170077246A KR102409430B1 (ko) 2017-04-24 2017-06-19 움직임 보상을 위한 옵티컬 플로우 추정 방법 및 장치
PCT/KR2018/003044 WO2018199468A1 (ko) 2017-04-24 2018-03-15 움직임 보상을 위한 옵티컬 플로우 추정 방법 및 장치

Related Child Applications (4)

Application Number Title Priority Date Filing Date
CN202310841020.0A Division CN116708828A (zh) 2017-04-24 2018-03-15 编解码视频数据的方法、发送编码视频数据比特流的方法
CN202310843252.XA Division CN116708830A (zh) 2017-04-24 2018-03-15 编解码视频数据的装置、存储编码视频数据比特流的方法
CN202310841628.3A Division CN116708829A (zh) 2017-04-24 2018-03-15 编解码视频数据的装置、发送编码视频数据比特流的方法
CN202310843458.2A Division CN116708831A (zh) 2017-04-24 2018-03-15 编解码视频数据的方法、发送编码视频数据比特流的方法

Publications (2)

Publication Number Publication Date
CN110710213A CN110710213A (zh) 2020-01-17
CN110710213B true CN110710213B (zh) 2023-07-28

Family

ID=64398408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880034013.7A Active CN110710213B (zh) 2017-04-24 2018-03-15 用于估计运动补偿的光流的方法及装置

Country Status (2)

Country Link
KR (3) KR102409430B1 (zh)
CN (1) CN110710213B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111083489B (zh) 2018-10-22 2024-05-14 北京字节跳动网络技术有限公司 多次迭代运动矢量细化
EP3857879A4 (en) 2018-11-12 2022-03-16 Beijing Bytedance Network Technology Co., Ltd. SIMPLIFICATION OF COMBINED INTER-INTRA PREDICTION
WO2020103870A1 (en) * 2018-11-20 2020-05-28 Beijing Bytedance Network Technology Co., Ltd. Inter prediction with refinement in video processing
JP7241870B2 (ja) 2018-11-20 2023-03-17 北京字節跳動網絡技術有限公司 部分的な位置に基づく差分計算
CN113228681A (zh) * 2018-12-21 2021-08-06 韩国电子通信研究院 图像编码/解码方法和装置以及存储比特流的记录介质
KR20220025301A (ko) 2019-01-06 2022-03-03 베이징 다지아 인터넷 인포메이션 테크놀로지 컴퍼니 리미티드 양방향 광학 흐름을 위한 비트 폭 제어
WO2020177756A1 (en) 2019-03-06 2020-09-10 Beijing Bytedance Network Technology Co., Ltd. Size dependent inter coding
WO2020220048A1 (en) * 2019-04-25 2020-10-29 Beijing Dajia Internet Information Technology Co., Ltd. Methods and apparatuses for prediction refinement with optical flow
CN114080813A (zh) * 2019-06-14 2022-02-22 Lg 电子株式会社 使用运动矢量的图像编译的方法和装置
MX2021015530A (es) 2019-06-14 2022-02-10 Lg Electronics Inc Metodo y dispositivo de codificacion de imagenes a base de inter prediccion.
CN113747175A (zh) * 2019-06-21 2021-12-03 杭州海康威视数字技术股份有限公司 一种编解码方法、装置及其设备
CN114503560A (zh) * 2019-10-06 2022-05-13 现代自动车株式会社 用于凭借帧间预测来编码和解码视频的方法和装置
CN114979631A (zh) * 2019-10-09 2022-08-30 北京达佳互联信息技术有限公司 用于利用光流的预测细化、双向光流和解码器侧运动矢量细化的方法和装置
WO2021148038A1 (en) * 2020-01-26 2021-07-29 Beijing Bytedance Network Technology Co., Ltd. Motion compensation along different directions
CN113160277A (zh) * 2021-01-29 2021-07-23 北京小米松果电子有限公司 一种图像处理方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017036399A1 (en) * 2015-09-02 2017-03-09 Mediatek Inc. Method and apparatus of motion compensation for video coding based on bi prediction optical flow techniques

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8406506B2 (en) * 2010-05-18 2013-03-26 Honda Motor Co., Ltd. Fast sub-pixel optical flow estimation
KR101444675B1 (ko) * 2011-07-01 2014-10-01 에스케이 텔레콤주식회사 영상 부호화 및 복호화 방법과 장치
EP3128485A1 (en) * 2015-08-05 2017-02-08 Thomson Licensing Method and apparatus for hierarchical motion estimation using dfd-based image segmentation
US10375413B2 (en) * 2015-09-28 2019-08-06 Qualcomm Incorporated Bi-directional optical flow for video coding
CN105847804B (zh) * 2016-05-18 2017-12-15 信阳师范学院 一种基于稀疏冗余表示模型的视频帧率上转换方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017036399A1 (en) * 2015-09-02 2017-03-09 Mediatek Inc. Method and apparatus of motion compensation for video coding based on bi prediction optical flow techniques

Also Published As

Publication number Publication date
KR102421410B1 (ko) 2022-07-15
KR20210134266A (ko) 2021-11-09
KR20180119084A (ko) 2018-11-01
KR20210134265A (ko) 2021-11-09
CN110710213A (zh) 2020-01-17
KR102409430B1 (ko) 2022-06-15
KR102409449B1 (ko) 2022-06-15

Similar Documents

Publication Publication Date Title
CN110710213B (zh) 用于估计运动补偿的光流的方法及装置
US11997292B2 (en) Method and apparatus for estimating optical flow for motion compensation
JP7277447B2 (ja) 動き補償用の改善されたプレディクタ候補
KR20230135037A (ko) 양방향 옵티컬 플로우를 이용한 움직임 보상 방법 및 장치
CN111034200B (zh) 使用双向光流的运动补偿方法和设备
JP7460661B2 (ja) 映像符号化のための動き候補リストの構成
KR20210006306A (ko) 인터 예측을 이용하여 비디오를 부호화 및 복호화하는 방법 및 장치
CN110832854A (zh) 利用插值进行帧内预测的方法和装置
KR20210040787A (ko) 인터 예측을 이용하여 비디오를 부호화 및 복호화하는 방법 및 장치
US12003736B2 (en) Method and apparatus for estimating optical flow for motion compensation
RU2778099C1 (ru) Способ и устройство для кодирования и декодирования видео с использованием интерпредсказания
RU2778099C9 (ru) Способ и устройство для кодирования и декодирования видео с использованием интер-предсказания
RU2801342C2 (ru) Способ и устройство для кодирования и декодирования видео с использованием интер-предсказания
RU2802844C2 (ru) Способ и устройство для кодирования и декодирования видео с использованием интер-предсказания
RU2806280C2 (ru) Способ и устройство для кодирования и декодирования видео с использованием интер-предсказания
RU2806279C2 (ru) Способ и устройство для кодирования и декодирования видео с использованием интер-предсказания
WO2024008123A1 (en) Decoder-side motion vector refinement for affine motion compensation
US20230308662A1 (en) Method and apparatus for video coding using block merging
US20240022757A1 (en) Decoder-side motion vector refinement for affine motion compensation
KR20230131768A (ko) 비디오 프레임 경계에서 예측블록 생성

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant