CN113940078A - 视频编解码中的双向光流计算的简化 - Google Patents

视频编解码中的双向光流计算的简化 Download PDF

Info

Publication number
CN113940078A
CN113940078A CN202080036042.4A CN202080036042A CN113940078A CN 113940078 A CN113940078 A CN 113940078A CN 202080036042 A CN202080036042 A CN 202080036042A CN 113940078 A CN113940078 A CN 113940078A
Authority
CN
China
Prior art keywords
block
sub
video data
prediction
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080036042.4A
Other languages
English (en)
Other versions
CN113940078B (zh
Inventor
H.黄
W-J.钱
M.卡尔切维茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN113940078A publication Critical patent/CN113940078A/zh
Application granted granted Critical
Publication of CN113940078B publication Critical patent/CN113940078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/1883Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/563Motion estimation with padding, i.e. with filling of non-object values in an arbitrarily shaped picture block or region for estimation purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

视频编解码器被配置为使用具有双向光流的双预测对视频数据的块进行编解码。视频编解码器可以使用双向光流来确定偏移,并且可以将该偏移添加到从双预测确定的预测样本上。在一个示例中,视频编解码器使用双预测和双向光流对视频数据的当前块进行编解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。另外,视频编解码器可以针对双向光流执行运动矢量细化计算,其中运动矢量细化计算被补偿以考虑不包括除以2的偏移计算。

Description

视频编解码中的双向光流计算的简化
本申请要求于2020年4月24日提交的序列号为16/858,046的美国专利申请的优先权,该美国专利申请要求于2019年5月22日提交的序列号为62/851,327的美国临时申请的权益,上述每一申请的全部内容通过引用并入本文。
技术领域
本公开涉及视频编码和视频解码。
背景技术
数字视频能力能够并入到广泛的设备中,包括数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、平板电脑、电子书阅读器、数码相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议设备、视频流式传输设备等。数字视频设备实施视频编解码技术,诸如那些在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分、高级视频编解码(AVC)、ITU-T H.265/高效视频编解码(HEVC)所定义的标准以及此类标准的扩展中所描述的技术。通过实施此类视频编解码技术,视频设备可以更高效地发送、接收、编码、解码和/或存储数字视频信息。
视频编解码技术包括空间(画面内)预测和/或时间(画面间)预测来减少或消除视频序列中固有的冗余。对于基于块的视频编解码,可以将视频切片(slice)(例如,视频画面或视频画面的一部分)分割为视频块,其也可以被称为编解码树单元(CTU)、编解码单元(CU)和/或编解码节点。使用相对于同一图片中的邻近块中的参考样本的空间预测来对图片的帧内编解码的(I)切片中的视频块进行编码。图片的帧间编解码的(P或B)切片中的视频块可使用相对于同一图片中的邻近块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。画面可以被称为帧,并且参考画面可以被称为参考帧。
发明内容
通常,本公开描述了用于使用帧间预测技术对视频数据进行编码和解码的技术。具体地,本公开描述了用于使用双预测(例如,双向帧间预测)和双向光流(BDOF)技术对视频数据的块和子块进行编解码(例如,编码和解码)的技术。BDOF可以用于细化在双预测中使用的双预测信号(例如,预测样本)。BDOF模式基于光流概念,其基于对象(例如,视频数据中的特征)的运动是平滑的假设。本公开描述了可以用于简化视频编码器和视频解码器中BDOF的实施的几种技术。本公开的技术还可以提高可以执行BDOF相关计算的速度。
BDOF技术可以包括确定块的每个子块的运动细化值,以及基于所确定的运动细化值确定该子块的每个样本的偏移。根据本公开的技术,视频编解码器可以确定子块的每个样本的偏移,而不执行舍入操作或除以2中的一个或多个操作。也就是说,相对于用于确定偏移的一些示例技术,本公开的偏移计算技术不使用舍入操作和/或除以2。移除舍入和/或除以2操作提高了可以计算偏移的速度。
另外,为了补偿偏移计算中的除以2的移除,视频编解码器可以被配置为通过相对于用于确定运动细化值的其他示例技术添加除以2来确定运动细化值。然而,由于运动细化值是在子块级而不是样本级上确定的,因此减少了用于BDOF的除以2操作的总数,从而简化了视频编解码器实施并且提高了可以执行BDOF的速度。
在一个示例中,一种方法包括接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行编解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
在另一个示例中,一种设备包括存储器和一个或多个处理器,该处理器被配置为接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行编解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
在另一个示例中,一种设备包括用于接收视频数据的当前块的部件,以及用于使用双预测和双向光流对视频数据的当前块进行编解码的部件,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
在另一个示例中,一种计算机可读存储介质被编码有指令,当指令被执行时,使可编程处理器:接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行编解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
在附图和以下描述中阐述一个或多个示例的细节。根据说明书、附图和权利要求,其他特征、目的和优势将显而易见。
附图说明
图1是示出可以执行本公开的技术的示例视频编码和解码系统的框图。
图2是示出可以执行本公开的技术的示例视频编码器的框图。
图3是示出可以执行本公开的技术的示例视频解码器的框图。
图4是示出在双向光流(BDOF)中使用的扩展的CU区域的概念图。
图5是示出根据本公开的技术的示例编码方法的流程图。
图6是示出根据本公开的技术的示例解码方法的流程图。
图7是示出根据本公开的技术的示例BDOF编解码方法的流程图。
图8是根据本公开的技术的更详细地示出图7的示例BDOF编解码方法的流程图。
具体实施方式
通常,本公开描述了用于使用帧间预测技术对视频数据进行编码和解码的技术。具体地,本公开描述了使用双预测(例如,双向帧间预测)和双向光流(bi-directionaloptical flow,BDOF)技术对视频数据的块和子块进行编解码(例如,编码和解码)的技术。BDOF可以用于细化在双预测中使用的双预测信号(例如,预测样本)。BDOF模式基于光流概念,其基于对象(例如,视频数据中的特征)的运动是平滑的假设。本公开描述了可以用于简化视频编码器和视频解码器中BDOF的实施的几种技术。本公开的技术还可以提高可以执行的BDOF相关计算的速度。
BDOF技术可以包括确定块的每个子块的运动细化值,以及基于所确定的运动细化值确定该子块的每个样本的偏移。根据本公开的技术,视频编解码器可以确定子块的每个样本的偏移,而不执行舍入操作或除以2中的一个或多个操作。也就是,相对于用于确定偏移的一些示例技术,本公开的偏移计算技术不使用舍入操作和/或除以2。移除舍入和/或除以2操作提高了可以计算偏移的速度。
另外,为了补偿偏移计算中的除以2的移除,视频编解码器可以被配置为通过相对于用于确定运动细化值的其他示例技术添加除以2来确定运动细化值。然而,由于运动细化值是在子块级而不是样本级上确定的,因此减少了用于BDOF的除以2操作的总数,从而简化了视频编解码器实施并且提高了可以执行BDOF的速度。
图1是示出可以执行本公开的用于使用双预测和双向光流(BDOF)对视频数据的块进行编解码的技术的示例视频编码和解码系统100的框图。本公开的技术通常指向对视频数据进行编解码(编码和/或解码)。通常,视频数据包括用于处理视频的任何数据。因此,视频数据可以包括原始的、未编码的视频、编码的视频、解码的(例如,重建的)视频以及视频元数据,诸如,信令数据。
如图1所示,在此示例中,系统100包括提供要由目的地设备116进行解码和显示的编码的视频数据的源设备102。特别地,源设备102经由计算机可读介质110将视频数据提供给目的地设备116。源设备102和目的地设备116可以包括多种设备中的任何一种,包括台式计算机、笔记本(即膝上型计算机)、平板电脑、机顶盒、手持电话(诸如智能手机)、电视、相机、显示设备、数字媒体播放器、视频游戏机、视频流式传输设备等。在一些情况下,源设备102和目的地设备116可以被配备用于无线通信,并且因此可以被称为无线通信设备。
在图1的示例中,源设备102包括视频源104、存储器106、视频编码器200和输出接口108。目的地设备116包括输入接口122、视频解码器300、存储器120和显示设备118。根据本公开,源设备102的视频编码器200和目的地设备116的视频解码器300可以配置为应用用于双向光流(BDOF)的技术。因此,源设备102表示视频编码设备的示例,而目的地设备116表示视频解码设备的示例。在其他示例中,源设备和目的地设备可以包括其他组件或布置。例如,源设备102可以从诸如外部相机的外部视频源接收视频数据。同样,目的地设备116可以与外部显示设备对接,而不包括集成的显示设备。
如图1所示的系统100仅是一个示例。一般地,任何数字视频编码和/或解码设备都可以执行用于使用双预测和BDOF对视频数据的块进行编解码的技术。源设备102和目的地设备116仅仅是此类编解码设备的示例,其中,源设备102生成用于传输给目的地设备116的编解码的视频数据。本公开将“编解码”设备表示为执行数据的编解码(编码和/或解码)的设备。因此,视频编码器200和视频解码器300表示编解码设备的示例,具体地,分别是视频编码器和视频解码器。在一些示例中,设备102、116可以以基本上对称的方式操作,使得设备102、116中的每一个包括视频编码和解码组件。因此,系统100可以支持视频设备102、116之间的单向或双向视频传输,例如用于视频流、视频回放、视频广播或者视频电话。
一般地,视频源104表示视频数据的源(即原始的、未编码的视频数据),并将视频数据的连续的画面(也称为“帧”)序列提供给视频编码器200,其对画面的数据进行编码。源设备102的视频源104可以包括视频捕获设备,诸如摄像机,包含先前捕获的原始视频的视频存档和/或从视频内容提供者接收视频的视频馈送接口。作为进一步的替代方案,视频源104可以生成基于计算机图形的数据作为源视频,或者实况视频、存档视频和计算机生成的视频的组合。在每种情况下,视频编码器200对捕获的、预捕获的或计算机生成的视频数据进行编码。视频编码器200可以将画面从接收顺序(有时称为“显示顺序”)重新排列为用于编解码的编解码顺序。视频编码器200可以生成包括编码的视频数据的比特流。然后,源设备102可以经由输出接口108将编码的视频数据输出到计算机可读介质110上,以供例如目的地设备116的输入接口122接收和/或检索。
源设备102的存储器106和目的地设备116的存储器120表示通用存储器。在一些示例中,存储器106、120可以存储原始的视频数据,例如来自视频源104的原始的视频和来自视频解码器300的原始的、解码的视频数据。另外地或可替代地,存储器106、120可以分别存储可由例如视频编码器200和视频解码器300执行的软件指令。尽管在此示例中与视频编码器200和视频解码器300分开示出,但是应当理解的是,视频编码器200和视频解码器300还可以包括用于功能相似或等效目的的内部存储器。此外,存储器106、120可以存储例如从视频编码器200输出并输入到视频解码器300的编码的视频数据。在一些示例中,存储器106、120的部分可以被分配为一个或多个视频缓冲区,例如用来存储原始的、解码的和/或编码的视频数据。
计算机可读介质110可以表示能够将编码的视频数据从源设备102传输到目的地设备116的任何类型的介质或设备。在一个示例中,计算机可读介质110表示使得源设备102能够(例如)经由射频网络或基于计算机的网络将编码的视频数据直接实时发送到目的地设备116的通信介质。根据诸如无线通信协议的通信标准,输出接口108可以对包括编码的视频数据的传输信号进行调制,并且输入接口122可以对接收到的传输信号进行调制。通信介质可以包括任何无线或有线通信介质,诸如射频(RF)频谱或者一条或多条物理传输线。通信介质可以形成诸如局域网、广域网或诸如互联网的全球网络的基于分组的网络的一部分。通信介质可以包括路由器、交换机、基站或有助于促进从源设备102到目的地设备116的通信的任何其他装备。
在一些示例中,源设备102可以将编码的数据从输出接口108输出到存储设备112。类似地,目的地设备116可以经由输入接口122从自存储设备112访问编码的数据。存储设备112可以包括各种分布式或本地访问的数据存储介质中的任何一种,诸如硬盘、蓝光光盘、DVD、CD-ROM、闪存、易失性或非易失性存储器,或者用于存储编码的视频数据的任何其他合适的数字存储介质。
在一些示例中,源设备102可以将编码的视频数据输出到文件服务器114或可存储由源设备102生成的编码的视频的另一中间存储设备。目的地设备116可以经由流式传输或下载来从文件服务器114访问存储的视频数据。文件服务器114可以是能够存储编码的视频数据并将编码的视频数据发送到目的地设备116的任何类型的服务器设备。文件服务器114可以表示网络服务器(例如用于网站)、文件传输协议(FTP)服务器、内容传递网络设备或网络附加存储(NAS)设备。目的地设备116可以通过包括互联网连接的任何标准数据连接来从文件服务器114访问编码的视频数据。这可以包括适合于访问存储在文件服务器114上的编码的视频数据的无线信道(例如Wi-Fi连接)、有线连接(例如DSL、电缆调制解调器等)或者二者的组合。文件服务器114和输入接口122可以被配置为根据流式传输协议、下载传输协议或它们的组合来操作。
输出接口108和输入接口122可以表示无线发送器/接收器、调制解调器、有线联网组件(例如以太网卡)、根据各种IEEE 802.11标准中的任何一种进行操作的无线通信组件,或者其他物理组件。在输出接口108和输入接口122包括无线组件的示例中,输出接口108和输入接口122可以被配置为根据诸如4G、4G-LTE(长期演进)、LTE高级、5G或类似标准的蜂窝通信标准来传输诸如编码的视频数据的数据。在输出接口108包括无线发送器的某些示例中,输出接口108和输入接口122可以被配置为根据诸如IEEE 802.11规范、IEEE 802.15规范(例如ZigBeeTM)、BluetoothTM标准等的其他无线标准来传输诸如编码的视频数据的数据。在一些示例中,源设备102和/或目的地设备116可以包括各自的片上系统(system-on-a-chip,SoC)设备。例如,源设备102可以包括SoC设备来执行归于视频编码器200和/或输出接口108的功能,并且目的地设备116可以包括SoC设备来执行归于视频解码器300和/或输入接口122的功能。
本公开的技术可以应用于支持各种多媒体应用中的任何一种的视频编解码,诸如空中电视广播、有线电视传输、卫星电视传输、诸如基于HTTP的动态自适应流式传输(DASH)的互联网流式传输视频传输、编码到数据存储介质上的数字视频、对存储在数据存储介质上的数字视频进行解码或者其他应用。
目的地设备116的输入接口122从计算机可读介质110(例如存储设备112、文件服务器114等)接收编码的视频比特流。来自计算机可读介质110的编码的视频比特流可以包括由视频编码器200定义的、也由视频解码器300使用的信令信息,诸如语法元素,该语法元素具有描述视频块或其他编解码的单元(例如,切片(slice)、画面、画面组、序列等)的特点和/或处理的值。显示设备118向用户显示解码的视频数据的解码的画面。显示设备118可以表示诸如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类显示设备的各种显示设备中的任何一种。
尽管未在图1中示出,但在一些示例中,视频编码器200和视频解码器300中的每一个可以与音频编码器和/或音频解码器集成在一起,并且可以包括适当的MUX-DEMUX单元或其他硬件和/或软件,来处理公共数据流中包括音频和视频的多路复用流。如果适用,MUX-DEMUX单元可以符合ITU H.223多路复用器协议或诸如用户数据报协议(UDP)的其他协议。
视频编码器200和视频解码器300中的每一个可以被实施为各种合适的编码器和/或解码器电路中的任何一种,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件,硬件、固件或它们的任何组合。当该技术部分地以软件实施时,设备可以将用于软件的指令存储在合适的、非暂时计算机可读介质中,并使用一个或多个处理器在硬件中执行该指令来执行本公开的技术。视频编码器200和视频解码器300中的每一个可以被包括在一个或多个编码器或解码器中,这两者都可以集成为各自设备中组合的编码器/解码器(CODEC)的一部分。包括视频编码器200和/或视频解码器300的设备可以包括集成电路、微处理器和/或诸如蜂窝电话的无线通信设备。
视频编码器200和视频解码器300可以根据视频编解码标准(诸如ITU-T H.265,也称为高效视频编解码(HEVC))或其扩展(诸如多视图和/或可缩放的视频编解码扩展)来操作。作为替代,视频编码器200和视频解码器300可以根据其他专有或工业标准来操作,诸如联合探索测试模型(JEM)或ITU-T H.266,也被称为多功能视频编解码(VVC)。在ITU-T SG16WP3和ISO/IEC JTC 1/SC 29/WG 11的联合视频专家组(JVET),第14次会议:日内瓦,CH,2019年3月19日至27日,JVET-N1001-v3,Bross等人的“多功能视频编解码(草案5)”(以下称为“VVC草案5”)中,描述了VVC标准的最近草案。但是,本公开的技术不限于任何特定的编解码标准。
一般地,视频编码器200和视频解码器300可以执行画面的基于块的编解码。术语“块”一般是指包括要处理的(例如,编码的、解码的或以者其他方式在编码和/或解码过程中使用的)数据的结构。例如,块可以包括亮度和/或色度数据的样本的二维矩阵。一般地,视频编码器200和视频解码器300可以对以YUV(例如Y、Cb、Cr)格式表示的视频数据进行编解码。也就是说,视频编码器200和视频解码器300可以对亮度和色度分量进行编解码,其中色度分量可以包括红色和蓝色色度分量,而不是对画面的样本的红色、绿色和蓝色(RGB)数据进行编解码。在一些示例中,视频编码器200在编码之前将接收到的RGB格式的数据转换成YUV表示,并且视频解码器300将YUV表示转换成RGB格式。可替代地,预处理和后处理单元(未示出)可以执行这些转换。
本公开通常表示画面的编解码(例如编码和解码),以包括对画面数据进行编码或解码的过程。类似地,本公开可以表示对画面的块进行编解码,以包括对块的数据进行编码或解码的过程,例如预测和/或残差编解码。编码的视频比特流一般包括用于表示编解码决策(例如,编解码模式)的语法元素和将画面分割为块的一系列值。因此,对画面或块进行编解码的引用一般应理解为对形成画面或块的语法元素的值进行编解码。
HEVC定义各种块,包括编解码单元(CU)、预测单元(PU)和变换单元(TU)。根据HEVC,视频编解码器(诸如视频编码器200)根据四叉树结构将编解码树单元(CTU)分割为CU。也就是说,视频编解码器将CTU和CU分割为四个相等的、非重叠正方形,并且四叉树的每一个节点具有零个或四个子代节点。没有子代节点的节点可以被称为“叶节点”,并且这种叶节点的CU可以包括一个或多个PU和/或一个或多个TU。视频编解码器可以进一步分割PU和TU。例如,在HEVC中,残差四叉树(RQT)表示TU的分割。在HEVC中,PU表示帧间预测数据,而TU表示残差数据。帧内预测的CU包括帧内预测信息,诸如帧内模式指示。
作为另一示例,视频编码器200和视频解码器300可以被配置为根据VVC进行操作。根据VVC,视频编解码器(诸如视频编码器200)将画面分割为多个编解码树单元(CTU)。视频编码器200可以根据诸如四叉树-二叉树(QTBT)结构或多类型树(MTT)结构的树结构来对CTU进行分割。QTBT结构消除了多个分割类型的概念,诸如HEVC的CU、PU和TU之间的区分。QTBT结构包括两个级别:根据四叉树分割而分割出来的第一级,以及根据二叉树分割而分割出来的第二级。QTBT结构的根节点对应于CTU。二叉树的叶节点对应于编解码单元(CU)。
在MTT分割结构中,可以使用四叉树(QT)分割、二叉树(BT)分割和一种或多种类型的三叉树(TT)(也称为三叉树(TT))分割来对块进行分割。三元树或三叉树分割是一种其中块被划分成三个子块的分割。在一些示例中,三元树或三叉树分割将块划分成三个子块,而不通过中心划分原始块。MTT中的分割类型(例如,QT、BT和TT)可以是对称的或不对称的。
在一些示例中,视频编码器200和视频解码器300可以使用单个QTBT或MTT结构来表示亮度分量和色度分量中的每一个,而在其他示例中,视频编码器200和视频解码器300可以使用两个或更多个QTBT或MTT结构,诸如用于亮度分量的一个QTBT/MTT结构和用于两个色度分量的另一QTBT/MTT结构(或用于各自色度分量的两个QTBT/MTT结构)。
视频编码器200和视频解码器300可以被配置为使用每个HEVC的四叉树分割、QTBT分割、MTT分割或其他分割结构。出于解释的目的,相对于QTBT分割呈现本公开的技术的描述。然而,应该理解的是,本公开的技术还可以应用于被配置为使用四叉树分割或其他类型的分割的视频编解码器。
可以在画面中以各种方式对块(例如,CTU或CU)进行分组。作为一个示例,砖块(brick)可以指画面中特定图块(tile)内的CTU行的矩形区域。图块可以是画面中特定图块列和特定图块行内的CTU的矩形区域。图块列指的是具有高度等于画面的高度并且宽度由语法元素(例如,诸如在画面参数集中)指定的CTU的矩形区域。图块行指的是具有高度由语法元素(例如,诸如在画面参数集中)指定并且宽度等于画面的宽度的CTU的矩形区域。
在一些示例中,图块可以被分割成多个砖块,每个砖块可以包括该图块内的一个或多个CTU行。没有被分割成多个砖块的图块也可以被称为砖块。然而,作为图块的真正子集的砖块不能被称为图块。
画面中的砖块也可以排列成切片。切片可以是可以独占地被包含在单个网络抽象层(NAL)单元中的画面的整数个砖块。在某些示例中,切片要么包括若干个完整的图块,要么只包括一个图块的全部砖块的连续序列。
本公开可以互换地使用“N×N”和“N乘N”来表示块(诸如CU或其他视频块)在垂直和水平维度方面的样本维度,例如16×16样本或16乘16样本。一般地,16×16CU在垂直方向上将有16个样本(y=16),并且在水平方向上将有16个样本(x=16)。同样地,N×N CU一般地在垂直方向上具有N个样本,并且在水平方向上具有N个样本,其中N表示非负整数值。CU中的样本可以按行和列来排列。此外,CU在水平方向上不必具有与垂直方向上相同数量的样本。例如,CU可以包括N×M个样本,其中M不一定等于N。
视频编码器200对表示预测和/或残差信息以及其他信息的CU的视频数据进行编码。预测信息指示将如何预测CU以便形成用于CU的预测块。残差信息一般表示编码前CU的样本与预测块之间的逐样本差。
为了预测CU,视频编码器200一般地可以通过帧间预测或帧内预测来形成CU的预测块。帧间预测一般是指从先前编解码的画面的数据中预测CU,而帧内预测一般是指从同一画面的先前编解码的数据中预测CU。为了执行帧间预测,视频编码器200可以使用一个或多个运动矢量来生成预测块。视频编码器200通常可以执行运动搜索以识别例如在CU和参考块之间的差异的方面与CU紧密地匹配的参考块。视频编码器200可以使用绝对差之和(SAD)、平方差之和(SSD)、平均绝对差(MAD)、均方差(MSD)或其他此类差计算来计算差度量,以确定参考块是否与当前CU紧密地匹配。在某些示例中,视频编码器200可以使用单向预测或双向预测来预测当前CU。
VVC的一些示例还提供仿射运动补偿模式,其可以被视为帧间预测模式。在仿射运动补偿模式中,视频编码器200可以确定表示非平移运动的两个或更多个运动矢量,诸如放大或缩小、旋转、透视运动或其他不规则运动类型。
为了执行帧内预测,视频编码器200可以选择帧内预测模式来生成预测块。VVC的一些示例提供了六十七种帧内预测模式,包括各种方向模式以及平面模式和DC模式。一般地,视频编码器200选择描述从其预测当前块的样本的当前块(例如,CU的块)的邻近样本的帧内预测模式。假设视频编码器200以光栅扫描顺序(从左到右、从上到下)对CTU和CU进行编解码,则此类样本通常可以在与当前块相同的画面中在当前块的上方、上左侧或左侧。
视频编码器200对表示当前块的预测模式的数据进行编码。例如,对于帧间预测模式,视频编码器200可以对数据进行编码,该数据表示使用了各种可用帧间预测模式中的哪一种以及对应模式的运动信息。对于单向或双向帧间预测,例如视频编码器200可以使用高级运动矢量预测(AMVP)或合并模式来对运动矢量进行编码。视频编码器200可以使用类似模式来对仿射运动补偿模式的运动矢量进行编码。
在预测(诸如块的帧内预测或帧间预测)之后,视频编码器200可以计算块的残差数据。残差数据(诸如残差块)表示块与该块的预测块之间的逐样本差,预测块是使用对应预测模式形成的。视频编码器200可以将一个或多个变换应用于残差块以在变换域而非样本域中产生变换的数据。例如,视频编码器200可以将离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换应用于残差视频数据。另外,视频编码器200可以在一次变换之后应用二次变换,诸如取决于模式的不可分二次变换(mode-dependent non-separablesecondary transform,MDNSST)、取决于信号的变换、Karhunen-Loeve变换(KLT)等。视频编码器200在应用一个或多个变换之后产生变换系数。
如上所述,在进行任何变换以产生变换系数之后,视频编码器200可以对变换系数执行量化。量化通常是指对变换系数进行量化来可能地减少用于表示变换系数的数据量从而提供进一步的压缩的过程。通过执行量化过程,视频编码器200可以减小与变换系数中的一些或所有相关联的比特深度。例如,视频编码器200可以在量化期间将n比特值向下四舍五入到m比特值,其中n大于m。在一些示例中,为了执行量化,视频编码器200可以对待量化的值执行按位右移。
量化之后,视频编码器200可以扫描变换系数,从而从包括量化的变换系数的二维矩阵中产生一维矢量。可以将扫描设计为将较高能量(并且因此较低频率)的变换系数放在矢量的前面,并将较低能量(并且因此较高频率)的变换系数放在矢量的后面。在一些示例中,视频编码器200可以利用预定义的扫描顺序来对量化的变换系数进行扫描以产生序列化的矢量,然后对矢量的量化的变换系数进行熵编码。在其他示例中,视频编码器200可以执行自适应扫描。在对量化的变换系数进行扫描以形成一维矢量之后,视频编码器200可以例如根据上下文自适应二进制算术编解码(CABAC)来对一维矢量进行熵编码。视频编码器200还可以熵编码用于语法元素的值,该语法元素描述与视频解码器300在对视频数据进行解码中使用的编码的视频数据相关联的元数据。
为了执行CABAC,视频编码器200可以将上下文模型内的上下文分配给待发送的码元。例如,上下文可以涉及码元的邻近值是否是零值。概率确定可以是基于分配给码元的上下文。
视频编码器200可以进一步地生成例如在画面标头、块标头、切片标头中到视频解码器300的语法数据,诸如基于块的语法数据、基于画面的语法数据以及基于序列的语法数据,或者生成其他语法数据,诸如序列参数集(SPS)、画面参数集(PPS)或视频参数集(VPS)。视频解码器300可以类似地对此类语法数据进行解码以确定如何解码对应视频数据。
以此方式,视频编码器200可以生成包括编码的视频数据的比特流,例如描述将画面分割成块(例如CU)的语法元素以及块的预测和/或残差信息。最终,视频解码器300可以接收比特流并且对编码的视频数据进行解码。
一般地,视频解码器300执行与由视频编码器200执行的过程相反的过程,以对比特流的编码的视频数据进行解码。例如,视频解码器300可以使用CABAC,以与视频编码器200的CABAC编码过程基本相似(尽管与之相反)的方式,对比特流的语法元素的值进行解码。语法元素可定义用于将画面分割成CTU及根据对应分割结构(诸如QTBT结构)分割每一CTU以定义CTU的CU的分割信息。。语法元素可以进一步定义视频数据的块(例如CU)的预测和残差信息。
例如,可以由量化的变换系数表示残差信息。视频解码器300可以对块的量化的变换系数进行逆量化和逆变换以再现该块的残差块。视频解码器300使用用信号通知的预测模式(帧内或帧间预测)和相关的预测信息(例如用于帧间预测的运动信息)来形成块的预测块。然后,视频解码器300可以(在逐样本的基础上)组合预测块和残差块以再现原始块。视频解码器300可以执行附加处理(诸如执行去块处理)来减少沿块边界的视觉伪像。
根据本公开的技术,如下将更详细解释的,视频编码器200和视频解码器300可以被配置为接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行编解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。视频编码器200和视频解码器300还可以被配置为针对双向光流执行运动矢量细化计算,其中运动矢量细化计算被补偿以考虑不包括除以2的偏移计算。
本公开通常可以表示“用信号通知”某些信息,诸如语法元素。术语“用信号通知”通常可以指对于语法元素和/或用于对编码的视频数据进行解码的其他数据的值的通信。也就是说,视频编码器200可以用信号通知比特流中的语法元素的值。一般地,用信号通知是指在比特流中生成值。如上所述,源设备102可以基本上实时地(或非实时地,诸如可能在将语法元素存储到存储设备112以供稍后由目的地设备116检索时发生)将比特流传输到目的地设备116。
图2是示出可以执行本公开的技术的示例视频编码器200的框图。提供图2是为了解释的目的并且不应认为是对本公开中广泛示例和描述的技术的限制。出于解释的目的,本公开在诸如开发中的HEVC视频编解码标准和H.266视频编解码标准的视频编解码标准的上下文中描述了视频编码器200。然而,本公开的技术不限于这些视频编解码标准并且通常适用于视频编码和解码。
在图2的示例中,视频编码器200包括视频数据存储器230、模式选择单元202、残差生成单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重建单元214、滤波器单元216、解码的画面缓冲器(DPB)218以及熵编码单元220。视频数据存储器230、模式选择单元202、残差生成单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重建单元214、滤波器单元216、DPB 218和熵编码单元220中的任一个或全部可以在一个或多个处理器中或者在处理电路中实施。此外,视频编码器200可以包括执行这些和其他功能的附加或替代处理器或处理电路。
视频数据存储器230可以存储要由视频编码器200的组件进行编码的视频数据。视频编码器200可以从例如视频源104(图1)接收存储在视频数据存储器230中的视频数据。DPB 218可以用作参考画面存储器,参考画面存储器存储参考视频数据,以供视频编码器200用于预测后续视频数据时使用。视频数据存储器230和DPB 218可以由多种存储设备中的任何一种形成,诸如动态随机存取存储器(DRAM),包括同步DRAM(SDRAM)、磁阻RAM(MRAM)、电阻RAM(RRAM)或其他类型的存储设备。视频数据存储器230和DPB 218可以由相同的存储设备或单独的存储设备提供。在各种示例中,视频数据存储器230可以与视频编码器200的其他组件一起置于芯片上,如图所示,或者相对于那些组件置于芯片外。
在本公开中,对视频数据存储器230的引用不应解释为限于视频编码器200内部的存储器(除非特别说明如此)或者视频编码器200外部的存储器(除非特别说明如此)。相反地,对视频数据存储器230的引用应理解为存储视频编码器200接收的用于编码的视频数据(例如当前块的待编码视频数据)的参考存储器。图1的存储器106还可以对视频编码器200各个单元输出提供临时存储。
示出的图2的各个单元用来帮助理解由视频编码器200执行的操作。所述单元可以被实施为固定功能电路、可编程电路或它们的组合。固定功能电路是指提供特定功能并在可以执行的操作上预设的电路。可编程电路是指可以被编程来执行各种任务并且在可以执行的操作中提供灵活功能的电路。例如,可编程电路可以执行软件或固件,所述软件或固件使可编程电路以软件或固件的指令所定义的方式操作。固定功能电路可以执行软件指令(例如来接收参数或输出参数),但是固定功能电路执行的操作类型通常是不可变的。在一些示例中,所述单元中的一个或多个单元可以是不同的电路块(固定功能或可编程),并且在一些示例中,一个或多个单元可以是集成电路。
视频编码器200可以包括由可编程电路形成的算术逻辑单元(ALU)、基本功能单元(EFU)、数字电路、模拟电路和/或可编程核。在使用由可编程电路执行的软件来执行视频编码器200的操作的示例中,存储器106(图1)可以存储视频编码器200接收和执行的软件的目标代码,或视频编码器200内另一存储器(未示出)可以存储这样的指令。
视频数据存储器230被配置为存储接收的视频数据。视频编码器200可以从视频数据存储器230中检索视频数据的画面,并将视频数据提供给残差生成单元204和模式选择单元202。视频数据存储器230中的视频数据可以是待编码的原始的视频数据。
模式选择单元202包括运动估计单元222、运动补偿单元224和帧内预测单元226。模式选择单元202可以包括附加功能单元,以根据其他预测模式来执行视频预测。作为示例,模式选择单元202可以包括调色板单元、块内块复制单元(其可以是运动估计单元222和/或运动补偿单元224的一部分)、仿射单元、线性模型(LM)单元等。
模式选择单元202通常协调多个编码次数来测试编码参数的组合以及得出用于这种组合的速率失真值。编码参数可以包括CTU到CU的分割、CU的预测模式、CU的残差数据的变换类型、CU的残差数据的量化参数等。模式选择单元202可以最终选择编码参数的组合,该组合具有比其他测试的组合更佳的速率失真值。
视频编码器200可以将从视频数据存储器230中检索的画面分割为一系列CTU,并将一个或多个CTU封装在切片内。模式选择单元202可以根据树结构(诸如上述HEVC的QTBT结构或四叉树结构)来对画面的CTU进行分割。如上所述,视频编码器200可以通过根据树结构对CTU进行分割来形成一个或多个CU。这样的CU通常也可以被称为“视频块”或“块”。
一般地,模式选择单元202还控制其组件(例如运动估计单元222、运动补偿单元224和帧内预测单元226)以生成当前块(例如当前CU或HEVC中PU和TU的重叠部分)的预测块。对于当前块的帧间预测,运动估计单元222可以执行运动搜索来识别在一个或多个参考画面(例如存储在DPB 218中的一个或多个先前编解码的画面)中的一个或多个紧密匹配的参考块。特别地,运动估计单元222可以例如根据绝对差之和(SAD)、平方差之和(SSD)、平均绝对差(MAD)、均方差(MSD)等来计算表示潜在参考块与当前块有多相似的值。运动估计单元222通常可以使用当前块与考虑中的参考块之间的逐样本差来执行这些计算。运动估计单元222可以识别具有这些计算生成的最低值的参考块,从而指示与当前块最紧密匹配的参考块。
运动估计单元222可以形成一个或多个运动矢量(MV),该一个或多个运动矢量定义参考画面中参考块相对于当前画面中当前块的位置。然后,运动估计单元222可以将运动矢量提供给运动补偿单元224。例如,对于单向帧间预测,运动估计单元222可以提供单个运动矢量,而对于双向帧间预测,运动估计单元222可以提供两个运动矢量。然后,运动补偿单元224可以使用运动矢量来生成预测块。例如,运动补偿单元224可以使用运动矢量来检索参考块的数据。作为另一示例,如果运动矢量具有分数样本精度,则运动补偿单元224可以根据一个或多个插值滤波器来对预测块的值进行插值。此外,对于双向帧间预测,运动补偿单元224可以检索由各自运动矢量标识的两个参考块的数据并且(例如通过逐样本平均或加权平均)组合检索的数据。
在一些示例中,运动估计单元222和运动补偿单元224可以使用双向光流(BDOF)执行双预测。下面将更详细地描述与BDOF相关的技术,包括本公开的用于简化BDOF的实施的技术。视频编码器200的一个或多个结构单元可以被配置为实施下面描述的本公开的BDOF技术,包括运动估计单元222和运动补偿单元224。作为一个示例,运动补偿单元224可以被配置为使用双预测和双向光流对视频数据的当前块进行编码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。另外,运动补偿单元224可以被配置为针对双向光流执行运动矢量细化计算,其中运动矢量细化计算被补偿以考虑不包括除以2的偏移计算。
在其他示例中,对于帧内预测或帧内预测编解码,帧内预测单元226可以从与当前块邻近的样本来生成预测块。例如,对于定向模式,帧内预测单元226通常可以数学地组合邻近样本的值,并且在当前块上沿定义的方向填充这些计算值来产生预测块。作为另一示例,对于DC模式,帧内预测单元226可以计算当前块的邻近样本的平均值,并且生成预测块以包括对于预测块的每一个样本所得到的平均值。
模式选择单元202将预测块提供给残差生成单元204。残差生成单元204从视频数据存储器230接收当前块的原始的、未编码的版本,并从模式选择单元202接收预测块。残差生成单元204计算当前块和预测块之间的逐样本差。得到的逐样本差定义当前块的残差块。在一些示例中,残差生成单元204还可以确定残差块中的样本值之间的差以使用残差差分脉冲编解码调制(RDPCM)生成残差块。在某些示例中,可以使用执行二进制减法的一个或多个减法器电路来形成残差生成单元204。
在模式选择单元202将CU分割为PU的示例中,每个PU可以与亮度预测单元和对应的色度预测单元相关联。视频编码器200和视频解码器300可以支持具有各种尺寸的PU。如上所述,CU的尺寸可以指CU的亮度编解码块的尺寸,并且PU的尺寸可以指PU的亮度预测单元的尺寸。假设特定CU的尺寸为2N×2N,则视频编码器200可以支持用于帧内预测的2N×2N或N×N的PU尺寸,以及用于帧间预测的2N×2N、2N×N、N×2N、N×N或类似的对称PU尺寸。视频编码器200和视频解码器300还可以支持用于帧间预测的2N×nU、2N×nD、nL×2N和nR×2N的PU尺寸的非对称分割。
在模式选择单元不将CU进一步分割为PU的示例中,每一个CU可以与亮度编解码块和对应的色度编解码块相关联。如上所述,CU的尺寸可以指CU的亮度编解码块的尺寸。视频编码器200和视频解码器300可以支持2N×2N、2N×N或N×2N的CU尺寸。
对于其他视频编解码技术,诸如作为几个示例的块内复制模式编解码、仿射模式编解码和线性模型(LM)模式编解码,模式选择单元202经由与编解码技术相关联的各自单元来生成正在被编码的当前块的预测块。在一些示例中,诸如调色板模式编解码,模式选择单元202可以不生成预测块,而是生成语法元素,该语法元素指示基于所选调色板重建块的方式。在这样的模式中,模式选择单元202可以将这些语法元素提供给熵编码单元220,以对其进行编码。
如上所述,残差生成单元204接收当前块和对应预测块的视频数据。然后,残差生成单元204生成当前块的残差块。为了生成残差块,残差生成单元204计算预测块和当前块之间的逐样本差。
变换处理单元206将一个或多个变换应用于残差块以生成变换系数的块(在本文中称为“变换系数块”)。变换处理单元206可以将各种变换应用于残差块以形成变换系数块。例如,变换处理单元206可以将离散余弦变换(DCT)、方向变换、Karhunen-Loeve变换(KLT)或概念上类似的变换应用于残差块。在一些示例中,变换处理单元206可以对残差块执行多次变换,例如,初次变换和二次变换,诸如旋转变换。在一些示例中,变换处理单元206不将变换应用于残差块。
量化单元208可以对变换系数块中的变换系数进行量化以产生量化的变换系数块。量化单元208可以根据与当前块相关联的量化参数(QP)值来对变换系数块的变换系数进行量化。视频编码器200(例如经由模式选择单元202)可以通过调整与CU相关联的QP值来调整应用于与当前块相关联的系数块的量化程度。量化可能会引入信息损失,并且因此,量化的变换系数可能比变换处理单元206产生的原始变换系数具有更低的精度。
逆量化单元210和逆变换处理单元212可以分别对量化的变换系数块应用逆量化和逆变换,以从变换系数块重建残差块。重建单元214可以基于重建的残差块和由模式选择单元202生成的预测块来产生与当前块对应的重建的块(尽管潜在地具有一些程度的失真)。例如,重建单元214可以将重建的残差块的样本添加到来自模式选择单元202生成的预测块的对应样本,以产生重建的块。
滤波器单元216可以对重建的块执行一个或多个滤波器操作。例如,滤波器单元216可以执行去块操作来减少沿着CU的边缘的块状伪影。在一些示例中,可以跳过滤波器单元216的操作。
视频编码器200将重建的块存储在DPB 218中。例如,在不需要滤波器单元216的操作的示例中,重建单元214可以将重建的块存储到DPB 218。在需要滤波器单元216的操作的示例中,滤波器单元216可以将滤波后的重建的块存储到DPB 218。运动估计单元222和运动补偿单元224可以从DPB 218中检索由重建的(并且潜在地滤波的)块形成的参考画面,,来对后续编码的画面的块进行帧间预测。另外,帧内预测单元226可以使用当前画面的DPB218中的重建的块来对当前画面中的其他块进行帧内预测。
一般地,熵编码单元220可以对从视频编码器200的其他功能组件接收的语法元素进行熵编码。例如,熵编码单元220可以对来自量化单元208的量化的变换系数块进行熵编码。作为另一示例,熵编码单元220可以对来自模式选择单元202的预测语法元素(例如用于帧间预测的运动信息或用于帧内预测的帧内模式信息)进行熵编码。熵编码单元220可以对视频数据的另一示例的语法元素执行一个或多个熵编码操作来生成熵编码的数据。例如,熵编码单元220可以对数据执行上下文自适应可变长度编解码(CAVLC)操作、CABCA操作、可变到可变(V2V)长度编解码操作、基于语法的上下文自适应二进制算术编解码(SBAC)操作、概率区间分割熵(PIPE)编解码操作、指数-哥伦布编码码操作或另一类型的熵编码操作。在一些示例中,熵编码单元220可以以语法元素未被熵编码的旁路模式进行操作。
视频编码器200可以输出比特流,其包括对切片或画面的块进行重建所需的熵编码的语法元素。特别地,熵编码单元220可以输出比特流。
上述操作是相对于块来描述的。这样的描述应该理解为是用于亮度编解码块和/或色度编解码块的操作。如上所述,在一些示例中,亮度编解码块和色度编解码块是CU的亮度和色度分量。在一些示例中,亮度编解码块和色度编解码块是PU的亮度和色度分量。
在一些示例中,不必针对色度编解码块重复相对于亮度编解码块执行的操作。作为一个示例,不需要重复用于识别亮度编解码块的运动矢量(MV)和参考画面的操作,来识别用于色度块的MV和参考画面。相反,可以缩放亮度编解码块的MV来确定色度块的MV,并且参考画面可以是相同的。作为另一示例,对于亮度编解码块和色度编解码块,帧内预测处理可以是相同的。
视频编码器200表示被配置为对视频数据进行编码的设备的示例,该设备包括被配置为存储视频数据的存储器,以及在电路中实施的一个或多个处理单元,并且该一个或多个处理单元被配置为接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行编解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
图3是示出可以执行本公开的技术的示例视频编码器300的框图。提供图3是为了解释的目的而不是对本公开中广泛示例和描述的技术的限制。为了解释的目的,本公开描述了根据JEM、VCC和HEVC的技术描述的视频解码器300。然而,本公开的技术可以由配置为其他视频编解码标准的视频编解码设备来执行。
在图3的示例中,视频解码器300包括编解码的画面缓冲器(CPB)存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重建单元310、滤波器单元312和解码的画面缓冲器(DPB)314。CPB存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重建单元310、滤波器单元312和DPB 314中的任一个或全部可以在一个或多个处理器中或在处理电路中实施。此外,视频解码器300可以包括执行这些和其他功能的附加或替代处理器或处理电路。
预测处理单元304包括运动补偿单元316和帧内预测单元318。预测处理单元304可以包括附加单元以根据其他预测模式来执行预测。作为示例,预测处理单元304可以包括调色板单元、块内复制单元(其可以形成运动补偿单元316的一部分)、仿射单元、线性模型(LM)单元等。在其他示例中,视频解码器300可以包括更多、更少或不同的功能组件。
CPB存储器320可以存储要由视频解码器300的组件进行解码的视频数据,诸如编码的视频比特流。例如,可以从计算机可读介质110(图1)获得存储在CPB存储器320中的视频数据。CPB存储器320可以包括存储来自编码的视频比特流的编码的视频数据(例如语法元素)的CPB。此外,CPB存储器320可以存储除了编解码的画面的语法元素之外的视频数据,诸如表示来自视频解码器300各个单元的输出的临时数据。DPB 314通常存储解码的画面,当对编码的视频比特流的后续数据或画面进行解码时,视频解码器300可以输出解码的画面和/或将其用作参考视频数据。CPB存储器320和DPB 314可以由多种存储设备中的任何一种形成,诸如DRAM,包括SDRAM、MRAM、RRAM或者其他类型的存储设备。CPB存储器320和DPB314可以由相同的存储设备或单独的存储设备提供。在各种示例中,CPB存储器320可以与视频解码器300的其他组件置于芯片上,或者相对于那些组件置于芯片外。
另外地或可替代地,在一些示例中,视频解码器300可以从存储器120(图1)中检索编解码的视频数据。即存储器120可以存储如上述关于CPB存储器320所讨论的数据。同样,当视频解码器300的某些或全部功能以由视频解码器300的处理电路执行的软件实施时,存储器120可以存储要由视频解码器300执行的指令。
示出图3所示的各种单元以帮助理解由视频解码器300执行的操作。所述单元可以被实施为固定功能电路、可编程电路或它们的组合。类似于图2,固定功能电路是指提供特定功能并且在可以执行的操作上预设的电路。可编程电路是指可以被编程来执行各种任务并且在可以执行的操作中提供灵活功能的电路。例如,可编程电路可以执行软件或固件,所述软件或固件使可编程电路以软件或固件的指令所定义的方式操作。固定功能电路可以执行软件指令(例如来接收参数或输出参数),但是固定功能电路执行的操作类型通常是不可变的。在一些示例中,所述单元中的一个或多个单元可以是不同的电路块(固定功能或可编程),并且在一些示例中,一个或多个单元可以是集成电路。
视频解码器300可包括ALU、EFU、数字电路、模拟电路和/或由可编程电路形成的可编程核。在视频解码器300的操作由在可编程电路上执行的软件执行的示例中,片上或片外存储器可以存储视频解码器300接收并执行的软件的指令(例如目标代码)。
熵解码单元302可从CPB接收编码的视频数据,并且对视频数据进行熵解码以再现语法元素。预测处理单元304、逆量化单元306、逆变换处理单元308、重建单元310和滤波器单元312可以基于从比特流中提取的语法元素来生成解码的视频数据。
一般地,视频解码器300在逐块的基础上重建画面。视频解码器300可单独地对每一个块执行重建操作(其中当前正被重建的(即解码的)的块可称为“当前块”)。
熵解码单元302可以对定义量化的变换系数块的量化的变换系数的语法元素以及诸如量化参数(QP)和/或变换模式指示的变换信息进行熵解码。逆量化单元306可以使用与量化的变换系数块相关联的QP来确定量化程度,并且同样地,确定逆量化单元306要应用的逆量化程度。逆量化单元306可以例如执行按位左移操作来对量化的变换系数进行逆量化。逆量化单元306从而可以形成包括变换系数的变换系数块。
在逆量化单元306形成变换系数块之后,逆变换处理单元308可以将一个或多个逆变换应用于变换系数块来生成与当前块相关联的残差块。例如,逆变换处理单元308可以将逆DCT、逆整数变换、逆Karhunen-Loeve变换(KLT)、逆旋转变换、逆方向变换或另一逆变换应用于系数块。
此外,预测处理单元304根据由熵解码单元302熵解码的预测信息语法元素来生成预测块。例如,如果预测信息语法元素指示当前块是帧间预测的,则运动补偿单元316可以生成预测块。在这种情况下,预测信息语法元素可以指示DPB 314中从其检索参考块的参考画面,以及指示识别参考画面中参考块相对于当前画面中的当前块的位置的运动矢量。运动补偿单元316通常可以以与相对于运动补偿单元224(图2)所描述的方式基本上相似的方式来执行帧间预测过程。
在一些示例中,运动补偿单元316可以使用BDOF执行双预测。下面将更详细地描述与BDOF相关的技术,包括本公开的用于简化BDOF的实施的技术。视频解码器300的一个或多个结构单元可以被配置为实施下面描述的本公开的BDOF技术,包括运动补偿单元316。例如,运动补偿单元316可以被配置为接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。另外,运动补偿单元316还可以被配置为针对双向光流执行运动矢量细化计算,其中运动矢量细化计算被补偿以考虑不包括除以2的偏移计算。
作为另一示例,如果预测信息语法元素指示当前块是帧内预测的,则帧内预测单元318可以根据由预测信息语法元素指示的帧内预测模式来生成预测块。再次,帧内预测单元318通常可以以与相对于帧内预测单元226(图2)所描述的方式基本上相似的方式来执行帧内预测过程。帧内预测单元318可以从DPB 314中检索当前块的邻近样本的数据。
重建单元310可以使用预测块和残差块来重建当前块。例如,重建单元310可以将残差块的样本添加到预测块的对应样本来重建当前块。
滤波器单元312可以对重建的块执行一个或多个滤波器操作。例如,滤波器单元312可以执行去块操作来减少沿着重建的块的边缘的块状伪影。不一定在所有示例中都执行滤波器单元312的操作。
视频解码器300可以将重建的块存储在DPB 314中。如上所述,DPB 314可以向预测处理单元304提供参考信息,诸如用于帧内预测的当前画面的样本以及用于后续运动补偿的先前解码的画面的样本。此外,视频解码器300可以从DPB输出解码的画面,以用于后续呈现在诸如图1的显示设备118的显示设备上。
以此方式,视频解码器300表示视频解码设备的示例,该视频解码设备包括被配置为存储视频数据的存储器,以及在电路中实施的一个或多个处理单元,并且该一个或多个处理单元被配置为接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
双向光流(BDOF)工具包括在VVC测试模型4(VTM4)中。BDOF以前被称为BIO。在一个示例中,BDOF用于细化在4x4子块级处的编解码单元(CU)的双预测信号(例如,使用双预测推导的预测块的样本)。如其名称所示,BDOF模式是基于光流概念的,它是在物体的运动是平滑的假设下配置的。
对于块的每个4x4子块,视频编码器200和/或视频解码器300可以通过将参考画面列表0(L0)预测样本(例如,由第一运动矢量识别)和参考画面列表1(LI)预测样本(例如,由第二运动矢量识别)之间的差最小化来计算运动细化(vx,vy)。视频编码器200和/或视频解码器300可以使用运动细化来确定每样本偏移,然后该偏移被用于调整当前编解码的块的4x4子块中的最终双预测的预测样本值。在BDOF过程中应用以下步骤。
首先,视频编码器200和/或视频解码器300可以通过使用以下等式计算预测信号中的两个邻近样本之间的差来计算在子块的每个样本处的两个预测信号的水平梯度和垂直梯度(
Figure BDA0003354301940000231
Figure BDA0003354301940000232
k=0,1):
Figure BDA0003354301940000234
Figure BDA0003354301940000235
其中I(k)(i,j)是在参考画面列表k中的预测信号的坐标(i,j)处的预测样本,其中k=0,1,并且其中》操作是按位右移。再次,两个预测信号是来自由在双预测中使用的两个运动矢量识别的两个参考画面列表的两个预测块。
然后,视频编码器200和/或视频解码器300可以计算在子块的每个样本处的水平梯度和垂直梯度的自相关和互相关。视频编码器200和/或视频解码器300可以用以下等式计算自相关和互相关S1、S2、S3、S5和S6
S1=∑(i,j)∈Ωψx(i,j)·ψx(i,j),S3=∑(i,j)∈Ωθ(i,j)·ψx(i,j)
S2=∑(i,j)∈Ωψx(i,j)·ψy(i,j)
S5=∑(i,j)∈Ωψy(i,j)·ψy(i,j) S6=∑(i,j)∈Ωθ(i,j)·ψy(i,j),
其中
Figure BDA0003354301940000236
Figure BDA0003354301940000237
θ(i,j)=(I(1)(i,j)>>nb)-(I(0)(i,j)>>nb)
其中Ω是4x4子块周围样本的6x6窗口。ψy(i,j)值是该计算的中间值并且θ(i,j)是时间梯度。
视频编码器200和/或视频解码器300可以使用以下等式来使用互相关和自相关项推导在每个子块处的运动细化值(vx,vy):
Figure BDA0003354301940000241
Figure BDA0003354301940000242
其中
Figure BDA0003354301940000243
是地板函数(floor function),并且th′BIO是约束运动细化的值的BDOF的阈值。在一个示例中,th′BIO=2shift。在上述等式中,运算符>0?是一个决策运算符,如果运算符为真(例如,S1和/或S5大于零),则选择由括号中的等式计算的值,并且如果运算符不为真(例如,S1和/或S5小于或等于0)则选择冒号之后的值(例如,0)。
基于为每个子块确定的运动细化和为每个子块的每个样本确定的水平和垂直梯度,视频编码器200和/或视频解码器300可以使用以下等式来计算每个4x4子块中的每个样本的偏移(例如,b(x,y)):
Figure BDA0003354301940000244
其中rnd是舍入操作。
在一个示例中,选择移位值shift1、na、nb,使得BDOF过程中的乘法器不超过15比特,并且BDOF过程中的中间参数的最大比特宽度保持在32比特内。shift1、na、nb和shift2的值取决于视频数据的内部比特深度BD,在一个示例中,其分别被设置为等于Max(2,14-BD)、Min(8,BD-4)、Min(5,BD-7)和Max(1,13-BD)。
最后,视频编码器200和视频解码器300可以通过如下调整双预测样本I(0)(x,y)+I(1)(x,y)来计算CU的BDOF样本:
predBDOF(x,y)=(I(0)(x,y)+I(1)(x,y)+b(x,y)+ooffset)>>shift,
其中predBDOF(x,y)是子块的用于使用双预测对视频数据的块进行编解码的最终预测样本,并且其中o0ffet是用于舍入的预定偏移。在一个示例中,移位(shift)的值可以是3或15-比特深度(BD)中的最大值。也就是说,移位可以是Max(3,15-BD)。ooffset的值可以等于1<<(shift-1)。另外,在一些示例中,视频编码器200和视频解码器300可以对predBDOF(x,y)执行裁剪(clip)操作以使predBDOF(x,y)的值为预定义范围,例如从0至(2BD)-1(包含性)。
在视频编码的上下文中,视频编码器200可以从每个子块的样本中减去为当前编解码的块的每个子块确定的最终预测样本,以确定残差块。然后,如上所述,可以对残差块进行变换、量化和熵编解码。在视频解码的上下文中,视频解码器300可以使用上述BDOF技术对编码的视频数据进行解码以获得残差块并确定最终预测样本。然后,视频解码器300可以将当前编码的块的每个子块的最终预测样本加到解码的残差块的对应样本上,以重建当前编解码的块。
在上述BDOF的示例中,为了推导水平和垂直梯度值,视频编码器200和/或视频解码器300可以生成在当前CU的边界之外的列表k(k=0,1)中的一些预测样本I(k)(i,j)。图4是示出在BDOF中使用的扩展的CU区域的概念图。如图4中所述,当应用VTM4的BDOF时,视频编码器200和视频解码器300可以使用CU 400的边界周围(描绘为灰色样本)的一个扩展的行/列406(描绘为白色方块)中的样本来确定水平和垂直梯度。图4的每个小白色或灰色正方形表示一个样本。子块402是CU 400的一个4x4子块。区域404是子块402周围的样本的6x6区域。
为了控制和/或减少生成边界外预测样本的计算复杂度,视频编码器200和/或视频解码器300可以通过直接重复使用附近的整数位置处的参考样本(例如,对坐标使用floor()函数)而不进行插值来生成扩展的行/列406中的预测样本,并且可以使用8抽头运动补偿插值滤波器来生成CU内的预测样本(例如,区域404的灰色样本)。在一个示例中,视频编码器200和/或视频解码器300可以被配置为仅在梯度计算中使用扩展的样本值。对于BDOF过程中的剩余步骤,如果需要CU边界之外的任何样本和梯度值,则从这些样本的最近邻居填充(即重复)这些样本。
ITU-T SG 16WP3和ISO/IEC jTC 1/SC 29/WG 11的联合视频专家组(JVET),第14次会议:日内瓦,CH,2019年3月19日至27日,X.Xiu等人的“CE9相关—双向光流(BDOF)的改进”(以下称为“JVET-N0325”)描述了BDOF相关的技术。JVET-N0325提出通过将用于内部8比特操作的右移位扩展为用于内部10比特和12比特操作来统一BDOF中使用的所有按位移位操作。具体地,当变量BD被设置为等于8时变量shift1、nb、na和shift2固定为某些值,即变量shift1、nb、na和shift2总是分别被设置为等于6、4、1和5,而与用于编解码的内部比特深度无关。
在一些示例中,在生成边界外预测样本时对坐标使用的floor()操作可以被round()操作所取代,通过round()操作,坐标被舍入到最接近的整数。
本公开描述了用于简化BDOF的以下技术。本公开的技术可以简化视频编码器200和视频解码器300中BDOF的实施。另外,本公开的技术可以降低视频编码器200和视频解码器300实施的复杂度。
根据本公开的一些示例技术,视频编码器200和视频解码器300可以被配置为在不执行舍入操作或除以2中的一个或多个操作的情况下针对当前编解码的块的子块的每个样本确定偏移。也就是说,相对于上面描述的用于确定偏移的一些示例技术,本公开的偏移计算技术不使用舍入操作和/或除以2。移除舍入和/或除以2操作可以提高可以计算偏移的速度。
另外,为了补偿偏移计算中的除以2的移除,视频编码器200和视频解码器300可以被配置为通过相对于上述用于确定运动细化值的其他示例技术添加除以2,来确定运动细化值。然而,由于运动细化值是在子块级而不是样本级上确定的,因此减少了用于BDOF的除以2操作的总数,从而简化了视频编解码器实施并且提高了可以执行BDOF的速度。
以下技术可以单独使用或以任何组合使用。
技术1
在本公开的第一示例中,通过移除舍入操作rnd()和除以2来简化偏移计算。也就是说,视频编码器200和视频解码器300可以被配置为接收视频数据的当前块,以及使用双预测和双向光流对视频数据的当前块进行编解码(例如,编码或解码),其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
在一个示例中,视频编码器200和/或视频解码器300可以被配置为实施修改后的偏移计算,而不舍入或除以2,如下:
Figure BDA0003354301940000261
其中b(x,y)是偏移,(vx,vy)是运动矢量细化,
Figure BDA0003354301940000271
是第一参考画面列表(例如,列表0)的水平梯度,
Figure BDA0003354301940000272
是第二参考画面列表(例如,列表1)的水平梯度,
Figure BDA0003354301940000273
是第一参考画面列表的垂直梯度,并且
Figure BDA0003354301940000274
是第二参考画面列表的垂直梯度。
为了补偿偏移计算的改变,视频编码器200和/或视频解码器300可以将运动细化(vx,vy)除以2。也就是说,通常,视频编码器200和视频解码器300还可以被配置为针对双向光流执行运动矢量细化计算,其中运动矢量细化计算被补偿以考虑不包括除以2的偏移计算。
在一个示例中,视频编码器200和/或视频解码器300可以被配置为实施修改后的运动细化计算,如下:
Figure BDA0003354301940000275
Figure BDA0003354301940000276
其中S1、S2、S3、S5和S6是水平梯度和垂直梯度的自相关和互相关,并且-th′BIO是阈值。在上面的等式中,指数(例如,
Figure BDA0003354301940000277
)中的-1项实现了除以2。
因此,考虑到上述BDOF技术和本公开的技术1的修改后的偏移和运动细化计算,视频编码器200和视频解码器300可以被配置为如下对视频数据块进行编解码。
视频编码器200和视频解码器300可以针对视频数据的当前块的每个子块从第一参考画面列表(例如,列表0)确定第一预测样本,并且可以针对视频数据的当前块的每个子块从第二参考画面列表(例如,列表1)确定第二预测样本。在一个示例中,视频数据的当前块的子块是4x4子块。然而,本公开的技术适用于与任何尺寸的块或子块一起使用。
然后,视频编码器200和视频解码器300可以从针对每个子块的第一预测样本和第二预测样本确定每个子块的水平梯度和垂直梯度。视频编码器200和视频解码器300还可以确定每个子块的水平梯度和垂直梯度的自相关和互相关。
然后,视频编码器200和视频解码器300可以根据每个子块的水平梯度和垂直梯度的自相关和互相关,使用每个子块的运动矢量细化计算来确定运动细化。如上所述,视频编码器200和视频解码器300可以通过相对于用于确定运动细化的其他技术添加除以2来确定运动细化。然后,视频编码器200和视频解码器300可以基于每个子块的运动细化、水平梯度和垂直梯度,使用每个子块的偏移计算来确定偏移。如上所述,视频编码器200和视频解码器300可以被配置为在偏移计算中不使用舍入操作或除以2中的一个或多个操作来确定偏移。
然后,视频编码器200和视频解码器300可以基于每个子块的偏移、第一预测样本和第二预测样本来确定每个子块的最终预测样本以用于双预测,并且可以使用每个子块的最终预测样本对视频数据的当前块进行编解码。在视频编码的上下文中,视频编码器200可以从每个子块的样本中减去为当前编解码的块的每个子块确定的最终预测样本,以确定残差块。然后,如上所述,可以对残差块进行变换、量化和熵编解码。在视频解码的上下文中,视频解码器300可以使用上述BDOF技术对编码的视频数据进行解码以获得残差块并确定最终预测样本。然后,视频解码器300可以将当前编解码的块的每个子块的最终预测样本加到解码的残差块的对应样本上,以重建当前编解码的块。
在另一个示例中,视频编码器200和/或视频解码器300可以被配置为修改后的运动细化计算,如下:
Figure BDA0003354301940000281
Figure BDA0003354301940000282
在另一个示例中,视频编码器200和/或视频解码器300可以被配置为将S1和S5的值乘以2(或者左移2位)。
视频编码器200和/或视频解码器300可以被配置为针对放射预测的预测细化应用技术1的任何一个示例,其中偏移被添加到列表i(例如列表0或列表1)预测。仿射预测的预测细化的一个示例偏移计算如下:
Figure BDA0003354301940000283
通过根据技术1移除舍入和除以2操作,视频编码器200和/或视频解码器300可以被配置为实施修改后的偏移计算,如下:
Figure BDA0003354301940000291
在使用确定的仿射参数计算运动细化之后,视频编码器200和/或视频解码器300可以被配置为将这些值除以2。
技术2
在本公开的技术2中,移除梯度计算中的移位操作,例如,将shift1设置为等于0。通过移除移位操作,可以简化视频编解码器实施,并且可以提高执行BDOF的速度。因此,视频编码器200和/或视频解码器300可以被配置为实施修改后的偏移计算,如下:
Figure BDA0003354301940000292
其中nc-1表示运动细化的精度。视频编码器200和/或视频解码器300可以被配置为实施修改后的运动细化计算,如下:
Figure BDA0003354301940000293
Figure BDA0003354301940000294
nb、na的值被设置为使得nb-na=nc-1。
在一个示例中,nc=6、nb=6、na=1。
技术3
在技术3的一个示例中,视频编码器200和/或视频解码器300可以被配置为将shift1的值设置为1。通过将shiftl的值设置为1,用于计算梯度的精度与中间值保持相同。因此,编解码器实施被简化,因为更多的操作被保持在相同的比特范围内。因此,视频编码器200和/或视频解码器300可以被配置为实施修改后的偏移计算,如下:
Figure BDA0003354301940000301
其中nc表示运动细化的精度。视频编码器200和/或视频解码器300可以被配置为实施修改后的运动细化计算,如下:
Figure BDA0003354301940000302
Figure BDA0003354301940000303
在该示例中,nb=1,na=0,并且视频编码器200和/或视频解码器300可以被配置为计算梯度的修改后的自相关和互相关(例如,S1、S2、S3、S5和S6),如下:
S1=(∑(i,j)∈Ωψx(i,j)·ψx(i,j))>>shift3,S3=(∑(i,j)∈Ωθ(i,j)·ψx(i,j))>>shift4
S2=(∑(i,j)∈Ωψx(i,j)·ψy(i,j))>>shift3
S5=(∑(i,j)∈Ωψy(i,j)·ψy(i,j))>>shift3,S6=(∑(i,j)∈Ωθ(i,j)·ψy(i,j))>>shift4
其中shift3=2*InternalPrec+1+6-(32-nc),shift4=shift3-nc。InternalPrec是用于运动补偿的内部预测精度。
在一个示例中,shfit1=1,nc=6,并且InternalPrec=14。
在另一个示例中,shiftl被设置为等于0,shift3=2*InternalPrec+1+6-(32-nc)+1,shift4=shift3-nc
图5是示出用于对当前块进行编码的示例方法的流程图。当前块可以包括当前CU。尽管是关于视频编码器200(图1和图2)描述的,但应当理解的是,其他设备可以被配置为执行类似于图5的方法。
在此示例中,视频编码器200首先对当前块进行预测(350)。例如,视频编码器200可以形成当前块的预测块。作为一个示例,根据本公开的技术,视频编码器200可以使用双预测和BDOF来形成预测块。图7和图8是示出用于使用本公开的双预测和BDOF技术对块进行预测的示例技术的流程图。然后,视频编码器200可以计算当前块的残差块(352)。为了计算残差块,视频编码器200可以计算原始的、未编码的块与当前块的预测块之间的差。然后,视频编码器200可以对残差块的系数进行变换和量化(354)。接下来,视频编码器200可以扫描残差块的量化的变换系数(356)。在扫描期间或在扫描之后,视频编码器200可以对系数进行熵编码(358)。例如,视频编码器200可以使用CAVLC或CABAC对系数进行编码。然后,视频编码器200可以输出块的熵编解码的数据(360)。
图6是示出用于对当前视频的数据块进行解码的示例方法的流程图。当前块可以包括当前CU。尽管是关于视频解码器300(图1和图3)描述的,但是应当理解,其他设备可以被配置为执行类似于图6的方法。
视频解码器300可以接收当前块的熵编解码的数据,诸如熵编解码的预测信息和与当前块相对应的残差块的系数的熵编解码的数据(370)。视频解码器300可以对熵编解码的数据进行解码以确定当前块的预测信息并再现残差块的系数(372)。视频解码器300可以对当前块进行预测(374),例如,使用由当前块的预测信息所指示的帧内或帧间预测模式,以计算当前块的预测块。作为一个示例,根据本公开的技术,视频解码器300可以使用双预测和BDOF来计算预测块。图7和图8是示出用于使用本公开的双预测和BDOF技术对块进行预测的示例技术的流程图。然后,视频解码器300可以逆扫描再现的系数(376),以创建量化的变换系数的块。然后,视频解码器300可以对系数进行逆量化和逆变换以产生残差块(378)。视频解码器300可以通过组合预测块和残差块来最终解码当前块(380)。
图7是示出根据本公开的技术的示例BDOF编解码方法的流程图。如上所述,图7的技术可以由视频编码器200和视频解码器300两者执行。例如,视频编码器200和视频解码器300可以接收视频数据的当前块(700),以及使用双预测和双向光流对视频数据的当前块进行编解码,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作(702)。在一个示例中,视频编码器200和视频解码器300可以被配置为使用以下等式执行双向光流的偏移计算:
Figure BDA0003354301940000311
其中,b(x,y)是偏移,(vx,vy)是运动矢量细化,
Figure BDA0003354301940000312
是第一参考画面列表的水平梯度,
Figure BDA0003354301940000321
是第二参考画面列表的水平梯度,
Figure BDA0003354301940000322
是第一参考画面列表的垂直梯度,并且
Figure BDA0003354301940000323
是第二参考画面列表的垂直梯度。
另外,视频编码器200和视频解码器300可以被配置为针对双向光流执行运动矢量细化计算,其中运动矢量细化计算被补偿以考虑不包括除以2的偏移计算。
例如,视频编码器200和视频解码器300可以被配置为使用以下等式执行双向光流的运动矢量细化计算:
Figure BDA0003354301940000324
Figure BDA0003354301940000325
Figure BDA0003354301940000326
其中S1、S2、S3、S5和S6是水平梯度和垂直梯度的自相关和互相关,并且-th′BIO是阈值。
图8是更详细地示出图7的示例BDOF编解码方法的流程图。特别地,图8示出用于使用双预测和双向光流对视频数据的当前块进行编解码的示例过程,其中双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作(702)。
视频编码器200和视频解码器300可以针对视频数据的当前块的每个子块从第一参考画面列表(例如,列表0)确定第一预测样本(800),并且可以针对视频数据的当前块的每个子块从第二参考画面列表(例如,列表1)确定第二预测样本(802)。在一个示例中,视频数据的当前块的子块是4x4子块。然而,本公开的技术适用于与任何尺寸的块或子块一起使用。
然后,视频编码器200和视频解码器300可以从针对每个子块的第一预测样本和第二预测样本确定每个子块的水平梯度和垂直梯度(804)。视频编码器200和视频解码器300还可以确定每个子块的水平梯度和垂直梯度的自相关和互相关(806)。
然后,视频编码器200和视频解码器300可以根据每个子块的水平梯度和垂直梯度的自相关和互相关,使用每个子块的运动矢量细化计算来确定运动细化(808)。如上所述,视频编码器200和视频解码器300可以通过相对于用于确定运动细化的其他技术添加除以2来确定运动细化。然后,视频编码器200和视频解码器300可以基于每个子块的运动细化、水平梯度和垂直梯度,使用每个子块的偏移计算来确定偏移(810)。如上所述,视频编码器200和视频解码器300可以被配置为在偏移计算中不使用舍入操作或除以2中的一个或多个操作来确定偏移。
然后,视频编码器200和视频解码器300可以基于每个子块的偏移、第一预测样本和第二预测样本,确定每个子块的最终预测样本以用于双预测(812),并且可以使用每个子块的最终预测样本对视频数据的当前块进行编解码(814)。在视频编码的上下文中,视频编码器200可以从每个子块的样本中减去为当前编解码的块的每个子块确定的最终预测样本,以确定残差块。然后,如上所述,可以对残差块进行变换、量化和熵编解码。在视频解码的上下文中,视频解码器300可以使用上述BDOF技术对编码的视频数据进行解码以获得残差块并确定最终预测样本。然后,视频解码器300可以将当前编解码的块的每个子块的最终预测样本加到解码的残差块的对应样本上,以重建当前编解码的块。
下面列出本公开的附加说明性示例。
示例1-一种对视频数据进行编解码的方法,该方法包括:接收视频数据的块,以及使用双预测和简化的双向光流对视频数据的块进行编解码,其中简化的双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
示例2-根据示例1的方法,其中简化的双向光流的偏移计算包括:
Figure BDA0003354301940000331
示例3-根据示例2的方法,其中简化的双向光流的运动矢量细化计算包括:
Figure BDA0003354301940000332
Figure BDA0003354301940000333
示例4-根据示例2的方法,其中简化的双向光流的运动矢量细化计算包括:
Figure BDA0003354301940000334
Figure BDA0003354301940000335
示例5-一种对视频数据进行编解码的方法,该方法包括:接收视频数据的块;以及使用仿射预测和简化的双向光流对视频数据的块进行编解码,其中简化的双向光流的偏移计算包括:
Figure BDA0003354301940000341
示例6-一种对视频数据进行编解码的方法,该方法包括:接收视频数据的块,以及使用双预测和简化的双向光流对视频数据的块进行编解码,其中简化的双向光流在梯度计算中不包括移位操作。
示例7-根据示例6的方法,其中简化的双向光流的梯度计算包括:
Figure BDA0003354301940000342
示例8-根据示例6的方法,其中简化的双向光流的运动矢量细化计算包括:
Figure BDA0003354301940000343
Figure BDA0003354301940000344
示例9-一种对视频数据进行编解码的方法,该方法包括:接收视频数据的块,以及使用双预测和简化的双向光流对视频数据的块进行编解码,其中简化的双向光流将shift1值设置为1。
示例10-根据示例9的方法,其中简化的双向光流的偏移计算包括:
Figure BDA0003354301940000345
示例11-根据示例9的方法,其中简化的双向光流的运动细化计算包括:
Figure BDA0003354301940000346
Figure BDA0003354301940000351
示例12-根据示例9的方法,其中简化的双向光流的自相关和互相关计算包括:
S1=(∑(i,j)∈Ωψx(i,j)·ψx(i,j))>>shift3,S3=(∑(i,j)∈Ωθ(i,j)·ψx(i,j))>>shift4
S2=(∑(i,j)∈Ωψx(i,j)·ψy(i,j))>>shift3
S5=(∑(i,j)∈Ωψy(i,j)·ψy(i,j))>>shift3 S6=(∑(i,j)∈Ωθ(i,j)·ψy(i,j))>>shift4
示例13-根据示例1-示例12中任一项的方法,其中编解码包括解码。
示例14-根据示例1-示例12中任一项的方法,其中编解码包括编码。
示例15-一种用于对视频数据进行编解码的设备,该设备包括用于执行示例1-示例14中任一项的方法的一个或多个部件。
示例16-根据示例15的设备,其中该一个或多个部件包括在电路中实施的一个或多个处理器。
示例17-根据示例15和示例16中任一项的设备,还包括用于存储视频数据的存储器。
示例18-根据示例15-示例17中任一项的设备,还包括被配置为显示解码的视频数据的显示器。
示例19-根据示例15-示例18中任一项的设备,其中该设备包括相机、计算机、移动设备、广播接收器设备或机顶盒中的一个或多个。
示例20-根据示例15-示例19中任一项的设备,其中该设备包括视频解码器。
示例21-根据示例15-示例20中任一项的设备,其中该设备包括视频编码器。
示例22-一种在其上存储指令的计算机可读存储介质,当所述指令被执行时使一个或多个处理器执行示例1-示例14中任一项的方法。
应认识到,取决于示例,本文中描述的任何技术的某些动作或事件可以以不同的序列执行,可以被一起添加、合并或省去(例如,不是所有描述的动作或事件是技术实践所必须的)。此外,在某些示例中,动作或事件可以,例如通过多线程处理、中断处理或多个处理器并发地处理而不是顺序地执行。
在一个或多个示例中,可以以硬件、软件、固件或它们的任意组合来实施所描述的功能。如果以软件实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输,并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质,其对应于诸如数据存储介质的有形介质,或者通信介质,其包括例如根据通信协议来促进将计算机程序从一个地方转移到另一个地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质,或者(2)诸如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以检索用于实施本公开中描述的技术的指令、代码和/或数据结构任何可用介质。计算机程序产品可以包括计算机可读介质。
作为示例而非限制,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁性存储设备、闪存或可以用于以指令或数据结构形式存储所需程序代码并且可以由计算机访问的任何其他介质。此外,任何连接都适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或诸如红外、无线电和微波的无线技术从网站、服务器或其他远程源发送指令,则介质的定义包括同轴电缆、光纤电缆、双绞线、DSL或诸如红外、无线电和微波的无线技术。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质,而是针对非暂时性有形存储介质。如本文中使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常以磁性方式再现数据,而光盘用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。
指令可以由一个或多个处理器执行,诸如一个或多个DSP、通用微处理器、ASIC、FPGA或其他等效集成的或离散逻辑电路。因此,如本文中所使用的术语“处理器”和“处理电路”可以是指任何前述结构或适合于实施本文描述的技术的任何其他结构。另外,在一些方面,本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或合并在组合的编解码器中。同样,该技术可以在一个或多个电路或者逻辑元件中完全实施。
本公开的技术可以在包括无线手机、集成电路(IC)或一组IC(例如,芯片组)的各种设备或装置中实施。在本公开中描述各种组件、模块或单元以强调被配置为执行所公开技术的设备的功能方面,但不一定需要由不同硬件单元来实现。而是,如上所述,各种单元可以结合合适的软件和/或固件被组合在编解码器硬件单元中,或者由互操作硬件单元的集合来提供,包括如上所述的一个或多个处理器。
已经描述了各种示例。这些和其他示例在所附权利要求的范围内。

Claims (25)

1.一种对视频数据进行编解码的方法,所述方法包括:
接收视频数据的当前块;以及
使用双预测和双向光流对所述视频数据的当前块进行编解码,其中,所述双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
2.根据权利要求1所述的方法,还包括:
使用以下等式执行所述双向光流的所述偏移计算:
Figure FDA0003354301930000011
其中,b(x,y)是偏移,(vx,vy)是运动矢量细化,
Figure FDA0003354301930000012
是第一参考画面列表的水平梯度,
Figure FDA0003354301930000013
是第二参考画面列表的水平梯度,
Figure FDA0003354301930000014
是第一参考画面列表的垂直梯度,并且
Figure FDA0003354301930000015
是第二参考画面列表的垂直梯度。
3.根据权利要求2所述的方法,还包括:
针对所述双向光流执行运动矢量细化计算,其中所述运动矢量细化计算被补偿以考虑不包括所述除以2的所述偏移计算。
4.根据权利要求3所述的方法,还包括:
使用以下等式执行所述双向光流的所述运动矢量细化计算:
Figure FDA0003354301930000016
Figure FDA0003354301930000017
Figure FDA0003354301930000018
其中S1、S2、S3、S5和S6是所述水平梯度和所述垂直梯度的自相关和互相关,并且-th′BIO是阈值。
5.根据权利要求4所述的方法,其中,使用双预测和双向光流对所述视频数据的当前块进行编解码包括:
针对所述视频数据的当前块的每个子块从所述第一参考画面列表中确定第一预测样本;
针对所述视频数据的当前块的每个子块从所述第二参考画面列表中确定第二预测样本;
从针对每个子块的所述第一预测样本和所述第二预测样本确定每个子块的所述水平梯度和所述垂直梯度;
确定每个子块的所述水平梯度和所述垂直梯度的所述自相关和所述互相关;
根据每个子块的所述水平梯度和所述垂直梯度的所述自相关和所述互相关,使用每个子块的所述运动矢量细化计算来确定所述运动细化;
基于每个子块的所述运动细化、所述水平梯度和所述垂直梯度,使用每个子块的所述偏移计算来确定所述偏移;
基于每个子块的所述偏移、所述第一预测样本和所述第二预测样本,确定每个子块的最终预测样本以用于双预测;以及
使用每个子块的所述最终预测样本对所述视频数据的当前块进行编解码。
6.根据权利要求5所述的方法,其中,所述视频数据的当前块的每个子块是4x4子块。
7.根据权利要求1所述的方法,其中,编解码包括解码,所述方法还包括:
显示包括所编解码的视频数据的当前块的画面。
8.根据权利要求1所述的方法,其中,编解码包括编码,所述方法还包括:
捕获包括所述视频数据的当前块的画面。
9.一种被配置为对视频数据进行编解码的装置,所述装置包括:
存储器,其被配置为存储视频数据的当前块;以及
与所述存储器通信的一个或多个处理器,所述一个或多个处理器被配置为:
接收所述视频数据的当前块;以及
使用双预测和双向光流对所述视频数据的当前块进行编解码,其中,所述双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
10.根据权利要求9所述的装置,其中,所述一个或多个处理器还被配置为:
使用以下等式执行所述双向光流的所述偏移计算:
Figure FDA0003354301930000021
其中,b(x,y)是偏移,(vx,vy)是运动矢量细化,
Figure FDA0003354301930000022
是第一参考画面列表的水平梯度,
Figure FDA0003354301930000023
是第二参考画面列表的水平梯度,
Figure FDA0003354301930000024
是第一参考画面列表的垂直梯度,并且
Figure FDA0003354301930000031
是第二参考画面列表的垂直梯度。
11.根据权利要求10所述的装置,其中,所述一个或多个处理器还被配置为:
针对所述双向光流执行运动矢量细化计算,其中所述运动矢量细化计算被补偿以考虑不包括所述除以2的所述偏移计算。
12.根据权利要求11所述的装置,其中,所述一个或多个处理器还被配置为:
使用以下等式执行所述双向光流的所述运动矢量细化计算:
Figure FDA0003354301930000032
Figure FDA0003354301930000033
Figure FDA0003354301930000034
其中S1、S2、S3、S5和S6是所述水平梯度和所述垂直梯度的自相关和互相关,并且-th′BIO是阈值。
13.根据权利要求12所述的装置,其中,为了使用双预测和双向光流对所述视频数据的当前块进行编解码,所述一个或多个处理器还被配置为:
针对所述视频数据的当前块的每个子块从所述第一参考画面列表中确定第一预测样本;
针对所述视频数据的当前块的每个子块从所述第二参考画面列表中确定第二预测样本;
从针对每个子块的所述第一预测样本和所述第二预测样本确定每个子块的所述水平梯度和所述垂直梯度;
确定每个子块的所述水平梯度和所述垂直梯度的所述自相关和所述互相关;
根据每个子块的所述水平梯度和所述垂直梯度的所述自相关和所述互相关,使用每个子块的所述运动矢量细化计算来确定所述运动细化;
基于每个子块的所述运动细化、所述水平梯度和所述垂直梯度,使用每个子块的所述偏移计算来确定所述偏移;
基于每个子块的所述偏移、所述第一预测样本和所述第二预测样本,确定每个子块的最终预测样本以用于双预测;以及
使用每个子块的所述最终预测样本对所述视频数据的当前块进行编解码。
14.根据权利要求13所述的装置,其中,所述视频数据的当前块的每个子块是4x4子块。
15.根据权利要求9所述的装置,其中,所述装置被配置为对视频数据进行解码,所述装置还包括:
显示器,其被配置为显示包括所编解码的视频数据的当前块的画面。
16.根据权利要求9所述的装置,其中,所述装置被配置为对视频数据进行编码,所述装置还包括:
相机,其被配置为捕获包括所述视频数据的当前块的画面。
17.根据权利要求9所述的装置,其中,所述装置是无线通信设备。
18.一种存储指令的非暂时性计算机可读存储介质,其中,当所述指令被执行时,使被配置为对视频数据进行编解码的设备的一个或多个处理器:
接收视频数据的当前块;以及
使用双预测和双向光流对所述视频数据的当前块进行编解码,其中,所述双向光流在偏移计算中不包括舍入操作或除以2中的一个或多个操作。
19.根据权利要求18所述的非暂时性计算机可读存储介质,其中,指令还使所述一个或多个处理器:
使用以下等式执行所述双向光流的所述偏移计算:
Figure FDA0003354301930000041
其中,b(x,y)是偏移,(vx,vy)是运动矢量细化,
Figure FDA0003354301930000042
是第一参考画面列表的水平梯度,
Figure FDA0003354301930000043
是第二参考画面列表的水平梯度,
Figure FDA0003354301930000044
是第一参考画面列表的垂直梯度,并且
Figure FDA0003354301930000045
是第二参考画面列表的垂直梯度。
20.根据权利要求19所述的非暂时性计算机可读存储介质,其中,指令还使所述一个或多个处理器:
针对所述双向光流执行运动矢量细化计算,其中所述运动矢量细化计算被补偿以考虑不包括所述除以2的所述偏移计算。
21.根据权利要求20所述的非暂时性计算机可读存储介质,其中,指令还使所述一个或多个处理器:
使用以下等式执行所述双向光流的所述运动矢量细化计算:
Figure FDA0003354301930000046
Figure FDA0003354301930000047
Figure FDA0003354301930000051
其中S1、S2、S3、S5和S6是所述水平梯度和所述垂直梯度的自相关和互相关,并且-th′BIO是阈值。
22.根据权利要求21所述的非暂时性计算机可读存储介质,其中,为了使用双预测和双向光流对所述视频数据的当前块进行编解码,所述指令还使所述一个或多个处理器:
针对所述视频数据的当前块的每个子块从所述第一参考画面列表中确定第一预测样本;
针对所述视频数据的当前块的每个子块从所述第二参考画面列表中确定第二预测样本;
从针对每个子块的所述第一预测样本和所述第二预测样本确定每个子块的所述水平梯度和所述垂直梯度;
确定每个子块的所述水平梯度和所述垂直梯度的所述自相关和所述互相关;
根据每个子块的所述水平梯度和所述垂直梯度的所述自相关和所述互相关,使用每个子块的所述运动矢量细化计算来确定所述运动细化;
基于每个子块的所述运动细化、所述水平梯度和所述垂直梯度,使用每个子块的所述偏移计算来确定所述偏移;
基于每个子块的所述偏移、所述第一预测样本和所述第二预测样本,确定每个子块的最终预测样本以用于双预测;以及
使用每个子块的所述最终预测样本对所述视频数据的当前块进行编解码。
23.根据权利要求22所述的非暂时性计算机可读存储介质,其中,所述视频数据的当前块的每个子块是4x4子块。
24.根据权利要求18所述的非暂时性计算机可读存储介质,其中,所述一个或多个处理器被配置为对视频数据进行解码,并且其中指令还使所述一个或多个处理器:
显示包括所编解码的视频数据的当前块的画面。
25.根据权利要求18所述的非暂时性计算机可读存储介质,其中,所述一个或多个处理器被配置为对视频数据进行编码,并且其中指令还使所述一个或多个处理器:
捕获包括所述视频数据的当前块的画面。
CN202080036042.4A 2019-05-22 2020-04-27 用于视频编解码中的双向光流计算的简化的方法和设备 Active CN113940078B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962851327P 2019-05-22 2019-05-22
US62/851,327 2019-05-22
US16/858,046 2020-04-24
US16/858,046 US11089328B2 (en) 2019-05-22 2020-04-24 Bi-directional optical flow in video coding
PCT/US2020/030064 WO2020236400A1 (en) 2019-05-22 2020-04-27 Simplification of bi-directional optical flow calculation in video coding

Publications (2)

Publication Number Publication Date
CN113940078A true CN113940078A (zh) 2022-01-14
CN113940078B CN113940078B (zh) 2023-01-10

Family

ID=73456423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080036042.4A Active CN113940078B (zh) 2019-05-22 2020-04-27 用于视频编解码中的双向光流计算的简化的方法和设备

Country Status (9)

Country Link
US (1) US11089328B2 (zh)
EP (1) EP3973706A1 (zh)
JP (1) JP2022527670A (zh)
KR (1) KR102423655B1 (zh)
CN (1) CN113940078B (zh)
BR (1) BR112021022384A2 (zh)
SG (1) SG11202111582QA (zh)
TW (1) TW202101994A (zh)
WO (1) WO2020236400A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4054191A1 (en) * 2018-09-14 2022-09-07 Panasonic Intellectual Property Corporation of America Encoding device, decoding device, encoding method, and decoding method
US11153598B2 (en) * 2019-06-04 2021-10-19 Tencent America LLC Method and apparatus for video coding using a subblock-based affine motion model
TW202408243A (zh) * 2022-05-16 2024-02-16 聯發科技股份有限公司 用於視頻編解碼的解碼器側運動向量優化和雙向光流的方法和裝置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018166357A1 (en) * 2017-03-16 2018-09-20 Mediatek Inc. Method and apparatus of motion refinement based on bi-directional optical flow for video coding
CN108781294A (zh) * 2016-02-05 2018-11-09 联发科技股份有限公司 用于视频编解码的基于双向预测光流技术的运动补偿方法及装置
US20190020895A1 (en) * 2017-06-28 2019-01-17 Futurewei Technologies, Inc. Decoder Side Motion Vector Refinement in Video Coding

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10375413B2 (en) * 2015-09-28 2019-08-06 Qualcomm Incorporated Bi-directional optical flow for video coding
CN116708783A (zh) * 2016-07-12 2023-09-05 韩国电子通信研究院 图像编码/解码方法以及用于该方法的记录介质
CN117221575A (zh) * 2016-10-04 2023-12-12 英迪股份有限公司 图像解码方法、图像编码方法以及发送比特流的方法
US20220109871A1 (en) * 2019-01-14 2022-04-07 InterDigitai VC Holdings, Inc. Method and apparatus for video encoding and decoding with bi-directional optical flow adapted to weighted prediction
JP2020170901A (ja) * 2019-04-01 2020-10-15 シャープ株式会社 予測画像生成装置、動画像復号装置および動画像符号化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108781294A (zh) * 2016-02-05 2018-11-09 联发科技股份有限公司 用于视频编解码的基于双向预测光流技术的运动补偿方法及装置
WO2018166357A1 (en) * 2017-03-16 2018-09-20 Mediatek Inc. Method and apparatus of motion refinement based on bi-directional optical flow for video coding
US20190020895A1 (en) * 2017-06-28 2019-01-17 Futurewei Technologies, Inc. Decoder Side Motion Vector Refinement in Video Coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANLE CHEN等: "Algorithm description for Versatile Video Coding and Test Model 4 (VTM 4)", 《JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 13TH MEETING: MARRAKECH, MA, 9–18 JAN. 2019》, 19 March 2019 (2019-03-19), pages 3 *

Also Published As

Publication number Publication date
BR112021022384A2 (pt) 2021-12-28
WO2020236400A1 (en) 2020-11-26
US20200374550A1 (en) 2020-11-26
TW202101994A (zh) 2021-01-01
SG11202111582QA (en) 2021-12-30
KR102423655B1 (ko) 2022-07-20
KR20210145827A (ko) 2021-12-02
JP2022527670A (ja) 2022-06-02
EP3973706A1 (en) 2022-03-30
CN113940078B (zh) 2023-01-10
US11089328B2 (en) 2021-08-10

Similar Documents

Publication Publication Date Title
US20200296405A1 (en) Affine motion compensation refinement using optical flow
CN114731417B (zh) 交叉分量自适应环路滤波器
CN112840646A (zh) 仿射运动预测
CN112119636A (zh) 视频编码中高精度运动矢量的存储
JP7463399B2 (ja) ビデオコーディングのための勾配ベースの予測改良
CN113812157A (zh) 用于视频译码的基于置零模式的低频不可分离变换信号通知
TW202123699A (zh) 具有協調的運動場儲存及運動補償的幾何分區模式
CN114258675A (zh) 用于视频编码的跨分量自适应环路滤波
CN112385223A (zh) 取决于模式的帧内平滑(mdis)与帧内内插滤波器切换的组合
CN113853784A (zh) 用于视频译码的多个自适应环路滤波器集合
CN112913234A (zh) 广角帧内预测平滑与插值
CN112673636B (zh) 将运动向量取整以自适应运动向量差分辨率及提高视频译码中的运动向量存储精度
US11418793B2 (en) Adaptive affine motion vector coding
CN112385233A (zh) 合并的依赖模式的帧内平滑(mdis)与具有依赖位置的帧内预测组合(pdpc)的内插值滤波器切换
US11102476B2 (en) Subblock based affine motion model
CN114223202A (zh) 低频不可分离变换(lfnst)信令
CN113940078B (zh) 用于视频编解码中的双向光流计算的简化的方法和设备
CN111602395A (zh) 用于视频译码的量化组
CN113950839A (zh) 用于视频译码的基于梯度的预测精化
CN113545054A (zh) 视频编解码中子块变换的简化
CN114402620A (zh) 用于视频编解码的交叉分量自适应环路滤波的比特移位
CN114375575A (zh) 用于视频编解码的高层语法中的子图片信令
CN113330744A (zh) 视频编解码中用于并行处理的处理区域的推导
CN114402608A (zh) 视频编解码中bdof和dmvr的协调早期终止
CN113615178A (zh) 视频译码中的色度帧内预测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40067721

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant