CN110636296B - 视频解码方法、装置、计算机设备以及存储介质 - Google Patents

视频解码方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN110636296B
CN110636296B CN201910506085.3A CN201910506085A CN110636296B CN 110636296 B CN110636296 B CN 110636296B CN 201910506085 A CN201910506085 A CN 201910506085A CN 110636296 B CN110636296 B CN 110636296B
Authority
CN
China
Prior art keywords
weighting factor
reconstructed
previous
encoded
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910506085.3A
Other languages
English (en)
Other versions
CN110636296A (zh
Inventor
夜静
刘杉
史蒂芬·文格尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/233,979 external-priority patent/US10547835B2/en
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN110636296A publication Critical patent/CN110636296A/zh
Application granted granted Critical
Publication of CN110636296B publication Critical patent/CN110636296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

一种视频解码方法,用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码。所述方法包括:根据所述已编码视频序列重建在先加权因子,所述在先加权因子应用于先前已重建的PU;基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权。

Description

视频解码方法、装置、计算机设备以及存储介质
本申请要求2018年6月22日提交的申请号为62/688,896的美国申请以及2018年12月27日提交的申请号为16/233,979的美国申请的优先权,所述两个申请所公开的内容以全文引用的方式并入本文中。
技术领域
本申请涉及视频编码及解码技术,具体而言,涉及用于采样预测的双向及多向预测中加权因子的预测。
背景技术
使用具有运动补偿的帧间图像预测的视频编码及解码为人们所知已有数十年了。未压缩的数字视频可包括一系列的图像,每个图像具有一定的空间维度,例如,具有1920×1080的亮度采样和相关的色度采样。所述一系列的图像可以具有固定的或可变的图像速率(非正式地,也称作帧速率),例如,每秒60个图像或60赫兹(Hz)。未压缩的视频对比特率有着显著的要求。例如,每个采样8比特的1080p60 4:2:0视频(1920×1080的亮度采样分辨率,60赫兹的帧速率)需要接近1.5Gbit/s的带宽。长度为一个小时的这种视频需要超过600GB的存储空间。
视频编码和解码的一个目的可以是通过压缩来减少输入视频信号中的冗余。压缩可有助于降低上述带宽或存储空间的要求,在一些情况下,可降低两个或更多的数量级。无损压缩和有损压缩以及其组合都可以用于视频编码和解码。无损压缩是指可以由压缩的原始信号重建原始信号的精确副本的技术。当使用有损压缩时,重建的信号可能与原始信号不完全一致,但是原始信号与重建的信号之间的失真小得足以使重建的信号可以用于预期应用。有损压缩广泛应用于视频中。有损压缩容许的失真量取决于应用;例如,与电视分发应用的用户相比,某些消费者流媒体应用的用户可以容忍较高的失真。可实现的压缩比可以反映的是:可允许的/可容许的失真越高,可产生越高的压缩比。
视频编码器及解码器可以使用几大类的技术,包括例如运动补偿、变换、量化和熵编码,下面将介绍其中一些技术。
双向预测可以涉及根据两个或两个以上的参考图像的两个经运动补偿的采样块来预测采样块等的预测单元(PU)中的技术。双向预测是首先被引入MPEG-1(正式名称:ISO/IEC 11172-第2部分)中的视频编码标准,而且也包含在其他视频编码技术及标准中,例如,MPEG-2第2部分、H.264、H.265。
在对双向预测的PU采样重建的过程中,来自每个参考块的、经运动补偿和插值的输入采样可以乘以一个加权因子,每个参考块的加权因子可以不同,将这样加权后的两个参考块的采样值相加,生成正在重建的采样。这种采样可以由环路滤波等机制进一步处理。
在MPEG-1及MPEG-2中,可以基于正在重建的PU所属的图像与两个参考图像之间的相对时间距离来确定加权因子。这样是可能的,因为在MPEG-1及MPEG-2中,两个参考I或P图像中有一个是在正在重建的B图像的“过去”,而另一个在其“未来”(根据呈现的顺序),而且因为在MPEG-1及MPEG-2中,任一正在重建的图像与其相关的参考图像有明确定义的时序关系。
从H.264开始,放宽了用于双向预测图像的参考图像的选择的概念,这样仅需参考图像的解码顺序早一些,而不需要其呈现顺序早一些。进一步地,还放宽了时间的概念,因为H.264和H.265都不要求时域上的受限/固定的图像间隔。因此,解码器无法再基于比特流中可获取的时序信息来计算加权因子。相反,H.264和H.265包括一个“缺省值”0.5,作为用于双向预测图像的参考采样的加权因子。这个缺省值可以被称为pred_weight_table()的切片头中的语法覆写。缺省值0.5或pre_weight_table中的信息应用于指定切片中的所有的双向预测PU。
从可获取的标准提案文档JVET-C0047(http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/3_Geneva/wg11/JVET-C0047-v2.zip)中,可知其包括一种可以在PU粒度上在比特流中用信号表示双向预测的PU的加权因子的机制。所述文档展示了与缺省值为0.5的权重相关的编码效率增益,且该机制使用可变长度的码字来指示7个不同的加权因子。加权因子可以由编码器基于例如速率失真优化考虑因素来确定。
发明内容
在一个实施例中,提供了一种视频解码方法,用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码,所述方法包括:根据所述已编码视频序列重建在先加权因子,所述在先加权因子应用于先前已重建的PU;基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权。
在一个实施例中,提供了一种视频解码设备,用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码,所述设备包括:至少一个存储器,用于存储程序代码;至少一个处理器,用于读取所述程序代码,并且按照所述程序代码的指示进行操作,所述程序代码包括:重建代码,用于根据所述已编码视频序列重建在先加权因子,所述在先加权因子应用于先前已重建的PU;推导代码,用于基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;加权代码,用于通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权。
一种视频解码设备,用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码,所述设备包括:
重建模块,用于根据所述已编码视频序列重建在先加权因子,所述在先加权因子应用于先前已重建的PU;
推导模块,用于基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;
加权模块,用于通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权。
在一个实施例中,提供了一种非易失性计算机可读存储介质,存储指令,所述指令包括:一个或多个指令,当由用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码的设备上的一个或多个处理器执行时,所述一个或多个指令使所述一个或多个处理器执行:根据所述已编码视频序列重建在先加权因子,所述在先加权因子应用于先前已重建的PU;基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权。
附图的简要说明
结合以下详细描述和附图,本申请主题的其他特征、本质和各种优点将会变得更加清楚,其中:
图1为根据一个实施例的通信系统的简化框图的示意性图示。
图2为根据另一个实施例的通信系统的简化框图的示意性图示。
图3为根据一个实施例的解码器的简化框图的示意性图示。
图4为根据一个实施例的编码器的简化框图的示意性图示。
图5为根据一个实施例的已编码视频序列的示意性图示,所述已编码视频序列包括有已编码的加权因子的已编码的PU。
图6为根据一个实施例的在空域(spatial domain)中的PU的加权因子预测的示意性图示。
图7A为根据一个实施例的在空域中的PU的采样的加权因子预测的示意性图示。
图7B为根据另一个实施例的在空域中的PU的采样的加权因子预测的示意性图示。
图8为根据一个实施例的解码方法的流程图。
图9为根据一个实施例的计算机系统的示意性图示。
具体实施方式
采用本申请实施例的方案,能够达到如下效果:a)使用已经可以从邻近PU的重建获取的加权信息来预测当前PU的加权因子;b)改进熵编码,以提高编码效率、减少实施复杂度、减少计算复杂度、减少对存储器的需求中的一个或多个效果;c)对于每个采样,而不是对于每个PU,计算和使用预测权重,减少了与JVET-C0047技术有关的基于PU用信号表示加权因子的编码开销。
图1示出了根据本申请实施例的通信系统(100)的简化框图。通信系统(100)可以包括至少两个终端(110-120),所述至少两个终端通过网络(150)彼此互连。对于单向数据传输,第一终端(110)可以在本地位置对视频数据进行编码,以通过网络(150)传输给另一终端(120)。第二终端(120)可以从网络(150)接收另一终端的编码视频数据,对编码视频数据进行解码,并显示恢复的视频数据。单向数据传输在媒体服务等应用中可能是常见的。
图1图示了第二对终端(130,140),用于支持例如视频会议过程中可能会出现的编码视频的双向传输。对于双向数据传输,每个终端(130,140)可以对在本地位置采集的视频数据进行编码,以通过网络(150)传输给另一终端。每个终端(130,140)还可以接收由另一终端传输的编码视频数据,可以对编码视频数据进行解码,并可以在本地显示设备上显示恢复的视频数据。
在图1中,终端(110-140)可以图示为服务器、个人计算机和智能手机,但根据本申请的原理可以不限于此。本申请的实施例可应用于笔记本电脑、平板电脑、媒体播放器和/或专用视频会议设备。网络(150)表示可在终端(110-140)之间传输编码视频数据的任意数量的网络,包括例如有线和/或无线通信网络。通信网络(150)可以在电路交换和/或分组交换信道中交换数据。具有代表性的网络包括电信网络、局域网、广域网和/或互联网。就本申请讨论的目的而言,网络(150)的架构和拓扑结构对于本申请的操作无关紧要,除非下文另有说明。
作为本申请主题的应用的一个示例,图2示出了视频编码器和视频解码器在流媒体环境中的放置。本申请的主题同样可适用于其他支持视频的应用场合,包括例如,视频会议、数字电视以及在CD、DVD、记忆棒等数字媒体上存储压缩视频等。
流媒体系统可包括采集子系统(213),该采集子系统(213)可包括视频源(201),例如,数字摄像头,用于创建例如未压缩的视频采样流(202)。采样流(202),在图中用粗线示出,强调与编码视频比特流相比,其数据量很高,其可以由耦接到摄像头(201)的编码器(203)进行处理。编码器(203)可以包括硬件、软件或其组合,以实现或实施下文详述的本申请主题的各个方面。编码视频比特流(204),在图中用细线描绘,强调与采样流相比,其数据量较低,其可以存储在流媒体服务器(205)上,以供后续使用。一个或多个流媒体客户端(206,208)可以访问流媒体服务器(205)以检索编码视频比特流(204)的副本(207,209)。客户端(206)可以包括视频解码器(210),该视频解码器(210)对输入的编码视频比特流(207)的副本进行解码,并生成可以在显示器(212)或其他渲染设备(未示出)上渲染的输出的视频采样流(211)。在一些流媒体系统中,可以根据某些视频编码/压缩标准对视频比特流(204,207,209)进行编码。这些标准例如包括ITU-T推荐标准H.265。目前正在开发的视频编码标准通俗称为多功能视频编码(Versatile Video Coding,VCC)的视频编码标准。本申请主题可以在VVC背景下使用。
图3可以是根据本申请实施例的视频解码器(210)的功能框图。
接收器(310)可以接收待由解码器(210)解码的一个或多个编解码视频序列;在同一个实施例中或者在另一个实施例中,一次接收一个已编码视频序列,其中,每个已编码视频序列的解码独立于其他已编码视频序列。已编码视频序列可通过信道(312)接收,信道(312)可为连接到存储编码视频数据的存储设备的硬件/软件链路。接收器(310)可以接收编码视频数据和其他数据,例如编码的音频数据和/或辅助数据流,这些数据可以转发至各自的使用实体(未示出)上。接收器(310)可以将已编码视频序列与其他数据分开。为了防止网络抖动,可以在接收器(310)和熵解码器/解析器(320)(下文称为“解析器”)之间耦接一个缓冲存储器(315)。当接收器(310)从具有足够带宽及可控性的存储/转发设备、或从等时同步网络接收数据时,可能不需要所述缓冲存储器(315),或者缓冲存储器(315)可以很小。在互联网等尽力而为的分组网络上使用,可能需要缓冲存储器(315),而且缓冲存储器(315)可以相对较大,且有利地具有自适应的大小。
视频解码器(210)可以包括解析器(320),用于从已熵编码的视频序列中重建符号(321)。这些符号的类别包括用于管理视频解码器(210)操作的信息,以及可能会用于控制显示器(212)等渲染设备的信息,所述渲染设备不是解码器的组成部分、但可以耦接到解码器上,如图3所示。用于渲染设备的控制信息可以是辅助增强信息(SupplementalEnhancement Information,SEI消息)或视频可用性信息(Video Usability Information,VUI)参数集片段(未示出)的形式。解析器(320)可以对接收到的已编码视频序列进行解析/熵解码。已编码视频序列可以根据视频编码技术或标准并遵循可变长度编码、霍夫曼编码、具有或不具有上下文敏感性的算术编码等原理进行编码。解析器(320)可以基于与群组相对应的至少一个参数,从已编码视频序列中提取一组子群参数,用于视频解码器中的至少一个像素子群。子群可以包括图像组(Group of Pictures,GOP)、图像、图块、切片、宏块、编码单元(CU)、区块、变换单元(TU)、预测单元(PU)等。熵解码器/解析器还可以从已编码视频序列中提取变换系数、量化器参数(QP)值、运动矢量等信息。
解析器(320)可以对从缓冲存储器(315)接收的视频序列进行熵解码/解析,以生成符号(321)。解析器(320)可以接收编码数据,并且有选择地对特定的符号(321)进行解码。进一步地,解析器(320)可以确定是否将所述特定的符号(321)提供给运动补偿预测单元(353)、缩放器/逆变换单元(351)、帧内预测单元(352)或环路滤波器(356)。
符号(321)的重建可以涉及多个不同的单元,取决于编码视频图像或其部分(例如:帧间和帧内图像,帧间和帧内块)的类型以及其他因素。涉及哪些单元以及如何涉及,可以由解析器(320)从已编码视频序列中解析出的子群控制信息控制。为清楚起见,下文没有详述解析器(320)与多个单元之间的这种子群控制信息的流程。
除前文已提及的功能块之外,解码器(210)还可在概念上细分为多个功能单元,如下文所述。在商业约束下运作的实际实施中,这些单元中的许多单元彼此紧密交互,并且可以至少部分地互相集成。然而,为了描述本申请主题,适当地将解码器在概念上细分为以下功能单元。
第一单元为缩放器/逆变换单元(351)。缩放器/逆变换单元(351)从解析器(320)接收量化的变换系数以及控制信息,包括使用哪种变换、块大小、量化因子、量化缩放矩阵等,作为符号(621)。缩放器/逆变换单元(351)可以输出包括采样值的块,包含采样值的块可以输入到聚合器中。
在一些情况下,缩放器/逆变换单元(351)的输出采样可以与帧内编码块相关;即:不使用来自先前已重建的图像的预测信息,而是可以使用来自当前图像的先前已重建部分的预测信息的块。此类预测信息可以由帧内预测单元(352)提供。在一些情况下,帧内预测单元(352)使用从当前(部分已重建的)图像(356)提取的周围已重建的信息,生成与正在重建的块大小和形状相同的块。在一些情况下,聚合器(355)在每个采样的基础上,将帧内预测单元(352)已经生成的预测信息添加至由缩放器/逆变换单元(351)提供的输出采样信息上。
在另一些情况下,缩放器/逆变换单元(351)的输出采样可以与经帧间编码且可能经运动补偿的块相关。在这种情况下,运动补偿预测单元(353)可以访问参考图像缓冲器(357),以获取用于预测的采样。在根据与所述块相关的符号(321)对所获取的采样进行运动补偿后,这些采样可以通过聚合器(355)添加到缩放器/逆变换单元的输出(在这种情况下称为残差采样或残差信号),从而生成输出采样信息。运动补偿预测单元从参考图像缓冲器中获取预测采样的地址可以通过运动矢量进行控制,并通过符号(321)的形式,例如X、Y及参考图像分量,应用于运动补偿预测单元。运动补偿还可以包括在使用子采样精确运动矢量时,从参考图像缓冲器中提取的采样值插值、运动矢量预测机制等。
聚合器(355)的输出采样可以在环路滤波单元(356)中,经过各种环路滤波技术进行处理。视频压缩技术可以包括环路内滤波器技术,环路内滤波器技术由编码视频比特流中包含的参数控制,所述参数以来自解析器(320)的符号(321)的形式可由环路滤波单元(356)使用,但环路内滤波技术也可以对在对先前(按解码顺序)编码图像或已编码视频序列的部分进行解码的过程中所获得的元信息作出响应,以及对先前已重建且经过环路滤波的采样值作出响应。
环路滤波单元(356)的输出可以为采样流,该采样流可以输出到渲染设备(212),并且可以存储在参考图像缓冲器(357)内,用于后续进行帧间图像预测。
某些编码图像,一旦完全重建,可以用作后续预测的参考图像。一旦对编码图像完全重建,且编码图像被(例如,解析器(320))标识为参考图像,当前图像(358)可以成为参考图像缓冲器(357)的一部分,并且可以在开始对后续编码图像进行重建之前,对新的当前图像存储器重新分配。
视频解码器(210)可以根据记录在ITU-T推荐标准H.265等标准中的视频压缩技术进行解码操作。已编码视频序列可以遵循所使用的视频压缩技术或标准所规定的语法,就其遵循视频压缩技术或标准中的语法而言,可以按照视频压缩技术文件或标准中的规定,特别是其中的特征文件(profiles document)的规定。对于合规性,已编码视频序列的复杂度也必须在视频压缩技术或标准的级别所规定的范围内。在一些情况下,视频压缩技术或标准的级别限制了最大图像尺寸、最大帧速率、最大重建采样速率(例如,以每秒兆个采样为单位进行测量的)、最大参考图像尺寸等。在一些情况下,视频压缩技术或标准的级别设置的范围,可以进一步通过假想的参考解码器(Hypothetical Reference Decoder,HRD)规范和在已编码视频序列中用信号表示的HRD缓冲管理元数据加以限制。
在一个实施例中,接收器(310)可以接收编码视频的附加(冗余)数据。所述附加数据可以是已编码视频序列的组成部分。所述附加数据可以由视频解码器(210)使用,用于正确解码所述数据和/或者更准确地重建原始视频数据。附加数据可以是例如时间、空间或信噪比(signal-to-noise ratio,SNR)增强层、冗余切片、冗余图像、前向纠错码等形式。
图4可以是根据本申请实施例的视频编码器(203)的功能性框图。
编码器(203)可以从视频源(201)(视频源不属于编码器的一部分)接收视频采样,所述视频源可以采集待编码器(203)编码的视频图像。
视频源(201)可以以数字视频采样流的形式提供待编码器(203)编码的源视频序列,所述数字视频采样流可以具有任何合适的比特深度(例如,8比特、10比特、12比特等)、任何色彩空间(例如,BT.601Y CrCB、RGB等)以及任何合适的采样结构(例如,Y CrCb 4:2:0,YCrCb 4:4:4)。在媒体服务系统中,视频源(201)可以是存储之前准备好的视频的存储设备。在视频会议系统中,视频源(201)可以是采集本地图像信息作为视频序列的摄像头。可以将视频数据作为多个单独的图像来提供,当按顺序观看时,这些图像传递了运动性。这些图像本身可以被组织为空间像素阵列,其中每个像素可以包括一个或多个采样,取决于所使用的采样结构、色彩空间等。采样下文的描述侧重于采样。
根据一个实施例,编码器(203)可以实时地,或者根据应用的需要,或者在应用所需的任何其他时间约束下,对源视频序列的图像进行编码并压缩为已编码视频序列(443)。控制器(450)的一个功能是实施合适的编码速度。控制器控制下文所描述的其他功能单元,且在功能上与这些单元耦接。为了清楚起见,图中未示出所述耦接。控制器设置的参数可以包括与速率控制相关的参数(图像跳过、量化器、速率失真优化技术的λ值等)、图像大小、图像组(GOP)布局、最大运动矢量搜索范围,等等。控制器(450)的其他功能可能涉及为某个系统设计所优化的视频编码器(203)。
一些视频编码器在“编码回路”的电路中工作。简单描述一下,编码回路可以由编码器(430)(在后文中称为“源编码器”)的编码部分(负责基于待编码的输入图像和参考图像生成符号)、嵌入在编码器(203)中的(本地)解码器(433)构成,解码器(433)用于重建符号,以生成采样数据,该采样数据同样也由(远程)解码器生成(因为在本申请主题所考虑的视频压缩技术中,符号与编码视频比特流之间的任意压缩都是无损的)。重建的采样流输入到参考图像存储器/参考图像缓冲器(434)中。由于符号流的解码会产生与解码器的位置(本地或远程)无关的比特精确结果,在本地编码器和远程编码器之间,参考图像缓冲内容也是比特精确的。换言之,编码器的预测部分“看到”的参考图像采样与解码器在解码期间使用预测所“看到”的参考图像采样的采样值完全相同。这个参考图像同步性的基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)根据本申请上下文可以明白。
“本地”解码器(433)的操作可以与“远程”解码器(210)的操作相同,“远程”解码器(210)的操作在前文已结合图3进行了详细的描述。然而,简要地参考图4示,因为符号是可用的,且通过熵编码器(445)及解析器(320)可以无损地将符号编码/解码到已编码视频序列中,所以,在本地解码器(433)中可以不用完全实施解码器(210)的熵解码部分,包括信道(312)、接收器(310)、缓冲存储器(315)和解析器(320)。
此时可以观察到,除了解码器中存在的解析/熵解码之外,任何解码器技术也必须以基本相同的功能形式存在于对应的编码器中。关于编码器的技术可以简略描述,因其与本文详细描述的解码器技术正好相反。只有在某些领域需要时对其进行更详细的描述,并在下文中提供。
作为源编码器工作的一部分,源编码器(430)可以执行运动补偿的预测编码,其参考视频序列中被指定为“参考帧”的一个或多个先前已编码的帧,对输入帧进行预测编码。通过这种方式,编码引擎(432)对输入帧的像素块与可以选择作为所述输入帧预测参考的参考帧的像素块之间的差异进行编码。
本地视频解码器(433)可以基于源编码器(430)创建的符号,对可以被指定为参考帧的帧的编码视频数据进行解码。编码引擎(432)的操作可以有利地是有损处理。当编码视频数据可能在视频解码器(图4未示出)进行解码时,重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(433)复制可以由视频解码器对参考帧进行的解码过程,且可以使重建的参考图像存储在参考图像存储器(434)中。通过这种方式,视频编码器(203)可以将重建的参考图像的副本存储在本地,所述副本与将由远端视频解码器获得的重建参考图像具有相同的内容(没有传输误差)
预测器(435)可以为编码引擎(432)进行预测搜索。即,对于待编码的新帧,预测器(435)可以在参考图像存储器(434)中搜索采样数据(作为候选参考像素块)或某些元数据,例如,参考图像运动矢量、块形状等,作为所述新图像的合适预测参考。预测器(435)可以基于采样块逐像素块地进行操作,从而找到合适的预测参考。在一些情况下,如通过预测器(435)所获得的搜索结果所确定的,输入图像可以具有从存储在参考图像存储器(434)中的多个参考图像中提取的预测参考。
控制器(450)可对源编码器(430)的编码操作进行管理,包括例如设置用于对视频数据进行编码的参数及子群参数。
上述所有功能单元的输出均可在熵编码器(445)中进行熵编码。熵编码器例如为霍夫曼编码、可变长度编码、算术编码等,将各个功能单元生成的符号无损压缩成已编码视频序列。
发送器(440)可以缓冲由熵编码器(445)创建的已编码视频序列,将其准备好用于经由通信信道(460)传输,通信信道(460)可以是链接到将存储编码视频数据的存储设备的硬件/软件链路。发送器(440)可以将源编码器(430)中的编码视频数据与待传输的其他数据,例如,编码音频数据和/或辅助数据流(其源未示出)进行合并。
控制器(450)可以对编码器(203)的操作进行管理。在编码过程中,控制器(450)可以为每个编码图像分配特定的编码图像类型,这可能会影响可应用于各个图像的编码技术。例如,通常可以将图像分配为下面的帧类型之一:
帧内图像(I图像)可以是不使用序列中的任何其他帧作为预测源而进行编码和解码的图像。一些视频编解码器可以对不同类型的帧内图像进行解码,包括例如独立编码器刷新(Independent Decoder Refresh,IDR)图像。I图像可以有各种变体及其各自的应用和特征。
预测图像(P图像)为可使用帧内预测或帧间预测进行编码和解码的图像,帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的采样值。
双向预测图像(B图像)为可使用帧内预测或帧间预测进行编码和解码的图像,帧内预测或帧间预测使用至多两个运动矢量及参考索引来预测每个块的采样值。类似地,多预测图像可使用两个以上的参考图像及相关元数据重建单个块。
通常,源图像可在空间上细分为多个采样块(例如,每个为4×4、8×8、4×8、或16×16个采样的块),并在逐块的基础上进行编码。各个块可以参考其他(已编码的)块进行预测编码,根据应用于所述各个块的相应图像的编码分配来确定。例如,I图像的块可以进行非预测性编码,或者可以参考同一图像的已编码块进行预测编码(空间预测或帧内预测)。P图像的像素块可以参考一个先前已编码的参考图像,通过空间预测或时间预测进行预测性编码。B图像的块可以参考一个或两个先前已编码的参考图像,通过空间预测或时间预测进行预测性编码。
视频编码器(203)可以根据预定的视频编码技术或标准进行行编码操作,例如,ITU-T推荐标准H.265等。在操作中,视频编码器(203)可以进行各种压缩操作,包括利用输入视频序列中的时间及空间冗余的预测编码操作。因此,编码视频数据可以符合所使用的视频编码技术或标准规定的语法。
在一个实施例中,发送器(440)可随编码视频传输附加数据。源编码器(430)可以将此类数据作为已编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层、冗余图像及切片等其他形式的冗余数据、辅助增强信息(Supplementary EnhancementInformation,SEI)消息、视觉可用性信息(Visual Usability Information,VUI)参数集片段等。本申请主题涉及帧间图像预测和双向预测的预测单元(prediction unit,PU)的重建。
对于一幅图像中的每个双向预测的PU,JVET-C0047的基于每PU的信令对包含有加权因子的码字进行编码。加权因子根据两个固定的表(JVET-C0047的表1中的“方案#1”和“方案#2”)进行编码。使用二进制化的码字作为输入,输入到H.264、H.265及HEVC的可用的标准的基于上下文的自适应二进制算术编码(Context Adaptive Binary ArithmeticCoding,CABAC)处理之中。对加权因子编码时不使用预测。缺少预测可能不利于编码效率,而且使用有可能较大的码字作为CABAC处理的输入,可能具有高存储和计算需求以及高实现复杂度等架构缺点。本申请主题解决了这些缺陷。
在一个实施例中,正在重建的PU的加权因子是通过结合可以为0的加权因子偏移值及零来确定,一个或多个加权因子可以从先前已重建的PU获得(加权因子预测)。
在同一实施例或者另一实施例中,当没有可以从先前已重建的PU获取的加权因子时,加权因子偏移值成为加权因子。
在同一实施例或者另一实施例中,对于PU、切片、贴片、编码图像、编码图像组、编码的视频序列等一些语法结构,视频编码技术或标准可以允许或不允许使用来自先前已重建的PU的加权因子作为正在重建的PU的预测算子。
在同一实施例或者另一实施例中,所述码字的值或第二码字的值,例如是单个比特,可以用来指示是否使用了空间加权因子预测。
在同一实施例或者另一实施例中,可以将加权因子偏移值编码为例如具有3比特的固定长度的二进制码字。
在同一实施例或者另一实施例中,可以使用霍夫曼编码等技术将加权因子偏移值编码为可变长度的码字。给码字分配加权因子可以是静态的。
在同一实施例或者另一实施例中,给码字分配加权因子可以是动态的,例如基于对解码顺序在当前PU之前的PU使用统计而动态分配的。
图5及图6示出了加权因子偏移值预测的第一及第二示例。还可能有与所述两个示例不同的选择。例如,可以根据与先前已解码的图像在空间上处于相同位置的PU,预测加权因子(时间预测)。
参考图5,在第一个简单的示例中,可以使用解码顺序在先的双向预测PU的加权因子偏移值来预测加权因子偏移值。图5示出了包括两个双向预测的PU(502,504)的已编码视频序列(501)。在所述已编码视频序列中,在PU(502)与(504)之间,没有其他双向预测的PU。在PU(502)中,有以合适形式编码的加权因子偏移值(503),例如,作为固定长度或可变长度的码字或使用CABAC编码的符号(加权因子偏移值的编码,请参见下文的额外讨论)。第二PU(504)也包括加权因子偏移值(505)。用于重建第二PU(504)的加权因子可以使用第一PU(502)的加权因子作为预测算子,以及加上第二PU(504)的加权因子偏移值(505)来计算。这种简单形式的比特流顺序预测具有实施简单、存储需求低的优点。然而,在一些情况下,更高级的空间预测技术可以产生更好的编码效率。
参考图6,图6示出了空域中的正在重建的PU(601)。在正在重建的PU周围、但解码顺序在其之前,还有四个PU(602至605)。这些PU中,每一个PU都可以是双向预测的,而且如果PU是可以双向预测的,则它可以具有与其相关联的加权因子。在该示例中,假设PU(602)和(604)是双向预测的,因此它们可以具有相关联的加权因子(606,607),然而,PU(603)及(605)可以使用一种不同的、可能与加权因子无相关联的编码模式(例如:P预测,帧内……等等)进行编码。
在同一实施例或另一实施例中,PU(602,604)等空间上相邻的双向预测的PU的加权因子(606,607),可以用作正在重建的PU(601)的预测算子。可用的邻近PU的加权因子(此处:PU(602,604)的加权因子(606,607)),可以例如按照视频编码技术或标准强制要求的静态预定顺序来使用,或者可以用参数集等高级语法进行编码。例如,这种顺序可以是(602)-(603)-(604)-(605)。根据该顺序,第一可用加权因子可以是用于预测的加权因子。在图6的示例中,PU(602)的加权因子(606)可以用于对正在重建的PU(601)进行加权因子预测。
在同一实施例或者另一实施例中,邻近PU的可用加权因子可以组合使用,例如,通过求均值来使用。在图6的示例中,这样的结果是用于正在重建的PU(601)的加权因子预测算子是PU(602)和(604)的加权因子适当取整的平均值。
在同一实施例或者另一实施例中,视频编码技术或标准,或一个或多个高级语法元素,可以规定可用加权因子的更为复杂(与求均值相比)的组合。
在同一实施例或者另一实施例中,一旦推导出预测加权因子,例如通过上面描述的机制,或者因为缺少合适且可用的预测加权因子,推导出预测加权因子的固定值,例如,0.5,便可以使用例如加权因子偏移值来计算用于PU重建的预测加权因子。此类计算可以为加法、查表或其他任何合适的运算。在一些情况下,所述运算之后,可以有取整。
在图6中,将PU全都描绘为具有正方形形状和相等的大小。然而,在同一实施例或者另一实施例中,相关的预测单元可以具有非正方形的形状以和不相等的大小。
类似地,在同一实施例或者另一实施例中,本申请中没有任何阻止根据并非与正在重建的PU在空间上直接邻近的PU来预测加权因子的内容。
以下详细阐述比特流中加权因子偏移值的编码细节。
在同一实施例或者另一实施例中,将加权因子偏移值编码为固定长度的、二进制编码的无符号整数。作为一个示例,可以将加权因子编码如下:
Figure BDA0002091862620000131
Figure BDA0002091862620000141
在权衡例如用于用信号表示加权因子偏移值的比特数和加权的粒度的基础上,可以给加权因子偏移值表设计其他权重。例如,四比特加权因子偏移值允许多达16个适合选择的加权因子。
在同一实施例或者另一实施例中,可以使用可以输入到CABAC处理的可变长度码字,例如由H.265所知的。这种做法,对于一些内容而言,可能具有更好的编码效率的优点,但也可能带来额外的实施复杂度以及存储需求(因为有多达五个CABAC二进制值(bin))。
在同一实施例或者另一实施例中,可以在非CABAC编码的比特流中包括可变长度的码字。将该码字分配给权值可以是静态的。尽管这易于实现,且对于一些内容而言,比上文描述的固定长度的编码机制更有效,但对于其他内容,其编码效率可能是次优的。在一些情况下,可能需要与内容适配的机制。
至此,描述了可用于单个PU的获取单个加权因子的机制。对于小PU而言,例如,具有4×4个采样的PU,这种机制可能是在实施的复杂度与性能之间的一种良好的妥协机制。然而,对于较大尺寸的PU,例如,具有64×64个采样的PU,可能希望有进一步的改进。根据同一实施例或者另一实施例,可以通过将不同的加权因子用于PU的不同采样或子块,改进上文的机制。在同一个实施例或另一实施例中,可以无需额外语法元素的编码来实现每采样加权因子,从而有可能改善速率以及失真性能。
参考图7A,假设正在重建的PU(701)包括4×4个采样。为清楚起见,图7A中仅示出了这些16个采样中的2个采样(702,703),与按PU大小的比例绘制相比,它们画得稍微大一些。采样(702)位于正在重建的PU(701)的左上角,采样(703)位于第二行从左边数起的第三列采样中。
在描绘的示例中,按解码顺序,在正在重建的PU(701)之前有四个邻近PU,这四个邻近PU中,假设两个PU(704,706)是双向预测的,且包括加权因子,两个PU(705,707)不是双向预测的,且假设不包含加权因子。按照之前描述的机制,可以从包括加权因子的两个PU(704,706)获得单个加权因子,该单个加权因子将同等地施加于正在重建的PU(701)的所有采样,包括采样(702)及(703)。
然而,在同一实施例或者另一实施例中,该示例中的两个可用加权因子是同时应用的,以分别计算正在重建的PU(701)的每个采样的加权因子。在同一实施例或者另一实施例中,使用线性插值来计算加权因子的值。
作为一个示例,假设通过前述任一机制获得的PU(704)的加权因子为1/8,PU(706)的加权因子为3/8。在这种情况下,采样(702)可以具有加权因子1/8,计算方法为(1/8*(3-0)+3/8*0)/3。同样情况下,采样(703)具有加权因子(1/8+6/8)/3==7/24,计算方法为(1/8*(3-2)+3/8*(3-1))/3。
该一维线性插值示例可以概括如下:
设p为采样在给定维度中的位置,0<=p<bs,其中bs为采样单元中所述维度的块大小。进一步地,设w1为正在重建的PU(701)左边的PU(704)的加权因子,w2为正在重建的PU(701)右边的PU(706)的加权因子。
采样位置p处的加权因子的计算方法为(w1*((bs-1)–p)+w2*p)/(bs-1) (式1)。
此一维线性插值可以扩展到二维线性插值。还可以将插值扩展,以考虑两个以上的加权因子和它们相对于正在重建的采样的空间位置。
图7B为根据另一个实施例的在空域中的PU的采样的加权因子预测的示意性图示。如图7B所示,假设PU709具有加权因子100,PU710具有加权因子200。假设当前正在重建的块具有四个采样,分别在P0、P1、P2、P3处,则通过上述式1可以得到P0处的加权因子为(100*((4-1)-0)+200*0)/(4-1)=100;P1处的加权因子为(100*((4-1)-1)+200*1)/(4-1)=400/3,取整为133;P2处的加权因子为(100*((4-1)-2)+200*2)/(4-1)=500/3,取整为166;P3处的加权因子为(100*((4-1)-3)+200*3)/(4-1)=200。
根据上述编码方式,可以无需额外语法元素的编码来实现每个采样的加权因子,从而有可能改善速率以及失真性能。
图8为用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码的示例处理过程800的流程图。在一些实施方式中,图8的一个或多个处理框可以由解码器210执行。在一些实施方式中,图8的一个或多个处理框可以由与解码器210分离或包括解码器210的另一设备或一组设备执行,例如,编码器203等。
如图8所示,过程800可以包括根据已编码视频序列,重建应用于先前已重建的PU的在先加权因子(方框810)。
如图8进一步所示的,过程800可以包括基于在先加权因子,推导出待应用于正在重建的双向预测的PU中的至少一个采样上的加权因子(方框820)。
如图8进一步所示的,过程800可以包括通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权(方框830)。
在一个实施例中,所述过程进一步包括通过结合所述在先加权因子与加权因子偏移值,推导出所述加权因子。
在一个实施例中,所述加权因子偏移值通过固定长度的二进制码字,编码在所述已编码视频序列中。
在一个实施例中,所述加权因子偏移值通过可变长度的二进制码字,编码在所述已编码视频序列中。
在一个实施例中,所述加权因子偏移值是基于对所述在正在重建的双向预测的PU之前的PU使用统计而确定的。
在一个实施例中,所述先前已重建的PU包括按所述已编码视频序列的解码顺序,位于所述正在重建的双向预测的PU之前的紧邻的双向预测的PU。
在一个实施例中,所述先前已重建的PU包括在空间上邻近所述正在重建的双向预测的PU的双向预测的PU。
在一个实施例中,所述先前已重建的PU包括先前已解码的图像中,在空间上与所述正在重建的双向预测的PU处于相同位置的双向预测的PU。
在一个实施例中,所述先前已重建的PU包括第一先前已重建的PU,所述在先加权因子包括第一在先加权因子,其中,所述加权因子,是通过对所述第一在先加权因子和用于第二先前已重建的PU的第二在先加权因子执行线性插值,而推导出的。
在一个实施例中,所述线性插值根据下面的式子执行:
w=(w1*((bs-1)–p)+w2*p)/(bs-1)
其中,w表示采样位置p处的加权因子,bs表示正在重建的双向预测的PU的块大小,w1表示所述第一在先加权因子,w2表示所述第二在先加权因子。
尽管图8示出了过程800的示例性框,但在一些实施例中,过程800可以包括额外的框、较少的框、不同的框或与图8中描绘的框的布置不同的框。另外或替代地,可以并行执行过程800的两个或多个框。
根据本申请实施例,提供了一种解码设备,用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码,所述设备包括:
重建模块,用于根据所述已编码视频序列,重建应用于先前已重建的PU的在先加权因子;
推导模块,用于基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;
加权模块,用于通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权。
其中,所述推导模块进一步用于通过结合所述在先加权因子与加权因子偏移值,推导出所述加权因子。
其中,所述加权因子偏移值通过固定长度的二进制码字,编码在所述已编码视频序列中。
其中,所述加权因子偏移值通过可变长度的二进制码字,编码在所述已编码视频序列中。
其中,所述加权因子偏移值是基于对所述在正在重建的双向预测的PU之前的PU使用统计而确定的。
其中,所述先前已重建的PU包括按所述已编码视频序列的解码顺序,位于所述正在重建的双向预测的PU之前的紧邻的双向预测的PU。
其中,所述先前已重建的PU包括在空间上邻近所述正在重建的双向预测的PU的双向预测的PU。
或者,所述先前已重建的PU包括先前已解码的图像中,在空间上与所述正在重建的双向预测的PU处于相同位置的双向预测的PU。
其中,所述先前已重建的PU包括第一先前已重建的PU,所述在先加权因子包括第一在先加权因子,其中,所述加权因子,是通过对所述第一在先加权因子和用于第二先前已重建的PU的第二在先加权因子执行线性插值,而推导出的。
其中所述线性插值根据下面的式子执行:
w=(w1*((bs-1)–p)+w2*p)/(bs-1),
其中,w表示采样位置p处的加权因子,bs表示正在重建的双向预测的PU的块大小,w1表示所述第一在先加权因子,w2表示所述第二在先加权因子。
进一步地,本申请提出的方法可以由处理电路(例如,一个或多个处理器或者一个或多个集成电路)实施。在一个示例中,所述一个或多个处理器执行非易失性计算机可读介质中存储的程序,以执行本申请提出的一个或多个方法。
上文描述的用信号表示视频编码中的预测加权的技术,可以使用计算机可读指令实施为计算机软件,并且以物理的方式存储在一个或多个计算机可读介质中。例如,图9示出了适于实施本申请主题的某些实施例的计算机系统900。
所述计算机软件可以使用任何合适的机器代码或计算机语言来编码,所述机器代码或计算机语言可以经过汇编、编译、链接或类似机制创建包括指令的代码,所述指令可以由计算机中央处理单元(central processing unit,CPU)、图形处理单元(GraphicsProcessing Unit,GPU)等直接执行,或通过译码、微代码等方式执行。
所述指令可以在各种类型的计算机或计算机组件上执行,包括例如,个人计算机、平板电脑、服务器、智能手机、游戏设备、物联网设备等。
图9中所示的用于计算机系统900的组件本质是示范性的,并非旨在暗示对实施本申请实施例的计算机软件的使用范围或功能有任何限制。所述组件的配置也不应该解释为对计算机系统900的示例性实施例中所示的组件中的任意一个组件或组件的组合有任何依赖或要求。
计算机系统900可以包括某些人机接口输入设备。此类人机接口输入设备可以响应于一个或多个人类用户通过例如触觉输入(例如:按键、滑动、数据手套的移动)、音频输入(例如:声音、拍掌)、视觉输入(例如:手势)、嗅觉输入(未示出)进行的输入。人机接口设备还可用于采集未必与人的有意识输入直接相关的某些媒体,例如音频(例如:语音、音乐、环境声)、图像(例如:扫描图像、从静态图像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括以下一个或多个(每种仅描绘一个):键盘901、鼠标902、触控板903、触摸屏910、数据手套(图中未示)、操纵杆905、麦克风906、扫描仪907、摄像头908。
计算机系统900还可包括某些人机接口输出设备。此类人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道刺激一个或多个人类用户的感觉。这种人机接口输出设备可以包括触觉输出设备(例如,通过触摸屏910、数据手套或操纵杆905的触觉反馈,但还可以存在不充当输入设备的触觉反馈设备)、音频输出设备(例如:扬声器909、头戴式耳机(未示出))、视觉输出设备(例如,屏幕910,包括阴极射线管(cathode ray tube,CRT)屏幕、液晶显示(liquid-crystal display,LCD)屏幕、等离子体屏幕、有机发光二极管(organic light-emitting diode,OLED)屏幕,其中,每个设备具有或不具有触摸屏输入功能,具有或不具有触觉反馈能力--其中的一些能够通过例如立体平画输出的方式输出二维视觉输出或三维以上的输出;虚拟现实眼镜(未示出)、全息显示器和烟雾箱(未示出)),以及打印机(未示出)。
计算机系统900还可以包括人类可访问的存储设备和与存储设备相关联的介质,例如,包括CD/DVD ROM/RW920以及CD/DVD等介质921的光学介质、拇指驱动器922、可移除硬盘驱动器或固态驱动器923、磁带和软盘(未示出)等传统磁性媒体、如安全软件保护器(未示出)等基于ROM/ASIC/PLD的专用设备,等等。
计算机系统900还可以包括到一个或多个通信网络的接口。网络例如可以是无线的、有线的、光学的。网络还可以是局域的、广域的、城域的、车载和工业的、实时的、容忍延迟的等等。示例的网络包括例如以太网、无线LAN等的局域网,包括GSM、3G、4G、5G、LTE等的蜂窝网络,包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络,包括控制器局域网络总线(CANBus)的车载网络和工业网络等。某些网络通常需要附接到某些通用数据端口或外围总线(949)(例如,计算机系统900的USB端口)的外部网络接口适配器;另一些网络通常通过附接到如下文所描述的系统总线的方式,集成到计算机系统900的核心中(例如,通过以太网接口集成到PC计算机系统中,或通过蜂窝网络接口集成到智能手机计算机系统中)。通过使用这些网络中的任意网络,计算机系统900可以与其他实体进行通信。所述通信可以是单向的,仅单向接收(例如,广播TV),仅单向发送(例如,连接到某些CAN总线设备的CAN总线),或者是双向的,例如,使用局域数字网络或广域数字网络连接到其他计算机系统。上述的每个网络和网络接口可使用某些协议和协议栈。
前述人机接口设备、人类可访问的存储设备和网络接口可以附接到计算机系统900的核心940。
核心940可以包括一个或多个中央处理单元(CPU)941、图形处理单元(GPU)942、现场可编程门阵列(Field Programmable Gate Arrays,FPGA)形式的专用可编程处理单元943、用于特定任务的硬件加速器944等等。上述设备以及只读存储器(ROM)945、随机存取存储器(RAM)946、例如内部非用户可访问的硬盘驱动器、固态驱动器(SSD)等内部大容量存储设备947,可以通过系统总线948连接。在一些计算机系统中,系统总线948可以通过一个或多个物理插头的形式访问,以实现通过额外CPU、GPU等来扩展。外围设备可以直接附接在核心的系统总线948上,或通过外围总线949附接。用于外围总线的架构包括外设组件互连(PCI)、USB等等。
CPU 941、GPU 942、FPGA 943和加速器944可以执行某些指令,所述指令组合起来可以构成前述计算机代码。计算机代码可以存储在ROM945或RAM 946中。过渡数据也可以存储在RAM 946中,而永久性数据可以例如存储在内部大容量存储设备947中。可以通过使用高速缓冲存储器来实现对任一存储器设备的快速存储和检索,所述高速缓冲存储器可以与一个或多个CPU 941、GPU 942、大容量存储设备947、ROM 945、RAM 946等紧密关联。
计算机可读介质上可以具有用于执行各种计算机实施的操作的计算机代码。所述介质和计算机代码可以是专为本申请的目的设计和构建的介质和计算机代码,或可以为其他种类。
举例来说但不作为限制,具有架构900的计算机系统,特别是核心940,可以作为处理器(包括CPU、GPU、FPGA、加速器等)提供功能,执行包含在一个或多个有形的、计算机可读介质中的软件。如前文所述,所述计算机可读介质可以是与用户可访问的大容量存储设备相关的介质,以及具有核心940的非易失性质的某些存储设备(例如核心内部大容量存储设备947或ROM 945)。实施本申请的各种实施例的软件可以存储在此类设备中,由核心940执行。根据特定需求,计算机可读介质可以包括一个或多个存储器设备或芯片。软件可以使核心940,具体而言,是使其中的处理器(包括CPU、GPU、FPGA等等),执行本文中所描述的特定过程或特定过程的特定部分,包括根据软件限定的过程,限定存储在RAM 946中的数据结构,以及修改此类数据结构。另外或作为替代方案,计算机系统可以提供由硬接线的或以其他方式体现于电路(例如:加速器944)中的逻辑所产生的功能,所述逻辑可代替或连同软件一起操作以执行本文描述的特定过程或特定过程的特定部分。合适时,对软件的引用可以涵盖逻辑,且反之亦然。合适时,对计算机可读介质的引用可以涵盖存储用于执行的软件的电路(例如,集成电路(IC))、体现用于执行的逻辑的电路或这两种电路。本申请涵盖硬件与软件的任何合适的组合。
尽管本申请描述了若干示范性实施例,但在本申请的范围内,可以有各种改动、排列组合方式以及各种替代等同物。因此,应该理解,在申请的精神和范围内,本领域技术人员能够设计出各种虽未在本文明确示出或描述、但可以体现本申请的原理的系统和方法。

Claims (13)

1.一种视频解码方法,用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码,其特征在于,所述方法包括:
根据所述已编码视频序列重建在先加权因子,所述在先加权因子应用于先前已重建的PU;
基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;
通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权;
其中,所述先前已重建的PU包括第一先前已重建的PU,所述在先加权因子包括第一在先加权因子,所述加权因子是通过对所述第一在先加权因子和用于第二先前已重建的PU的第二在先加权因子执行线性插值,而推导出的。
2.根据权利要求1所述的方法,其特征在于,进一步包括:
通过结合所述在先加权因子与加权因子偏移值,推导出所述加权因子。
3.根据权利要求2所述的方法,其特征在于,所述加权因子偏移值通过固定长度的二进制码字,编码在所述已编码视频序列中。
4.根据权利要求2所述的方法,其特征在于,所述加权因子偏移值通过可变长度的二进制码字,编码在所述已编码视频序列中。
5.根据权利要求2所述的方法,其特征在于,所述加权因子偏移值是基于对所述正在重建的双向预测的PU之前的PU使用统计而确定的。
6.根据权利要求1所述的方法,其特征在于,所述先前已重建的PU包括按所述已编码视频序列的解码顺序,位于所述正在重建的双向预测的PU之前的紧邻的双向预测的PU。
7.根据权利要求1所述的方法,其特征在于,所述先前已重建的PU包括在空间上邻近所述正在重建的双向预测的PU的双向预测的PU。
8.根据权利要求1所述的方法,其特征在于,所述先前已重建的PU包括先前已解码的图像中,在空间上与所述正在重建的双向预测的PU处于相同位置的双向预测的PU。
9.根据权利要求1所述的方法,其特征在于,所述线性插值根据下面的式子执行:
w=(w1*((bs-1)–p)+w2*p)/(bs-1),
其中,w表示采样位置p处的加权因子,bs表示正在重建的双向预测的PU的块大小,w1表示所述第一在先加权因子,w2表示所述第二在先加权因子。
10.一种视频解码设备,用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码,其特征在于,所述设备包括:
重建模块,用于根据所述已编码视频序列重建在先加权因子,所述在先加权因子应用于先前已重建的PU;
推导模块,用于基于所述在先加权因子,推导出所述待应用于所述正在重建的双向预测的PU中的所述至少一个采样上的加权因子;
加权模块,用于通过应用所述推导出的加权因子,对所述正在重建的双向预测的PU中的采样的采样值进行加权;
其中,所述先前已重建的PU包括第一先前已重建的PU,所述在先加权因子包括第一在先加权因子,所述加权因子是通过对所述第一在先加权因子和用于第二先前已重建的PU的第二在先加权因子执行线性插值,而推导出的。
11.根据权利要求10所述的设备,其特征在于,所述线性插值根据下面的式子执行:
w=(w1*((bs-1)–p)+w2*p)/(bs-1),
其中,w表示采样位置p处的加权因子,bs表示正在重建的双向预测的PU的块大小,w1表示所述第一在先加权因子,w2表示所述第二在先加权因子。
12.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
13.一种非易失性计算机可读存储介质,存储指令,所述指令包括:一个或多个指令,其特征在于,当由用于预测待应用于正在重建的双向预测的预测单元(PU)中的至少一个采样上的加权因子,以对已编码视频序列进行解码的设备上的一个或多个处理器执行时,所述一个或多个指令使所述一个或多个处理器执行权利要求1至9任意一项的方法。
CN201910506085.3A 2018-06-22 2019-06-12 视频解码方法、装置、计算机设备以及存储介质 Active CN110636296B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862688896P 2018-06-22 2018-06-22
US62/688,896 2018-06-22
US16/233,979 US10547835B2 (en) 2018-06-22 2018-12-27 Techniques for signaling prediction weights in video coding
US16/233,979 2018-12-27

Publications (2)

Publication Number Publication Date
CN110636296A CN110636296A (zh) 2019-12-31
CN110636296B true CN110636296B (zh) 2022-05-27

Family

ID=68968415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910506085.3A Active CN110636296B (zh) 2018-06-22 2019-06-12 视频解码方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN110636296B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103430540A (zh) * 2011-03-08 2013-12-04 高通股份有限公司 在视频译码中用于双向预测帧间模式的运动向量预测符(mvp)
WO2017188782A2 (ko) * 2016-04-29 2017-11-02 세종대학교 산학협력단 영상 신호 부호화/복호화 방법 및 장치
CN107787582A (zh) * 2015-06-10 2018-03-09 三星电子株式会社 使用用于自适应加权预测的语法信令对图像进行编码或解码的方法和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9641836B2 (en) * 2012-08-07 2017-05-02 Qualcomm Incorporated Weighted difference prediction under the framework of generalized residual prediction
US9906786B2 (en) * 2012-09-07 2018-02-27 Qualcomm Incorporated Weighted prediction mode for scalable video coding
WO2017051072A1 (en) * 2015-09-23 2017-03-30 Nokia Technologies Oy A method, an apparatus and a computer program product for coding a 360-degree panoramic video

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103430540A (zh) * 2011-03-08 2013-12-04 高通股份有限公司 在视频译码中用于双向预测帧间模式的运动向量预测符(mvp)
CN107787582A (zh) * 2015-06-10 2018-03-09 三星电子株式会社 使用用于自适应加权预测的语法信令对图像进行编码或解码的方法和设备
WO2017188782A2 (ko) * 2016-04-29 2017-11-02 세종대학교 산학협력단 영상 신호 부호화/복호화 방법 및 장치

Also Published As

Publication number Publication date
CN110636296A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN111989921B (zh) 一种用于视频解码的方法和相关装置
US11641480B2 (en) Signaling of adaptive picture size in video bitstream
CN113424546B (zh) 视频解码或编码的方法和装置
US10547835B2 (en) Techniques for signaling prediction weights in video coding
CN112005549B (zh) 一种帧内-帧间预测控制方法、装置、设备及存储介质
CN113892260A (zh) 用于随机存取点和图片类型的标识的方法
CN114556942B (zh) 视频解码系统、方法及计算机可读介质
US11240519B2 (en) Hierarchical tiles
JP7318087B2 (ja) マルチラインイントラ予測のためのモードリストを生成する方法、並びにその装置及びコンピュータプログラム
CN112118456B (zh) 莱斯参数选择方法、装置、计算机设备及存储介质
CN112514385B (zh) 视频解码方法及装置、计算机设备和计算机可读介质
US20200404280A1 (en) Layered random access with reference picture resampling
CN114375570A (zh) 用于视频编码的方法及装置
US20230075516A1 (en) System and method for decoding including network abstraction layer unit structure with picture header
EP3903477B1 (en) Method for syntax controlled decoded picture buffer management
US20200404303A1 (en) Method for support of scalability with adaptive picture resolution
CN110636296B (zh) 视频解码方法、装置、计算机设备以及存储介质
CN112470475A (zh) 视频编码中利用缩减的上一行缓冲区进行帧间预测的方法和装置
CN113228633B (zh) 视频编解码的方法和设备
CN115552898A (zh) 视频编码中并行处理的改进

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant