CN109496430A

CN109496430A - 用于视频编码的通用式多假设预测的系统及方法

Info

Publication number: CN109496430A
Application number: CN201780042257.5A
Authority: CN
Inventors: 陈俊吉; 修晓宇; 贺玉文; 叶艳
Original assignee: Vid Scale Inc
Current assignee: Vid Scale Inc
Priority date: 2016-05-13
Filing date: 2017-05-11
Publication date: 2019-03-19
Anticipated expiration: 2037-05-11
Also published as: JP7469439B2; EP4060992A1; CN115118971A; EP3456049B1; KR20190018624A; US20220312001A1; US11363253B2; KR20220043240A; US20190230350A1; KR102480191B1; KR102379874B1; CN115118970A; WO2017197146A1; EP3456049A1; CN109496430B; JP2023009262A; JP2019519148A

Abstract

描述了用于通过使用通用式双预测进行视频编码的系统及方法。在示例性实施例中，为了在比特流中对视频的当前块进行编码，第一参考块被从第一参考图片选取，且第二参考块被从第二参考图片选取。每一参考块与权重相关联，其中该权重为范围为例如0与1之间的任意权重。所述当前块通过使用所述参考块的加权和而被预测。所述权重可从多个候选权重中选取。候选权重可在比特流内被用信号发送，或者可基于模板而被隐性推导出。候选权重可被修剪以避免超出范围或者实质上复制的候选权重。通用式双预测可被额外用于帧率上转换内。

Description

用于视频编码的通用式多假设预测的系统及方法

相关申请的交叉引用

本申请为以下美国临时专利申请的非临时申请并按照35U.S.C.§119(c)要求这些临时专利申请的权益：2016年5月13日递交的题为“用于视频编码的通用式多假设预测的系统及方法”的申请No.62/336,227；2016年5月27日递交的题为“用于视频编码的通用式多假设预测的系统及方法”的申请No.62/342,772；2016年9月23日递交的题为“用于视频编码的通用式多假设预测的系统及方法”的申请No.62/399,234；以及2016年10月31日递交的题为“用于视频编码的通用式多假设预测的系统及方法”的申请No.62/415,187。所有这些申请通过引用而被整体合并于此。

背景技术

视频编码系统被广泛用于压缩数字视频信号以减小此类信号的存储需求和/或传输带宽。在各种类型的视频编码系统中，诸如基于块的、基于小波的、及基于对象的系统，现今基于块的混合视频编码系统是被最为广泛使用及部署的。关于基于块的视频编码系统的示例包含国际视频编码标准(诸如MPEG-1/2/4部分2、H.264/MPEG-4部分10AVC、VC-1)以及被称为高效视频编码(HEVC)的最新的视频编码标准，其是由ITU-T/SG16/Q.6/VCEG和ISO/IEC/MPEG的JCT-VC(针对视频编码的联合协作团队)开发的。

使用基于块的编码而被编码的视频占据了例如通过因特网的电子传输的数据的主要部分。期望增大视频压缩效率，从而高质量视频内容可通过使用更少的比特而被存储及传输。

发明内容

在示例性实施例中，描述了用于执行通用式双预测(GBi)的系统及方法。示例性方法包括对包含多个图片的视频进行编码(encoding)和解码(decoding)(统称为“编码(coding)”)，所述多个图片包含当前图片、第一参考图片以及第二参考图片，每一图片包括多个块。在示例性方法中，对于所述当前图片内的至少当前块，块级索引被编码以标识权重集合内的第一权重及第二权重，其中所述权重集合内的至少一个权重具有不等于0、0.5或1的值。所述当前块被预测为所述第一参考图片内的第一参考块与所述第二参考图片内的第二参考块的加权和，其中所述第一参考块通过所述第一权重而被加权且所述第二块通过所述第二权重而被加权。

在一些实施例中(或者对于一些块而言)，标识所述第一权重及第二权重块级信息可通过除了编码用于所述块的索引之外的其他方式而被编码以用于当前块。例如，块可以以合并模式被编码。在此情况下，所述块级信息可为标识来自多个合并候选块的候选块的信息。从而，所述第一权重及第二权重可基于用于对所标识的候选块进行编码的权重而被标识。

在一些实施例中，所述第一参考块及第二参考块可通过在针对当前图片的比特流内用信号发送的至少一个缩放因子而被进一步缩放。

在一些实施例中，所述权重集合被编码在比特流内，从而允许不同的权重集合可适用于不同的切片、图片或序列。在其他实施例中，权重集合是被预先确定的。在一些实施例中，两个权重中仅一个权重被在比特流内用信号发送，且另一权重通过从1减去用信号发送的权重而被推导得出。

在一些实施例中，码字被指派给相应的权重，且权重通过使用对应的码字而被标识。码字至权重的指派可为预先确定的指派，或者该指派可基于之前编码的块内所使用的权重而被适应性调整。

在此还描述了用于执行通用式双预测的示例性编码器及解码器。

在此描述的系统及方法提供了用于对具有样本值的块进行预测的新型技术。此技术可由编码器及解码器使用。在编码方法中，对块的预测可导致包含样本值的块可被从原始输入块减除，以确定被编码在比特流内的残差。在解码方法中，残差可从比特流被解码并被添加至预测块，从而获得与原始输入块相同或近似的重构块。从而，通过在至少一些实施中减小编码及解码视频所需的比特数量，在此描述的预测方法可改善视频编码器及解码器的操作。示例性预测方法对于视频编码器及解码器的操作的进一步的优点将在以下具体实施方式部分给出。

附图说明

更详细的理解可以从以下结合附图通过示例的方式给出的描述中得到，以下先对这些附图进行简要描述。

图1是示出了基于块的视频编码器的示例的功能框图。

图2是示出了基于块的视频解码器的示例的功能框图。

图3是使用模板T_c以及相关联的预测块T₀和T₁进行预测的示意图。

图4是提供了照度随时间变化的示意图的图表。

图5是示出了根据一些实施例的被配置为使用通用式双预测的视频编码器的功能框图。

图6是在视频编码器内使用的示例性通用式双预测模块的功能框图。

图7是用于通用式双预测的隐性权重值的示例性解码器侧推导的示意图。

图8是用于二值化权重索引的树结构的示意图，其中每一圆圈代表将被用信号发送的比特。

图9是示出了根据一些实施例的被配置为使用通用式双预测的视频解码器的功能框图。

图10是在视频解码器内使用的示例性通用式双预测模块的功能框图。

图11A和11B提供了以下码字指派方法的示意图：恒定指派(图11A)和可替换指派(图11B)。

图12A和12B为提供了关于块适应性码字指派的示例的示意图：权重值字段(图12A)以及从恒定指派更新的最终码字指派(图12B)。

图13是合并候选位置的示意图。

图14是关于叠加块运动补偿(OBMC)的示例的示意图，其中m为用于执行OBMC的基础处理单元，N1至N8为因果相邻的子块，且B1至B7为当前块内的子块。

图15示出了关于帧率上转换(FRUC)的示例，其中v₀为与参考列表L0相对应的给定运动向量，而v₁为基于v₀和时间距离而被缩放的MV。

图16是示出了关于编码后的比特流结构的示例的示意图。

图17是示出了例示通信系统的图示。

图18是示出了可在一些实施例中被用作编码器或解码器的例示无线发射/接收单元(WTRU)的图示。

具体实施方式

基于块的编码

图1为通用的基于块的混合视频编码系统100的框图。输入视频信号102被逐块地处理。在HEVC中，扩展块大小(被称之为“编码单元”或CU)被用于有效地压缩高分辨率(1080p及以上)视频信号。在HEVC中，CU可高达64x64像素。CU可被进一步分区为预测单元或PU，针对该PU，可应用单独的预测方法。对于每一输入视频块(MB或CU)，空间预测(160)和/或时间预测(162)可被执行。空间预测(或者“帧内预测”)可使用来自同一视频图片/切片内的已编码相邻块的像素来预测当前视频块。空间预测可减小视频信号内固有的空间冗余。时间预测(也被称之为“帧间预测”或“运动补偿预测”)使用来自已编码视频图片的像素来预测当前视频块。时间预测可减小视频信号内固有的时间冗余。给定视频块的时间预测信号可由一个或多个指示当前块与其参考块之间的运动方向及运动量的运动向量用信号发送。此外，如果支持多个参考图片(例如对于最近的视频编码标准而言，诸如H.264/AVC或HEVC)，则还可针对每一视频块，发送参考图片的参考索引。参考索引被用于标识时间预测信号来自参考图片库(164)内的哪一参考图片。在空间和/或时间预测之后，编码器内的模式决策块(180)可例如基于率失真优化方法来选择最佳预测模式。之后，预测块可被从当前视频块(116)中被提取，且预测残差通过使用转换(104)及量化(106)而被去相关，从而实现目标比特率。量化残差系数可被逆量化(110)和逆转换(112)以形成重构残差，该重构残差之后可被加回预测块(126)以形成重构视频块。在重构视频块被放入参考图片库(164)并被用于编码未来的视频块之前，进一步的环内滤波(诸如，解块滤波器及自适应环路滤波器)可被应用(166)到所述重构视频块上。为了形成输出视频比特流120，编码模式(帧内或帧间)、预测模式信息、运动信息及量化残差系数均可被送入熵编码单元(108)以被进一步压缩及打包，从而形成比特流。

基于块的解码

图2给出了基于块的视频解码器200的主要框图。在熵解码单元208处，视频比特流202被解包并被熵解码。编码模式及预测信息被发送至空间预测单元260(如果被帧内编码)或空间预测单元262(如果被帧间编码)，以形成预测块。残差转换系数被发送至逆量化单元210及逆转换单元212以重构所述残差块。之后，在226处，预测块及残差块被加到一起。重构块可在被存储到参考图片库264之前进一步通过环内滤波。之后，参考图片库内的重构视频可被发送出去以驱动显示设备，以及被用于预测未来的视频块。

在现代视频编解码器中，双向运动补偿预测(MCP)因其在通过利用图片之间的时间相关而移除时间冗余方面的高效而闻名，且已被广泛用于大多数最高水平的视频编解码器中。然而，双预测信号是简单地通过使用等于0.5的权重值来合并单预测信号而被形成的。从合并单预测信号来看，这未必是最优的，尤其是在照度从一个参考图片至另一参考图片迅速改变的某些情况下。因此，现已开发出数种预测技术，致力于通过向参考图片内的每一样本值应用一些全局或局部权重及偏移值而补偿照度随时间的变化。

加权双预测

加权双预测为一主要用于在执行运动补偿时对随时间改变的照度(诸如退变转换)进行补偿的编码工具。对于每一切片，两个关于乘法权重值及加法偏移值的集合被显性指示并被单独应用至运动补偿预测，对于每个参考列表而言，一次应用一个集合。该技术在照度从一个图片至另一个图片线性且均等改变时最为有效。

局部照度补偿

在局部照度补偿中，参数(两对乘法权重值及加法偏移值)可以逐块地被适应性调制。不同于在切片级指示这些参数的加权双预测，该技术依赖于使得优化参数适应于模板(T_C)的重构信号与模板的预测信号(T₀及T₁)之间的照度变化。最终的参数可通过单独最小化T_C与T₀(针对第一对权重及偏移值)之间以及T_C与T₁之间(针对第二对权重及偏移值)的照度差异而被优化。之后，可利用所得到的参数执行类似于加权双预测那样的运动补偿处理。

照度改变的影响

空间及时间上的照度改变会严重影响运动补偿预测的性能。如图4所示，当照度沿着时间方向退变时，运动补偿预测不能提供良好的性能。例如，对象样本沿着从t-3至t的时间段行进时，且该样本的强度值会沿着其运动轨迹从v_t-3变为v_t。假设该样本将在第t个图片处被预测，则其预测值将被限于v_t-3与v_t-1之内，从而会导致较差的运动补偿预测。上述加权双预测及局部照度补偿技术并不能完全解决此问题。由于照度会在图片内剧烈波动，因此加权双预测会失败。由于块与其相关联的模板块之间的低照度相关性，局部照度补偿有时会产生较差的关于权重及偏移值的估计。这些示例示出了全局描述及基于模板的局部描述均不足以展现空间及时间上的照度变化。

示例性实施例

在此描述的示例性实施例可改善加权运动补偿预测的预测效率。在一些实施例中，提出了一些用于通用式多假设预测的系统及方法，其通过使用运动补偿预测及块级权重值来线性组合多假设预测信号。在一些实施例中，通过使用权重值描述了通用式双预测框架。在一些实施例中，有限权重集合在序列级、图片级以及切片级被使用，且描述了用于该权重集合的构建过程。在一些实施例中，所述权重值基于给定权重集合而被确定，并在考虑当前块及其参考块的信号的情况下被优化。描述了用于用信号发送权重值的示例性编码方法。描述了示例性编码器搜索判据，以用于针对所提出的预测的运动估计过程，且描述了所提出的结合所公开的时间预测技术使用的预测过程。

在本公开中，描述了通过使用通用式多假设预测进行时间预测的系统及方法。参考图5和图9描述了使用通用式双预测的示例性编码器及解码器。在此所公开的系统及方法按照以下部分而被组织。部分“通用式多假设预测”描述了使用通用式多假设预测的示例性实施例。部分“通用式双预测”描述了关于通用式双预测的示例性框架及预测过程。部分“权重集合的构建”及“权重索引编码”分别描述了权重集合的示例性构建过程以及描述了用于在用信号发送该集合内的权重选择的示例性技术。在部分“对高级时间预测技术的扩展”中，描述了用于将示例性的所提出的预测方法与高级帧间预测技术(包含局部照度补偿及加权双预测、合并模式、重叠块运动补偿、仿射预测、双向光流以及被称之为帧率上转换双预测的解码器侧运动向量推导技术)进行组合的系统及方法。在部分“GBi预测搜索策略”中，描述了用于增强示例性预测方法的效率的示例性仅编码器方法。

通用式多假设预测

在此描述的示例性系统及方法采用了通用式多假设预测。通用式多假设预测被描述为关于多假设预测的通用式形式，以基于线性组合多个运动补偿预测信号来提供关于像素的强度值的估计。通用式多假设预测可通过将具有不同量的多个预测组合在一起而利用他们的优点。为了达到准确估计的目的，运动补偿预测信号可通过预定义函数f(·)被处理(例如，伽玛校正、局部照度校正、动态范围转换)，并之后可被线性组合。通用式多假设预测可参照公式(1)而被描述：

其中P[x]代表位于图片位置x处的样本x的最终预测信号，w_i代表被应用至来自第i个参考图片的第i个运动假设的权重值，P_i[x+v_i]为使用运动向量(MV)v_i的x的运动补偿预测信号，且n为运动假设总数。

对于运动补偿预测而言，所需考量的一个因素便是如何对运动场的准确度与所需的运动开销进行平衡以达到最大率失真性能。准确的运动场意味着较佳的预测，而所需的运动开销则有时候会比预测准确度利益更为重要。因此，在示例性实施例中，所提出的视频编码器能够在不同的运动假设数量n之间进行适应性切换，且可为每一相应的PU寻找到能够提供最佳率失真性能的n值。为了助于解释通用式多假设预测是如何工作的，在以下部分可选择n＝2的值作为示例，因为两个运动假设是在现今视频编码标准中最为常用的，尽管如此，n的其他值可以是可被可替换使用的。为了简化对示例性实施例的理解，公式f(·)可被视为恒等函数，因此其并未被明确给出。对于本领域技术人员而言，在了解本公开之后很明显可以得出在此所公开的系统及方法可被应用至f(·)并非恒等函数的情况。

通用式双预测

在此所使用的术语通用式双预测(GBi)指代关于通用式多假设预测的一特殊情况，其中运动预测数量被限为2，即n＝2。在此情况下，公式(1)所给出的样本x处的预测信号可被简化为：

P[x]＝w₀*P₀[x+v₀]+w₁*P₁[x+v₁] (2)

其中w₀和w₁为块内的所有样本之间共享的权重值。基于此公式，可通过调整权重值w₀和w₁，生成非常多种预测信号。对于w₀和w₁的一些配置可导致与传统单预测及双预测相同的预测，例如可使得(w₀,w₁)＝(1,0)以实现利用参考列表L0的单预测、可使得(w₀,w₁)＝(0,1)以实现利用参考列表L1的单预测、以及可使得(w₀,w₁)＝(0.5,0.5)以实现利用两个参考列表的双预测。在(w₀,w₁)＝(1,0)和(w₀,w₁)＝(0,1)的情况下，仅一个运动信息集合会被用信号发送，因为与权重值等于0相关联的另一集合不会对预测信号P[x]起到任何作用。

关于w₀和w₁的值的灵活度可能会产生很高的信令开销成本，尤其是在高精确度下。为了节省信令开销，在一些实施例中，可应用单位增益约束，也即是w₀+w₁＝1，从而针对GBi编码的PU仅显性指示一个针对块的权重值。为了进一步减小权重信令开销，权重值可在CU级别而非PU级别被用信号发送。为了简化解释，在本公开的讨论中，w₁被用信号发送，从而公式(2)可被进一步简化为：

P[x]＝(1-w₁)*P₀[x+v₀]+w₁*P₁[x+v₁]. (3)

在示例实施例中，为了进一步限制信令开销，可将频繁使用的权重值布置在集合内(在下文中被称之为W_L1)，从而在有限范围内，每一权重值均可通过索引值而被指示，也即是权重_索引(weight_idx)指向其在W_L1内占用的项。

在示例性实施例中，对于支持产生两个参考块的加权平均而言，通用式双预测不会引入附加的解码负担。由于大多数目前的视频标准(例如，AVC、HEVC)均支持加权双预测，因此相同的预测模型可被适应性调整以用于GBi预测。在示例性实施例中，通用式双预测不仅仅可被应用于传统的单预测及双预测，而且还可被应用于其他高级时间预测技术，诸如仿射预测、高级时间运动向量推导以及双向光流。这些技术均致力于以非常低的运动开销为代价来得出更精细单元(例如，4x4)处的运动场表示。仿射预测为一基于模型的运动场编码方法，其中一个PU内的每一单元的运动可基于模型参数而被得出。高级时间运动向量推导涉及从时间参考图片的运动场推导出每一单元的运动。双向光流涉及通过使用光流模型得出每一像素的运动细化。无论单元的大小是多少，一旦在块级指定了权重值，则所给出的视频编解码器均能够通过使用那些所得出的运动及给定权重值而逐单元执行通用式双预测。

以下将更为详细地描述使用通用式双预测的示例性编码器及解码器。

用于通用式双预测的示例性编码器

图5为为了执行通用式双预测而被适应性调整的示例性视频编码器的框图。与图1所示的视频编码器相类似，空间预测及时间预测为示例性视频编码器内的两个基础的像素域预测模型。空间预测模型可与图1所示的空间预测模型相同。图1中被标为“运动预测”的时间预测模型可被替代为通用式双预测(GBi)模型502。该通用式双预测(GBi)模型可操作用于以加权平均的方式来组合两个单独的运动补偿预测(MCP)信号。如图6所示，所述GBi模型可实施一过程来生成如下的最终帧间参考信号。所述GBi模型可在参考图片(一个或多个)内执行运动估计来搜索指向两个参考块的两个最优运动向量(MV)，这可最小化当前视频块与双预测预测之间的加权双预测误差。所述GBi模型可通过利用那两个最优MV进行运动补偿来取得这两个预测块。随后，所述GBi模型可根据所述两个预测块的加权平均来计算通用式双预测的预测信号。

在一些实施例中，所有可用加权值均可在单个集合内被指定。由于如果加权值被用信号发送用于PU级的两个参考列表(这意味着其将会用信号发送针对每一双预测PU的两个单独的加权值)，则加权值会耗费掉大量比特，因此单位增益约束(权重值之和等于1)可被应用。在此约束下，仅用信号发送针对每一PU的一个单个权重值，而另一权重值可通过从1减去用信号发送的权重值得出。为了易于解释，在本公开中，与参考列表L1相关联的权重值被用信号发送，而权重值集合可通过W_L1表示。为了进一步节省信令开销，权重值可通过指向W_L1内的项位置的索引值weight_idx而被编码。通过向W_L1进行合适的指派，传统的单预测(对于一参考列表而言，权重等于0，而对于另一列表而言，权重等于1)及传统的双预测(对于两个参考列表而言，权重值均等于0.5)均可在GBi框架下被展现。在W_L1＝{0,0.5,1}的特殊情况下，所述GBi模型可实现图1所绘示的运动预测模型相同的功能。

除了{0,0.5,1}之外，针对W_L1的额外权重值可在切片级、图片级或序列级通过指示他们的数量的非负整数额外_权重_数量(extra_number_of_weights)被指定，从而在GBi框架内存在extra_number_of_weights+3个单独的权重。更为具体的，在示例性实施例中，当extra_number_of_weights大于0时，这些额外权重值之一可被逐块得出，这依赖于在切片级、图片级或序列级给出的标志隐性_权重_标志(implicit_weight_flag)的控制。当该标志被设置为等于1时，该特定权重值可不被用信号发送，但可如图7所示那样通过选找到一可最小化直接相邻的逆L形(称之为模板)的通用式双预测信号与模板的重构信号之间的差异的权重值而被得出。上述有关W_L1的构建的过程可由权重集合构建模型504执行。

为了使得W_L1内的额外权重值适应于具有高度动态的照度改变的图片，两个缩放因子(GBi_缩放_因子(gbi_scaling_factors))可在图片级被应用并用信号发送。通过该两个缩放因子，权重集合构建模型可针对GBi预测而对额外权重的值进行缩放。在帧间预测(也就是所提出的视频编码器内的GBi预测)及帧内预测之后，原始信号可被从该最终的预测信号中减去，且从而可产生用于编码的最终预测残差信号。

在示例性的所提出的视频编码器中，块运动(运动向量及参考图片索引)以及权重值索引为将针对每一帧内编码PU而被指示的仅块级信息。

在示例性实施例中，GBi预测的块运动信息可以按照与基本视频编解码器相同的方式被编码。除了当weight_idx与等于0或1的权重相关联时(也即是，等同于单预测的情况)，针对PU的两个运动信息集合会被用信号发送。

在示例性视频编码器中，权重索引编码模块506被用于二值化每一PU的weight_idx。权重索引编码模块的输出可为weight_idx的唯一的二进制表示二进制_权重_索引(binary_weight_idx)。图8示出了示例性二值化方案的树结构。与传统帧间预测相类似，binary_weight_idx的第一比特可针对每一帧间PU区分单预测(与等于0或1的权重值相关联的权重索引)与双预测(与W_L1内的除了0和1之外的权重值相关联的权重索引)。在单预测分支中，另一比特可被用信号发送以指示所参考的是L0参考列表(与等于0的权重值相关联的权重索引)还是L1参考列表(与等于1的权重值相关联的权重索引)。在双预测分支中，每一叶节点可被指派与剩余权重值(也即是W_L1内的非0和1的权重)之一相关联的唯一权重索引值。在切片级或图片级，示例性视频编码器可在数个预定义指派方式之间进行适应性切换，或者基于来自之前编码的块的权重值的使用而动态地以逐PU为基础来将每一权重指派给唯一叶节点。一般而言，被频繁使用的权重索引被指派给双预测分支内靠近根的叶节点，而其他权重索引则相反被指派给远离所述根的更深的叶节点。通过遍历图8内的树，每一weight_idx均可被转换为唯一的binary_weight_idx以用于熵编码。

关于通用式双预测的解码框架

图9为一些实施例中的视频解码器的框图。图9的解码器可操作用于解码图5内所示的视频编码器所产生的比特流。编码模式及预测信息可被用于得到使用空间预测或通用式双预测的预测信号。对于通用式双预测，块运动信息及权重值可被接收并解码。

权重索引解码模块902可解码所提出的视频编码器内的权重索引编码模块506所编码的权重索引。该权重索引解码模块902可重构类似于图8所指定的相同树结构，且以与所提出的视频编码器相同的方式，该树上的每一叶节点被指派唯一的weight_idx。以此方式，所述树可在所提出的视频编码器与解码器之间被同步。通过遍历此树，每一接收的binary_weight_idx均在树上的某叶节点处可找到其关联的weight_idx。类似于图5的视频编码器，示例性的视频解码器包含用于构建权重集合W_L1的权重集合构建模块904。当implicit_weight_flag等于1时，W_L1内的额外权重值之一可被推导得出而非被显性用信号发送，而W_L1内的所有额外权重值可被进一步通过使用gbi_scaling_factors所指示的缩放因子而被缩放。之后，权重值的重构可通过从W_L1取回weight_idx所指向的权重值而完成。

依赖于每一块处的权重值选择，解码器可接收一个或两个运动信息集合，当重构权重值非0或1时，可接收到两个运动信息集合；否则(当其为0或1时)，可仅接收与非零权重相关联的一个运动信息集合。例如，如果权重值等于0，则仅针对参考列表L0的运动信息将被用信号发送；否则如果权重值等于1，则仅针对参考列表L1的运动信息将被用信号发送。

通过利用块运动信息及权重值，图10所示的通用式双预测模块1050可操作用于根据两个运动补偿预测块的加权平均来计算通用式双预测的预测信号。

依赖于编码模式，空间预测信号或通用式双预测信号可与重构残差信号相加，从而得到重构视频块信号。

权重集合的构建

以下将描述使用显性信号发送的权重、解码器侧推导出的权重、以及经缩放的权重进行权重集合W_L1的示例性构建过程以及用于压缩权重集合W_L1的大小的示例性修剪过程。

显性权重值

显性权重值可在每一序列级、图片级以及切片级被分层地用信号发送及管理。较低级处指定的权重可替代较高级处的那些权重。假设较高级处的显性权重数量为p且相对较低级处的显性权重数量为q，在构建较低级处的权重值列表时，可应用以下替换规则：

·当p>q时，较高级处的最后q个权重可被替换为较低级处的q个权重。

·当p≤q时，较高级处的所有权重均被替换为较低级处指定的那些权重。

显性权重值数量可在序列级、图片级以及切片级中的每一级处通过extra_number_of_weights而被指示。在一些实施例中，在切片级处，基础权重集合总是包含用于GBi的形成了{0,0.5,1}的三个默认值，以支持传统单预测及双预测，从而可为每一块使用总共(extra_number_of_weights+3)个权重。例如，当序列级、图片级及切片级处给出的extra_number_of_weights的值分别为2(例如，w_A,w_B)、1(例如，w_C)以及3(例如，w_D,w_E,w_F)时，则序列级、图片级及切片级处的可用权重值分别为{w_A,w_B}、{w_A,w_C}以及{0,0.5,1}∪{w_D,w_E,w_F}。在此示例中，“通用式双预测”部分所提及的W_L1为切片级权重集合。

隐性权重值的推导过程

在一些实施例中，切片级权重集合W_L1内的权重值可通过编码器及解码器处的模板匹配而被推导得出，而无需用信号发送。如图7所示，该隐性权重值可通过使得利用当前块的运动信息的模板的预测信号(T₀以及T₁)与所述模板的重构信号(即，T_c)之间的差异最小化而被推导得出。该问题可被公式化为：

w^*＝argmin_w∑_x(T_c[X]-(1-w)*T₀[x+v₀]-w*T₁[x+v₁])² (4)

其中v₀与v₁为当前块的运动向量。由于公式(4)为二次函数，因此如果T₀与T₁并不完全相同，则可得出关于所推导出的权重的封闭式表达，即：

当当前块信号的权重值与相关联模板预测信号的权重值相关时，是可以看出该方法的有效性的，然而这并不总能得到保证，尤其是当当前块内的像素及其相关联的模板位于不同运动对象内时。为了最大化GBi的预测性能，当extra_number_of_weights≥1时，可在切片级、图片级或序列级用信号发送标志implicit_weight_flag，以确定隐性权重是否被使用。一旦这被设置为1，则W_L1内的最后的切片级权重值可被推导得出，从而不需要被用信号发送。例如，上述“显性权重值”部分内所提及的w_F并不需要被用信号发送，且当implicit_weight_flag等于1时，所述块的权重可被隐性推导得出。

关于权重值的缩放过程

在一些实施例中，显性权重值可进一步通过使用图片级处指示的两个缩放因子gbi_scaling_factors而被缩放。由于图片内随时间产生的可能的高度动态的照度改变，这些权重值的动态范围可能不足以覆盖所有这些情况。虽然加权双预测可补偿图片之间的照度差异，但并不能保证其总是能够在基础视频编解码器内被启用。因此，当加权双预测不被使用时，那些缩放因子可被用于调节多个参考图片上的照度差异。

第一缩放因子可放大W_L1内的每一显性权重值。通过此，公式(3)内的GBi的预测函数可被表达为：

P[x]＝(α*(1-w₁-0.5)+0.5)*P₀[x+v₀]+(α*(w₁-0.5)+0.5)

*P₁[x+v₁]

＝(1-w′₁)*P₀[x+v₀]+w′₁*P₁[x+v₁] (6)

其中α为当前图片的第一缩放因子，且w₁'表示经缩放的权重值(也即是α*(w₁-0.5)+0.5)。公式(6)中的第一公式可被表达为与公式(3)相同的形式。唯一的差异在于被应用至公式(6)和(3)的权重值。

第二缩放因子可被用于减小相关联参考图片P₀和P₁之间的照度差异。通过此缩放因子，公式(6)可被进一步重新公式化为：

其中s、s₀和s₁表示在当前图片及其两个参考图片处分别被用信号发送的第二缩放因子。根据公式(7)，对于变量s的一种最优指派为当前图片内的样本的平均值。因此，在应用第二缩放因子之后，参考图片的平均值可被期望是相类似的。由于交换特性，将缩放因子应用至P₀和P₁可等同于将他们应用至权重值，且因此公式(7)可被重新解释为：

因此，关于权重集合的构建过程可被表达为关于显性权重、隐性权重、缩放因子及参考图片的函数。例如，上述切片级权重集合W_L1变为{0,0.5,1}∪{(s/s₁)*w_D’,(s/s₁)*w_E’,(s/s₁)*w_F’}，而针对L0的权重集合变为{1,0.5,1}∪{(s/s₀)*(1-w_D’),(s/s₀)*(1-w_E’),(s/s₀)*(1-w_F’)}，其中s₁为当前块的列表L1内的参考图片的平均样本值，而s₀为当前块的列表L0内的参考图片的平均样本值。

关于权重值的修剪

示例性实施例可操作用于进一步减小W_L1内的权重值数量。以下描述了两个用于修剪权重值的示例性方法。第一方法响应于运动补偿预测结果而运作，而第二方法基于0与1之间的范围外的权重值而运作。

基于预测的方法。当给定PU的运动向量时，并非每一权重均可产生与其他权重实质上不同的双预测。示例性实施例利用了该特性，修剪冗余权重值(其产生类似的双预测信号)并保持多个冗余值中的仅一个权重，以使得W_L1更为紧凑。为了这么做，可使用函数来计算两个不同权重值的双预测信号之间的相似度。该函数可为但不限于余弦相似度函数，其可运行如下：

其中w⁽ⁱ⁾和w^(j)为W_L1内的两个独立的权重值，v₀和v₁为给定双预测运动信息，而P[x；w,v₀,v₁]代表在给定w、v₀和v₁的情况下，公式(3)、(6)和(8)内指定的相同预测函数。当公式(9)的值低于给定阈值时(由切片级的权重_修剪_阈值(weight_pruning_threshold)指示)，权重之一可依赖于该切片级语法修剪_较小_权重_标志(pruning_smaller_weight_flag)而被修剪。如果该标志被设置为等于1，则修剪过程可从W_L1移除w⁽ⁱ⁾和w^(j)中的较小权重。否则(当所述标志被设置为等于0时)，较大者可被移除。在示例性实施例中，该修剪过程可被应用至W_L1内的每一对权重值，且最后，最终W_L1内不会有两个权重值会产生相似的双预测信号。两个权重值之间的相似度还可通过使用绝对转换差异的和(SATD)而被评估。为了减小计算复杂度，该相似度可通过使用两个子采用预测块而被评估。例如，其可通过利用水平及垂直方向上的关于样本的子采样行或子采样列而被计算。

基于权重值的方法。根据不同编码结构(例如，分层结构或低延时结构)下的编码性能，0和1之间范围之外的权重值(或简而言之为范围外权重)可具有不同的表现。为了利用此事实，示例性实施例采用序列级索引(权重_控制_索引(weight_control_idx))集合来单独针对每一时间层限制范围外权重的使用。在这些实施例中，每一weight_control_idx均与特定时间层的所有图片相关联。依赖于该索引是如何被配置的，范围外权重可有条件地被使用或修剪，具体如下：

·对于weight_control_idx＝0，W_L1对于相关联图片维持不变。

·对于weight_control_idx＝1，W_L1内的范围外权重不可用于相关联图片。

·对于weight_control_idx＝2，W_L1内的范围外权重仅可用于一些相关联图片，这些相关联图片的参考帧纯来自于之前(例如，HEVC及JEM内的低延时配置)。

·对于weight_control_idx＝3，W_L1内的范围外权重仅可在HEVC及JEM内的切片级标志mvd_l1_zero_flag被启用时用于相关联图片。

权重索引编码

以下将更为详细地描述用于对权重索引编码进行二值化及码字指派的示例性系统及方法。

用于权重索引编码的二值化过程

在示例性实施例中，每一权重索引(weight_idx)均可在熵编码之前通过系统码被转换为唯一二进制表示(binary_weight_idx)。出于解释说明的目的，图8中示出了所提出的二值化方法的树结构。binary_weight_idx的第一比特用于区分单预测(其与等于0或1的权重相关联)和双预测。在单预测分支内用信号发送的另一比特指示两个参考列表中的哪一个被参考，参考列表L0(与指向等于0的权重值的权重索引相关联)或参考列表L1(与指向等于1的权重值的权重索引相关联)。在双预测分支中，每一叶节点均可被指派与W_L1内的非0或1的剩余权重值之一相关联的唯一权重索引。示例性视频编解码器可支持各种系统码以二值化双预测分支，诸如截断一元码(例如图8)以及指数哥伦布码。以下将更为详细地描述对双预测分支内的每一叶节点指派唯一weight_idx的示例性技术。通过查找该树结构，每一权重索引均可被映射至唯一码字或从唯一码字被恢复(例如，binary_weight_idx)。

针对权重索引编码而适应性码字指派

在示例性二叉树结构中，每一叶节点对应于一个码字。为了减小权重索引的信令开销，可使用各种适应性的码字指派方法来将双预测分支内的每一叶节点映射至唯一权重索引。示例性方法包括预定码字指派、块适应性码字指派、基于时间层的码字指派、以及时间-延迟CTU-适应性码字指派。这些示例性方法可基于之前编码的块内使用的权重值的存在而更新双预测分支内的码字指派。频繁使用的权重可被指派给具有更短长度的码字(例如，双预测分支内更浅的叶节点)，而其他权重可被指派给具有相对较长长度的码字。

1)预定码字指派。通过使用预定码字指派，可为双预测分支内的叶节点提供恒定的码字指派。在此方法中，与权重0.5相关联的权重索引可被指派最短码字，也即是例如图8中的节点i。0.5之外的权重值可被分入两个集合：集合1包含所有大于0.5的值，其按照升序被排序；集合2包含所有小于0.5的值，其按照降序被排序。之后，这两个集合被交织以形成集合3，其可起始于集合1或者集合2。长度从短到长的所有剩余码字被按序指派给集合3内的权重值。例如，当双预测分支内的所有可能权重值的集合为{0.1,0.3,0.5,0.7,0.9}时。集合1为{0.7,0.9}，集合2为{0.3,0.1}，如果交织从集合1开始，集合3为{0.7,0.3,0.9,0.1}。长度从短到长的码字被顺序指派给0.5、0.7、0.3、0.9以及0.1。

一些编解码器在两个运动信息集合被发送时可能丢弃一个运动向量差异，在该情况下，所述指派是可以改变的。例如，该行为可在HEVC内通过切片级标志mvd_l1_zero_flag而被找到。在此情况下，可替换的码字指派可对与大于且接近于0.5的权重值(例如，w⁺)相关联的权重索引进行指派。之后，与那些大于(或小于)w⁺的权重值中的第n个最小(或最大)权重值相关联的权重索引可被指派第(2n+1)短(或第2n短)的码字。基于之前的示例，长度从短到长的码字可被顺序指派给0.7、0.5、0.9、0.3以及0.1。图11A-11B示出了这两个示例的最终指派。

2)使用因果相邻(causal-neighboring)权重的块适应性码字指派。因果相邻块内所使用的权重值可与当前块所使用的权重值相关。基于此认知及给定码字指派方法(例如，恒定指派或可替换指派)，可从因果相邻块找到的权重索引可被移升至双预测分支中具有更短码字长度的叶节点。与运动向量预测列表的构建过程相类似，因果相邻块可按照图12A所示的排序顺序被接入，且最多有两个权重索引可被移升。从图中可以看出，从左下块到左块，第一个可用权重索引(如果有的话)可被移升为具有最短码字长度；从右上块到左上块，第一个可用权重索引(如果有的话)可被移升为具有次短码字长度。对于其他权重索引，根据他们在原始给定指派中的码字长度，他们可被指派给从最浅到最深的剩余叶节点。图12B给出了一给定码字指派如何对其自身进行调整来适应因果相邻权重的示例。在该示例中，恒定指派可被使用，且等于0.3和0.9的权重值可被移升。

3)基于时间层的码字指派。在使用基于时间层的码字指派的示例性方法中，所提出的视频编码器可在恒定码字指派与可替换码字指派之间进行适应性切换。基于相同时间层处之前编码的图片的权重索引的使用或者通过利用相同QP值，利用权重索引的最小预期码字长度的最优码字指派方法可通过以下方式而被找到：

其中L_m(w)表示使用某码字指派方法m的w的码字长度，为仅设置用于双预测的权重集合，而Prob_k(w)表示在时间层处k个图片上w的累积概率。一旦确定了最佳码字指派方法，则其可被应用于编码权重索引或解析二进制码字索引以用于当前图片。

可考虑数种不同的方法来来累计权重索引在时间图片上的使用。示例性方法可被制定为一公共公式：

其中w_i为W_L1内的某一权重,Count_j(w)表示时间层的第j个图片处的某权重值的存在，n决定最近将被存储的图片的数量，λ为遗忘项。由于n和λ为仅用于编码器的参数，他们可在每一图片处进行自适应调整以适应各种编码条件，诸如针对场景改变的n＝0以及针对运动视频的更小λ。

在一些实施例中，关于码字指派方法的选择可通过使用切片级语法元素来显性指示。因此，解码器不需要在时间上维持对权重索引的使用，从而解析对时间图片上的权重索引的依存性可被完全避免。此方法还可改善解码鲁棒性。

4)CTU适应性码字指派。完全基于之前编码图片的权重使用情况来在不同码字指派方法之间切换可能不能总是很好地匹配当前图片的码字指派。这可归因于缺乏对当前图片的权重使用情况的考虑。在使用CTU适应性码字指派的示例性实施例中，Prob_k(w_i)可基于当前CTU行内及直接位于CTU行上的编码块的权重使用情况而被更新。假设当前图片为时间层内的第(k+1)个图片，则Prob_k(w_i)可逐CTU而被更新如下：

其中B表示当前CTU行内及直接位于CTU行上的的编码CTU集合，以及Count'_j(w)表示集合B内收集的第j个CTU处的某权重值的存在情况。一旦Prob_k(w_i)被更新，则其可被应用至公式(10)，且最佳码字指派方法可因此而被确定。

对高级时间预测技术的扩展

以下讨论的实施例用于将通用式双预测与其他编码技术(包含局部照度补偿、加权双预测、合并模式、双向光流、仿射运动预测、重叠块运动补偿、以及帧率上转换双预测)的应用进行扩展。

局部照度补偿及加权双预测

示例性通用式双预测技术可在局部照度补偿(IC)和/或加权双预测或者其他技术的基础上被执行。IC及加权双预测均可操作用于对参考块上的照度改变进行补偿。他们之间的一个差异在于：在使用IC时，权重(c₀和c₁)和偏移值(o₀和o₁)是通过逐块的进行模板匹配而被推导得出的；在使用加权双预测时，这些参数是逐切片地被显性用信号发送的。通过利用这些参数(c₀,c₁,o₀,o₁)，GBi的预测信号可被计算为：

其中上述“关于权重值的缩放过程”部分内描述的权重值的缩放过程可被应用。当未应用该缩放过程时，GBi的预测信号可被计算为：

P[x]＝(1-w₁)*(c₀*P₀[x+v₀]+o₀)+w₁*(c₁*P₁[x+v₁]+o₁)。 (14)

例如公式(13)或(14)中所给出的那些组合预测过程的使用可在序列级、图片级或切片级被用信号发送。可针对GBi及IC的组合以及针对GBi及加权双预测的组合分别进行信号发送。在一些实施例中，公式(13)或(14)的组合预测过程可仅在权重值(w₁)不等于0、0.5或1时被应用。具体而言，在组合预测过程的使用是活动的时，块级IC标志的值(其可用于指示IC的使用)确定GBi(w₁≠0,0.5,1)是否与IC组合。否则，当组合预测过程不被使用时，GBi(w₁≠0,0.5,1)和IC作为两种独立预测模式而执行，且对于每一块而言，所述块级IC标志不需要被用信号发送，且从而可被推断为0。

在一些实施例中，GBi是否可与IC或加权双预测组合可利用序列参数集合(SPS)、图片参数集合(PPS)、或切片报头处的高级语法通过使用标志(诸如，GBi_IC_组合_标志(gbi_ic_comb_flag)和GBi_加权双预测_组合_标志(gbi_wb_comb_flag))而被用信号发送。在一些实施例中，如果gbi_ic_comb_flag等于0，则GBi和IC不被组合，且对于任意双预测编码单元而言，GBi权重值(w₁≠0,0.5,1)和IC标志将不会共存。例如，在一些实施例中，如果为编码单元用信号发送了GBi权重(w₁≠0,0.5,1)，则将不会有IC标志被用信号发送，且该标志值可被推断为0；否则IC标志可被显性地用信号发送。在一些实施例中，如果gbi_ic_comb_flag等于1，则GBi和IC可被组合，且GBi权重和IC标志可针对一个编码单元被独立用信号发送。相同的语法可被应用于gbi_wb_comb_flag。

合并模式

在一些实施例中，合并模式可用于不仅仅从因果相邻块推断出运动信息，还可同时推断出该块的权重索引。至因果相邻块(如图13所绘示的)的接入顺序可与HEVC内指定的相同，其中空间块按照左块、上块、右上块、左下块以及右上块的顺序被接入，而时间块则按照右下块及中心块的顺序被接入。在一些实施例中，至多五个合并候选可通过利用来自空间块的至多四个块以及来自时间块的至多一个块而被构建。给定合并候选之后，则可应用公式(3)、(8)、(13)或(14)内指定的GBi预测过程。应该注意的是，权重索引不需要被用信号发送，因为其可从所选合并候选的权重信息被推断得出。

在JEM平台，可提供被称之为高级时间运动向量预测(ATMVP)的附加合并模式。在本公开的一些实施例中，ATMVP可与GBi预测组合。在ATMVP中，一个CU内的每一4x4单元的运动信息均可从时间参考图片的运动场推导得出。在使用ATMVP的示例性实施例中，当GBi预测模式被启用时(例如，当extra_number_of_weights大于0时)，每一4x4单元的权重索引还可从时间参考图片内的对应时间块的权重索引推断得出。

双向光流

在一些实施例中，GBi的权重值可被应用至双向光流(BIO)模型。基于运动补偿预测信号(P₀[x+v₀]和P₁[x+v₁])，BIO可估计偏移值o_BIO[x]，以减小L0和L1内两个对应样本之间的差异(按照他们的空间垂直及水平梯度值)。为了将该偏移值与GBi预测进行组合，公式(3)可被重新公式化为：

P[x]＝(1-w₁)*P₀[x+v₀]+w₁*P₁[x+v₁]+o_BIO[x], (15)

其中w₁为用于执行GBi预测的权重值。该偏移值还可在P₀和P₁内的预测信号被缩放之后作为附加偏移而被应用至其他GBi变形，类似于公式(8)、(13)或(14)。

仿射预测

在示例性实施例中，GBi预测可按照类似于对传统双预测进行扩展的方式而与仿射预测相组合。然而，用于执行运动补偿的基础处理单元存在差异。仿射预测为用于形成关于PU的精细粒度运动场表示的基于模型的运动场推导技术，其中每一4x4单元的运动场表示可基于单向或双向转换运动向量及给定模型参数而被推导得出。因为所有的运动向量均指向相同参考图片，因此不必调整权重值来适应每一4x4单元。因此，权重值可在每一单元之间被共享且可用信号发送仅一个针对PU的权重索引。通过利用4x4单元处的运动向量及权重值，GBi被以逐个单元为基础而被执行，从而可在无任何改变的情况下直接应用相同的公式(3)、(8)、(13)以及(14)。

重叠块运动补偿

重叠块运动补偿(OBMC)为一种基于运动补偿信号提供关于样本的强度值的预测的方法，所述运动补偿信号是从所述样本自身的运动向量及其因果邻居内的那些运动向量推导得出的。在GBi的示例性实施例中，权重值还可在用于OBMC的运动补偿中被考虑。图14示出了一示例，其中当前块内的子块B₁具有三个运动补偿预测块，每一运动补偿预测块通过使用来自N₁、N₅或B₁自身的运动信息及权重值而被形成，且最终的关于B₁的预测信号可为所述三个运动补偿预测块的加权平均。

帧率上转换

在一些实施例中，GBi可与帧率上转换(FRUC)一起运行。可针对FRUC使用两种不同的模式。如果当前图片落入L0内的第一参考图片与L1内的第一参考图片之间，则可使用双预测模式。如果L0内的第一参考图片和L1内的第一参考图片均为前向参考图片或后向参考图片，则可使用单预测模式。以下将详细讨论FRUC内的双预测情况。在JEM中，相等的权重(即，0.5)可用于FRUC双预测。虽然FRUC双预测内的两个预测器的质量可能存在差异，但通过使用相等权重将具有不相等预测质量的两个预测器组合可能是次优的。由于不相等权重的使用，GBi的使用可改善最终的双预测质量。在示例性实施例中，对于利用FRUC双预测编码的块而言，GBi的权重值可被推导得出，从而不需要被用信号发送。对于PU内的每一4x4子块而言，W_L1内的每一权重值可通过FRUC双预测的MV推导过程而被单独评估。导致4x4块的最小双边匹配误差(也就是，与两个参考列表相关联的两个单向运动补偿预测器之间的绝对差异)的权重值可被选择。

在示例性实施例中，FRUC双预测为解码器侧MV推导技术，其通过使用双边匹配来推导MV。对于每一PU，可形成关于从因果相邻块收集的候选MV的列表。在恒定运动补偿的假设下，每一候选MV可被线性投影至其他参考列表内的第一参考图片，其中投影的缩放因子被设置为与参考图片(例如，在时间t₀或t₁)与当前图片(t_c)之间的时间距离成比例。以图15作为一示例，其中，v₀为与参考列表L0相关联的候选MV，v₁被计算为v₀*(t₁-t_c)/(t₀-t_c)。因此，依旧可为每一候选MV计算双边匹配误差，且可从候选列表中选择实现最小双边匹配误差的初始MV。该初始MV可被表示为v₀ ^INIT。从该初始MVv₀ ^INIT所指向的位置开始，解码器侧运动估计可被执行以在预定义搜索范围内寻找MV，且可实现最小双边匹配误差的MV可被选为PU级MV。假设v₁为所投影的MV，优化过程可被公式化为：

其中FRUC双预测可与GBi相组合，公式(16)内的搜索过程可利用W_L1内的权重值w而被重新公式化，也就是：

该PU级v₀可通过针对PU内的每一4x4子块使用公式(17)内的相同双边匹配而被进一步单独细化，如公式(18)所示：

对于W_L1内的每一可用权重值w，公式(18)可被评估，且最小化双边匹配误差的权重值可被选作最优权重。在评估过程结束时，PU内的每一4x4子块具有其自身的用于执行通用式双预测的双预测MV及权重值。该穷举式搜索方法的复杂度可能会很高，因为权重及运动向量会以联合方式被搜索。在另一实施例中，对最优运动向量及最优权重的搜索可分两步进行。在第一步中，每一4x4块的运动向量均可通过使用公式(18)并通过将w设置为初始值(例如，w＝0.5)而被获得。在第二步中，最优权重可在给定最优运动向量的情况下被搜索。

在再一其他实施例中，为了改善运动搜索精度，可应用三个步骤。在第一步中，初始权重可通过使用初始运动向量v₀ ^INIT而被搜索。可将该初始最优权重表示为w^INIT。在第二步，每一4x4块的运动向量可通过使用公式(18)并将w设置为w^INIT而被获得。在第三步，最终最优权重可在给定最优运动向量的情况下被搜索。

通过公式(17)和(18)，目标为最小化分别关联于两个参考列表的两个加权预测器之间的差异。对于此目的而言，负权重可能是不合适的。在一实施例中，基于FRUC的GBi模式将仅对大于零的权重值进行评估。为了减小复杂度，关于绝对差值之和的计算可通过使用每一子块内的部分样本而被执行。例如，绝对差值之和可通过使用仅位于偶数编号行和列(或，可替换的，奇数编号的行和列)处的样本而被计算。

GBi预测搜索策略

用于双预测搜索的初始参考列表

以下描述了用于通过确定在双预测的运动估计(ME)阶段应该首先搜索两个参考列表中的哪一者来改善GBi的预测性能的方法。如同传统的双预测，存在分别与参考列表L0和参考列表L1相关联的两个运动向量需要被确定以最小化ME阶段成本，也即是：

Cost(t_i,u_j)＝∑_x|I[x]-P[x]|+λ*Bits(t_i,u_j,weight index) (19)

其中I[x]为位于当前图片内的x处的样本x的原始信号，P[x]为GBi的预测信号，且t_i和u_j为分别指向L0内的第i个参考图片以及L1内的第j个参考图片的运动向量，λ为ME阶段所使用的拉格朗日参数，且Bits(·)函数估计用于编码输入变量的比特数。公式(3)、(8)、(13)以及(14)中的每一者均可被应用以替代公式(19)内的P[x]。出于简化说明的目的，在以下过程中，可考虑以公式(3)作为示例。因此，公式(19)内的成本函数可被重写为：

Cost(t_i,u_j)＝∑_x|I[x]-(1-w₁)*P₀[x+t_i]-w₁*P₁[x+u_j]|+λ*

Bits(t_i,u_j,weight index) (20)

由于存在两个参数(t_i和u_j)要被确定，可采用迭代过程。第一个这样的过程可遵循以下规则：

1.利用内的最佳运动，优化t_i,

2.利用内的最佳运动，优化u_j,

3.重复步骤1和2，直至t_i和u_j不再改变或者达到最大数量的迭代。

第二示例性迭代过程可如下进行：

1.利用内的最佳运动，优化u_j,

2.利用内的最佳运动，优化t_i,

3.重复步骤1和2，直至u_j和t_i不再改变或者达到最大数量的迭代。

选择哪一迭代过程可单独取决于t_i和u_j的ME阶段成本，也即是：

其中ME阶段成本函数可以如下：

Cost(t_i)＝∑_x|I[x]-P₀[x+t_i]|+λ*Bits(t_i). (22)

Cost(u_j)＝∑_x|I[x]-P₁[x+u_j]|+λ*Bits(u_j). (23)

然而，该初始化过程在1-w₁与w₁不相等的情况下可能并非是最优的。一种典型的示例则是权重值之一极度接近于0，例如w₁＝lim_w→0w，且其相关联的运动的ME阶段成本确碰巧低于另一者。在此情况下，公式(20)退化为：

Cost(t_i,u_j)＝∑_x|I[x]-P₀[x+t_i]|+λ*Bits(t_i,u_j,weight index). (24)

针对u_j所花费的开销不会对预测信号产生任何帮助，最终导致GBi的搜索结果很差。在本公开中，权重值的量级可被使用，以替代公式(21)，具体为：

针对权重索引的二分搜索

由于待评估的权重值的数量可能会对编码器引入额外的复杂度，示例性实施例采用二分搜索方法来在编码早期修剪可能性较低的权重值。在一此搜索方法中，传统的单预测(与0和1权重相关联)和双预测(与0.5权重相关联)可在最开始被执行，且W_L1内的权重值可被分为4组，也即是，A＝[w_min,0],B＝[0,0.5],C＝[0.5,1]以及D＝[1,w_max]。w_min和w_max分别代表W_L1内的最小权重值及最大权重值，且不失一般性地，可假设w_min<0且w_max>1。可应用以下规则来确定可能权重值的范围。

·如果w＝0可比w＝1给出更好的ME阶段成本，可应用以下规则：

o如果w＝0.5可比w＝0和w＝1给出更好的ME阶段成本，则可基于B内的权重值形成权重集合W⁽⁰⁾。

o否则，可基于A内的权重值形成W⁽⁰⁾。

·否则(如果w＝1可比w＝0给出更好的ME阶段成本)，可应用以下规则：

o如果w＝0.5可比w＝0和w＝1给出更好的ME阶段成本，则可基于C内的权重值形成权重集合W⁽⁰⁾。

o否则，可基于D内的权重值形成W⁽⁰⁾。

在形成W⁽⁰⁾之后，w_min和w_max的值可分别根据W⁽⁰⁾内的最小值及最大值而被重置。如果W⁽⁰⁾与A和D相关联，则可分别计算A内的w_min的ME阶段成本以及D内的w_max的ME阶段成本。

所述迭代过程可操作以保持更新W^(k)，直至在第k次迭代中集合内剩下超过2个权重值。假设所述过程为k次迭代，则该迭代过程可被指定如下：

1.利用最接近(w_min+w_max)/2的权重值w_middle执行GBi。

2.如果w_middle比w_min和w_max给出更好的ME阶段成本，则可针对W^(k+1)调用递归过程以单独测试[w_min,w_middle]和[w_middle,w_max]，且迭代过程跳至步骤6。

3.否则如果w_middle比w_min和w_max给出更差的ME阶段成本，则迭代过程终止。

4.否则如果w_min比w_max给出更好的ME阶段成本，则基于[w_min,w_middle]内的权重值形成W^(k+1)，且迭代过程跳至步骤6。

5.否则(如果w_min比w_max给出更差的ME阶段成本)，则基于[w_middle,w_max]内的权重值形成W^(k+1)，且迭代过程跳至步骤6。

6.如果W^(k+1)内剩余的权重值的数量大于2，则w_min和w_max可根据W^(k+1)内的最大值和最小值被重置，且迭代过程跳至步骤1；否则，迭代过程终止。

在迭代过程停止之后，所有测试值内可实现最低ME阶段成本的权重值可被选择以执行通用式双预测。

针对非2Nx2N分区的权重值估计

在一些实施例中，在针对2Nx2N分区测试了每一权重值之后，除了0、0.5和1之外的最佳表现权重值可用作对非2Nx2N分区的最优权重值的估计。在一些实施例中，假设存在n个唯一的估计，则可针对非2Nx2N分区评估该n个唯一的估计以及仅等于0、0.5和1的权重值。

针对非2Nx2N分区的分区大小估计

在一些实施例中，并非所有的非2Nx2N分区均由示例性视频编码器测试。非2Nx2N分区可被分为两个子类别：具有2NxN和Nx2N分区类型的对称运动分区(SMP)以及具有2NxnU、2NxnD、nLx2N和nRx2N分区类型的非对称运动分区(AMP)。如果SMP内的分区的率-失真(R-D)成本小于2Nx2N的失真成本，则AMP内的一些分区类型可在编码器处被评估。关于测试AMP内的哪些分区类型的决策可依赖于2NxN和Nx2N中的哪一者可在R-D成本方面展现出更佳的性能。如果2NxN的率失真成本更小，则可对分区类型2NxnU和2NxnD作进一步检查，否则(如果Nx2N的成本更小)，则可对分区类型nLx2N和nRx2N作进一步检查。

针对多通道编码的快速参数估计

在使用多通道编码器的示例性实施例中，从早期编码通道优化得到的预测参数(例如，块运动及权重值)可被采用作为后续编码通道处的初始参数估计。在此编码器中，从图片分区出来的编码块可被预测和编码两次或更多次，最终会导致编码复杂度的显著增大。一种减小该复杂度的技术为对来自初始编码通道的优化预测参数进行缓存，并将他们作为初始参数估计以用于随后编码通道内的进一步细化。例如，如果帧间预测模式碰巧为初始通道处的最佳模式，则编码器可在剩下的编码通道处仅评估帧间预测模式。在一些实施例中，可针对有关GBi的预测参数执行缓存，诸如对W_L1内的权重值的选择、与所选权重值相关联的双预测MV、IC标志、OBMC标志、整数运动向量(IMV)标志以及编码块标志(CBF)。在此类实施例中，这些缓存参数的值可在后续编码通道处被重用或细化。更为具体的，当采用上述双预测MV时，这些MV可用作双预测搜索的初始搜索位置。之后，他们可在运动估计阶段被细化，并在之后被用作下一编码通道的初始搜索位置。

示例性比特流通信架构

图16是示出了编码比特流结构的示例的示意图。编码比特流1000包括多个NAL(网络抽象层)单元1001。NAL单元可以包含编码采样数据(例如编码切片1006)或高级语法元数据(例如参数集合数据、切片报头数据1005或补充增强信息数据1007(其可被称为SEI消息))。参数集合是包含基本语法元素的高级语法结构，其中所述基本语法元素既可以应用于多个比特流层(例如视频参数集合1002(VPS))，也可以应用于一个层内部的编码视频序列(例如序列参数集合1003(SPS))，还可以应用于一个编码视频序列内部的多个编码图片(例如图片参数集合1004(PPS))。该参数集合既可以与视频比特流的编码图片一起发送，也可以通过其他方式(包括使用可靠信道的带外传输、硬编码等等)发送。切片报头1005同样是高级语法结构，其可以包含一些相对较小或者仅与某些切片或图片类型相关的一些图片相关信息。SEI消息1007携带了解码处理未必需要但是可以用于其他各种目的(例如图片输出定时或显示以及丢失检测和隐藏)的信息。

图17是示出了通信系统示例的示意图。通信系统1300可以包括编码器1302、通信网络1304和解码器1306。编码器1302可以经由连接1308与网络1304通信，该连接1308可以是有线连接或无线连接。编码器1302可以与图1的基于块的视频编码器相类似。编码器1302可以包括单层编解码器(例如图1)或多层编解码器。举例来说，编码器1302可以是支持图片级ILP的多层(例如两层)可扩展编码系统。解码器1306可以经由连接1310与网络1304通信，所述连接1310可以是有线连接或无线连接。解码器1306可以与图2的基于块的视频解码器相类似。解码器1306可以包括单层编解码器(例如图2)或多层编解码器。作为示例，解码器1306可以是支持图片级ILP的多层(例如两层)可扩展解码系统。

编码器1302和/或解码器1306可被引入到各种有线通信设备和/或无线发射/接收单元(WTRU)中，例如数字电视、无线广播系统、网络部件/终端、服务器(例如内容或网络服务器(例如超文本传输协议(HTTP)服务器))、个人数字助理(PDA)、膝上型或台式计算机、平板电脑、数码相机、数字记录设备、视频游戏设备、视频游戏控制台、蜂窝或卫星无线电话、和/或数字媒体播放器等等，但是并不局限于此。

通信网络1304可以是适当类型的通信网络。例如，通信网络1304可以是向多个无线用户提供内容(例如语音、数据、视频、消息、广播等等)的多址接入系统。通信网络1304能使多个无线用户通过共享包括无线带宽在内的系统资源来访问此类内容。作为示例，通信网络1304可以使用一种或多种信道接入方法，例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、和/或单载波FDMA(SC-FDMA)等等。通信网络1304可以包括多个相连的通信网络。该通信网络1304可以包括因特网和/或一个或多个私人商业网络，例如蜂窝网络、WiFi热点和/或因特网服务提供商(ISP)网络等等。

图18是可以实施这里描述的编码器或解码器的例示WTRU的系统图示。如所示，例示的WTRU 1202可以包括处理器1218、收发信机1220、发射/接收部件1222、扬声器/麦克风1224、键盘或数字键盘1226、显示器/触摸板1228、不可移除存储器1230、可移除存储器1232、电源1234、全球定位系统(GPS)芯片组1236和/或其他外围设备1238。应该了解的是，在保持与实施例相符的同时，WTRU 1202还可以包括前述部件的任何子组合。更进一步，整合有编码器(例如编码器100)和/或解码器(例如解码器200)的终端可以包含在图18的WTRU1202中描绘以及在这里参考图18的WTRU 1202描述的一些或所有部件。

处理器1218可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、图形处理单元(GPU)、多个微处理器、与DSP核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)、状态机等等。处理器1218可以执行信号编码、数据处理、功率控制、输入/输出处理和/或其他任何能使WTRU 1500在有线和/或无线环境中工作的功能。处理器1218可以耦合至收发信机1220，收发信机1220则可以耦合至发射/接收部件1222。虽然图18将处理器1218和收发信机1220描述成了独立组件，然而应该了解，处理器118和收发信机1220也可以一起集成在电子组件和/或芯片中。

发射/接收部件1222可被配置成经由空中接口1215来发射和/或接收往来于另一个终端的信号。举例来说，在一个或多个实施例中，发射/接收部件1222可以是被配置成发射和/或接收RF信号的天线。作为示例，在一个或多个实施例中，发射/接收部件1222可以是被配置成发射和/或接收IR、UV或可见光信号的放射器/检测器。在一个或多个实施例中，发射/接收部件1222可被配置成发射和/或接收RF以及光信号。应该了解的是，该发射/接收部件1222可以被配置成发射和/或接收无线信号的任何组合。

此外，虽然在图18中将发射/接收部件1222描述成了单个部件，但是WTRU 1202可以包括任何数量的发射/接收部件1222。更具体地说，WTRU 1202可以使用MIMO技术。因此，在一个实施例中，WTRU 1202可以包括两个或更多个经由空中接口1215来发射和接收无线信号的发射/接收部件1222(例如多个天线)。

收发信机1220可被配置成对发射/接收部件1222所要发射的信号进行调制，和/或对发射/接收部件1222接收的信号进行解调。如上所述，WTRU 1202可以具有多模能力。因此，收发信机1220可以包括允许WTRU 1202借助多种RAT(例如UTRA和IEEE 802.11)来进行通信的多个收发信机。

WTRU 1202的处理器1218可以耦合到扬声器/麦克风1224、数字键盘1226和/或显示器/触摸板1228(例如液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)，并且可以接收来自这些部件的用户输入数据。处理器1218还可以向扬声器/麦克风1224、数字键盘1226和/或显示器/触摸板1228输出用户数据。此外，处理器1218可以从任何适当的存储器(例如不可移除存储器1230和/或可移除存储器1232)中存取信息，以及将信息存入这些存储器。不可移除存储器1230可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或是其他任何类型的记忆存储设备。可移除存储器1232可以包括订户身份模块(SIM)卡、记忆棒、安全数字(SD)记忆卡等等。在一个或多个实施例中，处理器1218可以从那些并非实际位于WTRU 1202的存储器存取信息，以及将数据存入这些存储器，作为示例，此类存储器可以位于服务器或家庭计算机(未显示)。

处理器1218可以接收来自电源1234的电力，并且可被配置分发和/或控制用于WTRU 1202中的其他组件的电力。电源1234可以是为WTRU 1202供电的任何适当设备。举例来说，电源1234可以包括一个或多个干电池组(例如镍镉(Ni-Cd)、镍锌(Ni-Zn)、镍氢(NiMH)、锂离子(Li-ion)等等)、太阳能电池以及燃料电池等等。

处理器1218还可以与GPS芯片组1236耦合，该芯片组可被配置成提供与WTRU 1202的当前位置相关的位置信息(例如经度和纬度)。作为来自GPS芯片组1236的信息的补充或替换，WTRU 1202可以经由空中接口1215接收来自终端(例如基站)的位置信息，和/或基于从两个或更多个附近基站接收的信号定时来确定其位置。应该了解的是，在保持与实施例相符的同时，WTRU 1202可以借助任何适当的定位方法来获取位置信息。

处理器1218可以进一步耦合到其他外围设备1238，这些设备可以包括提供附加特征、功能和/或有线或无线连接的一个或多个软件和/或硬件模块。例如，外围设备1238可以包括加速度计、朝向传感器、运动传感器、接近传感器、电子指南针、卫星收发信机、数码相机和/或录像机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发信机、免提耳机、模块、调频(FM)无线电单元、以及软件模块(例如数字音乐播放器、媒体播放器、视频游戏机模块以及因特网浏览器等等)。

作为示例，WTRU 1202可被配置成发射和/或接收无线信号，并且可以包括用户设备(UE)、移动站、固定或移动订户单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型计算机、上网本、平板电脑、个人计算机、无线传感器、消费类电子产品或是其他任何能够接收和处理压缩视频通信的终端。

WTRU 1202和/或通信网络(例如通信网络804)可以实施诸如通用移动电信系统(UMTS)地面无线电接入(UTRA)之类的无线电技术，该无线电技术可以使用宽带CDMA(WCDMA)来建立空中接口1215的。WCDMA可以包含通信协议，例如高速分组接入(HSPA)和/或演进性HSPA(HSPA+)。HSPA可以包括高速下行链路分组接入(HSDPA)和/或高速上行链路分组接入(HSUPA)。WTRU 1202和/或通信网络(例如通信网络804)可以实现诸如演进UMTS陆地无线电接入(E-UTRA)之类的无线电技术，该无线电技术可以使用长期演进(LTE)和/或先进LTE(LTE-A)来建立空中接口1215。

WTRU 1202和/或通信网络(例如通信网络804)可以实施无线电技术，例如IEEE802.16(例如全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信系统(GSM)、GSM演进增强数据速率(EDGE)以及GSM EDGE(GERAN)等等。WTRU 1202和/或通信网络(例如通信网络804)可以实施诸如IEEE 802.11或IEEE 802.15等无线电技术。

应该指出的是，所描述的实施例中的一个或多个实施例的不同的硬件部件被称为“模块”，所述模块指的是用于执行(即，实施、运行等)在这里结合相应模块描述的不同功能的“模块”。这里使用的模块包含了被相关领域的技术人员认为适合与指定的实施方式相适合的硬件(例如，一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。所描述的每一个模块还可以包括可被执行以实施被描述成由相应模块执行的一个或多个功能的指令，并且应该指出的是，这些指令可以采用硬件(即硬连线)指令、固件指令和/或软件指令的形式或者包含这些指令，并且可被保存在任何适当的非暂时性计算机可读介质或媒体中，例如通常被称为RAM、ROM等等的介质或媒体。

虽然在上文中描述了采用特定组合的特征和要素，但是本领域普通技术人员将会认识到，每一个特征或要素既可以单独使用，也可以与其他特征和要素进行任何组合。此外，这里描述的方法可以在引入计算机可读介质中以供计算机或处理器运行的计算机程序、软件或固件中实施。关于计算机可读媒体的示例包括电信号(经由有线或无线连接传送)以及计算机可读存储媒体。关于计算机可读存储媒体的示例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、内部硬盘盒及可拆卸磁盘之类的磁介质、磁光介质、以及CD-ROM碟片和数字多用途碟片(DVD)之类的光介质。与软件关联的处理器可以用于实施在WTRU、UE、终端、基站、RNC或任何计算机主机中使用的射频收发信机。

Claims

1.一种对包括多个图片的视频进行编码的方法，所述多个图片包括当前图片、第一参考图片以及第二参考图片，每一图片包括多个块，所述方法包括对于所述当前图片内的至少当前块：

对标识第一权重及第二权重的块级信息进行编码，其中所述第一权重及第二权重中的至少一者具有不等于0、0.5或1的值；以及

将所述当前块预测为所述第一参考图片内的第一参考块与所述第二参考图片内的第二参考块的加权和，其中所述第一参考块通过所述第一权重而被加权且所述第二块通过所述第二权重而被加权。

2.根据权利要求1所述的方法，其中所述第一参考块及第二参考块被进一步通过在针对所述当前图片的比特流内用信号发送的至少一个缩放因子而被缩放。

3.根据权利要求1所述的方法，其中所述当前块被以合并模式编码，所述块级信息标识来自多个合并候选块的候选块，且所述第一权重及第二权重基于用于对所标识的候选块进行编码的权重而被标识。

4.根据权利要求1所述的方法，其中所述块级信息包括标识权重集合中的所述第一权重及第二权重的块级索引。

5.根据权利要求4所述的方法，其中所述权重集合包括至少四个权重。

6.根据权利要求4所述的方法，其中所述权重集合为预定权重集合。

7.根据权利要求4所述的方法，进一步包括在所述比特流内编码所述权重集合。

8.根据权利要求7所述的方法，其中编码所述权重集合包括将权重指派给二叉树内的对应叶节点，且其中所述第一权重的选择是通过使用在所述比特流内的标识与所述第一权重相对应的所述叶节点的码字而被执行的。

9.根据权利要求8所述的方法，其中所述第二权重是通过从1减去所选第一权重而被标识的。

10.根据权利要求8所述的方法，其中所述二叉树包括单预测分支及双预测分支，其中：

所述单预测分支包括0和1的权重；以及

所述双预测分支包括位于0和1之间的至少一个权重。

11.根据权利要求7所述的方法，其中所述在所述比特流内编码权重进一步包括在所述比特流内用信号发送标识权重数量的信息。

12.根据权利要求7所述的方法，其中所述在所述比特流内编码权重包括将至少第一权重集合分层编码在第一级以及将至少第二权重集合分层编码在低于所述第一级的第二级，且其中在所述第二级处用信号发送的权重替代至少一些在所述第一级处用信号发送的权重。

13.根据权利要求12所述的方法，其中所述第一级为序列级，且所述第二级为图片级及切片级之一。

14.根据权利要求4所述的方法，进一步包括将码字指派给对应权重，其中关于所述块级索引的编码是通过使用对应码字而被执行的。

15.根据权利要求14所述的方法，其中所述码字至权重的指派是预定指派。

16.根据权利要求14所述的方法，其中所述码字至权重的指派是基于之前编码的块内的权重而被调整的。

17.根据权利要求14所述的方法，进一步包括标识所述权重集合内的至少一个实质上冗余的权重，且其中所述实质上冗余的权重不被指派给用于所述视频的至少一些块的码字。

18.根据权利要求1所述的方法，该方法由编码器执行，该方法进一步包括：

从输入块中减去所预测的当前块，以生成残差；以及

在所述比特流内编码所述残差。

19.根据权利要求1所述的方法，该方法由解码器执行，该方法进一步包括：

从所述比特流解码出针对所述当前块的残差；以及

将所述残差加到所预测的当前块，以生成重构块。

20.一种对包括多个图片的视频进行编码的设备，所述多个图片包括当前图片、第一参考图片以及第二参考图片，每一图片包括多个块，所述设备包括处理器及存储有可操作指令的非暂时性计算机可读存储介质，该指令在所述处理器上被运行时执行一方法，该方法包括对于所述当前图片内的至少当前块：