CN110324619B

CN110324619B - 变换信息预测

Info

Publication number: CN110324619B
Application number: CN201910231419.0A
Authority: CN
Inventors: 赵欣; 李翔; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2018-03-29
Filing date: 2019-03-26
Publication date: 2021-09-03
Anticipated expiration: 2039-03-26
Also published as: US20190306521A1; CN110324619A; US10491914B2

Abstract

本申请提供了一种控制帧内和/或帧间预测以对视频序列进行解码的方法和设备。所述方法包括：接收变换索引，所述变换索引指示用于对图像块进行解码的变换选择；使用预设数目的二进制值对变换索引进行二值化；针对所述二值化的变换索引的选定的一组二进制值中的每个二进制值，识别变换系数块中的一组非零变换系数；以及基于所述二值化的变换索引的所述选定的一组二进制值中的第一二进制值和所述二值化的变换索引的所述选定的一组二进制值中的第二二进制值，使所述变换系数块中的所识别的一组非零变换系数的正负号反转。

Description

变换信息预测

相关申请的交叉引用

本申请要求于2018年3月29日提交美国专利商标局的第62/650,128号美国临时专利申请，以及于2018年12月26日提交美国专利商标局的第16/232,757号美国申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理，尤其涉及对编码模式，例如变换索引，的值进行预测的方法和设备。

背景技术

ITU-T VCEG(Q6/16)和ISO/IEC MPEG(JTC1/SC 29/WG 11)在2013年(版本1)、2014年(版本2)、2015年(版本3)和2016年(版本4)公开了H.265/高效率视频编码(HighEfficiency Video Coding，HEVC)标准。此后，他们一直在研究未来视频编码技术标准化的潜在需求，未来视频编码技术的压缩能力明显超过HEVC标准(包括其扩展)的压缩能力。这些小组正在通过被称为联合视频探索小组(Joint Video Exploration Team，JVET)的联合合作计划开展这项勘探活动，以评估由他们的此领域的专家提出的压缩技术设计。JVET已开发出联合探索模型(Joint Exploration Model，JEM)来探索超出HEVC的能力的视频编码技术，且JEM的当前最新版本是JEM-7.0。

在HEVC中，通过表示为编码树的四叉树结构将编码树单元(coding tree unit，CTU)拆分成编码单元(coding unit，CU)以适应于各种局部特性。在CU层级决定是以图片间(时间)还是图片内(空间)预测对图片区域进行编码。可以根据PU拆分类型将每个CU进一步拆分成一个、两个或四个预测单元(prediction unit，PU)。在一个PU内部，应用相同的预测过程且在PU基础上向解码器传输相关信息。在通过基于PU拆分类型应用预测过程而获得残差块之后，可以根据与用于CU的编码树相似的另一四叉树结构将CU分割成变换单元(transform unit，TU)。HEVC结构的一个关键特征是，HEVC结构具有包括CU、PU和TU的多种分区概念。在HEVC中，CU或TU可以仅为正方形形状，而对于帧间预测块，PU可能为正方形或矩形形状。在HEVC的后期阶段，一些人提议容许将矩形形状的PU用于帧内预测和变换。这些提议未被HEVC采纳，但扩展到JEM中使用。

在图片边界处，HEVC利用隐式四叉树拆分，使得在大小适合图片边界以前，块将一直保持四叉树拆分。

在HEVC中，通过表示为编码树的四叉树结构将CTU拆分成CU以适应于各种局部特性。在CU层级决定是以图片间(时间)还是图片内(空间)预测对图片区域进行编码。可以根据PU拆分类型将每个CU进一步拆分成一个、两个或四个PU。在一个PU内部，应用相同的预测过程且在PU基础上向解码器传输相关信息。在通过基于PU拆分类型应用预测过程而获得残差块之后，可以根据与用于CU的编码树相似的另一四叉树结构将CU分割成变换单元(transform unit，TU)。HEVC结构的一个关键特征是，HEVC结构具有包括CU、PU和TU的多种分区概念。

QTBT结构去除了多种分区类型的概念，即，QTBT结构去除了CU、PU和TU概念的分隔，并支持更灵活的CU分区形状。在QTBT块结构中，CU可以为正方形或矩形形状。如图1A所示，首先由四叉树结构分割编码树单元(coding tree unit，CTU)。由二叉树结构进一步分割四叉树叶节点。在二叉树拆分中存在两种拆分类型：对称水平拆分和对称竖直拆分。二叉树叶节点被称为编码单元(coding unit，CU)，且此种分段用于预测和变换处理，无需进行进一步分割。这意味着CU、PU和TU在QTBT编码块结构中具有相同的块大小。在JEM中，CU有时由具有不同颜色分量的编码块(coding block，CB)组成，例如，在4:2:0色度格式的P和B切片的情况下，一个CU含有一个亮度CB和两个色度CB，且CU有时由具有单个分量的CB组成，例如，在I切片的情况下，一个CU仅含有一个亮度CB或仅仅两个色度CB。针对QTBT分割方案定义以下参数：CTU大小：四叉树的根节点大小，其与HEVC中的概念相同；MinQTSize：允许的最小四叉树叶节点大小；MaxBTSize：允许的最大二叉树根节点大小；MaxBTDepth：允许的最大二叉树深度；MinBTSize：允许的最小二叉树叶节点大小。

在QTBT分割结构的一个实例中，CTU大小被设置为具有两个对应64×64色度样本块的128×128亮度样本，MinQTSize被设置为16×16，MaxBTSize被设置为64×64，MinBTSize(针对宽度和高度两者)被设置为4×4，且MaxBTDepth被设置为4。首先将四叉树分割应用于CTU以生成四叉树叶节点。四叉树叶节点的大小可以为16×16(即，MinQTSize)至128×128(即，CTU大小)。如果叶四叉树节点为128×128，那么因为此大小超过MaxBTSize(即，64×64)，所以将不会由二叉树进一步拆分所述四叉树节点。否则，可以由二叉树进一步分割所述叶四叉树节点。因此，四叉树叶节点也是二叉树的根节点，且其二叉树深度为0。当二叉树深度达到MaxBTDepth(即，4)时，不会考虑进一步拆分。当二叉树节点的宽度等于MinBTSize(即，4)时，不会考虑进一步水平拆分。同样地，当二叉树节点的高度等于MinBTSize时，不会考虑进一步竖直拆分。通过预测和变换处理来进一步处理二叉树的叶节点，无需进一步分割。在JEM中，最大CTU大小是256×256亮度样本。

图1A(左侧)绘示通过使用QTBT进行块分割的实例，且图1A(右侧)绘示对应树表示。实线指示四叉树拆分，且虚线指示二叉树拆分。在二叉树的每个拆分(即，非叶)节点中，通过信号发送一个标志以指示哪种拆分类型(即，水平或竖直)被使用，其中0指示水平拆分且1指示竖直拆分。对于四叉树拆分，无需指示拆分类型，这是因为在四叉树拆分中，始终既水平地又竖直地拆分块以产生大小相等的4个子块。

另外，QTBT方案支持亮度和色度具有单独QTBT结构的能力。当前，对于P和B切片，一个CTU中的亮度和色度CTB共享同一QTBT结构。然而，对于I切片，亮度CTB由QTBT结构分割成CU，且色度CTB由另一QTBT结构分割成色度CU。这意味着I切片中的CU由具有亮度分量的编码块或具有两个色度分量的编码块组成，且P或B切片中的CU由具有全部三色分量的编码块组成。

在HEVC中，限定了用于小块的帧间预测以减少运动补偿的存储器访问，使得针对4×8和8×4块不支持双向预测且针对4×4块不支持帧间预测。在JEM的QTBT中，消除了这些限定。

除了在HEVC中已采用的DCT-II和4×4DST-VII之外，还使用自适应多重变换(Adaptive Multiple Transform，AMT，或被称为增强多重变换(Enhanced MultipleTransform，EMT))方案以针对帧间和帧内编码块两者进行残差编码。自适应多重变换使用从DCT/DST家族中选择的除了HEVC中的当前变换之外的多种变换。新引入的变换矩阵是DST-VII、DCT-VIII、DST-I和DCT-V。表1示出了选定的DST/DCT的基函数。

表1：用于N点输入的DCT-II/V/VIII和DST-I/VII的变换基函数

为了保持变换矩阵的正交性，相比于HEVC中的变换矩阵，所述变换矩阵使用10比特表示而非HEVC中的8比特进行更准确地量化。为了使所变换的系数的中间值保持在16比特的范围内，在水平变换和竖直变换之后，相较于当前HEVC变换中所使用的右移，所有系数被再右移2个比特。

AMT适用于宽度和高度两者都小于或等于64的CU，且AMT是否适用由CU层级标志控制的。当CU层级标志等于0时，在CU中应用DCT-II以对残差进行编码。对于启用了AMT的CU中的亮度编码块，通过信号发送两个额外标志以识别要使用的水平和竖直变换。与HEVC中一样，可以在JEM中运用变换跳过模式对块的残差进行编码。为了避免语法编码的冗余，当CU层级AMT标志不等于零时，不通过信号发送变换跳过标志。

对于帧内残差编码，由于不同帧内预测模式的不同残差统计，使用依赖模式的变换候选项选择过程。如表2所示，定义了三个变换子集，且所述变换子集是基于帧内预测模式选择的，如表2中所指示。

表2：三个预定义变换候选项集

就子集概念来说，当CU层级AMT标志等于1时，首先使用CU的帧内预测模式且基于表来识别变换子集。然后，对于水平和竖直变换中的每一种，根据表3，基于显式地用信号发送的标志在所识别的变换子集中选择两个变换候选项中的一个。

表3：针对每种帧内预测模式选择的水平(H)和竖直(V)变换集

然而，对于帧间预测残差，由DST-VII和DCT-VIII组成的仅一个变换集用于所有帧间模式且用于水平和竖直变换两者。

AMT的复杂性在编码器侧相对较高，这是因为当使用强行搜索时，需要针对每个残差块以速率-失真成本评估总共五个(DCT-II和四个多重变换候选项)不同变换候选项。为了减轻编码器处的此复杂性问题，JEM中为算法加速而设计出若干优化方法。

在JEM中，将依赖模式的不可分二次变换(non-separable secondary transform，NSST)应用在正向核心变换与量化之间(在编码器处)以及应用在去量化与反向核心变换之间(在解码器处)。为了保持低复杂性，在初次变换之后将NSST仅应用于低频系数。如果变换系数块的宽度(W)和高度(H)均大于或等于8，则将8×8不可分二次变换应用于变换系数块的左上方的8×8区。否则，如果变换系数块的W或H等于4，则应用4×4不可分二次变换且对变换系数块的左上方的min(8，W)×min(8，H)区执行4×4不可分变换。上述变换选择规则适用于亮度和色度分量两者。

如下以4×4输入块为例来描述不可分变换的矩阵乘法实施方案。为了应用不可分变换，将4×4输入块X表示为向量

不可分变换计算为

其中

指示变换系数向量，且T为16×16变换矩阵。随后使用针对4×4块的扫描次序(水平、竖直或对角线)将16×1系数向量

重新组织为所述块。索引较小的系数将在4×4系数块中与较小扫描索引放置在一起。在JEM中，使用具有蝶形实施方案的超立方体-吉文斯变换(Hypercube-Givens Transform，HyGT)以代替矩阵乘法来降低不可分变换的复杂性。

针对4×4和8×8块大小两者存在总共35×3个不可分二次变换，其中35是由帧内预测模式指定的表示为集的变换集数目，且3是用于每种帧内预测模式的NSST候选项数目。表4中定义了从帧内预测模式到变换集的映射。根据表4，应用于亮度/色度变换系数的变换集由对应亮度/色度帧内预测模式指定。对于大于34的帧内预测模式(对角线预测方向)，在编码器/解码器处的二次变换之前/之后转置变换系数块。

对于每个变换集，所选的不可分二次变换候选项进一步由显式地用信号发送的CU层级NSST索引指定。在使用变换系数和截断一元二值化之后，在比特流中针对每个帧内CU将所述索引用信号发送一次。在平面或DC模式的情况下，截断值为2，而针对角度帧内预测模式，截断值为3。仅当CU中存在多于一个非零系数时才用信号发送此NSST索引。在未被用信号发送时，默认值为零。此语法元素的零值指示二次变换不应用于当前CU，值1-3指示应当应用来自所述集的哪种二次变换。

在JEM中，针对以变换跳过模式编码的块不应用NSST。当NSST索引针对CU被用信号发送且不等于零时，NSST不用于CU中以变换跳过模式编码的分量的块。当具有所有分量的块的CU以变换跳过模式被编码或非变换跳过模式CB的非零系数数目小于2时，针对CU不用信号发送NSST索引。

提出当使用QTBT时禁止混合NSST和EMT，从而有效地使NSST仅与DCT2一起用作初次变换。

表4：从帧内预测模式到变换集索引的映射

超立方体-吉文斯变换(Hypercube-Givens Transform，HyGT)用于计算不可分二次变换。此正交变换的基本元素为吉文斯旋转，其由正交矩阵G(m,n,θ)定义，正交矩阵G(m,n,θ)具有由以下定义的元素：

这些变换可用图形表示，如图1B所示。

通过组合超立方体排列中的多组吉文斯旋转而实施HyGT。图1C示出用于16个元素(4×4不可分变换)的HyGT的“蝶形”形状流程图。假定N是2的幂，那么HyGT轮(round)被定义为一系列log2(N)传递，其中在每次传递中，向量m和n中的索引按顺序在每个方向上由尺寸为log2(N)的超立方体的边缘定义。

为了获得良好压缩，使用多于一个HyGT轮。如图1D所示，完整的不可分二次变换由R轮HyGT构成，并可以包括可选的排列传递，以根据变换系数的方差对变换系数排序。在JEM中，将第2轮HyGT应用于4×4二次变换且将第4轮HyGT应用于8×8二次变换。

在变换系数编码中，对于每个非零变换系数，通常在无上下文编码的情况下，对正负号比特，即，0或1，进行旁路编码。提出了系数正负号预测方案。基本上，考虑到正负号将被预测的N非零系数，每个可能正负号组合被称为假设，即，总共存在2^N个假设。通过运用逆变换和重构来尝试每种假设，得到了2^N个重构块，且将每个重构块的左上方边界样本与左上方重构相邻块进行比较，跨越块边界产生最小不连续性的左上方重构相邻块被确定为预测。

就正负号预测来说，对于每个正负号，代替用信号发送“+”和“-”，用信号发送指示预测是否正确的一个比特，即，正负号残差。使用取决于相关联变换系数的层级值的上下文对正负号残差比特进行编码。基本上，大的层级值会使得实现正确正负号预测的机率较高。根据去量化的层级值是否大于固定阈值600而使用两个上下文。

可以使用不同成本函数来测量边界不连续性，成本是基于绝对梯度值，如图1E所示。较低成本指示跨越块边界的重构值之间的较平滑过渡。

通过尝试不同假设且基于边界不连续性比较成本值，不仅可以预测变换系数正负号，而且还可以预测其它语法元素，例如变换选择标志或索引以及帧内预测方向。

发明内容

根据实施例，一种控制帧内预测以对视频序列进行解码的方法由至少一个处理器执行，并包括：接收变换索引，所述变换索引指示用于对图像块进行解码的变换选择；使用预设数目的二进制值对所述变换索引进行二值化；针对所述二值化的变换索引的选定的一组二进制值中的每个二进制值，识别变换系数块中的一组非零变换系数；以及基于所述二值化的变换索引的所述选定的一组二进制值中的第一二进制值和所述二值化的变换索引的所述选定的一组二进制值中的第二二进制值，使所述变换系数块中的所识别的一组非零变换系数的正负号反转。

根据实施例，一种控制帧内预测以对视频序列进行解码的设备包括：至少一个存储器，其被配置成存储计算机程序代码；以及至少一个处理器，其被配置成访问所述至少一个存储器并根据所述计算机程序代码执行操作。所述计算机代码包括接收变换索引，所述变换索引指示用于对图像块进行解码的变换选择。所述计算机程序代码进一步包括二值化代码，其被配置成使所述至少一个处理器使用预设数目的二进制值对所述变换索引进行二值化。所述计算机程序代码进一步包括识别代码，其被配置成使所述至少一个处理器针对所述二值化的变换索引的选定的一组二进制值中的每个二进制值，识别变换系数块中的一组非零变换系数。所述计算机程序代码进一步包括反转代码，其被配置成使所述至少一个处理器基于所述二值化的变换索引的所述选定的一组二进制值中的第一二进制值和所述二值化的变换索引的所述选定的一组二进制值中的第二二进制值，使所述变换系数块中的所识别的一组非零变换系数的正负号反转。

根据实施例，一种非易失性计算机可读存储介质存储指令，所述指令使处理器进行以下操作：接收变换索引，所述变换索引指示用于对图像块进行解码的变换选择；使用预设数目的二进制值对所述变换索引进行二值化；针对所述二值化的变换索引的选定的一组二进制值中的每个二进制值，识别变换系数块中的一组非零变换系数；以及基于所述二值化的变换索引的所述选定的一组二进制值中的第一二进制值和所述二值化的变换索引的所述选定的一组二进制值中的第二二进制值，使所述变换系数块中的所识别的一组非零变换系数的正负号反转。

附图说明

所公开的主题的其它特征、性质和各种优点将从以下详细描述和附图更显而易见，在附图中：

图1A是QTBT结构的图；

图1B是吉文斯旋转的图形表示的图；

图1C是由呈超立方体排列的吉文斯旋转组合定义的HyGT的图；

图1D是由呈超立方体排列的吉文斯旋转组合定义的HyGT的图；

图1E是对假设重构边界进行成本计算的图；

图2是根据实施例的通信系统的简化框图；

图3是根据实施例的视频编码器和视频解码器在流式传输环境中的放置的图；

图4是根据实施例的视频解码器的功能框图；

图5是根据实施例的视频编码器的功能框图；

图6是根据实施例的一种控制帧内预测以对视频序列进行解码的方法的流程图；

图7是根据实施例的实例量化变换系数块的图；

图8是在正负号反转之后的实例量化变换系数块的图；

图9是适合于实现实施例的计算机系统的图。

具体实施方式

实施例涉及除了HEVC之外的下一代视频编码技术，例如多功能视频编码(Versatile Video Coding，VVC)。更具体地说，描述了关于对例如变换索引的编码模式的值进行预测的方法。

当能够将多种变换应用于残差块且正在用信号发送变换索引时，可以使用本文中所描述的方法。对于二值化的变换索引值的每个二进制值，指定了变换系数块中的一组非零变换系数，且取决于所述二进制值，可以使相关联系数的正负号值反转，使得可以由相关联系数的正负号值的反转模式表示变换索引。

举例来说，如果使用两个比特对变换索引进行二值化，则对于第一二进制值，指定了沿着扫描次序位于偶数位置处的变换系数，对于第二二进制值，指定了沿着扫描次序位于奇数位置处的变换系数。对于每个二进制值，如果二进制值为1，那么使相关联/指定系数的正负号反转，否则，使其保持不变。

通过尝试用于逆变换和重构的变换索引的不同值来得到预测索引值，具有最小边界成本值的假设被确定为预测值。考虑到预测变换索引，对于变换索引的每个二进制值，用信号发送指示预测值是否正确的二进制值，而非用信号发送实际值，且对此二进制值进行上下文编码，其中上下文取决于与此二进制值相关联的变换系数。

图2是根据本公开的实施例的通信系统(200)的简化框图。通信系统(200)可以包括通过网络(250)互连的至少两个终端(210至220)。对于数据的单向传输，第一终端(210)可以在本地位置处对视频数据进行编码以通过网络(250)传输到另一终端(220)。第二终端(220)可以从网络(250)接收另一终端的编码视频数据，对编码数据进行解码并显示已恢复的视频数据。单向数据传输可能在媒体服务应用或其他中是常见的。

图2绘示第二对终端(230、240)，其被提供以支持编码视频的双向传输，所述双向传输可能会发生在例如视频会议期间。对于数据的双向传输，每个终端(230、240)可以对在本地位置处捕获的视频数据进行编码以通过网络(250)传输到另一终端。每个终端(230、240)还可以接收由另一终端传输的编码视频数据，可以对编码数据进行解码并可以在本地显示装置处显示已恢复的视频数据。

在图2中，终端(210至240)可以被绘示为服务器、个人计算机和智能电话，但本公开的原理并不限于此。本公开的实施例适用于笔记本电脑、平板电脑、媒体播放器和/或专用视频会议设备。网络(250)表示在终端(210至240)当中传送编码视频数据的任何数目的网络，包括，例如，有线和/或无线通信网络。通信网络(250)可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或互联网。出于本论述的目的，网络(250)的架构和拓扑对于本公开的操作可能无关紧要，除非下文中另有阐释。

作为所公开的主题的应用的实例，图3绘示视频编码器和解码器在流式传输环境中的放置。所公开的主题可以同等地适用于其它启用了视频的应用，包括，例如，视频会议、数字TV、在包括CD、DVD、内存条等等的数字媒体上存储压缩视频等等。

流式传输系统可以包括捕获子系统(313)，其可以包括创建例如未压缩视频样本流(302)的视频源(301)，例如数码相机。以粗线描绘样本流(302)，从而相较于编码视频比特流，强调高数据量，样本流(302)可以由耦合到相机(301)的编码器(303)处理。编码器(303)可以包括硬件、软件或其组合以启用或实施如下文更详细描述的所公开的主题的各方面。以细线描绘编码视频比特流(304)，从而相较于样本流，强调较低数据量，编码视频比特流(304)可以存储在流式传输服务器(305)上以供未来使用。一个或多个流式传输客户端(306、308)可以访问流式传输服务器(305)以检索编码视频比特流(304)的副本(307、309)。客户端(306)可以包括视频解码器(310)，其对编码视频比特流(307)的传入副本进行解码，并创建可以呈现在显示器(312)或其它呈现装置(未描绘)上的传出视频样本流(311)。在一些流式传输系统中，可以根据某些视频编码/压缩标准对视频比特流(304、307、309)进行编码。那些标准的实例包括ITU-T RecommendationH.265。正在开发被非正式地称为多功能视频编码(Versatile Video Coding，VVC)的视频编码标准。所公开的主题可以用于VVC的上下文中。

图4可以是根据实施例的视频解码器(310)的功能框图。

接收器(410)可以接收将由解码器(310)解码的一个或多个编解码器视频序列；在同一或另一实施例中，一次一个编码视频序列，其中每个编码视频序列的解码独立于其它编码视频序列。可以从信道(412)接收编码视频序列，信道(412)可以是通向存储编码视频数据的存储装置的硬件/软件链路。接收器(410)可以接收编码视频数据和其它数据，例如编码音频数据和/或辅助数据流，其可以被转发到其相应使用实体(未描绘)。接收器(410)可以将编码视频序列与其它数据分隔。为了抑制网络抖动，缓冲存储器(415)可以耦合在接收器(410)与熵解码器/解析器(420)(此后为“解析器”)之间。当接收器(410)正在从具有足够带宽和可控性的存储/转发装置或从等同步网络接收数据时，可能无需缓冲器(415)或缓冲器(415)可以较小。为了尽量使用例如互联网的分组网络，可能需要缓冲器(415)，其可以相对较大且可以有利地具有自适应大小。

视频解码器(310)可以包括解析器(420)以从熵编码视频序列中重构符号(421)。那些符号的类别包括用于管理解码器(310)的操作的信息，并潜在地包括用于控制例如显示器(312)的呈现装置的信息，所述呈现装置并非是所述解码器的组成部分，但可以耦合到所述解码器，如图4所示。用于呈现装置的控制信息可以呈补充增强信息(SupplementaryEnhancement Information，SEI消息)或视频可用性信息(Video Usability Information，VUI)参数集片段(未描绘)的形式。解析器(420)可以对接收的编码视频序列进行解析/熵解码。可以根据视频编码技术或标准，且可以遵循所属领域的技术人员所熟知的原理进行编码视频序列的编码，包括可变长度编码、霍夫曼编码、具有或不具有上下文敏感性的算术编码等等。解析器(420)可以基于对应于组的至少一个参数从编码视频序列提取用于视频解码器中的至少一个像素子组的若干子组参数。子组可以包括图片组(group of picture，GOP)、图片、图块、切片、宏块、编码单元(coding unit,CU)、块、变换单元(TU)、预测单元(PU)等等。熵解码器/解析器还可以从编码视频序列中提取例如变换系数、量化器参数(quantizer parameter；QP)值、运动向量等信息。

解析器(420)可以对从缓冲器(415)接收的视频序列执行熵解码/解析操作，以便创建符号(421)。解析器(420)可以接收编码数据，并选择性地对特定符号(421)进行解码。此外，解析器(420)可以确定是否要将特定符号(421)提供到运动补偿预测单元(453)、缩放器/逆变换单元(451)、帧内预测单元(452)或环路滤波器(456)。

符号(421)的重构可以涉及取决于编码视频图片或其部分的类型(例如：帧间和帧内图片、帧间和帧内块)和其它因素的多个不同单元。涉及哪些单元和如何涉及可以受到由解析器(420)从编码视频序列解析的子组控制信息控制。为了清晰起见，未描绘此类子组控制信息在解析器(420)与以下多个单元之间的流程。

除了已经提及的功能块之外，解码器(310)还可以在概念上细分成如下文所描述的数个功能单元。在商业约束下操作的实际实施方案中，这些单元中的许多单元彼此紧密地交互，并可以至少部分地彼此集成。然而，出于描述所公开的主题的目的，在概念上细分成以下功能单元是适当的。

第一单元是缩放器/逆变换单元(451)。缩放器/逆变换单元(451)从解析器(420)接收量化变换系数以及控制信息作为符号(621)，所述控制信息包括要使用哪种变换、块大小、量化因子、量化缩放矩阵等等。其可以输出包括样本值的块，所述样本值可以被输入到聚合器(455)中。

在一些情况下，缩放器/逆变换单元(451)的输出样本可以涉及帧内编码块；即：不使用来自先前重构图片的预测性信息但可以使用来自当前图片的先前重构部分的预测性信息的块。此类预测性信息可以由帧内图片预测单元(452)提供。在一些情况下，帧内图片预测单元(452)使用从当前(部分重构)图片(456)获取的周围已重构的信息生成具有在重构下的块的相同大小和形状的块。在一些情况下，聚合器(455)在每样本基础上将帧内预测单元(452)已生成的预测信息添加到如由缩放器/逆变换单元(451)所提供的输出样本信息。

在其它情况下，缩放器/逆变换单元(451)的输出样本可以涉及帧间编码的并可能运动补偿的块。在此种情况下，运动补偿预测单元(453)可以访问参考图片存储器(457)以获取用于预测的样本。在根据涉及块的符号(421)对所获取的样本进行运动补偿之后，可以由聚合器(455)将这些样本添加到缩放器/逆变换单元的输出(在此情况下被称为残差样本或残差信号)，以便生成输出样本信息。供运动补偿单元获取预测样本的参考图片存储器内的地址可以由运动向量控制，所述运动向量以符号(421)的形式可用于运动补偿单元，符号(421)可以具有例如X、Y和参考图片分量。运动补偿还可以包括当使用子样本精确运动向量时从参考图片存储器获取的样本值的插值、运动向量预测机制及其他。

聚合器(455)的输出样本可以用于环路滤波器单元(456)中的各种环路滤波技术。视频压缩技术可以包括环路内滤波器技术，其由包括在编码视频比特流中且作为来自解析器(420)的符号(421)可用于环路滤波器单元(456)的参数控制，而且还可以响应于在编码图片或编码视频序列的先前(按解码次序)部分的解码期间获得的元信息，以及响应于先前重构和环路滤波样本值。

环路滤波器单元(456)的输出可以是样本流，所述样本流可以被输出到呈现装置(312)以及存储在参考图片存储器(456)中以用于未来图片间预测。

某些编码图片一旦被完全重构就可以用作参考图片以用于未来预测。一旦编码图片被完全重构且编码图片已被(由例如解析器(420))识别为参考图片，那么当前参考图片(656)就可以变为参考图片缓冲器(457)的一部分，且可以在开始重构后续编码图片之前重新分配新的当前图片存储器。

视频解码器(310)可以根据预定视频压缩技术执行解码操作，所述预定视频压缩技术可以记录在例如ITU-T Rec.H.265的标准中。编码视频序列可以符合正被使用的视频压缩技术或标准的语法，在某种意义上，它遵循视频压缩技术或标准的语法，如在视频压缩技术文档或标准并且具体地其配置文件文档中所规定。对于合规性也必要的是，编码视频序列的复杂性在视频压缩技术或标准的层级所定义的范围内。在一些情况下，层级限定最大图片大小、最大帧率、最大重构采样率(以例如每秒兆个样本为单位而测量)、最大参考图片大小等等。在一些情况下，由层级设置的限制可以通过假想参考解码器(HypotheticalReference Decoder，HRD)规范和在编码视频序列中用信号发送的用于HRD缓冲器管理的元数据来进一步限定。

在一实施例中，接收器(410)可以接收具有编码视频的额外(冗余)数据。所述额外数据可以被包括作为编码视频序列的一部分。所述额外数据可以由视频解码器(310)使用以适当地对所述数据进行解码和/或更准确地重构原始视频数据。额外数据可以是例如时间、空间或信噪比(signal-to-noiseratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等等的形式。

图5是根据本公开的实施例的视频编码器(303)的功能框图。

编码器(303)可以从视频源(301)(并不是编码器的一部分)接收视频样本，视频源(301)可以捕获要由编码器(303)编码的视频图像。

视频源(301)可以提供要由编码器(303)编码的呈数字视频样本流的形式的源视频序列，所述数字视频样本流可以具有任何合适比特深度(例如：8比特、10比特、12比特、……)、任何颜色空间(例如BT.601Y CrCB、RGB、……)和任何合适采样结构(例如Y CrCb4:2:0、Y CrCb 4:4:4)。在媒体服务系统中，视频源(301)可以是存储先前准备的视频的存储装置。在视频会议系统中，视频源(303)可以是捕获本地图像信息作为视频序列的相机。视频数据可以被提供为多个单独的图片，当按顺序观看时，这些图片赋予运动。所述图片自身可以被组织为空间像素阵列，其中每个像素可以取决于在使用的的采样结构、颜色空间等等而包括一个或多个样本。所属领域的技术人员可以容易理解像素与样本之间的关系。以下描述侧重于样本。

根据一实施例，编码器(303)可以实时或在如由应用所需要的任何其它时间约束下将源视频序列的图片编码和压缩成编码视频序列(543)。实现适当的编码速度是控制器(550)的一个功能。控制器控制如下文所描述的其它功能单元并在功能上耦合到这些单元。为了清晰起见而未描绘耦合。由控制器设置的参数可以包括速率控制相关参数(图片跳过、量化器、速率-失真优化技术的λ值、……)、图片大小、图片组(GOP)布局、最大运动向量搜索范围等等。所属领域的技术人员可以容易识别控制器(550)的其它功能，这是因为这些功能可以涉及为某种系统设计而优化的视频编码器(303)。

一些视频编码器在由所属领域的技术人员容易辨识的“编码环路”中操作。作为过于简化的描述，编码环路可以由以下组成：编码器(530)(此后为“源编码器”)的编码部分(负责基于要编码的输入图片和参考图片创建符号)；以及嵌入在编码器(303)中的(本地)解码器(533)，其重构所述符号以创建样本数据，(远程)解码器也将创建此样本数据(因为符号与编码视频比特流之间的任何压缩在所公开的主题中考虑的视频压缩技术中是无损的)。所述重构样本流被输入到参考图片存储器(534)。由于符号流的解码会产生与解码器位置(本地或远程)无关的比特精确结果，所以参考图片缓冲器内容在本地编码器与远程编码器之间也是比特精确的。换句话说，编码器的预测部分将与解码器在解码期间使用预测时所“看到”的完全相同的样本值“视为”参考图片。参考图片同步性(以及由此产生的漂移，如果例如由于信道错误而无法维持同步性的话)的基本原理为所属领域的技术人员所熟知。

“本地”解码器(533)的操作可以与“远程”解码器(310)的操作相同，上文已结合图4详细地描述了“远程”解码器(310)的操作。然而，还简要地参考图5，因为符号是可用的且熵编码器(545)和解析器(420)能够无损地将符号编码/解码为编码视频序列，所以解码器(310)的熵解码部分，包括信道(412)、接收器(410)、缓冲器(415)和解析器(420)，可能不会在本地解码器(533)中完全实现。

此时可以观测到，除了存在于解码器中的解析/熵解码之外的任何解码器技术也必须以基本相同的功能形式存在于对应编码器中。可以简略编码器技术的描述，这是因为其与全面描述的解码器技术的相反。下文仅在某些区域中需要和提供更详细的描述。

作为源编码器(530)的操作的一部分，源编码器(530)可以执行运动补偿预测性编码，其参考来自视频序列的被指定为“参考帧”的一个或多个先前编码帧预测性地对输入帧进行编码。此种方式下，编码引擎(532)对输入帧的像素块与参考帧的像素块之间的差进行编码，所述参考帧可以被选择作为输入帧的预测参考。

本地视频解码器(533)可以基于由源编码器(530)创建的符号对可以被指定为参考帧的帧的编码视频数据进行解码。编码引擎(532)的操作可以有利地是有损过程。当编码视频数据可以在视频解码器处被解码时，所重构的视频序列通常可以是具有一些错误的源视频序列的副本。本地视频解码器(533)复制解码过程，所述解码过程可以由视频解码器对参考帧执行并可以使所重构的参考帧存储在参考图片高速缓冲存储器(534)中。此种方式下，编码器(303)可以在本地存储所重构的参考帧的副本，所述副本与将由远端视频解码器获得的所重构的参考帧具有共同的内容(不存在传输错误)。

预测器(535)可以针对编码引擎(532)执行预测搜索。即，对于要编码的新帧，预测器(535)可以在参考图片存储器(534)中搜索样本数据(作为候选参考像素块)或某些元数据，例如参考图片运动向量、块形状等，其可以作为新图片的适当预测参考。预测器(535)可以在样本块乘像素块基础上操作以找到适当预测参考。在一些情况下，如由预测器(535)获得的搜索结果所确定，输入图片可以具有从存储在参考图片存储器(534)中的多个参考图片取得的预测参考。

控制器(550)可以管理视频编码器(530)的编码操作，包括例如设置用于对视频数据进行编码的参数和子组参数。

熵编码器(545)可以对所有前述功能单元的输出进行熵编码。熵编码器根据所属领域的技术人员所熟知的技术，例如霍夫曼编码、可变长度编码、算术编码等，对如由各种功能单元生成的符号进行无损压缩，从而将所述符号转换成编码视频序列。

传输器(540)可以对如由熵编码器(545)所创建的编码视频序列进行缓冲以使准备通过通信信道(560)进行传输，通信信道(560)可以是通向存储编码视频数据的存储装置的硬件/软件链路。传输器(540)可以将来自视频编码器(530)的编码视频数据与例如编码音频数据和/或辅助数据流(源未被示出)的要传输的其它数据合并。

控制器(550)可以管理编码器(303)的操作。在编码期间，控制器(550)可以向每个编码图片指定特定编码图片类型，这可能会影响可以应用于相应图片的编码技术。举例来说，图片常常可以被指定为以下帧类型中的一种：

帧内图片(I图片)可以在不将序列中的任何其它帧作为预测源的情况下被编码和解码。一些视频编解码器允许不同类型的帧内图片，包括例如独立解码器刷新图片。所属领域的技术人员知道I图片的那些变体以及其相应应用和特征。

预测性图片(P图片)可以使用帧内预测或帧间预测被编码和解码，所述帧内预测或帧间预测使用至多一个运动向量和参考索引来对每个块的样本值进行预测。

双向预测性图片(B图片)可以使用帧内预测或帧间预测被编码和解码，所述帧内预测或帧间预测使用至多两个运动向量和参考索引来对每个块的样本值进行预测。类似地，多重预测性图片可以使用多于两个参考图片和相关联元数据以用于重构单个块。

源图片通常可以在空间上细分成多个样本块(例如，每源图片4×4、8×8、4×8或16×16样本块)且在逐块基础上被编码。块可以参考其它(已编码)块被预测性地编码，所述其它块是如通过应用于所述块的相应图片的编码分配所确定。举例来说，I图片的块可以被非预测性地编码，或其可以参考同一图片的已编码块被预测性地编码(空间预测或帧内预测)。P图片的像素块可以参考一个先前编码参考图片通过空间预测或通过时间预测被非预测性地编码。B图片的块可以参考一个或两个先前编码参考图片通过空间预测或通过时间预测被非预测性地编码。

视频编码器(303)可以根据例如ITU-T Rec.H.265的预定视频编码技术或标准执行编码操作。在视频编码器(303)的操作中，视频编码器(303)可以执行各种压缩操作，包括在输入视频序列中利用时间和空间冗余的预测性编码操作。因此，编码视频数据可以符合正被使用的视频编码技术或标准规定的语法。

在一实施例中，传输器(540)可以传输具有编码视频的额外数据。视频编码器(530)可以包括此类数据作为编码视频序列的一部分。额外数据可以包括时间/空间/SNR增强层、例如冗余图片和切片的其它形式的冗余数据、补充增强信息(SupplementaryEnhancement Information，SEI)消息、视觉可用性信息(Visual Usability Information，VUI)参数集片段等等。

图6是根据实施例的一种控制帧内和/或帧间预测以对视频序列进行解码的方法(600)的流程图。在一些实施方案中，图6的一个或多个过程框可以由解码器(310)执行。在一些实施方案中，图6的一个或多个过程框可以由例如编码器(303)的另一装置或一组装置执行，所述另一装置或一群一组与解码器(310)分隔或包括解码器(310)。

参考图6，在第一框(610)中，方法(600)包括使用预设数目的二进制值对变换索引进行二值化。在第二框(620)中，方法(600)包括针对二值化的变换索引的选定的一组二进制值中的每个二进制值，识别变换系数块中的一组非零变换系数。

在第三框(630)中，方法(600)包括确定第一二进制值或第二二进制值是否等于1。如果确定第一二进制值或第二二进制值等于1，那么所述方法包括使变换系数块中的所识别的一组非零变换系数的正负号反转(640)。否则，所述方法不使变换系数块中的所识别的一组非零变换系数的正负号反转(650)。

根据实施例，取决于语法元素，变换系数块中的一组或多组非零变换系数被识别并与语法元素的码字的每个二进制值相关联，且取决于语法元素的码字的每个二进制值，相关联系数正负号可以被反转(正负号从–1改变为+1，或从+1改变为–1)。

根据实施例，选定的语法元素可以包括或属于但不限于初次变换索引、二次变换索引，或指示初次和二次变换的哪种组合被使用的索引，或帧内预测模式。如果使用此方法对语法元素进行预测，那么在变换系数之后用信号发送语法元素。

根据实施例，关于使哪些变换系数正负号反转的选择可以取决于量化或去量化的变换系数层级、变换系数在变换系数块内的位置。

根据实施例，在一个实例中，如果使用两个二进制值对变换索引进行二值化，那么以量值的递减(或递增)次序将所有非零系数放在阵列中，对于一个二进制值，如果二进制值为1，那么使阵列中具有偶数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。对于另一二进制值，如果二进制值为1，那么使阵列中具有奇数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。

根据实施例，在另一实例中，如果使用两个二进制值用信号发送变换索引，那么以例如对角线扫描、光栅扫描、竖直扫描的给定扫描次序的次序将非零系数放在阵列中，对于一个二进制值，如果二进制值为1，那么使阵列中具有偶数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。对于另一二进制值，如果二进制值为1，那么使阵列中具有奇数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。

根据实施例，在另一实例中，仅考虑使量化或去量化的量值大于给定或预定义阈值的变换系数的正负号反转。

根据实施例，为了对语法元素进行熵编码，识别变换系数块中的一组或多组非零变换系数，且用于对语法元素进行熵编码或解析的上下文取决于变换系数块中的所识别的一组或多组变换系数。

根据实施例，为了用信号发送语法元素，得到语法元素的预测值，而非直接用信号发送值，且用信号发送指示预测值是否与实际值相同的一个或多个二进制值。对一个或多个二进制值进行上下文编码，且上下文取决于相关联的一组非零变换系数。

根据实施例，选定的语法元素可以属于但不限于初次变换索引、二次变换索引，或指示初次和二次变换的哪种组合被使用的索引，或帧内预测模式，或在变换系数之后用信号发送的任何语法元素。

根据实施例，为了得到用于对语法元素进行熵编码的上下文，计算相关联的一组或多组变换系数的量化或去量化的非零系数量值的总和，接着通过将所述总和与一个或多个给定阈值进行比较来选择上下文。给定阈值的实例值是600或1200。

根据实施例，对一组或多组变换系数的识别可以取决于量化或去量化的变换系数层级、变换系数的位置。

根据实施例，在一个实例中，如果使用两个二进制值表示变换索引，那么以量值的次序将非零系数放在阵列中，对于一个二进制值，如果二进制值为1，那么使阵列中具有偶数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。对于另一二进制值，如果二进制值为1，那么使阵列中具有奇数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。

根据实施例，在一个实例中，如果使用两个二进制值用信号发送变换索引，那么以例如对角线扫描、光栅扫描、竖直扫描的给定扫描次序的次序将非零系数放在阵列中，对于一个二进制值，如果二进制值为1，那么使阵列中具有偶数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。对于另一二进制值，如果二进制值为1，那么使阵列中具有奇数索引的系数的正负号反转，且如果二进制值为0，那么不使所述正负号反转。

根据实施例，在一个实例中，仅考虑使量化或去量化的量值大于给定阈值的变换系数的正负号反转。

根据实施例，在一个实例中，定义变换索引，即，被称为transform_index的语法元素。变换索引值可以为0、1、2或3，且使用两比特整数表示变换索引。对于每个量化变换系数块，以非零系数的量值的递减次序将非零系数放在阵列中。举例来说，在图7中示出了量化变换系数块的实例。如图7所示，对于8×8量化变换系数块，将非零量化变换系数放在阵列coef中，如：coef＝{13,11,–9,–7,7,–6,5,5,4,–4,4,2,–2,1,1,1,1}

如果transform_index的第一二进制值被用信号发送为1，那么使阵列coef中具有偶数索引的变换系数(即，图7中加阴影位置中的系数)的正负号反转。如果transform_index的第二二进制值被用信号发送为1，那么使阵列coef中具有奇数索引的变换系数(即，图7中未加阴影位置中的系数)的正负号反转。

图8示出在正负号反转之后的实例量化变换系数块。在一个实例中，如果变换索引是2，即，被二值化为“10”，那么将如图7所示的量化变换系数块修改为图8所示的变换系数块。

根据实施例，在一个实例中，针对当前块用信号发送关于变换索引的预测，即，被称为pred_transform_index的语法元素。关于变换索引的预测可以为0、1、2或3，第一二进制值(e0)指示所预测的transform_index的第一二进制值是否与实际值相同，且第二二进制值(e1)指示所预测的transform_index的第二二进制值是否与实际值相同。

根据实施例，考虑到transform_index的二进制值0和二进制值1的预测值，即，p0和p1，则transform_index的被解码的第一二进制值是t0＝b0^e0，且transform_index的被解码的第二二进制值是t1＝b1^e1，其中“^”指示XOR运算。最后，transform_index值被重构为(t1)<<1+t0。

根据实施例，对pred_transform_index的第一二进制值(e0)进行上下文编码，且由图8的加阴影位置中的非零变换系数得到上下文。为了得到上下文，首先将量化变换系数块去量化，接着计算加阴影位置中的非零变换系数的层级值的总和，如果所述总和小于给定阈值，例如600或1200，那么选择上下文，如果所述总和大于给定阈值，那么选择另一上下文。

相似地，对pred_transform_index的第二二进制值(e1)进行上下文编码，且由图8的未加阴影位置中的非零变换系数得到上下文。为了得到上下文，首先将量化变换系数块去量化，接着计算加阴影位置中的非零变换系数的层级值的总和，如果所述总和小于给定阈值，例如600或1200，那么选择上下文，如果所述总和大于给定阈值，那么选择另一上下文。

本文中所描述的方法可以由处理电路系统(例如，一个或多个处理器或一个或多个集成电路)实施。在一个实例中，一个或多个处理器执行存储在非易失性计算机可读介质中的程序以执行一种或多种方法。

上文所描述的技术可以使用计算机可读指令被实施为计算机软件并物理上存储在一个或多个计算机可读介质中。举例来说，图9示出了适合于实现所公开的主题的某些实施例的计算机系统900。

计算机软件可以使用任何合适机器代码或计算机语言编码，所述机器代码或计算机语言可以用于汇编、编译、链接或相似机制以创建包括指令的代码，所述指令可以由计算机中央处理单元(central processing unit，CPU)、图形处理单元(Graphics ProcessingUnit，GPU)等直接执行，或通过解释、微代码执行等来执行。

所述指令可以在各种类型的计算机或其组件上执行，所述计算机或其组件包括例如个人计算机、平板电脑、服务器、智能电话、游戏装置、物联网装置等。

图9中针对计算机系统900所示的组件在本质上是示范性的，且并不意图表明关于实施本公开的实施例的计算机软件的使用或功能性的范围的任何限制。组件的配置也不应被解释为对计算机系统900的示范性实施例中所示的任一个组件或其组合有任何相依性或要求。

计算机系统900可以包括某些人机接口输入装置。此类人机接口输入装置可以响应于一个或多个人类用户通过例如触觉输入(例如：击键、滑动、数据手套移动)、音频输入(例如：话音、鼓掌)、视觉输入(例如：手势)、嗅觉输入(未示出)进行的输入。人机接口装置还可以用于捕获未必直接关于人类有意识的输入的某些媒体，例如音频(例如：语音、音乐、环境声)、图像(例如：扫描图像、从静态图像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。

输入人机接口装置可以包括以下中的一个或多个(仅示出了每个中的一个)：键盘901、鼠标902、触控板903、触摸屏910、数据手套904、操纵杆905、麦克风906、扫描仪907、相机908。

计算机系统900还可以包括某些人机接口输出装置。此类人机接口输出装置可以通过例如触觉输出、声音、光和气味/味觉刺激一个或多个人类用户的感觉。此类人机接口输出装置可以包括触觉输出装置(例如触摸屏910、数据手套904或操纵杆905的触觉反馈，但也可以存在不充当输入装置的触觉反馈装置)、音频输出装置(例如：扬声器909、耳机(未示出))、视觉输出装置(例如屏幕910，其包括阴极射线管(cathode ray tube，CRT)屏幕、液晶显示器(liquid-crystal display，LCD)屏幕、等离子体屏幕、有机发光二极管(organiclight-emitting diode，OLED)屏幕，其各自具有或不具有触摸屏输入能力，其各自具有或不具有触觉反馈能力—其中的一些可能能够通过例如立体输出的手段输出二维视觉输出或超过三维输出；虚拟实境眼镜(未示出)、全息显示器和烟雾罐(未示出))，以及打印机(未示出)。

计算机系统900还可以包括人类可访问的存储装置和其相关联媒体，例如光学媒体，包括具有CD/DVD的CD/DVD ROM/RW 920或类似媒体921、拇指驱动器922、可移动硬盘驱动器或固态驱动器923、例如磁带和软盘(未示出)的传统磁性媒体、例如安全软件狗(未示出)的专用的基于ROM/ASIC/PLD的装置，等等。

所属领域的技术人员还应理解，如结合本发明所公开的主题所使用的术语“计算机可读介质”并不涵盖传输介质、载波或其它暂时性信号。

计算机系统900还可以包括介接到一个或多个通信网络的接口。网络可以例如是无线的、有线的、光学的。网络可以进一步是局域的、广域的、城域的、车载和工业用的、实时的、容忍延迟的，等等。网络的实例包括：局域网，例如以太网、无线LAN；蜂窝网络，包括全球移动通信系统(globalsystems for mobile communications，GSM)、第三代(3G)、第四代(4G)、第五代(5G)、长期演进(Long-Term Evolution，LTE)等；TV有线或无线广域数字网，包括有线TV、卫星TV和陆地广播TV；车载和工业用的，包括CAN总线等。某些网络通常需要外部网络接口适配器，所述外部网络接口适配器附接到某些通用数据端口或外围总线(949)(例如，计算机系统900的通用串行总线(universal serial bus，USB)端口)；其它网络通常通过附接到如下文所描述的系统总线(例如介接到PC计算机系统中的以太网接口或介接到智能电话计算机系统中的蜂窝网络接口)而集成到计算机系统900的核心中。通过这些网络中的任一个网络，计算机系统900可以与其它实体通信。此类通信可以是仅单向接收(例如广播TV)、仅单向发送(例如通向某些CAN总线装置的CAN总线)，或双向的，例如使用局域或广域数字网而到达其它计算机系统。某些协议和协议栈可以用在如上文所描述的那些网络和网络接口中的每一个上。

前述的人机接口装置、人类可访问的存储装置和网络接口可以附接到计算机系统900的核心940。

核心940可以包括一个或多个中央处理单元(Central Processing Unit，CPU)941、图形处理单元(Graphics Processing Unit，GPU)942、呈现场可编程门区域(FieldProgrammable Gate Area，FPGA)943的形式的专用可编程处理单元、用于某些任务的硬件加速器944等。这些装置连同只读存储器(Read-only memory，ROM)945、随机存取存储器(Random-access memory，RAM)946、例如内部非用户可访问的硬盘驱动器、固态驱动器(solid-statedrive，SSD)等的内部大容量存储装置947一起可以通过系统总线948而连接。在一些计算机系统中，系统总线948可以以一个或多个物理插头的形式被访问从而用额外CPU、GPU等等进行扩展。外围装置可以直接或通过外围总线949附接到核心的系统总线948。外围总线的架构包括外围组件互连(peripheral component interconnect，PCI)、USB等。

CPU 941、GPU 942、FPGA 943和加速器944可以执行某些指令，所述指令组合起来可以构成前述计算机代码。所述计算机代码可以存储在ROM945或RAM 946中。过渡数据也可以存储在RAM 946中，而永久性数据可以存储例如在内部大容量存储装置947中。可以通过使用高速缓冲存储器来对任一个存储器装置进行快速存储和检索，所述高速缓冲存储器可以与一个或多个CPU 941、GPU 942、大容量存储装置947、ROM 945、RAM 946等紧密关联。

计算机可读介质上可以具有用于执行各种计算机实施操作的计算机代码。所述介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码，或它们可以属于计算机软件领域的技术人员所熟知且可用的种类。

作为实例而非限制，具有架构的计算机系统900，且具体是核心940，可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行一个或多个有形计算机可读介质中所体现的软件而提供功能性。此类计算机可读介质可以是与如上文所介绍的用户可访问的大容量存储装置相关联的介质，以及具有非易失性性质的核心940的某些存储装置，例如核心内部大容量存储装置947或ROM 945。实施本公开的各种实施例的软件可以存储在此类装置中并由核心940执行。根据特定需求，计算机可读介质可以包括一个或多个存储器装置或芯片。所述软件可以使核心940且具体是使其中的处理器(包括CPU、GPU、FPGA等等)执行本文中所描述的特定过程或特定过程的特定部分，包括定义存储在RAM 946中的数据结构，以及根据由所述软件定义的过程修改此类数据结构。另外或作为替代方案，计算机系统可以由于逻辑硬连线或以其它方式体现在电路(例如：加速器944)中而提供功能性，所述电路可以代替软件或与软件一起进行操作，以执行本文中所描述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以涵盖逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可以涵盖存储用于执行的软件的电路(例如集成电路(integrated circuit，IC))、体现用于执行的逻辑的电路或这两者。本公开涵盖硬件和软件的任何合适组合。

虽然本公开已描述了若干示范性实施例，但存在属于本公开的范围内的变更、排列和各种替代等效物。因此应了解，所属领域的技术人员将能够设计出诸多系统和方法，尽管本文中未明确展示或描述所述系统和方法，但它们体现了本公开的原理且因此在本公开的精神和范围内。

Claims

1.一种控制帧内预测以对视频序列进行解码的方法，其特征在于，所述方法由至少一个处理器执行，且所述方法包括：

接收变换索引，所述变换索引指示用于对图像块进行解码的变换选择；

使用预设数目的二进制值对所述变换索引进行二值化；

针对所述二值化的变换索引的选定的一组二进制值中的每个二进制值，识别变换系数块中的一组非零变换系数；以及

基于所述二值化的变换索引的所述选定的一组二进制值中的第一二进制值和所述二值化的变换索引的所述选定的一组二进制值中的第二二进制值，使所述变换系数块中的所识别的一组非零变换系数的正负号反转；

根据预设次序将所述非零变换系数添加到阵列；

将所述非零变换系数的量值的总和与阈值进行比较；以及

基于所述比较来选择对关于变换索引的预测的每个二进制值进行熵编码的上下文，其中，关于变换索引的预测中的第一二进制值指示所预测的变换索引的第一二进制值是否与实际值相同，关于变换索引的预测中的第二二进制值指示所预测的变换索引的第二二进制值是否与实际值相同；

当所述非零变换系数的所述量值的所述总和大于所述阈值时，选择第一上下文，且当所述非零变换系数的所述量值的所述总和小于所述阈值时，选择第二上下文。

2.根据权利要求1所述的方法，其特征在于，进一步包括：

基于所述非零变换系数在所述阵列中的排序使所述非零变换系数的所述正负号反转。

3.根据权利要求1所述的方法，其特征在于，进一步包括：

当所述第一二进制值为1时，使所述阵列的偶数位置中的所述非零变换系数的所述正负号反转；以及

当所述第二二进制值为1时，使所述阵列的奇数位置中的所述非零变换系数的所述正负号反转。

4.根据权利要求1所述的方法，其特征在于，进一步包括：

根据所述非零变换系数的量值的递减次序将所述非零变换系数添加到所述阵列；

5.根据权利要求1所述的方法，其特征在于，进一步包括：

根据所述非零变换系数的量值的递增次序将所述非零变换系数添加到所述阵列；

6.根据权利要求1所述的方法，其特征在于，进一步包括：

根据预设扫描次序将所述非零变换系数添加到所述阵列；

7.根据权利要求6所述的方法，其特征在于，所述预设扫描次序是对角线扫描、水平扫描和竖直扫描中的一个。

8.根据权利要求1所述的方法，其特征在于，进一步包括：

将每个非零变换系数的量值与阈值进行比较；以及

当非零变换系数的所述量值低于所述阈值时，不使所述非零变换系数反转。

9.一种控制帧内预测以对视频序列进行解码的设备，其特征在于，所述设备包括：

至少一个存储器，其被配置成存储计算机程序代码；以及

至少一个处理器，其被配置成访问所述至少一个存储器并根据所述计算机程序代码执行操作，所述计算机程序代码包括：

接收代码，其被配置成使所述至少一个处理器接收变换索引，所述变换索引指示用于对图像块进行解码的变换选择；

二值化代码，其被配置成使所述至少一个处理器使用预设数目的二进制值对变换索引进行二值化；

识别代码，其被配置成使所述至少一个处理器针对所述二值化的变换索引的选定的一组二进制值中的每个二进制值，识别变换系数块中的一组非零变换系数；以及

反转代码，其被配置成使所述至少一个处理器基于所述二值化的变换索引的所述选定的一组二进制值中的第一二进制值和所述二值化的变换索引的所述选定的一组二进制值中的第二二进制值，使所述变换系数块中的所识别的一组非零变换系数的正负号反转；

添加代码，其被配置成根据预设次序使所述至少一个处理器将所述非零变换系数添加到阵列；

比较代码，其被配置成使所述至少一个处理器将每个非零变换系数的量值的总和与阈值进行比较，

选择代码，其被配置成使所述至少一个处理器基于所述比较来选择对关于变换索引的预测的每个二进制值进行熵编码的上下文，其中，关于变换索引的预测中的第一二进制值指示所预测的变换索引的第一二进制值是否与实际值相同，关于变换索引的预测中的第二二进制值指示所预测的变换索引的第二二进制值是否与实际值相同；当所述非零变换系数的所述量值的所述总和大于所述阈值时，选择第一上下文，且当所述非零变换系数的所述量值的所述总和小于所述阈值时，选择第二上下文。

10.根据权利要求9所述的设备，其特征在于，

其中所述反转代码被进一步配置成使所述至少一个处理器基于所述非零变换系数在所述阵列中的排序使所述非零变换系数的所述正负号反转。

11.根据权利要求9所述的设备，其特征在于，其中所述反转代码被进一步配置成使所述至少一个处理器进行以下操作：当所述第一二进制值为1时，使所述阵列的偶数位置中的所述非零变换系数的所述正负号反转；以及当所述第二二进制值为1时，使所述阵列的奇数位置中的所述非零变换系数的所述正负号反转。

12.根据权利要求9所述的设备，其特征在于，

所述添加代码进一步被配置成使所述至少一个处理器根据所述非零变换系数的量值的递减次序将所述非零变换系数添加到所述阵列，

其中所述反转代码被进一步配置成使所述至少一个处理器进行以下操作：当所述第一二进制值为1时，使所述阵列的偶数位置中的所述非零变换系数的所述正负号反转，且

其中所述反转代码被进一步配置成使所述至少一个处理器进行以下操作：当所述第二二进制值为1时，使所述阵列的奇数位置中的所述非零变换系数的所述正负号反转。

13.根据权利要求9所述的设备，其特征在于，所述添加代码进一步被配置成使所述至少一个处理器根据所述非零变换系数的量值的递增次序将所述非零变换系数添加到所述阵列，

其中所述反转代码被进一步配置成使所述至少一个处理器进行以下操作：当所述第一二进制值为1时，使所述阵列的偶数位置中的所述非零变换系数的所述正负号反转；以及当所述第二二进制值为1时，使所述阵列的奇数位置中的所述非零变换系数的所述正负号反转。

14.根据权利要求9所述的设备，其特征在于，

所述添加代码进一步被配置成使所述至少一个处理器根据预设扫描次序将所述非零变换系数添加到所述阵列，

15.根据权利要求14所述的设备，其特征在于，所述预设扫描次序是对角线扫描、水平扫描和竖直扫描中的一个。

16.一种非易失性计算机可读存储介质，其存储指令，其特征在于，所述指令使处理器进行以下操作：

使用预设数目的二进制值对所述变换索引进行二值化；

根据预设次序将所述非零变换系数添加到阵列；

将所述非零变换系数的量值的总和与阈值进行比较；以及