CN107667532A

CN107667532A - 用于非基带信号代码化的变换选择

Info

Publication number: CN107667532A
Application number: CN201680024162.6A
Authority: CN
Inventors: 韩敬宁; 许耀武; 陈诚
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-09-14
Filing date: 2016-06-29
Publication date: 2018-02-06
Anticipated expiration: 2036-06-29
Also published as: EP3350994A1; US20170078672A1; CN112203088A; CN112203088B; US10277905B2; WO2017048345A1; CN107667532B

Abstract

通过在基于阶梯或正弦的变换之间进行选择而对非基带视频信号的帧的块进行编码。针对每个预测模式，生成用于对当前块进行编码的预测块，生成残差块，使用基于正弦的变换以及使用基于阶梯的变换变换所述残差块，以及相应地生成用于使用所述基于正弦的变换和基于阶梯的变换对所述残差块进行编码的第一和第二率失真值。基于每个预测模式的结果中的第一率失真值和第二率失真值的最小值选择用于对所述残差块进行编码的变换，并且使用所选择的变换对当前块进行编码。能够实现用于具有锐利边缘的块的改进的装置，并且可能使用基于阶梯的变换进行无损编码。

Description

用于非基带信号代码化的变换选择

背景技术

数字视频流通常使用帧或静态图像的序列来表示视频。每个帧可以包括多个块，所述块进而可以包含描述像素的颜色、亮度或其它属性的值的信息。典型视频流中的数据量很大，并且视频的传送和存储会使用相当的计算或通信资源。已经提出了各种方法来减少视频流中的数据量，包括压缩和其它编码技术。这样的技术经常向重构的视频信号中引入伪像(artifact)。

发明内容

本公开总体上涉及对诸如视频流数据的视觉数据进行编码和解码，以便使用针对非基带信号代码化的变换选择进行传送或存储。与其中像素值在绝大多数情况下平滑变化的自然视频信号相反，非基带信号包括相对视频图像中的大量的锐利边缘和阶梯变化。

本文所教导的一种方法描述了：接收视频信号，所述视频信号包括具有多个帧的非基带信号，每个帧由多个块形成，并且每个块具有多个像素。针对多个预测模式中的每个预测模式，所述方法包括：使用所述预测模式生成用于对当前块进行编码的预测块，基于所述预测块和当前块生成残差块，使用基于正弦的变换对所述残差块进行变换，生成第一率失真值用于使用所述基于正弦的变换对所述残差块进行编码，使用基于阶梯的变换对所述残差块进行变换，并且生成第二率失真值用于使用所述基于阶梯的变换对所述残差块进行编码。所述方法还包括基于每个预测模式的结果中的所述第一率失真值和第二率失真值中的最低值选择基于阶梯的变换或基于正弦的变换中的一个变换用于对所述残差块进行编码，并且使用基于阶梯的变换或基于正弦的变换中的该一个变换对当前块进行编码。

本文所描述的装置包括存储器和处理器。根据一个实施方式，所述处理器被配置成执行存储在所述存储器中的指令以接收视频信号，所述视频信号包括具有多个帧的非基带信号，每个帧由多个块形成，并且每个块具有多个像素，以及针对多个预测模式中的每个预测模式，使用所述预测模式生成用于对当前块进行编码的预测块，基于所述预测块和当前块生成残差块，使用基于正弦的变换对所述残差块进行变换，生成第一率失真值用于使用所述基于正弦的变换对所述残差块进行编码，使用基于阶梯的变换对所述残差块进行变换，并且生成第二率失真值用于使用所述基于阶梯的变换对所述残差块进行编码。所述处理器进一步被配置成执行存储在所述存储器中的指令以基于每个预测模式的结果中所述第一率失真值和第二率失真值中的最低值选择基于阶梯的变换或基于正弦的变换中的一个变换用于对所述残差块进行编码，并且使用基于阶梯的变换或基于正弦的变换中的一个变换对当前块进行编码。

本公开中的这些和其它方面的变体将在下文更详细地进行描述。

附图说明

本文的描述参考附图，其中相似的附图标记贯穿多个视图指代相似的部分，并且其中：

图1是视频编码和解码系统的示意图；

图2是能够实施发送站和接收站的计算设备的示例的框图；

图3是所要被编码并在后续被解码的典型视频流的示图；

图4是根据本文教导的方面的视频压缩系统的框图；

图5是根据本文教导的另一个方面的视频解压缩系统的框图；以及

图6是用于对非基带信号进行编码的处理的流程图，所述处理包括在基于正弦的变换和基于阶梯的变换之间选择变换类型。

具体实施方式

视频流可以通过各种技术而被压缩从而减少发送或存储所述视频流所需的带宽。视频流能够被编码为比特流，这可以包含压缩，并且随后被发送至解码器，所述解码器能够对所述视频流进行解码或解压缩从而对它进行准备以便进行观看或进一步处理。对视频流进行编码能够包含在视频质量和比特流大小间加以权衡的参数，其中提高解码视频流的感知质量会增加发送或存储比特流所需的比特数量。

一种实现突出压缩性能的技术通过空间和/或运动补偿预测而利用了视频信号的空间和时间相关性。预测之后的变换代码化是另一种改善视频压缩的技术。通常，变换代码化旨在大幅去除预测之后的剩余像素之间的统计冗余。变换的压缩性能依赖于解除剩余像素冗余的相关性并且将能量压缩为变换系数的子集的能力。基于正弦的变换类型最常被用于这样的相关性解除。

在以低/中比特率利用诸如离散余弦变换的基于正弦的变换对锐利边缘或拐角进行代码化时常见到诸如振铃之类的伪像。常规地，这经常通过使用滤波器或者通过在边缘处或其附近使用更高质量的编码来解决。由于自然视频信号表示像素值通常逐渐或平滑变化的图像，所以与非基带视频信号相比，这对于自然视频信号是更小的问题。根据本文的教导在计算机屏幕内容的场境中经常看到的非基带信号(例如，文本幻灯片、用户界面)，并且经由计算机图形(例如，动画)生成的场景由基于正弦的变换(本文也称作基于正弦的变换类型)和基于阶梯的变换(本文也称作基于阶梯的变换类型)之间的选择过程来编码。基于阶梯的变换被定义为完整的规格化正交变换基础的集合。也就是说，基础矢量互相正交，并且基础矢量的线性组合覆盖整个矢量空间。基于阶梯的变换能够更好地捕捉锐利边缘并且近似阶梯变化。在视觉质量方面，这样的变换自然低避免了振铃伪像。因此，允许选择基于阶梯的变换能够潜在地利用较低比特成本表示输入信号并且还更有效地压缩信号。进一步的细节在对可以在其中使用本文教导的环境的初始讨论之后加以描述。

图1是视频编码和解码系统100的示意图。发送站102例如可以是具有诸如图2所描述的内部硬件配置的计算机。然而，发送站102的其它适当实施方式也是可能的。例如，发送站102的处理能够在多个设备间进行分布。

网络104能够连接发送站102和接收站106以便对视频流进行编码和解码。特别地，视频流能够在发送站102中进行编码，并且经编码的视频流能够在接收站106中被解码。网络104例如可以是互联网。网络104也可以是局域网(LAN)、广域网(WAN)、虚拟私人网络(VPN)、蜂窝电话网，或者用于将视频流从发送站102发送至在该示例中是接收站106的任意其它装置。

在一个示例中，接收站106可以是具有诸如图2所描述的内部硬件配置的计算机。然而，接收站106的其它适当实施方式也是可能的。例如，接收站106的处理能够在多个设备间进行分布。

视频编码和解码系统100的其它实施方式是可能的。例如，实施方式能够省略网络104。在另一个实施方式中，视频流能够被编码并接着被存储以便在随后的时间被传送至接收站106或者具有存储器的任意其它设备。在一个实施方式中，接收站106接收(例如，经由网络104、计算机总线和/或一些通信路径)经编码的视频流，并且存储视频流以便随后解码。在示例实施方式中，使用实时传输协议(RTP)来在网络104上传送编码视频。在另一个实施方式中，可以使用RTP以外的传输协议，例如基于HTTP的视频流传输协议。

例如，当在视频会议系统中使用时，发送站102和/或接收站106可以包括如以下所描述的编码和解码视频流的能力两者。例如，接收站106可以是视频会议参与者，其从视频会议服务器(例如，发送站102)接收经编码视频比特流以便解码和观看，并且进一步对其自己的视频比特流进行编码并发送至视频会议服务器以便由其它参与者进行解码和观看。

图2是能够实施发送站和接收站的计算设备200的示例的框图。例如，计算设备200能够实施图1的发送站102和接收站106之一或二者。计算设备200可以是包括多个计算设备的计算系统的形式，或者是单个计算设备的形式，例如移动电话、平板计算机、膝上计算机、笔记本计算机、桌面型计算机等。

计算设备200中的CPU 202可以是常规的中央处理器。替选地，CPU 202可以是能够操控或处理现有或后续开发的信息的任意其它类型的设备或多个设备。虽然所公开的实施方式能够如所示出的利用例如CPU 202单个处理器来实践，但是使用多于一个的处理器能够实现速度和效率方面的优势。

在实施方式中，计算设备200中的存储器204可以是只读存储器(ROM)设备或随机访问存储器(RAM)设备。任意其它适当类型的存储设备都能够作为存储器204使用。存储器204能够进一步包括操作系统208和应用程序210，应用程序210包括允许CPU 202执行本文所描述的方法的至少一个程序。例如，应用程序210能够包括应用1至N，其进一步包括执行本文所描述方法的视频代码化应用。计算机设备200还可以包括辅存储装置214，辅存储装置214可以是随移动计算设备200一起使用的存储卡。由于视频通信会话可能包含大量信息，所以它们能够整体或部分地被存储在辅存储装置214中并且按照需要被加载到存储器204中以便进行处理。

计算设备200还可以包括一个或多个输出设备，诸如显示器218。在一个示例中，显示器218可以是将显示器与可操作以感测触摸输入的触摸敏感元件组合的触摸敏感显示器。显示器218能够经由总线212耦合至CPU 202。除了显示器218之外或者作为其替选，可以提供允许用户编程或以其它方式使用计算设备200的输出设备。当输出设备是或者包括显示器时，显示器能够以各种方式来实施，包括液晶显示器(LCD)、阴极射线(CRT)显示器，或者足以让OLED显示器的发光二极管(LED)显示器。

计算设备200还可以包括图像感测设备220或者与之进行通信，图像感测设备220例如相机，或者是现有或随后开发的能够感测诸如操作计算设备200的用户的图像之类的图像的任意其它图像感测设备220。图像感测设备220能够被定位为使得其朝向操作计算设备200的用户。在示例中，图像感测设备220的位置和光轴能够被配置成使得视场包括与显示器218直接相邻并且能够从其看到显示器218的区域。

计算设备200还能够包括声音感测设备222或者与之进行通信，声音感测设备222例如麦克风，或者是现有或随后开发的能够感测计算设备200附近的声音的任意其它声音感测设备。声音感测设备222能够被定位为使得其朝向操作计算设备200的用户，并且能够被配置成接收例如由用户在用户操作计算设备200时所进行的讲话或说的其它话语之类的声音。

虽然图2将计算设备200的CPU 202和存储器204描绘为被整合为单个单元，但是能够采用其它配置。CPU 202的操作能够跨能够直接耦合或跨局域网或其它网络的多个机器(每个机器具有一个或多个处理器)分布。存储器204能够跨多个机器进行分布，诸如基于网络的存储器或者在执行计算设备200的操作的多个机器中的存储器。虽然在这里被描绘为单个总线，但是计算设备200的总线212能够由多个总线组成。另外，辅存储装置214能够直接耦合至计算设备200的其它组件或者能够经由网络来访问，并且能够包括诸如存储卡之类的单个集成单元或者诸如多个存储卡的多个单元。计算设备200因此能够以各种配置来实施。

图3是所要被编码并在后续被解码的视频流300的示例的示图。视频流300包括视频序列302。在下一个层级，视频序列302包括多个相邻帧304。虽然有三个帧被描绘为相邻帧304，但是视频序列302能够包括任意数量的相邻帧304。相邻帧304进而能够被进一步细分为独立帧，例如单个帧306。在下一个层级，单个帧306能够被划分为一系列分段或平面308。例如，分段(或平面)308可以是允许并行处理的帧的子集。分段308也可以是将视频数据划分为单独颜色的帧的子集。例如，彩色视频数据的帧306能够包括亮度平面和两个色度平面。分段308能够以不同分辨率进行采样。

无论帧306是否被划分为分段308，帧306都可以进一步被细分为块310，块310能够包含例如对应于帧306中的16×16像素的数据。块310还能够被排列为包括来自像素数据的一个或多个平面308的数据。块310还可以是任意其它适当的大小，诸如4×4像素、8×8像素、16×8像素、8×16像素、16×16像素或更大。除非另外有所指出，否则术语块和宏块在本文可互换地使用。帧306可以根据如本文随后更详细讨论的教导进行划分。

图4是根据实施方式的编码器400的框图。如以上所描述的，编码器400能够诸如通过提供存储在例如存储器204的存储器中的计算机软件程序而在发送站102中实施。计算机软件程序能够包括机器指令，机器指令在被诸如CPU 202的处理器执行时使得发送站102以图4所描述的方式对视频数据进行编码。编码器400还能够被实施为例如包括在发送站102中的专用硬件。编码器400具有以下级以便执行正向路径(如实线连接线所示)中的各种功能从而使用输入视频流300产生经编码或压缩的比特流420：帧内/帧间预测级402、变换级404、量化级406，以及熵编码级408。编码器400还可以包括重构路径(由虚线连接线所示出)以重构帧以用于未来块的编码。在图4中，编码器400具有以下级以执行重构路径中的各种功能：去量化级410、逆变换级412、重构级414，以及环路滤波级416。编码器400的其它结构变体能够被用来对视频流300进行编码。

当视频流300被呈现以用于编码时，每个帧306能够在块为单位进行处理。在帧内/帧间预测级402，每个块能够使用帧内预测(也称作帧内(intra)预测)或帧间预测(也称作帧间(inter)预测)进行编码。在任意情况下，都能够形成预测块。在帧内预测的情况下，能够从当前帧中之前已经被编码和重构的样本形成预测块。在帧间预测的情况下，能够从一个或多个之前构建的基准帧中的样本形成预测块。

接下来，仍然参考图4，能够从帧内/帧间预测级402的当前块中减去预测块以产生残差块(也被称作残差)。变换级404使用基于块的变换将残差变换为例如频域中的变换系数。根据以下进一步关于图6所描述的过程，在变换级404，残差块可以根据基于阶梯的变换或基于正弦的变换被变换。基于阶梯的变换类型例如包括Haar小波变换(HWT)和Walsh-Hadamard变换(WHT)。HWT是一种标准正交变换，而WHT则是一种标准正交、对称、实数变换。基于正弦的变换类型例如包括离散余弦变换(DCT)和非对称离散正弦变换(ADST)。在变换的一个应用示例中，DCT将残差块变换至其中变换系值基于空间频率的频域。最低频率(DC)系数处于矩阵左上方而最高频率系数则处于矩阵的右下方。注意到，如同样在下文关于图6更详细描述的，预测块的大小以及因此残差块的大小可能与变换块的大小有所不同。

量化级406使用量化器值或量化水平将变换系数转换为被称作量化的变换系数的离散量子值。例如，变换系数可以除以量化器值并且被截取。量化的变换系数随后被熵编码级408进行熵编码。熵编码的系数随后连同用来解码块的其它信息一起被输出至压缩的比特流420，其它信息例如可以包括所使用的预测类型、变换类型、运动矢量和量化器值。压缩的比特流420能够使用诸如可变长度代码化(VLC)或算术代码化的各种技术进行格式化。压缩的比特流420也能够被称作编码的视频流或编码的视频比特流，并且所述术语将在这里可互换地使用。

图4中的重构路径(由虚线连接线所示出)能够被用来确保编码器400和(下文所描述的)解码器500两者使用相同的基准帧来对压缩的比特流420进行解码。重构路径执行与在下文更详细讨论的解码处理期间进行的功能相类似的功能，包括在去量化级410对量化的变换系数进行去量化并且在逆变换级412对去量化的变换系数进行逆变换，从而产生衍生残差块(也被称作衍生残差)。在重构级414，在帧内/帧间预测级402预测的预测块能够被添加至衍生残差以创建重构块。环路滤波级416能够被应用于重构块以减少诸如分块伪像之类的失真。

编码器400的其它变体能够被用来对压缩的比特流420进行编码。例如，针对某些块或帧，基于非变换的编码器400能够在没有变换级404的情况下对直接对残差信号进行量化。在另一个实施方式中，编码器400能够将量化级406和去量化级410组合为单个级。

图5是根据另一个实施方式的解码器500的框图。解码器500例如能够通过提供存储在例如存储器204的存储器中的计算机软件程序而在接收站106中实施。所述计算机软件程序能够包括机器指令，所述机器指令在被诸如CPU 202的处理器执行时使得接收站106以图5所描述的方式对视频数据进行解码。解码器500还能够以例如包括在发送站102或接收站106中的硬件来实施。

类似于上文所讨论的编码器400的重构路径，解码器500在一个示例中包括以下级以执行各种功能以从压缩的比特流420产生输出视频流516：熵解码级502、去量化级504、逆变换级506、帧内/帧间预测级508、重构级510、环路滤波级512和解块滤波级514。解码器500的其它结构变体能够被用来对压缩的比特流420进行解码。

当压缩的比特流420被呈现以用于解码时，压缩的比特流420内的数据元素能够如本文更详细描述地由熵解码级502进行解码以产生量化的变换系数的集合。去量化级504对量化的变换系数进行去量化(例如，通过将量化的变换系数乘以量化器值)，并且逆变换级506使用所选择的变换类型对去量化的变换系数进行逆变换以产生衍生残差，衍生残差能够与解码器400中的逆变换级412所创建的相同。使用从压缩的比特流420所解码的报头信息，解码器500能够使用帧内/帧间预测级508来如编码器400中例如在帧内/帧间预测级402所创建的相同预测块。在重构级510，预测块能够被添加至衍生残差以创建重构块。环路滤波级512能够被应用于重构块以减少分块伪像。其它滤波能够被应用于重构块。在该示例中，解块滤波级514被应用于重构块以减少分块失真，并且结果作为输出视频流516被输出。输出视频流516也能够被称作解码的视频流，并且所述术语将在这里可互换地使用。

解码器500的其它变体能够被用来对压缩的比特流420进行解码。例如，解码器500能够在没有解块滤波级514的情况下产生输出视频流516。

如上文所提到的，由于与自然视频信号相比的大的边缘比例，非基带信号能够因为使用基于阶梯的变换而获益。然而，除了许多边缘之外，非基带信号包括具有相对统一的像素值(即，它们的颜色值并不变化太多)的区域。对于这样的区域，可以更有效地使用基于正弦的变换。因此，本文中对非基带信号的编码包含通过在基于阶梯的变换和基于正弦的变换之间进行选择而对每个帧的块进行编码。

图6是用于对非基带信号进行编码的过程600的流程图，过程600包括在基于正弦的变换和基于阶梯的变换之间选择变换类型。过程600能够在诸如计算设备200的系统中实施以帮助视频流的编码。过程600例如能够被实施为由诸如发送站102或接收站106的计算设备所执行的软件程序。所述软件程序能够包括存储在诸如存储器204的存储器中的机器可读指令，所述机器可读指令在被诸如CPU 202的处理器所执行时使得计算设备执行过程700。过程600还能够整体或部分地使用硬件来实施。如上文所解释的，一些计算设备可以具有多个存储器和多个处理器，并且过程600的步骤或操作在这样的情况下可以使用不同处理器和存储器进行分布。本文中术语“处理器”和“存储器”以单数形式的使用涵盖了仅有一个处理器或一个存储器的计算设备以及具有多个处理器或存储器的设备，多个处理器或存储器均能够在执行一些但不一定全部所引用步骤时被使用。

为了解释的简明性，过程600被作为一系列步骤或操作进行描述。然而，根据本公开的步骤和操作能够以各种顺序和/或同时进行。此外，根据本公开的步骤和或操作可以随本文并未呈现并描述的其它步骤或操作一起进行。此外，并非所有所图示的步骤或操作都被要求来实施根据所公开主题的方法。描绘了用于对单个帧的单个块进行编码的过程600。过程600可以针对单个帧的一些或全部块进行重复和/或针对输入信号的每个帧进行重复。可以以诸如光栅扫描顺序的任意扫描顺序而对块进行处理。

过程600通过在操作602接收非基带信号而开始。接收信号能够包括从视频屏幕接收信号，从存储器设备获取信号或者接收信号以便进行处理的任意其它方式。在一个实施方式中，通过将传入视频流的一部分分离出去以形成非基带信号而接收信号。传入视频流的剩余部分能够通过任意数量的已知常规技术进行编码。在某些实施例中，非基带信号包括计算机生成的图形。计算机生成的图形的示例包括屏播和动画。

在操作604，使用来自非基带信号的帧的要编码的当前块生成残差。如上文所讨论的，可以通过选择预测模式以及使用预测模式生成预测块来生成、计算或以其它方式产生残差块，其中预测块和当前块之间的差异是残差块，也被称作残差。

在操作606，基于阶梯的变换和基于正弦的变换均被应用于残差。也就是说，残差使用基于阶梯的变换进行变换，并且残差还使用基于正弦的变换进行变换。为了以低复杂度有效计算基于阶梯的变换，可以使用蝴蝶算法或计算结构。变换能够被顺序应用或被同时应用。该操作导致包括多个变换系数的两个变换块。在操作608，对每个变换块进行编码并且计算与变换块相关联的率失真值。

在操作608对变换块进行编码可选地包括对变换块的变换系数进行量化以及生成包括块如何被编码的报头信息。如果要对块使用无损编码，则可以省略变换系数的量化并且操作608的编码通过生成报头信息而完成。为了在操作608计算率失真值，使用报头信息对编码的块进行解码。操作608形成率失真循环的一部分以便对当前块进行编码。率失真循环确定从编码过程所输出的比特率或比特数量相对失真，或者作为编码和解码的结果的视频流的视觉质量的改变。失真能够以多种不同方式来测量，包括测量编码和解码之前的视频流的数据和编码和解码之后的视频流的数据之间的均方差(差异)。因此，率失真值是针对给定失真水平表示编码的块(或者视频流的其它细分)所需的比特数量的量度。在一些实施方式中，操作608可以在使用或没有使用量化的情况下执行，以使用基于阶梯的变换生成用于对块进行编码的两个率失真值以及使用基于正弦的变换生成用于对块进行编码的两个率失真值。在其它实施方式中，操作608可以在仅利用变换块之一省略量化的情况下来执行，变换块之一诸如使用基于阶梯的变换所生成的变换块。

在操作610，进行查询由此将残差块大小与变换块的最小块大小相比较。在一些情况下，变换模式是可用的由此变换类型能够被应用于比残差块更小的块。例如，最小的(即，最小)块大小可以是4×4像素。在操作610的比较中，过程600在残差块大小大于最小块大小时继续进行至操作612。

在操作612，过程600关于是否有更多预测模式可用于测试做出询问。如上文简要提到的，预测模式包含帧间和帧内预测。帧内预测可以包括指示用来生成预测块的像素传播的方向性的多种模式。在一些情况下，预测模式可以与大小相关联。例如，块可以是通过对大型块进行适当划分根据诸如4×4帧间预测模式、8×8帧间预测模式、若干4×4帧内预测模式和若干8×8帧内预测模式的多种预测模式所预测的大型块。

如果没有另外的预测模式可用，则过程600继续进行至操作614以比较所生成的率失真值。在操作616，与最低率失真值相关联的代码化被选择以对块进行编码。例如，如果仅有一种预测模式可用，并且残差块大小等于最小块大小，在操作608使用基于阶梯的变换所生成的第一值和在操作608使用基于正弦的变换所生成的第二值的率失真值中的较低者。如果使用基于阶梯的变换、基于正弦的变换或其二者生成了多于一个的率失真值，则识别最低的率失真值。所选择的代码化将包括预测模式和变换模式(级，基于阶梯的变换或基于正弦的变换以及变换大小)。可选地，所选择的代码化可以包括是否作为编码过程的一部分执行量化。

在操作616之后，对块进行编码。对所产生的变换块进行编码可以包括通过以诸如曲折扫描顺序的扫描顺序对变换系数进行熵代码化而对变换块进行熵代码化。在一些情况下，对所产生的变换块进行编码包括对变换块的变换系数进行量化，并且随后通过以诸如曲折扫描顺序的扫描顺序对量化的变换系数进行熵代码化而对变换块进行熵代码化。

返回操作610，如果残差块大小大于最小块大小，则较小变换可能被应用于当前残差块。这在过程600中通过继续进行至操作618来实现，其中在操作608所计算的率失真值被存储以供后续使用，并且随后进行至步骤620，其中残差块被划分为较小块。所期望的是，在返回操作606之前，划分将残差块分为非重叠的多个子块。在操作606，基于阶梯的变换被应用于多个子块中的每个子块以生成变换子块，并且基于正弦的变换被应用于多个子块以同样生成变换子块。

在一些实施方式中，针对每个子块在下一个操作608进行率失真值的编码和计算。也就是说，使用基于正弦的变换所变换的每个子块被单独地编码和解码以计算相应的率失真值，率失真值随后针对与特定预测模式和变换模式——基于正弦的变换和变换大小——相关联的当前块的单个率失真值进行求和。类似地，使用基于阶梯的变换所变换的每个子块被单独地编码和解码以计算相应的率失真值，率失真值随后针对与特定预测模式和变换模式——基于阶梯的变换和变换大小——相关联的当前块的单个率失真值进行求和。更常见地，该计算是在块层级而不是子块层级完成，这是因为报头比特与块相关联。例如，使用基于正弦的变换或基于阶梯的变换所生成的子块可选地使用量化被编码，并且被解码以在并不针对每个子块计算单独的率失真值的情况下针对块生成率失真值。

过程600随后如以上所讨论的继续进行。假设响应于操作610的查询残差块大小不再大于最小块大小并且响应于操作612的查询而没有另外的预测模式可用，则在操作614将存储的率失真值和当前的率失真值进行比较以在操作616选择与最低率失真值相关联的代码化。所选择的代码化包括预测模式以及导致率失真值中的最低率失真值的基于阶梯的变换和变换大小或者基于正弦的变换和变换大小。

如果响应于操作612的查询有另外的预测模式可用，则过程600在操作622存储所计算的率失真值，并且返回操作604以使用新的预测模式生成新的残差。一旦所有变换块大小和所有预测模式都被测试，则在操作614将当前率失真值与所有所生成并存储的率失真值进行比较以在操作616选择代码化。当前块随后被编码为比特流。

如所提到的，过程600的操作顺序和内容可以变化。例如，过程600被描述为其中使用单个率失真循环以每个块为基础选择预测模式和变换模式。在一个替选实施方式中，可以在一个率失真循环中选择仅使用基于正弦的变换类型的块的最佳预测模式，而可以在分开的循环中选择仅使用基于阶梯的变换类型的块的最佳预测模式。随后，针对块选择预测模式和变换的更好组合。进一步地，当在操作620对块进行划分时过程600针对残差块的所有子块使用相同的变换类型。这预计对于代码化而言更为有效，因为针对子块并不要求变换类型的信令，并且无论存在多少子块，对块进行解码能够依赖于变换类型(包括大小)的一次性信令。此外，率失真循环是计算密集的，并且针对子块使用相同的变换类型与替选形式相比所涉及的计算更少。然而，可能在针对子块生成率失真值时基于正弦和阶梯的变换的各种组合以针对那些子块选择变换类型。本文所描述的技术也在使用附加处理以限制预测模式的数量的情况下工作。

过程600描述了例如执行在一种基于阶梯的变换和一种基于正弦的变换之间的选择。在再其它的实施方式中，可以使用多于一种的基于阶梯的变换和/或多于一种的基于正弦的变换来生成率失真值以便在操作614进行比较。作为一个示例，HWT和WHT的每一个的结果可以与诸如DCT的一个基于正弦的变换或者诸如DCT和ADST的多于一个的基于正弦的变换的结果进行比较。进一步地，也可以在对基于阶梯的变换和基于正弦的变换中的每一个都可用的三种类型的变换代码化之一间做出选择。常规地，针对基于正弦的变换采用二维(2D)变换，并且基于阶梯的变换也可以被用作2D变换。然而，针对基于阶梯的变换和基于正弦的变换之一或二者可以采用垂直方向、水平方向或其二者中的一维(1D)变换。在包含边缘和阶梯数据时，特别期望具有基于阶梯的变换的垂直或水平的1D变换类型。已经发现，在其中应用基于阶梯的变换的边缘数据中，与2D的基于阶梯的变换相比，1D的基于阶梯的变换更为有效地捕捉到残差的方向性并且因此在代码化中更为有效。在一个实施方式中，在仅向垂直方向应用阶梯变换的1D阶梯变换、仅向水平方向应用阶梯变换的1D阶梯变换、向垂直和水平方向都应用阶梯变换的2D阶梯变换、以及向垂直和水平方向都应用阶梯变换的2D正弦变换之间做出选择。

在一些情况下，在操作614可以不对所有率失真值进行比较。例如，在执行多通循环时(例如，针对不同变换类型、不同块/子块大小、或者不同预测模式)，可以在操作618和/或操作622之前比较所生成的率失真值，使仅将最低率失真值关联于其预测模式和变换模式(例如，变换类型和变换大小)被存储。随后，可以将每个新的率失真值与该最低值相比较，并且在它低于之前存储的值的情况下被存储或者在它不低于之前存储的值的情况下被丢弃。

如本文所描述那样编码的视频比特流的解码处理可以如关于图5所描述。在比特流内所发送的数据中，可以在报头中使用一个或多个比特来指示变换大小以及针对每个块、分段或帧选择了哪种变换类型。当从块的编码中省略了量化时，从块的解码中省略去量化。

基于阶梯的变换代码化是一种用于视频信号的压缩技术，其对信号依赖性去相关并且将信号能量压缩为变换系数的小的子集。将基于阶梯的变换代码化作为替选整合到基于正弦的变换代码化中通过更为有效地压缩非基带信号而提高了代码化性能。特别地，基于阶梯的变换对于包含计算机生成的场景、监视器屏幕的捕捉、游戏图形等在内的屏幕内容视频是有利的。基于阶梯的变换能够比常规DCT(基于正弦的变换)所能够的更好地近似包含大量锐利改变和阶梯信号的某种类别的视频信号(例如，动画和文本图像)的统计属性。

在一个实施方式中，WHT被实施为用于例如4×4、8×8、16×16的不同变换大小的块代码化的基于阶梯的变换。可以选择WHT而不是DCT以对视频信号的部分进行编码和解码。在这样的示例中，编码器相应地经由WHT和DCT对预测残差信号进行变换。变换系数随后被量化以计算率和失真成本。编码器在WHT和DCT(以及可能的其它变换类型)中选择提供最小率失真成本的一个，并且将该信息在一个比特(或者在允许更多变换类型的情况下，更多比特)中发送至解码器。解码器从比特流读取变换类型信息并且在解码处理中应用相对应的逆变换以重构信号。

相比在较大变换块中，基于阶梯的变换在较小变换块中表现出优势。相信这是因为尖锐变换和阶梯信号在大规模变换中被平均和压制。出于该原因，本文的技术的一些实施方式针对一些更小的变换块对一些代码化块进行细分以选择每个块的变换类型(WHT或DCT或其它)。同样出于该原因，在一些实施方式中可以不根据图6对所有块大小都进行处理。例如，一些块/子块大小可以被限制为仅测试基于阶梯的变换，而其它则可以被限制为仅测试基于正弦的变换。在该变换的一个实施方式中，预测块可以包括64×64个像素。假设该大小以及4×4像素、8×8像素、16×16像素和32×32像素的子块被处理，该预测块(64×64像素)和包括32×32个像素的子块可以被限制为基于正弦的变换，而包括4×4像素、8×8像素或16×16像素的子块则可以被限制为基于阶梯的变换。在另一个变体中，使用至少一个基于阶梯的变换和至少一个基于正弦的变换对一些块大小进行处理，而其它块大小则仅使用一个类型被处理。

基于阶梯的变换经常由整数元素组成，这允许快速计算并且不要求中间步骤的取整运算。该特征使得其能够支持无损代码化。也就是说，所有基于正弦的变换即使在不使用量化时也会由于变换和逆变换的过程而导致一些数据损失。而对于基于阶梯的变换则并非如此。因此，在使用基于阶梯的变换时省略量化导致块的无损代码化。

上文所描述的编码和解码的方面对编码和解码技术的一些示例进行了阐述。然而，所要理解的是，如在权利要求中使用的那些术语，编码和解码可以表示压缩、解压缩、变换，或者数据的任意其它处理或改变。

此外，词语“示例”在本文被用来表示用作示例、实例或说明。此外，这里被描述为“示例”的任何方面或设计并非必然被理解为相对于其它方面或设计是优选或有利的。相反，词语“示例”的使用是意在以具体方式给出概念。如本申请中所使用的，术语“或”意在表示包含“或”而非排除“或”。也就是说，除非另外指出或者从上下文所明确，否则“X包括A或B”意在表示任意的自然包含置换形式。也就是说，如果X包括A；X包括B；或者X包括A和B二者，则“X包括A或B”就在任意上述实例下得到满足。此外，除非另外指出或者从上下文所明确为指示单数形式，否则本申请和所附权利要求中使用的冠词“一”(“a”和“an”)一般应当被理解为表示“一个或多个”。此外，术语“实施方式”或“一个实施方式”的使用始终都并非表示相同的实施例或实施方式，除非被描述如此。

发送站102和/或接收站106(以及包括由编码器400和解码器500存储于其上和/或由此被执行的算法、方法、指令等)的实施方式能够以硬件、软件或者它们的任意组合来实施。硬件例如可以包括计算机、知识产权(IP)核心、专用集成电路(ASIC)、可编程逻辑阵列、光学处理器、可编程逻辑控制器、微代码、微控制器、服务器、微处理器、数字信号处理器或任意其它适当电路。在权利要求中，术语“处理器”应当被理解为单独或组合地涵盖了任意上述硬件。术语“信号”和“数据”可互换地使用。另外，发送站102和接收站106的多个部分并不一定要以相同方式来实施。

进一步地，在一个方面，例如，发送站102或接收站106能够使用具有计算机程序的通用计算机或通用处理器来实施，所述计算机程序在被执行时实行本文所描述的任意的相应方法、算法和/或指令。除此之外或替选地，例如，能够采用可包含用于实行本文所描述的任意方法、算法或指令的其它硬件的专用计算机/处理器。

发送站102和接收站106例如能够在视频会议系统中的计算机上实施。替选地，发送站102能够在服务器上实施，并且接收站106能够在与服务器分离的设备上实施，诸如手持通信设备。在该实例中，发送站102能够使用编码器400将内容编码为编码视频信号并且将编码视频信号发送至通信设备。进而，通信设备随后能够使用解码器500对编码视频信号进行解码。替选地，通信设备能够对通信设备上本地存储的设备进行解码，内容例如未由发送站发送的内容。其它适当的发送站102和接收站106的实施方案是可用的。例如，接收站106可以是一般静态的个人计算机而不是便携式通信设备和/或包括编码器400的设备也可以包括解码器500。

另外，本发明的所有或部分实施方式能够采用可访问的计算机程序产品的形式，例如有形计算机可用或计算机可读介质。计算机可用或计算机可读介质可以是例如能够有形地包含、存储、通信或传送程序以便由任意处理器或结合处理器使用的任意设备。所述介质例如可以是电子、磁、光学、电磁或半导体设备。其它适当介质也是可用的。

上文所描述的实施例、实施方式和方面已经被描述以便允许容易地理解本发明而并不对本发明加以限制。与之相反，本发明意在服该包括在所附权利要求范围之内的各种修改和等同部署形式，所述范围要与最宽泛的解释相符从而如法律所允许的涵盖素有这样的修改和等同结构。

Claims

1.一种用于对视频信号进行编码的方法，包括：

在计算设备处接收所述视频信号，所述视频信号包括具有多个帧的非基带信号，每个帧由多个块所形成，并且每个块具有多个像素；

针对多个预测模式中的每个预测模式：

使用所述预测模式生成预测块以用于对当前块进行编码；

基于所述预测块和所述当前块生成残差块；

使用基于正弦的变换对所述残差块进行变换；

生成第一率失真值以用于使用所述基于正弦的变换对所述残差块进行编码；

使用基于阶梯的变换对所述残差块进行变换；以及

生成第二率失真值以用于使用所述基于阶梯的变换对所述残差块进行编码；

基于每个预测模式的结果中所述第一率失真值和所述第二率失真值中的最低值，选择所述基于阶梯的变换或所述基于正弦的变换中的一个变换以用于对所述残差块进行编码；以及

使用基于阶梯的变换或基于正弦的变换中的所述一个变换对所述当前块进行编码。

2.根据权利要求1所述的方法，其中，所述基于阶梯的变换是Walsh-Hadamard变换，所述方法进一步包括：

选择所述多个预测模式中的一个预测模式以对所述当前块进行编码，所选择的预测模式是用来生成每个预测模式的结果中所述第一率失真值和所述第二率失真值中的所述最低值的预测模式。

3.根据权利要求1所述的方法，进一步包括：

在所述残差块具有超过最小块大小的大小时，将所述残差块分割为多个子块；以及

其中，针对所述多个子块中的每个子块：

使用所述基于正弦的变换对所述残差块进行变换包括：使用所述基于正弦的变换对所述子块进行变换；

生成所述第一率失真值以用于使用所述基于正弦的变换对所述残差块进行编码包括：生成所述第一率失真值以用于使用所述基于正弦的变换对所述子块进行编码；

使用所述基于阶梯的变换对所述残差块进行变换包括：使用所述基于阶梯的变换对所述子块进行变换；

生成所述第二率失真值以用于使用所述基于阶梯的变换对所述残差块进行编码包括：生成所述第二率失真值以用于使用所述基于阶梯的变换对所述子块进行编码；

选择所述基于阶梯的变换或基于正弦的变换中的一个变换以用于对所述残差块进行编码包括：基于每个子块的结果中所述第一率失真值和所述第二率失真值中的最低值来选择所述基于阶梯的变换或所述基于正弦的变换中的一个以用于对所述子块进行编码。

4.根据权利要求3所述的方法，进一步包括：

对用于对所述多个子块中的每一个进行编码而生成的所述第一率失真值进行求和，以形成所述残差块的总体第一率失真值；以及

对用于对所述多个子块中的每一个进行编码而生成的所述第二率失真值进行求和，以形成所述残差块的总体第二率失真值；

其中，对所述当前块进行编码包括：

使用所述多个预测模式中的下述预测模式来对所述当前块进行编码：该预测模式的率失真值是每个预测模式的所述总体第一率失真值和每个预测模式的所述总体第二率失真值中最低的。

5.根据权利要求1所述的方法，其中，所述残差模块超过最小块大小；以及其中，使用所述多个预测模式中的所述预测模式以及所述基于阶梯的变换或所述基于正弦的变换中的一个变换对所述当前块进行编码包括：使用所述多个预测模式中的所述预测模式生成所述残差块，以及使用所述基于阶梯的变换或所述基于正弦的变换中的相同一个对由所述残差块形成的多个非重叠子块中的每个子块进行编码。

6.根据权利要求5所述的方法，其中，所述基于阶梯的变换是Walsh-Hadamard变换；以及其中，通过所述Walsh-Hadamard变换对所述残差块的每个子块进行变换以相应地形成变换子块并且在没有对所述变换子块执行量化的情况下对所述变换子块进行熵代码化，来使用所述Walsh-Hadamard变换对所述多个非重叠子块中的每个子块进行无损编码。

7.根据权利要求5所述的方法，其中，所述基于阶梯的变换是Harr小波变换；以及其中，使用所述Harr小波变换对所述多个非重叠子块中的每个子块进行无损编码。

8.一种用于对视频信号进行编码的装置，包括：

存储器；和

处理器，所述处理器被配置成执行存储在所述存储器中的指令以：

接收所述视频信号，所述视频信号包括具有多个帧的非基带信号，每个帧由多个块形成，并且每个块具有多个像素；

针对多个预测模式中的每个预测模式：

使用所述预测模式生成预测块以用于对当前块进行编码；

基于所述预测块和所述当前块生成残差块；

使用基于正弦的变换对所述残差块进行变换；

使用基于阶梯的变换对所述残差块进行变换；以及

基于每个预测模式的结果中所述第一率失真值和所述第二率失真值中的最低值，选择所述基于阶梯的变换或所述基于正弦的变换中的一个用于对所述残差块进行编码；以及

9.根据权利要求8所述的装置，其中，所述基于阶梯的变换是Walsh-Hadamard变换，以及所述基于正弦的变换是离散余弦变换。

10.根据权利要求8所述的装置，其中，所述处理器被配置成：

选择所述多个预测模式中的一个预测模式以对所述当前块进行编码，所选择的预测模式是用来生成每个预测模式的结果中的所述第一率失真值和所述第二率失真值中的所述最低值的预测模式；以及通过以下操作对所述当前块进行编码：

使用所述基于阶梯的变换，对使用所选择的预测模式所生成的残差块进行变换；以及

在对所变换的残差块进行量化之后，对所变换的残差块进行熵代码化。

11.根据权利要求8所述的装置，其中，所述基于正弦的变换是二维(2D)基于正弦的变换，以及所述基于阶梯的变换是多个基于阶梯的变换中的一个变换；以及其中，所述处理器被配置成通过以下操作生成所述第二率失真值：

生成相应的第二率失真值以用于使用所述多个基于正弦的变换中的每个基于阶梯的变换对所述残差块进行编码，其中，所述多个基于阶梯的变换包括：

垂直一维(1D)基于阶梯的变换；

水平一维(1D)基于阶梯的变换；以及

2D基于阶梯的变换。

12.根据权利要求8所述的装置，其中，所述处理器被配置成：

针对所述多个子块中的每个子块：

通过使用所述基于正弦的变换对所述子块进行变换，来使用所述基于正弦的变换对所述残差块进行变换；

通过使用所述基于阶梯的变换对所述子块进行变换，来使用所述基于阶梯的变换对所述残差块进行变换；以及

通过使用所述基于阶梯的变换对所述多个子块进行编码，来生成所述第一率失真值；以及

通过使用所述基于阶梯的变换对所述多个子块进行编码，来生成所述第二率失真值。

13.根据权利要求12所述的装置，其中，所述处理器被配置成：

通过使用所述基于正弦的变换对所述多个子块进行编码来生成所述第一率失真值包括：对通过使用所述基于正弦的变换对所述多个子块进行变换所生成的变换块的变换系数进行量化；以及

在不对通过使用所述基于阶梯的变换对所述多个子块进行变换所生成的变换块的变换系数进行量化的情况下，通过使用所述基于阶梯的变换对所述多个子块进行编码，来生成所述第二率失真值。

14.根据权利要求13所述的装置，其中，所述基于阶梯的变换是Walsh-Hadamard变换或Harr小波变换中的一个变换，以及所述基于正弦的变换是离散余弦变换或非对称离散正弦变换中的一个变换。

15.根据权利要求8所述的装置，其中所述基于阶梯的变换是Walsh-Hadamard变换或Harr小波变换中的一个变换，以及所述基于正弦的变换是离散余弦变换或非对称离散正弦变换中的一个变换；以及其中，所述处理器被配置成通过以下操作而对所述当前块进行无损编码：

使用所述Walsh-Hadamard变换或所述Harr小波变换中的所述一个变换对所述残差块进行变换以形成变换块，以及在不对所述变换块执行量化的情况下对所述变换块进行熵代码化。

16.根据权利要求8所述的装置，其中，所述残差模块超过最小块大小；以及其中，使用所述多个预测模式中的所述预测模式以及所述基于阶梯的变换或所述基于正弦的变换中的一个变换对所述当前块进行编码包括：使用所述多个预测模式中的所述预测模式生成所述残差块，以及使用所述基于阶梯的变换或所述基于正弦的变换中的相同一个对形成所述残差块的多个非重叠子块中的每个子块进行编码。

17.根据权利要求8所述的装置，其中，所述非基带信号包括屏播或计算机生成的动画中的一个。