CN113382250A

CN113382250A - 阿尔法通道预测

Info

Publication number: CN113382250A
Application number: CN202110625992.7A
Authority: CN
Inventors: 马里拉·乌斯塔罗斯-卡朗格; 文森特·拉博
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-07-07
Filing date: 2021-06-04
Publication date: 2021-09-10
Also published as: EP3937487A1; US20230388534A1; US20230090481A1; US11528498B2; US20220014773A1; US11765377B2

Abstract

本公开涉及阿尔法通道预测。通过使用阿尔法通道预测来图像转码可以包括通过使用阿尔法通道预测来生成重构图像并且输出所述重构图像。通过使用阿尔法通道预测来生成重构图像可以包括：解码参考第一颜色空间所表示的当前像素的重构颜色通道值；通过将重构颜色通道值转换到第二颜色空间，来获得当前像素的颜色空间转换颜色通道值；通过使用颜色空间转换颜色通道值，来获得用于当前像素的阿尔法通道值的阿尔法通道下限；生成当前像素的候选预测阿尔法值；通过使用候选预测阿尔法值和阿尔法通道下限，来获得用于当前像素的调整后的预测阿尔法值；通过使用调整后的预测阿尔法值，来生成用于当前像素的重构像素；以及将重构像素包括在重构图像中。

Description

阿尔法通道预测

技术领域

本公开涉及阿尔法通道预测。

背景技术

数字图像和视频可以例如在互联网上用于经由视频会议的远程商业会议、高清视频娱乐、视频广告、或用户生成的内容的共享。由于在传输和处理图像和视频数据时涉及的大量数据，因此高性能压缩对于传输和存储可能是有利的。因此，提供在具有有限带宽的通信通道上发送的高分辨率图像和视频(例如通过使用阿尔法通道预测来进行图像和视频转码)将是有利的。

发明内容

本申请涉及编码和解码图像数据、视频流数据或者二者以用于传输或存储。本文公开用于通过使用阿尔法通道预测来进行编码和解码的系统、方法和装置。

一个方面是一种用于通过使用阿尔法通道预测来图像转码的方法。通过使用阿尔法通道预测来图像转码可以包括通过使用阿尔法通道预测来生成重构图像并且输出所述重构图像。通过使用阿尔法通道预测来生成所述重构图像包括：获得用于参考第一颜色空间所表示的所述当前图像的当前像素的重构颜色通道值；通过将所述重构颜色通道值转换到第二颜色空间，来获得所述当前像素的颜色空间转换颜色通道值；通过使用所述颜色空间转换颜色通道值，来获得用于所述当前像素的阿尔法通道值的阿尔法通道下限；生成所述当前像素的候选预测阿尔法值；通过使用所述候选预测阿尔法值和所述阿尔法通道下限，来获得用于所述当前像素的调整后的预测阿尔法值；通过使用所述调整后的预测阿尔法值，来生成用于所述当前像素的重构像素；以及将所述重构像素包括在所述重构图像中。

另一个方面是一种用于通过使用阿尔法通道预测来图像转码的方法。通过使用阿尔法通道预测来图像转码可以包括通过使用阿尔法通道预测来生成编码图像并且输出一种输出比特流。通过使用所述阿尔法通道预测来生成所述编码图像包括：从输入图像中识别当前像素，其中所述当前像素包括输入颜色通道值，其中所述输入颜色通道值是参照第一颜色空间来表示的，并且其中所述输入颜色通道值包括输入阿尔法通道值；通过使用所述输入颜色通道值，来获得所述像素的预乘颜色通道值；通过使用所述预乘颜色通道值，来获得用于所述像素的重构颜色值，其中，所述重构颜色通道值是参考第二颜色空间来表示的；通过将所述重构颜色通道值颜色空间转换到所述第一颜色空间，来获得用于所述当前像素的颜色空间转换颜色通道值；通过使用所述颜色空间转换颜色通道值，来获得用于所述当前像素的重构阿尔法通道值的阿尔法通道下限；生成用于所述当前像素的候选预测阿尔法值；通过使用所述候选预测阿尔法值和所述阿尔法通道下限，来获得用于所述当前像素的调整后的预测阿尔法值；获得残差阿尔法值作为从所述输入阿尔法通道值中减去所述调整后的预测阿尔法值的差；以及将所述残差阿尔法值包括在输出比特流中。

另一个方面是一种用于通过使用阿尔法通道预测来图像转码的装置。该装置可以包括处理器，该处理器被配置为通过使用阿尔法通道预测来生成重构图像并且输出所述重构图像。该处理器可以被配置为通过以下步骤使用阿尔法通道预测来生成所述重构图像：获得用于参考第一颜色空间表示的所述当前图像的当前像素的重构颜色通道值；通过将所述重构颜色通道值转换到第二颜色空间来获得用于所述当前像素的颜色空间转换颜色通道值；通过使用所述颜色空间转换颜色通道值，来获得用于所述当前像素的阿尔法通道值的阿尔法通道下限；生成用于所述当前像素的候选预测阿尔法值；通过使用所述候选预测阿尔法值和所述阿尔法通道下限，来获得用于所述当前像素的调整后的预测阿尔法值；通过使用所述调整后的预测阿尔法值来生成用于所述当前像素的重构像素；以及将所述重构像素包括在所述重构图像中。

另一个方面是一种用于通过使用阿尔法通道预测来图像转码的装置。该装置可以处理器，该处理器被配置为通过使用阿尔法通道预测来生成编码图像并且在输出比特流中输出所述编码图像。该处理器可以被配置为通过以下步骤使用所述阿尔法通道预测来生成所述编码图像：从输入图像中识别当前像素，其中所述当前像素包括输入颜色通道值，其中所述输入颜色通道值是参照第一颜色空间来表示的，并且其中所述输入颜色通道值包括输入阿尔法通道值；通过使用所述输入颜色通道值来获得用于所述像素的预乘颜色通道值；通过使用所述预乘颜色通道值来获得用于所述像素的重构颜色值，其中，所述重构颜色通道值是参考第二颜色空间来表示的；通过将所述重构颜色通道值颜色空间转换到所述第一颜色空间，来获得用于所述当前像素的颜色空间转换颜色通道值；通过使用所述颜色空间转换颜色通道值，来获得用于所述当前像素的重构阿尔法通道值的阿尔法通道下限；生成用于所述当前像素的候选预测阿尔法值；通过使用所述候选预测阿尔法值和所述阿尔法通道下限，来获得用于所述当前像素的调整后的预测阿尔法值；获得残差阿尔法值作为从所述输入阿尔法通道值中减去所述调整后的预测阿尔法值的差；以及将所述残差阿尔法值包括在输出比特流中。

这些和其它方面中的变化将在下文更详细地描述。

附图说明

本文的描述参考附图，其中，除非另有说明或者从上下文中清楚，否则贯穿若干视图，相似的附图标记指代相似的部分。

图1是根据本公开的实施方式的计算设备的图。

图2是根据本公开的实施方式的计算和通信系统的图。

图3是根据本发明的实施方式的用于编码和解码的视频流的图。

图4是根据本公开的实施方式的编码器的框图。

图5是根据本发明的实施方式的解码器的框图。

图6是根据本公开的实施方式的帧的一部分的表示的框图。

图7是根据本公开的实施方式的通过使用阿尔法通道预测进行解码的示例的流程图。

图8是根据本公开的实施方式的通过使用阿尔法通道预测进行编码的示例的流程图。

具体实施方式

图像和视频压缩方案可以包括将图像或帧分解成较小的部分，诸如块，以及通过使用使输出中的为每个块所包括的信息的带宽利用最小化的技术来生成输出比特流。在一些实施方式中，输出中的为每个块所包括的信息可以通过减少空间冗余、减少时间冗余或其组合来限制。例如，时间或空间冗余可以通过基于对编码器和解码器均可用的信息而预测帧或其一部分、并且在编码比特流中包括用于表示在预测帧与原始帧之间的差异或残差的信息来减少。所述残差信息可以通过将所述残差信息变换为变换系数、量化所述变换系数以及对量化后的变换系数进行熵编码来进一步压缩。诸如运动信息之类的其他转码信息可以被包括在编码比特流中，其可以包括基于对编码信息的预测来发送差分信息，该差分信息可以被熵编码以进一步减少相对应的带宽利用率。可以对编码比特流进行解码，以从有限信息中重构所述块和源图像。在一些实施方式中，通过使用帧间预测或帧内预测来编码块的准确性、效率或两者均可能受限。

通过使用阿尔法通道预测进行转码(例如编码或解码)的实施方式可能包括使用先前重构的阿尔法预乘RGB颜色值以获得阿尔法通道下限、以及使用阿尔法通道下限以提高阿尔法通道的预测器的准确性。

图1是根据本公开的实施方式的计算设备100的图式。所示计算设备100包括存储器110、处理器120、用户接口(UI)130、电子通信单元140、传感器150、电源160和总线170。如本文所使用，术语“计算设备”包括能够执行本文所公开的任何方法、或其任何一个或多个部分的任何单元、或单元的组合。

计算设备100可以是固定计算设备，例如，个人计算机(PC)、服务器、工作站、小型计算机、或大型计算机；或移动计算设备，例如，移动电话、个人数字助理(PDA)、便携式计算机、或平板PC。尽管图示为单个单元，但是计算设备100的任一个或多个元件可以集成在任何数目的分开物理单元中。例如，用户接口130和处理器120可以集成在第一物理单元中，并且存储器110可以集成在第二物理单元中。

存储器110可以包括任何非暂时性的计算机可用的或计算机可读的介质，例如任何有形设备，其中可以例如含有、存储、传送或传输数据112、指令114、操作系统116、或与其相关联的任何信息以供计算设备100的其它组件使用或结合计算设备100的其它组件使用。非暂时性的计算机可用的或计算机可读的介质可以是例如，固态驱动器、存储卡、可移动介质、只读存储器(ROM)、随机存取存储器(RAM)、包括硬盘、软盘、光盘的任何类型的盘、磁卡或光卡、专用集成电路(ASIC)、或适合于存储电子信息的任何类型的非暂时性介质或其任何组合。

尽管示为单个单元，但是存储器110可以包括多个物理单元，例如，一个或多个主要存储器单元，例如随机存取存储器单元；一个或多个次级数据存储单元，例如磁盘；或其组合。例如，数据112或其一部分、指令114或其一部分、或两者可以存储于次级存储单元中，并且可以结合处理相应数据112、执行相应指令114或两者而加载到或另外传递到主要存储单元。在一些实施方式中，存储器110或其一部分可以是可移除存储器。

数据112可以包括信息，例如输入音频数据、编码音频数据、解码音频数据等。指令114可以包括用于执行本文所公开的任何方法、或其任一个或多个部分的指导，例如代码。指令114可以在硬件、软件、或其任何组合中实现。例如，指令114可以实施为存储于存储器110中的信息，例如可以由处理器120执行以执行如本文所描述的相应方法、算法、方面、或其组合中的任一个的计算机程序。

尽管示为包括在存储器110中，但是在一些实施方式中，指令114或其一部分可以实施为专用处理器或电路，所述专用处理器或电路可以包括用于执行如本文所描述的方法、算法、方面或其组合中的任一个的专用硬件。指令114的各部分可以分布于在同一机器或不同机器上的多个处理器上，或分布在例如局域网、广域网、因特网、或其组合的网络上。

处理器120可以包括能够控制或处理数字信号或其它电子信息的现有的或以后开发的任何设备或系统，包括光学处理器、量子处理器、分子处理器、或其组合。例如，处理器120可以包括专用处理器、中央处理单元(CPU)、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑阵列、可编程逻辑控制器、微代码、固件、任何类型的集成电路(IC)、状态机、或其任何组合。如本文所使用，术语“处理器”包括单个处理器或多个处理器。

用户接口130可以包括能够与用户对接的任何单元，例如虚拟或物理小键盘、触摸板、显示器、触摸显示器、扬声器、麦克风、摄像机、传感器或其任何组合。例如，用户接口130可以是音频-视频显示设备，并且计算设备100可以例如结合显示例如解码视频的视频，通过使用用户接口130的音频-视频显示设备来呈现例如解码音频的音频。尽管示为单个单元，但是用户接口130可以包括一个或多个物理单元。例如，用户接口130可以包括用于与用户执行音频通信的音频接口、以及用于与用户执行基于视觉和触摸的通信的触摸显示器。

电子通信单元140可以经由有线或无线电子通信介质180，例如射频(RF)通信介质、紫外线(UV)通信介质、可见光通信介质、光纤通信介质、有线通信介质、或其组合，来传输、接收或传输并接收信号。例如，如图所示，电子通信单元140可操作地连接到例如天线的电子通信接口142，所述电子通信接口被配置成经由无线信号进行通信。

尽管在图1中将电子通信接口142示为无线天线，但是电子通信接口142可以是如图所示的无线天线、例如以太网端口、红外端口、串行端口的有线通信端口、或能够与有线或无线电子通信介质180对接的任何其它有线或无线单元。尽管图1示出单个电子通信单元140和单个电子通信接口142，但是可以使用任何数目的电子通信单元和任何数目的电子通信接口。

传感器150可以包括例如音频感测设备、可见光感测设备、运动感测设备、或其组合。例如，传感器150可以包括例如麦克风的声音感测设备，或现有的或以后开发的任何其它声音感测设备，其可以感测由操作计算设备100的用户发出的在计算设备100附近的声音，例如语音或其它言语。在另一示例中，传感器150可以包括相机，或现有的或以后开发的任何其它图像感测设备，其可以感测图像，例如操作计算设备的用户的图像。尽管示出单个传感器150，但是计算设备100可以包括多个传感器150。例如，计算设备100可以包括以指向计算设备100的用户的视场定向的第一相机、以及以远离计算设备100的用户的视场定向的第二相机。

电源160可以是用于为计算设备100供电的任何合适的设备。例如，电源160可以包括有线外部电源接口；一个或多个干电池，例如，镍镉(NiCd)、镍锌(NiZn)、镍金属氢化物(NiMH)、锂离子(Li-ion)；太阳能电池；燃料电池；或能够为计算设备100供电的任何其它设备。尽管在图1中示出单个电源160，但是计算设备100可以包括多个电源160，例如，电池和有线外部电源接口。

尽管示为分开的单元，但是电子通信单元140、电子通信接口142、用户接口130、电源160或其一部分可以被配置为组合单元。例如，电子通信单元140、电子通信接口142、用户接口130和电源160可以被实施为能够与外部显示设备对接的通信端口，以提供通信、电力或二者。

存储器110、处理器120、用户接口130、电子通信单元140、传感器150或电源160中的一个或多个可以经由总线170可操作地耦合。尽管图1中示出单个总线170，但是计算设备100可以包括多个总线。例如，存储器110、处理器120、用户接口130、电子通信单元140、传感器150和总线170可以经由总线170从电源160接收电力。在另一示例中，存储器110、处理器120、用户接口130、电子通信单元140、传感器150、电源160或其组合可以经由总线170来传送数据，例如发送和接收电子信号。

尽管图1中未分开地示出，但是处理器120、用户接口130、电子通信单元140、传感器150或电源160中的一个或多个可以包括内部存储器，例如内部缓冲器或寄存器。例如，处理器120可以包括内部存储器(未示出)，并且可以将数据112从存储器110读取到内部存储器(未示出)中以进行处理。

尽管示为分开的元件，但是存储器110、处理器120、用户接口130、电子通信单元140、传感器150、电源160和总线170、或其任何组合可以集成在一个或多个电子单元、电路或芯片中。

图2是根据本公开的实施方式的计算和通信系统200的图式。所示的计算和通信系统200包括计算和通信设备100A、100B、100C、接入点210A、210B以及网络220。例如，计算和通信系统200可以是多址系统，所述多址系统将通信(例如语音、音频、数据、视频、消息传递、广播或其组合)提供到一个或多个有线或无线通信设备，例如计算和通信设备100A、100B、100C。尽管为简单起见，图2示出三个计算和通信设备100A、100B、100C、两个接入点210A、210B以及一个网络220，但是可以使用任何数目的计算和通信设备、接入点和网络。

计算和通信设备100A、100B、100C可以是例如计算设备，例如图1中所示的计算设备100。例如，计算和通信设备100A、100B可以是用户设备，例如移动计算设备、膝上型计算机、瘦客户端(thin client)或智能电话，并且计算和通信设备100C可以是服务器，例如大型机或集群。尽管将计算和通信设备100A以及计算和通信设备100B描述为用户设备，并且将计算和通信设备100C描述为服务器，但是任何计算和通信设备都可以执行服务器的一些或全部功能、用户设备的一些或全部功能、或服务器和用户设备的一些或全部功能。例如，服务器计算和通信设备100C可以接收、编码、处理、存储、传输音频数据或所述操作的组合；并且计算和通信设备100A以及计算和通信设备100B中的一个或两个可以接收、解码、处理、存储、呈现音频数据或所述操作的组合。

每个计算和通信设备100A、100B、100C可以被配置成(例如经由网络220)执行有线或无线通信，所述计算和通信设备可以包括用户装置(UE)、移动台、固定或移动订户单元、蜂窝电话、个人计算机、平板计算机、服务器、消费型电子产品、或任何类似设备。例如，计算和通信设备100A、100B、100C可以被配置成传输或接收有线或无线通信信号。尽管每个计算和通信设备100A、100B、100C显示为单个单元，但是计算和通信设备可以包括任何数目的互连元件。

每个接入点210A、210B可以是被配置成经由有线或无线通信链路180A、180B、180C与计算和通信设备100A、100B、100C、网络220或两者通信的任何类型的设备。例如，接入点210A、210B可以包括基站、基站收发器(BTS)、节点-B、增强型节点-B(eNode-B)、家庭节点-B(HNode-B)、无线路由器、有线路由器、集线器、中继器、交换机、或任何类似的有线或无线设备。尽管每个接入点210A、210B被示为单个单元，但是接入点可以包括任何数目的互连元件。

网络220可以是配置成通过有线或无线通信链路来提供服务的任何类型的网络，所述服务例如语音、数据、应用程序、互联网协议语音(VoIP)、或任何其它通信协议或通信协议的组合。例如，网络220可以是局域网(LAN)、广域网(WAN)、虚拟专用网(VPN)、移动或蜂窝电话网络、互联网或任何其它电子通信方式。所述网络可以使用通信协议，例如传输控制协议(TCP)、用户数据报协议(UDP)、互联网协议(IP)、实时传输协议(RTP)、超文本传输协议(HTTP)、或其组合。

计算和通信设备100A、100B、100C可以通过使用一个或多个有线或无线通信链路、或经由有线和无线通信链路的组合而经由网络220来彼此通信。例如，如图所示，计算和通信设备100A、100B可以经由无线通信链路180A、180B通信，并且计算和通信设备100C可以经由有线通信链路180C通信。计算和通信设备100A、100B、100C中的任一个可以通过使用任何一个或多个有线或无线通信链路来通信。例如，第一计算和通信设备100A可以通过使用第一类型的通信链路经由第一接入点210A通信，第二计算和通信设备100B可以通过使用第二类型的通信链路经由第二接入点210B通信，并且第三计算和通信设备100C可以通过使用第三类型的通信链路经由第三接入点(未示出)通信。类似地，接入点210A、210B可以经由一种或多种类型的有线或无线通信链路230A、230B与网络220通信。尽管图2示出经由网络220进行通信的计算和通信设备100A、100B、100C，但是计算和通信设备100A、100B、100C可以经由任何数目的通信链路(例如直接有线或无线通信链路)彼此通信。

在一些实施方式中，在计算和通信设备100A、100B、100C中的一个或多个之间的通信可以省略经由网络220的通信，并且可以包括经由例如数据存储设备的另一介质(未示出)来传递数据。例如，服务器计算和通信设备100C可以将例如编码音频数据的音频数据存储在例如便携式数据存储单元的数据存储设备中，并且计算和通信设备100A或计算和通信设备100B中的一个或两个可以例如通过将所述数据存储设备从服务器计算和通信设备100C物理地断开连接、以及将所述数据存储设备物理地连接到计算和通信设备100A或计算和通信设备100B而从所述数据存储单元访问、读取或检索所存储的音频数据。

计算和通信系统200的其它实施方式是可能的。例如，在实施方式中，网络220可以是自组织网络，并且可以省略接入点210A、210B中的一个或多个。计算和通信系统200可以包括图2中未示出的设备、单元或元件。例如，计算和通信系统200可以包括更多的通信设备、网络和接入点。

图3是根据本公开的实施方式的用于编码和解码的视频流300的图式。视频流300，例如由摄像机捕获的视频流或由计算设备生成的视频流，可以包括视频序列310。视频序列310可以包括相邻帧320的序列。尽管示出三个相邻帧320，但是视频序列310可以包括任何数目的相邻帧320。

来自相邻帧320的每个帧330可以表示来自所述视频流的单个图像。尽管在图3中未示出，但是帧330可以包括一个或多个段、图块或平面，所述一个或多个片段、图块或平面可以被独立地(例如并行地)转码或以其他方式处理。帧330可以包括一个或多个图块340。每个图块340可以是能够被独立地转码的帧的矩形区域。每个图块340可以包括相应的块350。尽管在图3中未示出，但是块可以包括像素。例如，块可以包括16×16像素组、8×8像素组、8×16像素组、或任何其它像素组。除非本文另外指示，否则术语“块”可以包括帧的超块、宏块、片段、切片、或任何其它部分。帧、块、像素或其组合可以包括显示信息，例如亮度信息、色度信息、或可以用于存储、修改、传达或显示所述视频流或其一部分的任何其它信息。

图4是根据本公开的实施方式的编码器400的框图。编码器400可以实施在例如图1中所示的计算设备100或图2中所示的计算和通信设备100A、100B、100C的设备中，作为例如存储在例如图1中所示的存储器110的数据存储单元中的计算机软件程序。计算机软件程序可以包括机器指令，所述机器指令可以由处理器(例如图1中所示的处理器120)执行、并且可以使所述设备对本文所描述的视频数据进行编码。编码器400可以实施为例如包括在计算设备100中的专用硬件。

编码器400可以编码输入视频流402(诸如图3中示出的视频流300)，以生成编码的(压缩的)比特流404。在一些实施方式中，编码器400可以包括用于生成压缩比特流404的前向路径。所述前向路径可以包括帧内/帧间预测单元410、变换单元420、量化单元430、熵编码单元440、或其任何组合。在一些实施方案中，编码器400可以包括用于重构帧以对其它块进行编码的(由断开的连接线指示的)重构路径。所述重构路径可以包括去量化单元450、逆变换单元460、重构单元470、滤波单元480、或其任何组合。编码器400的其它结构变型可以用于对视频流402进行编码。

为了对视频流402进行编码，可以按块为单位处理在所述视频流402内的每个帧。因此，可以从帧中的块中识别出当前块，并且可以对当前块进行编码。

在帧内/帧间预测单元410处，可以通过使用可以在单个帧内的帧内预测或可以从帧到帧的帧间预测，来对当前块进行编码。帧内预测可以包括从所述当前帧中先前已被编码和重构的样本来生成预测块。帧间预测可以包括从在一个或多个先前构造的参考帧中的样本来生成预测块。为当前帧中的当前块生成预测块可以包括执行运动估计以生成用于指示所述参考帧的适当参考部分的运动矢量。

帧内/帧间预测单元410可以从当前块(原始块)减去预测块以产生残差块。变换单元420可以执行基于块的变换，其可以包括在例如频域中将所述残差块变换为变换系数。基于块的变换的示例包括Karhunen-Loève变换(KLT)、离散余弦变换(DCT)、奇异值分解变换(SVD)和非对称离散正弦变换(ADST)。在一个示例中，DCT可以包括将块变换到频域中。DCT可以包括使用基于空间频率的变换系数值，其中在矩阵的左上角具有最低的频率(即，DC)系数，并且在矩阵的右下角具有最高的频率系数。

量化单元430可以将变换系数转换成离散的量化值，其可以被称为量化的变换系数或量化水平。量化的变换系数可以由熵编码单元440进行熵编码以产生熵编码的系数。熵编码可包括使用概率分布度量。可以将用于解码所述块的熵编码的系数和信息(可以包括所使用的预测的类型、运动矢量和量化器值)输出到所述压缩比特流404。可以通过使用各种技术来将压缩比特流404格式化，例如作为游程长度编码(RLE)和零游程转码。

重构路径可以用于维持在所述编码器400和相应的解码器(例如，图5中所示的解码器500)之间的参考帧同步。重构路径可以类似于下面讨论的解码过程，并且可以包括对编码帧或其一部分进行解码，其可以包括对编码块进行解码，所述解码可以包括在去量化单元450处对量化的变换系数进行去量化并且在逆变换单元460处对去量化的变换系数进行逆变换以产生派生的残差块。重构单元470可以将由帧内/帧间预测单元410生成的预测块添加到派生的残差块以创建解码块。滤波单元480可以应用于所述解码块以生成重构块，这可以减少诸如块状伪影之类的失真。尽管在图4中示出了一个滤波单元480，但是对解码块进行滤波可以包括环路滤波、去块滤波、或其他类型的滤波、或滤波类型的组合。所述重构块可以作为重构块被存储或以其他方式可访问，该重构块可以是参考帧的一部分，用于对当前帧的另一部分、另一帧或两者进行编码，如在482处的虚线所示。如在484处的虚线所示，可以对用于所述帧的转码信息(例如，去块阈值索引值)进行编码、包括在压缩比特流404中、或两者。

编码器400的其他变型可以用于编码所述压缩比特流404。例如，基于非变换的编码器400可以在没有变换单元420的情况下直接对所述残差块进行量化。在一些实施方式中，量化单元430和去量化单元450可以合并成单个单元。

图5是根据本公开的实施方式的解码器500的框图。在例如图1中所示的计算设备100或图2中所示的计算和通信设备100A、100B、100C的设备中，解码器500可以实施为例如存储于例如图1中所示的存储器110的数据存储单元中的计算机软件程序。计算机软件程序可以包括可以由处理器(例如图1中所示的处理器120)执行的机器可读指令，并且可以使所述设备对本文所描述的视频数据进行解码。解码器500可以实施为例如包括在计算设备100中的专用硬件。

解码器500可以接收压缩比特流502，诸如图4中所示的压缩比特流40，4并且可以对压缩比特流502进行解码以生成输出视频流504。解码器500可以包括熵解码单元510、去量化单元520，逆变换单元530、帧内/帧间预测单元540、重构单元550、滤波单元560、或它们的任何组合。解码器500的其他结构变型可以用于解码压缩比特流502。

熵解码单元510可以通过使用例如上下文自适应二进制算术解码来对在压缩比特流502内的数据元素进行解码，以产生一组量化变换系数。去量化单元520可以对量化变换系数进行去量化，并且逆变换单元530可以对去量化的变换系数进行逆变换以产生派生的残差块，所述派生的残差块可以对应于由图4中所示的逆变换单元460生成的派生的残差块。通过使用从压缩比特流502解码的标头信息，帧内/帧间预测单元540可以生成与在编码器400中创建的预测块相对应的预测块。在重构单元550处，可以将预测块添加到派生的残差块以创建解码块。滤波单元560可以应用于解码块以减少例如块伪像的伪像，其可以包括环路滤波、去块滤波、或其它类型的滤波、或滤波类型的组合，并且其可以包括生成重构块，所述重构块可以被输出作为输出视频流504。

解码器500的其他变型可以用于解码压缩比特流502。例如，解码器500可以在没有去块滤波单元的情况下产生输出视频流504。

图6是根据本公开的实施方式的诸如图3中所示的帧330的帧的部分600的表示的框图。如所示，所述框的部分600包括在矩阵或笛卡尔平面中的两行两列的四个64×64块610。在一些实施方式中，64×64块可以是最大转码单元，N＝64。每个64×64块可以包括四个32×32块620。每个32×32块620可以包括四个16×16块630。每个16×16块630可以包括四个8×8块640。每个8×8块640可以包括四个4×4块650。每个4×4块650可以包括16个像素，其可以在笛卡尔平面或矩阵中的每个相应块中以四行和四列来表示。所述像素可以包括表示在所述帧中捕获到的图像的信息，诸如亮度信息、颜色信息和位置信息。在一些实施方式中，诸如如图所示的16×16像素块的块可以包括：亮度块660，其可以包括亮度像素662；以及两个色度块670、680，诸如U或Cb色度块670、以及V或Cr色度块680。色度块670、680可以包括色度像素690。例如，如图所示，亮度块660可以包括16×16个亮度像素662，并且每个色度块670、680可以包括8×8色度像素690。尽管示出了块的一种布置，但可以使用任何布置。尽管图6示出了N×N块，但在一些实施方式中，可以使用N×M块。例如，可以使用32×64块、64×32块、16×32块、32×16块、或任何其它大小的块。在一些实施方式中，可以使用N×2N块、2N×N块或其组合。

在一些实施方式中，视频转码可以包括有序块级转码。有序块级转码可以包括以诸如光栅扫描顺序的顺序对帧的块进行转码，其中，可以如下方式识别和处理块：从帧的左上角或帧的一部分中的块开始，并且沿着行从左到右且从顶部行到底部行进行处理，依次识别每个块以进行处理。例如，帧的顶部行和左侧列中的64×64块可以是所转码的第一块，且紧接着第一块的右侧的64×64块可以是所转码的第二块。从顶部开始的第二行可以是所转码的第二行，使得可以在第一行的最右列中的64×64块之后对第二行的左列中的64×64块进行转码。

在一些实施方式中，对块进行转码可以包括：使用四叉树转码，该四叉树转码可以包括以光栅扫描顺序对在块中的较小块单元进行转码。例如，可以使用四叉树转码来对图6中所示的帧的部分的左下角中所示的64×64块进行转码，其中，可以对左上角的32×32块进行转码，随后可以对右上角的32×32块进行转码，随后可以对左下角的32×32块进行转码，且随后可以对右下角的32×32块进行转码。可以使用四叉树转码来对每个32×32块进行转码，其中，可以对左上角的16×16块进行转码，随后可以对右上角的16×16块进行转码，随后可以对左下角的16×16块进行转码，且随后可以对右下角的16×16块进行转码。可以使用四叉树转码来对每个16×16块进行转码，其中，可以对左上角的8×8块进行转码，随后可以对右上角的8×8块进行转码，随后可以对左下角的8×8块进行转码，且随后可以对右下角的8×8块进行转码。可以使用四叉树转码来对每个8×8块进行转码，其中，可以对左上角的4×4块进行转码，随后可以对右上角的4×4块进行转码，随后可以对左下角的4×4块进行转码，且随后可以对右下角的4×4块进行转码。在一些实施方式中，针对16×16块，可以省略8×8块，并且可以使用四叉树转码来对16×16块进行转码，其中，可以对左上角的4×4块进行转码，且随后可以以光栅扫描顺序对在所述16×16块中的其它4×4块进行转码。

在一些实施方式中，视频转码可以包括：通过从对应编码帧中省略原始帧中的一些信息来压缩在原始或输入帧中所包括的信息。例如，转码可以包括：减少频谱冗余；减少空间冗余；减少时间冗余；或它们的组合。

在一些实施方式中，减少频谱冗余可以包括：使用基于亮度分量(Y)和两个色度分量(U和V或Cb和Cr)的颜色模型，其可以被称为YUV或YCbCr颜色模型或颜色空间。使用YUV颜色模型可以包括：使用相对大量的信息来表示帧的部分的亮度分量，以及使用相对少量的信息来表示所述帧的部分的每个对应色度分量。例如，帧的部分可以由高分辨率亮度分量(其可以包括16×16像素块)表示并且可以由两个较低分辨率色度分量表示，该较低分辨率色度分量中的每一者将所述帧的部分表示为8×8像素块。像素可以指示值(例如在0至255的范围内的值)，并且可以通过使用例如八个比特来存储或发送。尽管参考YUV颜色模型描述了本公开，但可以使用任何颜色模型。

在一些实施方式中，减少空间冗余可以包括：通过使用例如离散余弦变换(DCT)来将块变换到频域中。例如，编码器的单元(诸如图4的变换单元420)可以通过使用基于空间频率的变换系数值来执行DCT。

在一些实施方式中，减少时间冗余可以包括：使用在帧之间的相似性，以基于一个或多个参考帧通过使用相对少量的数据来对帧进行编码，该参考帧可以是视频流的先前编码的、解码的和重构的帧。例如，当前帧的块或像素可以与参考帧的空间上对应的块或像素类似。在一些实施方式中，当前帧的块或像素可以与在不同空间位置处的参考帧的块或像素类似，并且减少时间冗余可以包括：生成用于指示空间差异的运动信息，或者在当前帧中的块或像素的位置与参考帧中的块或像素的对应位置之间的平移。

在一些实施方式中，减少时间冗余可以包括：识别参考帧的与当前帧的当前块或像素对应的部分。例如，可以来搜索可存储在存储器中的参考帧或参考帧的部分，以识别用于生成预测以用于以最大效率编码当前帧的当前块或像素的部分。例如，所述搜索可以识别参考帧的一部分，对于该部分在当前块与基于参考帧的该部分所生成的预测块之间的像素值的差被最小化，并且所述搜索可以被称为运动搜索。在一些实施方式中，可以限制所搜索的参考帧的所述部分。例如，所搜索的参考帧的所述部分(其可以被称为搜索区域)可以包括参考帧的有限数量的行。在示例中，识别参考帧的用于生成预测的部分可以包括：计算在搜索区域的部分的像素与当前块的像素之间的成本函数，诸如绝对差之和(SAD)。

在一些实施方式中，可以将在所述参考帧的用于在该参考帧中生成预测的部分的位置与当前帧中的当前块之间的空间差异表示为运动矢量。在预测块与当前块之间的像素值的差可以被称为差分数据、残差数据、预测误差或残差块。在一些实施方式中，生成运动矢量可以被称为运动估计，且可以基于通过使用笛卡尔坐标(如f_x,y)的位置来指示当前块的像素。类似地，可以基于通过使用笛卡尔坐标(如r_x,y)的位置来指示参考帧的搜索区域的像素。可以基于例如在当前帧的像素与参考帧的对应像素之间的SAD来确定用于当前块的运动矢量(MV)。

尽管为了清楚起见在本文中参照帧的矩阵或笛卡尔表示进行了描述，但是帧可以在任何数据结构中存储、发送、处理或其任何组合，从而可以针对帧或图像有效地表示像素值。例如，帧可以以二维数据结构(如所示的矩阵)或以一维数据结构(如矢量数组)存储、发送、处理或其任何组合。在一个实施方式中，帧的表示(诸如所示的二维表示)可以对应于在将帧渲染为图像时的物理位置。例如，在帧的左上角中的块的左上角中的位置可以对应于在将帧渲染为图像的左上角中的物理位置。

在一些实施方式中，基于块的转码效率可以通过将输入块划分成一个或多个预测分区来改善，所述一个或多个预测分区可以是矩形的(包括正方形的)用于预测转码的分区。在一些实施方式中，使用预测分区的视频转码可以包括从多个候选预测分区方案当中选择预测分区方案。例如，在一些实施方式中，用于64×64转码单元的候选预测分区方案可以包括大小从4×4变化到64×64(诸如4×4、4×8、8×4、8×8、8×16、16×8、16×16、16×32、32×16、32×32、32×64、64×32或64×64)的矩形大小预测分区。在一些实施方式中，使用预测分区的视频转码可以包括完整的预测分区搜索，其可以包括通过使用每个可用的候选预测分区方案对转码单元进行编码、并且选择最佳方案(例如，产生最小速率失真误差的方案)来选择预测分区方案。

在一些实施方式中，对视频帧进行编码可以包括识别用于对当前块(诸如块610)进行编码的预测分区方案。在一些实施方式中，对预测分区方案进行识别可以包括确定是否将所述块编码为最大转码单元大小的单个预测分区(其可以为如所图示的64×64)，或者将所述块分区成多个预测分区，其可以对应于子块，诸如如所图示的32×32块620、16×16块630或者8×8块640，并且可以包括确定是否分区成一个或多个较小的预测分区。例如，可以将64×64的块分区成四个32×32预测分区。四个32×32预测分区中的三个可以被编码为32×32预测分区，并且第四个32×32预测分区可以进一步被分区成四个16×16预测分区。四个16×16预测分区中的三个可以被编码为16×16预测分区，第四个16×16预测分区可以进一步划分为四个8×8预测分区，每个预测分区可以被编码为8×8预测分区。在一些实施方式中，识别预测分区方案可以包括使用预测分区决策树。

在一些实施方案中，用于当前块的视频转码可以包括从多个候选预测转码模式识别最佳预测转码模式，这可以在处理具有各种统计性质的视频信号时提供灵活性，并且可以改善压缩效率。例如，视频转码器可以评估每个候选预测转码模式以识别最佳预测转码模式，所述最佳预测转码模式可以为例如使当前块的误差量度(例如，速率失真成本)最小化的预测转码模式。在一些实施方式中，可以通过基于在当前块与对应的预测块之间的相似性来限制可用候选预测转码模式集合，来减小搜索候选预测转码模式的复杂度。在一些实施方式中，搜索每个候选预测转码模式的复杂度可以通过执行定向细化模式搜索来减小。例如，可以针对有限的候选块大小集合(例如16×16、8×8和4×4)来生成度量，可以按降序排列与每个块大小相关联的误差度量，并且可以评估附加候选块大小(诸如4×8和8×4块大小)。

在一些实施方案中，可通过将当前残差块分割成一个或多个变换分区来改善基于块的转码效率，所述一个或多个变换分区可以是矩形的(包括正方形的)用于变换转码的分区。在一些实施方式中，使用变换分区的视频转码可以包括选择统一变换分区方案。例如，当前残差块(诸如块610)可以是64×64块，并且可以通过使用64×64变换在不进行分区的情况下进行变换。

虽然在图6中未明确示出，可以通过使用统一变换分区方案来对残差块进行变换分区。例如，64×64残差块可以通过使用包括四个32×32变换块的统一变换分区方案、使用包括16个16×16变换块的统一变换分区方案、使用包括64个8×8变换块、或使用包括256个4×4变换块的统一变换分区方案，来进行变换分区。

在一些实施方案中，使用变换分区的视频转码可以包括使用多形式变换分区转码来识别残差块的多个变换块大小。在一些实施方式中，多形式变换分区转码可以包括：递归地确定是使用当前块大小变换、还是通过分区当前块和多形式变换分区转码每个分区来对当前块进行变换。例如，图6中所示的左下块610可以是64×64残差块，并且多形式变换分区转码可以包括确定是使用64×64变换来转码当前64×64残差块、还是通过将64×64残差块分区成诸如四个32×32块620的分组并且多形式变换分区转码每个分区来转码64×64残差块。在一些实施方式中，确定是否对当前块进行变换分区可以基于将用于使用当前块大小变换对当前块进行编码的成本与用于使用分区大小变换对每个分区进行编码的成本之和进行比较。

图7是根据本发明的实施方式的使用阿尔法通道预测进行解码700的示例的流程图。可以在诸如图5所示的解码器500的解码器中实施使用阿尔法通道预测700的解码。

如图7所示，使用阿尔法通道预测进行解码700包括：在710处识别当前像素，在720处获得重构颜色值，在730处获得颜色空间转换颜色值，在740处获得阿尔法通道下限，在750处生成预测阿尔法通道值，在760处获得调整后的预测阿尔法通道值，在770处生成重构像素，并且在780处输出。

虽然在图7中未明确示出，但是使用阿尔法通道预测进行解码700可以包括获得(诸如经由诸如图2所示的网络220的有线或无线电子通信介质接收、或者从诸如图1所示的存储器110的电子数据存储介质读取)编码比特流的至少一部分。使用阿尔法通道预测进行解码700可以包括生成重构图像。生成重构图像可以包括通过使用阿尔法通道预测来生成重构图像。

可以在710处识别当前像素。当前像素可以是当前图像的当前块(诸如图6中所示的块610)的像素。

可以在720处获得用于当前像素的重构颜色通道值。例如，获得用于当前像素的重构颜色通道值可以包括获得在基于亮度分量(Y)和两个色度分量(U和V或Cb和Cr)的颜色模型(其可以称为YUV或YCbCr颜色模型或颜色空间)中表示的用于当前像素的重构颜色通道值。获得重构颜色通道值可以包括通过使用从编码比特流中解码的数据(诸如残差颜色通道值)来重构重构颜色通道值。从编码比特流解码的数据可以是无损转码数据或有损转码数据。

可以在730处获得用于像素的颜色空间转换颜色值。获得用于像素的颜色空间转换颜色值可以包括重构颜色通道值的颜色空间转换，诸如从YUV颜色空间到另一颜色空间(诸如RGB颜色空间，其可能包括红色通道(R)、绿色通道(G)和蓝色通道(B))。

可以在740处获得阿尔法通道下限。在一些实施方式中，阿尔法通道下限可以是近似阿尔法通道下限，诸如根据通过使用有损转码数据获得阿尔法通道下限。获得阿尔法通道下限可以包括通过将红色通道值(R)除以用于红色通道的定义最大值(maxR)来获得归一化红色通道值。获得阿尔法通道下限可以包括通过将绿色通道值(G)除以用于绿色通道的定义最大值(maxG)来获得归一化绿色通道值。获得阿尔法通道下限可以包括通过将蓝色通道值(B)除以用于蓝色通道的定义最大值(maxB)来获得归一化蓝色通道值。获得阿尔法通道下限可以包括：识别在归一化红色通道值、归一化绿色通道值和归一化蓝色通道值当中的最大值，将在归一化红色通道值、归一化绿色通道值和归一化蓝色通道值当中的最大值乘以用于阿尔法通道的定义最大值(maxA)的乘积识别为近似下限。获得阿尔法通道下限(minA)可以表示为以下：

在一些实施方式中，可以省略归一化，并且获得阿尔法通道下限(minA)可以表示为minA＝max(R，G，B)。

可以在750处生成候选预测阿尔法通道值。生成候选预测阿尔法通道值(rpredA)可以包括使用一个或多个重构上下文像素(诸如来自当前块的上方的块的像素、当前块的左侧的块的像素以及当前块的上方和左侧的块的像素)的阿尔法值。例如，候选预测阿尔法通道值可以是上下文像素的阿尔法通道值的平均值。

可以在760处通过使用在750处识别的候选预测阿尔法通道值和在740处识别的阿尔法通道下限来获得调整后的阿尔法通道预测值。获得调整后的预测阿尔法通道值(predA)可以表示为predA＝max(rpredA，minA)。在一些实施方式中，获得调整后的预测阿尔法通道值(predA)可以包括使用基于有损压缩的阿尔法通道下限调整(m)，例如基于在有损压缩中丢失的数据(诸如基于量化水平)的调整，并且获得调整后的预测阿尔法通道值(predA)可以表示为predA＝max(rpredA，minA-m)。

可以在770处生成重构像素。生成重构像素可以包括生成该像素的重构阿尔法通道值。生成重构阿尔法通道值可以包括获得将该像素的调整后的预测阿尔法通道值和解码的残差阿尔法通道值相加的和作为重构阿尔法通道值。

可以在780处输出重构块像素。例如，可以将重构像素包括在重构图像中，并且可以例如经由图5所示的输出流504来输出重构图像以例如用于呈现给用户。尽管在图7中未明确示出，生成重构块或重构图像可以包括滤波，诸如图5中的560处所示的滤波。

图8是根据本公开的实施方式的使用阿尔法通道预测进行编码800的示例的流程图。可以在诸如图4所示的编码器400的编码器中实施使用阿尔法通道预测进行编码800。使用阿尔法通道预测进行编码800可以类似于如图7中所示的使用阿尔法通道预测的解码700，除了如本文所述或者从上下文中清楚之外。

如图8所示，使用阿尔法通道预测进行编码800包括：在810处识别当前像素，在820处获得预乘颜色值，在830处获得重构颜色值，在840处获得颜色空间转换颜色值，在850处获得阿尔法通道下限，在860处生成预测阿尔法通道值，在870处获得调整后的预测阿尔法通道值，生成重构像素，并且在880处输出。

虽然在图8中未明确示出，使用阿尔法通道预测进行编码800可以包括获得当前图像，其可以是输入图像。

可以在810处识别当前像素。当前像素可以是当前图像的当前块(诸如图6中所示的块610)的像素。

可以在820处获得像素的预乘颜色值。例如，可以在输入图像中通过使用RGB颜色空间(其可以包括红色通道(R)、绿色通道(G)和蓝色通道(B)以及阿尔法通道(A))来表示像素。获得预乘颜色值可以包括：将红色通道值乘以阿尔法通道值的乘积识别为预乘红色通道值，将绿色通道值乘以阿尔法通道值的乘积识别为预乘绿色通道值，并且将蓝色通道值乘以阿尔法通道值的乘积识别为预乘蓝色通道值。获得预乘颜色值可以包括：获得归一化阿尔法通道值；以及使用归一化阿尔法通道值来获得预乘颜色通道值。获得归一化阿尔法通道值可以包括获得将输入阿尔法通道值除以最大阿尔法通道值的结果。在一些实施方式中，用于所述像素的输入颜色通道值可以是预乘颜色值。

可以在830处获得用于当前像素的重构颜色通道值。虽然在图8中未另外示出，但是可以编码预乘颜色值，并且可以通过解码用于预乘颜色值的编码数据来获得重构颜色通道值。编码预乘颜色值可以包括诸如从RGB颜色空间到基于亮度分量(Y)和两个色度分量(U和V或Cb和Cr)的颜色模型(其可以称为YUV或YCbCr颜色模型或颜色空间)的预乘颜色值的颜色空间转换。编码数据可以是无损转码数据或有损转码数据。

可以在840处获得用于像素的颜色空间转换重构颜色值。获得用于像素的颜色空间转换重构颜色值可以包括诸如从YUV颜色空间到另一个颜色空间(诸如RGB颜色空间)的重构颜色通道值的颜色空间转换。

可以在850处获得可以是近似下限的阿尔法通道下限。获得阿尔法通道下限可以包括通过将红色空间转换后的重构色值(R)定义为红色通道(maxR)的最大值。获得阿尔法通道下限可以包括通过将绿色空间转换重构颜色值(G)除以绿色通道的定义最大值(maxG)来获得归一化绿色通道值。获得阿尔法通道下限可以包括通过将蓝色空间转换重构颜色值(B)除以蓝色通道的定义最大值(maxB)来获得归一化蓝色通道值。获得阿尔法通道下限可以包括：识别在归一化红色通道值、归一化绿色通道值和归一化蓝色通道值当中的最大值，将在归一化红色通道值、归一化绿色通道值和归一化蓝色通道值当中的最大值乘以阿尔法通道的定义最大值(maxA)的乘积识别为近似下限。获得阿尔法通道下限(minA)可以表示为以下：

可以在860处生成预测阿尔法通道值。生成预测阿尔法通道值(rpredA)可以包括使用一个或多个重构上下文像素(诸如来自当前块的上方的块的像素、当前块的左侧的块的像素以及当前块的上方和左侧的块的像素)的阿尔法值。例如，候选预测阿尔法通道值可以是上下文像素的阿尔法通道值的平均值。

可以在870处通过使用在860处识别的候选预测阿尔法通道值和在850处识别的阿尔法通道下限来获得调整后的阿尔法通道预测值。获得调整后的预测阿尔法通道值(predA)可以表示为predA＝max(rpredA，minA)。

可以在880处输出编码图像数据。虽然在图8中未另外示出，但是可以从输入像素阿尔法值减去在870处获得的调整后的预测阿尔法通道值以获得残差阿尔法值，并且可以在输出比特流中包括所述残差阿尔法值。

在一些实施方式中，残差阿尔法值可以是阿尔法通道下限受限残差阿尔法值，其中，对于小于阿尔法通道下限的残差阿尔法值，阿尔法通道下限可以用作残差阿尔法值。在一些实施方式中，例如根据通过使用有损转码数据来获得阿尔法通道下限，阿尔法通道下限的近似，其中，对于小于阿尔法通道下限的近似的残差阿尔法值，可以将阿尔法通道下限的近似用作残差阿尔法值。阿尔法通道下限的近似可以是将阿尔法通道下限乘以定义近似参数(诸如0.9)的乘积。

如本文所使用的术语“最佳”、“优化的”、“优化”或它们的其他形式是相对于相应的上下文，并且不指示绝对理论上的优化，除非本文明确指出。

如本文所使用的术语“集合”指示可以表示为一维数组或矢量的零个或多个不同元素或成员的可区分集合或分组，除非本文明确描述或从上下文中清楚地看出。

单词“示例”或者“示例性”在本文中用于意指用作示例、实例或图示。在本文中被描述为“示例”或者“示例性”的任何方面或设计不一定被解释为优于其它方面或设计的优选的或有利的。而是，单词“示例”或者“示例性”的使用旨在以具体方式呈现构思。如本申请中所使用的，术语“或”旨在意指包括性“或”而不是排他性“或”。也就是说，除非另外指定或者通过上下文中另外清楚指示，否则陈述“X包括A或B”旨在意指自然的包含性排列中的任一种。也就是说，如果X包括A；X包括B；或者X包括A和B两者，则在上述实例中的任一个满足“X包括A或B”。此外，除非另外指定或者通过上下文中另外指示为针对单数形式，否则如本申请和所附权利要求中所使用的冠词“一”和“一个”通常应该被解释成意指“一个或多个”。此外，贯穿本公开使用术语“实施方式”或术语“一个实施方式”不旨在意指同一实施例，除非被如此描述。如本文所使用的，术语“确定”和“识别”或其任何变体包括以无论任何方式使用图1中所示的一个或多个设备来选择、确定、计算、查找、接收、确定、建立、获得、或以其它方式识别或确定。

此外，为了简化说明，尽管本文的附图和描述可以包括步骤或阶段的序列或序列，但是本文公开的方法的要素可以按各种顺序发生和/或同时发生。另外，本文公开的方法的元素可以与本文未明确呈现和描述的其它元素一起出现。此外，根据所公开的主题，可以从方法的实施方式中省略本文描述的方法的一个或多个要素。

发送计算和通信设备100A或者接收计算和通信设备100B的实施方式(以及存储在其上并且/或者由此执行的算法、方法、指令等)可以用硬件、软件或其任何组合来实现。硬件可以包括例如计算机、知识产权(IP)核、专用集成电路(ASIC)、可编程逻辑阵列、光学处理器、可编程逻辑控制器、微码、微控制器、服务器、微处理器、数字信号处理器、或任何其它适合的电路。在权利要求中，术语“处理器”应该被理解为单独地或相结合地包含上述硬件中的任一个。术语“信号”和“数据”可互换地使用。另外，发送计算和通信设备100A或者接收计算和通信设备100B的各个部分不一定必须被以相同的方式来实施。

此外，在一种实施方式中，例如，可以使用计算机程序来实施发送计算和通信设备100A或者接收计算和通信设备100B，该计算机程序当被执行时执行本文描述的各个方法、算法和/或指令中的任一种。此外或可替代地，例如，可以利用专用计算机/处理器，所述专用计算机/处理器可以包含用于执行本文描述的方法、算法或指令中的任一种的专门硬件。

发送计算和通信设备100A以及接收计算和通信设备100B可以例如在实时视频系统中的计算机上实施。可替代地，发送计算和通信设备100A可以在服务器上实现，而接收计算和通信设备100B可以在与服务器分离的设备(例如手持通信设备)上实现。在这种情况下，发送计算和通信设备100A可以使用编码器400将内容编码成编码视频信号，并且将编码视频信号发送到通信设备。继而，通信设备然后可以使用解码器500对编码视频信号进行解码。可替换地，通信设备可以对在通信设备上本地存储的内容(诸如不是由发送计算和通信设备100A发送的内容)进行解码。其它合适的发送计算和通信设备100A以及接收计算和通信设备100B的实施方案是可用的。例如，接收计算和通信设备100B可以是通常固定的个人计算机，而不是便携式通信设备，和/或包括编码器400的设备也可以包括解码器500。

此外，本公开的实施现方式的一些或全部可以采取例如可以从计算机可用介质或计算机可读介质访问的计算机程序产品的形式。计算机可用介质或计算机可读介质可以是例如可以有形地包含、存储、通讯或者传输程序以用于由任何处理器使用或者连同任何处理器一起使用的任何设备。所述介质可以是例如电子、磁、光学、电磁或半导体设备。其它适合的介质也是可用的。

可以理解的是，可以以任何方便的形式来实施各方面。例如，可以通过适当的计算机程序来实施各方面，这些计算机程序可以在适当的载体介质上承载，该适当的载体介质可以是有形的载体介质(例如，磁盘)或无形的载体介质(例如，通信信号)。也可以使用适当的装置来实施各方面，所述适当的装置可以采取运行计算机程序的可编程计算机的形式，所述计算机程序被布置为实施本文公开的方法和/或技术。可以组合各方面，使得可以在另一方面中实施在一个方面的上下文中描述的特征。

已描述了上述实施方式以便容易理解本申请并且不限制本申请。相反，本申请旨在涵盖包括在所附权利要求书的范围内的各种修改和等同布置，该范围应被赋予在法律许可下的最广泛解释，以便涵盖法律所允许的所有这样的修改和等同结构。

Claims

1.一种方法，包括：

通过使用阿尔法通道预测来生成所述重构图像，其中通过使用阿尔法通道预测来生成所述重构图像包括：

获得用于参考第一颜色空间所表示的当前图像的当前像素的重构颜色通道值；

通过将所述重构颜色通道值转换到第二颜色空间，来获得用于所述当前像素的颜色空间转换颜色通道值；

通过使用所述颜色空间转换颜色通道值，来获得用于所述当前像素的阿尔法通道值的阿尔法通道下限；

生成用于所述当前像素的候选预测阿尔法值；

通过使用所述候选预测阿尔法值和所述阿尔法通道下限，来获得用于所述当前像素的调整后的预测阿尔法值；

通过使用所述调整后的预测阿尔法值，来生成用于所述当前像素的重构像素；以及

将所述重构像素包括在所述重构图像中；以及

输出所述重构图像。

2.根据权利要求1所述的方法，其中：

所述第一颜色空间是YUV颜色空间；

所述重构颜色通道值包括亮度通道值、第一色度通道值和第二色度通道值；以及

获得所述重构颜色通道值包括从编码比特流中解码残差颜色通道值。

3.根据权利要求1所述的方法，其中，所述第二颜色空间是RGB颜色空间，并且所述颜色空间转换颜色通道值包括红色通道值、绿色通道值和蓝色通道值。

4.根据权利要求3所述的方法，其中，获得所述阿尔法通道下限包括：

通过将所述红色通道值除以用于所述红色通道的定义最大值，来获得归一化红色通道值；

通过将所述绿色通道值除以用于所述绿色通道的定义最大值，来获得归一化绿色通道值；

通过将所述蓝色通道值除以用于所述蓝色通道的定义最大值，来获得归一化蓝色通道值；

识别在所述归一化红色通道值、所述归一化绿色通道值和所述归一化蓝色通道值当中的最大值；以及

将所述最大值乘以用于所述阿尔法通道的定义最大值的乘积识别为所述阿尔法通道下限。

5.根据权利要求1所述的方法，其中，生成所述候选预测阿尔法值包括：

识别用于预测所述候选预测阿尔法值的先前重构的上下文像素；以及

通过使用所述先前重构的上下文像素，来获得所述候选预测阿尔法值。

6.根据权利要求1所述的方法，其中，获得所述调整后的预测阿尔法值包括：

将所述候选预测阿尔法值和所述阿尔法通道下限中的最大值识别为所述调整后的预测阿尔法值。

7.一种方法，包括：

使用阿尔法通道预测来生成编码图像，其中使用所述阿尔法通道预测来生成所述编码图像包括：

从输入图像中识别当前像素，其中所述当前像素包括输入颜色通道值，其中所述输入颜色通道值是参照第一颜色空间来表示的，并且其中所述输入颜色通道值包括输入阿尔法通道值；

通过使用所述输入颜色通道值，来获得用于所述像素的预乘颜色通道值；

通过使用所述预乘颜色通道值，来获得用于所述像素的重构颜色通道值，其中，所述重构颜色通道值是参考第二颜色空间来表示的；

通过将所述重构颜色通道值颜色空间转换到所述第一颜色空间，来获得所述当前像素的颜色空间转换颜色通道值；

通过使用所述颜色空间转换颜色通道值，来获得用于所述当前像素的重构阿尔法通道值的阿尔法通道下限；

生成用于所述当前像素的候选预测阿尔法值；

获得从所述输入阿尔法通道值中减去所述调整后的预测阿尔法值的差作为残差阿尔法值；以及

将所述残差阿尔法值包括在输出比特流中；以及

输出所述输出比特流。

8.根据权利要求7所述的方法，其中，所述第二颜色空间是YUV颜色空间，并且所述重构颜色通道值包括亮度通道值、第一色度通道值和第二色度通道值。

9.根据权利要求7所述的方法，其中：

所述第一颜色空间是RGB颜色空间；

所述输入颜色通道值包括输入红色通道值、输入绿色通道值和输入蓝色通道值；

所述预乘颜色通道值包括预乘红色通道值、预乘绿色通道值和预乘蓝色通道值；以及

所述颜色空间转换颜色通道值包括颜色空间转换红色通道值、颜色空间转换绿色通道值和颜色空间转换蓝色通道值。

10.根据权利要求9所述的方法，其中，获得所述预乘颜色通道值包括：

获得将所述输入红色通道值乘以所述输入阿尔法通道值的乘积，作为所述预乘红色通道值；

获得将所述输入绿色通道值乘以所述输入阿尔法通道值的乘积，作为所述预乘绿色通道值；以及

获得将所述输入蓝色通道值乘以所述输入阿尔法通道值的乘积，作为所述预乘蓝色通道值。

11.根据权利要求9所述的方法，其中，获得所述阿尔法通道下限包括：

通过将所述颜色空间转换红色通道值除以用于所述红色通道的定义最大值，来获得归一化红色通道值；

通过将所述颜色空间转换绿色通道值除以用于所述绿色通道的定义最大值，来获得归一化绿色通道值；

通过将所述颜色空间转换蓝色通道值除以用于所述蓝色通道的定义最大值，来获得归一化蓝色通道值；

识别所述归一化红色通道值、所述归一化绿色通道值和所述归一化蓝色通道值当中的最大值；以及

12.根据权利要求7所述的方法，其中，获得所述重构颜色通道值包括：

将所述预乘颜色通道值颜色空间转换到所述第二颜色空间；

获得用于所述预乘颜色通道值的相应预测颜色通道值；

获得相应残差颜色通道值作为从所对应的预乘颜色通道值中减去所述预测颜色通道值的相应差；

有损地编码所述残差颜色通道值，以获得所编码的残差颜色通道值；以及

获得将所编码的残差颜色通道值与所对应的预测颜色通道值相加的相应加和，作为所述重构颜色通道值。

13.根据权利要求7所述的方法，其中，生成所述候选预测阿尔法值包括：

14.根据权利要求7所述的方法，其中，获得所述调整后的预测阿尔法值包括：

将所述候选预测阿尔法值和所述阿尔法通道下限当中的最大值识别为所述调整后的预测阿尔法值。

15.一种包括处理器的装置，所述处理器被配置为执行根据权利要求1至14中任一项所述的方法。