CN110915215A

CN110915215A - 使用神经网络的图块化图像压缩

Info

Publication number: CN110915215A
Application number: CN201880028540.7A
Authority: CN
Inventors: 米歇尔·科维尔; 达米恩·文森特; 戴维·查尔斯·米南; 绍拉伯·辛格; 黄圣晋; 尼古拉斯·约翰斯通; 乔尔·埃里克·绍尔; 乔治·丹·托代里奇
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-05-26
Filing date: 2018-05-29
Publication date: 2020-03-24
Anticipated expiration: 2038-05-29
Also published as: JP2020522153A; EP3603070A1; KR20190133044A; JP7225333B2; US11250595B2; US20200111238A1; KR102332476B1; JP6956803B2; JP2021192525A; WO2018218249A1; CN110915215B

Abstract

用于图像压缩和重构的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。一种图像编码器系统接收生成已经被划分为多个图块的输入图像的编码表示的请求，并且生成所述输入图像的所述编码表示。为了生成所述编码表示，所述系统使用空间上下文预测神经网络来处理每个图块的上下文，所述空间上下文预测神经网络已经被训练以处理输入图像的上下文并且生成作为所述输入图块的预测的输出图块。所述系统通过处理所述特定图块的所述上下文来确定所述特定图块与由所述空间上下文预测神经网络生成的所述输出图块之间的残差图像，并且通过使用编码器神经网络对所述残差图像进行编码来生成所述特定图块的二进制代码集。

Description

使用神经网络的图块化图像压缩

技术领域

本说明书涉及使用神经网络来压缩和重构图像。

背景技术

神经网络是采用一层或多层非线性单元来针对接收到的输入预测输出的机器学习模型。除了输出层之外，一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值通过接收到的输入生成输出。

一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从输入序列生成输出序列的神经网络。具体地，递归神经网络可以在计算当前时间步长的输出时使用来自先前时间步长的网络的部分或全部内部状态。递归神经网络的示例是包括一个或多个长短期记忆(LSTM)存储块的LSTM神经网络。每个LSTM存储块可以包括一个或多个单元(cell)，这些单元分别包括输入门、遗忘门和输出门，其允许单元存储单元的先前状态，例如，以用于生成电流激活或者被提供给LSTM神经网络的其他组件。

发明内容

本说明书描述了用于使用图块化深度网络进行图像压缩和重构的技术。这些技术大体上涉及将输入图像分割为图块，使用空间上下文来做出对每个图块内的像素值的初始预测以及对残差进行渐进编码。

大体上，本说明书中描述的主题的一个创新方面可以以包括图像压缩和重构的动作的方法来体现。该方面的其他实施例包括可以记录在一个或多个计算机存储设备上的对应计算机系统、装置和计算机程序，每个计算机系统、装置和计算机程序都被配置为执行该方法的动作。一个或多个计算机的系统被配置为执行特定操作或动作意味着该系统已经在其上安装了软件、固件、硬件或其组合，其在操作中使该系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括在由数据处理装置执行时使该装置执行操作或行动的指令。

可选地，前述和其他实施例可以分别单独地或组合地包括以下特征中的一个或多个。具体地，一个实施例组合地包括所有以下特征。

一种图像编码器系统可以接收生成已经被划分为图块的输入图像的编码表示的请求。该图像编码器系统然后生成输入图像的编码表示。编码表示包括用于每个图块的相应的二进制代码集。生成特定图块的编码表示可以包括：使用空间上下文预测神经网络来处理特定图块的上下文，该空间上下文预测神经网络已经被训练以处理输入图块的上下文以生成作为输入图块的预测的输出图块。上下文可以包括输入图像中与特定图块相邻的一个或多个图块。可以通过处理特定图块的上下文来确定特定图块与由空间上下文预测神经网络生成的输出图块之间的残差图像，并且可以通过使用编码器神经网络对残差图像进行编码来生成特定图块的二进制代码集。

可以通过使用数据压缩算法压缩编码表示中的二进制代码来压缩输入图像。该数据压缩算法可以是经训练的熵编码器。可以将已压缩的输入图像传输给图像解码器系统以对输入图像进行解压缩。

编码器神经网络可以是被配置为通过在每个时间步长进行以下来对残差进行编码的递归神经网络：接收时间步长内的编码器输入；以及处理编码器输入以生成时间步长内的二进制代码集。第一时间步长内的编码器输入可以是残差图像。在第一时间步长之后的时间步长内的编码器输入可以是(i)残差与(ii)解码器神经网络在前一时间步长从二进制代码集生成的重构之间的临时残差图像，该解码器神经网络是被配置为在每个时间步长接收包括时间步长内的二进制代码集的解码器输入并且处理解码器输入以在时间步长生成编码器输入的重构的递归神经网络。

生成特定图块的二进制代码集包括：在每个时间步长，从时间步长内的编码器输入的重构来确定是否已经满足在从已经在时间步长和任何先前的时间步长生成的二进制代码重构时的特定图块的质量阈值。

生成特定图块的二进制代码集可以包括：响应于确定已经满足质量阈值，使用已经生成的二进制代码作为输入图像的编码表示中的特定图块的二进制代码集。

生成特定图块的二进制代码集可以包括：在每个时间步长，确定在从在当前时间步长生成的二进制代码集重构特定图块时是否满足特定图块的质量阈值；以及响应于确定满足质量阈值，使用在当前时间步长针对特定图块生成的二进制代码集作为输入图像的编码表示中的特定图块的二进制代码集。

当特定图块不在输入图像的左边框或顶部边框时，上下文可以是在输入图像中的特定图块左边和上方的相邻图块。

当特定图块在输入图像的左边框而不在输入图像的顶部边框时，上下文可以是在特定图块上方的相邻图块和占位符上下文数据。

当特定图块在输入图像的左上角时，上下文可以是占位符上下文数据。

当特定图块在输入图像的顶部边框而不在输入图像的左上角时，上下文可以是在特定图块左边的相邻图块和占位符上下文数据。

另一实施例可以包括接收从输入图像的编码表示重构输入图像的请求，该输入图像可以被划分为图块，并且编码表示可以包括每个图块的相应的二进制代码集。可以通过使用空间上下文预测神经网络处理特定图块的上下文来针对特定图块生成输入图像的重构，该空间上下文预测神经网络已经被训练以处理输入图块的上下文以生成作为输入图块的初始重构图像的输出图块。上下文可以包括输入图像中与特定图块相邻的一个或多个图块的重构。可以通过使用解码器神经网络处理图块的二进制代码集来生成特定图块的残差重构图像，并且可以将初始重构图像与特定图块的残差重构图像组合以生成特定图块的最终重构。

生成重构可以包括：接收已压缩的输入图像；以及使用数据解压缩算法来对已压缩的输入图像进行解压缩以生成图块的相应的二进制代码集。

该数据解压缩算法可以是经训练的熵解码器。

特定图块的二进制代码集可以包括每个时间步长内的相应的二进制代码子集。解码器神经网络可以是被配置为通过在每个时间步长进行以下来生成残差的递归神经网络：处理时间步长内的二进制代码子集以生成时间步长重构残差图像。

生成重构残差图像可以包括：组合时间步长内的时间步长重构残差图像。

本说明书中描述的主题可以实施在特定实施例中，以便实现以下优点中的一个或多个。本文中描述的图像压缩和重构系统使用图块化卷积神经网络来将深度卷积神经网络的优点与比特率自适应组合。该系统使用图像图块的空间上下文预测数据与真实图像图块之间的残差来对图像进行编码和解码。该过程导致需要从编码器传输到解码器的数据更少，同时仍然产生高质量输出。具体地，给定图块可以使用更少的比特或不太复杂的比特串来表示，由于使用空间上下文预测器神经网络，并且因为压缩的比特仅需要表示残差而不是整个图块，所以可以将其压缩为更小的大小。

在传统的图像压缩技术中，本地信息共享会产生对附近二进制代码的依赖性，从而难以调整整个图像的比特率。现有的基于神经网络的图像压缩算法在每个图像上学习具有恒定空间比特率的量化表示。相比之下，通过使用所描述的图块化卷积神经网络的基于块的架构，图像压缩系统实现了分辨率的灵活性和本地信息共享，同时还大大简化了基于本地重构质量的比特率自适应的实施方式。

另外，由于模型是完全卷积的，所以在现有的神经网络压缩架构中，自适应比特分配很困难。如果利用存在的所有二进制代码训练这种网络，则丢失代码的重构可能会非常糟糕。

该系统通过共享来自每个图块内的二进制代码的信息来避免非常糟糕的重构。该策略允许在一个图块区域中降低比特率，而不会降低相邻图块的质量。该系统使用空间上下文预测神经网络、残差编码神经网络和残差解码神经网络来准确地重构图像细节并且预测跨对象边界的像素值。该系统利用了相对较远的像素之间的相关性，从而避免了对从一个图块到下一图块保持一致的视觉信息进行重新编码的成本。

另一优点是图块化自适应方法使得更容易以恒定的质量(例如，整个图像上类似的PSNR)对图像进行编码，这改善了主观评估。

在下面的附图和描述中陈述了本说明书的主题的一个或多个实施例的细节。主题的其他特征、方面和优点将通过描述、附图和权利要求而变得显而易见。

附图说明

图1示出了示例图像压缩和重构系统，该系统利用图块化卷积神经网络使用空间自适应方法来压缩和重构图像。

图2a示出了示例上下文补丁。

图2b示出了示例上下文补丁。

图2c示出了示例上下文补丁。

图2d示出了示例上下文补丁。

图3示出了示例空间上下文预测神经网络。

图4示出了示例残差编码器神经网络。

图5a图示了用于使用空间自适应方法压缩和重构图像的示例过程。

图5b图示了用于使用空间自适应方法压缩和重构图像的示例过程。

图6图示了用于使用空间自适应方法对已压缩的图像进行解码的示例过程。

在各个附图中，相同的附图标记和名称指示相同的元件。

具体实施方式

本说明书大体上描述了图像压缩和重构系统和方法，该系统和方法利用图块化卷积神经网络使用空间自适应方法来压缩和重构图像。

图像压缩是应用于数字图像以减少存储或传输数字图像的成本的一种数据压缩。该图像压缩可能是无损的或有损的。无损压缩允许通过压缩数据完全重构原始数据，而有损压缩则提供了重构原始数据的近似值。

示例图像压缩和重构系统利用图块化卷积神经网络使用基于块的空间自适应方法来进行有损图像压缩。

图1图示了示例图像压缩和重构系统100。图像压缩和重构系统100是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，在该系统中可以实施下面描述的系统、组件和技术。系统100使用图块化神经网络利用对质量敏感的比特率空间自适应来压缩输入图像104并且确定输入图像的图像重构。通过优先描述输入图像的更复杂或视觉上显著的区域，这种空间自适应允许该系统更有效地使用附加比特。尽管图1示出了系统的编码和解码组件作为同一系统的一部分，但是在一些实施方式中，这些组件可以是单独的系统并且位于单独的计算设备上。例如，在一个示例实施方式中，可以将编码组件(即，压缩输入图像所必需的那些组件)放置在服务器上，并且可以将解码组件(即，重构输入图像所必需的那些组件)放置在客户端设备上。

在操作期间，图像压缩和重构系统100获取要压缩的输入图像104，并且分割执行器106将图像分割为图块(tile)。例如，输入图像104可以被分割为图块，每个图块由32x 32个像素形成，或者被分割为任何其他合适数量的像素的图块。

然后，系统100逐图块地对图像104进行编码。

对于每个图块，空间上下文提供者108使用相邻图块作为空间上下文来创建“上下文补丁(patch)”。

图2a至图2d图示了示例64x 64上下文补丁200a至200d，其中，目标图块202的值尚未被处理。当特定图块202a不在输入图像的左边框或顶部边框时，如图2a所图示的，使用在输入图像中的特定图块的左边和上方的相邻图块204a、206a、208来创建空间上下文。当特定图块202b在输入图像的左边框而不在输入图像的左上角时，如图2b所图示的，使用特定图块202b上方的相邻图块204a来创建空间上下文。图2c图示了当特定图块202c在输入图像的左上角时，利用占位符上下文数据创建特定图块202c的空间上下文。图2d图示了当特定图块202d在输入图像的顶部边框而不在输入图像的左上角时，使用在特定图块205d的左边的相邻图像和占位符上下文数据来创建空间上下文。

参照回到图1，空间上下文预测器108是被训练以处理输入图块的上下文以生成作为输入图块的预测的输出图块的神经网络。例如，空间上下文预测器108可以接收输入图块的图像上下文补丁，例如，图2a至2d所图示的64x 64像素上下文补丁，并且生成输入图块的预测。下面将相对于图3更详细地讨论空间上下文预测器。

然后，系统100使用残差网络130来填充重构图像细节。残差网络130是基于递归自编码器的深度网络。残差网络130包括编码器110和解码器114。在G.Toderici、D.Vincent、N.Johnston、S.J.Hwang、D.Minnen、J.Shor和M.Covell于2016年发表在CoRR第1卷abs/1608.05148上的“Full resolution image compression with recurrent neuralnetworks”中描述了编码器110和解码器114神经网络的示例递归架构，其全部内容通过引用并入本文，特别是关于编码器和解码器神经网络的递归架构。

针对每个图块，编码器110对真实图像图块与初始预测之间的残差进行编码。在一些实施方式中，编码器迭代地执行编码。在每次迭代中，编码器110接收该迭代的编码器输入，并且对编码器输入进行编码以针对输入图像的每个图块生成表示该图块的编码版本的二进制代码集。在第一次迭代中，编码器输入是真实图像图块与初始预测之间的残差。编码器110对残差进行编码以创建二进制代码，并且使用解码器114来从该二进制重构输入以捕获先前迭代的剩余残差。解码后的像素值被存储122，并且用作用于预测后续图块的上下文。在第一次迭代之后的每次迭代中，编码器输入是来自前一次迭代的残差图块。通过重构该图块并且捕获前一次迭代的剩余残差，该系统提供了原始输入的连续更好的近似值。

残差网络130迭代地继续编码过程，直到图像输入104的所有图块都已经被处理为止。图像压缩和重构系统100然后提供图像的压缩二进制140。

在一些实施方案中，一旦图块被编码，残差网络就可以将编码后的残差142(即，二进制代码或压缩后的二进制代码)发送给解码器128以进行解码。图像解码按栅格顺序逐图块地进行。图像压缩和重构系统100在图块的上下文上运行解码器的空间上下文预测器124以获得预测图块。可以使用已经重构的图块150来获得上下文。解码器128迭代地对二进制代码进行解码，以从空间上下文预测器124获得实际解码的图块与预测图块之间的残差。然后，组合器132将解码后的残差与预测图块组合以获得图块150的完整重构。通过在不提高比特率的情况下跨图块边界共享信息来避免图块之间的边界伪像的可能出现，空间上下文预测器124可能是有利的。本质上，上下文预测神经网络可以生成与其上下文很好地啮合的像素，并且由于图块的预测像素在上下文像素附近更加详细和准确，所以该网络可以起到使边界伪影最小化的作用。解码器128是神经网络。在G.Toderici、D.Vincent、N.Johnston、S.J.Hwang、D.Minnen、J.Shor和M.Covell于2016年发表在CoRR第1卷abs/1608.05148上的“Full resolution image compression with recurrent neural networks”中描述了解码器神经网络的示例递归架构，其全部内容通过引用并入本文，特别是关于解码器神经网络的递归架构。

图像压缩和重构系统100还包括用于空间上下文预测器108的训练引擎116和用于残差编码网络130的训练引擎118。依次训练空间上下文预测器108和残差编码网络130。训练空间上下文预测器108以处理输入图块的上下文以生成作为输入图块的预测的输出图块。训练残差编码器网络以在运行空间上下文预测器之后压缩每个图块内的残差。编码器网络学习对在空间上下文预测之后剩余的特定像素误差进行编码。每个训练过程可以使用32个图像的小批量大小和0.5的初始学习率，遵循步长大小为20,000的指数衰减时间表(B＝0.95)。在一些实施方式中，可以一起训练两个网络。在其他实施方式中，可以单独训练两个网络。

训练数据可以是上下文图像补丁，例如，图2a至2d所图示的64x64图像补丁。这些图像补丁可以从图像集合中裁剪。训练程序可能类似于在G.Toderici、D.Vincent、N.Johnston、S.J.Hwang、D.Minnen、J.Shor和M.Covell于2016年发表在CoRR第1卷abs/1608.05148上的“Full resolution image compression with recurrent neuralnetworks”中描述的训练程序，其全部内容通过引用并入本文，特别是关于训练程序。

尽管图1示出了编码和解码组件以及空间上下文预测器作为同一系统的一部分，但是在一些实施方式中，这些组件可以是单独的系统并且位于单独的计算设备上。例如，在实施例中，编码器110可以位于服务器上，并且解码器114可以位于客户端设备上。空间上下文预测器108可以在第三计算设备上。

图3示出了空间上下文预测器网络的示例架构300。空间上下文预测器网络使用跨步卷积从上下文图块提取特征，并且使用分数阶卷积来生成目标图块的RGB预测。

空间上下文预测器获取(3通道)上下文补丁302作为输入。预测器使用四个卷积层310、311、312、313处理输入。这些层中的每一个都学习具有降低的分辨率和更高深度的特征图。然后，预测器使用逐深度卷积层320然后是逐点卷积层321来实施通道全连接层，如Deepak Pathak、Philipp Krahenbuhl、Jeff Donahue、Trevor Darrell和Alexei Efros在于2016年发表在CVPR上的“Context encoders:Feature learning by Inpainting”中所描述的，其全部内容通过引用并入本文，特别是关于通道全连接层。该层允许信息在整个图块上传播，而不会产生全连接层的全部二次成本。

在网络的最后阶段中，预测器使用分数阶卷积层330、331、332来递增地提高空间分辨率，直到最后一层从先前的32x 32x 64特征图生成3通道图像以产生目标预测340为止。

然后，该系统确定实际图块与由空间上下文预测神经网络生成的目标预测340之间的残差图像。残差网络处理残差图像图块以压缩每个图块内的残差。

图4示出了压缩和重构残差图像的示例残差网络400。残差网络400使用递归自编码器架构，其中，每个层都具有定义的高度、宽度和深度。空间上下文预测器可以为每个新图块生成准确的低频数据。在空间上下文预测器无法恢复许多图像细节的情况下，可以通过利用递归自编码器架构压缩和重构残差图像来提高重构质量。在每次迭代中，残差编码器从输入提取特征并且将其量化以生成128位。图4示出了四次迭代。

在每个时间步长，残差编码器网络接收该时间步长内的编码器输入，并且使用编码器110处理该输入以生成该时间步长内的二进制代码集。在第一时间步长内，编码器输入是空间上下文预测神经网络的目标预测与输入图像的实际图块之间的残差图像。

该系统通过使用数据压缩算法(例如，训练后的熵编码器)压缩编码表示中的二进制代码来压缩输入图像。该系统可以将压缩后的输入图像传输给图像解码器以对输入图像进行解压缩。

解码器114学习从这些二进制代码重构输入。

重构可以包括对压缩后的二进制代码进行解压缩以生成图块的相应的二进制代码集。每次迭代都尝试捕获来自前一次迭代(P_i)的剩余残差，所以迭代输出之间的总和提供了原始输入的连续更好的近似值。

在第一时间步长之后的时间步长内的编码器输入是(i)残差与(ii)解码器神经网络在前一时间步长从二进制代码集生成的重构之间的临时残差图像。

网络的编码器部分使用一个卷积层来从输入的残差图像提取特征，然后使用三个卷积LSTM层来降低空间分辨率并且生成特征图。在所有迭代之间共享权重，并且递归连接允许信息从一次迭代传播到下一次迭代。

二进制瓶颈层402使用1x 1卷积然后是tanh激活函数来将输入特征映射到(-1,1)。该系统从tanh(P(b＝1)＝0.5–(1+tanh(x)))的输出采样，以鼓励在参数空间中进行探索。Raiko、M.Berglund、G.Alain和L.Dinh在于2015年发表在ICLR上的“Techniques forlearning binary stochastic feedforward neural networks”中描述了示例采样的更多细节，其有关采样的内容通过引用并入本文。当该系统将训练后的网络应用于真实图像时，该系统确定性地进行二值化(b＝符号(tanh(x))，当x＝0时，b＝1)。

尽管未在图4中图示，但是解码器114具有与编码器110相同的结构。然而，解码器114使用分数阶卷积来提高每个特征图的分辨率。最后一层获得解码器的输出，该输出是形状为32x 32x 64的特征图，并且使用tanh激活来将特征映射到范围[-1,1]内的三个值。然后将输出缩放，裁剪和量化为8位RGB值(R＝round(min(max(R¹*142+128,0),255))))，该系统缩放142而不是128，以允许网络更容易地预测极端像素值，而无需以极小的梯度进入tanh范围，这可能导致学习得非常慢。

该系统通过确定当从在当前时间步长或任何先前的时间步长已经生成的二进制代码重构特定图块时是否满足特定图块的质量阈值来在每个时间步长生成特定图块的二进制代码集。质量阈值可以是预定阈值，例如，代表重构图像的目标质量。如果已经满足质量阈值，则该系统使用已经生成的二进制代码来作为输入图像的编码表示中的特定图块的二进制代码集。通过残差编码器促进这种自适应方法，该残差编码器是可以在任何步长之后停止的递归网络。由于每个步长都生成附加比特，所以该机制允许在不同图块之间进行自适应比特分配，因此可以允许单个神经网络以不同的比特率生成编码。

图5是用于利用图块化卷积神经网络使用空间自适应方法来压缩和重构图像的示例过程500的流程图。为了方便起见，过程500将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行，并且根据本说明书适当编码。例如，适当编程的图像压缩和重构系统(例如，图1的图像压缩和重构系统100)可以执行过程500。

如图5a和5b所图示的，图像压缩和重构系统接收生成已经被划分为图块的输入图像的编码表示的请求502。该系统然后生成输入图像的编码表示，其包括用于输入图像的每个图块的相应的二进制代码集504。该系统通过首先使用空间上下文预测神经网络处理特定图块的上下文来生成编码表示506。如上所述，空间上下文预测神经网络被训练以处理输入图块的上下文以生成作为输入图块的预测的输出图块。该系统然后确定特定输入图块与由空间上下文预测神经网络生成的输出图块之间的残差图像507。该系统通过使用编码器神经网络对残差图像进行编码来生成特定图块的二进制代码集508。上面相对于图4描述了该编码过程。

图6是用于使用空间自适应方法对压缩图像进行解码的示例过程600的流程图。为了方便起见，过程600将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行，并且根据本说明书适当编程。例如，适当编程的图像压缩和重构系统(例如，图1的图像压缩和重构系统100)可以执行过程600。

如图6所图示的，图像压缩和重构系统确定用于已经解码(或重构)的特定图块的上下文图块602。该系统然后使用空间上下文预测网络来处理上下文图块以生成目标图块的初始重构604。该系统通过使用解码器神经网络处理特定图块的二进制代码来生成残差重构图像606。该系统然后将残差重构图像与初始重构组合以获得最终重构图块608。

可以在数字电子电路系统、有形地体现的计算机软件或固件、计算机硬件(包括在本说明书中所公开的结构及其结构等效物)或者它们中的一个或多个的组合中实施本说明书中描述的主题和功能操作的实施例。可以将本说明书中描述的主题的实施例实施为一个或多个计算机程序，即，编码在有形的非暂时性存储介质上以由数据处理装置执行或者以控制该数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或串行存取存储器设备或者它们中的一个或多个的组合。可替代地或者另外，程序指令可以编码在人工生成的传播信号(例如，机器生成的电气、光学或者电磁信号，生成该信号是为了对用于传输至合适的接收器装置以供数据处理装置执行的信息进行编码)上。

术语“数据处理装置”是指数据处理硬件，并且包含了用于处理数据的所有种类的装置、设备和机器，该所有种类的装置、设备和机器包括：例如，可编程处理器、计算机或者多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路系统，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合的代码。

可以用任何形式的编程语言(包括：编译语言或解释语言或者陈述性语言或程序语言)来编写计算机程序(这也可以称为或者描述为程序、软件、软件应用、应用、模块、软件模块、脚本或代码)，并且可以按照任何形式(包括：作为独立式程序或者作为模块、组件、子例程或适合用于计算环境的其他单元)来部署计算机程序。程序可以但并非必须与文件系统中的文件相对应。可以将程序存储在文件的保持其他程序或者数据(例如，存储在标记语言文档中的一个或多个脚本)的一部分中，或者存储在专用于所探讨中的程序的单个文件中，或者存储在多个协作文件(例如，存储一个或多个模块、子程序或者部分代码的文件)中。可以将计算机程序部署为在一个计算机上执行或者在位于一个站点处或分布在多个站点上并且通过数据通信网络互相连接的多个计算机上执行。

可以通过一个或多个可编程计算机来执行本说明书中描述的过程和逻辑流程，该一个或多个可编程计算机执行一个或多个计算机程序以通过操作输入数据并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统(例如，FPGA或ASIC)或者专用逻辑电路系统和一个或多个编程计算机的组合执行。

适合执行计算机程序的计算机可以基于通用或专用的微处理器或者两者兼具或者任何其他类型的中央处理单元。通常，中央处理单元将接收来自只读存储器或者随机存取存储器或者两者兼具的指令和数据。计算机的必要元件是用于履行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路系统补充或者可以并入到该专用逻辑电路系统中。通常，计算机还将包括用于存储数据的一个或多个海量存储设备(例如，磁盘、磁光盘或者光盘)，或者计算机可操作地耦合以接收来自该海量存储设备的数据或者将数据传输至该海量存储设备或者进行两者。然而，计算机无需具有这种设备。而且，计算机可以嵌入到另一设备中，例如，仅举数例，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或者便携式存储设备(例如，通用串行总线(USB)闪存驱动)。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括：例如，半导体存储器设备(例如，EPROM、EEPROM和闪速存储器设备)、磁盘(例如，内部硬盘或者可移动盘)、磁光盘以及CD-ROM盘和DVD-ROM盘。

为了提供与用户的交互，可以在计算机上实施本说明书中描述的主题的实施例，该计算机具有：用于向用户显示信息的显示设备，例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器；以及键盘和指向设备，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向设备来将输入提供给计算机。其他种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以以任何形式(包括声学输入、语音输入或者触觉输入)来接收来自用户的输入。另外，计算机可以通过将文档发送到用户所使用的设备并且接收来自该设备的文档(例如，通过响应于从网络浏览器接收的请求来将网页发送至在用户的设备上的网络浏览器)来与用户交互。而且，计算机可以通过将文本消息或其他形式的消息发送给运行消息应用的个人设备(例如，智能手机)并且接收来自用户的响应消息作为回应来与用户交互。

可以将本说明书中描述的主题的实施例实施在包括后端组件的计算系统(例如，作为数据服务器)、或者包括中间件组件的计算系统(例如，应用服务器)、或者包括前端组件的计算系统(例如，具有图形用户界面、网络浏览器或应用的客户端计算机，用户可以通过该图形用户界面、该网络浏览器或该应用来与本说明书中描述的主题的实施方式交互)、或者包括一个或多个这种后端组件、中间件组件或前端组件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的组件相互连接。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。在一些实施例中，服务器将数据(例如，HTML页面)传输给用户设备(例如，为了向与设备交互的用户显示数据并且接收来自该用户的用户输入)，该设备充当客户端。在用户设备处生成数据，例如，用户的结果。

除了所附权利要求的实施例和上述实施例之外，以下带编号的实施例也具有创新性：

虽然本说明书包含了许多具体实施细节，但是不应该将这些细节解释为对任何发明或者可能被要求的内容的范围的限制，而是作为可以针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征还可以组合地实施在单个实施例中。相反，在单个实施例的上下文中描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。而且，虽然上文可以将特征描述为以某些组合的方式起作用，甚至描述为最初要求这样，但是来自所要求的组合的一个或多个特征在某些情况下可以从组合中切除，并且所要求的组合可以针对子组合或者子组合的变型。

同样地，虽然在附图中按照特定顺序描绘了操作，但是不应该将其理解为需要按照所示的特定顺序或者按照相继顺序来执行这种操作，或者执行所有图示的操作以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。而且，不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中都需要这种分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

实施例1是一种方法，该方法包括：通过包括一个或多个计算机的图像编码器系统，接收生成已经被划分为多个图块的输入图像的编码表示的请求；以及通过图像编码器系统，生成输入图像的编码表示，其中，编码表示包括用于多个图块中的每一个的相应的二进制代码集，以及其中，该生成包括：针对多个图块中的特定图块，使用空间上下文预测神经网络来处理特定图块的上下文，该空间上下文预测神经网络已经被训练以处理输入图块的上下文以生成作为输入图块的预测的输出图块，其中，上下文包括输入图像中与特定图块相邻的一个或多个图块；通过处理特定图块的上下文来确定特定图块与由空间上下文预测神经网络生成的输出图块之间的残差图像；以及通过使用编码器神经网络对残差图像进行编码来生成特定图块的二进制代码集。

实施例2是实施例1的方法，进一步包括：通过使用数据压缩算法压缩编码表示中的二进制代码来压缩输入图像。

实施例3是实施例2的方法，其中，数据压缩算法是经训练的熵编码器。

实施例4是实施例2或3中任一项的方法，进一步包括：将已压缩的输入图像传输给图像解码器系统以对该输入图像进行解压缩。

实施例5是实施例1至4中任一项的方法，其中，编码器神经网络是被配置为通过在多个时间步长中的每个时间步长进行以下来对残差进行编码的递归神经网络：接收时间步长内的编码器输入；以及处理编码器输入以生成时间步长内的二进制代码集。

实施例6是实施例5的方法，其中，多个时间步长中的第一时间步长内的编码器输入是残差图像。

实施例7是实施例5或6中任一项的方法，其中，多个时间步长中在第一时间步长之后的时间步长内的编码器输入是(i)残差与(ii)解码器神经网络在前一时间步长从二进制代码集生成的重构之间的临时残差图像，其中，解码器神经网络是被配置为在多个时间步长中的每个时间步长接收包括时间步长内的二进制代码集的解码器输入并且处理解码器输入以在时间步长生成编码器输入的重构的递归神经网络。

实施例8是实施例7的方法，其中，生成特定图块的二进制代码集包括：在多个时间步长中的每个时间步长，从时间步长内的编码器输入的重构确定是否已经满足在从已经在时间步长和任何先前的时间步长生成的二进制代码重构时的特定图块的质量阈值。

实施例9是实施例8的方法，其中，生成特定图块的二进制代码集包括：响应于确定已经满足质量阈值，使用已经生成的二进制代码作为输入图像的编码表示中的特定图块的二进制代码集。

实施例10是实施例1至6中任一项的方法，其中，生成特定图块的二进制代码集包括：在多个时间步长中的每个时间步长，确定在从在当前时间步长生成的二进制代码集重构特定图块时是否已经满足特定图块的质量阈值；以及响应于确定满足质量阈值，使用在当前时间步长针对特定图块生成的二进制代码集来作为输入图像的编码表示中的特定图块的二进制代码集。

实施例11是实施例1至10中任一项的方法，其中，当特定图块不在输入图像的左边框或顶部边框时，上下文是在输入图像中的特定图块左边和上方的相邻图块。

实施例12是实施例11的方法，其中，当特定图块在输入图像的左边框而不在输入图像的左上角时，上下文是在特定图块上方的相邻图块和占位符上下文数据。

实施例13是实施例12的方法，其中，当特定图块在输入图像的左上角时，上下文是占位符上下文数据。

实施例14是实施例11至13中任一项的方法，其中，当特定图块在输入图像的顶部边框而不在输入图像的左上角时，上下文是在特定图块左边的相邻图块和占位符上下文数据。

实施例15是一种方法，该方法包括：通过包括一个或多个计算机的图像解码器系统，接收从输入图像的编码表示重构输入图像的请求，其中，输入图像已经被划分为多个图块，以及其中，编码表示包括用于多个图块中的每一个的相应的二进制代码集；以及通过图像解码器系统，生成输入图像的重构，其中，该生成包括：针对多个图块中的特定图块，使用空间上下文预测神经网络来处理特定图块的上下文，该空间上下文预测神经网络已经被训练以处理输入图块的上下文以生成作为输入图块的初始重构图像的输出图块，其中，上下文包括输入图像中与特定图块相邻的一个或多个图块的重构；通过使用解码器神经网络处理图块的二进制代码集来生成特定图块的残差重构图像；以及组合初始重构图像和特定图块的残差重构图像以生成特定图块的最终重构。

实施例16是实施例15的方法，其中，生成重构进一步包括：接收已压缩的输入图像；以及使用数据解压缩算法对已压缩的输入图像进行解压缩以生成图块的相应的二进制代码集。

实施例17是实施例16的方法，其中，数据解压缩算法是经训练的熵解码器。

实施例18是实施例15至17中任一项的方法，其中，特定图块的二进制代码集包括多个时间步长中的每个时间步长内的相应的二进制代码子集，以及其中，解码器神经网络是，该递归神经网络被配置为通过在多个时间步长中的每个时间步长进行以下来生成残差的递归神经网络：处理时间步长内的二进制代码子集以生成时间步长重构残差图像。

实施例19是实施例18的方法，其中，生成重构残差图像包括：组合多个时间步长内的时间步长重构残差图像。

实施例20是实施例15至19中任一项的方法，其中，当特定图块不在输入图像的左边框或顶部边框时，上下文是在输入图像中的特定图块左边和上方的相邻图块的重构。

实施例21是实施例20的方法，其中，当特定图块在输入图像的左边框而不在输入图像的左上角时，上下文是在特定图块上方的相邻图块的重构和占位符上下文数据。

实施例22是实施例21的方法，其中，当特定图块在输入图像的左上角时，上下文是占位符上下文数据。

实施例23是实施例20至22中任一项的方法，其中，当特定图块在输入图像的顶部边框而不在输入图像的左上角时，上下文是在特定图块左边的相邻图块的重构和占位符上下文数据。

实施例24是一种包括一个或多个计算机以及存储指令的一个或多个存储设备的系统，该指令在由一个或多个计算机执行时使一个或多个计算机执行实施例1至23中任一项的相应方法的操作。

实施例25是一种存储指令的一个或多个计算机存储介质，该指令在由一个或多个计算机执行时使一个或多个计算机执行实施例1至23中任一项的相应方法的操作。

已经描述了本主题的特定实施例。其他实施例在以下权利要求的范围内。例如，在权利要求中叙述的动作可以按照不同的顺序来执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或相继顺序来实现期望的结果。在一些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种方法，包括：

通过包括一个或多个计算机的图像编码器系统，接收生成已经被划分为多个图块的输入图像的编码表示的请求；以及

通过所述图像编码器系统，生成所述输入图像的所述编码表示，其中，所述编码表示包括用于所述多个图块中的每一个图块的相应的二进制代码集，以及其中，所述生成包括：针对所述多个图块中的特定图块：

使用空间上下文预测神经网络来处理所述特定图块的上下文，所述空间上下文预测神经网络已经被训练以处理输入图块的上下文以生成作为所述输入图块的预测的输出图块，其中，所述上下文包括所述输入图像中与所述特定图块相邻的一个或多个图块；

通过处理所述特定图块的所述上下文来确定所述特定图块与由所述空间上下文预测神经网络生成的所述输出图块之间的残差图像；以及

通过使用编码器神经网络对所述残差图像进行编码来生成所述特定图块的所述二进制代码集。

2.根据权利要求1所述的方法，进一步包括：

通过使用数据压缩算法压缩所述编码表示中的所述二进制代码来压缩所述输入图像。

3.根据权利要求2所述的方法，其中，所述数据压缩算法是经训练的熵编码器。

4.根据权利要求2或3中任一项所述的方法，进一步包括：

将已压缩的输入图像传输给图像解码器系统，以对所述输入图像进行解压缩。

5.根据权利要求1至4中任一项所述的方法，其中，所述编码器神经网络是递归神经网络，所述递归神经网络被配置为在多个时间步长中的每个时间步长中，通过以下操作来对所述残差进行编码：

接收所述时间步长内的编码器输入；以及

处理所述编码器输入以生成所述时间步长内的二进制代码集。

6.根据权利要求5所述的方法，其中，所述多个时间步长中的第一时间步长内的所述编码器输入是所述残差图像。

7.根据权利要求5或6中任一项所述的方法，其中，所述多个时间步长中在所述第一时间步长之后的时间步长内的所述编码器输入是(i)所述残差与(ii)由解码器神经网络在前一时间步长从所述二进制代码集生成的重构之间的临时残差图像，其中，所述解码器神经网络是递归神经网络，所述递归神经网络被配置为：在所述多个时间步长中的每个时间步长中接收包括所述时间步长内的所述二进制代码集的解码器输入，以及处理所述解码器输入以在所述时间步长中生成所述编码器输入的重构。

8.根据权利要求7所述的方法，其中，生成所述特定图块的所述二进制代码集包括：在所述多个时间步长中的每个时间步长中：

根据所述时间步长内的所述编码器输入的所述重构，确定在从已经在所述时间步长中和任何先前的时间步长中生成的所述二进制代码重构时是否已经满足所述特定图块的质量阈值。

9.根据权利要求8所述的方法，其中，生成所述特定图块的所述二进制代码集包括：

响应于确定已经满足所述质量阈值，使用已经生成的二进制代码作为所述输入图像的所述编码表示中的所述特定图块的所述二进制代码集。

10.根据权利要求1至6中任一项所述的方法，其中，生成所述特定图块的所述二进制代码集包括：在多个时间步长中的每个时间步长中：

确定在从在当前时间步长中生成的所述二进制代码集重构所述特定图块时是否已经满足所述特定图块的质量阈值；以及

响应于确定满足所述质量阈值，使用在所述当前时间步长中针对所述特定图块生成的所述二进制代码集作为所述输入图像的所述编码表示中的所述特定图块的所述二进制代码集。

11.根据权利要求1至10中任一项所述的方法，其中，当所述特定图块不在所述输入图像的左边框或顶部边框时，所述上下文是在所述输入图像中的所述特定图块左边和上方的相邻图块。

12.根据权利要求11所述的方法，其中，当所述特定图块在所述输入图像的所述左边框而不在所述输入图像的左上角时，所述上下文是在所述特定图块上方的相邻图块和占位符上下文数据。

13.根据权利要求12所述的方法，其中，当所述特定图块在所述输入图像的所述左上角时，所述上下文是占位符上下文数据。

14.根据权利要求11至13中任一项所述的方法，其中，当所述特定图块在所述输入图像的顶部边框而不在所述输入图像的所述左上角时，所述上下文是在所述特定图块左边的相邻图块和占位符上下文数据。

15.一种方法，包括：

通过包括一个或多个计算机的图像解码器系统，接收从输入图像的编码表示重构所述输入图像的请求，其中，所述输入图像已经被划分为多个图块，以及其中，所述编码表示包括用于所述多个图块中的每一个图块的相应的二进制代码集；以及

通过所述图像解码器系统，生成所述输入图像的重构，其中，所述生成包括：针对所述多个图块中的特定图块：

使用空间上下文预测神经网络来处理所述特定图块的上下文，所述空间上下文预测神经网络已经被训练以处理输入图块的上下文以生成作为所述输入图块的初始重构图像的输出图块，其中，所述上下文包括所述输入图像中与所述特定图块相邻的一个或多个图块的重构；

通过使用解码器神经网络处理所述图块的所述二进制代码集来生成所述特定图块的残差重构图像；以及

组合所述初始重构图像和所述特定图块的所述残差重构图像以生成所述特定图块的最终重构。

16.根据权利要求15所述的方法，其中，生成所述重构进一步包括：

接收已压缩的输入图像；以及

使用数据解压缩算法对已压缩的输入图像进行解压缩以生成所述图块的所述相应的二进制代码集。

17.根据权利要求16所述的方法，其中，所述数据解压缩算法是经训练的熵解码器。

18.根据权利要求15至17中任一项所述的方法，其中，所述特定图块的所述二进制代码集包括多个时间步长中的每个时间步长内的相应的二进制代码子集，以及其中，所述解码器神经网络是递归神经网络，所述递归神经网络被配置为在所述多个时间步长中的每个时间步长中，通过以下操作来生成所述残差：

处理所述时间步长内的所述二进制代码子集以生成时间步长重构残差图像。

19.根据权利要求18所述的方法，其中，生成所述重构残差图像包括：

组合所述多个时间步长内的所述时间步长重构残差图像。

20.根据权利要求15至19中任一项所述的方法，其中，当所述特定图块不在所述输入图像的左边框或顶部边框时，所述上下文是在所述输入图像中的所述特定图块左边和上方的相邻图块的重构。

21.根据权利要求20所述的方法，其中，当所述特定图块在所述输入图像的所述左边框而不在所述输入图像的左上角时，所述上下文是占位符上下文数据和在所述特定图块上方的所述相邻图块的重构。

22.根据权利要求21所述的方法，其中，当所述特定图块在所述输入图像的所述左上角时，所述上下文是占位符上下文数据。

23.根据权利要求20至22中任一项所述的方法，其中，当所述特定图块在所述输入图像的顶部边框而不在所述输入图像的所述左上角时，所述上下文是占位符上下文数据和在所述特定图块左边的所述相邻图块的重构。

24.一种包括一个或多个计算机以及存储指令的一个或多个存储设备的系统，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至23中任一项所述的相应方法的操作。

25.一种存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至23中任一项所述的相应方法的操作。