CN115022637A

CN115022637A - 一种图像编码方法、图像解压方法以及装置

Info

Publication number: CN115022637A
Application number: CN202210447177.0A
Authority: CN
Inventors: 康宁; 仇善召; 张鸣天; 张世枫; 李震国
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-09-06
Also published as: WO2023207836A1

Abstract

本申请提供了人工智能领域中涉及计算机视觉的一种图像编码方法、图像解压方法以及装置，用于结合自回归模型和自编码模型的输出进行编码，降低所需模型的大小，提高编解码效率。该图像编码方法包括：将输入图像作为自回归模型的输入，输出第一图像；获取第一图像和输入图像之间的残差，得到第一残差图像；并且，还将输入图像作为自编码模型的输入，输出隐变量和第一残差分布，隐变量包括从输入图像中提取到的特征，第一残差分布包括自编码模型输出的输入图像中各个像素点对应的残差值；对第一残差图像和第一残差分布进行编码，得到残差编码数据；对隐变量进行编码，得到隐变量编码数据，隐变量编码数据和残差编码数据用于解压后得到输入图像。

Description

一种图像编码方法、图像解压方法以及装置

技术领域

本申请涉及图像处理领域，尤其涉及一种图像编码方法、图像解压方法以及装置。

背景技术

图像在各个领域使用广泛，在大量场景中都可能涉及到图像的传输或保存等。且随着图像的分辨率越高，在保存图像时所需要的存储空间消耗也就越多，在传输图像时所需的带宽也就越高，传输效率也就越低。因此，通常，为了便于图像的传输或者保存，可以对图像进行压缩，从而降低图像所占的比特数量，进而减少保存图像所需的存储空间以及传输图像所需的带宽。

例如，在一些常用的图像压缩方式中，可以采用熵编码的方式来进行图像压缩，如常用的熵编码算法有霍夫曼编码，算术编码，ANS编码等来进行图像压缩。然而，多种熵编码方式的压缩率均已达到最优，很难再进一步提高压缩率。因此，如何提高编解码效率，成为亟待解决的问题。

发明内容

本申请提供一种图像编码方法、图像解压方法以及装置，用于结合自回归模型和自编码模型的输出进行编码，降低所需模型的大小，提高编解码效率。

有鉴于此，第一方面，本申请提供一种图像编码方法，包括：将输入图像作为自回归模型的输入，输出第一图像；获取第一图像和输入图像之间的残差，得到第一残差图像；将输入图像作为自编码模型的输入，输出隐变量和第一残差分布，隐变量包括从输入图像中提取到的特征，第一残差分布包括自编码模型预测的用于表示输入图像中各个像素点和第一残差图像中各个像素点对应的残差值；对第一残差图像和第一残差分布进行编码，得到残差编码数据；对隐变量进行编码，得到隐变量编码数据，隐变量编码数据和残差编码数据用于解压后得到输入图像。

因此，本申请中，结合了自回归模型与自编码模型的输出结果进行编码，可以将自编码与自回归模型都控制到很小，避免了自编码模型的网络过大造成的推理时间过长的问题，实现高效的图像压缩。并且，本申请提供的方法中，全流程均可基于AI芯片的AI无损压缩实现，包括AI模型及熵编码，避免了系统内存与AI芯片内存的传输问题，提高编码效率。

在一种可能的实施方式中，前述的对第一残差图像和第一残差分布进行编码，得到残差编码数据，包括：将第一残差图像和第一残差分布作为半动态熵编码器的输入，输出残差编码数据，该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种，即该半动态熵编码器中不包括乘、除或取余运算等耗时较长运算，即该半动态熵编码器中可以仅包括简单的加减运算，从而可以实现高效编码。

因此，本申请实施方式中，可以对残差图像进行半动态熵编码，以有限种分布方式进行编码，相对于动态熵编码减少了乘、除以及取余运算等耗时较多的运损，大大提高了编码效率。

在一种可能的实施方式中，该半动态熵编码器可以是对动态上编码器进行转换得到。具体地，可以对动态熵编码器的运算进行近似处理，如将动态熵编码器的运算替换为近似运算，减少或者去除乘、除、取余等运算，随后还可以进行变换处理，对运算进行变换，从而将所有耗时超过一定时长的运算(如剩余的取余、乘以及除等运损)转化为表格存取，及加、减、位等轻量级运算，得到本申请提供的半动态熵编码器。可以理解为，该半动态熵编码器可以是对动态熵编码器中的一些运算进行替换或者转换得到的熵编码器，使用该半动态熵编码器进行熵编码时，即可使用简单的运算，如加、减、位运算等高效编码的运算，从而实现高效编码。

在一种可能的实施方式中，前述的对隐变量进行编码，得到残差编码数据，可以包括：将隐变量作为静态熵编码器的输入，得到隐变量编码数据。

因此，本申请实施方式中，可以对从输入图像中提取到的特征进行静态熵编码，可以高效地实现编码。

在一种可能的实施方式中，自编码模型可以包括编码模型和解码模型，将输入图像作为自编码模型的输入，输出隐变量和第一残差分布，包括：将输入图像作为编码模型的输入，输出隐变量，编码模型用于从输入图形中提取特征；将隐变量作为解码模型的输入，得到第一残差分布，解码模型用于预测输入的图像与对应的像素分布之间的残差值。

本申请实施方式中，可以利用训练好的自编码模型来从输入图像中提取重要特征，并预测对应的残差图像，以便于结合自回归模型的输出，得到能表示输入图像中的数据的残差编码数据。

在一种可能的实施方式中，自回归模型用于使用已预测的像素点的像素值预测处于同一连线上的像素点的值，以使后续解码过程中，针对同一连线上的像素点，无需等待其他像素点解码后才能对当前像素点进行解码，实现同一连线上的像素点的解码效率，提高针对输入图像的解码效率。

第二方面，本申请提供一种图像解压方法，包括：获取隐变量编码数据和残差编码数据，该隐变量编码数据包括编码端从输入图像中提取到的特征进行编码得到，该残差编码数据包括自回归模型前向传播输出的图像和该输入图像之间的残差进行编码得到；对隐变量编码数据进行解码，得到隐变量，该隐变量包括编码端从输入图像中提取到的特征；将隐变量作为自编码模型的输入，输出第二残差分布；结合第二残差分布和残差编码数据进行解码，得到第二残差图像；将第二残差图像作为自回归模型的反向传播的输入，输出解压图像。

因此，本申请实施方式，自编码模型通常拟合能力较差，需要用较深的网络才能达到较好的压缩率，而本申请结合了自回归模型的输出结果，从而可以降低自编码模型的大小。因此，本申请中，结合了自回归模型与自编码模型进行解码，可以将自编码与自回归模型都控制到很小，避免了自编码模型的网络过大造成的推理时间过长的问题，实现高效的图像解压。并且，本申请提供的方法中，全流程均可基于AI芯片的AI无损压缩实现，包括AI模型及熵编码，避免了系统内存与AI芯片内存的传输问题，提高编码效率。

在一种可能的实施方式中，前述的对隐变量编码数据进行解码，得到隐变量，包括：将隐变量编码数据作为静态熵编码器的输入，输出隐变量。其中，该解码可以理解为编码端进行静态熵编码的逆运算，从而无损恢复得到图像中的重要特征。

在一种可能的实施方式中，前述的结合第二残差分布和残差编码数据进行解码，得到第二残差图像，包括：将第二残差分布和残差编码数据作为半动态熵编码器的输入，输出第二残差图像，该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种，即该半动态熵编码器中不包括乘、除或取余运算等耗时较长运算，即该半动态熵编码器中可以仅包括简单的加减运算，从而可以实现高效编码。因此，可以对残差图像基于半动态熵编码进行解码，以有限种分布方式进行解码，相对于动态熵编码减少了乘、除以及取余运算等耗时较多的运损，大大提高了解码效率。

在一种可能的实施方式中，前述的将第二残差图像作为自回归模型的反向传播的输入，输出解压图像，包括：通过自回归模型，对第二残差图像中处于同一连线上的像素点进行并行解码，得到解压图像。因此，针对同一连线上的像素点，无需等待其他像素点解码后才能对当前像素点进行解码，实现同一连线上的像素点的解码效率，提高针对输入图像的解码效率。

第三方面，本申请提供一种图像编码装置，包括：

自回归模块，用于将输入图像作为自回归模型的输入，输出第一图像，自回归模型；

残差计算模块，用于获取第一图像和输入图像之间的残差，得到第一残差图像；

自编码模块，用于将输入图像作为自编码模型的输入，输出隐变量和第一残差分布，隐变量包括从输入图像中提取到的特征，第一残差分布包括自编码模型输出的用于表示输入图像中各个像素点和第一残差图像中各个像素点对应的残差值；

残差编码模块，用于对第一残差图像和第一残差分布进行编码，得到残差编码数据；

隐变量编码模块，用于对隐变量进行编码，得到隐变量编码数据，隐变量编码数据和残差编码数据用于解压后得到输入图像。

在一种可能的实施方式中，残差编码模块，具体用于将第一残差图像和第一残差分布作为半动态熵编码器的输入，输出残差编码数据，该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种，即该半动态熵编码器中不包括乘、除或取余运算等耗时较长运算，即该半动态熵编码器中可以仅包括简单的加减运算，从而可以实现高效编码。

在一种可能的实施方式中，隐变量编码模块，具体用于将隐变量作为静态熵编码器的输入，得到隐变量编码数据。

在一种可能的实施方式中，自编码模型包括编码模型和解码模型，自编码模块，具体用于：将输入图像作为编码模型的输入，输出隐变量，编码模型用于从输入图形中提取特征；将隐变量作为解码模型的输入，得到第一残差分布，解码模型用于预测输入的图像与对应的像素分布之间的残差值。

在一种可能的实施方式中，自回归模型用于使用已预测的像素点的像素值预测处于同一连线上的像素点的值。

第四方面，本申请提供一种图像解压装置，包括：

收发模块，用于获取隐变量编码数据和残差编码数据，该隐变量编码数据包括编码端从输入图像中提取到的特征进行编码得到，该残差编码数据包括对自回归模型输出的图像和该输入图像之间的残差进行编码得到的数据；

隐变量解码模块，用于对隐变量编码数据进行解码，得到隐变量，该隐变量包括编码端从输入图像中提取到的特征；

自编码模块，用于将隐变量作为自编码模型的输入，输出第二残差分布；

残差解码模块，用于结合第二残差分布和残差编码数据进行解码，得到第二残差图像；

自回归模块，用于将第二残差图像作为自回归模型的反向传播的输入，输出解压图像。

在一种可能的实施方式中，隐变量解码模块，具体用于将隐变量编码数据作为静态熵编码器的输入，输出隐变量。

在一种可能的实施方式中，残差解码模块，具体用于将第二残差分布和残差编码数据作为半动态熵编码器的输入，输出第二残差图像，该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种，即该半动态熵编码器中不包括乘、除或取余运算等耗时较长运算，即该半动态熵编码器中可以仅包括简单的加减运算，从而可以实现高效编码。

在一种可能的实施方式中，自回归模块，具体用于通过自回归模型，对第二残差图像中处于同一连线上的像素点进行并行解码，得到解压图像。

第五方面，本申请实施例提供一种图像编码装置，该图像编码装置具有实现上述第一方面图像处理方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第六方面，本申请实施例提供一种图像解压装置，该图像解压装置具有实现上述第二方面图像处理方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第七方面，本申请实施例提供一种图像编码装置，包括：处理器和存储器，其中，处理器和存储器通过线路互联，处理器调用存储器中的程序代码用于执行上述第一方面任一项所示的用于图像编码方法中与处理相关的功能。可选地，该图像编码装置可以是芯片。

第八方面，本申请实施例提供一种图像解压装置，包括：处理器和存储器，其中，处理器和存储器通过线路互联，处理器调用存储器中的程序代码用于执行上述第二方面任一项所示的用于图像解压方法中与处理相关的功能。可选地，该图像解压装置可以是芯片。

第九方面，本申请实施例提供了一种图像编码装置，该图像编码装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行如上述第一方面或第一方面任一可选实施方式中与处理相关的功能。

第十方面，本申请实施例提供了一种图像解压装置，该图像编码装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行如上述第二方面或第二方面任一可选实施方式中与处理相关的功能。

第十一方面，本申请实施例提供了一种图像处理系统，其特征在于，包括图像编码装置和图像解压装置，所述图像编码装置用于执行如上述第一方面或第一方面任一可选实施方式中与处理相关的功能，所述图像解压装置用于执行如上述第二方面或第二方面任一可选实施方式中与处理相关的功能。

第十二方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面中任一可选实施方式中的方法。

第十三方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面中任一可选实施方式中的方法。

附图说明

图1为本申请应用的一种人工智能主体框架示意图；

图2为本申请实施例提供的一种系统架构示意图；

图3为本申请实施例的一种应用场景示意图；

图4为本申请实施例的另一种应用场景示意图；

图5为本申请实施例的另一种应用场景示意图；

图6为本申请实施例提供的一种图像编码方法的流程示意图；

图7为本申请实施例提供的另一种图像编码方法的流程示意图；

图8为本申请实施例提供的一种自回归模型的预测方式示意图；

图9为本申请实施例提供的一种自回归模型的预测顺序示意图；

图10为本申请实施例提供的一种残差计算方式示意图；

图11为本申请实施例提供的一种数据结构示意图；

图12为本申请实施例提供的一种图像解压方法的流程示意图；

图13为本申请实施例提供的另一种图像解压方法的流程示意图；

图14为本申请提供的一种图像编码装置的结构示意图；

图15为本申请提供的一种图像解码装置的结构示意图；

图16为本申请提供的另一种图像编码装置的结构示意图；

图17为本申请提供的另一种图像解码装置的结构示意图；

图18为本申请提供的一种芯片结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对人工智能系统总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片，如中央处理器(centralprocessing unit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processing unit，GPU)、专用集成电路(application specific integratedcircuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array，FPGA)等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。

本申请实施例涉及了大量神经网络和图像的相关应用，为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的神经网络和图像领域的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以xs和截距1为输入的运算单元，该运算单元的输出可以如以下公式所示：

其中，s＝1、2、……n，n为大于1的自然数，Ws为xs的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层中间层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，中间层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是中间层，或者称为隐层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，其每一层可以表示为线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量或者称为偏置参数，w是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数w为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的中间层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。该损失函数通常可以包括误差平方均方、交叉熵、对数、指数等损失函数。例如，可以使用误差均方作为损失函数，定义为

具体可以根据实际应用场景选择具体的损失函数。

(5)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

(6)熵编码

熵编码即编码过程中按熵原理不丢失任何信息的编码。信息熵为信源的平均信息量(不确定性的度量)。常见的熵编码有：香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)等。

例如，若预测的图像中各个像素点的像素值分布已知，则最优压缩方案可利用熵编码技术获得。利用熵编码技术，一张概率为p的图像可利用-log₂ p比特表示。例如：概率为1/8的图像需要用3个比特表示，概率为1/256的图像需用8个比特表示。

要确定每个字母的比特数算法需要尽可能精确地知道每个字母的出现机率，模型的任务是提供这个数据。模型的预言越好压缩的结果就越好。此外模型必须在压缩和恢复时提出同样的数据。

静态模型(或者称为静态熵编码)在压缩前对整个文字进行分析计算每个字母的机率。这个计算结果用于整个文字上。编码表只需计算一次，因此编码速度高，除在解码时所需要的机率值外结果肯定不比原文长。本申请提供的方法中，所采用的熵编码可以包括tANS或fse等静态熵编码方式。

动态模型在这个模型里机率随编码过程而不断变化。通过多种算法可以达到这个目的，如：

前向动态：机率按照已经被编码的字母来计算，每次一个字母被编码后它的机率就增高。

反向动态：在编码前计算每个字母在剩下的还未编码的部分的机率。随着编码的进行最后越来越多的字母不再出现，它们的机率成为0，而剩下的字母的机率升高，为它们编码的比特数降低。压缩率不断增高，以至于最后一个字母只需要0比特来编码。

因此，模型按照不同部位的特殊性优化；在前向模型中机率数据不需要输送。

本申请中，将熵编码分为多种，如可以分为静态熵编码、半动态熵编码以及动态熵编码，无论哪种编码器，实现的目的均为：对于概率为p的数据，用接近log₂ p的长度将其编码出来。区别在于，静态熵编码采用单一概率分布进行编码，半动态采用多种(即有限种)概率分布进行编码，而动态熵编码采用任意无限种概率分布进行编码。

(7)自回归模型

是一种处理时间序列的方式，其用同一变量的前期历史数据来预测当前数据。

例如，用同一变数例如x的之前各期，即x₁至x_t-1来预测本期x_t的表现，并假设它们为一线性关系。因为这是从回归分析中的线性回归发展而来，只是不用x预测y，而是用x预测x；所以叫做自回归。

(8)自编码模型

自编码模型是一种利用反向传播算法使得输出值等于输入值的神经网络，先将输入数据压缩成潜在空间表征，然后通过这种表征来重构输出。

自编码模型通常包括编码(encoder)模型和解码(decoder)模型。本申请中，训练后的编码模型用于从输入图像中提取特征，得到隐变量，将该隐变量输入至训练后的解码模型，即可输出预测的输入图像对应的残差。

(9)无损压缩

对数据进行压缩的技术，压缩后数据占用空间小于压缩前，并且压缩后数据能够通过解压还原出原始数据，解压后的数据与压缩前的数据是完全一致的。

通常，图像中各个像素点出现的概率(即通过其他像素点的像素值预测当前像素点的像素值时得到的概率值)越大，压缩后的长度越短。真实存在的图像的概率远高于随机生成的图像，因此压缩每像素所需要的比特数(bpd)远小于后者。在实际应用中，大部分图像的BPD显著小于压缩前，只有极小概率高于压缩前，从而减小平均每张图像的bpd。

(10)压缩率

原始数据大小与压缩后数据大小的比值，如果没有压缩该值为1，该值越大越好。

(11)吞吐量

每秒钟能够压缩/解压原始数据的大小。

(12)感受野

预测一个像素点时，需要预先知道的点。改变非感受野中的点不会改变像素点的预测。

本申请实施例提供的编码方法以及解码方法可以在服务器上被执行，还可以在终端设备上被执行，相应地，本申请以下提及的神经网络，可以部署于服务器，也可以部署于终端上，具体可以根据实际应用场景调整。例如，本申请提供的编码方法以及解码方法，可以通过插件的方式部署于终端中。其中该终端设备可以是具有图像处理功能的移动电话、平板个人电脑(tablet personal computer，TPC)、媒体播放器、智能电视、笔记本电脑(laptop computer，LC)、个人数字助理(personal digital assistant，PDA)、个人计算机(personal computer，PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device，WD)或者自动驾驶的车辆等，本申请实施例对此不作限定。下面示例性地，以本申请提供的编码方法以及解码方法部署于终端为例进行示例性说明。

本申请提供的编码方法以及解码方法中的全部或者部分流程可以通过神经网络来实现，如其中的自回归模型、自编码模型等，都可以通过神经网络来实现。而通常神经网络需要在训练之后部署在终端上，如图2所示，本申请实施例提供了一种系统架构100。在图2中，数据采集设备160用于采集训练数据。在一些可选的实现中，本申请中，针对自回归模型和自编码模型，训练数据可以包括大量高清图像。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。可选地，在本申请以下实施方式中所提及的训练集，可以是从该数据库130中得到，也可以是通过用户的输入数据得到。

其中，目标模型/规则101可以为本申请实施例中进行训练后的神经网络，该神经网络可以包括一个或者多个网络，如自回归模型或者自编码模型等。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120对输入的三维模型进行处理，将输出的图像与输入的三维模型对应的高质量渲染图像进行对比，直到训练设备120输出的图像与高质量渲染图像的差值小于一定的阈值，从而完成目标模型/规则101的训练。

上述目标模型/规则101能够用于实现本申请实施例的用于编码方法以及解码方法中提及的神经网络，即，将待处理数据(如待压缩的图像)通过相关预处理后输入该目标模型/规则101，即可得到处理结果。本申请实施例中的目标模型/规则101具体可以为本申请以下所提及的神经网络，该神经网络可以是前述的CNN、DNN或者RNN等类型的神经网络。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，本申请对此并不作限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图2所示的执行设备110，该执行设备110也可以称为计算设备，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端设备等。在图2中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的待处理数据。客户端可以是其他的硬件设备，如终端或者服务器等，客户端也可以是部署于终端上的软件，如APP、网页端等。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如待处理数据)进行预处理，在本申请实施例中，也可以没有预处理模块113和预处理模块114(也可以只有其中的一个预处理模块)，而直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，则将处理结果返回给客户设备140，从而提供给用户，例如若第一神经网络用于进行图像分类，处理结果为分类结果，则I/O接口112将上述得到的分类结果返回给客户设备140，从而提供给用户。

需要说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。在一些场景中，执行设备110和训练设备120可以是相同的设备，或者位于相同的计算设备内部，为便于理解，本申请将执行设备和训练设备分别进行介绍，并不作为限定。

在图2所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的预测标签作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的预测标签，作为新的样本数据存入数据库130。

需要说明的是，图2仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图2中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图2所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以是本申请中的神经网络，具体的，本申请实施例提供的神经网络可以包括CNN，深度卷积神经网络(deep convolutional neural networks，DCNN)，循环神经网络(recurrent neural network，RNN)或者构建得到的神经网络等等。

本申请实施例中的编码方法以及解码方法可以由电子设备来执行，该电子设备即前述的执行设备。该电子设备中包括CPU和GPU，能够对图像进行压缩。当然，还可以包括其他设备，如NPU或者ASIC等，此处仅仅是示例性说明，不再一一赘述。示例性地，该电子设备例如可以是手机(mobile phone)、平板电脑、笔记本电脑、PC、移动互联网设备(mobileinternet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线电子设备、无人驾驶(self driving)中的无线电子设备、远程手术(remote medical surgery)中的无线电子设备、智能电网(smart grid)中的无线电子设备、运输安全(transportation safety)中的无线电子设备、智慧城市(smart city)中的无线电子设备、智慧家庭(smart home)中的无线电子设备等。该电子设备可以是运行安卓系统、IOS系统、windows系统以及其他系统的设备。在该电子设备中可以运行有需要对图像进行压缩得到压缩图像的应用程序，例如通信软件、相册或相机等应用。

通常，在一些图像压缩场景中，可以采用熵编码进行压缩。而图像的分布未知，需对原分布做估计，并将估计的分布输入熵编码器进行编码。通常估计得越准确，压缩率越高。传统的图像无损压缩算法多采用“相近的像素值通常较为接近”的原则，利用固定的预测方法。而这种方式编码效率低。

在一些场景中，还可以采用AI图像无损压缩的方式进行压缩，相对于传统编码算法，AI算法可得到显著更高的压缩率，但压缩/解压效率很低。

例如，可以采用自回归模型进行图像压缩。如构建一个自回归模型，输入此前所有像素的值，则可输出被预测点的分布参数。如分布为高斯分布，则输出为均值与方差两个参数。在使用自回归模型进行压缩时，可以将所有像素输入至自回归模型，得到像素的分布预测，将像素的分布预测以及像素的值输入熵编码器，得到编码后的数据。在解压时，将所有像素输入至自回归模型，得到像素的分布预测，将分布预测及其编码数据输入至熵编码器，即可得到解码数据。然而，在编码和解码过程中，每个像素的预测依赖此前的所有像素，运行效率低，在解压时，需将当前像素之前的所有像素解压后才能解压当前像素，一次网络推理只能解压一个像素，网络推理的次数大，解压效率低。

又例如，可以采用自编码模型进行图像压缩。在进行编码时，将原数据输入编码网络(Encoder)，得到隐变量，将隐变量输入解码网络(Decoder)，得到图像的分布预测；将手工设计的分布，及隐变量的值输入熵编码，编码隐变量；将图像的分布预测及原图像输入熵编码，编码图像。在进行解码时，将手工设计的分布，及隐变量的编码输入熵编码，解码隐变量；将隐变量输入解码网络(Decoder)，得到图像的分布预测；将图像的分布预测及图像的编码输入熵编码，解码图像。与自回归模型相比，自编码模型的拟合能力较差。若要压缩率超过传统压缩算法，则需要较深的网络，单次网络推理的时延高。

因此，本申请提供一种编码方法和解码方法，利用自回归模型以及自编码器模型进行无损压缩，且提供了高效的半动态熵编码器，使得模型推理以及编码过程均在AI芯片上运行，减少了系统内存和AI芯片内存之间的传输，实现了高带宽的压缩解压。

首先，为便于理解，对本申请提供的编码方法以及解码方法的一些应用场景进行示例性介绍。

场景一、本地保存拍摄图像

以本申请提供的方法部署于终端为例，该终端可以包括手机、相机、监测设备或者其他具有拍摄功能或者与摄像装置连接的设备。例如，如图3所示，在拍摄得到图像之后，为例降低图像所占用的存储空间，可以通过本申请提供的编码方法对该图像进行无损压缩，从而得到压缩后的编码数据。当需要读取该图像时，如在相册中显示该图像时，则可以通过本申请提供的解码方法进行解码，从而得到高清图像。通过本申请提供的方法，可以对图像进行高效的无损压缩，降低保存图像所需的内容，并对图像进行无损恢复，解压得到高清图像。

场景二、图像传输

在一些通信场景中，可能涉及到图像传输。例如，如图4所示，如用户在使用通信软件进行交流时，可以通过有线或者无线网络传输图像，为了提高传输速率以及降低传输图像所占用的网络资源，可以通过本申请提供的编码方法对图像进行无损压缩，得到压缩后的编码数据，随后传输编码数据即可。接收端在接收到编码数据之后，即可通过本申请提供的解码方法，对编码数据进行解码，得到恢复后的图像。

场景三、服务器保存大量图像

在一些为用户提供服务的平台或者一些数据库中，通常需要保存大量的高清图像，若直接按照每帧图像的像素点进行保存，则需要占用非常大的存储空间。例如，如图5所示，一些购物软件或者公开数据集中，需要在服务器中对大量的高清图像进行保存，用户可以从服务器中读取所需的图像。可以通过本申请提供的编码方法来对需要保存的图像高效地进行无损压缩，得到压缩后的数据。当需要读取图像时，即可通过本申请提供的解码方法对保存的编码数据进行解码，得到高清图像。

为便于理解，下面分别对本申请提供的编码方法和解码方法的流程进行介绍。

参阅图6，本申请提供的一种编码方法的流程示意图，如下所述。

601、将输入图像作为自回归模型的输入，输出第一图像。

其中，输入图像可以是待压缩的图像，自回归模型可以用于使用输入图像中除当前像素点外的其他像素点的值，来预测当前像素点的像素值，得到预测的各个像素点的像素分布，即第一图像。

该输入图像可以包括多种图像，根据场景的不同输入图像的来源也可能不相同。例如，该输入图像可以是拍摄得到的图像，也可以接收到的图像等。

可选地，在自回归模型进行预测的过程中，针对处于同一连线上的像素点，可以使用已进行预测的像素点的像素值进行预测，以使后续解码过程中，针对同一连线上的像素点，无需等待其他像素点解码后才能对当前像素点进行解码，实现同一连线上的像素点的解码效率，提高针对输入图像的解码效率。该同一连线可以是同一行、同一列或者同一对角线等，具体可以根据实际应用场景确定。

602、获取第一图像和输入图像之间的残差，得到第一残差图像。

在得到第一图像之后，可以计算第一图像中各个像素点和输入图像中对应像素点之间的残差值，得到第一残差图像。

其中，该第一图像和输入图像之间的分辨率通常相同，即第一图像和输入图像中的像素点一一对应，从而在计算残差值时，可以计算每对像素点之间的残差值，得到的残差值可以组成图像，即第一残差图像。

可选地，在计算残差时，通常残差值为范围在[-255，255]的整数类型，可以将残差值转换为低精度的数值类型来表示，如将整数转化为uint8数值类型，从而将数值缩小至[0，255]，并可以通过设置偏移量，使各个像素点的残差值分布在128附近，从而使数据更集中，通过较少的数据即可表示出输入图像和自回归模型输出图像之间的残差分布。

603、将输入图像作为自编码模型的输入，输出隐变量和第一残差分布。

在得到输入图像之后，还可以将输入图像作为自编码模型的输入，输出对应的隐变量和第一残差分布。

该隐变量可以包括从输入图像中提取到的特征，该第一残差分布可以包括由自编码模型预测得到的输入图像的各个像素点和第一残差图像中对应像素点之间的残差值。

具体地,该自编码模型可以包括编码模型和解码模型，编码模型可以用于从输入图像中提取特征，解码模型用于对输入图像与自回归模型输出的图像之间的残差进行预测。即可以通过编码模型从输入图像中提取特征，得到用于表示输入图像重要特征的隐变量，将隐变量作为解码模型的输入，输出第一残差分布。

需要说明的是，本申请对步骤601和步骤603的执行顺序不作限定，可以先执行步骤601，也可以先执行步骤603，还可以同时执行步骤601和步骤603，具体可以根据实际应用场景调整。

604、对第一残差图像和第一残差分布进行编码，得到残差编码数据。

在得到第一残差图像和第一残差分布之后，可以对该第一残差图像和第一残差分布进行编码，得到残差编码数据。

具体地，在对第一残差图像和第一残差分布进行编码时，可以采用半动态熵编码，即采用有限种概率分布进行编码，得到残差图像的编码数据，即残差编码数据。该该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且该半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种耗时较长的运算，以提高编码效率。因此，本申请实施方式中，可以采用有限数量的概率分布进行编码，得到残差图像的编码。相对于动态熵编码，解压一个字符，需要的指令较多；除法、乘方的耗时长，每个指令的耗时为加法的数十倍，通过本申请提供的有限种概率分布的半动态熵编码即可实现高效编码，提高编码效率。

605、对隐变量进行编码，得到残差编码数据。

该隐变量可以包括从输入图像中提取到的重要特征，因此在进行图像压缩时，可以对提取到的重要特征进行编码，得到残差编码数据，以便于后续对图像进行恢复，得到无损图像。

可选地，在对隐变量进行编码时，可以采用静态熵编码的方式进行编码。将该隐变量作为静态熵编码器的输入，从而输出隐变量的编码比特流。

该隐变量编码数据和残差编码数据即可用于解码端进行图像的无损恢复，从而实现对图像的无损压缩与恢复。

通常，自编码模型通常拟合能力较差，需要用较深的网络才能达到较好的压缩率，而本申请结合了自回归模型的输出结果，从而可以降低自编码模型的大小。因此，本申请中，结合了自回归模型与自编码模型的输出结果进行编码，可以将自编码与自回归模型都控制到很小，避免了自编码模型的网络过大造成的推理时间过长的问题，实现高效的图像压缩。并且，本申请提供的方法中，全流程均可基于AI芯片的AI无损压缩实现，包括AI模型及熵编码，避免了系统内存与AI芯片内存的传输问题，提高编码效率。

前述对本申请提供的编码方法的流程进行了介绍，下面结合具体的应用场景，对本申请提供的编码方法的流程进行更详细的介绍。参与图7，本申请提供的另一种编码方法的流程示意图。

首先，获取输入图像701。

该输入图像701可以包括自身采集到的图像也可以包括接收到的图像。例如，若本申请提供的方法部署于终端，该输入图像可以包括终端采集到的图像，也可以是终端从其他服务器或者终端接收到的图像。

随后，将输入图像701作为自回归模型702的输入，输出预测图像703。

其中，该自回归模型可以用于使用每个像素点相邻的像素点来预测每个像素点的像素概率分布，得到预测图像703，即前述的第一图像。

可以理解为，自回归模型可以使用相邻像素点的像素值来预测当前像素点的像素值。

本申请实施方式中，为了加快解码端的解码效率，在自回归模型进行预测时，针对同一条线的像素点，可以使用与其相邻的像素点的像素值来并行进行预测。以一种具体的自回归模型为例，如图8所示，给定一张m×n的图像及超参h(0≤h<n)，若对于任意像素点(i,j)，自回归模型中预测(i,j)的所有点(i′,j′)满足：h×i′+j′<h×i+j，则此图像可以通过n+(m-1)×h次并行预测，如图8中所示，当h＝1时，对于同一对角线上的像素点，可以使用以1为单位选择其左侧多个像素点的像素值作为感受野，来预测当前像素点的像素概率分布，即该像素点为各个像素值的概率。如图8中所示，当h＝2时，可以以2为单位选择其左侧多个像素点的像素值作为感受野来预测当前像素点的像素概率分布。以便于在后续进行解压时，针对处于同一对角线上的像素点可以并行解压。

此外，对于各个像素点的预测顺序可以如图9所示，其中数字越小表示预测顺序越优先，相同数字的像素点同时预测。因此，针对处于同一对角线上的像素点，可以并行进行预测，提高自回归模型的预测效率。

随后，计算预测图像和输入图像之间的残差，得到图像残差704。

在得到自回归输出的预测图像703之后，即可计算该预测图像与输入图像中各个像素点之间的残差，得到图像残差704，即前述的第一残差图像。

如给定原始图像x，即输入图像，利用自回归模型对原始图像进行预测，得到预测的重建图像

可以计算出重建图像和原始图像每个像素点之间的图像残差

例如，如图10所示，在得到输入图像和预测图像之后，即可计算输入图像和预测图像对应像素点之间的差值，得到各个像素点之间的残差值，组成残差图像。

可选地，在计算残差时，可以将范围在[-255，255]的整数类型，可以将残差值转换为低精度的数值类型来表示，如将整数转化为uint8数值类型，从而将数值缩小至[0，255]，并可以通过设置偏移量，使各个像素点的残差值分布在128附近，从而使数据更集中，通过较少的数据即可表示出输入图像和自回归模型输出图像之间的残差分布。

例如，用自回归模型输入原图像x，输出y，则预测的图像x′＝round(clip(y,0,M-1))，则残差计算为

其中x′中每像素的取值范围为0～M-1的整数；利用模型二预测r得到分布N(μ,σ)，则利用

分布编码

其中N为高斯分布或逻辑分布。

此外，还将输入图像输入至自编码模型705，输出预测残差707和隐变量706。

如可以将原始图像x输入至自编码模型，利用自编码模型来估计图像残差r的概率分布p(r|x)，即预测残差707。

具体地，该自编码模型可以包括编码模型(encoder)和解码模型(decoder)，将输入图像作为编码模型的输入，可以从输入图像中提取重要特征，得到隐变量706，随后将隐变量作为解码模型的输入，输出预测残差707。

通常，自编码模型可以是预训练后的模型，具体可以采用自编码器(AutoEncoder，AE)、变分字编码器(Variational AutoEncoder，VAE)或者VQ-VAE(Vector Quantised-Variational AutoEncoder)等，具体可以根据实际应用场景进行调整，本申请对此并不作限定。

随后，可以对隐变量706进行编码，得到隐变量编码708。

具体地，对隐变量可以采用静态熵编码的方式进行编码。即利用数状结构将概率大的数据用较短的比特数表示，概率小的数据用较长的表示。

例如，树状结构可以如图11所示，其对应的比特可以表示为如表1所示。

字符	概率	编码
			a<sub>1</sub>	0.4	0
a<sub>2</sub>	0.35	10
			a<sub>3</sub>	0.2	110
a<sub>4</sub>	0.05	111

表1

因此，数据a₁a₂a₁a₄编码后为0100110。

此外，还可以对图像残差704和预测残差707进行编码，得到残差编码709。

具体地，可以对图像残差704和预测残差707进行半动态熵编码，得到残差编码。

为便于理解，对动态熵编码和本申请提供的半动态熵编码的区别进行说明。

首先，以rANS编码为例，动态编码即利用状态(通常为大整数，或大小数)表示数据，利用数据的概率信息更改状态值，最终编码值为状态的0、1表示。在rANS编码中，首先要设一个M值，代表表示一个概率所需要的比特数。对于一个字符a_i，其对应的PMF_i与其概率成正比，且加和为2^M；其对应的CDF_i为之前所有PMF的值的累加，即PMF₁+PMF₂+…+PMF_i-1。上表中，若取M＝4，则概率值对应的PMF及CDF如表2所示：

字符	概率	PMF	CDF
				a<sub>1</sub>	0.4	6	0
a<sub>2</sub>	0.35	6	6
				a<sub>3</sub>	0.2	3	12
a<sub>4</sub>	0.05	1	15

表2

若压缩一个字符x前后的状态分别为S、S’，则

S’＝S/PMF(x)*2^M+CDF(x)+S％PMF(x)

动态熵编码也可当作静态熵编码使用，当表格中的值为定值时，则为静态熵编码；当不同符号的表格不完全一样时，需用动态熵编码。

动态熵编码中的速度瓶颈包括：解压中的符号搜索以及运算：其中除法、取余运算最耗时，其次为乘法。因此，针对动态熵编码中的无线中概率分布方式所带来的效率降低，本申请提供一种半动态熵编码。基于前述动态熵编码，即rANS的编码公式，先做近似处理，如将动态熵编码中的乘、除、取余等运算替换为近似的加、减、位等轻量级运算，在少量的压缩率损失的前提下，大幅减少或者去除乘、除、取余等运算；再通过一系列的变换处理，将所有耗时超过一定时长的运算(如剩余的取余、乘以及除等运损)转化为表格存取，及加、减、位等轻量级运算。可以理解为，本申请提供的半动态熵编码，可以通过算法变换及表格化处理，去除所有符号搜索、乘除取余等耗时运算，达到与静态熵编码相当的吞吐率。

例如，与常用的rANS实现相似，对状态值S做截断及近似处理，但区别包括：

不同于通常rANS将S截断至[2^M,2^2M)，共2^2M-2^M种状态；此方案将其截断至[2^M,2^M ⁺¹)，共2^M种状态。以实现更小的状态空间，便于后续的表格化处理；

不同于通常rANS利用除法及取余计算，此方案将其改成循环+位运算的近似求解方法，便于进一步减小表格化所需的存储空间。此计算中的循环耗时较长，因此在此处理后，耗时通常会超过原rANS，但后续的处理中，会将循环次数表格化处理，以实现高效压缩、解压。

在压缩的过程中，对于每种分布、符号，利用表格预计算、存储循环的次数(即状态右移位数)，及此分布、符号下，下一状态与此状态的差值。如在进行压缩时，对于每一个输入的分布索引、及符号，查表得到对应的δ，计算得到状态右移位数b＝(δ+S)＞＞M；将状态的最右边的b位压栈至存储器中，并将状态值右移b位；通过分布索引、及符号，查表得到下一状态与此状态的差值，将此差值加到当前状态值上，得到更新后的状态值。

相比于直接存储循环的次数，此方案存储中间结果δ，循环次数可计算为(δ+S)＞＞M，本申请提供的编码方式可减小存储表格所需的内存空间。相比于直接存储两状态的差值，本申请提供的半动态熵编码方式中存储状态右移后，两状态的差值，此方法可以用无符号数字存储，相同位数下减小一半的内存空间。

在得到残差编码709和隐变量编码708之后，即可进行后续操作。如保存该残差编码709和隐变量编码708，或者向接收端传输该残差编码709和隐变量编码708等，具体可以根据实际应用场景确定。

因此，本申请实施方式提供的方法，可以应用于图像无损压缩，实现高效的图像无损压缩。且提供了高效的半动态熵编码器，使得模型推理以及编码过程均在AI芯片上运行，减少了系统内存和AI芯片内存之间的传输，实现了高带宽的压缩解压。

前述对本申请提供的编码方法的流程进行了介绍，下面对与其对应的解码方法的流程进行介绍，即前述编码流程的逆运算。参阅图12，本申请提供的一种解码方法的流程示意图，如下所述。

1201、获取隐变量编码数据和残差编码数据。

其中，解码端可以从本地读取隐变量编码数据和残差编码数据，或者接收编码端发送的该隐变量编码数据和残差编码数据，具体可以根据实际应用场景确定该隐变量编码数据和残差编码数据的来源，本申请对此并不作限定。

具体地，该隐变量编码数据可以由编码端对从输入图像中提取到的特征进行编码得到。该残差编码数据可以是编码端对前述的图像残差和预测残差进行编码得到，该图像残差可以包括前述编码端的输入图像和自回归模型输出的图像之间的残差。该隐变量编码数据和残差编码数据可以参阅前述图6-图11中的相关介绍，此处不再赘述。

1202、对隐变量编码数据进行解码，得到隐变量。

其中，对隐变量编码数据进行解码的方式可以与编码端相对应。例如，若编码端采用静态熵编码器进行编码，则在解码时，可以使用静态熵编码器进行解码。如将该隐变量编码数据作为静态熵编码器的输入，输出隐变量。该隐变量可以包括从输入图像中提取到的特征，针对解压端而言，该隐变量即表示解压图像中的特征。

1203、将隐变量作为自编码模型的输入，输出第二残差分布。

在对隐变量编码数据进行解码得到隐变量之后，即可将隐变量作为自编码模型的输入，输出对应的第二残差分布，即与前述编码端第一残差分布对应的图像，可以理解为表示编码端中自回归模型输出的图像与输入图像之间的残差分布。

具体地，该自编码模型中可以包括解码模型，将隐变量作为该解码模型的输入，即可输出预测的残差图像。该解码模型可以是训练后的模型，用于输出输入图像对应的残差图像，该残差图像可以理解为自回归模型预测的残差图像与输入图像之间的残差值。

需要说明的是，编码端和解码端均部署了自回归模型和自编码模型，且编码端侧的自回归模型与解码端的自回归模型相同，若编码端和解码端部署于同一设备中，则编码端和解码端的自编码模型相同，若编码端和解码端部署于不同设备中，则编码端和解码端可以部署相同的自编码模型，也可以在编码端部署完整的自编码模型，而在解码端部署自编码模型中的解码模型，具体可以根据实际应用场景进行调整，本申请对此并不作限定。

1204、结合第二残差分布和残差编码数据进行解码，得到第二残差图像。

在得到第二残差分布和残差编码数据之后，即可结合该第二残差分布和残差编码数据进行解码，得到第二残差图像。

具体地，若编码端采用半动态熵编码的方式进行编码，则将解码端也可以基于半动态熵编码进行解码，输出第二残差图像，即与编码端的第一残差图像对应的图像。该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种，即该半动态熵编码器中不包括乘、除或取余运算等耗时较长运算，即该半动态熵编码器中可以仅包括简单的加减运算，从而可以实现高效编码。

更具体地，该半动态熵编码器可以参与前述图6-图11中的相关描述，此处不再赘述。

可以理解为，针对前述编码端对第一残差图像和第一残差分布进行编码得到残差编码数据的过程，在解码端获取到第二残差分布和残差编码数据之后，即可进行逆运算推理出第二残差分布，相当于获取到前述编码端自回归模型输出的第一图像和输入图像之间的残差，即第一残差分布。

1205、将第二残差图像作为自回归模型的反向传播的输入，输出解压图像。

在得到第二残差图像之后，即可将该第二残差分布作为自回归模型的输入进行反向传播，推理出解压图像，即实现对编码端的输入图像的无损恢复。

此外，在将第二残差图像作为自回归模型的输入进行反向传播时，若编码端的自回归模型使用已预测的像素点的像素值预测处于同一连线上的像素点的值，则在解码端进行解码操作时，可以对处于同一连线上的像素点的值进行并行解码，实现高效解码。该同一连线可以是同一行、同一列或者同一对角线等，具体可以根据实际应用场景确定。

为便于理解，下面结合具体的应用场景对本申请提供的解码方法的流程进行介绍，参阅图13，本申请提供的另一种解码方法的流程示意图，如下所述。

首先，获取隐变量编码1301以及残差编码1302。

其中，该隐变量编码1301以及残差编码1302可以是从本地读取到的，也可以是从编码端接收得到的，具体可以根据实际应用场景调整。例如，该隐变量编码1301以及残差编码可以是前述图7中提及的隐变量编码708以及残差编码709。

随后，对隐变量编码1301输入至静态熵编码器1303，输出隐变量1304。

通常，熵编码中各个概率对应的比特可以如前述表1所示，在得到隐变量编码的比特流之后，即可根据该对应关系确定出各个字符对应的概率，从而输出隐变量，该隐变量可以理解为解压图像中的重要特征。

随后将隐变量1304作为自编码模型1305中解码模型的输入，输出预测残差1306。

其中，解码模型与前述图7中的解码模型类似，此处不再赘述。该预测残差1306与前述的预测残差707类似，此处不再赘述。

随后将残差编码1302和预测残差1306均作为半动态熵编码器的输入，输出图像残差1308。

该图像残差1308与前述图像残差704类似，此处不再赘述。

其中，半动态熵编码的解码过程可以理解为前述半动态熵编码的逆运算，即在已知预测残差和残差编码的情况下，反向推理出图像残差。如：求出当前符号的状态值：s＝S′％2^M，找到s对应的符号x，解压出x。需满足CDF(x)≤s<CDF(x)+PMF(x)，根据解压出的符号x，还原上一步的状态值：S＝S’/2^M*PMF(x)+S’％2^M–PMF(x)。

在得到图像残差1308之后，即可使用该图像残差作为自回归模型1309的反向传播的输入，从而推理出解压图像1310。

可以理解为，自回归模型1309为训练后的模型，与前述自回归模型702相同，可以理解为已知图像残差的情况下，反向推理出输入图像701。

可选地，若编码端在通过自回归模型输出预测残差时，使用已预测的像素点的像素值来并行预测处于同一条线的像素点的像素值，则在对自回归模型进行反向传播时，可以对处于同一条线上的像素点的像素值进行解码，从而实现并行解码。

例如，给定一张m×n的图像及超参h(0≤h<n)，若对于任意像素点(i,j)，自回归模型中预测(i,j)的所有点(i′,j′)满足：h×i′+j′<h×i+j，则此图像可以通过n+(m-1)×h次并行计算解压。解压顺序包括：

顺次解压第一行中的点：(0,0),(0,1),…,(0,n-1)。在解压(0,j)点的同时，若j-h≥0，则同时解压(1,j-h)；若j-h×2≥0，则同时解压(2,j-h×2)，依此类推；

顺次解压第二行中的点：(1,n-h-1),…,(1,n-1)。解压(1,j)点的同时，若j-h≥0，则同时解压(2,j-h)；若j-h×2≥0，则同时解压(3,j-h×2)，依此类推；

按照此规律解压，直到解压所有点。

因此，通过本申请提供的对同一条线并行进行编码以及解码的方式，可以大大提高编码以及解码效率，实现更高效的图像压缩。

为便于理解，下面以一些具体的应用场景为例对本申请实现的效果进行示例性介绍。

首先需要构造以自回归模型和自编码模型为核心的神经网络模型，本技术方案中自回归模型实施了轻量化的设计，只包含12个参数，对三通道的图像来说每个通道只需要4个参数进行预测。自编码器模型使用的是向量量化的自编码器，利用向量码本缩小隐变量的空间，设置码本大小为256，也即自编码器中的隐变量的取值空间被限制在256个整数中。自编码器的编码器解码器均采用四个残差卷积块，每层特征的通道数为32。

模型训练过程以及测试过程如下：

训练：在单一数据集的训练集上训练，得到自回归模型、自编码模型的参数，及隐变量的统计量，用于隐变量的压缩。

压缩：通过本申请提供的方法，将单一数据集的所有测试图像在batch维度堆叠在一起，组成一个四维张量。将此四维张量一次性作为流程的输入，并将所有图像的残差编码与隐变量的编码并行输出。

解压：通过本申请提供的方法将所有图像的残差编码、隐变量一次性作为解压流程中的输入，并将所有图像的原图像并行输出。

以一些常用的无损压缩为对比，如L3C(Practical Full Resolution LearnedLossless Image Compression)、FLIF(free lossless image format based on maniaccompression)WebP或PNG(Portable Network Graphics)等，将本申请提供的方法称为PILC(Practical Image Lossless Compression，图像无损压缩)，参阅表3。

表3

从表3可以看出，与此前AI图像无损压缩算法——L3C相比，本技术发明在保持压缩率基本相当的情况下，将吞吐率提升14倍，同时本技术发明在压缩率和吞吐率上也优于PNG、WebP、FLIF等传统方法。

因此，本申请提供的方法，结合了自回归模型与自编码模型，相比单独使用自编码模型，大大降低了模型大小。且本申请提供的自回归模型可以实现并行编码和并行解压，可以实现高效的编码和解码，实现高效的图像压缩和解压。且本申请提供的方法的流程均可在AI芯片运行，避免了系统内存与AI芯片内存间的信息传输，进一步提高编解码效率。

此外，针对现实生产环境中，图像的尺寸基本是不同的，同时图像的分辨率也相对较高，为了能够不同尺寸的高清大图进行高效压缩、解压，本实施例进行如下设计。

模型训练：在模型训练阶段，利用OpenImage，ImageNet64等高清大数据集进行模型训练，得到自回归模型、自编码模型的参数。

压缩：

首先进行图像的预处理，将不同尺寸的高清大图像统一切片成相同尺寸(如32x32)，并单独存储每张图像大小信息，用于图像的还原；

将所有切片在batch维度堆叠在一起，作为流程的输入；

将所有图像的残差编码与隐变量的编码并行输出；

将每个数据集(同一数据集)/每张图像(不同数据集)隐变量的统计信息记录下来，作为流程的另一个输出。

所实现的效果可以参阅表4。

表4

显然，本申请提供的方法，可以实现更高的吞吐率，实现高效编解码。

更具体地，下面以一些常用的压缩方式进行更详细的对比。

参阅表5，在最大似然(评价生成模型预测准确率的指标，越小越好)与此前最快AI算法L3C基本一致的前提下，推理速度提升9.6倍。

表5

参阅表6，相同的自回归模型，用本申请提供的并行方案，与未并行的方案相比，解压速度提升7.9倍。并行方案对感受野有限制，但此感受野对压缩率的影响有限。

感受野	是否并行	BPD	吞吐率(MB/s)
				3	是	5.77	382.5
3	否	5.77	48.5
				4	否	5.77	47.5
7	否	5.74	44.0

表6

参阅表7，与动态熵编码(rANS)相比，本申请提出的半动态熵编码(ANS-AI)编码速度提升20倍，解码速度提升100倍，BPD损失小于0.55，0.17。且此半动态熵编码可在AI芯片上运行，在单张V100上，巅峰速度可达1GB/s。

表7

此外，半动态熵编码与动态熵编码相比，所需要的分布种类数由2048减小到8，预处理需要的内存大小减小至原来的1/256，BPD损失小于0.03，可以降低熵编码所需计算资源，提高编码效率。

前述对本申请提供的图像编码方法和图像解压方法的流程进行了介绍，下面对执行前述方法的装置进行介绍。

参阅图14，本申请提供的一种图像编码装置的结构示意图，该图像编码装置包括：

自回归模块1401，用于将输入图像作为自回归模型的输入，输出第一图像，自回归模型；

残差计算模块1402，用于获取第一图像和输入图像之间的残差，得到第一残差图像；

自编码模块1403，用于将输入图像作为自编码模型的输入，输出隐变量和第一残差分布，隐变量包括从输入图像中提取到的特征，第一残差分布包括自编码模型输出的用于表示输入图像中各个像素点和第一残差图像中对应的各个像素点之间的残差值；

残差编码模块1404，用于对第一残差图像和第一残差分布进行编码，得到残差编码数据；

隐变量编码模块1405，用于对隐变量进行编码，得到隐变量编码数据，隐变量编码数据和残差编码数据用于解压后得到输入图像。

在一种可能的实施方式中，残差编码模块1404，具体用于将第一残差图像和第一残差分布作为半动态熵编码器的输入，输出残差编码数据，该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种，即该半动态熵编码器中不包括乘、除或取余运算等耗时较长运算。

在一种可能的实施方式中，隐变量编码模块1405，具体用于将隐变量作为静态熵编码器的输入，得到隐变量编码数据。

在一种可能的实施方式中，自编码模型包括编码模型和解码模型，自编码模块1403，具体用于：将输入图像作为编码模型的输入，输出隐变量，编码模型用于从输入图形中提取特征；将隐变量作为解码模型的输入，得到第一残差分布，解码模型用于预测输入的图像与对应的像素分布之间的残差值。

参阅图15，本申请提供的一种图像解压装置的结构示意图，该图像解压装置包括：

收发模块1501，用于获取隐变量编码数据和残差编码数据，该隐变量编码数据包括编码端从输入图像中提取到的特征进行编码得到，该残差编码数据包括对自回归模型输出的第一图像和该输入图像之间的残差进行编码得到的数据；

隐变量解码模块1502，用于对隐变量编码数据进行解码，得到隐变量，该隐变量包括编码端从输入图像中提取到的特征；

自编码模块1503，用于将隐变量作为自编码模型的输入，输出第二残差分布；

残差解码模块1504，用于结合第二残差分布和残差编码数据进行解码，得到第二残差图像；

自回归模块1505，用于将第二残差图像作为自回归模型的反向传播的输入，输出解压图像。

在一种可能的实施方式中，隐变量解码模块1502，具体用于将隐变量编码数据作为静态熵编码器的输入，输出隐变量。

在一种可能的实施方式中，残差解码模块1504，具体用于将第二残差分布和残差编码数据作为半动态熵编码器的输入，输出第二残差图像，该半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，第一预设类型的编码运算包括加、减或位运算，且半动态熵编码器中不包括第二预设类型的编码运算，第二预设类型包括乘、除或取余运算中的至少一种，即该半动态熵编码器中不包括乘、除或取余运算等耗时较长运算。

在一种可能的实施方式中，自回归模块1505，具体用于通过自回归模型，对第二残差图像中处于同一连线上的像素点进行并行解码，得到解压图像。

请参阅图16，本申请提供的另一种图像编码装置的结构示意图，如下所述。

该图像编码装置可以包括处理器1601和存储器1602。该处理器1601和存储器1602通过线路互联。其中，存储器1602中存储有程序指令和数据。

存储器1602中存储了前述图6-图11中的步骤对应的程序指令以及数据。

处理器1601用于执行前述图6-图11中任一实施例所示的图像编码装置执行的方法步骤。

可选地，该图像编码装置还可以包括收发器1603，用于接收或者发送数据。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于生成车辆行驶速度的程序，当其在计算机上行驶时，使得计算机执行如前述图6-图11所示实施例描述的方法中的步骤。

可选地，前述的图16中所示的图像编码装置为芯片。

本申请实施例还提供了一种图像编码装置，该图像编码装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行前述图6-图11中任一实施例所示的图像编码装置执行的方法步骤。

本申请实施例还提供一种数字处理芯片。该数字处理芯片中集成了用于实现上述处理器1601，或者处理器1601的功能的电路和一个或者多个接口。当该数字处理芯片中集成了存储器时，该数字处理芯片可以完成前述实施例中的任一个或多个实施例的方法步骤。当该数字处理芯片中未集成存储器时，可以通过通信接口与外置的存储器连接。该数字处理芯片根据外置的存储器中存储的程序代码来实现上述实施例中图像编码装置执行的动作。

本申请实施例提供的图像编码装置可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使服务器内的芯片执行上述图6-图11所示实施例描述的图像编码方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

请参阅图17，本申请提供的另一种图像解压装置的结构示意图，如下所述。

该图像解压装置可以包括处理器1701和存储器1702。该处理器1701和存储器1702通过线路互联。其中，存储器1702中存储有程序指令和数据。

存储器1702中存储了前述图12-图13中的步骤对应的程序指令以及数据。

处理器1701用于执行前述图12-图13中任一实施例所示的图像解压装置执行的方法步骤。

可选地，该图像解压装置还可以包括收发器1703，用于接收或者发送数据。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于生成车辆行驶速度的程序，当其在计算机上行驶时，使得计算机执行如前述图12-图13所示实施例描述的方法中的步骤。

可选地，前述的图17中所示的图像解压装置为芯片。

本申请实施例还提供了一种图像解压装置，该图像解压装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行前述图12-图13中任一实施例所示的图像解压装置执行的方法步骤。

本申请实施例还提供一种数字处理芯片。该数字处理芯片中集成了用于实现上述处理器1701，或者处理器1701的功能的电路和一个或者多个接口。当该数字处理芯片中集成了存储器时，该数字处理芯片可以完成前述实施例中的任一个或多个实施例的方法步骤。当该数字处理芯片中未集成存储器时，可以通过通信接口与外置的存储器连接。该数字处理芯片根据外置的存储器中存储的程序代码来实现上述实施例中图像解压装置执行的动作。

本申请实施例提供的图像解压装置可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使服务器内的芯片执行上述图6-图11所示实施例描述的图像解压方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图6-图13所示实施例描述的方法中图像解压装置或者图像解压装置所执行的步骤。

本申请还提供了一种图像处理系统，包括了图像编码装置以及图像解压装置，该图像编码装置用于执行前述图6-图11对应的方法步骤，该图像解压装置用于执行前述图12-图13对应的方法步骤。

具体地，前述的处理单元或者处理器可以是中央处理器(central processingunit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(graphicsprocessing unit，GPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器等。

示例性地，请参阅图18，图18为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 180，NPU 180作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路1803，通过控制器1804控制运算电路1803提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路1803内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路1803是二维脉动阵列。运算电路1803还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1803是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1802中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1801中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1808中。

统一存储器1806用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)1805，DMAC被搬运到权重存储器1802中。输入数据也通过DMAC被搬运到统一存储器1806中。

总线接口单元(bus interface unit，BIU)1810，用于AXI总线与DMAC和取指存储器(instruction fetch buffer，IFB)1809的交互。

总线接口单元1810(bus interface unit，BIU)，用于取指存储器1809从外部存储器获取指令，还用于存储单元访问控制器1805从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1806或将权重数据搬运到权重存储器1802中或将输入数据数据搬运到输入存储器1801中。

向量计算单元1807包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如批归一化(batch normalization)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元1807能将经处理的输出的向量存储到统一存储器1806。例如，向量计算单元1807可以将线性函数和/或非线性函数应用到运算电路1803的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1807生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1803的激活输入，例如用于在神经网络中的后续层中的使用。

控制器1804连接的取指存储器(instruction fetch buffer)1809，用于存储控制器1804使用的指令；

统一存储器1806，输入存储器1801，权重存储器1802以及取指存储器1809均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，循环神经网络中各层的运算可以由运算电路1803或向量计算单元1807执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述图6-图13的方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

最后应说明的是：以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种图像编码方法，其特征在于，包括：

将输入图像作为自回归模型的输入，输出第一图像；

获取所述第一图像和所述输入图像之间的残差，得到第一残差图像；

将所述输入图像作为自编码模型的输入，输出隐变量和第一残差分布，所述隐变量包括从所述输入图像中提取到的特征，所述第一残差分布包括所述自编码模型输出的用于表示所述输入图像中各个像素点和所述第一残差图像中对应的各个像素点之间的残差值；

对所述第一残差图像和所述第一残差分布进行编码，得到残差编码数据；

对所述隐变量进行编码，得到隐变量编码数据，所述隐变量编码数据和所述残差编码数据用于解压后得到所述输入图像。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一残差图像和所述第一残差分布进行编码，得到残差编码数据，包括：

将所述第一残差图像和所述第一残差分布作为半动态熵编码器的输入，输出所述残差编码数据，所述半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，所述第一预设类型的编码运算包括加、减或位运算，且所述半动态熵编码器中不包括第二预设类型的编码运算，所述第二预设类型包括乘、除或取余运算中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述对所述隐变量进行编码，得到残差编码数据，包括：

将所述隐变量作为静态熵编码器的输入，得到所述隐变量编码数据。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述自编码模型包括编码模型和解码模型，所述将所述输入图像作为自编码模型的输入，输出隐变量和第一残差分布，包括：

将所述输入图像作为所述编码模型的输入，输出所述隐变量，所述编码模型用于从所述输入图形中提取特征；

将所述隐变量作为所述解码模型的输入，得到所述第一残差分布，所述解码模型用于预测输入的图像与对应的像素分布之间的残差值。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述自回归模型用于使用已预测的像素点的像素值预测处于同一连线上的像素点的值。

6.一种图像解压方法，其特征在于，包括：

获取隐变量编码数据和残差编码数据，所述隐变量编码数据为编码端从输入图像中提取到的特征进行编码得到，所述残差编码数据包括对所述输入图像与自回归模型前向传播输出的图像之间的残差进行编码得到的数据；

对所述隐变量编码数据进行解码，得到隐变量，所述隐变量包括所述输入图像中提取的特征；

将所述隐变量作为自编码模型的输入，输出第二残差分布；

结合所述第二残差分布和所述残差编码数据进行解码，得到第二残差图像；

将所述第二残差图像作为自回归模型的反向传播的输入，输出解压图像。

7.根据权利要求6所述的方法，其特征在于，所述对所述隐变量编码数据进行解码，得到隐变量，包括：

将所述隐变量编码数据作为静态熵编码器的输入，输出所述隐变量。

8.根据权利要求6或7所述的方法，其特征在于，所述结合所述第二残差分布和所述残差编码数据进行解码，得到第二残差图像，包括：

将所述第二残差分布和所述残差编码数据作为半动态熵编码器的输入，输出所述第二残差图像，所述半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，所述第一预设类型的编码运算包括加、减或位运算，且所述半动态熵编码器中不包括第二预设类型的编码运算，所述第二预设类型包括乘、除或取余运算中的至少一种。

9.根据权利要求6-8中任一项所述的方法，其特征在于，所述将所述第二残差图像作为自回归模型的反向传播的输入，输出解压图像，包括：

通过所述自回归模型，对所述第二残差图像中处于同一连线上的像素点进行并行解码，得到所述解压图像。

10.一种图像编码装置，其特征在于，包括：

自回归模块，用于将输入图像作为自回归模型的输入，输出第一图像，所述自回归模型；

残差计算模块，用于获取所述第一图像和所述输入图像之间的残差，得到第一残差图像；

自编码模块，用于将所述输入图像作为自编码模型的输入，输出隐变量和第一残差分布，所述隐变量包括从所述输入图像中提取到的特征，所述第一残差分布包括所述自编码模型输出的用于表示所述输入图像中各个像素点和所述第一残差图像中对应的各个像素点之间的残差值；

残差编码模块，用于对所述第一残差图像和所述第一残差分布进行编码，得到残差编码数据；

隐变量编码模块，用于对所述隐变量进行编码，得到隐变量编码数据，所述隐变量编码数据和所述残差编码数据用于解压后得到所述输入图像。

11.根据权利要求10所述的装置，其特征在于，

所述残差编码模块，具体用于将所述第一残差图像和所述第一残差分布作为半动态熵编码器的输入，输出所述残差编码数据，所述半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，所述第一预设类型的编码运算包括加、减或位运算，且所述半动态熵编码器中不包括第二预设类型的编码运算，所述第二预设类型包括乘、除或取余运算中的至少一种。

12.根据权利要求10所述的装置，其特征在于，

所述隐变量编码模块，具体用于将所述隐变量作为静态熵编码器的输入，得到所述隐变量编码数据。

13.根据权利要求10-12中任一项所述的装置，其特征在于，所述自编码模型包括编码模型和解码模型，所述自编码模块，具体用于：

14.根据权利要求10-13中任一项所述的装置，其特征在于，所述自回归模型用于使用已预测的像素点的像素值预测处于同一连线上的像素点的值。

15.一种图像解压装置，其特征在于，包括：

收发模块，用于获取隐变量编码数据和残差编码数据，所述隐变量编码数据包括编码端从输入图像中提取到的特征进行编码得到，所述残差编码数据包括自回归模型前向传播输出的第一图像和所述输入图像之间的残差进行编码得到；

隐变量解码模块，用于对所述隐变量编码数据进行解码，得到隐变量，所述隐变量包括所述输入图像中提取的特征；

自编码模块，用于将所述隐变量作为自编码模型的输入，输出第二残差分布；

残差解码模块，用于结合所述第二残差分布和所述残差编码数据进行解码，得到第二残差图像；

自回归模块，用于将所述第二残差图像作为自回归模型的反向传播的输入，输出解压图像。

16.根据权利要求15所述的装置，其特征在于，

所述隐变量解码模块，具体用于将所述隐变量编码数据作为静态熵编码器的输入，输出所述隐变量。

17.根据权利要求15或16所述的装置，其特征在于，

所述残差解码模块，具体用于将所述第二残差分布和所述残差编码数据作为半动态熵编码器的输入，输出所述第二残差图像，所述半动态熵编码器用于使用第一预设类型的编码运算进行熵编码，所述第一预设类型的编码运算包括加、减或位运算，且所述半动态熵编码器中不包括第二预设类型的编码运算，所述第二预设类型包括乘、除或取余运算中的至少一种。

18.根据权利要求10-17中任一项所述的装置，其特征在于，

所述自回归模块，具体用于通过所述自回归模型，对所述第二残差图像中处于同一连线上的像素点进行并行解码，得到所述解压图像。

19.一种图像编码装置，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1-5中任一项所述的方法的步骤。

20.一种图像解压装置，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述处理器执行时实现权利要求6-9中任一项所述的方法的步骤。

21.一种图像处理系统，其特征在于，包括图像编码装置和图像解压装置，所述图像编码装置用于实现权利要求1-5中任一项所述的方法的步骤，所述图像解压装置用于实现权利要求6-9中任一项所述的方法的步骤。

22.一种计算机可读存储介质，包括程序，当其被处理单元所执行时，执行如权利要求1至9中任一项所述的方法的步骤。

23.一种计算机程序产品，其特征在于，所述计算机程序产品包括软件代码，所述软件代码用于执行如权利要求1至9中任一项所述的方法的步骤。