CN113347422B

CN113347422B - 一种粗粒度上下文熵编码方法

Info

Publication number: CN113347422B
Application number: CN202110521800.8A
Authority: CN
Inventors: 刘家瑛; 王德昭; 胡越予; 郭宗明
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-07-12
Anticipated expiration: 2041-05-13
Also published as: CN113347422A

Abstract

本发明公开了一种粗粒度上下文熵编码方法。本方法为：1)从图像数据集中选取一原始图像并送入神经网络的编码器中进行编码；2)对编码后的张量进行划分；将每一子张量视为一待编码块；3)熵编码网络对每一待编码块进行上下文熵编码，获得待编码块的上下文信息；4)将每一上下文信息送入概率预测网络中，获得对应待编码块所有元素的概率分布参数；5)根据概率分布参数计算张量信息熵；将张量送入解码器，得到解码重建图像并计算失真项损失函数的损失值；6)根据步骤5)所得结果计算率失真损失函数的损失值并反向传播到神经网络各层；7)重复步骤1)‑6)直到神经网络收敛；8)将目标图像送入训练后的神经网络得到目标图像的编码。

Description

一种粗粒度上下文熵编码方法

技术领域

本发明属于图像视频编码领域，主要涉及端到端的图像视频方法。可以用于减少图片视频码率。

背景技术

在数字图像与视频的使用传播过程中，有损压缩是一项不可或缺的关键技术。有损压缩通过对图像和视频进行编码端的编码压缩以及解码端的解码恢复，极大地降低了数字图像与视频在存储和传输过程中的开销，使得其在日常生活得以被普遍使用。

随着深度学习的发展，基于端到端的深度图像与视频压缩技术也得到广泛且深入的研究。以图像压缩为例端到端的图像压缩利用深度神经网络，对像素域的图像实行变换，通过量化以及熵编码进行编码；并通过熵解码以及深度神经网络进行解码。训练时利用率失真函数进行约束，得到了与传统编码器相当甚至更优的效果。

其中，上下文熵编码器是常用的熵编码技术，其利用待编码元素的上下文信息，进行对当前元素概率分布的推理，从而减少编码该元素所需码流。上下文熵编码器尽管可以逼近待编码元素的概率分布，但是限于其并行性低的特点，需要串行解码，因此解码端所需时间较长，从而使得端到端图像与视频压缩模型难以落地运行。

发明内容

针对现有技术存在的技术问题，本发明的目的在于提供一种粗粒度上下文熵编码方法。与每次预测一个元素的概率分布不同，本发明每次上下文熵编码预测一个块内所有元素的概率分布；通过并行计算，极大加速了编解码，且对整体率失真性能影响较小。上下文熵编码过程主要基于一个深度卷积神经网络实现，如附图1所示。

本发明提出的网络的输入待编码块的上下文信息，输出为待编码块的概率分布参数值。接下来结合附图1描述本发明方法的主要步骤。

一、训练过程：

步骤1：收集一批自然图像数据集，将原始图像送入神经网络的编码器中进行编码，其本身则被视作网络输出的目标被保存。本发明的神经网络包含编码器、解码器、熵编码网络(包含超先验的提取、上下文的提取)、概率预测网络(利用超先验、上下文计算分布的参数)。

步骤2：对该原始图像编码后的张量进行划分。每个张量被划分得到的子张量中包含多个元素。子张量的维数可以是1维至张量本身的维数中的任意维。将每一子张量视为一待编码块。

步骤3：将运算窗口(通常是卷积运算)置于第一个待编码块，对待编码块进行上下文熵编码。

步骤4：获得当前待编码块的上下文信息，即相邻前序编码块的元素值。

步骤5：将上下文信息送入概率预测网络中，通过前向传递，获得待编码块所有元素的概率分布参数。概率预测网络是端到端模型中都会使用的一个模块，通常由多层卷积以及全连接层组成，功能是给出一个张量在某个先验分布(通常是高斯)下的参数(均值与方差)，参考Chen T,Liu H,Ma Z,et al.End-to-End Learnt Image Compression viaNon-Local Attention Optimization and Improved Context Modeling[J].IEEETransactions on Image Processing,2021,PP(99)。

步骤6：将运算窗口移动至下一个待编码块。

步骤7：重复步骤4-步骤6直到该原始图像对应的所有待编码块的概率分布得到估计。

步骤8：根据得到的该原始图像的各概率分布，计算编码后的张量信息熵，作为码率项损失函数的损失值。

步骤9：将该原始图像编码后的张量送入解码器，得到解码重建图像，计算该原始图像的失真项损失函数。

步骤10：计算率失真损失函数，反向传播到神经网络各层，以更新各层权值(可以采用Adam优化器进行更新，或使用SGD或其他优化器)，在下次迭代中使得结果更接近目标效果。本发明的神经网络结构可以使用不同的基线模型(比如编解码器的构造可以选择不同的超参数，但一般的端到端图像编解码网络都是由多层卷积与激活函数组成)。本发明的基线模型是Chen T,Liu H,Ma Z,et al.End-to-End Learnt Image Compression viaNon-Local Attention Optimization and Improved Context Modeling[J].IEEETransactions on Image Processing,2021,PP(99).

步骤11：重复步骤1-步骤10直到神经网络的率失真损失函数收敛。

二、编码过程

步骤1：将原始图像送入训练完毕的编码器中进行编码，获得待熵编码的张量。

步骤2：对编码后的张量进行划分。每个被划分的子张量中包含多个元素。子张量的维数可以是1维至张量本身的维数中的任意维。将该子张量视为待编码块。

步骤3：将运算窗口(通常是卷积运算)置于第一个待编码块，准备开始上下文熵编码。

步骤5：将上下文信息送入神经网络中，通过前向传递，获得待编码块所有元素的概率分布参数。

步骤6：将运算窗口移动至下一个待编码块。

步骤7：重复步骤4-步骤6直到所有待编码块的概率分布得到估计。

步骤8：根据得到的概率分布，利用算术编码对编码后的张量进行熵编码，得到张量对应的码流。

步骤9：将语法元素码流以及张量对应的码流写入码流文件。语法元素包含图像的元信息、长、宽、分块信息。

三、解码过程

步骤1：读取码流文件，载入解码器模型。

步骤2：获得第一块待解码块的上下文信息(边界处上下文信息空缺时通常采用0填充空缺部分)，送入上下文熵编码模型中，获得第一块待解码块的概率分布。

步骤3：读取第一块的熵编码元素，根据其概率分布进行算数解码，获得第一块待解码块的重建块(即是第一块待解码块的上下文信息)。

步骤4：将第一块重建块送入上下文熵编码模型的上下文缓冲区中。

步骤5：从熵编码模型的上下文缓冲区中获得下一块待解码块的上下文信息，送入上下文熵编码模型中，获得当前待解码块的概率分布。

步骤6：读取当前块的熵编码元素，根据其概率分布进行算数解码，获得当前块的重建块。

步骤7：将当前块的重建块送入上下文熵编码模型的上下文缓冲区中。

步骤8：重复步骤5-7，直到熵解码得到所有的重建块。

步骤9：将解码的块组合，送入解码器模型中，获得重建图像。

与现有技术相比，本发明的积极效果为：

与逐元素编解码上下文基线模型[1](Chen T,Liu H,Ma Z,et al.End-to-EndLearnt Image Compression via Non-Local Attention Optimization and ImprovedContext Modeling[J].IEEE Transactions on Image Processing,2021,PP(99))相比，解码阶段在高分辨率图像上可以达到60倍的加速，率失真性能损失仅在2％左右。

表1.不同分辨率图像编解码时间对比

附图说明

图1为本发明方法流程图。

图2为二维与三维块划分示意图；

(a)未划分，(b)二维划分，(c)三维划分。

图3为二维与三维块划分上下文信息示意图；

(a)二维划分，(b)三维划分。

具体实施方式

为了对本发明的技术方法进一步阐述，下面结合说明书附图和具体实例，对本发明的粗粒度上下文熵编码模型进行进一步的详细说明。

本实例将重点详细阐述该技术方法中粗粒度上下文熵编码模型中的概率估计部分在编码以及解码中的实现。本实例中包括了三维块划分与二维块划分的两种实现，其划分方式如附图2所示，对应的上下文信息如附图3所示。本实例利用一个掩模三维卷积网络实现具体的上下文信息提取。

一、三维块划分

1.编码过程

假设已经获得了经由编码器生成的待熵编码张量z，通道数为C，高度为H，宽度为W(简写为C×H×W，后续表述类似)。

每次概率估计中，第p个待预测块大小为C_p×H_p×W_p。

熵编码概率预测网络利用掩模三维卷积，将待预测的元素位置置为0，且不可训练。

掩模三维卷积的输入通道数为1，输出通道数为待预测块的元素个数，即C_p*H_p*W_p；在深度、高度、宽度三个维度的步长分别为C_p,H_p,W_p。

步骤1：将待预测张量z′的尺寸设置为1×C×H×W，其中通道数为1，深度为C，高度与宽度分别为H与W。

步骤2：将z′送入掩模三维卷积，获得输出张量

步骤3：将每个通道相同位置的元素(即深度、高度、宽度上位置一致的元素)

取出,d、h、w表示这些元素的深度、高度、宽度值。按通道顺序组成一个与待预测块尺寸相同的张量

步骤4：将所有的

按顺序组成与z尺寸大小相同的张量z_context。此时，z_context中每个元素的值，都基于z中相同位置的元素的上下文生成。

步骤5：将z_context送入后续概率预测网络，生成张量里所有的元素的概率估计(即所有块的概率分布参数)。

2.解码过程：

假设我们已经读取码流文件，并载入掩模三维卷积层的参数。

步骤1：将n设为1

步骤2：读入第n个待解码块z_n的上下文信息c_n，将其送入掩模三维卷积层，获得输出c_n’，尺寸为Cp*Hp*Wp×1×1×1。

步骤3：将c_n’每个通道的元素取出,按通道顺序组成一个与待预测块尺寸相同的张量，即

步骤4：将

送入后续概率预测网络，生成z_n的概率分布。并根据z_n的概率分布参数，对第n个待解码块的码流进行算术解码,获得重建的z_n。

步骤5：将重建的z_n送入上下文缓冲区，以作为后续块的上下文信息。

步骤6：将n的值加一。

步骤7：重复步骤2-6，直到所有块被解码。

步骤8：将{z₁,z₂,…z_n}按顺序组合为z，即获得了熵解码的张量。

步骤9：将z送入解码器网络中，获得重建图像y。

二、二维块划分

1.编码过程

每次概率估计中，待预测块大小为H_p×W_p。

掩模三维卷积的输入通道数为1，输出通道数为待预测块的元素个数，即H_p*W_p；在深度、高度、宽度三个维度的步长分别为1,H_p,W_p。

步骤2：将z′送入掩模三维卷积，获得输出张量

步骤4：将所有的

步骤5：将z_context送入后续概率预测网络，生成具体的概率估计。

2.解码过程：

步骤1：将n设为1

步骤2：读入第n个待解码块z_n的上下文信息c_n，将其送入掩模三维卷积层，获得输出c_n”，尺寸为Hp*Wp×1×1×1。

步骤3：将c_n”每个通道的元素取出,按通道顺序组成一个与待预测块尺寸相同的张量，即

步骤4：将

步骤6：将n的值加一。

步骤7：重复步骤2-6，直到所有块被解码。

步骤9：将z送入解码器网络中，获得重建图像y。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种粗粒度上下文熵编码方法，其步骤包括：

1)从图像数据集中选取一原始图像并送入神经网络的编码器中进行编码；所述神经网络包括编码器、解码器、熵编码网络和概率预测网络；

2)对该原始图像编码后的张量进行划分；其中每个张量被划分得到的子张量中包含多个元素，将每一子张量视为一待编码块；

3)熵编码网络对每一待编码块进行上下文熵编码，获得该待编码块的上下文信息；

4)将每一所述上下文信息送入概率预测网络中，通过前向传递，获得对应待编码块所有元素的概率分布参数；

5)概率预测网络根据该原始图像对应的所有概率分布参数，计算编码后的张量信息熵，作为码率项损失函数的损失值；将该原始图像编码后的张量送入解码器，得到解码重建图像，并计算失真项损失函数的损失值；

6)根据步骤5)得到的码率项损失函数的损失值和失真项损失函数的损失值，计算率失真损失函数的损失值并反向传播到神经网络各层，以更新各层权值；

7)重复步骤1)-步骤6)直到神经网络的率失真损失函数收敛；

8)将目标图像送入训练后的神经网络中进行编码，并对编码后的张量进行划分，将划分后的每一子张量视为一待编码块并计算每一待编码块所有元素的概率分布参数，然后根据该目标图像对应的所有概率分布参数，对编码后的张量进行编码得到张量对应的码流；

9)将该目标图像的语法元素码流以及张量对应的码流写入码流文件，完成该目标图像的编码。

2.如权利要求1所述的方法，其特征在于，步骤2)、步骤8)中，对编码后的张量进行三维划分；设编码后的张量为z，其通道数为C、高度为H、宽度为W，第p个待预测块大小为C_p×H_p×W_p；所述概率预测网络为掩模三维卷积网络；将待预测张量z′的尺寸设置为1×D×H×W，其中通道数为1、深度为D、高度为H、宽度为W；将z′送入掩模三维卷积，获得输出张量

将每个通道相同位置的元素

取出并按通道顺序组成一个与待预测块尺寸相同的张量

将所有的

按顺序组成与z尺寸大小相同的张量z_context；将z_context送入概率预测网络，生成概率分布参数；其中，d、h、w表示元素的深度、高度、宽度值。

3.如权利要求1所述的方法，其特征在于，步骤2)、步骤8)中，对编码后的张量进行二维划分；设编码后的张量为z，其通道数为C、高度为H、宽度为W，第p个待预测块大小为H_p×W_p；所述概率预测网络为掩模三维卷积网络；将待预测张量z′的尺寸设置为1×D×H×W，其中通道数为1、深度为D、高度为H、宽度为W；将z′送入掩模三维卷积，获得输出张量

将每个通道相同位置的元素

取出并按通道顺序组成一个与待预测块尺寸相同的张量

将所有的

4.如权利要求1或2或3所述的方法，其特征在于，所述子张量的维数为1维至张量本身的维数中的任意维。

5.如权利要求1或2或3所述的方法，其特征在于，利用算术编码对编码后的张量进行编码，得到张量对应的码流。

6.一种对基于权利要求1所述粗粒度上下文熵编码方法所得码流进行解码的方法，其步骤包括：

1)将目标图像的码流文件载入解码器，获得第i块待解码块的上下文信息并将其送入上下文熵编码模型中，获得第i块待解码块的概率分布；

2)读取第i块待解码块的熵编码元素，根据其概率分布进行算术解码，获得第i块待解码块的重建块并将其送入上下文熵编码模型的上下文缓冲区中；

3)从所述上下文缓冲区中获得第i+1块待解码块的上下文信息，并将其送入上下文熵编码模型中，获得第i+1块待解码块的概率分布；

4)读取第i+1块待解码块的熵编码元素，根据其概率分布进行算术解码，获得第i+1块待解码块的重建块并将其送入上下文熵编码模型的上下文缓冲区中；

5)重复步骤3)-4)，直到得到该目标图像对应的所有待解码块的重建块；

6)将步骤5)所得重建块送入解码器中，获得重建图像。