CN111161363A

CN111161363A - 一种图像编码模型训练方法及装置

Info

Publication number: CN111161363A
Application number: CN201811342385.4A
Authority: CN
Inventors: 周雷; 武俊敏
Original assignee: Hefei Tucodec Information Technology Co ltd
Current assignee: Hefei Tucodec Information Technology Co ltd
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2020-05-15

Abstract

本发明实施例提供了一种图像编码模型训练方法及装置，所述方法包括：通过特征提取网络提取图像的特征；根据概率模型对所述特征进行估计，得到码率估计结果；将所述特征输入解码网络，得到重建图；将所述重建图与所述图像进行比较，并根据所述码率估计得到率‑失真优化结果；根据所述率‑失真优化结果对所述特征提取网络的参数进行调整，该方法可对任意类型数据进行压缩，并有很大的性能提升空间。

Description

一种图像编码模型训练方法及装置

技术领域

本发明涉及图像压缩领域，特别涉及一种图像编码模型训练方法及装置。

背景技术

目前的图像编码模型训练方法存在技术复杂度高、低码率容易造成细节的丢失、低码率下，对文字等细节重建质量一般等问题。

发明内容

为了解决上述问题，本发明实施例提供了一种图像编码模型训练方法。

根据本发明的第一方面，提供了一种图像编码模型训练方法，包括：

通过特征提取网络提取图像的特征；

根据概率模型对所述特征进行估计，得到码率估计结果；

将所述特征输入解码网络，得到重建图；

将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果；

根据所述率-失真优化结果对所述特征提取网络的参数进行调整。

进一步地，所述通过特征提取网络提取图像的特征包括：

通过特征提取网络进行图像特征的映射，得到所述图像的特征，其中，所述特征提取网络为自编码网络。

进一步地，所述根据概率模型对所述特征进行估计，得到码率估计结果包括：

根据概率模型对分布进行估计，并根据熵进行码率估计，得到所述码率估计结果。

进一步地，所述将所述特征输入解码网络，得到重建图包括：

根据自解码网络，对所述特征进行解码，得到重建图；

进一步地，所述将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果包括：

将所述重建图和所述图像进行比较，得到失真残差；

根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。

进一步地，所述自编码网络和自解码网络为多层卷积神经网络，其中所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。

进一步地，在所述将所述特征输入解码网络，得到重建图之前，还包括：

对所述特征进行量化，得到量化后的特征。

根据本发明的第二方面，提供了一种图像编码模型训练装置，包括：

提取单元，用于通过特征提取网络提取图像的特征；

估计单元，用于根据概率模型对所述特征进行估计，得到码率估计结果；

解码单元，用于将所述特征输入解码网络，得到重建图；

比较单元，用于将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果；

调整单元，用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。

进一步地，所述提取单元还用于：

进一步地，所述比较单元还用于：

将所述重建图和所述图像进行比较，得到失真残差；

根据所述码率估计结果和所述失真残差得到所述率-失真优化结果；

其中，所述自编码网络和自解码网络为多层卷积神经网络，所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。

本发明实施例提供一种图像编码模型训练方法及装置，可对任意类型数据进行压缩，并有很大的性能提升空间。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的方法流程图；

图2是本发明实施例提供的方法流程图；

图3是本发明实施例提供的模型训练示意图；

图4是本发明实施例提供的模型训练示意图；

图5是本发明实施例提供的装置示意图；

图6是本发明实施例提供的装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种图像编码模型训练方法，如图1所示，所述方法包括：

步骤102，通过特征提取网络提取图像的特征。

具体的，可以通过自编码网络提取图像的特征。

自编码网络的作用是将数据从图像空间x，转换到数据编码空间y，它包含一个编码器f_e。编码器的作用是将图像像素值x转换为压缩特征y＝f_e(x)。

步骤104，根据概率模型对所述特征进行估计，得到码率估计结果。

具体的，包括：

码率可用熵的结构进行建模，公式为：

其中，R表示码率，Q表示量化，P表示概率模型，

表示量化后的特征。

可以使用带参数的方式对先验分布进行拟合，然后用数据驱动的方式对先验概率模型进行学习。

步骤106，将所述特征输入解码网络，得到重建图。

具体的，

根据自解码网络，对码所述特征进行解码，得到重建图。

步骤108，将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果。

具体的，

将所述重建图和所述图像进行比较，得到失真残差；

在压缩模型中，失真D可以用均方误差

进行表示，其中，x表示所述图像(也称为原始图像或输入图像)，

表示重建图，或使用如MS-SSIM之类的主观失真进行计算。根据对码率和失真进行加权的损失函数R+λD对自编码压缩算法进行端到端的优化，其中R表示码率，D表示失真，λ表示权重，在优化过程中，首先定义损失函数，然后可使用反向传播算法对网络参数进行优化。

步骤110，根据所述率-失真优化结果对所述特征提取网络的参数进行调整。

具体的，根据所述率-失真优化结果对所述特征提取网络的参数进行训练，并根据训练结果对所述参数进行优化。

进一步地，在步骤106之前，还包括：对所述压缩特征进行量化，得到量化后的压缩特征。

具体的，在训练过程中，使用加性均匀噪声设计量化器，表示方式为

其中

是量化后的参数，y_i是编码特征，∈是随机噪声。其中变量

的熵能用变量y_i的熵进行估计，因此在实际使用该模型的过程中，可以使用

作为量化操作，这样一种方式下，也能对码率进行准确的估计。

实施例二

本发明实施例提供了一种图像编码模型训练方法，如图2所示，所述方法包括：

步骤202，通过特征提取网络提取图像的特征。

具体的，采用如图3所示的三层卷积神经网络对图像的特征进行提取，在一种可选的方式中，将每层卷积神经网络得到的结果都作为输入来计算得到最终的特征，即通过将每层卷积后得到的归一化特征再次进行卷积并作为级联的输入。

步骤204，根据概率模型对所述特征进行估计，得到码率估计结果。

具体的，包括：

自然图像的数据分布一般被认为是符合高斯分布，所以可以采用零均值，方差表示为

的拉普拉斯分布

对特征y_i的概率分布进行建模，概率的公式如下所示：

其中μ表示平均分布，

表示超参数网络的压缩特征。

进一步地，可以采用自编码网络对方差

进行学习，自编码网络的结构如图4所示，

表示压缩特征作为超参数自编码网络的输入，对标准差分布进行学习，在超参自编码网络中，变量z的表示公式为：z＝h_e(y)，其中h_e表示超参数学习网络的编码器，然后进行量化，量化公式为

然后被量化后的表示可作为附加变量进行传输。

特征的码率可用熵的结构进行建模

步骤206，对特征进行量化，得到量化后的特征。

具体的，包括：

在训练过程中，使用加性均匀噪声设计量化器，表示方式为

其中∈是随机噪声。其中变量

的熵能用变量

的熵进行估计，因此在实际使用该模型的过程中，可以使用

步骤208，将量化后的特征输入解码网络，得到重建图。

具体的，

根据自解码网络，对量化后的特征进行解码，得到重建图。

步骤210，将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果。

具体的，

将所述重建图和所述图像进行比较，得到失真残差；

在压缩模型中，失真D可以用均方误差

进行表示，或使用如MS-SSIM之类的主观失真进行计算。对码率和失真进行加权的损失函数R+λD用以对自编码压缩算法进行端到端的优化，在优化过程中，首先定义损失函数，然后可使用反向传播算法对网络参数进行优化。

考虑到码率约束，可以构建一个进行码率有效分配的优化算法，目的是为码率约束的条件下，为每个图像选择最优的模型。每张图的最优配置，通过优化以下的优化问题进行选择，具体公式为：

其中，D表示失真，x_i表示所述图像，

表示重建图，

表示第i张图选择第j个编码模型。

步骤212，根据所述率-失真优化结果对所述特征提取网络的参数进行调整。

具体的，采用梯度反向传播算法对卷积神经网络的参数进行更新。

实施例三

本发明实施例提供了一种图像编码模型训练装置，如图5所示，包括：

提取单元501，用于通过特征提取网络提取图像的特征。

具体的，可以通过自编码网络提取图像的特征。

估计单元502，用于根据概率模型对所述特征进行估计，得到码率估计结果。

具体的，包括：

码率可用熵的结构进行建模，公式为：

其中，R表示码率，Q表示量化，P表示概率模型，

表示量化后的特征。

解码单元503，用于将所述特征输入解码网络，得到重建图。

具体的，

根据自解码网络，对特征进行解码，得到重建图。

比较单元504，用于将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果。

具体的，

将所述重建图和所述图像进行比较，得到失真残差；

在压缩模型中，失真D可以用均方误差

调整单元505，用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。

进一步地，还包括量化单元506，用于对特征进行量化，得到量化后的特征。

其中

是量化后的参数，y_i是编码特征，∈是随机噪声。其中变量

的熵能用变量

的熵进行估计，因此在实际使用该模型的过程中，可以使用

实施例四

本发明实施例提供了一种图像编码模型训练装置，如图6所示，包括：

提取单元601，用于通过特征提取网络提取图像的特征。

量化单元602，用于对特征进行量化，得到量化后的特征。

具体的，包括：

在训练过程中，使用加性均匀噪声设计量化器，表示方式为

其中∈是随机噪声。其中变量

的熵能用变量

的熵进行估计，因此在实际使用该模型的过程中，可以使用

估计单元603，用于根据概率模型对所述特征进行估计，得到码率估计结果。

具体的，包括：

的拉普拉斯分布

对特征y_i的概率分布进行建模，概率的公式如下所示：

其中μ表示平均分布，

表示超参数网络的压缩特征。

进一步地，可以采用自编码网络对方差

进行学习，自编码网络的结构如图4所示，压缩表示

作为超参数自编码网络的输入，对标准差分布进行学习，在超参自编码网络中，变量z＝h_e(y)的学习公式表示为，其中h_e表示超参数学习网络的编码器，然后进行量化，量化公式为

然后被量化后的表示可作为附加变量进行传输。

码率可用熵的结构进行建模

解码单元604，用于将所述特征输入解码网络，得到重建图。

具体的，

根据自解码网络，对量化后的特征进行解码，得到重建图。

比较单元605，用于将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果。

具体的，

将所述重建图和所述图像进行比较，得到失真残差；

在压缩模型中，失真D可以用均方误差

考虑到码率约束，可以构建一个进行码率有效分配的优化算法，训练多个压缩模型，在一定的码率约束下，为每张图选择最优的压缩模型，每张图的最优配置，通过优化以下的优化问题进行选择，具体公式为：

其中，D表示失真，x_i表示所述图像，

表示重建图，

表示第i张图选择第j个编码模型。

调整单元606，用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。

Claims

1.一种图像编码模型训练方法，其特征在于，所述方法包括：

通过特征提取网络提取图像的特征；

根据概率模型对所述特征进行估计，得到码率估计结果；

将所述特征输入解码网络，得到重建图；

2.根据权利要求1所述的方法，其特征在于，所述通过特征提取网络提取图像的特征包括：

3.根据权利要求1所述的方法，其特征在于，所述根据概率模型对所述特征进行估计，得到码率估计结果包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述特征输入解码网络，得到重建图包括：

根据自解码网络，对所述特征进行解码，得到重建图。

5.根据权利要求1所述的方法，其特征在于，所述将所述重建图与所述图像进行比较，并根据所述码率估计得到率-失真优化结果包括：

将所述重建图和所述图像进行比较，得到失真残差；

6.根据权利要求5所述的方法，其特征在于，所述自编码网络和自解码网络为多层卷积神经网络，其中所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。

7.根据权利要求1-6任意一项所述的方法，其特征在于，在所述将所述特征输入解码网络，得到重建图之前，还包括：

对所述特征进行量化，得到量化后的特征。

8.一种图像编码模型训练装置，其特征在于，包括：

提取单元，用于通过特征提取网络提取图像的特征；

解码单元，用于将所述特征输入解码网络，得到重建图；

9.根据权利要求8所述的装置，其特征在于，所述提取单元还用于：

10.根据权利要求8所述的装置，其特征在于，所述比较单元还用于：

将所述重建图和所述图像进行比较，得到失真残差；