CN114363624B

CN114363624B - 一种基于敏感度的码率分配特征压缩方法

Info

Publication number: CN114363624B
Application number: CN202011090817.4A
Authority: CN
Inventors: 刘家瑛; 胡煜章; 杨文瀚; 郭宗明
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2023-03-31
Anticipated expiration: 2040-10-13
Also published as: CN114363624A

Abstract

本发明公开了一种基于敏感度的码率分配特征压缩方法，其步骤包括：1)将图像的神经网络中间层特征输入深层神经网络进行计算，得到无损网络输出；2)对于所述神经网络中间层特征的每一单通道i，进行如下处理：为单通道i对应的特征施加编码噪声，得到该单通道i的加噪特征；然后将单通道i的加噪特征输入深层神经网络进行计算，得到单通道i的加噪输出；然后计算单通道i的加噪输出与所述无损网络输出的差值，作为单通道i的编码噪声敏感度；3)根据各单通道的编码噪声敏感度进行码率分配，为每个单通道分配压缩质量参数；4)根据各单通道分配所得的压缩质量参数，对量化后的所述神经网络中间层特征进行压缩，得到中间层特征压缩码流。

Description

一种基于敏感度的码率分配特征压缩方法

技术领域

本发明属于神经网络特征压缩领域，涉及一种深度学习方法，尤其涉及一种基于敏感度的码率分配特征压缩方法。

背景技术

特征压缩旨在将神经网络中间网络层的计算输出结果，即特征向量进行压缩。这种做法对于神经网络的客户端-云端架构的应用和部署有很重要的意义。首先，客户端完成神经网络浅层的计算，得到中间特征，将该特征而非原始图像传输给云端，可以隐藏原始图像中的一些敏感信息，从而保护隐私安全。此外，这种做法可以将部分计算压力从云端转移到客户端，云端只需要利用特征完成后续深层神经网络的计算，即可得到网络的最终输出结果，从而降低云端服务器的计算压力。近几年，特征压缩越来越受到学术界的关注。

由于神经网络特征由多个通道堆叠而成，即存在长度和宽度以外的第三维度。因此，可以将特征视作视频序列，并利用现有的视频编码器，对其进行压缩编码。但是，神经网络输出的原始特征，其数据类型为浮点数，而视频编码器仅能够处理整数类型的像素数据。因此，在对特征进行压缩编码前，需要先通过量化的方式，将特征量化为0-255之间的整数，并将量化后的特征进行压缩编码。在云端，对于传输得到的压缩特征，首先使用视频解码器进行解码，并对解码得到的整数数据进行反量化，从而恢复到浮点类型的特征，输入后续神经网络，进行后续计算。

由于视频编码器的压缩过程是有损压缩，因此解码得到的重建特征与原始特征是不同的，将这种信息损失称为编码噪声。这会导致在云端利用重建特征所计算得到的神经网络最终输出会与利用原始特征计算得到的输出存在差异。以图像分类任务为例，利用重建特征所得到的分类结果可能与利用原始特征得到的分类结果不一致，产生分类错误的问题。

然而，有损压缩造成的信息损失，对于某些通道的影响并不大，而对于其它某些通道，轻微的信息损失就会导致神经网络最终计算结果的巨大偏差。已有的神经网络特征压缩方法，没有考虑特征通道之间的差异性，对于特征的每一个通道都采用了相同的编码质量参数，这意味着每一个通道都采用了数量相当的比特进行编码，这意味着没用充分利用有限的压缩码流进行有效信息的储存。

发明内容

针对上述问题和相关方法的缺陷，本发明提出了一种基于敏感度的码率分配特征压缩方法，能够充分利用压缩码流记录有效信息。它首先通过单通道模拟编码噪声的方式，测试每个通道对于编码噪声的敏感度，之后根据各通道的敏感度进行码率分配，为各通道分配对应的压缩质量参数，最后根据各通道分配所得的质量参数对于量化后的特征进行压缩，得到压缩码流。

本发明采用的技术方案包括以下步骤：

(1)将神经网络中间层特征不做任何处理，输入后续深层神经网络完成计算，得到无损网络输出。其中神经网络是普遍用于各种计算机视觉任务的神经网络，比如VGG网络(参考Karen Simonyan,Andrew Zisserman.“Very Deep Convolutional Networks forLarge-Scale Image Recognition”.2014.Arvix preprint:https://arxiv.org/abs/1409.1556.)或ResNet网络(参考Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun.“Deep Residual Learning for Image Recognition”.Proc.of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016.)。后续深层神经网络是指神经网络(诸如VGG网络)所有网络层中，由一中间层开始直到神经网络(诸如VGG网络)最后一层的网络，对应于附图2中的深层神经网络。而中间层特征则是输入图像经过附图1的浅层神经网络计算所得。完整的整个神经网络(比如VGG)是由图1中的浅层神经网络和图2中的深层神经网络共同组成的。

(2)对于待压缩的神经网络中间层特征的每一通道，即神经网络中间层特征的单通道特征，为该单通道施加编码噪声，对其他通道不做处理，从而得到该单通道加噪特征(其特征维度与中间层特征是相同的，唯一的差别是该单通道已被施加了编码噪声)。将该单通道加噪特征输入深层网络，完成后续神经网络计算，得到单通道加噪输出，计算该加噪输出与无损网络输出的差值，作为该通道的敏感度。

(3)枚举每个通道，重复步骤(2)，直到测试得到所有通道的敏感度。

(4)根据各通道的编码噪声敏感度进行码率分配，为每个通道分配压缩质量参数。

(5)根据各通道分配所得的压缩质量参数，对于量化后的原始特征进行压缩，得到压缩码流。

与现有技术相比，本发明的积极效果为：

本发明相比于为所有通道分配相同的码流(即所有通道的QP相同)的方法，能够在相同压缩率的情况下，使得利用解码得到的中间特征进行后续神经网络计算的误差更小。如背景技术部分所言，对于图像分类任务，利用重建特征所得到的分类结果可能与利用原始特征得到的分类结果不一致，产生分类错误的问题，而本方法则可以降低这种错误率。

表1中，本发明从ImageNet数据集中使用了一千张图片，利用本方法对于第一层卷积层和第一层池化层的特征进行了压缩，以分类准确率作为纵坐标，压缩率作为横坐标，计算编码性能提升，比较对象为所有通道分配相同的QP的方法，编码性能提升结果如表1中右边所示。

表1为效果对比表

网络层	编码性能提升
		第一层卷积层	-6.3％
第一层池化层	-3.2％

附图说明

图1为本发明所使用的编码噪声敏感度测试的示意图。

图2为本发明所使用的压缩框架示意图。

具体实施方式

下面对本发明的详细方法流程作进一步地描述：

步骤1：获取无损网络输出。对于网络中间层特征X∈R^C×H×W，其长度和宽度分别为H和W，一共由C个通道组成。将该特征输入后续神经网络网络层Net得到无损网络输出out_raw。

步骤2：测试单个通道的编码噪声敏感度。对于网络中间层特征X的第i个单通道x_i∈R^1×H×W，利用HEVC视频编码器对其进行压缩，并重新解码，得到添加了编码噪声的x_i。用x_i代替网络中间层特征X的第i个单通道，得到第i个单通道的加噪特征

将/>

输入后续神经网络层Net，得到单通道加噪输出out_(i)。将out_raw和out_(i)的均方差值作为第i个单通道的编码噪声敏感度，记作S_i。

步骤3：测试所有通道的编码噪声敏感度。

对于特征的所有通道进行枚举，为每个通道重复步骤2的操作，从而测试得到所有通道的编码噪声敏感度。

步骤4：码率分配。

在步骤3完成后，该特征的编码噪声敏感度集合S已经测得，其中S中的第i个元素S_i表示第i个通道的编码噪声敏感度。接下来需要对其进行正则化得到

从而将其数值约束至[0,1]区间内，其中min(S)是S集合中的最小值，max(S)是S集合中的最大值：

之后，对于每个单通道，进行编码质量参数计算。预先定义了QP_base和QP_range参数，其中QP_base表示对于该特征进行压缩的基础质量参数，指定了整体的压缩率，如果想获得较大的压缩率，那么选取较大的QP_base值。QP_range表示码率分配的调节范围，表示对于敏感度更高的通道，需要额外增加多少的码流。对于第i个通道，其编码质量参数QP_i计算方式如下所示：

QP_i＝QP_base-round(QP_range·S_i).

Round()是公知函数，表示进行舍入操作，即将浮点数向下取整到整数。由于更小的编码质量参数意味着分配更多的码流，因此这种方式能够为敏感度更高的通道分配更多的码流，减少编码噪声对该通道产生的计算偏差影响。

步骤5：利用步骤4计算得到的各通道编码质量参数QP_i，利用HEVC视频编码器对网络中间层特征X进行压缩，得到最终的压缩结果X。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于敏感度的码率分配特征压缩方法，其步骤包括：

1)将图像的神经网络中间层特征输入深层神经网络进行计算，得到无损网络输出；

2)对于所述神经网络中间层特征的每一单通道i，进行如下处理：为单通道i对应的特征施加编码噪声，得到该单通道i的加噪特征；然后将该单通道i的加噪特征输入深层神经网络进行计算，得到该单通道i的加噪输出；然后计算该单通道i的加噪输出与所述无损网络输出的差值，作为该单通道i的编码噪声敏感度；

3)根据各单通道的编码噪声敏感度进行码率分配，为每个单通道分配压缩质量参数；

4)根据各单通道分配所得的压缩质量参数，对量化后的所述神经网络中间层特征进行压缩，得到中间层特征压缩码流。

2.如权利要求1所述的方法，其特征在于，为单通道i对应的特征施加编码噪声的方法为：首先对单通道i对应的特征进行压缩，然后解码，实现对单通道i对应的特征施加编码噪声。

3.如权利要求2所述的方法，其特征在于，利用视频编码器对单通道i对应的特征进行压缩。

4.如权利要求1所述的方法，其特征在于，该单通道i的编码噪声敏感度为该单通道i的加噪输出与所述无损网络输出的均方差值。

5.如权利要求1所述的方法，其特征在于，确定该单通道i的压缩质量参数的方法为：设置两参数QP_base和QP_range，其中QP_base表示对于特征进行压缩的基础质量参数、QP_range表示码率分配的调节范围；然后根据QP_i＝QP_base-round(QP_range·S_i)得到该单通道i的压缩质量参数QP_i；其中

S为所述神经网络中间层特征各单通道的编码噪声敏感度集合。

6.一种客户端，其特征在于，包括单通道编码噪声敏感度计算模块、码率分配模块和编码器；其中，

所述单通道编码噪声敏感度计算模块，用于计算图像的神经网络中间层特征每一单通道的编码噪声敏感度；其计算方法为：首先将图像的神经网络中间层特征输入深层神经网络进行计算，得到无损网络输出；然后对于神经网络中间层特征的每一单通道i，为该单通道i对应的特征施加编码噪声，得到该单通道i的加噪特征；然后将该单通道i的加噪特征输入深层神经网络进行计算，得到该单通道i的加噪输出；然后计算该单通道i的加噪输出与所述无损网络输出的差值，作为该单通道i的编码噪声敏感度；

码率分配模块，用于根据各单通道的编码噪声敏感度进行码率分配，为每个单通道分配压缩质量参数；

编码器，用于根据各单通道分配所得的压缩质量参数，对量化后的所述神经网络中间层特征进行压缩，得到中间层特征压缩码流。

7.一种图像处理系统，其特征在于，包括客户端和云端，其中，

所述客户端，用于将图像的神经网络中间层特征输入深层神经网络进行计算，得到无损网络输出；然后对于神经网络中间层特征的每一单通道i，为该单通道i对应的特征施加编码噪声，得到该单通道i的加噪特征；然后将该单通道i的加噪特征输入深层神经网络进行计算，得到该单通道i的加噪输出；然后计算该单通道i的加噪输出与所述无损网络输出的差值，作为该单通道i的编码噪声敏感度；然后根据各单通道的编码噪声敏感度进行码率分配，为每个单通道分配压缩质量参数；然后根据各单通道分配所得的压缩质量参数，对量化后的所述神经网络中间层特征进行压缩，得到中间层特征压缩码流并将其传输到云端；

所述云端，用于对收到的中间层特征压缩码流进行解码，并利用解码得到的重建特征继续进行后续神经网络深层的计算，得到图像的最终处理结果。