CN116503671A

CN116503671A - 基于有效秩张量近似的残差网络压缩的图像分类方法

Info

Publication number: CN116503671A
Application number: CN202310745340.6A
Authority: CN
Inventors: 王忠荣; 欧馨蔚; 何飞; 刘翼鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-07-28
Anticipated expiration: 2043-06-25
Also published as: CN116503671B

Abstract

本发明公开了一种基于有效秩张量近似的残差网络压缩的图像分类方法，属于基于深度学习的图像处理技术领域。本发明首先设置训练数据集，接着设置包括特征提取网络和分类输出网络的图像分类网络，并其进行有效秩张量近似残差网络压缩训练处理，以获取训练好的图像分类器；对待分类图像进行图像预处理后输入图像分类器，基于其输出获取图像分类结果。本发明以基于所设置的高效低秩度量方式，在高压缩率下使得残差网络的精度损失较小，从而促进用于图像分类的残差网络在存储空间有限的设备上的应用。

Description

基于有效秩张量近似的残差网络压缩的图像分类方法

技术领域

本发明属于基于深度学习的图像处理技术领域，具体涉及一种基于有效秩张量近似的残差网络压缩的图像分类方法。

背景技术

近年来，深度学习在图像分类任务上得巨大突破，其中备受关注的残差网络通过引入短路连接大幅提高了任务性能。在实际应用，为了更准确地提取图像特征，需要使用加宽、加深后的残差网络。如此大型的网络会具有大量的参数，而存储这些参数需要巨大的存储量，这阻碍着残差网络应用于一些资源受限的图像分类任务场景（如自动驾驶、医学诊断等）。于是，需要进行网络压缩，即用更少的参数来表示残差网络。其中，低秩近似是一种理论基础夯实且易于实施的方法。

利用低秩近似压缩残差网络的主要思想是，基于残差网络各层的权重张量的低秩性，对每个张量进行张量分解，用几个小型张量来近似表示原大型张量，从而实现参数个数的减少。其中，这些小型张量的尺寸大小与张量的秩正相关。然而，常规训练得到的权重张量的秩仍较大，因此，为了保证近似误差较小，不宜使用过小的秩进行张量分解，这也就导致了取得的压缩率有限。于是，低秩训练被提出以解决这一问题。

低秩训练旨在训练出一组低秩权重张量，使得后续的张量分解可以选择较小的秩，继而获得高压缩率。在低秩训练中，需要对权重张量进行低秩约束。可行的方式是首先将权重张量变形为矩阵，然后在损失函数上添加有关于各个矩阵的低秩正则项。当张量的秩越小，低秩正则项的值就会越小。

现有的方法基于核范数、基尼系数构成低秩正则项。以矩阵维度为m×n的矩阵为例，设矩阵/>的奇异值分解为/>，其中/>是以奇异值向量/>（r维向量）为对角线元素的对角矩阵，/>，满足/>，/>中非零元素的个数即为矩阵的秩。/>的核范数/>、霍尔系数/>分别表示为：

这两种度量方式都当的秩越低（即奇异值向量含有更多零元素）时，函数值取得更小的值，因此，它们被用作矩阵秩的间接度量，可以作为低秩正则项完成低秩约束。

但是，这两种度量难以实现压缩率与精度损失的平衡，即当要求高压缩率时，压缩后的网络较原网络会出现较大的精度损失。这是由各自的数学特征所导致的。对于核范数，由于它同等看待所有奇异值，导致在低秩训练中会无差别地减小大奇异值和小奇异值，这损失了矩阵的能量（即所有奇异值的平方和），最终导致网络精度下降大。对于霍尔系数，它的值与成正比，当大奇异值增大时，/>会有明显的下降，而当小奇异值减小时，基本不变。霍尔系数将重点放在了大奇异值的放大上，如此可以很好地保留矩阵的能量。但是，高压缩率要求仅有少数奇异值的幅值大，霍尔系数无法保证仅放大一小部分的奇异值，因此霍尔系数不适用于高压缩率情形。为了实现对网络的高度压缩及低精度损失，还需要研究更有效的网络压缩方法。

发明内容

本发明针对现有技术的不足，提出了一种基于有效秩张量近似的残差网络压缩的图像分类方法，以基于所设置的高效低秩度量方式，在高压缩率下使得残差网络的精度损失较小，从而促进用于图像分类的残差网络在存储空间有限的设备上的应用。

本发明采用的技术方案为：

基于有效秩张量近似的残差网络压缩的图像分类方法，该方法包括下列步骤：

步骤1，设置训练数据集，训练数据集的每个训练样本包括样本图像和样本标签；

步骤2，设置图像分类网络，所述图像分类包括基于若干层残差网络层的特征提取网络和基于全连接层的分类输出网络；

步骤3，基于预置的低秩训练优化目标对图像分类网络的网络参数进行残差网络压缩训练处理，获取轻量化特征提取网络和训练好的分类输出网络并作为目标对象的图像分类器；

步骤4，对待分类图像进行图像预处理（以匹配图像分类器的输入），再将其输入图像分类器，基于其输出获取图像分类结果。

进一步的，步骤3具体包括：

步骤301，随机化初始化图像分类网络的各网络参数；

步骤302，将样本图像输入图像分类网络，基于前向计算得到图像分类网络的输出，并基于预置的图像分类网络的损失函数通过反向传播对各网络参数进行迭代更新，直到满足预置的收敛条件，得到训练好的特征提取网络和分类输出网络；

其中，收敛条件可以设置为：达到最大迭代次数或者图像分类网络的损失函数值收敛等。

步骤303，对训练好的特征提取网络进行低秩近似压缩处理：

依次遍历特征提取网络的每一层网络层的权重张量；

对当前权重张量，按照输出通道数维度展开得到第一矩阵；或者按照输出通道数维度和输入通道数维度分别展开得到第一和第二矩阵；

采用谱范数截断规则确定第一矩阵的秩；或者确定第一矩阵的秩和第二矩阵的秩；

基于所确定的秩对对应的矩阵进行截断奇异值分解或塔克2分解，得到轻量化特征提取网络；

步骤304，基于步骤303得到的轻量化特征提取网络和步骤302训练好的分类输出网络得到目标对象的图像分类器；

其中，采用谱范数截断规则确定任一矩阵的迭具体为：

对矩阵进行奇异值分解，对分解得到的奇异值向量的各奇异值按照降序排序，再依次遍历每一个奇异值，若当前奇异值/>与第一个奇异值的比值小于或等于设定的截断阈值（预设值，基于实际应用需求设置，例如设置为0.001、0.01或0.1等），则将当前及其之后位置的奇异值重置为0；再基于重置后的非零奇异值数量得到矩阵的秩。

进一步的，步骤3中，低秩训练优化目标具体为：

其中，表示图像分类网络的所有网络参数，N表示训练样本数，i表示训练样本编号，/>表示图像分类网络的损失函数，比如分类损失，/>表示样本图像，/>表示样本图像的分类标签；/>表示图像分类网络的输出，即当前输入图像属于各个类别的概率，/>表示低秩正则项，/>表示低秩正则项的系数，/>表示图像分类网络中的残差网络的所有待压缩网络层的参数，低秩正则项/>为残差网络中所有需要被压缩的网络层的权重张量的有效秩之和。

本发明基于上述优化目标的迭代优化，一方面是使得损失函数的值变小，即获得更高的精度，另一方面是使得低秩正则项的值变小，即权重张量更具低秩性。适用于普通神经网络训练的优化器亦适用于本发明。

进一步的，步骤3中，获取低秩正则项时，被压缩的网络层的权重张量的有效秩的具体获取方式包括两种，分别为：

（1）仅基于输出通道维的低秩性的有效秩：

对任意一层被压缩的网络层的权重张量，按照输出通道数维度展开得到矩阵/>，其中，k表示被压缩的网络层编号；

基于矩阵的有效秩得到权重张量/>的有效秩/>：

其中，为/>的非零奇异值的个数，/>为矩阵/>的第i个奇异值的归一化值；

（２）基于输出和输入通道维的低秩性的有效秩：

对任意一层被压缩的网络层的权重张量，分别按照输出通道数维度和输入通道数维度展开得到矩阵/>和矩阵/>；

基于矩阵和矩阵/>的有效秩得到权重张量/>的有效秩/>：

其中，、/>分别为矩阵/>、/>的非零奇异值的个数，/>为矩阵/>的第i个奇异值的归一化值，/>为矩阵/>的/>个奇异值的归一化值。

进一步的，对于残差网络，第一个卷积层的输入通道数小，仅为3，因此对其采取第一种形式，而对于其他卷积层，则采取第二种形式。

进一步的，所述基于全连接层的分类输出网络依次包括：平均池化层和带softmax函数的全连接层，用于输出各个图像类别的预测概率，并基于最大预测概率得到当前输入图像的预测类别。

本发明提供的技术方案至少带来如下有益效果：

本发明使用有效秩作为高效的低秩度量，可以通过将能量转移到大奇异值上的方式，保留矩阵能量，从而确保残差网络在被压缩后仍能保持高精度的图像分类效果。另一方面，可以使得尽可能多的奇异值趋于0，即残差网络权重的低秩性更强，从而能够获得高压缩率。最终，在有效秩的作用下，可以获得压缩率高且精度高的残差网络以实现基于残差网络的图像分类能在存储空间有限的设备上的应用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的基于有效秩张量近似的残差网络压缩的图像分类方法的处理流程图；

图2为三种常见的张量分解的示意图，其中，（2a）为矩阵的奇异值分解；（2b）为三阶张量的CP（CANDECOMP（Canonical decomposition，正则分解）/ PARAFAC（parallelfactors，平行因子分解））分解；（2c）为三阶张量的塔克（Tucker）分解。

图3为三阶张量的塔克2（Tucker2）分解示意图。

图4为有效秩（本发明）、核范数、霍尔系数对残差网络ResNet32的压缩性能比较图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供的基于有效秩张量近似的残差网络压缩的图像分类方法包括下列步骤：

步骤S1，设置训练数据集，训练数据集的每个训练样本包括样本图像和样本标签；

步骤S2，设置图像分类网络，所述图像分类包括基于若干层残差网络层的特征提取网络和基于全连接层的分类输出网络；

步骤S3，对图像分类网络进行有效秩张量近似残差网络压缩训练处理，以获取训练好的图像分类器；基于预置的低秩训练优化目标对图像分类网络的网络参数进行残差网络压缩训练处理，获取轻量化特征提取网络和训练好的分类输出网络并作为目标对象的图像分类器；

步骤S4，获取待分类图像的图像分类结果，对待分类图像进行图像预处理（以匹配图像分类器的输入），再将其输入图像分类器，基于其输出获取图像分类结果。

作为一种可能的实现方式，本发明实施例中，具体采用的图像分类网络的结构为：

特征提取网络采用ResNet32，依次包括：第一卷积层（即残差网络的第一个卷积层）、10层第一残差网络块，10层第二残差网络块、10层第三残差网络块；其中，第一残差网络块依次包括四层卷积层，其卷积层3的输入包括第一残差网络块的输入和卷积层2的输出，即第一残差网络块的输入与卷积层3之间存在一条短连接（跳跃连接），卷积层2与4之间也存在一条短连接；第二残差网络块依次包括四层卷积层，在第二残差网络块的输入和卷积层2之间存在一条带1×1卷积核的卷积层的短连接，卷积层2与4之间存在一条短连接；第三残差网络块依次包括四层卷积层，在第三残差网络块的输入和卷积层2之间存在一条带1×1卷积核的卷积层的短连接，卷积层2与4之间存在一条短连接。

分类输出网络依次包括平均池化层和带softmax函数（softmax函数将输入向量的每一个元素映射到0到1区间，使网络的输出具有概率的含义）的全连接层，用于输出各个图像类别的预测概率，并基于最大预测概率得到当前输入图像的预测类别。例如对于三维图像，则平均池化层采用全局平均池化层，其输入是三维图像，该层对输入数据的每一个通道的二维图像进行平均，得到一个数，由所有通道上得出的数组成输出向量。

在本发明实施例中，为了实现残差网络压缩率与精度的平衡，提出使用有效秩这一高效度量方式作为低秩正则项。在上述步骤S3中，主要包括低秩训练和低秩分解这两大部分。

在低秩训练中，首先需要基于有效秩建立优化目标。设图像分类网络训练的损失函数是，/>表示图像分类网络的所有网络参数，/>表示残差网络的所有网络参数，训练数据为/>，其中，/>表示三维图像（样本图像），/>表示该图像的分类标签，N表示样本图像数。用/>表示神经网络函数，即图像分类网络输出的各个图像类别的概率，则低秩训练的优化目标可表示为：

其中，为低秩正则项的系数，/>为低秩正则项，具体为所有需要被压缩的网络层的权重张量的有效秩之和，即/>，/>表示第k层的权重，n表示层数。残差网络主要由卷积层构成，在网络末端，使用全连接层来得到分类结果。对残差网络进行压缩，由于全连接层的参数量较少，所以，仅考虑对卷积层的压缩。

考虑第k层为卷积层，其权重为张量形式。张量作为标量、向量、矩阵的自然推广，也被称为多维数组。多维数组的维数即张量的阶数。向量为一阶张量，矩阵为二阶张量。因此，卷积层的权重是四阶张量，其维度可以表示为：O×I×K×K，其中，表示输出通道数，/>表示输入通道数，K表示空间尺寸大小。通常，K在残差网络中为1或者3，因此，不需要对空间维进行压缩，即不考虑空间尺寸上的低秩性。

卷积层权重张量的有效秩有两种形式可供选择：

（1）仅考虑输出通道维的低秩性：

将张量按照第一维（输出通道维）展开成矩阵/>（其维度为/>），以/>的有效秩/>作为该张量的有效秩/>，表示为：

其中，为/>的非零奇异值的个数，/>为/>第i个奇异值的归一化值。

（2）同时考虑输出、输入通道维的低秩性：

将分别按照第一和第二维（输入通道维）展开，得到矩阵/>（维度为/>）和（维度为/>），以/>的有效秩与/>的有效秩之和作为该张量的有效秩，表示为：

其中，、/>分别为/>、/>的非零奇异值的个数，/>、/>分别为/>、/>第i个奇异值的归一化值。

对于残差网络，第一个卷积层的输入通道数仅为3，因此对其采取第一种形式，而对于其他卷积层，则采取第二种形式。

在建立好优化目标后，则需要进行迭代优化。通过迭代优化，一方面是使得损失函数的值变小，即获得更高的精度，另一方面是使得低秩正则项的值变小，即权重张量更具低秩性。适用于普通神经网络训练的优化器亦适用于本发明。

在完成上两步后，训练得到的权重不仅可以使得网络具有高精度，且具有良好的低秩性。低秩性具体表现为矩阵的奇异值向量中有大量奇异值的值十分接近于0，这些奇异值对于表示该矩阵的信息意义不大，可以将其值置为0。但是，选择哪些奇异值进行置0需要按照一定的规则执行。本发明使用基于谱范数的截断规则，即首先对矩阵（如、/>）进行奇异值分解，得到其对应的r个奇异值，并按照降序排练后，若首次出现/>小于设定的截断阈值，则/>会被置0。该阈值可根据截断强度设定为0.001、0.01或0.1。当截断强度越大，阈值则越大。

确定好的秩用于后续的张量分解。张量分解是矩阵分解的推广，常见的张量分解包括奇异值分解、CP分解、Tucker分解，如图2所示。对残差网络中所有需要压缩的层的权重张量分别进行张量分解，通过张量分解，将原大型张量分解为几个小型张量，从而实现参数量的减少。

考虑第k层为卷积层，对应于卷积层权重张量的有效秩的确定方式中的两种情形，张量分解也分为两种情形：

（１）仅考虑输出通道维的低秩性：

对权重张量按照第一维展开成的矩阵（维度为/>）进行截断奇异值分解。

奇异值分解将矩阵表示成秩一矩阵的和，截断奇异值分解则是选择一部分的秩一矩阵，以它们的和进行近似表示。

设的奇异值分解为/>，其中，/>表示以输入向量为对角线形成的对角矩阵，/>和/>分别满足/>和/>均为单位矩阵，非负向量/>被称作奇异值向量，/>中非零元素的个数就是矩阵的秩。

等价地，将奇异值分解改写为，其中/>表示/>的第i列，为秩为1的矩阵。因此，奇异值分解为秩一矩阵的加权和。

对于截断奇异值分解，定义所确定的秩为，则只保留奇异值向量的前/>个分量，令/>为/>的前/>列，/>为/>的前/>个元素，/>为/>的前/>列，则得到/>的截断奇异值分解为：

令，/>，则/>。

用得到的中间参量A、B近似表示，则可实现权重参数量由/>降低为。

（２）同时考虑输出、输入通道维的低秩性。

对权重张量进行Tucker2分解，如图3示意了三阶张量的Tucker2分解。

设在矩阵的秩确定过程中，对和/>确定的秩分别为/>和/>，/>的Tucker2分解表示为：

其中，四阶张量的维度为/>，矩阵/>和/>的维度分别为/>和，/>表示模n乘。

或者，按元素形式表示为：

其中，表示四阶张量/>的第/>个元素，/>表示四阶张量/>的第个元素，/>、/>分别表示矩阵/>、/>的第/>、/>个元素，此时，参数量就由/>降为/>。

为了进一步的说明本发明的压缩效果，以压缩残差网络ResNet32为例，以在图像分类数据集CIFAR10上的分类精度为评价指标说明本发明的实际效果。ResNet32一共有31个卷积层和一个全连接层。对于末端的全连接层，参数量仅为640，因此不对其进行压缩。对于第一个卷积层，输入通道数仅为3，因此仅对其输出通道维进行压缩。而对于剩余的30个卷积层，同时对其输入通道维和输出通道维进行压缩。

为了控制压缩率，需要调整的超参数是正则项系数。当/>越大，对权重进行低秩约束的作用越强，从而取得更高的压缩率。在实验中，由于有效秩会导致很多奇异值接近于0，因此使用基于谱范数的截断规则，以更好地对奇异值的去留进行判断。此外，在训练过程中使用梯度下降法进行迭代优化。

另外，和常用的核范数、霍尔系数的压缩效果进行了比较。压缩目标是残差网络ResNet32，分别使用三种度量方式（核范数、霍尔系数和本发明的有效秩）进行低秩训练。压缩率指原始网络的参数量与压缩后网络的参数量的比值，精度指压缩后的网络在CIFAR10测试集上的分类正确率。CIFAR10数据集包括10个类别的彩色图像，对于各个类别，有5000张训练样本和1000张测试样本。原始ResNet32网络在CIFAR10上的分类精度为92.5%。当时，取得的压缩率（原网络参数量与压缩后网络参数量的比值）为2.5，网络精度为91.5%；当/>时，取得的压缩率为5.6，网络精度为88.5%；当/>时，取得的压缩率为8.9，网络精度为85.4%。可见，在本发明有效秩的作用下，当要求高压缩率时，仍能保证残差网络精度不会大幅下降。如图4所示，比较了这三种度量方式在高、低压缩率下的表现。可以看到，当压缩率约为2.5时，本发明的有效秩取得了比核范数、霍尔系数至少2%精度的提升。当要求精度约为88%时，本发明的有效秩比霍尔系数取得了接近两倍压缩率的提升，比核范数取得了接近三倍压缩率的提升。

在本发明的基于有效秩张量近似的残差网络压缩的图像分类方法中，提出了一种以有效秩作为一种高效的低秩度量方式，相较于现有的核范数、霍尔系数，本发明基于有效秩的残差网络压缩方法，可以更好地对残差网络的权重进行低秩约束，继而有利于使用更小的秩对网络权重进行张量分解，最终获得压缩率高且精度高的残差网络，促进着残差网络应用于资源受限的设备，更好地完成图像分类任务。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于有效秩张量近似的残差网络压缩的图像分类方法，其特征在于，包括下列步骤：

步骤2，设置图像分类网络，所述图像分类网络包括基于若干层残差网络层的特征提取网络和基于全连接层的分类输出网络；

步骤4，对待分类图像进行图像预处理后输入图像分类器，基于其输出获取图像分类结果。

2.如权利要求1所述的基于有效秩张量近似的残差网络压缩的图像分类方法，其特征在于，步骤3中，低秩训练优化目标具体为：

；

其中，表示图像分类网络的所有网络参数，N表示训练样本数，i表示训练样本编号，表示图像分类网络的损失函数，/>表示样本图像，/>表示样本图像的分类标签；表示图像分类网络的输出，/>表示低秩正则项，/>表示低秩正则项的系数，表示图像分类网络中的残差网络的所有待压缩网络层的参数，低秩正则项/>为残差网络中所有需要被压缩的网络层的权重张量的有效秩之和。

3.如权利要求2所述的基于有效秩张量近似的残差网络压缩的图像分类方法，其特征在于，步骤3中，获取低秩正则项时，被压缩的网络层的权重张量的有效秩的具体获取方式包括两种，分别为：

第一方式：仅基于输出通道维的低秩性的有效秩：

基于矩阵的有效秩得到权重张量/>的有效秩/>：

；

第二方式：基于输出和输入通道维的低秩性的有效秩：

基于矩阵和矩阵/>的有效秩得到权重张量/>的有效秩/>：

；

4.如权利要求3所述的基于有效秩张量近似的残差网络压缩的图像分类方法，其特征在于，对特征提取网络的第一层残差网络的第一个卷积层采用第一方式获取权重张量的有效秩；对特征提取网络的其余层残差网络的各个卷积层均采用第二方式获取权重张量的有效秩/>。

5.如权利要求1至4任一项所述的基于有效秩张量近似的残差网络压缩的图像分类方法，其特征在于，步骤3具体为：

步骤301，随机化初始化图像分类网络的各网络参数；

步骤302，将样本图像输入图像分类网络，基于前向计算得到图像分类网络的输出；

根据预置的图像分类网络的损失函数，通过反向传播对图像分类网络的各网络参数进行迭代更新，直到满足预置的收敛条件，得到训练好的特征提取网络和分类输出网络；

步骤303，对训练好的特征提取网络进行低秩近似压缩处理：

依次遍历特征提取网络的每一层网络层的权重张量；

其中，采用谱范数截断规则确定任一矩阵的秩具体为：

对矩阵进行奇异值分解，对分解得到的奇异值向量的各奇异值按照降序排序，再依次遍历每一个奇异值，若当前奇异值/>与第一个奇异值的比值小于或等于设定的截断阈值，则将当前及其之后位置的奇异值重置为0；再基于重置后的非零奇异值数量得到矩阵的秩；

步骤304，基于步骤303得到的轻量化特征提取网络和步骤302训练好的分类输出网络得到目标对象的图像分类器。

6.如权利要求1所述的基于有效秩张量近似的残差网络压缩的图像分类方法，其特征在于，所述基于全连接层的分类输出网络依次包括：平均池化层和带softmax函数的全连接层，用于输出各个图像类别的预测概率，并基于最大预测概率得到当前输入图像的预测类别。