CN115424042A

CN115424042A - 基于层间特征相似性网络稀疏化方法、装置、介质及设备

Info

Publication number: CN115424042A
Application number: CN202210842886.9A
Authority: CN
Inventors: 田永鸿; 倪铭坚; 陈光耀; 郑侠武; 彭佩玺; 袁粒
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-12-02

Abstract

本公开涉及一种基于层间特征相似性的网络稀疏化方法、装置、介质及设备，所述方法包括：采集并存储图像数据集，提取所述图像数据集中的样本；将所述图像数据集中的样本输入神经网络进行前向传播，在前向传播的过程中通过神经网络每一层对所述图像数据集中的样本进行特征提取并存储；计算神经网络不同层的特征之间的相似度；通过基于中心核对齐的层间相似性降低方法降低所述神经网络的层间相似性。本公开是首个通过降低网络层间相似性间接提升网络稀疏性的方法。该方法在神经网络预训练、神经网络剪枝、神经网络稀疏训练等领域进行了应用，并皆取得了性能的提升。由于该方法提升了网络的稀疏性，其促进了网络的加速与压缩。

Description

基于层间特征相似性网络稀疏化方法、装置、介质及设备

技术领域

本公开涉及深度学习模型的有监督训练技术领域，更为具体来说，本公开涉及基于层间特征相似性网络稀疏化方法、系统、介质及设备。

背景技术

深度神经网络近年来迅速发展，在众多领域均取得了重大的突破，包括但不限于计算机视觉和自然语言处理，其成为了机器学习中的关键技术。深度神经网络高度依赖过参数化的模型结构，这会导致资源的巨大浪费。技术专家们提出了多种方法来解决这些问题，包括：模型剪枝、稀疏训练、手动或自动设计模型架构等。其中，稀疏训练旨在从头开始训练稀疏网络，从而减少训练和推理开销，是一类新兴的减少资源浪费的网络稀疏化方法。

最近的一项研究显示了过参数化与层间特征相似性(即不同层特征之间的相似性)之间的密切关系。具体来说，过参数化模型的不同层特征具有明显更大的相似性。受此启发，本公开提出用降低层间特征相似性来增加网络稀疏性，即采用相似性方法来解决稀疏性问题的方法。

发明内容

本发明的目的是提供一种基于层间特征相似性的网络稀疏化方法。具体地，本发明提出了基于中心核对齐(CKA)的稀疏正则化项(CKA-SR)，其将中心核对齐(CKA)度量作为正则化项引入训练损失。这种稀疏正则化项是一个即插即用项，其强制降低层间特征相似性，并间接增加网络稀疏性。在这一正则化项的基础上，本发明提出了完整的基于层间特征相似性的网络稀疏化方法。

为实现上述技术目的，本公开提供了一种基于层间特征相似性的网络稀疏化方法，包括：

采集并存储图像数据集，提取所述图像数据集中的样本；

将所述图像数据集中的样本输入神经网络进行前向传播，在前向传播的过程中通过神经网络每一层对所述图像数据集中的样本进行特征提取并存储；

计算神经网络不同层的特征之间的相似度；

通过基于中心核对齐的层间相似性降低方法降低所述神经网络的层间相似性。

进一步，所述计算神经网络不同层的特征之间的相似度具体包括：

利用基于中心核对齐的方法计算神经网络不同层之间的特征相似性。

进一步，所述利用基于中心核对齐的方法计算神经网络不同层之间的特征相似性具体包括：

对于计算神经网络中不同层的特征图X和特征图Y，基于中心核对齐的特征相似性计算器给定其相似性计算公式为：

其中，CKA_L(X,Y)是基于中心核对齐的特征相似性，||C||_F表示C的Frobenius范数，其中，C为Y^TX、X^TX或Y^TY，X^T为特征图X的转置，Y^T为特征图Y的转置。

进一步，所述通过基于中心核对齐的层间相似性降低方法降低所述神经网络的层间相似性具体包括：

利用引入了基于中心核对齐的稀疏正则化项的损失函数进行反向传播，调整神经网络的参数；

其中，将计算出的层间特征相似性引入所述损失函数的计算中，计算公式为：

其中，

是正则化项，

是稀疏正则化项，而β是

的权重，S是网络中的阶段总数，s表示当前的阶段数，s＝1，2，……，S；

当S＝1时，N_s是层的总数；

当S>1时，N_s是每一阶段s的层数，w_ij是第i层和第j层的层间特征的相似性度量的权重；

i，j表示层数为自然数；

X_i和X_j分别表示第i层和第j层的特征图。

进一步，所述神经网络包括：ResNet或Vision Transformer；

所述图像数据集包括：CIFAR10、CIFAR100或ImageNet。

为实现上述技术目的，本公开还能够提供一种基于层间特征相似性的网络稀疏化装置，包括：

数据采集模块，用于采集并存储图像数据集，提取所述图像数据集中的样本；

特征提取模块，用于将所述图像数据集中的样本输入神经网络进行前向传播，在前向传播的过程中通过神经网络每一层对所述图像数据集中的样本进行特征提取并存储；

计算模块，用于计算神经网络不同层的特征之间的相似度；

调整模块，用于通过基于中心核对齐的层间相似性降低方法降低所述神经网络的层间相似性。

进一步，所述计算模块具体用于：

进一步，所述调整模块具体用于：

其中，

是正则化项，

是稀疏正则化项，而β是

当S＝1时，N_s是层的总数；

i，j表示层数为自然数；

X_i和X_j分别表示第i层和第j层的特征图。

为实现上述技术目的，本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的基于层间特征相似性的网络稀疏化方法的步骤。

为实现上述技术目的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的基于层间特征相似性的网络稀疏化方法的步骤。

本公开的有益效果为：

本公开的方法显式降低了网络层间相似性，并间接增加网络的稀疏性。对于本方法可以间接增加网络的稀疏性，本公开进行了详细的证明。具体地，我们首先利用信息瓶颈理论，从信息论角度证明了：通过最小化上述的正则化项

可以降低中间特征表示

和输入特征表示X之间的互信息

进而，本公开证明了：降低互信息

等价于降低模型权重矩阵W的Frobenius范数

进一步地等价于网络参数更加聚集于0值附近，即增加了网络稀疏性。

附图说明

图1示出了本公开的实施例1的方法的流程示意图；

图2示出了本公开的实施例1的方法的流程示意图；

图3示出了本公开的实施例1的方法的效果示意图；

图4示出了本公开的实施例2的装置的结构示意图；

图5示出了本公开的实施例4的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

实施例一：

如图1所示：

一种基于层间特征相似性的网络稀疏化方法，包括：

S101：采集并存储图像数据集，提取所述图像数据集中的样本；

S102：将所述图像数据集中的样本输入神经网络进行前向传播，在前向传播的过程中通过神经网络每一层对所述图像数据集中的样本进行特征提取并存储；

S103：计算神经网络不同层的特征之间的相似度；

S104：通过基于中心核对齐的层间相似性降低方法降低所述神经网络的层间相似性。

进一步，所述S103具体包括：

进一步，所述S104具体包括：

其中，

是正则化项，

是稀疏正则化项，而β是

当S＝1时，N_s是层的总数；

i，j表示层数为自然数；

X_i和X_j分别表示第i层和第j层的特征图。

进一步，所述神经网络包括：ResNet或Vision Transformer；

所述图像数据集包括：CIFAR10、CIFAR100或ImageNet。

下面结合图2详解本公开的技术方案：

如图2所示，本公开的技术方案包含三个阶段：

阶段一：

对网络进行正向传播并提取样本的各层特征。

如图2所示，将包括但不限于CIFAR10、CIFAR100、ImageNet等图像数据集中的样本传入包括但不限于ResNet、Vision Transformer等的神经网络结构进行前向传播。

在本方法中，严格按照图像分类、网络剪枝、网络稀疏训练等方法的训练设置和网络结构，将样本传入神经网络进行前向传播。

在每次前向传播迭代的过程中，本公开的方法对神经网络前向传播过程中神经网络的每一层所提取的样本特征进行保留和存储。从而，本公开的方法提取出神经网络的所有层间特征。这些特征即为图像样本在前向传播中的中间特征。

具体地，

对于残差网络(如ResNet18，ResNet34，ResNet50等)，其处于同一阶段(stage)的几层特征图尺寸相同，而不同阶段的层特征图尺寸不同。

对于视觉变换器(Vision Transformer，如ViT_huge、ViT_large、ViT_base、DeiT_tiny、DeiT_small、DeiT_base等)，其所有层的特征图尺寸均相同。

阶段二：

计算神经网络各层提取出的样本特征之间的相似性。

对于上述的图像样本的层间特征，利用基于中心核对齐的方法计算其两两之间的特征相似性。基于中心核对齐的特征相似性计算器的计算规则如下所示：

对于特征图X和Y，基于中心核对齐的特征相似性计算器给定其相似性计算公式为：

阶段三：

通过基于中心核对齐的层间相似性降低方法，降低神经网络层间相似性和提升神经网络稀疏性。

将由上述公式计算出的层间特征相似性引入损失计算中，将这样的层间特征相似性作为一个正则化项。

具体地，基于中心核对齐的稀疏正则化项的损失函数的计算公式为：

其中，

是稀疏正则化项CKA-SR，而β是

的权重。S是网络中的阶段(stage)数。对于只有一个阶段的网络，如DeiT网络，N_s是层的总数。而对于有多个阶段的网络，如ResNet网络，N_s是每一阶段s的层数。w_ij是第i层和第j层的层间特征的相似性度量的权重，它是可选的。X₀是输入特征，而X_i是第i层的输出特征。上述的

被作为正则化项加入到损失函数中，其强制降低网络中所有层两两之间的相似度之和，即强制降低网络的层间相似度。

对于引入了上述基于中心核对齐的稀疏正则化项的损失函数，本方法进行了反向传播，从而调整神经网络的参数，其显式降低网络的层间相似性，并间接增加网络的稀疏性。

如图3所示：

可以降低中间特征表示

和输入特征表示X之间的互信息

进而，本公开证明了：降低互信息

等价于降低模型权重矩阵W的Frobenius范数

实施例二：

如图4所示，为实现上述技术目的，本公开还能够提供一种基于层间特征相似性的网络稀疏化装置，包括：

数据采集模块201，用于采集并存储图像数据集，提取所述图像数据集中的样本；

特征提取模块202，用于将所述图像数据集中的样本输入神经网络进行前向传播，在前向传播的过程中通过神经网络每一层对所述图像数据集中的样本进行特征提取并存储；

计算模块203，用于计算神经网络不同层的特征之间的相似度；

调整模块204，用于通过基于中心核对齐的层间相似性降低方法降低所述神经网络的层间相似性。

其中，本公开所述的基于层间特征相似性的网络稀疏化装置中的数据采集模块201依次与特征提取模块202、计算模块203以及调整模块204相连接。

进一步，所述计算模块203具体用于：

进一步，所述调整模块204具体用于：

其中，

是正则化项，

是稀疏正则化项，而β是

当S＝1时，N_s是层的总数；

i，j表示层数为自然数；

X_i和X_j分别表示第i层和第j层的特征图。

可以降低中间特征表示

和输入特征表示X之间的互信息

进而，本公开证明了：降低互信息

等价于降低模型权重矩阵W的Frobenius范数

实施例三：

本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的基于层间特征相似性的网络稀疏化方法的步骤。

本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。

半导体存储器，主要用于计算机的半导体存储元件主要有Mos和双极型两种。Mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。NMos和CMos问世后，使Mos存储器在半导体存储器中开始占主要地位。NMos速度快，如英特尔公司的1K位静态随机存储器的存取时间为45ns。而CMos耗电省，4K位的CMos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(RAM),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(ROM)在工作过程中可随机读出但不能写入，它用来存放已固化好的程序和数据。ROM又分为不可改写的熔断丝式只读存储器──PROM和可改写的只读存储器EPROM两种。

磁芯存储器，具有成本低，可靠性高的特点，且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上，存取时间最快为300ns。国际上典型的磁芯存储器容量为4MS～8MB，存取周期为1.0～1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后，磁芯存储器仍然可以作为大容量扩充存储器而得到应用。

磁鼓存储器，一种磁记录的外存储器。由于其信息存取速度快，工作稳定可靠，虽然其容量较小，正逐渐被磁盘存储器所取代，但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要，出现了超小型磁鼓，其体积小、重量轻、可靠性高、使用方便。

磁盘存储器，一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点，即其存储容量较磁鼓容量大，而存取速度则较磁带存储器快，又可脱机贮存，因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。

硬磁盘存储器的品种很多。从结构上，分可换式和固定式两种。可换式磁盘盘片可调换，固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种，又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小，记录密度低存取速度高，但造价高。活动磁头型磁盘记录密度高(可达1000～6250位/英寸)，因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节，位密度为每英寸6 250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料，在联机情报检索系统、数据库管理系统中得到广泛应用。

实施例四：

本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的基于层间特征相似性的网络稀疏化方法的步骤。

图5为一个实施例中电子设备的内部结构示意图。如图5所示，该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于层间特征相似性的网络稀疏化方法。该电设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于层间特征相似性的网络稀疏化方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。

所述处理器在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等)，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。

可选地，该电子设备还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种基于层间特征相似性的网络稀疏化方法，其特征在于，包括：

采集并存储图像数据集，提取所述图像数据集中的样本；

计算神经网络不同层的特征之间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述计算神经网络不同层的特征之间的相似度具体包括：

3.根据权利要求2所述的方法，其特征在于，所述利用基于中心核对齐的方法计算神经网络不同层之间的特征相似性具体包括：

4.根据权利要求3所述的方法，其特征在于，所述通过基于中心核对齐的层间相似性降低方法降低所述神经网络的层间相似性具体包括：

其中，

是正则化项，

是稀疏正则化项，而β是

当S＝1时，N_s是层的总数；

i，j表示层数为自然数；

X_i和X_j分别表示第i层和第j层的特征图。

5.根据权利要求1～4任一项中所述的方法，其特征在于，所述神经网络包括：ResNet或Vision Transformer；

所述图像数据集包括：CIFAR10、CIFAR100或ImageNet。

6.一种基于层间特征相似性的网络稀疏化装置，其特征在于，包括：

计算模块，用于计算神经网络不同层的特征之间的相似度；

7.根据权利要求6所述的装置，其特征在于，所述计算模块具体用于：

8.根据权利要求7所述的装置，其特征在于，所述调整模块具体用于：

其中，

是正则化项，

是稀疏正则化项，而β是

当S＝1时，N_s是层的总数；

i，j表示层数为自然数；

X_i和X_j分别表示第i层和第j层的特征图。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现权利要求1～5任一项中所述的基于层间特征相似性的网络稀疏化方法对应的步骤。

10.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时用于实现权利要求1～5任一项中所述的基于层间特征相似性的网络稀疏化方法对应的步骤。