CN113723472A

CN113723472A - 一种基于动态滤波等变卷积网络模型的图像分类方法

Info

Publication number: CN113723472A
Application number: CN202110910976.2A
Authority: CN
Inventors: 林宙辰; 何翎申; 陈宇轩; 沈铮阳; 王奕森
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-30
Anticipated expiration: 2041-08-09
Also published as: CN113723472B

Abstract

本发明公布了一种基于动态滤波等变卷积网络模型的图像分类方法，建立包括线性和非线性等变结构的等变卷积网络通用模型；设计一种高效的动态滤波等变网络层E4‑layer，以替换卷积网络模型的输入层和中间层，构建高效的动态滤波等变卷积网络模型并进行训练；本发明方法的高效性包括：参数高效，模型使用的参数量更少，减少内存开销；计算高效，模型计算量更少，能降低算法的时间复杂度；数据高效，模型能够在较少处理数据的情况下仍取得较好的结果；能够高效提升图像分类的精度。

Description

一种基于动态滤波等变卷积网络模型的图像分类方法

技术领域

本发明属于模式识别、机器学习、人工智能技术领域，涉及图像分类方法，具体涉及一种基于动态滤波等变卷积网络模型的图像分类方法，通过建立一种通用的等变网络层框架，并据此设计出了一种高效的动态滤波等变网络模型。相比以往的方法，本发明的模型结构能用更少的参数量和计算量在MNIST-rot，CIFAR-10和CIFAR-100上取得更高的结果。

背景技术

在过去的几年中，卷积神经网络(CNN)模型被广泛应用于图像识别任务上，相比传统的人为特征选择的方法取得了较高的提升。卷积神经网络有一个特点：先将图像平移然后通过若干个卷积层得到的特征图与先将原始图像通过卷积层然后再平移得到的结果相同。该特点被称为平移等变性。平移等变性被认为是卷积神经网络起作用的一个重要原因，它能将数据中的平移对称性刻画进了网络结构中。基于此，Cohen和Welling将更多的对称性比如旋转和反射引入到了网络中(Group equivariant convolutionalnetworks)，通过群论语言来描述这些对称性，称之为群等变卷积网络(G-CNN)。与普通CNN中的平移等变性类似，这些对称性通过网络层的旋转等变性，反射等变性来反映。然而G-CNN有两个比较大的缺点：1)在实现上，G-CNN需要引入额外的维度来将新的等变性编码到网络结构中，这会极大增大网络的参数和计算量。2)与CNN类似，G-CNN具有空间不变性，也就是说， G-CNN不能基于具体的空间位置上的输入特征来动态调整它的滤波器。

为解决上述两个问题，现有方法中，Cheng(Decomposition of convolutionfilters for rotational-equivariant deep networks)提出将卷积滤波器沿着空间和额外几何维度进行分解，这样做能在减少了模型的尺寸和计算量的同时保持性能。然而，该方法仍然是静态滤波。为了将动态滤波的性质引入到G-CNN中，文献(Co-attentiveequivaraint neural network：Focusing equivariance on transformations co-occurring in data； Attentive group equivariant convolution networks)记载了将注意力机制嵌入到网络结构中的做法，然而相对于本方法，这样做会引入额外的参数和计算量，增大G-CNN的计算负担。

Cohen等人在文献(A general theory of equivariant cnns on homogeneousspaces) 中记载了可以将一切线性等变层均写成类似卷积的形式，但该方法无法处理非线性等变层 (例如等变自注意力层(Group equivariant stand-slone self-attention forvision))。

发明内容

为了克服以上技术问题中的不足，本发明提出了一种用于图像分类的动态滤波等变卷积网络模型方法，建立等变网络层的通用框架，包括几乎所有的等变层(无论是线性层还是非线性层)，并将基于此框架衍生出的高效可动态调整等变卷积网络模型应用于图像分类。由于模型本身具有的等变性(Equivariance)，将其命名为E4-Net。

相比以往的等变卷积网络，本发明创建的动态滤波等变卷积网络模型具有三重高效性 (Efficiency)：1)参数高效性：本发明创建的模型使用参数量更少，减少了内存开销。2) 计算高效性，本发明模型计算量更少，能降低算法的时间复杂度。3)数据高效性，本发明模型能够在较少数据的情况下仍然取得较好的结果。

为方便起见，本发明定义如下属于名称及参数：

f^(l)(g)：网络第l层的特征

C_l：l层特征通道维度

仿射群

g，

仿射群群元

n维实线性空间

循环群

群元素g的邻域

g对应的局部特征块

r：维度削减率Ω采用为k×k的格点，|Ω|＝k²

k：核尺寸

Ω：k×k的格点

s：切片个数

本发明的技术方案如下：

一种基于高效的动态滤波等变卷积网络模型的图像分类方法，包括如下步骤：

S1)建立包括线性和非线性等变结构的等变卷积网络的通用模型框架；

本发明提出的等变卷积网络的通用模型框架，可以将线性和非线性等变结构纳为特例。首先，分析已有的等变结构，将等变结构表示为以下的特征聚合的形式：

其中，f^(l)(g)为网络第l层在仿射群群元g处的特征；

为一个仿射群；g为输出层某一仿射群群元的位置；

为计算g处输出需要的输入特征的仿射群群元位置；

是一个通过仿射群群元两个位置来索引的映射，用来描述如何聚合输入的特征f^(l)(g)和

表示n维实线性空间，C_l表示第l层的输入特征维度。这里的位置不再是普通卷积网络的空间坐标，而是基于空间坐标诱导出的仿射群坐标；

其中

是一个循环群，可以是C4(旋转群)或D4(旋转反射群)，

是半直积。

式1形式的中间层是群等变的，当且仅当存在一个映射

通过单一群元素

来索引，并且

有：

式2证明过程如下：

首先，

和

有：

在另一边：

因此，有：

令g→ug，则

然后，将u替换为g^-1，将

表示为

最终可以得到

证毕。

在此基础上，将输入特征表示成一个局部特征块的形式，如下式：

这里

和

是g和

对应的局部特征块，

表示群元素g的邻域。在具体实施时，将

中的群元素对应的特征按照一定的顺序进行拼接，即可得到

本发明具体实施时，针对卷积网络模型的输入层和中间层，设计出了一种高效的动态滤波等变卷积层(命名为E4-layer)。将E4-layer进行堆叠，得到一个等变的CNN模型，称为E4-Net。可用E4-layer替换一些CNN框架中的输入层和部分中间层，例如等变残差网络(Resnet18)中每个残差块的第二层(得到的模型命名为E4-R18)。这些模型的输入均为图像数据，输出均为图像的预测分类，可用于图像分类与识别等视觉分析任务。

S2)对图像数据进行预处理；包括：

将图像数据分为训练样本和测试样本；

对训练样本图像进行预处理，包含像素归一化等；

S3)基于步骤S1)建立的等变卷积网络通用框架，构建高效的动态滤波等变卷积网络模型并进行训练；

可以构建动态滤波等变卷积层E4-layer，并将E4-layer进行堆叠，得到输入层和中间层全为E4-layer的结构；也可以选用一个任意已有的群等变卷积网络G-CNN架构，用E4-layer替换G-CNN模型的输入层和部分中间层。

构建动态滤波等变卷积层E4-layer包括如下步骤：

31)确定等变卷积网络模型的等变群

为仿射群pn：

在构建等变卷积层前，需要先确定卷积网络模型在什么群上能保持等变性。在图像识别任务中，通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换，设等变群

为仿射群pnm；若仅考虑旋转和平移变换两种变换，设定等变群

为仿射群pn(由平移和旋转2π/n生成的群)。

32)构建动态滤波等变卷积层E4-layer：

根据式1和式2，不同于G-CNN和等变自注意力层，本发明将

分解为如下形式：

这里⊙是元素积，

是卷积核生成器，

是一个编码器。|·|表示一个集合的元素个数，

表示输入特征块的特征个数。这样可以将

和V(y)的计算分开。除此之外，为了更进一步减少参数量，将生成的核沿着通道维度进行切片，使得每一个切片内部都共享参数，即

如果i≡j(mods)。这里s是切片的个数，i，j是通道的指标。显然，

是一个动态滤波器，因为它可以根据输入特征来调整自己的权重，从而避免了G-CNN中的空间不变性问题。与传统已有CNN 中的动态滤波器相比，

是一个向量而不是矩阵，该方法可以在特征聚合的时候将通道维度的计算和空间维度的计算分离开，从而极大较少计算量。

事实上，可将整个卷积核簇

视为一个映射的输出，即可以定义

然后，将该映射的输出调整为一个

维度的矩阵，不同的行代表不同的

比如，可以将

设置为多层感知机(MLP)，从而能让不同的

共享前几层参数，进而减少参数量。

下面基于式4给出E4-layer更加细节的实现。如前文所述，考虑仿射群：

为C4时为p4，

为D4时为p4m。式4可以实现为下式：

和一般的G-CNN一样，本发明只选用一些邻接点进行聚合。为了节省计算，将

选择为空间维度

上的邻域。除此之外，还需要对额外的几何维度，即

维度进行信息交互，因此，本发明将

选择为g在

维度上的邻域，即

∪代表拼接操作，拼接的顺序预先定义于

中。这样做使得该等变层将空间维度和额外几何维度(

维度)的计算分离开，从而减少计算量。

本发明用两层MLP来实现

r是维度削减率。对于二维图像来说，Ω采用为k×k的格点，|Ω|＝k²，k为核尺寸。V 为

是一个线性变换。

将上述构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层，即得到E4-Net 模型。再利用训练样本图像对该模型进行训练。

本发明具体实施时，均采用反向传播算法对E4-Net模型进行训练，对于MNIST-rot数据集，采用E4-layer堆叠起来的E4-Net，使用Adam优化器对模型进行训练。训练过程迭代200轮，批大小为128，即每128张图片为一个批次。学习速率初始值为0.02，在第60 个，120和160轮将学习率衰减到原来的十分之一。权重衰减率设置为0.0001。对于 CIFAR-10和CIFAR-100数据集，将Resnet18(G-CNN版本)的每一阶段的残差块第二层卷积替换为E4-layer，称为E4-R18。使用随机梯度下降法对该模型进行训练，初始学习率设为0.1，Nesterov动量设为0.9，权重衰减设为0.0005。模型一共训练200轮，在第60 个，120和160轮将学习率衰减到原来的五分之一。

S4)利用步骤S3)构建并训练好的高效动态滤波等变模型E4-Net，对测试图像样本进行识别，得到预测的图像分类标签，由此实现图片分类识别，其中测试样本无需经过图像预处理。

本发明的有益效果是：

本发明提供了一种高效的动态滤波等变模型E4-Net的图像分类方法。我们利用通用等变框架设计出用于输入层和中间层的等变卷积层。在具体实施中，我们可以将任意一个已有CNN模型中的卷积层采用本发明设计的E4-layer来替代，得到一个等变模型，最后用该模型进行图像识别。

本发明提出的网络结构不仅具有等变性，也具有三重高效性和动态滤波的特点，能够显著提高参数利用率。在图像识别任务数据集MNIST-rot和CIFAR上，本发明与传统的卷积模型以及一些现有的等变层如G-CNN、G-SA相比，都取得了明显更好的效果，它能够有效处理具有方向特征的图片数据，并且往往可以用更少的参数，在数据集上达到更低的分类错误率，能够高效提升图像分类的精度。

附图说明

图1是卷积神经网络模型处理图像的等变性的示意图；

其中，将变换g作用在映射的输入上，即作用方式为π_g，然后再通过映射Ψ得到的结果，应该与通过映射Ψ再经过变换g(即作用方式为π'_g)相同。

图2是本发明具体实施实现高效的动态滤波等变卷积网络模型进行图像分类的方法流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种高效的动态滤波等变卷积网络模型E4-Net的图像分类方法，利用等变通用框架(理论1)设计出高效的动态滤波等变卷积层E4-layer，用于进行图像分类与识别等视觉任务。包括以下步骤：

步骤1：采集图像，将训练数据分为训练样本和测试样本，本实施例所有数据集为MNIST-rot，CIFAR-10和CIFAR-100数据集。其中，MNIST-rot是由62,000张大小为28× 28的随机旋转手写数字灰度图像组成，训练数据10,000张，验证数据2,000张，测试数据50,000张。CIFAR-10和CIFAR-100均由60,000张大小为32×32的RGB彩色图像组成，其中训练数据50,000张，测试数据10,000张，类别分别为10类和100类。

步骤2：对训练样本图像进行预处理。对于三种数据集均采用128的批大小。

步骤3：构建E4-layer，并用它来代替G-CNN网络的输入层和部分中间层，将预处理后的训练样本通过构建的网络进行训练。本发明所述的等变性可以这么理解：将变换g作用在映射的输入上(作用方式为π_g)然后通过映射Ψ得到的结果，应该与通过映射Ψ再经过变换g(作用方式为π'_g)相同。等变性的示意图为附图1。容易看出，如果神经网络的每一层都是等变的，那么这种等变性会在整个网络中得到维护。事实上，我们可以选用任意一个已有的G-CNN架构，然后将其中的输入卷积层和部分中间卷积层采用本发明构建高效动态滤波卷积层E4-layer进行替换，得到一个新的等变卷积模型。在本实施例中，对于MNIST-rot数据集，我们选用堆叠7层E4-layer和1层全连接层构成的E4-Net作为网络结构。对于CIFAR数据集，我们选用等变ResNet18作为网络基本架构，将每个残差块的第二个卷积层替换为我们的E4-layer得到E4-R18。其中，构建等变卷积的步骤如下：

1)将图像数据分为训练样本和测试样本；

2)对训练样本图像进行预处理；

3)基于理论1，构建高效的动态滤波等变卷积网络模型并进行训练；

可以将设计出来的E4-layer进行堆叠，得到输入层和中间层全为E4-layer的结构，也可以选用一个任意已有的G-CNN架构，用设计出的E4-layer替换等变卷积网络模型的输入层和部分中间层。构建等变卷积和对等变卷积参数初始化包括如下步骤：

31)确定等变卷积网络模型的等变群：

在构建等变算子前，需要先确定卷积网络模型在什么群上能保持等变性。在图像识别任务中，通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换，设等变群

为仿射群pnm；若仅考虑旋转和平移变换两种变换，设等变群

为仿射群pn(由平移和旋转2π/n生成的群)这里我们主要考虑p4群和p4m。

32)构建E4-layer：

根据理论1，我们将

其分解为如下形式：

这里⊙是元素积，

是卷积核生成器，

是一个编码器。我们使用|·|来表示一个集合的元素个数，

就表示输入特征块的特征个数。这样做可以将

和V(y)的计算分开。除此之外，为了更进一步减少参数量，我们将生成的核沿着通道维度进行切片，使得每一个切片内部都共享参数，即

这里s是切片的个数，i，j是通道的指标。显然，

是一个动态滤波器因为它可以根据输入特征来调整自己的权重，从而避免了G-CNN中的空间不变性问题。与传统CNN中的动态滤波器工作相比，

是一个向量而不是矩阵，这样做可以在特征聚合的时候将通道维度的计算和空间维度的计算分离开，从而极大较少计算量。

事实上，我们可以将整个卷积核簇

视为一个映射的输出，即可以定义一个

然后，将该映射的输出调整为一个

维度的矩阵，不同的行代表不同的

比如，我们可以将

设置为多层感知机(MLP)，从而能让不同的

共享前几层参数，进而减少参数量。

下面基于式(1)给出E4-layer更加细节的实现。如前文所述，我们考虑仿射群

为C4时为p4，

为D4时为p4m。式(1)可以实现为下式：

和一般的G-CNN一样，我们只选用一些邻接点进行聚合。为了节省计算，我们将

选择为空间维度

上的邻域。除此之外，我们还需要对额外的几何维度，即

维度进行信息交互，因此，我们将

选择为g在

准度上的邻域，即

U代表拼接操作，拼接的顺序预先定义于

中。这样做使得该等变层将空间维度和额外几何维度(

维度)的计算分离开，从而减少计算量。

我们用两层MLP来实现

r是维度削减率。对于二维图像来说，Ω采用为k×k的格点，|Ω|＝k²，k为核尺寸。 V为

是一个线性变换。

步骤4：利用步骤3构建并训练好的高效动态滤波等变模型，对测试图像样本进行识别，得到预测的图像分类标签，由此实现图片分类识别，进而评估模型性能，其中测试样本无需经过图像预处理。

本发明具体实施时，均采用反向传播算法，对于MNIST-rot数据集，采用堆叠7层E4-layer和1层全连接层的E4-Net，每层的超参数设置为切片个数s＝2，维度削减率r＝1核尺寸k＝5。使用Adam优化器对模型进行训练，训练过程迭代200轮，批大小为128，即每128张图片为一个批次。学习速率初始值为0.02，在第60个，120和160轮将学习率衰减到原来的十分之一，权重衰减率设置为0.0001。对于CIFAR-10和CIFAR-100数据集，将Resnet18(G-CNN版本)的每一阶段的残差块第二层卷积替换为E4-layer，称为E4-R18， E4-layer的超参数为切片个数s＝2，维度削减率r＝C/2，核尺寸k＝3，C为当前层通道维度。使用随机梯度下降法对该模型进行训练，初始学习率设为0.1，Nesterov动量设为0.9，权重衰减设为0.0005。模型一共训练200轮，在第60个，120和160轮将学习率衰减到原来的五分之一。

表1给出了本发明模型E4-Net和其他模型在MNIST-rot测试数据集上的图像分类错误率和参数量，计算量的比较(均采用p4群)

表1

模型	测试误差(％)	参数量	计算量(FLOPs)
				G-SA	2.54	44.67K	400M
G-CNN	1.79	77.54K	46.2M
				α_G-CNN	1.69	73.13K	27M
E4-Net	1.29	18,8K	17M
				E4-Net(Large)	1.17	41,1K	36.9M

可以看出，相比等变自注意力网络(G-SA)，等变卷积网络(G-CNN)和等变注意力网络(α_p4_CNN)，我们的模型(E4-Net)在拥有明显较少的参数量和计算量的同时还能取得较低的测试误差，说明我们模型的参数高效性和计算高效性。此外，为了进一步测试我们模型的容量，我们通过将原来模型的通道维度从16增加到了24，切片个数s从2增加到 3后得到E4-Net(Large)，可以看出，模型的性能进一步提升，远超相同参数量级别和计算量级别的其他模型。

表2给出了本发明模型E4-R18和G-CNN(Resnet18结构)在CIFAR数据集上的图像分类错误率比较：

表2

从表中可以看出，我们分别用在群p4和群p4m上等变的Resnet18(G-Resnet18)卷积网络结构作为比较的基准，在减少参数量和计算量的同时，本发明方法的图像分类结果显著优于G-Resnet18的分类结果(图像分类错误率6.42％vs.7.53％；4.96％vs.5.83％)。表1和表2均体现了模型的参数高效性和计算高效性。

为了体现模型的数据高效性，我们将CIFAR10的训练数据减少，观察由此带来的对模型性能的影响，表3是不同模型在不同训练数据量情况下在测试集上的分类错误率。

表3

模型	等变群	1k	2k	3k	4k	5k
							G-Resnet18	Z<sup>2</sup>	28.43	19.25	14.07	12.04	9.70
G-Resnet18	p4	22.41	15.37	11.68	9.01	7.53
							E4-R18	p4	17.11	12.54	8.75	7.55	6.42
G-Resnet18	p4m	18.72	13.10	9.81	7.68	5.83
							E4-R18	p4m	13.50	9.79	7.01	6.02	4.96

可以看出，随着训练样本的减少，所有模型的性能都有下降，但相比G-CNN(G-Resnet18) 我们的模型下降幅度更低，我们的模型在较少训练样本的情况下相比G-CNN(G-Resnet18) 仍能够取得相对较好的效果。这说明了我们的模型能够更加高效地利用数据，这就是数据高效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于动态滤波等变卷积网络模型的图像分类方法，包括如下步骤：

S1)建立包括线性和非线性等变结构的等变卷积网络通用模型；

首先，分析已有的等变结构，将等变结构表示为特征聚合形式的式1：

其中，，f^(l)(g)和

分别为网络第l层在仿射群群元g和

的特征；

为一个仿射群；g为输出层某一仿射群群元；

为计算g处输出需要的输入特征的仿射群群元；

是通过位置进行索引的映射，用来描述如何聚合输入的特征f^(l)(g)和

表示n维实线性空间，C_l表示第l层的输入特征维度；所述位置是基于空间坐标诱导出的仿射群坐标；仿射群

其中

是循环群，

是半直积；

式1形式的中间层是群等变的，当且仅当存在一个映射

通过单一群元素

进行索引，并且

有：

再将输入特征表示成一个局部特征块的形式，如式3：

其中，

和

是g和

对应的局部特征块，

表示群元素g的邻域；

S2)将图像数据分为训练样本和测试样本；对图像数据进行预处理；

S3)基于步骤S1)建立的等变卷积网络通用模型，构建高效的动态滤波等变卷积网络模型并进行训练；

针对卷积网络模型的输入层和中间层，设计高效的动态滤波等变卷积层E4-layer；将E4-layer进行堆叠，得到等变CNN模型，称为E4-Net；构建动态滤波等变卷积层E4-layer包括如下步骤：

31)确定等变卷积网络模型的等变群为仿射群：

32)构建动态滤波等变卷积层E4-layer：

根据式1和式2，将

分解，表示为式4：

其中，⊙是元素积，

是卷积核生成器，

是一个编码器；|·|表示一个集合的元素个数，

表示输入特征块的特征个数；从而将

和V(y)的计算分开；进一步将生成的核沿着通道维度进行切片，使得每一个切片内部都共享参数，即

如果i≡j(mod s)；s是切片的个数，i，j是通道的指标；从而进一步减少参数量；

是一个动态滤波器向量，可根据输入特征调整权重；

将构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层，堆叠起来即得到E4-Net模型；

再利用训练样本图像对E4-Net模型进行训练；

2.如权利要求1所述基于动态滤波等变卷积网络模型的图像分类方法，其特征是，步骤S1中，循环群

为旋转群C4或旋转反射群D4。

3.如权利要求1所述基于动态滤波等变卷积网络模型的图像分类方法，其特征是，步骤S1中，式2的证明过程如下：

首先，

和

有：

因此，有：

令g→ug，则

然后，将u替换为g^-1，将

表示为

得到

进一步地，将输入特征表示成一个局部特征块的式3中，具体将

中的群元素对应的特征按照一定的顺序进行拼接，即可得到

4.如权利要求1所述基于动态滤波等变卷积网络模型的图像分类方法，其特征是，将E4-layer进行堆叠得到等变CNN模型E4-Net，具体通过用E4-layer替换CNN模型中的输入层和部分中间层，包括等变残差网络Resnet18中每个残差块的第二层，由此得到的模型命名为E4-R18；模型的输入为图像数据，输出为图像的预测分类，可用于图像分类与视觉识别视觉分析任务；

或者通过一个任意已有的群等变卷积网络模型G-CNN，采用E4-layer替换G-CNN模型的输入层和部分中间层而得到等变CNN模型E4-Net。

5.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法，其特征是，步骤S2)对训练样本图像进行预处理，包括进行像素归一化。

6.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法，其特征是，步骤S3)的31)中，确定等变卷积网络模型的等变群为仿射群，包括：

若考虑旋转、反射、平移变换，设等变群