CN113723472A - 一种基于动态滤波等变卷积网络模型的图像分类方法 - Google Patents

一种基于动态滤波等变卷积网络模型的图像分类方法 Download PDF

Info

Publication number
CN113723472A
CN113723472A CN202110910976.2A CN202110910976A CN113723472A CN 113723472 A CN113723472 A CN 113723472A CN 202110910976 A CN202110910976 A CN 202110910976A CN 113723472 A CN113723472 A CN 113723472A
Authority
CN
China
Prior art keywords
layer
model
group
equal
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110910976.2A
Other languages
English (en)
Other versions
CN113723472B (zh
Inventor
林宙辰
何翎申
陈宇轩
沈铮阳
王奕森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110910976.2A priority Critical patent/CN113723472B/zh
Publication of CN113723472A publication Critical patent/CN113723472A/zh
Application granted granted Critical
Publication of CN113723472B publication Critical patent/CN113723472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于动态滤波等变卷积网络模型的图像分类方法,建立包括线性和非线性等变结构的等变卷积网络通用模型;设计一种高效的动态滤波等变网络层E4‑layer,以替换卷积网络模型的输入层和中间层,构建高效的动态滤波等变卷积网络模型并进行训练;本发明方法的高效性包括:参数高效,模型使用的参数量更少,减少内存开销;计算高效,模型计算量更少,能降低算法的时间复杂度;数据高效,模型能够在较少处理数据的情况下仍取得较好的结果;能够高效提升图像分类的精度。

Description

一种基于动态滤波等变卷积网络模型的图像分类方法
技术领域
本发明属于模式识别、机器学习、人工智能技术领域,涉及图像分类方法,具体涉及 一种基于动态滤波等变卷积网络模型的图像分类方法,通过建立一种通用的等变网络层框 架,并据此设计出了一种高效的动态滤波等变网络模型。相比以往的方法,本发明的模型 结构能用更少的参数量和计算量在MNIST-rot,CIFAR-10和CIFAR-100上取得更高的结果。
背景技术
在过去的几年中,卷积神经网络(CNN)模型被广泛应用于图像识别任务上,相比传统 的人为特征选择的方法取得了较高的提升。卷积神经网络有一个特点:先将图像平移然后 通过若干个卷积层得到的特征图与先将原始图像通过卷积层然后再平移得到的结果相同。 该特点被称为平移等变性。平移等变性被认为是卷积神经网络起作用的一个重要原因,它 能将数据中的平移对称性刻画进了网络结构中。基于此,Cohen和Welling将更多的对称 性比如旋转和反射引入到了网络中(Group equivariant convolutionalnetworks),通过 群论语言来描述这些对称性,称之为群等变卷积网络(G-CNN)。与普通CNN中的平移等变 性类似,这些对称性通过网络层的旋转等变性,反射等变性来反映。然而G-CNN有两个比 较大的缺点:1)在实现上,G-CNN需要引入额外的维度来将新的等变性编码到网络结构中, 这会极大增大网络的参数和计算量。2)与CNN类似,G-CNN具有空间不变性,也就是说, G-CNN不能基于具体的空间位置上的输入特征来动态调整它的滤波器。
为解决上述两个问题,现有方法中,Cheng(Decomposition of convolutionfilters for rotational-equivariant deep networks)提出将卷积滤波器沿着空间和额外几何维 度进行分解,这样做能在减少了模型的尺寸和计算量的同时保持性能。然而,该方法仍然 是静态滤波。为了将动态滤波的性质引入到G-CNN中,文献(Co-attentiveequivaraint neural network:Focusing equivariance on transformations co-occurring in data; Attentive group equivariant convolution networks)记载了将注意力机制嵌入到网络 结构中的做法,然而相对于本方法,这样做会引入额外的参数和计算量,增大G-CNN的计 算负担。
Cohen等人在文献(A general theory of equivariant cnns on homogeneousspaces) 中记载了可以将一切线性等变层均写成类似卷积的形式,但该方法无法处理非线性等变层 (例如等变自注意力层(Group equivariant stand-slone self-attention forvision))。
发明内容
为了克服以上技术问题中的不足,本发明提出了一种用于图像分类的动态滤波等变卷 积网络模型方法,建立等变网络层的通用框架,包括几乎所有的等变层(无论是线性层还 是非线性层),并将基于此框架衍生出的高效可动态调整等变卷积网络模型应用于图像分类。 由于模型本身具有的等变性(Equivariance),将其命名为E4-Net。
相比以往的等变卷积网络,本发明创建的动态滤波等变卷积网络模型具有三重高效性 (Efficiency):1)参数高效性:本发明创建的模型使用参数量更少,减少了内存开销。2) 计算高效性,本发明模型计算量更少,能降低算法的时间复杂度。3)数据高效性,本发明模型能够在较少数据的情况下仍然取得较好的结果。
为方便起见,本发明定义如下属于名称及参数:
f(l)(g):网络第l层的特征
Cl:l层特征通道维度
Figure BDA0003201934960000021
仿射群
g,
Figure BDA0003201934960000022
仿射群群元
Figure BDA0003201934960000023
n维实线性空间
Figure BDA0003201934960000024
循环群
Figure BDA0003201934960000025
群元素g的邻域
Figure BDA0003201934960000026
g对应的局部特征块
r:维度削减率Ω采用为k×k的格点,|Ω|=k2
k:核尺寸
Ω:k×k的格点
s:切片个数
本发明的技术方案如下:
一种基于高效的动态滤波等变卷积网络模型的图像分类方法,包括如下步骤:
S1)建立包括线性和非线性等变结构的等变卷积网络的通用模型框架;
本发明提出的等变卷积网络的通用模型框架,可以将线性和非线性等变结构纳为特例。 首先,分析已有的等变结构,将等变结构表示为以下的特征聚合的形式:
Figure BDA0003201934960000031
其中,f(l)(g)为网络第l层在仿射群群元g处的特征;
Figure BDA0003201934960000032
为一个仿射群;g为输出层某一 仿射群群元的位置;
Figure BDA0003201934960000033
为计算g处输出需要的输入特征的仿射群群元位置;
Figure BDA0003201934960000034
Figure BDA0003201934960000035
是一个通过仿射群群元两个位置来索引的映射,用来描述如何聚合输入的特征f(l)(g)和
Figure BDA0003201934960000036
Figure BDA0003201934960000037
表示n维实线性空间,Cl表示第l层的输入特征维度。这里的 位置不再是普通卷积网络的空间坐标,而是基于空间坐标诱导出的仿射群坐标;
Figure BDA0003201934960000038
Figure BDA0003201934960000039
其中
Figure BDA00032019349600000310
是一个循环群,可以是C4(旋转群)或D4(旋转反射群),
Figure BDA00032019349600000311
是半直积。
式1形式的中间层是群等变的,当且仅当存在一个映射
Figure BDA00032019349600000312
通过单 一群元素
Figure BDA00032019349600000313
来索引,并且
Figure BDA00032019349600000314
有:
Figure BDA00032019349600000315
式2证明过程如下:
首先,
Figure BDA00032019349600000316
Figure BDA00032019349600000317
有:
Figure BDA00032019349600000318
在另一边:
Figure BDA00032019349600000319
因此,有:
Figure BDA0003201934960000041
令g→ug,则
Figure BDA0003201934960000042
然后,将u替换为g-1,将
Figure BDA0003201934960000043
表示为
Figure BDA0003201934960000044
最终可以得到
Figure BDA0003201934960000045
证毕。
在此基础上,将输入特征表示成一个局部特征块的形式,如下式:
Figure BDA0003201934960000046
这里
Figure BDA0003201934960000047
Figure BDA0003201934960000048
是g和
Figure BDA0003201934960000049
对应的局部特征块,
Figure BDA00032019349600000410
表示群元素g的邻域。在具体实施 时,将
Figure BDA00032019349600000411
中的群元素对应的特征按照一定的顺序进行拼接,即可得到
Figure BDA00032019349600000412
本发明具体实施时,针对卷积网络模型的输入层和中间层,设计出了一种高效的动态 滤波等变卷积层(命名为E4-layer)。将E4-layer进行堆叠,得到一个等变的CNN模型,称为E4-Net。可用E4-layer替换一些CNN框架中的输入层和部分中间层,例如等变残差 网络(Resnet18)中每个残差块的第二层(得到的模型命名为E4-R18)。这些模型的输入 均为图像数据,输出均为图像的预测分类,可用于图像分类与识别等视觉分析任务。
S2)对图像数据进行预处理;包括:
将图像数据分为训练样本和测试样本;
对训练样本图像进行预处理,包含像素归一化等;
S3)基于步骤S1)建立的等变卷积网络通用框架,构建高效的动态滤波等变卷积网络 模型并进行训练;
可以构建动态滤波等变卷积层E4-layer,并将E4-layer进行堆叠,得到输入层和中间 层全为E4-layer的结构;也可以选用一个任意已有的群等变卷积网络G-CNN架构,用E4-layer替换G-CNN模型的输入层和部分中间层。
构建动态滤波等变卷积层E4-layer包括如下步骤:
31)确定等变卷积网络模型的等变群
Figure BDA00032019349600000413
为仿射群pn:
在构建等变卷积层前,需要先确定卷积网络模型在什么群上能保持等变性。在图像识 别任务中,通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换,设等变群
Figure BDA00032019349600000414
为仿射群pnm;若仅考虑旋转和平移变换两种变换,设定等变群
Figure BDA00032019349600000415
为仿射群pn(由平移和旋转2π/n生成的群)。
32)构建动态滤波等变卷积层E4-layer:
根据式1和式2,不同于G-CNN和等变自注意力层,本发明将
Figure BDA0003201934960000051
分解为如下形式:
Figure BDA0003201934960000052
这里⊙是元素积,
Figure BDA0003201934960000053
是卷积核生成器,
Figure BDA0003201934960000054
是一个编 码器。|·|表示一个集合的元素个数,
Figure BDA0003201934960000055
表示输入特征块的特征个数。这样可以将
Figure BDA0003201934960000056
和V(y)的计算分开。除此之外,为了更进一步减少参数量,将生成的核沿着通道维度进行 切片,使得每一个切片内部都共享参数,即
Figure BDA0003201934960000057
如果i≡j(mods)。 这里s是切片的个数,i,j是通道的指标。显然,
Figure BDA0003201934960000058
是一个动态滤波器,因为它可以根据输入特征来调整自己的权重,从而避免了G-CNN中的空间不变性问题。与传统已有CNN 中的动态滤波器相比,
Figure BDA0003201934960000059
是一个向量而不是矩阵,该方法可以在特征聚合的时候将通道维度的计算和空间维度的计算分离开,从而极大较少计算量。
事实上,可将整个卷积核簇
Figure BDA00032019349600000510
视为一个映射的输出,即可以定义
Figure BDA00032019349600000511
Figure BDA00032019349600000512
然后,将该映射的输出调整为一个
Figure BDA00032019349600000513
维度的矩阵,不同的行代表不同的
Figure BDA00032019349600000514
比如,可以将
Figure BDA00032019349600000530
设置为多层感知机(MLP),从而能让不同的
Figure BDA00032019349600000515
共享前几层参数,进而减少 参数量。
下面基于式4给出E4-layer更加细节的实现。如前文所述,考虑仿射群:
Figure BDA00032019349600000516
Figure BDA00032019349600000517
为C4时为p4,
Figure BDA00032019349600000518
为D4时为p4m。式4可以实现为下式:
Figure BDA00032019349600000519
和一般的G-CNN一样,本发明只选用一些邻接点进行聚合。为了节省计算,将
Figure BDA00032019349600000520
选 择为空间维度
Figure BDA00032019349600000521
上的邻域。除此之外,还需要对额外的几何维度,即
Figure BDA00032019349600000522
维度进行信息交互,因此,本发明将
Figure BDA00032019349600000523
选择为g在
Figure BDA00032019349600000524
维度上的邻域,即
Figure BDA00032019349600000525
∪代表拼接 操作,拼接的顺序预先定义于
Figure BDA00032019349600000526
中。这样做使得该等变层将空间维度和额外几何维度(
Figure BDA00032019349600000527
维度)的计算分离开,从而减少计算量。
本发明用两层MLP来实现
Figure BDA00032019349600000528
r是维度削减率。对于二维图像来说,Ω采用为k×k的格点,|Ω|=k2,k为核尺寸。V 为
Figure BDA00032019349600000529
是一个线性变换。
将上述构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层,即得到E4-Net 模型。再利用训练样本图像对该模型进行训练。
本发明具体实施时,均采用反向传播算法对E4-Net模型进行训练,对于MNIST-rot数 据集,采用E4-layer堆叠起来的E4-Net,使用Adam优化器对模型进行训练。训练过程迭代200轮,批大小为128,即每128张图片为一个批次。学习速率初始值为0.02,在第60 个,120和160轮将学习率衰减到原来的十分之一。权重衰减率设置为0.0001。对于 CIFAR-10和CIFAR-100数据集,将Resnet18(G-CNN版本)的每一阶段的残差块第二层卷 积替换为E4-layer,称为E4-R18。使用随机梯度下降法对该模型进行训练,初始学习率设 为0.1,Nesterov动量设为0.9,权重衰减设为0.0005。模型一共训练200轮,在第60 个,120和160轮将学习率衰减到原来的五分之一。
S4)利用步骤S3)构建并训练好的高效动态滤波等变模型E4-Net,对测试图像样本进 行识别,得到预测的图像分类标签,由此实现图片分类识别,其中测试样本无需经过图像 预处理。
本发明的有益效果是:
本发明提供了一种高效的动态滤波等变模型E4-Net的图像分类方法。我们利用通用等 变框架设计出用于输入层和中间层的等变卷积层。在具体实施中,我们可以将任意一个已 有CNN模型中的卷积层采用本发明设计的E4-layer来替代,得到一个等变模型,最后用该 模型进行图像识别。
本发明提出的网络结构不仅具有等变性,也具有三重高效性和动态滤波的特点,能够 显著提高参数利用率。在图像识别任务数据集MNIST-rot和CIFAR上,本发明与传统的卷 积模型以及一些现有的等变层如G-CNN、G-SA相比,都取得了明显更好的效果,它能够有效处理具有方向特征的图片数据,并且往往可以用更少的参数,在数据集上达到更低的分类错误率,能够高效提升图像分类的精度。
附图说明
图1是卷积神经网络模型处理图像的等变性的示意图;
其中,将变换g作用在映射的输入上,即作用方式为πg,然后再通过映射Ψ得到的结 果,应该与通过映射Ψ再经过变换g(即作用方式为π'g)相同。
图2是本发明具体实施实现高效的动态滤波等变卷积网络模型进行图像分类的方法流 程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种高效的动态滤波等变卷积网络模型E4-Net的图像分类方法,利用等变 通用框架(理论1)设计出高效的动态滤波等变卷积层E4-layer,用于进行图像分类与识 别等视觉任务。包括以下步骤:
步骤1:采集图像,将训练数据分为训练样本和测试样本,本实施例所有数据集为MNIST-rot,CIFAR-10和CIFAR-100数据集。其中,MNIST-rot是由62,000张大小为28× 28的随机旋转手写数字灰度图像组成,训练数据10,000张,验证数据2,000张,测试数 据50,000张。CIFAR-10和CIFAR-100均由60,000张大小为32×32的RGB彩色图像组成, 其中训练数据50,000张,测试数据10,000张,类别分别为10类和100类。
步骤2:对训练样本图像进行预处理。对于三种数据集均采用128的批大小。
步骤3:构建E4-layer,并用它来代替G-CNN网络的输入层和部分中间层,将预处理后的训练样本通过构建的网络进行训练。本发明所述的等变性可以这么理解:将变换g作用在映射的输入上(作用方式为πg)然后通过映射Ψ得到的结果,应该与通过映射Ψ再 经过变换g(作用方式为π'g)相同。等变性的示意图为附图1。容易看出,如果神经网络 的每一层都是等变的,那么这种等变性会在整个网络中得到维护。事实上,我们可以选用 任意一个已有的G-CNN架构,然后将其中的输入卷积层和部分中间卷积层采用本发明构建 高效动态滤波卷积层E4-layer进行替换,得到一个新的等变卷积模型。在本实施例中,对 于MNIST-rot数据集,我们选用堆叠7层E4-layer和1层全连接层构成的E4-Net作为网 络结构。对于CIFAR数据集,我们选用等变ResNet18作为网络基本架构,将每个残差块的 第二个卷积层替换为我们的E4-layer得到E4-R18。其中,构建等变卷积的步骤如下:
1)将图像数据分为训练样本和测试样本;
2)对训练样本图像进行预处理;
3)基于理论1,构建高效的动态滤波等变卷积网络模型并进行训练;
可以将设计出来的E4-layer进行堆叠,得到输入层和中间层全为E4-layer的结构, 也可以选用一个任意已有的G-CNN架构,用设计出的E4-layer替换等变卷积网络模型的输 入层和部分中间层。构建等变卷积和对等变卷积参数初始化包括如下步骤:
31)确定等变卷积网络模型的等变群:
在构建等变算子前,需要先确定卷积网络模型在什么群上能保持等变性。在图像识别 任务中,通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换,设等变群
Figure BDA0003201934960000081
为仿射群pnm;若仅考虑旋转和平移变换两种变换,设等变群
Figure BDA0003201934960000082
为仿射群pn(由平移和旋转2π/n生成的群)这里我们主要考虑p4群和p4m。
32)构建E4-layer:
根据理论1,我们将
Figure BDA0003201934960000083
其分解为如下形式:
Figure BDA0003201934960000084
这里⊙是元素积,
Figure BDA0003201934960000085
是卷积核生成器,
Figure BDA0003201934960000086
是一个编 码器。我们使用|·|来表示一个集合的元素个数,
Figure BDA0003201934960000087
就表示输入特征块的特征个数。 这样做可以将
Figure BDA0003201934960000088
和V(y)的计算分开。除此之外,为了更进一步减少参数量,我们 将生成的核沿着通道维度进行切片,使得每一个切片内部都共享参数,即
Figure BDA0003201934960000089
Figure BDA00032019349600000810
这里s是切片的个数,i,j是通道的指标。显然,
Figure BDA00032019349600000811
是一个动态滤波器因为它可以根据输入特征来调整自己的权重,从而避免了G-CNN中 的空间不变性问题。与传统CNN中的动态滤波器工作相比,
Figure BDA00032019349600000812
是一个向量而不是矩 阵,这样做可以在特征聚合的时候将通道维度的计算和空间维度的计算分离开,从而 极大较少计算量。
事实上,我们可以将整个卷积核簇
Figure BDA00032019349600000813
视为一个映射的输出,即可以定义一个
Figure BDA00032019349600000814
然后,将该映射的输出调整为一个
Figure BDA00032019349600000815
维度的矩阵,不同 的行代表不同的
Figure BDA00032019349600000816
比如,我们可以将
Figure BDA00032019349600000817
设置为多层感知机(MLP),从而能让不同的
Figure BDA00032019349600000818
共享前几层参数,进而减少参数量。
下面基于式(1)给出E4-layer更加细节的实现。如前文所述,我们考虑仿射群
Figure BDA0003201934960000091
Figure BDA0003201934960000092
为C4时为p4,
Figure BDA0003201934960000093
为D4时为p4m。式(1)可以实现为下式:
Figure BDA0003201934960000094
和一般的G-CNN一样,我们只选用一些邻接点进行聚合。为了节省计算,我们将
Figure BDA0003201934960000095
选择为空间维度
Figure BDA0003201934960000096
上的邻域。除此之外,我们还需要对额外的几何维度,即
Figure BDA0003201934960000097
维度进行信息交互,因此,我们将
Figure BDA0003201934960000098
选择为g在
Figure BDA0003201934960000099
准度上的邻域,即
Figure BDA00032019349600000910
Figure BDA00032019349600000911
U代表拼接操作,拼接的顺序预先定义于
Figure BDA00032019349600000912
中。这样做使得该等变层将空间维 度和额外几何维度(
Figure BDA00032019349600000913
维度)的计算分离开,从而减少计算量。
我们用两层MLP来实现
Figure BDA00032019349600000914
r是维度削减率。对于二维图像来说,Ω采用为k×k的格点,|Ω|=k2,k为核尺寸。 V为
Figure BDA00032019349600000915
是一个线性变换。
将上述构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层,即得到E4-Net 模型。再利用训练样本图像对该模型进行训练。
步骤4:利用步骤3构建并训练好的高效动态滤波等变模型,对测试图像样本进行识别, 得到预测的图像分类标签,由此实现图片分类识别,进而评估模型性能,其中测试样本无 需经过图像预处理。
本发明具体实施时,均采用反向传播算法,对于MNIST-rot数据集,采用堆叠7层E4-layer和1层全连接层的E4-Net,每层的超参数设置为切片个数s=2,维度削减率r=1核尺寸k=5。使用Adam优化器对模型进行训练,训练过程迭代200轮,批大小为128, 即每128张图片为一个批次。学习速率初始值为0.02,在第60个,120和160轮将学习率 衰减到原来的十分之一,权重衰减率设置为0.0001。对于CIFAR-10和CIFAR-100数据集, 将Resnet18(G-CNN版本)的每一阶段的残差块第二层卷积替换为E4-layer,称为E4-R18, E4-layer的超参数为切片个数s=2,维度削减率r=C/2,核尺寸k=3,C为当前层通道维 度。使用随机梯度下降法对该模型进行训练,初始学习率设为0.1,Nesterov动量设为0.9, 权重衰减设为0.0005。模型一共训练200轮,在第60个,120和160轮将学习率衰减到原 来的五分之一。
表1给出了本发明模型E4-Net和其他模型在MNIST-rot测试数据集上的图像分类错误 率和参数量,计算量的比较(均采用p4群)
表1
模型 测试误差(%) 参数量 计算量(FLOPs)
G-SA 2.54 44.67K 400M
G-CNN 1.79 77.54K 46.2M
α_G-CNN 1.69 73.13K 27M
E4-Net 1.29 18,8K 17M
E4-Net(Large) 1.17 41,1K 36.9M
可以看出,相比等变自注意力网络(G-SA),等变卷积网络(G-CNN)和等变注意力网络(α_p4_CNN),我们的模型(E4-Net)在拥有明显较少的参数量和计算量的同时还能取 得较低的测试误差,说明我们模型的参数高效性和计算高效性。此外,为了进一步测试我 们模型的容量,我们通过将原来模型的通道维度从16增加到了24,切片个数s从2增加到 3后得到E4-Net(Large),可以看出,模型的性能进一步提升,远超相同参数量级别和计 算量级别的其他模型。
表2给出了本发明模型E4-R18和G-CNN(Resnet18结构)在CIFAR数据集上的图像分类错误率比较:
表2
Figure BDA0003201934960000101
Figure BDA0003201934960000111
从表中可以看出,我们分别用在群p4和群p4m上等变的Resnet18(G-Resnet18)卷积 网络结构作为比较的基准,在减少参数量和计算量的同时,本发明方法的图像分类结果显 著优于G-Resnet18的分类结果(图像分类错误率6.42%vs.7.53%;4.96%vs.5.83%)。表1和表2均体现了模型的参数高效性和计算高效性。
为了体现模型的数据高效性,我们将CIFAR10的训练数据减少,观察由此带来的对模 型性能的影响,表3是不同模型在不同训练数据量情况下在测试集上的分类错误率。
表3
模型 等变群 1k 2k 3k 4k 5k
G-Resnet18 Z<sup>2</sup> 28.43 19.25 14.07 12.04 9.70
G-Resnet18 p4 22.41 15.37 11.68 9.01 7.53
E4-R18 p4 17.11 12.54 8.75 7.55 6.42
G-Resnet18 p4m 18.72 13.10 9.81 7.68 5.83
E4-R18 p4m 13.50 9.79 7.01 6.02 4.96
可以看出,随着训练样本的减少,所有模型的性能都有下降,但相比G-CNN(G-Resnet18) 我们的模型下降幅度更低,我们的模型在较少训练样本的情况下相比G-CNN(G-Resnet18) 仍能够取得相对较好的效果。这说明了我们的模型能够更加高效地利用数据,这就是数据 高效性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人 员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能 的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书 界定的范围为准。

Claims (10)

1.一种基于动态滤波等变卷积网络模型的图像分类方法,包括如下步骤:
S1)建立包括线性和非线性等变结构的等变卷积网络通用模型;
首先,分析已有的等变结构,将等变结构表示为特征聚合形式的式1:
Figure FDA0003201934950000011
其中,,f(l)(g)和
Figure FDA0003201934950000012
分别为网络第l层在仿射群群元g和
Figure FDA0003201934950000013
的特征;
Figure FDA0003201934950000014
为一个仿射群;g为输出层某一仿射群群元;
Figure FDA0003201934950000015
为计算g处输出需要的输入特征的仿射群群元;
Figure FDA0003201934950000016
Figure FDA0003201934950000017
是通过位置进行索引的映射,用来描述如何聚合输入的特征f(l)(g)和
Figure FDA0003201934950000018
Figure FDA0003201934950000019
表示n维实线性空间,Cl表示第l层的输入特征维度;所述位置是基于空间坐标诱导出的仿射群坐标;仿射群
Figure FDA00032019349500000110
其中
Figure FDA00032019349500000111
是循环群,
Figure FDA00032019349500000112
是半直积;
式1形式的中间层是群等变的,当且仅当存在一个映射
Figure FDA00032019349500000113
通过单一群元素
Figure FDA00032019349500000114
进行索引,并且
Figure FDA00032019349500000115
有:
Figure FDA00032019349500000116
再将输入特征表示成一个局部特征块的形式,如式3:
Figure FDA00032019349500000117
其中,
Figure FDA00032019349500000118
Figure FDA00032019349500000119
是g和
Figure FDA00032019349500000120
对应的局部特征块,
Figure FDA00032019349500000121
表示群元素g的邻域;
S2)将图像数据分为训练样本和测试样本;对图像数据进行预处理;
S3)基于步骤S1)建立的等变卷积网络通用模型,构建高效的动态滤波等变卷积网络模型并进行训练;
针对卷积网络模型的输入层和中间层,设计高效的动态滤波等变卷积层E4-layer;将E4-layer进行堆叠,得到等变CNN模型,称为E4-Net;构建动态滤波等变卷积层E4-layer包括如下步骤:
31)确定等变卷积网络模型的等变群为仿射群:
32)构建动态滤波等变卷积层E4-layer:
根据式1和式2,将
Figure FDA00032019349500000122
分解,表示为式4:
Figure FDA00032019349500000123
其中,⊙是元素积,
Figure FDA00032019349500000124
是卷积核生成器,
Figure FDA00032019349500000125
是一个编码器;|·|表示一个集合的元素个数,
Figure FDA00032019349500000126
表示输入特征块的特征个数;从而将
Figure FDA00032019349500000127
和V(y)的计算分开;进一步将生成的核沿着通道维度进行切片,使得每一个切片内部都共享参数,即
Figure FDA0003201934950000021
如果i≡j(mod s);s是切片的个数,i,j是通道的指标;从而进一步减少参数量;
Figure FDA0003201934950000022
是一个动态滤波器向量,可根据输入特征调整权重;
将构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层,堆叠起来即得到E4-Net模型;
再利用训练样本图像对E4-Net模型进行训练;
S4)利用步骤S3)构建并训练好的高效动态滤波等变模型E4-Net,对测试图像样本进行识别,得到预测的图像分类标签,由此实现图片分类识别,其中测试样本无需经过图像预处理。
2.如权利要求1所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,步骤S1中,循环群
Figure FDA0003201934950000023
为旋转群C4或旋转反射群D4。
3.如权利要求1所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,步骤S1中,式2的证明过程如下:
首先,
Figure FDA0003201934950000024
Figure FDA0003201934950000025
有:
Figure FDA0003201934950000026
Figure FDA0003201934950000027
因此,有:
Figure FDA0003201934950000028
令g→ug,则
Figure FDA0003201934950000029
然后,将u替换为g-1,将
Figure FDA00032019349500000210
表示为
Figure FDA00032019349500000211
得到
Figure FDA00032019349500000212
进一步地,将输入特征表示成一个局部特征块的式3中,具体将
Figure FDA00032019349500000213
中的群元素对应的特征按照一定的顺序进行拼接,即可得到
Figure FDA00032019349500000214
4.如权利要求1所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,将E4-layer进行堆叠得到等变CNN模型E4-Net,具体通过用E4-layer替换CNN模型中的输入层和部分中间层,包括等变残差网络Resnet18中每个残差块的第二层,由此得到的模型命名为E4-R18;模型的输入为图像数据,输出为图像的预测分类,可用于图像分类与视觉识别视觉分析任务;
或者通过一个任意已有的群等变卷积网络模型G-CNN,采用E4-layer替换G-CNN模型的输入层和部分中间层而得到等变CNN模型E4-Net。
5.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,步骤S2)对训练样本图像进行预处理,包括进行像素归一化。
6.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,步骤S3)的31)中,确定等变卷积网络模型的等变群为仿射群,包括:
若考虑旋转、反射、平移变换,设等变群
Figure FDA00032019349500000317
为仿射群pnm;
若仅考虑旋转和平移变换两种变换,设定等变群
Figure FDA00032019349500000318
为仿射群pn;仿射群pn为由平移和旋转2π/n生成的群。
7.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,步骤S3)的32)中,将卷积核簇
Figure FDA0003201934950000031
作为一个映射的输出,即定义
Figure FDA0003201934950000032
然后,将该映射的输出调整为一个
Figure FDA0003201934950000033
维度的矩阵,不同的行代表不同的
Figure FDA0003201934950000034
进一步可将
Figure FDA0003201934950000035
设置为多层感知机MLP,从而使得不同的
Figure FDA0003201934950000036
共享前几层参数,减少参数量。
8.如权利要求7所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,实现E4-layer具体包括如下过程:
考虑仿射群:
Figure FDA0003201934950000037
Figure FDA0003201934950000038
为C4时为p4,
Figure FDA0003201934950000039
为D4时为p4m;
将式4实现表示为式5:
Figure FDA00032019349500000310
选用邻接点进行聚合;将
Figure FDA00032019349500000311
选择为空间维度
Figure FDA00032019349500000312
上的邻域;再对几何维度即
Figure FDA00032019349500000313
维度进行信息交互;从而使得等变层将空间维度和
Figure FDA00032019349500000314
维度的计算分离开,减少计算量;V为线性变换
Figure FDA00032019349500000315
9.如权利要求8所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,具体采用两层MLP实现
Figure FDA00032019349500000316
r是维度削减率;对于二维图像,Ω采用k×k的格点,|Ω|=k2,k为核尺寸。
10.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,利用训练样本图像,具体采用反向传播算法,使用Adam优化器随机梯度下降法对E4-Net模型进行训练;或使用随机梯度下降法对E4-R18模型进行训练。
CN202110910976.2A 2021-08-09 2021-08-09 一种基于动态滤波等变卷积网络模型的图像分类方法 Active CN113723472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110910976.2A CN113723472B (zh) 2021-08-09 2021-08-09 一种基于动态滤波等变卷积网络模型的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110910976.2A CN113723472B (zh) 2021-08-09 2021-08-09 一种基于动态滤波等变卷积网络模型的图像分类方法

Publications (2)

Publication Number Publication Date
CN113723472A true CN113723472A (zh) 2021-11-30
CN113723472B CN113723472B (zh) 2023-11-24

Family

ID=78675316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110910976.2A Active CN113723472B (zh) 2021-08-09 2021-08-09 一种基于动态滤波等变卷积网络模型的图像分类方法

Country Status (1)

Country Link
CN (1) CN113723472B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463556A (zh) * 2022-01-24 2022-05-10 北京智源人工智能研究院 等变网络训练方法和装置、图像识别方法和装置
CN114528977A (zh) * 2022-01-24 2022-05-24 北京智源人工智能研究院 一种等变网络训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104661023A (zh) * 2015-02-04 2015-05-27 天津大学 基于预失真和训练滤波器的图像或视频编码方法
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN110532859A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于深度进化剪枝卷积网的遥感图像目标检测方法
US20190370972A1 (en) * 2018-06-04 2019-12-05 University Of Central Florida Research Foundation, Inc. Capsules for image analysis
CN111401452A (zh) * 2020-03-17 2020-07-10 北京大学 一种基于偏微分算子的等变卷积网络模型的图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104661023A (zh) * 2015-02-04 2015-05-27 天津大学 基于预失真和训练滤波器的图像或视频编码方法
US20190370972A1 (en) * 2018-06-04 2019-12-05 University Of Central Florida Research Foundation, Inc. Capsules for image analysis
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN110532859A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于深度进化剪枝卷积网的遥感图像目标检测方法
CN111401452A (zh) * 2020-03-17 2020-07-10 北京大学 一种基于偏微分算子的等变卷积网络模型的图像分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463556A (zh) * 2022-01-24 2022-05-10 北京智源人工智能研究院 等变网络训练方法和装置、图像识别方法和装置
CN114528977A (zh) * 2022-01-24 2022-05-24 北京智源人工智能研究院 一种等变网络训练方法、装置、电子设备及存储介质
CN114528977B (zh) * 2022-01-24 2023-01-31 北京智源人工智能研究院 一种等变网络训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113723472B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111401452B (zh) 一种基于偏微分算子的等变卷积网络模型的图像分类方法
CN105488776B (zh) 超分辨率图像重建方法和装置
CN108009594B (zh) 一种基于变分组卷积的图像识别方法
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
Chen et al. Remote sensing image quality evaluation based on deep support value learning networks
CN112257753B (zh) 基于偏微分算子的广义等变卷积网络模型的图像分类方法
CN112215755B (zh) 一种基于反投影注意力网络的图像超分辨率重建方法
CN113723472A (zh) 一种基于动态滤波等变卷积网络模型的图像分类方法
CN111415323B (zh) 图像的检测方法及装置,神经网络的训练方法及装置
CN116147130A (zh) 智能家居控制系统及其方法
CN111340697B (zh) 一种基于聚类回归的图像超分辨方法
CN112699899A (zh) 一种基于生成对抗网络的高光谱图像特征提取方法
CN113744136A (zh) 基于通道约束多特征融合的图像超分辨率重建方法和系统
CN110443296B (zh) 面向高光谱图像分类的数据自适应激活函数学习方法
Pan et al. FDPPGAN: remote sensing image fusion based on deep perceptual patchGAN
Lyu et al. DSTnet: A new discrete shearlet transform-based CNN model for image denoising
CN113888491A (zh) 基于非局部特征的多级高光谱图像递进超分方法及系统
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
CN116310452B (zh) 一种多视图聚类方法及系统
CN113159159A (zh) 一种基于改进cnn的小样本图像分类方法
Zhao et al. Saliency map-aided generative adversarial network for raw to rgb mapping
CN111667495A (zh) 一种图像场景解析方法和装置
CN116758349A (zh) 基于多尺度超像素节点聚合图卷积残差网络的高光谱图像分类方法
CN114677545B (zh) 一种基于相似性剪枝和高效模块的轻量化图像分类方法
Jin et al. Blind image quality assessment for multiple distortion image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant