CN113723472A - 一种基于动态滤波等变卷积网络模型的图像分类方法 - Google Patents
一种基于动态滤波等变卷积网络模型的图像分类方法 Download PDFInfo
- Publication number
- CN113723472A CN113723472A CN202110910976.2A CN202110910976A CN113723472A CN 113723472 A CN113723472 A CN 113723472A CN 202110910976 A CN202110910976 A CN 202110910976A CN 113723472 A CN113723472 A CN 113723472A
- Authority
- CN
- China
- Prior art keywords
- layer
- model
- group
- equal
- variation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001914 filtration Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 16
- 238000013519 translation Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 16
- 230000002238 attenuated effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 241000764238 Isis Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于动态滤波等变卷积网络模型的图像分类方法,建立包括线性和非线性等变结构的等变卷积网络通用模型;设计一种高效的动态滤波等变网络层E4‑layer,以替换卷积网络模型的输入层和中间层,构建高效的动态滤波等变卷积网络模型并进行训练;本发明方法的高效性包括:参数高效,模型使用的参数量更少,减少内存开销;计算高效,模型计算量更少,能降低算法的时间复杂度;数据高效,模型能够在较少处理数据的情况下仍取得较好的结果;能够高效提升图像分类的精度。
Description
技术领域
本发明属于模式识别、机器学习、人工智能技术领域,涉及图像分类方法,具体涉及 一种基于动态滤波等变卷积网络模型的图像分类方法,通过建立一种通用的等变网络层框 架,并据此设计出了一种高效的动态滤波等变网络模型。相比以往的方法,本发明的模型 结构能用更少的参数量和计算量在MNIST-rot,CIFAR-10和CIFAR-100上取得更高的结果。
背景技术
在过去的几年中,卷积神经网络(CNN)模型被广泛应用于图像识别任务上,相比传统 的人为特征选择的方法取得了较高的提升。卷积神经网络有一个特点:先将图像平移然后 通过若干个卷积层得到的特征图与先将原始图像通过卷积层然后再平移得到的结果相同。 该特点被称为平移等变性。平移等变性被认为是卷积神经网络起作用的一个重要原因,它 能将数据中的平移对称性刻画进了网络结构中。基于此,Cohen和Welling将更多的对称 性比如旋转和反射引入到了网络中(Group equivariant convolutionalnetworks),通过 群论语言来描述这些对称性,称之为群等变卷积网络(G-CNN)。与普通CNN中的平移等变 性类似,这些对称性通过网络层的旋转等变性,反射等变性来反映。然而G-CNN有两个比 较大的缺点:1)在实现上,G-CNN需要引入额外的维度来将新的等变性编码到网络结构中, 这会极大增大网络的参数和计算量。2)与CNN类似,G-CNN具有空间不变性,也就是说, G-CNN不能基于具体的空间位置上的输入特征来动态调整它的滤波器。
为解决上述两个问题,现有方法中,Cheng(Decomposition of convolutionfilters for rotational-equivariant deep networks)提出将卷积滤波器沿着空间和额外几何维 度进行分解,这样做能在减少了模型的尺寸和计算量的同时保持性能。然而,该方法仍然 是静态滤波。为了将动态滤波的性质引入到G-CNN中,文献(Co-attentiveequivaraint neural network:Focusing equivariance on transformations co-occurring in data; Attentive group equivariant convolution networks)记载了将注意力机制嵌入到网络 结构中的做法,然而相对于本方法,这样做会引入额外的参数和计算量,增大G-CNN的计 算负担。
Cohen等人在文献(A general theory of equivariant cnns on homogeneousspaces) 中记载了可以将一切线性等变层均写成类似卷积的形式,但该方法无法处理非线性等变层 (例如等变自注意力层(Group equivariant stand-slone self-attention forvision))。
发明内容
为了克服以上技术问题中的不足,本发明提出了一种用于图像分类的动态滤波等变卷 积网络模型方法,建立等变网络层的通用框架,包括几乎所有的等变层(无论是线性层还 是非线性层),并将基于此框架衍生出的高效可动态调整等变卷积网络模型应用于图像分类。 由于模型本身具有的等变性(Equivariance),将其命名为E4-Net。
相比以往的等变卷积网络,本发明创建的动态滤波等变卷积网络模型具有三重高效性 (Efficiency):1)参数高效性:本发明创建的模型使用参数量更少,减少了内存开销。2) 计算高效性,本发明模型计算量更少,能降低算法的时间复杂度。3)数据高效性,本发明模型能够在较少数据的情况下仍然取得较好的结果。
为方便起见,本发明定义如下属于名称及参数:
f(l)(g):网络第l层的特征
Cl:l层特征通道维度
r:维度削减率Ω采用为k×k的格点,|Ω|=k2
k:核尺寸
Ω:k×k的格点
s:切片个数
本发明的技术方案如下:
一种基于高效的动态滤波等变卷积网络模型的图像分类方法,包括如下步骤:
S1)建立包括线性和非线性等变结构的等变卷积网络的通用模型框架;
本发明提出的等变卷积网络的通用模型框架,可以将线性和非线性等变结构纳为特例。 首先,分析已有的等变结构,将等变结构表示为以下的特征聚合的形式:
其中,f(l)(g)为网络第l层在仿射群群元g处的特征;为一个仿射群;g为输出层某一 仿射群群元的位置;为计算g处输出需要的输入特征的仿射群群元位置; 是一个通过仿射群群元两个位置来索引的映射,用来描述如何聚合输入的特征f(l)(g)和 表示n维实线性空间,Cl表示第l层的输入特征维度。这里的 位置不再是普通卷积网络的空间坐标,而是基于空间坐标诱导出的仿射群坐标; 其中是一个循环群,可以是C4(旋转群)或D4(旋转反射群),是半直积。
式2证明过程如下:
在另一边:
因此,有:
在此基础上,将输入特征表示成一个局部特征块的形式,如下式:
本发明具体实施时,针对卷积网络模型的输入层和中间层,设计出了一种高效的动态 滤波等变卷积层(命名为E4-layer)。将E4-layer进行堆叠,得到一个等变的CNN模型,称为E4-Net。可用E4-layer替换一些CNN框架中的输入层和部分中间层,例如等变残差 网络(Resnet18)中每个残差块的第二层(得到的模型命名为E4-R18)。这些模型的输入 均为图像数据,输出均为图像的预测分类,可用于图像分类与识别等视觉分析任务。
S2)对图像数据进行预处理;包括:
将图像数据分为训练样本和测试样本;
对训练样本图像进行预处理,包含像素归一化等;
S3)基于步骤S1)建立的等变卷积网络通用框架,构建高效的动态滤波等变卷积网络 模型并进行训练;
可以构建动态滤波等变卷积层E4-layer,并将E4-layer进行堆叠,得到输入层和中间 层全为E4-layer的结构;也可以选用一个任意已有的群等变卷积网络G-CNN架构,用E4-layer替换G-CNN模型的输入层和部分中间层。
构建动态滤波等变卷积层E4-layer包括如下步骤:
在构建等变卷积层前,需要先确定卷积网络模型在什么群上能保持等变性。在图像识 别任务中,通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换,设等变群为仿射群pnm;若仅考虑旋转和平移变换两种变换,设定等变群为仿射群pn(由平移和旋转2π/n生成的群)。
32)构建动态滤波等变卷积层E4-layer:
这里⊙是元素积,是卷积核生成器,是一个编 码器。|·|表示一个集合的元素个数,表示输入特征块的特征个数。这样可以将和V(y)的计算分开。除此之外,为了更进一步减少参数量,将生成的核沿着通道维度进行 切片,使得每一个切片内部都共享参数,即如果i≡j(mods)。 这里s是切片的个数,i,j是通道的指标。显然,是一个动态滤波器,因为它可以根据输入特征来调整自己的权重,从而避免了G-CNN中的空间不变性问题。与传统已有CNN 中的动态滤波器相比,是一个向量而不是矩阵,该方法可以在特征聚合的时候将通道维度的计算和空间维度的计算分离开,从而极大较少计算量。
事实上,可将整个卷积核簇视为一个映射的输出,即可以定义 然后,将该映射的输出调整为一个维度的矩阵,不同的行代表不同的比如,可以将设置为多层感知机(MLP),从而能让不同的共享前几层参数,进而减少 参数量。
下面基于式4给出E4-layer更加细节的实现。如前文所述,考虑仿射群:
和一般的G-CNN一样,本发明只选用一些邻接点进行聚合。为了节省计算,将选 择为空间维度上的邻域。除此之外,还需要对额外的几何维度,即维度进行信息交互,因此,本发明将选择为g在维度上的邻域,即∪代表拼接 操作,拼接的顺序预先定义于中。这样做使得该等变层将空间维度和额外几何维度(维度)的计算分离开,从而减少计算量。
将上述构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层,即得到E4-Net 模型。再利用训练样本图像对该模型进行训练。
本发明具体实施时,均采用反向传播算法对E4-Net模型进行训练,对于MNIST-rot数 据集,采用E4-layer堆叠起来的E4-Net,使用Adam优化器对模型进行训练。训练过程迭代200轮,批大小为128,即每128张图片为一个批次。学习速率初始值为0.02,在第60 个,120和160轮将学习率衰减到原来的十分之一。权重衰减率设置为0.0001。对于 CIFAR-10和CIFAR-100数据集,将Resnet18(G-CNN版本)的每一阶段的残差块第二层卷 积替换为E4-layer,称为E4-R18。使用随机梯度下降法对该模型进行训练,初始学习率设 为0.1,Nesterov动量设为0.9,权重衰减设为0.0005。模型一共训练200轮,在第60 个,120和160轮将学习率衰减到原来的五分之一。
S4)利用步骤S3)构建并训练好的高效动态滤波等变模型E4-Net,对测试图像样本进 行识别,得到预测的图像分类标签,由此实现图片分类识别,其中测试样本无需经过图像 预处理。
本发明的有益效果是:
本发明提供了一种高效的动态滤波等变模型E4-Net的图像分类方法。我们利用通用等 变框架设计出用于输入层和中间层的等变卷积层。在具体实施中,我们可以将任意一个已 有CNN模型中的卷积层采用本发明设计的E4-layer来替代,得到一个等变模型,最后用该 模型进行图像识别。
本发明提出的网络结构不仅具有等变性,也具有三重高效性和动态滤波的特点,能够 显著提高参数利用率。在图像识别任务数据集MNIST-rot和CIFAR上,本发明与传统的卷 积模型以及一些现有的等变层如G-CNN、G-SA相比,都取得了明显更好的效果,它能够有效处理具有方向特征的图片数据,并且往往可以用更少的参数,在数据集上达到更低的分类错误率,能够高效提升图像分类的精度。
附图说明
图1是卷积神经网络模型处理图像的等变性的示意图;
其中,将变换g作用在映射的输入上,即作用方式为πg,然后再通过映射Ψ得到的结 果,应该与通过映射Ψ再经过变换g(即作用方式为π'g)相同。
图2是本发明具体实施实现高效的动态滤波等变卷积网络模型进行图像分类的方法流 程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种高效的动态滤波等变卷积网络模型E4-Net的图像分类方法,利用等变 通用框架(理论1)设计出高效的动态滤波等变卷积层E4-layer,用于进行图像分类与识 别等视觉任务。包括以下步骤:
步骤1:采集图像,将训练数据分为训练样本和测试样本,本实施例所有数据集为MNIST-rot,CIFAR-10和CIFAR-100数据集。其中,MNIST-rot是由62,000张大小为28× 28的随机旋转手写数字灰度图像组成,训练数据10,000张,验证数据2,000张,测试数 据50,000张。CIFAR-10和CIFAR-100均由60,000张大小为32×32的RGB彩色图像组成, 其中训练数据50,000张,测试数据10,000张,类别分别为10类和100类。
步骤2:对训练样本图像进行预处理。对于三种数据集均采用128的批大小。
步骤3:构建E4-layer,并用它来代替G-CNN网络的输入层和部分中间层,将预处理后的训练样本通过构建的网络进行训练。本发明所述的等变性可以这么理解:将变换g作用在映射的输入上(作用方式为πg)然后通过映射Ψ得到的结果,应该与通过映射Ψ再 经过变换g(作用方式为π'g)相同。等变性的示意图为附图1。容易看出,如果神经网络 的每一层都是等变的,那么这种等变性会在整个网络中得到维护。事实上,我们可以选用 任意一个已有的G-CNN架构,然后将其中的输入卷积层和部分中间卷积层采用本发明构建 高效动态滤波卷积层E4-layer进行替换,得到一个新的等变卷积模型。在本实施例中,对 于MNIST-rot数据集,我们选用堆叠7层E4-layer和1层全连接层构成的E4-Net作为网 络结构。对于CIFAR数据集,我们选用等变ResNet18作为网络基本架构,将每个残差块的 第二个卷积层替换为我们的E4-layer得到E4-R18。其中,构建等变卷积的步骤如下:
1)将图像数据分为训练样本和测试样本;
2)对训练样本图像进行预处理;
3)基于理论1,构建高效的动态滤波等变卷积网络模型并进行训练;
可以将设计出来的E4-layer进行堆叠,得到输入层和中间层全为E4-layer的结构, 也可以选用一个任意已有的G-CNN架构,用设计出的E4-layer替换等变卷积网络模型的输 入层和部分中间层。构建等变卷积和对等变卷积参数初始化包括如下步骤:
31)确定等变卷积网络模型的等变群:
在构建等变算子前,需要先确定卷积网络模型在什么群上能保持等变性。在图像识别 任务中,通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换,设等变群为仿射群pnm;若仅考虑旋转和平移变换两种变换,设等变群为仿射群pn(由平移和旋转2π/n生成的群)这里我们主要考虑p4群和p4m。
32)构建E4-layer:
这里⊙是元素积,是卷积核生成器,是一个编 码器。我们使用|·|来表示一个集合的元素个数,就表示输入特征块的特征个数。 这样做可以将和V(y)的计算分开。除此之外,为了更进一步减少参数量,我们 将生成的核沿着通道维度进行切片,使得每一个切片内部都共享参数,即 这里s是切片的个数,i,j是通道的指标。显然,是一个动态滤波器因为它可以根据输入特征来调整自己的权重,从而避免了G-CNN中 的空间不变性问题。与传统CNN中的动态滤波器工作相比,是一个向量而不是矩 阵,这样做可以在特征聚合的时候将通道维度的计算和空间维度的计算分离开,从而 极大较少计算量。
事实上,我们可以将整个卷积核簇视为一个映射的输出,即可以定义一个然后,将该映射的输出调整为一个维度的矩阵,不同 的行代表不同的比如,我们可以将设置为多层感知机(MLP),从而能让不同的共享前几层参数,进而减少参数量。
和一般的G-CNN一样,我们只选用一些邻接点进行聚合。为了节省计算,我们将选择为空间维度上的邻域。除此之外,我们还需要对额外的几何维度,即维度进行信息交互,因此,我们将选择为g在准度上的邻域,即 U代表拼接操作,拼接的顺序预先定义于中。这样做使得该等变层将空间维 度和额外几何维度(维度)的计算分离开,从而减少计算量。
将上述构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层,即得到E4-Net 模型。再利用训练样本图像对该模型进行训练。
步骤4:利用步骤3构建并训练好的高效动态滤波等变模型,对测试图像样本进行识别, 得到预测的图像分类标签,由此实现图片分类识别,进而评估模型性能,其中测试样本无 需经过图像预处理。
本发明具体实施时,均采用反向传播算法,对于MNIST-rot数据集,采用堆叠7层E4-layer和1层全连接层的E4-Net,每层的超参数设置为切片个数s=2,维度削减率r=1核尺寸k=5。使用Adam优化器对模型进行训练,训练过程迭代200轮,批大小为128, 即每128张图片为一个批次。学习速率初始值为0.02,在第60个,120和160轮将学习率 衰减到原来的十分之一,权重衰减率设置为0.0001。对于CIFAR-10和CIFAR-100数据集, 将Resnet18(G-CNN版本)的每一阶段的残差块第二层卷积替换为E4-layer,称为E4-R18, E4-layer的超参数为切片个数s=2,维度削减率r=C/2,核尺寸k=3,C为当前层通道维 度。使用随机梯度下降法对该模型进行训练,初始学习率设为0.1,Nesterov动量设为0.9, 权重衰减设为0.0005。模型一共训练200轮,在第60个,120和160轮将学习率衰减到原 来的五分之一。
表1给出了本发明模型E4-Net和其他模型在MNIST-rot测试数据集上的图像分类错误 率和参数量,计算量的比较(均采用p4群)
表1
模型 | 测试误差(%) | 参数量 | 计算量(FLOPs) |
G-SA | 2.54 | 44.67K | 400M |
G-CNN | 1.79 | 77.54K | 46.2M |
α_G-CNN | 1.69 | 73.13K | 27M |
E4-Net | 1.29 | 18,8K | 17M |
E4-Net(Large) | 1.17 | 41,1K | 36.9M |
可以看出,相比等变自注意力网络(G-SA),等变卷积网络(G-CNN)和等变注意力网络(α_p4_CNN),我们的模型(E4-Net)在拥有明显较少的参数量和计算量的同时还能取 得较低的测试误差,说明我们模型的参数高效性和计算高效性。此外,为了进一步测试我 们模型的容量,我们通过将原来模型的通道维度从16增加到了24,切片个数s从2增加到 3后得到E4-Net(Large),可以看出,模型的性能进一步提升,远超相同参数量级别和计 算量级别的其他模型。
表2给出了本发明模型E4-R18和G-CNN(Resnet18结构)在CIFAR数据集上的图像分类错误率比较:
表2
从表中可以看出,我们分别用在群p4和群p4m上等变的Resnet18(G-Resnet18)卷积 网络结构作为比较的基准,在减少参数量和计算量的同时,本发明方法的图像分类结果显 著优于G-Resnet18的分类结果(图像分类错误率6.42%vs.7.53%;4.96%vs.5.83%)。表1和表2均体现了模型的参数高效性和计算高效性。
为了体现模型的数据高效性,我们将CIFAR10的训练数据减少,观察由此带来的对模 型性能的影响,表3是不同模型在不同训练数据量情况下在测试集上的分类错误率。
表3
模型 | 等变群 | 1k | 2k | 3k | 4k | 5k |
G-Resnet18 | Z<sup>2</sup> | 28.43 | 19.25 | 14.07 | 12.04 | 9.70 |
G-Resnet18 | p4 | 22.41 | 15.37 | 11.68 | 9.01 | 7.53 |
E4-R18 | p4 | 17.11 | 12.54 | 8.75 | 7.55 | 6.42 |
G-Resnet18 | p4m | 18.72 | 13.10 | 9.81 | 7.68 | 5.83 |
E4-R18 | p4m | 13.50 | 9.79 | 7.01 | 6.02 | 4.96 |
可以看出,随着训练样本的减少,所有模型的性能都有下降,但相比G-CNN(G-Resnet18) 我们的模型下降幅度更低,我们的模型在较少训练样本的情况下相比G-CNN(G-Resnet18) 仍能够取得相对较好的效果。这说明了我们的模型能够更加高效地利用数据,这就是数据 高效性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人 员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能 的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书 界定的范围为准。
Claims (10)
1.一种基于动态滤波等变卷积网络模型的图像分类方法,包括如下步骤:
S1)建立包括线性和非线性等变结构的等变卷积网络通用模型;
首先,分析已有的等变结构,将等变结构表示为特征聚合形式的式1:
其中,,f(l)(g)和分别为网络第l层在仿射群群元g和的特征;为一个仿射群;g为输出层某一仿射群群元;为计算g处输出需要的输入特征的仿射群群元; 是通过位置进行索引的映射,用来描述如何聚合输入的特征f(l)(g)和 表示n维实线性空间,Cl表示第l层的输入特征维度;所述位置是基于空间坐标诱导出的仿射群坐标;仿射群其中是循环群,是半直积;
再将输入特征表示成一个局部特征块的形式,如式3:
S2)将图像数据分为训练样本和测试样本;对图像数据进行预处理;
S3)基于步骤S1)建立的等变卷积网络通用模型,构建高效的动态滤波等变卷积网络模型并进行训练;
针对卷积网络模型的输入层和中间层,设计高效的动态滤波等变卷积层E4-layer;将E4-layer进行堆叠,得到等变CNN模型,称为E4-Net;构建动态滤波等变卷积层E4-layer包括如下步骤:
31)确定等变卷积网络模型的等变群为仿射群:
32)构建动态滤波等变卷积层E4-layer:
其中,⊙是元素积,是卷积核生成器,是一个编码器;|·|表示一个集合的元素个数,表示输入特征块的特征个数;从而将和V(y)的计算分开;进一步将生成的核沿着通道维度进行切片,使得每一个切片内部都共享参数,即如果i≡j(mod s);s是切片的个数,i,j是通道的指标;从而进一步减少参数量;是一个动态滤波器向量,可根据输入特征调整权重;
将构建的E4-layer作为CNN模型中的输入卷积层和中间卷积层,堆叠起来即得到E4-Net模型;
再利用训练样本图像对E4-Net模型进行训练;
S4)利用步骤S3)构建并训练好的高效动态滤波等变模型E4-Net,对测试图像样本进行识别,得到预测的图像分类标签,由此实现图片分类识别,其中测试样本无需经过图像预处理。
4.如权利要求1所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,将E4-layer进行堆叠得到等变CNN模型E4-Net,具体通过用E4-layer替换CNN模型中的输入层和部分中间层,包括等变残差网络Resnet18中每个残差块的第二层,由此得到的模型命名为E4-R18;模型的输入为图像数据,输出为图像的预测分类,可用于图像分类与视觉识别视觉分析任务;
或者通过一个任意已有的群等变卷积网络模型G-CNN,采用E4-layer替换G-CNN模型的输入层和部分中间层而得到等变CNN模型E4-Net。
5.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,步骤S2)对训练样本图像进行预处理,包括进行像素归一化。
10.如权利要求4所述基于动态滤波等变卷积网络模型的图像分类方法,其特征是,利用训练样本图像,具体采用反向传播算法,使用Adam优化器随机梯度下降法对E4-Net模型进行训练;或使用随机梯度下降法对E4-R18模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110910976.2A CN113723472B (zh) | 2021-08-09 | 2021-08-09 | 一种基于动态滤波等变卷积网络模型的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110910976.2A CN113723472B (zh) | 2021-08-09 | 2021-08-09 | 一种基于动态滤波等变卷积网络模型的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723472A true CN113723472A (zh) | 2021-11-30 |
CN113723472B CN113723472B (zh) | 2023-11-24 |
Family
ID=78675316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110910976.2A Active CN113723472B (zh) | 2021-08-09 | 2021-08-09 | 一种基于动态滤波等变卷积网络模型的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723472B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463556A (zh) * | 2022-01-24 | 2022-05-10 | 北京智源人工智能研究院 | 等变网络训练方法和装置、图像识别方法和装置 |
CN114528977A (zh) * | 2022-01-24 | 2022-05-24 | 北京智源人工智能研究院 | 一种等变网络训练方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104661023A (zh) * | 2015-02-04 | 2015-05-27 | 天津大学 | 基于预失真和训练滤波器的图像或视频编码方法 |
CN109934249A (zh) * | 2018-12-14 | 2019-06-25 | 网易(杭州)网络有限公司 | 数据处理方法、装置、介质和计算设备 |
CN110532859A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于深度进化剪枝卷积网的遥感图像目标检测方法 |
US20190370972A1 (en) * | 2018-06-04 | 2019-12-05 | University Of Central Florida Research Foundation, Inc. | Capsules for image analysis |
CN111401452A (zh) * | 2020-03-17 | 2020-07-10 | 北京大学 | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 |
-
2021
- 2021-08-09 CN CN202110910976.2A patent/CN113723472B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104661023A (zh) * | 2015-02-04 | 2015-05-27 | 天津大学 | 基于预失真和训练滤波器的图像或视频编码方法 |
US20190370972A1 (en) * | 2018-06-04 | 2019-12-05 | University Of Central Florida Research Foundation, Inc. | Capsules for image analysis |
CN109934249A (zh) * | 2018-12-14 | 2019-06-25 | 网易(杭州)网络有限公司 | 数据处理方法、装置、介质和计算设备 |
CN110532859A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于深度进化剪枝卷积网的遥感图像目标检测方法 |
CN111401452A (zh) * | 2020-03-17 | 2020-07-10 | 北京大学 | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463556A (zh) * | 2022-01-24 | 2022-05-10 | 北京智源人工智能研究院 | 等变网络训练方法和装置、图像识别方法和装置 |
CN114528977A (zh) * | 2022-01-24 | 2022-05-24 | 北京智源人工智能研究院 | 一种等变网络训练方法、装置、电子设备及存储介质 |
CN114528977B (zh) * | 2022-01-24 | 2023-01-31 | 北京智源人工智能研究院 | 一种等变网络训练方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113723472B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401452B (zh) | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 | |
CN105488776B (zh) | 超分辨率图像重建方法和装置 | |
CN108009594B (zh) | 一种基于变分组卷积的图像识别方法 | |
CN111882040A (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
Chen et al. | Remote sensing image quality evaluation based on deep support value learning networks | |
CN112257753B (zh) | 基于偏微分算子的广义等变卷积网络模型的图像分类方法 | |
CN112215755B (zh) | 一种基于反投影注意力网络的图像超分辨率重建方法 | |
CN113723472A (zh) | 一种基于动态滤波等变卷积网络模型的图像分类方法 | |
CN111415323B (zh) | 图像的检测方法及装置,神经网络的训练方法及装置 | |
CN116147130A (zh) | 智能家居控制系统及其方法 | |
CN111340697B (zh) | 一种基于聚类回归的图像超分辨方法 | |
CN112699899A (zh) | 一种基于生成对抗网络的高光谱图像特征提取方法 | |
CN113744136A (zh) | 基于通道约束多特征融合的图像超分辨率重建方法和系统 | |
CN110443296B (zh) | 面向高光谱图像分类的数据自适应激活函数学习方法 | |
Pan et al. | FDPPGAN: remote sensing image fusion based on deep perceptual patchGAN | |
Lyu et al. | DSTnet: A new discrete shearlet transform-based CNN model for image denoising | |
CN113888491A (zh) | 基于非局部特征的多级高光谱图像递进超分方法及系统 | |
CN113516019A (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN116310452B (zh) | 一种多视图聚类方法及系统 | |
CN113159159A (zh) | 一种基于改进cnn的小样本图像分类方法 | |
Zhao et al. | Saliency map-aided generative adversarial network for raw to rgb mapping | |
CN111667495A (zh) | 一种图像场景解析方法和装置 | |
CN116758349A (zh) | 基于多尺度超像素节点聚合图卷积残差网络的高光谱图像分类方法 | |
CN114677545B (zh) | 一种基于相似性剪枝和高效模块的轻量化图像分类方法 | |
Jin et al. | Blind image quality assessment for multiple distortion image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |