CN113283530B - 基于级联特征块的图像分类系统 - Google Patents
基于级联特征块的图像分类系统 Download PDFInfo
- Publication number
- CN113283530B CN113283530B CN202110638024.XA CN202110638024A CN113283530B CN 113283530 B CN113283530 B CN 113283530B CN 202110638024 A CN202110638024 A CN 202110638024A CN 113283530 B CN113283530 B CN 113283530B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- block
- level
- feature block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 claims abstract description 43
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 18
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 abstract description 13
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 17
- 238000002474 experimental method Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于级联特征块的图像分类系统,其包括宽度学习系统和用于训练宽度学习系统的训练模块,宽度学习系统包括特征块组,特征块组由若干个依次级联的特征块组成,各特征块的输出与Flatten层连接,Flatten层将拼接后的数据输入Top‑level Dropout层,经Top‑level Dropout层处理后的数据输入Top‑level FC层,Top‑level FC层输出分类结果;训练模块为Adam算法。本发明将各特征块级联起来,增加了模型的深度,使宽度学习系统能够学习到更抽象,更具有利于判别的信息,能明显提高宽度学习系统的特征学习能力,提高分类准确率,同时训练和测试时间仍然较短。
Description
技术领域
本发明图像分类技术领域,特别涉及一种用于图像分类的宽度学习系统。
背景技术
图像分类是根据图像的特征和特定的规则将图像分成不同类别的过程,图像分类是图像理解的基本和核心问题之一。为了解决图像分类这个问题,研究人员提出了许多方法,包括目前流行的深度学习网络包括深度信念网络(deep Belief networks,DBN)、深度玻尔兹曼机器(deep Boltzmann Machines,DBM)和深度卷积神经网络(DeepConvolutional Neural Network,DCNN)。由于DCNN能够学习到图像的高级特征,因此被广泛应用于图像分类中,并在SVHN、CIFAR-10和CIFAR-100等复杂数据集上都取得了良好的结果。但是由于DCNN的隐藏层比较多,在训练过程中需要更新大量的参数,所以DCNN的训练过程非常耗时。
为了解决DCNN训练时间长的问题,Chen等人(Chen,C.L.P.and Z.Liu,Broadlearning system:an effective and efficient incremental learning systemwithout the need for deep architecture.IEEE Transactions on Neural Networksand Learning Systems,2018.29(1):p.10-24)提出了宽度学习系统(Broad LearningSystem,BLS),作为替代深度结构的可选项,主要用于回归和分类任务。BLS是一个扁平的结构,只有一个隐藏层。其中,用于生成映射特征节点以及增强节点的权重和偏置是随机产生的,一旦生成就不会改变,BLS中的输出权重是通过岭回归计算的,无需迭代。因此BLS的训练速度是很快的。然而,BLS的特征学习能力要弱,因为它只有一个隐藏层,大部分的权重和偏置都是随机生成的。因此,在对复杂的图像数据集进行分类时,BLS的准确度较低。
为了进一步提高BLS的分类性能,人们提出了许多新的BLS变体。为了进一步提高BLS的分类性能,人们提出了许多新的BLS变体。这些变体大致可分为三类:(1)基于特征学习的改进。Fan Yang(Yang,F.A CNN-based broad learning system.in Proceedings ofIEEE International Conference on Computer and Communications.2018)提出一种基于CNN的宽度学习系统,该系统使用卷积运算和最大池化运算提取图像特征,同时利用主成分分析对特征进行降维。Chen等人(Chen,C.L.P.,Z.Liu,and S.Feng,Universalapproximation capability of broad learning system and its structuralvariations.IEEE Transactions on Neural Networks and Learning Systems,2019.30(4):p.1191-1204.)在BLS生成映射特征节点时,使用卷积和最大池化来代替随机映射方法。Li等人[4]使用CNN以及Adam算法来对输入的图像进行特征提取,提取到的特征作为BLS的输入。Liu等人(Liu,Z.,J.Zhou,and C.P.Chen.Broad learning system:featureextraction based on K-means clustering algorithm.in Proceedings ofInternational Conference on Information,Cybernetics and Computational SocialSystems.2017.IEEE.)先使用K-means聚类(Coates,A.and A.Y.Ng,Learning featurerepresentations with K-means.Neural Networks:Tricks of the Trade,2012.7700:p.561-580.)来对输入图像进行特征学习,再将特征输入到BLS中,从而提高BLS在CIFAR-10的分类结果。(2)基于结构的改进。Zhou等人(Zhou,Q.and X.He,Broad learning modelbased on enhanced features learning.IEEE Access,2019.7:p.42536-42550.)在BLS的增强节点上增加一层隐层,用以提高模型的层级特征学习能力。Li等人(Li,H.,et al.,RCCM:reinforce cycle cascade model for image recognition.IEEE Access,2020.8:p.15369-15376.)提出了一种强化循环级联模型,该模型通过多层级联方法将语义较低的特征转化为语义较强的特征,从而提高模型图像识别的效率。(3)基于权重优化的改进。Jin等人(Jin,J.,Z.Liu,and C.P.Chen,Discriminative graph regularized broadlearning system for image recognition.Science China Information Sciences,2018.61(11):p.112209.)考虑到图像数据的局部不变性,将流行正则引入到BLS的目标函数中,来对输出权重进行约束,从而使得模型能够学到更具有判别性的信息。
尽管上述的研究对BLS进行了改进,但在SVHN、CIFAR-10、CIFAR-100等复杂数据集上的分类效果还不太好。原因可能是:(1)使用CNN(Li,T.,et al.CNN-based broadlearning system.in Proceedings of IEEE International Conference on Signal andImage Processing.2019.SE Univ,Wuxi,PEOPLES R CHINA.)或者K-means(Liu,Z.,J.Zhou,and C.P.Chen.Broad learning system:feature extraction based on K-meansclustering algorithm.in Proceedings of International Conference onInformation,Cybernetics and Computational Social Systems.2017.IEEE.)提取到的特征仅仅作为BLS的输入,分类效果不是特别的好。当使用卷积操作进行特征提取时,随机生成的卷积核不是很合适。(2)使用叠加或者级联的方式增加模型的层数能够在一定程度上改进BLS的判别能力。但由于主要的特征学习方法仍然是随机映射,因此对于复杂的数据集来说,分类性能依然有待提高。(3)Jin等人(Jin,J.,Z.Liu,and C.P.Chen,Discriminative graph regularized broad learning system for imagerecognition.Science China Information Sciences,2018.61(11):p.112209.)提出的模型虽然对权重进行了约束,但存在内存消耗过大的问题。该方法在训练时,需要计算图拉普拉斯矩阵(graph Laplacian matrix)和图正则项(graph regularization term)。当输入样本越多时,计算这两个矩阵所耗费的时间和内存就越高,因此该方法不适用于样本量较高的数据集。
因此总的来说,BLS及其变体在复杂数据集上的分类性能还有待改进。
发明内容
有鉴于此,本发明的目的是一种基于级联特征块的图像分类系统,以解决宽度学习系统无法充分地学习图像的特征,在较为复杂的数据集上的分类性能较差技术问题。
本发明基于级联特征块的图像分类系统,包括宽度学习系统和用于训练宽度学习系统的训练模块;
所述宽度学习系统包括特征块组、Flatten层、Top-level Dropout层和Top-levelFC层;
所述特征块组由若干个依次级联的特征块组成,每个特征块包括若干个卷积层、若干个批标准化层、若干个Block-level Dropout层、一个最大池化层以及一个SE块;一个批标准化层连接在一个卷积层之后,一个卷积层和一个批标准化层连接构成一个Conv-BN序列,相邻两个Conv-BN序列由一个Block-level Dropout层连接;SE块包括依次连接的全局平均池化层、第一全连接层和第二全连接层,SE块连接在特征块中的最后一个Conv-BN序列和最大池化层之间;最大池化层与最后一层Block-level Dropout层连接;
各特征块的输出与Flatten层连接,Flatten层用于将各特征块输入的三维数据转化为一维数据后再拼接起来;Flatten层将拼接后的数据输入Top-level Dropout层,Top-level Dropout层以固定的概率丢弃神经元;经Top-level Dropout层处理后的数据输入Top-level FC层,Top-level FC层输出分类结果;
所述训练模块为Adam算法模块。
进一步,每个特征块中包括2至4个卷积层,同一特征块中的所有卷积层使用相同的设置,同一特征块中最后一个卷积层的卷积核数量是其它卷积层的卷积核数量的两倍。
进一步,特征块的输出数据的高度和宽度分别为特征块输入数据高度和宽度的一半。
本发明的有益效果:
1、本发明基于级联特征块的图像分类系统,其提出了一种基于卷积的特征块结构,特征块中引入了SE块来学习通道之间的关系,通过将各特征块级联起来,增加了模型的深度,使宽度学习系统能够学习到更抽象,更有利于判别的信息,能明显提高宽度学习系统的特征学习能力,很好地解决了现有宽度学习系统图像特征学习能力差的计算问题。
2、本发明基于级联特征块的图像分类系统,其在Top-level FC层之前增加了一个Top-level Dropout层来避免宽度学习系统过拟合。Top-level Dropout层的输入是所有特征块输出的串联,该层的输出被连接到宽度学习系统的输出层(Top-level FC层),Top-level Dropout层提高了宽度学习系统的泛化能力,从而提高了宽度学习系统的分类准确率。
3、本发明基于级联特征块的图像分类系统,其采用Adam算法来训练宽度学习系统,使宽度学习系统能够以类似于CNN的方式工作,Adam算法能帮助特征块寻找最优的卷积核权重,从而使得特征块能够获取图像的重要判别信息,有利于提高分类准确率;且Adam算法能使Top-level Dropout层充分发挥作用,来避免模型过拟合,因此Adam算法与Top-level Dropout层的结合进一步提高了宽度学习系统的分类准确率。
附图说明
图1为宽度学习系统结构示意图,带差号的节点表示临时被丢弃的单元。
图2为特征块的结构示意图,虚框代表一个SE块。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
本实施例中基于级联特征块的图像分类系统,包括宽度学习系统和用于训练宽度学习系统的训练模块。
如图1所示,所述宽度学习系统包括特征块组、Flatten层、Top-level Dropout层和Top-level FC层。
所述特征块组由若干个依次级联的特征块组成,如图2所示每个特征块包括若干个卷积层、若干个批标准化层、若干个Block-level Dropout层、一个最大池化层以及一个SE块;一个批标准化层连接在一个卷积层之后,一个卷积层和一个批标准化层连接构成一个Conv-BN序列,相邻两个Conv-BN序列由一个Block-level Dropout层连接;SE块包括依次连接的全局平均池化层、第一全连接层和第二全连接层,SE块连接在特征块中的最后一个Conv-BN序列和最大池化层之间;最大池化层与最后一层Block-level Dropout层连接。批标准化层的英语原文为:Batch Normalization layer,简称BN层。SE块的英语原文为:Squeeze-and-Excitation block,简称SE块。全连接层的英文原文为:Full Connectedlayer,简称FC层。最大池化层的英文原文为:max pooling layer。
现有的宽度学习系统(BLS)进行图像分类时,虽然训练速度较快,但分类精度较差,特别是在SVHN、CIFAR-10等更复杂的数据集上。造成这个问题的一个很重要的原因是,BLS对图像的特征学习能力不够。三维图像在输入到BLS之前,会被转化为一维数据,这样的话,会丢失部分空间的信息。另外,在进行特征映射和特征增强时,BLS使用的是随机映射方法,并且连接权重是随机生成的。因此该方法不足以提取复杂数据集中的图像特征。
本实施例中的基于级联特征块的图像分类系统,为了提高宽度学习系统的特征学习能力,从而提高模型在CIFAR-10等复杂数据集上的分类准确率,设计了基于卷积的特征块,本实施例中的特征块的输入和输出都是三维的张量,这有助于宽度学习系统充分提取图像的特征。
本实施例中特征块的卷积层的数量优选为2至4个。同一特征块中的所有卷积层都使用相同的设置:步长为2、填充方式是零填充、权重初始化方法是lecun初始化方法、激活函数是ReLU激活。同一特征块中最后一个卷积层的卷积核数量是其它卷积层的卷积核数量的两倍,例如一个特征块中有两个以上的卷积层,将其最后一个卷积层的卷积核的数量设置为2k,则其他卷积层的卷积核的数量便设置为k,这样设置可以兼顾模型的学习能力和训练时间,而如果将特征块中所有卷积层的卷积核的数量设置为k,则模型的特征学习能力较弱,如果全部设置为2k,则需训练的参数和训练时间会大大增加。本实施例中的宽度学习系统可以级联4个特征块(FB(1)、FB(2)、FB(3)和FB(4))。特征块中卷积层的卷积核大小(kernel size)也是一个需要仔细设置的超参数。对于大多数情况下,卷积核设置为3×3;但如果卷积层的输入的高度和宽度都小于6,则将卷积核大小设置为1×1。另外,如果特征块最后一个卷积层的输入的高度和宽度都不小于6,那么卷积核的大小设置为5×5。
本实施例中特征块的卷积层后面连接的BN层用于调整数据的分布。卷积层和BN层构成的Conv-BN序列在图2中记为Conv&BN。为了避免过拟合,特征块引入了Block-levelDropout层,每两个Conv-BN序列由一个Block-level Dropout层连接,Block-levelDropout层的超参数是丢弃率pb,表示一个神经元被随机丢弃的概率。本实施例的特征块引入了SE块来学习通道之间的关系。本实施例的特征块中的最大池化层位于特征块的倒数第二层,最大池化层的大小为2×2,步长为2,填充方式为无填充方式。最大池化层能够将其输入的高度和宽度减小为一半,因此特征块输出数据的高度和宽度分别为特征块输入数据高度和宽度的一半。这限制了本实施例中宽度学习系统级联特征块的数量,避免了本实施例中宽度学习系统深度过深、训练时间过长。
本实施例中宽度学习系统,各特征块的输出与Flatten层连接,Flatten层用于将各特征块输入的三维数据转化为一维数据后再拼接起来;Flatten层将拼接后的数据输入Top-level Dropout层,Top-level Dropout层以固定的概率丢弃神经元;经Top-levelDropout层处理后的数据输入Top-level FC层,Top-level FC层输出分类结果。
现有的BLS在进行图像分类时,会出现过拟合问题,这个问题在越复杂的图像数据集上更加严重。因此为了避免模型过度拟合训练集,本实施例中宽度学习系统在Flatten层和Top-level FC层之间加入了一Dropout层,并将该层记为Top-level Dropout层。Dropout是一种避免神经网络过拟合以及改进网络性能的技术。它的核心策略是,在训练时随机丢弃网络中一些神经元。具体来说,在训练阶段,对于一个神经元来说,以一个固定概率pt来决定这个神经元以及和它相关的连接是否可见。超参数pt常常被设置为0.5,可通过实验验证来调整这个超参数。神经网络中神经元之间是独立的,某个神经元是否被丢弃,不影响其他神经元。每次迭代训练时,被丢弃的神经元不同,也就造成模型不同,因此Dropout可看作是一种组合了许多不同神经网络的技术。在测试阶段,不使用Dropout,所有神经元都工作,共同决定模型的输出。Dropout通过使得神经元的存在不可靠来打破神经元过度的协同适应,能够很好避免模型过度依赖某些神经元。
在本实施例中宽度学习系统中,所有的特征块的结果被合并起来,共同作为映射特征和增强特征。合并后的特征共同决定宽度学习系统的最终分类结果。但是合并后的特征维度较高,如果直接输入到Top-level FC层的话,宽度学习系统很容易出现过拟合问题,导致宽度学习系统训练准确率高,测试准确率低的情况。因此本实施例中宽度学习系统将合并后的特征先连接到Top-level Dropout层,再连接到Top-level FC层。
下表1显示了本实施例中宽度学习系统架构的一个例,表1中宽度学习系统包含两个特征块,即FB(1)和FB(2),其中每个特征块有两个卷积层;当然在不同实施例中可根据需要可以适当扩展该架构。表1表中Conv表示Conv.-ReLU-BN序列,FB(1)和FB(2)中Block-level Dropout层的超参数pb的值分别为pb1和pb2;FB(1)和FB(2)中SE块的超参数r的值分别为r1和r2。输出层的单元数为c,该值等同于样本类别数。
表1宽度学习系统架构的一个例子
本实施例中,所述训练模块为Adam算法模块。本实施例中宽度学习系统的获得最优权重的方式与现有的宽度学习系统不同。在现有的BLS中,输入节点和特征节点之间,以及特征节点和增强节点之间的连接权重是随机生成的,输出权重是使用岭回归方法计算的。而在本实施例中的宽度学习系统中,网络的所有权重,包括输出权重以及在进行特征提取时的权重,都由Adam算法进行计算。另外,本实施例中宽度学习系统使用分类交叉熵来作为损失函数。本实施例中宽度学习系统使用Adam算法进行训练的原因如下:(1)如果特征块中的权重是随机产生的,那么模型所提取的特征判别性较低,从而导致模型分类性能较低。而Adam算法能帮助特征块寻找最优的权重,从而使得特征块能够获取图像的重要判别信息。(2)如果采用岭回归法计算最优输出权重,那么Top-level Dropout层就无法工作,这会导致实施例中宽度学习系统在训练阶段容易出现过拟合。而Adam算法可以使Top-levelDropout层充分发挥作用,从而提高模型的泛化能力。
实验验证
下面通过对比实验来验证本实施例中所提出的宽度学习系统的性能,将本实施例中所提出的宽度学习系统命名为CFB-BLS,与CFB-BLS对比的模型包括:BLS、EFBLS、CNNBLS、K-means-BLS、Conv.DBN、CNN-iSSO-SGD、SDT-ELM、ELM-ARF。前四个模型是BLS及其变种,Conv.DBN是一个经典的深度模型,CNN-iSSO-SGD是一个卷积神经网络,SDT-ELM和ELM-ARF是基于极限学习机(Extremely Learning Machine,ELM)的网络。
实验中CFB-BLS使用三种结构:2个特征块级联,每个特征块中有3个卷积层;3个特征块级联,每个特征块中有2个卷积层;3个特征块级联,每个特征块中有3个卷积层。
实验采用了SVHN、CIFAR-10和CIFAR-100三个复杂数据集,这些数据集由许多彩色图像组成。
SVHN数据集由训练集、额外集和测试集组成,样本数分别为73257、531131和26032。实验使用训练集来训练模型,并从额外集中随机选择6000个样本组成验证集。
CIFAR-10有50000个训练样本和10000个测试样本,在实验中从训练样本中随机选择5000个样本组成验证集,验证集中每个类别的样本数量是相同的。
CIFAR-100与CIFAR-10类似,CIFAR-100也由50000个训练样本和10000个测试样本组成;不同的是,CIFAR-100有更多的类,这大大增加了分类的难度。该数据集有100个类,每个类有500个训练样本和100个测试样本。实验从训练集中随机选择5000张图片,以相同的比例组成一个验证集。
实验中使用的数据集的细节见表2。在训练之前,对输入的图像进行了预处理:在SVHN上,将图像的像素值除以255,使其处于[0,1]的范围内;在CIFAR-10和CIFAR-100上,使用通道平均值和标准偏差来对数据进行归一化。
表2实验中所使用的数据集的信息。
实验使用带有128G内存的Intel Xeon E5-2678 CPU和NVIDIA TITAN Xp GPU进行实验。本实施例中的CFB-BLS可以用Python和Keras构建。
本实施例中CFB-BLS的超参数可分为两类:(1)与训练相关的超参数,即学习率(learning rate)、迭代次数(epoch)、批尺寸(batch size)。这三个超参数在三个数据集上的设置如表3所示。(2)与模型结构相关的参数,即Top-level FC层的正则化参数、Top-level Dropout层的超参数pt、特征块中的超参数。Top-level FC层采用L1正则化方法,三个数据集的正则化参数值设置为0.0001。超参数pt的值如表3所示。由于每个特征块会将其输入的高度和宽度减半,且SVHN、CIFAR-10和CIFAR-100的图像的高度和宽度都是32,因此,CFB-BLS中级联的特征块个数最多不超过4个。
表表3显示了四个特征块中关键超参数的设置。
表3不同数据集上训练相关参数和Top-level Dropout参数pt的设置
表4特征块中关键参数的设置
实验中各模型在三个数据集上的测试集的分类准确率如表5所示。本模型的测试准确率取自10次运行结果的平均值。可以看出我们所提出的CFB-BLS在SVHN、CIFAR-10、CIFAR-100上得到的最好的结果分别为96.17%,87.79%,60.30%。另外,就分类精度而言,我们所提出的CFB-BLS在三个数据集上的性能确实优于其他模型。以CFB-BLS(包含3个特征块,其中每个特征块有2个卷积层)为例,对于SVHN来说,该模型的分类准确率是95.73%,分别比BLS、EFBLS、CNNBLS、K-means-BLS、CNN-iSSO-SGD、SDT-ELM、ELM-ARF的分类准确率高出17.33pp、16.62pp、14.47pp、6.03pp、4.29pp、13.76pp、22.06pp。对于CIFAR-10来说,该模型的分类准确率是87.29%,分别比BLS、EFBLS、CNNBLS、K-means-BLS、Conv.DBN、CNN-iSSO-SGD、SDT-ELM、ELM-ARF的分2.91pp、27.15pp。对于CIFAR-100来说,该模型的分类准确率是60.30%,分别比BLS、EFBLS、CNNBLS、K-means-BLS、SDT-ELM、ELM-ARF的分类准确率高出34.09pp、33.84pp、31.51pp、11.09pp、39.07pp、36.71pp。这些结果证明了我们所提出的CFB-BLS模型能够有效地提高BLS模型以及变体在图像分类上的学习能力,特别在复杂的图像数据集上。另外,我们所提出的CFB-BLS也优于Conv.DBN、CNN-iSSO-SGD,表明了所提模型能够改进浅层的CNN网络的分类性能。
表5各模型在SVHN、CIFAR-10和CIFAR-100上的分类准确率(%)
各模型在三个数据集上的训练和测试时间列于表6。考虑到公平性,我们列出了CFB-BLS使用CPU时的运行时间,用于和其他模型比较。另外,我们也给出了CFB-BLS使用GPU时的运行时间。从表6中可以看出,(1)当使用CPU时,CFB-BLS模型的训练时间比CNN-iSSO-SGD时间短,比其他模型长,而CFB-BLS模型的测试时间比CNNBLS和K-means-BLS短。(2)当使用GPU时,CFB-BLS模型的训练时间大大减少,几乎只需要10分钟左右。而Conv.DBN在CIFAR-10数据集上的训练时间约为36个小时(使用NVIDIA GTX 280GPU),远远超过了CFB-BLS的训练时间。模型的测试时间很少,与其他模型相比,几乎是最短的。由于GPU在许多图像分类场景中可用,我们所提出的CFB-BLS是这些应用的良好选择。
各模型在SVHN、CIFAR-10和CIFAR-100上的训练时间和测试时间(s)
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.基于级联特征块的图像分类系统,包括宽度学习系统和用于训练宽度学习系统的训练模块,其特征在于:
所述宽度学习系统包括特征块组、Flatten层、Top-level Dropout层和Top-level FC层;
所述特征块组由若干个依次级联的特征块组成,每个特征块包括若干个卷积层、若干个批标准化层、若干个Block-level Dropout层、一个最大池化层以及一个SE 块;一个批标准化层连接在一个卷积层之后,一个卷积层和一个批标准化层连接构成一个Conv-BN序列,相邻两个Conv-BN序列由一个Block-level Dropout层连接;SE块包括依次连接的全局平均池化层、第一全连接层和第二全连接层,SE块连接在特征块中的最后一个Conv-BN序列和最大池化层之间;最大池化层与最后一层Block-level Dropout层连接;特征块的输入和输出都是三维的张量,BN层用于调整数据的分布;
所述训练模块为Adam算法模块;
基于级联特征块的图像分类系统在CPU和GPU上运行,并实现如下步骤:
将图像输入特征块,特征块的输入和输出都是三维的张量;各特征块的输出与Flatten层连接,特征块输出数据的高度和宽度分别为特征块输入数据高度和宽度的一半,Flatten层将各特征块输入的三维数据转化为一维数据后再拼接起来,Flatten层将拼接后的数据输入Top-level Dropout层,Top-level Dropout层以固定的概率丢弃神经元;经Top-levelDropout层处理后的数据输入Top-level FC层,Top-level FC层输出分类结果。
2.根据权利要求1所述的基于级联特征块的图像分类系统,其特征在于:每个特征块中包括2至4个卷积层,同一特征块中的所有卷积层使用相同的设置,同一特征块中最后一个卷积层的卷积核数量是其它卷积层的卷积核数量的两倍。
3.根据权利要求1所述的基于级联特征块的图像分类系统,其特征在于:特征块的输出数据的高度和宽度分别为特征块输入数据高度和宽度的一半。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638024.XA CN113283530B (zh) | 2021-06-08 | 2021-06-08 | 基于级联特征块的图像分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638024.XA CN113283530B (zh) | 2021-06-08 | 2021-06-08 | 基于级联特征块的图像分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283530A CN113283530A (zh) | 2021-08-20 |
CN113283530B true CN113283530B (zh) | 2022-11-15 |
Family
ID=77283906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110638024.XA Expired - Fee Related CN113283530B (zh) | 2021-06-08 | 2021-06-08 | 基于级联特征块的图像分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283530B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062668B (zh) * | 2022-06-28 | 2024-06-18 | 合肥工业大学 | 基于RAdam优化宽度学习的谐波参数检测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188692A (zh) * | 2019-05-30 | 2019-08-30 | 南通大学 | 一种有效目标快速识别的强化循环级联方法 |
WO2020039616A1 (ja) * | 2018-08-23 | 2020-02-27 | 株式会社日立製作所 | 自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法 |
CN111401443A (zh) * | 2020-03-16 | 2020-07-10 | 重庆大学 | 基于多特征提取的宽度学习系统 |
CN111897961A (zh) * | 2020-07-22 | 2020-11-06 | 深圳大学 | 一种宽度神经网络模型的文本分类方法及相关组件 |
CN112766360A (zh) * | 2021-01-15 | 2021-05-07 | 浙江工业大学 | 一种基于时序二维化和宽度学习的时间序列分类方法和系统 |
-
2021
- 2021-06-08 CN CN202110638024.XA patent/CN113283530B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020039616A1 (ja) * | 2018-08-23 | 2020-02-27 | 株式会社日立製作所 | 自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法 |
CN110188692A (zh) * | 2019-05-30 | 2019-08-30 | 南通大学 | 一种有效目标快速识别的强化循环级联方法 |
CN111401443A (zh) * | 2020-03-16 | 2020-07-10 | 重庆大学 | 基于多特征提取的宽度学习系统 |
CN111897961A (zh) * | 2020-07-22 | 2020-11-06 | 深圳大学 | 一种宽度神经网络模型的文本分类方法及相关组件 |
CN112766360A (zh) * | 2021-01-15 | 2021-05-07 | 浙江工业大学 | 一种基于时序二维化和宽度学习的时间序列分类方法和系统 |
Non-Patent Citations (5)
Title |
---|
Adaptive Deep Cascade Broad Learning System and Its Application in Image Denoising;Hailiang Ye 等;《IEEE Transactions on Cybernetics》;20200323;第51卷(第09期);第4450-4463页 * |
Rich Feature Combination for Cost-Based Broad Learning System;Tian-lun Zhang 等;《IEEE Access》;20190104;第160-172页 * |
Universal Approximation Capability of Broad Learning System and Its Structural Variations;C.L.Philip Chen 等;《IEEE Transactions on Neural Networks and Learning Systems》;20180911;第30卷(第04期);第1191-1204页 * |
基于映射节点级联宽度学习的人体坐姿识别;李洪均等;《南通大学学报(自然科学版)》;20200920;第19卷(第03期);第32-37+93页 * |
基于级联宽度学习的多模态材质识别;王召新 等;《智能系统学报》;20200731;第15卷(第04期);第787-794页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113283530A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020100710A4 (en) | A method for sentiment analysis of film reviews based on deep learning and natural language processing | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN108171209B (zh) | 一种基于卷积神经网络进行度量学习的人脸年龄估计方法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN111046900B (zh) | 基于局部流形正则化的半监督生成对抗网络图像分类方法 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
WO2021051987A1 (zh) | 神经网络模型训练的方法和装置 | |
CN112070768B (zh) | 基于Anchor-Free的实时实例分割方法 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN110321451B (zh) | 基于分布熵增益损失函数的图像检索算法 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN110826462A (zh) | 一种非局部双流卷积神经网络模型的人体行为识别方法 | |
CN113642445B (zh) | 一种基于全卷积神经网络的高光谱影像分类方法 | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
CN115578248A (zh) | 一种基于风格引导的泛化增强图像分类算法 | |
CN117036897A (zh) | 一种基于Meta RCNN的少样本目标检测方法 | |
CN112036511A (zh) | 基于注意力机制图卷积神经网络的图像检索方法 | |
CN113283530B (zh) | 基于级联特征块的图像分类系统 | |
CN113033345B (zh) | 基于公共特征子空间的v2v视频人脸识别方法 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
CN117435982A (zh) | 一种多维度快速识别网络水军的方法 | |
Rachmadi et al. | Image-based kinship verification using fusion convolutional neural network | |
CN114090801B (zh) | 深度对抗注意力跨模态哈希检索方法及系统 | |
CN112651242B (zh) | 一种基于内外注意力机制和可变尺度卷积的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221115 |