CN116935122A - 基于3D-WGMobileNet的图像分类方法及系统 - Google Patents

基于3D-WGMobileNet的图像分类方法及系统 Download PDF

Info

Publication number
CN116935122A
CN116935122A CN202310905616.2A CN202310905616A CN116935122A CN 116935122 A CN116935122 A CN 116935122A CN 202310905616 A CN202310905616 A CN 202310905616A CN 116935122 A CN116935122 A CN 116935122A
Authority
CN
China
Prior art keywords
convolution
layer
wgmobilenet
depth separable
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310905616.2A
Other languages
English (en)
Inventor
王瑜
郭朝晖
马慧鋆
邹祥
秦大贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202310905616.2A priority Critical patent/CN116935122A/zh
Publication of CN116935122A publication Critical patent/CN116935122A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于3D‑WGMobileNet的图像分类方法及系统。其中方法包括:获取图像数据;对数据进行偏置场校正和归一化等预处理;将预处理后的数据分为训练集和测试集;将训练集输入提出的3D‑WGMobileNet网络模型中进行训练,提取图像特征,获取权重矩阵网络;将测试集输入到训练好的3D‑WGMobileNet网络模型中进行分类,得到测试图像的分类结果。本发明提出的3D‑WGMobileNet网络模型,将图像输入后,能够自主学习图像特征,并且在占用较低内存的情况下提高了模型的分类效率和精度,使得模型能够更好的适应低配置的设备,有效降低了模型的复杂程度,提高了模型的实时性和泛化能力。

Description

基于3D-WGMobileNet的图像分类方法及系统
技术领域
本申请涉及图像处理和模式识别领域,特别涉及一种基于3D-WGMobileNet的图像分类方法及系统。
技术背景
近年来,深度学习迅速发展,从简单的多层感知机逐渐变成层数越来越深的深度学习网络,由原来的全监督学习延伸出了半监督学习和无监督学习,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,从而对图像进行分类。卷积神经网络(Convolutional NeuralNetwork,CNN)是最早的基于人工神经网络提出的深度学习模型,其强大的特征提取能力在图像分类,目标识别与检测,图像语义分割,自然语言处理等方面都有较好的效果。在卷积神经网络中,输入就是一幅幅的图像,通过正向传播和反向传播算法对每个通道的权值进行更新,权值W就是卷积模板,通过感受野和权值共享提取图像特征,最后经过下采样和全连接层进行输出分类结果或者分割结果。
CNN的发展经历了几个阶段,LeNet5是早期CNN模型,LeNet-5模型一共有7层,两个卷积层和两个池化层交替连接,后面加入激活函数,最后接3个全连接层,其迭代方法是随机梯度下降法,整体网络比机器学习方法减少了参数量。LeNet-5进行邮件上的手写邮政编码数字识别,取得了不错的效果。AlexNet使用了ReLU作为激活函数,成功解决了sigmoid在较深网络的梯度弥散问题;使用Dropout、等方法防止过拟合;使用重叠的最大池化而不是较常用的平均池化,避免了平均池化的模糊化效果;提出了LRN层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。VGG-Net使用更多的层,所有卷积层使用同样大小为3x 3的卷积核,验证了小卷积核能够减少参数同时提高精度。GoogLeNet提出了Inception结构,对卷积核进行改进,将原来的线性卷积层变为多层感知卷积层,使得卷积核具有更强的特征提取能力。同时使用全局平均池化层来取代最后全连接层,去掉了全连接层使得参数大量减少,也减轻了过拟合。Resnet通过引入残差连接使得模型层数进一步加深,在提取局部特征的同时提取全局特征。DenseNet提出了密集连接的概念,也就是网络结构中任意两层之间都有直接连接,每一层的输入都是前面所有层的输出的并集,密集连接缓解了梯度消失问题,极大减少了参数量。这些网络的提出极大的推进了深度学习和各个学科之间的结合,增强了信息提取能力。
随着深度学习网络应用更加广泛,相对于传统机器学习出现的维数过大,不易计算,准确率低等问题,在大数据的时代下深度学习更有利于提取图像特征,训练网络,运用视觉分析等算法最终得到分类或分割结果。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于3D-WGMobileNet的图像分类方法,该方法泛化能力强,模型效果好,能够适应低配置的设备,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和实时性。
本发明的另一个目的在于提出一种基于3D-WGMobileNet的图像分类系统。
为达上述目的,本申请第一方面实施例提出了一种基于3D-WGMobileNet的图像分类方法,包括以下步骤:
获取图像数据;对所述数据进行预处理,通过偏置场校正,图像归一化等操作,将图像数据统一大小,方便后续图像输入,将图像按照7:3分为训练集和测试集;设计3D-WGMobileNet网络模型,其中,所述3D-WGMobileNet模型包括卷积组、深度可分离分组卷积组和全连接层组。所述模块均以串联的方式将特征进一步提取并输出到全连接层组中,再对提取的特征分类;将所述训练集的图像经过3D-WGMobileNet网络模型进行训练,得到训练好的图像分类网络模型;将所述测试集的图像经过训练好的3D-WGMobileNet网络模型进行分类,得到分类结果。
本发明实施例的基于3D-WGMobileNet的图像分类方法,通过改进动态分组卷积核和滑窗分组卷积来减少模型参数,增强模型的特征提取能力。该方法泛化能力强,模型效果好,能够适应低配置的设备,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和实时性。
另外,根据本发明上述实施例的基于3D-WGMobileNet的图像分类方法还可以具有一下附加的技术特征:
进一步地,在本发明的一个实施例中,所述卷积组包括第一卷积组和第二卷积组。所述第一卷积组包含一个动态分组卷积模块(Dynamic group convolution,DGConv),一个批量归一化层(Batch Normalization,BN),一个激活函数层(H-switch),第二卷积组包括一个动态分组卷积模块,一个注意力机制层(Squeeze-and-Excitation,SE),一个激活函数层。且所述第一卷积模块的输出特征图(Feature Maps,FMs)是输入特征图的一半,第二卷积模块的输出FMs和输入相同。
进一步地,在本发明的一个实施例中,所述深度可分离分组卷积组包括第一深度可分离分组卷积层、第二深度可分离分组卷积层组和第三深度可分离分组卷积层组。其中,第一深度可分离分组卷积层包括一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个ReLU6激活函数层;第二深度可分离分组卷积层组包括两个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层和一个ReLU6激活函数层;第三深度可分离分组卷积层组包括八个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个H-Switch激活函数层。其中每个深度可分离卷积层输出的特征向量维度是输入特征向量维度的二分之一,滑窗分组卷积层的输出与分组数量g有关,约为输入的1/g。
进一步地,在本发明的一个实施例中,所述全连接层组包括三维全局平均池化层(Global Average Pooling,GAP),全连接层和分类层。全局平均池化层输出特征图大小为输入的一半,全连接层将特征展开成一维,分类层将数据进行分类,其特征向量维度为图像类别的数量。
进一步地,在本发明的一个实施例中,上述方法还包括:所述第一卷积组、深度可分离分组卷积组和第二卷积组通过串联的方式,将第一卷积模块的输出直接作为深度可分离分组卷积的输入,再将其输出作为第二卷积组的输入,最后通过全连接层组输出分类结果。
为达到上述目的,本发明另一方面实施例提出了一种3D-WGMobileNet的图像分类系统,包括:图像获取模块,用于输入待分类图像;图像预处理模块,用于对所获取图像进行偏置场校正,归一化等操作,以使所述待分类图像的像素均值为0且方差为1;建立3D-WGMobileNet网络模块,用于获取3D-WGMobileNet模型,其中,所述3D-WGMobileNet模型包括卷积组、深度可分离分组卷积组和全连接层组,所述模块均以串联的方式将特征进一步提取并输出到全连接层组中,再对提取的特征分类;图像特征提取训练模块,用于根据所述3D-WGMobileNet模型和所述训练图像集进行模型训练,以生成3D-WGMobileNet分类模型;图像分类识别模块,用于根据上述生成的测试集和所述的训练好的3D-WGMobileNet网络中进行测试,得到分类结果。
本发明实施例的基于3D-WGMobileNet的图像分类方法,通过改进动态分组卷积核和滑窗分组卷积来减少模型参数,增强模型的特征提取能力。该方法泛化能力强,模型效果好,能够适应低配置的设备,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和实时性。
另外,根据本发明上述实施例的基于3D-WGMobileNet的图像分类系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述卷积组包括第一卷积组和第二卷积组。所述第一卷积组包含一个动态分组卷积模块(Dynamic group convolution,DGConv),一个批量归一化层(Batch Normalization,BN),一个激活函数层(H-switch),第二卷积组包括一个动态分组卷积模块,一个注意力机制层(Squeeze-and-Excitation,SE),一个激活函数层。且所述第一卷积模块的输出特征图(Feature Maps,FMs)是输入特征图的一半,第二卷积模块的输出FMs和输入相同。
进一步地,在本发明的一个实施例中,所述深度可分离分组卷积组包括第一深度可分离分组卷积层、第二深度可分离分组卷积层组和第三深度可分离分组卷积层组。其中,第一深度可分离分组卷积层包括一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个ReLU6激活函数层;第二深度可分离分组卷积层组包括两个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层和一个ReLU6激活函数层;第三深度可分离分组卷积层组包括八个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个H-Switch激活函数层。其中每个深度可分离卷积层输出的特征向量维度是输入特征向量维度的二分之一,滑窗分组卷积层的输出与分组数量g有关,约为输入的1/g。
进一步地,在本发明的一个实施例中,所述全连接层组包括三维全局平均池化层(Global Average Pooling,GAP),全连接层和分类层。全局平均池化层输出特征图大小为输入的一半,全连接层将特征展开成一维,分类层将数据进行分类,其特征向量维度为图像类别的数量。
进一步地,在本发明的一个实施例中,上述方法还包括:所述第一卷积组、深度可分离分组卷积组和第二卷积组通过串联的方式,将第一卷积模块的输出直接作为深度可分离分组卷积的输入,再将其输出作为第二卷积组的输入,最后通过全连接层组输出分类结果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于3D-WGMobileNet的图像分类方法的流程;
图2为根据本发明另一个实施例的基于3D-WGMobileNet的图像分类方法的流程;
图3为根据本发明一个实施例的不同种类的花朵图片示意图;
图4为根据本发明一个实施例的3D-WGMobileNet模型框架示意图;
图5为根据本发明一个实施例的卷积组结构示意图;
图6为根据本发明一个实施例的深度可分离分组卷积结构示意图;
图7为根据本发明一个实施例的全连接层组结构示意图;
图8为根据本发明一个实施例的基于端到端的3D-WGMobileNet的图像分类系统的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
在介绍基于3D-WGMobileNet的图像分类方法及系统之前,先简单介绍一下传统的机器学习方法以及深度学习网络在图像分类方面的重要性。
传统的机器学习方法包括以下几种,K-近邻算法,支持向量机,朴素贝叶斯法,决策树,AdaBoost等。K-近邻算法是一种惰性学习模型,也称为基于实例学习模型,K-近邻算法在训练模型的时候不会估计由模型生成的参数,要预测一个实例,需要求出与所有实例之间的距离,K-近邻算法是一种非参数模型,参数数量不确定,会随着训练实例数量的增加而增加。支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势,是迄今为止具有最小化分类错误率和最大化泛化能力的一种强有力的分类工具。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关,其优势在于只需要根据少量的训练数据估计出必要的参数。决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。AdaBoost方法是一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重,表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它被选中的概率就被降低。虽然机器学习方法能够针对某些数据集达到良好的分类效果,但其缺陷也十分明显,首先,大部分机器学习方法主要适用于线性可分数据集,并且常用于二分类,对于高维数据或者多分类任务均表现不佳。
随着人工智能领域和大数据、以及计算机的发展,深度学习已经在目标检测,自然语言处理,图像分割等人工智能领域表现出了巨大的优势,深度学习在图像分类方面也有着令人瞩目的表现。深度学习通过卷积核对图像像素做卷积来提取图像特征,提取的图像特征包括纹理,色彩,空间位置等信息,最后通过全连接层进行分类,深度学习相对于机器学习更加高效,能够捕捉高维图像的信息和细节。
正是基于上述原因,为本发明实施例提出了一种基于3D-WGMobileNet的图像分类方法及系统。
下面参照附图描述根据本发明实施例提出的基于3D-WGMobileNet的图像分类方法及系统,首先将参照附图描述根据本发明实施例提出的基于3D-WGMobileNet的图像分类方法。
图1为本申请实施例所提供的一种基于3D-WGMobileNet的图像分类方法的流程示意图。如图1所示,该基于3D-WGMobileNet的图像分类方法可以包括如下步骤。
在步骤101中,获取图像数据。
可以理解的是,如图2所示,步骤A1:获取图像数据。例如,本发明实施例的图像数据中包含不同的类别如图3所示。
在步骤102中,对图像数据进行偏置场校正和归一化处理,将图像标准化。将输出的图像按照7:3比例分为训练集和测试集。
可以理解的是,如图2所示,步骤A2:对图像进行预处理。例如,可对图像数据格式进行统一,对图像进行偏置场校正,归一化,标准化,去线性漂移,平滑等预处理步骤,处理后的图像大小为94×104×72的图像,将预处理后的图像数据按照7:3分为训练图像集和测试图像集,训练集中图像个数为N,测试集图像数量为M。
在步骤103中,获取3D-WGMobileNet模型,其中,3D-WGMobileNet模型包括卷积组、深度可分离分组卷积组和全连接层组,并且将第一卷积组、深度可分离分组卷积组和第二卷积组输出的特征图输入到全连接层组中,最后得到图像分类结果。
可选地,在本申请一些实施例中,卷积组包括第一卷积组和第二卷积组。第一卷积组包含一个动态分组卷积模块(Dynamic group convolution,DGConv),一个批量归一化层(Batch Normalization,BN),一个激活函数层(H-switch),第二卷积组包括一个动态分组卷积模块,一个注意力机制层(Squeeze-and-Excitation,SE),一个激活函数层。且所述第一卷积模块的输出特征图(Feature Maps,FMs)是输入特征图的一半,第二卷积模块的输出FMs和输入相同。
可以理解的是,图5是卷积组,其参数如表1所示。卷积组是由2个卷积模块构,该模型的输入大小为1*X*Y*Z,其中,X*Y*Z表示输入图像尺度,1为通道数。卷积组由两个卷积模块构成,每个卷积模块包含一个全局平均池化层,两个全连接层,一个激活函数和一个分组全连接层模块,将其叠加到卷积核上,形成输入尺寸与输出尺寸相同的三维动态分组卷积核。其中第一卷积组还包含一个批量归一化层和一个激活函数层(H-switch),第二卷积组还包含一个注意力机制层和一个激活函数层。卷积组具体参数设置如表1所示。
表1
其中,X,Y,Z,X1,Y1,Z1表示输入图像特征的尺寸。N和N1是输入通道数,L和L2是上一层的输出通道数,即下一层的输入通道数。两个卷积组的差别在于卷积核大小不同,且第一卷积组增加了BN模块,第二卷积组增加了SE模块。
举例说明,如图5所示本发明实施例中的卷积组中第一卷积组,动态分组卷积图像输入大小为1*121*145*121,1为通道数,121*145*121为输入图像分辨率,设置卷积核16个,动态分组卷积不改变输入图像的分辨率,最终经过批量归一化和激活函数激活,输出图像大小为16*73*61*73,第二卷积组接在深度可分离分组卷积组后面,输入为96*4*5*4,在经过动态分组卷积后输出为96*4*5*4,通过SE层后输出为96*4*5*4,经过激活函数后,输出大小仍为96*4*5*4。
进一步地,本发明的一个实例中,深度可分离分组卷积组包括第一深度可分离分组卷积层组、第二深度可分离分组卷积层组和第三深度可分离分组卷积层组。其中,第一深度可分离分组卷积层包括一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个ReLU6激活函数层;第二深度可分离分组卷积层组包括两个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层和一个ReLU6激活函数层;第三深度可分离分组卷积层组包括八个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个H-Switch激活函数层。其中每个深度可分离卷积层输出的特征向量维度是输入特征向量维度的二分之一,滑窗分组卷积层的输出与分组数量g有关,约为输入的1/g。参数设置如表2所示。
表2
举例说明,如图6所示,本发明实施例中的深度可分离分组卷积组:输入特征大小为16*73*61*73,经过动态深度可分离卷积,输出通道数为L3,经过滑窗分组卷积后,输入被分成g组,最终经过SE模块和激活函数进行输出。三个深度可分离分组卷积组的差别在于卷积核不同,第一,第二深度可分离分组卷积组的卷积核大小为3*3*3,第三深度可分离分组卷积组的卷积核大小为5*5*5,另外,第一深度可分离分组卷积组添加了SE模块,使用的激活函数是ReLU6,第三深度可分离分组卷积组添加了SE模块,同时激活函数使用的是H-switch。
进一步地,在本发明的一个实施例中,全连接层组包括三维全局平均池化层、全连接层和分类层。全局平均池化层输出特征图大小为输入的一半,全连接层将特征展开成一维,分类层将数据进行分类,其特征向量维度为图像类别的数量。参数设置如表3所示。
表3
组结构 输出FMs大小 参数设置
全局平均池化 H*1 输出特征维度H
FC1 (H/2)*1 输出特征维度H/2
FC2 (H/4)*1 输出特征维度H/4
分类层 C*1 C待分类图像类别个数
举例说明,如图7示,本发明实施例中的全连接层组:输入特征大小为576*4*5*4,经过全局平均池化,后输入到FC1的特征大小为576*1*1*1,输出的特征大小为288*1*1,再经过FC2的输出特征大小为144*1,将输出经过分类层操作后输出特征维度大小为4*1(C=4)。
进一步地,在本发明的一个实施例中,上述方法还包括:所述第一卷积组、深度可分离分组卷积组和第二卷积组通过串联的方式,将第一卷积模块的输出直接作为深度可分离分组卷积的输入,再将其输出作为第二卷积组的输入,最后通过全连接层组输出分类结果。
在步骤104中,根据3D-WGMobileNet网络和上述生成的训练集进行训练,生成图像特征权重数据,得到3D-WGMobileNet图像分类模型;
在步骤105中,根据上述生成的测试集和所述的训练好的3D-WGMobileNet网络中进行测试,得到分类结果。
需要说明的是,该3D-WGMobileNet模型通过一块GPU(Graphics ProcessingUnit,图形处理器)显卡NVIDIA Titan X(Pascal)训练得到,效果显著,不需要像机器学习方法,先将数据进行降维,再对降维后的二维数据进特征提取并分类,而是直接提取图像纹理,色彩和位置等特征,并对图像分类。
可以理解的是,如图2所示,本发明实施例可以根据3D-WGMobileNet模型和预处理后的数据集进行模型训练,以生成3D-WGMobileNet分类模型,具体地,如图2所示,步骤A4:模型训练,生成3D-WGMobileNet分类模型。其中,步骤A4模型训练可以包括A41、A42、A43和A44中的四个步骤,具体如下:
步骤A41:首先,模型参数初始化。其中,卷积层中权重的初始化方式均为随机正态分布初始化,偏置向量的初始化方式为全零初始化。
步骤A42:调整模型的权重。训练模型时,采用Adam(Adaptive MomentEstimation,自适应矩估计法)优化模型。
步骤A43:设置训练的优化函数。
本发明实施例的模型训练过程中使用余弦退火算法(Cosine Annealing)方法,初始学习率为0.001。此时可以通过突然提高学习率,来“跳出”局部最小值并找到通向全局最小值的路径。而余弦退火(Cosine Annealing)可以通过余弦函数来降低学习率。其中,Cosine Annealing是指余弦函数中随着x的增加余弦值首先缓慢下降,然后加速下降,再次缓慢下降,这种下降模式能和学习率配合,减少计算成本。
进一步地,步骤A53为利用Cosine Annealing控制训练过程,在训练过程中,在目标优化函数除了全局最优解之外还有多个局部最优解,在训练时梯度下降算法可能陷入局部最小值,采用Cosine Annealing方法进一步优化学习率,是目标优化函数达到全局最优解,进而收敛。
需要说明的是,本发明实施例可以采用Adam算法训练模型,Adam算法利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,该算法的优点在于经过偏置矫正后,每一次迭代学习率都有确定范围,使得参数比较平稳。并且利用网格搜索法确定模型的相关参数,如卷积核数、激活函数等等,有效降低优化模型时选参数的难度,以及利用Cosine Annealing方式,使得在训练过程中,模型性能尽可能达到最好。
步骤A54:设置训练的损失函数。
本发明实施例的模型训练过程中使用交叉熵损失函数(BCE loss),在一定程度上避免的梯度消失的问题。
当训练终止后,保存训练好的模型:包括保存模型权重(文件类型为.npz)
在步骤105中,输入待分类的数据图像,经过3D-WGMobileNet模型分类,得到分类结果。
可以理解的是,本发明实施例可以通过3D-WGMobileNet模型得到图像分类结果,如图2所示,步骤A5:输出目标对象的分类结果。需要说明是,本发明实施例方法携带的全部或部分步骤是可以通过程序指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
综上而言,本发明实施例的基于3D-WGMobileNet的图像分类方法可以包括:获取图像数据;对所述数据进行预处理,通过偏置场校正,图像归一化,将图像数据统一大小,方便后续图像输入,将图像按照7:3分为训练集和测试集;设计3D-WGMobileNet网络模型,其中,所述3D-WGMobileNet模型包括卷积组、深度可分离分组卷积组和全连接层组。所述模块均以串联的方式将特征进一步提取并输出到全连接层组中,再对提取的特征分类;将所述训练集的图像输入3D-WGMobileNet网络模型进行训练,得到训练好的图像分类网络模型;将所述测试集的图像输入训练好的3D-WGMobileNet网络模型进行分类,得到分类结果。
根据本发明实施例提出的基于3D-WGMobileNet的图像分类方法,可以通过动态分组卷积理论、滑窗分组卷积理论和深度学习网络模型训练方法获得基于3D-WGMobileNet的图像分类模型,从而可以实现图像的分类任务,且可以用于全自动地对图像进行分类,且不受待分类图像类别的限制,适用性强,模型性能好,具有鲁棒性,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和便捷性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器,只读存储器,可擦除可编辑只读存储器,光纤装置,以及便携式光盘只读存储器。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
为了实现上述实施例,本申请还提出一种基于3D-WGMobileNet的图像分类系统。
图8为本申请实施例提供的一种基于3D-WGMobileNet的图像分类系统的结构示意图。如图8所示,该基于3D-WGMobileNet的图像分类系统10包括:图像获取模块100、预处理模块200、生成分类模块300和分类模块400。
具体地,获取模块100用于获取图像数据。
处理模块200用于对图像数据进行偏置场校正和归一化等预处理,将预处理后的图像数据分为训练图像集和测试图像集。
生成模块300用于根据3D-WGMobileNet模型和训练图像集进行模型训练,以生成3D-WGMobileNet分类模型。
分类模块400用于将测试图像集中的图像输入至经过训练的3D-WGMobileNet分类模型中分类。
需要说明的是,前述对基于3D-WGMobileNet的图像分类方法实施例的解释说明也适用于该实施例的基于3D-WGMobileNet的图像分类系统,此处不再赘述。
根据本申请实施例的3D-WGMobileNet的图像分类系统,可以通过3D-WGMobileNet模型和训练图像获得基于3D-WGMobileNet的图像分类模型,从而可以实现图像的分类任务,且可以用于全自动地对图像进行分类,且不受待分类图像类别的限制,适用性强,模型性能好,具有鲁棒性,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和便捷性。

Claims (12)

1.一种基于3D-WGMobileNet的图像分类方法,其主要特征在于,包括以下步骤:
获取图像数据;
对所述数据进行预处理,通过偏置场校正,图像归一化等预处理步骤,将图像数据统一大小,方便后续图像输入,将图像按照7:3分为训练集和测试集;
设计3D-WGMobileNet网络模型,其中,所述3D-WGMobileNet模型包括卷积组、深度可分离分组卷积组和全连接层组。所述模块均以串联的方式将特征进一步提取,并输出到全连接层组中,再对提取的特征分类;
将所述训练集的图像经过3D-WGMobileNet网络模型进行训练,得到训练好的图像分类网络模型;
将所述测试集的图像经过训练好的3D-WGMobileNet网络模型进行分类,得到分类结果。
2.根据权利要求1所述的基于3D-WGMobileNet的图像分类方法,其特征在于,所述设计3D-WGMobileNet网络模型,进一步包括:
卷积组、深度可分离分组卷积组和全连接层组。
3.根据权利要求1所述的基于3D-WGMobileNet的图像分类方法,其特征在于,所述卷积组进一步包括:
第一卷积组和第二卷积组。所述第一卷积组包含一个动态分组卷积模块(Dynamicgroup convolution,DGConv),一个批量归一化层(Batch Normalization,BN),一个激活函数层(H-switch),第二卷积组包括一个动态分组卷积模块,一个注意力机制层(Squeeze-and-Excitation,SE),一个激活函数层。且所述第一卷积模块的输出特征图(FeatureMaps,FMs)是输入特征图的一半,第二卷积模块的输出FMs和输入相同。
4.根据权利要求1所述的基于3D-WGMobileNet的图像分类方法,其特征在于,所述的深度可分离分组卷积组进一步包括:
第一深度可分离分组卷积层、第二深度可分离分组卷积层组和第三深度可分离分组卷积层组。其中,第一深度可分离分组卷积层包括一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个ReLU6激活函数层;第二深度可分离分组卷积层组包括两个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层和一个ReLU6激活函数层;第三深度可分离分组卷积层组包括八个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个H-Switch激活函数层。其中每个深度可分离卷积层输出的特征向量维度是输入特征向量维度的二分之一,滑窗分组卷积层的输出与分组数量g有关,约为输入的1/g。
5.根据权利要求1所述的基于3D-WGMobileNet的图像分类方法,其特征在于,所述全连接层组包括:
三维全局平均池化层(Global Average Pooling,GAP),全连接层和分类层。全局平均池化层输出特征图大小为输入的一半,全连接层将特征展开成一维,分类层将数据进行分类,其特征向量维度为图像类别的数量。
6.根据权利要求2所述的基于3D-WGMobileNet的图像分类方法,其特征在于,所述3D-WGMobileNet模型,进一步包括:
所述第一卷积组、深度可分离分组卷积组和第二卷积组通过串联的方式,将第一卷积模块的输出直接作为深度可分离分组卷积的输入,再将其输出作为第二卷积组的输入,最后通过全连接层组输出分类结果。
7.一种基于3D-WGMobileNet的图像分类系统,其特征在于,包括:
图像获取模块,用来获取图像数据,以适配后续3D-WGMobileNet网络对图像的特征提取及分类;
图像预处理模块,用于对图像进行偏置场校正和归一化等预处理步骤,使图像大小统一且像素均值为0,方差为1,并对处理后的图像按照7:3比例分为训练集和测试集;
3D-WGMobileNet网络构建模块,用于建立3D-WGMobileNet网络模型,对图像进行特征提取;
图像训练模块,用于根据所述的3D-WGMobileNet网络和上述生成的训练集进行训练,生成图像特征权重数据,得到3D-WGMobileNet图像分类模型;
图像分类识别模块,用于根据上述生成的测试集和所述的训练好的3D-WGMobileNet网络进行测试,得到分类结果。
8.根据权利要求6所述的基于3D-WGMobileNet的图像分类系统,其特征在于,所述3D-WGMobileNet网络构建模块进一步包括:
卷积组模块、深度可分离分组卷积组模块和全连接层组模块。
9.根据权利要求6所述的基于3D-WGMobileNet的图像分类系统,其特征在于,所述卷积组模块进一步包括:
卷积组包括第一卷积组和第二卷积组。所述第一卷积组包含一个动态分组卷积模块(Dynamic group convolution,DGConv),一个批量归一化层(Batch Normalization,BN),一个H-switch激活函数层,第二卷积组包括一个动态分组卷积模块,一个注意力机制层(Squeeze-and-Excitation,SE),一个激活函数层。且所述第一卷积模块的输出特征图(Feature Maps,FMs)是输入特征图的一半,第二卷积模块的输出FMs和输入相同。
10.根据权利要求6所述的基于3D-WGMobileNet的图像分类系统,其特征在于,所述深度可分离分组卷积组模块进一步包括:
第一深度可分离分组卷积层、第二深度可分离分组卷积层组和第三深度可分离分组卷积层组。其中,第一深度可分离分组卷积层包括一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个ReLU6激活函数层;第二深度可分离分组卷积层组包括两个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层和一个ReLU6激活函数层;第三深度可分离分组卷积层组包括八个深度可分离分组卷积,每个深度可分离分组卷积包含一个动态深度可分离卷积、一个滑窗分组卷积层、一个SE模块和一个H-Switch激活函数层。其中每个深度可分离卷积层输出的特征向量维度是输入特征向量维度的二分之一,滑窗分组卷积层的输出与分组数量g有关,约为输入的1/g。
11.根据权利要求6所述的基于3D-WGMobileNet的图像分类系统,其特征在于,所述全连接层组模块进一步包括:
三维全局平均池化层(Global Average Pooling,GAP),全连接层和分类层。全局平均池化层输出特征图大小为输入的一半,全连接层将特征展开成一维,分类层将数据进行分类,其特征向量维度为图像类别的数量。
12.根据权利要求6所述的基于3D-WGMobileNet的图像分类系统,其特征在于,所述3D-WGMobileNet模型,第一卷积组、深度可分离分组卷积组和第二卷积组通过串联的方式,将第一卷积模块的输出直接作为深度可分离分组卷积的输入,再将其输出作为第二卷积组的输入,最后通过全连接层组输出分类结果。
CN202310905616.2A 2023-07-21 2023-07-21 基于3D-WGMobileNet的图像分类方法及系统 Pending CN116935122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310905616.2A CN116935122A (zh) 2023-07-21 2023-07-21 基于3D-WGMobileNet的图像分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310905616.2A CN116935122A (zh) 2023-07-21 2023-07-21 基于3D-WGMobileNet的图像分类方法及系统

Publications (1)

Publication Number Publication Date
CN116935122A true CN116935122A (zh) 2023-10-24

Family

ID=88378612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310905616.2A Pending CN116935122A (zh) 2023-07-21 2023-07-21 基于3D-WGMobileNet的图像分类方法及系统

Country Status (1)

Country Link
CN (1) CN116935122A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634893A (zh) * 2024-01-24 2024-03-01 浙江浙商金控有限公司 风险评估模型训练方法、风险预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634893A (zh) * 2024-01-24 2024-03-01 浙江浙商金控有限公司 风险评估模型训练方法、风险预测方法

Similar Documents

Publication Publication Date Title
Oyedotun et al. Deep learning in vision-based static hand gesture recognition
US10846566B2 (en) Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
Vo et al. Toward unsupervised, multi-object discovery in large-scale image collections
US10303977B2 (en) System and method for expanding and training convolutional neural networks for large size input images
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
WO2014205231A1 (en) Deep learning framework for generic object detection
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
JP5120238B2 (ja) オブジェクト領域抽出装置及びオブジェクト領域抽出プログラム
US20230134508A1 (en) Electronic device and method with machine learning training
Vaidya et al. Deep learning architectures for object detection and classification
CN116935122A (zh) 基于3D-WGMobileNet的图像分类方法及系统
Bose et al. Light weight structure texture feature analysis for character recognition using progressive stochastic learning algorithm
Kumari et al. Comparative Study on Handwritten Digit Recognition Classifier Using CNN and Machine Learning Algorithms
Das Machine Learning algorithms for Image Classification of hand digits and face recognition dataset
US20190370940A1 (en) Method and apparatus with feature data generation
Le et al. Classification of binary document images into textual or nontextual data blocks using neural network models
De et al. Image segmentation: A review
Mohammed et al. Proposed approach for automatic underwater object classification
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning
CN115170854A (zh) 基于端到端的PCANetV2的图像分类方法和系统
Cristin et al. Image forgery detection using supervised learning algorithm
Alginahi Thesholding and Character Recognition in Security Documents with Watermarked Background
Hu et al. Learning to detect saliency with deep structure
Thakur et al. Machine Learning and Deep Learning Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination