CN115601639A - 一种图像分类模型的训练方法、系统及应用方法、系统 - Google Patents
一种图像分类模型的训练方法、系统及应用方法、系统 Download PDFInfo
- Publication number
- CN115601639A CN115601639A CN202211095282.9A CN202211095282A CN115601639A CN 115601639 A CN115601639 A CN 115601639A CN 202211095282 A CN202211095282 A CN 202211095282A CN 115601639 A CN115601639 A CN 115601639A
- Authority
- CN
- China
- Prior art keywords
- image
- classification model
- image classification
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像分类模型的训练方法、系统及应用方法、系统,属于图像分类领域,训练方法包括:基于四元数卷积神经网络,构建图像分类模型;获取数据集,数据集包括若干图像样本,且每一图像样本标记有对应的类别标签;对数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像;将预处理后的图像输入图像分类模型;根据图像分类模型的输出以及所输入的图像对应的实际类别,确定损失函数;根据损失函数优化图像分类模型的参数,以对图像分类模型进行训练,得到训练好的图像分类模型。该方法能够得到分类精度更高的图像分类模型,提升图像分类精度。
Description
技术领域
本发明涉及图像处理中的图像分类技术领域,特别是涉及一种图像分类模型的训练方法、系统及应用方法、系统。
背景技术
随着数字化时代的飞速发展,机器能代替人类做更多的事。比如高速路上ETC自动收费,停车场车牌识别,手机拍照识物等。这些活动都要求机器可以识别它们接收到的图像,要能精确识别车牌上的数字及字母,能认识图像中的植物或者动物,因此图像分类是一门必须掌握的技术。
现有较为主流的图像分类方法包括基于四元数卷积神经网络的图像分类方法,这种方法主要是使用四元数矩阵表示图像,将其输入卷积神经网络中,利用通道之间的信息进行图像分类。然而,由于这种方法采用的是浅层网络,所以网络过于简洁,能提取到的特征有限,导致图像分类的准确率较低。并且,该方法普遍采用ReLU函数,而ReLU函数在神经网络训练的时候表现的很脆弱,很容易使得神经元失活,经常由于输入的函数梯度过大导致网络参数更新后,神经元不再具有激活功能,使得神经网络模型的图像分类的精度降低。
发明内容
本发明的目的是提供一种图像分类模型的训练方法、系统及应用方法、系统,能够有效提高图像分类的精度。
为实现上述目的,本发明提供了如下方案:
一方面,本发明提出了一种图像分类模型的训练方法,包括以下步骤:
基于四元数卷积神经网络,构建图像分类模型,所述四元数卷积神经网络采用GoogleNet的Inception-V2结构,包括依次连接的两层卷积层和四层Inception模块,每一卷积层对应的隐藏层采用Leakly ReLU函数,且每一Inception模块后设置有一批量归一化层,所述Inception模块用于提取不同尺度的图像特征,并经批量归一化层对图像特征进行自动归一化,所述Leakly ReLU函数用于在模型训练时持续对模型参数进行更新并确定最优解;
获取数据集,所述数据集包括若干图像样本,且每一图像样本标记有对应的类别标签;
对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像;
将所述预处理后的图像输入所述图像分类模型;
根据所述图像分类模型的输出以及所输入的图像对应的实际类别,确定损失函数;
根据所述损失函数优化所述图像分类模型的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型。
可选地,在所述对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像之后,在所述将所述预处理后的图像输入所述图像分类模型之前,所述图像分类方法还包括:
对所述预处理后的图像进行划分,得到训练集样本、验证集样本和测试集样本;
将所述训练集样本作为预处理后的图像样本,输入所述图像分类模型进行训练。
可选地,所述根据所述损失函数优化所述图像分类模型中的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型,具体包括:
在模型训练时,通过所述图像分类模型向前传播提取图像特征,同时根据所述损失函数的值进行反向传播更新所述图像分类模型的参数,得到训练好的图像分类模型。
可选地,所述数据集采用Pytorch的视觉工具包torchvision中的CIFAR-10数据集。
另一方面,本发明还提出了一种图像分类模型的应用方法,包括以下步骤:
获取待分类目标图像;
将所述待分类目标图像输入图像分类模型,得到所述待分类目标图像的类别;所述图像分类模型为根据如上所述的图像分类模型的训练方法训练好的模型。
另一方面,本发明还提出了一种图像分类模型的训练系统,包括:
图像分类模型构建模块,用于基于四元数卷积神经网络,构建图像分类模型,所述四元数卷积神经网络采用GoogleNet的Inception-V2结构,包括依次连接的两层卷积层和四层Inception模块,每一卷积层对应的隐藏层采用Leakly ReLU函数,且每一Inception模块后设置有一批量归一化层,所述Inception模块用于提取不同尺度的图像特征,并经批量归一化层对图像特征进行自动归一化,所述Leakly ReLU函数用于在模型训练时持续对模型参数进行更新并确定最优解;
数据集获取模块,用于获取数据集,所述数据集包括若干图像样本,且每一图像样本标记有对应的类别标签;
预处理模块,用于对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像;
第一输入模块,用于将所述预处理后的图像输入所述图像分类模型;
损失函数确定模块,用于根据所述图像分类模型的输出以及所输入的图像对应的实际类别,确定损失函数;
训练模块,用于根据所述损失函数优化所述图像分类模型中的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型。
可选地,所述图像分类模型的训练系统还包括:
样本划分模块,用于对所述预处理后的图像进行划分,得到训练集样本、验证集样本和测试集样本;
第二输入模块,用于将所述训练集样本作为预处理后的图像样本,输入所述图像分类模型进行训练。
另一方面,本发明还提出了一种图像分类模型的应用系统,包括:
目标图像获取模块,用于获取待分类目标图像;
第三输入模块,用于将所述待分类目标图像输入图像分类模型,得到所述待分类目标图像的类别;所述图像分类模型为根据如上所述的图像分类模型的训练方法训练好的模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种图像分类模型的训练方法、系统及应用方法、系统,基于四元数卷积神经网络构建图像分类模型,四元数卷积神经网络采用GoogleNet的Inception-V2结构,包括两层卷积层和四层Inception模块,每一卷积层对应的隐藏层采用Leakly ReLU函数,且每一Inception模块后设置有一批量归一化层,所述Inception模块用于提取不同尺度的图像特征,并经批量归一化层对图像特征进行自动归一化,所述Leakly ReLU函数用于在模型训练时持续对模型参数进行更新并确定最优解。
本发明利用四元数卷积神经网络、Inception模块和Leakey ReLU函数作为提升模型分类精度的核心手段,第一,采用四元数卷积神经网络能够对图像的R、G、B三通道进行并行处理,从而提取得到更多的图像特征,从而解决现有技术中浅层网络提取特征有限造成的模型分类精度低的问题;第二,采用Inception模块结构在拥有深度的同时也拥有宽度,可以在多个尺寸上同时进行卷积再聚合,能提取不同尺度的特征,特征更为丰富,从而在最后图像分类判断时更加准确,提升了模型的分类精度;第三,激活函数采用Leaky ReLU函数代替传统ReLU函数,Leaky ReLU函数具有ReLU函数所有优点,能够提取更多的信息,在模型训练的更新参数过程中能够找到更优解,解决传统ReLU函数在神经网络训练时易使神经元失活,从而降低分类精度的问题,从而能够有效提升图像分类精度,得到准确、可靠的图像分类结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本发明的主旨。
图1为本发明实施例1提供的一种图像分类模型的训练方法的流程图;
图2为本发明实施例1提供的图像分类模型的结构示意图;
图3为本发明实施例1提供的图像分类模型训练的原理图;
图4为本发明实施例1提供的Inception模块的结构示意图;
图5为本发明实施例2提供的图像分类模型的应用方法的流程图;
图6为本发明实施例3提供的图像分类模型的训练系统的结构框图;
图7为本发明实施例2提供的图像分类模型的应用系统的结构框图。
名词解释:
深度学习:深度学习源于人工神经网络的研究,“深”指的是神经网络中隐藏层的数量,深度学习就是指通过神经网络提取组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
四元数:四元数属于超复数,是实数和复数的一种推广,有一个实部和三个虚部,形如q=a+bi+cj+dk,其中a,b,c,d∈R。
批量归一化(BatchNormalization,BN):由于训练过程中深度网络内部节点分布的变化作为内部协变量转移,消除它可以提供一个更快的训练,批量归一化就是用来减少内部协变量转移的,它可以大大地加快深度神经网络的训练。
卷积神经网络:是一种前馈神经网络,卷积神经网络是受生物学上感受野(Receptive Field)的机制而提出的。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质,人工神经元可以响应周围单元,可以用于大型图像处理。卷积神经网络包括卷积层和池化层。
卷积层:主要通过卷积的方法用于提取图像的局部特征。
卷积核:是一种算子,即卷积时使用到的权矩阵,该矩阵与使用的图像区域大小相同,其行、列都是奇数
最大池化(Max pooling):一般用于卷积层后,它根据相邻数据的相关性,对邻域内的特征点取最大,既起到了降维作用又不会损失太多的信息。
激活函数:激活函数对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来。
损失函数:衡量训练模型好坏的标准并且一般优先选择容易被优化函数为标准。
梯度下降优化学习算法:梯度下降是优化过程中最流行的方法之一,并且广泛运用在优化神经网络的过程中,它是通过在目标函数的梯度方向相反的方向更新参数最小化目标函数的一种方法,它会沿着由目标函数生成的斜坡的斜率方向一路往下直到走到谷底。
学习率(Learning rate,lr):在梯度下降优化过程中可训练参数到达最优值过程的速度快慢。它的取值大小决定优化过程中梯度下降的幅度,它直接决定着学习算法的性能表现。
Dropout:指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃,防止过拟合。
Inception:是GoogleNet中的一个主要结构,对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。它的特点在于增加了网络的宽度。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本发明对根据本发明的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
目前现有的图像分类模型包括:LeNet、AlexNet、VGG网络、ResNet、Inception系列、GoogleNet、DenseNet等。其中,LeNet网络虽然小,但是包括了深度学习的基本模块:卷积层、池化层、全连接层,是深度学习模型的基础。AlexNet作为深度学习领域的开山之作,使用了很多现代化数据处理方法,并获得了不错的结果。VGG网络采用小的卷积核与池化核,层数更深,特征图更宽。ResNet采用残差块和BN层,解决了模型退化问题,缓解了梯度消失和梯度爆炸。但以上各个图像分类模型采用的都是实值卷积,没有利用彩色图像三个通道之间的相关性。因此,传统卷积神经网络普遍存在将彩色图像的三个通道分开处理,忽略了通道之间的相关性,导致分类精度和分类效果不佳的问题。
基于此,本发明的目的是提供一种图像分类模型的训练方法、系统及应用方法、系统,旨在提高图像分类的精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供了一种图像分类模型的训练方法,具体包括以下步骤:
步骤S1、基于四元数卷积神经网络,构建图像分类模型。
步骤S2、获取数据集,所述数据集包括若干图像样本,且每一图像样本标记有对应的类别标签。
步骤S3、对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像。
步骤S4、将所述预处理后的图像输入所述图像分类模型。
步骤S5、根据所述图像分类模型的输出以及所输入的图像对应的实际类别,确定损失函数。
步骤S6、根据所述损失函数优化所述图像分类模型的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型。
如图2所示,在构建图像分类模型时,四元数卷积神经网络采用GoogleNet的Inception-V2结构,将Inception结构中的实值卷积全部换成了四元数卷积,四元数卷积神经网络包括依次连接的两层卷积层和四层Inception模块,每一卷积层对应的隐藏层采用Leakly ReLU函数,且每一Inception模块后设置有一批量归一化层,四层Inception模块包括第一Inception模块、第二Inception模块、第三Inception模块、第四Inception模块,在第一Inception模块、第三Inception模块以及第四Inception模块后还各设置有一层最大池化层,第四Inception模块对应的最大池化层后还设置有一平均池化层,Dropout丢弃率为0.5,平均池化层后依次设置有一四元数全连接层和一普通全连接层。
其中,所述Inception模块用于提取不同尺度的图像特征,并经批量归一化层对图像特征进行自动归一化,所述Leakly ReLU函数用于在模型训练时持续对模型参数进行更新并确定最优解。
本实施例中,如图2所示,第一层和第二层卷积核大小均为1*1,第一个最大池化层大小为3*3,步长为2,后面的池化层大小都是2*2,步长为2。Dropout丢弃率为0.5,具体的Inception结构如图4所示,5*5的卷积用了两个3*3的卷积代替,这样可以增加网络的深度,加强非线性表达特征的能力,同时也能减少网络的参数。5*5的卷积有5×5=25个参数,两个3*3的卷积有3×3×2=18个参数。需要说明的是,3*3的四元数卷积核池化层的填充(padding)都为1,所以图像经过Inception模块后尺寸大小并未改变。
本发明在设计图像分类模型时,首先利用传统实值卷积将输入的数据从3维升到4维。同时综合多次实验的效果,将网络深度设置成13层(包括隐藏层和输出层),其中四层是Inception模块,并且在每个Inception后添加批量归一化层即BN层,这样就保证提取特征后自动归一化数据分布,从而节省了网络学习适应新的数据分布的时间,提高了模型训练的效率,最后在隐藏层中使用Leakly ReLU激活函数,它具有ReLU函数的所有优点,同时也解决了ReLU函数中会出现部分神经元不被激活或死亡的缺点。本发明通过结合BN层和Leakly ReLU函数,能够在分类效率和分类精度上得到很大提升。
本实施例中,数据集采用Pytorch的视觉工具包torchvision中的CIFAR-10数据集。CIFAR-10数据集包含10个类别,50000个训练图像,10000个测试图像。每张图像为RGB三通道的彩色图像,大小为:32x32。10个类别标签包括:飞机(plane)、汽车(automobile)、鸟类(bird)、猫(cat)、鹿(deer)、狗(dog)、蛙类(frog)、马(horse)、船(ship)和卡车(truck)。
容易理解的是,本实施例采用的数据集以及训练样本并不是固定的、唯一的,可根据实际情况自行选择。
本发明在训练模型前,需要将数据集中的所有图像样本都转换成张量并且经过标准化处理,这样能将数据转换为标准正态分布,使模型更容易收敛。
本实施例采用交叉熵损失函数来计算损失,优化算法采用的是随机梯度下降算法,冲量为0.9,mini-batch设置成128,设置总训练轮数为30轮,在训练过程中采用的是循环学习率政策(CLR)设置每个参数组的学习率。该策略以恒定的频率在两个边界之间循环学习率,学习率下界为0.003,学习率上界为0.01。交叉熵损失函数如下:
其中,n表示训练样本数量,i表示当前为第i个训练样本,yi表示类别标签值,yi′为预测值。
如图3所示,本发明图像分类模型的训练以及图像分类的过程实质包括:首先将所有图像转换为张量(ToTensor),这一步会将所有的数除以255,让数据归一化到[0,1]之间,并进行均值为0.5,标准差也为0.5的标准化(Normalize)处理,让数据分布在[-1,1]之间。这一步骤是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其最终目标是为了加快模型的收敛速度、提升模型的精度并防止梯度爆炸。再将图像分为训练集、验证集和测试集。然后将图像装载到数据加载器(Dataloader)中,批量(batch)为128,即每次取出128张图片。再实例化模型,以交叉熵函数作为损失函数,采用循环学习率政策和随机梯度下降算法。然后训练模型,提取特征并前向传播。同时也会根据损失函数的值反向传播更新参数。在每轮训练后用验证集进行验证,验证和测试阶段不会进行反向传播。最终在经过30轮的迭代后结束训练,保存模型,用测试集进行测试评估,得出模型的准确率。
本实施例中,在所述对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像之后,在所述将所述预处理后的图像输入所述图像分类模型之前,所述图像分类方法还包括:
对所述预处理后的图像进行划分,得到训练集样本、验证集样本和测试集样本;以及,将所述训练集样本作为预处理后的图像样本,输入所述图像分类模型进行训练。
其中,对于训练集样本,将50000张图片全部送去训练。对于验证集,从测试集里分出5000张图片作为验证集样本,在每经过一轮训练后进行验证。对于测试集样本,将10000张图片放入最终训练好的网络模型中进行性能测试和评估。
本实施例的方法中,步骤S6根据所述损失函数优化所述图像分类模型中的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型,具体包括:
在模型训练时,通过所述图像分类模型向前传播提取图像特征,同时根据所述损失函数的值进行反向传播更新所述图像分类模型的参数,得到训练好的图像分类模型。
应说明的是,在其他的一些实施例中,还可以利用四元数卷积神经网络中的卷积层和池化层提取图片中有用的信息和特征。然后对所提取的图像的特征采用反卷积网络即通过卷积层加池化层通过上采样对提取的特征图像进行图像重构。最后通过交叉熵作为目标损失函数,采用随机梯度下降的优化算法对目标损失函数进行预设轮数(轮数根据实验数据效果来确定)的迭代训练学习优化。这种实施方式的分类精度和分类效果也强于传统基于浅层四元数网络的分类方法。
为了验证本发明相比目前现有的相关技术具有更加的分类精度和分类效果,下面进行试验,以下实验均在Python 3.8.5环境下,在Intel(R)Core(TM)i7-10875H CPU@2.30GHz的PC上和NVIDIAGeForce RTX 2060下完成。
(1)通过分类准确率对本发明的最终的分类效果进行衡量并与传统方法和QCNN的分类效果进行对比,各个方法的测试准确率如表1所示:
表1测试准确率对比结果
模型 | 数据集 | 测试准确率 |
浅层实值网络 | Cifar-10 | 0.7546 |
浅层四元数网络(QCNN) | Cifar-10 | 0.7778 |
实值Inception | Cifar-10 | 0.8205 |
本发明(四元数Inception) | Cifar-10 | 0.8471 |
(2)通过实值卷积和四元数卷积的参数量进行对比,参数均通过调用torchsummary中的summary方法计算生成,参数量对比结果如表2所示:
表2参数量对比结果
四元数卷积 | 实值卷积 | |
整体参数 | 6810 | 1438938 |
可训练参数 | 4186 | 1438938 |
不可训练参数 | 2624 | 0 |
根据表1和表2,可以看出本发明方法在分类精度上的确优于浅层四元数网络及实值网络,同时本发明方法在与实值卷积神经网络同等条件下,参数量大大减少。
本发明主要利用四元数卷积神经网络、Inception结构和Leakey ReLU函数来提升分类精度,首先,四元数卷积神经网络可以将图像的三个通道并行处理,可以提取到更多的特征,获得更强的表征能力。其次,Inception结构在拥有深度的同时也拥有宽度,可以在多个尺寸上同时进行卷积再聚合,能提取不同尺度的特征,特征更为丰富,Inception结构中1*1、3*3或5*5等不同的卷积运算与池化操作可以获得输入图像的不同信息,并行处理这些运算并结合所有结果将获得更好的图像表征,意味着最后分类判断时更加准确。再者,通过使用Leakly ReLU函数代替ReLU函数,既延用了ReLU函数的优点,同时也克服了其存在的缺点,充分利用了图像可用信息,使得图像特征学习的更加高效充分,LeakyReLU函数可以解决神经元失活或死亡的问题,这样就能让计算进行下去,提取更多的信息,找到更优解,更新参数,以此提升分类的精度。
实施例2
对应于实施例1中的图像分类模型的训练方法,本实施例还提出了一种图像分类模型的应用方法,是基于实施例1训练好的模型对应的一种应用方法,如图5所示,该应用方法具体包括以下步骤:
步骤A1、获取待分类目标图像;
步骤A2、将所述待分类目标图像输入图像分类模型,得到所述待分类目标图像的类别;所述图像分类模型为根据如上所述的图像分类模型的训练方法训练好的模型。
实施例3
对应于实施例1中的图像分类模型的训练方法,本实施例提出了一种图像分类模型的训练系统,如图6所示,具体包括:
图像分类模型构建模块M1,用于基于四元数卷积神经网络,构建图像分类模型,所述四元数卷积神经网络采用GoogleNet的Inception-V2结构,包括依次连接的两层卷积层和四层Inception模块,每一卷积层对应的隐藏层采用Leakly ReLU函数,且每一Inception模块后设置有一批量归一化层,所述Inception模块用于提取不同尺度的图像特征,并经批量归一化层对图像特征进行自动归一化,所述LeaklyReLU函数用于在模型训练时持续对模型参数进行更新并确定最优解;
数据集获取模块M2,用于获取数据集,所述数据集包括若干图像样本,且每一图像样本标记有对应的类别标签;
预处理模块M3,用于对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像;
第一输入模块M4,用于将所述预处理后的图像输入所述图像分类模型;
损失函数确定模块M5,用于根据所述图像分类模型的输出以及所输入的图像对应的实际类别,确定损失函数;
训练模块M6,用于根据所述损失函数优化所述图像分类模型中的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型。
本实施例中,所述图像分类模型的训练系统还包括:
样本划分模块,用于对所述预处理后的图像进行划分,得到训练集样本、验证集样本和测试集样本;
第二输入模块,用于将所述训练集样本作为预处理后的图像样本,输入所述图像分类模型进行训练。
实施例4
对应于实施例2中的图像分类模型的应用方法,本实施例提出了一种图像分类模型的应用系统,如图7所示,具体包括:
目标图像获取模块N1,用于获取待分类目标图像;
第三输入模块N2,用于将所述待分类目标图像输入图像分类模型,得到所述待分类目标图像的类别;所述图像分类模型为根据如上所述的图像分类模型的训练方法训练好的模型。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖性和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (8)
1.一种图像分类模型的训练方法,其特征在于,包括以下步骤:
基于四元数卷积神经网络,构建图像分类模型,所述四元数卷积神经网络采用GoogleNet的Inception-V2结构,包括依次连接的两层卷积层和四层Inception模块,每一卷积层对应的隐藏层采用Leakly ReLU函数,且每一Inception模块后设置有一批量归一化层,所述Inception模块用于提取不同尺度的图像特征,并经批量归一化层对图像特征进行自动归一化,所述Leakly ReLU函数用于在模型训练时持续对模型参数进行更新并确定最优解;
获取数据集,所述数据集包括若干图像样本,且每一图像样本标记有对应的类别标签;
对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像;
将所述预处理后的图像输入所述图像分类模型;
根据所述图像分类模型的输出以及所输入的图像对应的实际类别,确定损失函数;
根据所述损失函数优化所述图像分类模型的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型。
2.根据权利要求1所述的图像分类模型的训练方法,其特征在于,在所述对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像之后,在所述将所述预处理后的图像输入所述图像分类模型之前,所述图像分类方法还包括:
对所述预处理后的图像进行划分,得到训练集样本、验证集样本和测试集样本;
将所述训练集样本作为预处理后的图像样本,输入所述图像分类模型进行训练。
3.根据权利要求1所述的图像分类模型的训练方法,其特征在于,所述根据所述损失函数优化所述图像分类模型中的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型,具体包括:
在模型训练时,通过所述图像分类模型向前传播提取图像特征,同时根据所述损失函数的值进行反向传播更新所述图像分类模型的参数,得到训练好的图像分类模型。
4.根据权利要求1所述的图像分类模型的训练方法,其特征在于,所述数据集采用Pytorch的视觉工具包torchvision中的CIFAR-10数据集。
5.一种图像分类模型的应用方法,其特征在于,包括以下步骤:
获取待分类目标图像;
将所述待分类目标图像输入图像分类模型,得到所述待分类目标图像的类别;所述图像分类模型为根据权利要求1-4任一项所述的图像分类模型的训练方法训练好的模型。
6.一种图像分类模型的训练系统,其特征在于,包括:
图像分类模型构建模块,用于基于四元数卷积神经网络,构建图像分类模型,所述四元数卷积神经网络采用GoogleNet的Inception-V2结构,包括依次连接的两层卷积层和四层Inception模块,每一卷积层对应的隐藏层采用Leakly ReLU函数,且每一Inception模块后设置有一批量归一化层,所述Inception模块用于提取不同尺度的图像特征,并经批量归一化层对图像特征进行自动归一化,所述Leakly ReLU函数用于在模型训练时持续对模型参数进行更新并确定最优解;
数据集获取模块,用于获取数据集,所述数据集包括若干图像样本,且每一图像样本标记有对应的类别标签;
预处理模块,用于对所述数据集中所有图像样本依次进行张量转换和标准化,得到预处理后的图像;
第一输入模块,用于将所述预处理后的图像输入所述图像分类模型;
损失函数确定模块,用于根据所述图像分类模型的输出以及所输入的图像对应的实际类别,确定损失函数;
训练模块,用于根据所述损失函数优化所述图像分类模型中的参数,以对所述图像分类模型进行训练,得到训练好的图像分类模型。
7.根据权利要求6所述的图像分类模型的训练系统,其特征在于,所述图像分类模型的训练系统还包括:
样本划分模块,用于对所述预处理后的图像进行划分,得到训练集样本、验证集样本和测试集样本;
第二输入模块,用于将所述训练集样本作为预处理后的图像样本,输入所述图像分类模型进行训练。
8.一种图像分类模型的应用系统,其特征在于,包括:
目标图像获取模块,用于获取待分类目标图像;
第三输入模块,用于将所述待分类目标图像输入图像分类模型,得到所述待分类目标图像的类别;所述图像分类模型为根据权利要求1-4任一项所述的图像分类模型的训练方法训练好的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211095282.9A CN115601639A (zh) | 2022-09-05 | 2022-09-05 | 一种图像分类模型的训练方法、系统及应用方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211095282.9A CN115601639A (zh) | 2022-09-05 | 2022-09-05 | 一种图像分类模型的训练方法、系统及应用方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115601639A true CN115601639A (zh) | 2023-01-13 |
Family
ID=84843466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211095282.9A Pending CN115601639A (zh) | 2022-09-05 | 2022-09-05 | 一种图像分类模型的训练方法、系统及应用方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115601639A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797752A (zh) * | 2023-02-13 | 2023-03-14 | 济南博观智能科技有限公司 | 一种模型训练方法、装置、设备及存储介质 |
-
2022
- 2022-09-05 CN CN202211095282.9A patent/CN115601639A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797752A (zh) * | 2023-02-13 | 2023-03-14 | 济南博观智能科技有限公司 | 一种模型训练方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106485251B (zh) | 基于深度学习的鸡蛋胚胎分类 | |
US11107250B2 (en) | Computer architecture for artificial image generation using auto-encoder | |
CN110222634B (zh) | 一种基于卷积神经网络的人体姿态识别方法 | |
CN109784366A (zh) | 目标物体的细粒度分类方法、装置与电子设备 | |
CN108830196A (zh) | 基于特征金字塔网络的行人检测方法 | |
Mo et al. | Image recognition using convolutional neural network combined with ensemble learning algorithm | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
WO2021145945A1 (en) | Generative adversarial network-based target identification | |
CN112308825B (zh) | 一种基于SqueezeNet的农作物叶片病害识别方法 | |
US20160239736A1 (en) | Method for dynamically updating classifier complexity | |
CN111079837A (zh) | 一种用于二维灰度图像检测识别分类的方法 | |
CN110991554B (zh) | 一种基于改进pca的深度网络图像分类方法 | |
CN115601639A (zh) | 一种图像分类模型的训练方法、系统及应用方法、系统 | |
Kumar et al. | Res-vgg: A novel model for plant disease detection by fusing vgg16 and resnet models | |
US11195053B2 (en) | Computer architecture for artificial image generation | |
Luan et al. | Sunflower seed sorting based on convolutional neural network | |
CN110163206B (zh) | 车牌识别方法、系统、存储介质和装置 | |
CN114882278A (zh) | 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置 | |
CN112016574B (zh) | 一种基于特征融合的图像分类方法 | |
CN117253192A (zh) | 用于桑蚕养殖的智能系统及方法 | |
CN112488188A (zh) | 一种基于深度强化学习的特征选择方法 | |
CN117273105A (zh) | 一种针对神经网络模型的模块构建方法及装置 | |
CN113449712B (zh) | 一种基于改进Alexnet网络的羊脸识别方法 | |
CN115457366A (zh) | 基于图卷积神经网络的中草药多标签识别模型 | |
CN115063374A (zh) | 模型训练、人脸图像质量评分方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |