CN115240011A - 图像分类方法、装置、计算机可读存储介质及计算机设备 - Google Patents
图像分类方法、装置、计算机可读存储介质及计算机设备 Download PDFInfo
- Publication number
- CN115240011A CN115240011A CN202210963243.XA CN202210963243A CN115240011A CN 115240011 A CN115240011 A CN 115240011A CN 202210963243 A CN202210963243 A CN 202210963243A CN 115240011 A CN115240011 A CN 115240011A
- Authority
- CN
- China
- Prior art keywords
- image
- deep learning
- loss function
- training sample
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种图像分类方法、装置、计算机可读存储介质及计算机设备,该方法包括:将预处理后的训练样本图像输入至深度学习分类模型中进行图像分类处理;将深度学习分类模型输出的图像类别的预测概率以及训练样本图像标注的真值输入到目标损失函数中进行损失值计算;当计算出的损失值大于预设值时,根据损失值对所述深度学习分类模型的参数进行优化,并返回将处理后的训练样本图像输入至深度学习分类模型中进行图像分类处理的步骤;当计算出的损失值小于或等于预设值时,将待测图像输入至所述深度学习分类模型中,得到待测图像的图像分类结果。本发明中的目标损失函数无需复杂系数搜索,简单的系数已经达到数据集准确率的提升。
Description
技术领域
本发明涉及图像处理领域,特别是涉及一种图像分类方法、装置、计算机可读存储介质及计算机设备。
背景技术
随着以深度学习为基础的机器视觉在图像处理相关应用上的不断发展,在工业视觉缺陷检测中,深度学习已经广泛应用。
基于深度学习的深度学习分类模型,设计合适的损失函数(loss function)至关重要,直接影响模型的准确率。通常交叉熵损失函数(Cross Entropy Loss)作为图像分类损失函数的首选并广泛使用。
交叉熵损失函数在类别数量平衡、数据无噪声等理想情况下表现较好。但是,在缺陷检测场景中,往往存在缺陷类型分布不均、缺陷面积较小、低对比度划痕等场景,且工业缺陷检测的图像标注也经常存在缺陷标注不准确的情况(如由于缺陷轮廓不清晰导致标注不统一的情况),采用交叉熵损失函数进行模型训练得到的模型,其图像分类效果并不理想。
发明内容
鉴于上述状况,有必要针对现有的缺陷检测场景中,图像分类模型的图像分类效果差的问题,提供一种图像分类方法、装置、计算机可读存储介质及计算机设备。
本发明提供了一种图像分类方法,包括:
将训练样本图像进行像素归一化处理后,将所述训练样本图像缩放处理至预设尺寸;
将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理;
将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算,所述目标损失函数用于对图像进行交叉损失计算、平均绝对误差损失计算,以及图像类别权重计算;
当计算出的损失值大于预设值时,根据所述损失值对所述深度学习分类模型的参数进行优化,并返回将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理的步骤;
当计算出的损失值小于或等于所述预设值时,将待测图像输入至所述深度学习分类模型中,得到所述待测图像的图像分类结果。
进一步的,上述图像分类方法,其中,所述将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算的步骤之前还包括:
根据交叉熵函数和平均绝对误差损失函数构建初始损失函数;
获取各个图像类别对应的权重,并根据各个图像类别对应的权重和所述初始损失函数确定目标损失函数。
进一步的,上述图像分类方法,其中,所述交叉熵函数为-log(Pt),所述平均绝对误差损失函数为λ(l-Pt),所述目标损失函数为L=at(-log(Pt)+λ(1-Pt)),其中,Pt为第t个训练样本图像的模型预测概率,λ为平衡交叉熵与平均绝对误差损失的系数,at为第t个训练样本图像的权重。
进一步的,上述图像分类方法,其中,λ取值为2。
进一步的,上述图像分类方法,其中,各个图像类别对应的权重计算公式为:
ωi=(1/M)/Ni,ωi为第i个图像类别对应的权重,M为图像类别数,Ni为第i个图像类别的训练样本图像的数量。
进一步的,上述图像分类方法,其中,所述深度学习分类模型采用ResNet网络结构、DensetNet网络结构、Transformer网络结构中的任意一种。
本发明还提供了一种图像分类装置,包括:
预处理模块,用于将训练样本图像进行像素归一化处理后,将所述训练样本图像缩放处理至预设尺寸;
第一分类模块,用于将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理;
计算模块,用于将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算,所述目标损失函数用于对图像进行交叉损失计算、平均绝对误差损失计算,以及图像类别权重计算;
优化模块,用于当计算出的损失值大于预设值时,根据所述损失值对所述深度学习分类模型的参数进行优化,并返回将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理的步骤;
第二分类模块,用于当计算出的损失值小于或等于所述预设值时,将待测图像输入至所述深度学习分类模型中,得到所述待测图像的图像分类结果。
进一步的,上述图像分类装置,还包括目标损失函数构建模块,所述目标损失函数构建模块用于:
根据交叉熵函数和平均绝对误差损失函数构建初始损失函数;
获取各个图像类别对应的权重,并根据各个图像类别对应的权重和所述初始损失函数确定目标损失函数。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有程序,所述程序被所述处理器执行时实现上述任一所述的方法。
本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一所述的方法。
本发明中,将图像输入至深度学习分类模型中进行图像分类处理,并输出预测的图像类型的概率,将该预测概率和图像类别的真值输入至目标损失函数中进行损失值计算,根据计算出的损失值对深度学习分类模型的参数进行优化,直至损失值低于预设值时即完成了深度学习分类模型的优化。本发明定义的目标损失函数定义可将交叉熵、平均绝对误差、focal loss等进行统一,提高图像分类精度,且采用本发明中的目标损失函数无需复杂系数搜索,简单的系数已经达到数据集准确率的提升。
附图说明
图1为本发明第一实施例提供的图像分类方法的流程图;
图2为本发明第二实施例提供的图像分类方法的流程图;
图3为本发明第三实施例提供的图像分类装置的结构框图;
图4为本发明第四实施例中电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,为本发明第一实施例中的图像分类方法,包括步骤S11~S15。
步骤S11,将训练样本图像进行像素归一化处理后,将所述训练样本图像缩放处理至预设尺寸。
本实施例采用训练样本数据集对模型进行训练,该训练样本数据集中包括多个训练样本图像,针对每一个训练样本图像均需要进行预处理。该预处理过程主要包括归一化处理和图像缩放处理,具体实施时,将图像像素除以255,将数值归一化到0-1之间,并将图像统一缩放到统一尺寸,如224*224像素。
步骤S12,将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理。
本实施例采用深度学习分类模型来对产品图像进行分类,即计算图像类别与标注结果一致的概率,根据该概率可以确定图像的图像类别。该深度学习分类模型可以采用ResNet网络结构、DensetNet网络结构、Transformer网络结构中的任意一种。优选ResNet网络结构,该网络结构包括卷积层2个、隐采样层2个和全连接层2个,其输入尺寸是224*224像素,输出是图像类别的预测概率。
本实施例中的深度学习分类模型主要用于工业缺陷检测,通过对产品的图像进行分类输出图像对应的缺陷类型,如crack(裂纹)、slip line(滑移线)、scratch(划伤)和bump(碰撞)类等。
步骤S13,将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算,所述目标损失函数用于对图像进行交叉损失计算、平均绝对误差损失计算,以及图像类别权重计算。
将深度学习分类模型输出的图像类别的预测概率,以及训练样本图像标注的真值(Ground Truth)输入到损失函数计算模块中计算得到损失值。其中,该深度学习分类模型的输出为图像类别的预测概率,即与标注结果一致的图像类别的概率。该真值即为训练样本图像已标注的图像类别。
利用该损失函数根据输入的信息进行损失计算时,主要涉及如下三个计算部分:
交叉熵损失计算;
平均绝对误差损失计算;
图像类别权重计算。
其中,交叉熵损失计算所用到的交叉熵函数可以为:
-log(Pt),其中Pt为预测概率。
该部分作为标准交叉熵定义,在通用的图像分类中,通常使用此函数。
为了改善类别数据标注噪声场景,引入平均绝对误差损失计算,平均绝对误差损失函数(Mean Absolute Error,MAE),可以有效改进噪声场景。
平均绝对误差损失函数比交叉熵损失函数在噪声数据集更为鲁棒,其定义如下:
交叉熵的梯度更倾向于负样本,而平均绝对误差则是一视同仁。因此,如果样本中的很多噪声样本,那么采用交叉熵的模型会尽量去拟合噪声数据,此时我们最好使用MAE作为损失函数。
在工业缺陷检测场景中,不同类型的缺陷往往数量不平衡,为改善类别不平衡问题,本实施例中引入权重改善类别不平衡情况。每个样本图像进行分类计算时均引入权重,具体实施时,不同图像类别的图像的权重可以不同,而同种图像类别的图像设置相同的权重。该权重可根据样本所属的图像类别数量来确定其权重,当某种图像类别的图像数量较多时,权重较小,某种图像类别的图像数量较小时,权重较大。
可以理解的,每种图像类别对应的权重也可以预先人为进行设置,例如对于某种图像缺陷来说,其对产品性能影响较大,为了防止该类缺陷错判,导致不良品流出,因此针对该类别的缺陷设置较大的权重。
步骤S14,当计算出的损失值大于预设值时,根据所述损失值对所述深度学习分类模型的参数进行优化,并返回将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理的步骤。
步骤S15,当计算出的损失值小于或等于所述预设值时,将待测图像输入至所述深度学习分类模型中,得到所述待测图像的图像分类结果。
本实施例中利用训练样本图像数据集和损失函数对深度学习分类模型进行训练。损失函数计算出的损失值越小说明深度学习分类模型的图像分类越准确、分类效果越好。当计算出的损失值大于预设值时,则对深度学习分类模型的参数进行优化,并返回步骤S12,直至计算出的损失值小于或等于预设值时,可以说明该深度学习分类模型已训练好。训练好的模型可用于待测图像的图像分类。
本实施例中,将图像输入至深度学习分类模型中进行图像分类处理,并输出预测的图像类型的概率,将该预测概率和图像类别的真值输入至目标损失函数中进行损失值计算,根据计算出的损失值对深度学习分类模型的参数进行优化,直至损失值低于预设值时即完成了深度学习分类模型的优化。本实施例定义的目标损失函数定义可将交叉熵、平均绝对误差、focal loss等进行统一,提高图像分类精度,且采用本实施例中的目标损失函数无需复杂系数搜索,简单的系数已经达到数据集准确率的提升。
请参阅图2,为本发明第二实施例中的图像分类方法,包括步骤S21~S28。
步骤S21,根据交叉熵函数、平均绝对误差损失函数构建初始损失函数。
步骤S22,获取各个图像类别对应的权重,并根据各个图像类别对应的权重和所述初始损失函数确定目标损失函数。
本实施例中首先需要构建目标损失函数,该目标损失函数根据交叉熵函数、平均绝对误差损失函数和各个样本的权重构建得到。该目标损失函数为:
L=at(-log(Pt)+λ(1-Pt)),
其中,所述Pt为第t个样本图像的模型预测概率,λ为平衡交叉熵与平均绝对误差损失的系数,at为第t个样本图像的权重。at计算公式为:(1/图像类别数量)/(第t个样本图像所属的图像类别的样本数量)。例如,共有3个图像类别,分别为A、B和C,其中A类有10个样本图像,B类有20个,C类有30个,该A类中样本图像数量较少,为了保证训练充分,A类每个样本图像权重应大一些,其权重为(1/3)/10=1/30,而B类的权重为(1/3)/20=1/60,C类的权重为(1/3)/30=1/90。
针对输入的每个样本训练样本图像均需要进行损失值计算,最终将各个训练样本对应的损失值进行均值计算并输出。
本实施例中的目标损失函数主要包括下面三个部分。
1.交叉熵部分
采用的交叉熵公式为-log(Pt),Pt为预测概率。该部分作为标准交叉熵定义,此部分为图像分类中标准损失函数适用于越大多数场景。
2.平均绝对误差部分
为了改善类别数据标注噪声场景,引入平均绝对误差部分,平均绝对误差经过验证,可以有效改进噪声场景。本实施例中,该平均绝对误差部分的损失函数可以为:
λ(1-Pt)。
此部分与交叉熵迭加,降低噪声数据的影响,其中λ为平衡交叉熵与平均绝对误差损失的系数。本实施例中λ=2,采用该系数对于绝大多数数据集均可达到较好的分类效果。
3.图像类别权重部分
由于工业缺陷检测场景存在类别分布不均情况,因此引入权重at改善类别不平衡情况。at为样本图像的权重,一般可根据样本图像所属类别数量定义对应的值,当类别数量较多时,值较小,类别数量较小时,值较大。
步骤S23,将训练样本图像进行像素归一化处理后,将所述训练样本图像缩放处理至预设尺寸。
具体实施时,将图像像素除以255,将数值归一化到0-1之间,并将图像统一缩放到统一尺寸,如224*224。归一化处理主要是将特征值大小调整到相近的范围,使模型训练收敛平稳。
步骤S24,将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理。
步骤S25,将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算。
步骤S26,判断计算出的损失值是否小于或等于预设值,若否,执行步骤S27,若是执行步骤S28。
步骤S27,根据所述损失值对所述深度学习分类模型的参数进行优化,并返回步骤S24。
步骤S28,将待测图像输入至所述深度学习分类模型中,得到所述待测图像的图像分类结果。
将训练样本图像输入至深度学习分类模型中进行分类,输出图像类别的预测概率。将模型输出的预测概率和该训练样本图像标注的真值输入至目标损失函数中进行损失值计算。损失函数计算出的损失值越小说明深度学习分类模型的图像分类越准确、分类效果越好。当计算出的损失值大于预设值时,则对深度学习分类模型的参数进行优化,并返回步骤S24,直至计算出的损失值小于或等于预设值时,可以说明该深度学习分类模型已训练好。训练好的模型可用于对待测图像进行分类。
为了验证本实施例中图像分类方法的效果,进行如下实验:
采用了多个半导体产品的缺陷分类数据集,共4个数据集,每个数据集分别15000个样本,缺陷类别数量至少为2类,各类别中样本数量不平衡。分别对该4个数据集进行训练集和测试集划分,其中训练集比例80%,验证集比例为10%,测试集比例10%,batch size统一为256,尺寸缩放为224*224,主干网络采用ResNet-50。
基于该4个数据集中的训练集对该深度学习分类模型进行训练,训练所采用的损失函数分为四种,即本实施例中的损失函数、常规的标准交叉熵损失函数LCE、损失函数L1,以及损失函数L2。其中,L表示本实施例中的损失函数;LCE表示标准交叉熵损失函数LCE=-log(Pt);L1为-log(Pt)+λ(1-Pt),L1表示在标准交叉熵损失函数中引入平均绝对误差损失函数;L2=at(-log(Pt)),等价于加权交叉熵损失函数。
分别采用这四种损失函数对深度学习分类模型进行模型训练,得到四种训练好的深度学习分类模型,再利用测试集进行测试,并记录测试准确率。测试结果如表1所示,其中SiC-1,SiC-2,GaN-1和GaN-2表示四个数据集。
表1
数据集 | 损失函数 | 准确率 |
SiC-1 | L<sub>CE</sub> | 0.962 |
SiC-1 | L<sub>1</sub> | 0.975 |
SiC-1 | L<sub>2</sub> | 0.969 |
SiC-1 | L | 0.984 |
SiC-2 | L<sub>CE</sub> | 0.971 |
SiC-2 | L<sub>1</sub> | 0.979 |
SiC-2 | L<sub>2</sub> | 0.972 |
SiC-2 | L | 0.98 |
GaN-1 | L<sub>CE</sub> | 0.92 |
GaN-1 | L<sub>1</sub> | 0.944 |
GaN-1 | L<sub>2</sub> | 0.941 |
GaN-1 | L | 0.966 |
GaN-2 | L<sub>CE</sub> | 0.931 |
GaN-2 | L<sub>1</sub> | 0.949 |
GaN-2 | L<sub>2</sub> | 0.945 |
GaN-2 | L | 0.967 |
实验表明,引入MAE损失后,本实施例中的深度学习分类模型在测试集准确率均高于标准交叉熵损失函数以及加权交叉熵损失函数,同时再引入加权系数后,准确率达到最高。
可以理解的,本实施例中各个步骤流程顺序仅作为示例,对此并不进行限定,例如,在本发明的其他实施例中,该目标函数的构建可以在步骤S23或步骤S24后。
请参阅图3,为本发明第三实施例中的图像分类装置,包括:
预处理模块31,用于将训练样本图像进行像素归一化处理后,将所述训练样本图像缩放处理至预设尺寸;
第一分类模块32,用于将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理;
计算模块33,用于将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算,所述目标损失函数用于对图像进行交叉损失计算、平均绝对误差损失计算,以及图像类别权重计算;
优化模块34,用于当计算出的损失值大于预设值时,根据所述损失值对所述深度学习分类模型的参数进行优化,并返回将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理的步骤;
第二分类模块35,用于当计算出的损失值小于或等于所述预设值时,将待测图像输入至所述深度学习分类模型中,得到所述待测图像的图像分类结果。
进一步的,上述图像分类装置,其中,还包括目标损失函数构建模块,所述目标损失函数构建模块用于:
根据交叉熵函数、平均绝对误差损失函数构建初始损失函数;
获取各个图像类别对应的权重,并根据各个图像类别对应的权重和所述初始损失函数确定目标损失函数。
本发明实施例所提供的图像分类装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明另一方面还提出一种计算机设备,请参阅图4,所示为本发明实施例当中的计算机设备,包括处理器10、存储器20以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器10执行所述计算机程序30时实现如上述的图像分类方法。
其中,所述计算机设备可以为但不限于个人电脑、服务器等设备。处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是计算机设备的内部存储单元,例如该计算机设备的硬盘。存储器20在另一些实施例中也可以是计算机设备的外部存储装置,例如计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器20还可以既包括计算机设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于计算机设备的应用软件及各类数据等,还可以用于暂时地存储已经输出或者将要输出的数据。
可选地,该计算机设备还可以包括用户接口、网络接口、通信总线等,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在计算机设备中处理的信息以及用于显示可视化的用户界面。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置与其他电子装置之间建立通信连接。通信总线用于实现这些组件之间的连接通信。
需要指出的是,图4示出的结构并不构成对计算机设备的限定,在其它实施例当中,该计算机设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例的图像分类方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置中获取指令并执行指令的系统)使用,或结合这些指令执行系统、装置而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或结合这些指令执行系统、装置而使用的设备。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种图像分类方法,其特征在于,包括:
将训练样本图像进行像素归一化处理后,将所述训练样本图像缩放处理至预设尺寸;
将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理;
将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算,所述目标损失函数用于对图像进行交叉损失计算、平均绝对误差损失计算,以及图像类别权重计算;
当计算出的损失值大于预设值时,根据所述损失值对所述深度学习分类模型的参数进行优化,并返回将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理的步骤;
当计算出的损失值小于或等于所述预设值时,将待测图像输入至所述深度学习分类模型中,得到所述待测图像的图像分类结果。
2.如权利要求1所述的图像分类方法,其特征在于,所述将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算的步骤之前还包括:
根据交叉熵函数和平均绝对误差损失函数构建初始损失函数;
获取各个图像类别对应的权重,并根据各个图像类别对应的权重和所述初始损失函数确定目标损失函数。
3.如权利要求2所述的图像分类方法,其特征在于,所述交叉熵函数为-log(Pt),所述平均绝对误差损失函数为λ(1-Pt),所述目标损失函数为L=at(-log(Pt)+λ(1-Pt)),其中,Pt为第t个训练样本图像的模型预测概率,λ为平衡交叉熵与平均绝对误差损失的系数,at为第t个训练样本图像的权重。
4.如权利要求3所述的图像分类方法,其特征在于,λ取值为2。
5.如权利要求2所述的图像分类方法,其特征在于,各个图像类别对应的权重计算公式为:
ωi=(1/M)/Ni,ωi为第i个图像类别对应的权重,M为图像类别数,Ni为第i个图像类别的训练样本图像的数量。
6.如权利要求2所述的图像分类方法,其特征在于,所述深度学习分类模型采用ResNet网络结构、DensetNet网络结构、Transformer网络结构中的任意一种。
7.一种图像分类装置,其特征在于,包括:
预处理模块,用于将训练样本图像进行像素归一化处理后,将所述训练样本图像缩放处理至预设尺寸;
第一分类模块,用于将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理;
计算模块,用于将所述深度学习分类模型输出的图像类别的预测概率以及所述训练样本图像标注的真值输入到目标损失函数中进行损失值计算,所述目标损失函数用于对图像进行交叉损失计算、平均绝对误差损失计算,以及图像类别权重计算;
优化模块,用于当计算出的损失值大于预设值时,根据所述损失值对所述深度学习分类模型的参数进行优化,并返回将处理后的所述训练样本图像输入至深度学习分类模型中进行图像分类处理的步骤;
第二分类模块,用于当计算出的损失值小于或等于所述预设值时,将待测图像输入至所述深度学习分类模型中,得到所述待测图像的图像分类结果。
8.如权利要求7所述的图像分类装置,其特征在于,还包括目标损失函数构建模块,所述目标损失函数构建模块用于:
根据交叉熵函数和平均绝对误差损失函数构建初始损失函数;
获取各个图像类别对应的权重,并根据各个图像类别对应的权重和所述初始损失函数确定目标损失函数。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有程序,所述程序被所述处理器执行时实现如权利要求1-6任一所述的方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963243.XA CN115240011A (zh) | 2022-08-11 | 2022-08-11 | 图像分类方法、装置、计算机可读存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963243.XA CN115240011A (zh) | 2022-08-11 | 2022-08-11 | 图像分类方法、装置、计算机可读存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115240011A true CN115240011A (zh) | 2022-10-25 |
Family
ID=83680132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210963243.XA Pending CN115240011A (zh) | 2022-08-11 | 2022-08-11 | 图像分类方法、装置、计算机可读存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115240011A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879514A (zh) * | 2022-12-06 | 2023-03-31 | 深圳大学 | 类相关性预测改进方法、装置、计算机设备及存储介质 |
CN116894884A (zh) * | 2023-09-06 | 2023-10-17 | 山东科技大学 | 基于加权损失函数彩色图像处理方法、系统、设备及介质 |
-
2022
- 2022-08-11 CN CN202210963243.XA patent/CN115240011A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879514A (zh) * | 2022-12-06 | 2023-03-31 | 深圳大学 | 类相关性预测改进方法、装置、计算机设备及存储介质 |
CN115879514B (zh) * | 2022-12-06 | 2023-08-04 | 深圳大学 | 类相关性预测改进方法、装置、计算机设备及存储介质 |
CN116894884A (zh) * | 2023-09-06 | 2023-10-17 | 山东科技大学 | 基于加权损失函数彩色图像处理方法、系统、设备及介质 |
CN116894884B (zh) * | 2023-09-06 | 2023-12-05 | 山东科技大学 | 基于加权损失函数彩色图像处理方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020239015A1 (zh) | 一种图像识别、分类方法、装置、电子设备及存储介质 | |
CN108038880B (zh) | 用于处理图像的方法和装置 | |
CN109447154B (zh) | 图片相似度检测方法、装置、介质及电子设备 | |
US11113836B2 (en) | Object detection method, device, apparatus and computer-readable storage medium | |
CN115240011A (zh) | 图像分类方法、装置、计算机可读存储介质及计算机设备 | |
CN112016438B (zh) | 一种基于图神经网络识别证件的方法及系统 | |
WO2022213465A1 (zh) | 基于神经网络的图像识别方法、装置、电子设备及介质 | |
US20230030267A1 (en) | Method and apparatus for selecting face image, device, and storage medium | |
TW202013248A (zh) | 車輛損壞識別方法及裝置 | |
US20120089545A1 (en) | Device and method for multiclass object detection | |
CN107679475B (zh) | 门店监控评价方法、装置及存储介质 | |
JPWO2019026104A1 (ja) | 情報処理装置、情報処理プログラム及び情報処理方法 | |
CN111369523B (zh) | 显微图像中细胞堆叠的检测方法、系统、设备及介质 | |
US7643674B2 (en) | Classification methods, classifier determination methods, classifiers, classifier determination devices, and articles of manufacture | |
CN111275660A (zh) | 一种平板显示器缺陷检测方法及装置 | |
US20130223751A1 (en) | Method, apparatus and computer program product for providing pattern detection with unknown noise levels | |
CN110910445B (zh) | 一种物件尺寸检测方法、装置、检测设备及存储介质 | |
US20230021551A1 (en) | Using training images and scaled training images to train an image segmentation model | |
WO2024130857A1 (zh) | 一种物品陈列检测方法、装置、设备及可读存储介质 | |
CN108319954B (zh) | 一种无接触测重方法 | |
CN111754287B (zh) | 物品筛选方法、装置、设备和存储介质 | |
CN111784053A (zh) | 交易风险检测方法、设备及可读存储介质 | |
CN116188940A (zh) | 训练模型的方法、装置、存储介质以及电子设备 | |
CN115018857B (zh) | 图像分割方法、装置、计算机可读存储介质及计算机设备 | |
CN114332602A (zh) | 一种智能货柜的商品识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |