CN113033689A - 图像分类方法、装置、电子设备及存储介质 - Google Patents
图像分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113033689A CN113033689A CN202110372852.3A CN202110372852A CN113033689A CN 113033689 A CN113033689 A CN 113033689A CN 202110372852 A CN202110372852 A CN 202110372852A CN 113033689 A CN113033689 A CN 113033689A
- Authority
- CN
- China
- Prior art keywords
- sample data
- loss
- label
- value
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013145 classification model Methods 0.000 claims abstract description 116
- 230000006870 function Effects 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 241000282472 Canis lupus familiaris Species 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种图像分类方法、装置、电子设备及存储介质,方法包括:获取图像;将图像输入预先训练的分类模型;接收分类模型对图像的分类结果,并输出分类结果;预先训练分类模型的步骤包括:建立原始分类模型,并获取样本数据集;将样本数据集内的样本数据分批次输入原始分类模型进行训练;接收交叉熵损失函数对每批次样本数据计算的确定标签及否定标签的损失值;对每批次样本数据的确定标签及否定标签的损失值进行平衡,并计算平衡损失值;利用所有的平衡损失值作为总损失值对原始分类模型进行优化,直至确定标签的损失值占比不再降低,得到分类模型;原始分类模型学习时,会向标签为确定存在方向学习,提升对图像进行多类别分类时的分类效果。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种图像分类方法、装置、电子设备及存储介质。
背景技术
图像分类是根据不同类别的目标在图像信息中所反映的不同特征,将不同类别的目标区分开来的图像处理方法。图像分类方法基于神经网络的分类模型,通常以不同计算量要求首先要选用不同的backbone(主干网络),如resnet(残差网络),densenet(密集网络),mobilenet(移动端神经网络)等。最后建立分类数据集,选取合适的损失函数对网络进行训练。例如有100种不同类别的图片,则进行100类别的分类。目前,分类模型的损失函数通常使用交叉熵损失函数。
但是交叉熵损失函数进行的是单标签分类,在选取交叉熵损失函数进行模型训练时,每张图片只具有一个标签。但若一张图片即同时包含多种事物,如一张图片包含狗、猫这两种动物,在进行图像分类时,通常会出现图像内的多种事物中,其中一种事物的概率很高,其他种事物概率很低的情况,因此对图片分类时,无法将可能存在的多种事物都包含在分类的类别内。
为解决上述问题,现有的方法是对一张图片中的每一个类别都进行标签,假设分类模型能够进行100类图像的分类,则需要使用100个二分类交叉熵损失函数来优化模型的输出,对于每一类的事物,在同一张图像中都会有一个表示存在的确定标签或表示不存在的否定标签,因此该一张图像会有100个标签,每个二分类交叉熵损失函数则分别对一个标签计算损失值,最后相加得到总损失值,其中,确定标签的损失值较大,否定标签的损失值较小。在总损失值较大时,分类模型会向确定标签的方向进行学习,从而提升分类模型的分类能力。
但是在实际中,一张图片一般只包含几个种类的事物,因此一张图片的大部分标签都为否定标签,以一张图片包含2个种类的事物为例,那么标签为确定标签的比例只占有2%,标签为否定标签的比例占有98%,这就导致标签不平衡的问题,使得最后计算出的总损失值较小。
若总损失值过小,分类模型进行学习时,就不会向标签为确定标签的方向进行学习,从而降低了对图像进行多个类别分类时的效果。
发明内容
基于此,为了解决或改善现有技术的问题,本申请提供一种图像分类方法、装置、电子设备及存储介质,可以提高对图像进行多个类别分类时的分类效果。
本申请第一方面提供一种图像分类方法,包括:获取图像;将所述图像输入预先训练的分类模型;接收所述分类模型对所述图像的分类结果,并输出所述分类结果;所述预先训练分类模型的步骤包括:建立原始分类模型,并获取样本数据集,所述原始分类模型具有损失函数,所述样本数据集内的样本数据具有预设数量的类别标签,每个所述类别标签为对应类别的确定标签或否定标签;将所述样本数据集内的样本数据分批次输入所述原始分类模型进行训练;接收所述交叉熵损失函数对每批次样本数据计算的所述确定标签及所述否定标签的损失值;对每批次样本数据的确定标签及否定标签的损失值进行平衡,直至所有批次中,所述确定标签及所述否定标签的损失值占比相同,并计算每批次样本数据的平衡损失值;利用所有的所述平衡损失值作为总损失值对所述原始分类模型进行优化,直至所述确定标签的损失值占比不再降低,得到分类模型。
其中,所述对每批次样本数据的确定标签及否定标签的损失值进行平衡,直至所有批次中,所述确定标签及所述否定标签的损失值占比相同,并计算每批次样本数据的平衡损失值,包括:获取一个批次内,每个所述样本数据的确定标签的数量;利用所述预设数量减去所述确定标签的数量,得到每个样本数据否定标签的数量;将所有所述确定标签的损失值相加后,除以所述确定标签的数量,得到第一损失值;将所有所述否定标签的损失值相加后,除以所述否定标签的数量,得到第二损失值;计算所述预设数量的二分之一值,将所述二分之一值分别乘以所述第一损失值及所述第二损失值,以使所述确定标签及所述否定标签的损失值占比相同,并得到第一积值及第二积值;将所述第一积值及所述第二积值相加,得到一个样本数据的损失值;利用计算所述一个样本数据的损失值的步骤,计算所述一个批次内,所有样本数据的损失值,并将所有损失值相加,再除以所述一个批次内样本数据的数量,得到所述一个批次样本数据的平衡损失值;利用所述平衡损失值的计算步骤,计算所述样本数据集内,所有批次样本数据的平衡损失值。
其中,在得到所述分类模型后,所述预先训练分类模型的步骤还包括:获取所述样本数据集,并将其内的样本数据分批次输入所述分类模型;接收所述分类模型的损失函数计算每个所述样本数据的确定标签及否定标签的损失值;降低所述确定标签的损失值占比,并计算降低占比后的所述确定标签的总损失值,及计算所述否定标签的总损失值;固定降低后的所述确定标签的损失值占比;重复所述总损失值的计算步骤,计算所有批次所述样本数据的总损失值;利用每个批次的所述总损失值替换相应批次的所述平衡损失值,对所述分类模型进行优化。
其中,所述降低所述确定标签的损失值的占比包括:将一个所述样本数据的所有所述确定标签的损失值相加后,除以所述确定标签的数量,得到第三损失值;将所述预设数量乘以预设的第一系数,并乘以所述第三损失值,以得到第三积值,并降低所述确定标签的损失值占比,且固定降低后的所述损失值占比,所述第一系数小于所述预设数量的二分之一值。
其中,所述计算降低占比后的所述确定标签及所述否定标签的总损失值,包括:获取所述第三积值;将所有所述否定标签的损失值相加后,除以所述否定标签的数量,得到第四损失值;将所述预设数量乘以预设的第二系数,并乘以所述第四损失值,得到第四积值,所述第二系数为一和所述第一系数的差值;将所述第三积值及所述第四积值相加得到总损失值。
其中,所述分类模型的主干网络为101层的残差网络,所述残差网络的最后一层连接有与所述预设数量的类别标签相等数量的二次交叉熵损失函数,以分别利用每一个所述二次交叉熵损失函数计算所述预设数量中,每一个类别标签的损失值;所述损失值占比达到预设目标值时,所述损失值占比不再降低,所述预设目标值为大于0且小于1的任意数字。
其中,在所述获取样本数据时,所述图像分类方法还包括:将所述样本数据的确定标签设定为1,将所述否定标签设定为0。
本申请第二方面提供一种图像分类装置,包括:图像获取模块,用于获取图像;模型训练模块,用于预先训练分类模型;图像输入模块,用于将所述图像输入预先训练的分类模型;结果接收模块,用于接收所述性别识别模型对所述图像的分类结果,并输出所述分类结果;所述模型训练模块包括:模型建立单元,用于建立原始分类模型,所述原始分类模型具有损失函数;数据集获取单元,用于获取样本数据集,所述样本数据集内的样本数据具有预设数量的类别标签,每个所述类别标签为对应类别的确定标签或否定标签;训练单元,用于将所述样本数据集内的样本数据依次输入所述原始分类模型进行训练;接收单元,用于接收所述交叉熵损失函数对每个所述样本数据计算的所述确定标签及所述否定标签的损失值;损失值平衡单元,用于对每个所述样本数据的确定标签及否定标签的损失值进行平衡,以使所述确定标签及所述否定标签的损失值占比相同,并计算平衡损失值;优化单元,用于利用所有的所述平衡损失值对所述原始分类模型进行优化,直至所述确定标签的损失值占比不再降低,得到分类模型。
本申请第三方面提供一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述中任一项所述的图像分类方法的步骤。
本申请第四方面提供一个或多个存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行上述中任一项所述的图像分类方法的步骤。
本申请上述的图像分类方法、装置、电子设备及存储介质,在对原始分类模型进行训练时,通过每个批次样本数据的确定标签及否定标签的损失值进行平衡,能够增加标签为确定的比例,从而增大了对标签为确定的损失值,得到了平衡损失值,而使用所有批次样本数据的平衡损失值作为总损失值对原始分类模型进行优化,使得分类模型在进行学习时,就会提升向标签为确定存在方向进行学习的概率,从而提升了对图像进行多个类别分类时的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。应当理解的是,下面描述中的附图仅仅用以解释本发明,并不用于限定本发明。
图1是本申请一实施例图像分类方法的流程示意图;
图2是本申请一实施例图像分类方法中预先建立分类模型的流程示意图;
图3是本申请一实施例图像分类装置的结构示意框图;
图4是本申请一实施例图像分类装置的模型训练模块的结构示意框图。
具体实施方式
下面结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而非全部实施例。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如背景技术所述,发明人研究发现,若二分类交叉熵损失函数计算出的总损失值过小,分类模型进行学习时,就不会向标签为确定存在方向进行学习,从而降低了分类模型对图像进行多个类别分类时的分类效果。
本申请实施例提出一种图像分类方法、装置、电子设备及存储介质,可以提高对图像进行多个类别分类时的分类效果。
请参阅图1,为本申请一实施例图像分类方法的流程示意图,图像分类方法包括:
S101、获取图像;
S102、将图像输入预先训练的分类模型;
S103、接收分类模型对图像的分类结果,并输出分类结果。
在步骤S102中,请参与图2,预先训练分类模型的步骤包括:
S1021、建立原始分类模型,并获取样本数据集,原始分类模型具有损失函数,样本数据集内的样本数据具有预设数量的类别标签,每个类别标签为对应类别的确定标签或否定标签;
S1022、将样本数据集内的样本数据分批次输入原始分类模型进行训练;
S1023、接收交叉熵损失函数对每批次样本数据计算的确定标签及否定标签的损失值;
S1024、对每批次样本数据的确定标签及否定标签的损失值进行平衡,直至所有批次中,确定标签及否定标签的损失值占比相同,并计算每批次样本数据的平衡损失值;
S1025、利用所有的平衡损失值作为总损失值对原始分类模型进行优化,直至确定标签的损失值占比不再降低,得到分类模型。
本实施例提供的图像分类方法,在对原始分类模型进行训练时,通过每个批次样本数据的确定标签及否定标签的损失值进行平衡,能够增加标签为确定的比例,从而对标签为确定的损失值进行了增大,得到了平衡损失值,而使用所有批次样本数据的平衡损失值作为总损失值对原始分类模型进行优化,使得分类模型在进行学习时,就会向标签为确定存在方向进行学习,从而提升了对图像进行多个类别分类时的分类效果。
在本实施例中,步骤S1021中,预设数量可以为根据样本数据中包含的类别标签进行确定,例如,样本数据集内有100个类别标签,预设数量为100。在一个样本数据中,有100个类别标签,若该样本数据中有与类别标签相同的事物,则该样本数据对于该事物具有确定标签,若该版本数据中没有与类别标签相同的事物,则该样本数据对于该事物具有否定标签。
在步骤S1023中,交叉熵损失函数是二分类交叉熵损失函数,其对样本数据的每一个类别标签计算损失值,得到每一个确定类别标签的损失值,以及否定类别标签的损失值。
在步骤S1024中,对确定标签及否定标签的损失值进行了平衡,使得确定标签及否定标签的损失值占比相同,这种情况下,比如样本数据集内有100个类别标签,而一般情况下,一个图像内包含的事物种类最多只有几个,以2个为例,那么标签为确定的比例只占有2%,标签为否定的比例占有98%,若不对标签进行平衡,则会出现标签不平衡的问题,使得最后计算出的总损失值较小。
而步骤S1024对确定标签及否定标签的损失值进行了平衡,就能够增大确定标签的占比,从而增大确定标签的损失值,相应的就减小了否定标签的损失值。
在步骤S1024中,平衡损失值的计算方法包括:将平衡后的所有确定标签及否定标签的损失值相加,得到平衡损失值,此时由于增大了确定标签的总损失值,使得平衡损失值也较大,从而在步骤S1025中,将平衡损失值作为总损失值时,就会使得分类模型在进行学习时,向标签为确定存在方向进行学习,从而提升了对图像进行多个类别分类时的效果。
在步骤1205中,一些实施例内,以下几种情况可以视为确定标签的损失值占比不再降低:
(1)确定损失值占比达到目标值时,目标值可为0.05,此时增大确定标签的损失值,从而平衡确定标签的损失值,以使平衡后的所有确定标签损失值之和,与所有否定标签损失值之和的比例为1:1,达到平衡。
(2)确定损失值占比达到目标值时,目标值可为0.1,此时增大确定标签的损失值,从而平衡确定标签的损失值,以使平衡后的所有确定标签损失值之和,与所有否定标签损失值之和的比例为1:1,达到平衡。在本实施例中,确定标签用的机器语言,可以为1,也可以为其他数字,否定标签可以为0,也可以为其他数字,在确定标签为1,否定标签为0时,原始分类模型进行训练及分类模型进行分类时,图像上有该类别的标签,则输出1,并计算标签1的损失值,没有该类别的标签,则输出0,并计算该标签的损失值。
例如,以一张只包含猫和狗两个类别的图片为例,得到的标签为1,1,0,0,0,0……,在计算总损失值时,把交叉熵损失函数对每个1和0的标签计算的损失值相加即可。
在一个实施例中,步骤S1024对每批次样本数据的确定标签及否定标签的损失值进行平衡,直至所有批次中,确定标签及否定标签的损失值占比相同,并计算每批次样本数据的平衡损失值,包括:
S10241、获取一个批次内,每个样本数据的确定标签的数量;
S10242、利用预设数量减去确定标签的数量,得到每个样本数据否定标签的数量;
S10243、将所有确定标签的损失值相加后,除以确定标签的数量,得到第一损失值;
S10244、将所有否定标签的损失值相加后,除以否定标签的数量,得到第二损失值;
S10245、计算预设数量的二分之一值,将二分之一值分别乘以第一损失值及第二损失值,以使确定标签及否定标签的损失值占比相同,并得到第一积值及第二积值;
S10246、将第一积值及第二积值相加,得到一个样本数据的损失值;
S10247、利用计算一个样本数据的损失值的步骤,计算一个批次内,所有样本数据的损失值,并将所有损失值相加,再除以一个批次内样本数据的数量,得到一个批次样本数据的平衡损失值;
S10248、利用平衡损失值的计算步骤,计算样本数据集内,所有批次样本数据的平衡损失值。
在本实施例中,在计算平衡损失值时,预设数量以100为例,则训练出的分类模型,就能够进行100个类别的分类,若一张图象存在n个类别(n<100),那么确定标签的数量就为n,否定标签的数量即为100-n。
将这n个类别的损失相加后,再除以n,就得到了第一损失值。再将100-n个否定类别标签的损失值相加后,除以(100-n),就得到了第二损失值。随后计算出预设数量的二分之一值,即100的二分之一值,为50。之后将第一损失、第二损失值各自乘以50后,得到第一积值及第二积值。最后将第一积值及第二积值相加作为该样本图像的损失值,一个批次内,所有样本数据的损失值,并将所有损失值相加,再除以一个批次内样本数据的数量,就得到一个批次样本数据的平衡损失值,平衡损失值即为进行平衡后的最终损失值。
在该实施例中,由于计算的是预设数量的二分之一值,因此确定标签及否定标签的损失值达到平衡,为1:1。
在上述实施例中,分类模型的主干网络可为resnet-101,resnet-101是101层的残差网络,在其他实施例中,还可以使用resnet-50、resnet-152等神经网络。resnet-101能够利用残差结构让网络能够更深、收敛速度更快、同时参数更少、复杂度更低,并解决深网络退化(梯度爆炸/消失)的问题,还适用于多种计算机视觉任务,resnet-101网络的最后一层连接有与预设数量相等数量的交叉熵损失函数,以分别利用每一个交叉熵损失函数计算预设数量中,每一个类别标签的损失值。
例如,预设数量为100的情况下,交叉熵损失函数就有100个,每个交叉熵损失自函数对图像的每一个类别标签进行损失值计算。
在一个实施例中,在步骤S1025,得到分类模型后,预先训练分类模型的步骤还包括:
S1026、获取样本数据集,并将其内的样本数据依次输入分类模型;
S1027、接收分类模型的损失函数计算每个样本数据的确定标签及否定标签的损失值;
S1028、降低并固定确定标签的损失值占比;
S1029、计算降低占比后的确定标签及否定标签的总损失值;
S1030、重复总损失值的计算步骤,计算所有样本数据的总损失值;
S1031、利用所有的总损失值替换所有的平衡损失值,对分类模型进行优化。
在步骤S1025后,即训练出来了分类模型,分类模型具有对图像进行多分类的性能,但是,以分类模型能够分别出图像上的猫和狗这两种类型为例,由于现实世界图片的类别接近无穷,如果随机将图片输入分类模型进行识别,则大部分的图片被识别出的都会是非猫非狗的类别。因此,在分类模型具有一定的分类能力后,需要进一步优化分类模型的分类结果相对现实世界数据分布的吻合程度。
对分类模型进行优化时,可以在分类模型的基础上,对分类模型进行训练,如步骤S1206,将获取的样本数据输入分类模型。
在步骤S1028中,降低确定标签的损失值占比,将确定标签损失值占比与否定标签的损失值占比确定为3:7。
在一个实施例中,步骤S1028,降低确定标签的损失值的占比包括:
S10281、将一个样本数据的所有确定标签的损失值相加后,除以确定标签的数量,得到第三损失值;
S10282、将预设数量乘以预设的第一系数,并乘以第三损失值,以得到第三积值,并降低确定标签的损失值占比,且固定降低后的损失值占比,第一系数小于所述预设数量的二分之一值。
本实施例中,第一系数可以为0.3;在其他实施例中,第一系数还可以为0.2、0.1、0.4等;将确定标签计算出的第三损失值乘以十分之三值,相较于前述实施例中,将确定标签计算出的第一损失值乘以二分之一值,本实施例降低了确定标签的损失值占比,来使得分类模型进行分类时,增加分类模型分类结果的准确性。
例如,预设数量为100的情况下,若图像上有猫和狗,分类模型则能够将该图像分类为猫和狗,但现实世界图片的类别接近无穷。如果随机将图片输入网络进行预测,分类模型对大部分的图片的分类,都会是非猫非狗的类别,但是若图像中还有一棵树,此时对图像的分类没有树,若仍以1:1的损失值占比进行学习,则分类模型仍旧会倾向于学习猫和狗的分类,而不会对树的分类进行学习。
但是在降低了确定标签的损失值占比后,分类模型就会有一定的倾向,从否定标签中学习,从而增加分类模型分类结果的准确性。
在一个实施例中,步骤S1029,计算降低占比后的确定标签及否定标签的总损失值,包括:
获取第三积值;
将所有否定标签的损失值相加后,除以否定标签的数量,得到第四损失值;
将所述预设数量乘以预设的第二系数,并乘以所述第四损失值,得到第四积值,所述第二系数为一和所述第一系数的差值;
将第三积值及第四积值相加得到总损失值。
在本实施例中,第一系数为0.3,第二系数为0.7,进行总损失值的计算时,仍以预设数量为100的情况为例,则分类模型能够进行100个类别的分类,若一张图象存在m个类别(m<100),那么确定标签的数量就为m,否定标签的数量即为100-m。
将这m个类别的损失相加后,再除以m,就得到了第三损失值。再将100-m个否定类别标签的损失值相加后,除以(100-m),就得到了第四损失值。随后计算出预设数量的十分之三值,即100的十分之三值,为30,并计算预设数量的十分之七值,为70。分别将第三损失乘以30、第二损失值乘以70后,得到第三积值及第四积值。将第三积值与第四积值相加,即得到了总损失值,利用确定标签与否定标签的占比为3:7计算出的总损失值对分类模型进行优化,能够让模型在具有100个类别特征提取能力的同时,使得分类模型进一步适应现实世界中图片的多样性,以此来避免对一些上述100个类别以外图片的判断准确性,即提高模型对一些不属于任何既定类别图片的判断准确率。
在本实施例中,将图像输入分类模型前,还对图像进行了预处理,预处理的步骤包括:获取预先构建的对比度增强算法;利用对比度增强算法增强图像的对比度,以提升图像的特征明显度。
利用对比度增强算法增强图像的对比度的步骤包括:获取图像的每个像素点的原始亮度;计算图像的所有像素点的平均亮度;获取预设的增强值;计算每个像素点的每个原始亮度及平均亮度的差值、增强值与一的和值;对差值及和值求解乘积值;对乘积值及平均亮度进行求和,得到每个像素点的亮度值;根据亮度值调整每个像素点的亮度,利用亮度的调整完成对比度的增强。
在其他实施例中,对比度增强算法可以使用直方图调整算法,在其他实施例中,还能使用灰度变换算法或其他公知的能够增强图像对比度的算法。
通过对摄像图片的对比度进行增强,能够使得摄像图片越清晰醒目,色彩也越鲜明艳丽,高对比度对于图像的清晰度、细节表现、灰度层次表现都有很大帮助,而这些表现在机器视觉里,高对比度的图像就表现出更加明显特征,因此通过增强摄像图片的对比度,能够提升图像的特征明显度,使得分类模型能够容易地检测出摄像图片上的特征点,从而有利于分类模型利用特征点判断摄像图片上有无井盖的特征,因此降低了分类模型对图像进行识别的难度。
请参阅图3,在一个实施例中,本申请还提供一种图像分类装置,包括:图像获取模块1、模型训练模块2、图像输入模块3及结果接收模块4;图像获取模块1用于获取图像;模型训练模块2用于预先训练分类模型;图像输入模块3用于将图像输入预先训练的分类模型;结果接收模块4用于接收性别识别模型对图像的分类结果,并输出分类结果。
其中,请参阅图4,模型训练模块2包括:模型建立单元21、数据集获取单元22、训练单元23、接收单元24、损失值平衡单元25及优化单元26。
模型建立单元21用于建立原始分类模型,原始分类模型具有损失函数;数据集获取单元22用于获取样本数据集,样本数据集内的样本数据具有预设数量的类别标签,每个类别标签为对应类别的确定标签或否定标签;训练单元23用于将样本数据集内的样本数据分批次输入原始分类模型进行训练;接收单元24用于接收交叉熵损失函数对每批次样本数据计算的确定标签及否定标签的损失值;损失值平衡单元25用于对每个样本数据的确定标签及否定标签的损失值进行平衡,直至所有批次中,确定标签及否定标签的损失值占比相同,并计算每批次样本数据的平衡损失值;优化单元26用于利用所有的平衡损失值对原始分类模型进行优化,直至确定标签的损失值占比不再降低,得到分类模型。
在对原始分类模型进行训练时,通过每个批次样本数据的确定标签及否定标签的损失值进行平衡,能够增加标签为确定的比例,从而对标签为确定的损失值进行了增大,得到了平衡损失值,而使用所有批次样本数据的平衡损失值作为总损失值对原始分类模型进行优化,使得分类模型在进行学习时,就会向标签为确定存在方向进行学习,从而提升了对图像进行多个类别分类时的效果。
上述图像分类装置中各个模块的划分仅用于举例说明,在其他实施例中,可将图像分类装置按照需要划分为不同的模块,以完成上述图像分类装置的全部或部分功能。
关于图像分类装置的具体限定可以参见上文中对于图像分类方法的限定,在此不再赘述。上述图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本申请实施例中提供的图像分类装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时,实现本申请实施例中所描述方法的步骤。
本申请还提出了一种电子设备,包括存储器及处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行上述任意实施例中的图像分类方法的步骤。
电子设备可以以各种形式来实施。例如,本申请中描述的电子设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行图像分类方法的步骤。
一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行图像分类方法。
本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM),它用作外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种图像分类方法,其特征在于,包括:
获取图像;
将所述图像输入预先训练的分类模型;
接收所述分类模型对所述图像的分类结果,并输出所述分类结果;
所述预先训练分类模型的步骤包括:建立原始分类模型,并获取样本数据集,所述原始分类模型具有损失函数,所述样本数据集内的样本数据具有预设数量的类别标签,每个所述类别标签为对应类别的确定标签或否定标签;将所述样本数据集内的样本数据分批次输入所述原始分类模型进行训练;接收所述交叉熵损失函数对每批次样本数据计算的所述确定标签及所述否定标签的损失值;对每批次样本数据的确定标签及否定标签的损失值进行平衡,直至所有批次中,所述确定标签及所述否定标签的损失值占比相同,并计算每批次样本数据的平衡损失值;利用所有的所述平衡损失值作为总损失值对所述原始分类模型进行优化,直至所述确定标签的损失值占比不再降低,得到分类模型。
2.根据权利要求1所述的图像分类方法,其特征在于,
所述对每批次样本数据的确定标签及否定标签的损失值进行平衡,直至所有批次中,所述确定标签及所述否定标签的损失值占比相同,并计算每批次样本数据的平衡损失值,包括:
获取一个批次内,每个所述样本数据的确定标签的数量;
利用所述预设数量减去所述确定标签的数量,得到每个样本数据否定标签的数量;
将所有所述确定标签的损失值相加后,除以所述确定标签的数量,得到第一损失值;
将所有所述否定标签的损失值相加后,除以所述否定标签的数量,得到第二损失值;
计算所述预设数量的二分之一值,将所述二分之一值分别乘以所述第一损失值及所述第二损失值,以使所述确定标签及所述否定标签的损失值占比相同,并得到第一积值及第二积值;
将所述第一积值及所述第二积值相加,得到一个样本数据的损失值;利用计算所述一个样本数据的损失值的步骤,计算所述一个批次内,所有样本数据的损失值,并将所有损失值相加,再除以所述一个批次内样本数据的数量,得到所述一个批次样本数据的平衡损失值;
利用所述平衡损失值的计算步骤,计算所述样本数据集内,所有批次样本数据的平衡损失值。
3.根据权利要求1所述的图像分类方法,其特征在于,
在得到所述分类模型后,所述预先训练分类模型的步骤还包括:
获取所述样本数据集,并将其内的样本数据分批次输入所述分类模型;
接收所述分类模型的损失函数计算每个所述样本数据的确定标签及否定标签的损失值;
降低所述确定标签的总损失值占比,并计算降低占比后的所述确定标签的总损失值,及计算所述否定标签的总损失值;
固定降低后的所述确定标签的损失值占比;
重复所述总损失值的计算步骤,计算所有批次所述样本数据的总损失值;
利用每个批次的所述总损失值替换相应批次的所述平衡损失值,对所述分类模型进行优化。
4.根据权利要求3所述的图像分类方法,其特征在于,
所述降低所述确定标签的损失值的占比包括:
将一个所述样本数据的所有所述确定标签的损失值相加后,除以所述确定标签的数量,得到第三损失值;
将所述预设数量乘以预设的第一系数,并乘以所述第三损失值,以得到第三积值,并降低所述确定标签的损失值占比,且固定降低后的所述损失值占比,所述第一系数小于所述预设数量的二分之一值。
5.根据权利要求4所述的图像分类方法,其特征在于,
所述计算降低占比后的所述确定标签及所述否定标签的总损失值,包括:
获取所述第三积值;
将所有所述否定标签的损失值相加后,除以所述否定标签的数量,得到第四损失值;
将所述预设数量乘以预设的第二系数,并乘以所述第四损失值,得到第四积值,所述第二系数为一和所述第一系数的差值;
将所述第三积值及所述第四积值相加得到总损失值。
6.根据权利要求1所述的图像分类方法,其特征在于,
所述分类模型的主干网络为101层的残差网络,所述残差网络的最后一层连接有与所述预设数量的类别标签相等数量的二次交叉熵损失函数,以分别利用每一个所述二次交叉熵损失函数计算所述预设数量中,每一个类别标签的损失值;
所述损失值占比达到预设目标值时,所述损失值占比不再降低,所述预设目标值为大于0且小于1的任意数字。
7.根据权利要求1所述的图像分类方法,其特征在于,
在所述获取样本数据时,所述图像分类方法还包括:
将所述样本数据的确定标签设定为1,将所述否定标签设定为0。
8.一种图像分类装置,其特征在于,包括:
图像获取模块,用于获取图像;
模型训练模块,用于预先训练分类模型;
图像输入模块,用于将所述图像输入预先训练的分类模型;
结果接收模块,用于接收所述性别识别模型对所述图像的分类结果,并输出所述分类结果;
所述模型训练模块包括:模型建立单元,用于建立原始分类模型,所述原始分类模型具有损失函数;数据集获取单元,用于获取样本数据集,所述样本数据集内的样本数据具有预设数量的类别标签,每个所述类别标签为对应类别的确定标签或否定标签;训练单元,用于将所述样本数据集内的样本数据依次输入所述原始分类模型进行训练;接收单元,用于接收所述交叉熵损失函数对每个所述样本数据计算的所述确定标签及所述否定标签的损失值;损失值平衡单元,用于对每个所述样本数据的确定标签及否定标签的损失值进行平衡,以使所述确定标签及所述否定标签的损失值占比相同,并计算平衡损失值;优化单元,用于利用所有的所述平衡损失值对所述原始分类模型进行优化,直至所述确定标签的损失值占比不再降低,得到分类模型。
9.一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的图像分类方法的步骤。
10.一个或多个存储有计算机可读指令的非易失性可读存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述的图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110372852.3A CN113033689A (zh) | 2021-04-07 | 2021-04-07 | 图像分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110372852.3A CN113033689A (zh) | 2021-04-07 | 2021-04-07 | 图像分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033689A true CN113033689A (zh) | 2021-06-25 |
Family
ID=76454051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110372852.3A Pending CN113033689A (zh) | 2021-04-07 | 2021-04-07 | 图像分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033689A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926471A (zh) * | 2022-05-24 | 2022-08-19 | 北京医准智能科技有限公司 | 一种图像分割方法、装置、电子设备及存储介质 |
WO2023272993A1 (zh) * | 2021-06-29 | 2023-01-05 | 苏州浪潮智能科技有限公司 | 一种图片识别方法、装置、设备及可读存储介质 |
US12026933B2 (en) | 2021-06-29 | 2024-07-02 | Inspur Suzhou Intelligent Technology Co., Ltd. | Image recognition method and apparatus, and device and readable storage medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409432A (zh) * | 2018-10-31 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置和存储介质 |
US20200143248A1 (en) * | 2017-07-12 | 2020-05-07 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and device, and expression image classification method and device |
CN111126346A (zh) * | 2020-01-06 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 脸部识别方法、分类模型的训练方法、装置和存储介质 |
CN111797895A (zh) * | 2020-05-30 | 2020-10-20 | 华为技术有限公司 | 一种分类器的训练方法、数据处理方法、系统以及设备 |
US20200365229A1 (en) * | 2019-05-13 | 2020-11-19 | Grail, Inc. | Model-based featurization and classification |
CN112465071A (zh) * | 2020-12-18 | 2021-03-09 | 深圳赛安特技术服务有限公司 | 图像多标签分类方法、装置、电子设备及介质 |
-
2021
- 2021-04-07 CN CN202110372852.3A patent/CN113033689A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143248A1 (en) * | 2017-07-12 | 2020-05-07 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and device, and expression image classification method and device |
CN109409432A (zh) * | 2018-10-31 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置和存储介质 |
US20200365229A1 (en) * | 2019-05-13 | 2020-11-19 | Grail, Inc. | Model-based featurization and classification |
CN111126346A (zh) * | 2020-01-06 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 脸部识别方法、分类模型的训练方法、装置和存储介质 |
CN111797895A (zh) * | 2020-05-30 | 2020-10-20 | 华为技术有限公司 | 一种分类器的训练方法、数据处理方法、系统以及设备 |
CN112465071A (zh) * | 2020-12-18 | 2021-03-09 | 深圳赛安特技术服务有限公司 | 图像多标签分类方法、装置、电子设备及介质 |
Non-Patent Citations (4)
Title |
---|
SHOUJIN WANG: "Traning deep neural networks on imbalanced data sets", 《IEEE》 * |
张洪瑞: "基于医学眼底图片的多标签分类的研究", 《中国优秀硕士学位论文全文数据库》 * |
颜文瑾: "图片多标签分类上的类别不平衡问题研究", 《中国优秀硕士学位论文全文数据库》 * |
黄庆康: "应用于不平衡多分类问题的损失平衡函数", 《智能系统学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023272993A1 (zh) * | 2021-06-29 | 2023-01-05 | 苏州浪潮智能科技有限公司 | 一种图片识别方法、装置、设备及可读存储介质 |
US12026933B2 (en) | 2021-06-29 | 2024-07-02 | Inspur Suzhou Intelligent Technology Co., Ltd. | Image recognition method and apparatus, and device and readable storage medium |
CN114926471A (zh) * | 2022-05-24 | 2022-08-19 | 北京医准智能科技有限公司 | 一种图像分割方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816009B (zh) | 基于图卷积的多标签图像分类方法、装置及设备 | |
CN111950638B (zh) | 基于模型蒸馏的图像分类方法、装置和电子设备 | |
CN109299716B (zh) | 神经网络的训练方法、图像分割方法、装置、设备及介质 | |
CN105354307B (zh) | 一种图像内容识别方法及装置 | |
CN107835496B (zh) | 一种垃圾短信的识别方法、装置和服务器 | |
US11585918B2 (en) | Generative adversarial network-based target identification | |
US10692089B2 (en) | User classification using a deep forest network | |
US11334773B2 (en) | Task-based image masking | |
CN111368937A (zh) | 图像分类方法、装置、及其训练方法、装置、设备、介质 | |
CN113222942A (zh) | 多标签分类模型的训练方法和预测标签的方法 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN113033689A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN110377733B (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN111046949A (zh) | 一种图像分类方法、装置及设备 | |
CN112347361A (zh) | 推荐对象的方法、神经网络及其训练方法、设备和介质 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN111104831A (zh) | 一种视觉追踪方法、装置、计算机设备以及介质 | |
CN113743443B (zh) | 一种图像证据分类和识别方法及装置 | |
CN113283388B (zh) | 活体人脸检测模型的训练方法、装置、设备及存储介质 | |
CN114299304A (zh) | 一种图像处理方法及相关设备 | |
CN116484005B (zh) | 一种分类模型构建方法、装置及存储介质 | |
CN113887630A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN111898544A (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN116258906A (zh) | 一种对象识别方法、特征提取模型的训练方法及装置 | |
CN112732967B (zh) | 图像自动标注方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210625 |
|
RJ01 | Rejection of invention patent application after publication |