CN110472669A - 一种图像分类方法 - Google Patents
一种图像分类方法 Download PDFInfo
- Publication number
- CN110472669A CN110472669A CN201910659392.5A CN201910659392A CN110472669A CN 110472669 A CN110472669 A CN 110472669A CN 201910659392 A CN201910659392 A CN 201910659392A CN 110472669 A CN110472669 A CN 110472669A
- Authority
- CN
- China
- Prior art keywords
- competition
- loss function
- class
- image
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提出了一种图像分类方法,涉及一种竞争比损失函数,竞争比损失函数加大了正确类和竞争类的差距,采用该竞争比损失函数训练深度卷积神经网络,得到训练好的基于竞争比损失函数的深度卷积神经网络,因为基于竞争比损失函数的深度卷积神经网络中的竞争比损失函数加大了正确类和竞争类的差距,所以使用基于竞争比损失函数的深度卷积神经网络对图像进行分类能够提高图像分类的准确率。
Description
技术领域
本申请属于图像领域,尤其涉及一种图像分类方法。
背景技术
随着互联网的快速发展,图像成为人们传递信息、获取信息的重要载体,图像数量迅速增长,如何对图像进行快速、有效的分析和处理,并对图像进行识别和分类越来越重要。首先,通过人工的方式对数量上万的图像进行分类是不可行的。其次,人们可以通过检索关键词来对文字信息进行信息提取,而无法对图片信息进行检索和处理。因此,如何通过人工智能的方法实现图像的识别与分类已成为计算机视觉领域的研究热点。目前,图像分类在字符识别技术、人脸识别、物体识别、行人检测、图像检索等方面都有广泛的应用。
目前深度卷积神经网络(Deep Convolutional Neural Network,DCNN)已经成为图像分类的主流方法。卷积神经网络是通过模拟人类的视觉系统来产生分类结果的,它将特征提取与图像分类融合在了一起。2012年,AlexNet在ImageNet大赛上横空出世,一举夺得当年ImageNet图像分类挑战赛冠军。自此人们陆续研究出很多基于DCNN的分类方法,这些方法相对于传统方法,图像分类准确性有着很大的提高,比如GoogleNet、VGGNet、ResNet和DenseNet等。在图像分类任务中,DCNN通过提取输入图像的深层特征,学习输出图像类别的分布。其学习目标为减小由DCNN输出的图像类别分布和图像真实的类别分布的差距。为量化这一学习目标,损失函数应运而生。损失函数(loss function)也叫代价函数(costfunction),是DCNN优化的目标函数,DCNN训练或者优化的过程就是最小化损失函数的过程。在DCNN训练的过程中,均方差损失函数(mean square error loss,MSE)、折页损失函数(hinge loss)、交叉熵损失函数(cross-entropy loss,CE)等常见的损失函数扮演了重要角色。与另外两种损失函数相比,CE在网络训练过程中收敛速度快,逐渐成为DCNN图像分类网络训练过程中使用最频繁的损失函数。
申请内容
现有技术中,根据维基百科的定义,基于相同事件测度的两个概率分布p和q的交叉熵(cross-entropy)是指,当基于一个“非自然”(相对于“真实”分布p而言)的概率分布q进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数(bit)。在实际应用时,如基于DCNN的图像分类网络训练时,分布q是未知的,通常情况下被由训练集产生的经验概率分布替代。训练集的每一个样本均独立同分布(i.i.d)。在图像特征空间和图像标签空间均服从均匀分布时,根据贝叶斯推断,CE为训练图像的负对数似然值(negative loglikelihood)。所以在训练DCNN时,最小化CE与最大化训练图像的负对数似然值等价。最大似然(maximum likelihood)是机器学习中常见的一种训练准则(criterion)。利用这一准则训练DCNN进行图像分类时,网络学习输入图像正确类的似然值(likelihood)。网络利用贝叶斯准则(Bayes rules)计算输入图像的所属类别先验概率,预测图像最可能所属的类别。
假设在基于DCNN的图像分类任务中,全部图像具有C个目标类别(targetclasses)。DCNN采用图像xi作为输入并输出C个节点,每个节点的输出代表每个目标类别对应的预测分数。当DCNN的输出层的激活函数为softmax函数时,节点的输出可以视为对应目标类别的先验概率:其中x为DCNN的输入向量。基于以上条件,CE定义如公式(1)所示:
其中p(yc|x)为训练集的经验分布(empirical distribution),为DCNN预测的目标类的概率分布。通常情况下图像分类问题中图像类别均采用独热编码(one-hotencoding),即当图像属于正确类时满足
申请人发现,在公式(2)的条件下,公式(1)可以改写为:
申请人发现,现有的基于CE图像分类方法主要存在以下问题:
当训练图像样本类别标签分布为独热标签时(one-hot label),最大似然准则(即CE)不能直接区分正确类的先验概率和非正确类(竞争类)的先验概率,只关注正确类的先验概率,如图1和公式(3)所示。图1为CE示例。其不能直接区分正确类的先验概率和非正确类的先验概率。在训练网络时某些非正确类的先验概率可能会提高。
为了解决申请人发现的上述技术问题,本申请提出了一种图像分类方法,主要是提出了一种竞争比损失函数,竞争比损失函数加大了正确类和竞争类的差距,即该竞争比损失函数增加了正确类和竞争类区分度,采用该竞争比损失函数训练深度卷积神经网络,得到训练好的基于竞争比损失函数的深度卷积神经网络,因为基于竞争比损失函数的深度卷积神经网络中的竞争比损失函数加大了正确类和竞争类的差距,所以使用基于竞争比损失函数的深度卷积神经网络对图像进行分类能够提高图像分类的准确率。
一种图像分类方法,所述方法包括:
采用竞争比损失函数训练深度卷积神经网络,获得训练好的基于竞争比损失函数的深度卷积神经网络,其中,竞争比损失函数拉大了正确类和竞争类的差距;
利用基于竞争比损失函数的深度卷积神经网络对图像进行分类。
其中,竞争比损失函数具体为:
当正确类的先验概率提高时,竞争比CR会降低,正确类的先验概率与竞争类的先验概率差距会拉大。
其中,在竞争比损失函数的基础上添加超参数α,α≥1,并利用超参数β控制竞争比所占的权重,β>0,带参数的竞争比损失函数具体如下:
可见,本申请提出的一种图像分类方法,因为基于竞争比损失函数的深度卷积神经网络中的竞争比损失函数加大了正确类和竞争类的差距,所以使用基于竞争比损失函数的深度卷积神经网络对图像进行分类能够提高图像分类的准确率。
附图说明
图1是交叉熵损失函数示意图;
图2是本申请提出的图像分类方法的流程图。
具体实施方式
现有技术中,根据维基百科的定义,基于相同事件测度的两个概率分布p和q的交叉熵(cross-entropy)是指,当基于一个“非自然”(相对于“真实”分布p而言)的概率分布q进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数(bit)。在实际应用时,如基于DCNN的图像分类网络训练时,分布q是未知的,通常情况下被由训练集产生的经验概率分布替代。训练集的每一个样本均独立同分布(i.i.d)。在图像特征空间和图像标签空间均服从均匀分布时,根据贝叶斯推断,CE为训练图像的负对数似然值(negative loglikelihood)。所以在训练DCNN时,最小化CE与最大化训练图像的负对数似然值等价。最大似然(maximum likelihood)是机器学习中常见的一种训练准则(criterion)。利用这一准则训练DCNN进行图像分类时,网络学习输入图像正确类的似然值(likelihood)。网络利用贝叶斯准则(Bayes rules)计算输入图像的所属类别先验概率,预测图像最可能所属的类别。
假设在基于DCNN的图像分类任务中,全部图像具有C个目标类别(targetclasses)。DCNN采用图像xi作为输入并输出C个节点,每个节点的输出代表每个目标类别对应的预测分数。当DCNN的输出层的激活函数为softmax函数时,节点的输出可以视为对应目标类别的先验概率:其中x为DCNN的输入向量。基于以上条件,CE定义如公式(1)所示:
其中p(yc|x)为训练集的经验分布(empirical distribution),为DCNN预测的目标类的概率分布。通常情况下图像分类问题中图像类别均采用独热编码(one-hotencoding),即当图像属于正确类时满足
申请人发现,在公式(2)的条件下,公式(1)可以改写为:
申请人发现,现有的基于CE图像分类方法主要存在以下问题:
当训练图像样本类别标签分布为独热标签时(one-hot label),最大似然准则(即CE)不能直接区分正确类的先验概率和非正确类(竞争类)的先验概率,只关注正确类的先验概率,如图1和公式(3)所示。图1为CE示例。其不能直接区分正确类的先验概率和非正确类的先验概率。在训练网络时某些非正确类的先验概率可能会提高。
针对上述基于交叉熵损失函数的图像分类方法中的存在的技术问题,本申请提出了一种图像分类方法,具体地该方法中提出了一种竞争比损失函数。该竞争比损失函数与交叉熵损失函数的区别在于:竞争比损失函数通过计算图像正确类的先验概率和其竞争类先验概率的竞争比,可以区分图像正确类和其竞争类,从而可以提高图像分类的准确率。
本申请提出了一种图像分类方法,如图2所述,具体是一种基于竞争比损失函数的图像分类方法,该方法具体包括:
采用竞争比损失函数训练深度卷积神经网络,获得训练好的基于竞争比损失函数的深度卷积神经网络,其中,竞争比损失函数拉大了正确类和竞争类的差距;
利用基于竞争比损失函数的深度卷积神经网络对图像进行分类。
其中,竞争比损失函数如下:
公式(3)显示了CE不能直接区分正确类的先验概率和非正确类(竞争类)的先验概率,只关注正确类的先验概率。针对这一现象,本申请提出竞争比(competing ratio,CR)这一概念,即竞争类(competing class)的先验概率和与正确类先验概率的比,如公式(4)所示。
竞争比损失函数(competing ratio loss function,CRL)定义如公式(5)所示。
公式(5)表明当正确类的先验概率提高时,竞争比CR会降低,正确类的先验概率与竞争类的先验概率差距会拉大。
此外,公式(5)中表示竞争类先验概率的和,记作
假设图像特征分布p(x)与标签分布p(y)与DCNN参数无关且均服从均匀分布,根据贝叶斯推断(Bayesian inference),公式(3)可以改写为
公式(5)可以改写为
公式(6)为图像x的负对数似然值(negative log likelihood),公式(7)表明竞争比损失函数是正确类的负对数似然值和竞争类的负对数似然值的差。这表明了在训练DCNN时竞争比损失函数可以直接区分正确类和竞争类。
此外公式(5)中,令公式(5)可以改写为
公式(8)说明竞争比损失函数可以视为CE和正则化项的和。正则化负责改变竞争比。此外公式(8)中,当pc∈(0,0.5),LCR>0;pc∈(0.5,1),LCR<0。为保证竞争比损失函数的值恒正,本申请在公式(5)的基础上添加超参数α,α≥1。并利用超参数β控制竞争比所占的权重,β>0。所以带参数的竞争比损失函数如公式(9)所示。
可见,本申请提出了一种竞争比损失函数,竞争比损失函数加大了正确类和竞争类的差距,采用该竞争比损失函数训练深度卷积神经网络,得到训练好的基于竞争比损失函数的深度卷积神经网络,因为基于竞争比损失函数的深度卷积神经网络中的竞争比损失函数加大了正确类和竞争类的差距,所以使用基于竞争比损失函数的深度卷积神经网络对图像进行分类能够提高图像分类的准确率。
即本申请具有以下优点:
1.本申请在CE的基础上提出竞争比的概念设计了竞争比损失函数,该损失函数与CE相比,拉大了正确类和竞争类的差距,可以直接区分正确类和竞争类。
2.该申请对于不同DCNN,如ResNet,VGGNet等常见的卷积神经网络具有鲁棒性和有效性,并且可以使用端到端(end-to-end)的方式训练DCNN进行图像分类。
为了证明本申请提出图像分类方法的优点,下面进行实验分析:
为说明竞争比损失函数的优点,在CIFAR-10/100图像分类数据集上进行了消融实验。
首先,竞争比损失函数存在两个超参数α和β,为确定超参数的取值,分别令α和β取不同的值,利用竞争比损失函数在34层残差卷积神经网络(ResNet34)上对CIFAR-10和CIFAR-100进行图像分类,分类错误率如表1所示。由实验结果可知,当α=1.5,β=1时,竞争比损失函数对DCNN训练的产生的效果最好,后续实验超参数取值确定为α=1.5,β=1。
表1采用不同超参数α和β的取值在CIFAR-10/100上的分类错误率(%)
为验证竞争比损失函数对不同类型、不同深度的卷积神经网络的鲁棒性以及有效性,本申请选取了两种类型的卷积神经网络,残差卷积神经网络(ResNet)和VGGNet。ResNet层数选择了34层、50层、101层、164层;VGGNet层数选择了16层和19层。使用了竞争比损失函数对这些DCNN分别进行训练,在CIFAR-10和CIFAR-100上进行了图像分类。表2为分类错误率结果。实验结果表明竞争比损失函数对不同类型不同深度的卷积神经网络具有鲁棒性,与交叉熵相比有效,可以提高分类准确率。
表2不同类型不同深度的卷积神经网络在CIFAR-10/100的分类错误率(%)
CIFAR-10 | CE | CR(α=1.5,β=1) |
VGG16 | 6.32 | 6.27 |
VGG19 | 6.28 | 6.06 |
ResNet34 | 6.63 | 5.99 |
ResNet50 | 5.9 | 5.6 |
ResNet101 | 5.49 | 5.37 |
ResNet164 | 4.76 | 4.36 |
CIFAR-100 | CE | CR(α=1.5,β=1) |
VGG16 | 26.97 | 26.63 |
VGG19 | 26.8 | 26.24 |
ResNet34 | 27.87 | 27.34 |
ResNet50 | 25.33 | 25.23 |
ResNet101 | 24.27 | 23.34 |
ResNet164 | 22.26 | 21.94 |
本说明书中各个部分采用递进的方式描述,每个部分重点说明的都是与其他部分的不同之处,各个部分之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。
Claims (2)
1.一种图像分类方法,其特征在于,所述方法包括:
采用竞争比损失函数训练深度卷积神经网络,获得训练好的基于竞争比损失函数的深度卷积神经网络,其中,竞争比损失函数拉大了正确类和竞争类的差距;
利用基于竞争比损失函数的深度卷积神经网络对图像进行分类。
其中,竞争比损失函数具体为:
当正确类的先验概率提高时,竞争比CR会降低,正确类的先验概率与竞争类的先验概率差距会拉大。
2.根据权利要求1所述的方法,其特征在于,在竞争比损失函数的基础上添加超参数α,α≥1,并利用超参数β控制竞争比所占的权重,β>0,带参数的竞争比损失函数具体如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910659392.5A CN110472669B (zh) | 2019-07-22 | 2019-07-22 | 一种图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910659392.5A CN110472669B (zh) | 2019-07-22 | 2019-07-22 | 一种图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472669A true CN110472669A (zh) | 2019-11-19 |
CN110472669B CN110472669B (zh) | 2021-07-23 |
Family
ID=68508734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910659392.5A Active CN110472669B (zh) | 2019-07-22 | 2019-07-22 | 一种图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472669B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150281838A1 (en) * | 2014-03-31 | 2015-10-01 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Events in an Acoustic Signal Subject to Cyclo-Stationary Noise |
CN107229945A (zh) * | 2017-05-05 | 2017-10-03 | 中山大学 | 一种基于竞争学习的深度聚类方法 |
CN108171266A (zh) * | 2017-12-25 | 2018-06-15 | 中国矿业大学 | 一种多目标深度卷积生成式对抗网络模型的学习方法 |
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
US20190095521A1 (en) * | 2017-09-22 | 2019-03-28 | Accenture Global Solutions Limited | Virtual artificial intelligence based consultant |
CN109753929A (zh) * | 2019-01-03 | 2019-05-14 | 华东交通大学 | 一种图库联合的高铁绝缘子巡检图像识别方法 |
CN109886343A (zh) * | 2019-02-26 | 2019-06-14 | 深圳市商汤科技有限公司 | 图像分类方法及装置、设备、存储介质 |
-
2019
- 2019-07-22 CN CN201910659392.5A patent/CN110472669B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150281838A1 (en) * | 2014-03-31 | 2015-10-01 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Events in an Acoustic Signal Subject to Cyclo-Stationary Noise |
CN107229945A (zh) * | 2017-05-05 | 2017-10-03 | 中山大学 | 一种基于竞争学习的深度聚类方法 |
US20190095521A1 (en) * | 2017-09-22 | 2019-03-28 | Accenture Global Solutions Limited | Virtual artificial intelligence based consultant |
CN108171266A (zh) * | 2017-12-25 | 2018-06-15 | 中国矿业大学 | 一种多目标深度卷积生成式对抗网络模型的学习方法 |
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
CN109753929A (zh) * | 2019-01-03 | 2019-05-14 | 华东交通大学 | 一种图库联合的高铁绝缘子巡检图像识别方法 |
CN109886343A (zh) * | 2019-02-26 | 2019-06-14 | 深圳市商汤科技有限公司 | 图像分类方法及装置、设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
DONGLAI ZHU 等: "Negative Log Likelihood Ratio Loss for Deep Neural Network Classification", 《ARXIV:1804.10690 [CS.LG]》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110472669B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bendale et al. | Towards open set deep networks | |
EP3767536A1 (en) | Latent code for unsupervised domain adaptation | |
CN111738105B (zh) | 公式识别方法、装置、电子设备和存储介质 | |
CN103984959A (zh) | 一种基于数据与任务驱动的图像分类方法 | |
CN107247947A (zh) | 人脸属性识别方法及装置 | |
CN111709244B (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN108932527A (zh) | 使用交叉训练模型检测对抗样本的方法 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN112733533A (zh) | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 | |
CN103984943A (zh) | 一种基于贝叶斯概率框架的场景文本识别方法 | |
CN106294590A (zh) | 一种基于半监督学习的社交网络垃圾用户过滤方法 | |
CN111046673A (zh) | 一种用于防御文本恶意样本的对抗生成网络及其训练方法 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN115526874B (zh) | 闸调器控制杆圆销和圆销开口销丢失检测方法 | |
CN113706547B (zh) | 一种基于类别同异性引导的无监督域适应语义分割方法 | |
CN112926429B (zh) | 机审模型训练、视频机审方法、装置、设备及存储介质 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及系统 | |
CN113269228B (zh) | 一种图网络分类模型的训练方法、装置、系统及电子设备 | |
CN108734159A (zh) | 一种图像中敏感信息的检测方法及系统 | |
Wei et al. | Efficient robustness assessment via adversarial spatial-temporal focus on videos | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
Ishkov et al. | Text CAPTCHA traversal with convnets: Impact of color channels | |
CN113657473A (zh) | 一种基于迁移学习的Web服务分类方法 | |
CN117150076A (zh) | 一种自监督方式的视频摘要方法 | |
CN110472669A (zh) | 一种图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |