CN108229543A - 图像分类模型设计方法及装置 - Google Patents

图像分类模型设计方法及装置 Download PDF

Info

Publication number
CN108229543A
CN108229543A CN201711403379.0A CN201711403379A CN108229543A CN 108229543 A CN108229543 A CN 108229543A CN 201711403379 A CN201711403379 A CN 201711403379A CN 108229543 A CN108229543 A CN 108229543A
Authority
CN
China
Prior art keywords
network model
image
loss function
label
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711403379.0A
Other languages
English (en)
Inventor
乔宇
郭胜
王利民
黄韡林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201711403379.0A priority Critical patent/CN108229543A/zh
Publication of CN108229543A publication Critical patent/CN108229543A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种图像分类模型设计方法及装置,其中方法包括:根据有标签的图像数据库,训练得到图像分类的初始网络模型;根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数;根据所述损失函数,优化所述最终网络模型。本发明提供的图像分类模型设计方法及装置,对训练样本的数量要求较低,减小了设计的难度和成本,并且有效解决了标注歧义性的问题。

Description

图像分类模型设计方法及装置
技术领域
本发明属于计算机技术领域,更具体地说,是涉及一种图像分类模型设计方法及装置。
背景技术
大规模场景识别问题由于其在图像理解中的重要应用在计算机视觉中受到越来越多的关注。场景识别的挑战来自场景类别的歧义性和类内差异大。随着深度学习方法在计算机视觉问题上的成功,卷积神经网络(CNNs)在大规模场景识别问题上取得了重大进展。因为有了大规模的场景数据库,使得重新训练一个专用于场景识别的CNNs模型成为可能。
最近的研究显示CNNs可以学习强大的场景分类的高级语义特征。最近强大的CNN架构的出现也大大促进了场景识别性能的提升。尽管这些通用性网络结构在场景识别取得了显著的进展,但是大规模场景识别仍然是一个具有挑战性的问题。目前,深度学习的CNNs结构都是建立在大规模学习的基础上,往往要有大量的训练样本,增加了设计的难度和成本。
发明内容
有鉴于此,本发明实施例提供一种图像分类模型设计方法及装置,可以解决现有技术中图像分类模型设计成本较高的技术问题。
一方面,本发明实施例提供一种图像分类模型设计方法,包括:
根据有标签的图像数据库,训练得到图像分类的初始网络模型;
根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数;
根据所述损失函数,优化所述最终网络模型。
可选的,根据有标签的图像数据库,训练得到图像分类的初始网络模型,包括:
从有标签的图像数据库中选取一个子集,根据所述子集训练得到图像分类的初始网络模型;
或者,使用所述有标签的图像数据库中的所有图像,训练得到图像分类的初始网络模型。
可选的,在根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数之前,还包括:
选取卷积神经网络模型;
为所述卷积神经网络模型的参数赋值,得到所述最终网络模型。
可选的,根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数,包括:
获取一组有标签的训练集D;
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D中第i幅图像,yi为集合D中图像Ii的标签,pi为最终网络模型对图像Ii,j的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ为平衡参数,C为标签类别数目。
可选的,根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数,包括:
获取训练集D,所述训练集D包括一组有标签的训练集D1和一组无标签的训练集D2;
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D1或者D2中第i幅图像,yi为图像Ii的标签,pi,j为最终网络模型对图像Ii的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ1为D1对应的损失函数权重,λ2为D2对应的损失函数权重,C为标签类别数目。
可选的,根据所述损失函数,优化所述最终网络模型,包括:
利用随机梯度下降法对所述损失函数进行优化,得到优化后的损失函数,再根据优化后的损失函数,获得优化后的最终网络模型。
另一方面,本发明实施例还提供一种图像分类模型设计装置,包括:
训练模块,用于根据有标签的图像数据库,训练得到图像分类的初始网络模型;
构建模块,用于根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数;
优化模块,用于根据所述损失函数,优化所述最终网络模型。
可选的,所述训练模块具体用于:
从有标签的图像数据库中选取一个子集,根据所述子集训练得到图像分类的初始网络模型;
或者,使用所述有标签的图像数据库中的所有图像,训练得到图像分类的初始网络模型。
可选的,所述构建模块还用于:
在根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数之前,选取卷积神经网络模型;
为所述卷积神经网络模型的参数赋值,得到所述最终网络模型。
可选的,所述构建模块具体用于:
获取一组有标签的训练集D;
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D中第i幅图像,yi为集合D中图像Ii的标签,pi为最终网络模型对图像Ii,j的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ为平衡参数,C为标签类别数目。
可选的,所述构建模块具体用于:
获取训练集D,所述训练集D包括一组有标签的训练集D1和一组无标签的训练集D2
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D1或者D2中第i幅图像,yi为图像Ii的标签,pi,j为最终网络模型对图像Ii的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ1为D1对应的损失函数权重,λ2为D2对应的损失函数权重,C为标签类别数目。
可选的,所述优化模块具体用于:
利用随机梯度下降法对所述损失函数进行优化,得到优化后的损失函数,再根据优化后的损失函数,获得优化后的最终网络模型。
另一方面,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述任一项所述方法的步骤。
另一方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现上述任一项所述方法的步骤。
本发明实施例提供的图像分类模型设计方法及装置的有益效果在于:与现有技术相比,本发明实施例提供的图像分类模型设计方法及装置,通过根据有标签的图像数据库,训练得到图像分类的初始网络模型,根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数,根据所述损失函数,优化所述最终网络模型,对训练样本的数量要求较低,减小了设计的难度和成本,并且有效解决了标注歧义性的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的图像分类模型设计方法的流程图;
图2为本发明实施例二提供的图像分类模型设计方法的流程图;
图3为本发明实施例三提供的图像分类模型设计方法的流程图;
图4为本发明实施例四提供的图像分类模型设计装置的结构框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
本发明实施例一提供一种图像分类模型设计方法。图1为本发明实施例一提供的图像分类模型设计方法的流程图。如图1所示,本实施例中的方法,可以包括:
步骤101、根据有标签的图像数据库,训练得到图像分类的初始网络模型。
本实施例中,可以首先训练一个作为知识源的初始网络模型。然后,基于初始网络模型设计知识迁移框架来训练一个最终网络模型用于大规模场景识别。
现有的场景识别数据库(如Places和Places2)都包含百万级别的图像数量和上百级别的类别。这些数据库中有许多类别标注会存在重叠,并且很多场景图像应该被标注成多个类别。如果在直接在这些存在类别歧义性和原始标注不完整的数据集上训练CNNs会导致严重的过拟合。因此,本实施例的基本思想是先从数据本身挖掘一些知识引导模型,利用这些知识模型来指导最终网络模型的训练,从而缓解标签歧义问题同时提高模型泛化能力。
应该注意的是,与以往的方法利用额外的模型或数据来做迁移不同,本实施例只使用相同的数据集挖掘知识然后进行迁移,因此称这种方法为自我知识迁移。知识迁移框架从一个初始网络模型(或称知识引导模型)开始。本发明实施例中,标签也可以被记为标注、标记等。
本步骤中,可以根据有标签的图像数据库训练得到图像分类的初始网络模型。可以使用两种训练策略来训练初始网络模型:从有标签的图像数据库中选取一个子集,训练得到图像分类的初始网络模型;或者,使用所述有标签的图像数据库中的所有图像,训练得到图像分类的初始网络模型。
例如,数据集places365-standard总共有365类,每个类包含了5000张场景图像。根据第一种训练策略,可以从每个类5000张的整集中随机抽取3000张图的子集,然后在这个子集中重头训练初始网络模型。因为该子集图像数量少,它可以帮助加速初始网络模型的训练。根据第二种训练策略,可以直接在整个Places365-standard数据库上训练初始网络模型。在实际应用中,这两种训练策略可以择一使用。
在实践中,我们观察到在训练初始网络模型的时候出现了过拟合现象。因此,直接应用初始网络模型来测试验证集可能会导致性能较差。然而,尽管存在过拟合的风险,但是这个初始网络模型本身能够捕捉到训练数据中所包含的知识,并模拟场景类别之间的相关性,而这些知识能够帮助实现最终网络模型的训练。
步骤102、根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数。
其中,损失函数用于描述系统在不同参数值之下的损失。本实施例中,利用所述初始网络模型和最终网络模型来构建损失函数。
本步骤使用的初始网络模型就是步骤101中训练得到的初始网络模型,所述最终网络模型可以通过如下方式获得:选取卷积神经网络模型;为所述卷积神经网络模型的参数赋值,得到所述最终网络模型。具体的,所述卷积神经网络模型中的参数可以选取随机值。
步骤103、根据所述损失函数,优化所述最终网络模型。
在构建好损失函数后,可以对损失函数进行优化,通过优化所述损失函数来学习最终网络模型。在对所述损失函数进行优化的过程中,最终网络模型中的参数也在不断变化,从而实现最终网络模型的学习。
优选的是,本步骤中的根据所述损失函数,优化所述最终网络模型,可以包括:利用随机梯度下降法对所述损失函数进行优化,得到优化后的损失函数,再根据优化后的损失函数,获得优化后的最终网络模型。
具体的,对所述最终网络模型的损失函数进行优化的过程,就是学习所述最终网络模型的过程,也是对所述最终网络模型进行优化的过程。本实施例中,在构建最终网络模型对应的损失函数后,可以利用随机梯度下降法对所述损失函数进行优化,损失函数优化过程中,会对最终网络模型中的参数进行调整,根据优化后的损失函数,就可以确定优化后的最终网络模型。
在实际应用中,可以利用本实施例所述的方法,通过开发一种新的自我知识迁移框架来有效地处理图像标签歧义和注释困难等问题。可以首先训练一个初始网络模型,然后将初始网络模型的自我认识转移到最终网络模型,通过最小化两个网络模型之间的高层语义来调整最终网络模型。在这种情况下,可以从有限数量的标注数据中学习初始网络模型和最终网络模型。这种自我传递的过程可以作为一种有效的指导来提高最终网络模型的泛化能力,并且它提供一种可以光滑原始分类损失的归一化形式,这种形式对减少标签歧义性有重要的帮助。
本实施例提供的图像分类模型设计方法,通过根据有标签的图像数据库,训练得到图像分类的初始网络模型,根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数,根据所述损失函数,优化所述最终网络模型,对训练样本的数量要求较低,减小了设计的难度和成本,并且有效解决了标注歧义性的问题。
在上述实施例提供的技术方案的基础上,优选的是,可以选择BN-inception作为初始网络模型和最终网络模型。在训练之前,初始网络模型和最终网络模型中的参数都可以选取随机值,在步骤101中,对初始网络模型进行训练,在步骤103中,通过对损失函数的优化得到最终网络模型的参数值。
实施例二
本发明实施例二提供一种图像分类模型设计方法。本实施例是在实施例一提供的技术方案的基础上,通过监督的方式来学习最终网络模型。
图2为本发明实施例二提供的图像分类模型设计方法的流程图。如图2所示,本实施例中的方法,可以包括:
步骤201、根据有标签的图像数据库,训练得到图像分类的初始网络模型。
本实施例中,步骤201的具体实现原理与实施例一中的步骤101类似,此处不再赘述。
步骤202、获取一组有标签的训练集D。
步骤203、根据所述训练集D以及初始网络模型和最终网络模型,构建损失函数。
本实施例中,迁移学习初始网络模型,可以通过监督学习来实现。监督知识迁移框架由两个部分组成:初始网络模型和最终网络模型。输入图像同时经过这两个网络模型,初始网络模型中只执行前向传播而在最终网络模型中既有前向传播又有后向传播,前向传播和后向传播的具体实现方法属于现有技术,此处不再赘述。
学习最终网络模型的目的是优化最终网络模型,使最终网络模型能够有更好的识别性能。最终网络模型的训练有两个损失函数指导,它能够同时测量预测结果和原始标注的不同、以及对初始网络模型的预测输出。
具体的,对于给定的一组训练集可以通过优化如下的损失函数来学习最终网络参数:
公式(1)中,Ii为集合D中第i幅图像,yi为集合D中图像Ii的标签,pi为最终网络模型对图像Ii,j的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ为平衡参数,λ的取值可以根据实际需要来设置,C为标签类别数目。
公式(1)中的第一部分是分类的softmax损失函数,第二部门是自我知识迁移(SKT)损失函数。在训练过程中,这两个损失函数耦合在一起来对最终网络模型进行预测,它们不仅能去匹配原始标签yi还能模拟初始网络模型的输出。从这个意义上说,最终网络模型能够从标签数据和初始网络学习知识,这有助于提高最终网络模型的表达能力。
步骤204、根据所述损失函数,优化所述最终网络模型。
本实施例中,通过步骤202至203构建损失函数后,可以对该损失函数进行优化,从而学习最终网络模型。例如可以利用随机梯度下降法对所述损失函数进行优化,得到优化后的最终网络模型。当所述损失函数达到最小值时,可以认为最终网络模型达到了最优。
本实施例提供的图像分类模型设计方法,通过监督的方式对最终网络模型进行学习,需要的样本数量较少,且有效提高了最终网络模型的泛化能力。
实施例三
本发明实施例三提供一种图像分类模型设计方法。本实施例是在实施例一提供的技术方案的基础上,通过半监督的方式来学习最终网络模型。
在实施例二中介绍了在监督方式下利用初始网络模型迁移来提高识别性能的方法。本实施例中介绍的是引入半监督方式到迁移学习框架中。
现有技术中,深度学习CNNs结构往往要有大量标注的大规模数据库。一方面,要建一个有标注的大规模数据库是一件非常困难的事情,而且在数据库规模到百万级别的时候它需要消耗大量财力。另外一方面,现在互联网中存在着大量没有标注的图像。
因此,本实施例中的方法主要有两个目的:(1)在很少的训练样本上能够达到原来需要所有样本的识别结果;(2)将大量不带标签的数据加入到网络结构中用于模型训练。
图3为本发明实施例三提供的图像分类模型设计方法的流程图。如图3所示,本实施例中的方法,可以包括:
步骤301、根据有标签的图像数据库,训练得到图像分类的初始网络模型。
本实施例中,步骤301的具体实现原理与实施例一中的步骤101类似,此处不再赘述。
步骤302、获取训练集D,所述训练集D包括一组有标签的训练集D1和一组无标签的训练集D2。
步骤303、根据所述训练集D以及初始网络模型和最终网络模型,构建损失函数。
本实施例提出了一个简单而有效的方法将框架扩展到半监督学习上来。具体来说,假设有一个标注的数据库和一个没有标注的数据库相应的损失函数可以为:
公式(2)中,Ii为集合D1或者D2中第i幅图像,yi为图像Ii的标签,pi,j为最终网络模型对图像Ii的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ1为D1对应的损失函数权重,λ2为D2对应的损失函数权重,C为标签类别数目。
λ1和λ2的取值可以根据实际需要来设置。对于没有标记的数据库仅仅包含测量两个网络模型差异性的部分,这样可以促使在没有标注数据中最终网络模型去接近初始网络模型。
步骤304、根据所述损失函数,优化所述最终网络模型。
本实施例中,通过步骤302至303构建损失函数后,可以根据对该损失函数进行优化,从而学习最终网络模型。例如可以利用随机梯度下降法对所述损失函数进行优化,得到优化后的最终网络模型。当所述损失函数达到最小值时,可以认为最终网络模型达到了最优。
本实施例提供的图像分类模型设计方法,通过半监督的方式来学习最终网络模型,能够利用丰富的没有标注数据来进一步提升最终网络模型的泛化能力。
下面通过具体的实验说明本发明实施例的优势。
在实际应用中,我们在三个场景数据库(Places365,MIT Indoor67和SUN397)上设计实验并验证本发明实施例所提供方法的有效性。下面首先介绍一下实验方法的网络结构和实验细节。然后根据目前最大的场景数据库Places365验证本发明实施例的自我知识迁移性能,同时进行了监督学习和非监督学习两种自我知识迁移方式。最后通过直接提取特征表示在MITIndoor67和SUN397上验证最终网络模型的泛化能力。
具体的实验细节如下。
网络训练:因为Places365是目前最大规模的场景数据库,因此我们在设计实验时候需要去平衡实验效果和计算损耗。在我们实验中,我们选择BN-inception作为初始网络模型和最终网络模型。我们使用随机梯度下降(SGD)法来优化我们的网络权重,网络的batch size为256。同时为了减少过拟合的风险,我们使用了随机切图、尺度变化和旋转变换等数据增强手段,并且还在最终的输出层之前增加了一层dropout层,dropout大小为0.2。
监督的知识迁移设置:在以上实施例中,我们设计了一种同时能够监督和半监督的自我知识迁移方法。在实验中,我们讨论了这两种监督方式的效果。首先对于监督学习方式,我们的最终网络模型利用整个Places365数据库进行训练,并且和目前最好的其他方法进行比较。同时我们从整个Places365每个类随机选取3000张图像作为子集去训练初始网络模型。在初始网络模型和最终网络模型中,学习率都是从0.1开始,并且在迭代次数为20×104,35×104,45×104,55×104时以除以10来下降。整个网络训练迭代总次数为60×104
半监督的知识迁移设置:我们也评估在半监督学习下的自我知识迁移方法的性能。具体来说,我们执行两种实验来证明我们半监督学习方法的有效性。在第一个实验中,我们将places365训练数据库分为标记数据和未标记数据两个部分。我们简单地使用标记的数据集训练最终的网络,未标记的数据集是用来规范网络培训。在第二的实验中,我们用整个places365训练数据作为标记数据,Places205作为未标记的数据库。我们要研究在大量的标记数据已经提供情况下我们的半监督框架是否能够进一步提高识别性能时。在这种半监督试实验下,训练初步和最终网络模型的实验参数和有监督的方式情况一致。
自我知识迁移模型和常规模型对比:我们比较了有监督的知识迁移模型和常规的基础模型结果。我们将验证集上的损失函数画出来对比,并在表1中列出了他们的实验结果。从它们各自在验证集上的损失函数来看,我们的方法能够降低过拟合的风险。另外监督的知识迁移方法要比基础的模型效果好(TOP1分别为55.59%vs.54.5%,TOP5分别为85.76%vs.85.02%)
表1 不同的初始网络集实验对比
Preliminary Network Ultimate Network Top1 Top5
none 5k 54.50% 85.02%
3k-v1 5k 55.57% 85.43%
3k-v2 5k 55.41% 85.67%
3k-v3 5k 55.49% 85.70%
5k 5k 55.59% 85.76%
我们进一步研究了这种半监督模型下使用整个Places365全集来训练知识迁移模型,将Places205数据作为未标注的数据集来参与半监督。实验结果如表2所示,我们可以发现我们的半监督模型比监督模型有一个比较大的提高,TOP1从56.26%到56.44%和TOP5从86.13%到86.33%。因此,该框架可以探索其他数据库中获得无限的未标记数据来改善我们最终网络模型性能。
表2 Places365的验证集效果评估(10-crop)
Places365数据库结果对比:我们提出的这种监督和半监督自我知识迁移框架在Places365上获得了最好的结果。为了比较我们的性能,我们的测试方法与现有技术中对Places365的处理方法一致,都是每张图切十张小图,分别是四个角和中间部分,然后翻转再做一次同样操作。最后将10个得分取平均形成最后的预测结果。我们总共汇报了三组结果:原始没有知识迁移的模型,监督的知识迁移模型和半监督的知识迁移模型。将这三组结果和其他目前流行的模型(如GoogLeNet、VGGNet-16、ResNet)进行比较。我们的方法在Places365的验证集上获得了最好的性能(TOP1为56.44%和TOP5为86.33%)
模型泛化估计:前面实验我们已经证明了我们的监督和半监督模式下自我知识迁移模型在大规模场景数据库Places365上取得非常不错的效果。此外,我们还测试从Places365上训练的自我知识迁移模型的泛化能力。我们在两个最流行的场景数据库MITIndoor-67和SUN397中测试我们的方法。在这个实验中,只利用我们的自我知识迁移模型来提取测试数据库中的特征,不使用测试数据库来微调我们的网络模型。我们首先从每张图按照比例为0.8175,0.875,0.9375,1来切图,然后将这些图像统一缩放到224×224作为我们模型的输入。我们计算globalpool层的激活值来作为我们的最后图像特征表示,并将这些不同尺度的切图最终表示取平均。最后我们利用这些图像表征特征训练一个线性SVM进行分类。我们在这两个数据库上使用了三个模型来测试最终结果:基础模型、监督自我知识迁移模型和半监督的自我知识迁移模型。我们在MIT Indoor67和SUN397上比较了当前最好的结果。实验结果如表3所示,监督的自我知识迁移模型在MIT Indoor67和SUN397上分别获得了84.4%和70.2%的结果,而半监督的自我知识迁移模型在MITIndoor67和SUN397上分别获得目前最好的结果,分别是86.3%和71.3%。这进一步证实了我们自我知识迁移模型具有强大的泛化能力。
表3 在MIT Indoor67和SUN397上和其他方法对比
通过以上实验结果可知,本发明实施例提供的方法能够利用很少的数据集来达到非常好的识别结果,具有较高的应用价值。
实施例四
本发明实施例四提供一种图像分类模型设计装置。图4为本发明实施例四提供的图像分类模型设计装置的结构框图。如图4所示,本实施例中的装置,可以包括:
训练模块401,用于根据有标签的图像数据库,训练得到图像分类的初始网络模型;
构建模块402,用于根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数;
优化模块403,用于根据所述损失函数,优化所述最终网络模型。
本实施例中的图像分类模型设计装置,可以用于执行上述任一实施例所述的图像分类模型设计方法,其具体实现原理可以参见上述任一实施例,此处不再赘述。
本实施例提供的图像分类模型设计装置,通过根据有标签的图像数据库,训练得到图像分类的初始网络模型,根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数,根据所述损失函数,优化所述最终网络模型,对训练样本的数量要求较低,减小了设计的难度和成本,并且有效解决了标注歧义性的问题。
可选的,所述训练模块401具体可以用于:
从有标签的图像数据库中选取一个子集,根据所述子集训练得到图像分类的初始网络模型;
或者,使用所述有标签的图像数据库中的所有图像,训练得到图像分类的初始网络模型。
可选的,所述构建模块402还可以用于:
在根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数之前,选取卷积神经网络模型;
为所述卷积神经网络模型的参数赋值,得到所述最终网络模型。
可选的,所述构建模块402具体可以用于:
获取一组有标签的训练集D;
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D中第i幅图像,yi为集合D中图像Ii的标签,pi为最终网络模型对图像Ii,j的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ为平衡参数,C为标签类别数目。
可选的,所述构建模块402具体可以用于:
获取训练集D,所述训练集D包括一组有标签的训练集D1和一组无标签的训练集D2;
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D1或者D2中第i幅图像,yi为图像Ii的标签,pi,j为最终网络模型对图像Ii的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ1为D1对应的损失函数权重,λ2为D2对应的损失函数权重,C为标签类别数目。
可选的,所述优化模块403具体可以用于:
利用随机梯度下降法对所述损失函数进行优化,得到优化后的损失函数,再根据优化后的损失函数,获得优化后的最终网络模型。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述任一实施例所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现上述任一实施例所述方法的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像分类模型设计方法,其特征在于,包括:
根据有标签的图像数据库,训练得到图像分类的初始网络模型;
根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数;
根据所述损失函数,优化所述最终网络模型。
2.如权利要求1所述的图像分类模型设计方法,其特征在于,根据有标签的图像数据库,训练得到图像分类的初始网络模型,包括:
从有标签的图像数据库中选取一个子集,根据所述子集训练得到图像分类的初始网络模型;
或者,使用所述有标签的图像数据库中的所有图像,训练得到图像分类的初始网络模型。
3.如权利要求1所述的图像分类模型设计方法,其特征在于,在根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数之前,还包括:
选取卷积神经网络模型;
为所述卷积神经网络模型的参数赋值,得到所述最终网络模型。
4.如权利要求1所述的图像分类模型设计方法,其特征在于,根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数,包括:
获取一组有标签的训练集D;
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D中第i幅图像,yi为集合D中图像Ii的标签,pi为最终网络模型对图像Ii,j的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ为平衡参数,C为标签类别数目。
5.如权利要求1所述的图像分类模型设计方法,其特征在于,根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数,包括:
获取训练集D,所述训练集D包括一组有标签的训练集D1和一组无标签的训练集D2;
根据所述训练集D,构建如下的损失函数:
其中,Ii为集合D1或者D2中第i幅图像,yi为图像Ii的标签,pi,j为最终网络模型对图像Ii的预测结果,qi,j为初始网络模型对图像Ii的预测结果,I为指示函数,λ1为D1对应的损失函数权重,λ2为D2对应的损失函数权重,C为标签类别数目。
6.如权利要求1-5任一项所述的图像分类模型设计方法,其特征在于,根据所述损失函数,优化所述最终网络模型,包括:
利用随机梯度下降法对所述损失函数进行优化,得到优化后的损失函数,再根据优化后的损失函数,获得优化后的最终网络模型。
7.一种图像分类模型设计装置,其特征在于,包括:
训练模块,用于根据有标签的图像数据库,训练得到图像分类的初始网络模型;
构建模块,用于根据所述初始网络模型的预测结果和最终网络模型的预测结果,构建所述最终网络模型对应的损失函数;
优化模块,用于根据所述损失函数,优化所述最终网络模型。
8.如权利要求7所述的图像分类模型设计装置,其特征在于,所述训练模块具体用于:
从有标签的图像数据库中选取一个子集,根据所述子集训练得到图像分类的初始网络模型;
或者,使用所述有标签的图像数据库中的所有图像,训练得到图像分类的初始网络模型。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-6任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如权利要求1-6任一项所述方法的步骤。
CN201711403379.0A 2017-12-22 2017-12-22 图像分类模型设计方法及装置 Pending CN108229543A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711403379.0A CN108229543A (zh) 2017-12-22 2017-12-22 图像分类模型设计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711403379.0A CN108229543A (zh) 2017-12-22 2017-12-22 图像分类模型设计方法及装置

Publications (1)

Publication Number Publication Date
CN108229543A true CN108229543A (zh) 2018-06-29

Family

ID=62648502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711403379.0A Pending CN108229543A (zh) 2017-12-22 2017-12-22 图像分类模型设计方法及装置

Country Status (1)

Country Link
CN (1) CN108229543A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102024A (zh) * 2018-08-14 2018-12-28 中山大学 一种用于物体精细识别的层次语义嵌入模型及其实现方法
CN109344833A (zh) * 2018-09-04 2019-02-15 中国科学院深圳先进技术研究院 医学图像分割方法、分割系统及计算机可读存储介质
CN110009509A (zh) * 2019-01-02 2019-07-12 阿里巴巴集团控股有限公司 评估车损识别模型的方法及装置
CN110196908A (zh) * 2019-04-17 2019-09-03 深圳壹账通智能科技有限公司 数据分类方法、装置、计算机装置及存储介质
CN110210524A (zh) * 2019-05-13 2019-09-06 东软医疗系统股份有限公司 一种图像增强模型的训练方法、图像增强方法及装置
CN110299202A (zh) * 2019-07-01 2019-10-01 泰康保险集团股份有限公司 智能疾病诊断方法、装置、设备及存储介质
WO2020006881A1 (zh) * 2018-07-06 2020-01-09 平安科技(深圳)有限公司 蝴蝶识别网络构建方法、装置、计算机设备及存储介质
CN111046932A (zh) * 2019-12-03 2020-04-21 内蒙古拜欧牧业科技有限公司 模型训练方法、肉类鉴别方法、装置、终端和存储介质
WO2020082595A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 图像分类方法、终端设备及计算机非易失性可读存储介质
CN111738454A (zh) * 2020-08-28 2020-10-02 腾讯科技(深圳)有限公司 一种目标检测方法、装置、存储介质及设备
WO2021043112A1 (zh) * 2019-09-02 2021-03-11 华为技术有限公司 图像分类方法以及装置
CN112836755A (zh) * 2021-02-05 2021-05-25 中国科学院深圳先进技术研究院 基于深度学习的样本图像生成方法及其系统
CN114783072A (zh) * 2022-03-17 2022-07-22 哈尔滨工业大学(威海) 一种基于远域迁移学习的图像识别方法
CN115114467A (zh) * 2021-03-17 2022-09-27 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置
CN115114467B (zh) * 2021-03-17 2024-05-14 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3065090A3 (en) * 2015-03-06 2017-01-25 Panasonic Intellectual Property Management Co., Ltd. Learning method and recording medium background
CN107016405A (zh) * 2017-02-24 2017-08-04 中国科学院合肥物质科学研究院 一种基于分级预测卷积神经网络的害虫图像分类方法
CN107330446A (zh) * 2017-06-05 2017-11-07 浙江工业大学 一种面向图像分类的深度卷积神经网络的优化方法
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3065090A3 (en) * 2015-03-06 2017-01-25 Panasonic Intellectual Property Management Co., Ltd. Learning method and recording medium background
CN107016405A (zh) * 2017-02-24 2017-08-04 中国科学院合肥物质科学研究院 一种基于分级预测卷积神经网络的害虫图像分类方法
CN107330446A (zh) * 2017-06-05 2017-11-07 浙江工业大学 一种面向图像分类的深度卷积神经网络的优化方法
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIMIN WANG.ET AL: "《Knowledge Guided Disambiguation for Large-Scale Scene Classification With Multi-Resolution CNNs》", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
吴正文: "《卷积神经网络在图像分类中的应用研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020006881A1 (zh) * 2018-07-06 2020-01-09 平安科技(深圳)有限公司 蝴蝶识别网络构建方法、装置、计算机设备及存储介质
CN109102024B (zh) * 2018-08-14 2021-08-31 中山大学 一种用于物体精细识别的层次语义嵌入模型及其实现方法
CN109102024A (zh) * 2018-08-14 2018-12-28 中山大学 一种用于物体精细识别的层次语义嵌入模型及其实现方法
CN109344833A (zh) * 2018-09-04 2019-02-15 中国科学院深圳先进技术研究院 医学图像分割方法、分割系统及计算机可读存储介质
CN109344833B (zh) * 2018-09-04 2020-12-18 中国科学院深圳先进技术研究院 医学图像分割方法、分割系统及计算机可读存储介质
WO2020082595A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 图像分类方法、终端设备及计算机非易失性可读存储介质
CN110009509A (zh) * 2019-01-02 2019-07-12 阿里巴巴集团控股有限公司 评估车损识别模型的方法及装置
CN110196908A (zh) * 2019-04-17 2019-09-03 深圳壹账通智能科技有限公司 数据分类方法、装置、计算机装置及存储介质
CN110210524B (zh) * 2019-05-13 2023-05-02 东软医疗系统股份有限公司 一种图像增强模型的训练方法、图像增强方法及装置
CN110210524A (zh) * 2019-05-13 2019-09-06 东软医疗系统股份有限公司 一种图像增强模型的训练方法、图像增强方法及装置
CN110299202A (zh) * 2019-07-01 2019-10-01 泰康保险集团股份有限公司 智能疾病诊断方法、装置、设备及存储介质
WO2021043112A1 (zh) * 2019-09-02 2021-03-11 华为技术有限公司 图像分类方法以及装置
CN111046932A (zh) * 2019-12-03 2020-04-21 内蒙古拜欧牧业科技有限公司 模型训练方法、肉类鉴别方法、装置、终端和存储介质
CN111738454B (zh) * 2020-08-28 2020-11-27 腾讯科技(深圳)有限公司 一种目标检测方法、装置、存储介质及设备
CN111738454A (zh) * 2020-08-28 2020-10-02 腾讯科技(深圳)有限公司 一种目标检测方法、装置、存储介质及设备
CN112836755A (zh) * 2021-02-05 2021-05-25 中国科学院深圳先进技术研究院 基于深度学习的样本图像生成方法及其系统
CN112836755B (zh) * 2021-02-05 2024-04-16 中国科学院深圳先进技术研究院 基于深度学习的样本图像生成方法及其系统
CN115114467A (zh) * 2021-03-17 2022-09-27 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置
CN115114467B (zh) * 2021-03-17 2024-05-14 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置
CN114783072A (zh) * 2022-03-17 2022-07-22 哈尔滨工业大学(威海) 一种基于远域迁移学习的图像识别方法

Similar Documents

Publication Publication Date Title
CN108229543A (zh) 图像分类模型设计方法及装置
Rere et al. Metaheuristic algorithms for convolution neural network
Simonyan et al. Deep inside convolutional networks: Visualising image classification models and saliency maps
CN104933428B (zh) 一种基于张量描述的人脸识别方法及装置
Karatzas et al. Development of deep learning models for predicting the effects of exposure to engineered nanomaterials on Daphnia Magna
Nadimi-Shahraki et al. A systematic review of the whale optimization algorithm: theoretical foundation, improvements, and hybridizations
US20210027514A1 (en) Method and system for creating animal type avatar using human face
CN110363253A (zh) 一种基于卷积神经网络的热轧带钢表面缺陷分类方法
Liu et al. Real-time classification of steel strip surface defects based on deep CNNs
CN109063719A (zh) 一种联合结构相似性和类信息的图像分类方法
CN110084245A (zh) 基于视觉注意机制强化学习弱监督图像检测方法、系统
US11416884B2 (en) Personality trait-based customer behavior prediction
CN108008942A (zh) 对数据记录进行处理的方法及系统
Zhai et al. Face verification across aging based on deep convolutional networks and local binary patterns
Asfaqur Rahman et al. Rice disease detection based on image processing technique
Devi et al. A Comparative Study on Handwritten Digit Recognizer using Machine Learning Technique
Peng et al. Leaf disease image retrieval with object detection and deep metric learning
CN112966115B (zh) 基于记忆损失预测和延迟训练的主动学习事件抽取方法
Valarmathi et al. Hybrid deep learning algorithms for dog breed identification–a comparative analysis
Mat Jizat et al. Evaluation of the transfer learning models in wafer defects classification
Xiong et al. Attention aware cross faster RCNN model and simulation
Khatri et al. Recognizing images of handwritten digits using learning vector quantization artificial neural network
Rahul et al. Deep auto encoder based on a transient search capsule network for student performance prediction
Hwangbo et al. Identification of hyperparameters with high effects on performance of deep neural networks: application to clinicopathological data of ovarian cancer
Nurlaela et al. Detection of Megalopa Phase Crab Larvae Using Digital Image Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629