CN110866533A - 训练分类模型的装置和方法、以及分类装置和方法 - Google Patents

训练分类模型的装置和方法、以及分类装置和方法 Download PDF

Info

Publication number
CN110866533A
CN110866533A CN201810981422.XA CN201810981422A CN110866533A CN 110866533 A CN110866533 A CN 110866533A CN 201810981422 A CN201810981422 A CN 201810981422A CN 110866533 A CN110866533 A CN 110866533A
Authority
CN
China
Prior art keywords
samples
training
category
distance
query sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810981422.XA
Other languages
English (en)
Other versions
CN110866533B (zh
Inventor
沈伟
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201810981422.XA priority Critical patent/CN110866533B/zh
Publication of CN110866533A publication Critical patent/CN110866533A/zh
Application granted granted Critical
Publication of CN110866533B publication Critical patent/CN110866533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种训练分类模型的装置和方法、以及分类装置和方法,其中,训练分类模型的装置包括:选取训练样本单元,针对从训练集中选取的每个类别随机选取预定数量的样本;选取支持样本单元,在所选取的样本中,随机选取预定数量的样本作为支持样本,并且将除了支持样本之外的样本作为查询样本;获得特征单元,获得支持样本和查询样本的特征;获得原型表示单元,获得类别的原型表示;校正单元,对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于校正后的距离计算类间损失;以及训练单元,基于类间损失来训练分类模型。

Description

训练分类模型的装置和方法、以及分类装置和方法
技术领域
本公开涉及信息处理领域,具体涉及一种训练分类模型的装置和方法、以及分类装置和方法。
背景技术
在图像分类领域的单样本学习中,每一个类别只有一个已知标签的样本,并且将该一个已知标签的样本当做类别的中心。现有技术的单样本学习中可能存在由于样本少而导致学习精度不好的问题,例如可能包括由于稀疏梯度造成的不良初始化的问题,进而影响分类性能。在小样本情况下也存在上述单样本情况下的类似问题。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练分类模型的装置和方法、以及分类装置和方法。
根据本公开的一方面,提供了一种训练分类模型的装置,包括:选取训练样本单元,被配置成在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别随机选取第二预定数量的样本;选取支持样本单元,被配置成在所选取的每个类别的所选取的样本中,随机选取第三预定数量的样本作为支持样本,并且将除了支持样本之外的样本作为查询样本;获得特征单元,被配置成分别获得每个支持样本和每个查询样本的特征;获得原型表示单元,被配置成基于每个类别的支持样本的特征,获得该类别的原型表示;校正单元,被配置成对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失;以及训练单元,被配置成基于类间损失来训练分类模型。
根据本公开的另一方面,提供了一种训练分类模型的方法,包括:选取训练样本步骤,在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别,随机选取第二预定数量的样本;选取支持样本步骤,在所选取的每个类别的所选取的样本中,随机选取第三预定数量的样本作为支持样本,并且将除了支持样本之外的样本作为查询样本;获得特征步骤,分别获得每个支持样本和每个查询样本的特征;获得原型表示步骤,基于每个类别的支持样本的特征,获得该类别的原型表示;校正步骤,对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失;以及训练步骤,基于类间损失来训练分类模型。
根据本公开的又一方面,提供了一种利用上述训练分类模型的装置训练得到的分类模型进行分类的装置,包括:获得特征单元,被配置成获得待测试集合中的每个待测试信息的特征,其中,待测试集合中的待测试类别与训练集中的类别具有预定程度的关联性;获得原型表示单元,被配置成基于待测试集合中的每个待测试类别的带标签的测试信息的特征,获得该待测试类别的原型表示;以及分类单元,被配置成经由分类模型,计算待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离,并且基于所述距离对该待测试信息进行分类。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开实施例的训练分类模型的装置的功能配置示例的框图;
图2是示出根据本公开实施例的折线欧氏距离的示例的图;
图3是示出根据本公开实施例的训练分类模型的装置所进行的训练的示例的图;
图4是示出根据本公开实施例的训练分类模型的方法的流程示例的流程图;
图5是示出根据本公开实施例的分类装置的功能配置示例的框图;
图6是示出根据本公开实施例的分类方法的流程示例的流程图;以及
图7是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1描述根据本公开实施例的训练分类模型的装置100的功能配置示例的框图。如图1所示,根据本公开实施例的训练分类模型的装置100包括选取训练样本单元102、选取支持样本单元104、获得特征单元106、获得原型表示单元108、校正单元110以及训练单元112。
选取训练样本单元102可以被配置成在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别随机选取第二预定数量的样本。
作为示例,第一预定数量和第二预定数量可以是本领域技术人员根据经验预先确定的。
选取支持样本单元104可以被配置成在所选取的每个类别的所选取的样本中,随机选取第三预定数量的样本作为支持样本,并且将除了支持样本之外的样本作为查询样本。
作为示例,第三预定数量可以是本领域技术人员根据经验预先确定的。
作为示例,第三预定数量大于1的情况对应于图像分类领域中的小样本的情况,而第三预定数量等于1的情况对应于单样本的情况。
获得特征单元106可以被配置成分别获得每个支持样本和每个查询样本的特征。
可以利用现有技术获得每个支持样本和每个查询样本的特征。作为示例,可以利用卷积神经网络获得每个支持样本和每个查询样本的特征。作为示例,所述特征可以是表征支持样本和查询样本的特性的高维特征。
获得原型表示单元108可以被配置成基于每个类别的支持样本的特征,获得该类别的原型表示。
校正单元110可以被配置成对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失。
作为示例,上述每个查询样本的特征与每个原型表示之间的距离是每个查询样本的特征与每个原型表示之间的平方欧氏距离。校正单元110对上述平方欧氏距离进行校正。校正单元110以相同的方式对每个查询样本的特征与每个原型表示之间的平方欧氏距离进行校正。更具体地,假设从训练集中随机选取了K个类别并且假设查询样本属于第1类别,该查询样本的特征与该查询样本所属的第1类别的原型表示之间的平方欧氏距离表示为d’1,该查询样本的特征与该查询样本不属于的第2类别、…、第K类别的原型表示之间的平方欧氏距离分别表示为d’2、…、d’K,校正单元110以相同的方式分别对d’1、d’2、…、d’K进行校正处理。例如,如果校正处理是缩短距离,则校正单元110以相同的比例分别缩短d’1、d’2、…、d’K
训练单元112可以被配置成基于类间损失来训练分类模型。作为示例,训练单元112可以通过使上述类间损失最小来训练分类模型。
从以上描述可知,根据本公开实施例的训练分类模型的装置100能够对查询样本的特征与每个原型表示之间的距离进行校正,并且基于根据校正后的距离计算得到的类间损失来训练分类模型,可以提高训练分类模型的装置100对分类模型进行训练时的性能,例如提高学习精度。
优选地,校正单元110还被配置成基于每个查询样本的特征与每个原型表示,利用softmax函数来计算类间损失。
作为示例,假设上述第一预定数量为K,即,假设从训练集中随机选取K个类别。另外,假设第k个类别的原型表示为ck(k=1,2,…,K),查询样本的特征为z,查询样本的特征z与第k个类别的原型表示ck之间的校正后的距离为dk=d(z,ck)(k=1,2,…,K)。
查询样本属于第i个类别的概率可以计算为:
Figure BDA0001778649280000051
类间损失可以定义为:
Figure BDA0001778649280000052
在表达式(2)中,N为查询样本的总数目。
优选地,所述校正单元110还被配置成:针对每个查询样本,设置该查询样本的特征与该查询样本所属的类的原型表示之间的在预定范围内的校正后的距离,使得表明该查询样本所属的类别与其他类别之间的分离程度的类间损失关于校正后的距离计算得到的梯度分布均匀。
作为示例,类间损失Linter关于校正后的距离d(z,ck)的梯度可以表示为
Figure BDA0001778649280000061
在现有技术中的单样本学习和小样本学习的情况下,给定一个查询样本,计算该查询样本与所有类别的中心之间的平方欧氏距离。然后,基于所计算出的平方欧氏距离计算softmax响应,取响应最高的类别作为该查询样本的标签。然而,对距离计算softmax响应时,可能会引起softmax函数关于平方欧氏距离的梯度过于稀疏(梯度大部分值接近0)的问题,该稀疏的梯度会造成不良的初始化,进而影响分类性能。在小样本学习的情况下也存在类似的问题。
而在本公开实施例的训练分类模型的装置100的优选实施方式中,可以通过设置查询样本的特征与该查询样本所属的类的原型表示之间的在预定范围内的校正后的距离,使得表明查询样本所属的类别与其他类别之间的分离程度的类间损失关于校正后的距离计算得到的梯度分布均匀,从而减少了现有技术中的上述梯度稀疏性。
优选地,所述校正单元110还被配置成:在每个查询样本的特征与每个原型表示之间的校正前的距离小于预定阈值的情况下,使得校正后的距离等于校正前的距离,而在校正前的距离大于或等于预定阈值的情况下,相比于校正前的距离缩短校正后的距离,从而使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内。
作为示例,假设查询样本的特征z与第k个类别的原型表示ck之间的平方欧氏距离表示为d’k(k=1,2,…,K)。另外,如上所述,查询样本的特征z与第k个类别的原型表示ck之间的校正后的距离可以表示为dk。dk与d’k之间的关系可以用以下表达式来表示:
Figure BDA0001778649280000062
在表达式(3)中,s和r为超参数。可以将校正后的距离dk称为折线欧氏距离。如果r=1,则折线欧氏距离dk就是平方欧氏距离d’k。如果将r设置为足够小,则相对于上述平方欧氏距离d’k,可以有效地缩短折线欧氏距离dk,由此使类间损失关于校正后的距离计算得到的梯度处于大于0且小于1的范围内。本领域技术人员可以根据经验设置s。
如上所述,校正单元110以相同的方式对每个查询样本的特征与每个原型表示之间的平方欧氏距离进行校正。作为示例,校正单元110可以利用表达式(3)对查询样本的特征z与每个类别的原型表示ck之间的平方欧氏距离d’k(k=1,2,…,K)分别进行校正。
图2是示出根据本公开实施例的折线欧氏距离的示例的图。图2中的x轴表示校正之前的平方欧氏距离d’k,y轴表示校正之后的折线欧氏距离dk。如图2所示,在每个查询样本的特征与每个原型表示之间的平方欧氏距离d’k小于预定阈值s的情况下,折线欧氏距离dk等于平方欧氏距离d’k,而在平方欧氏距离d’k大于或等于预定阈值s的情况下,相比于平方欧氏距离d’k缩短了折线欧氏距离dk,从而使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内。
本领域技术人员应该理解,除了上述折线欧氏距离之外,还可以想到对平方欧氏距离进行校正的其他方式,只要能够按照预定规则缩短平方欧氏距离即可。
在现有技术中的单样本学习和小样本学习的情况下,如果查询样本和类别的原型表示之间的平方欧氏距离很大,那么在对距离计算softmax响应时,可能会引起softmax函数关于平方欧氏距离的梯度过于稀疏的问题。
而在本公开实施例的训练分类模型的装置100的优选实施方式中,可以缩短超过预定阈值的平方欧氏距离,使得类间损失关于校正后的距离计算得到的梯度处于大于0且小于1的范围内,从而减少了上述梯度稀疏性。
为了更清楚地描述训练分类模型的装置100中进行的上述处理,图3示出根据本公开实施例的训练分类模型的装置所进行的训练的示例的图。
为了方便,图3以单样本为例进行说明。假设从训练集中随机选取5个已知类别。如图3的右侧部分所示,将每个类别的一个支持样本图像分别输入到卷积神经网络CNN来得到支持样本图像的特征,并将该特征作为类别的原型表示,从而获得了5个类别的原型表示c1、c2、c3、c4以及c5
如图3的左侧部分所示,将查询样本输入到CNN来得到查询样本图像的特征z。
然后,分别计算查询样本图像的特征z与各类别的原型表示c1、c2、c3、c4以及c5之间的折线欧氏距离,并基于所算出的折线欧氏距离来计算类间损失,通过使类间损失最小作为目标函数来训练分类模型。由此来更新分类模型的参数。
优选地,训练单元112还被配置成还基于表明所选取的每个类别的所有查询样本的特征与该类别的原型表示之间的距离的中心损失,训练分类模型。
假设每个类别的样本数目为M,则中心损失Lc可以定义为:
Figure BDA0001778649280000081
其中,zi表示属于第k个类别(第k个类别的原型表示为ck)的样本的特征。
由此,训练单元可以使得类间损失和中心损失之和最小化来训练分类模型。
中心损失可以对属于同一类别的样本的特征之间的距离进行规则化,由此可以进一步提高训练的精度。
优选地,获得原型表示单元108还被配置成计算每个类别的所有支持样本的特征的均值,作为该类别的原型表示。本领域技术人员应该理解,还存在基于每个类别的所有支持样本的特征来得到该类别的原型表示的其他方式。
与上述训练分类模型的装置实施例相对应地,本公开还提供了以下训练分类模型的方法的实施例。
图4是示出根据本公开实施例的训练分类模型的方法400的流程示例的流程图。
如图4所示,根据本公开实施例的训练分类模型的方法400包括选取训练样本步骤S402、选取支持样本步骤S404、获得特征步骤S406、获得原型表示步骤S408、校正步骤S410以及训练步骤S412。
训练分类模型的方法400在S401处开始。
在选取训练样本步骤S402中,在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别,随机选取第二预定数量的样本。
作为示例,第一预定数量和第二预定数量可以是本领域技术人员根据经验预先确定的。
在选取支持样本步骤S404中,在所选取的每个类别的所选取的样本中随机选取第三预定数量的样本作为支持样本,并且将除了支持样本之外的样本作为查询样本。
作为示例,第三预定数量可以是本领域技术人员根据经验预先确定的。
在获得特征步骤S406中,分别获得每个支持样本和每个查询样本的特征。
可以利用现有技术获得每个支持样本和每个查询样本的特征。作为示例,可以利用卷积神经网络获得每个支持样本和每个查询样本的特征。作为示例,所述特征可以是表征支持样本和查询样本的特性的高维特征。
在获得原型表示步骤S408中,基于每个类别的支持样本的特征,获得该类别的原型表示。
在校正步骤S410中,对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失。
作为示例,上述每个查询样本的特征与每个原型表示之间的距离是每个查询样本的特征与每个原型表示之间的平方欧氏距离。在校正步骤S410中,对上述平方欧氏距离进行校正。
在训练步骤S412中,基于类间损失来训练分类模型。作为示例,在训练步骤S412中,可以通过使上述类间损失最小来训练分类模型。
训练分类模型的方法400在S413处结束。
从以上描述可知,根据本公开实施例的训练分类模型的方法400能够对查询样本的特征与每个原型表示之间的距离进行校正,并且基于根据校正后的距离计算得到的类间损失来训练分类模型,可以提高对分类模型进行训练时的性能。
优选地,在校正步骤S410中,基于每个查询样本的特征与每个原型表示,利用softmax函数来计算类间损失。
有关利用softmax函数来计算类间损失的具体示例可以参见以上装置实施例中相应部分例如关于校正单元110的描述,在此不再重复。
优选地,在校正步骤S410中,针对每个查询样本,设置该查询样本的特征与该查询样本所属的类的原型表示之间的在预定范围内的校正后的距离,使得表明该查询样本所属的类别与其他类别之间的分离程度的类间损失关于校正后的距离计算得到的梯度分布均匀。
在本公开实施例的训练分类模型的方法400的优选实施方式中,可以通过设置查询样本的特征与该查询样本所属的类的原型表示之间的在预定范围内的校正后的距离,使得表明查询样本所属的类别与其他类别之间的分离程度的类间损失关于校正后的距离计算得到的梯度分布均匀,从而减少了现有技术的单样本和小样本学习中的梯度稀疏性。
优选地,在校正步骤S410中,在每个查询样本的特征与每个原型表示之间的校正前的距离小于预定阈值的情况下,使得校正后的距离等于校正前的距离,而在校正前的距离大于或等于预定阈值的情况下,相比于校正前的距离缩短校正后的距离,从而使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内。
有关利用校正后的距离的具体示例可以参见以上装置实施例中相应部分例如关于校正单元110的描述,在此不再重复。
在本公开实施例的训练分类模型的方法400的优选实施方式中,缩短了超过预定阈值的平方欧氏距离,从而减少了梯度稀疏性。
优选地,在训练步骤S412中,基于表明所选取的每个类别的所有查询样本的特征与该类别的原型表示之间的距离的中心损失,训练分类模型。
有关中心损失的具体示例可以参见以上装置实施例中相应部分例如关于训练单元112的描述,在此不再重复。
由此,可以基于类间损失和中心损失来训练分类模型。
中心损失可以对属于同一类别的样本的特征之间的距离进行规则化,由此可以进一步提高训练的精度。
优选地,在获得原型表示步骤S408中,计算每个类别的所有支持样本的特征的均值,作为该类别的原型表示。本领域技术人员应该理解,还存在基于每个类别的所有支持样本的特征来得到该类别的原型表示的其他方式。
应指出,尽管以上描述了根据本公开实施例的训练分类模型的装置的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。
此外,本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述训练分类模型的方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
此外,本申请还提供了一种利用上述训练分类模型的装置训练得到的分类模型进行分类的装置。
将参照图5描述根据本公开实施例的分类装置500的功能配置示例的框图。如图5所示,根据本公开实施例的分类装置500包括获得特征单元502、获得原型表示单元504以及分类单元506。
获得特征单元502可以被配置成获得待测试集合中的每个待测试信息的特征,其中,待测试集合中的待测试类别与训练集中的类别具有预定程度的关联性。作为示例,待测试集合中的待测试类别与训练集中的类别可以具有结构上的关联性(例如,训练集中的类别可以是汽车,而待测试集合中的待测试类别可以是轮胎),或者训练集中的类别可以是一种植物,而待测试集合中的待测试类别可以是另一种植物。
获得原型表示单元504可以被配置成基于待测试集合中的每个待测试类别的带标签的测试信息的特征,获得相应待测试类别的原型表示。
分类单元506可以被配置成经由分类模型,计算待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离,并且基于该距离对该待测试信息进行分类。
作为示例,待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离可以是待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的折线欧氏距离。有关折线欧氏距离的获取方式可以参见表达式(3)的相关描述。
从以上描述可知,根据本公开实施例的分类装置500计算待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离,并且基于该距离对该待测试信息进行分类,因此可以提高分类的性能。
优选地,获得原型表示单元504还被配置成计算每个待测试类别的所有带标签的测试信息的特征的均值,作为该待测试类别的原型表示。本领域技术人员应该理解,还存在基于每个待测试类别的所有带标签的测试信息的特征来得到该待测试类别的原型表示的其他方式。
与上述分类装置实施例相对应地,本公开还提供了利用上述训练分类模型的装置训练得到的分类模型进行分类的方法的实施例。
图6是示出根据本公开实施例的分类方法600的流程示例的流程图。
如图6所示,根据本公开实施例的分类方法600包括获得特征步骤S602、获得原型表示步骤S604以及分类步骤S606。
分类方法600在S601处开始。
在获得特征步骤S602中,获得待测试集合中的每个待测试信息的特征,其中,待测试集合中的待测试类别与训练集中的类别具有预定程度的关联性。
在获得原型表示步骤S604中,基于待测试集合中的每个待测试类别的带标签的测试信息的特征,获得该待测试类别的原型表示。
在分类步骤S606中,经由分类模型,计算待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离,并且基于该距离对该待测试信息进行分类。
作为示例,待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离可以是待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的折线欧氏距离。
分类方法600在S607处结束。
从以上描述可知,根据本公开实施例的分类步骤600计算待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离,并且基于该距离对该待测试信息进行分类,因此可以提高分类的性能。
优选地,在获得原型表示步骤S604中,计算每个待测试类别的所有带标签的测试信息的特征的均值,作为该待测试类别的原型表示。本领域技术人员应该理解,还存在基于每个待测试类别的所有带标签的测试信息的特征来得到该待测试类别的原型表示的其他方式。
应指出,尽管以上描述了根据本公开实施例的分类装置的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。
此外,本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述分类方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用个人计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分708,包括硬盘等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种训练分类模型的装置,包括:
选取训练样本单元,被配置成在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别随机选取第二预定数量的样本;
选取支持样本单元,被配置成在所选取的每个类别的所选取的样本中,随机选取第三预定数量的样本作为支持样本,并且将除了所述支持样本之外的样本作为查询样本;
获得特征单元,被配置成分别获得每个支持样本和每个查询样本的特征;
获得原型表示单元,被配置成基于每个类别的所述支持样本的特征,获得该类别的原型表示;
校正单元,被配置成对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失;以及
训练单元,被配置成基于所述类间损失来训练所述分类模型。
附记2.根据附记1所述的训练分类模型的装置,其中,所述校正单元还被配置成:
针对每个查询样本,设置该查询样本的特征与该查询样本所属的类的原型表示之间的在所述预定范围内的校正后的距离,使得表明该查询样本所属的类别与其他类别之间的分离程度的类间损失关于所述校正后的距离计算得到的梯度分布均匀。
附记3.根据附记2所述的训练分类模型的装置,其中,所述校正单元还被配置成:
在每个查询样本的特征与每个原型表示之间的校正前的距离小于或等于预定阈值的情况下,使得校正后的距离等于所述校正前的距离,而在所述校正前的距离大于所述预定阈值的情况下,相比于所述校正前的距离缩短所述校正后的距离,从而使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在所述预定范围内。
附记4.根据附记1所述的训练分类模型的装置,其中,所述校正单元还被配置成:
基于每个查询样本的特征与每个原型表示,利用softmax函数来计算所述类间损失。
附记5.根据附记1所述的训练分类模型的装置,其中,所述训练单元还被配置成:还基于表明所选取的每个类别的所有查询样本的特征与该类别的原型表示之间的距离的中心损失,训练所述分类模型。
附记6.根据附记1所述的训练分类模型的装置,其中,所述获得原型表示单元还被配置成:计算每个类别的所有支持样本的特征的均值,作为该类别的原型表示。
附记7.一种训练分类模型的方法,包括:
选取训练样本步骤,在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别,随机选取第二预定数量的样本;
选取支持样本步骤,在所选取的每个类别的所选取的样本中,随机选取第三预定数量的样本作为支持样本,并且将除了所述支持样本之外的样本作为查询样本;
获得特征步骤,分别获得每个支持样本和每个查询样本的特征;
获得原型表示步骤,基于每个类别的所述支持样本的特征,获得该类别的原型表示;
校正步骤,对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失;以及
训练步骤,基于所述类间损失来训练所述分类模型。
附记8.根据附记7所述的训练分类模型的方法,
其中,在所述校正步骤中,针对每个查询样本,设置该查询样本的特征与该查询样本所属的类的原型表示之间的在所述预定范围内的校正后的距离,使得表明该查询样本所属的类别与其他类别之间的分离程度的类间损失关于所述校正后的距离计算得到的梯度分布均匀。
附记9.根据附记8所述的训练分类模型的方法,其中,在所述校正步骤中:
在每个查询样本的特征与每个原型表示之间的校正前的距离小于或等于预定阈值的情况下,使得校正后的距离等于所述校正前的距离,而在所述校正前的距离大于所述预定阈值的情况下,相比于所述校正前的距离缩短所述校正后的距离,从而使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在所述预定范围内。
附记10.根据附记7所述的训练分类模型的方法,其中,在所述校正步骤中,基于每个查询样本的特征与每个原型表示,利用softmax函数来计算所述类间损失。
附记11.根据附记7所述的训练分类模型的方法,其中,在所述训练步骤中,还基于表明所选取的每个类别的所有查询样本的特征与该类别的原型表示之间的距离的中心损失,训练所述分类模型。
附记12.根据附记7所述的训练分类模型的方法,其中,在所述获得原型表示步骤中,计算每个类别的所有支持样本的特征的均值,作为该类别的原型表示。
附记13.一种利用根据附记1-6中任一项所述的装置训练得到的分类模型进行分类的装置,包括:
获得特征单元,被配置成获得待测试集合中的每个待测试信息的特征,其中,所述待测试集合中的待测试类别与所述训练集中的类别具有预定程度的关联性;
获得原型表示单元,被配置成基于所述待测试集合中的每个待测试类别的带标签的测试信息的特征,获得该待测试类别的原型表示;以及
分类单元,被配置成经由所述分类模型,计算所述待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离,并且基于所述距离对该待测试信息进行分类。
附记14.根据附记13所述的装置,其中,所述获得原型表示单元还被配置成:计算每个待测试类别的所有带标签的测试信息的特征的均值,作为该待测试类别的原型表示。

Claims (10)

1.一种训练分类模型的装置,包括:
选取训练样本单元,被配置成在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别随机选取第二预定数量的样本;
选取支持样本单元,被配置成在所选取的每个类别的所选取的样本中,随机选取第三预定数量的样本作为支持样本,并且将除了所述支持样本之外的样本作为查询样本;
获得特征单元,被配置成分别获得每个支持样本和每个查询样本的特征;
获得原型表示单元,被配置成基于每个类别的所述支持样本的特征,获得该类别的原型表示;
校正单元,被配置成对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失;以及
训练单元,被配置成基于所述类间损失来训练所述分类模型。
2.根据权利要求1所述的训练分类模型的装置,其中,所述校正单元还被配置成:
针对每个查询样本,设置该查询样本的特征与该查询样本所属的类的原型表示之间的在所述预定范围内的校正后的距离,使得表明该查询样本所属的类别与其他类别之间的分离程度的类间损失关于所述校正后的距离计算得到的梯度分布均匀。
3.根据权利要求2所述的训练分类模型的装置,其中,所述校正单元还被配置成:
在每个查询样本的特征与每个原型表示之间的校正前的距离小于预定阈值的情况下,使得校正后的距离等于所述校正前的距离,而在所述校正前的距离大于或等于所述预定阈值的情况下,相比于所述校正前的距离缩短所述校正后的距离,从而使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在所述预定范围内。
4.根据权利要求1所述的训练分类模型的装置,其中,所述校正单元还被配置成:
基于每个查询样本的特征与每个原型表示,利用softmax函数来计算所述类间损失。
5.根据权利要求1所述的训练分类模型的装置,其中,所述训练单元还被配置成:还基于表明所选取的每个类别的所有查询样本的特征与该类别的原型表示之间的距离的中心损失,训练所述分类模型。
6.根据权利要求1所述的训练分类模型的装置,其中,所述获得原型表示单元被配置成:计算每个类别的所有支持样本的特征的均值,作为该类别的原型表示。
7.一种训练分类模型的方法,包括:
选取训练样本步骤,在每轮训练中,从训练集中随机选取第一预定数量的类别,并且针对所选取的每个类别,随机选取第二预定数量的样本;
选取支持样本步骤,在所选取的每个类别的所选取的样本中,随机选取第三预定数量的样本作为支持样本,并且将除了所述支持样本之外的样本作为查询样本;
获得特征步骤,分别获得每个支持样本和每个查询样本的特征;
获得原型表示步骤,基于每个类别的所述支持样本的特征,获得该类别的原型表示;
校正步骤,对每个查询样本的特征与每个原型表示之间的距离进行校正,使得每个查询样本的特征与该查询样本所属的类别的原型表示之间的校正后的距离在预定范围内,并且基于查询样本的特征与原型表示之间的校正后的距离计算表明不同类别的样本之间的分离程度的类间损失;以及
训练步骤,基于所述类间损失来训练所述分类模型。
8.根据权利要求7所述的训练分类模型的方法,
其中,在所述校正步骤中,针对每个查询样本,设置该查询样本的特征与该查询样本所属的类的原型表示之间的在所述预定范围内的校正后的距离,使得表明该查询样本所属的类别与其他类别之间的分离程度的类间损失关于所述校正后的距离计算得到的梯度分布均匀。
9.一种利用根据权利要求1-6中任一项所述的装置训练得到的分类模型进行分类的装置,包括:
获得特征单元,被配置成获得待测试集合中的每个待测试信息的特征,其中,所述待测试集合中的待测试类别与所述训练集中的类别具有预定程度的关联性;
获得原型表示单元,被配置成基于所述待测试集合中的每个待测试类别的带标签的测试信息的特征,获得该待测试类别的原型表示;以及
分类单元,被配置成经由所述分类模型,计算所述待测试集合中的每个不带标签的待测试信息的特征与每个待测试类别的原型表示之间的校正后的距离,并且基于所述距离对该待测试信息进行分类。
10.根据权利要求9所述的装置,其中,所述获得原型表示单元还被配置成:计算每个待测试类别的所有带标签的测试信息的特征的均值,作为该待测试类别的原型表示。
CN201810981422.XA 2018-08-27 2018-08-27 训练分类模型的装置和方法、以及分类装置和方法 Active CN110866533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810981422.XA CN110866533B (zh) 2018-08-27 2018-08-27 训练分类模型的装置和方法、以及分类装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810981422.XA CN110866533B (zh) 2018-08-27 2018-08-27 训练分类模型的装置和方法、以及分类装置和方法

Publications (2)

Publication Number Publication Date
CN110866533A true CN110866533A (zh) 2020-03-06
CN110866533B CN110866533B (zh) 2023-09-15

Family

ID=69650955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810981422.XA Active CN110866533B (zh) 2018-08-27 2018-08-27 训练分类模型的装置和方法、以及分类装置和方法

Country Status (1)

Country Link
CN (1) CN110866533B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553613A (zh) * 2020-05-11 2020-08-18 中石化石油工程技术服务有限公司 一种地震采集资料品质智能分级评价方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282897A1 (en) * 2008-06-06 2011-11-17 Agency For Science, Technology And Research Method and system for maintaining a database of reference images
CN103679190A (zh) * 2012-09-20 2014-03-26 富士通株式会社 分类装置、分类方法以及电子设备
RU2519269C1 (ru) * 2012-12-12 2014-06-10 Открытое акционерное общество "Государственный научно-исследовательский навигационно-гидрографический институт" (ОАО "ГНИНГИ") Способ съемки рельефа дна акватории и устройство для съемки рельефа дна акватории

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282897A1 (en) * 2008-06-06 2011-11-17 Agency For Science, Technology And Research Method and system for maintaining a database of reference images
CN103679190A (zh) * 2012-09-20 2014-03-26 富士通株式会社 分类装置、分类方法以及电子设备
RU2519269C1 (ru) * 2012-12-12 2014-06-10 Открытое акционерное общество "Государственный научно-исследовательский навигационно-гидрографический институт" (ОАО "ГНИНГИ") Способ съемки рельефа дна акватории и устройство для съемки рельефа дна акватории

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553613A (zh) * 2020-05-11 2020-08-18 中石化石油工程技术服务有限公司 一种地震采集资料品质智能分级评价方法及系统
CN111553613B (zh) * 2020-05-11 2023-04-28 中石化石油工程技术服务有限公司 一种地震采集资料品质智能分级评价方法及系统

Also Published As

Publication number Publication date
CN110866533B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
CN110889487A (zh) 神经网络架构搜索装置和方法及计算机可读记录介质
CN109271522A (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
JP6965206B2 (ja) クラスタリング装置、クラスタリング方法およびプログラム
CN108491874A (zh) 一种基于生成式对抗网络的图像单分类方法
CN106203534A (zh) 一种基于Boosting的代价敏感软件缺陷预测方法
CN109993236A (zh) 基于one-shot Siamese卷积神经网络的少样本满文匹配方法
CN103617429A (zh) 一种主动学习分类方法和系统
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
US20080091627A1 (en) Data Learning System for Identifying, Learning Apparatus, Identifying Apparatus and Learning Method
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN108491864B (zh) 基于自动确定卷积核大小卷积神经网络的高光谱图像分类
EP3822872A1 (en) Information processing device, information processing method, and information processing program
CN114387473A (zh) 一种基于基类样本特征合成的小样本图像分类方法
JP2019067299A (ja) ラベル推定装置及びラベル推定プログラム
CN115310554A (zh) 基于深度聚类的品项分配策略、系统、存储介质和设备
CN104281569B (zh) 构建装置和方法、分类装置和方法以及电子设备
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
CN110796260B (zh) 一种基于类扩张学习的神经网络模型优化方法
CN110866533B (zh) 训练分类模型的装置和方法、以及分类装置和方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN109947945B (zh) 基于词向量和集成svm的文本数据流分类方法
CN112784635A (zh) 信息处理装置和方法以及利用模型分类的装置
CN113177603B (zh) 分类模型的训练方法、视频分类方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant