CN112819020A - 训练分类模型的方法和装置及分类方法 - Google Patents

训练分类模型的方法和装置及分类方法 Download PDF

Info

Publication number
CN112819020A
CN112819020A CN201911119156.0A CN201911119156A CN112819020A CN 112819020 A CN112819020 A CN 112819020A CN 201911119156 A CN201911119156 A CN 201911119156A CN 112819020 A CN112819020 A CN 112819020A
Authority
CN
China
Prior art keywords
loss
classification model
sample
samples
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911119156.0A
Other languages
English (en)
Inventor
张梦
李斐
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201911119156.0A priority Critical patent/CN112819020A/zh
Priority to EP20201738.0A priority patent/EP3822860A1/en
Priority to JP2020174159A priority patent/JP2021082269A/ja
Priority to US17/076,320 priority patent/US11514264B2/en
Publication of CN112819020A publication Critical patent/CN112819020A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种训练分类模型的方法和装置及分类方法。训练分类模型的方法包括:使用第一样本集和第二样本集对分类模型进行训练,以计算分类模型的分类损失;提取第一样本集和第二样本集中的每个样本的权重向量和特征向量;计算第一样本集中的所有样本的权重向量的平均权重向量和第一样本集中的所有样本的特征向量的平均特征向量;基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失,并且基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失;基于特征损失和权重损失中的至少一个和分类损失来计算分类模型的总损失;以及基于总损失来调整分类模型的参数,直到满足预定条件,以获得经训练的分类模型。

Description

训练分类模型的方法和装置及分类方法
技术领域
本公开涉及信息处理领域,具体涉及一种训练分类模型的方法和装置以及分类方法。
背景技术
近年来,深度卷积神经网络的快速发展极大地改善了图像识别尤其是人脸识别的技术水平。除了不断发展的架构外,大规模的训练样本集的收集在人脸识别中也起着至关重要的作用。然而,在现实世界中,人脸数据样本通常呈现长尾分布。也就是说,只有一小部分人具有足够的样本,而对于其他大部分人来说,只有很少的样本可用。使用这样的呈现长尾分布的训练样本集对人脸识别模型进行训练难以获得识别性能好的模型,从而导致使用这样的模型对人脸进行识别时不能取得较高的准确度。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练分类模型的方法和装置以及分类方法。
根据本公开的一方面,提供了一种训练分类模型的方法,包括:使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
根据本公开的另一方面,提供了一种训练分类模型的装置,包括:训练单元,被配置成使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;向量提取单元,被配置成提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;平均向量计算单元,被配置成计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;损失计算单元,被配置成基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;总损失计算单元,被配置成基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及调整单元,被配置成基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
根据本公开的又一方面,提供了一种使用根据上述方法或装置进行训练所获得的分类模型对待分类对象进行分类的分类方法,包括:将所述待分类对象输入到所述分类模型中,并且基于所述分类模型的特征提取层中至少之一的输出对所述待分类对象进行分类。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品,以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的实施例的训练分类模型的方法的流程图;
图2是示出根据本公开的实施例的训练分类模型的装置的框图;
图3是示出根据本公开的实施例的利用分类模型进行分类的方法的流程图;
图4是示出根据本公开的实施例的利用分类模型进行分类的装置的框图;以及
图5是示出作为本公开的实施例中可采用的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1描述根据本公开的实施例的训练分类模型的方法的流程图。如图1所示,根据本公开的实施例的训练分类模型的方法100可以包括步骤S101至S113。
在步骤S102中,可以使用第一样本集和第二样本集对分类模型进行训练,以计算分类模型的分类损失。
根据本公开的一个实施例,第一样本集可以指整个样本集中的头部数据样本集,并且第二样本集可以指整个样本集中的除了第一样本集以外的长尾数据样本集。本领域技术人员可以根据需要,将训练样本集中的样本的数目不小于预定阈值的样本构成的集合用作头部数据样本集,并且将训练样本集中的样本的数目小于该预定阈值的样本构成的集合用作长尾数据样本集。
根据本公开的一个实施例,在步骤S102中,可以使用本领域常用的损失函数如Softmax损失函数来计算分类模型的分类损失。此外,本领域技术人员还可以想到损失函数的其他示例,这里不再累述。
根据本公开的一个实施例,分类模型可以是基于神经网络的模型,诸如卷积神经网络(CNN)模型,但不限于此,并且本领域技术人员可以根据实际需要选择适当的模型,这里将不再赘述。
在步骤S104中,可以提取第一样本集和第二样本集中的每个样本的权重向量和特征向量。
可以利用本领域常用的方式获得每个样本的权重向量和特征向量,在此不再累述。
在步骤S106中,可以计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量。
根据本公开的一个实施例,可以采用下面的等式(1)和等式(2)来分别计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量:
Figure BDA0002274938680000041
Figure BDA0002274938680000042
其中,wmean表示平均权重向量,m表示第一样本集中的第一样本的数目,Ch表示第一样本集,wj表示第一样本集中的第j个样本的权重向量,fmean表示平均特征向量,fj表示第一样本集中的第j个样本的特征向量。
在步骤S108中,可以基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失,并且基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失。
根据本公开的一个实施例,可以采用下面的等式(3)和等式(4)来分别计算权重损失和特征损失:
Figure BDA0002274938680000051
Figure BDA0002274938680000052
其中,LW_up表示权重损失,Cl表示第二样本集,wi表示第二样本集中的第i个样本的权重向量,LF_up表示特征损失,fi表示第二样本集中的第i个样本的特征向量。
在步骤S110中,可以基于特征损失和权重损失中的至少一个以及分类损失来计算分类模型的总损失。
根据本公开的一个实施例,可以采用下面的等式(5)来计算分类模型的总损失:
L=LC1LW_up2LF_up (5)
其中,L表示分类模型的总损失,LC表示在步骤S102中计算的分类模型的分类损失,λ1和λ2为超参数。
λ1和λ2可以决定在总损失L中,LC、LW_up和LF_up中的哪一个或哪几个损失起主导作用。本领域技术人员可以根据实际需要设定λ1和λ2的值,并且可以基于特征损失和权重损失中的任一者或两者以及分类损失来计算分类模型的总损失。
当基于权重损失LW_up和特征损失LF_up两者以及分类模型的分类损失LC来计算分类模型的总损失时,等式(5)中的λ1被设置为大于0,λ2被设置为大于0。
当仅基于权重损失LW_up和分类模型的分类损失LC来计算分类模型的总损失时,等式(5)中的λ2被设置为0,λ1被设置为大于0。在这种情况下,在步骤S104中可以仅提取第一样本集和第二样本集中的每个样本的权重向量,在步骤S106中可以仅计算第一样本集中的所有样本的权重向量的平均权重向量,并且在步骤S108中可以仅基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失。
当仅基于特征损失LF_up和分类模型的分类损失LC来计算分类模型的总损失时,等式(5)中的λ1被设置为0,λ2被设置为大于0。在这种情况下,在步骤S104中可以仅提取第一样本集和第二样本集中的每个样本的特征向量,在步骤S106中可以仅计算第一样本集中的所有样本的特征向量的平均特征向量,并且在步骤S108中可以仅基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失。
在步骤S112中,可以基于总损失来调整分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
根据本公开的一个实施例,在步骤S112中,朝着使总损失最小的方向调整分类模型的参数。然后,迭代地进行步骤S102至步骤S112中的处理,直到满足预定条件。根据本公开的一个实施例,预定条件可以是分类模型的总损失达到预定值(足够小)或者迭代达到预定次数。本领域技术人员可以根据实际需要设定该预定条件,这里不再赘述。
根据本公开的实施例的训练分类模型的方法具有广泛的应用。例如,根据本公开的实施例的训练分类模型的方法可以应用于人脸识别领域。在人脸识别应用中,可以将人脸图像样本的数目不小于预定阈值的人的人脸图像样本构成的集合定义为头部数据样本集(第一样本集),将人脸图像样本的数目小于该预定阈值的人的人脸图像样本构成的集合定义为长尾数据样本集(第二样本集),并且本领域技术人员可以根据实际需要适当地设定该预定阈值。
由于在现实世界中,人脸数据样本通常呈现长尾分布。也就是说,只有一小部分人具有足够的样本,而对于其他大部分人来说,只有很少的样本可用。使用这样的呈现长尾分布的训练样本集对人脸识别模型(分类模型)进行训练难以获得识别性能好的模型,从而导致使用这样的模型对人脸进行识别时不能取得较高的准确度。这主要是由于,当用整个训练数据样本集训练分类模型时,与头部数据样本相比,长尾数据样本的权重向量和特征向量的模非常小,从而严重影响了模型的识别性能以及人脸识别的准确度。
在根据本公开的实施例的训练分类模型的方法中,使用长尾数据样本集(第二样本集)中的每个样本的权重向量与头部数据样本集(第一样本集)中的所有样本的权重向量的平均权重向量之间的差作为权重损失,使用长尾数据样本集(第二样本集)中的每个样本的特征向量与头部数据样本集(第一样本集)中的所有样本的特征向量的平均特征向量之间的差作为特征损失,并且在分类模型的总损失中考虑了该权重损失和/或特征损失,因此根据本公开的实施例的训练分类模型的方法可以使得长尾数据样本的权重向量和特征向量的模基本上等于头部数据样本的权重向量和特征向量的模,从而极大地提高了分类模型的识别(分类)性能以及人脸识别的准确度。因此根据本公开的实施例的训练分类模型的方法可以获得分类性能好的分类模型,从而极大地提高分类的准确度。
注意,虽然描述了根据本公开的实施例的训练分类模型的方法应用于人脸识别领域的应用示例,但是该训练分类模型的方法的应用不限于此,并且本领域技术人员可以根据实际需要将训练分类模型的方法应用于各种方面,例如进行动物识别等,这里将不再赘述。
与上述训练分类模型的方法相对应的,本公开还提供了以下训练分类模型的装置。
图2是示出根据本公开的实施例的训练分类模型的装置的框图。如图2所示,根据本公开实施例的训练分类模型的装置200可以包括:训练单元202、向量提取单元204、平均向量计算单元206、损失计算单元208、总损失计算单元210和调整单元212。
训练单元202可以被配置成使用第一样本集和第二样本集对分类模型进行训练,以计算分类模型的分类损失。向量提取单元204可以被配置成提取第一样本集和第二样本集中的每个样本的权重向量和特征向量。平均向量计算单元206可以被配置成计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量。损失计算单元208可以被配置成基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失,并且基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失。总损失计算单元210可以被配置成基于特征损失和权重损失中的至少一个以及分类损失来计算分类模型的总损失。调整单元212可以被配置成基于总损失来调整分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
根据本公开的一个实施例,第一样本集可以指整个样本集中的头部数据样本集,并且第二样本集可以指整个样本集中的除了第一样本集以外的长尾数据样本集。本领域技术人员可以根据需要,将训练样本集中的样本的数目不小于预定阈值的样本构成的集合用作头部数据样本集,并且将训练样本集中的样本的数目小于该预定阈值的样本构成的集合用作长尾数据样本集。
根据本公开的一个实施例,训练单元202可以使用Softmax损失函数来计算分类模型的分类损失。此外,本领域技术人员还可以想到损失函数的其他示例,这里不再累述。
根据本公开的一个实施例,分类模型可以是基于神经网络的模型,诸如卷积神经网络(CNN)模型,但不限于此,并且本领域技术人员可以根据实际需要选择适当的模型,这里将不再赘述。
根据本公开的一个实施例,向量提取单元204可以利用本领域常用的方式获得每个样本的权重向量和特征向量,这里不再累述。
根据本公开的一个实施例,平均向量计算单元206可以采用上面的等式(1)和等式(2)来分别计算第一样本集中的所有样本的权重向量的平均权重向量以及第一样本集中的所有样本的特征向量的平均特征向量。
根据本公开的一个实施例,损失计算单元208可以采用上面的等式(3)和等式(4)来分别计算权重损失和特征损失。
根据本公开的一个实施例,总损失计算单元210可以采用上面的等式(5)来计算分类模型的总损失。
当基于权重损失LW_up和特征损失LF_up两者以及分类模型的分类损失LC来计算分类模型的总损失时,上述等式(5)中的λ1被设置大于0,λ2被设置为大于0。
当仅基于权重损失LW_up和分类模型的分类损失LC来计算分类模型的总损失时,上述等式(5)中的λ2被设置为0,λ1被设置为大于0。在这种情况下,向量提取单元204可以仅提取第一样本集和第二样本集中的每个样本的权重向量,平均向量计算单元206可以仅计算第一样本集中的所有样本的权重向量的平均权重向量,并且总损失计算单元210可以仅基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失。
当仅基于特征损失LF_up和分类模型的分类损失LC来计算分类模型的总损失时,上述等式(5)中的λ1被设置为0,λ2被设置为大于0。在这种情况下,向量提取单元204可以仅提取第一样本集和第二样本集中的每个样本的特征向量,平均向量计算单元206可以仅计算第一样本集中的所有样本的特征向量的平均特征向量,并且总损失计算单元210可以仅基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失。
根据本公开的一个实施例,调整单元212可以朝着使总损失最小的方向调整分类模型的参数。然后,迭代地进行训练单元202、向量提取单元204、平均向量计算单元206、损失计算单元208、总损失计算单元210和调整单元212中的处理,直到满足预定条件。根据本公开的一个实施例,预定条件可以是分类模型的总损失达到预定值(足够小)或者迭代达到预定次数。本领域技术人员可以根据实际需要设定该预定条件,这里不再赘述。
与上述根据本公开的实施例的训练分类模型的方法类似地,根据本公开的实施例的训练分类模型的装置具有广泛的应用。例如,根据本公开的实施例的训练分类模型的装置可以应用于人脸识别领域。
在根据本公开的实施例的训练分类模型的装置中,使用长尾数据样本集(第二样本集)中的每个样本的权重向量与头部数据样本集(第一样本集)中的所有样本的权重向量的平均权重向量之间的差作为权重损失,使用长尾数据样本集(第二样本集)中的每个样本的特征向量与头部数据样本集(第一样本集)中的所有样本的特征向量的平均特征向量之间的差作为特征损失,并且在分类模型的总损失中考虑了该权重损失和/或特征损失,因此根据本公开的实施例的训练分类模型的方法可以使得长尾数据样本的权重向量和特征向量的模基本上等于头部数据样本的权重向量和特征向量的模,从而极大地提高了分类模型的识别(分类)性能以及人脸识别的准确度。因此根据本公开的实施例的训练分类模型的装置可以获得分类性能好的分类模型,从而极大地提高分类的准确度。
注意,虽然描述了根据本公开的实施例的训练分类模型的装置应用于人脸识别领域的应用示例,但是该训练分类模型的装置的应用不限于此,并且本领域技术人员可以根据实际需要将训练分类模型的装置应用于各种方面,例如进行动物识别等,这里将不再赘述。
此外,本公开还提出了一种使用根据上述训练分类模型的方法或装置进行训练所获得的分类模型对待分类对象进行分类的方法。
图3是示出根据本公开的实施例的利用所获得的分类模型对待分类对象进行分类的方法的流程图。如图3所示,根据本公开的实施例的分类方法300可以包括开始步骤S301、分类步骤302和结束步骤S303。在分类步骤S302中,可以将待分类对象输入到分类模型中,并且基于分类模型的特征提取层中至少之一的输出对待分类对象进行分类。
例如,可以预先将多个对象输入分类模型,由此得到针对这多个对象的特征提取层的输出。在这种情况下,在分类步骤S302中,可以将待分类对象输入分类模型,并且基于针对待分类对象的至少一个特征提取层的输出与针对多个对象中的每一个对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,在分类步骤S302中,可以将待分类对象确定为其相应的特征提取层的输出与针对待分类对象的相应的特征提取层的输出之间的差异最小的对象。
此外,例如,在将待分类对象输入分类模型的情况下,可以将另外的对象输入分类模型,并且在分类步骤S302中,可以基于针对待分类对象的至少一个特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,在分类步骤S302中,可以在针对待分类对象的相应的特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的差异小于预定阈值的情况下,将待分类对象确定为另外的对象。
作为示例,在分类模型是包括作为特征提取层的全连接层和至少一个卷积层的卷积神经网络模型的情况下,例如,在分类步骤S302中,可以基于全连接层的输出对待分类对象进行分类。
与上述利用分类模型进行分类的方法实施例相对应地,本公开还提供了一种使用根据上述训练分类模型的方法或装置进行训练所获得的分类模型对待分类对象进行分类的装置。
图4是示出根据本公开的实施例的利用所获得的分类模型对待分类对象进行分类的装置的框图。如图4所示,根据本公开的实施例的利用分类模型进行分类的分类装置400可以包括分类单元402,该分类单元402可以被配置成将待分类对象输入分类模型,并且基于分类模型的特征提取层中至少之一的输出对待分类对象进行分类。
例如,装置400可以预先将多个对象输入分类模型,由此得到针对这多个对象的特征提取层的输出。在这种情况下,分类单元402可以将待分类对象输入分类模型,并且基于针对待分类对象的特征提取层中至少之一的输出与针对多个对象中的每一个对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,分类单元402可以将待分类对象确定为其相应的特征提取层的输出与针对待分类对象的相应的特征提取层的输出之间的差异最小的对象。
此外,例如,在分类单元402将待分类对象输入分类模型的情况下,可以将另外的对象输入分类模型,并且分类单元402可以基于针对待分类对象的至少一个特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的比较,对待分类对象进行分类。例如,分类单元402可以在针对待分类对象的相应的特征提取层的输出与针对另外的对象的相应的特征提取层的输出之间的差异小于预定阈值的情况下,将待分类对象确定为该另外的对象。
作为示例,在分类模型是包括作为特征提取层的全连接层和至少一个卷积层的卷积神经网络模型的情况下,例如,分类单元402可以基于全连接层的输出对待分类对象进行分类。
应指出,尽管以上描述了根据本公开的实施例的训练分类模型的方法和装置以及利用分类模型进行分类的方法和装置的功能配置以及操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应部分的描述,在此不再重复描述。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述分类方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用个人计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等时所需的数据。
CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506,包括键盘、鼠标等;输出部分507,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分508,包括硬盘等;和通信部分509,包括网络接口卡比如LAN卡、调制解调器等。通信部分509经由网络比如因特网执行通信处理。
根据需要,驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种训练分类模型的方法,包括:
使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;
提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;
计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;
基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;
基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及
基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
附记2.根据附记1所述的方法,其中,所述权重损失和所述平均权重向量分别基于下式来计算:
Figure BDA0002274938680000131
Figure BDA0002274938680000132
其中,LW_up表示所述权重损失,Cl表示所述第二样本集,wi表示所述第二样本集中的第i个样本的权重向量,wmean表示所述平均权重向量,Ch表示所述第一样本集,m表示所述第一样本集中的第一样本的数目,wj表示所述第一样本集中的第j个样本的权重向量。
附记3.根据附记1所述的方法,其中,所述特征损失和所述平均特征向量分别基于下式来计算:
Figure BDA0002274938680000133
Figure BDA0002274938680000134
其中,LF_up表示所述特征损失,Cl表示所述第二样本集,fi表示所述第二样本集中的第i个样本的特征向量,fmean表示所述平均特征向量,Ch表示所述第一样本集,m表示所述第一样本集中的第一样本的数目,fj表示所述第一样本集中的第j个样本的特征向量。
附记4.根据附记1所述的方法,其中,所述第一样本集包括头部数据样本集,以及所述第二样本集包括长尾数据样本集。
附记5.根据附记1所述的方法,其中,所述分类损失包括Softmax损失。
附记6.根据附记1所述的方法,其中,所述预定条件包括所述总损失达到预定值或所述训练的次数达到预定次数。
附记7.根据附记1所述的方法,其中,所述分类模型包括基于神经网络的模型。
附记8.根据附记1所述的方法,其中,所述总损失基于下式来计算:
L=LC1LW_up2LF_up
其中,L表示所述分类模型的总损失,LC表示所述分类模型的分类损失,LW_up表示所述权重损失,LF_up表示所述特征损失,λ1和λ2为超参数。
附记9.根据附记8所述的方法,其中,当基于所述分类损失、所述权重损失和所述特征损失来计算所述总损失时,λ1和λ2均被设置为大于0;当基于所述分类损失和所述权重损失来计算所述总损失时,λ1被设置为大于0,λ2被设置为等于0;以及当基于所述分类损失和所述特征损失来计算所述总损失时,λ1被设置为等于0,λ2被设置为大于0。
附记10.根据附记1所述的方法,其中,所述分类模型用于进行人脸识别。
附记11.一种训练分类模型的装置,包括:
训练单元,被配置成使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;
向量提取单元,被配置成提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;
平均向量计算单元,被配置成计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;
损失计算单元,被配置成基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;
总损失计算单元,被配置成基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及
调整单元,被配置成基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
附记12.根据附记11所述的装置,其中,所述权重损失和所述平均权重向量分别基于下式来计算:
Figure BDA0002274938680000151
Figure BDA0002274938680000152
其中,LW_up表示所述权重损失,Cl表示所述第二样本集,wi表示所述第二样本集中的第i个样本的权重向量,wmean表示所述平均权重向量,Ch表示所述第一样本集,m表示所述第一样本集中的第一样本的数目,wj表示所述第一样本集中的第j个样本的权重向量。
附记13.根据附记11所述的装置,其中,所述特征损失和所述平均特征向量分别基于下式来计算:
Figure BDA0002274938680000153
Figure BDA0002274938680000154
其中,LF_up表示所述特征损失,Cl表示所述第二样本集,fi表示所述第二样本集中的第i个样本的特征向量,fmean表示所述平均特征向量,Ch表示所述第一样本集,m表示所述第一样本集中的第一样本的数目,fj表示所述第一样本集中的第j个样本的特征向量。
附记14.根据附记11所述的装置,其中,所述第一样本集包括头部数据样本集,以及所述第二样本集包括长尾数据样本集。
附记15.根据附记11所述的装置,其中,所述分类损失包括Softmax损失。
附记16.根据附记11所述的装置,其中,所述预定条件包括所述总损失达到预定值或所述训练的次数达到预定次数。
附记17.根据附记11所述的装置,其中,所述分类模型包括基于神经网络的模型。
附记18.根据附记11所述的装置,其中,所述总损失基于下式来计算:
L=LC1LW_up2LF_up
其中,L表示所述分类模型的总损失,LC表示所述分类模型的分类损失,LW_up表示所述权重损失,LF_up表示所述特征损失,λ1和λ2为超参数。
附记19.根据附记18所述的装置,其中,当基于所述分类损失、所述权重损失和所述特征损失来计算所述总损失时,λ1和λ2均被设置为大于0;当基于所述分类损失和所述权重损失来计算所述总损失时,λ1被设置为大于0,λ2被设置为等于0;以及当基于所述分类损失和所述特征损失来计算所述总损失时,λ1被设置为等于0,λ2被设置为大于0。
附记20.一种使用根据附记1至10中任一项所述的方法或根据附记11至19中任一项所述的装置进行训练所获得的分类模型对待分类对象进行分类的分类方法,包括:
将所述待分类对象输入到所述分类模型中,并且基于所述分类模型的特征提取层中至少之一的输出对所述待分类对象进行分类。

Claims (10)

1.一种训练分类模型的方法,包括:
使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;
提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;
计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;
基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;
基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及
基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
2.根据权利要求1所述的方法,其中,所述权重损失和所述平均权重向量分别基于下式来计算:
Figure FDA0002274938670000011
Figure FDA0002274938670000012
其中,LW_up表示所述权重损失,Cl表示所述第二样本集,wi表示所述第二样本集中的第i个样本的权重向量,wmean表示所述平均权重向量,Ch表示所述第一样本集,m表示所述第一样本集中的第一样本的数目,wj表示所述第一样本集中的第j个样本的权重向量。
3.根据权利要求1所述的方法,其中,所述特征损失和所述平均特征向量分别基于下式来计算:
Figure FDA0002274938670000013
Figure FDA0002274938670000021
其中,LF_up表示所述特征损失,Cl表示所述第二样本集,fi表示所述第二样本集中的第i个样本的特征向量,fmean表示所述平均特征向量,Ch表示所述第一样本集,m表示所述第一样本集中的第一样本的数目,fj表示所述第一样本集中的第j个样本的特征向量。
4.根据权利要求1所述的方法,其中,所述第一样本集包括头部数据样本集,以及所述第二样本集包括长尾数据样本集。
5.根据权利要求1所述的方法,其中,所述分类损失包括Softmax损失。
6.根据权利要求1所述的方法,其中,所述预定条件包括所述总损失达到预定值或所述训练的次数达到预定次数。
7.根据权利要求1所述的方法,其中,所述分类模型包括基于神经网络的模型。
8.一种训练分类模型的装置,包括:
训练单元,被配置成使用第一样本集和第二样本集对所述分类模型进行训练,以计算所述分类模型的分类损失;
向量提取单元,被配置成提取所述第一样本集和所述第二样本集中的每个样本的权重向量和特征向量;
平均向量计算单元,被配置成计算所述第一样本集中的所有样本的权重向量的平均权重向量以及所述第一样本集中的所有样本的特征向量的平均特征向量;
损失计算单元,被配置成基于所述第二样本集中的每个样本的权重向量与所述平均权重向量之间的差来计算权重损失,并且基于所述第二样本集中的每个样本的特征向量与所述平均特征向量之间的差来计算特征损失;
总损失计算单元,被配置成基于所述特征损失和所述权重损失中的至少一个以及所述分类损失来计算所述分类模型的总损失;以及
调整单元,被配置成基于所述总损失来调整所述分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
9.根据权利要求8所述的装置,其中,所述第一样本集包括头部数据样本集,以及所述第二样本集包括长尾数据样本集。
10.一种使用根据权利要求1至7中任一项所述的方法或根据权利要求8至9中任一项所述的装置进行训练所获得的分类模型对待分类对象进行分类的分类方法,包括:
将所述待分类对象输入到所述分类模型中,并且基于所述分类模型的特征提取层中至少之一的输出对所述待分类对象进行分类。
CN201911119156.0A 2019-11-15 2019-11-15 训练分类模型的方法和装置及分类方法 Pending CN112819020A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911119156.0A CN112819020A (zh) 2019-11-15 2019-11-15 训练分类模型的方法和装置及分类方法
EP20201738.0A EP3822860A1 (en) 2019-11-15 2020-10-14 Method and apparatus for training classification model, and classification method
JP2020174159A JP2021082269A (ja) 2019-11-15 2020-10-15 分類モデルを訓練する方法及び装置並びに分類方法
US17/076,320 US11514264B2 (en) 2019-11-15 2020-10-21 Method and apparatus for training classification model, and classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911119156.0A CN112819020A (zh) 2019-11-15 2019-11-15 训练分类模型的方法和装置及分类方法

Publications (1)

Publication Number Publication Date
CN112819020A true CN112819020A (zh) 2021-05-18

Family

ID=72885396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911119156.0A Pending CN112819020A (zh) 2019-11-15 2019-11-15 训练分类模型的方法和装置及分类方法

Country Status (4)

Country Link
US (1) US11514264B2 (zh)
EP (1) EP3822860A1 (zh)
JP (1) JP2021082269A (zh)
CN (1) CN112819020A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095304A (zh) * 2021-06-08 2021-07-09 成都考拉悠然科技有限公司 减弱重采样对行人重识别的影响的方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11341026B2 (en) * 2020-01-06 2022-05-24 EMC IP Holding Company LLC Facilitating detection of anomalies in data center telemetry
US11416506B2 (en) 2020-04-29 2022-08-16 EMC IP Holding Company LLC Facilitating temporal data management for anomalous state detection in data centers
US11756290B2 (en) * 2020-06-10 2023-09-12 Bank Of America Corporation System for intelligent drift matching for unstructured data in a machine learning environment
CN113792821B (zh) * 2021-11-15 2022-02-15 北京爱笔科技有限公司 一种用于提取人体骨骼特征的模型训练方法及装置
CN114330573A (zh) * 2021-12-30 2022-04-12 济南博观智能科技有限公司 一种目标检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
CN104731919A (zh) * 2015-03-26 2015-06-24 浪潮集团有限公司 一种基于AdaBoost算法的微信公众号用户分类方法
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置
US20190034833A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Model Training Method and Apparatus

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844567B2 (en) * 2007-08-13 2010-11-30 Yahoo! Inc. System and method for selecting a training sample from a sample test based on data sample proximity
US7996762B2 (en) * 2007-09-21 2011-08-09 Microsoft Corporation Correlative multi-label image annotation
CN101359372B (zh) * 2008-09-26 2011-05-11 腾讯科技(深圳)有限公司 分类器的训练方法及装置、识别敏感图片的方法及装置
US9679256B2 (en) * 2010-10-06 2017-06-13 The Chancellor, Masters And Scholars Of The University Of Cambridge Automated assessment of examination scripts
US20190339688A1 (en) * 2016-05-09 2019-11-07 Strong Force Iot Portfolio 2016, Llc Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things
CN106127103B (zh) * 2016-06-12 2019-06-25 广州广电运通金融电子股份有限公司 一种离线身份认证的方法和装置
US10685008B1 (en) * 2016-08-02 2020-06-16 Pindrop Security, Inc. Feature embeddings with relative locality for fast profiling of users on streaming data
US10546232B2 (en) * 2017-07-04 2020-01-28 Microsoft Technology Licensing, Llc Image recognition with promotion of underrepresented classes
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
US11087174B2 (en) * 2018-09-25 2021-08-10 Nec Corporation Deep group disentangled embedding and network weight generation for visual inspection
US11295240B2 (en) * 2019-06-15 2022-04-05 Boult Terrance E Systems and methods for machine classification and learning that is robust to unknown inputs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
CN104731919A (zh) * 2015-03-26 2015-06-24 浪潮集团有限公司 一种基于AdaBoost算法的微信公众号用户分类方法
US20190034833A1 (en) * 2016-03-31 2019-01-31 Alibaba Group Holding Limited Model Training Method and Apparatus
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALESSANDRO CALEFATI 等: "Git Loss for Deep Face Recognition", 《ARXIV》, pages 3 - 12 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095304A (zh) * 2021-06-08 2021-07-09 成都考拉悠然科技有限公司 减弱重采样对行人重识别的影响的方法

Also Published As

Publication number Publication date
US20210150261A1 (en) 2021-05-20
EP3822860A1 (en) 2021-05-19
US11514264B2 (en) 2022-11-29
JP2021082269A (ja) 2021-05-27

Similar Documents

Publication Publication Date Title
CN112819020A (zh) 训练分类模型的方法和装置及分类方法
US20200097818A1 (en) Method and system for training binary quantized weight and activation function for deep neural networks
CN111160533B (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
WO2022041678A1 (zh) 张量协作图判别分析遥感图像特征提取方法
CN101937513B (zh) 信息处理设备、信息处理方法
US9411883B2 (en) Audio signal processing apparatus and method, and monitoring system
CN111461155A (zh) 训练分类模型的装置和方法
CN110889487A (zh) 神经网络架构搜索装置和方法及计算机可读记录介质
CN110875912A (zh) 一种基于深度学习的网络入侵检测方法、装置和存储介质
Wu et al. End-to-end chromosome Karyotyping with data augmentation using GAN
CN112508085A (zh) 基于感知神经网络的社交网络链路预测方法
CN112434732A (zh) 一种基于特征筛选的深度学习分类方法
CN109815971B (zh) 信息处理方法和信息处理装置
CN112766355A (zh) 一种标签噪声下的脑电信号情绪识别方法
CN113850162A (zh) 一种视频审核方法、装置及电子设备
CN112070131A (zh) 一种基于部分深度学习理论的入侵检测方法
CN113283524A (zh) 一种基于对抗攻击的深度神经网络近似模型分析方法
CN108009434B (zh) 基于粗糙集α-正域约简的富模型隐写检测特征选取方法
CN114332523A (zh) 用分类模型进行分类的装置和方法及计算机可读存储介质
Zhang et al. A new JPEG image steganalysis technique combining rich model features and convolutional neural networks
CN112784635A (zh) 信息处理装置和方法以及利用模型分类的装置
M Salman et al. Solve cocktail party problem based on hybrid method
CN108875758B (zh) 信息处理方法和装置以及信息检测方法和装置
CN116311026A (zh) 基于多层级信息融合Transformer的教室场景身份识别方法
CN111930885B (zh) 文本话题的抽取方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210518