CN114332523A - 用分类模型进行分类的装置和方法及计算机可读存储介质 - Google Patents

用分类模型进行分类的装置和方法及计算机可读存储介质 Download PDF

Info

Publication number
CN114332523A
CN114332523A CN202011061801.0A CN202011061801A CN114332523A CN 114332523 A CN114332523 A CN 114332523A CN 202011061801 A CN202011061801 A CN 202011061801A CN 114332523 A CN114332523 A CN 114332523A
Authority
CN
China
Prior art keywords
image group
contribution
images
features
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011061801.0A
Other languages
English (en)
Inventor
张梦
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN202011061801.0A priority Critical patent/CN114332523A/zh
Priority to JP2021137216A priority patent/JP2022058189A/ja
Priority to US17/460,316 priority patent/US11790046B2/en
Publication of CN114332523A publication Critical patent/CN114332523A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种利用预先训练的分类模型进行分类的装置和方法以及计算机可读存储介质。上述装置包括:特征提取单元,被配置成利用预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征;贡献计算单元,被配置成利用预先训练的分类模型的贡献计算层计算多个图像中的每个图像对目标图像组的分类结果的贡献;特征融合单元,被配置成基于通过贡献计算单元所计算出的多个图像的贡献,对通过特征提取单元提取的多个图像的特征进行融合,从而获得融合后的特征作为目标图像组的特征;以及分类单元,被配置成基于目标图像组的特征,对目标图像组进行分类。

Description

用分类模型进行分类的装置和方法及计算机可读存储介质
技术领域
本公开涉及信息处理领域,具体涉及一种利用分类模型进行分类的装置和方法以及计算机可读存储介质。
背景技术
基于诸如视频的图像组的对象分类(例如,面部识别)由于其在视频监视和安全认证等领域的广泛的应用而在学术界和工业界中受到越来越多的关注。与基于静止图像的对象分类不同,视频的图像质量相对较低,例如对象的姿态变化大、容易出现遮挡等,这可能引起分类性能降低。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练分类模型的装置和方法、以及利用分类模型进行分类的装置和方法。
根据本公开的一方面,提供了一种利用预先训练的分类模型进行分类的装置,包括:特征提取单元,被配置成利用所述预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征;贡献计算单元,被配置成利用所述预先训练的分类模型的贡献计算层计算所述多个图像中的每个图像对所述目标图像组的分类结果的贡献;特征融合单元,被配置成基于通过所述贡献计算单元所计算出的所述多个图像的贡献,对通过所述特征提取单元提取的所述多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征;以及分类单元,被配置成基于所述目标图像组的特征,对所述目标图像组进行分类。
根据本公开的另一方面,提供了一种用于利用预先训练的分类模型进行分类的方法,包括:特征提取步骤,用于利用所述预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征;贡献计算步骤,用于利用所述预先训练的分类模型的贡献计算层计算所述多个图像中的每个图像对所述目标图像组的分类结果的贡献;特征融合步骤,用于基于通过所述贡献计算步骤所计算出的所述多个图像的贡献,对通过所述特征提取步骤提取的所述多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征;以及分类步骤,用于基于所述目标图像组的特征,对所述目标图像组进行分类。。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品,以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的实施例的利用预先训练的分类模型进行分类的装置的功能配置示例的框图;
图2是示出根据本公开的实施例的利用预先训练的分类模型进行分类的装置的一种具体实现方式的架构示例的框图;
图3A、图3B和图3C是示出根据本公开的实施例所采用的示例性贡献损失函数所带来的有益效果的示意图;
图4A和图4B是示出根据本公开的实施例的利用预先训练的分类模型进行分类的装置与现有技术的装置的分类精度之间的比较;
图5是示出根据本公开的实施例的利用预先训练的分类模型进行分类的方法的流程示例的流程图;
图6是示出根据本公开的实施例的对初始分类模型进行训练的装置的功能配置示例的框图;以及
图7是示出作为本公开的实施例中可采用的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1和图2描述根据本公开的实施例的利用预先训练的分类模型进行分类的装置的实现示例。图1是示出根据本公开的实施例的利用预先训练的分类模型进行分类的装置100的功能配置示例的框图。图2是示出根据本公开的实施例的利用预先训练的分类模型进行分类的装置的一种具体实现方式的架构示例的框图。
如图1和图2所示,根据本公开的实施例的利用预先训练的分类模型进行分类的装置100可以包括特征提取单元102、贡献计算单元104、特征融合单元106和分类单元108。
特征提取单元102可以被配置成利用预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征。例如,一个目标图像组可以对应于一个视频片段。在这种情况下,一个目标图像组可以包括相应的视频片段的所有帧或帧的一部分。此外,例如,同一目标图像组中所包括的各个图像可以均涉及同一对象。然而,同一目标图像组也可以包括涉及两个或更多个对象的多个图像。
另外,例如,如图2所示,目标图像组可以由人的面部图像组成。例如,目标图像组可以是包括人的面部的一个视频片段的所有帧或帧的一部分。然而,目标图像组并不限于此,并且目标图像组可以包括其他图像,这里将不再赘述。
预先训练的分类模型可以是任意合适的预先训练的分类模型,例如,预先训练的深度学习网络模型,比如预先训练的卷积神经网络模型。
图2示出在采用预先训练的卷积神经网络模型作为预先训练的分类模型的情况下,根据本公开的实施例的装置100的一种具体实现方式的架构示例。如图2所示,预先训练的分类模型的特征提取层可以包括卷积神经网络模型的一个或更多个卷积层C以及一个全连接层FC1。注意,预先训练的分类模型的特征提取层不限于图2所示的示例,并且本领域技术人员可以根据实际需要设置相应的特征提取层,这里将不再赘述。
贡献计算单元104可以被配置成利用预先训练的分类模型的贡献计算层计算上述多个图像中的每个图像对目标图像组的分类结果的贡献。例如,贡献可以表示每个图像对目标图像组的分类结果的影响程度,比如,正面影响程度。比如,对于某个图像,该图像对目标图像组的分类结果的正面影响程度越大或者该图像使得目标图像组被正确分类的可能性越大,该图像的贡献越大。
如图2所示,在采用预先训练的卷积神经网络模型作为预先训练的分类模型的情况下,贡献计算层可以包括卷积神经网络模型的一个或更多个卷积层C以及一个全连接层FC2。注意,预先训练的分类模型的贡献计算层不限于图2所示的示例,比如,贡献计算层可以仅包括一个全连接层FC2。另外,本领域技术人员可以根据实际需要设置相应的特征提取层,这里将不再赘述。
另外,要注意的是,虽然在图2中示出贡献计算单元104基于特征提取的某个阶段的图像的特征而计算图像的贡献,然而,在实际应用过程中,贡献计算单元104可以直接基于目标图像组所包括的图像而计算图像的贡献。
此外,如本领域技术人员可以理解的,图2中所示出的不同卷积层和全连接层的结构参数可以不同。
特征融合单元106可以被配置成基于通过贡献计算单元104所计算出的多个图像的贡献,对通过特征提取单元102提取的多个图像的特征进行融合,从而获得融合后的特征所述目标图像组的特征。
分类单元108可以被配置成基于目标图像组的特征,对目标图像组进行分类。例如,分类单元108可以基于目标图像组的特征,对目标图像组进行识别。
根据本公开的实施例,特征融合单元106可以进一步被配置成基于通过贡献计算单元104所计算出的目标图像组所包括的多个图像的贡献,对通过特征提取单元102提取的多个图像的特征进行加权平均,并且将所获得的结果作为目标图像组的特征。例如,在目标图像组对应于视频片段的情况下,目标图像组的特征可以称为“视频层级特征”。
例如,特征融合单元106可以根据下式(1)获得目标图像组的特征FV
Figure BDA0002712631850000051
在式(1)中,f1、f2和fm分别表示目标图像组中的第一图像I1、第二图像I2和第m图像Im的通过特征提取单元102所提取的特征,wi表示相应的目标图像组中的第i图像的通过贡献计算单元104所计算出的贡献。
例如,根据本公开的实施例,特征融合单元106可以进一步被配置成基于目标样本所包括的多个图像中的、贡献大于或等于预定阈值的一个或更多个图像的贡献,对上述一个或更多个图像的特征进行融合,从而获得融合后的特征作为目标图像组的特征。例如,特征融合单元106可以基于目标样本所包括的多个图像中的、贡献大于或等于预定阈值的一个或更多个图像的贡献,对上述一个或更多个图像的特征进行加权平均,从而获得融合后的特征作为目标图像组的特征。
注意,虽然上面描述了特征融合单元106对目标图像组所包括的全部或部分样本图像的特征进行融合以获得目标图像组的特征的示例方式,然而获得目标图像组的特征的方式不限于上述示例方式,并且本领域技术人员可以根据实际需要采取适当的方式来获得目标图像组的特征。例如,还可以采用目标图像组中的贡献最大的图像的特征作为目标图像组的特征。
如上所述,根据本公开的实施例的利用预先训练的分类模型进行分类的装置100计算目标图像组中的各个图像的贡献,并且基于所计算出的贡献对目标图像组中的各个图像的特征进行融合,从而基于融合后的特征对目标图像组进行分类。与简单地基于目标图像组所包括的各个图像的特征的均值来对目标图像组进行分类的现有技术相比,根据本公开的实施例的装置100可以在考虑目标图像组中的相应图像对分类结果的贡献的情况下基于目标图像组中的一个或更多个图像的特征对目标图像组进行分类,使得可以提高分类精度。
通过实验分析,图像的贡献可以与图像的质量相关。图像的质量越高,相应的贡献越大。然而,要注意的是,图像的贡献并不等同于图像的质量。例如,如上所述,贡献可以表示每个图像对目标图像组的分类结果的影响程度,比如,正面影响程度。
根据本公开的实施例,对于目标图像组所包括的多个图像中的每个图像,该图像对目标图像组的分类结果的贡献可以通过标量表示。例如,每个图像的贡献可以通过一个大于0的数值表示。比如,每个图像的贡献可以通过特定范围内(比如,0至20)的一个数值表示。上述特定范围可以根据经验或实验确定。
可替选地,根据本公开的实施例,对于目标图像组所包括的多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献包括该图像的每个维度的特征对所述目标图像组的分类结果的贡献。例如,在某一图像的特征为N维(例如,512维)的情况下,该图像的贡献可以通过一个N维的贡献向量来表示。其中,贡献向量中的各个元素表示相应的图像的特征的各个维度对分类结果的贡献。通过针对图像的特征的各个维度计算贡献,例如使得可以进一步提高分类精度。
根据本公开的实施例,预先训练的分类模型是可以是利用包括至少一个样本图像组的训练样本集、通过如下方式对初始分类模型进行训练而得到的:利用初始分类模型的特征提取层提取上述至少一个样本图像组中的每个样本图像的特征;针对每个样本图像组,利用初始分类模型的贡献计算层计算该样本图像组所包括的各个样本图像对该样本图像组的分类结果的贡献;针对每个样本图像组,基于该样本图像组的各个样本图像的贡献,对该样本图像组的各个样本图像的特征进行融合,从而获得融合后的特征作为该样本图像组的特征;以及利用每个样本图像组的特征,基于针对初始分类模型的损失函数来训练初始分类模型以满足预定的收敛条件,从而得到预先训练的分类模型。
例如,预定收敛条件可以是如下中之一:训练达到预定次数;损失函数最小化;以及损失函数小于或等于预定阈值。
作为示例,可以基于任意合适的未经训练的分类模型建立初始分类模型。可替选地,例如,可以基于任意合适的现有的经训练的分类模型(诸如VGGnet模型、Resnet模型等)建立初始分类模型。比如,可以对现有的经训练的分类模型添加一个分支作为贡献计算层。通过基于现有的经训练的分类模型建立初始分类模型,使得可以简化训练过程。作为示例,在初始分类模型的训练过程中,初始分类模型的特征提取层的参数可以是固定的,例如,这使得可以进一步简化训练过程。然而,在初始分类模型的训练过程中,初始分类模型的特征提取层的参数也可以不是固定的。
根据本公开的实施例,损失函数可以包括用于表征初始分类模型的分类损失的分类损失函数。例如,可以采用基于类似Softmax的损失函数作为分类损失函数。比如,分类损失函数Lid可以通过下式(2)表示。
Figure BDA0002712631850000071
在上式(2)中,N表示一个小批次(mini-batch)中的样本图像组的数目,θ表示样本图像组的特征与相应的权重之间的角度,s和m分别是缩放因子和边缘因子。上式(2)中的各个参数的定义与参考文献1(ArcFace:Additive Angular Margin Loss for Deep FaceRecognition)中的相应参数的定义基本相同,除了θ的定义以外。在参考文献1中,θ表示样本图像的特征与相应的权重之间的角度,而如上所述,在上式(2)中,θ表示样本图像组的特征(例如,视频层级特征)与相应的权重之间的角度。
如上所述的那样,通过使用分类损失函数来对初始分类模型进行训练,使得不需要训练数据集(即,样本图像组)的贡献或质量的真值,这可以极大地减小准备训练数据集所花费的成本。
可替选地,根据本公开的实施例,损失函数可以包括分类损失函数和贡献损失函数。其中,贡献损失函数可以用于表征每个样本图像组的特征与相应的样本图像组被分类为的类别的特征中心之间的距离。例如,损失函数L可以由下式(3)表示。
L=Lid+λLc 式(3)
在上式(3)中,λ≥0,其表示权衡因子,λ越大,表示在训练过程中贡献损失函数Lc所占的比重更大。例如,贡献损失函数Lc可以由下式(4)表示。
Figure BDA0002712631850000081
在上式(4)中,
Figure BDA0002712631850000082
表示第i个样本图像组的特征,
Figure BDA0002712631850000083
表示针对训练样本集或训练样本子集的、第i个样本图像组被分类为的类别yi的特征的中心。在训练过程中
Figure BDA0002712631850000084
可以实时更新。例如,在
Figure BDA0002712631850000085
表示针对训练样本集的类别yi的特征的中心的情况下,可以通过将训练样本集中的在训练过程中已经使用过的样本图像组中的、被分类为类别yi的一个或更多个样本图像组的特征(例如,视频层级特征)求平均来获得。此外,例如,在
Figure BDA0002712631850000086
表示针对训练样本子集的类别yi的特征的中心的情况下,可以通过将训练样本子集中的在训练过程中已经使用过的样本图像组中的、被分类为类别yi的一个或更多个样本图像组的特征(例如,视频层级特征)求平均来获得。
在现有的分类模型的训练过程中,鉴于训练装置的处理能力等问题,通常采取按小批次(mini-batch)进行训练的方式,因而忽略了全局信息。通过如上所述的那样,在训练过程中引入贡献损失函数,使得可以在考虑从训练样本集或训练样本子集获得的全局信息的情况下对分类模型进行训练,使得例如可以提高所获得的经训练的分类模型的精度。
为了更好地对引入贡献损失函数所带来的有益效果进行说明,下面将参照图3A至图3C、结合基于视频的人脸识别的示例对该有益效果进行说明。
图3A是示出针对特定类别T(即,特定人)的训练样本子集以及该训练样本子集中的各个样本图像的实际特征分布和贡献分布的示意图。图3B和图3C分别是示出在没有引入贡献损失函数和引入贡献损失函数的情况下、上述训练样本子集中的在一次训练过程中被使用的多个样本图像(即,包括在一个小批次中的多个样本图像)的特征分布和贡献分布的示意图。
在图3A至图3C中,“●”、“▲”和“★”表示样本图像,其中,通过“●”表示的样本图像的实际贡献相对低,通过“★”表示的样本图像的实际贡献相对高。此外,“■”表示类别T的实际特征分布中心,“◆”表示在一次训练过程中计算得到的类别T的特征分布中心。另外,由于在与图3B和图3C对应的训练过程没有使用通过“★”表示的样本图像,因而在图3B和图3C没有描绘“★”。从图3A至图3C可见,与没有引入贡献损失函数的情况相比,在引入贡献损失函数的情况下,在一次训练过程中计算得到的类别T的特征分布中心距离类别T的实际特征分布中心更近,并且在一次训练过程中计算得到的各个样本图像的贡献更接近其实际贡献。因而,通过引入贡献损失函数,使得可以更准确地计算各个样本图像的贡献,从而使得例如可以提高所获得的预先训练的分类模型的分类精度。
下面将参照图4A和图4B、结合基于视频的人脸识别的具体示例对根据本公开的实施例的利用预先训练的分类模型进行分类的装置100在分类精度方面的有益效果进行说明。在图4A和图4B中,根据本公开的实施例的装置100所采用的预先训练的分类模型是基于ResNet50的分类模型,并且该预先训练的分类模型被表示为“CAN”。
图4A示出在使用NIST的IJB-C数据集的情况下根据本公开的实施例的装置100的分类精度和基于ArcFace的装置的分类精度之间的比较。从图4A可见,在FAR(False AcceptRate,错误接受率)=0.001%的情况下,与基于ArcFace的装置相比,根据本公开的实施例的装置100的TAR(True Accept Rate,正确接受的比例)提高约7%。
图4B示出在COX面部数据集的情况下根据本公开的实施例的装置100、基于VGGFace的装置和基于TBE-CNN的装置的分类精度之间的比较。在图4B中,V2S_1、V2S_2和V2S_3分别表示使用不同的摄像装置进行视频捕获的情况下的视频面部到静止面部识别。从图4B可见,在V2S_1的情况下,本公开的实施例的装置100的识别率相对于基于VGG Face的装置和基于TBE-CNN的装置分别提高约10%和约5%。
上文已经描述了根据本公开的实施例的利用预先训练的分类模型进行分类的装置,与上述装置的实施例相对应的,本公开还提供了以下利用预先训练的分类模型进行分类的方法的实施例。
图5是示出根据本公开的实施例的利用预先训练的分类模型进行分类的方法500的流程示例的流程图。如图5所示,根据本公开的实施例的利用预先训练的分类模型进行分类的方法500可以开始于开始步骤S502,并且结束于结束步骤S512。根据本公开的实施例的方法500可以包括特征提取步骤S504、贡献计算步骤S506、特征融合步骤S508和分类步骤S510。
在特征提取步骤S504中,可以利用预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征。例如,一个目标图像组可以对应于一个视频片段。在这种情况下,一个目标图像组可以包括相应的视频片段的所有帧或帧的一部分。例如,特征提取步骤S504可以通过上文描述的特征提取单元102来实施,具体细节在此不再赘述。
在贡献计算步骤S506中,可以利用预先训练的分类模型的贡献计算层计算上述多个图像中的每个图像对目标图像组的分类结果的贡献。例如,贡献可以表示每个图像对目标图像组的分类结果的影响程度,比如,正面影响程度。比如,对于某个图像,该图像对目标图像组的分类结果的正面影响程度越大,该图像的贡献越大。例如,贡献计算步骤S506可以通过上文描述的贡献计算单元104来实施,具体细节在此不再赘述。
在特征融合步骤S508中,可以基于通过贡献计算步骤S506所计算出的目标图像组所包括的多个图像的贡献,对通过特征提取步骤S504提取的目标图像组所包括的多个图像的特征进行融合,从而获得融合后的特征所述目标图像组的特征。例如,特征融合步骤S508可以通过上文描述的特征融合算单元106来实施,具体细节在此不再赘述。
在分类步骤S510中,可以基于目标图像组的特征,对目标图像组进行分类。例如,在分类步骤S510中,可以基于目标图像组的特征,对目标图像组进行识别。此外,例如,分类步骤S510可以通过上文描述的分类单元108来实施,具体细节在此不再赘述。
根据本公开的实施例,在特征融合步骤S508中,可以基于通过贡献计算步骤S506所计算出的目标图像素所包括的多个图像的贡献,对通过特征提取步骤S504提取的多个图像的特征进行加权平均,并且将所获得的结果作为目标图像组的特征。例如,在特征融合步骤S508中,可以根据上式(1)获得目标图像组的特征FV
可替选地,根据本公开的实施例,在特征融合步骤S508中,可以基于目标样本所包括的多个图像中的、贡献大于或等于预定阈值的一个或更多个图像的贡献,对上述一个或更多个图像的特征进行融合,从而获得融合后的特征作为目标图像组的特征。例如,在特征融合步骤S508中,可以基于目标样本所包括的多个图像中的、贡献大于或等于预定阈值的一个或更多个图像的贡献,对上述一个或更多个图像的特征进行加权平均,从而获得融合后的特征作为目标图像组的特征。
如上所述,与根据本公开的实施例的利用预先训练的分类模型进行分类的装置100类似地,根据本公开的实施例的利用预先训练的分类模型进行分类的方法500可以计算目标图像组中的各个图像的贡献,并且基于所计算出的贡献对目标图像组中的各个图像的特征进行融合,从而基于融合后的特征对目标图像组进行分类。与简单地基于目标图像组所包括的各个图像的特征的均值或者基于目标图像组中的质量最好的图像的特征来对目标图像组进行分类的现有技术相比,根据本公开的实施例的方法500可以在考虑每个图像对分类结果的贡献的情况下基于目标图像组中的一个或更多个图像的特征对目标图像组进行分类,使得可以提高分类精度。
根据本公开的实施例,对于目标图像组所包括的多个图像中的每个图像,该图像对目标图像组的分类结果的贡献可以通过标量表示。例如,每个图像的贡献可以通过一个大于0的数值表示。
根据本公开的实施例,对于目标图像组所包括的多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献包括该图像的每个维度的特征对所述目标图像组的分类结果的贡献。例如,在某一图像的特征为N维(例如,512维)的情况下,该图像的贡献可以通过一个N维的贡献向量来表示。其中,贡献向量中的各个元素表示相应的图像的特征的各个维度对分类结果的贡献。通过针对图像的特征的各个维度计算贡献,例如使得可以进一步提高分类精度。
根据本公开的实施例,预先训练的分类模型是可以是利用包括至少一个样本图像组的训练样本集、通过如下方式对初始分类模型进行训练而得到的:利用初始分类模型的特征提取层提取上述至少一个样本图像组中的每个样本图像的特征;针对每个样本图像组,利用初始分类模型的贡献计算层计算该样本图像组所包括的各个样本图像对该样本图像组的分类结果的贡献;针对每个样本图像组,基于该样本图像组的各个样本图像的贡献,对该样本图像组的各个样本图像的特征进行融合,从而获得融合后的特征作为该样本图像组的特征;以及利用每个样本图像组的特征,基于针对初始分类模型的损失函数来训练初始分类模型以满足预定的收敛条件,从而得到预先训练的分类模型。
例如,预定收敛条件可以是如下中之一:训练达到预定次数;损失函数最小化;以及损失函数小于或等于预定阈值。
根据本公开的实施例,损失函数可以包括分类损失函数和贡献损失函数。其中,贡献损失函数可以用于表征每个样本图像组的特征与相应的样本图像组被分类为的类别的特征中心之间的距离。例如,损失函数L可以由上式(3)表示。
在现有的分类模型的训练过程中,鉴于训练装置的处理能力等问题,通常采取按小批次进行训练的方式,因而忽略了全局信息。通过如上所述的那样,在训练过程中引入贡献损失函数,使得可以在考虑从训练样本集或训练样本子集获得的全局信息的情况下对分类模型进行训练,使得例如可以提高所获得的经训练的分类模型的精度。
上面已经描述了根据本公开的实施例的利用预先训练的分类模型进行分类的装置100和方法500的示例。根据本公开,还可以提供一种对初始训练进行训练的装置。图6是示出根据本公开的实施例的对初始分类模型进行训练的装置600的功能配置示例的框图。
如图6所示,根据本公开的实施例的对初始分类模型进行训练的装置600可以包括第二特征提取单元602、第二贡献计算单元604、第二特征融合单元606和训练单元608。
第二特征提取单元602可以被配置成利用初始分类模型的特征提取层提取训练样本集所包括的至少一个样本图像组中的每个样本图像的特征。
第二贡献计算单元604可以被配置成针对每个样本图像组,利用初始分类模型的贡献计算层计算该样本图像组所包括的各个样本图像对该样本图像组的分类结果的贡献。
第二特征融合单元606可以被配置从成针对每个样本图像组,基于通过第二贡献计算单元604所计算出的、该样本图像组的各个样本图像的贡献,对第二特征提取单元602所提取的该样本图像组的各个样本图像的特征进行融合,从而获得融合后的特征作为该样本图像组的特征。
训练单元608可以被配置成利用每个样本图像组的特征,基于针对初始分类模型的损失函数来训练初始分类模型以满足预定的收敛条件,从而得到预先训练的分类模型。
根据本公开的实施例的装置600对初始分类模型进行训练的细节可以与上文针对根据本公开的实施例的利用预先训练的分类模型进行分类的装置100和方法500所描述的对初始分类模型进行训练的细节类似,因而这里将不再赘述。
根据本公开的实施例的对初始分类模型进行训练的装置600具有很强的通用性,可以容易地应用于任意合适的初始分类模型。此外,根据本公开的实施例的对初始分类模型进行训练的装置600可以在考虑每个样本图像的贡献的情况下基于相应样本图像组中的一个或更多个图像对初始分类模型进行训练,使得可以提高所获得的预先训练的分类模型的分类精度。
应指出,尽管以上描述了根据本公开的实施例的利用预先训练的分类模型进行分类的装置和方法以及对初始分类模型进行训练的装置的功能配置和操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。
此外,本公开还提供了存储介质和程序产品。应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述利用预先训练的分类模型进行分类的方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用个人计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分708,包括硬盘等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种利用预先训练的分类模型进行分类的装置,包括:
特征提取单元,被配置成利用所述预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征;
贡献计算单元,被配置成利用所述预先训练的分类模型的贡献计算层计算所述多个图像中的每个图像对所述目标图像组的分类结果的贡献;
特征融合单元,被配置成基于通过所述贡献计算单元所计算出的所述多个图像的贡献,对通过所述特征提取单元提取的所述多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征;以及
分类单元,被配置成基于所述目标图像组的特征,对所述目标图像组进行分类。
附记2.根据附记1所述的装置,其中,所述特征融合单元进一步被配置成基于通过所述贡献计算单元所计算出的所述多个图像的贡献,对通过所述特征提取单元提取的所述多个图像的特征进行加权平均,并且将所获得的结果作为所述目标图像组的特征。
附记3.根据附记1所述的装置,其中,所述特征融合单元进一步被配置成:基于所述多个图像中的、所述贡献大于或等于预定阈值的一个或更多个图像的贡献,对所述一个或更多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征。
附记4.根据附记1至3中任一项所述的装置,其中,对于所述多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献通过标量表示。
附记5.根据附记1至3中任一项所述的装置,其中,对于所述多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献包括该图像的每个维度的特征对所述目标图像组的分类结果的贡献。
附记6.根据附记1至3中任一项所述的装置,其中,所述预先训练的分类模型是利用包括至少一个样本图像组的训练样本集、通过如下方式对初始分类模型进行训练而得到的:
利用所述初始分类模型的特征提取层提取所述至少一个样本图像组中的每个样本图像的特征;
针对每个样本图像组,利用所述初始分类模型的贡献计算层计算该样本图像组所包括的各个样本图像对该样本图像组的分类结果的贡献;
针对每个样本图像组,基于该样本图像组的各个样本图像的贡献,对该样本图像组的各个样本图像的特征进行融合,从而获得融合后的特征作为该样本图像组的特征;以及
利用每个样本图像组的特征,基于针对所述初始分类模型的损失函数来训练所述初始分类模型以满足预定的收敛条件,从而得到所述预先训练的分类模型。
附记7.根据附记6所述的装置,其中,所述损失函数包括分类损失函数和贡献损失函数;
所述分类损失函数用于表征所述初始分类模型的分类损失;以及
所述贡献损失函数用于表征所述每个样本图像组的特征与相应的样本图像组被分类为的类别的特征中心之间的距离。
附记8.根据附记6所述的装置,其中,在所述初始分类模型的训练过程中,所述初始分类模型的特征提取层的参数是固定的。
附记9.一种用于利用预先训练的分类模型进行分类的方法,包括:
特征提取步骤,用于利用所述预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征;
贡献计算步骤,用于利用所述预先训练的分类模型的贡献计算层计算所述多个图像中的每个图像对所述目标图像组的分类结果的贡献;
特征融合步骤,用于基于通过所述贡献计算步骤所计算出的所述多个图像的贡献,对通过所述特征提取步骤提取的所述多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征;以及
分类步骤,用于基于所述目标图像组的特征,对所述目标图像组进行分类。
附记10.根据附记9所述的方法,其中,在所述特征融合步骤中,基于通过所述贡献计算步骤所计算出的所述多个图像的贡献,对通过所述特征提取步骤提取的所述多个图像的特征进行加权平均,并且将所获得的结果作为所述目标图像组的特征。
附记11.根据附记9所述的方法,其中,在所述特征融合步骤中,基于所述多个图像中的、所述贡献大于或等于预定阈值的一个或更多个图像的贡献,对所述一个或更多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征。
附记12.根据附记9至11中任一项所述的方法,其中,对于所述多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献通过标量表示。
附记13.根据附记9至11中任一项所述的方法,其中,对于所述多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献包括该图像的每个维度的特征对所述目标图像组的分类结果的贡献。
附记14.根据附记9至11中任一项所述的方法,其中,所述预先训练的分类模型是利用包括至少一个样本图像组的训练样本集、通过如下方式对初始分类模型进行训练而得到的:
利用所述初始分类模型的特征提取层提取所述至少一个样本图像组中的每个样本图像的特征;
针对每个样本图像组,利用所述初始分类模型的贡献计算层计算该样本图像组所包括的各个样本图像对该样本图像组的分类结果的贡献;
针对每个样本图像组,基于该样本图像组的各个样本图像的贡献,对该样本图像组的各个样本图像的特征进行融合,从而获得融合后的特征作为该样本图像组的特征;以及
利用每个样本图像组的特征,基于针对所述初始分类模型的损失函数来训练所述初始分类模型以满足预定的收敛条件,从而得到所述预先训练的分类模型。
附记15.根据附记14所述的方法,其中,所述损失函数包括分类损失函数和贡献损失函数;
所述分类损失函数用于表征所述初始分类模型的分类损失;以及
所述贡献损失函数用于表征所述每个样本图像组的特征与相应的样本图像组被分类为的类别的特征中心之间的距离。
附记16.根据附记14所述的方法,其中,在所述初始分类模型的训练过程中,所述初始分类模型的特征提取层的参数是固定的。
附记17.一种存储有程序指令的计算机可读存储介质,当所述程序指令被计算机执行时用于执行附记9至16中任一项所述的方法。

Claims (10)

1.一种利用预先训练的分类模型进行分类的装置,包括:
特征提取单元,被配置成利用所述预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征;
贡献计算单元,被配置成利用所述预先训练的分类模型的贡献计算层计算所述多个图像中的每个图像对所述目标图像组的分类结果的贡献;
特征融合单元,被配置成基于通过所述贡献计算单元所计算出的所述多个图像的贡献,对通过所述特征提取单元提取的所述多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征;以及
分类单元,被配置成基于所述目标图像组的特征,对所述目标图像组进行分类。
2.根据权利要求1所述的装置,其中,所述特征融合单元进一步被配置成基于通过所述贡献计算单元所计算出的所述多个图像的贡献,对通过所述特征提取单元提取的所述多个图像的特征进行加权平均,并且将所获得的结果作为所述目标图像组的特征。
3.根据权利要求1所述的装置,其中,所述特征融合单元进一步被配置成:基于所述多个图像中的、所述贡献大于或等于预定阈值的一个或更多个图像的贡献,对所述一个或更多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征。
4.根据权利要求1至3中任一项所述的装置,其中,对于所述多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献通过标量表示。
5.根据权利要求1至3中任一项所述的装置,其中,对于所述多个图像中的每个图像,该图像对所述目标图像组的分类结果的贡献包括该图像的每个维度的特征对所述目标图像组的分类结果的贡献。
6.根据权利要求1至3中任一项所述的装置,其中,所述预先训练的分类模型是利用包括至少一个样本图像组的训练样本集、通过如下方式对初始分类模型进行训练而得到的:
利用所述初始分类模型的特征提取层提取所述至少一个样本图像组中的每个样本图像的特征;
针对每个样本图像组,利用所述初始分类模型的贡献计算层计算该样本图像组所包括的各个样本图像对该样本图像组的分类结果的贡献;
针对每个样本图像组,基于该样本图像组的各个样本图像的贡献,对该样本图像组的各个样本图像的特征进行融合,从而获得融合后的特征作为该样本图像组的特征;以及
利用每个样本图像组的特征,基于针对所述初始分类模型的损失函数来训练所述初始分类模型以满足预定的收敛条件,从而得到所述预先训练的分类模型。
7.根据权利要求6所述的装置,其中,所述损失函数包括分类损失函数和贡献损失函数;
所述分类损失函数用于表征所述初始分类模型的分类损失;以及
所述贡献损失函数用于表征所述每个样本图像组的特征与相应的样本图像组被分类为的类别的特征中心之间的距离。
8.根据权利要求6所述的装置,其中,在所述初始分类模型的训练过程中,所述初始分类模型的特征提取层的参数是固定的。
9.一种用于利用预先训练的分类模型进行分类的方法,包括:
特征提取步骤,用于利用所述预先训练的分类模型的特征提取层提取待分类的目标图像组所包括的多个图像中的每个图像的特征;
贡献计算步骤,用于利用所述预先训练的分类模型的贡献计算层计算所述多个图像中的每个图像对所述目标图像组的分类结果的贡献;
特征融合步骤,用于基于通过所述贡献计算步骤所计算出的所述多个图像的贡献,对通过所述特征提取步骤提取的所述多个图像的特征进行融合,从而获得融合后的特征作为所述目标图像组的特征;以及
分类步骤,用于基于所述目标图像组的特征,对所述目标图像组进行分类。
10.一种存储有程序指令的计算机可读存储介质,当所述程序指令被计算机执行时用于执行根据权利要求9所述的方法。
CN202011061801.0A 2020-09-30 2020-09-30 用分类模型进行分类的装置和方法及计算机可读存储介质 Pending CN114332523A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011061801.0A CN114332523A (zh) 2020-09-30 2020-09-30 用分类模型进行分类的装置和方法及计算机可读存储介质
JP2021137216A JP2022058189A (ja) 2020-09-30 2021-08-25 分類モデルを用いて分類を行う装置及び方法並びにコンピュータ可読記憶媒体
US17/460,316 US11790046B2 (en) 2020-09-30 2021-08-30 Device and method for classification using classification model and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011061801.0A CN114332523A (zh) 2020-09-30 2020-09-30 用分类模型进行分类的装置和方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114332523A true CN114332523A (zh) 2022-04-12

Family

ID=80822111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011061801.0A Pending CN114332523A (zh) 2020-09-30 2020-09-30 用分类模型进行分类的装置和方法及计算机可读存储介质

Country Status (3)

Country Link
US (1) US11790046B2 (zh)
JP (1) JP2022058189A (zh)
CN (1) CN114332523A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416478B (zh) * 2023-06-06 2023-09-26 福建工程学院 一种基于图结构数据特征的生物信息学分类模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077329A (ja) * 2018-11-09 2020-05-21 株式会社博報堂 計算装置及びコンピュータプログラム

Also Published As

Publication number Publication date
US11790046B2 (en) 2023-10-17
JP2022058189A (ja) 2022-04-11
US20220101040A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
Iscen et al. Label propagation for deep semi-supervised learning
CN108182394B (zh) 卷积神经网络的训练方法、人脸识别方法及装置
Jing et al. Videossl: Semi-supervised learning for video classification
CN111461155A (zh) 训练分类模型的装置和方法
Yao et al. Deep discriminative cnn with temporal ensembling for ambiguously-labeled image classification
CN111787356B (zh) 目标视频片段提取方法和装置
CN109711254B (zh) 基于对抗生成网络的图像处理方法和装置
WO2018019126A1 (zh) 视频类别识别方法和装置、数据处理装置和电子设备
Wang et al. Deep face recognition with clustering based domain adaptation
Rozsa et al. LOTS about attacking deep features
CN110889487A (zh) 神经网络架构搜索装置和方法及计算机可读记录介质
Dutta et al. Online detection of abnormal events using incremental coding length
JP2011013732A (ja) 情報処理装置、情報処理方法、およびプログラム
CN108985190B (zh) 目标识别方法和装置、电子设备、存储介质
CN112819020A (zh) 训练分类模型的方法和装置及分类方法
Holder et al. Efficient uncertainty estimation in semantic segmentation via distillation
CN114821237A (zh) 一种基于多级对比学习的无监督船舶再识别方法及系统
WO2023123923A1 (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
Wang et al. Improved knowledge distillation for training fast low resolution face recognition model
JP2012048624A (ja) 学習装置、方法及びプログラム
Saealal et al. Three-Dimensional Convolutional Approaches for the Verification of Deepfake Videos: The Effect of Image Depth Size on Authentication Performance
CN114332523A (zh) 用分类模型进行分类的装置和方法及计算机可读存储介质
CN114417975A (zh) 基于深度pu学习与类别先验估计的数据分类方法及系统
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
Ahmad et al. Deep convolutional neural network using triplet loss to distinguish the identical twins

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination