CN112906434A - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN112906434A
CN112906434A CN201911219886.8A CN201911219886A CN112906434A CN 112906434 A CN112906434 A CN 112906434A CN 201911219886 A CN201911219886 A CN 201911219886A CN 112906434 A CN112906434 A CN 112906434A
Authority
CN
China
Prior art keywords
training
information processing
margin
classes
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911219886.8A
Other languages
English (en)
Inventor
王梦蛟
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201911219886.8A priority Critical patent/CN112906434A/zh
Priority to EP20204652.0A priority patent/EP3832543A1/en
Priority to JP2020182767A priority patent/JP2021089719A/ja
Priority to US17/102,722 priority patent/US20210166119A1/en
Publication of CN112906434A publication Critical patent/CN112906434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本公开涉及信息处理方法和信息处理装置。根据本公开的信息处理装置包括确定单元,被配置成分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度;以及训练单元,被配置成基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。根据本公开的信息处理装置和信息处理方法,能够使用训练样本分布不均匀的训练样本集合对分类模型进行训练,可以在不显著增加计算代价的情况下获得能够进行准确分类的分类模型。

Description

信息处理装置和信息处理方法
技术领域
本文公开的实施方式涉及信息处理的技术领域。特别地,本公开的实施方式涉及使用训练样本集合对分类模型进行训练的信息处理装置和信息处理方法。
背景技术
卷积神经网络(CNN)的深度学习方法的发展以及具有大量的带有标签的人脸图像的大规模数据库的构造使得人脸识别的性能得到极大的提高。Softmax函数作为损失函数被应用于CNN分类模型的训练。特别地,使用具有均匀分布的样本的训练样本集合对采用Softmax损失函数的CNN分类模型进行训练能够在人脸识别方面取得很高的精度。
然而,目前用于人脸识别的训练样本集合中的样本分布常常是不均匀的,也就是说,训练样本集合中的每个类别的训练样本的数目差异很大。以目前被广泛用作人脸识别的训练样本集合的MS-Celeb-1M人脸图像数据库为例,每个类别(每个人)的训练样本(人脸图像)的数目在1至2500的范围内变化,而且超过80%的类别仅具有不足20个训练样本。
在使用上述训练样本集合进行训练时,所得到的CNN分类模型对人脸图像的识别不能取得令人满意的效果。
因此,有必要对CNN分类模型的训练过程进行调整以适应样本分布不均匀的训练样本集合,从而使得使用这样的训练样本集合训练的CNN分类模型也能够对人脸图像进行准确的识别。
发明内容
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本公开的目的在于提供使用训练样本集合对分类模型进行训练的信息处理技术。通过根据本公开的信息处理装置和信息处理方法,即使利用训练样本分布不均匀的训练样本集合对分类模型进行训练,所得到分类模型仍能够进行准确的分类。
为了实现本公开的目的,根据本公开的一个方面,提供了一种信息处理装置,包括:确定单元,被配置成分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度;以及训练单元,被配置成基于所确定的区分裕度使用训练样本集合用于训练分类模型。
根据本公开的另一方面,提供了一种信息处理方法,包括:确定步骤,分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度;以及训练步骤,基于所确定的区分裕度使用训练样本集合用于训练分类模型。
根据本公开的再一方面,还提供了能够实现上述的信息处理方法的计算机程序。此外,还提供了具有至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述的信息处理方法的计算机程序代码。
根据本公开的信息处理技术,即使在使用训练样本分布不均匀的训练样本集合对分类模型进行训练时,仍可以在不显著增加计算代价的情况下获得能够进行准确分类的分类模型。
附图说明
参照下面结合附图对本公开实施方式的说明,会更加容易地理解本公开的以上和其它目的、特点和优点,在附图中:
图1是示出根据本公开的实施方式的信息处理装置的框图;
图2A和图2B是示出根据本公开的实施方式的确定单元的操作的几何解释的示意图;
图3A和图3B是示出根据本公开的实施方式的确定单元根据类别的样本数目确定该类别的区分裕度的几何解释的示意图;
图4是示出区分裕度的示例的曲线图;
图5是示出根据本公开的实施方式的信息处理方法的流程图;以及
图6示出可用来实现根据本公开的实施方式的信息处理装置和信息处理方法的通用机器的结构简图。
具体实施方式
在下文中,将参照所附的说明性示图详细描述本公开内容的一些实施方式。在用附图标记指示附图的元件时,尽管相同的元件在不同的附图中示出,但相同的元件将由相同的附图标记表示。此外,在本公开内容的以下描述中,在有可能使本公开内容的主题不清楚的情况下,将省略对并入于本文中的已知功能和配置的详细描述。
本文中使用的术语仅用于描述特定实施方式的目的,而非旨在限制本公开。如本文所使用的,除非上下文另外指出,否则单数形式旨在也包括复数形式。还将理解的是,说明书中使用的术语“包括”、“包含”和“具有”旨在具体说明所陈述的特征、实体、操作和/或部件的存在,但是并不排除一个或更多个其他的特征、实体、操作和/或部件的存在或添加。
除非另有定义,否则本文中使用的包括技术术语和科学术语的所有术语具有与本发明构思所属领域技术人员通常理解的含义相同的含义。将进一步理解的是,诸如在常用词典中定义的那些术语应该被解释为具有与其在相关领域的上下文中的含义一致的含义,除非在此明确定义否则不应以理想化或过于正式的意义来解释。
在下面的描述中,阐述了许多具体细节以提供对本公开的全面理解。本公开可以在没有这些具体细节中的一些或所有具体细节的情况下实施。在其他实例中,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了与本公开关系不大的其他细节。
作为用于分类模型训练的损失函数,Softmax函数可被理解为在多个值中取最大值的(max)函数与多个值中的每个值被取为最大值的概率的结合。Softmax函数作为损失函数被广泛应用于各种人工神经网络的训练。
卷积神经网络(CNN)是一种前馈人工神经网络,被广泛地应用于图像和语音处理领域。卷积神经网络基于三个重要特征,即感受野,权值共享和池化。
卷积神经网络假设每个神经元仅与邻近区域中的神经元存在连接关系并且彼此产生影响。感受野表示该邻近区域的大小。此外,卷积神经网络假设某个区域的神经元之间的连接权值也可以应用于所有其他区域,即权值共享。卷积神经网络的池化指的是在将卷积神经网络用于解决分类问题时基于聚合统计进行的降维操作。
卷积神经网络对于本领域技术人员是已知的,因此不对其进行更详细的描述。
Softmax函数可以将卷积神经网络的输出映射到区间[0,1],表示输入的数据属于相应的类别的概率,因而可被应用于分类模型。
在卷积神经网络的训练过程中,需要计算卷积神经网络的正向传播结果与使用带标签的训练样本计算的结果之间的差距,将该差距作为损失来进行卷积神经网络的反向传播,从而对卷积神经网络进行训练。在池化操作中可以使用Softmax损失函数进行卷积神经网络的权值的学习。
具体地,Softmax损失函数具有如下式(1)所示的形式。
Figure BDA0002300508930000041
在式(1)中,Ls表示softmax函数的损失,其被定义为交叉熵。k表示训练样本xi(1≤i≤k)的数目,并且n表示类别yj(1≤j≤n)的数目。注意,本文中的表述“训练样本”指的是用于对分类模型进行训练的样本,即带标签的样本,例如训练样本xi的标签(类别)是yi。此外,f(xi)表示训练样本xi的被提取的特征向量。此外,
Figure BDA0002300508930000042
表示类别yj在向量空间中的中心,也具有向量的形式,在下文中为便于说明,将
Figure BDA0002300508930000043
称为类别yj的特征向量。
使用softmax函数作为损失函数对分类模型进行训练的目的是使
Figure BDA0002300508930000044
尽可能大。
可以对
Figure BDA0002300508930000051
进行进一步的变换以得到下式(2)。
Figure BDA0002300508930000052
其中,
Figure BDA0002300508930000053
和||f(xi)||分别表示向量
Figure BDA0002300508930000054
和f(xi)的模,θ表示向量
Figure BDA0002300508930000055
和f(xi)在向量空间中的夹角,其中0≤θ≤π。根据上式(2)可知,如果希望使Softmax损失函数Ls尽可能小,则需要使θ尽可能小。换言之,通过减小θ,可以使训练样本xi的特征向量f(xi)在向量空间中更接近其所属类别yi在向量空间中的中心向量
Figure BDA0002300508930000056
Softmax损失函数Ls对于本领域技术人员是已知的,因此不对其进行更详细的描述。
如上文所述,如果使用训练样本分布不均匀的训练样本集合对分类模型进行训练,现有的使用Softmax损失函数Ls进行学习得到的分类模型不能取得令人满意的效果,因此有必要对Softmax损失函数Ls进行改进以引导分类模型进行学习。
因此,本公开提出了一种信息处理技术,使得即使在使用训练样本分布不均匀的训练样本集合对分类模型进行训练时,所得到的分类模型仍具有较高的区分准确性。根据本公开的技术确定训练样本集合中的每个类别相对于其他类别的区分裕度,随后基于所确定的区分裕度对分类模型进行训练,从而实现对分类模型的学习的引导。
下面将结合附图来更详细地描述根据本公开的实施方式。
图1是示出根据本公开的实施方式的信息处理装置100的框图。
根据本公开的第一实施方式的信息处理装置100包括确定单元101和训练单元102。
根据本公开的实施方式,确定单元101可以分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度。
图2A和图2B示出了根据本公开的实施方式的确定单元101的操作的几何解释的示意图。
本公开的实施方式的思想在于在训练之前根据训练样本集中的训练样本的分布来调整不同类别之间的区分裕度,从而增强不同类别之间的训练样本的可区分性。
如图2A中所示,类别1的特征向量为W1,类别2的特征向量为W2。图2A中示出了类别1和类别2的特征向量W1和W2在向量空间中的几何示意图。
此外,假设训练样本x1属于类别1。为了使分类模式能够将x1正确地分类为类别1,softmax函数应使得
Figure BDA0002300508930000061
即||W1||||f(x1)||cos θ1>||W2||||f(x1)||cos θ2。其中,θ1是向量W1和f(x1)在向量空间中的夹角,θ2是向量W2和f(x1)在向量空间中的夹角。
根据本公开的实施方式,在使用训练样本分布不均匀的训练样本集合进行训练时,为了使分类结果更为准确,可以引入区分裕度m,使得||W1||||f(x1)||cos θ1>||W1||||f(x1)||cos(θ1+m)>||W2||||f(x1)||cos θ2。区分裕度m在向量空间中体现为图2B中所示的角度裕度,其中0≤θ+m≤π。。
具体地,将m引入式(2)中,并且基于式(2)对式(1)进行变换,可以得到下式(3)。
Figure BDA0002300508930000062
在几何意义上,将区分裕度m添加到上式(2)中,可以使得θ减小,从而使训练样本xi的特征向量f(xi)在向量空间中更接近其所属类别yi在向量空间中的特征向量
Figure BDA0002300508930000071
由此提高分类精度。
根据本公开的实施方式,确定单元101可以根据训练样本集合中的多个训练样本所属的多个类别的数目以及多个训练样本的特征向量的维度来确定区分裕度m的上限。确定单元101可以针对每个类别,根据区分裕度m的上限和属于该类别的训练样本的数目,确定该类别的区分裕度m。
具体地,根据图2B,区分裕度(角度裕度)m应小于两个类别(例如,类别1和类别2)在向量空间中的特征向量(例如,向量W1和W2)之间的夹角,因此向量空间中最接近的两个类别的特征向量之间的夹角可以被确定为角度裕度m的上限。
根据本公开的实施方式,向量空间中最接近的两个类别的特征向量之间的夹角可以通过向量空间的向量维度以及训练样本集合中的多个训练样本所属的多个类别的数目来确定。具体地,假设向量维度是d,并且类别的数目是n,可以通过优化下式(4)给出的损失函数来计算向量空间中最接近的两个类别的特征向量之间的最大夹角。
Figure BDA0002300508930000072
其中,向量维度d反映在内积Wi TWj中。在上式(4)中,arccos为反余弦函数,argmin表示使arccos(Wi TWj)最小时的W的取值。
上述优化过程的目的在于使损失函数LC最大化,上述优化过程可以通过下式(5)来表示。
Figure BDA0002300508930000073
其中μ是学习率,可以根据实验或经验确定。上式(5)反映W的更新迭代过程。
根据本公开的实施方式,在损失函数LC的优化过程中,学习率μ可以首先采用较大的值,随着优化过程的进行,学习率μ的取值可以逐渐减小。
当优化过程完成时,LC可以被确定为角度裕度m的上限mupper
本领域技术人员应理解,确定角度裕度m的上限mupper的过程,即损失函数LC的优化过程可以是离线进行的。在这一点上,如上文所述,损失函数LC的优化过程与W的取值自身是无关的,仅与向量维度和类别数目n相关。具体而言,Wi表示类别i在d维向量空间中的特征向量,并且总计n个特征向量Wi分布在d维向量空间中,损失函数LC的优化过程可以被理解为在使得n个特征向量Wi均匀分布在d维向量空间时的特征向量Wi之间的夹角,该夹角即为角度裕度m的上限mupper
根据本公开的实施方式,确定单元101可以针对每个类别,根据区分裕度m的上限mupper和属于该类别的训练样本的数目,确定该类别的区分裕度m。
图3A和图3B示出了根据本公开的实施方式的确定单元101根据类别的样本数目确定该类别的区分裕度的几何解释的示意图。
如图3A和图3B所示,根据本公开的实施方式,对于具有较多数目的训练样本的类别,将该类别的区分裕度确定为较小,以及其中,对于具有较少数目的训练样本的类别,将该类别的区分裕度确定为较大。
具体而言,如图3A中所示,如果类别1和类别2均具有较少的样本数目,则区分裕度m的取值应尽可能接近m的上限mupper以获得较好的区分性能。相反,如图3B中所示,如果类别1和类别2均具有较多的样本数目,则区分裕度m的取值可以至少大于或等于0。
应理解,图3A和图3B所示的是相对极端的情况。此外,如果类别1的样本数目和类别2的样本数目差别较大,则关于类别1的区分裕度m的取值和关于类别2的区分裕度的取值差别较大。具体而言,具有较多数目的训练样本的类别的区分裕度较小,而具有较少数目的训练样本的类别的区分裕度较大,具体应基于样本数目在区间[0,mupper]中取值。
根据本公开的实施方式,从样本数目最少的类别到样本数目最多的类别,m的取值可以在区间[0,mupper]中平滑地减小。
以使用MS-Celeb-1M人脸图像数据库作为训练样本集合对CNN分类模型进行训练为例,假设样本的特征向量和类别的特征向量的维度为512,据此通过优化损失函数LC得到的区分裕度m的上限mupper为1.5。
为了使得从样本数目最少的类别到样本数目最多的类别,m的取值可以在区间[0,mupper]中平滑地减小,可以使用下式(6)来计算每个类别的区分裕度m。
Figure BDA0002300508930000091
在式(6)中,x表示属于该类别的样本的数目,a和b可以是正整数,其取值应满足
Figure BDA0002300508930000092
根据上式(6),当类别的样本数目大于或等于150个时,认为该类别的样本数目较多,因此区分裕度m的取值应较小,因此取值为0。此外,当类别的样本数目小于150时,随着样本数目的减小,区分裕度m的取值应逐渐增加,但是不能超过区分裕度m的上限mupper。此外,类别的样本数目最少为1,对于该类别,其区分裕度m最大,但是也应小于区分裕度m的上限mupper
此外,根据本公开的实施方式,确定单元101还可以确定区分裕度m的下限mlower,并且针对多个类别中的每个类别,根据区分裕度m的上限mupper和下限mlower以及属于该类别的训练样本的数目,分别确定该类别的区分裕度。根据本公开的实施方式,区分裕度m的下限mlower可以根据经验、所使用的训练样本集合、样本的具体分布情况等因素确定。
继续使用MS-Celeb-1M人脸图像数据库作为训练样本集合对CNN分类模型进行训练为例,假设样本的特征向量和类别的特征向量的维度为512,据此通过优化损失函数LC得到的区分裕度m的上限mupper为1.5。此外,可以将区分裕度m的下限mlower设定为0.5。
为了使得从样本数目最少的类别到样本数目最多的类别,m的取值可以在区间[mlower,mupper]中平滑地减小,可以使用下式(7)来计算每个类别的区分裕度m。
Figure BDA0002300508930000101
在式(7)中,x表示属于该类别的样本的数目,a和b可以是正整数,其取值应满足
Figure BDA0002300508930000102
根据上式(7),当类别的样本数目大于或等于150个时,认为该类别的样本数目较多,因此区分裕度m的取值应较小,因此取值为0.5。此外,当类别的样本数目小于150时,随着样本数目的减小,区分裕度m的取值应逐渐增加,但是不能超过区分裕度m的上限mupper。此外,类别的样本数目最少为1,对于该类别,其区分裕度m最大,但是也应小于区分裕度m的上限mupper
本领域技术人员应认识到,上式(6)和(7)仅给出了基于区分裕度m的上限mupper确定每个类别的区分裕度m的示例性实施方式,但是本公开不限于此。在本公开的以上教导的基础上,本领域技术人员可以设想其他方式来基于区分裕度m的上限mupper确定每个类别的区分裕度m,至少使得从样本数目最少的类别到样本数目最多的类别,m的取值在区间[0,mupper]中平滑地减小即可。
特别地,如上文所述,本领域技术人员也可以设想其他方式来基于区分裕度m的上限mupper和下限mlower确定每个类别的区分裕度m,至少使得从样本数目最少的类别到样本数目最多的类别,m的取值在区间[mlower,mupper]中平滑地减小即可。
图4示出了区分裕度m的示例的曲线图。如图4中所示,根据各个类别的样本数目,区分裕度m在上限mupper和下限mlower之间平滑地变化。
下面回到图1,根据本公开的实施方式,训练单元102可以基于所确定的区分裕度m使用训练样本集合用于训练分类模型。
根据本公开的实施方式,在确定单元102确定每个类别的区分裕度m之后,训练单元102可以将区分裕度m代入上式(3)的损失函数中,据此对分类模型进行训练。
这里,尽管在将Softmax函数作为损失函数应用于卷积神经网络(CNN)分类模型以进行人脸识别的背景下描述了本公开的实施方式,但是本公开不限于此。本领域技术人员在本公开的教导下,可以设想将本公开的发明思想扩展到其他用于分类模型训练的损失函数(例如Sigmoid函数、Tanh函数等)和其他应用领域(例如语音识别、图像检索等),所有这些变型方案均应涵盖于本公开的范围内。此外,本公开的思想同样可以应用于其他分类模型,可以应用于除了CNN之外的其他人工神经网络,例如循环神经网络(RNN)、深度神经网络(DNN)等,所有这些变型方案均应涵盖于本公开的范围内。
相应地,本公开还提出了一种使用训练样本分布不均匀的训练样本集合对分类模型进行训练的信息处理方法。
图5是示出根据本公开的实施方式的信息处理方法500的流程图。
信息处理方法500开始于步骤S501。随后,在确定步骤S502中,分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度。根据本公开内容的实施方式,步骤S502中的处理可以例如通过根据上文参照图1至4描述的确定单元101来实现。
随后,在训练步骤S503中,基于所确定的区分裕度使用训练样本集合用于训练分类模型。根据本公开内容的实施方式,步骤S503中的处理可以例如通过根据上文参照图1至4描述的训练单元102来实现。
最后,信息处理方法500结束于步骤S504。
此外,本公开还提出了一种分类模型,其可以通过根据上文参照图5描述的信息处理方法进行训练。
根据本公开的信息处理装置和信息处理方法,在用于训练的训练样本集合中的每个类别的训练样本的数目差异较大的情况下,根据本公开的实施方式可以基于每个类别的训练样本的数目对区分裕度进行有针对性的设定。因此,根据本公开的实施方式,即使利用训练样本分布不均匀的训练样本集合对分类模型进行训练,所得到的分类模型仍能够获得精确的分类结果。
下表示出了使用不同的训练样本集合,即LFW、CFP、AGE-DB和COX人脸图像数据库,通过根据本公开的信息处理技术训练的用于人脸识别的CNN分类模型的识别精度相较于现有技术的CNN分类模型,识别准确性存在明显提高。
Figure BDA0002300508930000121
图6是示出可用来实现根据本公开的实施方式的信息处理方法和信息处理装置的通用机器600的结构简图。通用机器600可以是例如计算机系统。应注意,通用机器600只是一个示例,并非暗示对本公开的信息处理方法和信息处理装置的使用范围或者功能的局限。也不应将通用机器600解释为对上述信息处理方法或信息处理装置中示出的任一组件或其组合具有依赖或需求。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开的信息处理方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。
上面已通过框图、流程图和/或实施方式进行了详细描述,阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
综上,在根据本公开的实施方式中,本公开提供了如下方案,但不限于此:
方案1.一种信息处理装置,包括:
确定单元,被配置成分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度;以及
训练单元,被配置成基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。
方案2.根据方案1所述的信息处理装置,其中,所述确定单元被配置成:
根据所述多个类别的数目以及所述多个训练样本的特征向量的维度确定所述区分裕度的上限;以及
针对所述多个类别中的每个类别,根据所述区分裕度的上限和属于该类别的训练样本的数目,分别确定该类别的区分裕度。
方案3.根据方案2所述的信息处理装置,其中,所述确定单元被配置成:
确定所述区分裕度的下限;以及
针对所述多个类别中的每个类别,根据所述区分裕度的上限和下限以及属于该类别的训练样本的数目,分别确定该类别的区分裕度。
方案4.根据方案3所述的信息处理装置,其中,对于具有较多数目的训练样本的类别,将该类别的区分裕度确定为较小,以及其中,对于具有较少数目的训练样本的类别,将该类别的区分裕度确定为较大。
方案5.根据方案4所述的信息处理装置,其中,从具有最少数目的训练样本的类别到具有最多数目的训练样本的类别,区分裕度的取值从所述上限到所述下限逐渐减小。
方案6.根据方案3所述的信息处理装置,其中所述确定单元被配置成根据经验确定所述区分裕度的下限。
方案7.根据方案1所述的信息处理装置,其中,所述分类模型使用Softmax函数作为损失函数。
方案8.一种信息处理方法,包括:
确定步骤,分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度;以及
训练步骤,基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。
方案9.根据方案8所述的信息处理方法,其中,所述确定步骤包括:
根据所述多个类别的数目以及所述多个训练样本的特征向量的维度确定所述区分裕度的上限;以及
针对所述多个类别中的每个类别,根据所述区分裕度的上限和属于该类别的训练样本的数目,分别确定该类别的区分裕度。
方案10.根据方案9所述的信息处理方法,其中,所述确定步骤包括:
确定所述区分裕度的下限;以及
针对所述多个类别中的每个类别,根据所述区分裕度的上限和下限以及属于该类别的训练样本的数目,分别确定该类别的区分裕度。
方案11.根据方案10所述的信息处理方法,其中,对于具有较多数目的训练样本的类别,将该类别的区分裕度确定为较小,以及其中,对于具有较少数目的训练样本的类别,将该类别的区分裕度确定为较大。
方案12.根据方案11所述的信息处理方法,其中,从具有最少数目的训练样本的类别到具有最多数目的训练样本的类别,区分裕度的取值从所述上限到所述下限逐渐减小。
方案13.根据方案10所述的信息处理方法,其中根据经验确定所述区分裕度的下限。
方案14.根据方案8所述的信息处理方法,其中,所述分类模型使用Softmax函数作为损失函数。
方案15.一种分类模型,通过如方案8至14中任一项所述的信息处理方法进行训练而得到。
方案16.根据方案15所述的分类模型,其中,所述分类模型用于人脸识别,并且通过卷积神经网络模型实现。
尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims (10)

1.一种信息处理装置,包括:
确定单元,被配置成分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度;以及
训练单元,被配置成基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。
2.根据权利要求1所述的信息处理装置,其中,所述确定单元被配置成:
根据所述多个类别的数目以及所述多个训练样本的特征向量的维度确定所述区分裕度的上限;以及
针对所述多个类别中的每个类别,根据所述区分裕度的上限和属于该类别的训练样本的数目,分别确定该类别的区分裕度。
3.根据权利要求2所述的信息处理装置,其中,所述确定单元被配置成:
确定所述区分裕度的下限;以及
针对所述多个类别中的每个类别,根据所述区分裕度的上限和下限以及属于该类别的训练样本的数目,分别确定该类别的区分裕度。
4.根据权利要求3所述的信息处理装置,其中,对于具有较多数目的训练样本的类别,将该类别的区分裕度确定为较小,以及其中,对于具有较少数目的训练样本的类别,将该类别的区分裕度确定为较大。
5.根据权利要求4所述的信息处理装置,其中,从具有最少数目的训练样本的类别到具有最多数目的训练样本的类别,区分裕度的取值从所述上限到所述下限逐渐减小。
6.根据权利要求1所述的信息处理装置,其中,所述分类模型使用Softmax函数作为损失函数。
7.一种信息处理方法,包括:
确定步骤,分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度;以及
训练步骤,基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。
8.根据权利要求7所述的信息处理方法,其中,所述确定步骤包括:
根据所述多个类别的数目以及所述多个训练样本的特征向量的维度确定所述区分裕度的上限;以及
针对所述多个类别中的每个类别,根据所述区分裕度的上限和属于该类别的训练样本的数目,分别确定该类别的区分裕度。
9.一种分类模型,通过如权利要求7所述的信息处理方法进行训练而得到。
10.根据权利要求9所述的分类模型,其中,所述分类模型用于人脸识别,并且通过卷积神经网络模型实现。
CN201911219886.8A 2019-12-03 2019-12-03 信息处理装置和信息处理方法 Pending CN112906434A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911219886.8A CN112906434A (zh) 2019-12-03 2019-12-03 信息处理装置和信息处理方法
EP20204652.0A EP3832543A1 (en) 2019-12-03 2020-10-29 Information processing apparatus and information processing method
JP2020182767A JP2021089719A (ja) 2019-12-03 2020-10-30 情報処理装置及び情報処理方法
US17/102,722 US20210166119A1 (en) 2019-12-03 2020-11-24 Information processing apparatus and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911219886.8A CN112906434A (zh) 2019-12-03 2019-12-03 信息处理装置和信息处理方法

Publications (1)

Publication Number Publication Date
CN112906434A true CN112906434A (zh) 2021-06-04

Family

ID=73039872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911219886.8A Pending CN112906434A (zh) 2019-12-03 2019-12-03 信息处理装置和信息处理方法

Country Status (4)

Country Link
US (1) US20210166119A1 (zh)
EP (1) EP3832543A1 (zh)
JP (1) JP2021089719A (zh)
CN (1) CN112906434A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679190A (zh) * 2012-09-20 2014-03-26 富士通株式会社 分类装置、分类方法以及电子设备
US20160092790A1 (en) * 2014-09-25 2016-03-31 Samsung Eletrônica da Amazônia Ltda. Method for multiclass classification in open-set scenarios and uses thereof
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN109902722A (zh) * 2019-01-28 2019-06-18 北京奇艺世纪科技有限公司 分类器、神经网络模型训练方法、数据处理设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679190A (zh) * 2012-09-20 2014-03-26 富士通株式会社 分类装置、分类方法以及电子设备
US20160092790A1 (en) * 2014-09-25 2016-03-31 Samsung Eletrônica da Amazônia Ltda. Method for multiclass classification in open-set scenarios and uses thereof
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN109902722A (zh) * 2019-01-28 2019-06-18 北京奇艺世纪科技有限公司 分类器、神经网络模型训练方法、数据处理设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOWEN WU, ET AL: "Exponential Discriminative Metric Embedding in Deep Learning", NEUROCOMPUTING, vol. 290, pages 108 - 120 *
WEIYANG LIU, ET AL: "SphereFace: Deep Hypersphere Embedding for Face Recognition", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 6738 - 6746 *

Also Published As

Publication number Publication date
EP3832543A1 (en) 2021-06-09
US20210166119A1 (en) 2021-06-03
JP2021089719A (ja) 2021-06-10

Similar Documents

Publication Publication Date Title
US20230016365A1 (en) Method and apparatus for training text classification model
Joulin et al. Efficient softmax approximation for GPUs
Movshovitz-Attias et al. No fuss distance metric learning using proxies
WO2021164625A1 (en) Method of training an image classification model
CN110633604B (zh) 信息处理方法和信息处理装置
US10387749B2 (en) Distance metric learning using proxies
Yang et al. An ensemble classification algorithm for convolutional neural network based on AdaBoost
US20210326756A1 (en) Methods of providing trained hyperdimensional machine learning models having classes with reduced elements and related computing systems
WO2023088174A1 (zh) 目标检测方法及装置
WO2024067563A1 (zh) 基于模型量化的任务处理方法、装置、设备及存储介质
CN111191781A (zh) 训练神经网络的方法、对象识别方法和设备以及介质
WO2024060839A1 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
CN111738194B (zh) 一种用于人脸图像相似性的评价方法和装置
CN112801162A (zh) 基于图像属性先验的自适应软标签正则化方法
CN112906434A (zh) 信息处理装置和信息处理方法
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values
Wang et al. Q-YOLO: Efficient inference for real-time object detection
Tabaghi et al. Linear classifiers in product space forms
CN116109834A (zh) 一种基于局部正交特征注意力融合的小样本图像分类方法
US20210192318A1 (en) System and method for training deep-learning classifiers
US11328179B2 (en) Information processing apparatus and information processing method
CN109146058B (zh) 具有变换不变能力且表达一致的卷积神经网络
CN115705745A (zh) 信息处理装置和信息处理方法
Perez et al. Face Patches Designed through Neuroevolution for Face Recognition with Large Pose Variation
CN112308097A (zh) 样本识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination