CN112906434A

CN112906434A - 信息处理装置和信息处理方法

Info

Publication number: CN112906434A
Application number: CN201911219886.8A
Authority: CN
Inventors: 王梦蛟; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2021-06-04
Also published as: EP3832543A1; US20210166119A1; JP2021089719A

Abstract

本公开涉及信息处理方法和信息处理装置。根据本公开的信息处理装置包括确定单元，被配置成分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度；以及训练单元，被配置成基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。根据本公开的信息处理装置和信息处理方法，能够使用训练样本分布不均匀的训练样本集合对分类模型进行训练，可以在不显著增加计算代价的情况下获得能够进行准确分类的分类模型。

Description

信息处理装置和信息处理方法

技术领域

本文公开的实施方式涉及信息处理的技术领域。特别地，本公开的实施方式涉及使用训练样本集合对分类模型进行训练的信息处理装置和信息处理方法。

背景技术

卷积神经网络(CNN)的深度学习方法的发展以及具有大量的带有标签的人脸图像的大规模数据库的构造使得人脸识别的性能得到极大的提高。Softmax函数作为损失函数被应用于CNN分类模型的训练。特别地，使用具有均匀分布的样本的训练样本集合对采用Softmax损失函数的CNN分类模型进行训练能够在人脸识别方面取得很高的精度。

然而，目前用于人脸识别的训练样本集合中的样本分布常常是不均匀的，也就是说，训练样本集合中的每个类别的训练样本的数目差异很大。以目前被广泛用作人脸识别的训练样本集合的MS-Celeb-1M人脸图像数据库为例，每个类别(每个人)的训练样本(人脸图像)的数目在1至2500的范围内变化，而且超过80％的类别仅具有不足20个训练样本。

在使用上述训练样本集合进行训练时，所得到的CNN分类模型对人脸图像的识别不能取得令人满意的效果。

因此，有必要对CNN分类模型的训练过程进行调整以适应样本分布不均匀的训练样本集合，从而使得使用这样的训练样本集合训练的CNN分类模型也能够对人脸图像进行准确的识别。

发明内容

在下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本公开的目的在于提供使用训练样本集合对分类模型进行训练的信息处理技术。通过根据本公开的信息处理装置和信息处理方法，即使利用训练样本分布不均匀的训练样本集合对分类模型进行训练，所得到分类模型仍能够进行准确的分类。

为了实现本公开的目的，根据本公开的一个方面，提供了一种信息处理装置，包括：确定单元，被配置成分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度；以及训练单元，被配置成基于所确定的区分裕度使用训练样本集合用于训练分类模型。

根据本公开的另一方面，提供了一种信息处理方法，包括：确定步骤，分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度；以及训练步骤，基于所确定的区分裕度使用训练样本集合用于训练分类模型。

根据本公开的再一方面，还提供了能够实现上述的信息处理方法的计算机程序。此外，还提供了具有至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述的信息处理方法的计算机程序代码。

根据本公开的信息处理技术，即使在使用训练样本分布不均匀的训练样本集合对分类模型进行训练时，仍可以在不显著增加计算代价的情况下获得能够进行准确分类的分类模型。

附图说明

参照下面结合附图对本公开实施方式的说明，会更加容易地理解本公开的以上和其它目的、特点和优点，在附图中：

图1是示出根据本公开的实施方式的信息处理装置的框图；

图2A和图2B是示出根据本公开的实施方式的确定单元的操作的几何解释的示意图；

图3A和图3B是示出根据本公开的实施方式的确定单元根据类别的样本数目确定该类别的区分裕度的几何解释的示意图；

图4是示出区分裕度的示例的曲线图；

图5是示出根据本公开的实施方式的信息处理方法的流程图；以及

图6示出可用来实现根据本公开的实施方式的信息处理装置和信息处理方法的通用机器的结构简图。

具体实施方式

在下文中，将参照所附的说明性示图详细描述本公开内容的一些实施方式。在用附图标记指示附图的元件时，尽管相同的元件在不同的附图中示出，但相同的元件将由相同的附图标记表示。此外，在本公开内容的以下描述中，在有可能使本公开内容的主题不清楚的情况下，将省略对并入于本文中的已知功能和配置的详细描述。

本文中使用的术语仅用于描述特定实施方式的目的，而非旨在限制本公开。如本文所使用的，除非上下文另外指出，否则单数形式旨在也包括复数形式。还将理解的是，说明书中使用的术语“包括”、“包含”和“具有”旨在具体说明所陈述的特征、实体、操作和/或部件的存在，但是并不排除一个或更多个其他的特征、实体、操作和/或部件的存在或添加。

除非另有定义，否则本文中使用的包括技术术语和科学术语的所有术语具有与本发明构思所属领域技术人员通常理解的含义相同的含义。将进一步理解的是，诸如在常用词典中定义的那些术语应该被解释为具有与其在相关领域的上下文中的含义一致的含义，除非在此明确定义否则不应以理想化或过于正式的意义来解释。

在下面的描述中，阐述了许多具体细节以提供对本公开的全面理解。本公开可以在没有这些具体细节中的一些或所有具体细节的情况下实施。在其他实例中，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的部件，而省略了与本公开关系不大的其他细节。

作为用于分类模型训练的损失函数，Softmax函数可被理解为在多个值中取最大值的(max)函数与多个值中的每个值被取为最大值的概率的结合。Softmax函数作为损失函数被广泛应用于各种人工神经网络的训练。

卷积神经网络(CNN)是一种前馈人工神经网络，被广泛地应用于图像和语音处理领域。卷积神经网络基于三个重要特征，即感受野，权值共享和池化。

卷积神经网络假设每个神经元仅与邻近区域中的神经元存在连接关系并且彼此产生影响。感受野表示该邻近区域的大小。此外，卷积神经网络假设某个区域的神经元之间的连接权值也可以应用于所有其他区域，即权值共享。卷积神经网络的池化指的是在将卷积神经网络用于解决分类问题时基于聚合统计进行的降维操作。

卷积神经网络对于本领域技术人员是已知的，因此不对其进行更详细的描述。

Softmax函数可以将卷积神经网络的输出映射到区间[0，1]，表示输入的数据属于相应的类别的概率，因而可被应用于分类模型。

在卷积神经网络的训练过程中，需要计算卷积神经网络的正向传播结果与使用带标签的训练样本计算的结果之间的差距，将该差距作为损失来进行卷积神经网络的反向传播，从而对卷积神经网络进行训练。在池化操作中可以使用Softmax损失函数进行卷积神经网络的权值的学习。

具体地，Softmax损失函数具有如下式(1)所示的形式。

在式(1)中，L_s表示softmax函数的损失，其被定义为交叉熵。k表示训练样本x_i(1≤i≤k)的数目，并且n表示类别y_j(1≤j≤n)的数目。注意，本文中的表述“训练样本”指的是用于对分类模型进行训练的样本，即带标签的样本，例如训练样本x_i的标签(类别)是y_i。此外，f(x_i)表示训练样本x_i的被提取的特征向量。此外，

表示类别y_j在向量空间中的中心，也具有向量的形式，在下文中为便于说明，将

称为类别y_j的特征向量。

使用softmax函数作为损失函数对分类模型进行训练的目的是使

尽可能大。

可以对

进行进一步的变换以得到下式(2)。

其中，

和||f(x_i)||分别表示向量

和f(x_i)的模，θ表示向量

和f(x_i)在向量空间中的夹角，其中0≤θ≤π。根据上式(2)可知，如果希望使Softmax损失函数L_s尽可能小，则需要使θ尽可能小。换言之，通过减小θ，可以使训练样本x_i的特征向量f(x_i)在向量空间中更接近其所属类别y_i在向量空间中的中心向量

Softmax损失函数L_s对于本领域技术人员是已知的，因此不对其进行更详细的描述。

如上文所述，如果使用训练样本分布不均匀的训练样本集合对分类模型进行训练，现有的使用Softmax损失函数L_s进行学习得到的分类模型不能取得令人满意的效果，因此有必要对Softmax损失函数L_s进行改进以引导分类模型进行学习。

因此，本公开提出了一种信息处理技术，使得即使在使用训练样本分布不均匀的训练样本集合对分类模型进行训练时，所得到的分类模型仍具有较高的区分准确性。根据本公开的技术确定训练样本集合中的每个类别相对于其他类别的区分裕度，随后基于所确定的区分裕度对分类模型进行训练，从而实现对分类模型的学习的引导。

下面将结合附图来更详细地描述根据本公开的实施方式。

图1是示出根据本公开的实施方式的信息处理装置100的框图。

根据本公开的第一实施方式的信息处理装置100包括确定单元101和训练单元102。

根据本公开的实施方式，确定单元101可以分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度。

图2A和图2B示出了根据本公开的实施方式的确定单元101的操作的几何解释的示意图。

本公开的实施方式的思想在于在训练之前根据训练样本集中的训练样本的分布来调整不同类别之间的区分裕度，从而增强不同类别之间的训练样本的可区分性。

如图2A中所示，类别1的特征向量为W₁，类别2的特征向量为W₂。图2A中示出了类别1和类别2的特征向量W₁和W₂在向量空间中的几何示意图。

此外，假设训练样本x₁属于类别1。为了使分类模式能够将x₁正确地分类为类别1，softmax函数应使得

即||W₁||||f(x₁)||cos θ₁＞||W₂||||f(x₁)||cos θ₂。其中，θ₁是向量W₁和f(x₁)在向量空间中的夹角，θ₂是向量W₂和f(x₁)在向量空间中的夹角。

根据本公开的实施方式，在使用训练样本分布不均匀的训练样本集合进行训练时，为了使分类结果更为准确，可以引入区分裕度m，使得||W₁||||f(x₁)||cos θ₁＞||W₁||||f(x₁)||cos(θ₁+m)＞||W₂||||f(x₁)||cos θ₂。区分裕度m在向量空间中体现为图2B中所示的角度裕度，其中0≤θ+m≤π。。

具体地，将m引入式(2)中，并且基于式(2)对式(1)进行变换，可以得到下式(3)。

在几何意义上，将区分裕度m添加到上式(2)中，可以使得θ减小，从而使训练样本x_i的特征向量f(x_i)在向量空间中更接近其所属类别y_i在向量空间中的特征向量

由此提高分类精度。

根据本公开的实施方式，确定单元101可以根据训练样本集合中的多个训练样本所属的多个类别的数目以及多个训练样本的特征向量的维度来确定区分裕度m的上限。确定单元101可以针对每个类别，根据区分裕度m的上限和属于该类别的训练样本的数目，确定该类别的区分裕度m。

具体地，根据图2B，区分裕度(角度裕度)m应小于两个类别(例如，类别1和类别2)在向量空间中的特征向量(例如，向量W₁和W₂)之间的夹角，因此向量空间中最接近的两个类别的特征向量之间的夹角可以被确定为角度裕度m的上限。

根据本公开的实施方式，向量空间中最接近的两个类别的特征向量之间的夹角可以通过向量空间的向量维度以及训练样本集合中的多个训练样本所属的多个类别的数目来确定。具体地，假设向量维度是d，并且类别的数目是n，可以通过优化下式(4)给出的损失函数来计算向量空间中最接近的两个类别的特征向量之间的最大夹角。

其中，向量维度d反映在内积W_i ^TW_j中。在上式(4)中，arccos为反余弦函数，argmin表示使arccos(W_i ^TW_j)最小时的W的取值。

上述优化过程的目的在于使损失函数L_C最大化，上述优化过程可以通过下式(5)来表示。

其中μ是学习率，可以根据实验或经验确定。上式(5)反映W的更新迭代过程。

根据本公开的实施方式，在损失函数L_C的优化过程中，学习率μ可以首先采用较大的值，随着优化过程的进行，学习率μ的取值可以逐渐减小。

当优化过程完成时，L_C可以被确定为角度裕度m的上限m_upper。

本领域技术人员应理解，确定角度裕度m的上限m_upper的过程，即损失函数L_C的优化过程可以是离线进行的。在这一点上，如上文所述，损失函数L_C的优化过程与W的取值自身是无关的，仅与向量维度和类别数目n相关。具体而言，W_i表示类别i在d维向量空间中的特征向量，并且总计n个特征向量W_i分布在d维向量空间中，损失函数L_C的优化过程可以被理解为在使得n个特征向量W_i均匀分布在d维向量空间时的特征向量W_i之间的夹角，该夹角即为角度裕度m的上限m_upper。

根据本公开的实施方式，确定单元101可以针对每个类别，根据区分裕度m的上限m_upper和属于该类别的训练样本的数目，确定该类别的区分裕度m。

图3A和图3B示出了根据本公开的实施方式的确定单元101根据类别的样本数目确定该类别的区分裕度的几何解释的示意图。

如图3A和图3B所示，根据本公开的实施方式，对于具有较多数目的训练样本的类别，将该类别的区分裕度确定为较小，以及其中，对于具有较少数目的训练样本的类别，将该类别的区分裕度确定为较大。

具体而言，如图3A中所示，如果类别1和类别2均具有较少的样本数目，则区分裕度m的取值应尽可能接近m的上限m_upper以获得较好的区分性能。相反，如图3B中所示，如果类别1和类别2均具有较多的样本数目，则区分裕度m的取值可以至少大于或等于0。

应理解，图3A和图3B所示的是相对极端的情况。此外，如果类别1的样本数目和类别2的样本数目差别较大，则关于类别1的区分裕度m的取值和关于类别2的区分裕度的取值差别较大。具体而言，具有较多数目的训练样本的类别的区分裕度较小，而具有较少数目的训练样本的类别的区分裕度较大，具体应基于样本数目在区间[0,m_upper]中取值。

根据本公开的实施方式，从样本数目最少的类别到样本数目最多的类别，m的取值可以在区间[0,m_upper]中平滑地减小。

以使用MS-Celeb-1M人脸图像数据库作为训练样本集合对CNN分类模型进行训练为例，假设样本的特征向量和类别的特征向量的维度为512，据此通过优化损失函数L_C得到的区分裕度m的上限m_upper为1.5。

为了使得从样本数目最少的类别到样本数目最多的类别，m的取值可以在区间[0,m_upper]中平滑地减小，可以使用下式(6)来计算每个类别的区分裕度m。

在式(6)中，x表示属于该类别的样本的数目，a和b可以是正整数，其取值应满足

根据上式(6)，当类别的样本数目大于或等于150个时，认为该类别的样本数目较多，因此区分裕度m的取值应较小，因此取值为0。此外，当类别的样本数目小于150时，随着样本数目的减小，区分裕度m的取值应逐渐增加，但是不能超过区分裕度m的上限m_upper。此外，类别的样本数目最少为1，对于该类别，其区分裕度m最大，但是也应小于区分裕度m的上限m_upper。

此外，根据本公开的实施方式，确定单元101还可以确定区分裕度m的下限m_lower，并且针对多个类别中的每个类别，根据区分裕度m的上限m_upper和下限m_lower以及属于该类别的训练样本的数目，分别确定该类别的区分裕度。根据本公开的实施方式，区分裕度m的下限m_lower可以根据经验、所使用的训练样本集合、样本的具体分布情况等因素确定。

继续使用MS-Celeb-1M人脸图像数据库作为训练样本集合对CNN分类模型进行训练为例，假设样本的特征向量和类别的特征向量的维度为512，据此通过优化损失函数L_C得到的区分裕度m的上限m_upper为1.5。此外，可以将区分裕度m的下限m_lower设定为0.5。

为了使得从样本数目最少的类别到样本数目最多的类别，m的取值可以在区间[m_lower,m_upper]中平滑地减小，可以使用下式(7)来计算每个类别的区分裕度m。

在式(7)中，x表示属于该类别的样本的数目，a和b可以是正整数，其取值应满足

根据上式(7)，当类别的样本数目大于或等于150个时，认为该类别的样本数目较多，因此区分裕度m的取值应较小，因此取值为0.5。此外，当类别的样本数目小于150时，随着样本数目的减小，区分裕度m的取值应逐渐增加，但是不能超过区分裕度m的上限m_upper。此外，类别的样本数目最少为1，对于该类别，其区分裕度m最大，但是也应小于区分裕度m的上限m_upper。

本领域技术人员应认识到，上式(6)和(7)仅给出了基于区分裕度m的上限m_upper确定每个类别的区分裕度m的示例性实施方式，但是本公开不限于此。在本公开的以上教导的基础上，本领域技术人员可以设想其他方式来基于区分裕度m的上限m_upper确定每个类别的区分裕度m，至少使得从样本数目最少的类别到样本数目最多的类别，m的取值在区间[0,m_upper]中平滑地减小即可。

特别地，如上文所述，本领域技术人员也可以设想其他方式来基于区分裕度m的上限m_upper和下限m_lower确定每个类别的区分裕度m，至少使得从样本数目最少的类别到样本数目最多的类别，m的取值在区间[m_lower,m_upper]中平滑地减小即可。

图4示出了区分裕度m的示例的曲线图。如图4中所示，根据各个类别的样本数目，区分裕度m在上限m_upper和下限m_lower之间平滑地变化。

下面回到图1，根据本公开的实施方式，训练单元102可以基于所确定的区分裕度m使用训练样本集合用于训练分类模型。

根据本公开的实施方式，在确定单元102确定每个类别的区分裕度m之后，训练单元102可以将区分裕度m代入上式(3)的损失函数中，据此对分类模型进行训练。

这里，尽管在将Softmax函数作为损失函数应用于卷积神经网络(CNN)分类模型以进行人脸识别的背景下描述了本公开的实施方式，但是本公开不限于此。本领域技术人员在本公开的教导下，可以设想将本公开的发明思想扩展到其他用于分类模型训练的损失函数(例如Sigmoid函数、Tanh函数等)和其他应用领域(例如语音识别、图像检索等)，所有这些变型方案均应涵盖于本公开的范围内。此外，本公开的思想同样可以应用于其他分类模型，可以应用于除了CNN之外的其他人工神经网络，例如循环神经网络(RNN)、深度神经网络(DNN)等，所有这些变型方案均应涵盖于本公开的范围内。

相应地，本公开还提出了一种使用训练样本分布不均匀的训练样本集合对分类模型进行训练的信息处理方法。

图5是示出根据本公开的实施方式的信息处理方法500的流程图。

信息处理方法500开始于步骤S501。随后，在确定步骤S502中，分别确定包含多个类别的训练样本集合的多个类别中的每个类别相对于其他类别的区分裕度。根据本公开内容的实施方式，步骤S502中的处理可以例如通过根据上文参照图1至4描述的确定单元101来实现。

随后，在训练步骤S503中，基于所确定的区分裕度使用训练样本集合用于训练分类模型。根据本公开内容的实施方式，步骤S503中的处理可以例如通过根据上文参照图1至4描述的训练单元102来实现。

最后，信息处理方法500结束于步骤S504。

此外，本公开还提出了一种分类模型，其可以通过根据上文参照图5描述的信息处理方法进行训练。

根据本公开的信息处理装置和信息处理方法，在用于训练的训练样本集合中的每个类别的训练样本的数目差异较大的情况下，根据本公开的实施方式可以基于每个类别的训练样本的数目对区分裕度进行有针对性的设定。因此，根据本公开的实施方式，即使利用训练样本分布不均匀的训练样本集合对分类模型进行训练，所得到的分类模型仍能够获得精确的分类结果。

下表示出了使用不同的训练样本集合，即LFW、CFP、AGE-DB和COX人脸图像数据库，通过根据本公开的信息处理技术训练的用于人脸识别的CNN分类模型的识别精度相较于现有技术的CNN分类模型，识别准确性存在明显提高。

图6是示出可用来实现根据本公开的实施方式的信息处理方法和信息处理装置的通用机器600的结构简图。通用机器600可以是例如计算机系统。应注意，通用机器600只是一个示例，并非暗示对本公开的信息处理方法和信息处理装置的使用范围或者功能的局限。也不应将通用机器600解释为对上述信息处理方法或信息处理装置中示出的任一组件或其组合具有依赖或需求。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件也连接到输入/输出接口605：输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要，驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上，使得从中读出的计算机程序可根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本公开的信息处理方法。相应地，用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。

上面已通过框图、流程图和/或实施方式进行了详细描述，阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时，本领域的技术人员明白，这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中，本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而，本领域的技术人员会认识到，本说明书中描述的实施方式的一些方面能够全部或部分地以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如，以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如，以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。

综上，在根据本公开的实施方式中，本公开提供了如下方案，但不限于此：

方案1.一种信息处理装置，包括：

确定单元，被配置成分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度；以及

训练单元，被配置成基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。

方案2.根据方案1所述的信息处理装置，其中，所述确定单元被配置成：

根据所述多个类别的数目以及所述多个训练样本的特征向量的维度确定所述区分裕度的上限；以及

针对所述多个类别中的每个类别，根据所述区分裕度的上限和属于该类别的训练样本的数目，分别确定该类别的区分裕度。

方案3.根据方案2所述的信息处理装置，其中，所述确定单元被配置成：

确定所述区分裕度的下限；以及

针对所述多个类别中的每个类别，根据所述区分裕度的上限和下限以及属于该类别的训练样本的数目，分别确定该类别的区分裕度。

方案4.根据方案3所述的信息处理装置，其中，对于具有较多数目的训练样本的类别，将该类别的区分裕度确定为较小，以及其中，对于具有较少数目的训练样本的类别，将该类别的区分裕度确定为较大。

方案5.根据方案4所述的信息处理装置，其中，从具有最少数目的训练样本的类别到具有最多数目的训练样本的类别，区分裕度的取值从所述上限到所述下限逐渐减小。

方案6.根据方案3所述的信息处理装置，其中所述确定单元被配置成根据经验确定所述区分裕度的下限。

方案7.根据方案1所述的信息处理装置，其中，所述分类模型使用Softmax函数作为损失函数。

方案8.一种信息处理方法，包括：

确定步骤，分别确定包含多个类别的训练样本集合的所述多个类别中的每个类别相对于其他类别的区分裕度；以及

训练步骤，基于所确定的区分裕度使用所述训练样本集合用于训练分类模型。

方案9.根据方案8所述的信息处理方法，其中，所述确定步骤包括：

方案10.根据方案9所述的信息处理方法，其中，所述确定步骤包括：

确定所述区分裕度的下限；以及

方案11.根据方案10所述的信息处理方法，其中，对于具有较多数目的训练样本的类别，将该类别的区分裕度确定为较小，以及其中，对于具有较少数目的训练样本的类别，将该类别的区分裕度确定为较大。

方案12.根据方案11所述的信息处理方法，其中，从具有最少数目的训练样本的类别到具有最多数目的训练样本的类别，区分裕度的取值从所述上限到所述下限逐渐减小。

方案13.根据方案10所述的信息处理方法，其中根据经验确定所述区分裕度的下限。

方案14.根据方案8所述的信息处理方法，其中，所述分类模型使用Softmax函数作为损失函数。

方案15.一种分类模型，通过如方案8至14中任一项所述的信息处理方法进行训练而得到。

方案16.根据方案15所述的分类模型，其中，所述分类模型用于人脸识别，并且通过卷积神经网络模型实现。

尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，所述确定单元被配置成：

3.根据权利要求2所述的信息处理装置，其中，所述确定单元被配置成：

确定所述区分裕度的下限；以及

4.根据权利要求3所述的信息处理装置，其中，对于具有较多数目的训练样本的类别，将该类别的区分裕度确定为较小，以及其中，对于具有较少数目的训练样本的类别，将该类别的区分裕度确定为较大。

5.根据权利要求4所述的信息处理装置，其中，从具有最少数目的训练样本的类别到具有最多数目的训练样本的类别，区分裕度的取值从所述上限到所述下限逐渐减小。

6.根据权利要求1所述的信息处理装置，其中，所述分类模型使用Softmax函数作为损失函数。

7.一种信息处理方法，包括：

8.根据权利要求7所述的信息处理方法，其中，所述确定步骤包括：

9.一种分类模型，通过如权利要求7所述的信息处理方法进行训练而得到。

10.根据权利要求9所述的分类模型，其中，所述分类模型用于人脸识别，并且通过卷积神经网络模型实现。