CN108133224B

CN108133224B - 用于评估分类任务复杂度的方法

Info

Publication number: CN108133224B
Application number: CN201611095611.4A
Authority: CN
Inventors: 王淞; 孙利; 范伟; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-12-01
Filing date: 2016-12-01
Publication date: 2021-11-16
Anticipated expiration: 2036-12-01
Also published as: JP2018092612A; CN108133224A; JP6926934B2; US20180157991A1

Abstract

本申请公开了一种用于评估分类任务复杂度的装置和方法，该装置包括：相似度计算单元，被配置为针对分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度；以及分数计算单元，被配置为基于相似度来计算分类任务的复杂度分数。

Description

用于评估分类任务复杂度的方法

技术领域

本申请的实施例涉及信息处理领域，具体地涉及机器学习领域，更具体地涉及一种用于评估分类任务复杂度的装置和方法。

背景技术

分类问题是机器学习领域中经常遇到的一类问题，为了解决分类问题，可以选择各种分类器，比如深度神经网络、SVM、混合高斯模型等。然而，在实际应用中，需要针对分类任务来选择合适的分类器。如果分类器的复杂度远远高过分类任务的复杂度，则会导致严重的过拟合现象以及浪费计算资源。反之，如果分类器的复杂度不如分类任务的复杂度，则最终分类的效果会很差。因此，需要根据分类任务的复杂度来选择一个合适的分类器。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供了一种用于评估分类任务复杂度的装置，包括：相似度计算单元，被配置为针对分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度；以及分数计算单元，被配置为基于相似度来计算分类任务的复杂度分数。

根据本发明的另一个方面，提供了一种用于评估分类任务复杂度的方法，包括：针对分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度；以及基于相似度来计算分类任务的复杂度分数。

根据本发明的另一个方面，还提供了一种用于评估分类任务复杂度的装置，包括：一个或多个处理电路，被配置成：针对分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度；以及基于相似度来计算分类任务的复杂度分数。

依据本发明的其它方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

根据本申请的装置和方法通过计算训练样本与各个类别之间的相似度并使用该相似度来评估分类任务的复杂性，能够准确地评估分类任务的复杂程度，从而为分类器的选择提供依据。

通过以下结合附图对本发明的优选实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本申请的以上和其它优点和特征，下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本申请的典型示例，而不应看作是对本申请的范围的限定。在附图中：

图1是示出了根据本申请的一个实施例的用于评估分类任务复杂度的装置的结构框图；

图2是示出了根据本申请的一个实施例的相似度计算单元的结构框图；

图3是示出了根据本申请的一个实施例的用于评估分类任务复杂度的方法的流程图；

图4是示出了图3中的步骤S11的子步骤的流程图；以及

图5是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

下文中的描述按如下顺序进行：

1.用于评估分类任务复杂度的装置

2.用于评估分类任务复杂度的方法

3.用以实施本申请的装置和方法的计算设备

[1.用于评估分类任务复杂度的装置]

如前所述，在选择分类器时考虑分类任务的复杂性对于提高分类准确性和提高效率而言是非常重要的。因此，期望准确地评估分类任务的复杂程度。

本实施例提供了一种用于评估分类任务复杂度的装置100的结构框图，该装置100包括：相似度计算单元101，被配置为针对分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度；以及分数计算单元102，被配置为基于相似度来计算分类任务的复杂度分数。

其中，相似度计算单元101和分数计算单元102例如可以由一个或多个处理电路实现，该处理电路例如可以实现为芯片。

装置100利用分类任务的训练样本的至少一部分来计算该分类任务的复杂度。并且，该复杂度被表示为复杂度分数的形式，能够精确地以数字形式来衡量分类任务的复杂程度。

其中，相似度计算单元101可以以各种方式来计算样本与各个类别之间的相似度。例如，相似度计算单元101可以采用较为简单的分类器对训练样本进行分类，并基于分类的结果来获得该相似度。

如图2所示，在一个示例中，相似度计算单元101可以包括：分类器 1011，被配置为对至少一部分训练样本进行分类；以及计算子单元1012，被配置为基于分类的结果来计算相似度。分类器1011例如可以为混合高斯模型、卷积神经网络、支持向量机或者简单中心分类器等。

其中，在分类器1011需要通过训练获得的情况下，可以基于上述至少一部分训练样本来训练该分类器1011。在训练完成后，使用获得的分类器1011对这些训练样本进行分类。

注意，在使用分类器1011对样本进行分类前或者在对分类器1011进行训练前，可能需要对样本进行预处理。例如，将每个样本转换为一个表示向量，所有的表示向量具有相同的维度。比如在对图像进行分类的情况下，可以针对整个图像提取一个特征向量比如加速鲁棒特征(Speeded Up Robust Feature，SURF)、尺度不变特征转换(Scale InvariantFeature Transform，SIFT)等作为表示向量。

下面以简单中心分类器作为分类器1011的示例对相似度计算单元 101的操作进行描述。在使用简单中心分类器的情况下，不需要预先进行训练，并且计算子单元1012计算每一个样本与每一个类别中心之间的距离作为该样本与该类别之间的相似度，其中，距离例如为欧氏距离。

例如，假设分类任务共有n个类别，总共有a个训练样本，首先计算类别中心，类别中心例如为该类别中各个样本的表示向量的平均向量。假设计算类别i的中心向量，如果在类别i中有m个样本，则中心向量C_i为：

其中，s_k为类别i中的样本的表示向量。可以看出，通过式(1)可以计算得到所有类别的中心向量。

然后，例如可以如下计算某个样本s_k到某个类别j的距离d_j，该距离即为该样本与类别j之间的相似度的量度。

应该理解，简单中心分类器仅是一个示例，还可以采用其他分类器来计算相似度，比如在采用卷积神经网络的情况中，可以在分类过程中获得样本与各个类别之间的相似度，此时的相似度并不是如式(2)所示采用欧氏距离表示的。

在相似度计算单元101如上所述计算得到样本与各个类别之间的相似度之后，分数计算单元102基于这些相似度来计算分类任务的复杂度分数。

在一个示例中，分数计算单元102被配置为基于相似度计算代表每一个样本与该样本所不属于的类别之间的相似度的第二相似度，并且基于第二相似度以及每一个样本与该样本所属的类别之间的相似度来计算复杂度分数。

在该示例中，不管分类任务所包括的类别如何，均将分类任务转换为二分类问题，即是否属于某一类别的分类问题。而分数计算单元102在计算某一样本的复杂度分数时需要考虑样本与其所属的类别的相似度和样本与其所不属于的类别的相似度二者。这样，本实施例的技术可以应用于包含任何数目的类别的分类任务，具有广泛的适应性。

例如，第二相似度可以为样本与该样本所不属于的类别之间的相似度中的最大值。以采用简单中心分类器所获得的相似度为例，分数计算单元 102可以如下计算分类j中的样本s_k的复杂度分数p_k：

或者，第二相似度可以为样本与该样本所不属于的类别之间的相似度的平均值。以采用简单中心分类器所获得的相似度为例，分数计算单元 102可以如下计算分类j中的样本s_k的复杂度分数p_k：

在计算得到每一个样本的复杂度分数之后，分数计算单元102基于这些复杂度分数来计算分类任务的复杂度分数。在一个示例中，分数计算单元102通过对各个样本的复杂度分数进行加权平均来获得分类任务的复杂度分数，如下式(5)所示。

其中，w_k是样本s_k对应的权重，并且

w_k用于调整每个样本的重要程度，其可以通过各种方式来设置。例如，对于每一类别中的所有样本而言，w_k可以设置为相同的，并且可以根据每个类别中包括的样本数来调整权重w_k。此外，例如在对图像进行分类的情况下，可以根据黑色像素的数量来调整每个样本的w_k，等等。

在后续的分类器选择中，可以根据分数计算单元计算的复杂度分数P 来选择适当的分类器。由于复杂度分数P是量化的值，因此基于P进行的选择可以非常准确。

综上所述，根据本实施例的装置100能够准确地计算分类任务的复杂度分数，从而为分类器的选择提供依据。

[2.用于评估分类任务复杂度的方法]

在上文的实施方式中描述用于评估分类任务复杂度的装置的过程中，显然还公开了一些处理或方法。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些方法的概要，但是应当注意，虽然这些方法在描述用于评估分类任务复杂度的装置的过程中公开，但是这些方法不一定采用所描述的那些部件或不一定由那些部件执行。例如，用于评估分类任务复杂度的装置的实施方式可以部分地或完全地使用硬件和/或固件来实现，而下面讨论的方法可以完全由计算机可执行的程序来实现，尽管这些方法也可以采用用于评估分类任务复杂度的装置的硬件和/或固件。

图3示出了根据本申请的一个实施例的用于评估分类任务复杂度的方法的流程图，该方法包括：针对分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度(S11)；以及基于相似度来计算分类任务的复杂度分数(S12)。

如图4所示，步骤S11可以包括如下子步骤：使用分类器对至少一部分训练样本进行分类(S111)；以及基于分类的结果来计算相似度(S112)。其中，分类器可以为简单中心分类器、卷积神经网络、混合高斯模型等。

在分类器为简单中心分类器的情况下，在步骤S112中计算每一个样本与每一个类别中心之间的距离作为该样本与该类别之间的相似度。在分类器需要训练的情况下，可以基于至少一部分训练样本训练获得所述分类器。

在一个示例中，在步骤S12中，基于相似度计算代表每一个样本与该样本所不属于的类别之间的相似度的第二相似度，并且基于第二相似度以及每一个样本与该样本所属的类别之间的相似度来计算复杂度分数。

例如，第二相似度可以为样本与该样本所不属于的类别之间的相似度中的最大值。或者，第二相似度可以为样本与该样本所不属于的类别之间的相似度的平均值。

在步骤S12中，计算每一个样本的复杂度分数，并通过对各个样本的复杂度分数进行加权平均来获得分类任务的复杂度分数。可以通过各种方式来设置每一个样本的复杂度分数的权重，例如，可以根据每个类别中包括的样本数来调整权重。

根据本实施例的方法能够准确地计算分类任务的复杂度分数，从而为分类器的选择提供依据。

以上实施例中的相关细节已经在对用于评估分类任务复杂度的装置的描述中详细给出，在此不再赘述。

[3.用以实施本申请的装置和方法的计算设备]

上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502 中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504 彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可移除介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可移除介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质511。可移除介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是 ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是被配置为说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此。

附记1.一种用于评估分类任务复杂度的装置，包括：

相似度计算单元，被配置为针对所述分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度；以及

分数计算单元，被配置为基于所述相似度来计算所述分类任务的复杂度分数。

附记2.根据附记1所述的装置，其中，所述分数计算单元被配置为基于所述相似度计算代表所述每一个样本与该样本所不属于的类别之间的相似度的第二相似度，并且基于所述第二相似度以及所述每一个样本与该样本所属的类别之间的相似度来计算所述复杂度分数。

附记3.根据附记2所述的装置，其中，所述第二相似度为所述样本与该样本所不属于的类别之间的相似度中的最大值。

附记4.根据附记2所述的装置，其中，所述第二相似度为所述样本与该样本所不属于的类别之间的相似度的平均值。

附记5.根据附记1所述的装置，其中，所述分数计算单元被配置为计算每一个样本的复杂度分数，并通过对各个样本的复杂度分数进行加权平均来获得所述分类任务的复杂度分数。

附记6.根据附记5所述的装置，其中，所述分数计算单元被配置为根据每个类别中包括的样本数来调整权重。

附记7.根据附记1所述的装置，其中，所述相似度计算单元包括：

分类器，被配置为对所述至少一部分训练样本进行分类；以及

计算子单元，被配置为基于所述分类的结果来计算所述相似度。

附记8.根据附记7所述的装置，其中，所述分类器为简单中心分类器，所述计算子单元被配置为计算每一个样本与每一个类别中心之间的距离作为该样本与该类别之间的相似度。

附记9.根据附记7所述的装置，其中，所述分类器还被配置为基于所述至少一部分训练样本训练获得。

附记10.一种用于评估分类任务复杂度的方法，包括：

针对所述分类任务的至少一部分训练样本中的每一个样本，分别计算该样本与各个类别之间的相似度；以及

基于所述相似度来计算所述分类任务的复杂度分数。

附记11.根据附记10所述的方法，其中，基于所述相似度来计算所述分类任务的复杂度分数包括：基于所述相似度计算代表所述每一个样本与该样本所不属于的类别之间的相似度的第二相似度，并且基于所述第二相似度以及所述每一个样本与该样本所属的类别之间的相似度来计算所述复杂度分数。

附记12.根据附记11所述的方法，其中，所述第二相似度为所述样本与该样本所不属于的类别之间的相似度中的最大值。

附记13.根据附记11所述的方法，其中，所述第二相似度为所述样本与该样本所不属于的类别之间的相似度的平均值。

附记14.根据附记10所述的方法，其中，基于所述相似度来计算所述分类任务的复杂度分数包括：计算每一个样本的复杂度分数，并通过对各个样本的复杂度分数进行加权平均来获得所述分类任务的复杂度分数。

附记15.根据附记14所述的方法，其中，根据每个类别中包括的样本数来调整权重。

附记16.根据附记10所述的方法，其中，计算每一个样本与每一个类别之间的相似度包括：

使用分类器对所述至少一部分训练样本进行分类；以及

基于所述分类的结果来计算所述相似度。

附记17.根据附记16所述的方法，其中，所述分类器为简单中心分类器，计算相似度包括计算每一个样本与每一个类别中心之间的距离作为该样本与该类别之间的相似度。

附记18.根据附记16所述的方法，其中，所述分类器还被配置为基于所述至少一部分训练样本训练获得。

Claims

1.一种用于为图像分类任务选择分类器的方法，包括：

针对所述分类任务的至少一部分训练图像样本中的每一个样本，分别计算从该样本提取的特征向量与各个类别之间的相似度，其中，所提取的特征向量包括基于加速鲁棒特征或尺度不变特征转换的特征向量；

基于所述相似度计算代表所述每一个样本的特征向量与该样本所不属于的类别之间的相似度的第二相似度；

通过计算所述每一个样本的特征向量与该样本所属的类别之间的第一相似度对所述第一相似度与所述第二相似度之和的比值来计算所述分类任务的复杂度分数，以使得当所述第二相似度越低或所述第一相似度越高时，所述复杂度分数越高；以及

根据所计算的所述分类任务的复杂度分数，为所述分类任务选择具有适当复杂度的分类器，

其中，计算相似度包括：

利用简单中心分类器对所述至少一部分训练图像样本进行分类；以及

计算每一个样本的特征向量与每一个类别中心之间的距离作为该样本的特征向量与该类别之间的相似度，其中，每一个类别中心为该类别中的样本的特征向量的平均向量。

2.根据权利要求1所述的方法，其中，所述第二相似度为所述样本的特征向量与该样本所不属于的类别之间的相似度中的最大值。

3.根据权利要求1所述的方法，其中，所述第二相似度为所述样本的特征向量与该样本所不属于的类别之间的相似度的平均值。

4.根据权利要求1所述的方法，其中，计算每一个样本的复杂度分数，并通过对各个样本的复杂度分数进行加权平均来获得所述分类任务的复杂度分数。

5.根据权利要求4所述的方法，其中，根据每个类别中包括的样本数来调整各个样本的复杂度分数的权重。

6.根据权利要求1所述的方法，其中，所述简单中心分类器是基于所述至少一部分训练图像样本训练获得的。