CN107305565A

CN107305565A - 信息处理装置、信息处理方法以及信息处理设备

Info

Publication number: CN107305565A
Application number: CN201610251752.4A
Authority: CN
Inventors: 夏迎炬; 侯翠琴; 徐卓然
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2017-10-31

Abstract

本公开提供了信息处理装置、信息处理方法以及信息处理设备。信息处理装置包括：预分类单元，其利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；聚类单元，其对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；标签修改单元，针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及优化单元，其利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化。

Description

信息处理装置、信息处理方法以及信息处理设备

技术领域

本公开总体上涉及信息处理领域，具体而言，涉及能够将不同的机器学习方法进行结合的信息处理装置、信息处理方法以及信息处理设备。

背景技术

伴随信息技术的快速发展，出现了多种机器学习方法，包括各种监督学习和非监督学习方法。

监督学习方法和非监督学习方法具有不同的特点和应用场景。监督学习方法的一个示例是分类器，其需要标记样本数据集进行训练。非监督学习方法的示例包括利用隐马尔科夫模型的预测以及聚类等。聚类可将处理对象聚类到不同的簇中，使得相同簇中的对象彼此间相似度高于这些对象与其他簇中的对象的相似度。

期望能够对现有的机器学习方法进行改进，以提高机器学习的准确度或性能。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于现有技术的缺陷，本发明的目的之一是提供一种能够将不同的机器学习方法进行结合的信息处理装置、方法以及设备，以至少解决现有的问题。

根据本公开的一个方面，提供一种信息处理装置，包括：预分类单元，其利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；聚类单元，其对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；标签修改单元，针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及优化单元，其利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化。

在上述信息处理装置中，针对所述至少一个簇当中的给定簇中的非标记样本数据，所述预分类单元获得了n个预分类标签，n为大于等于2的自然数，并且其中，所述标签修改单元通过下述方式针对给定簇进行所述标签修改优化处理：基于预先确定的单个标签修改增益和/或单个标签修改损失，针对该簇中的非标记样本数据构建标签修改优化函数，其中，所述标签修改优化函数与将该簇中的所有非标记样本数据的n个预分类标签全部修改为作为n个预分类标签之一的候选标签的总修改代价有关；以及基于与所述候选标签相关联的总修改代价，将获得所述总修改代价的最优化结果时的候选标签作为针对该簇的优化标签。

根据本公开的另一方面，提供一种信息处理方法，包括：利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化。

在上述信息处理方法中，针对所述至少一个簇当中的给定簇中的非标记样本数据，获得了n个预分类标签，n为大于等于2的自然数，并且其中，通过下述方式针对给定簇进行所述标签修改优化处理：基于预先确定的单个标签修改增益和/或单个标签修改损失，针对该簇中的非标记样本数据构建标签修改优化函数，其中，所述标签修改优化函数与将该簇中的所有非标记样本数据的n个预分类标签全部修改为作为n个预分类标签之一的候选标签的总修改代价有关；以及基于与所述候选标签相关联的总修改代价，将获得所述总修改代价的最优化结果时的候选标签作为针对该簇的优化标签。

根据本公开的又一方面，提供一种信息处理设备，所述设备包括控制器，所述控制器被配置为：利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化。

在上述控制器的处理中，针对所述至少一个簇当中的给定簇中的非标记样本数据，获得了n个预分类标签，n为大于等于2的自然数，并且其中，通过下述方式针对给定簇进行所述标签修改优化处理：基于预先确定的单个标签修改增益和/或单个标签修改损失，针对该簇中的非标记样本数据构建标签修改优化函数，其中，所述标签修改优化函数与将该簇中的所有非标记样本数据的n个预分类标签全部修改为作为n个预分类标签之一的候选标签的总修改代价有关；以及基于与所述候选标签相关联的总修改代价，将获得所述总修改代价的最优化结果时的候选标签作为针对该簇的优化标签。

依据本公开的其它方面，还提供了一种使得计算机用作如上所述的信息处理装置的程序。

依据本公开的又一方面，还提供了相应的计算机可读存储介质，该计算机可读存储介质上存储有能够由计算设备执行的计算机程序，该计算机程序在执行时能够使计算设备执行上述信息处理方法。

上述根据本公开实施例的各个方面，至少能够获得以下益处：能够结合非监督学习和监督学习，利用聚类结果改进分类器的性能。在能够用于训练分类器的标记样本数据数量有限的情况下，本发明对分类器的改进尤为有益。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。

图2是用于说明根据本公开实施例的信息处理装置所进行的示例处理的说明图。

图3是示意性地示出根据本公开实施例的信息处理方法的示例流程的流程图。

图4是示意性地示出根据本公开实施例的信息处理设备的示例结构的框图。

图5是示出了可用来实现根据本公开实施例的信息处理装置、方法以及设备的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

在信息处理领域，期望提高机器学习的准确度和/或改进机器学习方法的性能。基于此，本公开提出了一种信息处理装置、方法以及设备，其能够结合监督学习和非监督学习方法，以提供具有改进的性能的分类器。

根据本公开的一个方面，提供了一种信息处理装置。图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。

如图1所示，信息处理装置10包括：预分类单元101，其利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；聚类单元102，其对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；标签修改单元103，其针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及优化单元104，其利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化。

更具体地，在上述信息处理装置10中，针对所述至少一个簇当中的给定簇中的非标记样本数据，预分类单元101获得了n个预分类标签，n为大于等于2的自然数。此时，标签修改单元103通过下述方式针对给定簇进行所述标签修改优化处理：

基于预先确定的单个标签修改增益和/或单个标签修改损失，针对该簇中的非标记样本数据构建标签修改优化函数，其中，所述标签修改优化函数与将该簇中的所有非标记样本数据的n个预分类标签全部修改为作为n个预分类标签之一的候选标签的总修改代价有关；以及

基于与所述候选标签相关联的总修改代价，将获得所述总修改代价的最优化结果时的候选标签作为针对该簇的优化标签。

以下结合具体示例，参照图2描述信息处理装置10进行的示例处理。图2是用于说明根据本公开实施例的信息处理装置所进行的示例处理的说明图。

为描述简明起见，将考虑基于用户在购物网站的访问日志将用户分类为“男性用户”或“女性用户”的二分类问题的示例。然而，本领域技术人员可以了解，本公开实施例的信息处理装置10可以针对各种应用、各种分类问题进行处理，而不限于此处给出的具体示例。

在本示例中，每份用户日志可以被视为一份原始的非标记样本数据，包括访问开始时间、访问结束时间、网站访问记录等信息。一份这样的用户日志的示例如下：

访问开始时间：2014-11-18 18:56:21,

访问结束时间：2014-11-18 19:03:36,

网站访问记录(访问路径)：

A00002/B00006/C00015/D05947/；

A00002/B00006/C00015/D05948/；

A00002/B00006/C00030/D05949/；

A00002/B00006/C00015/D05951/；

A00002/B00006/C00030/D05954/；

A00002/B00006/C00015/D05957/.

上述用户日志中每个访问记录(访问路径)的格式为“类别A/类别B/类别C/类别D/”。出于隐私考虑，网站隐去了每个类别的具体名称，而使用包括数字和字母的编号来表示。以涉及电脑产品的访问记录为例，第一条访问记录中的A00002可表示产品大致分类的类别“电脑”，B00006可表示产品细致分类的类别“平板电脑”，C00015可表示产品品牌的类别“微软”，D05947可表示产品型号的类别“Surface Pro 4(128G)”。类似地，第二条访问记录中的D05948可表示产品型号的另一类别“Surface Pro4(256G)”。其他访问记录中的路径信息可以具有类似含义，在此不进行重复描述。

预分类单元101可以利用分类器从诸如上述用户日志的原始非标记样本数据中提取特征，并基于所提取的特征将样本数据分类为属于第一类别C₁＝“男性用户”或第二类别C₂＝“女性用户”。作为示例而非限制，分类器从用户日志提取的特征可以包括访问开始时间、访问结束时间、全部或部分访问路径、访问时段的长度、访问时段处于工作日还是假期、访问时段处于白天还是晚上，等等，在此不再展开描述。

上述分类器可以是利用与诸如上述用户日志的原始非标记样本数据类似、但已被标记的标记样本数据(也可称为历史数据)来训练获得的，其能够基于网站的用户日志而将用户分类为“男性用户”或“女性用户”。可以通过各种已知的监督学习方法、根据选定的评判标准(例如分类结果的高准确率等)来训练得到这样的分类器。分类器的类型例如可以是贝叶斯分类器，也可以是任意其他类型，比如支持向量机(SVM)、最大熵、随机森林、决策树、神经网络等类型，在此不再进行详细描述。

聚类单元102可以利用各种已知的聚类算法，对作为非标记样本数据的、由预分类单元101利用分类器预分类的多个用户访问记录进行聚类。聚类算法的示例可以包括K均值聚类算法、CLARANS分割聚类算法、BIRCH聚类算法、CURE聚类算法、基于密度的聚类算法(DBSCAN)、STING聚类算法等。本领域技术人员可以根据应用需求、处理负荷、样本数据本身的特性等各种因素选择适当的聚类算法，在此不进行详细描述。

在一个优选实施例中，在聚类单元102的聚类处理中使用的非标记样本数据的特征可以与在预分类单元101的处理中使用的(即在分类器中使用的)非标记样本数据的特征相对应或相关联，以使得聚类单元102的聚类结果能够有效地用于分类器的优化。

例如，在本示例的用户访问记录的情况下，作为聚类时考虑的多个样本之间的距离(即，聚类时所使用的特征)，聚类单元102可以考虑多个用户日志之间的时间间隔(例如，多个用户日志的访问开始时间之间的间隔，或多个用户日志的访问结束时间之间的间隔)、多个用户日志中的访问路径中所包括的特定类别的同现频率(例如，类别A00002和B00006的同现频率)等。

图2中的左图示出了通过聚类单元102的聚类处理获得的一个给定簇的示例。该给定簇中包括10个非标记样本数据，预分类单元101针对其2个样本数据获得了属于“男性用户”(第一类别)的预分类标签，其以实心圆示出，而针对另外8个样本数据获得了属于“女性用户”(第二类别)的预分类标签，其以空心圆示出。

标签修改单元103可以基于预分类单元101的预分类结果以及聚类单元102的聚类结果进行标签修改优化处理，以将给定簇中的非标记样本数据的预分类标签全部修改为具有最优的总修改代价的优化标签。

在标签修改单元103的标签修改优化处理中，使用预先确定的单个标签修改增益和/或单个标签修改损失来构建标签修改优化函数，以确定与每个候选标签相关联的总修改代价。作为示例，将非标记样本数据的A标签修改为B标签的单个标签修改损失可以表示将原本正确的A标签误改为B标签所带来的损失；而将非标记样本数据的A标签修改为B标签的单个标签修改增益可以表示将原本错误的A标签修改为正确的B标签所带来的增益。

上述的单个标签修改增益和/或损失可以基于样本数据本身的特性(例如稍后将详细描述的基于样本数据的分布特性)和/或基于各种设计因素(例如稍后将详细描述的基于应用需求)等来合理地设置，以使得最终确定的优化标签能有利地改进分类器的准确度和/或改进分类器的性能。此外，基于应用需求、样本数据特性等不同考量，在聚类单元102所获得的不同簇之间，可以设置彼此相同或不同的单个标签修改增益和/或损失。

基于预先确定的单个标签修改增益和/或损失，标签修改单元103可以采用任何适当的方式构建标签修改优化函数(例如采用本领域中已知的构建优化函数的方式)，只要该函数能够表示将给定簇中的所有非标记样本数据的n个预分类标签全部修改为作为n个预分类标签之一的候选标签的总修改代价即可。

在图2所示的示例中，针对图2中的左图所示的给定簇，标签修改单元103可以基于将标签从“男性用户”修改为“女性用户”的单个标签修改代价和/或损失，利用标签修改优化函数计算将该簇中的10个样本数据的预分类标签全部修改为“女性用户”总修改代价，作为第一总修改代价。类似地，标签修改单元103可以基于将标签从“女性用户”修改为“男性用户”的单个标签修改代价和/或损失，利用标签修改优化函数计算将10个样本数据的预分类标签全部修改为“男性用户”的总修改代价，作为第二总修改代价。

如果上述第一总修改代价优于第二总修改代价，则标签修改单元103可以将与第一总修改代价相关联的“女性用户”标签作为优化标签，即，将给定簇中的样本数据的标签全部修改为“女性用户”，修改结果如图2的右上图所示。反之，则标签修改单元103可以将给定簇中的样本数据的标签全部修改为“男性用户”标签，修改结果如图2的右下图所示。

在获得非标记样本数据的优化标签之后，优化单元104可以采用各种已知的分类器优化方法对分类器进行优化。

在一个优选实施例中，优化单元104可以利用所述非标记样本数据以及所述优化标签来通过重新训练或增量更新的方式对所述分类器进行优化。

例如，在图2的示例中，优化单元104可以将如图2的右上图或右下图所示的带有修改后的优化标签的非标记样本数据作为新的标记样本数据(其被标记的标签即为修改后的优化标签)来重新训练分类器，或者以增量更新的方式对分类器进行优化。优化处理的具体细节在此不再描述。

利用上述单元101-104进行的处理，信息处理装置10能够将基于监督学习的分类器和基于分监督学习的聚类这两种机器学习方式相结合，从而改进分类器的性能。

这种性能改进在很多情况下是非常有用的。一方面，训练分类器所需的带有标签的标记样本数据的数量可能是有限的。另一方面，仅使用不带标签的非标记样本数据通过聚类等方式获得分类结果，则可能不够准确。本发明所提供的信息处理装置利用聚类结果改进分类器的性能，将这两种分类方式进行结合，从而特别适合于在标记样本数据数量有限的情况下改进分类器的性能。

在一个优选实施例中，信息处理装置10的标签修改单元103利用标签修改优化函数来获得给定簇中的非标记样本数据的优化标签。为便于描述，在本优选实施中，假设针对给定簇中的非标记样本数据，例如已通过信息处理装置10的预分类单元101获得了n个预分类标签(n为大于等于2的自然数)。此时，以小于等于n的、互不相等的自然数i，j分别表示这n个预分类标签中的第i个预分类标签和第j个预分类标签的编号(以下也可将第i个预分类标签和第j个预分类标签分别简称为标签i、标签j)，并且以自然数m_i表示该给定簇中具有预分类标签i的非标记样本数据的个数。

在进行上述假设的情况下，标签修改单元103通过下述方式构建标签修改优化函数以获得优化标签。

首先，针对n个预分类标签中的每个候选标签j，标签修改单元103通过下述方式计算与候选标签j相关联的总修改代价：

针对除候选标签j以外的n-1个预分类标签中的每个标签i，基于将标签i修改为标签j的单个标签修改增益g_ij和单个标签修改损失l_ij，计算将所述给定簇中的m_i个非标记样本数据的预分类标签从标签i修改为标签j的修改增益G_ij＝m_i·g_ij和修改损失L_ij＝m_i·l_ij，并基于G_ij和L_ij计算修改代价C_ij；以及将针对除候选标签j以外的n-1个预分类标签获得的修改代价求和，得到与候选标签j相关联的总修改代价

接下来，基于n个预分类标签中的每个候选标签所关联的总修改代价，标签修改单元103可以构建标签修改优化函数并且将满足的第k个预分类标签作为所述优化标签。

在标签修改单元103的上述处理中，当计算将给定簇中的m_i个非标记样本数据的预分类标签从标签i修改为标签j的修改代价C_ij时，作为示例，如果由于单个标签修改增益g_ij和单个标签修改损失l_ij均设置为正数而导致修改增益G_ij和修改损失L_ij取值均为正数，则标签修改单元103可以简单地将相关的修改增益G_ij和修改损失L_ij之差(或者加权差)作为修改代价C_ij。

本领域技术人员可以根据应用需求或其他设计因素等适当地设置基于修改增益G_ij和修改损失L_ij获得修改代价C_ij的具体方式(例如，如果由于单个标签修改增益g_ij为正数、单个标签修改损失l_ij为负数而导致修改增益G_ij取值为正数、修改损失L_ij取值为负数，则可以设置修改增益G_ij和修改损失L_ij的加权和作为修改代价C_ij)，在此不进行详细说明。

通过标签修改单元103的上述处理而获得的第k个预分类标签是总修改代价最优(例如，通过修改获得的增益最大和/或通过修改获得的损失最小)的候选标签，因而标签修改单元103可以将给定簇中的所有非标记样本数据的预分类标签全部修改为标签k，并将这些非标记样本数据连同其优化标签k一同提供给优化单元104以对分类器进行优化。例如，在上述将修改增益G_ij和修改损失L_ij之差作为修改代价C_ij的情况下，可以认为总修改代价最大的那个预分类标签即为优化标签。

为了进一步提高分类器的准确度和/或改进应用中使用的分类器的性能，在本公开的优选实施例中，进一步提供了单个标签修改增益和/或单个标签修改损失的优选确定方式。

在一个优选实施例中，所述单个标签修改增益和/或所述单个标签修改损失可以是基于所述非标记样本数据的分布特性而预先确定的。

为描述简单起见，此处仍以参照图2描述的基于用户日志数据将其分类为“男性用户”(第一类别C₁)和“女性用户”(第二类别C₂)的二分类问题为例。

例如，假设对样本数据的在先统计结果表明，女性用户的比例大于男性用户，则可以把将预分类标签从“男性用户”修改为“女性用户”的单个标签修改损失l₁₂设置为大于反向修改的单个标签修改损失l₂₁。例如，在本示例中，可以设置l₁₂＝3，l₂₁＝2。

这样，在标签修改单元103基于上述单个修改损失确定总修改代价、从而得到优化标签的过程中，可以尽量避免(或抑制)对样本数量较少的“男性用户”的预分类标签的错误修改，从而有利于在优化单元104所进行的优化分类器处理中改进分类器的分类准确度。

可以基于类似考量而以类似方式设置将预分类标签从“男性用户”修改为“女性用户”的单个标签修改增益g₁₂以及反向修改的单个标签修改增益g₂₁，这里不再详细描述。在本示例中，由于已经基于样本数据的分布特性设置了单个标签修改损失l₁₂＝3，l₂₁＝2，可以简单地将单个标签修改增益设置为g₁₂＝g₂₁＝1。

基于上述的单个标签修改损失和增益，标签修改单元103可以计算与每个候选标签相关联的总修改代价。

例如，返回参考图2中左图所示的给定簇中的10个非标记样本数据，其中，2个样本数据的预分类标签为“男性用户”，8个样本数据的预分类标签为“女性用户”。

对于上述给定簇，标签修改单元103可以计算将2个被预分类为“男性用户”的样本数据的预分类标签修改为“女性用户”的修改增益G₁₂＝g₁₂*2＝1*2＝2，并且计算上述修改的修改损失L₁₂＝l₁₂*2＝3*2＝6。接着，标签修改单元103可以计算上述修改增益G₁₂与修改损失L₁₂之差，作为与上述修改相关联的总修改代价C₁₂＝G₁₂-L₁₂＝2-6＝-4。

类似地，标签修改单元103可以计算将8个被预分类为“女性用户”的样本数据的预分类标签修改为“男性用户”的修改增益G₂₁＝g₁₂*8＝1*8＝8，并且计算上述修改的修改损失L₂₁＝l₂₁*8＝2*8＝16。接着，标签修改单元103可以计算上述修改增益G₂₁与修改损失L₂₁之差，作为与上述修改相关联的总修改代价C₂₁＝G₂₁-L₂₁＝8-16＝-8。

可见，将2个被预分类为“男性用户”的样本数据的预分类标签修改为“女性用户”的总修改代价C₁₂＝-4优于(即，大于)将8个被预分类为“女性用户”的样本数据的预分类标签修改为“男性用户”总修改代价C₂₁＝-8。

因此，标签修改单元103将2个被预分类为“男性用户”的样本数据的预分类标签修改为“女性用户”，即得到如图2的右上图所示的修改结果。

利用本优选实施例中基于非标记样本数据的分布特性而预先确定单个标签修改增益和/或损失的方式，可以尽量避免(或抑制)对数量较少的样本所对应的预分类标签的错误修改，从而有利于在优化单元104的优化分类器处理中改进分类器的分类准确度。

在另一个优选实施例中，所述单个标签修改增益和/或所述单个标签修改损失可以是基于要使用所述分类器的应用的需求而预先确定的。

例如，可以考虑不同的分类错误带来不同风险或代价的应用。在这样的应用中，可以基于预分类标签的错误修改所造成的风险或不良后果的等级而设置单个标签修改损失。

上述应用的一个示例可以是诸如用于癌细胞识别的医学处理应用。在癌细胞识别应用中，可以利用分类器判定给定细胞为癌细胞(第一类别C₁)还是正常细胞(第二类别C₂)。分类器把正常细胞错判为癌细胞带来的风险将远小于把癌细胞错判为正常细胞的风险：前一种错判的后果可能是进一步的检查以及病人的精神上的负担，而后一种错判则会使早期的患者失去进一步检查的机会，延误患者的治疗。在本示例中，可以基于上述错判的不同后果，把将预分类标签从“癌细胞”修改为“正常细胞”的单个标签修改损失l₁₂设置为大于反向修改的单个标签修改损失l₂₁。

类似地，可以考虑不同的分类正确结果带来不同益处的应用。例如，如果对某类样本的正确分类相较于对其他样本的正确分类具有更多的益处，则可以将与该样本类别相关的单个标签修改增益设置得较大。

利用本优选实施例中基于要使用分类器的应用的需求而预先确定单个标签修改增益和/或损失的方式，可以尽量避免(或抑制)使应用性能降低的预分类标签的错误修改，从而有利于在优化单元104的优化分类器处理中改进分类器的与应用有关的性能。

注意，上述两个优选实施例中预先确定单个标签修改增益和/或损失的方式可以彼此结合，即，可以基于要使用分类器的应用的需求以及非标记样本数据的分布特性这两者来共同确定单个标签修改增益和/或损失。

以上参照图1至图2描述了根据本公开实施例的信息处理装置及其组成单元以及相关处理。利用根据本公开实施例的信息处理装置，能够结合非监督学习和监督学习，利用聚类结果改进分类器的性能。

根据本公开的另一个方面，提供了一种信息处理方法。图3是示意性地示出根据本公开实施例的信息处理方法的示例流程的流程图。

如图7所示，信息处理方法30可以包括：预分类步骤S301，利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；聚类步骤S303，对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；标签修改步骤S305，针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及优化步骤S307，利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化。

在信息处理方法30中，针对所述至少一个簇当中的给定簇中的非标记样本数据，通过预分类步骤S301获得了n个预分类标签，n为大于等于2的自然数，并且其中，在标签修改步骤S307中，通过下述方式针对给定簇进行所述标签修改优化处理：

在一个优选实施例中，在标签修改步骤S307中利用标签修改优化函数来获得给定簇中的非标记样本数据的优化标签。为便于描述，在本优选实施中，假设针对给定簇中的非标记样本数据，例如已通过预分类步骤S301获得了n个预分类标签(n为大于等于2的自然数)。此时，以小于等于n的、互不相等的自然数i，j分别表示这n个预分类标签中的第i个预分类标签和第j个预分类标签的编号(以下也可将第i个预分类标签和第j个预分类标签分别简称为标签i、标签j)，并且以自然数m_i表示该给定簇中具有预分类标签i的非标记样本数据的个数。

在进行上述假设的情况下，在标签修改步骤S307中，通过下述方式构建标签修改优化函数以获得优化标签。

首先，针对n个预分类标签中的每个候选标签j，通过下述方式计算与候选标签j相关联的总修改代价：

在一个优选实施例中，所述单个标签修改增益和/或所述单个标签修改损失可以是基于要使用所述分类器的应用的需求而预先确定的。

上述信息处理方法30及其各个步骤可以实现由以上参照图1至图2描述的信息处理装置10及其各个组成单元进行的处理，并实现类似的效果，在此不再进行重复说明。

根据本公开的又一个方面，提供了一种信息处理设备。图4是示意性地示出根据本公开实施例的信息处理设备的示例结构的框图。

如图4所示，信息处理设备40可以包括控制器401。控制器401可以被配置为：利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化。

在控制器401的上述处理中，针对所述至少一个簇当中的给定簇中的非标记样本数据，获得了n个预分类标签，n为大于等于2的自然数，并且其中，通过下述方式针对给定簇进行所述标签修改优化处理：基于预先确定的单个标签修改增益和/或单个标签修改损失，针对该簇中的非标记样本数据构建标签修改优化函数，其中，所述标签修改优化函数与将该簇中的所有非标记样本数据的n个预分类标签全部修改为作为n个预分类标签之一的候选标签的总修改代价有关；以及基于与所述候选标签相关联的总修改代价，将获得所述总修改代价的最优化结果时的候选标签作为针对该簇的优化标签。

信息处理设备40可以利用任意的专用硬件、专用计算机或一般的通用个人计算机来实现，并且控制器401可以利用中央处理单元(CPU)、处理器、专用集成电路等各种适当装置来实现。

利用信息处理设备40，可以实现由以上参照图1至图2描述的信息处理装置10及其各个组成单元进行的处理，并且获取相应的效果，在此不进行重复描述。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件也连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡例如LAN卡、调制解调器等)。通信部分509经由网络例如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可拆卸介质511例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上，使得从中读出的计算机程序可根据需要被安装到存储部分508中。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开实施例的信息处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，在根据本公开实施例中，本公开提供了如下方案，但不限于此：

方案1.一种信息处理装置，包括：

预分类单元，其利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；

聚类单元，其对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；

标签修改单元，针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及

优化单元，其利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化，

其中，针对所述至少一个簇当中的给定簇中的非标记样本数据，所述预分类单元获得了n个预分类标签，n为大于等于2的自然数，并且其中，所述标签修改单元通过下述方式针对给定簇进行所述标签修改优化处理：

方案2.如方案1所述的信息处理装置，其中，所述标签修改单元通过下述方式获得所述优化标签：

针对n个预分类标签中的每个候选标签j，

针对除候选标签j以外的n-1个预分类标签中的每个标签i，基于将标签i修改为标签j的单个标签修改增益g_ij和单个标签修改损失l_ij，计算将所述给定簇中的m_i个非标记样本数据的预分类标签从标签i修改为标签j的修改增益G_ij＝m_i·g_ij和修改损失L_ij＝m_i·l_ij，并基于G_ij和L_ij计算修改代价C_ij，以及

将针对除候选标签j以外的n-1个预分类标签获得的修改代价求和，得到与候选标签j相关联的总修改代价

其中i，j为小于等于n的、互不相等的自然数，并且分别表示n个预分类标签中的第i个预分类标签和第j个预分类标签的编号，m_i为自然数并且表示所述给定簇中具有预分类标签i的非标记样本数据的个数；以及

基于n个预分类标签中的每个候选标签所关联的总修改代价，构建标签修改优化函数以及

将满足的第k个预分类标签作为所述优化标签。

方案3.如方案1或2所述的信息处理装置，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于要使用所述分类器的应用的需求而预先确定的。

方案4.如方案1或2所述的信息处理装置，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于所述非标记样本数据的分布特性而预先确定的。

方案5.如方案1所述的信息处理装置，其中，所述优化单元利用所述非标记样本数据以及所述优化标签来通过重新训练或增量更新的方式对所述分类器进行优化。

方案6.一种信息处理方法，包括：

利用分类器对非标记样本数据进行分类，以获得所述非标记样本数据的预分类标签；

对所述非标记样本数据进行聚类，以获得所述非标记样本数据的至少一个簇；

针对所述至少一个簇中的每个簇，利用标签修改优化处理，基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签，并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签；以及

利用所述非标记样本数据以及所述优化标签，对所述分类器进行优化，

其中，针对所述至少一个簇当中的给定簇中的非标记样本数据，获得了n个预分类标签，n为大于等于2的自然数，并且其中，通过下述方式针对给定簇进行所述标签修改优化处理：

方案7.如方案6所述的信息处理方法，其中，通过下述方式获得所述优化标签：

针对n个预分类标签中的每个候选标签j，

将满足的第k个预分类标签作为所述优化标签。

方案8.如方案6或7所述的信息处理方法，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于要使用所述分类器的应用的需求而预先确定的。

方案9.如方案6或7所述的信息处理方法，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于所述非标记样本数据的分布特性而预先确定的。

方案10.一种信息处理设备，包括：

控制器，所述控制器被配置为：

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种信息处理装置，包括：

2.如权利要求1所述的信息处理装置，其中，所述标签修改单元通过下述方式获得所述优化标签：

针对n个预分类标签中的每个候选标签j，

将满足的第k个预分类标签作为所述优化标签。

3.如权利要求1或2所述的信息处理装置，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于要使用所述分类器的应用的需求而预先确定的。

4.如权利要求1或2所述的信息处理装置，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于所述非标记样本数据的分布特性而预先确定的。

5.如权利要求1所述的信息处理装置，其中，所述优化单元利用所述非标记样本数据以及所述优化标签来通过重新训练或增量更新的方式对所述分类器进行优化。

6.一种信息处理方法，包括：

7.如权利要求6所述的信息处理方法，其中，通过下述方式获得所述优化标签：

针对n个预分类标签中的每个候选标签j，

将满足的第k个预分类标签作为所述优化标签。

8.如权利要求6或7所述的信息处理方法，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于要使用所述分类器的应用的需求而预先确定的。

9.如权利要求6或7所述的信息处理方法，其中，所述单个标签修改增益和/或所述单个标签修改损失是基于所述非标记样本数据的分布特性而预先确定的。

10.一种信息处理设备，包括：

控制器，所述控制器被配置为：