CN104933053A

CN104933053A - 非平衡类数据的分类

Info

Publication number: CN104933053A
Application number: CN201410100293.0A
Authority: CN
Inventors: 杨鸿超; 赵金涛; 邱雪涛; 王骏
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2014-03-18
Filing date: 2014-03-18
Publication date: 2015-09-23

Abstract

本发明涉及数据挖掘技术，特别涉及训练非平衡类数据分类器的方法、非平衡类数据分类器和非平衡类数据分类的方法。在按照本发明一个实施例的训练非平衡类数据分类器的方法中，由所述非平衡类数据分类器进行分类的数据具有多个属性，所述方法包含下列步骤：将所述多个属性划分为多个属性组，每个所述属性组对应一个子分类器，每个所述子分类器适于基于对应的所述属性组对数据进行分类，使得能够根据预先设定的规则，由各个所述子分类器的分类结果得到最终的分类结果；将训练数据样本划分为多个测试集；以及对于每个所述属性组，利用不同的所述测试集训练对应的子分类器。

Description

非平衡类数据的分类

发明领域

本发明涉及数据挖掘技术，特别涉及非平衡类数据分类器的训练方法、非平衡类数据分类器和非平衡类数据分类的方法。

背景技术

分类是数据挖掘和机器学习中最常用的技术之一，其根据一组已知类别的对象训练得到分类器，然后将未知类别的对象应用于该分类器以确定相应的类别。在非平衡类数据中，某类样本的数量远远大于其它类样本，其中前者被称为负类数据，后者被称为正类数据。

实际应用（例如信用卡交易欺诈检测、网络入侵检测、医学疾病诊断等）中常会遇到非平衡类数据的分类问题，这类问题的共同点是少数类信息是用户关注的重点。例如在信用卡交易欺诈检测的应用中，更为关心的是欺诈客户，但是监测到的数据集中大部分是信用卡正常交易记录，非法交易所占比例很小。用于处理分类问题的现有技术有很多种，如决策树、贝叶斯网络、支持向量机等，但这些技术多针对平衡数据而设计，未考虑到正类和负类数据分布的巨大差异性，因此处理效果不佳。

目前，非平衡类数据的分类主要采用两种思路：一是改变训练集样本的分布，降低不平衡度，主要包括改变数据集分布的重采样方法，其缺点是分类效果依赖于重采样算法，而对于很多应用来说，数据集的最优分布难以确定；二是针对非平衡类数据特点构造新算法或改造现有算法（例如代价敏感学习方法、特征选择方法和单类学习方法等），代价敏感学习方法的缺点是很难对错误分类的代价给出准确的估计，使得整体性能提升得不到保障，特征选择方法更多的是适用于文本分类的问题，适用范围受到较大限制，单类学习方法的缺点是仅仅利用少数正类数据，完全忽略了负类数据中蕴涵的有用信息。

由上可见，迫切需要一种性能优秀和适用范围大的非平衡类数据处理技术。

发明内容

本发明的一个目的是提供一种训练非平衡类数据分类器的方法，其具有信息挖掘充分、全面和分类精度高等优点。

在按照本发明一个实施例的训练非平衡类数据分类器的方法中，由所述非平衡类数据分类器进行分类的数据具有多个属性，所述方法包含下列步骤：

将所述多个属性划分为多个属性组，每个所述属性组对应一个子分类器，每个所述子分类器适于基于对应的所述属性组对数据进行分类，使得能够根据预先设定的规则，由各个所述子分类器的分类结果得到最终的分类结果；

将训练数据样本划分为多个测试集；以及

对于每个所述属性组，利用不同的所述测试集训练对应的子分类器。

优选地，在上述方法中，将所述多个属性划分为n个属性组并且将训练数据样本划分为（n+1）个测试集，在子分类器的训练步骤中，按照下列方式训练第i个子分类器：

利用前(i-1)个子分类器对第i个测试集的训练数据样本进行分类以得到（i-1）组正类数据；

将所述（i-1）组正类数据的交集作为进一步的训练数据样本来训练第i个子分类器。

优选地，在上述方法中，按照随机方式将训练数据样本划分为多个测试集。

优选地，在上述方法中，利用最大召回率算法来训练第i个子分类器。

优选地，在上述方法中，按照属性之间的相关性将所述多个属性划分为多个属性组，所述相关性较大的属性被划分在不同的属性组内。

本发明的还有一个目的是提供一种非平衡类数据分类器，其具有高分类精度和分类效率等优点。

按照本发明一个实施例的非平衡类数据分类器包括：

数据接收单元；

多个子分类器，由所述非平衡类数据分类器进行分类的数据具有多个属性，所述多个属性被划分为多个属性组，每个所述属性组对应一个所述子分类器，每个所述子分类器被配置为并行地从所述数据接收单元接收数据并且基于对应的所述属性组对接收的数据进行分类；以及

与所述多个子分类器耦合的决策节点，其配置为根据预先设定的规则，由各个所述子分类器输出的分类结果得到最终的分类结果，

其中，按照下列方式训练所述非平衡类数据分类器：将训练数据样本划分为多个测试集，对于每个所述属性组，利用不同的所述测试集训练对应的子分类器。

优选地，在上述非平衡类数据分类器中，所述多个子分类器和所述决策节点在多个物理上并行的计算设备上实施。

优选地，在上述非平衡类数据分类器中，所述决策节点取各个所述子分类器输出的正类数据的交集作为最终的分类结果。

本发明的还有一个目的是提供一种非平衡类数据分类的方法，其具有高分类精度和分类效率等优点。

按照本发明一个实施例的非平衡类数据分类的方法包括下列步骤：

将待分类的数据输入多个子分类器，所述待分类的数据具有多个属性，所述多个属性被划分为多个属性组，每个所述属性组对应一个所述子分类器；

每个所述子分类器并行地基于对应的所述属性组对所述待分类的数据进行分类；以及

根据预先设定的规则，由各个所述子分类器输出的分类结果得到最终的分类结果，

附图说明

从结合附图的以下详细说明中，将会使本发明的上述和其它目的及优点更加完全清楚。

图1为按照本发明一个实施例的训练非平衡类数据分类器的方法的流程图。

图2为图1所示实施例中的子分类器训练例程的示意图。

图3为按照本发明一个实施例的非平衡类数据分类器的示意图。

图4为按照本发明一个实施例的非平衡类数据分类方法的流程图。

具体实施方式

下面参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现，而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整，从而使对本发明保护范围的理解更为全面和准确。

诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

按照本发明的一个方面，非平衡类数据的分类基于对象属性的拆分。具体而言，所处理的数据对象一般具有多个属性，在本发明的实施例中，这些属性被划分为多个属性组，每个属性组对应于一个子分类器，不同的子分类器基于相应的属性组对数据施行分类操作，子分类器分类操作的结果按照预先设定的规则汇总后产生最终的分类结果。由于可以为针对各个属性组的子分类器设定不同的分类规则，因此属性中所蕴含的信息得以充分利用，从而提升了非平衡数据分类的精度。另外，可将多个子分类器部署到分布式系统中的不同节点上，使得每个子分类器能够基于属性组并行地对数据进行分类，这提高了处理效率，从而满足大数据量或大吞吐量的应用需求。

按照本发明的另一个方面，在分类器训练阶段采用下列训练方式：将子分类器视为按照顺序相连的级联结构，用于下一级子分类器的训练数据样本取决于前级子分类器输出的正类数据，当遍历级联结构的所有级后，每个子分类器都经过训练，由此完成整个分类器的训练。本发明的发明人发现，这种基于级联结构的训练方式能够充分提升分类器的整体性能，并且还提高了训练效率。再者，借助于级联结构，全体训练数据样本中蕴含的信息得到充分利用，提高了分类器的整体性能。

如上所述，所处理的数据对象一般具有多个属性，因此如图1所示，在步骤S110中，首先将这些属性划分为n个属性组A₁、A₂……A_n。优选地，属性的划分可基于属性之间的相关性，其中，相关性较大的属性尽可能被划分在不同的属性组内，以使同一属性组内的属性之间具有较小的相关性。这种划分方式的优点是使各个子分类器的分类能力均衡化。需要指出的是，在本实施例中，各个属性组内属性的数量可以不同。

随后进入步骤S120，将训练数据样本划分为m个测试集T₀、T₂……T_m-1。为简化处理，这里可以按照随机方式划分训练数据样本。在本实施例中，优选地，可以使属性组的数量n与测试集的数量m之间具有确定的关系，例如测试集的数量m被取值为n+1。

接着，在步骤S130中，解析得到每个测试集中的每个训练数据样本的n个属性的取值，以下将这些取值的集合又称为属性值集合。如上所述，属性被划分为n个属性组，因此每个训练数据样本的属性值集合由n个属性值子集组成，每个子集对应于n个属性组中的一个。

如上所述，每个属性组对应于一个子分类器。因此本实施例的方法流程随后进入步骤S140，执行对每个子分类器进行训练的例程。优选地，子分类器S₁、S₂……S_n被布置成按照下标序号相连的级联结构，对于级联结构的第i个子分类器，它的训练数据样本取自前级子分类器对测试集T_i作分类处理得到的正类数据。由此，当级联结构上的所有子分类器都被遍历后，即完成了整个分类器的训练。

图2为图1所示实施例中的子分类器训练例程的示意图。这里假设将属性被划分为n个属性组A₁、A₂……A_n，训练数据样本被划分为（n+1）个测试集T₀、T₂……T_n，并且与属性组A₁、A₂……A_n对应的子分类器被记为S₁、S₂……S_n。

图2所示的例程包括下列过程：

步骤1）：首先，利用测试集T₀对基于属性组A₁的子分类器S₁进行训练。即，利用测试集T₀中训练数据样本的对应于属性组A₁的属性值子集来训练子分类器S₁，使得该子分类器能够基于属性组A₁对数据进行准确分类。优选地，在本步骤和下面的步骤中，均采用最大召回率算法对子分类器进行训练。

步骤2a）：利用在上述步骤1）中经过训练的子分类器S₁，基于属性组A₁对测试集T₁的训练数据样本进行分类。

步骤2b）分离出分类结果中的正类数据P₁₁。

步骤2c）：利用上述步骤2b）中得到的正类数据P₁₁对基于属性组A₂的子分类器S₂进行训练，即，利用正类数据P₁₁中每个训练数据样本的对应于属性组A₂的属性值子集来训练子分类器S₂。

步骤3a）：利用在上述步骤1）中经过训练的子分类器S₁，基于属性组A₁对测试集T₂进行分类并且分离出分类结果中的正类数据P₁₂，利用在上述步骤2b）中经过训练的子分类器S₂，基于属性组A₂对测试集T₂进行分类并且分离出分类结果中的正类数据P₂₂。

步骤3b）：取上述步骤3a）中得到的正类数据P₁₂和P₂₂的交集。

步骤3c）：利用步骤3b）中得到的正类数据P₁₂和P₂₂的交集对基于属性组A₃的子分类器S₃进行训练，即，利用交集中的每个训练数据样本的对应于属性组A₃的属性值子集来训练子分类器S₃。

…

步骤ia）：利用在前述步骤中经过训练的子分类器S₁～S_i-1，分别基于属性组A₁～A_i-1对测试集T_i进行分类并且分离出分类结果中的正类数据P_1i～P_ii。

步骤ib）：取上述步骤ia）中得到的正类数据P_1i～P_ii的交集。

步骤ic）：利用上述步骤ib）中得到的正类数据P_1i～P_ii的交集对基于属性组A_i的子分类器S_i进行训练，即，利用交集中的每个训练数据样本的对应于属性组A_i的属性值子集来训练子分类器S_i。

…

步骤na）：利用在前述步骤中经过训练的子分类器S₁～S_n-1，分别基于属性组A₁～A_n-1对测试集T_n进行分类并且分离出分类结果中的正类数据P_1n～P_nn。

步骤nb）：取上述步骤na）中得到的正类数据P_1n～P_nn的交集。

步骤nb）利用上述步骤nb）中得到的正类数据P_1n～P_nn的交集对基于属性组A_n的子分类器S_n进行训练，即，利用交集中的每个训练数据样本的对应于属性组A_n的属性值子集来训练子分类器S_n。至此，完成了对全部子分类器S₁、S₂……S_n的训练。

图3为按照本发明一个实施例的非平衡类数据分类器的示意图。本实施例的非平衡类数据分类器采用上面借助图1和2所述的方法进行训练。

如图3所示，本实施例的非平衡类数据分类器30包括数据接收单元310、子分类器321～32n和决策节点330。

如上所述，待分类数据据由若干数据样本组成，每个数据样本具有多个属性，它们按照与训练分类器时相同的方式被划分为n个属性组A₁、A₂……A_n。在本实施例中，子分类器321～32n与这些属性组一一对应，分别用于基于各自对应的属性组对数据进行分类。此外，每个数据样本的属性值集合由多个子集组成，每个子集对应于多个属性组中的一个。

在图3所示的平衡类数据分类器30中，数据接收单元310解析外部输入的待分类数据以得到每个数据样本的属性值集合，并且将全部数据样本的属于同一属性组的属性值子集合并，由此得到n个属性值合并集B₁、B₂……B_n。这n个属性值合并集被数据接收单元310并行地输出至相应的子分类器321～32n。对于任意一个属性值合并集B_i，对应的子分类器32i将独立地基于对应的属性组A_i对其进行分类。子分类器321～32n执行分类操作的结果被独立地输出至决策节点330。随后，决策节点根据预先设定的规则，由各个子分类器321～32n输出的分类结果得到最终的分类结果。决策节点330采用的预先设定的规则例如可以是将各个子分类器输出的分类结果中的正类数据的交集作为最终的分类结果。

优选地，在图3所示的非平衡类数据分类器，子分类器321～32n和决策节点330在多个物理上独立的计算设备上实现。

图4为按照本发明一个实施例的非平衡类数据分类方法的流程图。假设借助图3所示的非平衡类数据分类器来实施本实施例的方法。

如图4所示，在步骤S410，数据接收单元310从外部接收待分类的数据。随后进入步骤S420，数据接收单元310通过解析待分类数据得到每个数据样本的属性值集合，并且将全部数据样本的对应同一属性组的属性值子集合并以形成n个属性值合并集B₁、B₂……B_n。

接着，在步骤S430，n个属性值合并集B₁、B₂……B_n被数据接收单元310并行地输出至相应的子分类器321～32n。接着进入步骤S440，各个子分类器独立地执行分类操作并且将操作结果输出至决策节点330，即，每个子分类器基于各自对应的属性组，对输入的属性值合并集进行分类并将分类操作的结果（例如正类数据）输出至决策节点330。

随后在步骤S450，决策节点330判断是否接收到全部子分类器的分类操作结果，如果接收到，则进入步骤S460，否则则继续等待。

在步骤S460，决策节点330根据预先设定的规则，由各个子分类器输出的分类结果得到最终的分类结果。

本发明具有下列优点：

按照本发明实施例的非平衡类数据分类器在训练时采用级联结构将子分类器联接在一起，用于训练每一级子分类器的训练数据样本都源于前级子分类器的分类结果，但是每一级子分类器基于不同的属性组，由此能够最大程度地挖掘训练数据样本中蕴含的信息。另外，随着迭代过程的逐级进行，正类数据的分类精度逐步提高，因此可以通过控制每一级子分类器的正类数据召回率，使非平衡类数据分类器的总召回率保持在一定的水平之上。

此外，按照本发明实施例的非平衡类数据分类器采用分布式架构，将子分类器的操作交由多个节点并行实施，这避免了传统多分类器由于子分类器数目上升而导致分类效率下降的缺点，使得处理大数据量或大吞吐量的分类任务成为可能。

由于可以在不背离本发明基本精神的情况下，以各种形式实施本发明，因此上面描述的具体实施方式仅是说明性的而不是限制性的。本发明的范围由所附权利要求定义，对上面描述方式所作的各种变化或变动都属于所附权利要求的保护范围。

Claims

1.一种训练非平衡类数据分类器的方法，由所述非平衡类数据分类器进行分类的数据具有多个属性，其特征在于，所述方法包含下列步骤：

将训练数据样本划分为多个测试集；以及

2.如权利要求1所述的方法，其中，将所述多个属性划分为n个属性组并且将训练数据样本划分为（n+1）个测试集，在子分类器的训练步骤中，按照下列方式训练第i个子分类器：

3.如权利要求1所述的方法，其中，按照随机方式将训练数据样本划分为多个测试集。

4.如权利要求2所述的方法，其中，利用最大召回率算法来训练第i个子分类器。

5.如权利要求1所述的方法，其中，按照属性之间的相关性将所述多个属性划分为多个属性组，所述相关性较大的属性被划分在不同的属性组内。

6.一种非平衡类数据分类器，其特征在于，包括：

数据接收单元；

多个子分类器，由所述非平衡类数据分类器进行分类的数据具有多个属性，所述多个属性被划分为多个属性组，每个所述属性组对应一个所述子分类器，每个所述子分类器被配置为独立地从所述数据接收单元接收数据并且基于对应的所述属性组对接收的数据进行分类；以及

7.如权利要求6所述的非平衡类数据分类器，其中，所述多个子分类器和所述决策节点在多个物理上独立的计算设备上实现。

8.如权利要求6所述的非平衡类数据分类器，其中，将所述多个属性划分为n个属性组并且将训练数据样本划分为（n+1）个测试集，按照下列方式训练第i个子分类器：

9.如权利要求6所述的非平衡类数据分类器，其中，所述决策节点取各个所述子分类器输出的正类数据的交集作为最终的分类结果。

10.一种非平衡类数据分类的方法，包括下列步骤：

每个所述子分类器独立地基于对应的所述属性组对所述待分类的数据进行分类；以及

11.如权利要求10所述的方法，其中，所述多个子分类器和所述决策节点在多个物理上独立的计算设备上实现。

12.如权利要求10所述的方法，其中，将所述多个属性划分为n个属性组并且将训练数据样本划分为（n+1）个测试集，按照下列方式训练第i个子分类器：