CN104699702A

CN104699702A - 数据挖掘及分类方法

Info

Publication number: CN104699702A
Application number: CN201310655793.6A
Authority: CN
Inventors: 杨鸿超; 王骏; 刘为怀; 岳钢
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2015-06-10

Abstract

本发明提出了数据挖掘及分类方法，所述方法包括：基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值，并且随之针对每个目标对象，将与该目标对象对应的至少一个属性数据的值表示为属性向量；针对所述属性向量执行基于聚类处理的分类操作，以获得所述属性向量的分类结果，所述分类结果指示每个属性向量所对应的目标对象的分类。本发明所公开的数据挖掘及分类方法能够根据目标对象的多个属性数据的值来挖掘和分类目标对象。

Description

数据挖掘及分类方法

技术领域

本发明涉及数据挖掘及分类方法，更具体地，涉及基于聚类技术的数据挖掘及分类方法。

背景技术

目前，随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富，对特定的对象进行有效的分类以便针对不同类别的对象实施不同的处理方案。

在现有的技术方案中，通常根据与目标对象相关联的单一属性数据来对目标对象进行分类，即基于每个目标对象的某个特定的属性数据的值对目标对象进行分类。

然而，现有的技术方案存在如下问题：由于仅仅基于单一属性数据对目标对象进行分类，故分类结果的精确度较低。

因此，存在如下需求：提供能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。

发明内容

为了解决上述现有技术方案所存在的问题，本发明提出了能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。

本发明的目的是通过以下技术方案实现的：

一种数据挖掘及分类方法，所述数据挖掘及分类方法包括下列步骤：

（A1）基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值，并且随之针对每个目标对象，将与该目标对象对应的至少一个属性数据的值表示为属性向量；

（A2）针对所述属性向量执行基于聚类处理的分类操作，以获得所述属性向量的分类结果，所述分类结果指示每个属性向量所对应的目标对象的分类。

在上面所公开的方案中，优选地，所述基于聚类处理的分类操作进一步包括：（B1）规范化初始的属性向量，以消除属性向量中的不同属性的取值差异所引入的数据偏移。

在上面所公开的方案中，优选地，所述步骤（B1）进一步包括：使用z-score规范化过程对初始的属性向量进行规范化，其包括：针对属性向量中的任一属性值A，使得规范化后的值A_new是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值。

在上面所公开的方案中，优选地，所述基于聚类处理的分类操作进一步包括：（B2）针对规范化后的属性向量进行2-类聚类处理，其包括：（C1）确定两个类别的“种子”向量以将其作为聚类中心；（C2）利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。

在上面所公开的方案中，优选地，所述步骤（C1）进一步包括：将所有已知的第一类目标对象所对应的属性向量在向量空间中的几何中心作为第一聚类中心，并且将所有已知的第二类目标对象所对应的属性向量在向量空间中的几何中心作为第二聚类中心。

在上面所公开的方案中，优选地，所述基于聚类处理的分类操作进一步包括：（B3）从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量，以构成第一部分的潜在对应于第一类目标对象的属性向量。

在上面所公开的方案中，优选地，所述基于聚类处理的分类操作进一步包括：（B4）对被聚类到第二聚类中心的属性向量进行离群点分析，所述离群点分析包括：（1）将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点；（2）以如下方式筛选所确定的离群点：将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量。

在上面所公开的方案中，优选地，所述基于聚类处理的分类操作进一步包括：（B5）合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果。

在上面所公开的方案中，优选地，所述数据挖掘及分类方法以分布式计算的方式被实现。

本发明所公开的基于聚类技术的数据挖掘及分类方法具有以下优点：能够根据目标对象的多个属性数据的值来挖掘和分类目标对象并且具有良好地可扩展性，从而显著的提高了分类准确性。

附图说明

结合附图，本发明的技术特征以及优点将会被本领域技术人员更好地理解，其中：

图1是根据本发明的实施例的数据挖掘及分类方法的流程图。

图2是根据本发明的实施例的数据挖掘及分类方法中的离群点分析及筛选基本原理的示意图。

具体实施方式

图1是根据本发明的实施例的数据挖掘及分类方法的流程图。如图1所示，本发明所公开的数据挖掘及分类方法包括下列步骤：（A1）基于预定规则从目标数据集（例如金融领域中的交易记录集合）中收集目标对象（例如金融卡用户）的至少一个属性数据（例如消费金额、消费次数、消费场景等等）的值，并且随之针对每个目标对象，将与该目标对象对应的至少一个属性数据的值表示为属性向量（例如，属性向量的每一位代表可以描述金融卡消费行为的不同含义，如金融卡的消费金额、消费次数、消费时间等等，并且属性向量的位数可以任意定制和扩展，即可以采用任意多的指标来描述金融卡的消费行为）；（A2）针对所述属性向量执行基于聚类处理的分类操作，以获得所述属性向量的分类结果，所述分类结果指示每个属性向量所对应的目标对象的分类。

优选地，在本发明所公开的数据挖掘及分类方法中，所述属性向量的位数能够根据实际需求而被任意扩展。

优选地，在本发明所公开的数据挖掘及分类方法中，所述基于聚类处理的分类操作进一步包括：（B1）规范化初始的属性向量，以消除属性向量中的不同属性的取值差异所引入的数据偏移（这也可以提高后续处理步骤的迭代速率）。

优选地，在本发明所公开的数据挖掘及分类方法中，所述步骤（B1）进一步包括：使用z-score规范化过程对初始的属性向量进行规范化，其包括：针对属性向量中的任一属性值A，使得规范化后的值A_new是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值（其中，所述均值和所述标准差是针对所有属性向量中对应该属性值的位的值而言的）。

优选地，在本发明所公开的数据挖掘及分类方法中，所述基于聚类处理的分类操作进一步包括：（B2）针对规范化后的属性向量进行2-类聚类处理，其包括：（C1）确定两个类别的“种子”向量以将其作为聚类中心；（C2）利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。

优选地，在本发明所公开的数据挖掘及分类方法中，所述步骤（C1）进一步包括：将所有已知的第一类目标对象（例如金融领域中的高端持卡人，诸如白金卡持卡人）所对应的属性向量在向量空间中的几何中心作为第一聚类中心，并且将所有已知的第二类目标对象（例如金融领域中的非高端持卡人，诸如普通卡持卡人）所对应的属性向量在向量空间中的几何中心作为第二聚类中心。

优选地，在本发明所公开的数据挖掘及分类方法中，所述基于聚类处理的分类操作进一步包括：（B3）从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量，以构成第一部分的潜在对应于第一类目标对象的属性向量（例如对应于潜在的高端持卡人的属性向量，其原本属于普通卡持卡人）。

优选地，在本发明所公开的数据挖掘及分类方法中，所述基于聚类处理的分类操作进一步包括：（B4）对被聚类到第二聚类中心的属性向量进行离群点分析，所述离群点分析包括：（1）将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点；（2）以如下方式筛选所确定的离群点：将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量（例如对应于潜在的高端持卡人的属性向量，其原本属于普通卡持卡人）。

图2是根据本发明的实施例的数据挖掘及分类方法中的离群点分析及筛选基本原理的示意图。如图2所示，A和B分别为第二聚类中心和第一聚类中心，以A为中心的虚线圆外的属性向量点为离群点，并且将位于以AB为直径的圆内的离群点划归为第二部分的潜在对应于第一类目标对象的属性向量（例如对应于潜在的高端持卡人的属性向量，其原本属于普通卡持卡人）。该示意图是基于二维空间的，但是其基本原理可以扩展到任意维度的高维空间。

优选地，在本发明所公开的数据挖掘及分类方法中，所述基于聚类处理的分类操作进一步包括：（B5）合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果（即所有潜在对应于第一类目标对象的属性向量，例如所有对应于潜在的高端持卡人的属性向量）。

优选地，本发明所公开的数据挖掘及分类方法以分布式计算的方式被实现。例如，由于在各个步骤中输入的均为向量数据，并且不涉及向量与向量之间的运算，因此可以将这些向量数据分配给不同的计算节点进行计算处理，每个计算节点处理一部分向量，在处理完成之后，可以根据具体的键值（例如金融卡的卡号）将计算结果进行归类以便进行进一步的处理，并最后合并处理结果以得到最终的计算结果。

由上可见，本发明所公开的数据挖掘及分类方法具有下列优点：能够根据目标对象的多个属性数据的值来挖掘和分类目标对象并且具有良好地可扩展性，从而显著的提高了分类准确性。

尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到：在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。

Claims

1.一种数据挖掘及分类方法，所述数据挖掘及分类方法包括下列步骤：

2.根据权利要求1所述的数据挖掘及分类方法，其特征在于，所述基于聚类处理的分类操作进一步包括：（B1）规范化初始的属性向量，以消除属性向量中的不同属性的取值差异所引入的数据偏移。

3.根据权利要求2所述的数据挖掘及分类方法，其特征在于，所述步骤（B1）进一步包括：使用z-score规范化过程对初始的属性向量进行规范化，其包括：针对属性向量中的任一属性值A，使得规范化后的值A_new是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值。

4.根据权利要求3所述的数据挖掘及分类方法，其特征在于，所述基于聚类处理的分类操作进一步包括：（B2）针对规范化后的属性向量进行2-类聚类处理，其包括：（C1）确定两个类别的“种子”向量以将其作为聚类中心；（C2）利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。

5.根据权利要求4所述的数据挖掘及分类方法，其特征在于，所述步骤（C1）进一步包括：将所有已知的第一类目标对象所对应的属性向量在向量空间中的几何中心作为第一聚类中心，并且将所有已知的第二类目标对象所对应的属性向量在向量空间中的几何中心作为第二聚类中心。

6.根据权利要求5所述的数据挖掘及分类方法，其特征在于，所述基于聚类处理的分类操作进一步包括：（B3）从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量，以构成第一部分的潜在对应于第一类目标对象的属性向量。

7.根据权利要求6所述的数据挖掘及分类方法，其特征在于，所述基于聚类处理的分类操作进一步包括：（B4）对被聚类到第二聚类中心的属性向量进行离群点分析，所述离群点分析包括：（1）将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点；（2）以如下方式筛选所确定的离群点：将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量。

8.根据权利要求7所述的数据挖掘及分类方法，其特征在于，所述基于聚类处理的分类操作进一步包括：（B5）合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果。

9.根据权利要求8所述的数据挖掘及分类方法，其特征在于，所述数据挖掘及分类方法以分布式计算的方式被实现。