CN104699702A - 数据挖掘及分类方法 - Google Patents
数据挖掘及分类方法 Download PDFInfo
- Publication number
- CN104699702A CN104699702A CN201310655793.6A CN201310655793A CN104699702A CN 104699702 A CN104699702 A CN 104699702A CN 201310655793 A CN201310655793 A CN 201310655793A CN 104699702 A CN104699702 A CN 104699702A
- Authority
- CN
- China
- Prior art keywords
- attribute vector
- attribute
- data mining
- vector
- destination object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了数据挖掘及分类方法,所述方法包括:基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。本发明所公开的数据挖掘及分类方法能够根据目标对象的多个属性数据的值来挖掘和分类目标对象。
Description
技术领域
本发明涉及数据挖掘及分类方法,更具体地,涉及基于聚类技术的数据挖掘及分类方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,对特定的对象进行有效的分类以便针对不同类别的对象实施不同的处理方案。
在现有的技术方案中,通常根据与目标对象相关联的单一属性数据来对目标对象进行分类,即基于每个目标对象的某个特定的属性数据的值对目标对象进行分类。
然而,现有的技术方案存在如下问题:由于仅仅基于单一属性数据对目标对象进行分类,故分类结果的精确度较低。
因此,存在如下需求:提供能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。
本发明的目的是通过以下技术方案实现的:
一种数据挖掘及分类方法,所述数据挖掘及分类方法包括下列步骤:
(A1)基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;
(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B1)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移。
在上面所公开的方案中,优选地,所述步骤(B1)进一步包括:使用z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anew是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(C1)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。
在上面所公开的方案中,优选地,所述步骤(C1)进一步包括:将所有已知的第一类目标对象所对应的属性向量在向量空间中的几何中心作为第一聚类中心,并且将所有已知的第二类目标对象所对应的属性向量在向量空间中的几何中心作为第二聚类中心。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B3)从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量,以构成第一部分的潜在对应于第一类目标对象的属性向量。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B4)对被聚类到第二聚类中心的属性向量进行离群点分析,所述离群点分析包括:(1)将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点;(2)以如下方式筛选所确定的离群点:将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B5)合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果。
在上面所公开的方案中,优选地,所述数据挖掘及分类方法以分布式计算的方式被实现。
本发明所公开的基于聚类技术的数据挖掘及分类方法具有以下优点:能够根据目标对象的多个属性数据的值来挖掘和分类目标对象并且具有良好地可扩展性,从而显著的提高了分类准确性。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的数据挖掘及分类方法的流程图。
图2是根据本发明的实施例的数据挖掘及分类方法中的离群点分析及筛选基本原理的示意图。
具体实施方式
图1是根据本发明的实施例的数据挖掘及分类方法的流程图。如图1所示,本发明所公开的数据挖掘及分类方法包括下列步骤:(A1)基于预定规则从目标数据集(例如金融领域中的交易记录集合)中收集目标对象(例如金融卡用户)的至少一个属性数据(例如消费金额、消费次数、消费场景等等)的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量(例如,属性向量的每一位代表可以描述金融卡消费行为的不同含义,如金融卡的消费金额、消费次数、消费时间等等,并且属性向量的位数可以任意定制和扩展,即可以采用任意多的指标来描述金融卡的消费行为);(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。
优选地,在本发明所公开的数据挖掘及分类方法中,所述属性向量的位数能够根据实际需求而被任意扩展。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B1)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移(这也可以提高后续处理步骤的迭代速率)。
优选地,在本发明所公开的数据挖掘及分类方法中,所述步骤(B1)进一步包括:使用z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anew是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值(其中,所述均值和所述标准差是针对所有属性向量中对应该属性值的位的值而言的)。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(C1)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。
优选地,在本发明所公开的数据挖掘及分类方法中,所述步骤(C1)进一步包括:将所有已知的第一类目标对象(例如金融领域中的高端持卡人,诸如白金卡持卡人)所对应的属性向量在向量空间中的几何中心作为第一聚类中心,并且将所有已知的第二类目标对象(例如金融领域中的非高端持卡人,诸如普通卡持卡人)所对应的属性向量在向量空间中的几何中心作为第二聚类中心。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B3)从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量,以构成第一部分的潜在对应于第一类目标对象的属性向量(例如对应于潜在的高端持卡人的属性向量,其原本属于普通卡持卡人)。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B4)对被聚类到第二聚类中心的属性向量进行离群点分析,所述离群点分析包括:(1)将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点;(2)以如下方式筛选所确定的离群点:将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量(例如对应于潜在的高端持卡人的属性向量,其原本属于普通卡持卡人)。
图2是根据本发明的实施例的数据挖掘及分类方法中的离群点分析及筛选基本原理的示意图。如图2所示,A和B分别为第二聚类中心和第一聚类中心,以A为中心的虚线圆外的属性向量点为离群点,并且将位于以AB为直径的圆内的离群点划归为第二部分的潜在对应于第一类目标对象的属性向量(例如对应于潜在的高端持卡人的属性向量,其原本属于普通卡持卡人)。该示意图是基于二维空间的,但是其基本原理可以扩展到任意维度的高维空间。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B5)合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果(即所有潜在对应于第一类目标对象的属性向量,例如所有对应于潜在的高端持卡人的属性向量)。
优选地,本发明所公开的数据挖掘及分类方法以分布式计算的方式被实现。例如,由于在各个步骤中输入的均为向量数据,并且不涉及向量与向量之间的运算,因此可以将这些向量数据分配给不同的计算节点进行计算处理,每个计算节点处理一部分向量,在处理完成之后,可以根据具体的键值(例如金融卡的卡号)将计算结果进行归类以便进行进一步的处理,并最后合并处理结果以得到最终的计算结果。
由上可见,本发明所公开的数据挖掘及分类方法具有下列优点:能够根据目标对象的多个属性数据的值来挖掘和分类目标对象并且具有良好地可扩展性,从而显著的提高了分类准确性。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。
Claims (9)
1.一种数据挖掘及分类方法,所述数据挖掘及分类方法包括下列步骤:
(A1)基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;
(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。
2.根据权利要求1所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B1)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移。
3.根据权利要求2所述的数据挖掘及分类方法,其特征在于,所述步骤(B1)进一步包括:使用z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anew是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值。
4.根据权利要求3所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(C1)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。
5.根据权利要求4所述的数据挖掘及分类方法,其特征在于,所述步骤(C1)进一步包括:将所有已知的第一类目标对象所对应的属性向量在向量空间中的几何中心作为第一聚类中心,并且将所有已知的第二类目标对象所对应的属性向量在向量空间中的几何中心作为第二聚类中心。
6.根据权利要求5所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B3)从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量,以构成第一部分的潜在对应于第一类目标对象的属性向量。
7.根据权利要求6所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B4)对被聚类到第二聚类中心的属性向量进行离群点分析,所述离群点分析包括:(1)将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点;(2)以如下方式筛选所确定的离群点:将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量。
8.根据权利要求7所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B5)合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果。
9.根据权利要求8所述的数据挖掘及分类方法,其特征在于,所述数据挖掘及分类方法以分布式计算的方式被实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310655793.6A CN104699702A (zh) | 2013-12-09 | 2013-12-09 | 数据挖掘及分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310655793.6A CN104699702A (zh) | 2013-12-09 | 2013-12-09 | 数据挖掘及分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104699702A true CN104699702A (zh) | 2015-06-10 |
Family
ID=53346836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310655793.6A Pending CN104699702A (zh) | 2013-12-09 | 2013-12-09 | 数据挖掘及分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104699702A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825232A (zh) * | 2016-03-15 | 2016-08-03 | 国网北京市电力公司 | 对电动汽车用户进行分类的方法及装置 |
CN105975590A (zh) * | 2016-05-03 | 2016-09-28 | 无锡雅座在线科技发展有限公司 | 对象类型的确定方法和装置 |
CN106066998A (zh) * | 2016-05-27 | 2016-11-02 | 大连楼兰科技股份有限公司 | 基于Z‑score的车辆低速碰撞信号特征数据标准化处理方法 |
CN106327266A (zh) * | 2016-08-30 | 2017-01-11 | 北京京东尚科信息技术有限公司 | 数据挖掘方法及装置 |
WO2017215346A1 (zh) * | 2016-06-15 | 2017-12-21 | 北京京东尚科信息技术有限公司 | 业务数据分类方法和装置 |
CN108268620A (zh) * | 2018-01-08 | 2018-07-10 | 南京邮电大学 | 一种基于hadoop数据挖掘的文档分类方法 |
CN111881190A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 基于客户画像的关键数据挖掘系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1987866A (zh) * | 2005-12-21 | 2007-06-27 | 国际商业机器公司 | 用于组织数据的方法和系统 |
US20070226209A1 (en) * | 2003-08-14 | 2007-09-27 | International Business Machines Corporation | Methods and Apparatus for Clustering Evolving Data Streams Through Online and Offline Components |
-
2013
- 2013-12-09 CN CN201310655793.6A patent/CN104699702A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070226209A1 (en) * | 2003-08-14 | 2007-09-27 | International Business Machines Corporation | Methods and Apparatus for Clustering Evolving Data Streams Through Online and Offline Components |
CN1987866A (zh) * | 2005-12-21 | 2007-06-27 | 国际商业机器公司 | 用于组织数据的方法和系统 |
Non-Patent Citations (3)
Title |
---|
孙晓霞: "聚类分析在客户细分领域的应用研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
张良均: "《数据挖掘 实用案例分析》", 31 July 2013, 北京:机械工业出版社 * |
王金龙等: "《认知无线网络》", 31 March 2010 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825232A (zh) * | 2016-03-15 | 2016-08-03 | 国网北京市电力公司 | 对电动汽车用户进行分类的方法及装置 |
CN105975590A (zh) * | 2016-05-03 | 2016-09-28 | 无锡雅座在线科技发展有限公司 | 对象类型的确定方法和装置 |
CN106066998A (zh) * | 2016-05-27 | 2016-11-02 | 大连楼兰科技股份有限公司 | 基于Z‑score的车辆低速碰撞信号特征数据标准化处理方法 |
WO2017215346A1 (zh) * | 2016-06-15 | 2017-12-21 | 北京京东尚科信息技术有限公司 | 业务数据分类方法和装置 |
US11023534B2 (en) | 2016-06-15 | 2021-06-01 | Beijing Jingdong Shangke Information Technology Co, Ltd. | Classification method and a classification device for service data |
CN106327266A (zh) * | 2016-08-30 | 2017-01-11 | 北京京东尚科信息技术有限公司 | 数据挖掘方法及装置 |
WO2018040762A1 (zh) * | 2016-08-30 | 2018-03-08 | 北京京东尚科信息技术有限公司 | 数据挖掘方法及装置 |
CN108268620A (zh) * | 2018-01-08 | 2018-07-10 | 南京邮电大学 | 一种基于hadoop数据挖掘的文档分类方法 |
CN111881190A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 基于客户画像的关键数据挖掘系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699702A (zh) | 数据挖掘及分类方法 | |
Popat et al. | Review and comparative study of clustering techniques | |
CN106537305B (zh) | 对触摸事件进行分类的方法以及触敏设备 | |
Yassin et al. | Anomaly-based intrusion detection through k-means clustering and naives bayes classification | |
Edla et al. | A prototype-based modified DBSCAN for gene clustering | |
CN108280755A (zh) | 可疑洗钱团伙的识别方法和识别装置 | |
CN107305637B (zh) | 基于K-Means算法的数据聚类方法和装置 | |
Wang et al. | Multiobjective genetic programming for maximizing ROC performance | |
TWI464604B (zh) | 資料分群方法與裝置、資料處理裝置及影像處理裝置 | |
US20190340507A1 (en) | Classifying data | |
CN104766098A (zh) | 一种分类器的构建方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN105389480A (zh) | 多类不平衡基因组学数据迭代集成特征选择方法及系统 | |
Chi et al. | Fast graph stream classification using discriminative clique hashing | |
CN102629305A (zh) | 一种面向snp数据的特征选择方法 | |
Rustogi et al. | Swift imbalance data classification using SMOTE and extreme learning machine | |
CN103488689A (zh) | 基于聚类的邮件分类方法和系统 | |
Boden et al. | Density-based subspace clustering in heterogeneous networks | |
Joo et al. | Real‐Time Depth‐Based Hand Detection and Tracking | |
Zhou et al. | Comparison and weighted summation type of fuzzy cluster validity indices | |
CN115294378A (zh) | 一种图像聚类方法及系统 | |
Moghaddam et al. | On the performance of mean-based sort for large data sets | |
Zhao et al. | Customer churn prediction based on feature clustering and nonparallel support vector machine | |
Bhattacharya et al. | Fast one-class classification using class boundary-preserving random projections | |
Wu et al. | Mixed Pattern Matching‐Based Traffic Abnormal Behavior Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150610 |