CN105868387A - 一种基于并行计算的离群数据挖掘方法 - Google Patents

一种基于并行计算的离群数据挖掘方法 Download PDF

Info

Publication number
CN105868387A
CN105868387A CN201610227845.3A CN201610227845A CN105868387A CN 105868387 A CN105868387 A CN 105868387A CN 201610227845 A CN201610227845 A CN 201610227845A CN 105868387 A CN105868387 A CN 105868387A
Authority
CN
China
Prior art keywords
obj
factor
lds
data
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610227845.3A
Other languages
English (en)
Inventor
陈勇
胡中骥
贾昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science And Technology Co Ltd Is Swum In Jiangsu At Once
Original Assignee
Science And Technology Co Ltd Is Swum In Jiangsu At Once
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Science And Technology Co Ltd Is Swum In Jiangsu At Once filed Critical Science And Technology Co Ltd Is Swum In Jiangsu At Once
Priority to CN201610227845.3A priority Critical patent/CN105868387A/zh
Publication of CN105868387A publication Critical patent/CN105868387A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于并行计算的离群数据挖掘方法,利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了局部离群因子计算公式,有效地体现了数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据。本发明公开的一种基于并行计算的离群数据挖掘方法,在计算稀疏度因子和离群因子Factor时由Map来实现;在按Factor大小进行全排序时,使用一个Map对Factor进行取样,进而实现决定各个(K2,V2)分配到哪个结点的函数,从而有效地解决了数据分配不均匀问题和局部有序但全局无序问题。

Description

一种基于并行计算的离群数据挖掘方法
技术领域
本发明涉及一种基于并行计算的离群数据挖掘方法。
背景技术
离群数据(outlier)就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据,蕴含着大量的不易被人类发现却很有价值的信息.离群挖掘作为数据挖掘的一个重要分支,已广泛的应用在天文光谱数据分析、信用卡诈骗、网络入侵挖掘、数据清洗等领域.
在高维海量数据中,由于数据量大和维度高,严重地影响了离群数据挖掘效果和效率,可能无法发现隐藏在子空间中的一些离群数据.在大多数情况下,离群数据是与局部数据集的分布特征明显不一致的数据对象.但在有些属性维上,可以提供不一致的有价值信息,而在其他属性维上,无法提供有价值的信息。
发明内容
本发明的目的是针对高维海量数据,在MapReduce编程模型下,提出了一种基于并行计算的离群数据挖掘方法,该算法利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了局部离群因子计算公式,有效地体现了数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据。
本发明所采用的技术方案是:
一种基于并行计算的离群数据挖掘方法,包括以下步骤:
S1、执行LSH中的MapReduce任务,生成{(obj,LDS(obj))},并行计算数据对象obj的LDS(obj);
S2、以{(obj,LDS(obj))}作为输入,执行MapReduce任务,生成确定DS中每个数据对象obj对应的稀疏度因子;
S3、以作为输入,执行LSH中的MapReduce任务,生成{(obj,([ZLk]kxd(o)(o∈LDS(obj i))))},确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵[ZLk]kxd(o)(o∈LDS(obji));
S4、以{(obj,([ZLk]kxd(o)(o∈LDS(obji))))}作为输入,执行MapReduce任务,生成{(obj,Factor(obj))},确定DS中每个数据对象obj对应的离群因子Factor(obj);
S5、以{(obj,Factor(obj))}作为输入,执行MapReduce任务,对{(obj,Factor(obj))}按Factor大小进行全排序,确定DS中每个数据对象obj按对应的离群因子Factor(obj)的大小进行全排序;
S6、在步骤5的输出中找离群程度最大的n个数据对象,选取Top(N)作为离群数据。
其中,离群因子计算过程为:
(1)采用分布式策略,确定各个数据对象的LDS(obji);
(2)采用一个Map函数,计算各个数据对象对应的稀疏度因子
(3)采用分布式策略,确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵:[ZLk]kxd(o)(o∈LDS(obji));;
(4)采用一个Map函数,计算各个数据对象对应的子空间定义向量vi,结合[ZLk]kxd(o)(o∈LDS(obji))计算对应的离群因子Factor;
(5)采用一个Map函数和一个Reduce函数,将各个数据对象按对应的离群因子Factor进行全排序并输出结果。
本发明的有益效果是,
本发明公开的一种基于并行计算的离群数据挖掘方法,在计算稀疏度因子和离群因子Factor时由Map来实现,在按Factor大小进行全排序时,使用一个Map对Factor进行取样,进而实现决定各个(K2,V2)分配到哪个结点的函数,从而有效地解决了数据分配不均匀问题和局部有序但全局无序问题;同时,设计一个Reduce来对分配到各个结点的(K2,V2)进行排序。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为传统算法的离群因子的计算过程示意图。
图2为本发明基于并行计算的离群数据挖掘方法的MapReduce程序实现示意图。
具体实施方式
为了加深对本发明的理解,下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
传统算法:
设DS是任意一个d维数据集,属性集FS={A1,A2,…Ad},xij(i=1,2,…,n;j=1,2,…,d)表示第i个数据对象obji在第j个属性上的取值。如果第i个对象obj的子空间定义向量v各维值都是0,表明obj与局部分布特征一致;如果第i个对象obj存在着相关子空间,表明obj与局部分布特征不一致。通常我们用Factor(obj)来描述离群程度:
F a c t o r ( o b j ) = max { 0 , e r f ( PLOF R S ( o b j ) 2 · E o ∈ L D S ( o b j ) ∪ o b j [ ( PLOF R S ( o ) ) 2 ] ) }
其中,LDS(obj)是obj局部数据集,PLOF是局部异常因子:
PLOF R S ( o b j ) = σ R S ( o b j , L D S ( o b j ) ) E o ∈ L D S ( o b j ) ( σ R S ( o ) ) - 1
由公式可知,数据集DS中的任意数据对象obji(i=1,2,...,n;n=|DS|)的离群因子Factor(obji)的计算步骤是:
首先,确定obji的LDS(obji),并利用公式计算obji对应的稀疏度因子从而生成DS的稀疏因子矩阵[Zk]n×d;其次,根据[Zk]n×d,参照LDS(o)(LDS(obji)),生成对应的局部稀疏因子矩阵[ZLk]k×d(o)(o∈LDS(obji)),然后生成obji对应的子空间定义向量vi;最后,确定obji对应的离群因数Factor(obji)。
因此在DS中,任意数据对象的离群因子计算过程可由图1所示。
图1刻画和描述了离群因子的计算过程,当数据集DS较小时,表A与表B都较小,可以首先生成表A,并将其保存在内存中;然后由表A通过生成表B,并将其也保存在内存中。由于表A与表B中都在内存,可采用索引技术,从表B中的对应项对应到表A的相应项来生成表C。当数据集DS大到一定程度时,表A与表B都相当大。在生成表C时,需将表A中的每一个数据对象和对应局部数据集LDS(obji)逐项输入,以及在表B中查找LDS(obji)对应的稀疏度因子,因此,表B必须被保留在各计算结点上的内存中。当B表太大时,会耗尽各个计算结点的内存资源。
因此,为了生成表C,不再采用索引策略对应生成,而是从表B中查找LDS(obji)对应的局部稀疏因子,采用类似于表A中生成LDS(obji)的操作。
由图1可以看出:生成表A时,需要遍历DS中的全部数据对象;生成表C时,需要遍历表A中的全部数据对象。因此,生成表A和表C是全局相关的,其他过程都与全局无关,各数据对象对应操作彼此之间不存在通信。
在MapReduce编程模型中,离群因子计算过程为:
1.采用分布式策略,确定各个数据对象的LDS(obji);
2.采用一个Map函数,计算各个数据对象对应的稀疏度因子
3.采用分布式策略,确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵:[ZLk]kxd(o)(o∈LDS(obji));
4.采用一个Map函数,计算各个数据对象对应的子空间定义向量vi,结合[ZLk]kxd(o)(o∈LDS(obji))计算对应的离群因子Factor;
5.采用一个Map函数和一个Reduce函数,将各个数据对象按对应的离群因子Factor进行全排序并输出结果。
输入:数据集DS(属性个数为d)、近邻数K、稀疏度差异因子阈值;
输出:n个离群数据。
1、执行LSH中的MapReduce任务,生成{(obj,LDS(obj))},并行计算数据对象obj的LDS(obj);
2、以{(obj,LDS(obj))}作为输入,执行MapReduce任务,生成确定DS中每个数据对象obj对应的稀疏度因子;
3、以作为输入,执行LSH中的MapReduce任务,生成{(obj,([ZLk]kxd(o)(o∈LDS(obj i))))},确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵[ZLk]kxd(o)(o∈LDS(obji));
4、以{(obj,([ZLk]kxd(o)(o∈LDS(obji))))}作为输入,执行MapReduce任务,生成{(obj,Factor(obj))},确定DS中每个数据对象obj对应的离群因子Factor(obj);
5、以{(obj,Factor(obj))}作为输入,执行MapReduce任务,对{(obj,Factor(obj))}按Factor大小进行全排序,确定DS中每个数据对象obj按对应的离群因子Factor(obj)的大小进行全排序;
6、在步骤5的输出中找离群程度最大的n个数据对象,选取Top(N)作为离群数据。
要说明的是,以上所述实施例是对本发明技术方案的说明而非限制,所属技术领域普通技术人员的等同替换或者根据现有技术而做的其他修改,只要没超出本发明技术方案的思路和范围,均应包含在本发明所要求的权利范围之内。

Claims (3)

1.一种基于并行计算的离群数据挖掘方法,其特征在于:包括以下步骤:
S1、执行LSH中的MapReduce任务,生成{(obj,LDS(obj))},并行计算数据对象obj的LDS(obj);
S2、以{(obj,LDS(obj))}作为输入,执行MapReduce任务,生成{(obj,},确定DS中每个数据对象obj对应的稀疏度因子;
S3、以{(obj,}作为输入,执行LSH中的MapReduce任务,生成{(obj,([ZLk]kxd(o)(o∈LDS(obj i))))},确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵[ZLk]kxd(o)(o∈LDS(obji));
S4、以{(obj,([ZLk]kxd(o)(o∈LDS(obji))))}作为输入,执行MapReduce任务,生成{(obj,Factor(obj))},确定DS中每个数据对象obj对应的离群因子Factor(obj);
S5、以{(obj,Factor(obj))}作为输入,执行MapReduce任务,对{(obj,Factor(obj))}按Factor大小进行全排序,确定DS中每个数据对象obj按对应的离群因子Factor(obj)的大小进行全排序;
S6、在步骤5的输出中找离群程度最大的n个数据对象,选取Top(N)作为离群数据。
2.根据权利要求1所述的一种基于并行计算的离群数据挖掘方法,其特征在于:其中,离群因子计算过程为:
(1)采用分布式策略,确定各个数据对象的LDS(obji);
(2)采用一个Map函数,计算各个数据对象对应的稀疏度因子
(3)采用分布式策略,确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵:[ZLk]kxd(o)(o∈LDS(obji));
(4)采用一个Map函数,计算各个数据对象对应的子空间定义向量vi,结合[ZLk]kxd(o)(o∈LDS(obji))计算对应的离群因子Factor;
(5)采用一个Map函数和一个Reduce函数,将各个数据对象按对应的离群因子Factor进行全排序并输出结果。
3.根据权利要求1所述的一种基于并行计算的离群数据挖掘方法,其特征在于:所述数据集DS的属性个数为d。
CN201610227845.3A 2016-04-14 2016-04-14 一种基于并行计算的离群数据挖掘方法 Pending CN105868387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610227845.3A CN105868387A (zh) 2016-04-14 2016-04-14 一种基于并行计算的离群数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610227845.3A CN105868387A (zh) 2016-04-14 2016-04-14 一种基于并行计算的离群数据挖掘方法

Publications (1)

Publication Number Publication Date
CN105868387A true CN105868387A (zh) 2016-08-17

Family

ID=56636812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610227845.3A Pending CN105868387A (zh) 2016-04-14 2016-04-14 一种基于并行计算的离群数据挖掘方法

Country Status (1)

Country Link
CN (1) CN105868387A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106338981A (zh) * 2016-09-23 2017-01-18 沈阳化工大学 动态多向局部离群因子算法的间歇过程在线故障检测方法
CN108132834A (zh) * 2017-12-08 2018-06-08 西安交通大学 多级共享高速缓冲存储器架构下的任务分配方法和系统
CN109086291A (zh) * 2018-06-09 2018-12-25 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109670695A (zh) * 2018-12-12 2019-04-23 太原科技大学 基于离群数据挖掘的机械产品加工工序异常并行检测方法
CN112434923A (zh) * 2020-11-16 2021-03-02 太原科技大学 一种基于子空间聚类的机械产品质量分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
CN104008420A (zh) * 2014-05-26 2014-08-27 中国科学院信息工程研究所 一种基于自动编码机的分布式离群点检测方法及系统
CN104346445A (zh) * 2014-10-28 2015-02-11 浪潮电子信息产业股份有限公司 一种快速从大规模数据中筛选离群数据的方法
CN104881735A (zh) * 2015-05-13 2015-09-02 国家电网公司 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
CN104008420A (zh) * 2014-05-26 2014-08-27 中国科学院信息工程研究所 一种基于自动编码机的分布式离群点检测方法及系统
CN104346445A (zh) * 2014-10-28 2015-02-11 浪潮电子信息产业股份有限公司 一种快速从大规模数据中筛选离群数据的方法
CN104881735A (zh) * 2015-05-13 2015-09-02 国家电网公司 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张继福 等: "基于MapReduce与相关子空间的局部离群数据挖掘算法", 《软件学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106338981A (zh) * 2016-09-23 2017-01-18 沈阳化工大学 动态多向局部离群因子算法的间歇过程在线故障检测方法
CN108132834A (zh) * 2017-12-08 2018-06-08 西安交通大学 多级共享高速缓冲存储器架构下的任务分配方法和系统
CN108132834B (zh) * 2017-12-08 2020-08-18 西安交通大学 多级共享高速缓冲存储器架构下的任务分配方法和系统
CN109086291A (zh) * 2018-06-09 2018-12-25 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109086291B (zh) * 2018-06-09 2022-07-12 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109670695A (zh) * 2018-12-12 2019-04-23 太原科技大学 基于离群数据挖掘的机械产品加工工序异常并行检测方法
CN112434923A (zh) * 2020-11-16 2021-03-02 太原科技大学 一种基于子空间聚类的机械产品质量分析方法
CN112434923B (zh) * 2020-11-16 2024-02-06 太原科技大学 一种基于子空间聚类的机械产品质量分析方法

Similar Documents

Publication Publication Date Title
Ye et al. Implementing transfer learning across different datasets for time series forecasting
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN105868387A (zh) 一种基于并行计算的离群数据挖掘方法
Na et al. Research on k-means clustering algorithm: An improved k-means clustering algorithm
Tan et al. Semi-supervised multi-label classification using incomplete label information
Pettie et al. Computing shortest paths with comparisons and additions
CN113377981B (zh) 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN109978050A (zh) 基于svm-rf的决策规则提取及约简方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN109815478A (zh) 基于卷积神经网络的药化实体识别方法及系统
Ma et al. Matching descriptions to spatial entities using a Siamese hierarchical attention network
Pasupuleti Artificial Intelligence and Traditional Machine Learning to Deep Neural Networks: A Study for Social Implications
Wang et al. Semi-supervised community detection framework based on non-negative factorization using individual labels
CN105975505A (zh) 一种高并发数据缓存解决方案
Doshi et al. Comparative analysis of Apriori and Apriori with hashing algorithm
Saleem et al. Implementation of data mining approach for building automated decision support systems
CN105956065A (zh) 一种基于偏移量高效模板替换算法方案
CN106021275A (zh) 一种高并发消息通讯专利技术
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
CN106372129A (zh) 一种数据库对象命名规则设计方法
CN106570088A (zh) 一种科研文献话题发现和演化跟踪的方法
Wang et al. Knowledge graph-based semantic ranking for efficient semantic query
CN110019815A (zh) 利用knn的自然语言处理
Gajawada et al. Projected clustering particle swarm optimization and classification
Choubey et al. Graph based new approach for frequent pattern mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 212009 Zhenjiang city of Jiangsu province by the twelve new Dingmao Road No. 468 Gemini building A room 05-2300

Applicant after: Polytron Technologies Inc travel

Address before: 212009 Zhenjiang city of Jiangsu province by the twelve new Dingmao Road No. 468 Gemini building A room 05-2300

Applicant before: Science and Technology Co., Ltd. is swum in Jiangsu at once

COR Change of bibliographic data
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160817