CN111611293A - 一种基于特征加权与MapReduce的离群数据挖掘方法 - Google Patents

一种基于特征加权与MapReduce的离群数据挖掘方法 Download PDF

Info

Publication number
CN111611293A
CN111611293A CN202010330588.2A CN202010330588A CN111611293A CN 111611293 A CN111611293 A CN 111611293A CN 202010330588 A CN202010330588 A CN 202010330588A CN 111611293 A CN111611293 A CN 111611293A
Authority
CN
China
Prior art keywords
distance
data
sample
calculating
subspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010330588.2A
Other languages
English (en)
Other versions
CN111611293B (zh
Inventor
朱晓军
吕士钦
娄圣金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan Taigong Tianyu Education Technology Co ltd
Original Assignee
Taiyuan Taigong Tianyu Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan Taigong Tianyu Education Technology Co ltd filed Critical Taiyuan Taigong Tianyu Education Technology Co ltd
Priority to CN202010330588.2A priority Critical patent/CN111611293B/zh
Publication of CN111611293A publication Critical patent/CN111611293A/zh
Application granted granted Critical
Publication of CN111611293B publication Critical patent/CN111611293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘技术领域,尤其涉及一种基于特征加权与MapReduce的离群数据挖掘方法,包括如下步骤,步骤一:基于特征加权子空间,在MapReduce编程模型下将子空间数据分离为聚类中心,聚类簇和候选离群数据集;步骤二:针对步骤一中所述离群数据集计算全局距离,然后定义出离群数据。本发明对离群数据挖掘方法计算量合理,受人为因素小、挖掘效率和精度高等优点,针对高维海量数据,自动寻找和删除高维数据集中无法提供有价值信息的特征维,有效地降低“维灾”的干扰,本发明提供一种体系简单、准确性较高、性能优越的高维海量离群数据挖掘方法技术方案,从而较好地克服离群检测中的效率问题,在信息化大数据领域具有深远的用途和影响。

Description

一种基于特征加权与MapReduce的离群数据挖掘方法
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种离群数据挖掘方法
背景技术
离群数据(outlier)就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据,往往蕴含着大量的不易被人们发现却很有价值的信息。离群数据挖掘作为数据挖掘的一个重要分支,已广泛应用于证券市场、天文光谱数据分析、网络入侵、金融诈骗、极端天气分析等领域。在高维海量数据中,由于数据量大和维度高,严重地影响了离群数据挖掘效果和效率,可能无法发现隐藏在子空间中的一些离群数据,以及一些边缘分布局部离群数据。正是由于高维稀疏数据集聚类性特征,离群数据分布往往存在于某个子空间中,而不是整个特征空间,无关的特征反而会使数据的聚簇结构更加模糊不清,如果不能很好地发现数据集中的聚簇结构,那么其中的离群点将更加难以探测,无法实现离群数据挖掘。
另外,近年来,传统的离群数据挖掘算法虽然在各自的领域做了大量的改进,但在高维数据集中确不再适用,且计算量大,挖掘效率和精度较低,因此,如何针对大数据、高维数据、离群数据时实现精准挖掘是当前离群数据挖掘攻克的重大难题。
发明内容
为了解决背景技术中之一问题,本发明提供了一种基于特征加权与MapReduce的离群数据挖掘方法,包括如下步骤:
步骤一:基于特征加权子空间,在编程模型下将子空间数据分离为聚类中心,聚类簇和候选离群数据集;步骤二:针对步骤一中所述离群数据集计算全局距离,然后定义出离群数据。
进一步地、步骤一中,所述特征加权子空间通过定义属性维上的特征加权估计熵后获取,然后在MapReduce编程模型下,采用密度峰值算法快速将子空间数据集分离;步骤二中,所述计算全局距离包括计算其全局Weight_k距离,计算Weight_k距离时还包括对Weight_k距离集合按降序排列,输出TOP-N个数据的过程。
进一步地、所述的特征加权子空间,首先是将属性特征归一化,把各维属性的取值范围放缩到差不多的区间,然后计算各维特征加权估计熵,设定一个特征加权估计熵阈值,将小于阈值的维度删除,仅保留大于阈值的维度,定义为特征加权子空间;
所述的MapReduce编程模型,包括将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图,平面图中被认为是聚类中心,聚类簇和候选离群数据集;
所述Weight_k距离为针对候选离群数据集中的每个对象,计算两两之间的距离,形成距离矩阵D,矩阵中第k行的和,定义为Weigthk-距离。
进一步地、所述的特征加权子空间计算方法包括如下步骤:
S1、设数据集DS={x1,x2,xi,…,xN},令每个数据对象x的属性集为S={v1,v2,vi,…,vM},
Figure BDA0002464810720000021
表示第i维征属性均值,计算样本特征发生概率,计算公式为:
Figure BDA0002464810720000022
S2、在步骤S1的基础上,设U是讨论域,V1,V2…,VM是U的一个划分,其上有概率分布
Figure BDA0002464810720000031
则称
Figure BDA0002464810720000032
为信息源V的估计熵,其中对数取以2为底,而某个pi为零时,则理解为0·log0=0;
S3、在步骤S2的基础上,计算H(V)并且归一化,从而得到各个属性特征加权估计熵wl,归一化计算方法为:
Figure BDA0002464810720000033
其中,H(Vl)表示某属性V的信息熵;wl为特征加权估计熵;令S1={v1,v2,vi},S2={vi+1,vi+2,vM},其中,S1为所寻找出的特征加权估计熵较大的子空间,S2为特征加权估计熵较小的子空间,且S=S1 U S2,根据算法规则,S2需要被删除。
进一步地、所述MapReduce编程模型分离出聚类中心,聚类簇和候选离群数据时还包括如下步骤:
S1、对于含N个样本集合DB中的每个样本点i,都需要计算每个样本点i与其他样本点j之间的欧式距离dij,并将计算结果按照升序排列。欧式距离及相关定义描述如下:
Figure BDA0002464810720000034
其中:i=(xi1,xi2,...,xiM)和j=(xj1,xj2,...,xjM)是两个M维数据对象,它们之间的相似度可用它们之间的距离dij的大小来度量;
S2、对于多有样本点,选取一个阶段距离dc,使得每个数据点的平均邻域个数约为样本数据点总数的1%-2%;
S3、对于样本数据点中的样本点i,都需要计算两个参数,局部密度ρi和距离σi
Figure BDA0002464810720000035
高密度最近邻距离σi则定义为xi到具有更大密度估计值的最近邻样本点的距离,即
Figure BDA0002464810720000036
显然,具有全局最大密度估计值的样本点不存在高密度最近邻,可简单地令其高密度最近邻距离等于所有样本点间距离的最大值;
计算这两个量都取决于样本的欧式距离dij,采用MapReduce编程模型的强大数据处理能力,根据算法处理逻辑,利用map-reduce编程框架,不断的并行处理并生成键值对<key,Value>;
S4、对于样本数据集S中的每个样本点I,计算出样本的(ρi,σi)之后,分别以这两个参数为横坐标和纵坐标绘制平面图,并计算一个综合变量:局部密度和距离的乘积,γi=ρii显然,γi值越大,越有可能是聚类中心;
S5、计算样本数据集合S中所有样本点的γi值,并进行降序排列,输出前K个γi,同时,将ρ小,σ大的数据点,定义为候选离群集,集合大小记为L。
S6、对于样本数据集DS中的被定义为候选离群的数据点,应该满足以下条件:局部密度小于局部密度阈值,即ρiτ而距离大于距离阈值σiτ,计算公式为:
Figure BDA0002464810720000041
其中,N为数据集大小;
进一步地、针对步骤S6中获取的离群候选集CandidateSet中的每个数据对象,计算两两之间的距离dij,形成子空间距离矩阵D:
Figure BDA0002464810720000042
Figure BDA0002464810720000043
Figure BDA0002464810720000044
其中,wk是矩阵D中第k行的和,定义为Weigthk-距离和;
进一步地、对Weigthk-距离和降序排列,输出TOP-N个数据,定义为离群数据。
本发明方法的有益效果体现在对离群数据挖掘方法计算量合理,受人为因素小、挖掘效率和精度高等优点,具体的针对高维海量数据,自动寻找和删除高维数据集中无法提供有价值信息的特征维,有效地降低“维灾”的干扰,并在MapReduce编程模型下,将离群数据挖掘方法有效应用于大数据、高维数据。本发明提供一种体系简单、准确性较高、性能优越的高维海量离群数据挖掘方法技术方案,从而较好地克服离群检测中的效率问题,在信息化大数据领域具有深远的用途和影响。
附图说明
图1是三维人工数据集及其在不同特征属性中的聚集性;
图2是一种基于特征加权的离群数据计算过程;
图3是基于map-reduce的并行计算模型图。
具体实施方式
针对高维、海量数据的挖掘,本发明方案提供了如下方法步骤:
步骤一:基于特征加权子空间,在编程模型下将子空间数据分离为聚类中心,聚类簇和候选离群数据集;步骤二:针对步骤一中所述离群数据集计算全局距离,然后定义出离群数据。
优选地,步骤一中,所述特征加权子空间通过定义属性维上的特征加权估计熵后获取,然后在MapReduce编程模型下,采用密度峰值算法快速将子空间数据集分离;步骤二中,所述计算全局距离包括计算其全局Weight_k距离,计算Weight_k距离时还包括对Weight_k距离集合按降序排列,输出TOP-N个数据的过程。进一步地、所述的特征加权子空间,首先是将属性特征归一化,把各维属性的取值范围放缩到差不多的区间,然后计算各维特征加权估计熵,设定一个特征加权估计熵阈值,将小于阈值的维度删除,仅保留大于阈值的维度,定义为特征加权子空间;所述的MapReduce编程模型,包括将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图,平面图中被认为是聚类中心,聚类簇和候选离群数据集;
所述Weight_k距离为针对候选离群数据集中的每个对象,计算两两之间的距离,形成距离矩阵D,矩阵中第k行的和,定义为Weigthk-距离。
为了易于理解,下文对本发明的方案进行综合说明:
本发明涉及一种基于特征加权与MapReduce的离群数据挖掘方法,所述的基于特征加权与MapReduce的离群数据挖掘方法,包括基于特征加权子空间和MapReduce编程模型两个部分,其中:所述的特征加权子空间,首先是将属性特征归一化,把各维属性的取值范围放缩到差不多的区间,然后计算各维特征加权估计熵,设定一个特征加权估计熵阈值,将小于阈值的维度删除,仅保留大于阈值的维度,定义为特征加权子空间。
所述的MapReduce编程模型,主要是将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图(如图1),平面图中被认为是聚类中心,聚类簇和候选离群数据集。
所述的Weigthk距离和,主要是对候选离群数据集中的每个对象,计算两两之间的距离,形成距离矩阵D,矩阵中第k行的和,定义为-距离和,然后对Weigthk距离和降序排列,输出TOP-N个数据,定义为离群数据。
为了便于本申请的实施,对特征加权子空间实施做如下步骤说明:
所述的特征加权子空间计算方法如下(本发明中涉及的算法是在计算机参与下进行,并非单纯的运算规则):
(1)设数据集DS={x1,x2,xi,…,xN},令每个数据对象x的属性集为S={v1,v2,vi,…,vM},
Figure BDA0002464810720000071
表示第i维征属性均值,计算样本特征发生概率,计算公式为:
Figure BDA0002464810720000072
(2)在步骤(1)的基础上,设U是讨论域,V1,V2…,VM是U的一个划分,其上有概率分布
Figure BDA0002464810720000073
则称
Figure BDA0002464810720000074
为信息源V的估计熵,其中对数取以2为底,而某个pi为零时,则理解为0·log0=0;
(3)在步骤(2)的基础上,计算H(V)并且归一化,从而得到各个属性特征加权估计熵wl,归一化计算方法为:
Figure BDA0002464810720000075
其中,H(Vl)表示某属性V的信息熵;wl为特征加权估计熵。令S1={v1,v2,vi},S2={vi+1,vi+2,vM},其中,S1为所寻找出的特征加权估计熵较大的子空间,S2为特征加权估计熵较小的子空间,且S=S1 U S2,根据算法规则,S2需要被删除。
为了便于本申请的实施,对MapReduce编程模型实施做如下步骤说明:所述的MapReduce编程模型,主要是将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图,平面图中被认为是聚类中心,聚类簇和候选离群数据,具体实施步骤如下(如图2):
(1)对于含N个样本集合DB中的每个样本点i,都需要计算每个样本点i与其他样本点j之间的欧式距离dij,并将计算结果按照升序排列。欧式距离及相关定义描述如下
Figure BDA0002464810720000076
其中:i=(xi1,xi2,...,xiM)和j=(xj1,xj2,...,xjM)是两个M维数据对象,它们之间的相似度可用它们之间的距离dij的大小来度量。
(2)对于多有样本点,选取一个阶段距离dc,使得每个数据点的平均邻域个数约为样本数据点总数的1%-2%。
(3)对于样本数据点中的样本点i,都需要计算两个参数,局部密度ρi和距离σi
Figure BDA0002464810720000081
高密度最近邻距离σi则定义为xi到具有更大密度估计值的最近邻样本点的距离,即
Figure BDA0002464810720000082
显然,具有全局最大密度估计值的样本点不存在高密度最近邻,可简单地令其高密度最近邻距离等于所有样本点间距离的最大值。计算这两个量都取决于样本的欧式距离dij,面对数据集DS,时间复杂度为O(|N|×|N|×|M|),通常N>>10000,因此,本实施步骤采用MapReduce编程模型的强大数据处理能力,根据算法处理逻辑,利用map-reduce编程框架,不断的并行化处理并生成键值对<key,Value>,其并行计算流程见图3。
(4)对于样本数据集S中的每个样本点I,计算出样本的(ρi,σi)之后,分别以这两个参数为横坐标和纵坐标绘制平面图(如图1),并计算一个综合权衡变量:局部密度和距离的乘积,即γi=ρii显然,γi值越大,越有可能是聚类中心
(5)计算样本数据集合S中所有样本点的γi值,并进行降序排列,输出前K个γi,同时,将ρ小,σ大的数据点,定义为候选离群集,集合大小记为L。
(6)对于样本数据集DS中的被定义为候选离群的数据点,应该满足以下条件:局部密度小于局部密度阈值,即ρiτ而距离大于距离阈值σiτ,计算公式为:
Figure BDA0002464810720000083
其中,N为数据集大小。
(7)针对步骤(6)中获取的离群候选集CandidateSet中的每个数据对象,计算两两之间的距离dij,形成子空间距离矩阵D:
Figure BDA0002464810720000091
Figure BDA0002464810720000092
其中,Weigthk是矩阵D中第k行的和,定义为Weigthk-距离和。
(8)对Weigthk-距离和降序排列,输出TOP-N个数据,定义为离群数据。
以下通过试验效果来验证说明本发明具有的特征加权子空间有效性与正确性的先进性效果,发明人采用UCI数据集实际验证了特征加权估计熵方法,该数据集是关于酵母菌的生物学统计数据,共有1484个样本数据,每个样本数据有8个属性组成。按照特征加权子空间计算方法,具体得到的计算数据如下表1:
表1酵母菌的生物统计特征加权估计熵获取方法
V V均值 P(V) H(V) 归一化 属性特征加权估计熵
mcg 0.5001 0.4319 0.5231 0.161 0.16
gvh 0.4999 0.4838 0.5068 0.162 0.16
alm 0.5000 0.5377 0.4813 0.154 0.15
mit 0.2612 0.3646 0.5307 0.170 0.17
erl 0.5047 0.009 0.0635 0.020 0.02
pox 0.0075 0.0101 0.0670 0.021 0.02
vac 0.4999 0.6193 0.4281 0.137 0.14
nuc 0.2762 0.2971 0.5202 0.175 0.18
很显然,特征加权子空间S1={mcg,gvh,alm,mit,vac,nuc},S2={erl,pox},通过和数据集对比分析,该数据集在第五个属性维和第六个维度几乎没有发生偏离,分布很均匀,而仅仅是在余下维属性有偏离,这表明表1中所计算的特征加权估计熵获符合客观实际,从而验证了特征加权估计熵方法可自动识别并删除无法提供有价值信息的子空间。
因此,本发明方法体系简单、准确性较高、性能优越的高维海量离群数据挖掘方法技术方案,本发明方法的有益效果体现在对离群数据挖掘方法计算量合理,受人为因素小、挖掘效率和精度高等先进性。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为硬盘、ROM、RAM等。以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (5)

1.一种基于特征加权与MapReduce的离群数据挖掘方法,其特征在于:包括如下步骤,步骤一:基于特征加权子空间,在编程模型下将子空间数据分离为聚类中心,聚类簇和候选离群数据集;步骤二:针对步骤一中所述离群数据集计算全局距离,然后定义出离群数据。
2.如权利要求1所述的方法,其特征在于:步骤一中,所述特征加权子空间通过定义属性维上的特征加权估计熵后获取,然后在MapReduce编程模型下,采用密度峰值算法快速将子空间数据集分离;步骤二中,所述计算全局距离包括计算其全局Weight_k距离,计算Weight_k距离时还包括对Weight_k距离集合按降序排列,输出TOP-N个数据的过程。
3.如权利要求2所述的方法,其特征在于:所述的特征加权子空间,首先是将属性特征归一化,把各维属性的取值范围放缩到差不多的区间,然后计算各维特征加权估计熵,设定一个特征加权估计熵阈值,将小于阈值的维度删除,仅保留大于阈值的维度,定义为特征加权子空间;所述的MapReduce编程模型,包括将密度峰值聚类算法并行化计算数据集中每个数据对象的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘图平面决策图,平面图中被认为是聚类中心,聚类簇和候选离群数据集;所述Weight_k距离为针对候选离群数据集中的每个对象,计算两两之间的距离,形成距离矩阵D,矩阵中第k行的和,定义为Weigthk-距离。
4.如权利要求3所述的方法,其特征在于:所述的特征加权子空间计算方法包括如下步骤:
S1、设数据集DS={x1,x2,xi,…,xN},令每个数据对象x的属性集为S={v1,v2,vi,…,vM},
Figure FDA0002464810710000011
表示第i维征属性均值,计算样本特征发生概率,计算公式为:
Figure FDA0002464810710000021
S2、在步骤S1的基础上,设U是讨论域,V1,V2…,VM是U的一个划分,其上有概率分布
Figure FDA0002464810710000022
则称
Figure FDA0002464810710000023
为信息源V的估计熵,其中对数取以2为底,而某个pi为零时,则理解为0·log0=0;
S3、在步骤S2的基础上,计算H(V)并且归一化,从而得到各个属性特征加权估计熵wl,归一化计算方法为:
Figure FDA0002464810710000024
其中,H(Vl)表示某属性V的信息熵;wl为特征加权估计熵;令S1={v1,v2,vi},S2={vi+1,vi+2,vM},其中,S1为所寻找出的特征加权估计熵较大的子空间,S2为特征加权估计熵较小的子空间,且S=S1 U S2,根据算法规则,S2需要被删除。
5.如权利要求4所述的方法,其特征在于:所述MapReduce编程模型分离出聚类中心,聚类簇和候选离群数据时还包括如下步骤:
S1、对于含N个样本集合DB中的每个样本点i,都需要计算每个样本点i与其他样本点j之间的欧式距离dij,并将计算结果按照升序排列。欧式距离及相关定义描述如下:
Figure FDA0002464810710000025
其中:i=(xi1,xi2,...,xiM)和
Figure FDA0002464810710000026
是两个M维数据对象,它们之间的相似度可用它们之间的距离dij的大小来度量;
S2、对于多有样本点,选取一个阶段距离dc,使得每个数据点的平均邻域个数约为样本数据点总数的1%-2%;
S3、对于样本数据点中的样本点i,都需要计算两个参数,局部密度ρi和距离σi
Figure FDA0002464810710000027
高密度最近邻距离σi则定义为xi到具有更大密度估计值的最近邻样本点的距离,即
Figure FDA0002464810710000031
显然,具有全局最大密度估计值的样本点不存在高密度最近邻,可简单地令其高密度最近邻距离等于所有样本点间距离的最大值;计算这两个量都取决于样本的欧式距离dij,采用MapReduce编程模型的强大数据处理能力,根据算法处理逻辑,利用map-reduce编程框架,不断的并行处理并生成键值对<key,Value>;
S4、对于样本数据集S中的每个样本点I,计算出样本的(ρi,σi)之后,分别以这两个参数为横坐标和纵坐标绘制平面图,并计算一个综合变量:局部密度和距离的乘积,γi=ρii显然,γi值越大,越有可能是聚类中心;
S5、计算样本数据集合S中所有样本点的γi值,并进行降序排列,输出前K个γi,同时,将ρ小,σ大的数据点,定义为候选离群集,集合大小记为L。
S6、对于样本数据集DS中的被定义为候选离群的数据点,应该满足以下条件:局部密度小于局部密度阈值,即ρiτ而距离大于距离阈值σiτ,计算公式为:
Figure FDA0002464810710000032
其中,N为数据集大小;
S7、针对步骤S6中获取的离群候选集CandidateSet中的每个数据对象,计算两两之间的距离dij,形成子空间距离矩阵D:
Figure FDA0002464810710000033
Figure FDA0002464810710000034
其中,wk是矩阵D中第k行的和,定义为Weigthk-距离和;
S8、对Weigthk-距离和降序排列,输出TOP-N个数据,定义为离群数据。
CN202010330588.2A 2020-04-24 2020-04-24 一种基于特征加权与MapReduce的离群数据挖掘方法 Active CN111611293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010330588.2A CN111611293B (zh) 2020-04-24 2020-04-24 一种基于特征加权与MapReduce的离群数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010330588.2A CN111611293B (zh) 2020-04-24 2020-04-24 一种基于特征加权与MapReduce的离群数据挖掘方法

Publications (2)

Publication Number Publication Date
CN111611293A true CN111611293A (zh) 2020-09-01
CN111611293B CN111611293B (zh) 2023-09-29

Family

ID=72196081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010330588.2A Active CN111611293B (zh) 2020-04-24 2020-04-24 一种基于特征加权与MapReduce的离群数据挖掘方法

Country Status (1)

Country Link
CN (1) CN111611293B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990797A (zh) * 2021-05-13 2021-06-18 江西省自然资源厅国土资源勘测规划院 基于云计算技术的灾害风险预警管理方法、装置
CN113762374A (zh) * 2021-08-31 2021-12-07 南京宁正信息科技有限公司 一种基于改进密度峰值聚类的异常轨迹检测方法
CN117649059A (zh) * 2024-01-30 2024-03-05 河北省农林科学院农业信息与经济研究所 一种用于数字化育种流程的成果评价优化方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144593A1 (en) * 2007-03-26 2013-06-06 Franz Josef Och Minimum error rate training with a large number of features for machine learning
CN104881735A (zh) * 2015-05-13 2015-09-02 国家电网公司 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法
WO2015188395A1 (zh) * 2014-06-13 2015-12-17 周家锐 一种面向大数据的代谢组特征数据分析方法及其系统
CN106021626A (zh) * 2016-07-27 2016-10-12 成都四象联创科技有限公司 基于数据挖掘的数据搜索方法
CN108021950A (zh) * 2017-12-28 2018-05-11 河南科技大学 基于低秩稀疏表示的图像分类方法
CN108205570A (zh) * 2016-12-19 2018-06-26 华为技术有限公司 一种数据检测方法和装置
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法
CN109241146A (zh) * 2018-09-21 2019-01-18 太原太工天宇教育科技有限公司 集群环境下的学生智助方法和系统
CN109978042A (zh) * 2019-03-19 2019-07-05 厦门理工学院 一种融合特征学习的自适应快速K-means聚类方法
CN110266672A (zh) * 2019-06-06 2019-09-20 华东理工大学 基于信息熵和置信度下采样的网络入侵检测方法
CN110766059A (zh) * 2019-10-14 2020-02-07 四川西部能源股份有限公司郫县水电厂 一种变压器故障的预测方法、装置和设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144593A1 (en) * 2007-03-26 2013-06-06 Franz Josef Och Minimum error rate training with a large number of features for machine learning
WO2015188395A1 (zh) * 2014-06-13 2015-12-17 周家锐 一种面向大数据的代谢组特征数据分析方法及其系统
CN104881735A (zh) * 2015-05-13 2015-09-02 国家电网公司 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法
CN106021626A (zh) * 2016-07-27 2016-10-12 成都四象联创科技有限公司 基于数据挖掘的数据搜索方法
CN108205570A (zh) * 2016-12-19 2018-06-26 华为技术有限公司 一种数据检测方法和装置
CN108021950A (zh) * 2017-12-28 2018-05-11 河南科技大学 基于低秩稀疏表示的图像分类方法
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法
CN109241146A (zh) * 2018-09-21 2019-01-18 太原太工天宇教育科技有限公司 集群环境下的学生智助方法和系统
CN109978042A (zh) * 2019-03-19 2019-07-05 厦门理工学院 一种融合特征学习的自适应快速K-means聚类方法
CN110266672A (zh) * 2019-06-06 2019-09-20 华东理工大学 基于信息熵和置信度下采样的网络入侵检测方法
CN110766059A (zh) * 2019-10-14 2020-02-07 四川西部能源股份有限公司郫县水电厂 一种变压器故障的预测方法、装置和设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Y ZHAO: ""KNN text classification algorithm with MapReduce implementation"", 《IEEE》 *
张强 等: ""基于聚类和局部信息的离群点检测算法"", vol. 50, pages 1214 - 1217 *
张思亮: ""子空间聚类在入侵检测中的应用"", pages 2 - 5 *
范译丹: ""软子空间聚类算法研究与应用"", pages 10 - 11 *
邓玉洁 等: ""基于聚类的离群点分析方法"", pages 865 - 868 *
陈蓉: ""一种基于改进的COID算法的应用研究"" *
陈黎飞: "\"高维数据的聚类方法研究与应用\"" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990797A (zh) * 2021-05-13 2021-06-18 江西省自然资源厅国土资源勘测规划院 基于云计算技术的灾害风险预警管理方法、装置
CN113762374A (zh) * 2021-08-31 2021-12-07 南京宁正信息科技有限公司 一种基于改进密度峰值聚类的异常轨迹检测方法
CN113762374B (zh) * 2021-08-31 2024-01-30 南京宁正信息科技有限公司 一种基于改进密度峰值聚类的异常轨迹检测方法
CN117649059A (zh) * 2024-01-30 2024-03-05 河北省农林科学院农业信息与经济研究所 一种用于数字化育种流程的成果评价优化方法
CN117649059B (zh) * 2024-01-30 2024-05-17 河北省农林科学院农业信息与经济研究所 一种用于数字化育种流程的成果评价优化方法

Also Published As

Publication number Publication date
CN111611293B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
Nanjundan et al. Identifying the number of clusters for K-Means: A hypersphere density based approach
CN111611293B (zh) 一种基于特征加权与MapReduce的离群数据挖掘方法
CN108597603B (zh) 基于多维高斯分布贝叶斯分类的癌症复发预测系统
CN111539444B (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN115391576A (zh) 一种基于聚类的联邦图学习方法及系统
CN110245692B (zh) 一种用于集合数值天气预报成员的层次聚类方法
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN114219228A (zh) 一种基于em聚类算法的体育场疏散评价方法
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
Rahman et al. An efficient approach for selecting initial centroid and outlier detection of data clustering
An et al. A k-means improved ctgan oversampling method for data imbalance problem
CN113642655B (zh) 基于支持向量机和卷积神经网络的小样本图像分类方法
JP2012079225A (ja) 協調フィルタリング処理方法およびプログラム
CN114663770A (zh) 一种基于集成聚类波段选择的高光谱图像分类方法及系统
CN115205554A (zh) 一种基于语义概念抽取的检索方法
Benala et al. Software effort prediction using fuzzy clustering and functional link artificial neural networks
Danesh et al. Data clustering based on an efficient hybrid of K-harmonic means, PSO and GA
Liço et al. Analyzing Performance of Clustering Algorithms on a Real Retail Dataset
CN109241448B (zh) 一种针对科技情报的个性化推荐方法
Fan et al. A Few-shot Learning algorithm based on attention adaptive mechanism
CN112488228A (zh) 面向风控系统数据补全的双向聚类方法
CN111310842A (zh) 一种密度自适应的快速聚类方法
CN110866560A (zh) 基于结构约束的对称低秩表示的子空间聚类方法
CN110688533A (zh) 一种基于密度峰值聚类的社团划分方法及其用途

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant