CN104573050A - 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法 - Google Patents

一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法 Download PDF

Info

Publication number
CN104573050A
CN104573050A CN201510028384.2A CN201510028384A CN104573050A CN 104573050 A CN104573050 A CN 104573050A CN 201510028384 A CN201510028384 A CN 201510028384A CN 104573050 A CN104573050 A CN 104573050A
Authority
CN
China
Prior art keywords
cluster
canopy
clustering
attribute
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510028384.2A
Other languages
English (en)
Inventor
闫永刚
陶刚
刘俊
张小兵
张晓花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Keli Information Industry Co Ltd
Original Assignee
Anhui Keli Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Keli Information Industry Co Ltd filed Critical Anhui Keli Information Industry Co Ltd
Priority to CN201510028384.2A priority Critical patent/CN104573050A/zh
Publication of CN104573050A publication Critical patent/CN104573050A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,与现有技术相比解决了离散化效果差、离散化不合理的缺陷。本发明包括以下步骤:利用Canopy聚类实现连续属性数据初始聚类;以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实现连续属性的离散化。本发明可解决高维、大数据样本的连续属性离散化方法,减少连续属性值的数目,降低系统对存储空间的依赖,使离散化后的数据更规约和简化,便于理解、使用和解释,扩大了适用范围。

Description

一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法
技术领域
本发明涉及数据挖掘预处理技术领域,具体来说是一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法。
背景技术
连续属性离散化是数据挖掘的重要预处理步骤,直接影响到数据挖掘的效果。目前,很多数据挖掘算法在建模前都要求连续属性离散化,如粗糙集算法。连续属性的离散化是指在特定的连续属性的值域范围内设定若干个划分点,将属性的值域范围划分为一些离散化的区间,最后用不同的符号或整数代表落在每个自区间中的属性值。连续属性离散化本质上可归结为利用选取的断点来对条件属性的空间进行划分的问题,即将m维(假设有m个条件属性)空间划分成n个(n<card(U))区域,每个区域中对象的决策值相同,则每个这样的区域对应一个离散后决策系统中的一个对象。
目前,连续属性离散化方法大致上可以归为非监督离散化和有监督离散化两大类:
有监督离散化方法,如统计检验法、信息熵法、贪心算法及其改进算法等,此类方法的优势是考虑了连续属性离散化时对象的分类信息,缺点是忽略了样本间的关联性,因而容易造成不合理的离散化或产生太多的离散化区间数目。
非监督离散化方法,如密度分布聚类、超立方体聚类、Canopy聚类等,此类方法的优势是简单、易于操作,但由于不带类别信息,此类方法需要事先人为地指定聚类簇数且大多没有考虑对象的分类信息,因此,离散化效果往往不太理想。
发明内容
本发明的目的是为了解决现有技术中离散化效果差、离散化不合理的缺陷,提供一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,包括以下步骤:
利用Canopy聚类实现连续属性数据初始聚类;设置合理的距离阈值T1、T2,其中阈值T1、T2为划分Canopy大小的度量;利用Canopy聚类方法,将相似对象放在一个子集Cluster中;经处理后获取各个Cluster的质心,完成数据初始聚类;
以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;利用Canopy聚类输出的Cluster质心,结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树;通过BIRCH聚类方法把稀疏的簇当做离群点删除,将稠密的簇合并为更大的簇,实现数据集的二次聚类;
对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实现连续属性的离散化;以BIRCH聚类算法的聚类中心为断点集,以轮廓系数作为聚类效果评价指标,以不相容度作为离散效果评价指标,对数据集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,将聚类微调的结果作为最终连续属性离散结果。
所述的Canopy聚类方法包括以下步骤:
将数据集预处理后得到List集合,经十折交叉验证方法后选择两个距离阈值T1和T2,且T1>T2;
循环List集合,从List集合中任取一点t,用距离度量快速计算点t与所有Canopy之间的距离;
若点t与某个Canopy距离在T1以内,则将点t加入到该Canopy;
若点t与某个Canopy的距离在T2以内,则把点t从List中删除。
所述的Cluster的质心计算公式如下:
C j k = x j 1 k + x j 2 k + . . . + x jn k n j ,
其中:Cj k为簇Cj的聚类中心;n为样本数目;为簇j时第k个属性第n条样本。
所述的结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树包括以下步骤:
定义聚类特征CF为三元组,CF={n,LS,SS},
其中n是聚类数据的数目,LS是n个数据点的线性和,SS是s个数据点的平方和;
以聚类特征CF为基础,推导出簇的形心x0、簇的半径R,公式如下:
x 0 = &Sigma; i = 1 n x i n = LS n
R = &Sigma; i = 1 n ( x i - x 0 ) 2 n = nSS - 2 L S 2 + nLS n 2
R为成员对象到形心x0的平均距离;
假设CF1=(N1,LS1,SS1)、CF2=(N2,LS2,SS2),CF1和CF2分别为两个类的聚类特征;
合并后新簇的聚类特征为CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)。
所述的轮廓系数S的取值范围在[-1,1]之间变化,在此范围内,值越大聚类效果越好,轮廓系数S的计算公式如下:
S = 1 k &Sigma; i = 1 k b i - a i max ( a i , b i ) ,
其中:ai是样本i到本簇中所有其他样本的平均距离;bi是样本i到不包含该样本的其他任意簇中所有样本平均距离的最小值。
所述的不相容度的计算步骤如下:
设知识表达系统R=(U,A,V,f),A为一个有限属性集合,v为属性α的值域,f:U×A→V为信息函数,即:x∈U,f(x,a)∈Va;
属性Ai的不相容度公式如下:
A i = Card ( A i T ) Card ( U )
其中,Ai T为只考虑条件属性时论域中不相容样本的集合,Card(Ai T)、Card(U)分别为集合Ai T、U的基数;
整个决策表的相容性度量如下所示:
a = &Pi; i = 1 m A i ,
设定不相容度误差界限β=0.25,a=10-7,则每个属性的不相容度近似估计值为:离散后的属性不相容度满足|ai-aT|=|ai-0.1|<0.25。
所述的聚类离散微调包括以下步骤:
对断点集任一样本i找出其所在维各聚类中心的最近邻;
将最近邻的聚类中心标识赋予i,实现了样本到其所属聚类中心的微调,实现了连续属性离散化。
有益效果
本发明的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,与现有技术相比可解决高维、大数据样本的连续属性离散化方法,减少连续属性值的数目,降低系统对存储空间的依赖,使离散化后的数据更规约和简化,便于理解、使用和解释,扩大了适用范围。本发明充分利用Canopy聚类方法不需要事先指定k值(即clustering的个数)特点,同时结合BIRCH层次聚类算法克服聚类虚高问题,取长补短,通过二者的有机结合实现了连续属性(尤其是大样本、高维度数据)数据离散化,增强的数据的适用性,有效减弱极端值和异常值的影响,为大规模数据的应用提供良好的数据支撑。
附图说明
图1是本发明的方法流程图;
图2是本发明的样本实验数据集;
图3是本发明的改进前后聚类轮廓系数对比图;
图4是本发明的改进前后聚类簇数变化对比图;
图5是本发明的的传统Canopy与改进的Canopy两种算法在IRIS数据集中的离散对比图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,包括以下步骤:
第一步,利用Canopy聚类实现连续属性数据初始聚类。设置合理的距离阈值T1、T2,其中阈值T1、T2为划分Canopy大小的度量,T1决定了每个Cluster包含点的数目,这直接影响了Cluster的“重心”和“半径”,而T2则决定了Cluster的数目,T2太大会导致只有一个Cluster,而太小则会出现过多的Cluster,对T1、T2的具体确定可通过十折交叉验证法确定。
利用Canopy聚类方法,将相似对象放在一个子集Cluster中,Canopy聚类方法包括以下步骤:
(1)将数据集预处理后得到List集合,存入内存,经十折交叉验证方法后选择两个距离阈值T1和T2,且T1>T2。
(2)循环List集合,从List集合中任取一点t,用距离度量如欧式距离等,快速计算点t与所有Canopy之间的距离,起始循环时,可以将t作为一个Canopy。
若点t与某个Canopy距离在T1以内,则将点t加入到该Canopy。
若点t与某个Canopy的距离在T2以内,则把点t从List中删除。此时认为点t此时与这个Canopy已经够近了,因此它不可以再做其它Canopy的中心了。
经处理后获取各个Cluster的质心,各个Canopy的质心是指Canopy聚类完成后各个样本的聚类中心,其Cluster的质心计算公式如下:
C j k = x j 1 k + x j 2 k + . . . + x jn k n j ,
其中:Cj k为簇Cj的聚类中心;n为样本数目;为簇j时第k个属性第n条样本。
最终,完成数据初始聚类。
第二步,以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类。利用Canopy聚类输出的Cluster质心,结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树,其具体步骤如下:
(1)聚类特征在本质上反映了簇的统计信息,定义聚类特征CF为三元组,CF={n,LS,SS},其中n是聚类数据的数目,LS是n个数据点的线性和,SS是s个数据点的平方和。
(2)以聚类特征CF为基础,推导出簇的形心x0、簇的半径R,公式如下:
x 0 = &Sigma; i = 1 n x i n = LS n
R = &Sigma; i = 1 n ( x i - x 0 ) 2 n = nSS - 2 L S 2 + nLS n 2
R为成员对象到形心x0的平均距离,反映了形心周围簇的紧凑程度。
(3)结合聚类特征可加性原理是指:假设CF1=(N1,LS1,SS1)、CF2=(N2,LS2,SS2),CF1和CF2分别为两个类的聚类特征。根据可加性定理,合并后新簇的聚类特征为CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)。
通过BIRCH聚类方法把稀疏的簇当做离群点删除,将稠密的簇合并为更大的簇,实现数据集的二次聚类。稠密的簇合并为更大的簇的具体过程是:在树的构建过程中,随着聚类对象的插入,CF树被动态地构造,当对象被插入到最近的叶子条目(子类)时,如果在插入对象后存储在叶子节点中的子类的直径大于阈值,则该叶子节点和邻近的其他节点被分裂。新对象插入后,关于该对象的信息向树根传递。通过修改阈值,CF树的大小可以动态改变,如果存储CF树需要的内存大于主存的大小,此时,则需重新定义一个较小的阈值,并重建CF树。
第三步,对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实现连续属性的离散化。
以BIRCH聚类算法的聚类中心为断点集,以轮廓系数作为聚类效果评价指标,轮廓系数是充分考虑了聚类簇的凝聚度和分离度的聚类评价指标,轮廓系数S的取值范围在[-1,1]之间变化,在此范围内,值越大聚类效果越好,轮廓系数S的计算公式如下:
S = 1 k &Sigma; i = 1 k b i - a i max ( a i , b i ) ,
其中:ai是样本i到本簇中所有其他样本的平均距离;bi是样本i到不包含该样本的其他任意簇中所有样本平均距离的最小值。
以不相容度作为离散效果评价指标,其不相容度描述如下:
(1)设知识表达系统R=(U,A,V,f),A为一个有限属性集合,v为属性α的值域,f:U×A→V为信息函数,即:x∈U,f(x,a)∈Va。
(2)属性Ai的不相容度公式如下:
A i = Card ( A i T ) Card ( U )
其中,Ai T为只考虑条件属性时论域中不相容样本的集合,Card(Ai T)、Card(U)分别为集合Ai T、U的基数;
(3)样本集中各个属性的不相容是独立统计的,整个决策表的相容性度量如下所示:
a = &Pi; i = 1 m A i ,
设定不相容度误差界限β=0.25,a=10-7,则每个属性的不相容度近似估计值为:离散后的属性不相容度满足|ai-aT|=|ai-0.1|<0.25即可。
对数据集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,将聚类微调的结果作为最终连续属性离散结果。所述的聚类离散微调包括以下步骤:
(1)对断点集任一样本i找出其所在维各聚类中心的最近邻。
(2)将最近邻的聚类中心标识赋予i,实现了样本到其所属聚类中心的微调,实现了连续属性离散化。
如图2所示,对国际通用的机器学习数据源中的IRIS、Wine、Glass三个数据集进行试验分析,在聚类实验前,所有数据集均去除了决策属性。
根据充分考虑了簇的凝聚度和分离度两方面因素的聚类质量的评判标准轮廓系数对本发明的聚类效果进行评价,聚类实验的结果如图3所示,可以看出,改进后Canopy聚类的轮廓系数在3个数据集上均得到了明显提升,其中wine与glass数据集提升最为明显,通过与图2关联对比可以发现,提升度(轮廓系统的变化率)与数据的维度呈正比关系,即聚类数目越多,则提深度越明显。
此外,为分析改进前后聚类簇数变化情况(簇数直接影响属性离散后的断点集数目),实验给出了相应的对比分析图,如图4所示,可以看出,利用BRICH改进后的Canopy聚类算法聚类后的簇数接近原数据集的簇数,即能刻画样本原有的分类信息,也即可以有效反映原始数据内在的关联性。
分别利用传统Canopy聚类离散算法、改进的Canopy聚类离散算法对数据进行离散化,以不相容度作为离散优劣的评价标准,实验结果如图5所示,相比于传统的Canopy聚类算法,基于最近邻策略的改进Canopy聚类算法的不相容度更接近于0(属性不相容度乘积),不仅如此,通过对比单个属性的不相容度可以看出,改进的Canopy聚类离散算法均具有更小的不相容度,即本发明提出的离散化算法具有整体性优势。
本发明利用Canopy聚类算法对大样本连续属性进行初始聚类划分,产生若干虚高聚类簇数,获取“粗”聚类数目后再利用BIRCH聚类算法进行二次聚类,降低虚高聚类数目,实现“精”聚类。本发明通过二者的有机结合实现了连续属性(尤其是大样本、高维度数据)数据离散化,增强的数据的适用性,有效减弱极端值和异常值的影响,为大规模数据的应用提供良好的数据支撑。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (7)

1.一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,包括以下步骤:
11)利用Canopy聚类实现连续属性数据初始聚类;设置合理的距离阈值T1、T2,其中阈值T1、T2为划分Canopy大小的度量;利用Canopy聚类方法,将相似对象放在一个子集Cluster中;经处理后获取各个Cluster的质心,完成数据初始聚类;
12)以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;利用Canopy聚类输出的Cluster质心,结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树;通过BIRCH聚类方法把稀疏的簇当做离群点删除,将稠密的簇合并为更大的簇,实现数据集的二次聚类;
13)对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实现连续属性的离散化;以BIRCH聚类算法的聚类中心为断点集,以轮廓系数作为聚类效果评价指标,以不相容度作为离散效果评价指标,对数据集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,将聚类微调的结果作为最终连续属性离散结果。
2.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,所述的Canopy聚类方法包括以下步骤:
21)将数据集预处理后得到List集合,经十折交叉验证方法后选择两个距离阈值T1和T2,且T1>T2;
22)循环List集合,从List集合中任取一点t,用距离度量快速计算点t与所有Canopy之间的距离;
若点t与某个Canopy距离在T1以内,则将点t加入到该Canopy;
若点t与某个Canopy的距离在T2以内,则把点t从List中删除。
3.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,所述的Cluster的质心计算公式如下:
C j k = x j 1 k + x j 2 k + . . . + x jn k n j ,
其中:Cj k为簇Cj的聚类中心;n为样本数目;为簇j时第k个属性第n条样本。
4.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,所述的结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树包括以下步骤:
41)定义聚类特征CF为三元组,CF={n,LS,SS},
其中n是聚类数据的数目,LS是n个数据点的线性和,SS是s个数据点的平方和;
42)以聚类特征CF为基础,推导出簇的形心x0、簇的半径R,公式如下:
x 0 = &Sigma; i = 1 n x i n = LS n
R = &Sigma; i = 1 n ( x i - x 0 ) 2 n = nSS - 2 LS 2 + nLS n 2
R为成员对象到形心x0的平均距离;
43)假设CF1=(N1,LS1,SS1)、CF2=(N2,LS2,SS2),CF1和CF2分别为两个类的聚类特征;
合并后新簇的聚类特征为CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)。
5.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,所述的轮廓系数S的取值范围在[-1,1]之间变化,在此范围内,值越大聚类效果越好,轮廓系数S的计算公式如下:
S = 1 k &Sigma; i = 1 k b i - a i max ( a i , b i ) ,
其中,ai是样本i到本簇中所有其他样本的平均距离;bi是样本i到不包含该样本的其他任意簇中所有样本平均距离的最小值。
6.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,所述的不相容度的计算步骤如下:
61)设知识表达系统R=(U,A,V,f),A为一个有限属性集合,v为属性α的值域,f:U×A→V为信息函数,即:x∈U,f(x,a)∈Va;
62)属性Ai的不相容度公式如下:
A i = Card ( A i T ) Card ( U )
其中,Ai T为只考虑条件属性时论域中不相容样本的集合,Card(Ai T)、Card(U)分别为集合Ai T、U的基数;
63)整个决策表的相容性度量如下所示:
a = &Pi; i = 1 m A i ,
设定不相容度误差界限β=0.25,a=10-7,则每个属性的不相容度近似估计值为:离散后的属性不相容度满足|ai-aT|=|ai-0.1|<0.25。
7.根据权利要求1所述的一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,所述的聚类离散微调包括以下步骤:
71)对断点集任一样本i找出其所在维各聚类中心的最近邻;
72)将最近邻的聚类中心标识赋予i,实现了样本到其所属聚类中心的微调,实现了连续属性离散化。
CN201510028384.2A 2015-01-20 2015-01-20 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法 Pending CN104573050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510028384.2A CN104573050A (zh) 2015-01-20 2015-01-20 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510028384.2A CN104573050A (zh) 2015-01-20 2015-01-20 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法

Publications (1)

Publication Number Publication Date
CN104573050A true CN104573050A (zh) 2015-04-29

Family

ID=53089112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510028384.2A Pending CN104573050A (zh) 2015-01-20 2015-01-20 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法

Country Status (1)

Country Link
CN (1) CN104573050A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI556119B (zh) * 2016-01-21 2016-11-01 嶺東科技大學 資料離散化暨分類方法
CN106254321A (zh) * 2016-07-26 2016-12-21 中国人民解放军防空兵学院 一种全网络异常数据流分类方法
CN106951425A (zh) * 2016-01-07 2017-07-14 阿里巴巴集团控股有限公司 一种映射方法和设备
CN107437089A (zh) * 2016-05-27 2017-12-05 中国人民解放军信息工程大学 一种多传感器目标识别属性约简方法及装置
CN107909062A (zh) * 2017-12-11 2018-04-13 海南大学 一种基于信息熵的遥感影像特征离散化方法及系统
CN108241925A (zh) * 2016-12-23 2018-07-03 重庆邮电大学 一种基于离群点检测的离散制造机械产品质量溯源方法
CN108681744A (zh) * 2018-04-18 2018-10-19 西北工业大学 一种基于数据划分的电力负荷曲线层次聚类方法
CN109272040A (zh) * 2018-09-20 2019-01-25 中国科学院电子学研究所苏州研究院 一种雷达工作模式生成方法
CN109801175A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种医保诈骗行为检测方法和装置
CN109948869A (zh) * 2019-04-22 2019-06-28 东南大学 基于有序聚类离散化的脱硫系统so2出口浓度预测方法
CN110765329A (zh) * 2019-10-28 2020-02-07 北京天融信网络安全技术有限公司 一种数据的聚类方法和电子设备
CN112200206A (zh) * 2019-07-08 2021-01-08 浙江宇视科技有限公司 基于分布式平台的birch算法改进方法、装置及设备
CN113051317A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种数据探查方法和系统、数据挖掘模型更新方法和系统
CN113675953A (zh) * 2021-09-15 2021-11-19 江苏方天电力技术有限公司 一种基于电压相似度聚类的低压台区拓扑识别方法
CN117034051A (zh) * 2023-07-27 2023-11-10 广东省水利水电科学研究院 基于birch算法的水利信息聚合方法、装置及介质

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951425A (zh) * 2016-01-07 2017-07-14 阿里巴巴集团控股有限公司 一种映射方法和设备
TWI556119B (zh) * 2016-01-21 2016-11-01 嶺東科技大學 資料離散化暨分類方法
CN107437089A (zh) * 2016-05-27 2017-12-05 中国人民解放军信息工程大学 一种多传感器目标识别属性约简方法及装置
CN106254321B (zh) * 2016-07-26 2019-03-19 中国人民解放军防空兵学院 一种全网络异常数据流分类方法
CN106254321A (zh) * 2016-07-26 2016-12-21 中国人民解放军防空兵学院 一种全网络异常数据流分类方法
CN108241925A (zh) * 2016-12-23 2018-07-03 重庆邮电大学 一种基于离群点检测的离散制造机械产品质量溯源方法
CN107909062B (zh) * 2017-12-11 2021-05-07 海南大学 一种基于信息熵的遥感影像特征离散化方法及系统
CN107909062A (zh) * 2017-12-11 2018-04-13 海南大学 一种基于信息熵的遥感影像特征离散化方法及系统
CN108681744B (zh) * 2018-04-18 2021-09-17 西北工业大学 一种基于数据划分的电力负荷曲线层次聚类方法
CN108681744A (zh) * 2018-04-18 2018-10-19 西北工业大学 一种基于数据划分的电力负荷曲线层次聚类方法
CN109272040A (zh) * 2018-09-20 2019-01-25 中国科学院电子学研究所苏州研究院 一种雷达工作模式生成方法
CN109272040B (zh) * 2018-09-20 2020-08-14 中国科学院电子学研究所苏州研究院 一种雷达工作模式生成方法
CN109801175A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种医保诈骗行为检测方法和装置
CN109948869A (zh) * 2019-04-22 2019-06-28 东南大学 基于有序聚类离散化的脱硫系统so2出口浓度预测方法
CN109948869B (zh) * 2019-04-22 2020-11-13 东南大学 基于有序聚类离散化的脱硫系统so2出口浓度预测方法
CN112200206A (zh) * 2019-07-08 2021-01-08 浙江宇视科技有限公司 基于分布式平台的birch算法改进方法、装置及设备
CN112200206B (zh) * 2019-07-08 2024-02-27 浙江宇视科技有限公司 基于分布式平台的birch算法改进方法、装置及设备
CN110765329A (zh) * 2019-10-28 2020-02-07 北京天融信网络安全技术有限公司 一种数据的聚类方法和电子设备
CN113051317A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种数据探查方法和系统、数据挖掘模型更新方法和系统
CN113051317B (zh) * 2021-04-09 2024-05-28 上海云从企业发展有限公司 一种数据挖掘模型更新方法、系统、计算机设备及可读介质
CN113675953A (zh) * 2021-09-15 2021-11-19 江苏方天电力技术有限公司 一种基于电压相似度聚类的低压台区拓扑识别方法
CN117034051A (zh) * 2023-07-27 2023-11-10 广东省水利水电科学研究院 基于birch算法的水利信息聚合方法、装置及介质
CN117034051B (zh) * 2023-07-27 2024-05-03 广东省水利水电科学研究院 基于birch算法的水利信息聚合方法、装置及介质

Similar Documents

Publication Publication Date Title
CN104573050A (zh) 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN106384282A (zh) 构建决策模型的方法和装置
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN105893585B (zh) 一种结合标签数据的二部图模型学术论文推荐方法
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN100592332C (zh) 一种基于案例树进行案例推理的装置及方法
CN103049581B (zh) 一种基于一致性聚类的Web文本分类方法
CN106845536B (zh) 一种基于图像缩放的并行聚类方法
CN107391670A (zh) 一种融合协同过滤和用户属性过滤的混合推荐方法
CN103077228B (zh) 一种基于集合特征向量的快速聚类方法和装置
CN103631769A (zh) 一种判断文件内容与标题间一致性的方法及装置
CN102521402B (zh) 文本过滤系统及方法
CN108536683A (zh) 一种基于机器学习的论文碎片化信息抽取方法
EP3523756A1 (en) Quasi-clique prototype-based hybrid clustering
CN110019224A (zh) 一种基于树搜索的交叉表头生成方法
CN103310027B (zh) 用于地图模板匹配的规则提取方法
CN105740521A (zh) 油藏数值模拟系统求解过程中的小网格剔除方法和装置
CN104820775A (zh) 一种中药方剂核心药物的发现方法
CN110781943A (zh) 一种基于毗邻网格搜索的聚类方法
CN109977131A (zh) 一种房型匹配系统
CN103646118A (zh) 置信优势关系粗糙集模型及属性约简方法
CN104199924B (zh) 选择具有快照关系的网络表格的方法及装置
CN106354753A (zh) 数据流中基于模式发现的贝叶斯分类器
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429