CN103077228A - 一种基于集合特征向量的快速聚类方法和装置 - Google Patents

一种基于集合特征向量的快速聚类方法和装置 Download PDF

Info

Publication number
CN103077228A
CN103077228A CN2013100004065A CN201310000406A CN103077228A CN 103077228 A CN103077228 A CN 103077228A CN 2013100004065 A CN2013100004065 A CN 2013100004065A CN 201310000406 A CN201310000406 A CN 201310000406A CN 103077228 A CN103077228 A CN 103077228A
Authority
CN
China
Prior art keywords
attribute
data
value
cluster
proper vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100004065A
Other languages
English (en)
Other versions
CN103077228B (zh
Inventor
武森
姜敏
魏桂英
鄂旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201310000406.5A priority Critical patent/CN103077228B/zh
Publication of CN103077228A publication Critical patent/CN103077228A/zh
Application granted granted Critical
Publication of CN103077228B publication Critical patent/CN103077228B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于集合特征向量的快速聚类方法和装置。所述方法有如下步骤:1)将输入的混合属性数据转化为二值属性;2)按照对象稀疏性指数或不干涉序列指数排序;3)令排序后的第一个对象单独成类,得到其集合特征向量,然后顺序扫描其余待聚类对象,由当前扫描到的对象并入已经创建类的集合差异度与集合差异度上限b1的大小决定该对象是并入某个已经创建的类中还是单独创建一个新类;4)对步骤3)得到的初次聚类结果进行二次聚类,然后去除聚类结果中的孤立点,得到最终聚类结果。本发明只需要对数据进行一次排序和一次扫描即可完成聚类过程,兼顾聚类质量的同时,大幅降低了聚类所需的时间,而且聚类结果可以不受数据输入顺序的影响。

Description

一种基于集合特征向量的快速聚类方法和装置
技术领域
本发明涉及数据挖掘、聚类分析、高维数据聚类等技术领域,具体涉及一种基于集合特征向量的快速聚类方法和装置。
背景技术
聚类是数据挖掘领域最为常见的任务之一,用于发现在数据集中未知的对象类。
对高维数据的处理能力是聚类研究的一个重要内容。许多聚类算法在维数比较低的情况下能够生成质量比较高的聚类结果,却难以应用于高维数据的情况,有时甚至可能会产生错误的聚类结果。
在提出本发明之前,我们已经在高维数据挖掘领域,特别是高维稀疏数据挖掘领域,提出了一个有效的算法——CABOSFV聚类算法。
CABOSFV算法从集合的角度定义了一种新的差异度计算方法,称为“稀疏特征差异度(Sparse Feature Distance,SFD)”以此反映一个集合内部对象间的相似程度,并通过新定义的一个概念“稀疏特征向量(Sparse Feature Vector,SFV)”来概括一个对象集合所包含的全部聚类相关信息,可以方便地计算集合内对象的相似程度。稀疏特征向量能够对数据进行有效压缩,使得数据处理量大大减少,并且只需进行一次数据扫描就可以生成聚类结果。
CABOSFV聚类算法中差异度的计算是基于集合给出的,其定义如下:
集合的稀疏差异度:假设有n个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数可以用|Y|表示,在该子集中所有对象稀疏特征取值皆为1的属性个数为a(0≤a≤m),稀疏特征取值不全相同的属性个数为e(0≤e≤m),则集合Y的稀疏差异度SFD(Y)定义为:
SFD ( Y ) = e | Y | × a .
一个集合的稀疏差异度表明了该集合内部各对象间的差异程度。差异程度越大,对象间越不相似;差异度越小,则对象间越相似。集合的稀疏差异度是CABOSFV聚类算法进行相似度计算和数据压缩的基础。
为了减少数据处理量,CABOSFV聚类算法对数据进行了有效地压缩,这是通过一个新的概念“稀疏特征向量”来实现的。
稀疏特征向量:假设有n个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数可以用|Y|表示,在该子集中所有对象稀疏特征取值皆为1的属性个数为a(0≤a≤m),对应的属性序号为j1,j2,…,ja,稀疏特征取值不全相同的属性个数为e(0≤e≤m),对应的属性序号为k1,k2,…,ke,向量SFV(Y)=(|Y|,S(Y),NS(Y),SFD(Y))称为对象集合Y的稀疏特征向量。
其中,|Y|为Y中对象的个数;
S(Y)为Y中所有对象稀疏特征取值皆为1的属性序号集合{j1,j2,…,ja};
NS(Y)为稀疏特征取值不全相同的属性序号集合{k1,k2,…,ke};
SFD(Y)为集合Y的稀疏差异度。
显然:a=|S(Y)|,e=|NS(Y)|,所以有:
SFD ( Y ) = | NS | | Y | × | S | = e | Y | × a .
稀疏特征向量概括了一个对象集合的稀疏特征及该集合内对象间的稀疏差异度。这样,对于一个对象集合,我们只需存储其稀疏特征向量就可以描述该集合的稀疏情况,而不必保存该集合中所有对象的信息。稀疏特征向量不仅减少了数据量,而且还具有特别好的性质——在两个集合合并时稀疏特征向量具有可加性。
利用稀疏特征向量的可加性,可以在对象集合进行合并时精确地计算稀疏特征向量,得到全新的稀疏差异度。这样,在根据对象的稀疏特征进行聚类时,即可以降低数据存储量和计算量,同时可以保证稀疏差异度计算的精确性。下面我们介绍CABOSFV聚类算法的步骤。
假设有n个对象,描述第i个对象的m个稀疏特征取值分别对应于二态变量值xi1,xi2,…,xim,一个类内对象的差异度上限为b,那么CABOSFV聚类算法处理步骤如下:
1)由每一个对象建立一个集合,分别记为Xi(0),i∈{1,2,...,n}。
2)根据稀疏特征向量可加性,计算SFV(X1 (0)∪X2 (0))=SFV(X1 (0))+SFV(X2 (0)),如果合并后集合内部差异度不大于差异度上限b,那么将X1 (0)与X2 (0)合并到一个集合,作为一个已有类,记为X1 (1);如果合并后集合的内部差异度大于差异度上限b,那么将X1 (0)和X2 (0)分别作为一个已有类,记为X1 (1)与X2 (1)。将已有类的个数记为c。
3)针对集合X3 (0),同理计算SFV(X3 (0)∪Xk (1))=SFV(X3 (0))+SFV(Xk (1)),k∈{1,2,…,c},寻找i0,使得 SFD ( X 3 ( 0 ) ∪ X i o ( 1 ) ) = min k ∈ { 1,2 , . . . , c } SFD ( X 3 ( 0 ) ∪ X k ( 1 ) ) . 如果得到的
Figure BDA00002697444700042
不大于差异度上限b,那么将X3 (0)合并到中,仍记为
Figure BDA00002697444700044
如果大于差异度上限b,那么将X3 (0)作为一个新的类,记为Xc+1 (1),类的个数c=c+1。
4)对Xi (0),i∈{4,5,...,n},重复执行步骤3)所示的操作。
5)在最终形成的每一个类Xk (1),k∈{1,2,...,c}中,包含对象个数较少的类定位孤立对象类,从最终形成的类中去除,余下的各类作为最终聚类的结果。
从上述步骤不难看出,CABOSFV算法具有简洁高效的特点,其只需要对数据进行一次扫描即可自下而上的得出聚类结果。然而CABOSFV算法也存在一些不足:①聚类结果不均匀,各聚类结果的规模差别很大,而且倾向于产生规模较大的类;②聚类结果受差异度上限b影响严重,设定不同的b值可能会得到差异较大的聚类结果;③聚类结果受数据输入顺序影响,即使完全相同的数据按照不同的数据输入CABOSFV算法,也会得出不尽相同的聚类结果。以上缺陷使得CABOSFV算法聚类结果的质量不稳定,严重制约了该算法的发展和应用。另外,CABOSFV算法只能应用于二值属性的数据,而不能应用于更为普遍的分类属性、混合数据。
发明内容
本发明所要解决的技术问题是消除CABOSFV聚类算法所存在的部分缺陷,在兼顾聚类质量的同时提升聚类效率,同时将应用领域扩大到整个混合属性数据聚类的范畴,即所处理的数据可以是区间属性、分类属性和二值属性的任意组合,既可以是普通的,也可以是稀疏的。
本发明的技术方案是:一种基于集合特征向量的快速聚类方法,该方法:①能够对混合属性数据进行聚类;②按照某种指数对数据进行排序后再进行聚类;③进行两次聚类。其参数是集合差异度b1和拓展集合差异度b2
该方法包括如下步骤:
1)将输入的混合属性数据转化为二值属性后,按照对象稀疏性指数或不干涉序列指数排序。
2)令排序后的第一个对象单独成类,得到其集合特征向量。
3)顺序扫描其余待聚类对象,如果将当前扫描到的对象并入任何一个已经创建的类,都会使得并入后的集合差异度大于集合差异度上限b1,则创建一个新类,该新类仅包含当前扫描到的对象;否则,将当前对象并入使得并入后集合差异度最小的类中,并更新该类的集合特征向量。
4)将步骤3)得到的初次聚类结果作为输入进行二次聚类。
5)去除聚类结果中的孤立点,得到最终聚类结果。
根据本发明的另一个方面,提供了一种基于集合特征向量的快速聚类装置。该装置包括:数据输入模块,用于将各种形式的媒介中载有的信息转换为计算机系统中的数据;数据属性转换模块,用于将混合属性数据转换为二值属性数据;数据排序模块,用于按照稀疏性指数或不干涉序列指数对数据进行排序;初次聚类模块,用于对排序后的数据进行初次聚类;二次聚类模块,用于对初次聚类后的数据进行而次聚类;结果展示模块,用于将处理后的结果以可视化的方式展现出来。
另外,本发明的实施例还提供了用于实现上述基于集合特征向量的快速聚类方法的计算机程序。
本发明的有益效果是:该方法与CABOSFV算法相比,具有更高的聚类稳定性和更好的聚类质量;相对于经典的k-means和k-modes聚类算法,在兼顾聚类质量的同时,具有更高的聚类效率,能够处理的数据类型也更为丰富。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。
图1是示出了本发明实施例的基于集合特征向量的快速聚类方法的框架性流程图;
图2是示出了本发明实施例的基于集合特征向量的快速聚类方法的详细流程图;
图3是示出了本发明实施例的基于集合特征向量的快速聚类装置的结构示意图。
具体实施方式
下面结合附图对本发明的实施例作出详细说明。首先描述根据本发明的实施例的基于集合特征向量的快速聚类方法。
图1示出了本发明实施例的基于集合特征向量的快速聚类方法的框架性流程图。图2则示出了详细流程图。总的来说,该方法包括数据属性转换步骤、数据排序步骤、初次聚类步骤和二次聚类步骤。
在步骤101中,将输入的混合属性数据转化为二值属性数据。为了方便描述,下文称这一步骤为数据属性转换步骤。
在数据属性转换步骤中,需要将数据中的分类属性和区间属性都转换为二值属性。将分类属性转换为二值属性的方法是:设分类属性Ct,t=1,2,...,m2共有ht个属性值,分别为
Figure BDA00002697444700071
则该分类属性Ct映射到二值属性后的属性为C′t1,C′t2,…,
Figure BDA00002697444700072
当对象x在属性Ct上取第k(k∈{1,2,...,ht})个分类属性值vtk时,C′tk=1,而C′ts=0(s=1,...,ht,且s≠k)。将区间属性数据转换为二值属性数据的方法有两种,可以根据聚类精度的需求从中选择。第一种方法是设定一个阈值t,然后将大于等于t的区间属性值标记为1,将小于t的区间属性值标记为0即可。第二种方法则适用于对聚类精度要求较高的情况,其原理是首先按照一定的标准将区间属性划分为若干个层次,并将这些层次的编号视为分类属性,继而运用上文中提到的将分类属性数据转换为二值属性数据的方法将其转换为二值属性。
在步骤102中,按照对象稀疏性指数或不干涉序列指数对数据进行排序。这一步也称数据排序步骤。下面给出不干涉序列指数的定义:
不干涉序列指数:设一个数据集X有n个对象,每个对象共有m个二值属性,对象x的属性值分别为d1(x),d2(x),...,dm(x),(di(x)=0或1,i=1,2,…,m),则对象x的不干涉序列指数定义为:q(x,M)=d1(x)M1+d2(x)M2+…+dm(x)Mm
其中(M1,M2,…,Mm)为某选定的不干涉序列M=(M1,M2,M3,...,Mi,...)的前m项。
不干涉序列:当一个正整数数列M=(M1,M2,M3,...,Mi,...)的第n项大于前n-1项的和时,即
Figure BDA00002697444700081
n≥2,将这个数列称为不干涉序列。
不干涉序列M=(M1,M2,M3,...,Mi,...)可以通过下述方式来构造:
M1=任意正整数,M2=任意正整数且大于M1,M3=M1+M2+1,Mi=2Mi-1(i>3)。
例如:1,2,4,8,16,32,64…,1,3,5,10,20,40,80…,1,4,6,12,24,48,96…
在步骤103中,对数据进行初次聚类。这一步骤也称初次聚类步骤。该步骤包括如下子步骤:
1)令排序后的第一个对象单独成类,得到其集合特征向量。下面给出集合特征向量的定义。
集合特征向量:假设有n个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数可以用|Y|表示,在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m),对应的属性序号为j1,j2,...,ja,取值不全相同的属性个数为e(0≤e≤m),对应的属性序号为k1,k2,...,ke,向量SFV(Y)=(|Y|,S(Y),NS(Y),SD(Y))称为对象集合Y的集合特征向量。其中S(Y)为Y中所有对象取值都为1的属性序号集合,NS(Y)为取值不全相同的属性序号集合,SD(Y)为集合差异度。
集合特征向量是稀疏特征向量的范化。我们在实践中发现,稀疏特征向量这种形式不只可以运用到高维稀疏数据聚类中,将其推广到普通数据聚类中也是能够起到显著数据压缩作用的。当然,其最重要的作用在于用一个向量概括了一个集合参与下一步聚类所需的全部信息。
2)顺序扫描其余待聚类对象,如果当前扫描到的对象并入任何一个已经创建的类,都会使得并入后的集合差异度大于集合差异度上限b1,则创建一个新类,该新类仅包含当前扫描到的对象;否则,将当前对象并入使得并入后集合差异度最小的类中,并更新该类的集合特征向量。下面给出集合差异度的定义。
集合差异度:假设有n个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数可以用|Y|表示,在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m),取值不全相同的属性个数为e(0≤e≤m),则集合Y的集合差异度SD(Y)定义为:
SFD ( Y ) = e | Y | × a .
在步骤104中将步骤103中得到的初次聚类结果作为输入进行二次聚类。该步骤也称二次聚类步骤。下面给出二次聚类步骤中涉及的定义和方法。
集合属性值:设函数f:xi→vk表示集合X中的对象xi对应的属性值vk(i=1,2,...,n;k=1,2,...,l),其中l表示所有属性取值的总数量。当集合X内的每个对象都对应某个属性值vk时,称该属性值为集合X的集合属性值。集合X的所有集合属性值可以表示为AVS(X)。
拓展集合差异度:对于数据集U,X为U的一个划分X={X1,X2,...,Xk},k∈N。Xi是X中的某一个元素,Xi的集合属性值为AVS(Xi)。Q是X的一个子集,|Q|为其元素个数,|Q|≤k。对于该子集中的所有集合,相同的集合属性个数为S(Q),不全相同的集合属性值个数为NS(Q)。则定义为子集Q的拓展集合差异度。对应地,定义ESFV(Q)=(|Q|,S(Q),NS(Q),ESD(Q))为拓展集合特征向量。
二次聚类的具体方法是:将各个初次聚类结果的集合特征向量视作待聚类对象集,将每个集合特征向量的S集中的属性作为该集合特征向量的集合属性值,并将步骤2)和步骤3)中的集合差异度、集合特征向量对应改变为拓展集合差异度和拓展集合特征向量,同时将集合差异度上限b1改变为拓展集合差异度上限b2后,按照步骤2)和步骤3)进行聚类。
在二次聚类步骤中,还应去除聚类结果中对象个数小于阈值k的簇,得到最终聚类结果。
上述基于集合特征向量的快速聚类方法只需要对数据进行一次排序和一次扫描即可完成聚类过程。相对CABOSFV算法具有更高的聚类稳定性和更好的聚类质量;相对于经典的k-means和k-modes聚类算法,在兼顾聚类质量的同时,具有更高的聚类效率,能够处理的数据类型也更为丰富。
图3示出了本发明实施例的基于集合特征向量的快速聚类装置的结构示意图。该装置的部分模块(302至305)与上述方法相对应。
数据输入模块301,用于将载于其他媒介上的信息数字化并读入计算机中,或将载于其他计算机、存储设备中的信息直接读入该装置所处的计算机中。数据属性转换模块302,用于按照步骤101所述的方法对数据进行属性转换。数据排序模块303,用于按照步骤102所述的方法对数据进行排序。初次聚类模块304,用于按照步骤103所述的方法对数据进行初次聚类。二次聚类模块305,用于按照步骤104所述的方法对数据进行二次排序。结果展示模块306,用于将二次聚类模块305得到的聚类结果以图形或/和文字的形式展示出来。
尽管上面已经通过对本发明的具体实施实例的描述对本发明进行了披露,但是,应该理解,上述所有实施例和示例均是示例性的,而非限定性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者同等物。这些修改、改进或者同等物也应当被认为包括在本发明的保护范围内。

Claims (7)

1.一种基于集合特征向量的快速聚类方法,其特征在于,包括以下步骤:
(1)数据属性转换步骤:将输入的混合属性数据转化为二值属性;
(2)数据排序步骤:按照对象稀疏性指数或不干涉序列指数对数据进行排序;
(3)初次聚类步骤:该步骤包括两个子步骤:
首先,令排序后的第一个对象单独成类,得到其集合特征向量,
然后,顺序扫描其余待聚类对象,如果将当前扫描到的对象并入任何一个已经创建的类中,都会使得并入后的集合差异度大于集合差异度上限b1,则创建一个新类,该新类仅包含当前扫描到的对象;否则,将当前对象并入使得并入后集合差异度最小的类中,并更新该类的集合特征向量;
(4)二次聚类步骤:将初次聚类步骤得到的初次聚类结果作为输入进行二次聚类。然后去除聚类结果中的孤立点,得到最终聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤2)中的对象稀疏性指数是指对象属性中取值为1的个数;所述不干涉序列指数是指不干涉序列与对象的属性的内积,其计算方法如下:设一个二值属性数据集X有n个对象,每个对象共有m个属性。X为数据集X中的一个对象,其属性值分别为d1(x),d2(x),…,dm(x),(di(x)=0或1,i=1,2,…,m),则对象x的不干涉序列指数为:q(x,M)=d1(x)M1+d2(x)M2+…+dm(x)Mm其中(M1,M2,…,Mm)为某选定的不干涉序列M=(M1,M2,M3,…,Mi,…)的前m项。
3.根据权利要求1所述的方法,其特征在于,所述步骤3)中的集合特征向量是指集合内所有对象参与聚类所需的相关信息的特征表示向量,其定义如下:设一个二值属性数据集有n个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数可以用|Y|表示,在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m),对应的属性序号为j1,j2,...,ja,取值不全相同的属性个数为e(0≤e≤m),对应的属性序号为k1,K2,…,ke,则向量SFV(Y)=(|Y|,S(Y),NS(Y),SD(Y))称为对象集合Y的集合特征向量。其中S(Y)为Y中所有对象取值都为1的属性序号集合,NS(Y)为取值不全相同的属性序号集合,SD(Y)为集合差异度;所述集合差异度是指集合内对象间的差异程度,其计算方法如下:设一个二值属性数据集有n个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数记为|Y|,在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m),取值不全相同的属性个数为e(0≤e≤m),则定义
Figure FDA00002697444600011
为子集Y的集合差异度。
4.根据权利要求1所述的方法,其特征在于,所述步骤4)中对初次聚类结果进行二次聚类是指将初次聚类结果中各个类的集合特征向量视作待聚类对象,将每个集合特征向量的S集中的属性作为该集合特征向量的集合属性值,并将步骤2)和步骤3)中的集合差异度、集合特征向量对应改变为拓展集合差异度和拓展集合特征向量,同时将集合差异度上限b1改变为拓展集合差异度上限b2后,按照步骤2)和步骤3)进行聚类的过程。
5.根据权利要求4所述的方法,其特征在于,所述的集合属性值定义如下:设函数f:xi→vk表示集合X中的某个对象xi对应的属性值vk(i=1,2,...,n;k=1,2,...,l),其中l表示所有属性取值的总数量。当集合X内的每个对象都对应某个属性值vk时,称该属性值为集合X的集合属性值,集合X的所有集合属性值可以表示为AVS(X)。
6.根据权利要求4所述的方法,其特征在于,所述的拓展集合差异度是指多个集合之间的总体差异程度。其计算方法如下:对于数据集U,X为U的一个划分X={X1,X2,...,Xk},k∈N,Xi是X中的某一个元素,Xi的集合属性值为AVS(Xi),Q是X的一个子集,|Q|为其元素个数,|Q|≤k,对于该子集中的所有集合,相同的集合属性个数为S(Q),不全相同的集合属性值个数为NS(Q),则定义为子集Q的拓展集合差异度,对应地,定义ESFV(Q)=(|Q|,S(Q),NS(Q),ESD(Q))为拓展集合特征向量。
7.一种基于集合特征向量的快速聚类装置,其特征在于,包括以下组成模块:
数据输入模块:用于将载于其他媒介上的信息数字化并且读入计算机中,或者将载于其他计算机、存储设备中的信息直接读入该装置所处的计算机中;
数据属性转换模块,用于对数据进行属性转换,将混合数据中的分类属性和数值属性转换为二值属性;
数据排序模块,用于按照对象稀疏性指数或不干涉序列指数对数据进行排序;
初次聚类模块,用于对数据进行初次聚类;
二次聚类模块,用于在初次聚类的基础上对数据进行二次排序;
结果展示模块,用于将二次聚类模块得到的聚类结果以图形或/和文字的形式展示出来。
CN201310000406.5A 2013-01-02 2013-01-02 一种基于集合特征向量的快速聚类方法和装置 Expired - Fee Related CN103077228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310000406.5A CN103077228B (zh) 2013-01-02 2013-01-02 一种基于集合特征向量的快速聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310000406.5A CN103077228B (zh) 2013-01-02 2013-01-02 一种基于集合特征向量的快速聚类方法和装置

Publications (2)

Publication Number Publication Date
CN103077228A true CN103077228A (zh) 2013-05-01
CN103077228B CN103077228B (zh) 2016-03-02

Family

ID=48153758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310000406.5A Expired - Fee Related CN103077228B (zh) 2013-01-02 2013-01-02 一种基于集合特征向量的快速聚类方法和装置

Country Status (1)

Country Link
CN (1) CN103077228B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699695A (zh) * 2014-01-14 2014-04-02 吉林大学 基于中心法的自适应文本聚类算法
CN104731882A (zh) * 2015-03-11 2015-06-24 北京航空航天大学 一种基于哈希编码加权排序的自适应查询方法
CN104809136A (zh) * 2014-01-28 2015-07-29 中国银联股份有限公司 一种混合聚类方法和装置
CN105069129A (zh) * 2015-06-24 2015-11-18 合肥工业大学 自适应多标签预测方法
CN105138527A (zh) * 2014-05-30 2015-12-09 华为技术有限公司 一种数据分类回归方法及装置
CN111062674A (zh) * 2020-01-07 2020-04-24 北京建筑大学 一种物流订单高维稀疏聚类分拣方法
CN111737356A (zh) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 一种区块链事件的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339553A (zh) * 2008-01-14 2009-01-07 浙江大学 面向海量数据近似快速聚类和索引方法
CN101989302A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于多层位图颜色特征的图像检索方法
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法
CN102622432A (zh) * 2012-02-27 2012-08-01 北京工业大学 一种xml文档结构概要间的相似性度量方法
CN102651070A (zh) * 2012-04-05 2012-08-29 山东大学 一种医学序列图像的快速聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339553A (zh) * 2008-01-14 2009-01-07 浙江大学 面向海量数据近似快速聚类和索引方法
CN101989302A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于多层位图颜色特征的图像检索方法
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法
CN102622432A (zh) * 2012-02-27 2012-08-01 北京工业大学 一种xml文档结构概要间的相似性度量方法
CN102651070A (zh) * 2012-04-05 2012-08-29 山东大学 一种医学序列图像的快速聚类方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699695A (zh) * 2014-01-14 2014-04-02 吉林大学 基于中心法的自适应文本聚类算法
CN103699695B (zh) * 2014-01-14 2017-02-01 吉林大学 基于中心法的自适应文本聚类算法
CN104809136A (zh) * 2014-01-28 2015-07-29 中国银联股份有限公司 一种混合聚类方法和装置
CN104809136B (zh) * 2014-01-28 2019-03-15 中国银联股份有限公司 一种混合聚类方法和装置
CN105138527B (zh) * 2014-05-30 2019-02-12 华为技术有限公司 一种数据分类回归方法及装置
CN105138527A (zh) * 2014-05-30 2015-12-09 华为技术有限公司 一种数据分类回归方法及装置
CN104731882A (zh) * 2015-03-11 2015-06-24 北京航空航天大学 一种基于哈希编码加权排序的自适应查询方法
CN104731882B (zh) * 2015-03-11 2018-05-25 北京航空航天大学 一种基于哈希编码加权排序的自适应查询方法
CN105069129A (zh) * 2015-06-24 2015-11-18 合肥工业大学 自适应多标签预测方法
CN105069129B (zh) * 2015-06-24 2018-05-18 合肥工业大学 自适应多标签预测方法
CN111062674A (zh) * 2020-01-07 2020-04-24 北京建筑大学 一种物流订单高维稀疏聚类分拣方法
CN111062674B (zh) * 2020-01-07 2023-07-25 北京建筑大学 一种物流订单高维稀疏聚类分拣方法
CN111737356A (zh) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 一种区块链事件的处理方法及装置
CN111737356B (zh) * 2020-07-17 2020-11-24 支付宝(杭州)信息技术有限公司 一种区块链事件的处理方法及装置
US11314564B2 (en) 2020-07-17 2022-04-26 Alipay (Hangzhou) Information Technology Co., Ltd. Blockchain event processing method and apparatus

Also Published As

Publication number Publication date
CN103077228B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN103077228B (zh) 一种基于集合特征向量的快速聚类方法和装置
Pons et al. Post-processing hierarchical community structures: Quality improvements and multi-scale view
CN103064970B (zh) 优化译员的检索方法
CN107844565B (zh) 商品搜索方法和装置
CN103984714B (zh) 一种基于本体语义的云制造服务供需智能匹配方法
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
CN102609441A (zh) 基于分布熵的局部敏感哈希高维索引方法
CN102456050B (zh) 从网页中抽取数据的方法和装置
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN103136683A (zh) 计算产品参考价格的方法、装置及产品搜索方法、系统
CN108334805A (zh) 检测文档阅读顺序的方法和装置
CN103995804A (zh) 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN103309984A (zh) 数据处理的方法和装置
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
CN117312681B (zh) 面向元宇宙的用户偏好产品推荐方法及系统
WO2018059298A1 (zh) 模式挖掘方法、高效用项集挖掘方法及相关设备
CN105069129A (zh) 自适应多标签预测方法
CN117556369A (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
CN107870934A (zh) 一种app用户聚类方法及装置
Liu et al. Incremental algorithms of the core maintenance problem on edge-weighted graphs
Chen et al. Approximation algorithms for 1-Wasserstein distance between persistence diagrams
CN103064887B (zh) 一种推荐信息的方法和设备
CN105160357A (zh) 基于全局一致性和局部拓扑的多模态数据子空间聚类方法
CN105512270B (zh) 一种确定相关对象的方法和装置
CN105302833A (zh) 一种基于内容的视频检索数学模型建立方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20190102

CF01 Termination of patent right due to non-payment of annual fee