CN103744935A - 一种计算机快速海量数据聚类处理方法 - Google Patents

一种计算机快速海量数据聚类处理方法 Download PDF

Info

Publication number
CN103744935A
CN103744935A CN201310748302.2A CN201310748302A CN103744935A CN 103744935 A CN103744935 A CN 103744935A CN 201310748302 A CN201310748302 A CN 201310748302A CN 103744935 A CN103744935 A CN 103744935A
Authority
CN
China
Prior art keywords
data object
data
group
objects
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310748302.2A
Other languages
English (en)
Other versions
CN103744935B (zh
Inventor
李中
杨宏
张珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201310748302.2A priority Critical patent/CN103744935B/zh
Publication of CN103744935A publication Critical patent/CN103744935A/zh
Application granted granted Critical
Publication of CN103744935B publication Critical patent/CN103744935B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种计算机快速海量数据聚类处理方法,所述方法首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心,并可查询得到各个子类内部数据对象分布概况与及其特征,极大地方便了海量数据的快速有效处理。

Description

一种计算机快速海量数据聚类处理方法
技术领域
本发明涉及一种具有数据概况分析能力的快速海量数据分析方法,属数据处理技术领域。 
背景技术
计算机在对数据进行处理时,为提高处理速度,需要对海量数据进行聚类。所述聚类是按照数据本身的相似性(一般为距离准则,距离越小、相似度越大)把一个数据集分割成不同的类或簇,使类内数据对象的相似性尽可能大,同时类间数据对象的差异性也尽可能的大。聚类处理能够帮助人们发现隐藏在海量数据背后的潜在规律,对于信息处理和知识发现具有重要的意义,在数据挖掘、机器学习、模式识别、统计学和生物学等许多领域得到了广泛的应用。 
聚类处理种类繁多,但效果较好的聚类方法大都计算复杂,速度较慢,无法满足计算机大规模数据的快速聚类处理需求,此外,缺乏对数据概况的分析能力,也是现有聚类方法在计算机进行处理时普遍存在的一个缺陷。 
发明内容
本发明的目的在于针对现有技术之弊端,提供一种具有数据概况分析能力的快速海量数据聚类方法,以解决计算机对大量数据进行聚类处理时的效率和聚类数据概况分析问题。 
本发明所述问题是以下述技术方案实现的: 
一种计算机快速海量数据聚类处理方法,所述方法以计算机作为数据处理、存储的工具,处理时,计算机首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果,所述方法包括以下步骤:
a.数据对象预处理
对所有待分析数据对象(数目为 
Figure 892789DEST_PATH_IMAGE001
)进行预处理,预处理的具体方法是:对于任一给定数据维度是
Figure 2013107483022100002DEST_PATH_IMAGE002
的待聚类数据对象
Figure 536260DEST_PATH_IMAGE003
添加2个数值型属性值
Figure 2013107483022100002DEST_PATH_IMAGE004
Figure 402585DEST_PATH_IMAGE005
,其中
Figure 131506DEST_PATH_IMAGE004
是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到
Figure 210321DEST_PATH_IMAGE001
Figure 239457DEST_PATH_IMAGE005
是该待聚类数据对象的权重,其值均设定为1;
b.建立一个
Figure 2013107483022100002DEST_PATH_IMAGE006
Figure 745524DEST_PATH_IMAGE007
列的数组
Figure 2013107483022100002DEST_PATH_IMAGE008
,其初始值全取值为0,用于保存聚类处理过程;
c.数据对象分组
将所有数据对象随机均分为组,每组包含
Figure 2013107483022100002DEST_PATH_IMAGE010
=
Figure 375406DEST_PATH_IMAGE011
个数据对象,若不能均分,则最后一组数据对象数目等于
Figure 2013107483022100002DEST_PATH_IMAGE012
为取整运算;
d.计算每组内
Figure 201596DEST_PATH_IMAGE010
个数据对象之间的相似度矩阵
Figure 2013107483022100002DEST_PATH_IMAGE014
Figure 170689DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
Figure 122465DEST_PATH_IMAGE017
e.依据相似度矩阵
Figure 595035DEST_PATH_IMAGE014
,选择组内当前相似度最大的两个数据对象
Figure DEST_PATH_IMAGE018
和数据对象(若非唯一,则任选其一)合并生成新数据对象
Figure DEST_PATH_IMAGE020
,从本组中删除数据对象
Figure 899294DEST_PATH_IMAGE018
和数据对象
Figure 123602DEST_PATH_IMAGE019
;在数组
Figure 981836DEST_PATH_IMAGE008
中保存合并生成记录;
f.重复上述步骤d、步骤e,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;
g.令
Figure 266187DEST_PATH_IMAGE009
=
Figure 972292DEST_PATH_IMAGE013
为取整运算,若满足
Figure DEST_PATH_IMAGE022
,则重复执行上述步骤c、步骤d、步骤e、步骤f,否则执行步骤h;
h、将剩余所有数据对象作为一组,重复执行上述步骤d、步骤e,直至组内只剩1个数据对象;
i.查询
Figure 153875DEST_PATH_IMAGE008
中的查询合并记录,获取聚类处理结果
Figure 140285DEST_PATH_IMAGE008
中最后一条记录表明了将所有聚类数据划分为2类的结果,包含2个子类数据对象的属性值的算数平均值和类内对象数目。
上述计算机快速海量数据聚类处理方法,步骤e中所述数据对象和数据对象
Figure 606219DEST_PATH_IMAGE019
合并生成新数据对象的具体方法是: 
Figure DEST_PATH_IMAGE024
   ,    
Figure 186739DEST_PATH_IMAGE025
式中,
Figure DEST_PATH_IMAGE026
是所有数据对象的标识值中的最大值。
上述计算机快速海量数据聚类处理方法,步骤e中所述在
Figure 822119DEST_PATH_IMAGE008
中保存合并生成记录的具体方法是:在的第1个取值全0的行(记为第
Figure 306507DEST_PATH_IMAGE027
行)的第一列赋值为
Figure DEST_PATH_IMAGE028
,即令
Figure 915343DEST_PATH_IMAGE029
,其后各列依次记录数据对象
Figure 619994DEST_PATH_IMAGE018
和数据对象
Figure 630675DEST_PATH_IMAGE019
。 
本发明通过对数据进行分组,有效降低了计算复杂度;新数据对象的合并生成方法选择2个相似度最大的数据对象进行合并,并有效记忆了这2个原有数据对象的信息;记录合并生成过程为聚类和数据概况分析提供了简洁、良好的结构。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心,并可查询得到各个子类内部数据对象分布概况与及其特征,极大地方便了海量数据的快速有效处理。本发明方法计算简便、数据概况分析能力强,适于海量数据的快速聚类处理,可广泛应用于各种聚类处理工作中。 
附图说明
下面结合附图对本发明作进一步说明。 
图1是本发明的流程图。 
文中各符号为:
Figure 598632DEST_PATH_IMAGE001
、所有待分析数据对象的数目, 
Figure 225922DEST_PATH_IMAGE002
、数据维度,
Figure 671947DEST_PATH_IMAGE003
Figure 802714DEST_PATH_IMAGE019
、数据对象,
Figure 472730DEST_PATH_IMAGE004
、该数据对象的唯一标识,
Figure 56158DEST_PATH_IMAGE005
、该待聚类数据对象的权重, 
Figure 305873DEST_PATH_IMAGE008
、数组, 
Figure 822305DEST_PATH_IMAGE014
Figure 132064DEST_PATH_IMAGE010
个数据对象之间的相似度矩阵, 
Figure 202788DEST_PATH_IMAGE020
、合并生成的新数据对象。 
具体实施方式
本发明目的在于提供一种具有数据概况分析能力的计算机快速海量数据聚类处理方法,所述方法对于数目为的待聚类数据对象,经过
Figure DEST_PATH_IMAGE030
次合并计算,即可获取任意聚类数的聚类结果,并可得出各个子类的所含数据对象的具体构成及子类的质心(即所含数据对象属性值的算数平均值),具有计算速度快、数据分析能力强的特点。 
为达到上述目的,本发明采用的技术方案包括以下步骤: 
步骤1、数据对象预处理。对所有待分析数据对象(数目为
Figure 638852DEST_PATH_IMAGE001
)进行预处理,预处理的具体方法是:对于任一给定数据维度是
Figure 119512DEST_PATH_IMAGE002
的待聚类数据对象
Figure 943111DEST_PATH_IMAGE003
添加2个数值型属性值
Figure 800209DEST_PATH_IMAGE004
。其中
Figure 722532DEST_PATH_IMAGE004
是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到
Figure 117741DEST_PATH_IMAGE001
Figure 197692DEST_PATH_IMAGE005
是该待聚类数据对象的权重,其值均设定为1;
步骤2、建立一个
Figure 285734DEST_PATH_IMAGE006
列的数组
Figure 17247DEST_PATH_IMAGE008
,其初始值全取值为0,用于保存聚类处理过程;
步骤3、数据对象分组。将所有数据对象随机均分为
Figure 686125DEST_PATH_IMAGE009
组,每组包含
Figure 945068DEST_PATH_IMAGE010
=个数据对象(若不能均分,则最后一组数据对象数目等于
Figure 967568DEST_PATH_IMAGE012
为取整运算);
步骤4、计算每组内
Figure 186377DEST_PATH_IMAGE010
个数据对象之间的相似度矩阵
Figure 428002DEST_PATH_IMAGE014
Figure 968705DEST_PATH_IMAGE015
Figure 877755DEST_PATH_IMAGE016
Figure 478501DEST_PATH_IMAGE017
。不同的数据
Figure DEST_PATH_IMAGE032
之间相似度
Figure DEST_PATH_IMAGE034
的度量取决于待聚类的数据对象的类别。如对于二维空间中的点,大多采用欧几里德欧氏距离度量任意两个对象之间的相似度;
步骤5、依据相似度矩阵
Figure 817395DEST_PATH_IMAGE014
,选择组内当前相似度最大的两个数据对象
Figure 315373DEST_PATH_IMAGE018
和数据对象
Figure 352599DEST_PATH_IMAGE019
(若非唯一,则任选其一)合并生成新数据对象
Figure 568817DEST_PATH_IMAGE020
,从本组中删除数据对象
Figure 451322DEST_PATH_IMAGE018
和数据对象
Figure 334964DEST_PATH_IMAGE019
;在数组
Figure 11933DEST_PATH_IMAGE008
中保存合并生成记录,如此操作使组内数据对象数目减少1;
步骤6、重复上述步骤4、步骤5,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;
步骤7、令
Figure 449868DEST_PATH_IMAGE009
=
Figure 136064DEST_PATH_IMAGE021
Figure 874213DEST_PATH_IMAGE013
为取整运算,若满足
Figure 987663DEST_PATH_IMAGE022
,则重复执行上述步骤3、步骤4、步骤5、步骤6,否则执行步骤8;
步骤8、将剩余所有数据对象作为一组,重复执行上述步骤4、步骤5,直至组内只剩1个数据对象,该数据对象的属性值即为所有待分析数据对象属性值的算数平均值,其权重即为待分析数据对象的数目
步骤9、查询
Figure 668360DEST_PATH_IMAGE008
中的查询合并记录,获取聚类处理结果。
Figure 995436DEST_PATH_IMAGE008
中最后一条记录表明了将所有聚类数据划分为2类的结果,包含2个子类数据对象的属性值的算数平均值和类内对象数目。同理推出,查询
Figure 279787DEST_PATH_IMAGE008
中的合并记录以获得任意聚类数的聚类结果,并可得出各个子类的所含具体数据对象及各个子类的质心(所含数据对象属性值的算数平均值)。
上述步骤5中,所述根据数据对象
Figure 957893DEST_PATH_IMAGE018
和数据对象
Figure 985892DEST_PATH_IMAGE019
合并生成新数据对象
Figure 167474DEST_PATH_IMAGE020
的具体方法是: 
Figure 153885DEST_PATH_IMAGE023
                          (1)
          (2)
Figure 619818DEST_PATH_IMAGE025
                             (3)
上式(3)中的
Figure 655907DEST_PATH_IMAGE026
,是所有数据对象的标识值中的最大值。
上述步骤5中,所述在
Figure 813219DEST_PATH_IMAGE008
中保存合并生成记录的具体方法是:在
Figure 934759DEST_PATH_IMAGE008
的第1个取值全0的行(记为第
Figure 304560DEST_PATH_IMAGE027
行)的第一列赋值为
Figure 991894DEST_PATH_IMAGE028
,即令
Figure 788948DEST_PATH_IMAGE029
,其后各列依次记录数据对象
Figure 397784DEST_PATH_IMAGE018
和数据对象。显然,对于
Figure 847537DEST_PATH_IMAGE008
中的任一行记录,表明了唯一标识为
Figure 815493DEST_PATH_IMAGE035
的数据对象由唯一标识分别为
Figure 442784DEST_PATH_IMAGE037
的两个数据对象合并生成,且这两个数据对象相似度高,可作为一个子类,其质心即为数据对象唯一标识为
Figure 154388DEST_PATH_IMAGE035
的属性值。                                                  
本发明计算简便、速度快,实用性强,具有良好的数据概况分析能力,适于海量数据的快速聚类处理。对于用户任意给定的聚类数
Figure DEST_PATH_IMAGE038
,可在上述步骤8时,执行到组内数据对象个数为
Figure 816313DEST_PATH_IMAGE038
时终止。本发明方法不但可以方便地得出查询子类的具体数据对象构成、获取各个子类内所含具体数据对象数目和子类的质心,还可以获取各个子类内数据构成的分布特征(也即对子类进一步分类后,类内所含具体数据对象构成,类内的数据对象数目和类的质心)。 

Claims (3)

1.一种计算机快速海量数据聚类处理方法,其特征是,所述方法以计算机作为数据处理、存储的工具,处理时,计算机首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果,所述方法包括以下步骤:
a.数据对象预处理
对所有数目为                                                
Figure 875856DEST_PATH_IMAGE001
的待分析数据对象进行预处理,预处理的具体方法是:对于任一给定数据维度是
Figure 937353DEST_PATH_IMAGE002
的待聚类数据对象
Figure 752863DEST_PATH_IMAGE003
添加2个数值型属性值
Figure 165389DEST_PATH_IMAGE004
Figure 193388DEST_PATH_IMAGE005
,其中
Figure 906129DEST_PATH_IMAGE004
是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到
Figure 95802DEST_PATH_IMAGE001
Figure 995625DEST_PATH_IMAGE005
是该待聚类数据对象的权重,其值均设定为1;
b.建立一个
Figure 624053DEST_PATH_IMAGE006
Figure 925721DEST_PATH_IMAGE007
列的数组,其初始值全取值为0,用于保存聚类处理过程;
c.数据对象分组
将所有数据对象随机均分为组,每组包含=
Figure 464970DEST_PATH_IMAGE011
个数据对象,若不能均分,则最后一组数据对象数目等于
Figure 793183DEST_PATH_IMAGE012
Figure 402019DEST_PATH_IMAGE013
为取整运算;
d.计算每组内
Figure 575511DEST_PATH_IMAGE010
个数据对象之间的相似度矩阵
Figure 117351DEST_PATH_IMAGE014
Figure 85307DEST_PATH_IMAGE015
Figure 181439DEST_PATH_IMAGE016
e.依据相似度矩阵
Figure 289389DEST_PATH_IMAGE014
,选择组内当前相似度最大的两个数据对象
Figure 428246DEST_PATH_IMAGE018
和数据对象
Figure 11674DEST_PATH_IMAGE019
;若非唯一,则任选其一,合并生成新数据对象
Figure 792549DEST_PATH_IMAGE020
,从本组中删除数据对象
Figure 777822DEST_PATH_IMAGE018
和数据对象
Figure 87581DEST_PATH_IMAGE019
;在数组
Figure 689463DEST_PATH_IMAGE008
中保存合并生成记录;
f.重复上述步骤d、步骤e,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;
g.令
Figure 742870DEST_PATH_IMAGE009
=
Figure 582650DEST_PATH_IMAGE021
Figure 63310DEST_PATH_IMAGE013
为取整运算,若满足,则重复执行上述步骤c、步骤d、步骤e、步骤f,否则执行步骤h;
h、将剩余所有数据对象作为一组,重复执行上述步骤d、步骤e,直至组内只剩1个数据对象;
i.查询
Figure 744007DEST_PATH_IMAGE008
中的查询合并记录,获取聚类处理结果
Figure 438294DEST_PATH_IMAGE008
中最后一条记录表明了将所有聚类数据划分为2类的结果,包含2个子类数据对象的属性值的算数平均值和类内对象数目。
2.根据权利要求1所述的计算机快速海量数据聚类处理方法,其特征是,步骤e中所述数据对象
Figure 621013DEST_PATH_IMAGE023
和数据对象
Figure 666330DEST_PATH_IMAGE024
合并生成新数据对象
Figure 61539DEST_PATH_IMAGE020
的具体方法是:
Figure 141490DEST_PATH_IMAGE025
Figure 229532DEST_PATH_IMAGE026
  ,               
Figure 496565DEST_PATH_IMAGE027
式中,
Figure 226624DEST_PATH_IMAGE028
是所有数据对象的标识值中的最大值。
3.根据权利要求2所述的计算机快速海量数据聚类处理方法,其特征是,步骤e中所述在
Figure 629924DEST_PATH_IMAGE008
中保存合并生成记录的具体方法是:在的第1个取值全0的行、记为第
Figure 174354DEST_PATH_IMAGE029
行的第一列赋值为
Figure 911366DEST_PATH_IMAGE030
,即令
Figure 434751DEST_PATH_IMAGE031
,其后各列依次记录数据对象和数据对象
Figure 371800DEST_PATH_IMAGE033
CN201310748302.2A 2013-12-31 2013-12-31 一种计算机快速海量数据聚类处理方法 Expired - Fee Related CN103744935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310748302.2A CN103744935B (zh) 2013-12-31 2013-12-31 一种计算机快速海量数据聚类处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310748302.2A CN103744935B (zh) 2013-12-31 2013-12-31 一种计算机快速海量数据聚类处理方法

Publications (2)

Publication Number Publication Date
CN103744935A true CN103744935A (zh) 2014-04-23
CN103744935B CN103744935B (zh) 2017-06-06

Family

ID=50501953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310748302.2A Expired - Fee Related CN103744935B (zh) 2013-12-31 2013-12-31 一种计算机快速海量数据聚类处理方法

Country Status (1)

Country Link
CN (1) CN103744935B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143137A (zh) * 2014-07-29 2014-11-12 青岛海信医疗设备股份有限公司 医疗冷柜系统中样品的存储方法
CN104462585A (zh) * 2014-12-29 2015-03-25 芜湖乐锐思信息咨询有限公司 一种大数据分类系统
WO2016061911A1 (zh) * 2014-10-20 2016-04-28 浪潮电子信息产业股份有限公司 一种基于mic实现聚类算法的方法及装置
CN106650948A (zh) * 2016-12-09 2017-05-10 曙光信息产业(北京)有限公司 一种机器学习中避免大数据冗余的方法
CN107784015A (zh) * 2016-08-30 2018-03-09 中国电力科学研究院 一种基于电力系统在线历史数据的数据约简方法
CN108268620A (zh) * 2018-01-08 2018-07-10 南京邮电大学 一种基于hadoop数据挖掘的文档分类方法
CN110516713A (zh) * 2019-08-02 2019-11-29 阿里巴巴集团控股有限公司 一种目标群体识别方法、装置及设备
CN110659290A (zh) * 2019-09-20 2020-01-07 北京中科寒武纪科技有限公司 数据处理方法及装置以及相关产品
CN110679114A (zh) * 2017-05-24 2020-01-10 国际商业机器公司 一种估计数据对象可删除性的方法
CN110781247A (zh) * 2019-09-23 2020-02-11 华为技术有限公司 向量聚类方法、装置及存储介质
CN110928957A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 数据聚类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989289A (zh) * 2009-08-06 2011-03-23 富士通株式会社 数据聚类方法和装置
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989289A (zh) * 2009-08-06 2011-03-23 富士通株式会社 数据聚类方法和装置
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姚清耕: "基于向量空间模型的中文文本聚类方法的研究", 《中国优秀硕士学位论文数据库信息科技辑》 *
王振宇等: "基于多向量和二次聚类的话题检测", 《计算机工程与设计》 *
陈安等: "电子商务中交易数据库的二次聚类算法", 《计算机科学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143137A (zh) * 2014-07-29 2014-11-12 青岛海信医疗设备股份有限公司 医疗冷柜系统中样品的存储方法
CN104143137B (zh) * 2014-07-29 2017-07-07 青岛海信医疗设备股份有限公司 医疗冷柜系统中样品的存储方法
WO2016061911A1 (zh) * 2014-10-20 2016-04-28 浪潮电子信息产业股份有限公司 一种基于mic实现聚类算法的方法及装置
CN104462585A (zh) * 2014-12-29 2015-03-25 芜湖乐锐思信息咨询有限公司 一种大数据分类系统
CN107784015A (zh) * 2016-08-30 2018-03-09 中国电力科学研究院 一种基于电力系统在线历史数据的数据约简方法
CN106650948A (zh) * 2016-12-09 2017-05-10 曙光信息产业(北京)有限公司 一种机器学习中避免大数据冗余的方法
CN110679114A (zh) * 2017-05-24 2020-01-10 国际商业机器公司 一种估计数据对象可删除性的方法
CN110679114B (zh) * 2017-05-24 2021-08-06 国际商业机器公司 一种估计数据对象可删除性的方法
CN108268620A (zh) * 2018-01-08 2018-07-10 南京邮电大学 一种基于hadoop数据挖掘的文档分类方法
CN110928957A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 数据聚类方法及装置
CN110516713A (zh) * 2019-08-02 2019-11-29 阿里巴巴集团控股有限公司 一种目标群体识别方法、装置及设备
CN110659290A (zh) * 2019-09-20 2020-01-07 北京中科寒武纪科技有限公司 数据处理方法及装置以及相关产品
CN110781247A (zh) * 2019-09-23 2020-02-11 华为技术有限公司 向量聚类方法、装置及存储介质
CN110781247B (zh) * 2019-09-23 2021-11-26 华为技术有限公司 向量聚类方法、装置及存储介质

Also Published As

Publication number Publication date
CN103744935B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN103744935A (zh) 一种计算机快速海量数据聚类处理方法
Zhang et al. Shellnet: Efficient point cloud convolutional neural networks using concentric shells statistics
Markonis et al. Using MapReduce for large-scale medical image analysis
CN110472652B (zh) 基于语义引导的少量样本分类方法
Kumar et al. Canopy clustering: a review on pre-clustering approach to K-Means clustering
CN106778079A (zh) 一种基于MapReduce的DNA序列k‑mer频次统计方法
Nasridinov et al. Decision tree construction on GPU: ubiquitous parallel computing approach
CN104020983A (zh) 一种基于OpenCL的KNN-GPU加速方法
CN102243641A (zh) 大规模数据的高效聚类方法
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN104182571A (zh) 基于Delaunay和GPU的Kriging插值方法
CN103198489B (zh) 基于显著性密度与边缘响应的显著物体自动检测方法
Hu et al. Parallel clustering of big data of spatio-temporal trajectory
Li et al. A new extracting algorithm of k nearest neighbors searching for point clouds
CN104182208A (zh) 利用破解规则破解密码的方法及系统
CN105760478A (zh) 一种基于机器学习的大规模分布式的数据聚类方法
CN109145111B (zh) 一种基于机器学习的多特征文本数据相似度计算方法
CN108805886B (zh) 一种多融合物理签名的持久性聚类分割方法
CN111062418A (zh) 一种基于最小生成树的无参数化聚类算法及系统
CN109740421A (zh) 一种基于形状的零件分类方法
AU2020103440A4 (en) A method for optimizing the convergence performance of data learning with minimal computational steps
Gandhi et al. Analysis and implementation of modified K-medoids algorithm to increase scalability and efficiency for large dataset
CN113313213A (zh) 一种加速目标检测算法训练的数据集处理方法
CN108090514B (zh) 基于两阶段密度聚类的红外图像识别方法
CN106354784A (zh) 基于降维分组的大数据聚类优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606

Termination date: 20211231

CF01 Termination of patent right due to non-payment of annual fee