CN103744899A - 一种基于分布式环境的海量数据快速分类方法 - Google Patents

一种基于分布式环境的海量数据快速分类方法 Download PDF

Info

Publication number
CN103744899A
CN103744899A CN201310725398.0A CN201310725398A CN103744899A CN 103744899 A CN103744899 A CN 103744899A CN 201310725398 A CN201310725398 A CN 201310725398A CN 103744899 A CN103744899 A CN 103744899A
Authority
CN
China
Prior art keywords
node
classification
distance
samples
mass data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310725398.0A
Other languages
English (en)
Inventor
付兴旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310725398.0A priority Critical patent/CN103744899A/zh
Publication of CN103744899A publication Critical patent/CN103744899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于分布式环境的海量数据快速分类方法,从训练、分类及分布式部署三个模块进行开发实施。该一种基于分布式环境的海量数据快速分类方法和现有技术相比,大大降低算法的复杂度,可以在损失很小准确率甚至不减少准确率的情况下,大大减少时间消耗;实用性强,适用范围广泛,易于推广。

Description

一种基于分布式环境的海量数据快速分类方法
技术领域
本发明涉及计算机应用技术领域,具体的说是一种基于分布式环境的海量数据快速分类方法。
背景技术
在信息数据爆发式发展的今天,人们更希望用计算机帮助分析数据和理解数据,帮助他们基于丰富的数据做出决策。于是,数据挖掘——从大量数据中以非平凡的发现有用的知识就成为一种自然的需求。正是这种需求引起人们的关注,导致了数据挖掘研究的蓬勃发展。互联网及科研设备的不断发展,越来越多的海量高维数据不断产生,如果对这些数据进行挖掘也是一个巨大的挑战。分类问题作为数据挖掘中一个最重要问题,面临的问题和挑战也自然更多。针对此问题,本发明提出了一种分布式环境下的海量高维数据的快速分类方法,具有较高的参考价值和实现意义。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于分布式环境的海量数据快速分类方法。
本发明的技术方案是按以下方式实现的,该一种基于分布式环境的海量数据快速分类方法,其具体分类步骤包括:
一、训练阶段;
二、分类阶段,该阶段的详细过程为:
该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树;
对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点;
分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果;
在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。
所述距离归一化公式为:                                                
Figure 2013107253980100002DEST_PATH_IMAGE002
,该算法的复杂度为
Figure 2013107253980100002DEST_PATH_IMAGE004
各个节点之间的通信通过socket完成,各个节点之间可以是异构的。
在进行模板匹配时,距离的定义采用欧氏距离、曼哈顿距离或余弦距离。
本发明与现有技术相比所产生的有益效果是:
本发明的一种基于分布式环境的海量数据快速分类方法通过降低算法的复杂度,实现实时的对海量高维数据的快速分类;该方法在损失很小分类准确率甚至不降低分类准确率的情况下,可以将海量样本的分类时间降低到非常低的水平,大大减少时间消耗;该算法可以大量应用于互联网及科研数据的分类问题的实际应用中;实用性强,适用范围广泛,易于推广。
附图说明
附图1是本发明的分类树及分布式部署示意图。
附图2是本发明的新样本分类示意图。
具体实施方式
下面结合附图对本发明的一种基于分布式环境的海量数据快速分类方法作以下详细说明。
如附图1、图2所示,本发明提供一种基于分布式环境的海量数据快速分类方法,和现有的分类算法类似,本方法设计的方法分为训练和分类两个阶段:
一、训练。
本方法分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的一些训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本。
对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树。
其中,树的高度不宜太大,同时N的取值也不宜太大。
二、分类。
对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点。
分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果。其中距离归一化公式为:
Figure 197293DEST_PATH_IMAGE002
,该算法的复杂度为
Figure 114433DEST_PATH_IMAGE004
,相对于普通模板匹配(复杂度
Figure 2013107253980100002DEST_PATH_IMAGE006
)方法,算法复杂度大大降低,因此需要的计算时间也会大大减少。
由于该算法在搜寻最优匹配叶子结点时的路径是唯一的,因此可以将不同的子树放在不同的分布式节点上,由主节点进行任务的统一调度与分布。
本转移设计的算法,主要从训练、分类及分布式部署三个模块进行开发实施。三个模块为保证流程的一致性及中间结果的可复用性,建议采取采用统一的开发编程语言。
各个节点之间的通信通过socket完成,因此各个节点之间可以是异构的。
分布式部署需要在训练结束之后,在具体样本分类时,通过主节点进行任务的分配。此外,主节点可根据一段时间每个子节点的表现及任务的完成数量等指标对节点进行任务的重新分配。
本发明中使用的基本算法可以重新编写,也可以采用现有程序包。
在进行模板匹配时,距离的定义是灵活的,可以采用欧氏距离、曼哈顿距离、余弦距离等。考虑到余弦距离计算时更简单且快速,建议使用余弦距离。
本发明通过降低算法的复杂度,该方法可以实现实时的对海量高维数据的快速分类。该方法在损失很小分类准确率甚至不降低分类准确率的情况下,可以将海量样本的分类时间降低到非常低的水平。该算法可以大量应用于互联网及科研数据的分类问题的实际应用中。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于分布式环境的海量数据快速分类方法,其特征在于其具体分类步骤包括:
一、训练阶段;
二、分类阶段,该阶段的详细过程为:
该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树;
对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点;
分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果;
在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。
2.根据权利要求1所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:所述距离归一化公式为:                                                 ,该算法的复杂度为
Figure 2013107253980100001DEST_PATH_IMAGE004
3.根据权利要求2所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:各个节点之间的通信通过socket完成,各个节点之间可以是异构的。
4.根据权利要求1~3中任一所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:在进行模板匹配时,距离的定义采用欧氏距离、曼哈顿距离或余弦距离。
CN201310725398.0A 2013-12-25 2013-12-25 一种基于分布式环境的海量数据快速分类方法 Pending CN103744899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310725398.0A CN103744899A (zh) 2013-12-25 2013-12-25 一种基于分布式环境的海量数据快速分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310725398.0A CN103744899A (zh) 2013-12-25 2013-12-25 一种基于分布式环境的海量数据快速分类方法

Publications (1)

Publication Number Publication Date
CN103744899A true CN103744899A (zh) 2014-04-23

Family

ID=50501917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310725398.0A Pending CN103744899A (zh) 2013-12-25 2013-12-25 一种基于分布式环境的海量数据快速分类方法

Country Status (1)

Country Link
CN (1) CN103744899A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615752A (zh) * 2015-02-12 2015-05-13 北京嘀嘀无限科技发展有限公司 信息分类方法与系统
WO2018224005A1 (zh) * 2017-06-08 2018-12-13 杭州海康威视数字技术股份有限公司 一种程序包部署方法、电子设备及分布式系统
CN113347013A (zh) * 2020-02-18 2021-09-03 广东博智林机器人有限公司 网络内根节点的故障恢复方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615752A (zh) * 2015-02-12 2015-05-13 北京嘀嘀无限科技发展有限公司 信息分类方法与系统
WO2018224005A1 (zh) * 2017-06-08 2018-12-13 杭州海康威视数字技术股份有限公司 一种程序包部署方法、电子设备及分布式系统
CN113347013A (zh) * 2020-02-18 2021-09-03 广东博智林机器人有限公司 网络内根节点的故障恢复方法和装置

Similar Documents

Publication Publication Date Title
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN107291847A (zh) 一种基于MapReduce的大规模数据分布式聚类处理方法
CN102915365A (zh) 基于Hadoop的分布式搜索引擎构建方法
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN105912666A (zh) 一种面向云平台的混合结构数据高性能存储、查询方法
CN103279551A (zh) 一种基于欧氏距离的高维数据准确近邻快速检索方法
CN103440246A (zh) 用于MapReduce的中间结果数据排序方法及系统
CN107623639A (zh) 基于emd距离的数据流分布式相似性连接方法
CN105515997A (zh) 基于bf_tcam实现零范围扩张的高效范围匹配方法
CN103744899A (zh) 一种基于分布式环境的海量数据快速分类方法
Arora et al. Big data: A review of analytics methods & techniques
CN103065321B (zh) 一种图像特征点匹配模块的面向对象系统框架建立方法
CN105335499B (zh) 一种基于分布-收敛模型的文献聚类方法
CN106886613A (zh) 一种并行化的文本聚类方法
Hu et al. Parallel clustering of big data of spatio-temporal trajectory
CN107590225A (zh) 一种基于分布式数据挖掘算法的可视化管理系统
CN103853844A (zh) 基于Hadoop的关系表非冗余键集合识别方法
CN110119391A (zh) 一种基于服务数据的数据仓库创建方法及数据仓库
CN103279328A (zh) 基于Haloop的BlogRank算法并行化处理的构建方法
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
Cuzzocrea et al. Data science and distributed intelligence: Recent developments and future insights
CN106897450A (zh) 一种基于HDFS海量数据快速导入HBase的方法
Li Construction of an interactive sharing platform for competitive intelligence data of marine resources under the background of intelligence construction
CN107992590B (zh) 一种有利于信息比对的大数据系统
CN105630896A (zh) 一种快速导入海量数据的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140423

WD01 Invention patent application deemed withdrawn after publication