CN103744899A - 一种基于分布式环境的海量数据快速分类方法 - Google Patents
一种基于分布式环境的海量数据快速分类方法 Download PDFInfo
- Publication number
- CN103744899A CN103744899A CN201310725398.0A CN201310725398A CN103744899A CN 103744899 A CN103744899 A CN 103744899A CN 201310725398 A CN201310725398 A CN 201310725398A CN 103744899 A CN103744899 A CN 103744899A
- Authority
- CN
- China
- Prior art keywords
- node
- classification
- distance
- samples
- mass data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于分布式环境的海量数据快速分类方法,从训练、分类及分布式部署三个模块进行开发实施。该一种基于分布式环境的海量数据快速分类方法和现有技术相比,大大降低算法的复杂度,可以在损失很小准确率甚至不减少准确率的情况下,大大减少时间消耗;实用性强,适用范围广泛,易于推广。
Description
技术领域
本发明涉及计算机应用技术领域,具体的说是一种基于分布式环境的海量数据快速分类方法。
背景技术
在信息数据爆发式发展的今天,人们更希望用计算机帮助分析数据和理解数据,帮助他们基于丰富的数据做出决策。于是,数据挖掘——从大量数据中以非平凡的发现有用的知识就成为一种自然的需求。正是这种需求引起人们的关注,导致了数据挖掘研究的蓬勃发展。互联网及科研设备的不断发展,越来越多的海量高维数据不断产生,如果对这些数据进行挖掘也是一个巨大的挑战。分类问题作为数据挖掘中一个最重要问题,面临的问题和挑战也自然更多。针对此问题,本发明提出了一种分布式环境下的海量高维数据的快速分类方法,具有较高的参考价值和实现意义。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于分布式环境的海量数据快速分类方法。
本发明的技术方案是按以下方式实现的,该一种基于分布式环境的海量数据快速分类方法,其具体分类步骤包括:
一、训练阶段;
二、分类阶段,该阶段的详细过程为:
该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树;
对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点;
分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果;
在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。
各个节点之间的通信通过socket完成,各个节点之间可以是异构的。
在进行模板匹配时,距离的定义采用欧氏距离、曼哈顿距离或余弦距离。
本发明与现有技术相比所产生的有益效果是:
本发明的一种基于分布式环境的海量数据快速分类方法通过降低算法的复杂度,实现实时的对海量高维数据的快速分类;该方法在损失很小分类准确率甚至不降低分类准确率的情况下,可以将海量样本的分类时间降低到非常低的水平,大大减少时间消耗;该算法可以大量应用于互联网及科研数据的分类问题的实际应用中;实用性强,适用范围广泛,易于推广。
附图说明
附图1是本发明的分类树及分布式部署示意图。
附图2是本发明的新样本分类示意图。
具体实施方式
下面结合附图对本发明的一种基于分布式环境的海量数据快速分类方法作以下详细说明。
如附图1、图2所示,本发明提供一种基于分布式环境的海量数据快速分类方法,和现有的分类算法类似,本方法设计的方法分为训练和分类两个阶段:
一、训练。
本方法分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的一些训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本。
对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树。
其中,树的高度不宜太大,同时N的取值也不宜太大。
二、分类。
对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点。
分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果。其中距离归一化公式为:,该算法的复杂度为,相对于普通模板匹配(复杂度)方法,算法复杂度大大降低,因此需要的计算时间也会大大减少。
由于该算法在搜寻最优匹配叶子结点时的路径是唯一的,因此可以将不同的子树放在不同的分布式节点上,由主节点进行任务的统一调度与分布。
本转移设计的算法,主要从训练、分类及分布式部署三个模块进行开发实施。三个模块为保证流程的一致性及中间结果的可复用性,建议采取采用统一的开发编程语言。
各个节点之间的通信通过socket完成,因此各个节点之间可以是异构的。
分布式部署需要在训练结束之后,在具体样本分类时,通过主节点进行任务的分配。此外,主节点可根据一段时间每个子节点的表现及任务的完成数量等指标对节点进行任务的重新分配。
本发明中使用的基本算法可以重新编写,也可以采用现有程序包。
在进行模板匹配时,距离的定义是灵活的,可以采用欧氏距离、曼哈顿距离、余弦距离等。考虑到余弦距离计算时更简单且快速,建议使用余弦距离。
本发明通过降低算法的复杂度,该方法可以实现实时的对海量高维数据的快速分类。该方法在损失很小分类准确率甚至不降低分类准确率的情况下,可以将海量样本的分类时间降低到非常低的水平。该算法可以大量应用于互联网及科研数据的分类问题的实际应用中。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于分布式环境的海量数据快速分类方法,其特征在于其具体分类步骤包括:
一、训练阶段;
二、分类阶段,该阶段的详细过程为:
该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树;
对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点;
分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果;
在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。
3.根据权利要求2所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:各个节点之间的通信通过socket完成,各个节点之间可以是异构的。
4.根据权利要求1~3中任一所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:在进行模板匹配时,距离的定义采用欧氏距离、曼哈顿距离或余弦距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310725398.0A CN103744899A (zh) | 2013-12-25 | 2013-12-25 | 一种基于分布式环境的海量数据快速分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310725398.0A CN103744899A (zh) | 2013-12-25 | 2013-12-25 | 一种基于分布式环境的海量数据快速分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103744899A true CN103744899A (zh) | 2014-04-23 |
Family
ID=50501917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310725398.0A Pending CN103744899A (zh) | 2013-12-25 | 2013-12-25 | 一种基于分布式环境的海量数据快速分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744899A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615752A (zh) * | 2015-02-12 | 2015-05-13 | 北京嘀嘀无限科技发展有限公司 | 信息分类方法与系统 |
WO2018224005A1 (zh) * | 2017-06-08 | 2018-12-13 | 杭州海康威视数字技术股份有限公司 | 一种程序包部署方法、电子设备及分布式系统 |
CN113347013A (zh) * | 2020-02-18 | 2021-09-03 | 广东博智林机器人有限公司 | 网络内根节点的故障恢复方法和装置 |
-
2013
- 2013-12-25 CN CN201310725398.0A patent/CN103744899A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615752A (zh) * | 2015-02-12 | 2015-05-13 | 北京嘀嘀无限科技发展有限公司 | 信息分类方法与系统 |
WO2018224005A1 (zh) * | 2017-06-08 | 2018-12-13 | 杭州海康威视数字技术股份有限公司 | 一种程序包部署方法、电子设备及分布式系统 |
CN113347013A (zh) * | 2020-02-18 | 2021-09-03 | 广东博智林机器人有限公司 | 网络内根节点的故障恢复方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | An incremental CFS algorithm for clustering large data in industrial internet of things | |
CN107291847A (zh) | 一种基于MapReduce的大规模数据分布式聚类处理方法 | |
CN102915365A (zh) | 基于Hadoop的分布式搜索引擎构建方法 | |
CN103679012A (zh) | 一种可移植可执行文件的聚类方法和装置 | |
CN105912666A (zh) | 一种面向云平台的混合结构数据高性能存储、查询方法 | |
CN103279551A (zh) | 一种基于欧氏距离的高维数据准确近邻快速检索方法 | |
CN103440246A (zh) | 用于MapReduce的中间结果数据排序方法及系统 | |
CN107623639A (zh) | 基于emd距离的数据流分布式相似性连接方法 | |
Li et al. | Challenges and trends of big data analytics | |
CN105515997A (zh) | 基于bf_tcam实现零范围扩张的高效范围匹配方法 | |
CN104536830A (zh) | 一种基于MapReduce的KNN文本分类方法 | |
CN105468756A (zh) | 一种海量数据处理系统的设计和实现方法 | |
CN103744899A (zh) | 一种基于分布式环境的海量数据快速分类方法 | |
CN102147813A (zh) | 一种电力云环境下基于k最近邻算法的文档自动分类方法 | |
CN104636814A (zh) | 一种随机森林模型的优化方法及系统 | |
Hu et al. | Parallel clustering of big data of spatio-temporal trajectory | |
CN103065321B (zh) | 一种图像特征点匹配模块的面向对象系统框架建立方法 | |
CN106886613A (zh) | 一种并行化的文本聚类方法 | |
CN107590225A (zh) | 一种基于分布式数据挖掘算法的可视化管理系统 | |
CN103853844A (zh) | 基于Hadoop的关系表非冗余键集合识别方法 | |
CN105335499A (zh) | 一种基于分布-收敛模型的文献聚类方法 | |
CN103279328A (zh) | 基于Haloop的BlogRank算法并行化处理的构建方法 | |
CN105512270A (zh) | 一种确定相关对象的方法和装置 | |
CN105354243B (zh) | 基于归并聚类的并行化频繁概率子图搜索方法 | |
CN102637200B (zh) | 一种使多级关联数据分配到集群相同节点的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140423 |
|
WD01 | Invention patent application deemed withdrawn after publication |