CN103744899A

CN103744899A - 一种基于分布式环境的海量数据快速分类方法

Info

Publication number: CN103744899A
Application number: CN201310725398.0A
Authority: CN
Inventors: 付兴旺
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2014-04-23

Abstract

本发明提供一种基于分布式环境的海量数据快速分类方法，从训练、分类及分布式部署三个模块进行开发实施。该一种基于分布式环境的海量数据快速分类方法和现有技术相比，大大降低算法的复杂度，可以在损失很小准确率甚至不减少准确率的情况下，大大减少时间消耗；实用性强，适用范围广泛，易于推广。

Description

一种基于分布式环境的海量数据快速分类方法

技术领域

本发明涉及计算机应用技术领域，具体的说是一种基于分布式环境的海量数据快速分类方法。

背景技术

在信息数据爆发式发展的今天，人们更希望用计算机帮助分析数据和理解数据，帮助他们基于丰富的数据做出决策。于是，数据挖掘——从大量数据中以非平凡的发现有用的知识就成为一种自然的需求。正是这种需求引起人们的关注，导致了数据挖掘研究的蓬勃发展。互联网及科研设备的不断发展，越来越多的海量高维数据不断产生，如果对这些数据进行挖掘也是一个巨大的挑战。分类问题作为数据挖掘中一个最重要问题，面临的问题和挑战也自然更多。针对此问题，本发明提出了一种分布式环境下的海量高维数据的快速分类方法，具有较高的参考价值和实现意义。

发明内容

本发明的技术任务是解决现有技术的不足，提供一种基于分布式环境的海量数据快速分类方法。

本发明的技术方案是按以下方式实现的，该一种基于分布式环境的海量数据快速分类方法，其具体分类步骤包括：

一、训练阶段；

二、分类阶段，该阶段的详细过程为：

该分类阶段的目的是形成一颗分类k叉树，树中的叶子结点对应数量相对较少的训练样本，而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本；对于每个结点，如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类，形成k个簇，即对应该结点的k个子树；

对于新的分类样本，首先对根节点下的子树计算距离，计算方法是与该结点对应的均值样本计算距离，选择其中距离最小的一颗子树迭代此过程，直至达到某个叶子结点；

分类样本和叶子结点中的所有训练样本，计算距离，然后将距离归一化之后作为权重，进行分类投票，以投票最高的子类作为该分类样本的分类结果；

在具体样本分类时，通过主节点进行任务的分配，此外，主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。

所述距离归一化公式为:

Figure 2013107253980100002DEST_PATH_IMAGE002

，该算法的复杂度为

Figure 2013107253980100002DEST_PATH_IMAGE004

。

各个节点之间的通信通过socket完成，各个节点之间可以是异构的。

在进行模板匹配时，距离的定义采用欧氏距离、曼哈顿距离或余弦距离。

本发明与现有技术相比所产生的有益效果是：

本发明的一种基于分布式环境的海量数据快速分类方法通过降低算法的复杂度，实现实时的对海量高维数据的快速分类；该方法在损失很小分类准确率甚至不降低分类准确率的情况下，可以将海量样本的分类时间降低到非常低的水平，大大减少时间消耗；该算法可以大量应用于互联网及科研数据的分类问题的实际应用中；实用性强，适用范围广泛，易于推广。

附图说明

附图1是本发明的分类树及分布式部署示意图。

附图2是本发明的新样本分类示意图。

具体实施方式

下面结合附图对本发明的一种基于分布式环境的海量数据快速分类方法作以下详细说明。

如附图1、图2所示，本发明提供一种基于分布式环境的海量数据快速分类方法，和现有的分类算法类似，本方法设计的方法分为训练和分类两个阶段：

一、训练。

本方法分类阶段的目的是形成一颗分类k叉树，树中的叶子结点对应数量相对较少的一些训练样本，而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本。

对于每个结点，如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类，形成k个簇，即对应该结点的k个子树。

其中，树的高度不宜太大，同时N的取值也不宜太大。

二、分类。

对于新的分类样本，首先对根节点下的子树计算距离，计算方法是与该结点对应的均值样本计算距离，选择其中距离最小的一颗子树迭代此过程，直至达到某个叶子结点。

分类样本和叶子结点中的所有训练样本，计算距离，然后将距离归一化之后作为权重，进行分类投票，以投票最高的子类作为该分类样本的分类结果。其中距离归一化公式为:

，该算法的复杂度为

，相对于普通模板匹配（复杂度

Figure 2013107253980100002DEST_PATH_IMAGE006

）方法，算法复杂度大大降低，因此需要的计算时间也会大大减少。

由于该算法在搜寻最优匹配叶子结点时的路径是唯一的，因此可以将不同的子树放在不同的分布式节点上，由主节点进行任务的统一调度与分布。

本转移设计的算法，主要从训练、分类及分布式部署三个模块进行开发实施。三个模块为保证流程的一致性及中间结果的可复用性，建议采取采用统一的开发编程语言。

各个节点之间的通信通过socket完成，因此各个节点之间可以是异构的。

分布式部署需要在训练结束之后，在具体样本分类时，通过主节点进行任务的分配。此外，主节点可根据一段时间每个子节点的表现及任务的完成数量等指标对节点进行任务的重新分配。

本发明中使用的基本算法可以重新编写，也可以采用现有程序包。

在进行模板匹配时，距离的定义是灵活的，可以采用欧氏距离、曼哈顿距离、余弦距离等。考虑到余弦距离计算时更简单且快速，建议使用余弦距离。

本发明通过降低算法的复杂度，该方法可以实现实时的对海量高维数据的快速分类。该方法在损失很小分类准确率甚至不降低分类准确率的情况下，可以将海量样本的分类时间降低到非常低的水平。该算法可以大量应用于互联网及科研数据的分类问题的实际应用中。

以上所述仅为本发明的实施例而已，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式环境的海量数据快速分类方法，其特征在于其具体分类步骤包括：

一、训练阶段；

二、分类阶段，该阶段的详细过程为：

2.根据权利要求1所述的一种基于分布式环境的海量数据快速分类方法，其特征在于：所述距离归一化公式为: ，该算法的复杂度为

Figure 2013107253980100001DEST_PATH_IMAGE004

。

3.根据权利要求2所述的一种基于分布式环境的海量数据快速分类方法，其特征在于：各个节点之间的通信通过socket完成，各个节点之间可以是异构的。

4.根据权利要求1～3中任一所述的一种基于分布式环境的海量数据快速分类方法，其特征在于：在进行模板匹配时，距离的定义采用欧氏距离、曼哈顿距离或余弦距离。