CN102915347A

CN102915347A - 一种分布式数据流聚类方法及系统

Info

Publication number: CN102915347A
Application number: CN2012103652953A
Authority: CN
Inventors: 吴世忠; 曲武; 李世贤; 王君鹤; 偰赓; 陈巍
Original assignee: Beijing Venus Information Security Technology Co Ltd; China Information Technology Security Evaluation Center
Current assignee: Beijing Venus Information Security Technology Co Ltd; Beijing Venus Information Technology Co Ltd; China Information Technology Security Evaluation Center
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2013-02-06
Anticipated expiration: 2032-09-26
Also published as: CN102915347B

Abstract

本发明公开了一种分布式数据流聚类方法及系统，克服目前大多数的数据流聚类算法不能在分布式云环境下运行并不能轻易地进行扩展，运行时间效率较差的不足，该方法包括：对数据流进行概要处理，获得数据流的多个特征向量；利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇，并从中选取至少一个聚类簇作为候选聚类簇；周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。本申请的实施例基于位置敏感哈希的聚类算法保证了比现有技术具有更好的实时性能。

Description

一种分布式数据流聚类方法及系统

技术领域

本发明涉及一种数据流聚类技术，尤其涉及一种分布式数据流聚类方法及系统。

背景技术

近年来，随着计算机技术、网络技术在工业生产、信息处理等领域的广泛应用，数据已不仅仅拘泥于文件、数据库等传统的静态形式。一种连续、无界、不定速度的流式数据已经出现在越来越多的应用领域中。这些应用领域通常是多数据源的系统，例如入侵监测系统、电子商务、电信、分布式传感器网络、气象监测、科学数据实时分析以及点对点(P2P)计算等应用场景。在这些应用中，大量的高维数据以较高的速度流向数据收集中心，实时高效地聚类这类数据是一个非常有挑战性的任务。例如，网络入侵检测系统每秒以千兆字节(GB)的速度接收网络流量和系统日志。

通过有效的数据聚类算法，可以实时地从海量数据中挖掘异常模式。随着数据流速度和规模的提高，分布式数据流聚类算法由于其可扩展性和实时特性能够满足需求。

目前主流的分布式数据流聚类的基本框架是每个站点对各自的数据流进行聚类分析，及时得到局部聚类模型。然后传送各个站点间的聚类模型，最后通过分析处理得到全局聚类结果。

高效分布式数据流聚类算法，必须解决以下几个问题：

1)数据流可聚类成的簇的个数是在不断变化的，因此不能给定算法一个固定的值作为参数。

2)算法使用单遍扫描高维数据点形成聚类，无需遍历整个数据集。随着新的数据点到来，算法必须能够维持增量更新。

3)聚类高速、大量的数据流，需要高效的分布式聚类算法来降低通讯负担、存储和计算时间。

但是，目前的数据流聚类算法基本上是点对点(P2P)环境下实现的，不能够在分布式云环境下运行，也不能较轻易地进行扩展。而且，现有算法时间复杂度较高，不能够满足数据流环境下实时的要求。

发明内容

本发明所要解决的技术问题是克服目前大多数的数据流聚类算法不能在分布式云环境下运行并不能轻易地进行扩展，运行时间效率较差的不足。

为了解决上述技术问题，本发明提供了一种分布式数据流聚类方法，包括：

对数据流进行概要处理，获得数据流的多个特征向量；

利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇，并从中选取至少一个聚类簇作为候选聚类簇；

周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。

优选地，利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇，并从中选取至少一个聚类簇作为候选聚类簇，包括：

利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理，获得位置敏感哈希数据结构，得到位置敏感哈希映射值；

对所述位置敏感哈希映射值进行二次哈希，得到一维索引值，落入相应的哈希桶中；

使用Top-k算法从包含有至少一个特征向量的哈希桶中选取包含特征向量最多的前k个哈希桶作为所述候选聚类簇；所述k大于等于1。

优选地，利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理，包括：

采用至少一个位置敏感哈希函数族对所述多个特征向量进行所述哈希处理；

其中，每个所述位置敏感哈希函数族由从稳态分布位置敏感哈希函数族中以独立、一致随机的方式选择出的多个位置敏感哈希函数运算构成。

优选地，周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理，包括：

获得所述候选聚类簇各自的质心；

周期地计算所述新到的数据流的特征向量到所有质心的距离范数；

将所述新到的数据流的特征向量归到所述候选聚类簇的其中一个之中，或者为新到的数据流建立新的聚类簇。

优选地，获得所述候选聚类簇各自的质心，包括：

采用X-median算法获得所述候选聚类簇各自的质心。

优选地，将所述新到的数据流归到所述候选聚类簇的其中一个之中，或者为新到的数据流建立新的聚类簇，包括：

根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的候选聚类簇中，或者为所述新到的数据流的特征向量建立新的聚类簇。

优选地，根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的聚类簇中，或者为所述新到的数据流的特征向量建立新的聚类簇，包括：

所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离小于所述预设的距离阈值时，将所述新到的数据流的特征向量归到所述距离最小的质心所在的聚类簇中，否则为所述新到的数据流的特征向量建立所述新的聚类簇。

本发明还提供了一种分布式数据流聚类系统，包括：

在线组件，配置为对数据流进行概要处理，获得数据流的多个特征向量，利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇，并从中选择至少一个聚类簇作为候选聚类簇；

离线组件，配置为周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。

优选地，所述在线组件包括：

概要处理模块，配置为对数据流进行概要处理，获得数据流的多个特征向量；

一次哈希模块，配置为利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理，获得位置敏感哈希数据结构，得到位置敏感哈希映射值；

二次哈希模块，配置为对所述位置敏感哈希映射值进行二次哈希，得到一维索引值，落入相应的哈希桶中；

聚类簇选取模块，配置为使用Top-k算法从所有哈希桶中选取包含特征向量最多的前k个哈希桶作为所述候选聚类簇；所述k大于等于1。

优选地，所述一次哈希模块配置为采用至少一个位置敏感哈希函数族对所述多个特征向量进行所述哈希处理；其中，每个所述位置敏感哈希函数族由从稳态分布位置敏感哈希函数族中以独立、一致随机的方式选择出的多个位置敏感哈希函数运算构成。

优选地，所述离线组件包括：

质心获取模块，配置为获得所述候选聚类簇各自的质心；

计算模块，配置为周期地计算所述新到的数据流的特征向量到所有质心的距离范数；

聚类模块，配置为将所述新到的数据流的特征向量归到所述候选聚类簇的其中一个之中，或者为新到的数据流建立新的聚类簇。

优选地，所述质心获取模块配置为采用X-median算法获得所述候选聚类簇各自的质心。

优选地，所述聚类模块配置为根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的候选聚类簇中，或者为所述新到的数据流的特征向量建立新的聚类簇。

优选地，所述聚类模块包括：

判断单元，配置为对所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离与所述预设的距离阈值进行判断；

归位单元，配置为所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离小于所述预设的距离阈值时，将所述新到的数据流的特征向量归到所述距离最小的质心所在的聚类簇中；

新建单元，配置为所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离不小于所述预设的距离阈值时，为所述新到的数据流的特征向量建立所述新的聚类簇。

与现有技术相比，本申请的实施例从高速数据流环境中高效获得概要信息，使用这些概要信息进行分布式聚类。本申请的实施例与传统的数据流算法相比有以下有益效果：基于Map-Reduce分布式框架能够很大程度上提高数据流聚类的效率，使得该算法有较高性能和良好的可扩展性；基于位置敏感哈希(Locality Sensitive Hash，LSH)的聚类算法保证了比现有技术具有更好的实时性能。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本申请实施例的分布式数据流聚类方法的流程示意图。

图2为本申请实施例中LSH的构造示意图。

图3为本申请实施例的分布式数据流聚类系统的构造示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征在不相冲突前提下的相互结合，均在本发明的保护范围之内。

另外，在附图的流程图示出的内容可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

目前的聚类算法大体上分为两类，一类是划分聚类算法，另一类是层次聚类算法。划分聚类算法又可以进一步分为基于距离的和基于密度的方法。基于距离的方法主要是在聚类之前计算数据点之间的距离或数据点到簇质心的距离，主要有K-means算法、直方图相似算法(Similarity histogram-based)以及最大期望(Expectation maximization，EM)等算法。基于密度的方法主要有基于网格的聚类算法(Grid-based)、基于微簇的聚类算法(Micro-cluster-based)、核密度评估(Kernel density estimation)、小波密度评估算法(Wavelet density estimation)以及模糊聚类算法(Fuzzy clustering)等。以上这些算法主要是应用于静态数据集的聚类分析。

与静态数据不同，数据流被定义为只能以事先规定好的顺序读取一次的数据序列。随着数据流应用的产生和发展，数据流被认为是大量的、实时的、连续到达的、潜在无限的有序(到达时间有序或隐含时间戳)数据序列，这些数据或其摘要信息只能按照顺序存取并被读取一次或有限次。

与静态数据相比，数据流具有以下特点。

1)高速无限性。数据流通常是源源不断地快速产生，理论上其长度是无限的，在实际应用中远超过系统所能存储的范围，而传统数据库中的数据主要用于持久存储，其存储量和数据更新次数都相对有限。

2)不确定性。数据流产生的速度和间隔时间等统计特性事先难以确定，其产生顺序不受外界控制，数据流的产生速度很有可能超出系统所能接受并处理的限度，而传统数据库中的数据规模和处理能力等性能指标通常是已知的。

3)时变性。数据流随时间而变化，这将引起数据的统计特征也随时间而改变，如数据的方差、分位数、概率分布等，而传统数据库中的数据通常是静态的，一旦存储则很少随时间发生改变。

4)单遍扫描性。由于数据规模大、增长迅速，对数据流仅限于单遍扫描，即除非特意或显式存储外，每个数据只被处理一次。而传统数据库对数据进行持久存储，便于多遍扫描，并建立相应的索引机制有利于高效的查询。

5)并发性，通常应用场合都是多数据源的系统，这对于算法的并发特性进行要求较高。而传统数据库模式通常是将分布式数据源收集到主数据库中处理，或是使用分布式处理算法处理分布式节点中的静态数据库。

6)结果近似性。大量的数据流分析处理中并非一定需要精确的查询结果，满足精度误差要求的近似结果即可。而传统数据库建立在严格的数学基础之上，其查询语义明确、查询结果一般是精确的。

其中，高速无限性和单遍扫描性是两个最为重要的特点，是数据流区别于传统数据库中数据的关键。

聚类数据流的算法主要分为两大类，一类是单阶段机制(Single-phaseschemes)，另一类是两阶段机制(Two-phase schemes)。

单阶段机制可以视为一个时间窗口范围内对静态数据进行聚类。该方法首先按照数据到来的次序把数据流分块，构造这些块的聚类簇，最后合并这些聚类簇。换句话说，单阶段机制遵循着分而治之的策略。单阶段机制可以实现对数据流进行聚类，但并不是真正的实时聚类方法。而且，由于该机制对于当前的数据和过期的数据赋予相同的权重，不能够获得数据流的演变特征。如果数据流随着时间逐渐演变，这类算法将数据流视为若干段静态数据，不能够发现时序模式。

两阶段机制包含一个在线组件和一个离线组件。在线组件处理数据流获得数据流的概要信息。离线组件被定期触发，使用在线组件获取的概要信息生成聚类簇。由于最耗时的聚类过程仅仅周期执行，两阶段机制比单阶段机制具有更优的时间效率。因此，两阶段机制被广泛使用在当前的数据聚类算法中。

本申请的实施例遵循两阶段机制。如图1所示，本申请实施例的分布式数据流聚类方法主要包括在线处理和离线处理。

S110，随着数据的到来，执行概要获取算法，对数据流进行概要处理，获得数据流的多个特征向量。

S120，利用基于p-Stable分布的位置敏感哈希算法映射特征向量到位置敏感哈希表结构，获得各自包含有至少一个特征向量的多个聚类簇，使用Top-k算法从中选择得到包含特征向量最多的前k个聚类簇作为候选聚类簇；其中k大于等于1。本申请的实施例也可以采用其他的方式选择候选聚类簇。

S130，使用在线处理获得的候选聚类簇对新到的数据流的特征向量进行聚类处理。

S140，将新到的数据流的特征向量归到该候选聚类簇其中之一中，或者为新到的数据流建立新的聚类簇。

其上，上述S110和S120的处理为在线组件所执行的在线处理，上述S130和S140的处理为离线组件周期地并发执行的离线处理。

位置敏感哈希(LSH)首先被用来解决主存储器中的近邻相似性检索问题，能够证明其对数据规模n具有线性时间复杂度。它的关键思想是使用一些哈希函数，确保距离近的点比距离远的点冲突的概率大，当要检索的时候，只需要检索与检索点q冲突的点，从而减少了距离计算，加快检索时间。

以二进制海明距离为度量方式的位置敏感哈希函数，已经在很多领域中应用。但它有一个明显的缺点，通常距离度量函数，都是欧拉距离，要应用此算法，必须将欧拉距离转换为二进制海明距离，这将增加算法的检索时间和复杂性。

为了提高算法的效率和通用性，使用基于p-Stable分布的位置敏感哈希算法，该算法可以直接处理二次欧拉距离，并解决了(R，c)-近邻((R，c)-NN)问题，另外，它对高维稀疏数据处理效果很好，特别是当高维向量中非零数据数目一定时，算法的检索时间不变。这个性质是其它的算法所没有的，因此用其处理高维稀疏数据时比线性扫描有更大的优势。

对于一个基于距离函数为D(如欧式距离、曼哈顿距离等)的点集域S，一个位置敏感哈希函数族形式化定义如下。

定义1：位置敏感哈希(LSH)函数，对于任意数据点p，q∈R^d(q，p表示任意的数据点；R^d表示d维的数据点空间)，函数族H＝{h：S→U}(S和U分别代表自变量和因变量)被称为(r₁，r₂，p₁，p₂)对距离函数D(||p-q||)敏感(r1、r2是半径阈值；p1、p2是概率阈值)，满足条件：

\{\begin{matrix} ifv &Element; B (q, r_{1}) then \Pr_{H} [h (q) = h (p)] &GreaterEqual; p_{1} \\ ifv &NotElement; B (q, r_{2}) then \Pr_{H} [h (q) = h (p)] \leq p_{2} \end{matrix}

式(1)

其中，B(q，r1)定义为以q为圆心，半径为r1的圆周区域；P_rH为q和p哈希值相等的概率。

为了使一个位置敏感哈希函数族可用，必须满足条件p₁＞p₂和r₁＜r₂。

位置敏感哈希示例如图2所示，空间上的点经过位置敏感哈希函数散列之后，对于检索点q，其(R，c)-NN有可能散列到同一个桶(如第一个桶)，即散列到第一个桶的概率较大，大于某一个概率阈值p₁；而其(1+ε)γ之外的对象则不太可能散列到第一个桶，即散列到第一个桶的概率很小，会小于某个阈值p₂。

以下介绍L_p范数下的位置敏感哈希机制。

Lp范数下的稳态分布方法

本申请的实施例构造基于Map-Reduce的LSH方法(MLSH)使用的哈希函数族H是基于p-Stable分布的，p∈(0，2]。在概率论中，稳态分布(Stable distribution)又称为雷维偏阿尔法-稳定分布(Levy skew alpha-stabledistribution)，是一种连续概率分布。在稳态分布中，独立同分布的随机变量之和及它们本身具有相同的分布。如果两个随机变量X₁，X₂是稳定的并且独立同分布，而且Y＝aX₁+bX₂+c是两个随机变量X₁，X₂的线性组合，那么Y＝dX+e。如果对于所有的a和b，若c＝0，e＝0，这称为严格稳态。

稳态分布的种类比较多，最常用的稳态分布是高斯分布。

p-Stable分布形式化如下。

定义2：p-Stable分布，若存在参数p≥0，对于任意n个实数v₁，v₂，v₃，…v_n，以及服从D分布的独立同分布变量X₁，X₂，X₃，…X_n，随机变量

同随机变量

同分布，其中X是一个服从分布D的随机变量，称D为R上的p-Stable分布。

对于任意的p∈(0，2]，稳态分布是存在的。特别是：

柯西分布D_c，密度函数为

为1稳态分布，其中x为密度函数中的变量；

高斯分布D_G，密度函数为

为2稳态分布。

从实用的角度讲，尽管缺少闭合形式的密度分布函数，在[0，1]上，可以通过两个相互独立、服从均匀分布的变量来生成p-Stable随机变量。

利用p-Stable分布可以有效地近似高维特征向量，并在保证度量范数的同时，对高维特征向量进行降维。其关键思想是，产生一个d维的随机变量a，随机变量a中的每一维随机、独立地从p-Stable分布中产生。对于一个d维的特征向量v，如在定义2中一样，随机变量a.v具有同

(其中X满足p-Stable分布的随机变量)一样的分布，因此可以用a.v表示向量v来估算||v||_p，很容易得出a(v₁-v₂)＝a.v₁-a.v₂。

Map-Reduce是一种编程模式，它是与处理或产生海量数据集的实现相关。用户指定一个Map函数，通过这个Map函数处理键/值(key/value)对，并且产生一系列的中间key/value对，使用Reduce函数来合并所有的具有相同key值的中间键值对中的值部分。使用这样的函数形式实现的程序可以自动分布到一个由普通机器组成的超大集群上并发执行。Run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许可以不需要有并发处理或者分布式系统的经验，就可以处理超大的分布式系统的资源。

Map-Reduce系统的实现运行在一个由普通机器组成的大型集群上，并且有着很高的扩展性：一个典型的Map-Reduce计算处理通常分布到上千台机器上来处理上万亿字节(TB)的数据。

Hadoop是Map-Reduce框架的Java实现。它将应用切分成许多子任务集合。每个子任务可以在任何集群节点上执行。同时，Hadoop还提供一个容错的分布式文件系统HDFS，它能够自动处理节点故障。

本申请的实施例基于Hadoop环境实施云环境下基于LSH的分布式数据流聚类(DLCStream)算法。

本申请实施例的云环境下基于LSH的分布式数据流聚类方法为分布式的、两阶段的数据流聚类算法。本申请的实施例首先将调用数据流概要算法获取特征向量数据点，然后使用LSH算法进行聚类。

本申请的实施例对DLCStream算法涉及的重要符号和定义如表1所示。

表1.

本申请实施例的DLCStream方法，包含一个在线组件所执行的在线处理，和一个离线组件所执行的离线处理。当一个新的数据点到来时，在线组件被执行。在线组件首先调用概要获取函数F_syn(x)以获取d维数据流特征向量p_i，利用LSH算法将p_i投影到位置敏感哈希表相应的桶b中，最后返回X_t个聚类簇。从x_t中选出包含数据点最多的前X_max个聚类簇作为候选聚类簇，该些候选聚类簇均各自至少包含了一个特征向量。而离线组件周期地并发执行。离线组件调用X-median方法(一种求取聚类簇质心的方法)获得各个候选聚类簇质心C_cen，分别计算新到的数据流特征向量p_i到这X_max个质心之间的距离范数，获取最小距离范数d_min的聚类簇，若d_min≤d_th，则将p_i归为d_min对应的候选聚类簇，否则建立新的聚类簇。

本申请的实施例中，离线组件通过使用Map-Reduce框架实现分布式计算。

本申请的实施例中，聚类过程的并发执行很大程度上减少了计算时间，特别是对于海量高维数据具有较好的可扩展性。

在线组件所执行的在线处理主要包括三个阶段。

1)数据流概要获取阶段，使用滑动窗口模型获取数据流的多个特征向量，该些特征向量就是数据流的概要信息。所获得的特征向量形成特征向量集合。为获取对数据流的概要描述，本申请的实施例使用滑动窗口模型对数据流进行分析。其基本思想是，仅仅基于最近的数据做出聚类决策。即，在每个时刻t，一个新的数据点到来时间为t_a，t_c为当前时间，λ为衰减因子，使用距离范数相关系数

控制数据点聚类过程。

2)LSH映射阶段，使用LSH函数对该些特征向量进行哈希处理，将该些特征向量映射到哈希桶中，获得位置敏感哈希数据结构，得到LSH映射值。本申请的实施例设计1个位置敏感哈希函数族(LSHFamily)，每个LSHFamily由k个独立的LSH函数运算构成，它们是从稳态分布LSH函数族中以独立、一致随机的方式来选择，然后使用这些LSH函数对数据点进行哈希得到一个数值。将特征向量集合中每一个数据点p_i映射到桶中，构建位置敏感哈希数据结构。由于桶的总数过大，不可能精确存储所有可能的桶，仅存储非空桶。通过该阶段的LSH映射(计1×k个LSH函数)，可以得到1个k维映射值。

3)二次哈希阶段，也可以称之为优化存储和查询阶段，采用MD5算法对k维的映射值进行二次哈希，得到一维索引值。二次哈希的算法采用MD5算法，一方面可以把一个任意维的数据哈希成较短长度的一维数据，降低存储代价和查找的复杂度；另一方面MD5算法的冲突概率较低，可以保证第一阶段产生的不同的k维映射值仍然被映射到不同索引值上。每个索引值构成一个桶，将特征向量p_i的基于Hadoop的分布式文件系统(HDFS)物理地址链接到索引值所对应的桶上，形成一个倒排表。该阶段的输入为1个k维映射值，输出为非空的桶。令非空桶数目为X_t，这个参数主要依赖于LSH表中簇的总数、相似性和构建LSH的参数。从X_t中选出包含特征向量最多的前X_max个聚类簇作为候选聚类簇C_can，本申请的实施例使用Top-k算法进行C_can的选择，最后返回候选聚类簇C_can。非空的哈希桶内就是聚类簇。

本申请的实施例中，离线组件采用Map-Reduce框架进行分布式聚类，包含两个阶段。

1)获取在线组件生成的候选聚类簇，计算各候选聚类簇的质心。由于k均值方法对于离群点是敏感的，而且LSH方法仅仅是以一定概率保证的近似相似性方法，因此，一个具有很大极端值的特征向量很可能扭曲数据的分布。k均值方法中平方误差函数，更是恶化这一影响，其中，E是数据集中所有对象的平方误差和，p是空间中的点，表示给定的对象，m_i是簇C_i的均值，p和m_i都是多维数据点。本申请的实施例采用X-median算法，不采用簇中对象的均值作为参考点，而是在每个簇中选出一个实际对象来代表该簇。其余的每个对象聚类到与其最相似的代表性对象所在的簇中，划分方法使用绝对误差标准(Absolute-error criterion，AEC)，其中，E是特征向量集合中所有对象的绝对误差之和，p是代表簇C_j中的一个给定对象，o_j为簇C_j中的代表对象。

2)计算新到的数据流的特征向量到所有质心的距离范数，选取距离最小的质心所在的簇，将新到的数据流的特征向量归到该聚类簇中。可以根据需求选择使用相应的距离范数公式。例如，令一个n维特征向量分别为o_i(x₁，x₂，…x_n)(x1、x2...表示向量o_i中各个维度的值)，质心为c_cen(y₁，y₂，…y_n)(y1、y2...表示质心向量中各个维度的值)，1范数定义为2范数定义为

夹角余弦等。使用公式d_t＝d_f×d_co算随着时间衰减的距离范数，求解最小的d_t，d_min＝min(d_t)。若d_min＜d_th，将新到的数据流的特征向量归为距离最小的质心所在的聚类簇，否则为新到的数据流的特征向量建立新的聚类簇。

当数据流的流速越来越快，数据量越来越大时，集中式的LSH创建和聚类都会因内存限制变得越来越慢，甚至不可行。本申请的实施例利用Hadoop平台提供的Map-Reduce计算框架，将LSH结构创建和聚类过程分布化和并行化，以适应海量高维、高速数据的聚类需求，基于DLCStream算法的聚类系统架构如图3所示。本申请的实施例主要包含有两个子算法运算过程，分别为基于Map-Reduce的LSH结构创建算法MRLSHCreate运算过程，和基于Map-Reduce的聚类算法MRClu运算过程。

本申请的实施例引入MRLSHCreate算法来在Map-Reduce环境下创建LSH结构，引入MRClu算法来在Map-Reduce环境下进行聚类处理。

MRLSHCreate算法主要用来解决当数据流的流速越来越快，数据量越来越大时，集中式的LSH创建和聚类都会因内存限制变得越来越慢，甚至不可行的问题。MRClu算法主要用来解决针对一个较长时间段数据流的聚类，由于数据量变得很大，聚类特征向量需要迭代获取聚类质心和距离计算，时间复杂度较高，可利用Map-Reduce机制启动Map任务并行化获取聚类簇质心，在Reduce阶段将特征向量分配到相应的候选聚类簇中，利用新到的特征向量到聚类簇质心的精确距离进行筛选。

算法1.MRLSHCreate算法

输入：参数文件lsh.conf，数据流时间片段集合DS，任务参数jobConf。

输出：LSH结构和Top-X_max个候选聚类簇C_can。

步骤11，初始化MapReduce任务。

步骤12，对DS中的每个数据流片段启动一个Map任务，设置Reduce任务的个数为L，输出为空。

步骤13，从jobconf中获得算法参数，初始化LSH函数族。

步骤14，解析数据流片段，即value1，获取特征向量。

步骤15，利用LSHFamily计算出L个索引值。

步骤16，输出L个(key2，value2)＝<IndexTable_i，Indexvalue[i]>。

步骤17，将Map的输出按照IndexTable_i进行合并。

步骤18，将List[IndexValue]按照不同的IndexValue组织成哈希表。

步骤19，将哈希表写入对应的索引表IndexTable_i中。

算法2.MRClu算法

输入：新到数据流的特征向量，从LSH表中获得的X_max个聚类簇，任务参数jobConf。

输出：将p_i分配到相应的聚类簇中形成新的聚类簇，并更新该聚类簇的质心，输出当前所有聚类簇。

步骤21，从jobConf中获取参数，初始化LSHFamil。

步骤22，对聚类簇中的每个特征向量p_i启动一个Map任务，设置Reduce任务的个数为X_max。

步骤23，获取聚类簇的质心，key1和key2分别为CluId.p_i，CluId.cen，表示聚类簇Id为CluId中的特征向量和质心标识，value1和value2为特征向量和质心值。

步骤24，利用绝对误差标准(Absolute-error criterion，AEC)函数计算聚类簇质心。

步骤25，输出x_max个(key2，value2)＝<CluId.p_i，Evalue>。

步骤26，将Map的输出按照CluId进行合并，对于每个CluId中的最小E值对应的质心为最优质心，更新该CluId的质心。

步骤27，排序得到簇中最小的质心，输出簇标识CluId和最优质心OptimalCen。

步骤28，计算新到数据流的特征向量p_i到簇质心集合的距离，将p_i归为最小的簇中，更新质心。

如图3所示，本申请实施例的分布式数据流聚类系统主要包括在线组件310以及离线组件320。

在线组件310，配置为对数据流进行概要处理，获得数据流的多个特征向量，利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇，并从中选择至少一个聚类簇作为候选聚类簇；比如使用Top-k算法获取包含特征向量最多的前k个聚类簇作为候选聚类簇，其中k大于等于1。

离线组件320，与在线组件310相连，配置为周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理。

如图3所示，上述在线组件310包括概要处理模块311、一次哈希模块312和二次哈希模块313。

概要处理模块311，配置为对数据流进行概要处理，获得数据流的多个特征向量；

一次哈希模块312，与概要处理模块311相连，配置为利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理，获得位置敏感哈希数据结构，得到位置敏感哈希映射值；

二次哈希模块313，与一次哈希模块312及离线组件320相连，配置为对所述位置敏感哈希映射值进行二次哈希，得到一维索引值，落入相应的哈希桶中；

聚类簇选取模块314，与二次哈希模块313相连，配置为使用Top-k算法从包含有至少一个特征向量的哈希桶中选取包含特征向量最多的前k个哈希桶作为所述候选聚类簇。

上述一次哈希模块312配置为采用至少一个位置敏感哈希函数族对特征向量进行所述哈希处理；其中，每个所述位置敏感哈希函数族由从稳态分布位置敏感哈希函数族中以独立、一致随机的方式选择出的多个位置敏感哈希函数运算构成。

如图3所示，上述离线组件320包括质心获取模块321、计算模块322和聚类模块323。

质心获取模块321，与在线组件310中的聚类簇选取模块314相连，配置为获得所述候选聚类簇各自的质心；

计算模块322，与质心获取模块321相连，配置为周期地计算所述新到的数据流的特征向量到所有质心的距离范数；

聚类模块323，与计算模块322相连，配置为将所述新到的数据流的特征向量归到所述候选聚类簇的其中一个之中，或者为新到的数据流建立新的聚类簇。

质心获取模块321配置为采用X-median算法获得所述候选聚类簇各自的质心。

聚类模块323配置为根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的获选聚类簇中，或者为所述新到的数据流的特征向量建立新的聚类簇。

如图3所示，上述聚类模块323包括判断单元23A、归位单元23B以及新建单元23C。

判断单元23A，与计算模块322相连，配置为对所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离与所述预设的距离阈值进行判断；

归位单元23B，与判断单元23A相连，配置为所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离小于所述预设的距离阈值时，将所述新到的数据流的特征向量归到所述距离最小的质心所在的聚类簇中；

新建单元23C，与判断单元23A相连，配置为所述新到的数据流的特征向量到所述候选聚类簇各自的质心的最小距离不小于所述预设的距离阈值时，为所述新到的数据流的特征向量建立所述新的聚类簇。

本申请的实施例在云环境下基于位置敏感哈希(Locality SensitiveHash，LSH)的分布式数据流聚类方法可以近实时的高效聚类高速、大量数据流。本申请的实施例适用于云环境下的数据流中的聚类模式查找，利用本发明的实施例在高效并行处理、可扩展性和聚类结果质量方面比CluStream算法更有优势。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种分布式数据流聚类方法，包括：

对数据流进行概要处理，获得数据流的多个特征向量；

2.根据权利要求1所述的方法，其中，利用位置敏感哈希算法获得各自包含有至少一个特征向量的多个聚类簇，并从中选取至少一个聚类簇作为候选聚类簇，包括：

3.根据权利要求2所述的方法，利用所述位置敏感哈希算法对所述多个特征向量进行哈希处理，包括：

4.根据权利要求1所述的方法，其中，周期地使用所述候选聚类簇对新到的数据流的特征向量进行聚类处理，包括：

获得所述候选聚类簇各自的质心；

5.根据权利要求4所述的方法，获得所述候选聚类簇各自的质心，包括：

采用X-median算法获得所述候选聚类簇各自的质心。

6.根据权利要求4所述的方法，其中，将所述新到的数据流归到所述候选聚类簇的其中一个之中，或者为新到的数据流建立新的聚类簇，包括：

7.根据权利要求6所述的方法，根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的聚类簇中，或者为所述新到的数据流的特征向量建立新的聚类簇，包括：

8.一种分布式数据流聚类系统，包括：

9.根据权利要求8所述的系统，其中，所述在线组件包括：

10.根据权利要求9所述的系统，其中：

所述一次哈希模块配置为采用至少一个位置敏感哈希函数族对所述多个特征向量进行所述哈希处理；

11.根据权利要求8所述的系统，其中，所述离线组件包括：

质心获取模块，配置为获得所述候选聚类簇各自的质心；

12.根据权利要求11所述的系统，其中：

所述质心获取模块配置为采用X-median算法获得所述候选聚类簇各自的质心。

13.根据权利要求11所述的系统，其中：

所述聚类模块配置为根据预设的距离阈值将所述新到的数据流的特征向量归到距离最小的质心所在的候选聚类簇中，或者为所述新到的数据流的特征向量建立新的聚类簇。

14.根据权利要求13所述的系统，其中，所述聚类模块包括：