CN102724063B

CN102724063B - 日志采集服务器及数据包分发、日志聚类方法及网络

Info

Publication number: CN102724063B
Application number: CN201210147469.9A
Authority: CN
Inventors: 许长桥; 关建峰; 张宏科; 曹远龙; 权伟; 刘诗维; 文新; 赵付涛
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-05-11
Filing date: 2012-05-11
Publication date: 2016-12-07
Anticipated expiration: 2032-05-11
Also published as: CN102724063A

Abstract

本发明公开了一种日志采集服务器，包括探测器单元、解析单元、Hash分流单元、聚簇与日志转发单元和数据库单元，所述探测器单元，用于数据流的旁路监听以及数据的采集；所述解析单元，用于对数据实时分析，提取数据包关键域，并发送给所述Hash分流单元；所述Hash分流单元，用于对数据包关键域进行Hash计算并分发数据包；所述聚簇与日志转发单元，用于确认所述日志采集服务器日志记录所属聚簇并计算所述日志采集服务器聚簇中心；所述数据库单元，用于对属于所述日志采集服务器的日志记录进行存储。本发明通过对数据包关键域的散列运算，实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载；提高了数据采集与聚类的高效性和可扩展性。

Description

日志采集服务器及数据包分发、日志聚类方法及网络

技术领域

本发明涉及计算机网络通信技术领域，特别涉及一种日志采集服务器及数据包分发、日志聚类方法及网络。

背景技术

数据采集是网络管理的基础，当前网络管理中一般采用网络监听技术，主要是对每个监管网络由单一监控代理负责数据采集。针对IP网络的数据采集技术一般分为三类：基于简单的网络管理协议（SNMP）、基于Net Flow以及基于流量全镜像。随着网络服务请求越来越大规模化以及网络业务多样化，面对网络数据流量的爆发式增长，网络服务信息情况变化快等状况，网络服务信息安全监管系统的运行需要大量的数据资料，同时也会产生大量的数据记录。因为单一终端能力有限，大规模网络服务请求时，系统采集数据时延增大。对于网络服务监管实时性强的特性，更需要多节点之间的协作以提高系统的性能和稳定性。

对等网络（Peer-to-Peer，P2P）是一种分布式网络，网络中的每个节点分享自己的存储、带宽等资源。凭借对系统中空闲节点资源充分利用，P2P技术降低了日志采集服务器的压力，提高了日志采集服务器之间日志记录的共享程度，为大规模日志记录存储提供了解决方案。

当前，P2P网络按照拓扑结构可分为中心化拓扑、非结构化拓扑、结构化拓扑三种。中心化拓扑使用单一服务器来存放所有节点的共享文件信息和节点信息。最早的中心化拓扑是Napster。结构化拓扑结构采用的是分布式散列表（Distributed Hash Table,DHT）。通过散列函数，每个节点和关键字被映射为固定长度的散列值。其主要的分布式结构化拓扑结构有Tapestry、Chord、CAN和Pastry，其中最流行的是Chord。Chord的实现：采用哈希函数为每个节点产生一个m位的ID，并按照ID大小形成环状拓扑，采用哈希函数为每个文件名产生一个m位的key值，将其映射到ID值比自己key值大的最靠近自己的节点。

DHT作为P2P的典型分布式结构模型，具有分布式、自组织等特征，其在解决分布式环境下资料共享、可扩展性、低成本以及负载均衡等方面具有重要的优势，已成为互联网研究的关键技术。

现有技术中，存在一种基于机群的分布式数据采集系统。该系统通过对需要进行数据采集的网络划分为若干个机群，每个机群中安装一个管理中心并在一定数量的网络设备设置一个采集代理；整个系统由采集代理、管理中心、任务调度中心、采集控制平台组成；解决采集过程中数据传输拥塞和数据处理瓶颈等问题。

该系统存在一定主要缺陷在于：1）机群需要与IP地址范围绑定。此系统不适合动态IP网络，并且不同机群内主机访问网络的流量不同，将造成的各数据采集代理负载不均衡问题。2）采用中心化的数据库进行日志存储。基于单一化结构在大量数据记录存储的时候具有一定的瓶颈，原因在于：a）单一节点失败问题；b）可扩展性、健壮性差等。

在另外一种方案中，更多的考虑如何将分布式存储的网络日志记录进行例如以行为、兴趣相似等为目标的聚类以达到日志记录可以更为精确、有效的服务于网络监控系统。因此，我们需要对以分布式结构存储的网络日志进行进一步的聚类。

k-Dmeans算法为当前典型的一种分布式聚类算法，但因为算法在迭代过程中所有节点间需要传输大量的数据对象所造成的通信代价大，在处理大数据量时效率低等问题。现有技术提出了一种改进的分布式聚类算法Dk-means。其思想是任意选取一个节点为主节点，其余节点为从节点，主节点随机产生k个聚簇中心作为全局初始聚簇中心，并将其广播给其他所有从节点；各从节点根据这些中心确认本节点数据对象所属聚簇，并得到局部聚簇中心，同时，从节点将本节点的局部聚簇中心及相应簇的数据对象总数传送给主节点；主节点根据这些聚簇信息计算全局聚簇中心。迭代上述过程直到给定的全局判别函数值稳定。

这种方案在大规模数据需要处理时，任意选取一个节点作为主节点，可能会造出性能较高、较空闲的节点不被作为主节点；另外，单一节点能力始终有限，在海量数据聚类过程中将不可避免的成为瓶颈。

在实现本发明的过程中，发明人发现现有技术尚没有一种多节点协作的、分布式网络数据采集与聚类模型，无法解决单一节点失败和大规模网络日志下处理时延大等问题，存在着数据采集与聚类效率不高，扩展性差的问题。

发明内容

为了解决现有技术中网络数据采集与聚类方案无法解决单一节点失败和大规模网络日志下处理时延大等问题，存在着数据采集与聚类效率不高，扩展性差的问题，本发明实施例提供了一种日志采集服务器及数据包分发、日志聚类方法及网络。所述技术方案如下：

一种日志采集服务器，包括探测器单元、解析单元、Hash分流单元、聚簇与日志转发单元和数据库单元，其中，

所述探测器单元，用于数据流的旁路监听以及数据的采集；

所述解析单元，用于对数据实时分析，提取数据包关键域，并发送给所述Hash分流单元；

所述Hash分流单元，用于对数据包关键域进行Hash计算并分发数据包；

所述聚簇与日志转发单元，用于确认所述日志采集服务器日志记录所属聚簇并计算所述日志采集服务器聚簇中心；

所述数据库单元，用于对属于所述日志采集服务器的日志记录进行存储。

所述Hash分流单元进一步用于向其它日志采集服务器发送所述日志采集服务器聚簇中心点及相应簇的数据对象总数。

一种数据包分发方法，所述方法包括：

日志采集服务器抓取数据包并进行解析；

根据所述数据包的关键域，运行Hash函数，获得所述数据包的Key值；

查找与所述Key值对应的日志采集服务器，并将所述数据包转发给所述Key值对应的日志采集服务器；

所述Key值对应的日志采集服务器接收到分发的数据包，提取数据包的特征域，在数据库中进行日志存储。

所述数据包的关键域包括所述数据包的源地址IP、目的地址IP、源端口、目的端口和传输层协议五元组信息；

根据所述数据包的关键域，运行Hash函数，获得所述数据包的Key值，根据公式

Key=hash(SrcIP+DstIP+SrcPort+DstPort+Proto)

进行计算；其中，SrcIP表示为源地址IP；DstIP为目的地址IP；SrcPort为源地址端口；DstPort为目的地址端口；Proto为传输协议码。

所述在数据库中存储的日志包括但不限于如下特征：

数据、时间、源地址IP、目的地址IP、源地址端口、目的地址端口和传输协议码。

一种分布式散列表网络，由如上所述的日志采集服务器组成，每个日志采集服务器为一个节点，其中，

通过一致性hash函数将每个节点映射到Chord环中的一个点，用ServerID(i)表示每个节点在分布式散列表网络中的标号；

整个网络中有N个节点，各节点相应的X维局部日志记录集分别为{DB₁,DB₂,…,DB_X},每个局部日志记录集的大小分别为L₁，L₂，…,L_X，为全局日志记录集；全局日志记录集可划分为K个聚簇W₁，W₂，…，W_K，中心点依次为C₁，C₂，…，C_K；其中 CD是簇W_i中的日志记录，N_i是簇W_i中的日志记录条数。

所述网络聚类效果的好坏以目标函数衡量；

其中K表示全局日志记录集中的聚簇个数；N_i表示局部聚簇日志记录条数；d_ij(CD_j,C_i)表示日志记录CD_j和中心点C_i之间的距离。

该网络进一步包括：

当一个节点离开网络，它将移交它的日志记录到同属于网络的一个邻居节点；

当一个新的节点加入到网络，它将从一个邻居节点获得一些日志记录来作为它的初始信息；

当节点在处于日志聚类计算状态时意外的离开网络，那么日志聚类分析状态标志会被设置为False，当该节点再次进入到网络，它将重新计算本节点的局部聚类信息。

一种日志聚类方法，应用于如上所述的分布式散列表网络，所述方法包括：

每次聚类开始前，在M个节点中动态选取性能较好、在线时间比较稳定的节点作为强节点；

强节点随机产生K个初始集群聚簇中心（C₁,C₂,…,C_K）并广播给普通节点；

普通节点根据这些聚簇中心确认本节点日志记录所属聚簇，计算局部聚簇中心；将本节点的局部聚簇中心点及相应簇的日志记录总数{(C_i1,n_i1)，…,(C_ik，n_ik)}(1<=i<=N)传送给强节点；

强节点根据普通节点发送的聚簇信息计算全局聚簇中心。

该方法进一步包括：

以目标函数是否稳定来判定聚类效果好坏；其中K表示全局日志记录集中的聚簇个数；N_i表示局部聚簇日志记录条数；d_ij(CD_j,C_i)表示日志记录CD_j和中心点C_i之间的距离。

根据如下公式选取强节点：

{Load}_{node (i)} = {load}_{d} + {load}_{b} + &PartialD; * sizeof (SpaceUsed)

Source_node(i)=αP_node(i)-βL_node(i)

其中，Load_node(i)表示第i个节点的工作负载；Load_d表示节点接收和处理数据包的负载；Load_b表示向其它节点广播自身的负载信息和进行负载计算所带来的负载消耗；SpaceUsed表示日志记录使用数据库空间；Pn_ode(i)表示节点i的处理能力；Source_node(i)的大小反映了节点i当前可用的资源； α和β为实验参数，根据经验设定。

强节点根据普通节点发送的聚簇信息计算全局聚簇中心，包括：

根据公式

C_{j} = \frac{n_{1 j} \times C_{1 j} + n_{2 j} \times C_{2 j} + \cdot \cdot \cdot + n_{pj} \times C_{pj}}{n_{1 j} + n_{2 j} + \cdot \cdot \cdot + n_{pj}}, (1 \leq j \leq K)

计算全局聚簇中心。

该方法进一步包括：

设置一个聚类周期T_theshold，当周期时间到达，开始执行一次日志的聚类。

本发明实施例提供的技术方案带来的有益效果是：

通过提出一种以DHT技术为基础的多节点协作的、分布式网络数据采集与聚类模型，分别提出了日志采集服务器进行日志采集和数据包分发的过程，设计了合理的数据包分发算法，通过对数据包关键域的散列运算，实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载；同时结合DHT特性，引入了强节点的选取规则，提出一个改进的、基于动态强节点的聚类算法SDk-means。本发明实施例提供的方案，具有较好的均衡负载、解决了单一节点失败和大规模网络日志下处理时延大等问题；提高了数据采集与聚类的高效性和可扩展性，并为网络监管提供了数据保障。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的基于DHT的分布式网络数据采集与聚类模型示意图；

图2是本发明实施例2提供的日志采集服务器结构示意图；

图3是本发明实施例3提供的数据包分发方法原理流程图；

图4是本发明实施例3提供的查找与Key值对应的日志采集服务器的过程示意图；

图5是本发明实施例5提供的日志聚类方法原理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例的原理在于提供一种DHT网络以及网络相关的数据采集服务器，通过数据采集服务器的工作实现数据包的转发和日志的聚类，从而实现多节点协作的、分布式网络数据采集与聚类模型，实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载，并提出一个改进的、基于动态强节点的聚类算法SDk-means。

实施例1

如图1所示，为本发明实施例1提供的基于DHT的分布式网络数据采集与聚类模型（以下简称“模型”）示意图，其中，

DHT网络：DHT网络由“日志采集服务器”组成。在本实施例1中，通过一致性hash函数如SHA-1将“日志采集服务器”映射到Chord环中的一个点，用ServerID(i)表示“日志采集服务器”在DHT网络中的标号。DHT网络的主要功能在于：在分布式网络结构下接收、存储和分发网络数据包。一旦有“日志采集服务器”离开或新的“日志采集服务器”加入网络，DHT网络需要做自我信息更新。

日志采集服务器：每一个“日志采集服务器”与需要进行数据采集的出口设备（如路由器/交换机）相连。日志采集服务器由探测器、解析模块、Hash分流模块以及数据库组成。其功能在于：1）执行“中心管理服务器（Web Console）”设置的采集规则对数据流旁路监听和数据抓取；2）执行散列算法，分发数据包和存储日志记录；3）执行SDk-means算法，实现网络日志聚类。

中心管理服务器（Web Console）：其功能在于提供友好的用户配置和管理界面，提供数据的显示、报警等功能。

强节点：“强节点”是一个特殊的“日志采集服务器”，应具有以下2个特性：1）较高的CPU性能；2）较高的稳定性。第3节将给出一个“强节点”选取规则。其功能在于：1）选取聚簇中心并以广播的形式分发给其他“日志采集服务器”；2）根据其他“日志采集服务器”发送的聚簇消息计算全局聚簇中心。

实施例2

如图2所示，为本发明实施例2提供的日志采集服务器结构示意图，包括探测器单元11、解析单元12、Hash分流单元13、聚簇与日志转发单元14和数据库单元15，其中，

探测器单元11，用于数据流的旁路监听以及数据的采集。

如实施例1中所述，每一个日志采集服务器与需要进行数据采集的出口设备（如路由器/交换机）相连，也即，日志采集服务器需要对数据流进行旁路监听和对相应的数据进行采集，探测器单元11就是用于采集数据的。

解析单元12，用于对数据实时分析，提取数据包关键域，并发送给Hash分流单元13。

解析单元12主要的工作在于对探测器单元11采集的数据进行实时的解析，提取数据包的关键域。这里，数据包的关键域一般包括数据包的源地址IP、目的地址IP、源端口、目的端口、传输层协议这五个信息的五元组信息。

解析单元12在解析数据包的关键域时候，需要判断数据包是否存在包括五元组信息的关键域信息，如果有，将该数据包以及五元组信息发送给Hash分流单元13；否则，丢弃该数据包。

Hash分流单元13，用于对数据包关键域进行Hash计算并分发数据包。

Hash分流单元13在接收到数据包五元组信息后，运行Hash函数，根据数据包的五元组信息计算该数据包所属的其它的日志采集服务器，将该数据包转发给该日志采集服务器。

具体的计算所需要的公式如下：

Key=hash(SrcIP+DstIP+SrcPort+DstPort+Proto)

其中，SrcIP表示为源地址IP；DstIP为目的地址IP；SrcPort为源地址端口；DstPort为目的地址端口；Proto为传输协议码。

聚簇与日志转发单元14，用于执行SDk-means算法，确认日志采集服务器日志记录所属聚簇并计算日志采集服务器聚簇中心。

这里，聚簇与日志转发单元14需要具体的执行聚类算法，根据聚类算法的结果确认本日志采集服务器日志记录所属聚簇并计算日志采集服务器聚簇中心。

数据库单元15，用于对属于日志采集服务器的日志记录进行存储。

数据库单元15用于存储本日志采集服务器的日志记录数据。

特别的，Hash分流单元13进一步用于向其它日志采集服务器发送本日志采集服务器聚簇中心点及相应簇的数据对象总数。

实施例3

如图3所示为本发明实施例3提供的数据包分发方法原理流程图，其中，

步骤21，日志采集服务器抓取数据包并进行解析。

日志采集服务器位于DHT网络中，通过对数据流进行监听来抓取数据包并进行解析。解析的目的之一在于得到该数据包的关键域。该数据包的关键域包括所述数据包的源地址IP、目的地址IP、源端口、目的端口和传输层协议五元组信息。

步骤22，根据数据包的关键域，运行Hash函数，获得数据包的Key值。

这里，需要根据如下公式计算数据包的Key值：

Key=hash(SrcIP+DstIP+SrcPort+DstPort+Proto)

当然，如果解析出来的该数据包没有包括关键域的五元组，或者五元组信息不全，则可以丢掉该数据包，不再进行分流。

步骤23，查找与Key值对应的日志采集服务器，并将数据包转发给Key值对应的日志采集服务器。

这里，为了描述方便，定义了一些标记，具体如表一所示。

表一

查找与Key值对应的日志采集服务器的过程，参见图4。也就是要查找与Successor(Key)对应的ServerID(i)。如图4所示，ServerID(s)或ServerID(t)与Successor(key(packet(j)))相匹配，则ServerID(i)将packet(j)(j∈{x,y，z})的数据包传送到ServerID(s)或ServerID(t)。Successor(key(packet(j))表示为关键字key(packet(j))的后继节点。关于具体的计算方法，为本领域公知技术，此处不再赘述。

在找到了数据包所属的日志采集服务器后，将数据包散列到该日志采集服务器上。

步骤24，Key值对应的日志采集服务器接收到分发的数据包，提取数据包的特征域，在数据库中进行日志存储。

收到数据包的日志采集服务器，提取数据包的特征域，按如表二所示在数据库中进行日志存储。

表二

Data

Time

SrcIP

DstIP

SrcPort

DstPort

Proto

表二中，包括了数据、时间、源地址IP、目的地址IP、源地址端口、目的地址端口和传输协议码。

这样，每个数据包都得到了合适的散列分发。

实施例4

本发明实施例4提供了一种DHT网络，该网络由若干个日志采集服务器组成，每个日志采集服务器为网络中的一个节点，通过一致性hash函数将每个节点映射到Chord环中的一个点，用ServerID(i)表示每个节点在分布式散列表网络中的标号；整个网络中有N个节点，各节点相应的X维局部日志记录集分别为{DB₁,DB₂,…,DB_X},每个局部日志记录集的大小分别为为全局日志记录集；全局日志记录集可划分为K个聚簇W₁，W₂，…，W_K，中心点依次为C₁，C₂，…，C_K；其中 CD是簇W_i中的日志记录，N_i是簇W_i中的日志记录条数。

并且，在该DHT网络中，网络聚类效果的好坏以目标函数衡量；

当一个节点离开DHT网络，它将移交它的日志记录到同属于DHT网络的一个邻居节点。当一个新的节点加入到DHT网络。它将从一个邻居节点获得一些日志记录来作为它的初始信息。当然，节点也有可能在处于日志聚类计算状态时意外的离开DHT网络。如果日志聚类计算未完成的状态下离开DHT网络，那么日志聚类分析状态标志会被设置为‘False’。这样，当该节点再次进入到DHT网络，那么它将重新计算本节点的局部聚类信息。

实施例5

如图5所示，为本发明实施例5提供的日志聚类方法原理流程图，其中，

步骤31，每次聚类开始前，在M个节点中动态选取性能较好、在线时间比较稳定的节点作为强节点。

这里，需要动态选取“强节点”。每次聚类开始前，在M个节点中动态选取一个强节点。原则上选取性能较好、在线时间比较稳定的节点作为强节点。如下两个公式给出了一个节点性能评估参考，通过广播自身的可用资源信息，动态地选定本次聚类的强节点。

{Load}_{node (i)} = {load}_{d} + {load}_{b} + &PartialD; * sizeof (SpaceUsed)

Sourc_enode(i)=αP_node(i)-βL_node(i)

公式中，Load_node(i)表示第i个节点的工作负载；Load_d表示节点接收和处理数据包的负载，在一致性哈希数据包分流情况下，可认为每个节点的Load_d是相同的。Load_b表示向其他节点广播自身的负载信息和进行负载计算所带来的负载消耗，所有节点此部分的负载消耗也可认为是相同的。SpaceUsed表示日志记录使用数据库空间；P_node(i)表示节点i的处理能力；Source_node(i)的大小反映了节点i当前可用的资源； α和β为实验参数，通过实验数据获得，可以根据需要设定。

步骤32，强节点随机产生K个初始集群聚簇中心（C₁,C₂,…,C_K）并广播给普通节点。

“强节点”随机产生K个初始集群聚簇中心（C₁,C₂,…,C_K）并广播给其他节点（称之为“普通节点”）。

步骤33，普通节点根据这些聚簇中心确认本节点日志记录所属聚簇，计算局部聚簇中心；将本节点的局部聚簇中心点及相应簇的日志记录总数{(C_i1，n_i1)，…,(C_ik，n_ik)}(1<=i<=N)传送给强节点。

步骤34，强节点根据普通节点发送的聚簇信息计算全局聚簇中心。

具体的计算根据如下公式进行：

C_{j} = \frac{n_{1 j} \times C_{1 j} + n_{2 j} \times C_{2 j} + \cdot \cdot \cdot + n_{pj} \times C_{pj}}{n_{1 j} + n_{2 j} + \cdot \cdot \cdot + n_{pj}}, (1 \leq j \leq K)

进一步的，需要迭代步骤52、53和54，直到全局判别函数E值稳定。

全局判别函数E与目标函数E相同，根据如下公式计算得到：

E = Σ_{i = 1}^{K} Σ_{j = 1}^{N_{I}} d_{ij} ({CD}_{j}, C_{i})

其中，K表示全局日志记录集中的聚簇个数；N_i表示局部聚簇日志记录条数；d_ij(CD_j,C_i)表示日志记录CD_j和中心点C_i之间的距离。

通过目标函数E是否稳定来判定聚类效果好坏。

进一步的，为避免频繁聚类带来的负载和网络资源的浪费，我们设置了一个聚类周期T_theshold，当周期时间到达，则开始执行SDk-means算法进行日志的聚类。

同样的，当一个节点离开DHT网络，它将移交它的日志记录到同属于DHT网络的一个邻居节点。当一个新的节点加入到DHT网络。它将从一个邻居节点获得一些日志记录来作为它的初始信息。当然，节点也有可能在处于日志聚类计算状态时意外的离开DHT网络。如果日志聚类计算未完成的状态下离开DHT网络，那么日志聚类分析状态标志会被设置为‘False’。这样，当该节点再次进入到DHT网络，那么它将重新计算本节点的局部聚类信息。

综上，本发明各个实施例提供的方案，针对海量数据记录，以分布式散列表DHT技术为基础，提出了一种多节点协作的、分布式网络数据采集与聚类模型。设计了合理的数据包分发算法，通过对数据包关键域的散列运算，实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载；同时结合DHT特性，引入了“强节点”的选取规则，提出一个改进的、基于动态“强节点”的聚类算法SDk-means。实验表明，该模式具有较好的均衡负载、解决了单一节点失败和大规模网络日志下处理时延大等问题；提高了数据采集与聚类的高效性和可扩展性，并为网络监管提供了数据保障。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种日志采集服务器，其特征在于，包括探测器单元、解析单元、Hash分流单元、聚簇与日志转发单元和数据库单元，其中，

所述探测器单元，用于数据流的旁路监听以及数据的采集；

所述Hash分流单元，用于对数据包关键域进行Hash计算并分发数据包；向其它日志采集服务器发送所述日志采集服务器聚簇中心点及相应簇的数据对象总数；

2.一种分布式散列表网络，由如权利要求1所述的日志采集服务器组成，其特征在于，每个日志采集服务器为一个节点，其中，

整个网络中有N个节点，各节点相应的X维局部日志记录集分别为{DB₁,DB₂,…,DB_X},每个局部日志记录集的大小分别为L₁，L₂，…,L_X，为全局日志记录集；全局日志记录集可划分为K个聚簇W₁，W₂，…，W_K，中心点依次为C₁，C₂，…，C_K；其中CD是簇W_i中的日志记录，N_i是簇W_i中的日志记录条数。

3.如权利要求2所述的分布式散列表网络，其特征在于，所述分布式散列表网络的聚类效果的好坏以目标函数衡量；

4.如权利要求2所述的分布式散列表网络，其特征在于，该网络进一步包括：

5.一种日志聚类方法，应用于如权利要求2所述的分布式散列表网络，其特征在于，所述方法包括：

强节点随机产生K个初始集群聚簇中心(C₁,C₂,…,C_K)并广播给普通节点；

普通节点根据这些聚簇中心确认本节点日志记录所属聚簇，计算局部聚簇中心；将本节点的局部聚簇中心点及相应簇的日志记录总数{(C_i1,n_i1),…,(C_ik,n_ik)}传送给强节点，其中，1<＝i<＝N；

强节点根据普通节点发送的聚簇信息计算全局聚簇中心。

6.如权利要求5所述的方法，其特征在于，该方法进一步包括：

7.如权利要求5所述的方法，其特征在于，根据如下公式选取强节点：

{Load}_{n o d e (i)} = {load}_{d} + {load}_{b} + \partial * s i z e o f (S p a c e U s e d)

Source_node(i)＝αP_node(i)-βL_node(i)

其中，Load_node(i)表示第i个节点的工作负载；Load_d表示节点接收和处理数据包的负载；Load_b表示向其它节点广播自身的负载信息和进行负载计算所带来的负载消耗；SpaceUsed表示日志记录使用数据库空间；P_node(i)表示节点i的处理能力；Source_node(i)的大小反映了节点i当前可用的资源；，α和β为实验参数，根据经验设定。

8.如权利要求5所述的方法，其特征在于，该方法进一步包括：

设置一个聚类周期T_threshold，当周期时间到达，开始执行一次日志的聚类。