CN102724063B - 日志采集服务器及数据包分发、日志聚类方法及网络 - Google Patents

日志采集服务器及数据包分发、日志聚类方法及网络 Download PDF

Info

Publication number
CN102724063B
CN102724063B CN201210147469.9A CN201210147469A CN102724063B CN 102724063 B CN102724063 B CN 102724063B CN 201210147469 A CN201210147469 A CN 201210147469A CN 102724063 B CN102724063 B CN 102724063B
Authority
CN
China
Prior art keywords
node
log
network
cluster
log recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210147469.9A
Other languages
English (en)
Other versions
CN102724063A (zh
Inventor
许长桥
关建峰
张宏科
曹远龙
权伟
刘诗维
文新
赵付涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201210147469.9A priority Critical patent/CN102724063B/zh
Publication of CN102724063A publication Critical patent/CN102724063A/zh
Application granted granted Critical
Publication of CN102724063B publication Critical patent/CN102724063B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种日志采集服务器,包括探测器单元、解析单元、Hash分流单元、聚簇与日志转发单元和数据库单元,所述探测器单元,用于数据流的旁路监听以及数据的采集;所述解析单元,用于对数据实时分析,提取数据包关键域,并发送给所述Hash分流单元;所述Hash分流单元,用于对数据包关键域进行Hash计算并分发数据包;所述聚簇与日志转发单元,用于确认所述日志采集服务器日志记录所属聚簇并计算所述日志采集服务器聚簇中心;所述数据库单元,用于对属于所述日志采集服务器的日志记录进行存储。本发明通过对数据包关键域的散列运算,实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载;提高了数据采集与聚类的高效性和可扩展性。

Description

日志采集服务器及数据包分发、日志聚类方法及网络
技术领域
本发明涉及计算机网络通信技术领域,特别涉及一种日志采集服务器及数据包分发、日志聚类方法及网络。
背景技术
数据采集是网络管理的基础,当前网络管理中一般采用网络监听技术,主要是对每个监管网络由单一监控代理负责数据采集。针对IP网络的数据采集技术一般分为三类:基于简单的网络管理协议(SNMP)、基于Net Flow以及基于流量全镜像。随着网络服务请求越来越大规模化以及网络业务多样化,面对网络数据流量的爆发式增长,网络服务信息情况变化快等状况,网络服务信息安全监管系统的运行需要大量的数据资料,同时也会产生大量的数据记录。因为单一终端能力有限,大规模网络服务请求时,系统采集数据时延增大。对于网络服务监管实时性强的特性,更需要多节点之间的协作以提高系统的性能和稳定性。
对等网络(Peer-to-Peer,P2P)是一种分布式网络,网络中的每个节点分享自己的存储、带宽等资源。凭借对系统中空闲节点资源充分利用,P2P技术降低了日志采集服务器的压力,提高了日志采集服务器之间日志记录的共享程度,为大规模日志记录存储提供了解决方案。
当前,P2P网络按照拓扑结构可分为中心化拓扑、非结构化拓扑、结构化拓扑三种。中心化拓扑使用单一服务器来存放所有节点的共享文件信息和节点信息。最早的中心化拓扑是Napster。结构化拓扑结构采用的是分布式散列表(Distributed Hash Table,DHT)。通过散列函数,每个节点和关键字被映射为固定长度的散列值。其主要的分布式结构化拓扑结构有Tapestry、Chord、CAN和Pastry,其中最流行的是Chord。Chord的实现:采用哈希函数为每个节点产生一个m位的ID,并按照ID大小形成环状拓扑,采用哈希函数为每个文件名产生一个m位的key值,将其映射到ID值比自己key值大的最靠近自己的节点。
DHT作为P2P的典型分布式结构模型,具有分布式、自组织等特征,其在解决分布式环境下资料共享、可扩展性、低成本以及负载均衡等方面具有重要的优势,已成为互联网研究的关键技术。
现有技术中,存在一种基于机群的分布式数据采集系统。该系统通过对需要进行数据采集的网络划分为若干个机群,每个机群中安装一个管理中心并在一定数量的网络设备设置一个采集代理;整个系统由采集代理、管理中心、任务调度中心、采集控制平台组成;解决采集过程中数据传输拥塞和数据处理瓶颈等问题。
该系统存在一定主要缺陷在于:1)机群需要与IP地址范围绑定。此系统不适合动态IP网络,并且不同机群内主机访问网络的流量不同,将造成的各数据采集代理负载不均衡问题。2)采用中心化的数据库进行日志存储。基于单一化结构在大量数据记录存储的时候具有一定的瓶颈,原因在于:a)单一节点失败问题;b)可扩展性、健壮性差等。
在另外一种方案中,更多的考虑如何将分布式存储的网络日志记录进行例如以行为、兴趣相似等为目标的聚类以达到日志记录可以更为精确、有效的服务于网络监控系统。因此,我们需要对以分布式结构存储的网络日志进行进一步的聚类。
k-Dmeans算法为当前典型的一种分布式聚类算法,但因为算法在迭代过程中所有节点间需要传输大量的数据对象所造成的通信代价大,在处理大数据量时效率低等问题。现有技术提出了一种改进的分布式聚类算法Dk-means。其思想是任意选取一个节点为主节点,其余节点为从节点,主节点随机产生k个聚簇中心作为全局初始聚簇中心,并将其广播给其他所有从节点;各从节点根据这些中心确认本节点数据对象所属聚簇,并得到局部聚簇中心,同时,从节点将本节点的局部聚簇中心及相应簇的数据对象总数传送给主节点;主节点根据这些聚簇信息计算全局聚簇中心。迭代上述过程直到给定的全局判别函数值稳定。
这种方案在大规模数据需要处理时,任意选取一个节点作为主节点,可能会造出性能较高、较空闲的节点不被作为主节点;另外,单一节点能力始终有限,在海量数据聚类过程中将不可避免的成为瓶颈。
在实现本发明的过程中,发明人发现现有技术尚没有一种多节点协作的、分布式网络数据采集与聚类模型,无法解决单一节点失败和大规模网络日志下处理时延大等问题,存在着数据采集与聚类效率不高,扩展性差的问题。
发明内容
为了解决现有技术中网络数据采集与聚类方案无法解决单一节点失败和大规模网络日志下处理时延大等问题,存在着数据采集与聚类效率不高,扩展性差的问题,本发明实施例提供了一种日志采集服务器及数据包分发、日志聚类方法及网络。所述技术方案如下:
一种日志采集服务器,包括探测器单元、解析单元、Hash分流单元、聚簇与日志转发单元和数据库单元,其中,
所述探测器单元,用于数据流的旁路监听以及数据的采集;
所述解析单元,用于对数据实时分析,提取数据包关键域,并发送给所述Hash分流单元;
所述Hash分流单元,用于对数据包关键域进行Hash计算并分发数据包;
所述聚簇与日志转发单元,用于确认所述日志采集服务器日志记录所属聚簇并计算所述日志采集服务器聚簇中心;
所述数据库单元,用于对属于所述日志采集服务器的日志记录进行存储。
所述Hash分流单元进一步用于向其它日志采集服务器发送所述日志采集服务器聚簇中心点及相应簇的数据对象总数。
一种数据包分发方法,所述方法包括:
日志采集服务器抓取数据包并进行解析;
根据所述数据包的关键域,运行Hash函数,获得所述数据包的Key值;
查找与所述Key值对应的日志采集服务器,并将所述数据包转发给所述Key值对应的日志采集服务器;
所述Key值对应的日志采集服务器接收到分发的数据包,提取数据包的特征域,在数据库中进行日志存储。
所述数据包的关键域包括所述数据包的源地址IP、目的地址IP、源端口、目的端口和传输层协议五元组信息;
根据所述数据包的关键域,运行Hash函数,获得所述数据包的Key值,根据公式
Key=hash(SrcIP+DstIP+SrcPort+DstPort+Proto)
进行计算;其中,SrcIP表示为源地址IP;DstIP为目的地址IP;SrcPort为源地址端口;DstPort为目的地址端口;Proto为传输协议码。
所述在数据库中存储的日志包括但不限于如下特征:
数据、时间、源地址IP、目的地址IP、源地址端口、目的地址端口和传输协议码。
一种分布式散列表网络,由如上所述的日志采集服务器组成,每个日志采集服务器为一个节点,其中,
通过一致性hash函数将每个节点映射到Chord环中的一个点,用ServerID(i)表示每个节点在分布式散列表网络中的标号;
整个网络中有N个节点,各节点相应的X维局部日志记录集分别为{DB1,DB2,…,DBX},每个局部日志记录集的大小分别为L1,L2,…,LX为全局日志记录集;全局日志记录集可划分为K个聚簇W1,W2,…,WK,中心点依次为C1,C2,…,CK;其中 CD是簇Wi中的日志记录,Ni是簇Wi中的日志记录条数。
所述网络聚类效果的好坏以目标函数 衡量;
其中K表示全局日志记录集中的聚簇个数;Ni表示局部聚簇日志记录条数;dij(CDj,Ci)表示日志记录CDj和中心点Ci之间的距离。
该网络进一步包括:
当一个节点离开网络,它将移交它的日志记录到同属于网络的一个邻居节点;
当一个新的节点加入到网络,它将从一个邻居节点获得一些日志记录来作为它的初始信息;
当节点在处于日志聚类计算状态时意外的离开网络,那么日志聚类分析状态标志会被设置为False,当该节点再次进入到网络,它将重新计算本节点的局部聚类信息。
一种日志聚类方法,应用于如上所述的分布式散列表网络,所述方法包括:
每次聚类开始前,在M个节点中动态选取性能较好、在线时间比较稳定的节点作为强节点;
强节点随机产生K个初始集群聚簇中心(C1,C2,…,CK)并广播给普通节点;
普通节点根据这些聚簇中心确认本节点日志记录所属聚簇,计算局部聚簇中心;将本节点的局部聚簇中心点及相应簇的日志记录总数{(Ci1,ni1),…,(Cik,nik)}(1<=i<=N)传送给强节点;
强节点根据普通节点发送的聚簇信息计算全局聚簇中心。
该方法进一步包括:
以目标函数 是否稳定来判定聚类效果好坏;其中K表示全局日志记录集中的聚簇个数;Ni表示局部聚簇日志记录条数;dij(CDj,Ci)表示日志记录CDj和中心点Ci之间的距离。
根据如下公式选取强节点:
Load node ( i ) = load d + load b + &PartialD; * sizeof ( SpaceUsed )
Sourcenode(i)=αPnode(i)-βLnode(i)
其中,Loadnode(i)表示第i个节点的工作负载;Loadd表示节点接收和处理数据包的负载;Loadb表示向其它节点广播自身的负载信息和进行负载计算所带来的负载消耗;SpaceUsed表示日志记录使用数据库空间;Pnode(i)表示节点i的处理能力;Sourcenode(i)的大小反映了节点i当前可用的资源; α和β为实验参数,根据经验设定。
强节点根据普通节点发送的聚簇信息计算全局聚簇中心,包括:
根据公式
C j = n 1 j &times; C 1 j + n 2 j &times; C 2 j + &CenterDot; &CenterDot; &CenterDot; + n pj &times; C pj n 1 j + n 2 j + &CenterDot; &CenterDot; &CenterDot; + n pj , ( 1 &le; j &le; K )
计算全局聚簇中心。
该方法进一步包括:
设置一个聚类周期Ttheshold,当周期时间到达,开始执行一次日志的聚类。
本发明实施例提供的技术方案带来的有益效果是:
通过提出一种以DHT技术为基础的多节点协作的、分布式网络数据采集与聚类模型,分别提出了日志采集服务器进行日志采集和数据包分发的过程,设计了合理的数据包分发算法,通过对数据包关键域的散列运算,实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载;同时结合DHT特性,引入了强节点的选取规则,提出一个改进的、基于动态强节点的聚类算法SDk-means。本发明实施例提供的方案,具有较好的均衡负载、解决了单一节点失败和大规模网络日志下处理时延大等问题;提高了数据采集与聚类的高效性和可扩展性,并为网络监管提供了数据保障。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的基于DHT的分布式网络数据采集与聚类模型示意图;
图2是本发明实施例2提供的日志采集服务器结构示意图;
图3是本发明实施例3提供的数据包分发方法原理流程图;
图4是本发明实施例3提供的查找与Key值对应的日志采集服务器的过程示意图;
图5是本发明实施例5提供的日志聚类方法原理流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例的原理在于提供一种DHT网络以及网络相关的数据采集服务器,通过数据采集服务器的工作实现数据包的转发和日志的聚类,从而实现多节点协作的、分布式网络数据采集与聚类模型,实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载,并提出一个改进的、基于动态强节点的聚类算法SDk-means。
实施例1
如图1所示,为本发明实施例1提供的基于DHT的分布式网络数据采集与聚类模型(以下简称“模型”)示意图,其中,
DHT网络:DHT网络由“日志采集服务器”组成。在本实施例1中,通过一致性hash函数如SHA-1将“日志采集服务器”映射到Chord环中的一个点,用ServerID(i)表示“日志采集服务器”在DHT网络中的标号。DHT网络的主要功能在于:在分布式网络结构下接收、存储和分发网络数据包。一旦有“日志采集服务器”离开或新的“日志采集服务器”加入网络,DHT网络需要做自我信息更新。
日志采集服务器:每一个“日志采集服务器”与需要进行数据采集的出口设备(如路由器/交换机)相连。日志采集服务器由探测器、解析模块、Hash分流模块以及数据库组成。其功能在于:1)执行“中心管理服务器(Web Console)”设置的采集规则对数据流旁路监听和数据抓取;2)执行散列算法,分发数据包和存储日志记录;3)执行SDk-means算法,实现网络日志聚类。
中心管理服务器(Web Console):其功能在于提供友好的用户配置和管理界面,提供数据的显示、报警等功能。
强节点:“强节点”是一个特殊的“日志采集服务器”,应具有以下2个特性:1)较高的CPU性能;2)较高的稳定性。第3节将给出一个“强节点”选取规则。其功能在于:1)选取聚簇中心并以广播的形式分发给其他“日志采集服务器”;2)根据其他“日志采集服务器”发送的聚簇消息计算全局聚簇中心。
实施例2
如图2所示,为本发明实施例2提供的日志采集服务器结构示意图,包括探测器单元11、解析单元12、Hash分流单元13、聚簇与日志转发单元14和数据库单元15,其中,
探测器单元11,用于数据流的旁路监听以及数据的采集。
如实施例1中所述,每一个日志采集服务器与需要进行数据采集的出口设备(如路由器/交换机)相连,也即,日志采集服务器需要对数据流进行旁路监听和对相应的数据进行采集,探测器单元11就是用于采集数据的。
解析单元12,用于对数据实时分析,提取数据包关键域,并发送给Hash分流单元13。
解析单元12主要的工作在于对探测器单元11采集的数据进行实时的解析,提取数据包的关键域。这里,数据包的关键域一般包括数据包的源地址IP、目的地址IP、源端口、目的端口、传输层协议这五个信息的五元组信息。
解析单元12在解析数据包的关键域时候,需要判断数据包是否存在包括五元组信息的关键域信息,如果有,将该数据包以及五元组信息发送给Hash分流单元13;否则,丢弃该数据包。
Hash分流单元13,用于对数据包关键域进行Hash计算并分发数据包。
Hash分流单元13在接收到数据包五元组信息后,运行Hash函数,根据数据包的五元组信息计算该数据包所属的其它的日志采集服务器,将该数据包转发给该日志采集服务器。
具体的计算所需要的公式如下:
Key=hash(SrcIP+DstIP+SrcPort+DstPort+Proto)
其中,SrcIP表示为源地址IP;DstIP为目的地址IP;SrcPort为源地址端口;DstPort为目的地址端口;Proto为传输协议码。
聚簇与日志转发单元14,用于执行SDk-means算法,确认日志采集服务器日志记录所属聚簇并计算日志采集服务器聚簇中心。
这里,聚簇与日志转发单元14需要具体的执行聚类算法,根据聚类算法的结果确认本日志采集服务器日志记录所属聚簇并计算日志采集服务器聚簇中心。
数据库单元15,用于对属于日志采集服务器的日志记录进行存储。
数据库单元15用于存储本日志采集服务器的日志记录数据。
特别的,Hash分流单元13进一步用于向其它日志采集服务器发送本日志采集服务器聚簇中心点及相应簇的数据对象总数。
实施例3
如图3所示为本发明实施例3提供的数据包分发方法原理流程图,其中,
步骤21,日志采集服务器抓取数据包并进行解析。
日志采集服务器位于DHT网络中,通过对数据流进行监听来抓取数据包并进行解析。解析的目的之一在于得到该数据包的关键域。该数据包的关键域包括所述数据包的源地址IP、目的地址IP、源端口、目的端口和传输层协议五元组信息。
步骤22,根据数据包的关键域,运行Hash函数,获得数据包的Key值。
这里,需要根据如下公式计算数据包的Key值:
Key=hash(SrcIP+DstIP+SrcPort+DstPort+Proto)
其中,SrcIP表示为源地址IP;DstIP为目的地址IP;SrcPort为源地址端口;DstPort为目的地址端口;Proto为传输协议码。
当然,如果解析出来的该数据包没有包括关键域的五元组,或者五元组信息不全,则可以丢掉该数据包,不再进行分流。
步骤23,查找与Key值对应的日志采集服务器,并将数据包转发给Key值对应的日志采集服务器。
这里,为了描述方便,定义了一些标记,具体如表一所示。
表一
查找与Key值对应的日志采集服务器的过程,参见图4。也就是要查找与Successor(Key)对应的ServerID(i)。如图4所示,ServerID(s)或ServerID(t)与Successor(key(packet(j)))相匹配,则ServerID(i)将packet(j)(j∈{x,y,z})的数据包传送到ServerID(s)或ServerID(t)。Successor(key(packet(j))表示为关键字key(packet(j))的后继节点。关于具体的计算方法,为本领域公知技术,此处不再赘述。
在找到了数据包所属的日志采集服务器后,将数据包散列到该日志采集服务器上。
步骤24,Key值对应的日志采集服务器接收到分发的数据包,提取数据包的特征域,在数据库中进行日志存储。
收到数据包的日志采集服务器,提取数据包的特征域,按如表二所示在数据库中进行日志存储。
表二
Data Time SrcIP DstIP SrcPort DstPort Proto
表二中,包括了数据、时间、源地址IP、目的地址IP、源地址端口、目的地址端口和传输协议码。
这样,每个数据包都得到了合适的散列分发。
实施例4
本发明实施例4提供了一种DHT网络,该网络由若干个日志采集服务器组成,每个日志采集服务器为网络中的一个节点,通过一致性hash函数将每个节点映射到Chord环中的一个点,用ServerID(i)表示每个节点在分布式散列表网络中的标号;整个网络中有N个节点,各节点相应的X维局部日志记录集分别为{DB1,DB2,…,DBX},每个局部日志记录集的大小分别为 为全局日志记录集;全局日志记录集可划分为K个聚簇W1,W2,…,WK,中心点依次为C1,C2,…,CK;其中 CD是簇Wi中的日志记录,Ni是簇Wi中的日志记录条数。
并且,在该DHT网络中,网络聚类效果的好坏以目标函数 衡量;
其中K表示全局日志记录集中的聚簇个数;Ni表示局部聚簇日志记录条数;dij(CDj,Ci)表示日志记录CDj和中心点Ci之间的距离。
当一个节点离开DHT网络,它将移交它的日志记录到同属于DHT网络的一个邻居节点。当一个新的节点加入到DHT网络。它将从一个邻居节点获得一些日志记录来作为它的初始信息。当然,节点也有可能在处于日志聚类计算状态时意外的离开DHT网络。如果日志聚类计算未完成的状态下离开DHT网络,那么日志聚类分析状态标志会被设置为‘False’。这样,当该节点再次进入到DHT网络,那么它将重新计算本节点的局部聚类信息。
实施例5
如图5所示,为本发明实施例5提供的日志聚类方法原理流程图,其中,
步骤31,每次聚类开始前,在M个节点中动态选取性能较好、在线时间比较稳定的节点作为强节点。
这里,需要动态选取“强节点”。每次聚类开始前,在M个节点中动态选取一个强节点。原则上选取性能较好、在线时间比较稳定的节点作为强节点。如下两个公式给出了一个节点性能评估参考,通过广播自身的可用资源信息,动态地选定本次聚类的强节点。
Load node ( i ) = load d + load b + &PartialD; * sizeof ( SpaceUsed )
Sourcenode(i)=αPnode(i)-βLnode(i)
公式中,Loadnode(i)表示第i个节点的工作负载;Loadd表示节点接收和处理数据包的负载,在一致性哈希数据包分流情况下,可认为每个节点的Loadd是相同的。Loadb表示向其他节点广播自身的负载信息和进行负载计算所带来的负载消耗,所有节点此部分的负载消耗也可认为是相同的。SpaceUsed表示日志记录使用数据库空间;Pnode(i)表示节点i的处理能力;Sourcenode(i)的大小反映了节点i当前可用的资源; α和β为实验参数,通过实验数据获得,可以根据需要设定。
步骤32,强节点随机产生K个初始集群聚簇中心(C1,C2,…,CK)并广播给普通节点。
“强节点”随机产生K个初始集群聚簇中心(C1,C2,…,CK)并广播给其他节点(称之为“普通节点”)。
步骤33,普通节点根据这些聚簇中心确认本节点日志记录所属聚簇,计算局部聚簇中心;将本节点的局部聚簇中心点及相应簇的日志记录总数{(Ci1,ni1),…,(Cik,nik)}(1<=i<=N)传送给强节点。
步骤34,强节点根据普通节点发送的聚簇信息计算全局聚簇中心。
具体的计算根据如下公式进行:
C j = n 1 j &times; C 1 j + n 2 j &times; C 2 j + &CenterDot; &CenterDot; &CenterDot; + n pj &times; C pj n 1 j + n 2 j + &CenterDot; &CenterDot; &CenterDot; + n pj , ( 1 &le; j &le; K )
进一步的,需要迭代步骤52、53和54,直到全局判别函数E值稳定。
全局判别函数E与目标函数E相同,根据如下公式计算得到:
E = &Sigma; i = 1 K &Sigma; j = 1 N I d ij ( CD j , C i )
其中,K表示全局日志记录集中的聚簇个数;Ni表示局部聚簇日志记录条数;dij(CDj,Ci)表示日志记录CDj和中心点Ci之间的距离。
通过目标函数E是否稳定来判定聚类效果好坏。
进一步的,为避免频繁聚类带来的负载和网络资源的浪费,我们设置了一个聚类周期Ttheshold,当周期时间到达,则开始执行SDk-means算法进行日志的聚类。
同样的,当一个节点离开DHT网络,它将移交它的日志记录到同属于DHT网络的一个邻居节点。当一个新的节点加入到DHT网络。它将从一个邻居节点获得一些日志记录来作为它的初始信息。当然,节点也有可能在处于日志聚类计算状态时意外的离开DHT网络。如果日志聚类计算未完成的状态下离开DHT网络,那么日志聚类分析状态标志会被设置为‘False’。这样,当该节点再次进入到DHT网络,那么它将重新计算本节点的局部聚类信息。
综上,本发明各个实施例提供的方案,针对海量数据记录,以分布式散列表DHT技术为基础,提出了一种多节点协作的、分布式网络数据采集与聚类模型。设计了合理的数据包分发算法,通过对数据包关键域的散列运算,实现数据包的快速分流、网络日志的分布式存储及日志服务器的均衡负载;同时结合DHT特性,引入了“强节点”的选取规则,提出一个改进的、基于动态“强节点”的聚类算法SDk-means。实验表明,该模式具有较好的均衡负载、解决了单一节点失败和大规模网络日志下处理时延大等问题;提高了数据采集与聚类的高效性和可扩展性,并为网络监管提供了数据保障。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种日志采集服务器,其特征在于,包括探测器单元、解析单元、Hash分流单元、聚簇与日志转发单元和数据库单元,其中,
所述探测器单元,用于数据流的旁路监听以及数据的采集;
所述解析单元,用于对数据实时分析,提取数据包关键域,并发送给所述Hash分流单元;
所述Hash分流单元,用于对数据包关键域进行Hash计算并分发数据包;向其它日志采集服务器发送所述日志采集服务器聚簇中心点及相应簇的数据对象总数;
所述聚簇与日志转发单元,用于确认所述日志采集服务器日志记录所属聚簇并计算所述日志采集服务器聚簇中心;
所述数据库单元,用于对属于所述日志采集服务器的日志记录进行存储。
2.一种分布式散列表网络,由如权利要求1所述的日志采集服务器组成,其特征在于,每个日志采集服务器为一个节点,其中,
通过一致性hash函数将每个节点映射到Chord环中的一个点,用ServerID(i)表示每个节点在分布式散列表网络中的标号;
整个网络中有N个节点,各节点相应的X维局部日志记录集分别为{DB1,DB2,…,DBX},每个局部日志记录集的大小分别为L1,L2,…,LX为全局日志记录集;全局日志记录集可划分为K个聚簇W1,W2,…,WK,中心点依次为C1,C2,…,CK;其中CD是簇Wi中的日志记录,Ni是簇Wi中的日志记录条数。
3.如权利要求2所述的分布式散列表网络,其特征在于,所述分布式散列表网络的聚类效果的好坏以目标函数衡量;
其中K表示全局日志记录集中的聚簇个数;Ni表示局部聚簇日志记录条数;dij(CDj,Ci)表示日志记录CDj和中心点Ci之间的距离。
4.如权利要求2所述的分布式散列表网络,其特征在于,该网络进一步包括:
当一个节点离开网络,它将移交它的日志记录到同属于网络的一个邻居节点;
当一个新的节点加入到网络,它将从一个邻居节点获得一些日志记录来作为它的初始信息;
当节点在处于日志聚类计算状态时意外的离开网络,那么日志聚类分析状态标志会被设置为False,当该节点再次进入到网络,它将重新计算本节点的局部聚类信息。
5.一种日志聚类方法,应用于如权利要求2所述的分布式散列表网络,其特征在于,所述方法包括:
每次聚类开始前,在M个节点中动态选取性能较好、在线时间比较稳定的节点作为强节点;
强节点随机产生K个初始集群聚簇中心(C1,C2,…,CK)并广播给普通节点;
普通节点根据这些聚簇中心确认本节点日志记录所属聚簇,计算局部聚簇中心;将本节点的局部聚簇中心点及相应簇的日志记录总数{(Ci1,ni1),…,(Cik,nik)}传送给强节点,其中,1<=i<=N;
强节点根据普通节点发送的聚簇信息计算全局聚簇中心。
6.如权利要求5所述的方法,其特征在于,该方法进一步包括:
以目标函数是否稳定来判定聚类效果好坏;其中K表示全局日志记录集中的聚簇个数;Ni表示局部聚簇日志记录条数;dij(CDj,Ci)表示日志记录CDj和中心点Ci之间的距离。
7.如权利要求5所述的方法,其特征在于,根据如下公式选取强节点:
Load n o d e ( i ) = load d + load b + &part; * s i z e o f ( S p a c e U s e d )
Sourcenode(i)=αPnode(i)-βLnode(i)
其中,Loadnode(i)表示第i个节点的工作负载;Loadd表示节点接收和处理数据包的负载;Loadb表示向其它节点广播自身的负载信息和进行负载计算所带来的负载消耗;SpaceUsed表示日志记录使用数据库空间;Pnode(i)表示节点i的处理能力;Sourcenode(i)的大小反映了节点i当前可用的资源;,α和β为实验参数,根据经验设定。
8.如权利要求5所述的方法,其特征在于,该方法进一步包括:
设置一个聚类周期Tthreshold,当周期时间到达,开始执行一次日志的聚类。
CN201210147469.9A 2012-05-11 2012-05-11 日志采集服务器及数据包分发、日志聚类方法及网络 Expired - Fee Related CN102724063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210147469.9A CN102724063B (zh) 2012-05-11 2012-05-11 日志采集服务器及数据包分发、日志聚类方法及网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210147469.9A CN102724063B (zh) 2012-05-11 2012-05-11 日志采集服务器及数据包分发、日志聚类方法及网络

Publications (2)

Publication Number Publication Date
CN102724063A CN102724063A (zh) 2012-10-10
CN102724063B true CN102724063B (zh) 2016-12-07

Family

ID=46949732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210147469.9A Expired - Fee Related CN102724063B (zh) 2012-05-11 2012-05-11 日志采集服务器及数据包分发、日志聚类方法及网络

Country Status (1)

Country Link
CN (1) CN102724063B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301240B (zh) * 2013-07-19 2019-02-22 腾讯科技(深圳)有限公司 数据传输方法及系统
CN103927252A (zh) * 2014-04-18 2014-07-16 安徽科大讯飞信息科技股份有限公司 一种跨组件日志记录方法、装置及系统
CN103973785B (zh) * 2014-05-07 2018-06-19 Tcl集团股份有限公司 一种基于p2p的日志读取系统及其方法
CN105099735B (zh) * 2014-05-07 2018-05-22 中国移动通信集团福建有限公司 一种获取海量详细日志的方法及系统
CN104391954B (zh) * 2014-11-27 2019-04-09 北京国双科技有限公司 数据库日志的处理方法及装置
CN104917627B (zh) * 2015-01-20 2018-06-19 杭州安恒信息技术有限公司 一种用于大型服务器集群的日志集群扫描与分析方法
CN106302577B (zh) * 2015-05-19 2019-07-09 广州四三九九信息科技有限公司 日志处理方法
CN105007278A (zh) * 2015-07-31 2015-10-28 中国电建集团成都勘测设计研究院有限公司 网络安全日志的自动化实时采集系统及其采集方法
CN107404658A (zh) * 2016-05-19 2017-11-28 中兴通讯股份有限公司 一种交互式网络电视系统及用户数据实时获取方法
CN106354795B (zh) * 2016-08-26 2019-09-17 南威软件股份有限公司 一种分布式数据交换系统
CN110232053B (zh) * 2017-12-05 2024-02-02 华为技术有限公司 日志处理方法、相关设备及系统
CN110851525B (zh) * 2018-07-24 2022-08-26 华为云计算技术有限公司 一种数据分片方法、相关设备及计算机存储介质
CN109376136A (zh) * 2018-10-19 2019-02-22 郑州云海信息技术有限公司 一种分布式日志处理系统、网络设备及方法
CN109344139A (zh) * 2018-11-01 2019-02-15 浪潮电子信息产业股份有限公司 一种存储系统操作日志的聚合方法及相关装置
CN109962978A (zh) * 2019-02-28 2019-07-02 深圳市盛弘电气股份有限公司 充电桩日志导出方法、充电桩以及控制设备
CN109960630B (zh) * 2019-03-18 2020-09-29 四川长虹电器股份有限公司 一种快速从大批量压缩文件中提取日志的方法
CN110401657B (zh) * 2019-07-24 2020-09-25 网宿科技股份有限公司 一种访问日志的处理方法及装置
CN110990335B (zh) * 2019-12-06 2023-07-18 深圳前海微众银行股份有限公司 日志归档方法、装置、设备及计算机可读存储介质
CN114389792B (zh) * 2022-03-22 2022-06-10 合肥全息网御科技有限公司 一种web日志nat前后关联方法及系统
CN114722081B (zh) * 2022-06-09 2022-09-02 杭银消费金融股份有限公司 一种基于中转库模式的流式数据时间序列传输方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置
CN102209019A (zh) * 2010-03-30 2011-10-05 杭州华三通信技术有限公司 一种基于报文净荷的负载均衡方法和负载均衡设备
CN102411533A (zh) * 2011-08-08 2012-04-11 浪潮电子信息产业股份有限公司 一种集群存储系统的日志管理优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160063B2 (en) * 2008-06-09 2012-04-17 Microsoft Corporation Data center interconnect and traffic engineering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置
CN102209019A (zh) * 2010-03-30 2011-10-05 杭州华三通信技术有限公司 一种基于报文净荷的负载均衡方法和负载均衡设备
CN102411533A (zh) * 2011-08-08 2012-04-11 浪潮电子信息产业股份有限公司 一种集群存储系统的日志管理优化方法

Also Published As

Publication number Publication date
CN102724063A (zh) 2012-10-10

Similar Documents

Publication Publication Date Title
CN102724063B (zh) 日志采集服务器及数据包分发、日志聚类方法及网络
Voulgaris et al. A robust and scalable peer-to-peer gossiping protocol
Jelasity et al. T-Man: Gossip-based overlay topology management
Gao et al. An adaptive protocol for efficient support of range queries in DHT-based systems
Chockler et al. Spidercast: a scalable interest-aware overlay for topic-based pub/sub communication
CN104717304B (zh) 一种cdn‑p2p内容优化选择系统
CN110866046B (zh) 一种可扩展的分布式查询方法及装置
CN103546327B (zh) 一种建立基于jxta的混合式拓扑的网络管理模型的方法
Shen et al. A proximity-aware interest-clustered P2P file sharing system
Graffi et al. Skyeye. kom: An information management over-overlay for getting the oracle view on structured p2p systems
Forestiero et al. Antares: An ant-inspired P2P information system for a self-structured grid
Meiklejohn et al. Loquat: A framework for large-scale actor communication on edge networks
Zou et al. Reducing the vulnerability of network by inserting modular topologies
CN101883030A (zh) 一种基于ip地址随机测度的p2p节点检测方法
Tran et al. Iot data discovery: Routing table and summarization techniques
Hasan et al. A self adaptive super peer based topology for unstructured P2P system
Takeda et al. New structured p2p network with dynamic load balancing scheme
Ke et al. Analysis of overlay topology of peer-to-peer applications
Huang et al. A partition-based broadcast algorithm over DHT for large-scale computing infrastructures
Baldoni et al. Improving validity of query answering in dynamic systems
Melo et al. Impact of churn on object management policies
Bracciale et al. Simulation of Peer-to-peer streaming over large-scale networks using OPSS
Vieira et al. Performance evaluation of an object management policy approach for p2p networks
Talia et al. Adapting a pure decentralized peer-to-peer protocol for grid services invocation
Kazmi et al. Cluster based peers configuration using HCNP in peer-to-peer overlay networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161207

Termination date: 20170511