CN103379140A - 一种日志处理规则同步方法及相关设备和系统 - Google Patents

一种日志处理规则同步方法及相关设备和系统 Download PDF

Info

Publication number
CN103379140A
CN103379140A CN2012101134396A CN201210113439A CN103379140A CN 103379140 A CN103379140 A CN 103379140A CN 2012101134396 A CN2012101134396 A CN 2012101134396A CN 201210113439 A CN201210113439 A CN 201210113439A CN 103379140 A CN103379140 A CN 103379140A
Authority
CN
China
Prior art keywords
log
log collection
property value
value
collection data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101134396A
Other languages
English (en)
Other versions
CN103379140B (zh
Inventor
陈肃
陶振武
胡可云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210113439.6A priority Critical patent/CN103379140B/zh
Publication of CN103379140A publication Critical patent/CN103379140A/zh
Application granted granted Critical
Publication of CN103379140B publication Critical patent/CN103379140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种日志处理规则同步方法及相关设备和系统,包括:日志采集服务器确定更新的日志处理规则;并向网络日志服务器发送携带更新的日志处理规则的规则同步指示消息。相应的,网络日志服务器接收日志采集服务器发送的规则同步指示消息;并使用该规则同步指示消息中携带的该更新的日志处理规则,更新保存的原日志处理规则。采用本发明实施例提供的方案,能够在网络日志服务器侧及时更新日志处理规则。

Description

一种日志处理规则同步方法及相关设备和系统
技术领域
本发明涉及通信技术领域中的网络日志采集技术领域,尤其涉及一种日志处理规则同步方法及相关设备和系统。
背景技术
随着互联网的发展,根据用户的实际偏好进行业务优化和个性化信息服务已经成为业内的普遍共识。实际应用情况表明,采用个性化服务后,通常会带来超过20%的业务量提升。实现个性化服务的前提是获取用户的访问偏好信息,例如,可以通过在应用系统/Web页面中植入采集代码实现的。采集代码将用户访问网站的行为以日志形式记录,并发送到日志采集服务器,从而实现用户行为的汇总分析。这种偏好数据的获取方法的局限在于只能获取用户在一个或几个指定网站中的访问偏好,难以得到用户较为完整的互联网访问行为记录,进而限制了对用户的访问偏好分析的准确性和应用效果。此外,在应用系统/Web页面中植入代码进行访问网站的日志采集,会带来额外的开发和维护成本。
目前,现有技术中还提出一种从用户网络接入的网关设备上进行网络日志采集的方案。当用户使用2G/3G移动通讯网络,或使用PPPoE(point-to-pointprotocol over ethernet)等协议连入有线网络后,可以由网关设备侧的网络日志服务器,从网关设备上获得用户的上网日志,例如,典型的日志信息包括:UID(User Identifier,用户标识)、URL(Uniform/Universal Resource Locator,统一资源定位符)、时间戳、以及其它属性字段等。这些日志信息汇总到日志采集服务器后,可用于分析用户偏好,实现业务优化和个性化服务。
由于网络中网关设备的数量较多,且分布不均的特点,用于从网关设备上获取网络日志的各网络日志服务器在物理上是分布式的,并需要将各自得到的日志信息通过网络传送至日志采集服务器,由于原始日志信息的数据量较大,将原始日志信息传送至日志采集服务器则需要较高的网络带宽。因此,在实际应用中,可以根据构建的用户兴趣模型的实际需求,只从网络设备中获取必要的用户偏好信息,并且为了减少需要传输的日志信息的数据量,可以将从原始日志信息中获取必要日志信息的处理工作,由网络日志服务器进行。
然而,用户兴趣模型的构建方法可能随着业务需求动态变化,导致需要的必要日志信息发生变化,从而对网络日志服务器的日志采集处理操作提出新的要求,此时,网络日志服务器需要及时获知新的日志处理规则,从而保证得到的日志采集数据与需要的日志信息一致。
发明内容
本发明实施例提供一种日志处理规则同步方法及相关设备和系统,用以解决现有技术中存在的在网络日志服务器侧无法及时更新日志处理规则的问题。
本发明实施例提供一种日志处理规则同步方法,包括:
网络日志服务器接收日志采集服务器发送的规则同步指示消息,所述规则同步指示消息中携带更新的日志处理规则;
使用所述规则同步指示消息中携带的所述更新的日志处理规则,更新保存的原日志处理规则。
本发明实施例还提供一种日志处理规则同步方法,包括:
日志采集服务器确定更新的日志处理规则;
向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息,指示所述网络日志服务器使用所述更新的日志处理规则,更新保存的原日志处理规则。
本发明实施例还提供一种网络日志服务器,包括:
第一接收单元,用于接收日志采集服务器发送的规则同步指示消息,所述规则同步指示消息中携带更新的日志处理规则;
第一规则同步单元,用于使用所述规则同步指示消息中携带的所述更新的日志处理规则,更新保存的原日志处理规则。
本发明实施例还提供一种日志采集服务器,包括:
第二规则同步单元,用于确定更新的日志处理规则;
第二发送单元,用于向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息,指示所述网络日志服务器使用所述更新的日志处理规则,更新保存的原日志处理规则。
本发明实施例还提供一种日志处理规则同步系统,包括:
至少一个上述网络日志服务器,以及上述日志采集服务器。
本发明有益效果包括:
本发明实施例提供的方法中,日志采集服务器在确定出更新的日志处理规则后,向网络日志服务器发送携带该更新的日志处理规则的规则同步指示消息,相应的,网络日志服务器在接收到该规则同步指示消息后,使用其中携带的该更新的日志处理规则,更新保存的原日志处理规则,从而实现了日志处理规则在网络日志服务器上的及时更新,进而使得后续使用日志处理规则,对原始日志数据进行处理得到的日志采集数据,与日志采集服务器侧需要的日志采集数据保持一致。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的应用于网络日志服务器侧的日志处理规则同步方法的流程图;
图2为本发明实施例提供的应用于日志采集服务器侧的日志处理规则同步方法的流程图;
图3为本发明实施例1中提供的日志处理规则同步方法的流程图;
图4为本发明实施例2中提供的日志数据处理和传送过程的流程图;
图5为本发明实施例2中建立的二叉树的结构示意图之一;
图6为本发明实施例2中建立的二叉树的结构示意图之二;
图7为本发明实施例2中建立的二叉树的结构示意图之三;
图8为本发明实施例2中建立的二叉树的结构示意图之四;
图9为本发明实施例2中建立的二叉树的结构示意图之五;
图10为本发明实施例3中提供的网络日志服务器的结构示意图;
图11为本发明实施例4中提供的日志采集服务器的结构示意图;
图12为本发明实施例5中提供的日志处理规则同步系统的结构示意图。
具体实施方式
为了给出在网络日志服务器侧及时更新日志处理规则的实现方案,本发明实施例提供了一种日志处理规则同步方法及相关设备和系统,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种日志处理规则同步方法,应用于网络日志服务器侧,如图1所示,包括:
步骤101、网络日志服务器接收日志采集服务器发送的规则同步指示消息,该规则同步指示消息中携带更新的日志处理规则。
步骤102、使用该规则同步指示消息中携带的该更新的日志处理规则,更新保存的原日志处理规则。
相应的,本发明实施例还提供一种日志处理规则同步方法,应用于日志采集服务器侧,如图2所示,包括:
步骤201、日志采集服务器确定更新的日志处理规则。
步骤202、向网络日志服务器发送携带更新的日志处理规则的规则同步指示消息,指示网络日志服务器使用该更新的日志处理规则,更新保存的原日志处理规则。
下面结合附图,用具体实施例对本发明提供的方法进行详细描述。
实施例1:
图3为本发明实施例1中提供的日志处理规则同步方法的流程图,具体包括如下处理步骤:
步骤301、日志采集服务器确定更新的日志处理规则。
当随着业务需求的变化,用户兴趣模型的构建方法也相应发生变化时,所需要的日志采集数据也会发生变化,从而获得日志采集数据所使用的日志处理规则需要进行更新。
日志采集服务器具体可以根据对原始日志数据的提取需求,指定更新的日志处理规则。在不同的实际应用中,可能会面临不同粒度的原始日志数据提取需求,例如:提取URL类型及附属字段,提取URL的预定义分类及附属字段,提取指定的URL及附属字段等,具体的日志处理规则的表征形式,可以如下所示:
Figure BDA0000154084840000051
Figure BDA0000154084840000061
其中除了包括需要从原始日志数据中提取的各属性字段外,还可以包括日志采集时其它处理规则,例如,日志采集的周期,原始日志数据的处理周期,日志采集数据的上报周期等。
当需要提取URL预定义分类时,还需要从URL至预定义分类的映射表,这个表也可以作为日志处理规则的一部分,具体实例如下:
Figure BDA0000154084840000062
步骤302、日志采集服务器在确定出该更新的日志处理规则后,向网络日志服务器发送携带该更新的日志处理规则的规则同步指示消息。
本步骤中是由日志采集服务器主动向网络日志服务器发送规则同步指示消息,用于指示网络日志服务器对原日志处理规则进行更新。在其它实施例中,也可以由网络日志服务器主动向日志采集服务器发送规则同步请求,日志采集服务器在接收到该规则同步请求后,如果确定存在更新的日志处理规则,则向网络日志服务器发送上述规则同步指示消息,如果不存在更新的日志处理规则,则向网络日志服务器返回规则未更新通知消息,用于告知网络日志服务器当前不存在更新的日志处理规则。
步骤303、网络日志服务器在接收到该规则同步指示消息后,即可以进行日志处理规则的更新处理操作,具体的,可在本步骤中首先判断该规则同步指示消息中携带的日志处理规则是否为有效格式,如果是有效格式,进入步骤304,如果不是有效格式,进入步骤306。
步骤304、网络日志服务器使用规则同步指示消息中携带的该更新的日志处理规则,更新保存的原日志处理规则。
步骤305、网络日志服务器向日志采集服务器发送规则同步成功响应。
步骤306、网络日志服务器向日志采集服务器发送规则同步失败响应,较佳的,可以在规则同步失败响应中携带表征失败原因的信息,例如,携带表征失败原因为日志处理规则格式无效的信息。
步骤307、日志采集服务器接收网络日志服务器返回的响应,当接收到规则同步成功响应时,确认本次日志处理规则同步成功,当接收到规则同步失败响应时,确认本次日志处理规则同步失败,并可以根据其中携带的失败原因,和实际需要进行后续的处理操作,例如,启动再次规则同步的处理操作,或者采用其它方式进行规则同步的处理操作等,在此不再进行详细描述。
通过上述图3所示的日志处理规则同步方法,实现了日志处理规则在网络日志服务器上的及时更新,进而使得后续使用日志处理规则,对原始日志数据进行处理得到的日志采集数据,与日志采集服务器侧需要的日志采集数据保持一致,能够满足日志采集服务器侧的需求。
网络日志服务器在完成日志处理规则的同步更新处理后,即可以使用该更新的日志处理规则(即当前的日志处理规则)对获取的原始日志数据进行处理,从而得到日志采集数据,并将日志采集数据传送至日志采集服务器,下面用具体实施例对日志数据的处理和传送过程进行详细描述。
实施例2:
图4为本发明实施例2中提供的日志数据处理和传送过程的流程图,具体包括如下处理步骤:
步骤401、网络日志服务器获取原始日志数据。
具体可以调用自身的日志管理系统,通过与网关设备的数据接口,按照一定的获取周期,从网关设备获取原始日志数据。
步骤402、使用当前的日志处理规则,对获取的原始日志数据进行处理,得到日志采集数据。
具体可以根据日志处理规则中的指示信息,去除原始日志数据中的无效记录,提取需要的各属性字段的属性值,从而得到需要的日志采集数据。
日志采集数据可以通过一定格式的平面文件保存,其中每条记录可以对应一个用户标识,并包括该用户标识对应的各属性字段的属性值,例如,各属性字段可以包括:接入点名称、归属基站ID、IP、URL等。
本步骤可以是在处理周期到达时执行,也可以是在接收到日志采集服务器发送的数据同步请求后,如果存在未处理的原始日志数据时执行。
在通过对原始日志数据的处理得到日志采集数据后,即可以将该日志采集数据传送至日志采集服务器,为了节省传送日志采集数据所需要的网络带宽资源,较佳的,可以对日志采集数据压缩后再进行传输,本发明实施例2中即提出如下具体压缩处理流程。
步骤403、针对使用日志处理规则处理后得到的日志采集数据,分别对日志采集数据中各属性字段的各属性值进行编码,得到与每个属性值对应的压缩编码。
例如,以URL域名字段为例,日志采集数据中URL域名字段的属性值可以包括很多具体的URL域名,如“www.sina.com”、“www.qq.com”、“www.sohu.com”、“www.163.com”、“www.baidu.com”、“www.google.cn”和“www.3g.cn”等,本步骤即针对每个具体的属性值进行编码,得到与该属性值对应的压缩编码,且该压缩编码的数据量小于该对应属性值的数据量。
具体可以采用现有技术中的各种编码方式,例如,比较简单的,针对一个属性字段的各属性值的编码,可以根据该属性字段的各属性值的数量,采用足够数量的比特位进行二进制编码,以上述7个属性值为例,可以采用4个比特位进行二进制编码,每个编码对应一个属性值。
较佳的,考虑到在日志采集数据中,每个属性值一般均具有重复出现的特性,即针对不同的用户标识,同一属性字段的属性值可能是相同的,且一个属性字段的各属性值分别在日志采集数据中出现的次数,通常符合幂率分布的特性,所以,针对一个属性字段的各属性值,可以根据各属性值在日志采集数据中出现的次数,对该属性字段的各属性值进行编码,得到与各属性值分别对应的压缩编码,并且,优先使用数据量小的压缩编码,并保证出现的次数大的属性值对应的压缩编码的数据量,不大于出现的次数小的属性值对应的压缩编码的数据量,从而使得后续得到的压缩后的日志采集数据的数据量更少。
具体的,本发明实施例2中提出如下另一种编码方式,针对日志采集数据中的一个属性字段的各属性值,具体采用如下方式进行编码:
步骤A、分别统计该属性字段的各属性值在日志采集数据中出现的次数。
步骤B、根据该属性字段的各属性值在日志采集数据中出现的次数,构建二叉树,其中,该二叉树中的各叶子节点,分别对应表征各属性值在日志采集数据中出现的次数,且该二叉树中的父节点表征的数值,为该父节点的两个子节点表征数值的和值,且该二叉树中每个节点表征的数值,不小于该节点所属等级的下一级节点表征的数值。
具体的,本步骤B可以采用如下步骤实现:
步骤a、首先按照出现次数从低到高的顺序,将各属性值出现的次数进行排列,相同次数的可以随机确定先后顺序;
步骤b、然后从当前排列的各数值(包括各属性值出现的次数,和后续计算得到和值)中,选择最小的两个值,作为二叉树的两个节点,且这两个节点分别对应表征这两个值;
步骤c、将这两个数值的和值,作为这两个节点的父节点,该父节点表征该和值;
步骤d、将所选的最小的这两个值排除,如果排列的各数值中还存在剩余的数值(可以是属性值对应的出现次数,也可以是已建立的父节点表征的数值),则按照数值从低到高的顺序,将剩余的数值和最新建立的该父节点表征的和值进行排列,作为当前排列的各数值,然后进入步骤b;如果排列的各数值中不存在剩余的数值,则最新建立的该父节点即作为该二叉树的根节点,完成二叉树的构建。
下面以5个属性值分别出现的次数为1、2、3、3和5为例,对二叉树的构建进行举例描述:
首先选择最小的次数1和次数2作为二叉树的两个节点(即叶子节点),并将次数1和次数2的和值3,作为这次数1对应节点和次数2对应节点的父节点,如图5所示;
排除次数1和次数2后,从剩余次数3、3和4,以及数值3(最新建立的父节点)中,选择最小的两个值,例如,选择次数3与数值3,并将次数3作为二叉树的一个节点(即叶子节点),并将与数值3的和值6,作为该次数3对应节点与数值3对应节点的父节点,如图6所示;
排除已建立对应节点的次数3和数值3,从剩余次数3和4,以及数值6(最新建立的父节点)中,选择最小的次数3和次数4,并将该次数3和次数4作为二叉树的两个节点(即叶子节点),并将该次数3和次数4的和值7,作为该次数3对应节点和次数4对应节点的父节点,如图7所示;
排除已建立对应节点的次数3和次数4,从剩余的数值6和数值7(最新建立的父节点)中,选择最小的两个值,即选择数值6和数值7,并将数值6和数值7的和值13,作为数值6对应节点与数值7对应节点的父节点,此时没有剩余的次数或数值,则最后建立的表征数值13的父节点,即为建立的二叉树的根节点,完成二叉树的建立,如图8所示。
从图8中可见,二叉树的各叶子节点分别对应表征次数1、2、3、3和4,且该二叉树中的每个节点表征的数值,不小于该节点所属等级的下一级节点表征的数值。
步骤C、确定二叉树中叶子节点对应的属性值的压缩编码为,将从根节点到该叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号;
其中,二叉树中节点的左子树的弧值为0,右子树的弧值为1;或者二叉树中节点的左子树的弧值为1,右子树的弧值为0。
以二叉树中节点的左子树的弧值为0,右子树的弧值为1为例,如图9所示,为图8所示的二叉树中各子树的弧值示意图,则可以确定次数4对应属性值的压缩编码为11,一个次数3对应属性值的压缩编码为10,另一个次数3对应属性值的压缩编码为01,次数2对应属性值的压缩编码为001,次数1对应属性值的压缩编码为000。
从中可见,采用上述编码方式对同一属性字段的各属性值进行编码后,出现次数多的属性值的压缩编码的数据量,不会大于出现次数少的属性值的压缩编码的数据量,从而使得后续压缩后的日志采集数据的数据量更少,从而进一步更有效的减少日志采集数据传送所需要的网络带宽资源,并且可以提高传送效率。
步骤404、使用得到的压缩编码,替换日志采集数据中对应的属性值,得到压缩后的日志采集数据。
并且,为了后续解压缩的需要,生成各属性值的编码表,编码表中携带了各属性值分别与对应压缩编码的对应关系。具体的,编码表中可以包括上述二叉树的信息,以及该二叉树的各叶子节点分别与各属性值的对应关系。
例如,编码表中包括与各压缩字段分别对应的二叉树,且每个二叉树中的各叶子节点,分别对应该二叉树对应属性字段的各属性值,且该二叉树中节点的左子树的弧值为0,右子树的弧值为1,或者该二叉树中节点的左子树的弧值为1,右子树的弧值为0。
当采用上述通过构建二叉树的方式进行编码时,编码表中可以直接包括构建的二叉树,和各叶子节点分别与对应属性值的对应关系,相比采用字典方式的编码表,包括二叉树的该编码表的数据量更少,从而能够在后续将编码表传送给日志采集服务器时,使用更少的网络带宽资源。
步骤405、网络日志服务器在对日志采集数据进行压缩后,可以保存该压缩后的日志采集数据和编码表;以及向日志采集服务器发送该压缩后的日志采集数据和该编码表。
较佳的,在发送时,可以对该压缩后的日志采集数据和编码表,使用通用的压缩算法进行再次压缩后传输,例如,使用GZIP、RAR、ZIP或TAR等压缩算法。
步骤406、日志采集服务器在接收网络日志服务器发送的压缩后的日志采集数据,和日志采集数据中各属性字段的各属性值的编码表后,使用接收的该编码表,对该压缩后的日志采集数据进行解压缩处理,得到日志采集数据。
具体的,可以使用该编码表中与各压缩编码分别对应的属性值,替换该压缩后的日志采集数据中对应的压缩编码,得到解压缩后的日志采集数据。
针对上述包括与各压缩字段分别对应的二叉树的编码表,具体可以采用如下方式进行解压缩处理:
针对该压缩后的日志采集数据中的每个属性字段的每个压缩编码,具体采用如下方式确定该压缩编码对应的叶子节点:
查询该属性字段对应的二叉树,确定该属性字段的该压缩编码对应的叶子节点,其中,将从根节点到该对应的叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号,与该压缩编码相同。
具体可以根据组成该压缩编码的各二进制数值从前到后的顺序,以及该二叉树中各子树的弧值,从该二叉树的根节点开始,对二叉树的节点路径进行查询,得到该压缩编码对应的叶子节点。
例如,以图9所示二叉树为例,针对压缩编码001,首先根据第一个二进制数值0,从根节点的左子树(左子树弧值为0)查询到数值6对应节点,然后根据第二个二进制数值0,从数值6对应节点的左子树查询到数值3对应节点,然后根据第三个二进制数值1,从数值3对应节点的右子树(右子树弧值为1)查询到次数2对应的叶子节点,从而确定该压缩编码001对应的叶子节点为,次数2对应的叶子节点。
查询编码表中叶子节点与属性值的对应关系,确定该压缩编码对应的叶子节点对应的属性值,将该属性值确定为该压缩编码对应的属性值。
使用该压缩编码对应的属性值,替换该压缩后的日志采集数据中的该压缩编码。
在针对日志采集数据中的所有压缩编码,完成上述替换的处理流程后,得到解压缩后的日志采集数据,即未压缩的日志采集数据。
步骤407、日志采集服务器在通过解压缩处理得到日志采集数据后,将其保存在存储系统中,以便后续用于对用户偏好的分析。
本步骤中,日志采集服务器还可以对已保存的日志采集数据进行维护,删除过期和冗余的日志数据。
实施例3:
基于同一发明构思,根据本发明上述实施例提供的日志处理规则同步方法,相应地,本发明实施例3还提供了一种网络日志服务器,其结构示意图如图10所示,具体包括:
第一接收单元1001,用于接收日志采集服务器发送的规则同步指示消息,所述规则同步指示消息中携带更新的日志处理规则;
第一规则同步单元1002,用于使用所述规则同步指示消息中携带的所述更新的日志处理规则,更新保存的原日志处理规则。
进一步的,还包括:
第一发送单元1003,用于在所述第一接收单元接收日志采集服务器发送的规则同步指示消息之前,向所述日志采集服务器发送规则同步请求,用于请求更新的日志处理规则。
进一步的,还包括:
日志获取单元1004,获取原始日志数据;
日志处理单元1005,用于使用当前的日志处理规则,对获取的所述原始日志数据进行处理,得到日志采集数据;
压缩单元1006,用于分别对所述日志采集数据中各属性字段的各属性值进行编码,得到与每个属性值对应的压缩编码;并使用得到的所述压缩编码,替换所述日志采集数据中对应的属性值,得到压缩后的日志采集数据,并生成所述各属性值的编码表。
进一步的,压缩单元1006,具体用于针对所述日志采集数据中的一个属性字段的各属性值,采用如下方式进行编码:
分别统计该属性字段的各属性值在所述日志采集数据中出现的次数;
根据各属性值在所述日志采集数据中出现的次数,对该属性字段的各属性值进行编码,得到与各属性值分别对应的压缩编码,其中,出现的次数大的属性值对应的压缩编码的数据量,不大于出现的次数小的属性值对应的压缩编码的数据量。
进一步的,压缩单元1006,具体用于根据各属性值在所述日志采集数据中出现的次数,构建二叉树,其中,所述二叉树中的各叶子节点,分别对应表征各属性值在所述日志采集数据中出现的次数,且所述二叉树中的父节点表征的数值,为该父节点的两个子节点表征数值的和值,且所述二叉树中每个节点表征的数值,不小于该节点所属等级的下一级节点表征的数值;
确定所述二叉树中叶子节点对应的属性值的压缩编码为,将从根节点到该叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号;
其中,所述二叉树中节点的左子树的弧值为0,右子树的弧值为1;或者所述二叉树中节点的左子树的弧值为1,右子树的弧值为0。
进一步的,还包括:
保存单元1007,用于保存所述压缩后的日志采集数据和所述编码表;和/或
第一发送单元1003,用于向所述日志采集服务器发送所述压缩后的日志采集数据和所述编码表。
实施例4:
基于同一发明构思,根据本发明上述实施例提供的日志处理规则同步方法,相应地,本发明实施例4还提供了一种日志采集服务器,其结构示意图如图11所示,具体包括:
第二规则同步单元1101,用于确定更新的日志处理规则;
第二发送单元1102,用于向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息,指示所述网络日志服务器使用所述更新的日志处理规则,更新保存的原日志处理规则。
进一步的,还包括:
第二接收单元1103,用于所述第二发送单元向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息之前,接收所述网络日志服务器发送的规则同步请求。
进一步的,还包括:
第二接收单元1103,用于接收所述网络日志服务器发送的压缩后的日志采集数据,和日志采集数据中各属性字段的各属性值的编码表;
解压缩单元1104,用于使用所述编码表中与各压缩编码分别对应的属性值,替换所述压缩后的日志采集数据中对应的压缩编码,得到解压缩后的日志采集数据。
进一步的,第二接收单元1103接收的所述编码表中包括与各压缩字段分别对应的二叉树,且每个二叉树中的各叶子节点,分别对应该二叉树对应属性字段的各属性值,且该二叉树中节点的左子树的弧值为0,右子树的弧值为1,或者该二叉树中节点的左子树的弧值为1,右子树的弧值为0;
解压缩单元1104,具体用于针对所述压缩后的日志采集数据中的每个属性字段的每个压缩编码,具体采用如下方式进行解压缩处理:
查询该属性字段对应的二叉树,确定该属性字段的该压缩编码对应的叶子节点,其中,将从根节点到该对应的叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号,与该压缩编码相同;
使用该压缩编码对应的叶子节点对应的属性值,替换该压缩后的日志采集数据中的该压缩编码。
实施例5:
基于同一发明构思,根据本发明上述实施例提供的日志处理规则同步方法,相应地,本发明实施例5还提供了一种日志处理规则同步系统,其结构示意图如图12所示,具体包括:
至少一个上述实施例3中的网络日志服务器1201,以及上述实施例4中的日志采集服务器1202。
一般来讲,在实际应用中,该系统中可以包括一个日志采集服务器1202,与多个网络日志服务器1201。
综上所述,本发明实施例提供的方案,包括:日志采集服务器确定更新的日志处理规则;并向网络日志服务器发送携带更新的日志处理规则的规则同步指示消息。相应的,网络日志服务器接收日志采集服务器发送的规则同步指示消息;并使用该规则同步指示消息中携带的该更新的日志处理规则,更新保存的原日志处理规则。采用本发明实施例提供的方案,能够在网络日志服务器侧及时更新日志处理规则。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (21)

1.一种日志处理规则同步方法,其特征在于,包括:
网络日志服务器接收日志采集服务器发送的规则同步指示消息,所述规则同步指示消息中携带更新的日志处理规则;
使用所述规则同步指示消息中携带的所述更新的日志处理规则,更新保存的原日志处理规则。
2.如权利要求1所述的方法,其特征在于,在接收日志采集服务器发送的规则同步指示消息之前,还包括:
向所述日志采集服务器发送规则同步请求,用于请求更新的日志处理规则。
3.如权利要求1所述的方法,其特征在于,还包括:
获取原始日志数据;
使用当前的日志处理规则,对获取的所述原始日志数据进行处理,得到日志采集数据;
分别对所述日志采集数据中各属性字段的各属性值进行编码,得到与每个属性值对应的压缩编码;
使用得到的所述压缩编码,替换所述日志采集数据中对应的属性值,得到压缩后的日志采集数据,并生成所述各属性值的编码表。
4.如权利要求3所述的方法,其特征在于,分别对所述日志采集数据中各属性字段的各属性值进行编码,得到与每个属性值对应的压缩编码,具体包括:
针对所述日志采集数据中的每个属性字段的各属性值,具体采用如下方式进行编码:
分别统计该属性字段的各属性值在所述日志采集数据中出现的次数;
根据各属性值在所述日志采集数据中出现的次数,对该属性字段的各属性值进行编码,得到与各属性值分别对应的压缩编码,其中,出现的次数大的属性值对应的压缩编码的数据量,不大于出现的次数小的属性值对应的压缩编码的数据量。
5.如权利要求4所述的方法,其特征在于,根据各属性值在所述日志采集数据中出现的次数,对该属性字段的各属性值进行编码,得到与各属性值分别对应的压缩编码,具体包括:
根据各属性值在所述日志采集数据中出现的次数,构建二叉树,其中,所述二叉树中的各叶子节点,分别对应表征各属性值在所述日志采集数据中出现的次数,且所述二叉树中的父节点表征的数值,为该父节点的两个子节点表征数值的和值,且所述二叉树中每个节点表征的数值,不小于该节点所属等级的下一级节点表征的数值;
确定所述二叉树中叶子节点对应的属性值的压缩编码为,将从根节点到该叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号;
其中,所述二叉树中节点的左子树的弧值为0,右子树的弧值为1;或者所述二叉树中节点的左子树的弧值为1,右子树的弧值为0。
6.如权利要求3所述的方法,其特征在于,还包括:
保存所述压缩后的日志采集数据和所述编码表;和/或
向所述日志采集服务器发送所述压缩后的日志采集数据和所述编码表。
7.一种日志处理规则同步方法,其特征在于,包括:
日志采集服务器确定更新的日志处理规则;
向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息,指示所述网络日志服务器使用所述更新的日志处理规则,更新保存的原日志处理规则。
8.如权利要求7所述的方法,其特征在于,在向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息之前,还包括:
接收所述网络日志服务器发送的规则同步请求。
9.如权利要求7所述的方法,其特征在于,还包括:
接收所述网络日志服务器发送的压缩后的日志采集数据,和未压缩的日志采集数据中各属性字段的各属性值的编码表;
使用所述编码表中与各压缩编码分别对应的属性值,替换所述压缩后的日志采集数据中对应的压缩编码,得到解压缩后的日志采集数据。
10.如权利要求9所述的方法,其特征在于,所述编码表中包括与各压缩字段分别对应的二叉树,且每个二叉树中的各叶子节点,分别对应该二叉树对应属性字段的各属性值,且该二叉树中节点的左子树的弧值为0,右子树的弧值为1,或者该二叉树中节点的左子树的弧值为1,右子树的弧值为0;
使用所述编码表中与各压缩编码分别对应的属性值,替换所述压缩后的日志采集数据中对应的压缩编码,具体包括:
针对所述压缩后的日志采集数据中的每个属性字段的每个压缩编码,具体采用如下方式进行解压缩处理:
查询该属性字段对应的二叉树,确定该属性字段的该压缩编码对应的叶子节点,其中,将从根节点到该对应的叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号,与该压缩编码相同;
使用该压缩编码对应的叶子节点对应的属性值,替换该压缩后的日志采集数据中的该压缩编码。
11.一种网络日志服务器,其特征在于,包括:
第一接收单元,用于接收日志采集服务器发送的规则同步指示消息,所述规则同步指示消息中携带更新的日志处理规则;
第一规则同步单元,用于使用所述规则同步指示消息中携带的所述更新的日志处理规则,更新保存的原日志处理规则。
12.如权利要求11所述的网络日志服务器,其特征在于,还包括:
第一发送单元,用于在所述第一接收单元接收日志采集服务器发送的规则同步指示消息之前,向所述日志采集服务器发送规则同步请求,用于请求更新的日志处理规则。
13.如权利要求11所述的网络日志服务器,其特征在于,还包括:
日志获取单元,获取原始日志数据;
日志处理单元,用于使用当前的日志处理规则,对获取的所述原始日志数据进行处理,得到日志采集数据;
压缩单元,用于分别对所述日志采集数据中各属性字段的各属性值进行编码,得到与每个属性值对应的压缩编码;并使用得到的所述压缩编码,替换所述日志采集数据中对应的属性值,得到压缩后的日志采集数据,并生成所述各属性值的编码表。
14.如权利要求13所述的网络日志服务器,其特征在于,所述压缩单元,具体用于针对所述日志采集数据中的一个属性字段的各属性值,采用如下方式进行编码:
分别统计该属性字段的各属性值在所述日志采集数据中出现的次数;
根据各属性值在所述日志采集数据中出现的次数,对该属性字段的各属性值进行编码,得到与各属性值分别对应的压缩编码,其中,出现的次数大的属性值对应的压缩编码的数据量,不大于出现的次数小的属性值对应的压缩编码的数据量。
15.如权利要求14所述的网络日志服务器,其特征在于,所述压缩单元,具体用于根据各属性值在所述日志采集数据中出现的次数,构建二叉树,其中,所述二叉树中的各叶子节点,分别对应表征各属性值在所述日志采集数据中出现的次数,且所述二叉树中的父节点表征的数值,为该父节点的两个子节点表征数值的和值,且所述二叉树中每个节点表征的数值,不小于该节点所属等级的下一级节点表征的数值;
确定所述二叉树中叶子节点对应的属性值的压缩编码为,将从根节点到该叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号;
其中,所述二叉树中节点的左子树的弧值为0,右子树的弧值为1;或者所述二叉树中节点的左子树的弧值为1,右子树的弧值为0。
16.如权利要求13所述的网络日志服务器,其特征在于,还包括:
保存单元,用于保存所述压缩后的日志采集数据和所述编码表;和/或
第一发送单元,用于向所述日志采集服务器发送所述压缩后的日志采集数据和所述编码表。
17.一种日志采集服务器,其特征在于,包括:
第二规则同步单元,用于确定更新的日志处理规则;
第二发送单元,用于向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息,指示所述网络日志服务器使用所述更新的日志处理规则,更新保存的原日志处理规则。
18.如权利要求17所述的日志采集服务器,其特征在于,还包括:
第二接收单元,用于所述第二发送单元向网络日志服务器发送携带所述更新的日志处理规则的规则同步指示消息之前,接收所述网络日志服务器发送的规则同步请求。
19.如权利要求17所述的日志采集服务器,其特征在于,还包括:
第二接收单元,用于接收所述网络日志服务器发送的压缩后的日志采集数据,和日志采集数据中各属性字段的各属性值的编码表;
解压缩单元,用于使用所述编码表中与各压缩编码分别对应的属性值,替换所述压缩后的日志采集数据中对应的压缩编码,得到解压缩后的日志采集数据。
20.如权利要求19所述的日志采集服务器,其特征在于,所述第二接收单元接收的所述编码表中包括与各压缩字段分别对应的二叉树,且每个二叉树中的各叶子节点,分别对应该二叉树对应属性字段的各属性值,且该二叉树中节点的左子树的弧值为0,右子树的弧值为1,或者该二叉树中节点的左子树的弧值为1,右子树的弧值为0;
所述解压缩单元,具体用于针对所述压缩后的日志采集数据中的每个属性字段的每个压缩编码,具体采用如下方式进行解压缩处理:
查询该属性字段对应的二叉树,确定该属性字段的该压缩编码对应的叶子节点,其中,将从根节点到该对应的叶子节点的路径所包括的各子树分别对应的弧值,进行排列得到的二进制编号,与该压缩编码相同;
使用该压缩编码对应的叶子节点对应的属性值,替换该压缩后的日志采集数据中的该压缩编码。
21.一种日志处理规则同步系统,其特征在于,包括:
至少一个如权利要求11-16任一所述的网络日志服务器,以及如权利要求17-20任一所述的日志采集服务器。
CN201210113439.6A 2012-04-17 2012-04-17 一种日志处理规则同步方法及相关设备和系统 Active CN103379140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210113439.6A CN103379140B (zh) 2012-04-17 2012-04-17 一种日志处理规则同步方法及相关设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210113439.6A CN103379140B (zh) 2012-04-17 2012-04-17 一种日志处理规则同步方法及相关设备和系统

Publications (2)

Publication Number Publication Date
CN103379140A true CN103379140A (zh) 2013-10-30
CN103379140B CN103379140B (zh) 2016-07-27

Family

ID=49463697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210113439.6A Active CN103379140B (zh) 2012-04-17 2012-04-17 一种日志处理规则同步方法及相关设备和系统

Country Status (1)

Country Link
CN (1) CN103379140B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679642A (zh) * 2013-11-26 2015-06-03 国际商业机器公司 日志分析系统中的日志的与语言无关的处理方法和系统
CN105262740A (zh) * 2015-09-25 2016-01-20 瑞斯康达科技发展股份有限公司 一种大数据传输方法和系统
CN105516307A (zh) * 2015-12-09 2016-04-20 浪潮电子信息产业股份有限公司 一种基于压缩的优化云存储系统日志存储的方法
CN105721179A (zh) * 2014-12-02 2016-06-29 北京奇虎科技有限公司 日志收集系统及其中的数据传输方法和本地服务器
CN106126671A (zh) * 2016-06-27 2016-11-16 安徽科成信息科技有限公司 一种网络日志的更新方法
CN106202253A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种网络日志在线监测更新方法
CN106202219A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种网络监控日志的更新方法
CN107590054A (zh) * 2017-09-21 2018-01-16 大连君方科技有限公司 船舶服务器日志监控系统
CN109309657A (zh) * 2017-07-28 2019-02-05 株式会社喜得建 未授权访问点探测系统及方法、用于其的用户终端及计算机程序
CN109408481A (zh) * 2018-11-06 2019-03-01 北京字节跳动网络技术有限公司 日志采集规则的更新方法、装置、电子设备及可读介质
CN111651417A (zh) * 2020-07-09 2020-09-11 腾讯科技(深圳)有限公司 日志处理方法及装置
CN111708673A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 一种日志数据压缩方法、装置、设备和存储介质
CN113608735A (zh) * 2021-08-11 2021-11-05 中国银行股份有限公司 采集工具配置文件生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101340444A (zh) * 2008-08-26 2009-01-07 华为技术有限公司 防火墙和服务器策略同步方法、系统和设备
CN101500208A (zh) * 2008-01-31 2009-08-05 三星电子株式会社 设备间数据同步的方法和系统
CN101567793A (zh) * 2008-04-25 2009-10-28 华为技术有限公司 Pcc规则更新的方法、装置及系统
US20100019258A1 (en) * 2008-07-22 2010-01-28 Samsung Electro-Mechanics Co., Ltd. Semiconductor light emitting device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101500208A (zh) * 2008-01-31 2009-08-05 三星电子株式会社 设备间数据同步的方法和系统
CN101567793A (zh) * 2008-04-25 2009-10-28 华为技术有限公司 Pcc规则更新的方法、装置及系统
US20100019258A1 (en) * 2008-07-22 2010-01-28 Samsung Electro-Mechanics Co., Ltd. Semiconductor light emitting device
CN101340444A (zh) * 2008-08-26 2009-01-07 华为技术有限公司 防火墙和服务器策略同步方法、系统和设备

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852129B2 (en) 2013-11-26 2017-12-26 International Business Machines Corporation Language independent processing of logs in a log analytics system
CN104679642A (zh) * 2013-11-26 2015-06-03 国际商业机器公司 日志分析系统中的日志的与语言无关的处理方法和系统
US9881005B2 (en) 2013-11-26 2018-01-30 International Business Machines Corporation Language independent processing of logs in a log analytics system
CN105721179A (zh) * 2014-12-02 2016-06-29 北京奇虎科技有限公司 日志收集系统及其中的数据传输方法和本地服务器
CN105262740A (zh) * 2015-09-25 2016-01-20 瑞斯康达科技发展股份有限公司 一种大数据传输方法和系统
CN105516307A (zh) * 2015-12-09 2016-04-20 浪潮电子信息产业股份有限公司 一种基于压缩的优化云存储系统日志存储的方法
CN106126671A (zh) * 2016-06-27 2016-11-16 安徽科成信息科技有限公司 一种网络日志的更新方法
CN106202253A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种网络日志在线监测更新方法
CN106202219A (zh) * 2016-06-27 2016-12-07 安徽科成信息科技有限公司 一种网络监控日志的更新方法
CN109309657A (zh) * 2017-07-28 2019-02-05 株式会社喜得建 未授权访问点探测系统及方法、用于其的用户终端及计算机程序
CN107590054A (zh) * 2017-09-21 2018-01-16 大连君方科技有限公司 船舶服务器日志监控系统
CN109408481A (zh) * 2018-11-06 2019-03-01 北京字节跳动网络技术有限公司 日志采集规则的更新方法、装置、电子设备及可读介质
CN109408481B (zh) * 2018-11-06 2022-05-06 北京字节跳动网络技术有限公司 日志采集规则的更新方法、装置、电子设备及可读介质
CN111708673A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 一种日志数据压缩方法、装置、设备和存储介质
CN111651417A (zh) * 2020-07-09 2020-09-11 腾讯科技(深圳)有限公司 日志处理方法及装置
CN113608735A (zh) * 2021-08-11 2021-11-05 中国银行股份有限公司 采集工具配置文件生成方法及装置

Also Published As

Publication number Publication date
CN103379140B (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN103379140A (zh) 一种日志处理规则同步方法及相关设备和系统
CN103379136A (zh) 一种日志采集数据压缩方法、解压缩方法及装置
CN107390650A (zh) 一种基于物联网的数据采集系统及基于该系统的数据压缩方法
CN102571966B (zh) 一种大型xml文件的网络传输方法
CN104301413B (zh) 面向云数据库的一种Oracle分布式实时监控方法
CN111242807B (zh) 一种变电站数据接入泛在电力物联网的方法
CN103390244B (zh) 一种具有运营商特色的用户好友关系聚合方法及聚合平台
CN105430534B (zh) 一种智能设备上报数据的方法和系统
CN103473107B (zh) 一种基于移动中间件的交互界面动态更新的方法
CN104378236A (zh) 一种物联网设备管理平台及方法
CN112711612B (zh) 数据处理方法、装置和存储介质及电子装置
CN102056188B (zh) 数据生成、传输方法及相关设备
CN110309479A (zh) 属性信息获取方法及装置
CN103457802A (zh) 一种信息传输系统及方法
CN103023750A (zh) 终端获取消息的方法
WO2021147319A1 (zh) 一种数据处理方法、装置、设备及介质
CN109217986A (zh) 一种基于物联网的数据传输方法及系统
JP2008219264A (ja) データ圧縮転送装置、データ圧縮転送システム、データ圧縮転送方法、およびデータ圧縮転送プログラム
CN103957230A (zh) 一种客户端用户数确定方法、服务器、客户端及系统
CN107526808B (zh) 实时数据处理方法及装置
KR101518303B1 (ko) 프로그램 업데이트 방법, 프로그램을 업데이트 하기 위한 서버 및 클라이언트 장치
CN102843345B (zh) 远程沟通方法及其计算机程序产品
CN103905446B (zh) 上报信息的方法及终端、统计信息的方法及服务器
KR102425039B1 (ko) 분산 딥러닝 환경에서 데이터 압축 장치 및 방법
CN2929830Y (zh) 一种搜索引擎服务器和搜索系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant