CN104660427A

CN104660427A - 日志实时统计方法及装置

Info

Publication number: CN104660427A
Application number: CN201310576358.4A
Authority: CN
Inventors: 林汇宝; 朱亮; 李潇
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2015-05-27

Abstract

本发明实施例提出一种日志实时统计方法及装置，其方法包括：配置聚类统计规则；对在线日志进行规则匹配，并记录下满足所述聚类统计规则的待统计信息；每隔一个统计周期接收记录下的符合聚类统计规则的待统计信息；对接收到的待统计信息进行聚类统计运算；保存经过聚类统计运算的统计结果；根据接收到查询请求对保存的统计结果进行查询，并展示查询结果。本发明统计性能高，硬件需求低，可以大大节约硬件成本。

Description

日志实时统计方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种日志实时统计方法及装置。

背景技术

互联网服务已经成为人们生活中必不可少的一部分。每天，即时通讯、游戏、电商、搜索等应用，产生海量的运营日志。作为互联网服务提供方，对海量日志进行实时聚类统计，如统计网站的UV（unique visitor，网站独立访客）值、PV（Page View，页面浏览量）值，以便实时监控服务的异常是互联网产品的常用功能。

对日志进行实时聚类统计，传统的方案是日志先入库，然后准实时进行聚类统计分析。如图1所示，目前对日志的聚类统计包括如下过程：

（1）日志实时接收：实时接收生产系统（即时通讯、游戏、电商、搜索等应用服务器）产生的运营日志；

（2）日志存储：将接收到的海量日志存储到本地数据库，可以是采用mysql（MySQL AB公司开发的一个关系型数据库管理系统）、orcale（Orcale公司研制的一种管理系统）或hadoop（Apache Software Foundation公司开发的一个分布式系统基础架构）等方式来存储；

（3）聚类规则配置：系统管理员设置要实时聚类统计的规则，如对UV统计；

（4）实时统计展示：发出实时统计请求，以及接收反馈来的统计结果并显示；

（5）日志实时聚类统计：保存聚类规则，以及根据接收到的实时统计请求，访问数据库完成日志的聚类统计，并将统计结果返回。

现有的这种日志聚类统计方式，在日志规模较少时可以运作良好。但面对每天数百亿条日志，每天数T的存储量规模的日志时，进行实时聚类统计，会面临如下缺点：

1）统计性能差。无论是传统的mysql、orcale等数据库，还是用hadoop的map-reduce（map-reduce是Google公司提出的一个软件架构，用于大规模数据集的并行运算），对十亿以上级别的记录进行统计，处理时间通常在数十分钟级别；而实时统计往往又要求每隔一段时间（如1分钟或5分钟）就需要启动一次统计循环，在每1个统计循环里，1个聚类规则就进行1次聚类统计，多个聚类规则，则需要进行多次聚类统计。这样的统计频率对性能要求极高，传统的方案要满足这种海量日志的实时统计性能要求，需要非常多的机器并行计算才行，成本非常大。

2）存储成本大。为了满足实时统计需求，把每天的日志全部保存下来，对于海量日志来说，存储成本是十分巨大的。

发明内容

本发明实施例的目的是提供一种日志实时统计方法及装置，以解决现有的日志实时聚类统计方式统计性能差、成本高的问题。

本发明实施例提出一种日志实时统计方法，包括：

配置聚类统计规则；

对在线日志进行规则匹配，并记录下满足所述聚类统计规则的待统计信息；

每隔一个统计周期接收记录下的符合聚类统计规则的待统计信息；

对接收到的待统计信息进行聚类统计运算；

保存经过聚类统计运算的统计结果；

根据接收到查询请求对保存的统计结果进行查询，并展示查询结果。

本发明实施例还提出一种日志实时统计装置，包括：

聚类规则配置模块，用于配置聚类统计规则；

日志发送代理模块，用于对在线日志进行规则匹配，并记录下满足所述聚类统计规则的待统计信息；

统计字段接收模块，用于每隔一个统计周期接收所述日志发送代理模块记录下的符合聚类统计规则的待统计信息；

统计字段计算模块，用于对所述统计字段接收模块接收到的待统计信息进行聚类统计运算；

结果存储模块，用于保存经过所述日志实时聚类统计模块聚类统计运算的统计结果；

实时统计展示模块，用于根据接收到查询请求对所述结果存储模块保存的统计结果进行查询，并展示查询结果。

相对于现有技术，本发明的有益效果是：本发明实施例的方法及装置将原始日志通过聚类统计规则初步过滤处理后，只需一个统计周期内发有限个网络包，并且每个网络包只包含必须的统计字段，其它用不着的字段不会包含，这样可以大大减少网络IO次数和网络带宽。此外，统计数据接收和统计数据计算分不同的进程处理，最大限度利用机器cpu资源，避免极其影响性能的磁盘IO。由于实时聚类统计流程是高性能、低存储成本的核心所在。通过本发明实施例的装置，能做到1台普通的服务器每天可完成百亿级别日志记录，50个聚类规则的实时统计需求；并且只需存储M级的统计结果，大大节约了硬件成本。

附图说明

图1为现有的一种日志聚类统计过程示意图；

图2为本发明实施例的一种日志实时统计方法的流程图；

图3为本发明实施例的另一种日志实时统计方法的流程图；

图4为本发明实施例的一种日志实时统计装置的结构图。

具体实施方式

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

请参见图2，其为本发明实施例的一种日志实时统计方法的流程图，其包括以下步骤：

S201，配置聚类统计规则。聚类统计规则用来对生产系统产出的日志作初步过滤，聚类统计规则可以根据需要来配置，并且对于配置好的聚类统计规则也可以根据需要作增加、修改、删除、查询、存储等操作。

S202，对在线日志进行规则匹配，并记录下满足所述聚类统计规则的待统计信息。所述对在线日志进行规则匹配是指对生产系统生产的日志进行实时规则匹配，满足则临时缓存记录。

S203，每隔一个统计周期接收记录下的符合聚类统计规则的待统计信息。每隔一个统计周期批量接收待统计信息，这样减少了网络IO（输入/输出，Input/Output），节约了网络带宽。

S204，对接收到的待统计信息进行聚类统计运算。

S205，保存经过聚类统计运算的统计结果。

S206，根据接收到查询请求对保存的统计结果进行查询，并展示查询结果。

本实施例的方法通过聚类统计规则将原始日志作过滤处理后，待一个统计周期结束后集中批量发送，减少了网络IO，节约了网络带宽；并且，本实施例的方法将待统计数据接收和待统计数据计算分不同的进程处理，最大限度地利用了计算机cpu资源，避免极其影响性能的磁盘IO，提高了统计性能，提高了聚类效率。

为进一步理解本发明，下面以一个较为详尽的实施例介绍本发明的方法，请参见图3，其为本发明实施例的另一种日志实时统计方法的流程图，其包括以下步骤：

S301，配置聚类统计规则。

本实施例的一条聚类统计规则包括规则编号、日志过滤条件及统计字段。所述规则编号与聚类统计规则一一对应，系统可以根据规则编号找出相应的聚类统计规则及相应的聚类结果。

可以通过提供操作界面，以供管理员对聚类统计规则进行增加、修改、删除、查询、存储等操作。

S302，对在线日志进行规则匹配，并记录下满足所述聚类统计规则的待统计信息。

在线生产系统实时产生一条一条的运营日志，通过聚类统计规则对运行日志进行过滤，如果满足规则，那么记录如下待统计信息：｛规则id、统计字段值｝；否则丢弃。为减少网络IO，记录下的待统计信息先不马上发送，待一个统计周期结束后集中批量发送。

以表1的网站访问记录表为例：

操作时间	用户ID	用户IP	页面ID	操作结果
					2013-9-20 10:00:00	张三	168.20.8.82	1	成功
2013-9-20 16:00:00	李四	158.32.28.109	1	成功
					2013-9-20 18:00:00	张三	168.20.8.82	2	失败
2013-9-20 18:30:00	张三	138.98.158.82	1	成功

表1

针对表1的聚类统计规则“1、页面id等于1、用户ID”，其中规则编号为1，日志过滤条件为“页面id等于1“，统计字段为“用户ID”，这条规则表示对所有的网站访问实时记录，只对页面id为1的记录进行聚类统计。经过规则过滤，得到的待统计信息如表2所示：

	记录条数
		张三	2
李四	1
		汇总	3

表2

s303，接收待统计信息。每隔一个统计周期会接收到记录的待统计信息。

S304，判断是否存在与接收到的待统计信息中的规则编号相应的统计文件。如果不存在则进入步骤s305，如果存在则进入步骤s306。

S305，以规则编号和当前时间为文件名建立用于存放统计字段值的统计文件。

根据规则编号、当前时间(粒度根据当前时间、统计周期确定，如当前是“2013-09-2016：35：23”，统计周期是1分钟，那么当前时间是“201309201635”)确定文件名：“规则id_当前时间.dat”，如“1_201309201635.dat"，该统计文件的组织格式如表3所示：

1_201309201635.dat：

统计字段值l

统计字段值2

统计字段值3

。。。

表3

S306，将待统计信息中的统计字段值写入相应的统计文件中。

假设如果接收到的待统计信息中的规则编号为1，而系统内存中已经存在了文件名中包含规则编号1的统计文件，那么只需将接收到的待统计信息中的统计字段值写入这个文件名含有规则编号1的统计文件中即可。

S307，遍历所有的统计文件，并提取每一个统计文件的文件名中的时间值。

值得注意的是，统计文件是存放于内存中的，因而遍历统计文件的时候可以通过内存共享的方式查看，具有很高的读写速度，可以很大限度地利用计算机资源。

根据文件名中的时间值，如果该时间值距离当前时间不小于一个统计周期，表明对应的统计文件在该统计周期内的所有数据已经写入完毕，可以进行聚类计算。

S308，对时间值距离当前时间不小于一个统计周期的统计文件中的统计字段值进行排序。由于排序是在内存中进行的，所以运算性能非常高。

S309，对排序结果进行归并。

统计文件有序后，只需一次遍历，便可得到统计结果，归并后的聚类结果如表4所示：

	记录条数
		统计字段值1	m
统计字段值2	n
		。。。	。。。
汇总	t

表4

S310，保存经过聚类统计运算的统计结果。

在每处理完一个统计文件后，都可以将上述统计结果以这样的形式｛[规则id,记录总数]，[规则id,统计字段值1,记录条数1]，[规则id,统计字段值2,记录条数2]，。。。｝进行保存，以供前端查询。

S311，根据接收到查询请求对保存的统计结果进行查询，并展示查询结果。当管理员需要查看某一个聚类规则的实时统计结果时，只需输入待查看的聚类规则和时间范围就可以得到相关数据，查询结果可以图、表或其它方式展示给用户。

本发明实施例的方法具有以下优点：

A、统计数据接收和统计数据计算分不同的进程处理，它们的交互全部在内存完成。这样最大限度利用机器cpu资源，避免极其影响性能的磁盘IO。

B、将原始日志经初步过滤处理后，只需一个统计周期内发有限个网络包，并且每个网络包只包含必须的统计字段，其它用不着的字段不会包含。这样可以大大减少网络IO次数和网络带宽。

C、引入统计文件概念。一个规则一个统计周期内先生成一个无序的数据文件，然后再进行统一排序，归并处理。这样集中化的处理，比起每收到一个统计信息就统计一次的分散处理，大大提高了效率。

由于实时聚类统计流程是高性能、低存储成本的核心所在。通过本发明实施例的方法，能做到1台普通的服务器每天可完成百亿级别日志记录，50个聚类规则的实时统计需求；并且只需存储M级的统计结果，大大节约了硬件成本。

本发明实施例还提出一种日志实时统计装置，请参见图4，该装置包括：聚类规则配置模块41、日志发送代理模块42、统计字段接收模块43、统计字段计算模块44、结果存储模块45以及实时统计展示模块46。

聚类规则配置模块41用于配置聚类统计规则。聚类统计规则用来对生产系统产出的日志作初步过滤。聚类统计规则可以包括规则编号、日志过滤条件及统计字段。聚类规则配置模块41可以提供操作界面，以供管理员对聚类统计规则进行增加、修改、删除、查询、存储等操作。

日志发送代理模块42用于对在线日志进行规则匹配，并记录下满足所述聚类统计规则的待统计信息。日志发送代理模块42会动态接收聚类规则配置模块41发送过来的聚类统计规则，然后对在线生产系统生产的日志进行规则匹配，满足则临时缓存，待一个统计周期后将匹配的日志批量发送到统计字段接收模块43进行统计。当聚类统计规则包括规则编号、日志过滤条件及统计字段时，日志发送代理模块42记录下的待统计信息优选包括规则编号和统计字段值。为节省网络传输带宽，日志发送代理模块42通常跟生产系统部署在一起，有多少台业务服务器就部署多少个日志发送代理模块42。

统计字段接收模块43用于每隔一个统计周期接收所述日志发送代理模块42记录下的符合聚类统计规则的待统计信息。所述统计字段接收模块43接收待统计信息时，可以先判断是否在内存中存在与接收到的待统计信息中的规则编号相应的统计文件，若不存在与接收到的待统计信息中的规则编号相应的文件，则以该规则编号和当前时间为文件名建立用于存放统计字段值的统计文件。若存在与接收到的待统计信息中的规则编号相应的统计文件，则将该待统计信息中的统计字段值写入相应的统计文件中。

统计字段计算模块44用于对所述统计字段接收模块43接收到的待统计信息进行聚类统计运算。统计字段计算模块44与统计字段接收模块43可以部署在同一台计算机上，进而可以通过内存进行数据共享，以提高运算速度，并减少磁盘IO。当统计字段接收模块43将接收到的统计字段值写入以规则编号和当前时间为文件名建立的统计文件中时，统计字段计算模块44会在空闲时遍历所有的统计文件，提取每一个统计文件的文件名中的时间值，并对时间值距离当前时间不小于一个统计周期的统计文件中的统计字段值进行聚类统计运算。具体聚类运算时，统计字段计算模块44可以先对统计文件里的不同的统计字段值进行排序，再对排序结果进行归并，并形成聚类统计结果。

结果存储模块45用于保存经过所述日志实时聚类统计模块44聚类统计运算的统计结果。在每处理完一个统计文件后，结果存储模块45都可以将统计结果以这样的形式｛[规则id,记录总数]，[规则id,统计字段值1,记录条数1]，[规则id,统计字段值2,记录条数2]，。。。｝进行保存，以供前端查询。

实时统计展示模块46用于根据接收到查询请求对所述结果存储模块45保存的统计结果进行查询，并展示查询结果。当管理员需要查看某一个聚类规则的实时统计结果时，只需向实时统计展示模块46输入待查看的聚类规则和时间范围就可以得到相关数据，查询结果可以图、表或其它方式展示给用户。

本发明实施例的装置在聚类统计的过程中引入统计文件概念。一个规则一个统计周期内先生成一个无序的数据文件，然后再进行统一排序，归并处理。这样集中化的处理，比起每收到一个统计信息就统计一次的分散处理，大大提高了效率。而且，将原始日志通过聚类统计规则初步过滤处理后，只需一个统计周期内发有限个网络包，并且每个网络包只包含必须的统计字段，其它用不着的字段不会包含，这样可以大大减少网络IO次数和网络带宽。此外，统计数据接收和统计数据计算分不同的进程处理，它们的交互全部在内存完成。这样最大限度利用机器cpu资源，避免极其影响性能的磁盘IO。

本发明实施例的装置，在性能允许的情况下，除了日志发送代理模块42外，其它模块可以部署在同一台服务器上。由于实时聚类统计流程是高性能、低存储成本的核心所在。通过本发明实施例的装置，能做到1台普通的服务器每天可完成百亿级别日志记录，50个聚类规则的实时统计需求；并且只需存储M级的统计结果，大大节约了硬件成本。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或网络设备等）执行本发明实施例各个实施场景所述的方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种日志实时统计方法，其特征在于，包括：

配置聚类统计规则；

对接收到的待统计信息进行聚类统计运算；

保存经过聚类统计运算的统计结果；

2.如权利要求1所述的日志实时统计方法，其特征在于，所述对接收到的待统计信息进行聚类统计运算的步骤包括：通过内存共享的方式获取接收到的符合聚类统计规则的待统计信息，并进行聚类统计运算。

3.如权利要求1所述的日志实时统计方法，其特征在于，所述聚类统计规则包括规则编号、日志过滤条件及统计字段。

4.如权利要求3所述的日志实时统计方法，其特征在于，所述对在线日志进行规则匹配，并记录下满足所述聚类统计规则的待统计信息的步骤中，所述待统计信息包括规则编号和统计字段值。

5.如权利要求4所述的日志实时统计方法，其特征在于，所述每隔一个统计周期接收记录下的符合聚类统计规则的待统计信息的步骤包括：

接收待统计信息；

判断是否存在与接收到的待统计信息中的规则编号相应的统计文件；

若不存在与接收到的待统计信息中的规则编号相应的文件，则以该规则编号和当前时间为文件名建立用于存放统计字段值的统计文件；

若存在与接收到的待统计信息中的规则编号相应的统计文件，则将该待统计信息中的统计字段值写入相应的统计文件中。

6.如权利要求5所述的日志实时统计方法，其特征在于，所述对接收到的待统计信息进行聚类统计运算的步骤包括：

遍历所有的统计文件，并提取每一个统计文件的文件名中的时间值；

对时间值距离当前时间不小于一个统计周期的统计文件中的统计字段值进行聚类统计运算。

7.如权利要求5所述的日志实时统计方法，其特征在于，所述聚类统计运算包括：

对统计文件里的不同的统计字段值进行排序；

对排序结果进行归并。

8.一种日志实时统计装置，其特征在于，包括：

聚类规则配置模块，用于配置聚类统计规则；

9.如权利要求8所述的日志实时统计装置，其特征在于，所述统计字段接收模块和所述统计字段计算模块部署在同一台计算机上，并通过内存进行数据共享。

10.如权利要求8所述的日志实时统计装置，其特征在于，所述聚类统计规则包括规则编号、日志过滤条件及统计字段。

11.如权利要求10所述的日志实时统计装置，其特征在于，所述日志发送代理模块记录下的待统计信息包括规则编号和统计字段值。

12.如权利要求11所述的日志实时统计装置，其特征在于，所述统计字段接收模块接收待统计信息时，判断是否存在与接收到的待统计信息中的规则编号相应的统计文件，若不存在与接收到的待统计信息中的规则编号相应的文件，则以该规则编号和当前时间为文件名建立用于存放统计字段值的统计文件，若存在与接收到的待统计信息中的规则编号相应的统计文件，则将该待统计信息中的统计字段值写入相应的统计文件中。

13.如权利要求12所述的日志实时统计装置，其特征在于，所述统计字段计算模块进行聚类统计运算时，遍历所有的统计文件，且提取每一个统计文件的文件名中的时间值，并对时间值距离当前时间不小于一个统计周期的统计文件中的统计字段值进行聚类统计运算。

14.如权利要求12所述的日志实时统计装置，其特征在于，所述统计字段计算模块进行聚类统计运算时，对统计文件里的不同的统计字段值进行排序，并对排序结果进行归并。