CN108038207A

CN108038207A - 一种日志数据处理系统、方法和服务器

Info

Publication number: CN108038207A
Application number: CN201711353295.0A
Authority: CN
Inventors: 常永峰; 尹家意; 郭景阳
Original assignee: Storm Group Ltd By Share Ltd
Current assignee: Storm Group Ltd By Share Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-15

Abstract

本发明公开了一种日志数据处理系统、方法和服务器，其中，方法包括：获取待处理的日志数据；根据预设的处理规则对日志数据进行格式化处理，处理规则包括第一预设字符和与第一预设字符对应的第一转换规则，以及第二预设字符和与第二预设字符对应的第二转换规则；根据预设的处理规则对日志数据进行格式化处理包括：将日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换；以及将日志数据中的JSON字符串中的值中的第二预设字符根据第二转换规则进行转换；将格式化处理后的日志数据发送至数据库服务器。本发明实施例通过设置第一预设字符、第二预设字符、第一转换规则和第二转换规则，可以将特殊字符进行处理以使后续可以被正确解析。

Description

一种日志数据处理系统、方法和服务器

技术领域

本发明涉及日志数据处理技术领域，尤其是一种日志数据处理系统、方法和服务器。

背景技术

收集各种各样的客户端上报的日志数据，对于网站流量分析统计、评估用户体验、评估网站运营效果、提高服务器安全性等多方面具有重要的作用。通常，从各个客户端收集日志数据，并将收集的日志数据存入存储服务器，以及对日志数据进行处理后存储到数据库中。然而，在实时的日志数据处理过程中，未对特殊字符进行处理，导致某些字段的信息无法被正确解析。因此，如何对具有特殊字符的日志数据进行正确解析是亟待解决的问题。

发明内容

有鉴于此，本发明所要解决的技术问题在于如何提供一种日志数据处理系统、方法和服务器，可以对日志数据中的特殊字符进行处理。技术方案如下：

根据本公开实施例的第一方面，提供一种日志数据处理系统，所述系统包括日志数据收集服务器、分布式消息服务器、分布式文件服务器、处理服务器以及数据库服务器；其中：

所述日志数据收集服务器，用于收集客户端上报的日志数据；

所述分布式消息服务器，用于将所述日志数据收集服务器收集的日志数据存储至所述分布式文件服务器，以及将所述日志数据中的至少一部分日志数据提供至所述处理服务器；

所述处理服务器，用于根据预设的处理规则对所述至少一部分日志数据进行格式化处理；将格式化处理后的日志数据发送至所述数据库服务器；

其中，所述处理规则包括第一预设字符和与所述第一预设字符对应的第一转换规则，以及第二预设字符和与所述第二预设字符对应的第二转换规则；所述根据预设的处理规则对所述至少一部分日志数据进行格式化处理，包括：将所述至少一部分日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换；以及，将所述至少一部分日志数据中的JSON字符串中的值中的第二预设字符根据第二转换规则进行转换；

所述数据库服务器，用于存储所述处理服务器格式化处理后的日志数据。

可选的，所述处理服务器包括第一处理模块，用于根据所述第一转换规则，将所述至少一部分日志数据中的统一资源定位符中的第一预设字符转换为空格，所述第一预设字符包括：\n、\t、\r、null、NULL、\\、％0A、％0D和％0A中的至少一项。

可选的，所述处理服务器包括第二处理模块，用于根据所述第二转换规则，将所述至少一部分日志数据中的JSON字符串中的值中的"{和}"分别转换为{和}。

可选的，所述数据库服务器还用于存储所述预设的处理规则；

所述处理服务器还用于从所述数据库服务器获取所述预设的处理规则。

可选的，所述处理规则还包括以下一项或多项：从所述至少一部分日志数据中提取的字段、提取的顺序、对提取的字段的格式化处理规则、存储到数据库服务器中的位置。

根据本公开实施例的第二方面，提供一种日志数据处理方法，包括：

获取待处理的日志数据；

根据预设的处理规则对所述日志数据进行格式化处理，其中，所述处理规则包括第一预设字符和与所述第一预设字符对应的第一转换规则，以及第二预设字符和与所述第二预设字符对应的第二转换规则；所述根据预设的处理规则对日志数据进行格式化处理，包括：将日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换；以及，将日志数据中的JSON字符串中的值中的第二预设字符根据第二转换规则进行转换；

将格式化处理后的日志数据发送至数据库服务器。

可选的，所述将日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换，包括：

根据第一转换规则，将日志数据中的统一资源定位符中的第一预设字符转换为空格，所述第一预设字符包括：\n、\t、\r、null、NULL、\\、％0A、％0D和％0A中的至少一项。

可选的，所述将日志数据中的预设字段后的第二预设字符根据第二转换规则进行转换，包括：

根据第二转换规则，将日志数据中的JSON字符串中的值中的"{和}"分别转换为{和}。

可选的，所述方法还包括：

从所述数据库服务器获取所述预设的处理规则。

可选的，所述处理规则还包括以下一项或多项：从日志数据中提取的字段、提取的顺序、对提取的字段的格式化处理规则、存储到数据库中的位置。

根据本公开实施例的第三方面，提供一种服务器，用于实现上述任一项所述的方法。

本实施例中，设置的第一预设字符以及第二预设字符可以是日志数据中待处理的特殊字符，如果不对特征字符进行处理，则在解析时会出现错误。通过设置第一预设字符、第二预设字符、第一转换规则和第二转换规则，就可以将特殊字符进行处理以使后续可以被正确解析。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1是根据一示例性实施例示出的一种日志数据处理系统的框图。

图2是根据一示例性实施例示出的处理服务器104的框图。

图3是根据一示例性实施例示出的处理服务器104的框图。

图4是根据一示例性实施例示出的一种日志数据处理方法的流程图。

图5是根据一示例性实施例示出的一种日志数据处理方法的流程图。

图6是根据一示例性实施例示出的日志数据处理流程的整体示意图。

图7是根据一示例性实施例示出Flume系统框架的示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

相关技术中，从各个客户端收集日志数据，并将收集的日志数据存入存储服务器，以及对日志数据进行处理后存储到数据库中。在实时的日志数据处理过程中，未对特殊字符进行处理，导致某些字段的信息无法被正确解析。为解决上述问题，本实施例对具有特殊字符的日志数据进行处理，使得日志数据可以得到正确解析。

图1是本发明实施例示出的日志数据处理系统的框图。如图1所示，该日志数据处理系统100包括：日志数据收集服务器101、分布式消息服务器102、分布式文件服务器103、处理服务器104以及数据库服务器105。

日志数据收集服务器101，用于收集客户端上报的日志数据。分布式消息服务器102，用于将日志数据收集服务器收集的日志数据存储至分布式文件服务器103，以及将日志数据中的至少一部分日志数据提供至处理服务器104。处理服务器104，用于根据预设的处理规则对至少一部分日志数据进行格式化处理；将格式化处理后的日志数据发送至数据库服务器105。其中，处理规则包括第一预设字符和与第一预设字符对应的第一转换规则，以及第二预设字符和与第二预设字符对应的第二转换规则。根据预设的处理规则对所述至少一部分日志数据进行格式化处理，包括：将至少一部分日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换；以及，将至少一部分日志数据中的JSON(JavaScript Object Notation，JS对象标记)字符串中的值(value)中的第二预设字符根据第二转换规则进行转换。数据库服务器105用于存储处理服务器格式化处理后的日志数据。

其中，设置的第一预设字符以及第二预设字符可以是日志数据中待处理的特殊字符，如果不对特征字符进行处理，则在解析时会出现错误。设置第一预设字符、第二预设字符、第一转换规则和第二转换规则的目的就在于将特殊字符处理为可正确解析的字符。

在本公开一实施例中，如图2所示，处理服务器104包括第一处理模块1041，用于根据第一转换规则，将至少一部分日志数据中的URL(Uniform Resource Locator，统一资源定位符)中的第一预设字符转换为空格，第一预设字符包括：\n、\t、\r、null、NULL、\\、％0A、％0D和％0A中的至少一项。如果不将URL中这些字符转换为空格，在解析URL时例如\n就会被执行为回车换行、\t会被执行为横向跳到下一制表符位置等。该过程是在将日志数据转换成字典格式之前完成。

在本公开一实施例中，如图3所示，处理服务器104包括第二处理模块1042，用于根据第二转换规则，将至少一部分日志数据中的JSON字符串中的值中的"{(即双引号和左大括号)和}"(即右大括号和双引号)分别转换为{(左大括号)和}(右大括号)。

由于JSON字符串中的值中的{是uuid的值自带的，"是json编码所要求的，＇是字典编码所要求的。如果不做转换，在将json字符串转换为字典时会出错。在日志字段信息转换成字典格式时，JSON字符串中的"{和}"将被转换为＇和＇，而JSON字符串中的值中的"{和}"不应该被转换为＇和＇。因此，提前将JSON字符串中的值中的"{和}"转换为{和}，从而避免"{和}"被转换为＇和＇。

例如，对于以下JSON字符串：

{"uid":"{F58A3ADB-5D67-ECDF-FD21-983BAF119F81}","value":"{"pid":"pop","loc_lv1":"pop_index","ctype":"thd","ctitle":"buben","order_id":"4","ui_type":"1","card_type":"3"}"}

根据本公开实施例提供的转换规则，将以上JSON字符串转换成为：

{"uid":"{F58A3ADB-5D67-ECDF-FD21-983BAF119F81}","value":{"pid":"pop","loc_lv1":"pop_index","ctype":"thd","ctitle":"buben","order_id":"4","ui_type":"1","card_type":"3"}}

然后，在接下来将JSON字符串转换成字典格式后，所有双引号会变换成单引号。

在本公开另一实施例中，数据库服务器105还用于存储预设的处理规则，因此，处理服务器104还用于从数据库服务器105获取预设的处理规则。处理规则还可以包括以下一项或多项：从至少一部分日志数据中提取的字段、提取的顺序、对提取的字段的格式化处理规则、存储到数据库服务器中的位置。可以根据需要，对数据库服务器中存储的处理规则进行修改。

图4是本发明实施例示出的日志数据处理方法的流程图。本发明实施例提供的日志数据处理方法，例如可以应用于处理日志数据的服务器。如图4所示，该日志数据处理方法包括以下步骤：

步骤S401，获取待处理的日志数据。

日志数据由日志数据收集服务器收集后存储至分布式消息服务器，消息服务器例如可以采用Kafka(一种分布式消息系统)，Kafka根据预设的topic(主题)将日志数据中的至少一部分日志数据提供至适用于本方法的处理服务器。

步骤S402，根据预设的处理规则对日志数据进行格式化处理，其中，处理规则包括第一预设字符和与第一预设字符对应的第一转换规则，以及第二预设字符和与第二预设字符对应的第二转换规则；根据预设的处理规则对日志数据进行格式化处理，包括：将日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换；以及，将日志数据中的JSON字符串中的值中的第二预设字符根据第二转换规则进行转换。

在本公开一实施例中，将日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换，包括：根据第一转换规则，将日志数据中的统一资源定位符中的第一预设字符转换为空格，第一预设字符包括：\n、\t、\r、null、NULL、\\、％0A、％0D和％0A中的至少一项。

在本公开一实施例中，将日志数据中的预设字段后的第二预设字符根据第二转换规则进行转换，包括：根据第二转换规则，将日志数据中的JSON字符串中的值中的"{和}"分别转换为{和}。

在本公开一实施例中，处理规则还可以包括以下一项或多项：从日志数据中提取的字段、提取的顺序、对提取的字段的格式化处理规则、存储到数据库中的位置。

步骤S403，将格式化处理后的日志数据发送至数据库服务器。

该方法中预设的处理规则可以存储在数据库中，便于根据需要修改处理规则。因此，如图5所示，在根据预设的处理规则对日志数据进行格式化处理之前，该方法还包括：

步骤S404，从数据库服务器获取预设的处理规则。

本发明实施例提供的方法，通过设置预设字符以及对应的转换规则，对具有特殊字符的日志数据进行处理，使得日志数据后续可以得到正确解析。

本发明实施例还提供一种服务器，用于实现上述日志数据处理方法。

如图6所示为本公开另一实施例示出的日志数据处理系统进行日志数据处理的流程的框图。以下结合该框图详细说明日志数据处理的流程。

在本公开实施例中，日志数据收集服务器可以采用flume-ng(next generation，下一代)系统，flume-ng系统是高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。

如图7所示为flume-ng系统架构的示意图，包括客户机701(采集来自application(应用)的数据)、中心服务(collector，收集层)702和存储服务703(可以将数据存储到HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)、Kafka(一种分布式消息系统)以及ES(ElasticSearch，一种搜索服务器)。

回到图6，flume-ng系统的客户机agent 602负责前端数据采集。前端服务器使用Nginx(一种轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器)收集数据。前端服务器通过LVS(Linux Virtual Server，Linux虚拟服务器)和keepalive(在TCP中检测死连接的机制)实现负载均衡和高可用。收集的数据包括Sdk(SoftwareDevelopment Kit，软件开发工具包)数据600和广告服务端数据601，数据格式分别为nginxlog格式和syslogserver(服务端数据格式)。agent 602分别通过flume的tail和tcp方式收集Sdk数据和广告服务端数据，tail和tcp都是flume的source，也就是数据源。Sdk数据依据Log(日志)里enc值判断是否加密，0为不加密，1为加密。中心服务层collect 603负责收集agent 602发送过来的数据，增加这一层是为了增加flume的容错性和高可用性，采用多机部署，实现负载均衡。collect 603通过sink为BFKafkaSink(一种sink类型)方式，通过读取Mysql(数据库)610里的flume_kafka_topic_manager表(表作用是建立Nginx日志名与Kafka-topic(Kafka-主题)的映射关系)将日志数据写入到Kafka 604中。

Kafka 604用于缓存数据，数据缓存策略为Kafka自带的策略，数据分布式存储，数据存储大小为1.0G，保留时间为7天。

然后，流式地将Kafka 604中的日志写入HDFS，分布式部署采用Mysql配置，通过读取Mysql 610里的log_consumer_config表配置(topics、压缩方式、存储路径、时间)，将日志流式的写入HDFS。

上述日志数据处理过程中使用的服务总结如下表一所示：

表一

Kafka 604中的日志还根据topic 606通过consumer group(消费者组)607读入到Spark Streaming 608。Spark Streaming 608是对实时数据流进行高通量、容错处理的流式处理系统。数据从Kafka 604流出，Spark streaming 608将Kafka日志解密后构造成对应的table表，然后执行sql(Structured Query Language，结构化查询语言)操作，数据处理后，获取结果处理的handler(一个类，用于执行sql操作)，结果类型(result_type)为1(用户点击)，则通过uvhandler类和redisDao类，将处理的结果存入Redis(Remote DictionaryServer，远程字典服务器)611中，采用Redis的hyperloglog对uv数据去重；结果类型为2(直接统计的数据)，则通过pvhandler类和mysqlDao类，直接将pv数据存入Mysql 610。最后通过Azkaban(一种批量工作流任务调度器)612调度脚本将pv数据和uv数据聚合起来，重新放入报表平台的数据库Mysql 610中。

其中，Spark streaming中的Formater模块609主要是对日志数据进行格式化处理，也就是对数据做清洗统计，日志数据可以包括以下两种格式：

SDK："ip--日期GET/logger.php？appkey＝.....&enc＝0/1(0不加密，1加密)&ltype＝....&log＝{....}"；

Mobile："ip--日期GET/logger.php？ltype＝....&pid＝....&uid＝.....&.......msg＝{......}"。

spark-streaming608读取Mysql 610相关配置说明：

dt_realtime.realtime_streaming_config：配置kafkatopic和sparksql的table映射；

dt_realtime.realtime_report_config：配置对应业务的sql处理逻辑；

dt_realtime.realtime_uv_load_config：配置从Redis计算uv，加载到mysql；

wirelss_meta.meta_mysql2view_realtime：配置聚合pv数据和uv数据。

如图6所示，可以由Spark Streaming中的formater模块609对日志数据进行格式化处理。预设的处理规则可以存储在数据库Mysql 610中，formater模块609从Mysql 610中获取处理规则对日志数据进行格式化处理。

处理时，首先根据日志数据中的enc值将日志数据分为加密(enc＝0)和不加密(enc＝1)，对加密的数据进行解密处理后再进行格式化处理。处理规则包括以下一项或多项：从至少一部分日志数据中提取的字段、提取的顺序、对提取的字段的格式化处理规则、存储到数据库中的位置。处理规则还包括第一预设字符和与第一预设字符对应的第一转换规则，以及第二预设字符和与第二预设字符对应的第二转换规则。格式化处理包括：将至少一部分日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换；以及，将至少一部分日志数据中的JSON字符串中的值中的第二预设字符根据第二转换规则进行转换。例如，根据第一转换规则，将日志数据中的统一资源定位符中的第一预设字符转换为空格，第一预设字符包括：\n、\t、\r、null、NULL、\\、％0A、％0D和％0A中的至少一项。根据第二转换规则，将日志数据中的JSON字符串中的UUID(Universally UniqueIdentifier，通用唯一识别码)的值中的"{和}"分别转换为{和}。进行了上述特殊字符的处理后，根据数据库中配置的字段将日志数据转换为预设的日志格式。

本发明实施例还提供一种用于日志数据处理的计算机程序产品，该计算机程序产品包括：

计算机可用介质，其中包含计算机可用的程序代码，所述计算机可用程序代码包括：

计算机可用的程序代码，被配置为：

获取分布式消息服务器中的日志数据；

将格式化处理后的日志数据发送至数据库服务器。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种日志数据处理系统，其特征在于，所述系统包括日志数据收集服务器、分布式消息服务器、分布式文件服务器、处理服务器以及数据库服务器；其中：

2.根据权利要求1所述的系统，其特征在于，

所述处理服务器包括第一处理模块，用于根据所述第一转换规则，将所述至少一部分日志数据中的统一资源定位符中的第一预设字符转换为空格，所述第一预设字符包括：\n、\t、\r、null、NULL、\\、％0A、％0D和％0A中的至少一项。

3.根据权利要求1所述的系统，其特征在于，

所述处理服务器包括第二处理模块，用于根据所述第二转换规则，将所述至少一部分日志数据中的JSON字符串中的值中的"{和}"分别转换为{和}。

4.根据权利要求1所述的系统，其特征在于，

所述数据库服务器还用于存储所述预设的处理规则；

5.根据权利要求1所述的系统，其特征在于，所述处理规则还包括以下一项或多项：从所述至少一部分日志数据中提取的字段、提取的顺序、对提取的字段的格式化处理规则、存储到数据库服务器中的位置。

6.一种日志数据处理方法，其特征在于，所述方法包括：

获取待处理的日志数据；

将格式化处理后的日志数据发送至数据库服务器。

7.根据权利要求6所述的方法，其特征在于，所述将日志数据中的统一资源定位符中的第一预设字符根据第一转换规则进行转换，包括：

8.根据权利要求6所述的方法，其特征在于，所述将日志数据中的预设字段后的第二预设字符根据第二转换规则进行转换，包括：

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

从所述数据库服务器获取所述预设的处理规则。

10.根据权利要求6所述的方法，其特征在于，所述处理规则还包括以下一项或多项：从日志数据中提取的字段、提取的顺序、对提取的字段的格式化处理规则、存储到数据库中的位置。

11.一种服务器，其特征在于，用于实现权利要求6-10中任一项所述的方法。