CN109033319A

CN109033319A - 一种大数据日志归一化方法及工具

Info

Publication number: CN109033319A
Application number: CN201810790318.2A
Authority: CN
Inventors: 孙俊虎
Original assignee: Changyang Technology (beijing) Co Ltd
Current assignee: Changyang Technology (beijing) Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2018-12-18

Abstract

本发明提供了一种大数据日志归一化方法，包括：采集阶段获取源日志数据信息并缓存；预处理阶段定义模板；归一化阶段，将源日志数据进行分割过滤，然后按照预设的标注模板进行转换，生成统一归一化日志数据；整合阶段，对归一化的日志数据进行保存维护。一种大数据日志归一化工具，包括：采集单元，获取源日志数据信息并缓存；预处理单元，定义处理模板，将所述源日志数据进行处理，生成有特定含义数据字段；归一化单元，对所述有特定含义的数据字段按照预设标注模板重新分类转换，生成格式统一的归一化日志数据；整合单元，对归一化的日志数据进行保存和维护。本发明提供的方案可以将多样化数据格式统一化，使得数据的挖掘效率更高，性能提升。

Description

一种大数据日志归一化方法及工具

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种大数据日志归一化方法及工具。

背景技术

大数据(Big Data)一词越来越多地被人们提及与使用，人们用它来描述和定义信息爆炸时代产生的海量数据，我们不得不接受这个现实，每个人从互联网进入到大数据时代，都将是透明性存在。各种数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患，但是随着时间的推移，人们将越来越多的意识到数据对企业的重要性。

大数据具有四大特点：海量性，多样性，高速性，易变性，总结起来他有三方面的特征：第一个特征是数据类型繁多，包括网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求；第二个特征是数据价值密度相对较低，如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题；第三个特征是处理速度快、时效性要求高，这是大数据区分于传统数据挖掘最显著的特征。

我们要想从急剧增长的数据资源中充分挖掘并分析出有价值的信息，就需要以先进的分析技术作为支撑。从宏观上来看，大数据分析技术的发展所面临的问题均包含以下三个主要特征：

(1)数据结构与种类多样化，并以非结构化和半结构化的数据为主；

(2)数据量庞大并且正以惊人的速度持续增长；

(3)必须具备及时、快速的分析速度，即实时分析；

以上(2)、(3)方面目前商业和开源产品都有很好的解决方案，而我们提供第(1)方面解决方案，那就是数据的归一化。

大数据分析早已不是新鲜的名称，但是对于数据结构与种类多样化的特点，分析方法品类繁多，传统的做法就是具体业务数据具体处理，很难有统一的挖掘方法且展示给客户也是多种多样的格式，该发明提供的数据归一化方法就是把繁多的数据归一到一个维度上来，使得数据的挖掘和展示统一。

发明内容

针对上述现有技术中的不足之处，本发明提供了一种大数据日志归一化方法及工具，以解决现有技术中数据格式繁杂处理效率低的问题。

本发明提供了一种大数据日志归一化方法，包括：采集阶段，获取源日志数据信息，并进行缓存；预处理阶段，根据采集源日志数据设置归一化标准模板、增强模板；归一化阶段，将所述源日志数据进行分割、过滤，然后按照预设的标注模板进行转换，生成格式统一的归一化日志数据；整合阶段，对所述归一化的日志数据进行保存和维护。

作为本发明的进一步改进，所述预设的标注模板分为标准模板和增强模板两种，标准模板按以下七个方面对日志数据进行分类转换：原因、对象、地点、时间、人员、方法、结果；增强模板是在标准模板的基础上增加个性化的特征项属性。任何系统、设备产生的数据都可以从这七个方面进行标注解析，从而便于实现多样化的数据的归一。

作为本发明的进一步改进，所述归一化阶段具体包括如下步骤：将源日志数据分割成独立的数据字段，过滤出有特定含义的数据字段，对所述有特定含义的数据字段进行分类转换，所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。

作为本发明的进一步改进，所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中，包括对数据字段的匹配、解析、组合的数据处理方式。

作为本发明的进一步改进，将所述源日志数据进行分割、过滤之前，还包括如下步骤：将获取的所述源日志数据进行筛选，将相同的所述源日志数据去重、关联、增强，只保留一份该数据。

本发明还提供了一种大数据日志归一化工具，包括：

采集单元，用于获取源日志数据信息，并进行缓存；

预处理单元，定义处理模板，包括标准模板、增强模板，用于将所述源日志数据进行去重、分割、关联、增强和过滤，生成有特定含义的数据字段；

归一化单元，用于对所述有特定含义的数据字段按照预设的标注模板重新分类转换，所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中，生成格式统一的归一化日志数据；

整合单元，用于对所述归一化的日志数据进行保存和维护。

作为本发明的进一步改进，所述预设的标准模板按以下七个方面对数据字段进行分类转换：原因、对象、地点、时间、人员、方法、结果；增强模板除了做标准模板的分类转换后，对个性化的数据做数据关联以及数据增强。

作为本发明的进一步改进，所述将所述源日志数据进行去重、分割和过滤具体包括如下：将获取的所述源日志数据进行筛选，将相同的所述源日志数据去重，将源日志数据分割成独立的数据字段，过滤出有特定含义的数据字段。

本发明提供的一种大数据日志归一化方法及工具，可以将以非结构化和半结构化的数据为主的多样化数据格式统一化，将繁多的数据归一到一个维度上来，使得数据的挖掘效率更高，性能提升，同时能使数据的展示做到统一。

附图说明

图1是本发明提供的大数据日志归一化工具结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明大数据日志归一化方法的一个实施例，，包括以下几个步骤：采集阶段，获取源日志数据信息，并进行缓存；预处理阶段，根据采集源日志数据设置归一化标准模板、增强模板；归一化阶段，将所述源日志数据进行分割、过滤，然后按照预设的标注模板进行转换，生成格式统一的归一化日志数据；整合阶段，对所述归一化的日志数据进行保存和维护。

所述预设的标注模板分为标准模板和增强模板两种，标准模板按以下七个方面对日志数据进行分类转换：原因、对象、地点、时间、人员、方法、结果；增强模板是在标准模板的基础上增加个性化的特征项属性。任何系统、设备产生的数据都可以从这七个方面进行标注解析，从而便于实现多样化的数据的归一。

所述归一化阶段具体包括如下步骤：将源日志数据分割成独立的数据字段，过滤出有特定含义的数据字段，对所述有特定含义的数据字段进行分类转换，所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中，包括对数据字段的匹配、解析、组合的数据处理方式。

将所述源日志数据进行分割、过滤之前，还包括如下步骤：将获取的所述源日志数据进行筛选，将相同的所述源日志数据去重、关联、增强，只保留一份该数据。

列举如下案例对按照预设的标注模板重新标注日志模板进行说明，一条经典的apache access_log日志，源数据格式如下：

218.19.140.242–-[10/Dec/2010:09:31:17+0800]“GET/query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1″2001933“-”“Mozilla/5.0(Windows；U；Windows NT 5.1；zh-CN；rv:1.9.2.8)Gecko/20100722Firefox/3.6.8(.NET CLR3.5.30729)”

模板标注如下：

1)218.19.140.242这是一个请求到apache服务器的客户端ip,我们标注为％{Who}。

2)[10/Dec/2010:09:31:17+0800]第四项是记录请求的时间,标注为％{When}。

3)“GET/..haizhu_tianhe.xml HTTP/1.1″这一项整个记录中最有用的信息,首先,它告诉我们的服务器收到的是一个GET请求,其次,是客户端请求的资源路径,第三,客户端使用的协议时HTTP/1.1,整个格式为”％m％U％q％H”,即”请求方法/访问路径/协议”，那么依次标注为％{How}，％{What}，％{Where}。

4)200这是一个状态码,由服务器端发送回客户端,它告诉我们客户端的请求是否成功,或者是重定向,或者是碰到了什么样的错误,这项值为200，表示服务器已经成功的响应了客户端的请求,一般来说,这项值以2开头的表示请求成功,以3开头的表示重定向,以4开头的标示客户端存在某些的错误,以5开头的标示服务器端存在某些错误,标注为％{HowR}。

5)1933这项表示服务器向客户端发送了多少的字节,在日志分析统计的时侯,把这些字节加起来就可以得知服务器在某点时间内总的发送数据量是多少，标注为％{+HowR/2}。％{+HowR/2}这个+表示，前面已经捕获到一个HowR字段了，而这次捕获的内容，自动添补到之前HowR字段内容的后面；这个/2表示，在有多次捕获内容都填到HowR字段里的时候，拼接字符串的顺序谁前谁后。/2表示排第2位。

6)“Mozilla/5.0(Windows；U；Windows NT 5.1；zh-CN；rv:1.9.2.8)Gecko/20100722Firefox/3.6.8(.NET CLR 3.5.30729)”这项主要记录客户端的浏览器信息，标注为％{+Who/2}，其中+和/2表示的含义与上述5)中的％{+HowR/2}中的+和/2含义相同。

7)这条日志没有明确说明为什么应该做这件事，也就是Why我们没有标注，这里作为预留字段。

如图1所示，本发明一种大数据日志归一化工具的实施例，包括：

采集单元01，用于获取源日志数据信息，对数据进行列队并缓存；

预处理单元02，定义处理模板，包括标准模板、增强模板，用于将所述源日志数据进行去重、分割、关联、增强和过滤，生成有特定含义的数据字段；具体包括如下：将获取的所述源日志数据进行筛选，将相同的所述源日志数据去重，将源日志数据分割成独立的数据字段，关联、增强和过滤出有特定含义的数据字段；

归一化单元03，用于对所述有特定含义的数据字段按照预设的标注模板重新分类转换，所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中，生成格式统一的归一化日志数据；所述预设的标注模板分为标准模板和增强模板两种，标准模板按以下七个方面对数据字段进行分类转换：原因、对象、地点、时间、人员、方法、结果；增强模板除了做标准模板的分类转换后，对个性化的数据做数据关联以及数据增强；

整合单元04，用于对所述归一化的日志数据进行保存和维护。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种大数据日志归一化方法，其特征在于，包括：采集阶段，获取源日志数据信息，并进行缓存；预处理阶段，根据采集源日志数据设置归一化标准模板、增强模板；归一化阶段，将所述源日志数据进行分割、过滤，然后按照预设的标注模板进行转换，生成格式统一的归一化日志数据；整合阶段，对所述归一化的日志数据进行保存和维护。

2.根据权利要求1所述的大数据日志归一化方法，其特征在于，所述预设的标注模板分为标准模板和增强模板两种，标准模板按以下七个方面对日志数据进行分类转换：原因、对象、地点、时间、人员、方法、结果；增强模板是在标准模板的基础上增加个性化的特征项属性。

3.根据权利要求2所述的大数据日志归一化方法，其特征在于，所述归一化阶段具体包括如下步骤：将源日志数据分割成独立的数据字段，过滤出有特定含义的数据字段，对所述有特定含义的数据字段进行分类转换，所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。

4.根据权利要求3所述的大数据日志归一化方法，其特征在于，所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中，包括对数据字段的匹配、解析、组合的数据处理方式。

5.根据权利要求1所述的大数据日志归一化方法，其特征在于，将所述源日志数据进行分割、过滤之前，还包括如下步骤：将获取的所述源日志数据进行筛选，将相同的所述源日志数据去重、关联、增强，只保留一份该数据。

6.一种大数据日志归一化工具，其特征在于，包括：

采集单元，用于获取源日志数据信息，并进行缓存；

整合单元，用于对所述归一化的日志数据进行保存和维护。

7.根据权利要求6所述的大数据日志归一化工具，其特征在于，所述预设的标注模板分为标准模板和增强模板两种，标准模板按以下七个方面对数据字段进行分类转换：原因、对象、地点、时间、人员、方法、结果；增强模板除了做标准模板的分类转换后，对个性化的数据做数据关联以及数据增强。

8.根据权利要求6所述的大数据日志归一化工具，其特征在于，所述将所述源日志数据进行去重、分割和过滤具体包括如下：将获取的所述源日志数据进行筛选，将相同的所述源日志数据去重，将源日志数据分割成独立的数据字段，过滤出有特定含义的数据字段。