CN109033319A - 一种大数据日志归一化方法及工具 - Google Patents

一种大数据日志归一化方法及工具 Download PDF

Info

Publication number
CN109033319A
CN109033319A CN201810790318.2A CN201810790318A CN109033319A CN 109033319 A CN109033319 A CN 109033319A CN 201810790318 A CN201810790318 A CN 201810790318A CN 109033319 A CN109033319 A CN 109033319A
Authority
CN
China
Prior art keywords
data
log
template
normalization
specific meanings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810790318.2A
Other languages
English (en)
Inventor
孙俊虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changyang Technology (beijing) Co Ltd
Original Assignee
Changyang Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changyang Technology (beijing) Co Ltd filed Critical Changyang Technology (beijing) Co Ltd
Priority to CN201810790318.2A priority Critical patent/CN109033319A/zh
Publication of CN109033319A publication Critical patent/CN109033319A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种大数据日志归一化方法,包括:采集阶段获取源日志数据信息并缓存;预处理阶段定义模板;归一化阶段,将源日志数据进行分割过滤,然后按照预设的标注模板进行转换,生成统一归一化日志数据;整合阶段,对归一化的日志数据进行保存维护。一种大数据日志归一化工具,包括:采集单元,获取源日志数据信息并缓存;预处理单元,定义处理模板,将所述源日志数据进行处理,生成有特定含义数据字段;归一化单元,对所述有特定含义的数据字段按照预设标注模板重新分类转换,生成格式统一的归一化日志数据;整合单元,对归一化的日志数据进行保存和维护。本发明提供的方案可以将多样化数据格式统一化,使得数据的挖掘效率更高,性能提升。

Description

一种大数据日志归一化方法及工具
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据日志归一化方法及工具。
背景技术
大数据(Big Data)一词越来越多地被人们提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数据,我们不得不接受这个现实,每个人从互联网进入到大数据时代,都将是透明性存在。各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
大数据具有四大特点:海量性,多样性,高速性,易变性,总结起来他有三方面的特征:第一个特征是数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求;第二个特征是数据价值密度相对较低,如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题;第三个特征是处理速度快、时效性要求高,这是大数据区分于传统数据挖掘最显著的特征。
我们要想从急剧增长的数据资源中充分挖掘并分析出有价值的信息,就需要以先进的分析技术作为支撑。从宏观上来看,大数据分析技术的发展所面临的问题均包含以下三个主要特征:
(1)数据结构与种类多样化,并以非结构化和半结构化的数据为主;
(2)数据量庞大并且正以惊人的速度持续增长;
(3)必须具备及时、快速的分析速度,即实时分析;
以上(2)、(3)方面目前商业和开源产品都有很好的解决方案,而我们提供第(1)方面解决方案,那就是数据的归一化。
大数据分析早已不是新鲜的名称,但是对于数据结构与种类多样化的特点,分析方法品类繁多,传统的做法就是具体业务数据具体处理,很难有统一的挖掘方法且展示给客户也是多种多样的格式,该发明提供的数据归一化方法就是把繁多的数据归一到一个维度上来,使得数据的挖掘和展示统一。
发明内容
针对上述现有技术中的不足之处,本发明提供了一种大数据日志归一化方法及工具,以解决现有技术中数据格式繁杂处理效率低的问题。
本发明提供了一种大数据日志归一化方法,包括:采集阶段,获取源日志数据信息,并进行缓存;预处理阶段,根据采集源日志数据设置归一化标准模板、增强模板;归一化阶段,将所述源日志数据进行分割、过滤,然后按照预设的标注模板进行转换,生成格式统一的归一化日志数据;整合阶段,对所述归一化的日志数据进行保存和维护。
作为本发明的进一步改进,所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对日志数据进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板是在标准模板的基础上增加个性化的特征项属性。任何系统、设备产生的数据都可以从这七个方面进行标注解析,从而便于实现多样化的数据的归一。
作为本发明的进一步改进,所述归一化阶段具体包括如下步骤:将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段,对所述有特定含义的数据字段进行分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。
作为本发明的进一步改进,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,包括对数据字段的匹配、解析、组合的数据处理方式。
作为本发明的进一步改进,将所述源日志数据进行分割、过滤之前,还包括如下步骤:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重、关联、增强,只保留一份该数据。
本发明还提供了一种大数据日志归一化工具,包括:
采集单元,用于获取源日志数据信息,并进行缓存;
预处理单元,定义处理模板,包括标准模板、增强模板,用于将所述源日志数据进行去重、分割、关联、增强和过滤,生成有特定含义的数据字段;
归一化单元,用于对所述有特定含义的数据字段按照预设的标注模板重新分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,生成格式统一的归一化日志数据;
整合单元,用于对所述归一化的日志数据进行保存和维护。
作为本发明的进一步改进,所述预设的标准模板按以下七个方面对数据字段进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板除了做标准模板的分类转换后,对个性化的数据做数据关联以及数据增强。
作为本发明的进一步改进,所述将所述源日志数据进行去重、分割和过滤具体包括如下:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重,将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段。
本发明提供的一种大数据日志归一化方法及工具,可以将以非结构化和半结构化的数据为主的多样化数据格式统一化,将繁多的数据归一到一个维度上来,使得数据的挖掘效率更高,性能提升,同时能使数据的展示做到统一。
附图说明
图1是本发明提供的大数据日志归一化工具结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明大数据日志归一化方法的一个实施例,,包括以下几个步骤:采集阶段,获取源日志数据信息,并进行缓存;预处理阶段,根据采集源日志数据设置归一化标准模板、增强模板;归一化阶段,将所述源日志数据进行分割、过滤,然后按照预设的标注模板进行转换,生成格式统一的归一化日志数据;整合阶段,对所述归一化的日志数据进行保存和维护。
所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对日志数据进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板是在标准模板的基础上增加个性化的特征项属性。任何系统、设备产生的数据都可以从这七个方面进行标注解析,从而便于实现多样化的数据的归一。
所述归一化阶段具体包括如下步骤:将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段,对所述有特定含义的数据字段进行分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,包括对数据字段的匹配、解析、组合的数据处理方式。
将所述源日志数据进行分割、过滤之前,还包括如下步骤:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重、关联、增强,只保留一份该数据。
列举如下案例对按照预设的标注模板重新标注日志模板进行说明,一条经典的apache access_log日志,源数据格式如下:
218.19.140.242–-[10/Dec/2010:09:31:17+0800]“GET/query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1″2001933“-”“Mozilla/5.0(Windows;U;Windows NT 5.1;zh-CN;rv:1.9.2.8)Gecko/20100722Firefox/3.6.8(.NET CLR3.5.30729)”
模板标注如下:
1)218.19.140.242这是一个请求到apache服务器的客户端ip,我们标注为%{Who}。
2)[10/Dec/2010:09:31:17+0800]第四项是记录请求的时间,标注为%{When}。
3)“GET/..haizhu_tianhe.xml HTTP/1.1″这一项整个记录中最有用的信息,首先,它告诉我们的服务器收到的是一个GET请求,其次,是客户端请求的资源路径,第三,客户端使用的协议时HTTP/1.1,整个格式为”%m%U%q%H”,即”请求方法/访问路径/协议”,那么依次标注为%{How},%{What},%{Where}。
4)200这是一个状态码,由服务器端发送回客户端,它告诉我们客户端的请求是否成功,或者是重定向,或者是碰到了什么样的错误,这项值为200,表示服务器已经成功的响应了客户端的请求,一般来说,这项值以2开头的表示请求成功,以3开头的表示重定向,以4开头的标示客户端存在某些的错误,以5开头的标示服务器端存在某些错误,标注为%{HowR}。
5)1933这项表示服务器向客户端发送了多少的字节,在日志分析统计的时侯,把这些字节加起来就可以得知服务器在某点时间内总的发送数据量是多少,标注为%{+HowR/2}。%{+HowR/2}这个+表示,前面已经捕获到一个HowR字段了,而这次捕获的内容,自动添补到之前HowR字段内容的后面;这个/2表示,在有多次捕获内容都填到HowR字段里的时候,拼接字符串的顺序谁前谁后。/2表示排第2位。
6)“Mozilla/5.0(Windows;U;Windows NT 5.1;zh-CN;rv:1.9.2.8)Gecko/20100722Firefox/3.6.8(.NET CLR 3.5.30729)”这项主要记录客户端的浏览器信息,标注为%{+Who/2},其中+和/2表示的含义与上述5)中的%{+HowR/2}中的+和/2含义相同。
7)这条日志没有明确说明为什么应该做这件事,也就是Why我们没有标注,这里作为预留字段。
如图1所示,本发明一种大数据日志归一化工具的实施例,包括:
采集单元01,用于获取源日志数据信息,对数据进行列队并缓存;
预处理单元02,定义处理模板,包括标准模板、增强模板,用于将所述源日志数据进行去重、分割、关联、增强和过滤,生成有特定含义的数据字段;具体包括如下:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重,将源日志数据分割成独立的数据字段,关联、增强和过滤出有特定含义的数据字段;
归一化单元03,用于对所述有特定含义的数据字段按照预设的标注模板重新分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,生成格式统一的归一化日志数据;所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对数据字段进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板除了做标准模板的分类转换后,对个性化的数据做数据关联以及数据增强;
整合单元04,用于对所述归一化的日志数据进行保存和维护。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种大数据日志归一化方法,其特征在于,包括:采集阶段,获取源日志数据信息,并进行缓存;预处理阶段,根据采集源日志数据设置归一化标准模板、增强模板;归一化阶段,将所述源日志数据进行分割、过滤,然后按照预设的标注模板进行转换,生成格式统一的归一化日志数据;整合阶段,对所述归一化的日志数据进行保存和维护。
2.根据权利要求1所述的大数据日志归一化方法,其特征在于,所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对日志数据进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板是在标准模板的基础上增加个性化的特征项属性。
3.根据权利要求2所述的大数据日志归一化方法,其特征在于,所述归一化阶段具体包括如下步骤:将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段,对所述有特定含义的数据字段进行分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。
4.根据权利要求3所述的大数据日志归一化方法,其特征在于,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,包括对数据字段的匹配、解析、组合的数据处理方式。
5.根据权利要求1所述的大数据日志归一化方法,其特征在于,将所述源日志数据进行分割、过滤之前,还包括如下步骤:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重、关联、增强,只保留一份该数据。
6.一种大数据日志归一化工具,其特征在于,包括:
采集单元,用于获取源日志数据信息,并进行缓存;
预处理单元,定义处理模板,包括标准模板、增强模板,用于将所述源日志数据进行去重、分割、关联、增强和过滤,生成有特定含义的数据字段;
归一化单元,用于对所述有特定含义的数据字段按照预设的标注模板重新分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,生成格式统一的归一化日志数据;
整合单元,用于对所述归一化的日志数据进行保存和维护。
7.根据权利要求6所述的大数据日志归一化工具,其特征在于,所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对数据字段进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板除了做标准模板的分类转换后,对个性化的数据做数据关联以及数据增强。
8.根据权利要求6所述的大数据日志归一化工具,其特征在于,所述将所述源日志数据进行去重、分割和过滤具体包括如下:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重,将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段。
CN201810790318.2A 2018-07-18 2018-07-18 一种大数据日志归一化方法及工具 Pending CN109033319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810790318.2A CN109033319A (zh) 2018-07-18 2018-07-18 一种大数据日志归一化方法及工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810790318.2A CN109033319A (zh) 2018-07-18 2018-07-18 一种大数据日志归一化方法及工具

Publications (1)

Publication Number Publication Date
CN109033319A true CN109033319A (zh) 2018-12-18

Family

ID=64643292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810790318.2A Pending CN109033319A (zh) 2018-07-18 2018-07-18 一种大数据日志归一化方法及工具

Country Status (1)

Country Link
CN (1) CN109033319A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949877A (zh) * 2019-03-15 2019-06-28 北京科技大学 一种基于材料科学实验的数据融合方法及系统
CN110442671A (zh) * 2019-08-02 2019-11-12 深圳百胜扬工业电子商务平台发展有限公司 一种非结构化数据处理的方法和系统
CN110908858A (zh) * 2019-10-12 2020-03-24 中国平安财产保险股份有限公司 基于双漏斗结构的日志类样本抽样方法及相关装置
CN111818011A (zh) * 2020-05-29 2020-10-23 中国平安财产保险股份有限公司 异常访问行为识别方法、装置、计算机设备和存储介质
CN112506886A (zh) * 2021-02-05 2021-03-16 北京通付盾人工智能技术有限公司 一种多源业务操作日志采集方法及系统
CN112882991A (zh) * 2019-11-29 2021-06-01 北京数安鑫云信息技术有限公司 日志数据的归一化处理方法、装置、介质及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049287A (zh) * 2015-07-28 2015-11-11 小米科技有限责任公司 日志处理方法及装置
CN105959131A (zh) * 2016-04-15 2016-09-21 贵州电网有限责任公司信息中心 一种基于安全日志数据挖掘的电力信息网络安全度量方法
CN107992293A (zh) * 2017-12-11 2018-05-04 国云科技股份有限公司 一种企业属性划分系统及其实现方法
CN108123840A (zh) * 2017-12-22 2018-06-05 中国联合网络通信集团有限公司 日志处理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049287A (zh) * 2015-07-28 2015-11-11 小米科技有限责任公司 日志处理方法及装置
CN105959131A (zh) * 2016-04-15 2016-09-21 贵州电网有限责任公司信息中心 一种基于安全日志数据挖掘的电力信息网络安全度量方法
CN107992293A (zh) * 2017-12-11 2018-05-04 国云科技股份有限公司 一种企业属性划分系统及其实现方法
CN108123840A (zh) * 2017-12-22 2018-06-05 中国联合网络通信集团有限公司 日志处理方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949877A (zh) * 2019-03-15 2019-06-28 北京科技大学 一种基于材料科学实验的数据融合方法及系统
CN110442671A (zh) * 2019-08-02 2019-11-12 深圳百胜扬工业电子商务平台发展有限公司 一种非结构化数据处理的方法和系统
CN110908858A (zh) * 2019-10-12 2020-03-24 中国平安财产保险股份有限公司 基于双漏斗结构的日志类样本抽样方法及相关装置
CN112882991A (zh) * 2019-11-29 2021-06-01 北京数安鑫云信息技术有限公司 日志数据的归一化处理方法、装置、介质及计算机设备
CN111818011A (zh) * 2020-05-29 2020-10-23 中国平安财产保险股份有限公司 异常访问行为识别方法、装置、计算机设备和存储介质
CN112506886A (zh) * 2021-02-05 2021-03-16 北京通付盾人工智能技术有限公司 一种多源业务操作日志采集方法及系统

Similar Documents

Publication Publication Date Title
CN109033319A (zh) 一种大数据日志归一化方法及工具
CN104391881B (zh) 一种基于分词算法的日志解析方法及系统
CN107563725B (zh) 一种优化繁琐人才招聘过程的招聘系统
CN104035997B (zh) 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法
CN107665191A (zh) 一种基于扩展前缀树的私有协议报文格式推断方法
US6941511B1 (en) High-performance extensible document transformation
US20140122535A1 (en) Extracting Semantic Relationships from Table Structures in Electronic Documents
CN106960030A (zh) 基于人工智能的推送信息方法及装置
US20170331772A1 (en) Chat Log Analyzer
CN104618132B (zh) 一种应用程序识别规则生成方法和装置
EP1493106A2 (en) Media object management
CN102882703A (zh) 一种基于http分析的url自动分类分级的系统及方法
CN105825094A (zh) 管理从网络数据流量中发现的身份数据的方法和装置
US20130232424A1 (en) User operation detection system and user operation detection method
CN105868169B (zh) 一种数据采集装置、数据采集方法和系统
CN116680459B (zh) 基于ai技术的外贸内容数据处理系统
CN108847957A (zh) 发现与呈现网络应用访问信息的方法和系统
CN103514189A (zh) 一种基于搜索引擎的网络爬虫的实现方法
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN109710767A (zh) 多语种大数据服务平台
CN110365659B (zh) 一种小样本场景下的网络入侵检测数据集的构造方法
CN104021124A (zh) 用于处理网页数据的方法、装置和系统
CN104462996B (zh) 实现对远程取证目标终端进行协同取证分析的方法及系统
CN105933324A (zh) 一种基于网络流在线实时分析跳转链和溯源的方法和系统
CN111835720B (zh) 基于特征增强的vpn流量web指纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication