CN108241658B - 一种日志模式发现方法及系统 - Google Patents
一种日志模式发现方法及系统 Download PDFInfo
- Publication number
- CN108241658B CN108241658B CN201611210357.8A CN201611210357A CN108241658B CN 108241658 B CN108241658 B CN 108241658B CN 201611210357 A CN201611210357 A CN 201611210357A CN 108241658 B CN108241658 B CN 108241658B
- Authority
- CN
- China
- Prior art keywords
- log
- content
- contents
- grammar
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种日志模式发现方法及系统。所述方法包括:采集日志消息,将所述日志消息转换后存储为日志消息内容;逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表;预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换;将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集;分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树;定义文法,根据所述句法树和定义的文法,提取出每条日志内容的关键信息模型;将属于同一关键信息模型的日志内容归为一类,获得日志模式记录和静态模式数据表。采用上述方案,可使日志模式的划分更科学、信息更完整等。
Description
技术领域
本申请涉及信息检索技术领域,特别地,涉及一种日志模式发现方法及系统。
背景技术
目前电信网络产生的日志数据量大,维度高,结构形式复杂,无法统一处理分析并进行挖掘,既占用了大量的存储资源,采用传统的处理方式又会损失许多有价值的信息。
当前电信日志主要还是用于传统网管告警和单点分析,尚未对日志数据进行更为有效深入的使用。由于日志源设备厂家和日志类型多样性,非结构化、半结构化等非标准日志格式无法有效处理,为电信告警日志信息的进一步理解造成了一定的困难。
传统的日志提取方法需要日志使用方开发人员先理解日志的内容,然后根据应用的需求提取需要的信息。这种方法存在若干弊端:
一方面,在很多机构中,特别是一些大型企业,日志的所有方和日志的使用方往往不在同一个团队,甚至不在同一个部门。另一方面,日志格式灵活多变,有的日志及其复杂,对日志使用方而言如同天书,很难理解,而且目前没有一种规范来准确地描述日志的格式和业务含义。由于以上原因,为了提取日志的结构化信息,使用方往往要花费大量的时间和精力沟通、理解所需的各种日志的格式。
传统的日志处理方法往往使用匹配正则表达式或者提取特定的字段。但在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作,形成结构化数据的方式来进行日志的截取和处理,导致大量非结构或者半结构化的信息被丢弃。且此类日志结构化信息的提取方法不够灵活,基本都是针对某种具体的日志需要进行编码提取结构化信息。
在信息检索领域,根据日志相似性来判断设备故障,这些技术仅仅将不同设备的日志通过提取日志模式,并将类似的日志模式进行聚类的方法来判断故障类别,而没有使用自然语言处理的方法来对日志模式进行更深一步的处理和分析。
在日志分析领域,通过模式匹配,或将日志进行自定义字段的拆分,或利用日志的下游数据定义语言(DDL,Data Definition Language)文件中的信息来进行日志的结构化,然而其共同的缺陷是都需要提前定义数据模式、模板或者需要相关文件来建立数据模式库,而这对于多源异构的系统日志来说,在理解日志内容和认为建立不同日志的模式库将耗费大量的人力物力,而且也无法适应于新的厂家和日志模式。
在网络安全领域,通过关联挖掘技术进行网络安全日志分析的相关专利技术,但是该技术采用了将非结构化信息的分字段提取并结构化存储,会导致大量信息的损失。
发明内容
本申请提供一种日志模式发现方法及系统,用于解决现有技术中许多相同的日志模式被划分到了不同的类别、提取自然语言信息时大量信息损失、需要提前定义数据模式、模板或者需要相关文件来建立数据模式库等的问题。
本申请公开的一种日志模式发现方法,包括:
采集日志消息,将所述日志消息转换后存储为日志消息内容;
逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表;
预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换;
将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集;
分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树;
定义文法,根据所述句法树和定义的文法,提取出每条日志内容的关键信息模型;
将属于同一关键信息模型的日志消息内容归为一类,获得日志模式记录和静态模式数据表;其中,所述日志模式记录转存到模式库中,所述静态模式数据表转存到模式化日志库中。
进一步的,所述采集日志消息,将所述日志消息转换后存储为日志消息内容,具体包括:
接入被监控设备的日志消息数据,将所述日志消息数据转换成JSON格式数据,导入原始日志库中通过分布式文件系统进行分布式存储,存储为日志消息内容。
进一步的,所述逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表,具体包括:
逐条提取转换成JSON格式数据的日志消息内容中的具体消息作为日志内容,并计算每条日志内容对应的哈希值,所述日志内容和所述日志内容对应的哈希值形成日志内容列表;其中,所述日志内容对应的哈希值即为所述日志内容的编号。
进一步的,所述预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换,具体包括:
预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则使用正则表达式进行替换;
所述实体特征值包括时间、日期、纯数字和/或统一资源定位符。
进一步的,所述将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集,具体包括:
将替换后的日志内容列表中完全相同的日志内容进行合并,并将所述完全相同的日志内容的编号记录在静态模式数据表中;
将所述完全相同的日志内容中最小的哈希值作为合并后的日志内容的编号。
进一步的,所述分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树,具体包括:
对所述日志内容数据集中的每条日志内容进行词性标注,采用概率上下文无关文法对所述日志内容进行句法分析,生成每条日志内容对应的句法树;其中,所述词性标注指在日志内容中判定每个词的语法范畴,确定其词性并加以标注的过程。
进一步的,所述定义文法,根据所述句法树和定义的所述文法,提取出每条日志内容的关键信息模型,具体包括:
定义短语结构文法;其中,所述短语结构文法是一个包含非终结符、终结符、再写规则和起始符的四元式;
根据所述句法树中词语的前后结构关系和短语结构文法,提取每条日志内容的关键信息模型;所述关键信息包括所述日志内容的主体、动作和参数指标。
进一步的,所述将属于同一关键信息模型的日志内容归为一类,获得日志模式记录和静态模式数据表,具体包括:
将关键信息模型相同的日志内容合并为同一模式,将不同模式的日志内容的初始内容记录到日志模式记录中;所述初始内容指变更为JSON格式数据的日志内容列表中的文本内容;
对所述日志模式记录中的不同模式进行模式编号,并将所述模式编号和对应的具体日志编号写入静态模式数据表中。
本申请公开的一种日志模式发现系统,包括:
日志采集器模块,用于采集日志消息,将所述日志消息转换后存储为日志消息内容;
模式分析模块,用于对所述日志消息内容进行模式分析;
所述模式分析模块,包括:
数据提取单元,用于逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表;
特征替换单元,用于预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换;
同类合并单元:用于将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集;
词性分析单元,用于分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树;
模型提取单元:用于定义文法,根据所述句法树和定义的文法,提取出每条日志内容的关键信息模型;
结果保存单元,用于将属于同一关键信息模型的日志内容归为一类,获得日志模式记录和静态模式数据表;其中,所述日志模式记录转存到模式库中,所述静态模式数据表转存到模式化日志库中。
进一步的,所述模型提取单元包括:
文法定义子单元,用于定义短语结构文法,所述短语结构文法是一个包含非终结符、终结符、再写规则和起始符的四元式;
提取模型子单元,用于根据所述句法树中词语的前后结构关系和短语结构文法,提取每条日志内容的关键信息模型;所述关键信息包括所述日志内容的主体、动作和参数指标。
与现有技术相比,本申请具有以下优点:
本发明通过日志模式提取来处理大量多源异构的电信日志,用自然语言处理的方式进行日志模式的合并,并进行关联挖掘发现日志间的潜在关系,实现了电信设备告警日志更抽象的模式提取和关联挖掘,使得多源异构的非结构化的日志可以在无需定义模板的情况下自适应的提取日志的关键信息,设计了一种基于自然语言分析和日志相似性的电信日志模式发现方法及系统。既解决了传统日志由于多源异构而无法进行数据挖掘的问题,也解决了已有的日志模式提取方法及对日志模式无法综合,拓展了日志模式提取和数据挖掘在电信领域的大数据分析应用场景与范围。
附图说明
附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例一种日志模式发现方法的流程图;
图2为本申请实施例一种日志模式发现方法日志消息内容示例图;
图3为本申请实施例一种日志模式发现方法日志内容的句法树结构示意图;
图4为本申请实施例一种日志模式发现系统的结构示意图;
图5为本申请实施例一种日志模式发现系统模式分析模块的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
参照图1,示出了本申请实施例一种日志模式发现方法的流程图。
本优选方法实施例包括以下步骤:
步骤S101:采集日志消息,将所述日志消息转换后存储为日志消息内容;具体包括:
接入被监控设备的日志消息数据,适配各种数据接口,如文件传输协议(FTP,FileTransfer Protocol)传送文件、简单网络管理协议陷阱(SNMP trap,Simple NetworkManagement Protocol trap)消息等,并将所述日志消息转换成JSON格式数据,导入原始日志库中通过分布式文件系统(HDFS,Hadoop Distributed File System)进行分布式存储,存储为日志消息内容。
本申请实施例采集了某地运营商某一设备近半个月内的日志消息数据,其中有诊断日志、操作日志、系统日志(syslog,System Log)等不同日志类型,其日志结构差异较大,标识符众多且难以理解。日志消息数据的产生速率较大,运营商的中等省份网络数据产生速率能达到每天9亿条,占据200GByte空间,故采用HDFS存储形式,存储为日志消息内容。
步骤S102:逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表;具体包括:
逐条提取转换成JSON格式数据的日志消息内容中的具体消息作为日志内容,并计算每条日志内容对应的哈希值,所述日志内容和所述日志内容对应的哈希值形成日志内容列表;其中,所述日志内容对应的哈希值即为所述日志内容的编号。
参照图2,示出了本申请实施例一种日志模式发现方法日志内容列表的示例图。
从图2中取以下几条转换格式后的日志内容进行详细说明:
“Jul 26 18:12:43: {8/LP}: %ASESDK-5-NOTICE: 12052 6 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 08, MmeTeid=379075184, LCOR=0, Cause=10 (2). ” ①
“Jul 26 18:12:45: {8/LP}: %ASESDK-5-NOTICE: 4954 13 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 8, MmeTeid=811399846, LCOR=0, Cause=10 (2).” ②
“Jul 26 18:12:45: {8/LP}: %ASESDK-5-NOTICE: 9096 13 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: , MmeTeid=181495634, LCOR=0, Cause=10 (2).” ③
“Jul 26 18:12:46: {8/LP}: %ASESDK-5-NOTICE: 49552 12 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 8, MmeTeid=106328339, LCOR=0, Cause=72, RspCause=72, Gtp Rsp message validation failed (2).”④
步骤S103:预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换;具体包括:
预设实体特征值,如纯数字、统一资源定位符(URL,Uniform Resource Locator)、时间和日期等;预设替换规则,如使用正则表达式进行替换等。
将所述日志内容列表中的实体特征值根据所述替换规则使用正则表达式替换为统一符号。如将所有纯数字替换为0,将所有URL替换为1.1.1.1,将所有日期和时间替换为2016-1-1 00:00:00,处理后的日志内容数据集:
“2016-1-1 00:00:00: {8/LP}: %ASESDK-5-NOTICE: 0 0 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 0, MmeTeid=0, LCOR=0, Cause=0(2).” ①
“2016-1-1 00:00:00: {8/LP}: %ASESDK-5-NOTICE: 0 0 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 0, MmeTeid=0, LCOR=0, Cause=0(2).” ②
“2016-1-1 00:00:00: {8/LP}: %ASESDK-5-NOTICE: 0 0 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: , MmeTeid=0, LCOR=0, Cause=0(2).” ③
“2016-1-1 00:00:00: {8/LP}: %ASESDK-5-NOTICE: 0 0 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 0, MmeTeid=0, LCOR=0, Cause=0,RspCause=0, Gtp Rsp message validation failed (2).” ④
步骤S104:将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集;具体包括:
将替换为统一符号后的日志内容列表中完全相同的日志内容进行合并,并将所述完全相同的日志内容的编号记录在静态模式数据表中;将所述完全相同的日志内容中最小的哈希值作为合并后的日志内容的编号。
将所有完全相同的日志内容合并,此时日志①和日志②合并为一条,取日志①的哈希值作为合并后的日志内容的编号,并将日志②和日志①的编号记录在静态模式数据表中,此时日志内容数据集变为:
“2016-1-1 00:00:00: {8/LP}: %ASESDK-5-NOTICE: 0 0 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 0, MmeTeid=0, LCOR=0, Cause=0(2).” ①
“2016-1-1 00:00:00: {8/LP}: %ASESDK-5-NOTICE: 0 0 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: , MmeTeid=0, LCOR=0, Cause=0(2).” ③
“2016-1-1 00:00:00: {8/LP}: %ASESDK-5-NOTICE: 0 0 NOTICE sgwcd_SEOS_ssc:libsscdoperations.UpdateBearerOperation: 0, MmeTeid=0, LCOR=0, Cause=0,RspCause=0, Gtp Rsp message validation failed (2).” ④
步骤S105:分析所述日志内容数据集中的日志内容,生成每条日志消息内容的句法树;具体包括:
对所述日志内容数据集中的每条日志内容进行词性标注,所述词性标注指在日志内容中判定每个词的语法范畴,确定其词性并加以标注的过程;采用概率上下文无关文法对所述日志内容进行句法分析,生成每条日志内容对应的句法树:
(ROOT (NP (NP (NP (CD 2016-1-1) (CD 00:00:00)) (: :) (NP (-LRB- -LCB-) (NNP 8/LP) (-RRB- -RCB-)) (: :) (NP (NN %) (NN ASESDK-5-NOTICE)) (: :)(NP (CD 0) (CD 0) (NNP NOTICE) (NNP sgwcd_SEOS_ssc)) (: :) (NP (NN libsscdoperations.UpdateBearerOperation))) (: :) (NP (CD 0)) (, ,) (S (NP (NNPMmeTeid)) (VP (SYM =) (NP (CD 0)))) (, ,) (S (NP (NNP LCOR)) (VP (SYM =) (NP(CD 0)))) (, ,) (S (NP (NNP Cause)) (VP (SYM =) (NP (NP (CD 0)) (PRN (-LRB- -LRB-) (NP (CD 2)) (-RRB- -RRB-))))) (. .))) ①
(ROOT (NP (NP (NP (CD 2016-1-1) (CD 00:00:00)) (: :) (NP (-LRB- -LCB-) (NNP 8/LP) (-RRB- -RCB-)) (: :) (NP (NN %) (NN ASESDK-5-NOTICE)) (: :)(NP (CD 0) (CD 0) (NNP NOTICE) (NNP sgwcd_SEOS_ssc)) (: :) (NP (NN libsscdoperations.UpdateBearerOperation))) (: :) (, ,) (S (NP (NNP MmeTeid)) (VP (SYM=) (NP (CD 0)))) (, ,) (S (NP (NNP LCOR)) (VP (SYM =) (NP (CD 0)))) (, ,) (S(NP (NNP Cause)) (VP (SYM =) (NP (NP (CD 0)) (PRN (-LRB- -LRB-) (NP (CD 2))(-RRB- -RRB-))))) (. .))) ③
(ROOT (NP (NP (NP (CD 2016-1-1) (CD 00:00:00)) (: :) (NP (-LRB- -LCB-) (NNP 8/LP) (-RRB- -RCB-)) (: :) (NP (NNP %) (NNP ASESDK-5-NOTICE)) (: :)(NP (CD 0) (CD 0) (NNP NOTICE) (NNP sgwcd_SEOS_ssc)) (: :) (NP (NN libsscdoperations.UpdateBearerOperation))) (: :) (NP (CD 0)) (, ,) (S (NP (NNPMmeTeid)) (VP (SYM =) (NP (CD 0)))) (, ,) (S (NP (NNP LCOR)) (VP (SYM =) (NP(CD 0)))) (, ,) (S (NP (NNP Cause)) (VP (SYM =) (NP (CD 0)))) (, ,) (S (NP(NNP RspCause)) (VP (SYM =) (NP (CD 0)))) (, ,) (NP (NP (NNP Gtp) (NNP Rsp))(PRN (S (NP (NN message) (NN validation)) (VP (VBD failed)))) (PRN (-LRB- -LRB-) (NP (CD 2)) (-RRB- -RRB-))) (. .))) ④
其中,句法分析优选采用概率上下文无关文法,一个概率上下文无关文法是一个五元组(N,∑,S,R,P):
(1)一个非终结符集N
(2)一个终结符集∑
(3)一个开始非终结符S∈N
(4)一个产生式集R
(5)对于任意产生式r∈R,其概率为P(r)
概率上下文无关文法的规则表示形式为:A→α p,其中A为非终结符,p为A推导出α的概率,即p=P(A→α),该概率分布必须满足如下条件:
∑P(A→α)=1。
即,相同左部的产生式概率分布满足归一化条件。
句法树的概率等于所有使用规则概率之积。
参照图3,示出了本申请实施例根据所述词性标注和句法分析得到的每条日志内容的句法树结构示例图。
步骤S106:定义文法,根据所述句法树和定义的文法,提取出每条日志内容的关键信息模型;具体包括:
定义文法;
其中,文法的定义使用短语结构文法。一个短语结构文法G是一个四元式G=(Vn,Vt,P,S),其中:
(1)Vn和Vt分别是G的非终止符和终止符的词汇表或变量。Vn和Vt的并集,组成G的总的词汇表V,Vn∩Vt= Ø。
(2)P是再写规则,或者是以α→β表示的产生式表示的产生式的有限集,其中α和β是由V中符号组成的链,而α至少包含着Vn中的一个符号。
(3)S∈Vn是一个句子的起始符。
根据所述句法树中词语的前后结构关系和短语结构文法,提取每条日志内容的关键信息模型;所述关键信息包括所述日志内容的主体、动作和参数指标。日志①,提取出的关键信息模型为:sgwcd_SEOS_ssc;NOTICE;MmeTeid,LCOR, Cause;
日志③,提取出的关键信息模型为:sgwcd_SEOS_ssc;NOTICE;MmeTeid,LCOR,Cause;
日志④,提取出的关键信息模型为:Gtp Rsp message validation;failed;MmeTeid,LCOR, Cause,RspCause。
步骤S107:将属于同一关键信息模型的日志内容归为一类,获得日志模式记录和静态模式数据表;其中,所述日志模式记录转存到模式库中,所述静态模式数据表转存到模式化日志库中。具体包括:
将关键信息模型相同的日志内容合并为同一模式,将不同模式的日志内容的初始内容记录到日志模式记录中;所述初始内容为转换为JSON格式数据后的日志内容的文本内容。
对所述日志模式记录中的不同模式进行模式编号,并将所述模式编号和对应的具体日志编号写入静态模式数据表中。
日志①和日志③划分为同一种模式,即日志模式①,日志④为另一种模式,即日志模式②。记录日志①和日志④的初始内容到日志模式记录中作为模式①和模式②的日志内容;并在静态模式数据表中写入日志模式①和日志模式②对应的日志记录,即日志模式①对应日志内容①、②和③,日志模式②对应日志内容④。即所述静态模式数据表中记录日志模式编号和其对应的具体日志内容编号。
对于前述的各方法实施例,为了描述简单,故将其都表述为一系列的动作组合,但是本领域的技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为根据本申请,某些步骤可以采用其他顺序或同时执行;其次,本领域技术人员也应该知悉,上述方法实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图4,示出了本申请实施例一种日志模式发现系统的结构示意图,包括:
日志采集器模块41,用于采集日志消息,将所述日志消息转换后存储为日志消息内容;
模式分析模块42,用于对所述日志消息内容进行模式分析。
参照图5,示出了本申请实施例一种日志模式发现系统模式分析模块42的结构示意图。
所述模式分析模块42,包括:
数据提取单元421,用于逐条提取所述日志消息内容中的具体消息,形成日志内容列表;
特征替换单元422,用于预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换;
同类合并单元423:用于将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集;
词性分析单元424,用于分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树;
模型提取单元425:用于定义文法,根据所述句法树和定义的文法,提取出每条日志内容的关键信息模型;
所述模型提取单元425包括文法定义子单元和提取模型子单元;
所述文法定义子单元,用于定义短语结构文法,所述短语结构文法是一个包含非终结符、终结符、再写规则和起始符的四元式;
所述提取模型子单元,用于根据所述句法树中词语的前后结构关系和短语结构文法,提取每条日志内容的关键信息模型;所述关键信息包括所述日志内容的主体、动作和参数指标。
结果保存单元426,用于将属于同一关键信息模型的日志内容归为一类,获得日志模式记录和静态模式数据表。
需要说明的是,上述系统实施例属于优选实施例,所涉及的单元和模块并不一定是本申请所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种日志模式发现方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种日志模式发现方法,其特征在于,所述方法包括:
采集日志消息,将所述日志消息转换后存储为日志消息内容;
逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表;
预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换,具体包括:预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则使用正则表达式进行替换;所述实体特征值包括时间、日期、纯数字和/或统一资源定位符;
将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集;
分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树;
定义文法,根据所述句法树和定义的文法,提取出每条日志内容的关键信息模型;
将属于同一关键信息模型的日志消息内容归为一类,获得日志模式记录和静态模式数据表;其中,所述日志模式记录转存到模式库中,所述静态模式数据表转存到模式化日志库中。
2.根据权利要求1所述的方法,其特征在于,所述采集日志消息,将所述日志消息转换后存储为日志消息内容,具体包括:
接入被监控设备的日志消息数据,将所述日志消息数据转换成JSON格式数据,导入原始日志库中通过分布式文件系统进行分布式存储,存储为日志消息内容。
3.根据权利要求2所述的方法,其特征在于,所述逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表,具体包括:
逐条提取转换成JSON格式数据的日志消息内容中的具体消息作为日志内容,并计算每条日志内容对应的哈希值,所述日志内容和所述日志内容对应的哈希值形成日志内容列表;其中,所述日志内容对应的哈希值即为所述日志内容的编号。
4.根据权利要求1所述的方法,其特征在于,所述将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集,具体包括:
将替换后的日志内容列表中完全相同的日志内容进行合并,并将所述完全相同的日志内容的编号记录在静态模式数据表中;
将所述完全相同的日志内容中最小的哈希值作为合并后的日志内容的编号。
5.根据权利要求1所述的方法,其特征在于,所述分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树,具体包括:
对所述日志内容数据集中的每条日志内容进行词性标注,采用概率上下文无关文法对所述日志内容进行句法分析,生成每条日志内容对应的句法树;其中,所述词性标注指在日志内容中判定每个词的语法范畴,确定其词性并加以标注的过程。
6.根据权利要求1所述的方法,其特征在于,所述定义文法,根据所述句法树和定义的所述文法,提取出每条日志内容的关键信息模型,具体包括:
定义短语结构文法;其中,所述短语结构文法是一个包含非终结符、终结符、再写规则和起始符的四元式;
根据所述句法树中词语的前后结构关系和短语结构文法,提取每条日志内容的关键信息模型;所述关键信息包括所述日志内容的主体、动作和参数指标。
7.根据权利要求6所述的方法,其特征在于,所述将属于同一关键信息模型的日志内容归为一类,获得日志模式记录和静态模式数据表,具体包括:
将关键信息模型相同的日志内容合并为同一模式,将不同模式的日志内容的初始内容记录到日志模式记录中;所述初始内容指变更为JSON格式数据的日志内容列表中的文本内容;
对所述日志模式记录中的不同模式进行模式编号,并将所述模式编号和对应的具体日志编号写入静态模式数据表中。
8.一种日志模式发现系统,其特征在于,所述系统包括:
日志采集器模块,用于采集日志消息,将所述日志消息转换后存储为日志消息内容;
模式分析模块,用于对所述日志消息内容进行模式分析;
所述模式分析模块,包括:
数据提取单元,用于逐条提取所述日志消息内容中的具体消息作为日志内容,形成日志内容列表;
特征替换单元,用于预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则进行替换,具体包括:预设实体特征值和替换规则,将所述日志内容列表中的实体特征值根据所述替换规则使用正则表达式进行替换;所述实体特征值包括时间、日期、纯数字和/或统一资源定位符;
同类合并单元:用于将替换后的日志内容列表中完全相同的日志内容进行合并,获得日志内容数据集;
词性分析单元,用于分析所述日志内容数据集中的日志内容,生成每条日志内容的句法树;
模型提取单元:用于定义文法,根据所述句法树和定义的文法,提取出每条日志内容的关键信息模型;
结果保存单元,用于将属于同一关键信息模型的日志内容归为一类,获得日志模式记录和静态模式数据表;其中,所述日志模式记录转存到模式库中,所述静态模式数据表转存到模式化日志库中。
9.根据权利要求8所述的系统,其特征在于,所述模型提取单元包括:
文法定义子单元,用于定义短语结构文法,所述短语结构文法是一个包含非终结符、终结符、再写规则和起始符的四元式;
提取模型子单元,用于根据所述句法树中词语的前后结构关系和短语结构文法,提取每条日志内容的关键信息模型;所述关键信息包括所述日志内容的主体、动作和参数指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611210357.8A CN108241658B (zh) | 2016-12-24 | 2016-12-24 | 一种日志模式发现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611210357.8A CN108241658B (zh) | 2016-12-24 | 2016-12-24 | 一种日志模式发现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108241658A CN108241658A (zh) | 2018-07-03 |
CN108241658B true CN108241658B (zh) | 2021-09-07 |
Family
ID=62704441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611210357.8A Active CN108241658B (zh) | 2016-12-24 | 2016-12-24 | 一种日志模式发现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108241658B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885545A (zh) * | 2019-02-02 | 2019-06-14 | 华为技术有限公司 | 存储、查询日志信息的方法、装置 |
CN110224850A (zh) * | 2019-04-19 | 2019-09-10 | 北京亿阳信通科技有限公司 | 电信网络故障预警方法、装置及终端设备 |
CN111143312A (zh) * | 2019-12-24 | 2020-05-12 | 广东电科院能源技术有限责任公司 | 一种电力日志的格式解析方法、装置、设备和存储介质 |
CN111258975B (zh) * | 2020-04-26 | 2021-03-02 | 中国人民解放军总医院 | 图像归档通信系统异常定位方法、装置、设备及介质 |
CN113407656B (zh) * | 2021-06-24 | 2023-03-07 | 上海上讯信息技术股份有限公司 | 一种快速在线日志聚类的方法及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000310939A (ja) * | 1999-04-28 | 2000-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 操作型学習採点処理方法、およびそのための処理装置、およびその方法を実行するプログラムを記録した記録媒体 |
CN1604035A (zh) * | 2003-09-30 | 2005-04-06 | 联想(北京)有限公司 | 一种日志分析系统及基于该系统的分析方法 |
CN101605028A (zh) * | 2009-02-17 | 2009-12-16 | 北京安天电子设备有限公司 | 一种日志记录合并方法和系统 |
CN105447099A (zh) * | 2015-11-11 | 2016-03-30 | 中国建设银行股份有限公司 | 日志结构化信息提取方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101888309B (zh) * | 2010-06-30 | 2012-07-04 | 中国科学院计算技术研究所 | 在线日志分析方法 |
US10061816B2 (en) * | 2015-05-11 | 2018-08-28 | Informatica Llc | Metric recommendations in an event log analytics environment |
CN106055608B (zh) * | 2016-05-25 | 2019-06-07 | 北京百度网讯科技有限公司 | 自动采集和分析交换机日志的方法和装置 |
-
2016
- 2016-12-24 CN CN201611210357.8A patent/CN108241658B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000310939A (ja) * | 1999-04-28 | 2000-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 操作型学習採点処理方法、およびそのための処理装置、およびその方法を実行するプログラムを記録した記録媒体 |
CN1604035A (zh) * | 2003-09-30 | 2005-04-06 | 联想(北京)有限公司 | 一种日志分析系统及基于该系统的分析方法 |
CN101605028A (zh) * | 2009-02-17 | 2009-12-16 | 北京安天电子设备有限公司 | 一种日志记录合并方法和系统 |
CN105447099A (zh) * | 2015-11-11 | 2016-03-30 | 中国建设银行股份有限公司 | 日志结构化信息提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
"面向产品评论的细粒度情感分析";刘丽等;《计算机应用》;20151210;第35卷(第12期);3481-3486 * |
Also Published As
Publication number | Publication date |
---|---|
CN108241658A (zh) | 2018-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108241658B (zh) | 一种日志模式发现方法及系统 | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
US8756207B2 (en) | Systems and methods for identifying potential duplicate entries in a database | |
US8103705B2 (en) | System and method for storing text annotations with associated type information in a structured data store | |
US20190228085A1 (en) | Log file pattern identifier | |
CN107577672B (zh) | 基于舆情设定剧本的方法和装置 | |
CN112948596B (zh) | 知识图谱构建方法、装置、计算机设备及计算机存储介质 | |
Karakus et al. | Call center performance evaluation using big data analytics | |
CN113094512B (zh) | 一种工业生产制造中故障分析系统及方法 | |
KR102345410B1 (ko) | 빅데이터 지능형 수집 방법 및 장치 | |
CN107797916A (zh) | Ddl语句审核方法和装置 | |
Shah et al. | Towards benchmarking feature type inference for automl platforms | |
CN108399157A (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN108228664B (zh) | 非结构化数据处理方法及装置 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN112416904A (zh) | 电力数据规范化处理方法及装置 | |
CN109977370B (zh) | 一种基于文档结构树的问答对自动构建方法 | |
CN113486187A (zh) | 佛学知识图谱构建方法、装置、设备及存储介质 | |
Yang et al. | Ontology generation for large email collections. | |
Shehu et al. | Improved fault localization using transfer learning and language modeling | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
CN112199488A (zh) | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 | |
CN111221967A (zh) | 一种基于区块链架构的语言数据分类存储系统 | |
CN107203509A (zh) | 标题生成方法和装置 | |
Jain et al. | An extensible parsing pipeline for unstructured data processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |