CN109271272B - 基于非结构化日志的大数据组件故障辅助修复系统 - Google Patents

基于非结构化日志的大数据组件故障辅助修复系统 Download PDF

Info

Publication number
CN109271272B
CN109271272B CN201811195123.XA CN201811195123A CN109271272B CN 109271272 B CN109271272 B CN 109271272B CN 201811195123 A CN201811195123 A CN 201811195123A CN 109271272 B CN109271272 B CN 109271272B
Authority
CN
China
Prior art keywords
log
repair
abnormal
abnormal information
logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811195123.XA
Other languages
English (en)
Other versions
CN109271272A (zh
Inventor
冯士龙
马玉峰
台宪青
赵旦谱
王艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu IoT Research and Development Center
Original Assignee
Jiangsu IoT Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu IoT Research and Development Center filed Critical Jiangsu IoT Research and Development Center
Priority to CN201811195123.XA priority Critical patent/CN109271272B/zh
Publication of CN109271272A publication Critical patent/CN109271272A/zh
Application granted granted Critical
Publication of CN109271272B publication Critical patent/CN109271272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明提供一种基于非结构化日志的大数据组件故障辅助修复系统,包括:日志采集模块,用于集群各节点上大数据组件异常日志的采集;日志预处理模块,用于将大数据组件异常日志中包含主要异常信息的非结构化日志解析为结构化日志;并找出异常信息相应的日志关键词;修复方案知识库则存有规则,规则包括两部分,一个部分为异常信息相应的日志关键词,另一个部分为异常信息对应的自动化修复脚本或修复方案;推理机,将经过预处理后异常日志中异常信息相应的日志关键词与修复方案知识库进行匹配,并根据匹配的结果调用故障修复模块去执行异常信息对应的自动化修复脚本或提供异常信息对应的修复方案。本发明能够快速解决故障。

Description

基于非结构化日志的大数据组件故障辅助修复系统
技术领域
本发明涉及基于日志的故障修复系统,尤其是一种基于非结构化日志的大数据组件故障辅助修复系统。
背景技术
在当今这个大数据的时代,集群的规模越来越大,对于计算、存储的要求越来越高。大数据平台一般搭建于大规模集群之上,而面对各种业务需求,大数据平台需要各种各样的组件来共同搭建。面对一个这样大规模的平台,对于运维人员是一个巨大的挑战,运维人员需要在平台出现故障时能够快速定位故障,并采取快速的解决方案。一般来讲,查阅日志是运维人员最常用的手段之一,运维人员通过查阅日志等一系列操作,分析出故障原因,然后根据专业知识及经验,做出相应的修复。
随着大数据的发展,现今系统规模越来越大,产生的日志规模十分巨大。对于提供全球服务的一些大型系统,每天的日志数据量甚至可以达到几十TB。而大数据组件往往是部署在集群当中,在发生故障时,需要运维人员逐个节点去查阅日志,给故障定位增加了不小的难度,直接延长了故障修复的时间。并且大数据组件异常日志的关键信息是由组件源代码产生的非结构化文本。因此,实现一个能从集群中部署的组件中收集故障日志,并提供自动修复或修复方案的系统,对于大数据平台的稳定性而言,是有极大提升的。
现有基于日志分析的方法主要运用在监控、告警方面,而面向的对象一般为网络日志,web日志、操作系统日志等半结构化日志。主流的解决方案如图1所示;具体步骤如下:
1.日志采集:从日志源获取原始日志数据;
2.日志预处理:对步骤1中获取到的原始日志数据进行日志预处理解析,将半结构化日志解析为可进行挖掘的结构化数据;
3.日志匹配:该步骤为使用新获取到的经过解析的结构化日志数据与规则库进行匹配,规则库为异常行为规则库;
4.如果与异常行为规则库匹配成功,则进行告警;否则结束。
上述方案步骤2中进行解析的日志为半结构化日志,而大数据组件中异常日志的主要信息部分为非结构化日志,该方案不能对由大数据组件源代码产生的非结构化日志进行解析;步骤3中,规则库的构建一般是直接由结构化数据库(如MySQL)来实现,编写规则时需要专业人员进行操作,规则构建以及更新的代价较大;上述方案对于系统本身的故障不能做出相关的自动修复和修复建议,不能有效的缩短故障修复时间。
发明内容
本发明的目的在于解决大数据组件非结构化日志的解析问题,以及快速解决故障和提供修复方案的问题,提出一种基于非结构化日志的大数据组件故障辅助修复系统。本发明采用的技术方案是:
一种基于非结构化日志的大数据组件故障辅助修复系统,包括:日志采集模块、日志预处理模块、修复方案知识库、推理机、故障修复模块;
所述日志采集模块,用于集群各节点上大数据组件异常日志的采集;
所述日志预处理模块,用于将大数据组件异常日志中包含主要异常信息的非结构化日志解析为结构化日志;并找出异常信息相应的日志关键词;
所述修复方案知识库则存有规则,规则包括两部分,一个部分为异常信息相应的日志关键词,另一个部分为异常信息对应的自动化修复脚本或修复方案;
所述推理机,将经过预处理后异常日志中异常信息相应的日志关键词与修复方案知识库进行匹配,并根据匹配的结果调用故障修复模块去执行异常信息对应的自动化修复脚本或提供异常信息对应的修复方案。
具体地,推理机包括模式匹配器、议程和执行引擎;
模式匹配器用于异常日志中异常信息相应的日志关键词与修复方案知识库中的规则进行匹配;
议程中,当一个日志关键词匹配到多个相应规则时,按照设定的优先级选取其中优先级最高的一条规则;
执行引擎根据匹配到的规则,根据规则中提示的自动化修复脚本或修复方案,调用故障修复模块去执行异常信息对应的自动化修复脚本或提供异常信息对应的修复方案。
进一步地,所述日志预处理模块,首先定义一些经验的正则表达式将包含主要异常信息的非结构化日志中明显的参数值删除,只留下主体信息部分,然后使用聚类算法将由相同源代码语句打印出来的日志信息组合在一起,找出公共部分作为日志关键词。
进一步地,所述日志采集模块,通过轻量级文件采集器安装至集群节点,来进行异常日志的采集。
本发明要使用聚类算法和一些辅助处理手段对原始日志进行预处理,得出结构化日志,通过解析后日志对修复方案知识库进行构建以及更新,对实时异常日志进行解析,之后与修复方案知识库中规则进行匹配,从而执行自动化修复脚本或给出故障修复方案。本发明的优点如下:
1)能够对大数据组件产生的非结构化日志进行解析,有效的转化为结构化日志数据;
2)基于修复方案知识库,能够与实时异常日志进行快速匹配;
3)能快速的进行故障修复或者为故障提供有效的修复方案。
附图说明
图1为本发明的结构组成示意图。
图2为本发明的推理机结构示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示,本发明提出的一种基于非结构化日志的大数据组件故障辅助修复系统,包括:日志采集模块、日志预处理模块、修复方案知识库、推理机、故障修复模块;
所述日志采集模块,用于集群各节点上大数据组件异常日志的采集;具体可使用Filebeat等轻量级文件采集器安装至集群节点,将历史以及实时的大数据组件异常日志发送至日志服务器;
所述日志预处理模块,用于将大数据组件异常日志中包含主要异常信息的非结构化日志解析为结构化日志;并找出异常信息相应的日志关键词;
首先定义一些经验的正则表达式将包含主要异常信息的非结构化日志中明显的参数值(如时间\、IP地址等)删除,只留下主体信息部分,然后使用聚类算法将由相同源代码语句打印出来的日志信息组合在一起,找出公共部分作为日志关键词;
所述修复方案知识库则存有规则,规则包括两部分,一个部分为异常信息相应的日志关键词,另一个部分为异常信息对应的自动化修复脚本或修复方案;
所述推理机,将经过预处理后异常日志中异常信息相应的日志关键词与修复方案知识库中规则进行匹配,并根据匹配的结果调用故障修复模块去执行异常信息对应的自动化修复脚本或提供异常信息对应的修复方案;
如图2所示,推理机包括模式匹配器、议程和执行引擎三个部分;
模式匹配器用于异常日志中异常信息相应的日志关键词与修复方案知识库中的规则进行匹配;如果匹配到了某个规则的第一个部分,则相应得到第二个部分的自动化修复脚本或修复方案的提示;
议程中,当一个日志关键词匹配到多个相应规则时,按照设定的优先级选取其中优先级最高的一条规则;
执行引擎根据匹配到的规则,根据规则中提示的自动化修复脚本或修复方案,调用故障修复模块去执行异常信息对应的自动化修复脚本或提供异常信息对应的修复方案;
修复方案可显示在服务器的显示屏上;
实际运行过程中,当匹配时,发现修复方案知识库中不存在的规则时,可在异常信息的自动化修复脚本或修复方案通过运维人员得出后,进行修复方案知识库的更新。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于非结构化日志的大数据组件故障辅助修复系统,其特征在于,包括:日志采集模块、日志预处理模块、修复方案知识库、推理机、故障修复模块;
所述日志采集模块,用于集群各节点上大数据组件异常日志的采集;
所述日志预处理模块,用于将大数据组件异常日志中包含主要异常信息的非结构化日志解析为结构化日志;并找出异常信息相应的日志关键词;
所述修复方案知识库则存有规则,规则包括两部分,一个部分为异常信息相应的日志关键词,另一个部分为异常信息对应的自动化修复脚本或修复方案;
所述推理机,将经过预处理后异常日志中异常信息相应的日志关键词与修复方案知识库进行匹配,并根据匹配的结果调用故障修复模块去执行异常信息对应的自动化修复脚本或提供异常信息对应的修复方案;
推理机包括模式匹配器、议程和执行引擎;
模式匹配器用于异常日志中异常信息相应的日志关键词与修复方案知识库中的规则进行匹配;
议程中,当一个日志关键词匹配到多个相应规则时,按照设定的优先级选取其中优先级最高的一条规则;
执行引擎根据匹配到的规则,根据规则中提示的自动化修复脚本或修复方案,调用故障修复模块去执行异常信息对应的自动化修复脚本或提供异常信息对应的修复方案;
所述日志预处理模块,首先定义一些经验的正则表达式将包含主要异常信息的非结构化日志中明显的参数值删除,只留下主体信息部分,然后使用聚类算法将由相同源代码语句打印出来的日志信息组合在一起,找出公共部分作为日志关键词。
2.如权利要求1所述的基于非结构化日志的大数据组件故障辅助修复系统,其特征在于,
所述日志采集模块,通过轻量级文件采集器安装至集群节点,来进行异常日志的采集。
CN201811195123.XA 2018-10-15 2018-10-15 基于非结构化日志的大数据组件故障辅助修复系统 Active CN109271272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811195123.XA CN109271272B (zh) 2018-10-15 2018-10-15 基于非结构化日志的大数据组件故障辅助修复系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811195123.XA CN109271272B (zh) 2018-10-15 2018-10-15 基于非结构化日志的大数据组件故障辅助修复系统

Publications (2)

Publication Number Publication Date
CN109271272A CN109271272A (zh) 2019-01-25
CN109271272B true CN109271272B (zh) 2022-05-17

Family

ID=65196698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811195123.XA Active CN109271272B (zh) 2018-10-15 2018-10-15 基于非结构化日志的大数据组件故障辅助修复系统

Country Status (1)

Country Link
CN (1) CN109271272B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262949A (zh) * 2019-04-29 2019-09-20 北京邮电大学 智能设备日志处理系统及方法
CN110825873B (zh) * 2019-10-11 2022-04-12 支付宝(杭州)信息技术有限公司 用于对日志异常分类规则进行扩充的方法及装置
CN110879771A (zh) * 2019-11-05 2020-03-13 北京航空航天大学 一种基于关键词序列挖掘的用户异常检测的日志分析系统
CN110765325A (zh) * 2019-11-07 2020-02-07 浪潮云信息技术有限公司 一种ceph分布式存储系统的运维分析方法及系统
CN111475643A (zh) * 2020-03-08 2020-07-31 苏州浪潮智能科技有限公司 数据中心交换机异常日志的处理方法、装置及存储介质
CN111459698A (zh) * 2020-03-31 2020-07-28 国网电力科学研究院有限公司 一种数据库集群故障自愈方法及装置
CN111953544B (zh) * 2020-08-14 2023-04-07 山东英信计算机技术有限公司 一种服务器的故障检测方法、装置、设备及存储介质
CN112068979B (zh) * 2020-09-11 2021-10-08 重庆紫光华山智安科技有限公司 一种业务故障确定方法及装置
CN113111240A (zh) * 2021-04-20 2021-07-13 康键信息技术(深圳)有限公司 日志监控方法、装置、电子设备及可读存储介质
CN113220583A (zh) * 2021-05-26 2021-08-06 华立科技股份有限公司 一种终端产品维护方法、装置、电子设备和存储介质
CN113656323A (zh) * 2021-08-27 2021-11-16 国家计算机网络与信息安全管理中心 一种自动化测试、定位及修复故障的方法及存储介质
CN113886132B (zh) * 2021-12-07 2022-04-08 深圳市明源云科技有限公司 web端错误智能修复方法、设备及计算机可读存储介质
CN114091455B (zh) * 2022-01-20 2022-05-10 南京聚铭网络科技有限公司 基于学习方式的日志类型识别方法及装置
CN114465875B (zh) * 2022-04-12 2022-07-29 北京宝兰德软件股份有限公司 故障处理方法及装置
CN115296975A (zh) * 2022-06-15 2022-11-04 上海东方传媒技术有限公司 一种通过自然语言处理进行运维排障的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021554A (zh) * 2016-05-30 2016-10-12 北京奇艺世纪科技有限公司 一种日志解析方法及装置
CN106341257A (zh) * 2016-08-18 2017-01-18 陈琛 一种自定义日志解析规则并自动解析日志的方法和工具
CN107145445A (zh) * 2017-05-05 2017-09-08 携程旅游信息技术(上海)有限公司 软件自动化测试的报错日志的自动分析方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606740B2 (en) * 2004-06-15 2009-10-20 David Greaves Method of acquiring products from vendor websites

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021554A (zh) * 2016-05-30 2016-10-12 北京奇艺世纪科技有限公司 一种日志解析方法及装置
CN106341257A (zh) * 2016-08-18 2017-01-18 陈琛 一种自定义日志解析规则并自动解析日志的方法和工具
CN107145445A (zh) * 2017-05-05 2017-09-08 携程旅游信息技术(上海)有限公司 软件自动化测试的报错日志的自动分析方法和系统

Also Published As

Publication number Publication date
CN109271272A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271272B (zh) 基于非结构化日志的大数据组件故障辅助修复系统
US10678669B2 (en) Field content based pattern generation for heterogeneous logs
EP3798846B1 (en) Operation and maintenance system and method
US10069684B2 (en) Core network analytics system
US20190361759A1 (en) System and method to identify failed points of network impacts in real time
CN111176879A (zh) 设备的故障修复方法及装置
US11321161B2 (en) System for resolving heterogenous database-level application failures
CN109150619B (zh) 一种基于网络流量数据的故障诊断方法及系统
CN105824718A (zh) 基于问答网站知识的软件配置故障自动修复方法和系统
CN101848477A (zh) 一种故障诊断方法及系统
CN112506799A (zh) 业务异常定位方法及装置、电子设备、介质、产品
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
CN110427275A (zh) 基于轨迹日志学习的微服务潜在错误与故障根源预测方法
CN115357418A (zh) 微服务故障检测方法、装置、存储介质及计算机设备
EP4071616A1 (en) Method for generating topology diagram, anomaly detection method, device, apparatus, and storage medium
CN112068981A (zh) Linux操作系统中基于知识库的故障扫描恢复方法及系统
CN111143304A (zh) 一种基于请求链路的微服务系统异常日志分析方法
US20230011129A1 (en) Log analyzer for fault detection
CN112966056A (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
CN111562937A (zh) 一种代码方法级缺陷预警方法
CN111352818A (zh) 应用程序性能分析方法、装置、存储介质及电子设备
CN117171364B (zh) 运维知识图谱更新方法及装置
JP7164473B2 (ja) 不具合情報抽出装置及び方法並びにプログラム
CN117155772B (zh) 一种告警信息丰富方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant