CN104461842B - 基于日志相似性来处理故障的方法和装置 - Google Patents
基于日志相似性来处理故障的方法和装置 Download PDFInfo
- Publication number
- CN104461842B CN104461842B CN201310441156.9A CN201310441156A CN104461842B CN 104461842 B CN104461842 B CN 104461842B CN 201310441156 A CN201310441156 A CN 201310441156A CN 104461842 B CN104461842 B CN 104461842B
- Authority
- CN
- China
- Prior art keywords
- logging mode
- journal file
- thesaurus
- pattern
- packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 104
- 230000004044 response Effects 0.000 claims abstract description 22
- 230000014509 gene expression Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000013024 troubleshooting Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于日志相似性来处理故障的方法和装置。在一个实施方式中,提供了一种基于日志相似性来处理故障的方法,包括:响应于采集到来自出现故障的至少一个系统的多个日志文件,从多个日志文件提取日志模式,日志模式描述多个日志文件中的日志文件中的日志消息所符合的正则表达式;利用日志模式构建模式存储库;基于模式存储库将多个日志文件中的每个日志文件映射至一n维向量;以及将多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中至少一个分组中的每个分组指示至少一个系统的一种故障类型。在另一实施方式中,提供了相应的装置。采用本发明的方法和装置,可以降低故障处理期间的人工工作量。
Description
技术领域
本发明的各实施方式涉及处理故障(trouble shooting),更具体地,涉及用于基于日志相似性(log similarity)来处理故障的方法和装置。
背景技术
随着计算机硬件系统复杂度的提高以及软件系统功能的增强,当运行在不同的硬件系统上时,计算机系统(例如,包括硬件和软件)所面临的运行环境日益复杂,此时系统可能会出现各种各样的故障。例如,随着多核处理器技术的发展,越来越多的计算设备采用一个或者多个多核处理器,这就增加了处理器出现故障的可能性;又例如,随着应用程序的复杂化,系统还有可能会面临内存泄漏等其他类型的故障。
在目前的各种应用系统中,通常存在较为完善的日志记录模块,该模块可以记录硬件/软件系统在运行期间的各种状态。通常而言,系统出现故障时,使用系统的客户可以向系统提供者反馈故障的细节,继而系统提供者会派遣技术工程师来进行处理。
在实际应用中可能会存在这样的情况,例如,客户A所使用的服务器系统A在运行过程中出现故障,此时所记录的日志文件为A,技术工程师A通过分析后发现服务器系统A出现内存泄漏并且排除故障。之后,客户B所使用的相同型号的服务器系统B出现故障,并且所记录日志文件为B,此时服务器提供者可能会派遣另一位技术工程师B来解决问题。
技术工程师B可以进行现场检查并且从日志数据库中调取故障系统的历史日志,继而分析出现故障的可能原因并确定服务器系统B也出现了内存泄漏的问题。通常,技术工程师分析日志文件并基于自身经验来判断并排除故障,这些都需要人工诊断而不能以自动化的方式判断系统的故障类型。
应当注意,当两个相同的服务器系统出现相同类型的故障时,来自两个服务器系统的日志文件A和B中通常会存在某种程度的文本相似性。如何利用这种文本相似性来辅助技术工程师判断系统可能出现故障的原因,成为一个新的研究领域。
发明内容
因而,期望能够开发并实现一种能够基于日志中的相似性来诊断并处理故障的技术方案,期望该技术方案能够将现有的历史日志文件聚类到表示不同故障类型(例如,处理器故障、内存泄漏等)的分组。进一步,还期望该技术方案能够在接收到出现故障的另一系统的新的日志文件时,将该新的日志文件与现有分组中的历史日志文件进行比较,以便将该新的日志文件归类到特定的故障类型。以此方式,可以便于寻找曾经处理过该类故障的技术工程师进行处理,以降低时间和人工成本。
在本发明的一个实施方式中,提供了一种基于日志相似性来处理故障的方法,包括:响应于采集到来自出现故障的至少一个系统的多个日志文件,从多个日志文件提取日志模式(log pattern),日志模式描述多个日志文件中的日志文件中的日志消息所符合的正则表达式;利用日志模式构建模式存储库(pattern repository);基于模式存储库将多个日志文件中的每个日志文件映射至一n维向量;以及将多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中至少一个分组中的每个分组指示至少一个系统的一种故障类型。
在本发明的一个实施方式中,基于模式存储库将多个日志文件中的每个日志文件映射至一n维向量包括:针对多个日志文件中的日志文件j,将日志文件j中的每行日志消息k匹配至模式存储库中的相应日志模式pk;将日志文件j转换为相应日志模式pk的序列fj;以及将序列fj映射至一n维向量。
在本发明的一个实施方式中,将序列fj映射至一n维向量包括:针对模式存储库中的日志模式pi,计算与日志模式pi和序列fj相关联的特征值tfidfi,j,特征值tfidfi,j关联于日志模式pi在与多个日志文件相对应的多个序列中的出现频率;以及将特征值tfidfi,j作为n维向量中的第i个分量,以构造n维向量。
在本发明的一个实施方式中,提供了一种用于基于日志相似性来处理故障的方法,包括:响应于接收到系统的新的日志文件,计算新的日志文件与至少一个分组中的多个向量的相似性,至少一个分组是基于上述的方法获得的;以及将相似性最高的向量所在分组指示的故障类型作为系统的故障类型。
在本发明的一个实施方式中,响应于接收到系统的新的日志文件,计算新的日志文件与至少一个分组中的多个向量的相似性包括:基于上述方法中的模式存储库,将新的日志文件映射至一n维向量;以及计算n维向量与多个向量的相似性。
在本发明的一个实施方式中,提供了一种基于日志相似性来处理故障的装置,包括:提取模块,配置用于响应于采集到来自出现故障的至少一个系统的多个日志文件,从所述多个日志文件提取日志模式,所述日志模式描述所述多个日志文件中的日志文件中的日志消息所符合的正则表达式;构建模块,配置用于利用所述日志模式构建模式存储库;映射模块,配置用于基于所述模式存储库将所述多个日志文件中的每个日志文件映射至一n维向量;以及聚类模块,配置用于将所述多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中所述至少一个分组中的每个分组指示所述至少一个系统的一种故障类型。
在本发明的一个实施方式中,所述映射模块包括:匹配模块,配置用于针对所述多个日志文件中的日志文件j,将所述日志文件j中的每行日志消息k匹配至所述模式存储库中的相应日志模式pk;转换模块,配置用于将所述日志文件j转换为相应日志模式pk的序列fj;以及第一映射模块,配置用于将所述序列fj映射至一n维向量。
在本发明的一个实施方式中,所述第一映射模块包括:计算模块,配置用于针对所述模式存储库中的日志模式pi,计算与所述日志模式pj和所述序列fj相关联的特征值tfidfi,j,所述特征值tfidfi,j关联于所述日志模式pi在与所述多个日志文件相对应的多个序列中的出现频率;以及生成模块,配置用于将所述特征值tfidfi,j作为所述n维向量中的第i个分量,以构造所述n维向量。
在本发明的一个实施方式中,提供了一种用于基于日志相似性来处理故障的装置,包括:相似性计算模块,配置用于响应于接收到系统的新的日志文件,计算所述新的日志文件与至少一个分组中的多个向量的相似性,所述至少一个分组是基于上文所述装置获得的;以及指定模块,配置用于将相似性最高的向量所在分组指示的故障类型作为所述系统的故障类型。
在本发明的一个实施方式中,所述相似性计算模块包括:向量映射模块,配置用于基于根据上文所述装置中的所述模式存储库,将所述新的日志文件映射至一n维向量;以及向量相似性计算模块,配置用于计算所述n维向量与所述多个向量的相似性。
可以在不改变现有系统的日志记录机制的情况下实现根据本发明各个实施方式的方法和装置。具体地,通过采集来自故障系统的历史日志文件并将其聚类到反映不同故障类型的分组,可以提供一种用于辅助未来处理故障的诊断机制。之后当发现系统出现故障时,可以将来自该系统的新的日志文件与被聚类到不同分组的历史日志文件进行比较,通过选择相似性最高的历史日志文件,即可获得该系统的故障类型。
附图说明
结合附图并参考以下详细说明,本发明各实施方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本发明的若干实施方式。在附图中:
图1示意性示出了适于实现本发明实施方式的示例性计算系统的框图;
图2示意性示出了根据一个方案的用于处理故障的方法的示意图;
图3示意性示出了根据本发明一个实施方式的基于日志相似性来处理故障的方法的架构图;
图4示意性示出了根据本发明一个实施方式的日志文件的示意图;
图5示意性示出了根据本发明一个实施方式的基于日志相似性来处理故障的方法的流程图;
图6示意性示出了根据本发明一个实施方式的提取日志文件并基于所提取日志文件构建模式存储库的示意图;以及
图7示意性示出了根据本发明一个实施方式的基于日志相似性来处理故障的装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了适于用来实现本发明实施方式的示例性计算系统100的框图。如图1所示,计算机系统100可以包括:CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和触摸屏显示器114。在这些设备中,与系统总线104耦合的有CPU101、RAM102、ROM103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及触摸屏显示器114与显示控制器109耦合。应当理解,图1所示的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施方式中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供者来通过因特网连接)。
下面将参照本发明实施方式的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图2示意性示出了根据一个方案的用于处理故障的方法的示意图200。如图2所示,系统1210、系统2212和系统N214的日志分别对应于日志1230、日志2232和日志N234,当系统出现故障时,与故障相关的各项数据分别记录在相应的日志中。例如,当不同客户处的系统出现故障时,系统的提供者通常会指派不同的工程师来解决问题。此时,例如指派工程师1220来分析日志1230并处理系统1210中的故障,指派工程师2222来分析日志2232并处理系统2212中的故障,等等。
以此方式,尽管可以排除各个系统中的故障,然而由于各个工程师的经验可能有所差异,例如,某些工程师最擅长处理关于内存泄漏的问题,有些工程师擅长处理关于处理器异常的问题,因而期望能够预先诊断故障类型并派遣适合的工程师。按照图2所示的方法,在工程师亲自分析故障系统的日志文件之前,无法判断系统的故障类型,因而很难有针对性地派遣最适合的工程师。这一方案的问题在于,一方面要求每个工程师都具备全面的专业经验,另一方面也不能有效地发挥每个工程师的优势。
对于出现相同类型故障的系统,其日志的内容通常会出现一定程度的相似性。例如,在存储器出现故障的系统的日志文件中,可能会连续地出现内容“Java heap out ofmemory”。此时,如果发现一个系统因故障停机,并且其日志文件中也连续地出现了“Javaheap out of memory”,则可以认为该故障系统的存储器很可能出现了故障。
基于这一原理,本发明的各个实施方式提供了一种基于日志相似性来处理故障的方法。应当注意,在本发明的实施方式中所述的日志相似性,是指日志文件中所记录文本的相似性。具体地,图3示意性示出了根据本发明一个实施方式的基于日志相似性来处理故障的方法的架构图300。在此实施方式中,可以首先采集来自曾经出现故障的系统的日志1310、日志2312、...、日志N314等。应当注意,在此并不限定这些日志文件是否来自同一个系统,而是,日志文件可以来自相同或者不同的系统;在此也并不限定这些系统是否是相同类型的系统,而是,例如一个系统可以是用于银行的服务器系统,而一个系统可以是用于电子商务的服务器系统。
可以从各个日志中提取日志模式(如箭头A所示),并基于所提取的日志模式来构建模式存储库320。继而,基于模式存储库中的日志模式,将各个日志1310、日志2312、...、日志N314等映射至相应的向量,并基于这些向量来构造向量存储库(如箭头B所示)。换言之,可以以一个向量来作为一个日志的唯一标识符。继而,可以将向量存储库330中的多个向量聚类为不同的分组,以便使每个分组来表示一种故障类型。
进一步,当接收到来自一新系统的新的日志时,还可以通过与如步骤A和B所示的提取和映射方法,将该新的日志映射至一个新的向量。继而,通过将该新的向量与被聚类到不同分组的历史向量进行比较,即可找到与该新的向量最为近似的历史向量,并将该历史向量的故障类型作为新系统的故障类型。
在此首先描述日志文件的结构,图4示意性示出了根据本发明一个实施方式的日志文件的示意图400。应当注意,日志文件是一种半结构化(semi-structured)的数据结构,并且图4中仅仅示意性示出了4行日志。如参考数字410所示,每行日志的头部可以指示采集到该行日志的时间戳信息,例如“07:23:22,221”;接着,如参考数字420所示的部分是模块信息,表示产生该行日志的模块,例如“[D2-API]”;之后如参考数字430所示的部分是日志级别(log level),表示该日志所属于的级别,例如“DEBUG”;最后一部分440则表示日志消息,例如:
″Product Registration Forms″document set tor bd01object and qauser1user and null interface is false(0.000s)
在本发明的实施方式中,日志消息是指一行日志中过滤掉时间戳、模块信息和日志级别后剩余的部分。图4中仅以示例方式示出了日志文件的一种可行的结构,当日志文件具有其他数据结构时,本领域技术人员可以基于上文所述的原理提取日志消息。在本发明的上下文中,分析日志相似性也即分析日志消息部分的文本相似性。
在本发明的一个实施方式中,提供了一种基于日志相似性来处理故障的方法,包括:响应于采集到来自出现故障的至少一个系统的多个日志文件,从多个日志文件提取日志模式,该日志模式描述多个日志文件中的日志文件中的日志消息所符合的正则表达式;利用日志模式构建模式存储库;基于模式存储库将多个日志文件中的每个日志文件映射至一n维向量;以及将多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中至少一个分组中的每个分组指示至少一个系统的一种故障类型。
参见图5,该图示意性示出了根据本发明一个实施方式的基于日志相似性来处理故障的方法的流程图500。具体地,在步骤S502中,响应于采集到来自出现故障的至少一个系统的多个日志文件,从多个日志文件提取日志模式,日志模式描述多个日志文件中的日志文件中的日志消息所符合的正则表达式。
在本发明的一个实施方式中,按照“行”来提取日志模式,换言之,一行日志消息可以对应于一个日志模式。在下文中将详细说明日志模式的含义。为简化描述,假设一个日志文件中包括8行日志消息,例如可以将这8行日志消息标识为M1-M8:
M1=Create″Auditing Proj ects″for123321obj ect
M2=Delete″Auditing Projects″for321123object
M3=Create″Bank Documents″for12345object
M4=Delete″Bank Documents″for53412object
M5=Create″Test Plans″for12345object
M6=Create″Clinical Trials″for553689object
M7=Delete″Test Plans″for53412object
M8=Delete″Clinical Trials″for55378object
当一个系统已经开发完成时,与该系统相关联的日志消息的类型则不再改变。开发完成的系统在运行时所产生的日志模式的数量将是固定的。尽管一个日志文件可能会记录有数百万行甚至上千万行的日志消息,然而这些日志消息所属于的正则表达式(即,日志模式)的数量通常仅在数百的数量级。因而,通过从每行日志消息中提取日志模式,并以日志模式作为后期处理的基础,可以大大降低计算开销。
日志消息通常可以包括两种类型:(1)包括变量和常量两者,例如上文所述的“Create document set Banklfor object12345failed”,其中“Bank1”和“12345”是变量,而其他部分为常量;(2)仅包括常量,例如上文所述的“Java heap out of memory”。
通过处理上文所示的日志文件,可以从中提取出两个日志模式:
Pattern1:Create<variable>for<variable>object;以及
Pattern2:Delete<variable>for<variable>obj ect。
在此示例中,日志消息M1、M3、M5和M6的日志模式为Pattern1,而日志消息M2、M4、M7和M8的日志模式为Pattern2。
接着,在步骤S504中,利用日志模式构建模式存储库。应当注意,从不同的日志消息中提取到的日志模式可能是相同的,在此步骤中,仅利用彼此不同的日志模式来构造模式存储库。
在步骤S506中,基于模式存储库将多个日志文件中的每个日志文件映射至一n维向量。为了以更为简便的方式来标识每个日志文件,可以将每个日志文件映射至一个n维向量。在此应当注意,由于一个日志文件中的每行日志消息已经对应于一个日志模式,此时可以基于模式存储库中的日志模式来实现映射。
最后,在步骤S508中,将多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中至少一个分组中的每个分组指示至少一个系统的一种故障类型。
在步骤S506中,由于每个日志文件已经被映射至一个n维向量,因而在步骤S508中,通过将对应于多个日志文件的多个n维向量进行聚类,即可完成对日志文件进行聚类。另外,由于每个日志文件代表一个故障的实例,因而,通过对n维向量进行聚类即可实现对系统出现的错误的聚类,即,可以使聚类所得的每个分组指示至少一个系统的一种故障类型。
在本发明的一个实施方式中,响应于采集到来自出现故障的至少一个系统的多个日志文件,从多个日志文件提取日志模式包括:针对多个日志文件中的当前日志文件,从当前日志文件中的两行日志消息提取日志模式。
具体地,可以将日志文件中各个日志消息两两组合,并且从每对日志消息中提取日志模式。例如,通过将M1-M8中的任意两个日志消息进行组合,可以获得日志消息配对(M1,M2)、(M1,M3)、(M1,M4)、...、(M7,M8)。通过从各个配对中提取相同部分,可以获得与各个日志消息相对应的日志模式。
在本发明的一个实施方式中,从当前日志文件中的两行日志消息提取日志模式包括:计算两行日志消息的最长公共子序列(Longest Common Subsequence),以提取日志模式。
两个日志消息可以分别表示为由连续的词(word)构成的串Xi={x1,x2,...,xi}和Yj={y1,y2,...,yj},并且两个日志消息之间的最长公共子序列可以定义为:
例如,从日志消息配对(M1,M2)中可以获得日志模式:<variable>AuditingProjects for<variable>object,从日志消息配对(M1,M3)中可以获得日志模式:Create<variable>for<variable>object。类似地,还可以获得其他日志模式,例如:Delete<variable>for<variable>object,等。
在本发明的一个实施方式中,利用日志模式构建模式存储库包括:响应于日志模式中的日志模式p的出现次数超过预定阈值,将日志模式p加入模式存储库。
本领域技术人员可以自定义预定阈值的取值,例如,可以将阈值设置为3或者其他数值。丢弃出现次数小于预定阈值的目的在于,可以忽略某些出现频率较小的相对不太重要的日志模式。例如在上文所示的示例中,当将阈值设置为3时,将丢弃日志模式<variable>Auditing Projects for<variable>object。
图6示意性示出了根据本发明一个实施方式的提取日志文件并基于所提取日志文件构建模式存储库的示意图600。可以由预处理模块610来处理来自故障系统的日志文件。例如,按照上文参见图4所示的日志文件的结构,可以从日志文件中首先提取如参考数字440所示的日志消息部分的内容(如箭头A所示);继而,将日志消息两两组合,以形成消息对(如箭头B所示)。接着,可以在计算节点中,采用如上文所述的最长公共子序列算法,来从各个消息对中提取日志模式。
本领域技术人员可以理解,随着分布式计算技术的发展,可以将计算任务分别部署到多个计算节点处。由于日志文件通常包括数百万行的日志消息,并且在将这些日志消息进行组合后,所形成的配对的数量将是巨大的。在多个计算节点处并行地执行提取日志模式的任务,有助于提高数据处理的时间效率。本领域技术人员可以采用现在已知或者将在未来开发的各种分布式处理技术来实现提取操作,在此不再赘述。
在本发明的一个实施方式中,在预处理模块610处进行处理时,还可以针对日志设置过滤条件,例如可以设置选择特定时间段内(例如,最近1小时内的)的日志消息,选择模块信息为特定值(例如,[D2-API])的日志消息,或者还可以选择指定日志级别(例如,DEBUG级别)的日志消息,等等。
假设存在w个日志文件,下文将详述如何将w个日志文件中的一个日志文件j映射至n维向量。在本发明的一个实施方式中,基于模式存储库将多个日志文件中的每个日志文件映射至一n维向量包括:针对多个日志文件中的日志文件j,将日志文件j中的每行日志消息k匹配至模式存储库中的相应日志模式pk;将日志文件j转换为相应日志模式pk的序列fj;以及将序列fj映射至一n维向量。
根据本发明的方法,可以将每个日志文件映射至一n维向量,以作为该日志文件的标识符。具体地,针对每个日志文件j,由于在上文已经说明了如何获取与一个日志消息相对应的日志模式(即,该日志消息所属于的正则表达式),因而可以将其中的每行日志消息匹配至模式存储库中的一个相应的日志模式pk。
继续上文示例,假设目前模式存储库中包括3个日志模式:
p1:Create<variable>for<variable>object
p2:Delete<variable>for<variable>object
p3:Java heap out of memory
此时可以将日志消息M1匹配至p1,将M2匹配至p2,将M3匹配至p1,等等。接着,可以将日志文件j转换为相应日志模式pk的序列fj,此时fj={p1,p2,p1,p2,p1,p1,p2,p2}。继而,将序列fj映射至一n维向量。
在本发明的一个实施方式中,n维向量的维度n等于模式存储库中的日志模式的数量。在上文所述的示例中,由于模式存储库中包括3个日志模式,因而此时可以将序列fj映射至一3维向量。
在本发明的一个实施方式中,将序列fj映射至一n维向量包括:针对模式存储库中的日志模式pi,计算与日志模式pi和序列fj相关联的特征值tfidfi,j,特征值tfidfi,j关联于日志模式pi在与多个日志文件相对应的多个序列中的出现频率;以及将特征值tfidfi,j作为n维向量中的第i个分量,以构造n维向量。
在此实施方式中,针对模式存储库中的第i个日志模式,可以计算序列相对于该第i个日志模式的特征值,继而将获得的特征值作为n维向量中的第i个分量。具体地,例如对于上文所示的序列fj,可以分别针对模式存储库中的3个日志模式p1、p2和p3来计算相应的特征值tfidf1,j、tfidf2,j和tfidf3,j,则此时所获得的n维向量可以表示为:
具体地,特征值tfidfi,j关联于日志模式pi的词频tfi,j、以及日志模式pi的逆向文本频率idfi。在此实施方式中,特征值tfidfi,j可以用于评估特定日志模式pi对于多个日志文件中的一个日志文件j的重要程度。该重要程度随着日志模式pi在日志文件j中出现的次数而成正比地增加,同时随着日志模式pi在全部多个日志文件中出现的频率而成反比下降。
在本发明的一个实施方式中,可以将特征值定义如下:tfidfi,j=tfi,j×idfi。在本发明的一个实施方式中,具体地可以使用如下方法来计算词频tfi,j和逆向文本频率idfi。
继续上文示例,由于模式存储库中存在3个日志模式,因而序列fj将被映射至一3维向量。假设此时存在10个日志文件(即,w=10),现在逐个计算3维向量中每个分量的数值。首先计算第1个分量的数值。
词频ti,j表示日志模式pi在序列fj中的出现次数,∑utu,j表示模式存储库中的全部日志模式在序列fj中的出现次数的总和。
继续上文的示例,针对序列fj={p1,p2,p1,p2,p1,p1,p2,p2},日志模式p1在序列中出现的次数为4,日志模式p2在序列fj中的出现次数为4,并且日志模式p3在序列fj中的出现次数为0。则此时:
逆向文本频率|F|表示多个日志文件的数量,{v:pi∈fv}表示包括日志模式pi的序列的数量。此时,日志文件的数量为10,因而|F|=10。假设此时仅有序列fj包括日志模式p1,则:
此时,即可获得3维向量中的第一个分量的数值为:tfidf1,j=tf1,j×idf1=0.5×log5。类似地,本领域技术人员还可以类似地获得3维向量中其他分量的数值。
应当注意,上文仅以示意性方式示出了计算特征值tfidfi,j的具体公式,本领域技术人员还可以基于本文所述的原理,采用其他具体公式来进行计算。
在本发明的一个实施方式中,可以使用非加权组平均法(Unweighted Pair-GroupMethod with Arithmetic Means,UPGMA)。该算法是一聚类分析方法,用于解决分类问题。该算法采用逐步归类的方法。例如,假设存在w个日志文件,则初始时共存在w个分组,首先将相似性最高的一对n维向量聚至一个分组,接下来再比较其余(w-1)个分组中哪一对相似性最高,并将其聚类为一组,如此反复运算,最终完成所有的聚类分析。关于UPGMA的更多细节,本领域技术人员例如可以参见http://en.wikipedia.org/wiki/UPGMA。
在计算两个n维向量的相似性时,例如可以通过比较两个n维向量之间的余弦相似性来进行计算。例如,分别对应于两个日志文件的n维向量知之间的余弦相似性可以定义为:
其中分子为两个n维向量的点积,而分母是两个n维向量的模的叉积。在本发明的一个实施方式中,本领域技术人员还可以利用其他方法来计算两个n维向量之间的相似性,例如可以简单地使用欧氏距离来表示该相似性。
通过上文所述的方法,可以基于日志相似性来处理来自一个或者多个故障系统的多个日志文件,并且将这些日志文件聚类到表示故障系统的不同故障类型的分组。例如,这些分组可以分别表示处理器故障、内存泄漏等故障类型。在本发明的一个实施方式中,可以由技术专家来指定每个分组的故障类型。
基于上文所述的分组,本发明还提供了一种用于基于日志相似性来处理故障的方法,包括:响应于接收到系统的新的日志文件,计算新的日志文件与至少一个分组中的多个向量的相似性,至少一个分组是基于上文的方法获得的;以及将相似性最高的向量所在分组指示的故障类型作为系统的故障类型。
在已经获得了表示不同故障类型的分组的情况下,在接收到来自新的故障系统的新的日志文件时,可将与新的日志文件的日志相似性最高的日志文件的故障类型,作为新的故障系统的故障类型。以此方式,可以预先了解故障系统最有可能出现的故障类型,进而可以指派对于处理该类型故障具有丰富经验的技术工程师来排除故障。以此方式,可以节省人力和物力开销,并且使得技术工程师充分发挥自己的经验。
在本发明的一个实施方式中,响应于接收到系统的新的日志文件,计算新的日志文件与至少一个分组中的多个向量的相似性包括:基于上文所述方法中的模式存储库,将新的日志文件映射至一n维向量;以及计算n维向量与多个向量的相似性。
可以采用上文的方法,将该新的日志文件映射至一个新的n维向量继而,通过采用上文的计算相似性(例如,余弦相似性或欧氏距离)的方法,来获得与新的n维向量的相似性最高的n维向量并将该n维向量所在分组指示的故障类型作为新的故障系统的故障类型。
图7示意性示出了根据本发明一个实施方式的基于日志相似性来处理故障的装置的框图700。具体地,图7示出了一种基于日志相似性来处理故障的装置,包括:提取模块710,配置用于响应于采集到来自出现故障的至少一个系统的多个日志文件,从多个日志文件提取日志模式,日志模式描述多个日志文件中的日志文件中的日志消息所符合的正则表达式;构建模块720,配置用于利用日志模式构建模式存储库;映射模块730,配置用于基于模式存储库将多个日志文件中的每个日志文件映射至一n维向量;以及聚类模块740,配置用于将多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中至少一个分组中的每个分组指示至少一个系统的一种故障类型。
在本发明的一个实施方式中,提取模块710包括:第一提取模块,配置用于针对多个日志文件中的当前日志文件,从当前日志文件中的两行日志消息提取日志模式。
在本发明的一个实施方式中,第一提取模块包括:第二提取模块,配置用于计算两行日志消息的最长公共子序列,以提取日志模式。
在本发明的一个实施方式中,映射模块730包括:匹配模块,配置用于针对多个日志文件中的日志文件j,将日志文件j中的每行日志消息k匹配至模式存储库中的相应日志模式pk;转换模块,配置用于将日志文件j转换为相应日志模式pk的序列fj;以及第一映射模块,配置用于将序列fj映射至一n维向量。
在本发明的一个实施方式中,n维向量的维度n等于模式存储库中的日志模式的数量。
在本发明的一个实施方式中,第一映射模块包括:计算模块,配置用于针对模式存储库中的日志模式pi,计算与日志模式pi和序列fj相关联的特征值tfidfi,j,特征值tfidfi,j关联于日志模式pi在与多个日志文件相对应的多个序列中的出现频率;以及生成模块,配置用于将特征值tfidfi,j作为n维向量中的第i个分量,以构造n维向量。
在本发明的一个实施方式中,特征值tfidfi,j关联于日志模式pi的词频tfi,j、以及日志模式pi的逆向文本频率idfi。
在本发明的一个实施方式中,tfidfi,j=tfi,j×idfi。
在本发明的一个实施方式中,ti,j表示日志模式pi在序列fj中的出现次数,∑utu,j表示模式存储库中的全部日志模式在序列fj中的出现次数的总和;以及|F|表示多个日志文件的数量,{v:pi∈fv}表示包括日志模式pi的序列的数量。
在本发明的一个实施方式中,构建模块720包括:选择模块,配置用于响应于日志模式中的日志模式p的出现次数超过预定阈值,将日志模式p加入模式存储库。
在本发明的一个实施方式中,提供了一种用于基于日志相似性来处理故障的装置,包括:相似性计算模块,配置用于响应于接收到系统的新的日志文件,计算新的日志文件与至少一个分组中的多个向量的相似性,至少一个分组是基于上述装置获得的;以及指定模块,配置用于将相似性最高的向量所在分组指示的故障类型作为系统的故障类型。
在本发明的一个实施方式中,相似性计算模块包括:向量映射模块,配置用于基于根据上述装置中的模式存储库,将新的日志文件映射至一n维向量;以及向量相似性计算模块,配置用于计算n维向量与多个向量的相似性。
附图中的流程图和框图显示了根据本发明的多个实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。
Claims (14)
1.一种基于日志相似性来处理故障的方法,包括:
响应于采集到来自出现故障的至少一个系统的多个日志文件,从所述多个日志文件提取日志模式,包括:
针对所述多个日志文件中的当前日志文件,提取所述日志模式,所述日志模式中的一个日志模式是从所述当前日志文件中的一对两行日志消息提取的,所述日志模式描述所述多个日志文件中的日志文件中的日志消息所符合的正则表达式;
利用所述日志模式构建模式存储库;
基于所述模式存储库将所述多个日志文件中的每个日志文件映射至一n维向量,包括:针对所述多个日志文件中的日志文件j,
将所述日志文件j中的每行日志消息k匹配至所述模式存储库中的相应日志模式pk;
将所述日志文件j转换为相应日志模式pk的序列fj;以及
将所述序列fj映射至一n维向量,其中所述n维向量的维度n等于所述模式存储库中的日志模式的数量;
将所述多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中所述至少一个分组中的每个分组指示所述至少一个系统的一种故障类型;
其中将所述序列fj映射至一n维向量包括:针对所述模式存储库中的日志模式pi,
计算与所述日志模式pi和所述序列fj相关联的特征值tfidfi,j,其中tfidfi,j=tfi,j×idfi,所述特征值tfidfi,j关联于所述日志模式pi在与所述多个日志文件相对应的多个序列中的出现频率;以及
将所述特征值tfidfi,j作为所述n维向量中的第i个分量,以构造所述n维向量。
2.根据权利要求1所述的方法,其中从所述当前日志文件中的两行日志消息提取所述日志模式包括:
计算所述两行日志消息的最长公共子序列,以提取所述日志模式。
3.根据权利要求1所述的方法,其中所述特征值tfidfi,j关联于所述日志模式pi的词频tfi,j、以及所述日志模式pi的逆向文本频率idfi。
4.根据权利要求1所述的方法,其中:
ti,j表示所述日志模式pi在所述序列fj中的出现次数,∑utu,j表示所述模式存储库中的全部日志模式在所述序列fj中的出现次数的总和;以及
|F|表示所述多个日志文件的数量,{v:pi∈fv}表示包括所述日志模式pi的序列的数量。
5.根据权利要求1-4中的任一项所述的方法,其中利用所述日志模式构建模式存储库包括:
响应于所述日志模式中的日志模式p的出现次数超过预定阈值,将所述日志模式p加入所述模式存储库。
6.一种用于基于日志相似性来处理故障的方法,包括:
响应于接收到系统的新的日志文件,计算所述新的日志文件与至少一个分组中的多个向量的相似性,所述至少一个分组是基于权利要求1-5中的任一项所述的方法获得的;以及
将相似性最高的向量所在分组指示的故障类型作为所述系统的故障类型。
7.根据权利要求6所述的方法,其中响应于接收到系统的新的日志文件,计算所述新的日志文件与至少一个分组中的多个向量的相似性包括:
基于根据权利要求1-5中的任一项所述方法中的所述模式存储库,将所述新的日志文件映射至一n维向量;以及
计算所述n维向量与所述多个向量的相似性。
8.一种基于日志相似性来处理故障的装置,包括:
提取模块,配置用于响应于采集到来自出现故障的至少一个系统的多个日志文件,从所述多个日志文件提取日志模式,其中所述提取模块包括:
第一提取模块,配置用于针对所述多个日志文件中的当前日志文件,提取所述日志模式,所述日志模式中的一个日志模式是从所述当前日志文件中的一对两行日志消息提取的,所述日志模式描述所述多个日志文件中的日志文件中的日志消息所符合的正则表达式;
构建模块,配置用于利用所述日志模式构建模式存储库;
映射模块,配置用于基于所述模式存储库将所述多个日志文件中的每个日志文件映射至一n维向量,其中所述映射模块包括:
匹配模块,配置用于针对所述多个日志文件中的日志文件j,将所述日志文件j中的每行日志消息k匹配至所述模式存储库中的相应日志模式pk;
转换模块,配置用于将所述日志文件j转换为相应日志模式pk的序列fj;以及
第一映射模块,配置用于将所述序列fj映射至一n维向量,其中所述n维向量的维度n等于所述模式存储库中的日志模式的数量;
聚类模块,配置用于将所述多个日志文件中的每个日志文件所映射到的多个n维向量聚类至至少一个分组,其中所述至少一个分组中的每个分组指示所述至少一个系统的一种故障类型;
其中所述第一映射模块包括:
计算模块,配置用于针对所述模式存储库中的日志模式pi,计算与所述日志模式pi和所述序列fj相关联的特征值tfidfi,j,其中tfidfi,j=tfi,j×idfi,所述特征值tfidfi,j关联于所述日志模式pi在与所述多个日志文件相对应的多个序列中的出现频率;以及
生成模块,配置用于将所述特征值tfidfi,j作为所述n维向量中的第i个分量,以构造所述n维向量。
9.根据权利要求8所述的装置,其中所述第一提取模块包括:
第二提取模块,配置用于计算所述两行日志消息的最长公共子序列,以提取所述日志模式。
10.根据权利要求8所述的装置,其中所述特征值tfidfi,j关联于所述日志模式pi的词频tfi,j、以及所述日志模式pi的逆向文本频率idfi。
11.根据权利要求8所述的装置,其中:
ti,j表示所述日志模式pi在所述序列fj中的出现次数,∑utu,j表示所述模式存储库中的全部日志模式在所述序列fj中的出现次数的总和;以及
|F|表示所述多个日志文件的数量,{v:pi∈fv}表示包括所述日志模式pi的序列的数量。
12.根据权利要求8-11中的任一项所述的装置,其中所述构建模块包括:
选择模块,配置用于响应于所述日志模式中的日志模式p的出现次数超过预定阈值,将所述日志模式p加入所述模式存储库。
13.一种用于基于日志相似性来处理故障的装置,包括:
相似性计算模块,配置用于响应于接收到系统的新的日志文件,计算所述新的日志文件与至少一个分组中的多个向量的相似性,所述至少一个分组是基于权利要求8-12中的任一项所述的装置获得的;以及
指定模块,配置用于将相似性最高的向量所在分组指示的故障类型作为所述系统的故障类型。
14.根据权利要求13所述的装置,其中所述相似性计算模块包括:
向量映射模块,配置用于基于根据权利要求8-12中的任一项所述装置中的所述模式存储库,将所述新的日志文件映射至一n维向量;以及
向量相似性计算模块,配置用于计算所述n维向量与所述多个向量的相似性。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310441156.9A CN104461842B (zh) | 2013-09-23 | 2013-09-23 | 基于日志相似性来处理故障的方法和装置 |
US14/489,004 US9542255B2 (en) | 2013-09-23 | 2014-09-17 | Troubleshooting based on log similarity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310441156.9A CN104461842B (zh) | 2013-09-23 | 2013-09-23 | 基于日志相似性来处理故障的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104461842A CN104461842A (zh) | 2015-03-25 |
CN104461842B true CN104461842B (zh) | 2018-02-16 |
Family
ID=52692133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310441156.9A Active CN104461842B (zh) | 2013-09-23 | 2013-09-23 | 基于日志相似性来处理故障的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9542255B2 (zh) |
CN (1) | CN104461842B (zh) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102066843B1 (ko) * | 2013-07-15 | 2020-01-16 | 삼성전자 주식회사 | 통신 기록 정보를 이용한 그룹 형성 방법 및 장치 |
US10489715B2 (en) | 2015-03-27 | 2019-11-26 | International Business Machines Corporation | Fingerprinting and matching log streams |
US10489714B2 (en) | 2015-03-27 | 2019-11-26 | International Business Machines Corporation | Fingerprinting and matching log streams |
CN105049247B (zh) * | 2015-07-06 | 2019-04-26 | 中国科学院信息工程研究所 | 一种网络安全日志模板抽取方法及装置 |
CN106547470B (zh) * | 2015-09-16 | 2020-01-03 | 伊姆西公司 | 日志存储优化方法和设备 |
US10664481B2 (en) * | 2015-09-29 | 2020-05-26 | Cisco Technology, Inc. | Computer system programmed to identify common subsequences in logs |
CN105183912B (zh) * | 2015-10-12 | 2019-03-01 | 北京百度网讯科技有限公司 | 异常日志确定方法和装置 |
US9710371B2 (en) * | 2015-10-27 | 2017-07-18 | Microsoft Technology Licensing, Llc | Test failure bucketing |
CN105468677B (zh) * | 2015-11-13 | 2019-11-19 | 国家计算机网络与信息安全管理中心 | 一种基于图结构的日志聚类方法 |
US10990616B2 (en) * | 2015-11-17 | 2021-04-27 | Nec Corporation | Fast pattern discovery for log analytics |
CN105471659B (zh) * | 2015-12-25 | 2019-03-01 | 华为技术有限公司 | 一种故障根因分析方法和分析设备 |
CN107203450B (zh) * | 2016-03-16 | 2020-06-02 | 伊姆西Ip控股有限责任公司 | 故障的分类方法和设备 |
US10289509B2 (en) * | 2016-04-06 | 2019-05-14 | Nec Corporation | System failure prediction using long short-term memory neural networks |
CN106598827B (zh) * | 2016-12-19 | 2019-05-31 | 东软集团股份有限公司 | 提取日志数据的方法及装置 |
CN108268473A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 一种日志处理方法及装置 |
CN106844576B (zh) * | 2017-01-06 | 2020-10-13 | 北京蓝海讯通科技股份有限公司 | 一种异常检测方法、装置和监控设备 |
US11030064B2 (en) * | 2017-06-08 | 2021-06-08 | International Business Machines Corporation | Facilitating classification of equipment failure data |
US11263072B2 (en) | 2017-06-29 | 2022-03-01 | Hewlett-Packard Development Company, L.P. | Recovery of application from error |
CN107301120B (zh) * | 2017-07-12 | 2021-04-30 | 北京京东尚科信息技术有限公司 | 用于处理非结构化日志的方法及装置 |
CN109388551A (zh) * | 2017-08-07 | 2019-02-26 | 北京京东尚科信息技术有限公司 | 预测代码存在漏洞概率的方法、漏洞检测方法、相关装置 |
US11194692B2 (en) | 2017-09-22 | 2021-12-07 | Nec Corporation | Log-based system maintenance and management |
US11734096B2 (en) * | 2017-10-23 | 2023-08-22 | Vmware, Inc. | Disaster prediction recovery: statistical content based filter for software as a service |
US10909115B2 (en) * | 2017-12-04 | 2021-02-02 | Nec Corporation | System event search based on heterogeneous logs |
WO2019179765A1 (en) | 2018-03-23 | 2019-09-26 | Koninklijke Philips N.V. | Self-correcting method for annotation of data pool using feedback mechanism |
US10929218B2 (en) * | 2018-05-16 | 2021-02-23 | Nec Corporation | Joint semantic and format similarity for large scale log retrieval |
CN108664374B (zh) * | 2018-05-17 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 故障告警模型创建方法、装置、故障告警方法及装置 |
US10838801B2 (en) | 2018-06-04 | 2020-11-17 | International Business Machines Corporation | Automatically solving computer system error states via a comparative historical analysis of error states, logs, profile configurations, and operator responses |
CN109558191A (zh) * | 2018-10-31 | 2019-04-02 | 深圳壹账通智能科技有限公司 | 一种配置页面的方法、装置、存储介质及计算机设备 |
US10922163B2 (en) * | 2018-11-13 | 2021-02-16 | Verizon Patent And Licensing Inc. | Determining server error types |
CN109783263B (zh) * | 2018-12-27 | 2021-11-09 | 郑州云海信息技术有限公司 | 一种服务器老化测试故障的处理方法和系统 |
US10977113B2 (en) * | 2019-01-29 | 2021-04-13 | Dell Products L.P. | System and method for fault identification, logging, and remediation |
CN109992475B (zh) * | 2019-03-20 | 2023-09-01 | 网宿科技股份有限公司 | 一种日志的处理方法、服务器及存储介质 |
CN109992476B (zh) * | 2019-03-20 | 2023-08-18 | 网宿科技股份有限公司 | 一种日志的分析方法、服务器及存储介质 |
TWI764026B (zh) * | 2019-08-06 | 2022-05-11 | 中華電信股份有限公司 | 日誌管理設備及日誌管理方法 |
CN112445775B (zh) * | 2019-08-15 | 2024-04-19 | 上海微电子装备(集团)股份有限公司 | 一种光刻机的故障分析方法、装置、设备和存储介质 |
CN110806961A (zh) * | 2019-11-05 | 2020-02-18 | 上海七牛信息技术有限公司 | 一种智能预警方法及系统、推荐系统 |
US11734121B2 (en) * | 2020-03-10 | 2023-08-22 | EMC IP Holding Company LLC | Systems and methods to achieve effective streaming of data blocks in data backups |
CN113448935B (zh) * | 2020-03-24 | 2024-04-26 | 伊姆西Ip控股有限责任公司 | 用于提供日志信息的方法、电子设备和计算机程序产品 |
CN113535667B (zh) * | 2020-04-20 | 2024-08-02 | 烽火通信科技股份有限公司 | 一种系统日志自动分析方法、装置和系统 |
CN113986643A (zh) * | 2020-07-27 | 2022-01-28 | 伊姆西Ip控股有限责任公司 | 分析日志文件的方法、电子设备和计算机程序产品 |
KR102643598B1 (ko) * | 2020-12-24 | 2024-03-06 | 한국과학기술원 | 패턴 기반 SoS 내 실패 유발 상호작용 분석 방법 및 장치 |
US11630717B2 (en) * | 2021-01-06 | 2023-04-18 | Servicenow, Inc. | Machine-learning based similarity engine |
US11513885B2 (en) * | 2021-02-16 | 2022-11-29 | Servicenow, Inc. | Autonomous error correction in a multi-application platform |
US11494255B2 (en) * | 2021-03-12 | 2022-11-08 | Juniper Networks, Inc. | Adaptive log data level in a computing system |
CN115495424A (zh) * | 2021-06-18 | 2022-12-20 | 伊姆西Ip控股有限责任公司 | 数据处理的方法、电子设备和计算机程序产品 |
TWI789907B (zh) * | 2021-09-14 | 2023-01-11 | 神雲科技股份有限公司 | 自動分派除錯人員的方法 |
CN114328076B (zh) * | 2021-09-18 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 日志信息提取方法、装置、计算机设备和存储介质 |
CN116028317A (zh) | 2021-10-22 | 2023-04-28 | 伊姆西Ip控股有限责任公司 | 训练故障分析模型的方法、电子设备和计算机程序产品 |
CN114185759A (zh) * | 2021-12-13 | 2022-03-15 | 上海众源网络有限公司 | 报警级别的确定方法、装置、计算机设备及存储介质 |
CN116414791A (zh) * | 2021-12-30 | 2023-07-11 | 戴尔产品有限公司 | 用于管理日志数据的方法、设备和程序产品 |
CN114528845A (zh) * | 2022-02-14 | 2022-05-24 | 中国工商银行股份有限公司 | 异常日志的分析方法、装置及电子设备 |
US12067387B2 (en) * | 2023-01-10 | 2024-08-20 | Dell Products, L.P. | Software modification error resolution and management |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5463768A (en) * | 1994-03-17 | 1995-10-31 | General Electric Company | Method and system for analyzing error logs for diagnostics |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100243314B1 (ko) * | 1995-04-07 | 2000-02-01 | 윤종용 | 임시 디펙트 리스트를 이용한 에러 로그 방법 |
US6795935B1 (en) * | 1999-10-28 | 2004-09-21 | General Electric Company | Diagnosis of faults in a complex system |
JP4130615B2 (ja) * | 2003-07-02 | 2008-08-06 | 株式会社日立製作所 | ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ |
US7457991B1 (en) * | 2002-12-03 | 2008-11-25 | Unisys Corporation | Method for scanning windows event logs on a cellular multi-processor (CMP) server |
US7266726B1 (en) * | 2003-11-24 | 2007-09-04 | Time Warner Cable Inc. | Methods and apparatus for event logging in an information network |
US8452761B2 (en) * | 2007-10-24 | 2013-05-28 | International Business Machines Corporation | Apparatus for and method of implementing system log message ranking via system behavior analysis |
US8001237B2 (en) * | 2008-03-21 | 2011-08-16 | Young Yee | Remote monitoring of user input devices |
US8707194B1 (en) * | 2009-11-20 | 2014-04-22 | Amazon Technologies, Inc. | System and method for decentralized performance monitoring of host systems |
US20130311137A1 (en) * | 2012-05-16 | 2013-11-21 | Brian J. Daniel | Target detection signal processor based on a linear log likelihood ratio algorithm using a continuum fusion methodology |
US8990642B2 (en) * | 2013-02-22 | 2015-03-24 | International Business Machines Corporation | Managing error logs in a distributed network fabric |
US20140244191A1 (en) * | 2013-02-28 | 2014-08-28 | Research In Motion Limited | Current usage estimation for electronic devices |
CN103177090B (zh) * | 2013-03-08 | 2016-11-23 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
US9324038B2 (en) * | 2013-11-15 | 2016-04-26 | Xerox Corporation | Method and system for clustering, modeling, and visualizing process models from noisy logs |
US9497072B2 (en) * | 2014-04-01 | 2016-11-15 | Ca, Inc. | Identifying alarms for a root cause of a problem in a data processing system |
-
2013
- 2013-09-23 CN CN201310441156.9A patent/CN104461842B/zh active Active
-
2014
- 2014-09-17 US US14/489,004 patent/US9542255B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5463768A (en) * | 1994-03-17 | 1995-10-31 | General Electric Company | Method and system for analyzing error logs for diagnostics |
Non-Patent Citations (3)
Title |
---|
"ELT: Efficient Log-based Troubleshooting System for Cloud Computing Infrastructures";Kamal Kc等;《2011 30th IEEE International Symposium on Reliable Distributed Systems》;20111115;文章第12页右栏1-3段,第13页左栏A节,第14页左栏1-5段,摘要及图2 * |
"LogSig: Generating System Events from Raw Textual Logs";Liang Tang等;《CIKM’11 Proceedings of the 20th ACM international conference on Information and knowledge management》;20111028;文章第786-787页第3节 * |
"基于相似度的文本聚类算法研究及应用";马素琴;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100815(第08期);文章第25-26页第3.1.1节 * |
Also Published As
Publication number | Publication date |
---|---|
US20150089309A1 (en) | 2015-03-26 |
US9542255B2 (en) | 2017-01-10 |
CN104461842A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104461842B (zh) | 基于日志相似性来处理故障的方法和装置 | |
US11294754B2 (en) | System and method for contextual event sequence analysis | |
US10127301B2 (en) | Method and system for implementing efficient classification and exploration of data | |
CN103513983B (zh) | 用于预测性警报阈值确定工具的方法和系统 | |
US20170109657A1 (en) | Machine Learning-Based Model for Identifying Executions of a Business Process | |
JP6233411B2 (ja) | 障害分析装置、障害分析方法、および、コンピュータ・プログラム | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
US20170109667A1 (en) | Automaton-Based Identification of Executions of a Business Process | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
CN107003931B (zh) | 将测试验证从测试执行分离 | |
CN106485146B (zh) | 一种信息处理方法及服务器 | |
WO2019050624A1 (en) | PROCESSING COMPUTER JOURNAL MESSAGES FOR VISUALIZATION AND RECOVERY | |
CN108304382B (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
Duan et al. | Guided problem diagnosis through active learning | |
CN117971606B (zh) | 基于ElasticSearch的日志管理系统及方法 | |
Thaler et al. | Towards a neural language model for signature extraction from forensic logs | |
US20170109640A1 (en) | Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process | |
WO2017023299A1 (en) | Composing future tests | |
US10346450B2 (en) | Automatic datacenter state summarization | |
Itkin et al. | User-assisted log analysis for quality control of distributed fintech applications | |
JP2014035749A (ja) | ログ生成則作成装置及び方法 | |
CN107391727A (zh) | 设备故障序列模式的挖掘方法及装置 | |
CN118113999A (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
US11568177B2 (en) | Sequential data analysis apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200413 Address after: Massachusetts, USA Patentee after: EMC IP Holding Company LLC Address before: Massachusetts, USA Patentee before: EMC Corp. |