CN113448935B - 用于提供日志信息的方法、电子设备和计算机程序产品 - Google Patents

用于提供日志信息的方法、电子设备和计算机程序产品 Download PDF

Info

Publication number
CN113448935B
CN113448935B CN202010214680.2A CN202010214680A CN113448935B CN 113448935 B CN113448935 B CN 113448935B CN 202010214680 A CN202010214680 A CN 202010214680A CN 113448935 B CN113448935 B CN 113448935B
Authority
CN
China
Prior art keywords
log
semantic segments
semantic
key information
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010214680.2A
Other languages
English (en)
Other versions
CN113448935A (zh
Inventor
孙莉
郑庆霄
白冰
廖兰君
王雪清
王靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202010214680.2A priority Critical patent/CN113448935B/zh
Priority to US16/872,012 priority patent/US11740955B2/en
Publication of CN113448935A publication Critical patent/CN113448935A/zh
Application granted granted Critical
Publication of CN113448935B publication Critical patent/CN113448935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开的实施例涉及用于提供日志信息的方法、电子设备和计算机程序产品。一种用于提供日志信息的方法包括从目标系统的一组日志文件被划分成的多个语义分段中确定包括故障信息的第一组语义分段;从第一组语义分段中提取目标系统特定的关键信息;基于所提取的关键信息,确定故障信息所涉及的应用场景和该组日志文件中与应用场景有关的至少一个日志文件;从至少一个日志文件被划分成的多个语义分段中确定包括该关键信息的第二组语义分段;以及通过在第一组语义分段和第二组语义分段中突出呈现故障信息和关键信息,来提供第一组语义分段和第二组语义分段。本公开的实施例有助于提高用户定位系统故障原因的效率,从而提高用户满意度。

Description

用于提供日志信息的方法、电子设备和计算机程序产品
技术领域
本公开的实施例总体涉及计算机领域,具体涉及用于提供日志信息的方法、电子设备和计算机程序产品。
背景技术
当计算机系统(例如,数据备份系统)出现故障时,用户(例如,系统管理员或技术支持人员)通常需要收集不同文件夹下的相关日志文件,然后通过分析这些日志文件来定位故障原因。然而,日志文件可能是海量的。此外,一些日志文件可能很快被覆盖。这导致通过分析这些日志文件来定位故障原因的效率可能很低。
发明内容
本公开的实施例提供了用于提供日志信息的方法、电子设备和计算机程序产品。
在本公开的第一方面,提供了一种用于提供日志信息的方法。该方法包括:从目标系统的一组日志文件被划分成的多个语义分段中确定包括故障信息的第一组语义分段;从第一组语义分段中提取目标系统特定的关键信息;基于所提取的关键信息,确定故障信息所涉及的应用场景和该组日志文件中与应用场景有关的至少一个日志文件;从至少一个日志文件被划分成的多个语义分段中确定包括该关键信息的第二组语义分段;以及通过在第一组语义分段和第二组语义分段中突出呈现故障信息和关键信息,来提供第一组语义分段和第二组语义分段。
在本公开的第二方面,提供了一种电子设备。该设备包括处理器和存储器。存储器被耦合到处理器并且存储用于由处理器执行的指令。该指令当由处理器执行时使得设备执行动作,动作包括:从目标系统的一组日志文件被划分成的多个语义分段中确定包括故障信息的第一组语义分段;从第一组语义分段中提取目标系统特定的关键信息;基于所提取的关键信息,确定故障信息所涉及的应用场景和该组日志文件中与应用场景有关的至少一个日志文件;从至少一个日志文件被划分成的多个语义分段中确定包括该关键信息的第二组语义分段;以及通过在第一组语义分段和第二组语义分段中突出呈现故障信息和关键信息,来提供第一组语义分段和第二组语义分段。
在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令。该机器可执行指令在由设备执行时使该设备执行根据以上第一方面所描述的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据以上第一方面所描述的方法。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了本公开的实施例能够在其中被实施的示例环境的框图;
图2示出了根据本公开的实施例的用于提供日志信息的示例方法的流程图;
图3A和3B分别示出了根据本公开的实施例的包括突出呈现的故障信息和系统关键信息的日志段;以及
图4示出了可以用来实施本公开内容的实施例的示例电子设备的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,当计算机系统(例如,数据备份系统)出现故障时,用户(例如,系统管理员或技术支持人员)通常需要收集不同文件夹下的相关日志文件,然后通过分析这些日志文件来定位故障原因。然而,日志文件可能是海量的。此外,一些日志文件可能很快被覆盖。这导致通过分析这些日志文件来定位故障原因的效率可能很低。
本公开的实施例提出了一种用于提供日志信息的方案,以解决上述问题和/或其他潜在问题。根据该方案,从目标系统的一组日志文件被划分成的多个语义分段中确定包括故障信息的第一组语义分段。从第一组语义分段中提取目标系统特定的关键信息。基于所提取的关键信息,确定故障信息所涉及的应用场景和该组日志文件中与应用场景有关的至少一个日志文件。从至少一个日志文件被划分成的多个语义分段中确定包括该关键信息的第二组语义分段。然后,通过在第一组语义分段和第二组语义分段中突出呈现故障信息和关键信息,来提供第一组语义分段和第二组语义分段。以此方式,本公开的实施例有助于提高用户定位系统故障原因的效率,从而提高用户满意度。
以下将进一步结合附图来详细描述本公开的实施例。图1示出了本公开的实施例能够在其中被实现的示例环境100的框图。应当理解,仅出于示例性的目的描述示例环境100的结构,示例环境100中所包括的实体类型和数量也仅出于示例性的目的示出,而不暗示对于本公开的范围的任何限制。本公开的实施例可以被实现在与环境100不同的环境中。
如图1所示,环境100可以包括目标系统110和日志提供设备120。目标系统110的示例可以包括但不限于计算系统、数据存储系统、数据备份系统等。目标系统110可以包括多个组件111-1、111-2……111-N(统称为“组件111”,其中N为自然数)。组件111可以是物理组件或者逻辑组件。组件111的示例可以包括但不限于客户端、服务器、存储装置、软件模块等。例如,多个组件111可以分别被实现在不同物理设备上,或者其中至少一部分可以被实现在同一物理设备上。在一些实施例中,可以预定义针对多个组件111的相应日志位置,例如如表1所示,使得多个组件111在运行时将日志记录到相应日志位置处的日志文件中。
表1预定义日志位置列表
组件 日志位置
组件111-1 C:\Program Files\avs\var\clientlogs
组件111-2 /usr/local/avamar/var/mc/server_log/mcserver.*
……
组件111-N /data01/cur/gsan.log
如图1所示,日志提供设备120可以包括日志收集器121、日志分析器122和日志提供器123。日志收集器121可以定期地或者响应于用户命令从针对多个组件111预定义的相应日志位置获取多个日志文件101。在一些实施例中,日志收集器121可以对收集到的多个日志文件101进行过滤,以得到要对其进行分析的一组日志文件。例如,日志收集器121可以按照时间来对多个日志文件101进行过滤,以得到近期(例如,最近12小时)被修改过的一组日志文件。备选地,在另一些实施例中,上述过滤操作可以被省略。日志收集器121可以将所收集的或者经过滤的一组日志文件提供给日志分析器122进行分析。
日志分析器122可以对来自日志收集器121的一组日志文件进行分析以挖掘其中的重要信息,并且从长的日志文件中截取重要的分段。在一些实施例中,为了便于分析日志文件,日志分析器122可以将所接收到的一组日志文件中的每个日志文件划分成多个语义分段(也称为“逻辑段”或“日志段”)。在此所述的“语义分段”是指具有相同主题或相似语义的文本单元,其可以包括一个或多个段落、或者某个段落的至少一部分。在一些实施例中,日志分析器122可以利用任何已知或者将来开发的文本分割算法来将日志文件划分成多个语义分段。文本分割算法的示例包括但不限于Dotplotting算法、基于Dotplotting算法而改进的文本分割算法和/或任何其他合适的文本分割算法。
日志分析器122可以对一组日志文件被划分成多个语义分段进行分析,以挖掘其中的关键日志信息102。关键日志信息102例如可以包括具有故障信息和/或重要系统信息的语义分段、故障简档、附加信息和/或建议等。日志分析器122可以将所得到的关键日志信息102提供给日志提供器123,以便向用户提供。附加地或备选地,在一些实施例中,日志提供器123还可以将所有日志文件一并提供给用户,以供用户参考。
图2示出了根据本公开的实施例的用于提供日志信息的示例方法200的流程图。例如,方法200可以在如图1所示的日志提供设备120处执行。应当理解,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。以下结合图1来详细描述方法200。
如图2所示,在框210处,日志提供设备120(例如,日志分析器122)从目标系统110的一组日志文件被划分成的多个语义分段中确定包括故障信息的第一组语义分段。
在一些实施例中,如上所述,日志分析器122可以利用任何已知或者将来开发的文本分割算法来将目标系统110的一组日志文件划分成多个语义分段。文本分割算法的示例包括但不限于Dotplotting算法、基于Dotplotting算法而改进的文本分割算法和/或任何其他合适的文本分割算法。出于示例的目的,以下示出根据本公开的实施例的基于Dotplotting算法而改进的文本分割算法。例如,该文本分割算法可以如表2所示:
表2示例文本分割算法
在如表2所示的算法中,分段边界被相继添加,直到达到最佳分段数目。段落边界可以充当候选分段边界。为了确定新的分段边界,可以检查每个候选位置。假设将某个候选位置添加到边界集合B并且构成当前的分段集合P,可以使用P中的边界来计算分割评估函数J的值。选择达到最小值的边界位置作为下一个边界,以插入到边界集合B中,直到边界数目等于N。在一些实施例中,上述算法中的评估函数J被表示如下:
其中n是整个文本的长度,Pj是第j个语义分段边界的位置。|P|是文本中的语义分段数目。Vx,y是第x个词至第y个词组成的文本片段的词频向量。两个分段的相似程度越低,则在这两个分段之间的段落末尾发生主题更改的可能性越大。以此方式,能够找到相邻分段之间具有最小相似性的文本分割方式。应当理解,以上文本分割算法仅出于示例的目的示出,不旨在限制本公开的范围。本公开的实施例也适用于其他文本分割算法。
日志分析器122可以针对一组日志文件被划分成的多个语义分段执行故障信息搜索。在一些实施例中,在针对一组日志文件被划分成的多个语义分段执行故障信息搜索之前,日志分析器122可以对该多个语义分段进行预处理,包括但不限于移除时间戳、统一大小写、将字符流符号化等等。在一些实施例中,日志分析器122可以在经过预处理的多个语义分段中搜索故障关键词,例如error、warning、failure、crash等,并且基于搜索的结果来确定第一组语义分段,使得第一组语义分段中的每个语义分段包括上述至少一个故障关键词。附加地或备选地,在一些实施例中,日志分析器122可以基于表示故障代码的正则表达式在该多个语义分段中搜索故障代码。日志分析器122可以根据搜索到的故障代码的上下文来确定包括故障信息的第一组语义分段。
在框220处,日志提供设备120(例如,日志分析器122)从第一组语义分段中提取目标系统110特定的关键信息。在一些实施例中,所提取的关键信息可以是多个组件111之间共享的信息,诸如组件名称或标识符、组件的软件版本、组件的操作系统类型、会话标识符、存储装置的名称等等。应当理解,在不同实现中,所提取的关键信息可以是不同的。
在一些实施例中,日志分析器122可以通过在第一组语义分段中搜索指示关键信息的类型的至少一个关键词,来提取目标系统110特定的关键信息。指示关键信息类型的关键词的示例可以包括但不限于:指示组件标识符的关键词(诸如,客户端标识符,cid),指示组件中的插件的标识符的关键词(诸如,客户端中的插件标识符,pid),指示组件中的插件数目的关键词(诸如,客户端中的插件数目,pidnum),诸如备份(backup)、复制(replication)或者恢复(restore)等与业务操作类型有关的关键词等等。应当理解,在具体实现中,所搜索的关键词可以根据具体需求来确定,而不限于上述列举的这些。
在框230处,日志提供设备120(例如,日志分析器122)基于所提取的关键信息,确定故障信息所涉及的应用场景和一组日志文件中与该应用场景有关的至少一个日志文件。
在一些实施例中,如上所述,日志分析器122可以在第一组语义分段中搜索与业务操作类型有关的关键词,诸如备份(backup)、复制(replication)或者恢复(restore)等,从而确定与应用场景有关的业务操作类型。然后,日志分析器122可以基于该业务操作类型和关键信息来标识应用场景。
在一些实施例中,目标系统110可以预定义一个或多个应用场景。例如,针对每个预定义应用场景,可以指定该预定义应用场景所涉及的业务操作类型,以及与该预定义应用场景相关联的至少一个组件111。以数据备份系统为例,业务操作类型的示例包括但不限于,完全备份(backup)至某个存储装置、增量备份至某个存储装置、将备份数据恢复(restore)至其原始位置、将备份数据恢复(restore)至不同位置、具有增量备份的复制(replication)等等。日志分析器122可以将在第一组语义分段中确定的业务操作类型与预定义应用场景中的业务操作类型进行匹配,从而确定故障信息所涉及的是一个或多个预定义应用场景中的哪一个。日志分析器122可以基于与该预定义应用场景相关联的至少一个组件111和表1来确定该预定义应用场景将涉及哪些日志位置下的日志文件。以此方式,日志分析器122能够确定一组日志文件中与该应用场景有关的至少一个日志文件。
在一些实施例中,日志分析器122可以基于从第一组语义分段中提取的故障代码、所确定的业务操作类型和系统关键信息,来生成与该应用场景有关的故障简档。故障简档的示例如表3所示,其可以在之后被作为关键日志信息102的一部分。
表3示例故障简档
在框240处,日志提供设备120(例如,日志分析器122)从(与所确定的应用场景有关的)至少一个日志文件被划分成的多个语义分段中确定包括系统关键信息的第二组语义分段。如上所述,日志分析器122可以确定一组日志文件中与该应用场景有关的至少一个日志文件。在一些实施例中,日志分析器122可以在该至少一个日志文件被划分成的多个语义分段中搜索从第一组语义分段中提取的那些关键信息。
在框250处,日志提供设备120(例如,日志提供器123)通过在第一组语义分段和第二组语义分段中突出呈现故障信息和关键信息,来提供第一组语义分段和第二组语义分段。
图3A和3B分别示出了根据本公开的实施例的包括突出呈现的故障信息和系统关键信息的语义分段310和320。在图3A和3B中,利用虚线框示出了突出呈现的系统关键信息,并且利用实线框示出了突出呈现的故障信息。从如图3A所示的故障信息311中可以确定Avoracle组件由于Rman组件的异常中止而发生错误。然后,从如图3B所示的故障信息321中可以确定该故障的根本原因——“当连接到已安装的目标数据库时无法使用命令”。以此方式,用户从少量的关键日志信息中能够确定系统故障的根本原因,而无需从海量日志文件中挖掘信息。
附加地或备选地,在一些实施例中,日志提供器123在提供第一组语义分段和第二组语义分段的同时,还可以提供如表3所示的故障简档。
附加地或备选地,在一些实施例中,日志提供设备120可以进一步收集与故障代码相关的信息,并且生成解决故障的建议,以作为如图1所示的关键日志信息102的一部分提供给用户。例如,如果故障代码为“内存不足”,则日志提供设备120可以获取目标系统110的内存使用信息并将其附加到关键日志信息102中。如果故障代码为“堆栈溢出”,则日志提供设备120可以获取内核转储文件,并将其附加到关键日志信息102中。如果故障代码为“备份任务超时”,则日志提供设备120可以获取目标系统110的资源使用情况或其他任务的执行时间等信息,并将其附加到关键日志信息102中。
附加地或备选地,在一些实施例中,日志提供设备120可以将所获取的所有日志文件和所提取的各类信息进行打包,并且与如图2所示的关键日志信息102一起提供给用户,以供用户参考。
通过以上描述能够看出,本公开的实施例提出了一种用于提供日志信息的方案。该方案能够收集相应的日志文件,并且自动检索故障信息上下文和相关组件的业务操作上下文。基于预定义应用场景,日志分析器不仅能够智能地检测出包含故障信息的日志段,还能够从不同的组件的日志中定位与故障相关的组件之间的内部关系。以此方式,本公开的实施例有助于提高用户定位系统故障原因的效率,从而提高用户满意度。
图4示出了可以用来实施本公开内容的实施例的示例电子设备400的示意性框图。例如,如图1所示的日志提供设备120可以由设备400实施。如图4所示,设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的计算机程序指令或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序指令,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200,可由处理单元401执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序被加载到RAM 403并由CPU 401执行时,可以执行上文描述的方法200的一个或多个动作。
本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种用于提供日志信息的方法,包括:
预定义一个或多个应用场景,每个应用场景包括业务操作类型以及与应用场景相关联的至少一个组件;
从目标系统的一组日志文件被划分成的多个语义分段中确定包括故障信息的第一组语义分段,所述第一组语义分段的每个语义分段包括具有相同主题或相似语义的文本单元;
从所述第一组语义分段中提取所述目标系统特定的关键信息;
基于所提取的所述关键信息,确定所述一个或多个应用场景中所述故障信息所涉及的应用场景和所述一组日志文件中与所述应用场景有关的至少一个日志文件,包括:
在所述第一组语义分段中搜索与包括备份操作、复制操作或恢复操作的业务操作类型相关的关键词;
确定与所述应用场景相关的业务操作类型;
基于所述业务操作类型和所述所提取的关键信息来标识应用场景;
基于与所述应用场景相关联的至少一个组件和预定义日志位置列表,确定所述应用场景中至少一个日志文件涉及的至少一个日志位置;和
基于所述至少一个日志位置来确定与所述应用场景相关的所述至少一个日志文件;
基于从所述第一组语义分段中提取的故障代码、所述业务操作类型和所述关键信息,生成与所述应用场景相关的故障简档;
从所述至少一个日志文件被划分成的多个语义分段中确定包括所述关键信息的第二组语义分段;以及
通过在所述第一组语义分段和所述第二组语义分段中突出呈现所述故障信息和所述关键信息,来提供所述故障简档、所述第一组语义分段和所述第二组语义分段。
2.根据权利要求1所述的方法,还包括:
从针对所述目标系统中的多个组件预定义的相应日志位置,获取多个日志文件;
根据预定义时间段通过对所述多个日志文件进行过滤来得到所述一组日志文件,所述一组日志文件包括近期被修改过的一组日志文件;以及
分析所述一组日志文件以及从长的日志文件中截取重要分段。
3.根据权利要求1所述的方法,还包括:
基于文本分割算法,将所述一组日志文件中的每个日志文件划分成至少一个语义分段。
4.根据权利要求1所述的方法,其中确定所述第一组语义分段包括:
在所述一组日志文件被划分成的所述多个语义分段中搜索故障关键词;以及
基于搜索的结果来确定所述第一组语义分段,使得所述第一组语义分段中的每个语义分段包括所述故障关键词。
5.根据权利要求1所述的方法,其中从所述第一组语义分段中提取所述关键信息包括:
从所述第一组语义分段中提取在所述目标系统的多个组件之间共享的所述关键信息。
6.根据权利要求1所述的方法,其中从所述第一组语义分段中提取所述目标系统特定的关键信息包括:
通过在所述第一组语义分段中搜索指示所述关键信息的类型的至少一个关键词,来提取所述关键信息。
7.一种电子设备,包括:
处理器;
存储器,所述存储器被耦合到所述处理器并且存储用于由所述处理器执行的指令,所述指令当由所述处理器执行时,使得所述电子设备执行动作,所述动作包括:
预定义一个或多个应用场景,每个应用场景包括业务操作类型以及与应用场景相关联的至少一个组件;
从目标系统的一组日志文件被划分成的多个语义分段中确定包括故障信息的第一组语义分段,所述第一组语义分段的每个语义分段包括具有相同主题或相似语义的文本单元;
从所述第一组语义分段中提取所述目标系统特定的关键信息;
基于所提取的所述关键信息,确定所述一个或多个应用场景中所述故障信息所涉及的应用场景和所述一组日志文件中与所述应用场景有关的至少一个日志文件,包括:
在所述第一组语义分段中搜索与包括备份操作、复制操作或恢复操作的业务操作类型相关的关键词;
确定与所述应用场景相关的业务操作类型;
基于所述业务操作类型和所述所提取的关键信息来标识应用场景;
基于与所述应用场景相关联的至少一个组件和预定义日志位置列表,确定所述应用场景中至少一个日志文件涉及的至少一个日志位置;和
基于所述至少一个日志位置来确定与所述应用场景相关的所述至少一个日志文件;
基于从所述第一组语义分段中提取的故障代码、所述业务操作类型和所述关键信息,生成与所述应用场景相关的故障简档;
从所述至少一个日志文件被划分成的多个语义分段中确定包括所述关键信息的第二组语义分段;以及
通过在所述第一组语义分段和所述第二组语义分段中突出呈现所述故障信息和所述关键信息,来提供所述故障简档、所述第一组语义分段和所述第二组语义分段。
8.根据权利要求7所述的电子设备,其中所述动作还包括:
从针对所述目标系统中的多个组件预定义的相应日志位置,获取多个日志文件;
通过对所述多个日志文件进行过滤来得到所述一组日志文件,所述一组日志文件包括近期被修改过的一组日志文件;以及
分析所述一组日志文件以及从长的日志文件中截取重要分段。
9.根据权利要求7所述的电子设备,其中所述动作还包括:
基于文本分割算法,将所述一组日志文件中的每个日志文件划分成至少一个语义分段。
10.根据权利要求7所述的电子设备,其中确定所述第一组语义分段包括:
在所述一组日志文件被划分成的所述多个语义分段中搜索故障关键词;以及
基于搜索的结果来确定所述第一组语义分段,使得所述第一组语义分段中的每个语义分段包括所述故障关键词。
11.根据权利要求7所述的电子设备,其中从所述第一组语义分段中提取所述关键信息包括:
从所述第一组语义分段中提取在所述目标系统的多个组件之间共享的所述关键信息。
12.根据权利要求7所述的电子设备,其中从所述第一组语义分段中提取所述目标系统特定的关键信息包括:
通过在所述第一组语义分段中搜索指示所述关键信息的类型的至少一个关键词,来提取所述关键信息。
13.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1-6中的任一项所述的方法。
CN202010214680.2A 2020-03-24 2020-03-24 用于提供日志信息的方法、电子设备和计算机程序产品 Active CN113448935B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010214680.2A CN113448935B (zh) 2020-03-24 2020-03-24 用于提供日志信息的方法、电子设备和计算机程序产品
US16/872,012 US11740955B2 (en) 2020-03-24 2020-05-11 Method, electronic device, and computer program product for extracting fault information from log files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010214680.2A CN113448935B (zh) 2020-03-24 2020-03-24 用于提供日志信息的方法、电子设备和计算机程序产品

Publications (2)

Publication Number Publication Date
CN113448935A CN113448935A (zh) 2021-09-28
CN113448935B true CN113448935B (zh) 2024-04-26

Family

ID=77806692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010214680.2A Active CN113448935B (zh) 2020-03-24 2020-03-24 用于提供日志信息的方法、电子设备和计算机程序产品

Country Status (2)

Country Link
US (1) US11740955B2 (zh)
CN (1) CN113448935B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416414B (zh) * 2022-01-17 2024-05-14 北京百度网讯科技有限公司 一种故障信息定位方法、装置、设备及存储介质
CN115396288A (zh) * 2022-08-29 2022-11-25 浪潮商用机器有限公司 一种故障分析方法、装置、设备及计算机可读存储介质
CN116028868B (zh) * 2023-02-15 2023-06-27 深圳市信润富联数字科技有限公司 设备故障分类方法、装置、电子设备及可读存储介质
CN116107524B (zh) * 2023-04-13 2023-07-18 杭州朗和科技有限公司 低代码应用日志处理方法、介质、装置和计算设备
CN116484260B (zh) * 2023-04-28 2024-03-19 南京信息工程大学 一种基于双向时间卷积网络的半监督日志异常检测方法
CN117687880A (zh) * 2023-08-03 2024-03-12 荣耀终端有限公司 日志处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461842A (zh) * 2013-09-23 2015-03-25 伊姆西公司 基于日志相似性来处理故障的方法和装置
CN107315779A (zh) * 2017-06-05 2017-11-03 海致网络技术(北京)有限公司 日志分析方法和系统
CN108629865A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 故障日志的生成方法、装置、设备及存储介质
CN109376063A (zh) * 2018-08-24 2019-02-22 深圳市彬讯科技有限公司 一种日志搜索方法与装置、存储介质
CN110166290A (zh) * 2019-05-16 2019-08-23 平安科技(深圳)有限公司 基于日志文件的告警方法及装置
US10394915B1 (en) * 2016-08-24 2019-08-27 Amazon Technologies, Inc. Architecture and techniques to search logging information
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6609217B1 (en) * 1998-03-30 2003-08-19 General Electric Company System and method for diagnosing and validating a machine over a network using waveform data
US7313728B2 (en) * 2003-02-05 2007-12-25 American Megatrends, Inc. Method and system for logging and accessing diagnostic result messages
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US9785893B2 (en) * 2007-09-25 2017-10-10 Oracle International Corporation Probabilistic search and retrieval of work order equipment parts list data based on identified failure tracking attributes
US9098290B2 (en) * 2008-01-30 2015-08-04 Intuit Inc. Method and apparatus for facilitating diagnostic logging for software components
US8612381B2 (en) * 2008-09-12 2013-12-17 International Business Machines Corporation Enhanced synchronization framework providing improved sync granularity
US8266159B2 (en) * 2009-08-18 2012-09-11 Benchworkzz, LLC System and method for providing access to log data files
US9703782B2 (en) * 2010-05-28 2017-07-11 Microsoft Technology Licensing, Llc Associating media with metadata of near-duplicates
CN103902604B (zh) * 2012-12-28 2020-11-10 Ge医疗系统环球技术有限公司 用于搜索并显示分散日志的方法和装置
US10089167B2 (en) * 2013-03-04 2018-10-02 International Business Machines Corporation Log file reduction according to problem-space network topology
US9846721B2 (en) * 2013-03-13 2017-12-19 Genesys Telecommunications Laboratories, Inc. Log file management tool
US9703536B2 (en) * 2014-08-11 2017-07-11 International Business Machines Corporation Debugging code using a question and answer system based on documentation and code change records
US9734005B2 (en) * 2014-10-31 2017-08-15 International Business Machines Corporation Log analytics for problem diagnosis
US10366096B2 (en) * 2015-04-03 2019-07-30 Oracle International Corporation Method and system for implementing a log parser in a log analytics system
CN106815220A (zh) * 2015-11-27 2017-06-09 英业达科技有限公司 数据分类及搜寻方法
US10116629B2 (en) * 2016-05-16 2018-10-30 Carbonite, Inc. Systems and methods for obfuscation of data via an aggregation of cloud storage services
US10783053B1 (en) * 2017-06-16 2020-09-22 Palantir Technologies Inc. Contextualized notifications for verbose application errors
US10963330B2 (en) * 2017-11-24 2021-03-30 Microsoft Technology Licensing, Llc Correlating failures with performance in application telemetry data
US10776194B2 (en) * 2018-01-31 2020-09-15 Splunk Inc. Self-monitor for computing devices of a distributed computing system
US10831831B2 (en) * 2018-03-29 2020-11-10 Oracle International Corporation Hierarchical metadata model querying system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461842A (zh) * 2013-09-23 2015-03-25 伊姆西公司 基于日志相似性来处理故障的方法和装置
US10394915B1 (en) * 2016-08-24 2019-08-27 Amazon Technologies, Inc. Architecture and techniques to search logging information
CN107315779A (zh) * 2017-06-05 2017-11-03 海致网络技术(北京)有限公司 日志分析方法和系统
CN108629865A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 故障日志的生成方法、装置、设备及存储介质
CN109376063A (zh) * 2018-08-24 2019-02-22 深圳市彬讯科技有限公司 一种日志搜索方法与装置、存储介质
CN110166290A (zh) * 2019-05-16 2019-08-23 平安科技(深圳)有限公司 基于日志文件的告警方法及装置
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置

Also Published As

Publication number Publication date
CN113448935A (zh) 2021-09-28
US20210303380A1 (en) 2021-09-30
US11740955B2 (en) 2023-08-29

Similar Documents

Publication Publication Date Title
CN113448935B (zh) 用于提供日志信息的方法、电子设备和计算机程序产品
US8788471B2 (en) Matching transactions in multi-level records
US10055274B2 (en) Automated diagnosis of software crashes
CN110569214B (zh) 用于日志文件的索引构建方法、装置及电子设备
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
US11613008B2 (en) Automating a process using robotic process automation code
CN108363634B (zh) 一种业务处理失败原因识别方法、装置及设备
CN107203574B (zh) 数据管理和数据分析的聚合
US10592236B2 (en) Documentation for version history
US10628250B2 (en) Search for information related to an incident
US8977587B2 (en) Sampling transactions from multi-level log file records
CN110347573B (zh) 应用程序分析方法、装置、电子设备及计算机可读介质
US20230029278A1 (en) Efficient explorer for recorded meetings
CN107357794B (zh) 优化键值数据库的数据存储结构的方法和装置
Studiawan et al. Automatic event log abstraction to support forensic investigation
CN114091426A (zh) 一种处理数据仓库中字段数据的方法和装置
US10956409B2 (en) Relevance model for session search
CN108768742B (zh) 网络构建方法及装置、电子设备、存储介质
Faria et al. Automatic preservation watch using information extraction on the Web
CN110851517A (zh) 一种源数据抽取方法、装置、设备及计算机存储介质
EP3282404A1 (en) System and method for analyzing and prioritizing issues for automation
CN113407656B (zh) 一种快速在线日志聚类的方法及设备
US11232200B2 (en) Apparatus for selecting representative token from detection names of multiple vaccines, method therefor, and computer readable recording medium storing program for performing the method
CN111177704B (zh) 一种捆绑识别方法、装置、设备及介质
US20230153226A1 (en) System and Method for Identifying Performance Bottlenecks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant