CN117874236A - 错误日志的处理方法、装置、电子设备及可读存储介质 - Google Patents
错误日志的处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN117874236A CN117874236A CN202410134897.0A CN202410134897A CN117874236A CN 117874236 A CN117874236 A CN 117874236A CN 202410134897 A CN202410134897 A CN 202410134897A CN 117874236 A CN117874236 A CN 117874236A
- Authority
- CN
- China
- Prior art keywords
- clustering
- error
- log
- model
- description information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000003672 processing method Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 57
- 230000002159 abnormal effect Effects 0.000 claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 53
- 238000013145 classification model Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004138 cluster model Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 10
- 238000005457 optimization Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013506 data mapping Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及大数据技术领域,提供了一种错误日志的处理方法、装置、电子设备及可读存储介质。该方法包括:获取包括多个错误日志的错误日志集合以及各错误日志的描述信息,错误日志的描述信息包括异常输出文本、错误日志的来源以及错误日志指示的故障位置;将所有错误日志的描述信息按照预设规则进行标准化处理;依据标准化后的各描述信息通过聚类模型对所有错误日志进行聚类,得到多个聚类结果;依据标准化后的各描述信息标注各聚类结果的类别特征;根据类别特征生成对应错误日志集合的日志分析结果。本申请通过采用错误日志的描述信息作为聚类模型的模型特征,提高了聚类模型对错误日志的聚类准确性。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种错误日志的处理方法、装置、电子设备及可读存储介质。
背景技术
随着分布式和云计算的不断发展,由成百上千个软件组件组成的大规模系统集中运行在数以千计的计算节点上。大规模的软件在运行时数据被持续的收集并且存储在日志文件中,日志通常被用来分析系统故障的产生原因并且进行系统故障定位。在大型的异步和并发系统中,日志有很大的帮助,因为在进行测试时,日志的样本空间很大以至于取样容易。随着系统日志的规模和复杂度日益增长,手动进行日志分析成为了一个复杂度高、人力需求密集并且高误差的一个任务,手动根据关键字进行日志分析是不理想的这是因为日志包含大量噪音,关键日志事件往往被分散在数以百计的无关日志消息中,计算机系统日志记录了诸如Web服务器、数据库日志、防火墙日志以及系统中关于进程及文件等所有的信息,产生的大量日志数据使得其分析存在较大的困难。
现有的日志处理中,聚类算法可以利用数据挖掘技术来发现日志中的模式和规则,从而对日志进行分类和聚类,能够发现潜在的问题和规律,对复杂事件的识别能力较强。但是现有的聚类算法中,由于聚类算法对初始条件和参数设置的敏感性,造成聚类结果的精度不高,影响日志聚类分析的效果。
因此,亟需一种分析日志的方法。
发明内容
有鉴于此,本申请实施例提供了一种错误日志的处理方法、装置、电子设备及可读存储介质,以解决现有技术中错误日志数据量过大,日志分析难度大的问题。
本申请实施例的第一方面,提供了一种错误日志的处理方法,包括:
获取包括多个错误日志的错误日志集合以及各错误日志的描述信息,错误日志的描述信息包括异常输出文本、错误日志的来源以及错误日志指示的故障位置;
将所有错误日志的描述信息按照预设规则进行标准化处理;
依据标准化后的各描述信息通过聚类模型对所有错误日志进行聚类,得到多个聚类结果;
依据标准化后的各描述信息标注各聚类结果的类别特征;
根据类别特征生成对应错误日志集合的日志分析结果。
本申请实施例的第二方面,提供了一种错误日志的处理装置,包括:
获取模块,用于获取包括多个错误日志的错误日志集合以及各错误日志的描述信息,错误日志的描述信息包括异常输出文本、错误日志的来源以及错误日志指示的故障位置;
预处理模块,用于将所有错误日志的描述信息按照预设规则进行标准化处理;
第一执行模块,用于依据标准化后的各描述信息通过聚类模型对所有错误日志进行聚类,得到多个聚类结果;
第二执行模块,用于依据标准化后的各描述信息标注各聚类结果的类别特征;
分析模块,用于根据类别特征生成对应错误日志集合的日志分析结果。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:通过收集多个错误日志,作为错误日志的集合进行处理,作为错误日志产生的原因进行日志分析,错误日志的生成会同步生成对应的描述信息,由于各个描述信息的内容其格式不统一,会对日志的分类进行干扰,因此将错误日志的描述信息进行标准化处理之后,作为聚类模型的模型特征将所有错误日志进行聚类,提高对错误日志的聚类效果,在得到获取多个聚类结果之后,使用错误日志的描述信息描述多个聚类结果的类别,依据描述信息对各聚类结果进行类别特征的标注,最后将标注后的聚类结果生成对应错误日志的日志分析结果,实现了对错误日志的聚类分析。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的应用场景的场景示意图;
图2是本申请实施例提供的一种错误日志的处理方法的流程示意图;
图3是本申请实施例提供的另一种错误日志的处理方法的流程示意图;
图4是本申请实施例提供的一种错误日志的处理装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括第一终端设备101、第二终端设备102和第三终端设备103、服务器104以及网络105。
第一终端设备101、第二终端设备102和第三终端设备103可以是硬件,也可以是软件。当第一终端设备101、第二终端设备102和第三终端设备103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当第一终端设备101、第二终端设备102和第三终端设备103为软件时,其可以安装在如上的电子设备中。第一终端设备101、第二终端设备102和第三终端设备103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,第一终端设备101、第二终端设备102和第三终端设备103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的多个软件或软件模块,也可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
用户可以通过第一终端设备101、第二终端设备102和第三终端设备103经由网络105和服务器104建立通信连接,以接收或发送信息等。具体的,在用户将收集到包括多个错误日志的错误日志集合以及各错误日志的描述信息导入到服务器104之后,服务器104将所有错误日志的描述信息按照预设规则进行标准化处理;依据标准化后的各描述信息通过聚类模型对所有错误日志进行聚类,得到多个聚类结果;依据标准化后的各描述信息标注各聚类结果的类别特征;根据类别特征生成对应错误日志集合的日志分析结果。
需要说明的是,第一终端设备101、第二终端设备102和第三终端设备103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
图2是本申请实施例提供的一种错误日志的处理方法的流程示意图。图2的错误日志的处理方法可以由图1的终端设备或服务器执行。如图2所示,该错误日志的处理方法包括:
S201,获取包括多个错误日志的错误日志集合以及各错误日志的描述信息,错误日志的描述信息包括异常输出文本、错误日志的来源以及错误日志指示的故障位置。
具体的,日志是描述应用程序、操作系统和用户行为等操作和其操作结果按时间有序排列的集合,是包含了时间戳和消息或者系统所特有的其他信息的半结构化数据。错误日志是一种特殊的日志信息,记录了系统在执行过程中遇到的问题或错误时的详细信息,当系统发生错误时,错误日志通常会记录一些关键的执行点信息,包括错误发生的时间、位置、异常的类型和描述等。可以帮助开发人员和系统管理员快速定位问题,了解错误的性质和影响,以便采取相应的措施进行修复和优化。
异常输出文本为错误日志的内容信息,表示用户输入的打印错误原因的代码,包括调用接口超时等因素,返回错误的内容信息,包含了关于错误的详细描述和信息,例如“接口调用接口超时”等文本描述,异常输出文本提供了关于错误的类型等关键信息,帮助分析人员了解错误的性质和严重程度。异常来源的包括应用程序组件、外部系统或服务、基础设施以及用户行为,指明了错误日志产生的位置和系统组件,有助于定位问题发生的具体位置,可以快速定位相关的代码、配置或硬件设备。错误日志指示的故障位置指的是导致故障发生的具体位置,包括代码行数、接口和类等,可以帮助开发人员和系统管理员快速定位到问题发生的具体位置,以便进行修复和优化。
错误日志的生成可以通过多种方式实现,例如系统内置的日志记录机制、第三方日志库或自定义的日志记录代码等。错误日志的收集可以结合一定的业务经验进行多方信息收集,确保收集到的报警日志具有代表性和多样性,涵盖各种可能的报警类型和场景。当收集到错误日志之后,收集到的报警日志进行清洗和预处理,去除噪声数据、无效日志、处理缺失值和异常值等,以减少对后续聚类和分类的影响。
通过获取包括多个错误日志的错误日志集合以及各错误日志的描述信息,可以帮助用户了解系统的运行状况和潜在问题进行错误问题的诊断、查找原因和优化系统性能。
S202,将所有错误日志的描述信息按照预设规则进行标准化处理。
标准化处理指将错误日志的描述信息转化为一个结构化、规范化的数据集,便于进行深入的数据分析和挖掘。由于异常输出文本为用户在生成错误日志所进行的标志性文本,其文本信息指示的错误信息存在有不规范以及难以被聚类模型识别等问题,因此将异常输出文本做标准化处理可以帮助聚类模型更好的理解错误日志,获取错误日志的相似度,从而提高了聚类模型对错误日志的聚类效果。标准化处理能够将不同格式、语言的异常输出文本转换为统一的格式,消除文本中的噪声和无关信息,突出文本中的关键特征。
标准化处理的方式包括但不限于通过正则表达式、自然语言处理技术、规则引擎、分类模型以及数据映射等方式对异常输出文本进行处理,其中,正则表达式是一种字符串模式匹配的方法,可以用来检查字符串是否包含某种特定的子串,或者将匹配的子串替换为其他内容,在处理错误日志时,正则表达式可以帮助提取和标准化特定的信息将日志中的信息提取出来,并以一致的格式进行存储和展示。规则引擎是一种基于规则的自动化处理系统,可以定义一系列的规则,并根据这些规则对输入的数据进行分类、过滤和转换,在处理错误日志时,规则引擎可以用于定义一系列的标准和规则,以对日志进行分类、排序和格式化。数据映射是指将一种数据结构或格式转换为另一种数据结构或格式的过程,在处理错误日志时,数据映射可以用于将不同的日志描述信息转换为一致的格式,通过创建映射表或使用类似的方法,将不同的日志信息元素映射到预定的标准格式,有助于确保数据的准确性和一致性,并使数据更易于分析和比较。
通过标准化处理,使得聚类模型能够更好地理解错误日志,准确地提取出错误日志之间的相似性,从而提高聚类的准确性和可靠性。有助于用户更好地监控和优化系统的运行状况,确保系统的稳定性和可靠性。
S203,依据标准化后的各描述信息通过聚类模型对所有错误日志进行聚类,得到多个聚类结果。
具体的,聚类是一种无监督学习方法,旨在将数据分为具有相似特征的组或簇。聚类算法的基本原理是通过计算样本之间的相似性或距离来确定它们之间的关系,并将相似的样本归为同一簇。聚类模型使用的聚类算法包括但不限于K均值聚类算法、层次聚类算法以及密度聚类算法,其中,K均值聚类算法是最常用的聚类算法,通过计算数据样本与聚类中心之间的距离来确定样本的归属,并将样本分配到最近的聚类中心所代表的簇,然后,根据已分配的样本重新计算聚类中心的位置,迭代更新样本的归属和聚类中心的位置,直到满足停止条件为止。层次聚类是一种自下而上或自上而下的聚类方法。通过计算样本之间的相似性或距离,将相似度高的样本逐步合并为越来越大的簇或者将所有样本初始为一个簇,然后逐步分割为越来越小的簇作为聚类结果。密度聚类是一种基于样本密度的聚类方法。通过确定样本周围邻域内的密度来判断样本是否属于一个簇,密度聚类可以自动发现任意形状和大小的簇,并且对噪声和离群值具有较好的鲁棒性。在本实施例中,对于聚类算法的选择不做任何限制,根据实际情况进行选择即可。
通过聚类模型对所有错误日志进行聚类,得到多个聚类结果聚类,能够从错误日志的数据中发现隐藏的模式和结构,帮助用户更好地理解数据并找到潜在规律,观察和理解数据的特征和分布,进而可以在聚类结果帮助下,先对当前的故障有一个大致的轮廓,再结合技术知识与业务知识定位故障的根本原因,提高找到错误日志产生原因的效率。
S204,依据标准化后的各描述信息标注各聚类结果的类别特征。
具体的,聚类结果的类别特征指将错误日志完成聚类之后,依据聚类后各聚类簇所包含的错误日志对应的关键特征和属性,这些特征可以是异常输出文本中的关键词、短语或模式,也可以是错误日志的其他属性,如发生时间、频率、严重程度等。
通过依据标准化后的各描述信息标注各聚类结果的类别特征,对类别特征进行分析可以深入了解不同错误日志之间的相似性和差异性,以及它们可能代表的系统问题或故障类型,更加有效地监控和优化系统的运行状况,提高系统的稳定性和可靠性。
S205,根据类别特征生成对应错误日志集合的日志分析结果。
具体的,日志分析结果指描述特征的概述信息,表示对聚类结果的进一步分析以及解释。
通过生成对应错误日志集合的日志分析结果,可以简要介绍每个聚类簇的划分依据和结果,有助于用户快速定位问题。
根据本申请实施例提供的技术方案,通过获取多个错误日志的集合以及每个错误日志的描述信息,这些描述信息包括异常输出文本、错误日志的来源和指示的故障位置,实现对错误日志的描述,为了确保数据的一致性和可比性,根据预设的规则对所有错误日志的描述信息进行了标准化处理,标准化处理后,使用聚类模型对所有错误日志进行聚类,将相似的错误日志归为同一组,从而更好地理解错误日志的特征和模式。在聚类过程中,依据标准化后的描述信息为每个聚类结果标注了类别特征,有助于识别和区分不同组别的错误日志,最后,基于标注的类别特征,生成了对应错误日志集合的日志分析结果提供了对错误日志的综合理解,最终为用户提供进一步的错误日志分析或故障排除。
在一些实施例中,将所有错误日志的描述信息按照预设规则进行标准化处理,包括:
将各异常输出文本输入至语言处理模型中,以使语言处理模型将各异常输出文本的文本格式转化为标准化的文本格式。
具体地,语言处理模型指利用自然语言处理技术,如分词、词干提取、词性标注等,可以进一步标准化和整理日志信息,可以帮助识别关键元素,如实体、操作和状态,并将它们转化为结构化的数据格式。常见的语言处理模型有基于规则的方法和基于深度学习的方法,基于规则的方法主要是人工制定一些规则来处理语言,如词法规则、句法规则等,基于规则的方法准确度高但可扩展性差,需要不断更新和维护规则;基于深度学习的方法则是通过训练大量的语料库来自动学习语言的特征和结构,如词向量、循环神经网络、长短期记忆网络等通过深度学习的方法其可扩展性强,但需要大量的标注数据和计算资源。在本实施例对语言处理模型的选择不做任何限制,以将各异常输出文本的文本格式转化为标准化的文本格式即可。
根据本申请实施例提供的技术方案,通过使用语言处理模型将各异常输出文本的文本格式转化为标准化的文本格式,可以将自然语言转换为机器可以理解和处理的格式,为后续的错误分析提供基础支持,提高聚类模型对错误日志的聚类效果,进而可以快速定位错误日志指示的问题,完成系统的维护以及修复。
在一些实施例中,将所有错误日志的描述信息按照预设规则进行标准化处理,包括:
将各异常输出文本输入至第一分类模型中进行文本分类,得到对应各异常输出文本的描述分类。
具体地,第一分类模型是一个文本分类模型,基于错误日志的异常输出文本内容进行分类。通过人工确定文本的描述分类,标准化的异常输出文本提供了明确的指示内容。在文本分类任务中,常用的网络模型包括卷积神经网络、循环神经网络和Transformer。本实施例对文本分类模型的选择不做限制,其中,卷积神经网络是一种专门用于处理具有网格结构数据的网络模型,例如图像、语音等,在文本分类任务中,卷积神经网络可以通过对单词进行卷积操作来提取特征,然后使用全连接层进行分类。循环神经网络是一种用于处理序列数据的网络模型,可以记忆序列中的信息,并利用这些信息来处理后续的数据,在文本分类任务中,循环神经网络可以通过对文本进行循环处理来提取特征,然后使用全连接层进行分类Transformer分类模型是一种基于自注意力机制的网络模型,可以自动学习输入序列中的重要信息,并将其用于分类任务,Transformer在处理文本分类任务时,通常需要将文本转换为向量表示,然后使用自注意力机制来提取特征,最后使用全连接层进行分类。
根据本申请实施例提供的技术方案,通过使用第一分类模型将各异常输出文本的文本格式进行标准化处理,为后续的错误分析提供了必要的基础,从而有助于提高聚类模型对错误日志的聚类效果。这进一步加速了问题定位,从而高效地完成系统的维护和修复。
在一些实施例中,依据标准化后的各描述信息标注各聚类结果的类别特征之后,还包括:
将各聚类结果作为第二分类模型的分类标签,将所有错误日志输入至第二分类模型得到错误日志的分类结果;
根据错误日志的分类结果更新聚类模型的参数。
具体地,聚类模型是无监督的分类方法,通过计算错误日志之间的相似度进行分组,在完成聚类之前,无法确定每个簇的特征信息。其中聚类的主要目的是发现数据的内在结构,分类模型属于监督学习方法,需要使用预先定义的标签或类别进行分类。由于分类模型不能发现数据中的所有潜在结构,但可以识别并学习特定的模式和特征,因此,在将错误日志进行聚类后,可以将每个簇的关键特征和属性作为分类模型的特征信息,并将所有错误日志输入至分类模型,进而得到特征信息的分类结果,验证聚类模型的效果;验证方式包括但不限于通过损失函数获取聚类模型与分类模型结果的相似度,以及通过对比聚类模型和分类模型的混淆矩阵,了解两者在各类别上的预测一致性等方式完成聚类模型效果的验证。
在机器学习中,模型的参数通常是在训练过程中通过优化算法进行更新的,使用梯度下降、随机梯度下降等优化算法对聚类模型的参数进行更新,进而提高聚类模型的聚类效果。
根据本申请实施例提供的技术方案,通过在完成聚类后,将得到的各聚类结果作为第二分类模型的分类标签,将所有错误日志输入至第二分类模型,进一步验证聚类模型的聚类效果。最后基于错误日志的分类结果,进一步更新聚类模型的参数,使聚类模型更加适应数据的变化,提高其聚类的准确性和效果。通过不断调整和优化聚类模型的参数,可以逐步改进聚类的效果,从而更好地支持后续的错误分析和系统维护工作。
此外,在一些实施例中,根据错误日志的分类结果更新聚类模型的参数,包括:
获取分类结果与聚类结果的相似度;
依据相似度更新聚类模型的参数。
具体地,相似度的计算包括但不限于通过计算两个模型的互信息以及损失函数的方式,其中互信息是一种衡量两个随机变量之间相关性的方法,它可以用来评估分类模型与聚类模型的输出之间的相似度,如果两个模型的互信息值高,说明它们的输出具有较高的相关性,即相似度较高。损失函数为预测结果与真实值之间差异的指标。在分类和聚类中,如果两个模型的损失函数值相近,认为它们的输出结果是相似的。
更新聚类模型的参数可以调整聚类模型的聚类效果,例如当聚类模型为K均值聚类算法,通过调整K均值聚类算法的参数对初始聚类中心进行迭代更新,以使分类结果与聚类结果的相似度下降,提高聚类模型的聚类效果。
根据本申请实施例提供的技术方案,通过获取分类结果与聚类结果的相似度对聚类模型的聚类结果进行评估,之后根据获取的相似度更新聚类模型的参数,可以逐步提高分类结果与聚类结果的相似度,并改进聚类模型的性能,提高聚类模型的聚类效果,使得错误日志的聚类分析更加准确。
此外,在一些实施例中,根据错误日志的分类结果更新聚类模型的参数,包括:
当相似度低于预设阈值,基于相似度更新聚类模型参数;
当相似度不低于预设阈值,停止对聚类模型的参数进行更新。
根据本申请实施例提供的技术方案,通过设置聚类模型与分类模型的相似度阈值来进行优化。当聚类模型与分类模型所得结果的相似度小于预设阈值时,更新聚类模型的参数,以提升聚类模型的聚类效果,当相似度不小于阈值时,停止更新聚类模型的参数,以减少对计算内存的占用,在保证聚类效果的同时,减少不必要的计算资源消耗,提高模型的效率和准确性。
此外,在一些实施例中,在将各聚类结果作为第二分类模型的分类标签,将所有错误日志输入至第二分类模型得到错误日志的分类结果之前,还包括:
获取日志训练集,日志训练集包括多个训练日志,以及对应训练日志的描述信息;
获取日志测试集,日志测试集包括多个测试日志,以及对应测试日志的描述信息;
将日志训练集输入至聚类模型,得到聚类训练结果;
获取聚类训练结果对应的训练标签,训练标签用于指示聚类训练结果的真实类别;
基于聚类训练结果以及训练标签对待训练的第二分类模型进行训练;
将日志测试集输入至聚类模型,得到聚类测试结果;
获取聚类测试结果对应的测试标签,测试标签用于指示聚类测试结果的真实类别;
基于日志测试集以及的测试标签对训练后的第二分类模型进行评估,得到评估结果;
在评估结果达到目标结果的情况下,得到训练完成的第二分类模型。
具体地,训练日志与测试日志的选择可以为历史记录中包含多个错误日志的集合,训练集用于对第二分类模型进行训练,测试集用于评估第二分类模型的性能。首先通过聚类模型对训练集与测试集中的错误日志进行聚类,之后,将聚类结果中的聚类类别特征建立错误日志的标签,作为训练集以及测试集的真实标签,建立错误日志的标签方式不做限制,可以为用户根据经验进行的手动标注,还可以为当前聚类模型所聚类的文字描述。
根据本申请实施例提供的技术方案,通过获取日志训练集与日志测试集,由于聚类模型为无监督模型,不能确定其聚类簇的类别特征,因此当第二分类模型作为聚类模型的优化依据,需获取聚类的类别特征作为分类模型的分类标签,因此,分别将日志训练集与日志测试集通过聚类模型进行聚类,得到的聚类结果并依据聚类结果为日志训练集与日志测试集的真实类别标注对应的真实标签,之后通过日志训练集对分类模型进行训练,根据反向传播算法更新模型参数,得到经过训练的第二模型,然后,使用日志测试集对训练后的第二分类模型进行评估,计算模型的精度、召回率等指标,以获得评估结果,根据评估结果,对模型进行优化,包括调整模型参数和修改模型结构,直到评估结果达到目标结果,完成第二分类模型的训练。
图3是本申请实施例提供的另一种错误日志的处理方法的流程示意图。如图3所示,该错误日志的处理方法包括:
通过收集错误日志,之后对收集到的错误日志进行清洗和预处理后将错误日志中异常输出文本通过第一分类模型进行标准化处理,得到标准化的异常输出文本,之后,将错误日志指示的故障位置、错误日志的来源以及标准化的异常输出文本作为聚类模型的模型特征,对所有错误日志进行聚类,得到聚类结果,之后依据标准化的异常输出文本,对聚类结果进行类别特征的标注,并根据类别特征生成对应错误日志集合的日志分析结果,之后通过第二分类模型对聚类模型进行效果评估,依据第二分类模型与聚类模型之间结果的相似度,更新聚类模型的参数,完成对聚类模型的优化,进而提高聚类效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4是本申请实施例提供的一种错误日志的处理装置的示意图。如图4所示,该错误日志的处理装置包括:
获取模块401,用于获取包括多个错误日志的错误日志集合以及各错误日志的描述信息,错误日志的描述信息包括异常输出文本、错误日志的来源以及错误日志指示的故障位置;
预处理模块402,用于将所有错误日志的描述信息按照预设规则进行标准化处理;
第一执行模块403,用于依据标准化后的各描述信息通过聚类模型对所有错误日志进行聚类,得到多个聚类结果;
第二执行模块404,用于依据标准化后的各描述信息标注各聚类结果的类别特征;
分析模块405,用于根据类别特征生成对应错误日志集合的日志分析结果。
在一些实施例中,预处理模块具体用于,将各异常输出文本输入至语言处理模型中,以使语言处理模型将各异常输出文本的文本格式转化为标准化的文本格式。
在一些实施例中,预处理模块具体还用于将各异常输出文本输入至第一分类模型中进行文本分类,得到对应各异常输出文本的描述分类。
在一些实施例中,第二执行模块之后,还包括优化模块,具体用于将各聚类结果作为第二分类模型的分类标签,将所有错误日志输入至第二分类模型得到错误日志的分类结果;根据错误日志的分类结果更新聚类模型的参数。
此外,在一些实施例中,优化模块具体用于获取分类结果与聚类结果的相似度;依据相似度更新聚类模型的参数。
此外,在一些实施例中,优化模块具体还用于当相似度低于预设阈值,基于相似度更新聚类模型参数;当相似度不低于预设阈值,停止对聚类模型的参数进行更新。
在一些实施例中,优化模块之前还包括训练模块,训练模块具体用于获取日志训练集,日志训练集包括多个训练日志,以及对应训练日志的描述信息;获取日志测试集,日志测试集包括多个测试日志,以及对应测试日志的描述信息;将日志训练集输入至聚类模型,得到聚类训练结果;获取聚类训练结果对应的训练标签,训练标签用于指示聚类训练结果的真实类别;基于聚类训练结果以及训练标签对待训练的第二分类模型进行训练;将日志测试集输入至聚类模型,得到聚类测试结果;获取聚类测试结果对应的测试标签,测试标签用于指示聚类测试结果的真实类别;基于日志测试集以及的测试标签对训练后的第二分类模型进行评估,得到评估结果;在评估结果达到目标结果的情况下,得到训练完成的第二分类模型。
图5是本申请实施例提供的电子设备5的示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种错误日志的处理方法,其特征在于,包括:
获取包括多个错误日志的错误日志集合以及各所述错误日志的描述信息,所述错误日志的描述信息包括异常输出文本、所述错误日志的来源以及所述错误日志指示的故障位置;
将所有所述错误日志的描述信息按照预设规则进行标准化处理;
依据标准化后的各所述描述信息通过聚类模型对所有所述错误日志进行聚类,得到多个聚类结果;
依据所述标准化后的各所述描述信息标注各所述聚类结果的类别特征;
根据所述类别特征生成对应所述错误日志集合的日志分析结果。
2.根据权利要求1所述的错误日志的处理方法,其特征在于,将所有所述错误日志的描述信息按照预设规则进行标准化处理,包括:
将各所述异常输出文本输入至语言处理模型中,以使所述语言处理模型将各所述异常输出文本的文本格式转化为标准化的文本格式。
3.根据权利要求1所述的错误日志的处理方法,其特征在于,将所有所述错误日志的描述信息按照预设规则进行标准化处理,包括:
将各所述异常输出文本输入至第一分类模型中进行文本分类,得到对应各所述异常输出文本的描述分类。
4.根据权利要求1所述的错误日志的处理方法,其特征在于,依据所述标准化后的各所述描述信息标注各所述聚类结果的类别特征之后,还包括:
将各所述聚类结果作为第二分类模型的分类标签,将所有所述错误日志输入至第二分类模型得到所述错误日志的分类结果;
根据所述错误日志的分类结果更新所述聚类模型的参数。
5.根据权利要求4所述的错误日志的处理方法,其特征在于,根据所述错误日志的分类结果更新所述聚类模型的参数,包括:
获取所述分类结果与所述聚类结果的相似度;
依据所述相似度更新所述聚类模型的参数。
6.根据权利要求5所述的错误日志的处理方法,其特征在于,根据所述错误日志的分类结果更新所述聚类模型的参数,包括:
当所述相似度低于预设阈值,基于所述相似度更新所述聚类模型参数;
当所述相似度不低于所述预设阈值,停止对所述聚类模型的参数进行更新。
7.根据权利要求4所述的错误日志的处理方法,其特征在于,在将各所述聚类结果作为第二分类模型的分类标签,将所有所述错误日志输入至第二分类模型得到所述错误日志的分类结果之前,还包括:
获取日志训练集,所述日志训练集包括多个训练日志,以及对应所述训练日志的描述信息;
获取日志测试集,所述日志测试集包括多个测试日志,以及对应所述测试日志的描述信息;
将所述日志训练集输入至所述聚类模型,得到聚类训练结果;
获取所述聚类训练结果对应的训练标签,所述训练标签用于指示聚类训练结果的真实类别;
基于所述聚类训练结果以及所述训练标签对待训练的第二分类模型进行训练;
将所述日志测试集输入至所述聚类模型,得到聚类测试结果;
获取所述聚类测试结果对应的测试标签,所述测试标签用于指示聚类测试结果的真实类别;
基于所述日志测试集以及所述的测试标签对训练后的第二分类模型进行评估,得到评估结果;
在所述评估结果达到目标结果的情况下,得到训练完成的所述第二分类模型。
8.一种错误日志的处理装置,其特征在于,包括:
获取模块,用于获取包括多个错误日志的错误日志集合以及各所述错误日志的描述信息,所述错误日志的描述信息包括异常输出文本、所述错误日志的来源以及所述错误日志指示的故障位置;
预处理模块,用于将所有所述错误日志的描述信息按照预设规则进行标准化处理;
第一执行模块,用于依据标准化后的各所述描述信息通过聚类模型对所有所述错误日志进行聚类,得到多个聚类结果;
第二执行模块,用于依据所述标准化后的各所述描述信息标注各所述聚类结果的类别特征;
分析模块,用于根据所述类别特征生成对应所述错误日志集合的日志分析结果。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410134897.0A CN117874236A (zh) | 2024-01-30 | 2024-01-30 | 错误日志的处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410134897.0A CN117874236A (zh) | 2024-01-30 | 2024-01-30 | 错误日志的处理方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117874236A true CN117874236A (zh) | 2024-04-12 |
Family
ID=90596886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410134897.0A Pending CN117874236A (zh) | 2024-01-30 | 2024-01-30 | 错误日志的处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117874236A (zh) |
-
2024
- 2024-01-30 CN CN202410134897.0A patent/CN117874236A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150347923A1 (en) | Error classification in a computing system | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN111427974A (zh) | 数据质量评估管理方法和装置 | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
WO2023050967A1 (zh) | 一种系统异常检测处理方法及装置 | |
CN113590451A (zh) | 一种根因定位方法、运维服务器及存储介质 | |
CN112069069A (zh) | 缺陷自动定位分析方法、设备及可读存储介质 | |
CN111309585A (zh) | 日志数据测试方法及装置、系统、电子设备、存储介质 | |
CN116164822A (zh) | 基于知识图谱的流量计故障诊断方法、装置、介质 | |
CN116361147A (zh) | 测试用例根因定位方法及其装置、设备、介质、产品 | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN113778875B (zh) | 一种系统测试缺陷分类方法、装置、设备及存储介质 | |
CN117874662A (zh) | 基于图模式的微服务日志异常检测方法 | |
CN117724980A (zh) | 软件框架性能的测试方法、装置、电子设备和存储介质 | |
CN117785539A (zh) | 日志数据分析方法、装置、计算机设备及存储介质 | |
Li et al. | Logspy: System log anomaly detection for distributed systems | |
CN117170922A (zh) | 日志数据分析方法、装置、终端设备以及存储介质 | |
CN116340172A (zh) | 基于测试场景的数据收集方法、装置及测试用例检测方法 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
KR20240072451A (ko) | 잠재 공간 기반 로그 모니터링 처리 시스템 및 방법 | |
CN114706856A (zh) | 故障处理方法及装置、电子设备和计算机可读存储介质 | |
CN117874236A (zh) | 错误日志的处理方法、装置、电子设备及可读存储介质 | |
CN115470034A (zh) | 一种日志分析方法、设备及存储介质 | |
CN114625714A (zh) | 日志处理方法及装置 | |
CN112579429A (zh) | 一种问题定位方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |