CN114610881A - 应用日志分析方法、装置、设备和存储介质 - Google Patents

应用日志分析方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114610881A
CN114610881A CN202210199222.5A CN202210199222A CN114610881A CN 114610881 A CN114610881 A CN 114610881A CN 202210199222 A CN202210199222 A CN 202210199222A CN 114610881 A CN114610881 A CN 114610881A
Authority
CN
China
Prior art keywords
text
vector
application log
history
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210199222.5A
Other languages
English (en)
Inventor
张静
张宪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202210199222.5A priority Critical patent/CN114610881A/zh
Publication of CN114610881A publication Critical patent/CN114610881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本公开提供一种应用日志分析方法、装置、设备和存储介质,涉及大数据技术领域,所述方法包括:将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。本公开的技术方案可以快速锁定根因范围,并提高应用日志分析的准确性。

Description

应用日志分析方法、装置、设备和存储介质
技术领域
本公开涉及大数据技术领域,尤其涉及一种应用日志分析方法、装置、电子设备和非暂态计算机可读存储介质。
背景技术
在应用运行过程中,若应用发生故障,会出现很多与这个应用相关的告警日志。
在根据告警日志进行故障排查时,需要基于运维经验中的关键词搜索告警日志内容,进行应用日志分析,以排查具体的日志层面反映的故障问题。该排查过程时间较长,在基于关键词搜索时告警内容的匹配不够准确,并且很难确定搜索到的告警日志是否只有故障发生的时候才会出现,从而不能准确诊断故障。
综上,如何快速准确地进行应用日志分析是当前亟需解决的技术问题。
发明内容
本公开提供一种应用日志分析方法、装置、电子设备和非暂态计算机可读存储介质,用以解决现有技术中不能快速准确地进行应用日志分析的问题,提高应用日志分析的速度和准确性。
本公开提供一种应用日志分析方法,包括:将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
根据本公开提供的一种应用日志分析方法,所述目标历史应用日志文本为告警日志文本,所述得到所述目标向量对应的目标历史应用日志文本及目标文本标签之后,所述方法还包括:将所述目标文本标签作为所述待分析应用日志文本的文本标签与所述待分析应用日志文本关联,以标注所述待分析应用日志文本的告警原因。
根据本公开提供的一种应用日志分析方法,所述在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,包括:采用稠密向量检索框架在所述历史向量集中搜索与所述第一向量相似度最高的目标向量。
根据本公开提供的一种应用日志分析方法,所述采用稠密向量检索框架在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,包括:计算所述待分析应用日志向量与所述历史向量集中的历史向量的相似度;根据所述相似度进行排序,得到与所述待分析应用日志向量相似度最高的目标向量。
根据本公开提供的一种应用日志分析方法,所述获取历史向量集之前,所述方法还包括:对所述历史应用日志文本对应的历史文本向量进行降维处理;对降维处理后的所述历史应用日志文本进行文本聚类,得到聚类簇及对应的主题,以根据所述对应的主题得到所述历史应用日志文本的文本标签。
根据本公开提供的一种应用日志分析方法,所述对所述历史应用日志文本对应的历史文本向量进行降维处理,包括:采用轮廓系数作为评价函数,使用主分量分析技术对所述历史应用日志文本对应的历史文本向量进行降维处理。
根据本公开提供的一种应用日志分析方法,所述对降维处理后的所述历史应用日志文本进行文本聚类,包括:使用K均值聚类算法对所述历史应用日志文本进行文本聚类。
本公开提供一种应用日志分析装置,所述装置包括:输入单元,用于将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;获取单元,用于获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;搜索单元,用于在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
根据本公开提供的一种应用日志分析装置,所述目标历史应用日志文本为告警日志文本,所述装置还包括关联单元,用于将所述目标文本标签作为所述待分析应用日志文本的文本标签与所述待分析应用日志文本关联,以标注所述待分析应用日志文本的告警原因。
根据本公开提供的一种应用日志分析装置,所述搜索单元还用于采用稠密向量检索框架在所述历史向量集中搜索与所述第一向量相似度最高的目标向量。
根据本公开提供的一种应用日志分析装置,所述搜索单元包括:计算子单元,用于计算所述待分析应用日志向量与所述历史向量集中的历史向量的相似度;排序子单元,用于根据所述相似度进行排序,得到与所述待分析应用日志向量相似度最高的目标向量。
根据本公开提供的一种应用日志分析装置,所述装置还包括:降维单元,用于对所述历史应用日志文本对应的历史文本向量进行降维处理;聚类单元,用于对降维处理后的所述历史应用日志文本进行文本聚类,得到聚类簇及对应的主题,以根据所述对应的主题得到所述历史应用日志文本的文本标签。
根据本公开提供的一种应用日志分析装置,所述降维单元还用于:采用轮廓系数作为评价函数,使用主分量分析技术对所述历史应用日志文本对应的历史文本向量进行降维处理。
根据本公开提供的一种应用日志分析方法,所述聚类单元还用于使用K均值聚类算法对所述历史应用日志文本进行文本聚类。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述应用日志分析方法的步骤。
本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述应用日志分析方法的步骤。
本公开提供的应用日志分析方法、装置、电子设备和非暂态计算机可读存储介质,通过聚类分析得到历史应用日志文本的文本标签,并形成包括该文本标签的历史向量组成的历史向量集,在历史向量集中搜索与当前的待分析应用日志相似度最高的目标历史向量,即可以得到目标历史向量对应的目标文本标签,从而根据该目标文本标签分析当前的待分析应用日志文本的告警原因,提高应用日志分析的速度和准确性。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的应用日志分析方法的流程示意图之一;
图2是本公开提供的形成历史向量集的过程的流程示意图;
图3是本公开提供的应用日志分析方法的流程示意图之二;
图4是本公开提供的应用日志分析装置的结构示意图;
图5是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
在本公开一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开一个或多个实施例。在本公开一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本公开一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
相关技术中,对应用运维告警日志进行告警原因分析时,存在排障过程较长,故障诊断准确性较低的问题。
为解决该问题,本公开实施例提供一种应用日志分析方法、装置、电子设备和非暂态计算机可读介质。
下面结合附图对本公开示例实施方式进行详细说明。
如图1所示的是本公开实施例的应用日志分析方法的流程图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端设备和/或服务器。如图1所示,该应用日志分析方法包括:
步骤102,将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量。
具体地,词向量是词的向量表征,词向量模型是一种考虑词语位置关系的模型。在本公开实施例中,词向量模型可以为doc2vector模型。doc2vector模型通过神经网络机器学习算法来训练自然语言概率语法模型,其可以将词表征为实数值向量。doc2vector模型利用深度学习的思想,通过训练把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。第一向量为待分析应用日志文本经过词向量模型进行向量化处理后得到的向量。
步骤104,获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的。
具体地,历史向量是将历史应用日志文本输入词向量模型进行向量化处理后得到的向量。聚类分析是研究分类问题的一种多元统计方法。类可以理解为相似元素的集合,聚类即是将相似元素组成集合并分析。其中,该相似元素集合可以以聚类簇的形式存在,聚类簇的主题即可以表示为该集合元素的共同的类别。
步骤106,在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
具体地,相似度指的是两个向量之间的相似性指标。目标向量为是将目标历史应用日志文本和目标文本标签输入词向量模型进行向量化处理后得到的向量。
在本公开实施例的技术方案中,采用聚类分析的方式对历史应用日志文本进行处理,可以得到历史应用日志文本所属的聚类簇的主题。根据聚类簇的主题为历史应用日志文本添加文本标签,并将单一的历史应用日志文本对应的单一文本向量组成历史向量集,在该历史向量集中搜索与当前待分析应用日志文本的向量相似度最高的目标向量,从而得到目标文本标签。将目标文本标签作为待分析应用日志文本的文本标签,其对待分析应用日志文本地分析过程速度较快。
在步骤106之后,将所述目标文本标签作为所述待分析应用日志文本的文本标签与所述待分析应用日志文本关联,以标注待分析应用日志文本的告警原因。该目标文本标签可以指示待分析应用日志文本的故障根因。
本公开实施例中,目标历史应用日志为告警日志,待分析应用日志和历史应用日志均为告警日志,目标历史应用日志文本为告警日志文本。
在相关技术中,通过规则的形式逐一排查应用日志不仅耗时长,而且很难确定搜索到的告警日志是否是只有故障发生的时候此告警日志才会存在,也不能够兼顾告警日志在历史上是否存在或历史产生的数量趋势变化。在本公开实施例中的技术方案中,可以得到待分析应用日志文本的故障根因,以及同类故障在历史应用日志文本中出现情况,从而可以更加精确地对应用日志进行告警分析。
在步骤104之前,对所述历史应用日志文本对应的历史文本向量进行降维处理;对降维处理后的所述历史应用日志文本进行文本聚类,得到聚类簇及对应的主题,以根据所述对应的主题得到所述历史应用日志文本的文本标签。
在所述对所述历史应用日志文本对应的历史文本向量进行降维处理时,可以采用轮廓系数作为评价函数,使用主分量分析(Principal Component Analysis,简称PCA)技术对所述历史应用日志文本对应的历史文本向量进行降维处理。这是一种自适应的降维处理技术。
PCA是一种常用的数据分析方法,其通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
基于自适应PCA降维技术以轮廓系数为评价函数,可以搜索得到使得向量化后的文本聚类效果最优的主要成分维度。
在所述对降维处理后的所述历史应用日志文本进行文本聚类时,可以使用K均值聚类算法对所述历史应用日志文本进行文本聚类。
K均值聚类算法(K-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤包括:预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。
在使用K均值聚类算法对所述历史应用日志文本进行文本聚类时,可以首先根据业务需求进行K值的选择,并随机设置K个特征空间内的点作为初始的聚类中心。选择最近的一个聚类中心点作为标记类别,对于其他每个点计算到K个中心的距离,之后重新计算出每个聚类的新中心点。如果计算得出的新中心点与原中心点一样,那么结束当前计算,否则重新设置初始聚类中心并计算每个聚类的新中心点。
K均值聚类算法具有平方误差最小的特点,在聚类密集且类与类之间区别明显时,效果较好。针对本公开实施例中的大数据集,K均值聚类算法是相对可伸缩和高效的。
本公开实施例的技术方案中,首先获取海量历史应用日志文本,并基于自适应PCA降维技术、K均值聚类算法对海量告警日志进行聚类分析,得到聚类簇的主题。聚类簇的主题即为聚类簇的标签,运维专家可以根据聚类簇的标签标注部分历史应用日志文本对应的告警原因,即标注可解释性问题,比如主机问题、数据库问题、缓存问题或者网络问题。
基于上述部分历史应用日志文本标注文本训练分类器,扩充未标注可解释性问题的历史应用日志的文本标签,将海量历史应用日志转化为按照告警原因分类的历史数据组成的数据集,每一个告警原因类别对应此类应用日志的问题。在该数据集中搜索与当前应用日志相似的应用日志数据,即可以得到当前的分析应用日志文本的告警原因类别。
具体地,对海量应用日志进行向量表示,可以方便与待分析应用日志文本进行相似度计算。根据历史应用日志文本生成的历史向量可以保存成.index文件到本地,也可以保存到服务器的数据库中,以在步骤106中检索时调取使用。
如图2所示,对历史应用日志文本内进行处理得到历史向量集的过程可以包括以下步骤:
步骤201,获取大量历史应用日志文本及对应的文本标签。
步骤202,将历史应用日志文本及文本标签输入词向量模型,得到历史向量。
步骤203,将大量的历史向量作为历史向量集保存到index文件。
在步骤102中,可以对待分析应用日志进行预处理和向量化。
在步骤104中,可以获取保存有历史向量集的index文件加载到本地,或者获取服务器中的数据库中的历史向量集。具体地,该历史向量集可以为根据最近一个月的历史应用日志文本得到的历史向量集。例如,可以定时将最近一个月的历史应用日志文本对应的历史向量集替换index文件或者数据库中的原有的历史向量集。一个月的时间段仅为示例性数据,在实际应用中,并不局限于此。
在步骤106中,可以采用稠密向量检索框架在所述历史向量集中搜索与所述第一向量相似度最高的目标向量。
在本公开实施例中,可以使用faiss作为稠密向量检索框架。faiss是一种开关向量检索引擎,可以为稠密向量提供高效相似度搜索和聚类。faiss可以存储在内存和磁盘中,其可以提供多种检索方法,并且检索速度较快。faiss可以由C++实现,并可以提供Python封装调用,其大部分算法支持GPU(Graphics Processing Unit,视觉处理器)实现。
具体地,在步骤106中,可以通过稠密向量检索框架返回相似告警日志文本,以得到当前的待分析应用日志的文本标签并根据该文本标签对告警类别和原因进行确认,实现了对待分析文本的文本标签的自动扩充。
在步骤106中,可以计算所述待分析应用日志向量与所述历史向量集中的历史向量的相似度,并根据所述相似度进行排序,得到与所述待分析应用日志向量相似度最高的目标向量。
在本公开实施例中,可以通过欧式距离公式、余弦相似度公式或Jaccard相似系数计算向量之间的相似度。
具体地,将待分析应用日志向量与历史向量的相似度进行计算,可以得到相似度大于设定阈值的历史向量,这些历史向量即为与当前待分析应用日志向量相似的相似向量。将相似向量按照相似度进行降序排序,可以得到相似度最大的目标向量。根据该目标向量即可以得到待分析应用日志文本的文本标签,根据该文本标签即可以得到待分析应用日志文本的告警类别和原因。
如图3所示,一种对待检索的应用日志文本进行检索并进行告警原因分析的过程可以包括以下步骤:
步骤301,获取待检索的应用日志文本。
步骤302,将待检索的应用日志文本输入词向量模型,得到应用日志向量。
步骤302,加载index文件。
步骤304,在index文件中搜索与应用日志向量相似度最高的目标向量。
步骤305,根据目标向量得到待搜索的应用日志文本告警原因类别。
在一个实施例中,在时长为一个月的某时间段中某应用的共计产生约18万条根源告警日志文本数据。以其中分析根因的16671条告警日志文本作为历史应用日志文本,对实时应用日志文本进行告警日志分类和检索召回的响应时间为150ms/条,可见,本公开实施例的技术方案具有较快的应用日志分析速度。
本公开实施例中的技术方案基于历史向量集对实时发出的应用日志内容进行分析、检索日志分类标签并归因,在排查故障时根据指标变化兼顾此告警类别的历史变化趋势,快速锁定根因范围。本公开实施例中的技术方案通过人工智能学习应用运维专家经验可以有降低成本增加效率。
本公开提供的应用日志分析方法,聚类分析得到历史应用日志文本的文本标签,并形成包括该文本标签的历史向量组成的历史向量集,在历史向量集中搜索与当前的待分析应用日志相似度最高的目标历史向量,即可以得到目标历史向量对应的目标文本标签,从而根据该目标文本标签分析当前的待分析应用日志文本的告警原因,提高应用日志分析的速度和准确性。
下面对本公开提供的应用日志分析装置进行描述,下文描述的应用日志分析装置与上文描述的应用日志分析方法可相互对应参照。
如图4所示,本公开实施例的应用日志分析装置包括:
输入单元402,可以用于将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量。
获取单元404,可以用于获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的。
搜索单元406,可以用于在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
在相关技术中,通过规则的形式逐一排查应用日志不仅耗时长,而且很难确定搜索到的告警日志是否是只有故障发生的时候此告警日志才会存在,也不能够兼顾告警日志在历史上是否存在或历史产生的数量趋势变化。在本公开实施例中的技术方案中,可以得到待分析应用日志文本的故障根因,以及同类故障在历史应用日志文本中出现情况,从而可以更加精确地对应用日志进行告警分析。
在本公开实施例中,所述装置还包括关联单元,可以用于将所述目标文本标签作为所述待分析应用日志文本的文本标签与所述待分析应用日志文本关联。
在本公开实施例中,所述搜索单元还可以用于采用稠密向量检索框架在所述历史向量集中搜索与所述第一向量相似度最高的目标向量。
在本公开实施例中,可以使用faiss作为稠密向量检索框架。
在本公开实施例中,所述搜索单元可以包括:计算子单元,用于计算所述待分析应用日志向量与所述历史向量集中的历史向量的相似度;排序子单元,用于根据所述相似度进行排序,得到与所述待分析应用日志向量相似度最高的目标向量。
在本公开实施例中,可以通过欧式距离公式、余弦相似度公式或Jaccard相似系数计算向量之间的相似度。
在本公开实施例中,所述装置还可以包括:降维单元,用于对所述历史应用日志文本对应的历史文本向量进行降维处理;聚类单元,用于对降维处理后的所述历史应用日志文本进行文本聚类,得到聚类簇及对应的主题,以根据所述对应的主题得到所述历史应用日志文本的文本标签。
基于自适应PCA降维技术以轮廓系数为评价函数,可以搜索得到使得向量化后的文本聚类效果最优的主要成分维度。K均值聚类算法具有平方误差最小的特点,在聚类密集且类与类之间区别明显时,效果较好。针对本公开实施例中的大数据集,K均值聚类算法是相对可伸缩和高效的。
本公开实施例的技术方案中,首先获取海量历史应用日志文本,并基于自适应PCA降维技术、K均值聚类算法对海量告警日志进行聚类分析,得到聚类簇的主题。聚类簇的主题即为聚类簇的标签,运维专家可以根据聚类簇的标签标注部分历史应用日志文本对应的告警原因,即标注可解释性问题,比如主机问题、数据库问题、缓存问题或者网络问题。
基于上述部分历史应用日志文本标注文本训练分类器,扩充未标注可解释性问题的历史应用日志的文本标签,将海量历史应用日志转化为按照告警原因分类的历史数据组成的数据集,每一个告警原因类别对应此类应用日志的问题。在该数据集中搜索与当前应用日志相似的应用日志数据,即可以得到当前的分析应用日志文本的告警原因类别。
在本公开实施例中,所述降维单元还可以用于:采用轮廓系数作为评价函数,使用主分量分析技术对所述历史应用日志文本对应的历史文本向量进行降维处理。
在本公开实施例中,所述聚类单元还可以用于使用K均值聚类算法对所述历史应用日志文本进行文本聚类。
由于本公开的示例实施例的应用日志分析装置的各个功能模块与上述应用日志分析方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的应用日志分析方法的实施例。
本公开实施例中的技术方案基于历史向量集对实时发出的应用日志内容进行分析、检索日志分类标签并归因,在排查故障时根据指标变化兼顾此告警类别的历史变化趋势,快速锁定根因范围。本公开实施例中的技术方案通过人工智能学习应用运维专家经验可以有降低成本增加效率。
本公开提供的应用日志分析装置,通过聚类分析得到历史应用日志文本的文本标签,并形成包括该文本标签的历史向量组成的历史向量集,在历史向量集中搜索与当前的待分析应用日志相似度最高的目标历史向量,即可以得到目标历史向量对应的目标文本标签,从而根据该目标文本标签分析当前的待分析应用日志文本的告警原因,提高应用日志分析的速度和准确性。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行应用日志分析方法,该方法包括:将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的应用日志分析方法,该方法包括:将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的应用日志分析方法,该方法包括:将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (10)

1.一种应用日志分析方法,其特征在于,所述方法包括:
将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;
获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;
在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
2.根据权利要求1所述的方法,其特征在于,所述目标历史应用日志文本为告警日志文本,所述得到所述目标向量对应的目标历史应用日志文本及目标文本标签之后,所述方法还包括:
将所述目标文本标签作为所述待分析应用日志文本的文本标签与所述待分析应用日志文本关联,以标注所述待分析应用日志文本的告警原因。
3.根据权利要求1所述的方法,其特征在于,所述在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,包括:
采用稠密向量检索框架在所述历史向量集中搜索与所述第一向量相似度最高的目标向量。
4.根据权利要求3所述的方法,其特征在于,所述采用稠密向量检索框架在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,包括:
计算所述待分析应用日志向量与所述历史向量集中的历史向量的相似度;
根据所述相似度进行排序,得到与所述待分析应用日志向量相似度最高的目标向量。
5.根据权利要求1所述的方法,其特征在于,所述获取历史向量集之前,所述方法还包括:
对所述历史应用日志文本进行降维处理;
对降维处理后的所述历史应用日志文本进行文本聚类,得到聚类簇及对应的主题,以根据所述对应的主题得到所述历史应用日志文本的文本标签。
6.根据权利要求5所述的方法,其特征在于,所述对所述历史应用日志文本对应的历史文本向量进行降维处理,包括:
采用轮廓系数作为评价函数,使用主分量分析技术对所述历史应用日志文本对应的历史文本向量进行降维处理。
7.根据权利要求5所述的方法,其特征在于,所述对降维处理后的所述历史应用日志文本进行文本聚类,包括:
使用K均值聚类算法对所述历史应用日志文本进行文本聚类。
8.一种应用日志分析装置,其特征在于,所述装置包括:
输入单元,用于将待分析应用日志文本输入训练好的词向量模型,得到所述待分析应用日志文本的第一向量;
获取单元,用于获取历史向量集,所述历史向量集中的历史向量由所述词向量模型基于历史应用日志文本和对应的文本标签生成,所述文本标签是对所述历史应用日志文本进行聚类分析得到的;
搜索单元,用于在所述历史向量集中搜索与所述第一向量相似度最高的目标向量,得到所述目标向量对应的目标历史应用日志文本及目标文本标签。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。
CN202210199222.5A 2022-03-02 2022-03-02 应用日志分析方法、装置、设备和存储介质 Pending CN114610881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210199222.5A CN114610881A (zh) 2022-03-02 2022-03-02 应用日志分析方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210199222.5A CN114610881A (zh) 2022-03-02 2022-03-02 应用日志分析方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114610881A true CN114610881A (zh) 2022-06-10

Family

ID=81861880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210199222.5A Pending CN114610881A (zh) 2022-03-02 2022-03-02 应用日志分析方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114610881A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033701A (zh) * 2022-08-12 2022-09-09 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置
CN115357469A (zh) * 2022-10-21 2022-11-18 北京国电通网络技术有限公司 异常报警日志解析方法、装置、电子设备和计算机介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033701A (zh) * 2022-08-12 2022-09-09 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置
CN115357469A (zh) * 2022-10-21 2022-11-18 北京国电通网络技术有限公司 异常报警日志解析方法、装置、电子设备和计算机介质
CN115357469B (zh) * 2022-10-21 2022-12-30 北京国电通网络技术有限公司 异常报警日志解析方法、装置、电子设备和计算机介质

Similar Documents

Publication Publication Date Title
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN113449099B (zh) 文本分类方法和文本分类设备
CN110046634B (zh) 聚类结果的解释方法和装置
CN105518656A (zh) 用于多传感器数据融合的认知神经语言学行为辨识系统
CN114610881A (zh) 应用日志分析方法、装置、设备和存储介质
CN113656254A (zh) 基于日志信息的异常检测方法、系统和计算机设备
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111930933A (zh) 一种基于人工智能的检务案件处理方法及装置
CN112905665A (zh) 快递数据挖掘方法、装置、设备及存储介质
Alghobiri A comparative analysis of classification algorithms on diverse datasets
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
Tavakoli et al. Clustering time series data through autoencoder-based deep learning models
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN112036185B (zh) 一种基于工业企业构建命名实体识别模型的方法及装置
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN113469237A (zh) 用户意图识别方法、装置、电子设备及存储介质
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN112749530A (zh) 文本编码方法、装置、设备及计算机可读存储介质
CN111460088A (zh) 相似文本的检索方法、装置和系统
CN111199170A (zh) 配方文件识别方法及装置、电子设备、存储介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination