CN110516034A - 日志管理方法、装置、网络设备和可读存储介质 - Google Patents
日志管理方法、装置、网络设备和可读存储介质 Download PDFInfo
- Publication number
- CN110516034A CN110516034A CN201910579380.1A CN201910579380A CN110516034A CN 110516034 A CN110516034 A CN 110516034A CN 201910579380 A CN201910579380 A CN 201910579380A CN 110516034 A CN110516034 A CN 110516034A
- Authority
- CN
- China
- Prior art keywords
- word
- log
- speech
- keyword
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 230000001537 neural effect Effects 0.000 claims description 6
- 238000005303 weighing Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 23
- 238000012545 processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000000712 assembly Effects 0.000 description 5
- 238000000429 assembly Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明实施例提供的日志管理方法、装置、网络设备和可读存储介质,确定待提取日志中的关键词;确定各关键词所对应的单词词权;以日志条目为基础,并根据单词词权,计算日志间的编辑距离;基于日志间的编辑距离,对日志进行聚类;从聚类的结果中,提取日志主干。从而通过结合关键词的单词词权,以及编辑距离来进行聚类,从而显著提升了提取日志主干的准确度,且易于实现,聚类过程中效率高。
Description
技术领域
本发明实施例涉及但不限于计算机技术领域,具体而言,涉及但不限于一种日志管理方法、装置、网络设备和可读存储介质。
背景技术
随着云计算技术的发展和日益成熟,系统的复杂度日益提升,会产生大规模的日志数据。这些日志数据记录了系统内部操作的状态,技术人员可以利用这些日志数据了解并优化系统的行为,并进行系统异常检测。由于5G及底层支撑Iaas/Paas平台日志数据量规模日益庞大,系统运维变得愈发困难,仅依靠人工分析是远远不够的。为了便于日志的分析处理,相关技术中会采用提取日志主干方式,但是,目前的日志主干提取手段中,聚类的手段单一,导致提取的日志主干的准确度差,因此,如何提高日志主干提取的准确度成为亟待解决的问题。
发明内容
本发明实施例提供的日志管理方法、装置、网络设备和可读存储介质,主要解决的技术问题是相关技术中,日志主干提取准确度差。
为解决上述技术问题,本发明实施例提供一种日志管理方法,包括:
确定待提取日志中的关键词;
确定各所述关键词所对应的单词词权;
以日志条目为基础,并根据所述单词词权,计算日志间的编辑距离;
基于日志间的编辑距离,对日志进行聚类;
从聚类的结果中,提取日志主干。
本发明实施例还提供一种日志管理装置,包括:
关键词提取模块,用于确定待提取日志中的关键词;
词权确定模块,用于确定各所述关键词所对应的单词词权;
编辑距离计算模块,用于以日志条目为基础,并根据所述单词词权,计算日志间的编辑距离;
聚类模块,用于基于日志间的编辑距离,对日志进行聚类;
主干提取模块,用于从聚类的结果中,提取日志主干。
本发明实施例还提供一种网络设备,网络设备包括处理器、存储器及通信总线;
通信总线用于实现处理器和存储器之间的连接通信;
处理器用于执行存储器中存储的一个或者多个计算机程序,以实现上述的日志管理方法的步骤。
本发明实施例还提供一种计算机存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述的日志管理方法的步骤。
本发明的有益效果是:
根据本发明实施例提供的日志管理方法、装置、网络设备和可读存储介质,确定待提取日志中的关键词;确定各关键词所对应的单词词权;以日志条目为基础,并根据单词词权,计算日志间的编辑距离;基于日志间的编辑距离,对日志进行聚类;从聚类的结果中,提取日志主干。从而通过结合关键词的单词词权,以及编辑距离来进行聚类,从而显著提升了提取日志主干的准确度,且易于实现,聚类过程中效率高。
本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明,且应当理解,至少部分有益效果从本发明说明书中的记载变的显而易见。
附图说明
图1为本发明实施例一提供的日志管理方法流程图;
图2为本发明实施例二提供的编辑距离计算方法流程图;
图3为本发明实施例二提供的聚类方法流程图;
图4为本发明实施例三提供的单词词权计算方法流程图;
图5为本发明实施例四提供的单词词权计算方法流程图;
图6为本发明实施例五提供的日志管理装置组成示意图;
图7为本发明实施例六提供的一种网络设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
本实施例提供了一种日志管理方法,请参考图1,该方法包括:
S101、确定待提取日志中的关键词;
S102、确定各关键词所对应的单词词权;
S103、以日志条目为基础,并根据单词词权,计算日志间的编辑距离;
S104、基于日志间的编辑距离,对日志进行聚类;
S105、从聚类的结果中,提取日志主干。
提取日志主干是为了方便对日志进行管理,压缩所需要处理的日志数目,并且可以直接影响系统异常检测、故障定位的效果。而本发明各实施例中,采用编辑距离结合关键词的单词词权,来精确衡量差异度,并基于差异度对日志进行聚类。其中,编辑距离是衡量文本间差异程度的重要度量,常用于文本聚类等领域。编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。DNA也可以视为用A、C、G和T组成的字符串,因此编辑距离也用在生物信息学中,判断二个DNA的类似程度。编辑距离有几种不同的定义,差异在可以对字符串进行的处理,具体如下:
在莱文斯坦距离中,可以删除、加入、取代字符串中的任何一个字元,也是较常用的编辑距离定义;除此之外,还存在其他编辑距离的定义方式,例如Damerau-Levenshtein距离是一种莱文斯坦距离的变种,但允许以单一操作交换相邻的两个字符(称为字符转置),如AB→BA的距离是1(交换)而非2(先删除再插入、或者两次替换)。
LCS(最长公共子序列)距离只允许删除、加入字元。
Jaro距离只允许字符转置。
汉明距离只允许取代字元。
上述的编辑距离,在本发明各实施例中均可适用;在适用时,结合单词词权,计算具体的编辑距离。
单词词权的含义是,日志中的关键词,所对应的单词所占的权重,所占权重越高,那么对于一条日志中的组成各词而言,在计算编辑距离的时候,所占权重越多的关键词,对于该日志的聚类影响越大。比如说,日志A和日志B,其中A和B中都含有高权重的关键词x,那么,在结合单词词权计算A和B的编辑距离时,则A和B就会因为x的存在,算得的编辑距离会小于直接计算两者之间的编辑距离。这样,在聚类过程中,就会更贴近真实聚类的效果。
在一些实施例中,确定待提取日志数据中的关键词信息可以包括:
将日志中,除预设形式的词汇之外的单词确定为关键词。其中,预设形式的词汇,比如说一些定式词组,介词,连接词等词汇,其并无具体含义而只是用于过度,这种词汇就不会被认为是关键词;所谓关键词,是影响该日志的有实际意义的词汇,比如说动词,可能表明了该日志的动作;名词,可能表明了日志的执行者或者执行对象等等,不一而足。
在一些实施例中,将日志中,除预设形式的词汇之外的单词确定为关键词可以包括:
使用正则表达式,去除日志中的预设形式的词汇,并将剩余单词作为关键词。
在一些实施例中,确定各关键词信息所对应的单词词权可以包括:
基于关键词的词性,计算第一单词词权,并将第一单词词权作为结果输出。本实施例可以直接根据关键词的词性来确定单词词权,比如说,对于动词、名词等词汇,其所占的权重较大,而对于形容词、副词等词汇,其所占用的权重就较小。
在一些实施例中,基于关键词的词性,计算第一单词词权可以包括:
将关键词输入词性标注工具,获取单词词性;按照词性给单词分配权重,得到第一单词词权;词性包括名词、动词、形容词以及其他。
在一些实施例中,确定各关键词信息所对应的单词词权还可以包括:
在基于关键词的词性,计算第一单词词权之后,还包括:
判断是否有聚类/分类标签,若有,则基于tf-idf(Term Frequency-InverseDocument Frequency,词频-逆文本频率)指数计算得到第二单词词权;
将第一单词词权与第二单词词权取均值,得到平均单词词权,并作为结果输出。除了根据词性直接计算得到词权的方式外,还可以结合是否有聚类/分类标签,来判断是否基于tf-idf来计算得到第二单词词权。如若有,则可以根据第二单词词权,结合第一单词词权,求取两者的算数平均值或者加权平均值,得到平均单词词权,作为最终的单词词权输出。
在一些实施例中,基于tf-idf词频-逆文本频率指数计算第二单词词权具体可以包括:
依据聚类/分类标签,整理分类和文本特征,并计算单词的tf-idf权重。
在一些实施例中,确定各关键词信息所对应的单词词权可以包括:
训练词性概率神经网络模型;
划分不同词性的关键词对日志主干提取的权重;
基于神经网络计算各词性概率;
计算词性概率与词性权重的加权和,作为单词词权。
在一些实施例中,训练词性概率神经网络模型包括:
基于已有数据集,训练词性概率神经网络模型。训练词性概率神经网络模型,是基于已有的中英文的数据集,训练词性模型,该模型对于单条语句可以判断其中各个单词的词性概率值,如动词、名词、形容词等。
在一些实施例中,划分不同词性的关键词对日志主干提取的权重可以包括:
基于先验知识,预设不同词性的单词,在对日志主干提取时影响的权重。所谓先验知识,指的就是在历史提取过程中,所得出的经验性结论,对于日志中文件而言,某些词汇在历史日志中所占的权重如何,作为本次日志主干提取的参考。其中,该预设的权重,可以根据不同日志数据集,调整权值。
在一些实施例中,以日志条目为基础,并根据单词词权,计算日志间的编辑距离可以包括:
遍历两条日志之间的所有词位对,并通过单词词权,进行编辑距离矩阵更新;
取编辑距离矩阵左下角元素,作为编辑距离。
在一些实施例中,基于日志间的编辑距离,对日志进行聚类可以包括:
基于日志间的编辑距离,计算日志距离邻接矩阵;
计算当前日志,与集合中的各聚类的差异度;
将差异度小于等于阈值的日志加入当前聚类中,将差异度大于阈值的日志加入新聚类中,并更新聚类信息。阈值的设置是界定两个日志之间是否属于同一聚类的手段,如果两个日志的差异值,小于等于阈值,那么说明当前的日志与已有聚类中的日志比较接近,可以归入同一聚类中,从而此时就将该日志加入当前聚类中;而如果两个日志的差异值,大于阈值,说明当前日志与已有聚类中的日志相去较远,此时则基于该新日志,创建新的聚类,并将该日志归入该新的聚类中。
在一些实施例中,在基于日志间的编辑距离,计算日志距离邻接矩阵之前,还可以包括:
对聚类集合进行初始化操作,初始化操作包括:初始化一个集合,且集合中的每一个日志均各自为一个聚类。
在一些实施例中,计算当前日志,与集合中的各聚类的差异度可以包括:
遍历集合中所有聚类,计算日志与聚类的差异度,寻找差异度最小的聚类;此处差异度为日志与聚类中日志的编辑距离的最大值。
本实施提供了一种日志管理方法,确定待提取日志中的关键词;确定各关键词所对应的单词词权;以日志条目为基础,并根据单词词权,计算日志间的编辑距离;基于日志间的编辑距离,对日志进行聚类;从聚类的结果中,提取日志主干。从而通过结合关键词的单词词权,以及编辑距离来进行聚类,从而显著提升了提取日志主干的准确度,且易于实现,聚类过程中效率高。
实施例二
在本实施例中提供了一种的日志管理方法,图1是根据本发明实施例的基于带词权编辑距离的日志主干提取方法的流程图,如图1所示,该流程包括如下步骤:
S101、确定待提取日志中的关键词;
S102、确定各关键词所对应的单词词权;
S103、以日志条目为基础,并根据单词词权,计算日志间的编辑距离;
S104、基于日志间的编辑距离,对日志进行聚类;
S105、从聚类的结果中,提取日志主干。
可选地,日志关键词提取包括:使用正则表达式去除日志中一些已知形式的参数,将剩余单词认为是关键词。
可选地,计算单词词权,可采用本发明各实施例中的单词词权计算方法中的任意一种,或者是结合多种一同计算。
可选地,请参考图2,对每对日志,计算日志间的带词权编辑距离包括:
S1031,单对编辑距离矩阵初始化;
S1032,遍历两条日志间的所有词位对,分别进行编辑距离矩阵更新,在更新过程中,计算转移代价时使用计算好的词权信息;
S1033,取编辑距离矩阵的左下角元素,为最终的带词权日志编辑距离,填充至日志距离邻接矩阵的对应位置及其对角位置中。
可选地,请参考图3,基于带词权编辑距离进行聚类包括:
步骤S301,聚类集合初始化;
步骤S302,基于带词权编辑距离计算日志距离邻接矩阵;
步骤S303,计算当前日志与集合中各聚类的差异度;
步骤S304,判断差异度是否小于阈值,是则跳转至步骤S305,否则跳转步骤S306;
步骤S305,将该日志加入当前聚类中;
步骤S306,新建一个聚类,将该日志加入新聚类中,并更新聚类集合;
步骤S307,判断日志是否遍历完毕,若是,则聚类完成,否则跳转至步骤S303,继续聚类过程。
可选地,聚类集合初始化包括:初始化一个空集合,集合的每个元素是一个聚类。
可选地,基于带词权编辑距离计算日志距离邻接矩阵可以包括:首先将日志距离邻接矩阵初始化,计算单对日志词权编辑距离填充并更新,邻接矩阵结构压缩。
可选地,计算当前日志与集合中各聚类的差异度包括:遍历集合中所有聚类,计算日志与聚类的差异度,寻找差异度最小的聚类,此处差异度定义为日志与聚类中日志的带词权编辑距离的最大值;
可选地,从聚类结果中提取日志主干包括:在聚类稳定后,从每个聚类提取主干,此处认为所有属于主干的词在分类中应该在1/2以上的日志中出现,保留所有属于主干的词,其余剔除或用<p>代替。
通过以上的实施方式的描述,可以表明,图2所示的方法,在获取到日志信息后,提取日志关键词,计算单词词权,对每条日志计算日志间的带词权编辑距离,基于带词权编辑距离进行聚类,再从聚类结果中提取日志主干。该过程可以帮助相关领域的技术人员有效提取日志主干,提取的准确性高,将为后续进行日志分类、日志分析、异常检测等工作带来便利。
本实施例创新地将词权与编辑距离结合,应用于日志主干提取领域,可以更好地提取日志特征,提升主干提取准确率和性能。同时,本日志主干提取方法与现有技术相比,在保证了速度较快,满足实时性日志分析的情况下,通过充分利用日志的半结构化特性,提升了主干提取的效果和稳定性,且结果易于复现,方便专业人员进行后续分析。
实施例三
在本实施例中提供了一种计算单词词权的方法,图4是根据本发明实施例的计算单词词权方法的流程图,如图4所示,该流程包括如下步骤:
步骤S401,计算基于词性的单词词权;
步骤S402,判断是否存在人工聚类/分类标签,若是则直接跳至步骤S403,否则进入步骤S404;
步骤S403,计算基于tf-idf的单词词权,并与S402得到的单词词权取平均值;
步骤S404,输出单词词权。
其中,日志关键词提取包括:使用正则表达式,去除日志中一些已知形式的参数,将其余单词认为是关键词;
可选地,计算基于词性的单词词权包括:将关键词输入nltk词性标注工具,获取单词词性;按照词性给单词分配权重,名词和动词给予权重3,形容词给予权重2,其他词给予权重1;其中,权重3大于权重2,权重2大于权重1,也就是说,名词和动词等实义词,所占的权重则更高。
可选地,计算基于tf-idf的单词词权包括:依据人工干预过的聚类/分类标签,整理分类和文本特征;计算单词的tf-idf权重;依据单词的tf-idf权重,由大至小进行排序,前30%给予权重3,30%-60%给予权重2,60%-100%给予权重1。
通过上述步骤,提取日志关键词;计算基于词性的单词词权;判断是否存在人工聚类/分类标签,计算基于tf-idf的单词词权,输出单词词权。即可计算出单词词权,可以有助于半结构化文本的分析,如日志频繁项检测,日志异常检测等。
实施例四
在本实施例中提供了一种结合日志特点的,基于神经网络进行词性判断的词权计算方式,请参考图5,该流程包括如下步骤:
S501,训练词性概率神经网络模型;
S502,划分不同词性单词对日志主干提取权重;
S503,对于单条日志语句,基于神经网络计算各单词词性概率;
S504,对日志单词,计算词性概率与词性权重的加权和,作为该单词词权。
可选地,训练词性概率神经网络模型包括:基于中英文已有数据集,训练词性概率神经网络模型,该模型对于单条语句可以判断其中各个单词的词性概率值,如名词、动词、形容词等。
可选地,划分不同词性单词对日志主干提取权重包括:基于先验知识,人为地设定不同词性的单词对日志主干提取时可以影响的权重,并可根据不同日志数据集调整权值。
可选地,对不同语句中的相同单词词权可再次进行平均和计算,作为最终该单词的词权,节省了后续的计算消耗。
通过上述步骤:训练词性概率神经网络模型;划分不同词性单词对日志主干提取的权重;对于单条日志语句,基于神经网络计算各单词词性概率;对于日志单词,计算词性概率与词性权重的加权和,作为该单词词权。该过程采用神经网络计算词性概率,结合先验知识计算单词词权,可有效帮助相关领域的技术人员准确判断单词对当前语句处理产生的影响,避免了直接采用先验知识或统计信息做判断的局限性,为后续的处理提供了更可靠的依据。
本实施例创新性的采用神经网络做词权计算,避免了直接使用先验知识或统计信息做全局处理的局限性;对于不同语句中的相同单词,神经网络可以做出更精准的词性判断,能够有效提高歧义单词的识别率;结合先验知识进行基于词性权重的加权操作,可以获得更精准的单词权重,方便后续的日志处理。
实施例五
本实施例提供了一种日志管理装置,请参考图6,该装置包括:
关键词提取模块61,用于确定待提取日志中的关键词;
词权确定模块62,用于确定各关键词所对应的单词词权;
编辑距离计算模块63,用于以日志条目为基础,并根据单词词权,计算日志间的编辑距离;
聚类模块64,用于基于日志间的编辑距离,对日志进行聚类;
主干提取模块65,用于从聚类的结果中,提取日志主干。
在一些实施例中,确定待提取日志数据中的关键词信息可以包括:
将日志中,除预设形式的词汇之外的单词确定为关键词。
在一些实施例中,将日志中,除预设形式的词汇之外的单词确定为关键词可以包括:
使用正则表达式,去除日志中的预设形式的词汇,并将剩余单词作为关键词。
在一些实施例中,确定各关键词信息所对应的单词词权可以包括:
基于关键词的词性,计算第一单词词权,并将第一单词词权作为结果输出。
在一些实施例中,基于关键词的词性,计算第一单词词权可以包括:
将关键词输入词性标注工具,获取单词词性;按照词性给单词分配权重,得到第一单词词权;词性包括名词、动词、形容词以及其他。
在一些实施例中,确定各关键词信息所对应的单词词权还可以包括:
在基于关键词的词性,计算第一单词词权之后,还包括:
判断是否有聚类/分类标签,若有,则基于tf-idf词频-逆文本频率指数计算得到第二单词词权;
将第一单词词权与第二单词词权取均值,得到平均单词词权,并作为结果输出。
在一些实施例中,基于tf-idf词频-逆文本频率指数计算第二单词词权可以包括:
依据聚类/分类标签,整理分类和文本特征,并计算单词的tf-idf权重。
在一些实施例中,确定各关键词信息所对应的单词词权可以包括:
训练词性概率神经网络模型;
划分不同词性的关键词对日志主干提取的权重;
基于神经网络计算各词性概率;
计算词性概率与词性权重的加权和,作为单词词权。
在一些实施例中,训练词性概率神经网络模型可以包括:
基于已有数据集,训练词性概率神经网络模型。
在一些实施例中,划分不同词性的关键词对日志主干提取的权重可以包括:
基于先验知识,预设不同词性的单词,在对日志主干提取时影响的权重。
在一些实施例中,以日志条目为基础,并根据单词词权,计算日志间的编辑距离可以包括:
遍历两条日志之间的所有词位对,并通过单词词权,进行编辑距离矩阵更新;
取编辑距离矩阵左下角元素,作为编辑距离。
在一些实施例中,基于日志间的编辑距离,对日志进行聚类可以包括:
基于日志间的编辑距离,计算日志距离邻接矩阵;
计算当前日志,与集合中的各聚类的差异度;
将差异度小于等于阈值的日志加入当前聚类中,将差异度大于阈值的日志加入新聚类中,并更新聚类信息。
在一些实施例中,在基于日志间的编辑距离,计算日志距离邻接矩阵之前,还可以包括:
对聚类集合进行初始化操作,初始化操作包括:初始化一个集合,且集合中的每一个日志均各自为一个聚类。
在一些实施例中,计算当前日志,与集合中的各聚类的差异度可以包括:
遍历集合中所有聚类,计算日志与聚类的差异度,寻找差异度最小的聚类;此处差异度为日志与聚类中日志的编辑距离的最大值。
实施例六
本实施例还提供了一种网络设备,参见图7所示,其包括处理器71、存储器72及通信总线73,其中:
通信总线73用于实现处理器71和存储器72之间的连接通信;
处理器71用于执行存储器72中存储的一个或者多个计算机程序,以实现上述各实施例中的日志管理方法的步骤,这里不再赘述。
本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储系统、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序,其存储的一个或者多个计算机程序可被处理器执行,以实现上述各实施例中的日志管理方法的至少一个步骤。
本实施例还提供了一种计算机程序(或称计算机软件),该计算机程序可以分布在计算机可读介质上,由可计算系统来执行,以实现上述各实施例中的日志管理方法的至少一个步骤。
本实施例还提供了一种计算机程序产品,包括计算机可读系统,该计算机可读系统上存储有如上所示的计算机程序。本实施例中该计算机可读系统可包括如上所示的计算机可读存储介质。
可见,本领域的技术人员应该明白,上文中所公开方法中的全部或某些步骤、系统、系统中的功能模块/单元可以被实施为软件(可以用计算系统可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (17)
1.一种日志管理方法,包括:
确定待提取日志中的关键词;
确定各所述关键词所对应的单词词权;
以日志条目为基础,并根据所述单词词权,计算日志间的编辑距离;
基于日志间的编辑距离,对日志进行聚类;
从聚类的结果中,提取日志主干。
2.如权利要求1所述的日志管理方法,其特征在于,所述确定待提取日志数据中的关键词信息包括:
将所述日志中,除预设形式的词汇之外的单词确定为关键词。
3.如权利要求2所述的日志管理方法,其特征在于,所述将所述日志中,除预设形式的词汇之外的单词确定为关键词包括:
使用正则表达式,去除所述日志中的预设形式的词汇,并将剩余单词作为所述关键词。
4.如权利要求1所述的日志管理方法,其特征在于,所述确定各所述关键词信息所对应的单词词权包括:
基于关键词的词性,计算第一单词词权,并将所述第一单词词权作为结果输出。
5.如权利要求4所述的日志管理方法,其特征在于,所述基于关键词的词性,计算第一单词词权包括:
将关键词输入词性标注工具,获取单词词性;按照词性给单词分配权重,得到第一单词词权;所述词性包括名词、动词、形容词。
6.如权利要求4所述的日志管理方法,其特征在于,所述确定各所述关键词信息所对应的单词词权还包括:
在所述基于关键词的词性,计算第一单词词权之后,还包括:
判断是否有聚类/分类标签,若有,则基于tf-idf词频-逆文本频率指数计算得到第二单词词权;
将所述第一单词词权与所述第二单词词权取均值,得到平均单词词权,并作为结果输出。
7.如权利要求6所述的日志管理方法,其特征在于,所述基于tf-idf词频-逆文本频率指数计算所述第二单词词权包括:
依据聚类/分类标签,整理分类和文本特征,并计算单词的tf-idf权重。
8.如权利要求1-7任一项所述的日志管理方法,其特征在于,所述确定各所述关键词信息所对应的单词词权包括:
训练词性概率神经网络模型;
划分不同词性的关键词对日志主干提取的权重;
基于神经网络计算各词性概率;
计算词性概率与词性权重的加权和,作为所述单词词权。
9.如权利要求8所述的日志管理方法,其特征在于,所述训练词性概率神经网络模型包括:
基于已有数据集,训练词性概率神经网络模型。
10.如权利要求8所述的日志管理方法,其特征在于,所述划分不同词性的关键词对日志主干提取的权重包括:
预设不同词性的单词,在对日志主干提取时影响的权重。
11.如权利要求1-7任一项所述的日志管理方法,其特征在于,所述以日志条目为基础,并根据所述单词词权,计算日志间的编辑距离包括:
遍历两条日志之间的所有词位对,并通过单词词权,进行编辑距离矩阵更新;
取编辑距离矩阵左下角元素,作为所述编辑距离。
12.如权利要求1-7任一项所述的日志管理方法,其特征在于,所述基于日志间的编辑距离,对日志进行聚类包括:
基于日志间的编辑距离,计算日志距离邻接矩阵;
计算当前日志,与集合中的各聚类的差异度;
将差异度小于等于阈值的日志加入当前聚类中,将差异度大于阈值的日志加入新聚类中,并更新聚类信息。
13.如权利要求12所述的日志管理方法,其特征在于,在所述基于日志间的编辑距离,计算日志距离邻接矩阵之前,还包括:
对聚类集合进行初始化操作,所述初始化操作包括:初始化一个集合,且所述集合中的每一个日志均各自为一个聚类。
14.如权利要求12所述的日志管理方法,其特征在于,所述计算当前日志,与集合中的各聚类的差异度包括:
遍历集合中所有聚类,计算日志与聚类的差异度,寻找差异度最小的聚类;此处差异度为日志与聚类中日志的编辑距离的最大值。
15.一种日志管理装置,包括:
关键词提取模块,用于确定待提取日志中的关键词;
词权确定模块,用于确定各所述关键词所对应的单词词权;
编辑距离计算模块,用于以日志条目为基础,并根据所述单词词权,计算日志间的编辑距离;
聚类模块,用于基于日志间的编辑距离,对日志进行聚类;
主干提取模块,用于从聚类的结果中,提取日志主干。
16.一种网络设备,所述网络设备包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个计算机程序,以实现如权利要求1-14中任一项所述的日志管理方法的步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现如权利要求1-14中任一项所述的日志管理方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910579380.1A CN110516034A (zh) | 2019-06-28 | 2019-06-28 | 日志管理方法、装置、网络设备和可读存储介质 |
EP20830538.3A EP3992812A4 (en) | 2019-06-28 | 2020-06-09 | LOG MANAGEMENT METHOD AND DEVICE, NETWORK DEVICE AND READABLE STORAGE MEDIUM |
PCT/CN2020/095162 WO2020259280A1 (zh) | 2019-06-28 | 2020-06-09 | 日志管理方法、装置、网络设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910579380.1A CN110516034A (zh) | 2019-06-28 | 2019-06-28 | 日志管理方法、装置、网络设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516034A true CN110516034A (zh) | 2019-11-29 |
Family
ID=68623486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910579380.1A Pending CN110516034A (zh) | 2019-06-28 | 2019-06-28 | 日志管理方法、装置、网络设备和可读存储介质 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3992812A4 (zh) |
CN (1) | CN110516034A (zh) |
WO (1) | WO2020259280A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159413A (zh) * | 2019-12-31 | 2020-05-15 | 深信服科技股份有限公司 | 日志聚类方法、装置、设备及存储介质 |
CN111581057A (zh) * | 2020-05-08 | 2020-08-25 | 厦门服云信息科技有限公司 | 一种通用日志解析方法、终端设备及存储介质 |
WO2020259280A1 (zh) * | 2019-06-28 | 2020-12-30 | 中兴通讯股份有限公司 | 日志管理方法、装置、网络设备和可读存储介质 |
CN112367222A (zh) * | 2020-10-30 | 2021-02-12 | 中国联合网络通信集团有限公司 | 网络异常检测方法和装置 |
CN113254255A (zh) * | 2021-07-15 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种云平台日志的分析方法、系统、设备及介质 |
CN113407656A (zh) * | 2021-06-24 | 2021-09-17 | 上海上讯信息技术股份有限公司 | 一种快速在线日志聚类的方法及设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113438114B (zh) * | 2021-06-29 | 2022-10-14 | 平安普惠企业管理有限公司 | 互联网系统的运行状态监控方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224604A (zh) * | 2015-09-01 | 2016-01-06 | 天津大学 | 一种基于堆优化的微博突发事件检测方法及其检测装置 |
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN108427720A (zh) * | 2018-02-08 | 2018-08-21 | 中国科学院计算技术研究所 | 系统日志分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516034A (zh) * | 2019-06-28 | 2019-11-29 | 中兴通讯股份有限公司 | 日志管理方法、装置、网络设备和可读存储介质 |
-
2019
- 2019-06-28 CN CN201910579380.1A patent/CN110516034A/zh active Pending
-
2020
- 2020-06-09 WO PCT/CN2020/095162 patent/WO2020259280A1/zh active Application Filing
- 2020-06-09 EP EP20830538.3A patent/EP3992812A4/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224604A (zh) * | 2015-09-01 | 2016-01-06 | 天津大学 | 一种基于堆优化的微博突发事件检测方法及其检测装置 |
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN108427720A (zh) * | 2018-02-08 | 2018-08-21 | 中国科学院计算技术研究所 | 系统日志分类方法 |
Non-Patent Citations (2)
Title |
---|
QIANG FU等: ""Execution Anomaly Detection in Distributed Systems through Unstructured Log Analysis"", 《2009 NINTH IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
景红等: ""句子相似度计算及其应用"", 《计算机系统应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020259280A1 (zh) * | 2019-06-28 | 2020-12-30 | 中兴通讯股份有限公司 | 日志管理方法、装置、网络设备和可读存储介质 |
CN111159413A (zh) * | 2019-12-31 | 2020-05-15 | 深信服科技股份有限公司 | 日志聚类方法、装置、设备及存储介质 |
CN111581057A (zh) * | 2020-05-08 | 2020-08-25 | 厦门服云信息科技有限公司 | 一种通用日志解析方法、终端设备及存储介质 |
CN111581057B (zh) * | 2020-05-08 | 2022-06-14 | 厦门服云信息科技有限公司 | 一种通用日志解析方法、终端设备及存储介质 |
CN112367222A (zh) * | 2020-10-30 | 2021-02-12 | 中国联合网络通信集团有限公司 | 网络异常检测方法和装置 |
CN113407656A (zh) * | 2021-06-24 | 2021-09-17 | 上海上讯信息技术股份有限公司 | 一种快速在线日志聚类的方法及设备 |
CN113407656B (zh) * | 2021-06-24 | 2023-03-07 | 上海上讯信息技术股份有限公司 | 一种快速在线日志聚类的方法及设备 |
CN113254255A (zh) * | 2021-07-15 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种云平台日志的分析方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3992812A1 (en) | 2022-05-04 |
EP3992812A4 (en) | 2023-04-26 |
WO2020259280A1 (zh) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516034A (zh) | 日志管理方法、装置、网络设备和可读存储介质 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN103914494B (zh) | 一种微博用户身份识别方法及系统 | |
CN108427720B (zh) | 系统日志分类方法 | |
CN108399163A (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
WO2020133960A1 (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN110728313B (zh) | 一种用于意图分类识别的分类模型训练方法及装置 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
WO2023125589A1 (zh) | 突发事件的监测方法及装置 | |
CN113590824A (zh) | 因果事理图谱的构建方法、装置及相关设备 | |
CN107861950A (zh) | 异常文本的检测方法和装置 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
Yang et al. | A system fault diagnosis method with a reclustering algorithm | |
WO2022141860A1 (zh) | 文本去重方法、装置、电子设备及计算机可读存储介质 | |
Cheng et al. | Fine-grained topic detection in news search results | |
CN113190662A (zh) | 基于篇章结构图网络的话题分割方法 | |
CN113779200A (zh) | 目标行业词库的生成方法、处理器及装置 | |
Li et al. | A method of large-scale log pattern mining | |
Jiang et al. | A Discourse Coherence Analysis Method Combining Sentence Embedding and Dimension Grid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191129 |
|
RJ01 | Rejection of invention patent application after publication |