CN114398891B

CN114398891B - 基于日志关键词生成kpi曲线并标记波段特征的方法

Info

Publication number: CN114398891B
Application number: CN202210292662.5A
Authority: CN
Inventors: 戴曦; 乐绪鑫; 张庆
Original assignee: Three Gorges Zhikong Technology Co ltd
Current assignee: Three Gorges Zhikong Technology Co ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-24
Anticipated expiration: 2042-03-24
Also published as: CN114398891A

Abstract

本发明公布了基于日志关键词生成KPI曲线并标记波段特征的方法，根据日志中的高频关键词先生成日志KPI曲线，再将KPI曲线分割为若干段等长的波段，根据波段的非时间维度聚类成多个簇，提取各个簇的基波，比较各个簇的各波段数据与基波的相似度，找出各个簇的分组边界线，将各个簇的各波段数据分组，提取各簇中连续同类波段的总时间长度，取总时间长度的最大值作为滑动窗口宽度。该窗口用于分割KPI曲线，使分割后的各窗口中波段容易聚类归类，利于将对整KPI曲线的迅速成由不同类型波段组成的波段链，然后对单独监测指标的KPI曲线进行周期检测和类型检测标记标签，再利用该窗口分割单独的KPI曲线，利用基波KPI曲线内的波段进行分组加标签。

Description

基于日志关键词生成KPI曲线并标记波段特征的方法

技术领域

本发明涉及人工智能技术领域，尤其涉及基于日志关键词生成KPI曲线并标记波段特征的方法。

背景技术

异常点检测(又称为离群点检测)是找出其行为不同于预期对象的一个检测过程，这些对象被称为异常点或者离群点。异常检测方式通常包括基于统计的模型、基于距离的模型、线性变换的模型、非线性变换的模型、机器学习的模型等。

KPI(key performance indicators)指的是对服务、系统等对象的监控指标 (如网络中的延迟、吞吐量等)。其存储的形式是按其发生的时间先后顺序排列而成的数列，也就是我们通常所说的时间序列。时间序列的异常检测就是通过历史的数据分析，查看当前的数据是否发生了明显偏离了正常的情况。KPI 数据异常检测有着十分重要的意义：通过实时的监控KPI数据，发现KPI数据存在的异常，及时进行相应处理，从而保证应用的正常运行。

通过对KPI数据设置阈值来进行实时异常检测的方法十分普遍，然而针对系统日志进行实时异常检测的方法还没有公开报道。

传统机器学习为了追求有效性，大多采用监督学习方式，在实践中异常标注难以批量获得，通过海量有标注的数据样本提高模型输出的准确度，因而需要大量业务专家进行人工标注KPI曲线，往往需要反反复复调整矫正，耗时耗力，实际中可能需要同时开始监控几百万、几千万的KPI，因此，现实中的异常检测实践中往往无法找到某一种算法可以同时满足上述要求，无法同时解决上面的挑战；而非监督学习常用聚类等技术，主要用于特征发现，数据探索等场景，因为缺乏标注，其结果需要数据科学家进行解释才能抽象的映射到业务模式，并不能直接作用结果；弱监督在具体的实现中因为分阶段的引入非监督/监督方法，循环递归的提升准确性，显得过于学术，落地困难，另一方面为了融合具体方法，需要采用向量表达来统一不同方法间的表示，结果不容易应用人员理解。

数据量越多，业务场景越复杂，引入的方式越复杂，需要投入成本/人力就越来越多样化。这种循环直接限制了机器学习在全行业的推广，而集中在收益较高的行业，而导致常规行业只采用放弃抵抗，被动防守，依靠全行业平均水平来倒灌，实现业务场景迁移，具体如下：如果一个方法在其他行业特别有效，人员已经富余后借用一下观察效果，如果可行在考虑使用。而工业应用场景就是这种被动防守的行业之一。

发明内容

本发明的第一个目的是提供一种基于日志关键词生成KPI的方法，处理工业控制系统中监测指标产生的文本日志，从日志中提取关键词，将高度相关的事件合并成同一个分组，产生与被监控的指标的KPI曲线周期性相关的日志KPI曲线。

本发明的技术方案是：基于日志提取关键词的方法，其步骤包括：

步骤F1.设置训练句子组成的训练句子集，同一工控系统中工控设备基于监测指标获得故障日志，将故障日志中的语料分别与各训练句子组成待处理句子对，并计算相似度，删除相似度低于阈值一的语料；

步骤F2.对步骤F1中的剩余语料进行分词，生成由多个特征词组成的分词队列，并对多个特征词标注词性，获得语料的词性队列；

步骤F3.若词性队列含有对应特殊词性的多个特殊特征词，则利用命名实体识别模型从多个特殊特征词中获得命名实体的边界及类别，将词性队列中特殊特性词的词性更新为命名实体的边界及类别，获得更新后的词性队列，其中，特殊词性包括：数词、时间词；

步骤F4.根据F3对剩余语料的标注对剩余语料分类，统计各类别词性队列的出现频次，降序排序，挑选出排序大于阈值二的词性队列，统计各类别词性队列中各种动词、名词的出现频次，并进行降序排序，根据排序阈值依次从按动词、名词的出现频次的排序中筛选出排名靠前的两种词性队列集合，提取两种词性队列集合的交集对应的语料，构建真训练集；

步骤F5.从真训练集的语料中筛选出含有词性标注组合为[n,v,n]的分词队列，n表示名词的词性，v表示动词的词性，并从中提取出词性为名词或专有名词的第一个和第二个分词分别作为事件一和事件二，形成事件元组；

步骤F6. 基于现有的故障事件关系表，使用Snowball算法发现事件元组的事件关联规则，根据事件关联规则发现事件元组中的关联事件组，即生成日志关键事件关系表；

步骤F7. 然后按步骤F5处理步骤F3获得的词性队列，得到真事件元组，重复步骤F6获得真事件元组的日志关键事件关系表，直至步骤F6收敛；

步骤F8.将日志关键事件关系表中各事件作为关键词，统计各关键词的频次c_i，i表示关键词的序号，将所有关键词对应的In(c_i)组成一个集合，若In(c_i)低于该集合的三西格玛下限则删除对应的关键词，保留的关键词作为关键词。

有利地，同一工控系统指有直接或间接的物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的工控设备组成，同一工控系统中工控设备基于监测指标获得故障日志，由于监测指标具有相关性，故障日志也同样具有相关性，步骤F1用于从故障日志中挑取文法、语义结构是用于指代、行为记录和状态描述的句子，如：[对象是什么]， [对象完成某个任务]、 [处于某个状态]、 [某一项为多少]，因为这类句子描述结构歧义少，有利于提除故障日志中的错误日志，保留工业记录日志；步骤F3处理前语料中数值和时间的词性相同，分类时容易出现识别不准确，借助命名实体识别可简易清楚的标记出准确的词性；步骤F4~F6从复杂的关键词中按事件关系精选出剩余语料中具有关联关系的事件，从中找到关键词，得到了监测指标(故障日志)中的自然规律，排除了大量干扰词。基于上述步骤处理工业控制系统中监测指标产生的与数值限定事件有关的文本日志，从日志中构建事件关系，将高度相关的事件关系合并成同一个分组，并提取高频关键词，获得的关键词可用于产生与被监控的指标的KPI曲线周期性相关的日志KPI曲线。

进一步地，步骤F1中计算相似度包括以下步骤：基于预构建的语料库对句子对中的句子分别进行分词，其中，预构建的语料库包括行业语料库和普通语料库；

将分词后句子的各特征词转化为词向量，并使用余弦相似度分别计算各句子对的相似度，若相似度低于阈值一则删除该语料。

进一步地，基于上述的方法聚类生成KPI的方法，在所述步骤F8之后还包括：

步骤S1. 以各关键词每分钟出现的次数作为监测指标，建立各个关键词KPI曲线；

步骤S2.每个关键词KPI曲线相互使用NCC算法计算两两相似度，并展开成对角的相似度矩阵，将相似度填入相似度矩阵，矩阵中行和列序号为关键词KPI曲线的编号，相似度矩阵的行数和列数为关键词KPI曲线的数量，相似度矩阵中的数值为各关键词KPI曲线之间的相似度；

步骤S3.使用谱聚类算法根据上述的相似度矩阵输出不同簇类，对不同簇类标记不同的日志关键事件标签；

步骤S4.合并统计同一类日志关键事件标签在同一时间段出现的次数取频次，得到各日志关键事件标签的日志直方图。

有利地，日志中关于监控指标的每条记录会有部分文本差异，直接聚类需要大量的人工标引和筛查工作，但相互有强烈关联的监控指标所产生的文本的频次是相似的，本方法基于其产生的频次的相似性对关键词进行聚类合并，对同类关键词共用标签，使标签与关键词产生映射关系，对标签的KPI曲线进行分析处理能映射出相应关键词的状态，从而便于分析出各重要关键词在KPI曲线中的分布规律。

进一步地，步骤S2~S3之间还包括：使用高斯核平滑处理各个关键词KPI曲线。

进一步地，步骤F6包括：

步骤C1.使用现有的故障事件关系表，匹配事件元组中包含故障事件关系表中的事件的队列，并生成模板；模板的格式为五元组形式，分别为<left>，事件1类型，<middle>，事件2类型，<right>；len为可任意设定长度，<left>为事件1左边len个词汇的向量表示，<middle>为事件1和事件2间的词汇向量表示，<right>为事件右边len个词汇的向量表示；

步骤C2.对生成的模板采用聚类，将相似度大于阈值三的模板聚为一类，利用平均的方法生成新的模板，加入用来存储模板的规则库；由步骤C2可知模板的格式可记为

，E₁、E₂分别表示模板P的事件1类型和事件2类型，

表示E₁左边3个词汇长度的向量表示，

表示E₁、E₂之间词汇的向量表示，

表示E₂右边三个词汇长度的向量表示，模板间的相似度计算，模板1：

，模板2：

，若满足条件

，即满足模板P₁的事件1类型E₁与模板P₂的事件1类型

相同且模板P₁的事件2类型E₂与模板P₂的事件2类型

相同，则模板P₁与模板P₂的相似度可由

计算得，μ₁μ₂μ₃为权重，因

对模板间相似度计算结果影响较大，可设置μ₂>μ₁>μ₃；若不满足条件

，则模板P₁与模板P₂的相似度可记为0；

步骤C3.逐一将步骤C1获得的事件元组的模板与规则库中的模板进行相似度计算，相似度小于阈值三的舍弃，相似度大于阈值三的模板中的事件加入日志关键事件关系表中替换故障事件关系表；

步骤C4.重复步骤C1~C3，直至经步骤C3处理后没有可舍弃的模板，即无法发现新的事件元组或规则。

进一步地，步骤F7替换为：然后按步骤F5处理步骤F3获得的词性队列，得到真事件元组，重复步骤C1~C3获得真事件元组的日志关键事件关系表，直至步骤C3收敛，且步骤C3中舍弃相似度小于阈值四的模板。

优选地，步骤S4之后还包括：使用高斯核平滑处理日志直方图得到各日志KPI曲线。

优选地，步骤S4的高斯核平滑处理后还包括：

Z01.用傅里叶变换提取日志KPI曲线的频谱强度图；

Z02.提取震动幅度最高的点计算其对应的周期，即待检验周期；

Z03.设定假设的周期，即期待周期，当且仅当待检验周期的长度为期待周期的95%到105%区间范围内时，对待检验周期进行相关强度检测，当频谱强度足够时认定待检验周期为符合要求的周期，依据日志KPI曲线周期性的区别对滤波后的日志KPI曲线打的标签，称为日志KPI曲线周期标签。

周期检验是对波形打上周期和非周期的标志，周期的标志代表存在定期的反复的事件，这类信息往往意味着业务知识上的状态检测，旋转件这类业务信息；与之相对非周期的意味着事件业务。他们都是在其他步骤用到的业务标签，且与其他操作不相关；周期性的KPI存在相似性可能是因为由于多种原因形成的相似关系，不存在业务上的关联，而非周期KPI更可能是存在直接和间接的关系。

进一步地，步骤Z03之后还包括：

Z04.将每个日志KPI曲线相互使用NCC算法计算两两相似度，并展开成对角的相似度矩阵，将相似度填入相似度矩阵，矩阵中行和列序号为日志KPI曲线的编号，相似度矩阵的行数和列数为日志KPI曲线的数量；

Z05.使用谱聚类算法根据上述的相似度矩阵输出不同簇类，对不同簇类标记不同的日志KPI曲线标签，称为KPI曲线业务标签。

有利地，依据KPI曲线整体的相似性将KPI曲线进行聚类分类形成波形相近的各个簇。

本发明的第三个目的是提供一种KPI曲线标记波段特征的方法，将KPI曲线分割为若干段等长的波段，根据波段的非时间维度聚类成多个簇，提取各个簇的基波，比较各个簇的各波段数据与基波的相似度，找出各个簇的分组边界线，将各个簇的各波段数据分组，提取各簇中连续同类波段的总时间长度，取总时间长度的最大值作为滑动窗口宽度。该窗口用于分割KPI曲线，使分割后的各窗口中波段容易聚类归类，利于将对整KPI曲线的迅速成由不同类型波段组成的波段链，然后对单独监测指标的KPI曲线进行周期检测和类型检测标记标签，再利用该窗口分割单独的KPI曲线，利用基波KPI曲线内的波段进行分组加标签。

一种日志KPI曲线标记波段特征的方法，包括以下步骤：

步骤A1.将全部的日志KPI曲线中各分钟的数据点集提取到同一个曲线集合L中，将曲线集合L按分割成时间宽度为s分钟的若干段日志KPI曲线数据集M _i，i为段序号；

步骤A2.使用dbscan算法依据每段日志KPI曲线数据集的属性计算各段数据集之间的欧氏距离，对i段的日志KPI曲线数据集进行聚类，获取k个簇类和异常项，每个簇是一个分组数据集，每个分组数据集有j段日志KPI曲线数据集F _j；

步骤A3.计算每个分组数据集中j段日志KPI曲线数据集的算术平均值ΣF _j /j，作为该分组的基波；

步骤A4.使用NCC算法计算每个分组数据集的各段日志KPI曲线数据集F _j与该基波的波形相似度，并从大到小排序，在波形相似度排序为前95%的日志KPI曲线数据集F _j中，取波形相似度的最小值作为该组的分组边界线B _k；

步骤A5.使用NCC算法计算每段日志KPI曲线数据集M _i与各分组的基波的波形相似度 NCC _{M i-J k}，以各组的分组边界线为基准，判断各段日志KPI曲线数据集是否属于该分组，对于同时属于多个分组的一段日志KPI曲线数据集，依据分类得分Q进行排序，将日志KPI曲线数据集M _i分组到分类得分Q最小的分组中，得到每段日志KPI曲线数据集的分组信息，

Q=((1-NCC _{M i-J k})/(1-B _k))²；

步骤A6.提取被分到不同分组中的各段日志KPI曲线数据集的时间戳，得到每个分组的时间戳列表；

步骤A7.将每组的时间戳列表做移步相减，即使用各时间戳列表中下一项的起始时间戳与本项的起始时间戳相减获得事件触发间隔列表；

步骤A8.将各簇的事件触发间隔合并成时间间隔KPI集，依据NCC计算各簇的时间间隔KPI集之间的相似度；

步骤A9.将步骤A8获得的各簇之间时间间隔KPI集的相似度展开成相似度矩阵；

步骤A10.使各簇之间时间间隔KPI集的相似度按数值大小依次排序，然后将相似度的数值拟合成平滑线，依据拐点法获得各簇之间时间间隔KPI集的相似度的分界线；

步骤A11.将相似度矩阵中数值大于拐点的相似度数值替换为1，将数值低于拐点的相似度数值替换为0；

步骤A12.将步骤A11得到的相似度矩阵中相似度为1且相邻的簇标记为同一个相似组，统计各相似组的簇数；

步骤A13.计算相似组中簇数最多的一组的总时间间隔，作为滑动窗口宽度；

步骤A14.先按步骤A13获得的滑动窗口，将步骤S4之后使用高斯核平滑处理后得到的各个日志KPI曲线分割成时序宽度为总时间间隔的若干段日志KPI曲线窗口段，按步骤A1的分割方法将日志KPI曲线窗口段分割成时序宽度为1分钟的i段日志KPI曲线数据集M ’ _i，每一段是一个波段；

使用NCC算法依据步骤A2得到的各基波逐一与每一条日志KPI曲线的每一个窗口内的各波段进行相似度计算，得到

，并从大到小排序，在波形相似度排序为前95%的波段中，取波形相似度的最小值作为该分组的分组边界线B’ _k,以各组的分组边界线为基准，判断各段日志KPI曲线数据集M’ _i是否属于该分组，对于同时属于多个分组的一段日志KPI曲线数据集M’ _i，依据分类得分Q’进行排序，将日志KPI曲线数据集M _i分组到分类得分Q’最小的分组中，形成基波标签构成的标签链，获取不同KPI的模式波形，称为KPI曲线码型重排表，

；

步骤A15. 将不同的KPI曲线码型重排表统一时间维度放置在一个维度中，获得KPI曲线码型重排关联表；

步骤A16.所有标签链依据时间维度排列后，再基于序列挖掘算法SPADE或GSP发掘在不同时间上发生的不同标签链之间的因果关系。

有利地，对日志KPI曲线处理后得到的标签信息，含有全部波段的全部信息，包含波段和波形两部分表现，波段标签即基波类型和基波标签的时间排列信息，波形标签有业务标签和周期标签两种。

不同的KPI曲线如果使用同一KPI曲线业务标签，可能存在因果关系，其中属于非周期KPI比周期KPI曲线有更高的可能性。

不同的KPI曲线如果在临近时间段存在同一KPI曲线段码型基波标签，可能存在因果关系，其中重复次数更多的有着更高的可能性。

同一工控系统的工控设备生成的故障日志的文本中的特定名词具有相互的因果影响，表现为成对的名词因同一诱因同步出现，相似的名词队列可归为一类，即步骤F8得到的事件关系，统计事件关系中事件得到的频次可得到关键词KPI曲线，而关键词KPI曲线是同步于工控设备监控物理参数模拟量获得的指标KPI曲线一起出现的，因此指标KPI曲线能通过分割、聚类归集为有标签排序特征的波段链，因此关键词KPI曲线也有相同的波段链特征，不同的物理参数因同一诱因产生的指标KPI曲线的波段链特征相似，因此不同关键词因同一诱因产生的关键词KPI曲线的波段链特征也相似。

因此本发明中将关键词KPI曲线按相似度聚类处理成标签，在根据标签的频次生成日志直方图、日志KPI曲线，日志KPI曲线也具有相同是波段链特征，关键词KPI曲线聚类的目的就是将关联事件中成对的关键词对应的关键词KPI曲线压缩为一类，剔除多余的干扰。

为发现这样的波段链，需要采用合适宽度的滑动窗口沿关键词KPI曲线滑动，从窗口中截取关键词KPI曲线单元段，从关键词KPI曲线单元段中提取的若干等长的波段，基于特征基波与波段的相似度，标记关键词KPI曲线单元段中各波段的标签，使关键词KPI曲线单元段成为有标签排序特征的波段链，这样每在关键词KPI曲线上滑动一次窗口，获得一个波段链，所有的波段链等长，只是波段的分类标签排序不同，那么可以基于波段链的排序特征的不同，将通过滑动窗口获得的所有波段链依据时间维度排列后，基于序列挖掘算法SPADE、专家评定、知识图谱融合可得到不同特征的波段链在时间维度上的因果关系，即得到关键词与关键词间的因果关系，有助于补充专家对于系统中故障认定的知识体系，发现之前未发现的监测指标的关联关系，从而可在操作中基于新发现的监测指标之间的关联关系建立新的预警控制关系和调控阈值，提高同一系统中各被监测物的系统稳定性。

本发明解决的技术问题类比于现有技术CN110726898B，CN110726898B中通过向自编码网络输入波形得到的特征压缩码，就相当于本发明的基于KPI曲线提取波段链或基于故障日志归纳事件元组。将压缩码输入分类模型得到故障波形的类型,就相当于本发明的基于序列挖掘算法SPADE、专家评定、知识图谱融合可得到不同特征的波段链在时间维度上的因果关系；或就相当于将事件元组输入现有的故障事件关系表(分类模型)基于Snowball分类为关联事件组。

本发明中将关键词KPI曲线聚类归集为日志KPI曲线也相当于，CN110726898B中通过向自编码网络输入波形得到的特征压缩码。

附图说明

图1是从同一工控系统中基于工控设备生成的故障日志生成的日志KPI曲线；

图2为形成的基波标签构成的标签链；

图3为根据故障日志文本提取出的高频关键词和日志KPI曲线聚类后的类别。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下述实施例中标签链和波段链是相同的含义，KPI曲线单元段与KPI曲线窗口段是相同的含义。同一工控系统指有直接或间接的物料供给关系、或电能传递关系、或热能传递关系、或机械能传递关系、或磁场传递关系、或能量转化关系、或信号控制关系的工控设备组成，同一工控系统中工控设备基于监测指标获得故障日志，由于监测指标具有相关性，故障日志也同样具有相关性。

实施例1

基于日志关键词聚类生成KPI的方法，其步骤包括：

步骤B1收集同一发电站工控系统网络中工控设备基于监测指标获得的故障日志，对故障日志中出现的语料进行分词统计，统计高频词汇，如图3提取其中的动词、名词、专有名词，作为日志关键词（业务显式关系）；

分词统计包括以下步骤：

F1设置训练句子组成的训练句子集，从故障日志中提取语料分别与各训练句子组成待处理句子对，并基于预构建的语料库对句子对中的句子分别进行分词，其中，预构建的语料库包括行业语料库和普通语料库；

F2将分词后句子的各特征词转化为词向量，并使用余弦相似度分别计算各句子对的相似度，若相似度低于阈值则删除该语料，如阈值设置为0.9

步骤F1~F2用于从故障日志中挑出文法、语义结构是用于指代、行为记录和状态描述的句子，工控系统中故障日志的一般文法如：[对象是什么]， [对象完成某个任务]、[处于某个状态]、 [某一项为多少]，因为这类句子描述结构歧义少，有利于剔除故障日志中的错误日志，保留工业记录日志；

分词时使用jieba.cut函数将语料进行分词，cut函数的定义如下：

def cut( sentence, cut_ all=False, HMM=True)

其中sentence是需要分词的句子样本；cut_all是分词的模式，jieba分词有全模式和精准模式两种，分别用true和false来选择，默认是false即精准模式；HMM就是隐马尔可夫链，是在分词的理论模型中用到的，默认是开启的。

F3对步骤F2中的剩余语料进行分词，由多个特征词组成的分词队列，并对多个特征词标注词性，获得语料的词性队列；

标注词性使用jieba.posseg.cut函数对输入的词语返回类别代号。杨庆跃在“jieba分词的词性表”中记载了jieba.posseg.cut函数的使用步骤和词性分类表。

F4若词性队列含有对应特殊词性的多个特殊特征词，则利用命名实体识别模型从多个特殊特征词中获得命名实体的边界及类别，将词性队列中特殊特性词的词性更新为命名实体的边界及类别，获得更新后的词性队列；

其中，特殊词性包括：数词、时间词，本实施例的应用场景中只有数值和时间利用词性分类容易出现识别不准确；

其中，命名实体识别模型可以从待处理语料中识别出命名性指称项。狭义上，是识别出人名、地名、组织机构名、专有名词这四类命名实体。通常包括两部分：(1)实体边界识别；(2) 确定实体类别(人名、地名、机构名或其他)。命名实体识别的方法有多种，例如：基于规则的方法、基于特征模板的方法、基于神经网络的方法等，命名实体识别模型可以基于上述方法构建。

例如：命名实体识别模型(CRF)对句子“我来到陶家村”进行实体标注，正确标注后的结果为：我/O来/O到/O陶/B家/M村/E（O 表示当前词不是地理命名实体，B M E 分别表示当前词为地理命名实体的首部内部尾部）。采用线性链 CRF 来进行解决，那么（O, O, O,B, M, E）是其一种标注序列，（O, O, O, B, M, E）也是是其一种标注选择，

F5根据F4对剩余语料的标注对剩余语料分类，统计各类别词性队列的出现频次，并降序排序，挑选出排序前10%的词性组合，统计各类别词性队列中各种：动词、名词的出现频次；

F6各类别词性队列分别按各种的动词、名词的出现频次进行降序排序，根据排序阈值依次从上述两种排序中筛选出排名靠前的两种词性队列集合，提取两种词性队列集合的交集对应的语料，构建真训练集；本实施例中筛选排序前10%的动词，前5%的名词。

F7从真训练集的语料中筛选出含有词性标注组合为[n,v,n]的分词队列，并从中提取出词性为名词或专有名词的第一个和第二个分词分别作为事件一和事件二，形成事件元组；

F8使用Snowball算法发现事件元组的事件关联规则，根据事件关联规则发现事件元组中的关联事件组：

步骤C2.对生成的模板采用聚类，将相似度大于阈值0.7的模板聚为一类，利用平均的方法生成新的模板，加入用来存储模板的规则库；由步骤C2可知模板的格式可记为

，E₁、E₂分别表示模板P的事件1类型和事件2类型，

表示E₁左边3个词汇长度的向量表示，

表示E₁、E₂之间词汇的向量表示，

表示E₂右边三个词汇长度的向量表示，模板间的相似度计算，示例如下，模板1：

，模板2：

。若满足条件

，即满足模板P₁的事件1类型E₁与模板P₂的事件1类型

相同且模板P₁的事件2类型E₂与模板P₂的事件2类型

相同，则模板P₁与模板P₂的相似度可由

计算得，μ₁μ₂μ₃为权重，因

，则模板P₁与模板P₂的相似度可记为0。

平均的方法即对同一类中的模板的向量取平均，生成新的模板，可参考“https://www.pianshen.com/article/61161224295/”报道的《关系抽取之snowball算法 - 程序员大本营》。

步骤C3.逐一将步骤C1获得的事件元组的模板与规则库中的模板进行相似度计算，相似度小于阈值0.7的舍弃，相似度大于阈值0.7的模板中的事件加入日志关键事件关系表中替换故障事件关系表；

步骤C4.重复步骤C1~C3，直至经步骤C3处理后没有可舍弃的模板，即无法发现新的事件元组或规则；

步骤C5.然后按步骤F7处理步骤F4获得的词性队列，得到真事件元组，重复步骤C1~C3获得真事件元组的日志关键事件关系表，直至步骤C3收敛，且步骤C3中舍弃相似度小于阈值0.95的模板；

步骤C6.将日志关键事件关系表中各事件作为关键词，统计各关键词的频次c_i，然后降序排序，i表示关键词的序号；

步骤C7.计算各关键词对应的In(c_i)，若In(c_i)低于边界则删除对应的关键词，保留的关键词作为关键词，边界是全体In(c_i)的三西格玛下限；本步骤中计算In(c_i)有利于将差别较小的数据更好的区分开，扩大数据之间的差异。

步骤B2对发现的关键词进行聚类，将同一聚类进行标记，获得日志关键事件标签的映射关系 B2（业务隐式关系）：

以各关键词每分钟出现的次数作为监测指标，建立各个关键词KPI曲线，使用高斯核平滑处理各个关键词KPI曲线，每个关键词KPI曲线相互使用NCC算法计算两两相似度，并展开成对角的相似度矩阵，将相似度填入相似度矩阵，矩阵中行和列序号为关键词KPI曲线的编号，相似度矩阵的行数和列数为关键词KPI曲线的数量，相似度矩阵中的数值为各关键词KPI曲线之间的相似度；

使用谱聚类算法根据上述的相似度矩阵输出不同簇类，对不同簇类标记不同的日志关键事件标签；获得日志关键事件标签的映射关系（业务隐式关系），如图3的最后一列；

“https://zhuanlan.zhihu.com/p/29849122”介绍了谱聚类的分类方法。

步骤B4合并统计同一类日志关键事件标签在同一时间段出现的次数取频次，得到各日志关键事件标签的日志直方图，使用高斯核平滑处理日志直方图得到各日志KPI曲线，如图1。

对步骤B4得到的日志KPI曲线按以下步骤预处理；

步骤D1 根据日志KPI曲线的周期性分类打标；

对每一条日志KPI曲线进行周期性验证检查，依据KPI周期性的区别对日志KPI曲线打的标签，称为日志KPI曲线周期标签；

周期性验证检查包括以下步骤：

Z01.用傅里叶变换提取日志KPI曲线的频谱强度图；

Z03.设定假设的周期，即期待周期，当且仅当待检验周期的长度为期待周期的95%到105%区间范围内时，对待检验周期进行相关强度检测，当频谱强度足够时认定待检验周期为符合要求的周期。

步骤D2 根据日志KPI曲线的相似度分类打标

“https://zhuanlan.zhihu.com/p/29849122”介绍了谱聚类的分类方法。

实施例2

基于实施例1获得的日志KPI曲线标记波段特征的方法，包括以下步骤：

步骤A5.使用NCC算法计算每段日志KPI曲线数据集M _i与各分组的基波的波形相似度NCC _{M i-J k}，以各组的分组边界线为基准，判断各段日志KPI曲线数据集是否属于该分组，对于同时属于多个分组的一段日志KPI曲线数据集，依据分类得分Q进行排序，将日志KPI曲线数据集M _i分组到分类得分Q最小的分组中，得到每段日志KPI曲线数据集的分组信息，

Q=((1-NCC _{M i-J k})/(1-B _k))²；

NCC _{M i-J k}越大，Q就越小，说明M _i与簇类k越相似，当日志KPI曲线数据集M _i与不同簇类的相似度NCC _{M i-J k}相同时，B _k越小说明该簇类M _i与簇类k的相似度NCC _{M i-J k}在该簇类中波形相似度排序中越靠前；通过这个公式可以计算出该日志KPI曲线数据集M _i在候选簇中的可能性，从而计算出最有可能是哪一类簇。

事件触发间隔即每个分组数据集中相邻两段日志KPI曲线数据集的时间间隔；

步骤A8.将各簇的事件触发间隔合并成时间间隔KPI集，依据NCC计算各簇的时间间隔KPI集之间的相似度；若不同簇的时间间隔KPI集相近，说明簇的波形在时间总宽度上相近；

步骤A9.将步骤A8获得的各簇之间时间间隔KPI集的相似度展开成相似度矩阵；如表1，a~d为簇的序号，相似度矩阵的行数和列数为簇的数量，相似度矩阵中的数值为各簇之间时间间隔KPI集的相似度，相似度矩阵是一个对角矩阵；

表1

步骤A11.将相似度矩阵中数值大于拐点的相似度数值替换为1，将数值低于拐点的相似度数值替换为0，如表2；

以该总时间间隔设置为滑动窗口的宽度，利用该窗口将日志KPI曲线分割成若干段，分割出的每一段的时间宽度覆盖了分步骤S12得到的时长最大的相似组。以该滑动窗口扫描日志KPI曲线，能将连续出现的簇快速分割到一个窗口中，再快速聚类到同一个波形类别，减小计算量，且能对日志KPI曲线的波段进行整体归类，减少遗漏知识的可能性。

上述的NCC(Normalized cross correlation)算法其定义为：

式中，x_t为背景波形，y_t+h为模板波形，NCC的值在-1~1之间，-1代表变换前后波形相反，0代表两波形正交，1代表完全相同。NCC只描述两波形的宏观相似程度，与波形幅值，能量衰减多少无关。

步骤A14.先按步骤A13获得的滑动窗口，将步骤B4之后使用高斯核平滑处理后得到的各个日志KPI曲线分割成时序宽度为总时间间隔的若干段日志KPI曲线窗口段，按步骤A1的分割方法将日志KPI曲线窗口段分割成时序宽度为1分钟的i段日志KPI曲线数据集M ’ _i，每一段是一个波段；

，并从大到小排序，在波形相似度排序为前95%的波段中，取波形相似度的最小值作为该分组的分组边界线B’ _k，以各组的分组边界线为基准，判断各段日志KPI曲线数据集M’ _i是否属于该分组，对于同时属于多个分组的一段日志KPI曲线数据集M’ _i，依据分类得分Q’进行排序，将日志KPI曲线数据集M _i分组到分类得分Q’最小的分组中，如图2形成基波标签构成的标签链，获取不同KPI的模式波形，称为KPI曲线码型重排表，

；

经步骤A14处理后得到的标签信息，含有全部波段的全部信息，包含波段和波形两部分表现，波段标签有基波类型，波形标签有业务标签和周期标签两种。

这样每在日志KPI曲线上滑动一次窗口，获得一个波段链，所有的波段链等长，只是波段的分类标签排序不同，本实施例将有关联关系的不同监测指标的日志KPI曲线的曲线特征转换为了标签链排序特征，由于有关联关系，所以这些日志KPI曲线的波幅虽然不同，但周期相似起伏节奏相似，也就是标签排列，这样可以将海量的有关联关系的KPI曲线统一成标准一致的标签链。

步骤A15. 将不同的KPI曲线码型重排表统一时间维度放置在一个维度中，获得KPI曲线码型重排关联表。

不同的日志KPI曲线如果使用同一日志KPI曲线业务标签，可能存在因果关系，其中属于非周期日志KPI比周期日志KPI曲线有更高的可能性。

不同的日志KPI曲线如果在临近时间段存在同一日志KPI曲线段码型基波标签，可能存在因果关系，其中重复次数更多的有着更高的可能性。

所有标签链依据时间维度排列后，基于序列挖掘算法SPADE或GSP可以发掘在不同时间上发生的不同标签链之间的因果关系，如果两件事总是成对发生，认为两件事存在相关，如果其中一件事总是发生在另一件之前，则认为两者之间存在因果，前因后果。有助于补充专家对于系统中故障认定的知识体系，发现之前未发现的监测指标的关联关系，从而可在操作中基于新发现的监测指标之间的关联关系建立新的预警控制关系和调控阈值，提高同一系统中各被监测物的系统稳定性。

Claims

1.基于日志关键词生成KPI曲线并标记波段特征的方法，其步骤包括:

步骤F6.基于现有的故障事件关系表，使用Snowball算法发现事件元组的事件关联规则，根据事件关联规则发现事件元组中的关联事件组，即生成日志关键事件关系表；

步骤F7.然后按步骤F5处理步骤F3获得的词性队列，得到真事件元组，重复步骤F6获得真事件元组的日志关键事件关系表，直至步骤F6收敛；

步骤F8.将日志关键事件关系表中各事件作为关键词，统计各关键词的频次c_i，i表示关键词的序号，将所有关键词对应的In(c_i)组成一个集合，若In(c_i)低于该集合的三西格玛下限则删除对应的关键词，保留的关键词作为关键词;

步骤S1.以各关键词每分钟出现的次数作为监测指标，建立各个关键词KPI曲线；

步骤S4.合并统计同一类日志关键事件标签在同一时间段出现的次数取频次，得到各日志关键事件标签的日志直方图, 使用高斯核平滑处理日志直方图得到各日志KPI曲线；

Q=((1-NCC _{M i-J k})/(1-B _k))²；

步骤A14.先按步骤A13获得的滑动窗口，将步骤S4之后使用高斯核平滑处理后得到的各个日志KPI曲线分割成时序宽度为总时间间隔的若干段日志KPI曲线窗口段，按步骤A1的分割方法将日志KPI曲线窗口段分割成时序宽度为1分钟的i段日志KPI曲线数据集M’ _i，每一段是一个波段；

使用NCC算法依据步骤A2得到的各基波逐一与每一条日志KPI曲线的每一个窗口内的各波段进行相似度计算，得到NCCM’ _{i-J k}，并从大到小排序，在波形相似度排序为前95%的波段中，取波形相似度的最小值作为该分组的分组边界线B’ _k,以各组的分组边界线为基准，判断各段日志KPI曲线数据集M’ _i是否属于该分组，对于同时属于多个分组的一段日志KPI曲线数据集M’ _i，依据分类得分Q’进行排序，将日志KPI曲线数据集M _i分组到分类得分Q’最小的分组中，形成基波标签构成的标签链，获取不同KPI的模式波形，称为KPI曲线码型重排表，

；

2.根据权利要求1所述的方法，其特征在于，步骤F1中计算相似度包括以下步骤：基于预构建的语料库对句子对中的句子分别进行分词，其中，预构建的语料库包括行业语料库和普通语料库；

3.根据权利要求2所述的方法，其特征在于，步骤S1~S2之间还包括：使用高斯核平滑处理各个关键词KPI曲线。

4.根据权利要求2所述的方法，其特征在于，步骤F6包括：

步骤C1.使用现有的故障事件关系表，匹配事件元组中包含故障事件关系表中的事件的队列，并生成模板；模板的格式为五元组形式，分别为<left>，事件1类型，<middle>，事件2类型，<right>；len为任意设定长度，<left>为事件1左边len个词汇的向量表示，<middle>为事件1和事件2间的词汇向量表示，<right>为事件右边len个词汇的向量表示；

步骤C2.对生成的模板采用聚类，将相似度大于阈值三的模板聚为一类，利用平均的方法生成新的模板，加入用来存储模板的规则库；由步骤C2可知模板的格式记为