CN115858794B

CN115858794B - 用于网络运行安全监测的异常日志数据识别方法

Info

Publication number: CN115858794B
Application number: CN202310132507.1A
Authority: CN
Inventors: 米存照
Original assignee: Beijing Telixin Electronics Technology Co ltd
Current assignee: Beijing Telixin Electronics Technology Co ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-05
Anticipated expiration: 2043-02-20
Also published as: CN115858794A

Abstract

本发明涉及数据处理技术领域，具体涉及一种用于网络运行安全监测的异常日志数据识别方法，该方法包括：获取历史数据中的正常日志和异常日志，提取异常日志中的高频异常词汇；计算高频异常词汇的异常特征值，获得标准异常特征值；获取当前时间节点的目标日志，根据目标日志和历史数据中相同时间节点的正常日志之间的相似度得到第一评价指标；根据历史数据中与当前时间节点相同时间节点的异常日志的数量得到第二评价指标；根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标；进而获得全局评价指标，判断目标日志是否属于异常日志数据。本发明能够获得较为准确的异常日志数据识别结果。

Description

用于网络运行安全监测的异常日志数据识别方法

技术领域

本发明涉及数据技术领域，具体涉及一种用于网络运行安全监测的异常日志数据识别方法。

背景技术

随着科技的发展，网络通信技术已经应用到生活的方方面面，而在网络运行的过程中，为了保证网络能够被安全无故障的使用，需要利用网络运行管理系统对网络运行安全进行实时监测，常用的监测手法是根据网络运行管理系统在一定周期内的日志，利用日志模板进行异常日志的识别，通过识别出的异常日志实现网络运行安全的监测。但是利用该方法对没有获得模板的异常日志进行识别时，准确度较低，一些异常日志无法被识别出来，从而影响异常运行网络进行抢修的最佳时期。最终利用模板识别方法对异常日志数据进行识别的准确度较低。

发明内容

为了解决对异常日志数据进行识别的准确度较低的技术问题，本发明的目的在于提供一种用于网络运行安全监测的异常日志数据识别方法，所采用的技术方案具体如下：

获取网络运行管理系统的历史数据中不同时间节点的正常日志和异常日志，根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇；

根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值，根据所有高频异常词汇的异常特征值得到标准异常特征值；

获取当前时间节点的目标日志，根据目标日志和历史数据中相同时间节点的正常日志之间的相似度得到第一评价指标；根据历史数据中与当前时间节点相同时间节点的异常日志的数量得到第二评价指标；根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标；

根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标，根据全局评价指标判断目标日志是否属于异常日志数据。

优选地，所述根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值具体为：

将任意一个高频异常词汇记为选定词汇，对于历史数据中的任意一条异常日志，获取选定词汇在该异常日志中出现的总次数记为第一系数，计算选定词汇在所有异常日志中的第一系数的均值；将选定词汇在所有异常日志中出现的日志条数与所有异常日志的总条数之间的比值记为特征比值；以所述均值、特征比值以及选定词汇对应出现的概率之间的乘积作为选定词汇的异常特征值。

优选地，所述第三评价指标的获取方法具体为：

将目标日志中存在的所有高频异常词汇的异常特征值之和记为目标日志的异常特征参数，以标准异常特征值与所述异常特征参数之间的差值的绝对值作为第三评价指标。

优选地，所述根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标具体为：

对第三评价指标进行负相关映射；计算预设的第一数值与第二评价指标之间的差值，以预设的第二数值与所述差值的和值作为第三系数；计算第三评价指标的负相关映射值与第三系数之间的比值，以第二评价指标和所述比值的乘积作为全局评价指标。

优选地，所述第一评价指标的获取方法具体为：

提取目标日志的日志模板，将历史数据中正常日志的日志模板中，与目标日志的日志模板相同词汇最多的正常日志的日志模板，记为最佳匹配模板；获取目标日志的日志模板与最佳匹配模板相同的词汇的数量，以所述数量与目标日志的日志模板中所有词汇的总数量之间的比值作为第一评价指标。

优选地，所述第二评价指标的获取方法具体为：

将历史数据中与当前时间节点相同时间节点异常日志的数量记为第一数量，将历史数据中与当前时间节点相同时间节点的所有日志的数量记为第二数量，以第一数量和第二数量的比值作为第二评价指标。

优选地，所述根据所有高频异常词汇的异常特征值得到标准异常特征值具体为：

对于历史数据中任意一条异常日志，以该异常日志中所有高频异常词汇的异常特征之和作为该异常日志的第二系数；以历史数据中所有异常日志的第二系数的均值作为标准异常特征值。

优选地，所述根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇具体为：

对于历史数据中的异常日志的任意一个词汇，当该词汇在所有异常日志中出现的概率大于或等于预设的高频阈值时，该词汇为高频异常词汇。

优选地，所述高频阈值的获取方法具体为：

根据历史数据中的异常日志中的词汇对应出现的概率对异常日志中的词汇进行聚类得到至少两个类别；对于任意一个类别，将该类别内所有词汇对应出现的概率的均值与该类别内词汇数量占所有词汇数量的比值之间的乘积即为类别概率特征值，以所有类别的类别概率特征值的平均数作为高频阈值。

优选地，所述根据全局评价指标判断目标日志是否属于异常日志数据具体为：

当目标日志的全局评价指标大于或等于预设的评价阈值时，目标日志为异常的日志数据；当目标日志的全局评价指标小于评价阈值时，目标日志为正常的日志数据。

本发明实施例至少具有如下有益效果：

本发明首先将历史数据中的日志区分为正常日志和异常日志，能够从正常数据和异常数据两个方面分别对日志数据的异常情况进行识别，首先对历史数据中的异常数据中的高频异常词汇进行提取，根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值，考虑了高频异常词汇在异常日志中的分布情况，利用标准异常特征值表征所有高频异常词汇的特征参数；进一步的，将目标日志与历史数据中的正常日志进行对比分析，得到第一评价指标，反映了目标日志与历史数据中正常日志之间的相似性，利用第二评价指标判断历史数据中与当前时间节点相同的时间节点是否存在着大量的异常日志，进而表征目标日志为异常的日志数据的概率，根据高频异常词汇的特征参数将目标日志与历史数据中异常日志进行对比分析，反映了目标日志与历史数据中异常日志之间的相似性；最终结合三个方面的分析结果获得全局评价指标，利用全局评价指标对当前时间节点产生的目标日志进行异常日志数据识别，获得的识别结果较为准确。

同时，相较于现有的周期性模板匹配算法进行日志异常的检测而言，其速度更快，不用进行周期性的等待。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是一种用于网络运行安全监测的异常日志数据识别方法的方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于网络运行安全监测的异常日志数据识别方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于网络运行安全监测的异常日志数据识别方法的具体方案。

实施例：

本发明的主要目的是：通过将网络运行管理系统中待识别的日志与历史数据中的正常日志以及异常日志进行对比分析，获取待识别的日志为异常日志数据的置信程度，通过置信程度进行日志是否异常的判断。

请参阅图1，其示出了本发明一个实施例提供的一种用于网络运行安全监测的异常日志数据识别方法的方法流程图，该方法包括以下步骤：

步骤一，获取网络运行管理系统的历史数据中不同时间节点的正常日志和异常日志，根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇。

首先，为了对在当前时间节点实时采集的网络运行管理系统中的日志进行异常分析，需要对网络运行管理系统的历史数据进行收集，即需要获取网络运行管理系统的历史数据中与当前时间节点相同的时间节点对应的日志数据。例如，当前时间节点为时刻t，则在历史数据中的时刻t时，获取网络运行管理系统所产生的所有日志数据。

同时，由于历史数据中的日志数据缺乏结构性，不便于后续的计算，故本实施例对历史数据中日志数据进行结构化处理，对数据进行结构化处理的方法为公知技术，实施者可根据具体实施场景进行选择，例如Serilog的方法。在本实施例中对日志进行结构化处理的具体结构为，时间戳，日志常量，日志变量。

然后，获取网络运行管理系统的历史数据中不同时间节点的正常日志和异常日志，即对历史数据中的日志数据进行区分，对历史数据中正常日志与当前时间节点的日志进行对比分析，进而对历史数据中的异常日志与当前时间节点的日志进行对比分析，结合两个方面的对比分析结果获得当前时间节点的日志数据的异常识别结果。

其中，由于日志信息是由开发人员基于网络数据语句获得的，对于日志的生成是具有一定的模板的。但是数据异常的随机性较大，即异常日志的生成具有一定的随机性，不同的异常日志对应的日志模板是各种各样的，故需要先对异常日志的相关特征进行分析，量化历史数据值异常日志的数据特征。

需要说明的是，在网络运行管理系统的历史数据中，正常日志与异常日志均是已知的，故仅对历史数据中的正常日志和异常日志进行分类提取即可。获得历史数据中不同时间节点的正常日志和异常日志后，将历史数据中的所有正常日志建立正常日志数据库，将历史数据中的所有异常日志建立异常日志数据库。

进一步的，由于后续需要对历史数据中正常日志与当前时间节点的日志进行对比分析，而正常日志的生成具有一定的模板，故可以利用日志模板对历史数据中正常日志与当前时间节点的日志进行对比分析，进而需要提取历史数据中的正常日志的日志模板。在本实施例中，利用Drain算法提取历史数据中的正常日志的日志模板。其中，Drain算法为公知技术，在此不再过多介绍。

最后，由于异常日志的模板具有随机性，提取到的异常日志的数量较多，同时，利用历史数据中的异常日志的模板对当前时间节点的日志进行异常识别时，可能会由于模板不存在而造成误识别，进而影响异常运行网络进行抢修的最佳时期。因此，本发明通过获取历史数据中异常日志的数据特征，进而对当前时间节点的日志进行异常识别。

对历史数据中的异常日志的数据特征进行分析处理，根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇，具体地，对于历史数据中的异常日志的任意一个词汇，当该词汇在所有异常日志中出现的概率大于或等于预设的高频阈值时，该词汇为高频异常词汇。

即当第i个词汇在所有异常日志中出现的概率大于或等于高频阈值时，则认为第i个词汇是高频异常词汇，当第i个词汇在所有异常日志中出现的概率小于高频阈值时，则认为第i个词汇是非高频异常词汇，进而利用高频阈值能够筛选出所有的高频异常词汇。

在本实施例中，通过历史数据中的异常日志中的所有词汇对应的出现的概率，获取高频阈值。具体地，根据历史数据中的异常日志中的词汇对应出现的概率对异常日志中的词汇进行聚类得到至少两个类别；对于任意一个类别，将该类别内所有词汇对应出现的概率的均值与该类别内词汇数量占所有词汇数量的比值之间的乘积即为类别概率特征值，以所有类别的类别概率特征值的平均数作为高频阈值。

其中，在本实施例中，利用K-Means聚类算法对词汇进行聚类，实施者也可根据具体实施场景选择其他合适的聚类算法。

所述高频阈值的计算公式表示为：

其中，Y为高频阈值，表示聚类类别的总数量，表示第k个类别中包含词汇的总数量，表示第k个类别中第i个词汇在所有异常日志中出现的概率，表示第k个类别中词汇的数量与所有词汇的总数量之间的比值，表示第k个类别的类别概率特征值。

需要说明的是，日志是由单词构成的，而异常日志是不具有特定模板的，故本实施例通过对历史数据中的异常日志中的所有词汇进行统计，而后分析所有异常日志中不同的词汇出现的概率，利用概率对异常日志中的所有词汇进行聚类，进而对每个类别中词汇对应出现的概率进行标准计算，即将一个类别中所有词汇对应出现的概率的均值作为类别概率特征值，表征该类别中词汇对应出现的概率的均衡情况。

进一步的，再计算所有类别的类别概率特征值的平均值得到高频阈值，以该方法获取高频阈值，在异常日志中所有词汇对应出现的概率相差较大的时候，聚类产生的类别数量较多，说明相同概率的词汇出现异常的频率较为普遍，利用该方法计算获得的高频阈值的取值较低，通过阈值筛选能够获得较多的高频异常词汇，使得后续的处理更加准确。在异常日志中所有词汇对应出现的概率相差较小的时候，聚类产生的类别数量较小，利用该方法计算获得的高频阈值的取值较大，而高频阈值作为异常日志中所有词汇对应出现概率的集中表征，通过阈值筛选能够减少计算量。

步骤二，根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值，根据所有高频异常词汇的异常特征值得到标准异常特征值。

需要说明的是，高频异常词汇在异常日志中出现的概率表示该高频异常词汇在所有的异常日志数据中出现的概率较大，说明该高频异常词汇的重要程度较大。但是概率并不能说明高频异常词汇在异常日志中的分布情况，仅利用概率对高频异常词汇的重要程度进行表征时，容易受到偶然现象的影响。例如，在某两条异常日志中存在大量重复的第j个高频异常词汇，而在其他异常日志中存在较少的第j个高频异常词汇。故需对高频异常词汇在异常日志中的分布情况进行分析，

将任意一个高频异常词汇记为选定词汇，对于历史数据中的任意一条异常日志，获取选定词汇在该异常日志中出现的总次数记为第一系数，计算选定词汇在所有异常日志中的第一系数的均值；将选定词汇在所有异常日志中出现的日志条数与所有异常日志的总条数之间的比值记为特征比值；以所述均值、特征比值以及选定词汇对应出现的概率之间的乘积作为选定词汇的异常特征值，用公式表示为：

其中，表示第j个高频异常词汇的异常特征值，也即选定词汇的异常特征值，表示第j个高频异常词汇在所有异常日志中出现的日志条数，表示历史数据中所有异常日志的总条数，表示第j个高频异常词汇在所有异常日志中出现的概率，表示第j个高频异常词汇在第m条异常日志中出现的总次数，即第j个高频异常词汇在第m条异常日志中的第一系数，为特征比值。

表示对所有条异常日志中每一条异常日志进行第j个高频异常词汇的分布情况的统计，能够表征第j个高频异常词汇在所有条异常日志中的分布情况，其取值越大，说明第j个高频异常词汇在所有条异常日志中出现的条数越多，说明第j个高频异常词汇出现是异常情况中的普遍情况，进而说明第j个高频异常词汇的重要程度越大，对应的异常特征值的取值越大。

表示第j个高频异常词汇在每一条异常日志中出现次数的统计，反映了第j个高频异常词汇在所有条异常日志中出现次数的均衡情况，该值越大，说明第j个高频异常词汇在所有条异常日志中每一条异常日志出现的次数越多，进而说明第j个高频异常词汇的重要程度越大，对应的异常特征值的取值越大。

的取值越大，说明第j个高频异常词汇在所有条异常日志中出现的概率越大，进而说明第j个高频异常词汇的重要程度越大，对应的异常特征值的取值越大。

需要说明的是，是第j个高频词汇出现的次数占所有异常日志中所有词汇的比例，反映了第j个高频异常词汇在所有词汇中出现的整体趋势，同时，当两个高频异常词汇对应出现的概率相等时，结合高频异常词汇出现的次数的均衡情况进行分析，哪一个高频异常词汇出现的次数越多，则哪一个高频异常词汇更重要。

高频异常词汇的异常特征值表征了高频异常词汇在对日志进行异常分析中的重要程度，高频异常词汇的异常特征值越大，说明该高频异常词汇在对应的日志中出现异常的可能性越大，其对日志进行异常分析的重要程度越大。高频异常词汇的异常特征值越小，说明该高频异常词汇在对应的日志中出现异常的可能性越小，其对日志进行异常分析的重要程度越小。

进一步的，为了后续方便将当前时间节点的日志与历史数据中的异常日志进行对比分析，故需对通过历史数据中异常日志获得的所有高频异常词汇的异常特征值进行分析处理。获取历史数据中每一条异常日志中所有高频异常词汇的异常特征中的均衡情况。

即根据所有高频异常词汇的异常特征值得到标准异常特征值，具体地，对于历史数据中任意一条异常日志，以该异常日志中所有高频异常词汇的异常特征之和作为该异常日志的第二系数；以历史数据中所有异常日志的第二系数的均值作为标准异常特征值，用公式表示为：

其中，表示历史数据中异常日志的标准异常特征值，表示历史数据中所有异常日志的总条数，表示第m条异常日志中第j个高频异常词汇的异常特征值，表示第m条异常日志中包含的高频异常词汇的总数量。

为第m条异常日志的第二系数，以异常日志中所有出现的高频异常词汇的异常特征值的总和作为异常日志的特征参数，反映了第m条异常日志的数据异常情况，进而计算所有异常日志的第二系数的均值得到标准异常特征值，则表示所有异常日志的特征参数，反映了异常日志数据异常的均衡情况，即当一条日志存在异常情况时，其对应的特征参数应当接近标准异常特征值。

步骤三，获取当前时间节点的目标日志，根据目标日志和历史数据中相同时间节点的正常日志之间的相似度得到第一评价指标；根据历史数据中与当前时间节点相同时间节点的异常日志的数量得到第二评价指标；根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标。

首先，对当前时间节点的网络运行管理系统所产生的日志进行异常情况的分析，将网络运行管理系统在当前时间节点产生的日志记为目标日志，先将目标日志与历史数据中的正常日志进行对比分析。

在步骤一中获取了历史数据中的正常日志的日志模板，进而可以根据目标日志以及正常日志的日志模板之间的相似程度，表征目标日志为正常的日志数据的可能性大小。即根据目标日志和历史数据中相同时间节点的正常日志之间的相似性得到第一评价指标。

具体地，提取目标日志的日志模板，该模板的提取方法也采用Drain算法进行处理，实施者也可根据具体实施场景选择其他合适的算法进行模板的提取。进而根据模板之间的相似程度对目标日志进行模板的匹配，在本实施例中，以两个日志模板之间相同的词汇数量作为相似程度，将目标日志的日志模板与正常日志的日志模板之间的相似程度最大的正常日志的日志模板作为最佳匹配模板。即将历史数据中正常日志的日志模板中，与目标日志的日志模板相同词汇最多的正常日志的日志模板，记为最佳匹配模板；

获取目标日志的日志模板与最佳匹配模板相同的词汇的数量，以所述数量与目标日志的日志模板中所有词汇的总数量之间的比值作为第一评价指标。

第一评价指标表征了目标日志与历史数据中正常日志之间的相似性，即目标日志的日志模板与最佳匹配模板相同的词汇的数量越多，第一评价指标的取值越大，说明目标日志与历史数据中正常日志之间的相似性越大，则目标日志属于正常的日志数据的可能性越大。目标日志的日志模板与最佳匹配模板相同的词汇的数量越少，第一评价指标的取值越小，说明目标日志与历史数据中正常日志之间的相似性越小，则目标日志属于正常的日志数据的可能性越小。

然后，对历史数据中与当前时间节点相同的时间节点的所有异常日志进行分析，例如，当前时间节点为时刻t，则获取历史数据中在时刻t的所有日志，统计历史数据中在时刻t的正常日志的数量以及异常日志的数量，异常日志的数量越多，说明在历史上时刻t的日志为异常的情况越多，进而可以表征在当前时间节点下的时刻t的日志为异常数据的可能性越大。

基于此，根据历史数据中与当前时间节点相同时间节点异常日志的数量得到第二评价指标，具体地，将历史数据中与当前时间节点相同时间节点异常日志的数量记为第一数量，将历史数据中与当前时间节点相同时间节点的所有日志的数量记为第二数量，以第一数量和第二数量的比值作为第二评价指标，用公式表示为：

其中，为目标日志的第二评价指标，表示历史数据中在时刻t的异常日志，即为第一数量；表示历史数据在时刻t的正常日志，表示第二数量。

第二评价指标表征了目标日志对应的当前时间节点，在历史数据中相同时间节点的日志出现异常情况的概率。历史数据中时刻t的异常日志的数量越多，第二评价指标的取值越大，说明历史数据中时刻t的所有日志中出现异常情况的概率较大，说明在历史数据中时刻t的日志为异常的情况越多，进而可以表征在当前时间节点下的时刻t的日志为异常数据的可能性越大。

需要说明的是，异常日志是网络运行管理系统在网络运行出现故障时系统产生的日志，而某些故障在时间上具有一定的规律性，例如，每天的下班时间，网络使用人数激增，导致负载过量，从而使得网络运行出现异常情况。所以在对当前时间节点的日志进行异常判断时，一个重要的指标即是判断历史数据中相同时间节点是否存在大量的异常日志，若历史数据中每一天相同时间节点所产生的日志大部分为异常日志，则说明当前时间节点产生的日志的异常的概率越大。

最后，将目标日志与历史数据中的异常日志进行对比分析，当目标日志中出现高频异常词汇时，说明目标日志可能存在异常情况，当目标日志中出现高频异常词汇的数量越多时，目标日志出现异常情况的可能性越大。基于此，根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标，具体地，将目标日志中存在的所有高频异常词汇的异常特征值之和记为目标日志的异常特征参数，以标准异常特征值与所述异常特征参数之间的差值的绝对值作为第三评价指标，用公式表示为：

其中，为目标日志的第三评价指标，表示历史数据中异常日志的标准异常特征值，表示目标日志r中第s个高频异常词汇的异常特征值，表示目标日志r中包含的高频异常词汇的总数量。

为目标日志r的异常特征参数，表示目标日志中所有高频异常词汇的异常特征值的加和情况性。表示所有异常日志的特征参数，反映了异常日志数据异常的均衡情况，即当一条日志存在异常情况时，其对应的特征参数应当接近标准异常特征值。

因此，当的取值越大时，说明目标日志的异常特征值与之间的差异越大，对应的第三评价指标的取值越大，说明目标日志出现异常情况的可能性越小。当的取值越小时，说明目标日志的异常特征值与之间的差异越小，目标日志对应的特征参数越接近标准异常特征值，对应的第三评价指标的取值越小，说明目标日志出现异常情况的可能性越大。

步骤四，根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标，根据全局评价指标判断目标日志是否属于异常日志数据。

需要说明的是，第一评价指标的取值越大，说明目标日志与历史数据中正常日志之间的相似性越大，则目标日志属于正常的日志数据的可能性越大。第二评价指标的取值越大，说明历史数据中时刻t的所有日志中出现异常情况的概率较大，说明在历史数据中时刻t的日志为异常的情况越多，进而可以表征在当前时间节点下的时刻t的日志为异常数据的可能性越大。第三评价指标的取值越小，目标日志对应的特征参数越接近标准异常特征值，说明目标日志出现异常情况的可能性越大。

基于此，根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标，具体地，对第三评价指标进行负相关映射；计算预设的第一数值与第二评价指标之间的差值，以预设的第二数值与所述差值的和值作为第三系数；计算第三评价指标的负相关映射值与第三系数之间的比值，以第二评价指标和所述比值的乘积作为全局评价指标，用公式表示为：

其中，P为目标日志的全局评价指标，为目标日志的第一评价指标，为目标日志的第二评价指标，为目标日志的第三评价指标，e为自然常数。为第三评价指标的负相关映射值，为第三系数，中的数值1为第一数值，中的第一个数值1为第二数值，利用第二数值防止分母为0的情况出现。

的取值越小，说明第一评价指标的取值越接近1，说明目标日志与最佳匹配模板之间的相似性越大，进而对应的全局评价指标的取值越大，说明当前时间节点产生的目标日志为正常的日志数据的可能性越大。

第二评价指标的取值越大，说明历史数据中时刻t的所有日志中出现异常情况的概率较大，说明在历史数据中时刻t的日志为异常的情况越多，对应的全局评价指标的取值越大，说明在当前时间节点产生的日志是异常的日志数据的可能性越大。第三评价指标的值越小，目标日志对应的特征参数越接近标准异常特征值，即目标日志与历史数据中的异常日志越相似，对应的全局评价指标的取值越大，说明目标日志出现异常情况的可能性越大。

通过结合三个方面的数据正常或者数据异常的分析，对当前时间节点产生的目标日志进行实时分析其异常性，判断当前时间节点的目标日志与历史数据中的正常日志和异常日志的趋近程度。

通过三个参数的相互调节来进行目标日志为异常的日志数据的置信度分析，该值越大，说明当前时间节点的目标日志，与历史数据中的正常日志的日志模板相似性越小，与历史数据中的异常日志的特征参数的差异值越小，当前时间节点产生的日志的异常率越高，则当前时间节点所产生的目标日志为异常的日志数据的可能性越大。

相较于现有的周期性模板匹配算法进行日志异常的检测而言，本发明的方法速度更快，不用进行周期性的等待，在整体网络运行的异常的第一时间就可以通过日志进行异常判断，从而使得更快的进行网络运行故障的抢修工作。

进一步的，根据全局评价指标判断目标日志是否属于异常日志数据，在本实施例中，当目标日志的全局评价指标大于或等于预设的评价阈值时，目标日志为异常的日志数据；当目标日志的全局评价指标小于评价阈值时，目标日志为正常的日志数据。其中，评价阈值的取值为0.46，实施者可根据具体实施场景进行设置。

作为其他实施方式，根据全局评价指标对目标日志进行二元判断，用公式表示为：

其中， f为目标日志的判断值，P为目标日志的全局评价指标，为评价阈值，取值为0.46。

利用目标日志的判断值进行目标日志是否为异常日志数据的判断，当 f=1时，认为当前时间节点的目标日志为异常的日志数据，需要对当前时间节点的目标日志进行系统报错处理，而后可以根据目标日志所产生的故障环节进行网络运行管理系统的故障排查。当 f=0时，认为当前时间节点的目标日志为正常的日志数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种用于网络运行安全监测的异常日志数据识别方法，其特征在于，该方法包括以下步骤：

根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标，根据全局评价指标判断目标日志是否属于异常日志数据；

所述第一评价指标的获取方法具体为：

提取目标日志的日志模板，将历史数据中正常日志的日志模板中，与目标日志的日志模板相同词汇最多的正常日志的日志模板，记为最佳匹配模板；获取目标日志的日志模板与最佳匹配模板相同的词汇的数量，以所述数量与目标日志的日志模板中所有词汇的总数量之间的比值作为第一评价指标；

所述第二评价指标的获取方法具体为：

将历史数据中与当前时间节点相同时间节点异常日志的数量记为第一数量，将历史数据中与当前时间节点相同时间节点的所有日志的数量记为第二数量，以第一数量和第二数量的比值作为第二评价指标；

所述第三评价指标的获取方法具体为：

2.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法，其特征在于，所述根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值具体为：

3.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法，其特征在于，所述根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标具体为：

4.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法，其特征在于，所述根据所有高频异常词汇的异常特征值得到标准异常特征值具体为：

5.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法，其特征在于，所述根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇具体为：

6.根据权利要求5所述的一种用于网络运行安全监测的异常日志数据识别方法，其特征在于，所述高频阈值的获取方法具体为：

7.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法，其特征在于，所述根据全局评价指标判断目标日志是否属于异常日志数据具体为：