CN115858794B - 用于网络运行安全监测的异常日志数据识别方法 - Google Patents

用于网络运行安全监测的异常日志数据识别方法 Download PDF

Info

Publication number
CN115858794B
CN115858794B CN202310132507.1A CN202310132507A CN115858794B CN 115858794 B CN115858794 B CN 115858794B CN 202310132507 A CN202310132507 A CN 202310132507A CN 115858794 B CN115858794 B CN 115858794B
Authority
CN
China
Prior art keywords
abnormal
log
evaluation index
logs
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310132507.1A
Other languages
English (en)
Other versions
CN115858794A (zh
Inventor
米存照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Telixin Electronics Technology Co ltd
Original Assignee
Beijing Telixin Electronics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Telixin Electronics Technology Co ltd filed Critical Beijing Telixin Electronics Technology Co ltd
Priority to CN202310132507.1A priority Critical patent/CN115858794B/zh
Publication of CN115858794A publication Critical patent/CN115858794A/zh
Application granted granted Critical
Publication of CN115858794B publication Critical patent/CN115858794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种用于网络运行安全监测的异常日志数据识别方法,该方法包括:获取历史数据中的正常日志和异常日志,提取异常日志中的高频异常词汇;计算高频异常词汇的异常特征值,获得标准异常特征值;获取当前时间节点的目标日志,根据目标日志和历史数据中相同时间节点的正常日志之间的相似度得到第一评价指标;根据历史数据中与当前时间节点相同时间节点的异常日志的数量得到第二评价指标;根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标;进而获得全局评价指标,判断目标日志是否属于异常日志数据。本发明能够获得较为准确的异常日志数据识别结果。

Description

用于网络运行安全监测的异常日志数据识别方法
技术领域
本发明涉及数据技术领域,具体涉及一种用于网络运行安全监测的异常日志数据识别方法。
背景技术
随着科技的发展,网络通信技术已经应用到生活的方方面面,而在网络运行的过程中,为了保证网络能够被安全无故障的使用,需要利用网络运行管理系统对网络运行安全进行实时监测,常用的监测手法是根据网络运行管理系统在一定周期内的日志,利用日志模板进行异常日志的识别,通过识别出的异常日志实现网络运行安全的监测。但是利用该方法对没有获得模板的异常日志进行识别时,准确度较低,一些异常日志无法被识别出来,从而影响异常运行网络进行抢修的最佳时期。最终利用模板识别方法对异常日志数据进行识别的准确度较低。
发明内容
为了解决对异常日志数据进行识别的准确度较低的技术问题,本发明的目的在于提供一种用于网络运行安全监测的异常日志数据识别方法,所采用的技术方案具体如下:
获取网络运行管理系统的历史数据中不同时间节点的正常日志和异常日志,根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇;
根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值,根据所有高频异常词汇的异常特征值得到标准异常特征值;
获取当前时间节点的目标日志,根据目标日志和历史数据中相同时间节点的正常日志之间的相似度得到第一评价指标;根据历史数据中与当前时间节点相同时间节点的异常日志的数量得到第二评价指标;根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标;
根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标,根据全局评价指标判断目标日志是否属于异常日志数据。
优选地,所述根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值具体为:
将任意一个高频异常词汇记为选定词汇,对于历史数据中的任意一条异常日志,获取选定词汇在该异常日志中出现的总次数记为第一系数,计算选定词汇在所有异常日志中的第一系数的均值;将选定词汇在所有异常日志中出现的日志条数与所有异常日志的总条数之间的比值记为特征比值;以所述均值、特征比值以及选定词汇对应出现的概率之间的乘积作为选定词汇的异常特征值。
优选地,所述第三评价指标的获取方法具体为:
将目标日志中存在的所有高频异常词汇的异常特征值之和记为目标日志的异常特征参数,以标准异常特征值与所述异常特征参数之间的差值的绝对值作为第三评价指标。
优选地,所述根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标具体为:
对第三评价指标进行负相关映射;计算预设的第一数值与第二评价指标之间的差值,以预设的第二数值与所述差值的和值作为第三系数;计算第三评价指标的负相关映射值与第三系数之间的比值,以第二评价指标和所述比值的乘积作为全局评价指标。
优选地,所述第一评价指标的获取方法具体为:
提取目标日志的日志模板,将历史数据中正常日志的日志模板中,与目标日志的日志模板相同词汇最多的正常日志的日志模板,记为最佳匹配模板;获取目标日志的日志模板与最佳匹配模板相同的词汇的数量,以所述数量与目标日志的日志模板中所有词汇的总数量之间的比值作为第一评价指标。
优选地,所述第二评价指标的获取方法具体为:
将历史数据中与当前时间节点相同时间节点异常日志的数量记为第一数量,将历史数据中与当前时间节点相同时间节点的所有日志的数量记为第二数量,以第一数量和第二数量的比值作为第二评价指标。
优选地,所述根据所有高频异常词汇的异常特征值得到标准异常特征值具体为:
对于历史数据中任意一条异常日志,以该异常日志中所有高频异常词汇的异常特征之和作为该异常日志的第二系数;以历史数据中所有异常日志的第二系数的均值作为标准异常特征值。
优选地,所述根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇具体为:
对于历史数据中的异常日志的任意一个词汇,当该词汇在所有异常日志中出现的概率大于或等于预设的高频阈值时,该词汇为高频异常词汇。
优选地,所述高频阈值的获取方法具体为:
根据历史数据中的异常日志中的词汇对应出现的概率对异常日志中的词汇进行聚类得到至少两个类别;对于任意一个类别,将该类别内所有词汇对应出现的概率的均值与该类别内词汇数量占所有词汇数量的比值之间的乘积即为类别概率特征值,以所有类别的类别概率特征值的平均数作为高频阈值。
优选地,所述根据全局评价指标判断目标日志是否属于异常日志数据具体为:
当目标日志的全局评价指标大于或等于预设的评价阈值时,目标日志为异常的日志数据;当目标日志的全局评价指标小于评价阈值时,目标日志为正常的日志数据。
本发明实施例至少具有如下有益效果:
本发明首先将历史数据中的日志区分为正常日志和异常日志,能够从正常数据和异常数据两个方面分别对日志数据的异常情况进行识别,首先对历史数据中的异常数据中的高频异常词汇进行提取,根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值,考虑了高频异常词汇在异常日志中的分布情况,利用标准异常特征值表征所有高频异常词汇的特征参数;进一步的,将目标日志与历史数据中的正常日志进行对比分析,得到第一评价指标,反映了目标日志与历史数据中正常日志之间的相似性,利用第二评价指标判断历史数据中与当前时间节点相同的时间节点是否存在着大量的异常日志,进而表征目标日志为异常的日志数据的概率,根据高频异常词汇的特征参数将目标日志与历史数据中异常日志进行对比分析,反映了目标日志与历史数据中异常日志之间的相似性;最终结合三个方面的分析结果获得全局评价指标,利用全局评价指标对当前时间节点产生的目标日志进行异常日志数据识别,获得的识别结果较为准确。
同时,相较于现有的周期性模板匹配算法进行日志异常的检测而言,其速度更快,不用进行周期性的等待。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是一种用于网络运行安全监测的异常日志数据识别方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于网络运行安全监测的异常日志数据识别方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于网络运行安全监测的异常日志数据识别方法的具体方案。
实施例:
本发明的主要目的是:通过将网络运行管理系统中待识别的日志与历史数据中的正常日志以及异常日志进行对比分析,获取待识别的日志为异常日志数据的置信程度,通过置信程度进行日志是否异常的判断。
请参阅图1,其示出了本发明一个实施例提供的一种用于网络运行安全监测的异常日志数据识别方法的方法流程图,该方法包括以下步骤:
步骤一,获取网络运行管理系统的历史数据中不同时间节点的正常日志和异常日志,根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇。
首先,为了对在当前时间节点实时采集的网络运行管理系统中的日志进行异常分析,需要对网络运行管理系统的历史数据进行收集,即需要获取网络运行管理系统的历史数据中与当前时间节点相同的时间节点对应的日志数据。例如,当前时间节点为时刻t,则在历史数据中的时刻t时,获取网络运行管理系统所产生的所有日志数据。
同时,由于历史数据中的日志数据缺乏结构性,不便于后续的计算,故本实施例对历史数据中日志数据进行结构化处理,对数据进行结构化处理的方法为公知技术,实施者可根据具体实施场景进行选择,例如Serilog的方法。在本实施例中对日志进行结构化处理的具体结构为,时间戳,日志常量,日志变量。
然后,获取网络运行管理系统的历史数据中不同时间节点的正常日志和异常日志,即对历史数据中的日志数据进行区分,对历史数据中正常日志与当前时间节点的日志进行对比分析,进而对历史数据中的异常日志与当前时间节点的日志进行对比分析,结合两个方面的对比分析结果获得当前时间节点的日志数据的异常识别结果。
其中,由于日志信息是由开发人员基于网络数据语句获得的,对于日志的生成是具有一定的模板的。但是数据异常的随机性较大,即异常日志的生成具有一定的随机性,不同的异常日志对应的日志模板是各种各样的,故需要先对异常日志的相关特征进行分析,量化历史数据值异常日志的数据特征。
需要说明的是,在网络运行管理系统的历史数据中,正常日志与异常日志均是已知的,故仅对历史数据中的正常日志和异常日志进行分类提取即可。获得历史数据中不同时间节点的正常日志和异常日志后,将历史数据中的所有正常日志建立正常日志数据库,将历史数据中的所有异常日志建立异常日志数据库。
进一步的,由于后续需要对历史数据中正常日志与当前时间节点的日志进行对比分析,而正常日志的生成具有一定的模板,故可以利用日志模板对历史数据中正常日志与当前时间节点的日志进行对比分析,进而需要提取历史数据中的正常日志的日志模板。在本实施例中,利用Drain算法提取历史数据中的正常日志的日志模板。其中,Drain算法为公知技术,在此不再过多介绍。
最后,由于异常日志的模板具有随机性,提取到的异常日志的数量较多,同时,利用历史数据中的异常日志的模板对当前时间节点的日志进行异常识别时,可能会由于模板不存在而造成误识别,进而影响异常运行网络进行抢修的最佳时期。因此,本发明通过获取历史数据中异常日志的数据特征,进而对当前时间节点的日志进行异常识别。
对历史数据中的异常日志的数据特征进行分析处理,根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇,具体地,对于历史数据中的异常日志的任意一个词汇,当该词汇在所有异常日志中出现的概率大于或等于预设的高频阈值时,该词汇为高频异常词汇。
即当第i个词汇在所有异常日志中出现的概率大于或等于高频阈值时,则认为第i个词汇是高频异常词汇,当第i个词汇在所有异常日志中出现的概率小于高频阈值时,则认为第i个词汇是非高频异常词汇,进而利用高频阈值能够筛选出所有的高频异常词汇。
在本实施例中,通过历史数据中的异常日志中的所有词汇对应的出现的概率,获取高频阈值。具体地,根据历史数据中的异常日志中的词汇对应出现的概率对异常日志中的词汇进行聚类得到至少两个类别;对于任意一个类别,将该类别内所有词汇对应出现的概率的均值与该类别内词汇数量占所有词汇数量的比值之间的乘积即为类别概率特征值,以所有类别的类别概率特征值的平均数作为高频阈值。
其中,在本实施例中,利用K-Means聚类算法对词汇进行聚类,实施者也可根据具体实施场景选择其他合适的聚类算法。
所述高频阈值的计算公式表示为:
其中,Y为高频阈值,表示聚类类别的总数量,表示第k个类别中包含词汇的总数量,表示第k个类别中第i个词汇在所有异常日志中出现的概率,表示第k个类别中词汇的数量与所有词汇的总数量之间的比值,表示第k个类别的类别概率特征值。
需要说明的是,日志是由单词构成的,而异常日志是不具有特定模板的,故本实施例通过对历史数据中的异常日志中的所有词汇进行统计,而后分析所有异常日志中不同的词汇出现的概率,利用概率对异常日志中的所有词汇进行聚类,进而对每个类别中词汇对应出现的概率进行标准计算,即将一个类别中所有词汇对应出现的概率的均值作为类别概率特征值,表征该类别中词汇对应出现的概率的均衡情况。
进一步的,再计算所有类别的类别概率特征值的平均值得到高频阈值,以该方法获取高频阈值,在异常日志中所有词汇对应出现的概率相差较大的时候,聚类产生的类别数量较多,说明相同概率的词汇出现异常的频率较为普遍,利用该方法计算获得的高频阈值的取值较低,通过阈值筛选能够获得较多的高频异常词汇,使得后续的处理更加准确。在异常日志中所有词汇对应出现的概率相差较小的时候,聚类产生的类别数量较小,利用该方法计算获得的高频阈值的取值较大,而高频阈值作为异常日志中所有词汇对应出现概率的集中表征,通过阈值筛选能够减少计算量。
步骤二,根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值,根据所有高频异常词汇的异常特征值得到标准异常特征值。
需要说明的是,高频异常词汇在异常日志中出现的概率表示该高频异常词汇在所有的异常日志数据中出现的概率较大,说明该高频异常词汇的重要程度较大。但是概率并不能说明高频异常词汇在异常日志中的分布情况,仅利用概率对高频异常词汇的重要程度进行表征时,容易受到偶然现象的影响。例如,在某两条异常日志中存在大量重复的第j个高频异常词汇,而在其他异常日志中存在较少的第j个高频异常词汇。故需对高频异常词汇在异常日志中的分布情况进行分析,
将任意一个高频异常词汇记为选定词汇,对于历史数据中的任意一条异常日志,获取选定词汇在该异常日志中出现的总次数记为第一系数,计算选定词汇在所有异常日志中的第一系数的均值;将选定词汇在所有异常日志中出现的日志条数与所有异常日志的总条数之间的比值记为特征比值;以所述均值、特征比值以及选定词汇对应出现的概率之间的乘积作为选定词汇的异常特征值,用公式表示为:
其中,表示第j个高频异常词汇的异常特征值,也即选定词汇的异常特征值,表示第j个高频异常词汇在所有异常日志中出现的日志条数,表示历史数据中所有异常日志的总条数,表示第j个高频异常词汇在所有异常日志中出现的概率,表示第j个高频异常词汇在第m条异常日志中出现的总次数,即第j个高频异常词汇在第m条异常日志中的第一系数,为特征比值。
表示对所有条异常日志中每一条异常日志进行第j个高频异常词汇的分布情况的统计,能够表征第j个高频异常词汇在所有条异常日志中的分布情况,其取值越大,说明第j个高频异常词汇在所有条异常日志中出现的条数越多,说明第j个高频异常词汇出现是异常情况中的普遍情况,进而说明第j个高频异常词汇的重要程度越大,对应的异常特征值的取值越大。
表示第j个高频异常词汇在每一条异常日志中出现次数的统计,反映了第j个高频异常词汇在所有条异常日志中出现次数的均衡情况,该值越大,说明第j个高频异常词汇在所有条异常日志中每一条异常日志出现的次数越多,进而说明第j个高频异常词汇的重要程度越大,对应的异常特征值的取值越大。
的取值越大,说明第j个高频异常词汇在所有条异常日志中出现的概率越大,进而说明第j个高频异常词汇的重要程度越大,对应的异常特征值的取值越大。
需要说明的是,是第j个高频词汇出现的次数占所有异常日志中所有词汇的比例,反映了第j个高频异常词汇在所有词汇中出现的整体趋势,同时,当两个高频异常词汇对应出现的概率相等时,结合高频异常词汇出现的次数的均衡情况进行分析,哪一个高频异常词汇出现的次数越多,则哪一个高频异常词汇更重要。
高频异常词汇的异常特征值表征了高频异常词汇在对日志进行异常分析中的重要程度,高频异常词汇的异常特征值越大,说明该高频异常词汇在对应的日志中出现异常的可能性越大,其对日志进行异常分析的重要程度越大。高频异常词汇的异常特征值越小,说明该高频异常词汇在对应的日志中出现异常的可能性越小,其对日志进行异常分析的重要程度越小。
进一步的,为了后续方便将当前时间节点的日志与历史数据中的异常日志进行对比分析,故需对通过历史数据中异常日志获得的所有高频异常词汇的异常特征值进行分析处理。获取历史数据中每一条异常日志中所有高频异常词汇的异常特征中的均衡情况。
即根据所有高频异常词汇的异常特征值得到标准异常特征值,具体地,对于历史数据中任意一条异常日志,以该异常日志中所有高频异常词汇的异常特征之和作为该异常日志的第二系数;以历史数据中所有异常日志的第二系数的均值作为标准异常特征值,用公式表示为:
其中,表示历史数据中异常日志的标准异常特征值,表示历史数据中所有异常日志的总条数,表示第m条异常日志中第j个高频异常词汇的异常特征值,表示第m条异常日志中包含的高频异常词汇的总数量。
为第m条异常日志的第二系数,以异常日志中所有出现的高频异常词汇的异常特征值的总和作为异常日志的特征参数,反映了第m条异常日志的数据异常情况,进而计算所有异常日志的第二系数的均值得到标准异常特征值,则表示所有异常日志的特征参数,反映了异常日志数据异常的均衡情况,即当一条日志存在异常情况时,其对应的特征参数应当接近标准异常特征值。
步骤三,获取当前时间节点的目标日志,根据目标日志和历史数据中相同时间节点的正常日志之间的相似度得到第一评价指标;根据历史数据中与当前时间节点相同时间节点的异常日志的数量得到第二评价指标;根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标。
首先,对当前时间节点的网络运行管理系统所产生的日志进行异常情况的分析,将网络运行管理系统在当前时间节点产生的日志记为目标日志,先将目标日志与历史数据中的正常日志进行对比分析。
在步骤一中获取了历史数据中的正常日志的日志模板,进而可以根据目标日志以及正常日志的日志模板之间的相似程度,表征目标日志为正常的日志数据的可能性大小。即根据目标日志和历史数据中相同时间节点的正常日志之间的相似性得到第一评价指标。
具体地,提取目标日志的日志模板,该模板的提取方法也采用Drain算法进行处理,实施者也可根据具体实施场景选择其他合适的算法进行模板的提取。进而根据模板之间的相似程度对目标日志进行模板的匹配,在本实施例中,以两个日志模板之间相同的词汇数量作为相似程度,将目标日志的日志模板与正常日志的日志模板之间的相似程度最大的正常日志的日志模板作为最佳匹配模板。即将历史数据中正常日志的日志模板中,与目标日志的日志模板相同词汇最多的正常日志的日志模板,记为最佳匹配模板;
获取目标日志的日志模板与最佳匹配模板相同的词汇的数量,以所述数量与目标日志的日志模板中所有词汇的总数量之间的比值作为第一评价指标。
第一评价指标表征了目标日志与历史数据中正常日志之间的相似性,即目标日志的日志模板与最佳匹配模板相同的词汇的数量越多,第一评价指标的取值越大,说明目标日志与历史数据中正常日志之间的相似性越大,则目标日志属于正常的日志数据的可能性越大。目标日志的日志模板与最佳匹配模板相同的词汇的数量越少,第一评价指标的取值越小,说明目标日志与历史数据中正常日志之间的相似性越小,则目标日志属于正常的日志数据的可能性越小。
然后,对历史数据中与当前时间节点相同的时间节点的所有异常日志进行分析,例如,当前时间节点为时刻t,则获取历史数据中在时刻t的所有日志,统计历史数据中在时刻t的正常日志的数量以及异常日志的数量,异常日志的数量越多,说明在历史上时刻t的日志为异常的情况越多,进而可以表征在当前时间节点下的时刻t的日志为异常数据的可能性越大。
基于此,根据历史数据中与当前时间节点相同时间节点异常日志的数量得到第二评价指标,具体地,将历史数据中与当前时间节点相同时间节点异常日志的数量记为第一数量,将历史数据中与当前时间节点相同时间节点的所有日志的数量记为第二数量,以第一数量和第二数量的比值作为第二评价指标,用公式表示为:
其中,为目标日志的第二评价指标,表示历史数据中在时刻t的异常日志,即为第一数量;表示历史数据在时刻t的正常日志,表示第二数量。
第二评价指标表征了目标日志对应的当前时间节点,在历史数据中相同时间节点的日志出现异常情况的概率。历史数据中时刻t的异常日志的数量越多,第二评价指标的取值越大,说明历史数据中时刻t的所有日志中出现异常情况的概率较大,说明在历史数据中时刻t的日志为异常的情况越多,进而可以表征在当前时间节点下的时刻t的日志为异常数据的可能性越大。
需要说明的是,异常日志是网络运行管理系统在网络运行出现故障时系统产生的日志,而某些故障在时间上具有一定的规律性,例如,每天的下班时间,网络使用人数激增,导致负载过量,从而使得网络运行出现异常情况。所以在对当前时间节点的日志进行异常判断时,一个重要的指标即是判断历史数据中相同时间节点是否存在大量的异常日志,若历史数据中每一天相同时间节点所产生的日志大部分为异常日志,则说明当前时间节点产生的日志的异常的概率越大。
最后,将目标日志与历史数据中的异常日志进行对比分析,当目标日志中出现高频异常词汇时,说明目标日志可能存在异常情况,当目标日志中出现高频异常词汇的数量越多时,目标日志出现异常情况的可能性越大。基于此,根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标,具体地,将目标日志中存在的所有高频异常词汇的异常特征值之和记为目标日志的异常特征参数,以标准异常特征值与所述异常特征参数之间的差值的绝对值作为第三评价指标,用公式表示为:
其中,为目标日志的第三评价指标,表示历史数据中异常日志的标准异常特征值,表示目标日志r中第s个高频异常词汇的异常特征值,表示目标日志r中包含的高频异常词汇的总数量。
为目标日志r的异常特征参数,表示目标日志中所有高频异常词汇的异常特征值的加和情况性。表示所有异常日志的特征参数,反映了异常日志数据异常的均衡情况,即当一条日志存在异常情况时,其对应的特征参数应当接近标准异常特征值。
因此,当的取值越大时,说明目标日志的异常特征值与之间的差异越大,对应的第三评价指标的取值越大,说明目标日志出现异常情况的可能性越小。当的取值越小时,说明目标日志的异常特征值与之间的差异越小,目标日志对应的特征参数越接近标准异常特征值,对应的第三评价指标的取值越小,说明目标日志出现异常情况的可能性越大。
步骤四,根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标,根据全局评价指标判断目标日志是否属于异常日志数据。
需要说明的是,第一评价指标的取值越大,说明目标日志与历史数据中正常日志之间的相似性越大,则目标日志属于正常的日志数据的可能性越大。第二评价指标的取值越大,说明历史数据中时刻t的所有日志中出现异常情况的概率较大,说明在历史数据中时刻t的日志为异常的情况越多,进而可以表征在当前时间节点下的时刻t的日志为异常数据的可能性越大。第三评价指标的取值越小,目标日志对应的特征参数越接近标准异常特征值,说明目标日志出现异常情况的可能性越大。
基于此,根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标,具体地,对第三评价指标进行负相关映射;计算预设的第一数值与第二评价指标之间的差值,以预设的第二数值与所述差值的和值作为第三系数;计算第三评价指标的负相关映射值与第三系数之间的比值,以第二评价指标和所述比值的乘积作为全局评价指标,用公式表示为:
其中,P为目标日志的全局评价指标,为目标日志的第一评价指标,为目标日志的第二评价指标,为目标日志的第三评价指标,e为自然常数。为第三评价指标的负相关映射值,为第三系数,中的数值1为第一数值,中的第一个数值1为第二数值,利用第二数值防止分母为0的情况出现。
的取值越小,说明第一评价指标的取值越接近1,说明目标日志与最佳匹配模板之间的相似性越大,进而对应的全局评价指标的取值越大,说明当前时间节点产生的目标日志为正常的日志数据的可能性越大。
第二评价指标的取值越大,说明历史数据中时刻t的所有日志中出现异常情况的概率较大,说明在历史数据中时刻t的日志为异常的情况越多,对应的全局评价指标的取值越大,说明在当前时间节点产生的日志是异常的日志数据的可能性越大。第三评价指标的值越小,目标日志对应的特征参数越接近标准异常特征值,即目标日志与历史数据中的异常日志越相似,对应的全局评价指标的取值越大,说明目标日志出现异常情况的可能性越大。
通过结合三个方面的数据正常或者数据异常的分析,对当前时间节点产生的目标日志进行实时分析其异常性,判断当前时间节点的目标日志与历史数据中的正常日志和异常日志的趋近程度。
通过三个参数的相互调节来进行目标日志为异常的日志数据的置信度分析,该值越大,说明当前时间节点的目标日志,与历史数据中的正常日志的日志模板相似性越小,与历史数据中的异常日志的特征参数的差异值越小,当前时间节点产生的日志的异常率越高,则当前时间节点所产生的目标日志为异常的日志数据的可能性越大。
相较于现有的周期性模板匹配算法进行日志异常的检测而言,本发明的方法速度更快,不用进行周期性的等待,在整体网络运行的异常的第一时间就可以通过日志进行异常判断,从而使得更快的进行网络运行故障的抢修工作。
进一步的,根据全局评价指标判断目标日志是否属于异常日志数据,在本实施例中,当目标日志的全局评价指标大于或等于预设的评价阈值时,目标日志为异常的日志数据;当目标日志的全局评价指标小于评价阈值时,目标日志为正常的日志数据。其中,评价阈值的取值为0.46,实施者可根据具体实施场景进行设置。
作为其他实施方式,根据全局评价指标对目标日志进行二元判断,用公式表示为:
其中, f为目标日志的判断值,P为目标日志的全局评价指标,为评价阈值,取值为0.46。
利用目标日志的判断值进行目标日志是否为异常日志数据的判断,当 f=1时,认为当前时间节点的目标日志为异常的日志数据,需要对当前时间节点的目标日志进行系统报错处理,而后可以根据目标日志所产生的故障环节进行网络运行管理系统的故障排查。当 f=0时,认为当前时间节点的目标日志为正常的日志数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (7)

1.一种用于网络运行安全监测的异常日志数据识别方法,其特征在于,该方法包括以下步骤:
获取网络运行管理系统的历史数据中不同时间节点的正常日志和异常日志,根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇;
根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值,根据所有高频异常词汇的异常特征值得到标准异常特征值;
获取当前时间节点的目标日志,根据目标日志和历史数据中相同时间节点的正常日志之间的相似度得到第一评价指标;根据历史数据中与当前时间节点相同时间节点的异常日志的数量得到第二评价指标;根据目标日志中存在的高频异常词汇的异常特征值和标准异常特征值得到第三评价指标;
根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标,根据全局评价指标判断目标日志是否属于异常日志数据;
所述第一评价指标的获取方法具体为:
提取目标日志的日志模板,将历史数据中正常日志的日志模板中,与目标日志的日志模板相同词汇最多的正常日志的日志模板,记为最佳匹配模板;获取目标日志的日志模板与最佳匹配模板相同的词汇的数量,以所述数量与目标日志的日志模板中所有词汇的总数量之间的比值作为第一评价指标;
所述第二评价指标的获取方法具体为:
将历史数据中与当前时间节点相同时间节点异常日志的数量记为第一数量,将历史数据中与当前时间节点相同时间节点的所有日志的数量记为第二数量,以第一数量和第二数量的比值作为第二评价指标;
所述第三评价指标的获取方法具体为:
将目标日志中存在的所有高频异常词汇的异常特征值之和记为目标日志的异常特征参数,以标准异常特征值与所述异常特征参数之间的差值的绝对值作为第三评价指标。
2.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法,其特征在于,所述根据高频异常词汇在异常日志中出现的概率和分布情况得到高频异常词汇的异常特征值具体为:
将任意一个高频异常词汇记为选定词汇,对于历史数据中的任意一条异常日志,获取选定词汇在该异常日志中出现的总次数记为第一系数,计算选定词汇在所有异常日志中的第一系数的均值;将选定词汇在所有异常日志中出现的日志条数与所有异常日志的总条数之间的比值记为特征比值;以所述均值、特征比值以及选定词汇对应出现的概率之间的乘积作为选定词汇的异常特征值。
3.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法,其特征在于,所述根据第一评价指标、第二评价指标和第三评价指标得到目标日志的全局评价指标具体为:
对第三评价指标进行负相关映射;计算预设的第一数值与第二评价指标之间的差值,以预设的第二数值与所述差值的和值作为第三系数;计算第三评价指标的负相关映射值与第三系数之间的比值,以第二评价指标和所述比值的乘积作为全局评价指标。
4.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法,其特征在于,所述根据所有高频异常词汇的异常特征值得到标准异常特征值具体为:
对于历史数据中任意一条异常日志,以该异常日志中所有高频异常词汇的异常特征之和作为该异常日志的第二系数;以历史数据中所有异常日志的第二系数的均值作为标准异常特征值。
5.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法,其特征在于,所述根据异常日志中词汇出现的概率提取异常日志中的高频异常词汇具体为:
对于历史数据中的异常日志的任意一个词汇,当该词汇在所有异常日志中出现的概率大于或等于预设的高频阈值时,该词汇为高频异常词汇。
6.根据权利要求5所述的一种用于网络运行安全监测的异常日志数据识别方法,其特征在于,所述高频阈值的获取方法具体为:
根据历史数据中的异常日志中的词汇对应出现的概率对异常日志中的词汇进行聚类得到至少两个类别;对于任意一个类别,将该类别内所有词汇对应出现的概率的均值与该类别内词汇数量占所有词汇数量的比值之间的乘积即为类别概率特征值,以所有类别的类别概率特征值的平均数作为高频阈值。
7.根据权利要求1所述的一种用于网络运行安全监测的异常日志数据识别方法,其特征在于,所述根据全局评价指标判断目标日志是否属于异常日志数据具体为:
当目标日志的全局评价指标大于或等于预设的评价阈值时,目标日志为异常的日志数据;当目标日志的全局评价指标小于评价阈值时,目标日志为正常的日志数据。
CN202310132507.1A 2023-02-20 2023-02-20 用于网络运行安全监测的异常日志数据识别方法 Active CN115858794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310132507.1A CN115858794B (zh) 2023-02-20 2023-02-20 用于网络运行安全监测的异常日志数据识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310132507.1A CN115858794B (zh) 2023-02-20 2023-02-20 用于网络运行安全监测的异常日志数据识别方法

Publications (2)

Publication Number Publication Date
CN115858794A CN115858794A (zh) 2023-03-28
CN115858794B true CN115858794B (zh) 2023-05-05

Family

ID=85658377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310132507.1A Active CN115858794B (zh) 2023-02-20 2023-02-20 用于网络运行安全监测的异常日志数据识别方法

Country Status (1)

Country Link
CN (1) CN115858794B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116781984B (zh) * 2023-08-21 2023-11-07 深圳市华星数字有限公司 一种机顶盒数据优化存储方法
CN117711593B (zh) * 2024-02-05 2024-04-19 苏州绿华科技有限公司 一种智慧药房进出药管理系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479994A (zh) * 2016-06-07 2017-12-15 阿里巴巴集团控股有限公司 一种基于分布式软件系统的日志文件处理方法、装置
CN110275508B (zh) * 2019-05-08 2021-09-28 西安电子科技大学 车载can总线网络异常检测方法及系统
CN112882898B (zh) * 2021-02-24 2022-07-19 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN113438114B (zh) * 2021-06-29 2022-10-14 平安普惠企业管理有限公司 互联网系统的运行状态监控方法、装置、设备及存储介质
CN113254255B (zh) * 2021-07-15 2021-10-29 苏州浪潮智能科技有限公司 一种云平台日志的分析方法、系统、设备及介质
CN114328106A (zh) * 2021-12-28 2022-04-12 天翼云科技有限公司 日志数据处理方法、装置、设备及存储介质
CN115590505B (zh) * 2022-12-15 2023-03-14 楠楠聚智信息科技有限责任公司 一种智能运动监测装置数据异常分析方法

Also Published As

Publication number Publication date
CN115858794A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN108805202B (zh) 一种用于电解槽故障预警的机器学习方法及其应用
CN113190421B (zh) 一种用于数据中心的设备健康状态的检测分析方法
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN113344133B (zh) 一种时序行为异常波动检测方法及系统
Mechefske et al. Fault detection and diagnosis in low speed rolling element bearings Part II: The use of nearest neighbour classification
CN110794360A (zh) 一种基于机器学习预测智能电能表故障的方法及系统
CN113204914B (zh) 一种基于多架次飞行数据表征建模的飞行数据异常判读方法
CN116066343A (zh) 一种输油泵机组故障模型的智能预警方法及系统
CN113657747A (zh) 一种企业安全生产标准化级别智能评定系统
CN116383645A (zh) 一种基于异常检测的系统健康度智能监测评估方法
CN116126807A (zh) 一种日志分析方法及相关装置
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN116384223A (zh) 基于退化状态智能辨识的核设备可靠性评估方法及系统
CN115904955A (zh) 性能指标的诊断方法、装置、终端设备及存储介质
CN113656287B (zh) 软件实例故障的预测方法、装置、电子设备及存储介质
CN116956089A (zh) 电器设备温度异常检测模型训练方法以及检测方法
CN114936600A (zh) 单证异常监控方法、装置、设备及存储介质
CN110705597B (zh) 基于事件因果关系抽取的网络苗头事件检测方法及系统
CN111258788A (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN116383771B (zh) 基于变分自编码模型的网络异常入侵检测方法和系统
CN117149500B (zh) 基于指标数据和日志数据的异常根因获得方法及系统
CN115511106B (zh) 基于时序数据生成训练数据的方法、设备和可读存储介质
CN117527523A (zh) 一种基于云计算的服务器安全监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant