CN115705413A - 异常日志的确定方法及装置 - Google Patents
异常日志的确定方法及装置 Download PDFInfo
- Publication number
- CN115705413A CN115705413A CN202110927023.7A CN202110927023A CN115705413A CN 115705413 A CN115705413 A CN 115705413A CN 202110927023 A CN202110927023 A CN 202110927023A CN 115705413 A CN115705413 A CN 115705413A
- Authority
- CN
- China
- Prior art keywords
- log
- sequence
- time
- real
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种异常日志的确定方法及装置。所述方法包括:按第一预设时长获取实时日志序列;将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志。本发明提供的异常日志的确定方法及装置,通过先确定数量异常的实时日志序列,再根据分类异常检测模型和时序异常检测模型进行异常日志的检测,提升了日志的检测速度和准确率。
Description
技术领域
本发明涉及通信技术领域,具体涉及异常日志的确定方法及装置。
背景技术
现有技术中日志异常分析方式主要有DeepLog为代表的日志模式序列预测的检测方式、针对日志中日志级别等关键字直接做异常检测分析方式以及LogRobust针对日志语义进行异常检测的分析方式。
现有方法中DeepLog做异常检测的方式采用LSTM(Long Short-Term Memory,长短期记忆网络)算法对日志模式序列进行预测,本身要求日志的模式运行有规律,否则效果很差,有一些日志模式属于正常但出现次数较少或者无规律则很容易被检测为异常;针对日志级别如ERROR等关键字做有监督分类异常检测局限性很大,方法简单粗暴,效果不理想;LogRobust分析基于上下文分析,同时需要原始日志进行分析,性能较差,实际生产中日志数量非常多,不好满足生产要求。
因此,如何提出一种方法,能够针对有规律的日志或无规律的日志,都可以进行异常日志检测,并且检测速度快,检测效果好,具有十分重要的意义。
发明内容
本发明提供一种异常日志的确定方法及装置,用以解决现有技术中异常日志的确定方法中无法同时针对有规律或无规律的日志进行快速检测以及检测效果差的技术问题。
第一方面,本发明提供一种异常日志的确定方法,包括:
按第一预设时长获取实时日志序列;
将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;
在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;
在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志;
其中,第二预设时长大于或等于第一预设时长。
在一个实施例中,对实时日志序列的日志数量进行数量异常检测包括:
按第一预设时长获取实时日志序列对应时刻的历史日志序列;
将历史日志序列输入日志数量异常检测模型,进行日志数量预测;
确定实时日志序列的日志数量与日志数量预测值的差值,若差值大于预设阈值,确定实时日志序列日志数量异常。
在一个实施例中,对实时日志序列进行特征异常检测包括:
基于固化的drain3模式提取算法从实时日志序列中确定日志模式列表,对日志模式列表进行特征提取,获取特征列表;
根据预先定义的日志特征白名单,对日志特征列表进行筛选;
将筛选后的日志特征列表输入分类异常检测模型进行特征异常检测。
在一个实施例中,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志包括:
将第二预设时长的日志数据按第一预设时长获取第一日志序列;
根据柯西分布确定第一日志序列的累计分布函数概率在预设范围内为异常日志。
在一个实施例中,在将第二预设时长的日志数据按第一预设时长获取第一日志序列之后,还包括:
获取第一日志序列的日志模式数量,对日志模式数量进行低通滤波处理;
确定低通滤波处理后的日志模式数量与第一日志序列的日志模式数量误差;
确定日志模式数量误差的中位数以及日志模式数量误差的中位数绝对偏差;
根据中位数以及中位数绝对偏差计算累计分布函数概率。
在一个实施例中,日志数量异常检测模型是基于如下步骤训练得到的:
按第一预设时长获取第一历史日志序列;
将第一历史日志序列输入时间序列模型Prophet进行训练,得到日志数量异常检测模型。
在一个实施例中,分类异常检测模型是基于如下步骤训练得到的:
按第一预设时长获取第二历史日志序列;
基于固化的drain3模式提取算法从第二历史日志序列中确定日志模式列表,对日志模式列表进行特征提取,获取特征列表;
根据预先定义的日志特征白名单,对日志特征列表进行筛选;
对筛选后的日志特征进行标记;
将标记的日志特征输入支持向量机SVM算法中训练,得到分类异常检测模型;
其中,固化的drain3模式提取算法是将drain3模式提取算法基于第二历史日志序列训练得到。
第二方面,本发明还提供一种异常日志的确定装置,包括:
数据获取模块,用于按第一预设时长获取实时日志序列;
异常数量检测模块,用于将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;
分类异常检测模块,用于在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;
时序异常检测模块,用于在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志。
第三方面,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一种的异常日志的确定方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一种的异常日志的确定方法的步骤。
本发明提供的异常日志的确定方法、装置、电子设备及存储介质,通过获取预设时长的实时日志序列,根据日志数量异常检测模型对实时日志序列进行日志数量是否异常的初步判断。基于日志数量的日志异常判断,针对有规律或无规律的日志,均可进行异常日志检测,并且可以实现对实时日志的初步快速筛选。将初步筛选的数量异常的实时日志序列,通过分类异常检测模型和时序异常检测模型进行后续异常日志的精准检测,进一步提升了日志检测的准确率。整个检测流程在提升了日志异常检测的检测速度的前提下,确保了检测的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的异常日志的确定方法的流程示意图;
图2为本发明一个实施例提供的异常日志的确定方法的整体流程处理架构图示意图;
图3为本发明一个实施例提供的支持向量机算法基本原理示意图;
图4为本发明提供的异常日志的确定装置的结构示意图;
图5为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的异常日志的确定方法的流程示意图。参照图1,本发明提供的异常日志的确定方法可以包括:
S110、按第一预设时长获取实时日志序列;
S120、将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;
S130、在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;
S140、在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志;
其中,第二预设时长大于或等于第一预设时长。
本发明提供的异常日志的确定方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本发明不作具体限定。
下面以计算机执行本发明提供的异常日志的确定方法为例,详细说明本发明的技术方案。
需要说明的是,在实际生产的过程中,日志分析是作为重要的故障诊断方法之一。相比于正常运行状态下产生的日志来说,故障情况下产生的异常日志会在数量上激增。并且,在日志中往往会打印出关键的异常信息帮助运维人员定位。通过确定异常日志,可以实现对故障的定位与分析。
本发明技术方案整体流程由离线训练和在线检测两大部分组成,具体可以参照图2整体流程处理架构图所示。
在步骤S110中,按第一预设时长获取实时日志序列。
可选地,第一预设时长可以为分钟、小时、天等时间长度单位。但在实际日志异常检测的过程中,为了确保实时性与检测效率,可以选择分钟作为实时日志序列的时间长度。
在步骤S120中,将步骤S110中获取的所述实时日志序列输入日志数量异常检测模型,获取第一预设时长的时间段内的日志数量,通过日志数量异常检测模型对实时日志序列的日志数量进行数量异常检测,判断实时日志序列的日志数量是否正常,并输出所述实时日志序列用于下一步的判断。
可以理解的是,正常状态下当前时刻的日志的数量相比于同一时刻的历史日志的数量变化不大。而当前时刻发生故障时,会产生大量故障相关的异常日志。通过日志数量异常检测模型,对实时日志的数量进行判断,可以达到对实时日志的初步快速筛选。
在步骤S130中,根据步骤S120中日志数量异常检测模型对获取的实时日志序列数量进行判断。若判断结果显示当前实时日志序列数量正常,则结束后续的检测流程,继续获取下一时刻的实时日志序列进行步骤S120中的日志数量检测。若判断结果显示当前实时日志序列数量异常,则对当前实时日志序列进行下一步骤的检测,即将当前实时日志序列输入分类异常检测模型,提取实时日志序列的日志特征,对日志特征进行进一步的特征异常检测。
在步骤S140中,根据步骤S130中分类异常检测模型对实时日志序列的日志特征进行特征异常检测。若判断结果显示当时实时日志序列的特征异常检测结果正常,则结束后续的检测流程,继续获取下一时刻的实时日志序列开启检测流程。若判断结果显示当前实时日志序列特征异常检测结果异常,则对当前实时日志序列进行下一步骤的检测,即将当前时刻前第二预设时长的日志数据输入时序异常检测模型,根据日志模式数量的分布进行日志异常判断,进一步确定异常日志。
可选地,第二预设时长可以选取小时、天等时间单位的时间长度,比如选取当前时刻前两小时的日志数据输入时序异常检测模型进行检测。
本发明提供的异常日志的确定方法,通过获取预设时长的实时日志序列,根据日志数量异常检测模型对实时日志序列进行日志数量是否异常的初步判断。基于日志数量的日志异常判断,针对有规律或无规律的日志,均可进行异常日志检测,并且可以实现对实时日志的初步快速筛选。将初步筛选的数量异常的实时日志序列,通过分类异常检测模型和时序异常检测模型进行后续异常日志的精准检测,进一步提升了日志检测的准确率。整个检测流程在提升了日志异常检测的检测速度的前提下,确保了检测的准确率。
在一个实施例中,对实时日志序列的日志数量进行数量异常检测包括:按第一预设时长获取实时日志序列对应时刻的历史日志序列;将历史日志序列输入日志数量异常检测模型,进行日志数量预测;确定所述实时日志序列的日志数量与日志数量预测值的差值,若所述差值大于预设阈值,确定所述实时日志序列日志数量异常。
可选地,可以按分钟获取当前时刻如10:01的实时日志序列。其中,实时日志序列的时长为一分钟,即10:01到10:02时间段内的实时日志。同时,按分钟获取当前时刻前一天10:01的同时刻历史日志序列。将历史日志序列输入日志数量异常检测模型,进行历史日志序列数量预测。获取当前时刻10:01的一分钟实时日志序列的日志数量。计算历史日志序列预测的数量值与当前时刻实时日志序列的日志数量值的差值,若其差值大于预设的门限值,则认为此时刻的日志数量异常。
本发明提供的异常日志的确定方法,通过日志数量异常检测模型,获取实时日志序列的日志数量值与对应时刻的历史日志序列的预测日志数量值的差值,根据差值判断当前实时日志序列的日志数量是否正常,从而判断当前实时日志序列是否为异常日志序列,以达到对实时日志的初步快速筛选。
在一个实施例中,对实时日志序列进行特征异常检测包括:基于固化的drain3模式提取算法从实时日志序列中确定日志模式列表,对日志模式列表进行特征提取,获取特征列表;根据预先定义的日志特征白名单,对日志特征列表进行筛选;将筛选后的日志特征列表输入分类异常检测模型进行特征异常检测。
可选地,获取时间区间大于一天的历史日志数据,将历史数据送入drain3模式提取算法,训练drain3模式提取算法,从而固化日志提取模式。根据固化后的drain3模式提取算法,从实时日志序列中确定日志模式列表,从日志模式列表中获取J个特征的特征列表。根据用户预先定义的特征的W个日志特征白名单进行筛选,将剩余的J-W个剩余日志特征输入分类异常检测模型进行特征异常检测。
可以理解的是,根据分类异常检测模型对日志特征进行进一步的异常判断,若实时日志序列的特征异常判断的检测结果为真,则继续后续检测,若检测结果为假,则终止检测。
本发明提供的异常日志的确定方法,通过分类异常检测模型对日志特征进行进一步的异常判断,在初步判断日志数量异常的情况下,根据判断的结果进一步确定了日志的异常情况,在提升了日志异常检测的检测速度的前提下,确保了检测的准确率。
在一个实施例中,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志包括:将所述第二预设时长的日志数据按第一预设时长获取第一日志序列;根据柯西分布确定所述第一日志序列的累计分布函数概率在预设范围内为异常日志。
可选地,可以获取当前时刻前两小时的日志数据。比如,将两小时的日志数据按分钟聚合,每一分钟聚合一个历史日志数据序列,得到120个日志序列集合。获取所述日志序列集合中每一个日志序列的日志数量,根据柯西分布对每一个日志序列的日志模式数量的分布函数概率进行计算。若判断所述分布函数概率在预先设定的范围内即判断为异常日志,从而定位到具体的异常日志,输出异常日志。其中,日志模式数量为根据固化后的drain3模式提取算法提取的日志模式,可以包括info类型信息、debug类型信息、业务类型标记等。
可以理解的是,此处的异常检测是基于当前时刻最近两小时的日志数据,不具备周期性。如果出现故障,则当前日志会在数量上激增。所以根据柯西分布的概率计算方法具有很好的检测效果。
本发明提供的异常日志的确定方法,根据柯西分布对当前日志序列时刻前一段时间的历史数据进行异常判断,在初步判断日志数量异常的情况下,根据判断的结果进一步确定了日志的异常情况,在提升了日志异常检测的检测速度的前提下,确保了检测的准确率。
在一个实施例中,在将第二预设时长的日志数据按第一预设时长获取第一日志序列之后,还包括:获取第一日志序列的日志模式数量,对日志模式数量进行低通滤波处理;确定低通滤波处理后的日志模式数量与第一日志序列的日志模式数量误差;确定日志模式数量误差的中位数以及日志模式数量误差的中位数绝对偏差;根据中位数以及中位数绝对偏差计算累计分布函数概率。
可选地,可以获取当前时刻前两小时的日志数据。将两小时的日志数据按分钟聚合,每一分钟聚合一个历史日志数据序列,得到120个日志序列集合N。将当前时间日志序列记为n。对当前时刻的日志序列的日志模式数量进行低通滤波处理:
Xn=Xn-1*α+(1-α)*Yn (1)
其中,Xn表示当前时刻日志序列中日志模式数量的平滑值;Xn-1表示前一时刻日志序列中日志模式数量的平滑值;Yn表示当前时刻日志序列中的日志模式数量值;α为平滑系数,可以取常数0.7;在0时刻,Xn取值为0。
进一步通过公式(2)确定低通滤波处理后的日志模式数量与第一日志序列的日志模式数量误差:
Errn=Yn-Xn (2)
其中,Errn表示当前时刻日志序列中的日志模式数量值与当前时刻日志序列中日志模式数量的平滑值的误差值。
进一步通过公式(3)计算日志模式数量误差的中位数:
Meadian_=meadian1<=n<=N(Errn) (3)
其中,Meadian_表示误差的中位数;meadian表示求取中位数。
计算日志模式数量误差的中位数后,通过公式(4)进一步计算日志模式数量误差的中位数绝对偏差:
MAD=meadian1<=n<=N(|Errn-Meadian_|) (4)
其中,MAD表示日志模式数量误差的中位数绝对偏差。
根据日志模式数量误差的中位数以及日志模式数量误差的中位数绝对偏差计算柯西分布中累计分布函数概率:
其中CDF(Yn)表示累计分布函数概率。
可选地,如果计算的累计分布函数概率CDF(Yn)大于等于0.95或者小于等于0.05,则确定当前日志序列n为异常日志序列。否则,则确定为正常日志序列。
本发明提供的异常日志的确定方法,根据柯西分布对当前日志序列时刻前一段时间的历史数据进行异常判断,在初步判断日志数量异常的情况下,根据判断的结果进一步确定了日志的异常情况,在提升了日志异常检测的检测速度的前提下,确保了检测的准确率。
在一个实施例中,日志数量异常检测模型是基于如下步骤训练得到的:按第一预设时长获取第一历史日志序列;将第一历史日志序列输入时间序列模型Prophet进行训练,得到所述日志数量异常检测模型。
可选地,选取时间区间至少大于一天的历史日志数据。对所述历史日志数据按分钟获取历史日志序列,将所述历史日志序列的日志数量输入时间序列模型Prophet进行训练。通过将输入的历史日志序列的日志数量进行拟合,得到日志数量异常检测模型。
需要说明的是,Prophet是facebook开源的一款基于Python和R语言的数据预测工具。Prophet相比现有预测工具更加人性化。
本发明提供的异常日志的确定方法,根据历史日志数据对时间序列模型Prophet进行训练从而构建日志数量异常检测模型。在实时检测的过程中,根据日志数量异常检测模型,获取实时日志序列的日志数量值与对应时刻的历史日志序列的预测日志数量值的差值,根据差值判断当前实时日志序列的日志数量是否正常,从而判断当前实时日志序列是否为异常日志序列,以达到对实时日志的初步快速筛选。
在一个实施例中,所述分类异常检测模型是基于如下步骤训练得到的:按第一预设时长获取第二历史日志序列;基于固化的drain3模式提取算法从所述第二历史日志序列中确定日志模式列表,对所述日志模式列表进行特征提取,获取特征列表;根据预先定义的日志特征白名单,对所述日志特征列表进行筛选;对所述筛选后的日志特征进行标记;将标记的日志特征输入支持向量机SVM算法中训练,得到分类异常检测模型;其中,所述固化的drain3模式提取算法是将drain3模式提取算法基于所述第二历史日志序列训练得到。
可选地,获取时间区间大于一天的历史日志数据,将历史数据送入drain3模式提取算法,训练drain3模式提取算法,固化日志提取模式。然后重新将历史日志数据使用已固化后的日志模型提取历史日志模式列表,假设提取的日志模式列表为M个。根据提取后的日志模式列表,选取K-1个日志模式作为分类异常检测算法的K-1个特征,此处K>2。剩余M-K+1模式作为以一个Other特征,与前面的K-1个特征一起组成K个特征。按日志模式、分钟两个维度聚合统计K个特征在每分钟下的数量,若某个日志模式特征在某分钟区间内未出现,则该模式特征数量置为0。
根据用户预先定义的特征的W个日志特征白名单对K个特征进行筛选,将剩余的K-W个特征及数量组成的二维矩阵进行人工打标,在故障时间点区间标记为1,剩余正常时间区间标记为0,获得如表1日志特征标记表所示的标记矩阵。将完成标记的矩阵输入支持向量机SVM算法中进行训练,得到分类异常检测模型。
表1日志特征标记表
需要说明的是,SVM是经典的机器学习分类算法。算法的基本原理图如图3所示。SVM算法是通过找到支持向量,最大化Margin来将两类样本区分开。对上述K维特征向量的数据进行标记,标记为异常、非异常。此处特征向量维度较高,且不一定线性可分。所以采用使用核技巧的支持向量机,能够很好的解决这一问题。其基本思想为使用一个变换将原空间的数据映射到新空间,例如更高维度的空间或者无穷维的空间,然后在新空间里用线性方法从数据中学习到模型。
本发明提供的异常日志的确定方法,通过分类异常检测模型对日志特征进行进一步的异常判断,无需对原始实时日志进行大量标记。只需要在模型训练的时候,对模式化后日志做少量标记,即通过训练好的分类检测模型进行检测,提升了检测效率。与此同时,模型训练时使用人工标记的方式对异常日志进行人工标记,后续的实时检测也是基于人工标记计算出的异常日志,具有很好的解释性。
本发明还提供一种异常日志的确定装置,该装置与上文描述的异常日志的确定方法可相互对应参照。
图4为本发明提供的异常日志的确定装置的结构示意图,如图4所示,该装置包括:
数据获取模块410,用于按第一预设时长获取实时日志序列;
异常数量检测模块420,用于将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;
分类异常检测模块430,用于在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;
时序异常检测模块440,用于在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志。
本发明提供的异常日志的确定装置,通过获取预设时长的实时日志序列,根据日志数量异常检测模型对实时日志序列进行日志数量是否异常的初步判断。基于日志数量的日志异常判断,针对有规律或无规律的日志,均可进行异常日志检测,并且可以实现对实时日志的初步快速筛选。将初步筛选的数量异常的实时日志序列,通过分类异常检测模型和时序异常检测模型进行后续异常日志的精准检测,进一步提升了日志检测的准确率。整个检测流程在提升了日志异常检测的检测速度的前提下,确保了检测的准确率。
在一个实施例中,异常数量检测模块420具体用于:
对实时日志序列的日志数量进行数量异常检测包括:
按第一预设时长获取实时日志序列对应时刻的历史日志序列;
将历史日志序列输入日志数量异常检测模型,进行日志数量预测;
确定实时日志序列的日志数量与日志数量预测值的差值,若差值大于预设阈值,确定实时日志序列日志数量异常。
在一个实施例中,分类异常检测模块430具体用于:
对实时日志序列进行特征异常检测包括:
基于固化的drain3模式提取算法从实时日志序列中确定日志模式列表,对日志模式列表进行特征提取,获取特征列表;
根据预先定义的日志特征白名单,对日志特征列表进行筛选;
将筛选后的日志特征列表输入分类异常检测模型进行特征异常检测。
在一个实施例中,时序异常检测模块440具体用于:
将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志包括:
将第二预设时长的日志数据按第一预设时长获取第一日志序列;
根据柯西分布确定第一日志序列的累计分布函数概率在预设范围内为异常日志。
在一个实施例中,时序异常检测模块440还具体用于:
在将第二预设时长的日志数据按第一预设时长获取第一日志序列之后,还包括:
获取第一日志序列的日志模式数量,对日志模式数量进行低通滤波处理;
确定低通滤波处理后的日志模式数量与第一日志序列的日志模式数量误差;
确定日志模式数量误差的中位数以及日志模式数量误差的中位数绝对偏差;
根据中位数以及中位数绝对偏差计算累计分布函数概率。
在一个实施例中,异常数量检测模块420还具体用于:
日志数量异常检测模型是基于如下步骤训练得到的:
按第一预设时长获取第一历史日志序列;
将第一历史日志序列输入时间序列模型Prophet进行训练,得到日志数量异常检测模型。
在一个实施例中,分类异常检测模块430还具体用于:
分类异常检测模型是基于如下步骤训练得到的:
按第一预设时长获取第二历史日志序列;
基于固化的drain3模式提取算法从第二历史日志序列中确定日志模式列表,对日志模式列表进行特征提取,获取特征列表;
根据预先定义的日志特征白名单,对日志特征列表进行筛选;
对筛选后的日志特征进行标记;
将标记的日志特征输入支持向量机SVM算法中训练,得到分类异常检测模型;
其中,固化的drain3模式提取算法是将drain3模式提取算法基于第二历史日志序列训练得到。
本发明还提供一种电子设备,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communication Interface)520、存储器(memory)530和通信总线(bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行异常日志的确定方法的步骤,例如包括:
按第一预设时长获取实时日志序列;
将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;
在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;
在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志;
其中,第二预设时长大于或等于第一预设时长。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的异常日志的确定方法的步骤,例如包括:
按第一预设时长获取实时日志序列;
将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;
在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;
在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志;
其中,第二预设时长大于或等于第一预设时长。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的异常日志的确定方法的步骤,例如包括:
按第一预设时长获取实时日志序列;
将实时日志序列输入日志数量异常检测模型,对实时日志序列的日志数量进行数量异常检测;
在实时日志序列的日志数量异常的情况下,将实时日志序列输入分类异常检测模型,对实时日志序列进行特征异常检测;
在实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志;
其中,第二预设时长大于或等于第一预设时长。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种异常日志的确定方法,其特征在于,包括:
按第一预设时长获取实时日志序列;
将所述实时日志序列输入日志数量异常检测模型,对所述实时日志序列的日志数量进行数量异常检测;
在所述实时日志序列的日志数量异常的情况下,将所述实时日志序列输入分类异常检测模型,对所述实时日志序列进行特征异常检测;
在所述实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志;
其中,所述第二预设时长大于或等于第一预设时长。
2.根据权利要求1所述的异常日志的确定方法,其特征在于,所述对所述实时日志序列的日志数量进行数量异常检测包括:
按第一预设时长获取所述实时日志序列对应时刻的历史日志序列;
将所述历史日志序列输入日志数量异常检测模型,进行日志数量预测;
确定所述实时日志序列的日志数量与日志数量预测值的差值,若所述差值大于预设阈值,确定所述实时日志序列日志数量异常。
3.根据权利要求1所述的异常日志的确定方法,其特征在于,所述对所述实时日志序列进行特征异常检测包括:
基于固化的drain3模式提取算法从所述实时日志序列中确定日志模式列表,对所述日志模式列表进行特征提取,获取特征列表;
根据预先定义的日志特征白名单,对所述日志特征列表进行筛选;
将筛选后的日志特征列表输入分类异常检测模型进行特征异常检测。
4.根据权利要求1所述的异常日志的确定方法,其特征在于,所述将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志包括:
将所述第二预设时长的日志数据按第一预设时长获取第一日志序列;
根据柯西分布确定所述第一日志序列的累计分布函数概率在预设范围内为异常日志。
5.根据权利要求4所述的异常日志的确定方法,其特征在于,在所述将所述第二预设时长的日志数据按第一预设时长获取第一日志序列之后,还包括:
获取所述第一日志序列的日志模式数量,对所述日志模式数量进行低通滤波处理;
确定低通滤波处理后的日志模式数量与所述第一日志序列的日志模式数量误差;
确定所述日志模式数量误差的中位数以及日志模式数量误差的中位数绝对偏差;
根据所述中位数以及所述中位数绝对偏差计算累计分布函数概率。
6.根据权利要求1所述的异常日志的确定方法,其特征在于,所述日志数量异常检测模型是基于如下步骤训练得到的:
按第一预设时长获取第一历史日志序列;
将所述第一历史日志序列输入时间序列模型Prophet进行训练,得到所述日志数量异常检测模型。
7.根据权利要求1所述的异常日志的确定方法,其特征在于,所述分类异常检测模型是基于如下步骤训练得到的:
按第一预设时长获取第二历史日志序列;
基于固化的drain3模式提取算法从所述第二历史日志序列中确定日志模式列表,对所述日志模式列表进行特征提取,获取特征列表;
根据预先定义的日志特征白名单,对所述日志特征列表进行筛选;
对所述筛选后的日志特征进行标记;
将标记的日志特征输入支持向量机SVM算法中训练,得到分类异常检测模型;
其中,所述固化的drain3模式提取算法是将drain3模式提取算法基于所述第二历史日志序列训练得到。
8.一种异常日志的确定装置,其特征在于,包括:
数据获取模块,用于按第一预设时长获取实时日志序列;
异常数量检测模块,用于将所述实时日志序列输入日志数量异常检测模型,对所述实时日志序列的日志数量进行数量异常检测;
分类异常检测模块,用于在所述实时日志序列的日志数量异常的情况下,将所述实时日志序列输入分类异常检测模型,对所述实时日志序列进行特征异常检测;
时序异常检测模块,用于在所述实时日志序列特征异常检测结果异常的情况下,将当前时刻前第二预设时长的日志数据输入时序异常检测模型进行日志模式数量分布判断,确定异常日志。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的异常日志的确定方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的异常日志的确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110927023.7A CN115705413A (zh) | 2021-08-12 | 2021-08-12 | 异常日志的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110927023.7A CN115705413A (zh) | 2021-08-12 | 2021-08-12 | 异常日志的确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115705413A true CN115705413A (zh) | 2023-02-17 |
Family
ID=85180967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110927023.7A Pending CN115705413A (zh) | 2021-08-12 | 2021-08-12 | 异常日志的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115705413A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115973872A (zh) * | 2023-03-17 | 2023-04-18 | 徐工汉云技术股份有限公司 | 施工升降机异常工时修正方法和装置 |
CN116389108A (zh) * | 2023-04-03 | 2023-07-04 | 杭州诺禾网络科技有限公司 | Ab实验方法、系统与存储介质 |
-
2021
- 2021-08-12 CN CN202110927023.7A patent/CN115705413A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115973872A (zh) * | 2023-03-17 | 2023-04-18 | 徐工汉云技术股份有限公司 | 施工升降机异常工时修正方法和装置 |
CN116389108A (zh) * | 2023-04-03 | 2023-07-04 | 杭州诺禾网络科技有限公司 | Ab实验方法、系统与存储介质 |
CN116389108B (zh) * | 2023-04-03 | 2023-10-10 | 杭州诺禾网络科技有限公司 | Ab实验方法、系统与存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2854053A1 (en) | Defect prediction method and device | |
CN111144548B (zh) | 抽油机井工况的识别方法及装置 | |
CN115705413A (zh) | 异常日志的确定方法及装置 | |
EP3333757B1 (en) | Predictive anomaly detection | |
CN114610561A (zh) | 系统监测方法、装置、电子设备及计算机可读存储介质 | |
CN113705726A (zh) | 流量的分类方法、装置、电子设备及计算机可读介质 | |
JP6866930B2 (ja) | 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム | |
CN111507483A (zh) | 返修板检测装置、方法及计算机可读存储介质 | |
CN113468035A (zh) | 日志异常检测方法、装置、训练方法、装置及电子设备 | |
CN115964470B (zh) | 一种摩托车配件的寿命预测方法及系统 | |
CN116451081A (zh) | 数据漂移的检测方法、装置、终端及存储介质 | |
CN116361695A (zh) | 异常数据检测方法以及装置 | |
CN114692987A (zh) | 一种时序数据分析方法、装置、设备及存储介质 | |
CN115719433A (zh) | 图像分类模型的训练方法、装置及电子设备 | |
CN115080745A (zh) | 基于人工智能的多场景文本分类方法、装置、设备及介质 | |
CN114881112A (zh) | 一种系统异常检测方法、装置、设备及介质 | |
CN114741690A (zh) | 网络安全监测方法、装置、设备及计算机存储介质 | |
CN113535458A (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN115829160B (zh) | 一种时序异常预测方法、装置、设备及存储介质 | |
CN118013443A (zh) | 基于生成模型算法的在线实时真空干泵异常检测方法 | |
CN117891643A (zh) | 一种异常指标排序方法、装置、电子设备和存储介质 | |
CN117667587A (zh) | 一种异常检测方法、装置、电子设备及存储介质 | |
CN116468076A (zh) | 一种驾驶行为分析方法、装置、电子设备及存储介质 | |
CN115604745A (zh) | 高维kpi的异常检测方法、装置、计算机可读介质及设备 | |
CN118277216A (zh) | 日志异常检测方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |