CN113420777A - 异常日志检测方法、装置存储介质及设备 - Google Patents
异常日志检测方法、装置存储介质及设备 Download PDFInfo
- Publication number
- CN113420777A CN113420777A CN202110531680.XA CN202110531680A CN113420777A CN 113420777 A CN113420777 A CN 113420777A CN 202110531680 A CN202110531680 A CN 202110531680A CN 113420777 A CN113420777 A CN 113420777A
- Authority
- CN
- China
- Prior art keywords
- log
- value
- overlapping
- samples
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种异常日志检测方法、装置、存储介质及设备,该方法包括:获取日志数据;使用模糊KNN算法基于特征向量计算待测试日志序列与各预设类型之间的隶属度;利用预设模糊度根据隶属度将待测日志序列分类为类重叠样本以及非类重叠样本;分别利用训练完成的至少两种集成分类器确定训练集中的各训练样本以及测试集中的各类重叠样本对应的不一致性得分,其中,至少两种集成分类器以训练集训练得到;根据各训练样本以及各类重叠样本对应的不一致性得分确定各类重叠样本对应的P值,根据P值计算各类重叠样本的置信度以及标签,得到各类重叠样本的测试结果;输出测试结果。该方法可提高检测日志数据中类重叠数据的准确率。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种异常日志检测方法、装置、存储介质及设备。
背景技术
异常检测在大型系统的事件管理中起着重要的作用,其目的是及时发现系统异常行为,如该异常行为被及时发现并解决,可减少系统停机时间。系统在运行过程中,定期生成日志,以详细记录系统运行期间的信息。日志被用作系统异常检测的主要数据源。但由于日志中正常类别的样本和异常类别的样本之间的数量差距很大,在这种情况下,出现的类重叠问题会对系统日志的异常检测产生严重影响。
发明内容
有鉴于此,本发明一个或多个实施例提供了一种异常日志检测方法、装置、存储介质及设备,可提高检测日志数据中的类重叠数据的准确性。
本发明一个或多个实施例提供了一种异常日志检测方法,包括:获取日志数据,其中,所述日志数据中包括测试集以及训练集;提取所述测试集中的待测日志序列的特征向量;使用模糊k最近邻分类KNN算法基于所述特征向量计算所述待测试日志序列与各预设类型之间的隶属度;利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本;分别利用训练完成的至少两种集成分类器确定训练集中的各训练样本以及所述测试集中的各类重叠样本对应的不一致性得分,其中,所述至少两种集成分类器以所述训练集训练得到;根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定所述各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,得到所述各类重叠样本的测试结果,其中,所述标签包括正常日志以及异常日志;输出所述测试结果。
可选的,根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,包括:对所述各类重叠样本,根据所述各训练样本以及所述类重叠样本对应的不一致性得分分别计算该类重叠样本对应的正常日志的第一P值以及对应的异常日志的第二P值;将数值1减去所述第一P值以及所述第二P值中数值小者,得到的数值作为类重叠样本的置信度;响应于确定出的置信度大于预设置信水平,将所述第一P值以及所述第二P值中数值大者对应的标签确定为类重叠样本的标签,响应于确定出的置信度不大于所述预设置信水平,将所述第一P值以及所述第二P值中数值小者对应的标签确定为类重叠样本的标签。
可选的,提取所述测试集中的待测日志序列的特征向量,包括:对所述待测日志序列中每条日志消息进行解析,得到日志事件模板以及日志事件参数;根据所述日志事件参数提取所述待测日志序列的特征向量。
可选的,所述方法还包括:在利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本之前,以预设至少两种分类器对所述待测日志序列进行分类,确定出第一分类准确率,以及以不同模糊度对所述待测日志序列进行分类,得到各模糊度下的第二分类准确率;确定在各模糊度下,各所述分类器对应的所述第二分类准确率与所述第一分类准确率之间的各差值;将所述各差值之和最大时对应的模糊度确定为所述预设模糊度。
可选的,所述特征向量中至少包括以下一种特征:日志事件在所述待测日志序列中发生的次数以及日志事件发生的时刻。
本发明一个或多个实施例提供了一种异常日志检测装置,包括:获取模块,被配置为获取日志数据,其中,所述日志数据包括测试集以及训练集;提取模块,被配置为提取所述测试集中的待测日志序列的特征向量;分离模块,被配置为使用模糊k最近邻分类KNN算法基于所述特征向量计算所述待测试日志序列与各预设类型之间的隶属度,利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本;确定模块,被配置为分别利用训练完成的至少两种集成分类器确定训练集中的各训练样本以及所述测试集中的类重叠样本对应的不一致性得分,其中,所述至少两种集成分类器以所述训练集训练得到;检测模块,被配置为根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定所述各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,得到所述各类重叠样本的测试结果,其中,所述标签包括正常日志以及异常日志;输出模块,被配置为输出所述测试结果。
可选的,所述检测模块具体被配置为:对所述各类重叠样本,根据所述各训练样本以及所述各类重叠样本对应的不一致性得分分别计算该类重叠样本对应的正常日志的第一P值以及对应的异常日志的第二P值;将数值1减去所述第一P值以及所述第二P值中数值小者,得到的数值作为类重叠样本的置信度;响应于确定出的置信度大于预设置信水平,将所述第一P值以及所述第二P值中数值大者对应的标签确定为类重叠样本的标签,响应于确定出的置信度不大于预设置信水平,将所述第一P值以及所述第二P值中数值小者对应的标签确定为类重叠样本的标签。
可选的,所述提取模块具体被配置为:对所述待测日志序列中每条日志消息进行解析,得到日志事件模板以及日志事件参数;根据所述日志事件参数提取所述待测日志序列的特征向量。
本发明一个或多个实施例提供了一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为所述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行上述任意一种异常日志检测方法。
本发明一个或多个实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任意一种异常日志检测方法。
本发明一个或多个实施例提供的异常日志检测方法,获取日志数据,该日志数据中可包括测试集以及训练集,提取测试集中的待测日志序列的特征向量,利用模糊KNN算法基于所述特征向量计算出待测试日志序列与各预设类别之间的隶属度,再利用预设模糊度根据该隶属度将待测日志序列分类为类重叠样本以及非类重叠样本,继而通过基于训练集训练完成的至少两种集成分类器确定训练集中各训练样本以及所述测试集中各类重叠样本对应的不一致性得分,从而可根据各训练样本以及各类重叠样本的不一致性得分确定各类重叠样本对应的P值,以根据各类重叠样本对应的P值确定出各类重叠样本对应的置信度以及标签,从而完成了对待测日志序列中的类重叠数据进行分类,提高了对日志数据在类重叠区域分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是根据本发明一个或多个实施例示出的一种异常日志检测方法的流程图;
图2是根据本发明一个或多个实施例示出的以五种分类器对待测日志序列进行分类的准确率以及以不同模糊度分离待测日志序列中的类重叠数据准确率之间的差值的曲线图;
图3是根据本发明一个或多个实施例示出的一种异常日志检测方法的示意图;
图4是根据本发明一个或多个实施例示出的一种异常日志检测装置的结构示意图;
图5是根据本发明一个或多个实施例示出的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1是根据本发明一个或多个实施例示出的一种异常日志检测方法的流程图,如图1所示,该方法包括:
步骤101:获取日志数据,其中,所述日志数据包括测试集以及训练集;
日志数据例如可以是HDFS(Hadoop Distributed File System,分布式文件系统)日志数据,在获取到日志数据后,可将日志数据划分为测试集以及训练集。
在系统运行过程中,系统通过日志记录系统的运行情况,每条日志消息可包含无结构化的数据,例如时间戳、日志优先级、系统组件以及日志序列。日志消息可用一组字段记录特定的系统事件。例如,一条日志为:2008-11-0920:55:54PacketResponderoforblockblk_321terminating。
步骤102:提取所述测试集中的待测日志序列的特征向量;
例如,可以预先设定可影响日志数据分类的多种特征,从待测日志序列中提取这些特征,得到待测日志序列的特征向量矩阵X,该矩阵X中的序列Xij即为待测试日志序列的特征。
步骤103:使用模糊KNN算法基于所述特征向量计算所述待测试日志序列与各预设类型之间的隶属度;
其中,各预设类型指日志数据的类型,例如,日志数据可被划分为正常日志,以及异常日志,则预设类型包括正常日志以及异常日志。
步骤104:利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本;
利用模糊KNN算法对待测日志序列进分类预测时,模糊KNN算法输出的是每个分类的测试样本数据的隶属度。其中,该隶属度可由下式计算得到:
上式(1)中,(μi(x))i=1,2,...c∈[0,1],表示测试样本x属于第i个分类的隶属度的值。(μij)j=1,2,...,k∈[0,1]表示训练集第i个数据的第j个向量,x的赋值隶属度受最近邻居的距离及其隶属度的倒数影响。其中,m是可调整权值的可变参数。
其中,模糊度由如下公式计算:
测试样本通过上述公式(1)从属于第i个分类的隶属度被计算出来,从而形成模糊集合B={μi,μ1,...,μn},经过求导之后,上述公式(2)变为下式:
由上式(3)可知,在隶属度为0.5时,模糊度的值达到最大。
步骤105:分别利用训练完成的至少两种集成分类器确定训练集中的各训练样本以及测试集中各类重叠样本对应的不一致性得分,其中,所述至少两种集成分类器以所述训练集训练得到;
在执行步骤105之前,例如,可以使用训练集{(x1,y1),…,(xn-1,yn-1)}训练基分类器AdaBoost和随机森林。得到训练完成的AdaBoost和随机森林(为上述至少两种集成分类器的一个示例),再通过调用训练完成的AdaBoost和随机森林的不一致性度量函数,计算训练集中各训练样本以及测试集中各类重叠样本对应的正常样本与异常样本的不一致性得分α1,α2,...,αn-1。其中,αi表示第i个样本的不一致性得分,αi越小,表示属于样本序列的可能性越大。
步骤106:根据所述各训练样本以及所述各测试样本对应的不一致性得分确定所述各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,得到各所述类重叠样本的测试结果,其中,所述标签包括正常日志以及异常日志;
其中,各类重叠样本对应的不一致性得分包括各类重叠样本对应的正常日志的不一致性得分以及对应的异常日志的不一致性得分。
例如,对于每一个类重叠样本x,分别计算正常日志的p_value值(即P值,P值就是当原假设为真时,对比所得到的样本观察结果更极端的结果出现的概率),用p_value_N表示,以及计算异常日志的p_value值,用p_value_A表示。比较p_value_N以及p_value_A的大小,类重叠样本的置信度可以为1减去二者中数值较小者,如果置信度大于预先设定的置信水平ε,类重叠样本的标签即为p_value_N以及p_value_A中数值较大者对应的标签,否则,类重叠样本的标签即为p_value_N以及p_value_A中数值较小者对应的标签。
例如,可基于如下公式根据各训练样本以及类重叠样本对应的正常日志的不一致性得分以及异常日志的不一致性得分计算各类重叠样本的P值。
其中,表p_valueyc示类重叠样本的P值。
步骤107:输出所述测试结果。
其中,在经过上述步骤106确定出测试集中所有类重叠样本的标签以及置信度后,可以将标签以及置信度添加到预测集中,即得到上述测试结果。
本发明一个或多个实施例提供的异常日志检测方法,获取日志数据,该日志数据中可包括测试集以及训练集,提取测试集中的待测日志序列的特征向量,利用模糊KNN算法基于所述特征向量计算出待测试日志序列与各预设类别之间的隶属度,再利用预设模糊度根据该隶属度将待测日志序列分类为类重叠样本以及非类重叠样本,继而通过基于训练集训练完成的至少两种集成分类器确定训练集中各训练样本以及所述测试集中各类重叠样本对应的不一致性得分,从而可根据各训练样本以及各类重叠样本的不一致性得分确定各类重叠样本对应的P值,以根据各类重叠样本对应的P值确定出各类重叠样本对应的置信度以及标签,从而完成了对待测日志序列中的类重叠数据进行分类,提高了对日志数据在类重叠区域分类的准确率。
在本发明的一个或多个实施例中,根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定所述各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,可包括:
对所述各类重叠样本,根据各训练样本以及各类重叠样本对应的不一致性得分分别计算该类重叠样本对应的正常日志的第一P值以及对应的异常日志的第二P值;其中,根据各训练样本以及各类重叠样本对应的不一致性得分分别计算类重叠样本对应的正常日志以及异常日志的P值可基于上述公式(4)进行计算,此处不再赘述。
将数值1减去所述第一P值以及所述第二P值中数值小者,得到的数值作为类重叠样本的置信度;
响应于确定出的置信度大于预设置信水平,将所述第一P值以及所述第二P值中数值大者对应的标签确定为类重叠样本的标签,响应于确定出的置信度不大于预设置信水平,将所述第一P值以及所述第二P值中数值小者对应的标签确定为类重叠样本的标签。
在一个例子中,假设预测集合为Γε,可先将预测集合Γε初始化为空,分别按照如上方式确定出各类重叠样本的标签以及置信度,判断待测的类重叠日志序列是否检测完毕,若未检测完毕,则继续检测,若检测完毕,则将待测类重叠日志序列的标签以及置信度添加到预测集合中,得到上述预测结果。
在本发明的一个或多个实施例中,提取所述测试集中的待测日志序列的特征向量,可包括:
对所述待测日志序列中每条日志消息进行解析,得到日志事件模板以及日志事件参数;
根据所述日志事件参数提取所述待测日志序列的特征向量,其中,所述特征向量包括日志事件在所述待测日志序列中发生的次数,此外,所述特征向量还可包括日志事件在所述测试日志序列中发生的时间。其中,日志数据是无结构的,包含自由文本。可通过日志解析提取一组事件模板,从而使无结构的日志数据转变为有结构的,例如,每一条日志消息可被解析为一个事件模板(即常量部分)和一些具体的参数(即变量部分),仍以上述日志为例,上述日志可被解析为“event1”和一个事件模板“PacketResponder*forblocking*terminating”。在基于日志解析器对日志数据进行解析之后,可基于解析得到的事件参数提取日志数据的特征向量,即,从日志事件中提取有价值的特征,特征提取的输入可为日志解析过程中生成的日志事件,输出可为事件的计数矩阵。例如,若事件的计数向量为[0,0,2,3,0,1,0],这个计数向量表示在当前这个待测日志序列中,事件3发生了两次,事件4发生了三次。最后,构造全部的事件计数向量即构成了事件计数矩阵X,其中,序列Xij记录了事件j在第i个日志序列中发生的次数。
在本发明的一个或多个实施例中,上述异常日志检测方法还可包括:在利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本之前,以预设至少两种分类器对所述待测日志序列进行分类,确定出第一分类准确率,以及以不同模糊度对所述待测日志序列进行分类,得到各模糊度下的第二分类准确率;确定在各模糊度下,各所述分类器对应的所述第二分类准确率与所述第一分类准确率之间的各差值;将所述各差值之和最大时对应的模糊度确定为所述预设模糊度。例如,针对日志数据中的类重叠数据来说,用偏小或偏大的模糊度均无法分离出待测日志数据中的类重叠数据,故,在执行上述步骤104之前,可确定出一个最佳的模糊度(为上述预设模糊度的一个示例)。可以以多种分类器,如图2中所示,可以选用LR(Logistic Regression,逻辑回归)、DT(DecisionTree,决策树)、SVM(Support Vector Machine,支持向量机)、NB(Naive Bayesian,朴素贝叶斯)以及KNN这五种对待测日志序列进行分类,以及以多种不同的模糊度分离待测日志序列中的类重叠数据,图2中的五条曲线分别用来表示以这五种分类器对待测日志序列进行分类时的第一分类准确率,以及以不同模糊度分离待测日志序列中的类重叠数据时的第二分类准确率之间的差值,可以以该差值为指标来确定上述预设模糊度,即分类结果准确率的差异越大,表明类重叠现象越严重,在图2中,可以看出,以模糊度为0.65为边界分离类重叠数据能使上述五种分类器分类的准确率差值都较高,故,在本发明的一个或多个实施例中,可以模糊度为0.65作为上述预设模糊度。此处,对上述差值的计算进行举例说明,例如,在采用某一分类器以某一模糊度对待测日志序列进行分类,在分离类重叠数据之前得到的分类准确率为R,在分离类重叠数据之后得到的分类准确率为R’,则所述差值为R’-R。
图3是根据本发明一个或多个实施例示出的一种异常日志检测方法的示意图,以下结合图3对该方法进行简要说明,如图3所示,该方法可包括三个阶段,在第一阶段,获取日志数据,其中,日志数据中包括待测日志序列,对日志数据进行预处理可包括:对待测日志序列进行解析,得到日志模板以及日志参数,基于日志参数提取日志特征,得到日志特征向量矩阵;在第二阶段,分离日志数据中的类重叠数据可包括:使用模糊KNN算法基于日志特征向量矩阵以及预设模糊度得到类重叠数据以及非类重叠数据;在第三阶段,基于集成学习的一致性异常检测可包括:利用第一阶段中获得的日志数据中的训练集训练AdaBoost以及随机森林(为上述至少两种集成分类器的一个示例),调用训练好的AdaBoost以及随机森林的不一致性度量函数,得到训练集中各训练样本以及测试集中各测试样本对应的正常日志的不一致性得分以及异常样本的不一致性得分,根据各训练样本以及各测试样本对应的不一致性得分计算测试集中的类重叠样本对应的正常样本的P值p_value_N以及对应的异常样本的P值p_value_A,若p_value_N>p_value_A,将1-p_value_A得到的值作为类重叠样本的置信度,若该置信度大于预设置信水平,确定当前类重叠样本为正常日志,反之确定当前类重叠样本为异常日志;若p_value_N≤p_value_A,则将1-p_value_N得到的值作为类重叠样本的置信度,若该置信度大于预设置信水平,确定当前类重叠样本为异常日志,反之确定当前类重叠样本为正常日志。
在本发明一个或多个实施例中,所述特征向量中至少包括以下一种特征:日志事件在所述待测日志序列中发生的次数以及日志事件发生的时刻。其中,测试样本例如可以是一段时间内的日志数据,故,该特征可以反映出日志事件在一段时间内发生的次数。而日志事件发生的时刻可也反映出一类日志事件通常在哪些时间点发生。
图4是根据本发明一个或多个实施例示出的一种异常日志检测装置的结构示意图,如图4所示,该装置40包括:
获取模块41,被配置为获取日志数据,其中,所述日志数据中包括测试集以及训练集;
提取模块42,被配置为提取所述测试集中的待测日志序列的特征向量;
分离模块43,被配置为使用模糊KNN算法基于所述特征向量计算所述待测试日志序列与各预设类型之间的隶属度,利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本;
确定模块44,被配置为分别利用训练完成的至少两种集成分类器确定训练集中的各训练样本以及所述测试集中的各类重叠样本对应的不一致性得分,其中,所述至少两种集成分类器以所述训练集训练得到;
检测模块45,被配置为根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定所述各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,得到所述各类重叠样本的测试结果,其中,所述标签包括正常日志以及异常日志;
输出模块46,被配置为输出所述测试结果。
在本发明的一个或多个实施例中,所述检测模块具体被配置为:对所述各类重叠测试样本,根据各训练样本以及各类重叠样本对应的不一致性得分分别计算该类重叠样本对应的正常日志的第一P值以及对应的异常日志的第二P值;将数值1减去所述第一P值以及所述第二P值中数值小者,得到的数值作为类重叠样本的置信度;响应于确定出的置信度大于预设置信水平,将所述第一P值以及所述第二P值中数值大者对应的标签确定为类重叠样本的标签,响应于确定出的置信度不大于预设置信水平,将所述第一P值以及所述第二P值中数值小者对应的标签确定为类重叠样本的标签。
在本发明的一个或多个实施例中,所述提取模块具体可被配置为:
对所述待测日志序列中每条日志消息进行解析,得到日志事件模板以及日志事件参数;根据所述日志事件参数提取所述待测日志序列的特征向量。
在本发明的一个或多个实施例中,上述异常日志检测装置还可包括:分类模块,被配置为在利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠数据以及非类重叠数据之前,以预设至少两种分类器对所述待测日志序列进行分类,确定出第一分类准确率,以及以不同模糊度对所述待测日志序列进行分类,得到各模糊度下的第二分类准确率;
第二确定模块,被配置为确定在各模糊度下,各所述分类器对应的所述第二分类准确率与所述第一分类准确率之间的各差值;
第三确定模块,被配置为将所述各差值之和最大时对应的模糊度确定为所述预设模糊度。
在本发明的一个或多个实施例中,所述特征向量中至少可包括以下一种特征:日志事件在所述待测日志序列中发生的次数以及日志事件发生的时刻。
相应的,如图5所示,本发明一个或多个实施例还提供了一种电子设备,可以包括:壳体51、处理器52、存储器53、电路板54和电源电路55,其中,电路板54安置在壳体51围成的空间内部,处理器52和存储器53设置在电路板54上;电源电路55,用于为所述服务器的各个电路或器件供电;存储器53用于存储可执行程序代码;处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述实施例提供的任一种异常日志检测方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开的不同方面的许多其它变化,为了简明它们没有在细节中提供。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种异常日志检测方法,其特征在于,包括:
获取日志数据,其中,所述日志数据中包括测试集以及训练集;
提取所述测试集中的待测日志序列的特征向量;
使用模糊k最近邻分类KNN算法基于所述特征向量计算所述待测试日志序列与各预设类型之间的隶属度;
利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本;
分别利用训练完成的至少两种集成分类器确定训练集中的各训练样本以及所述测试集中的各类重叠样本对应的不一致性得分,其中,所述至少两种集成分类器以所述训练集训练得到;
根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定所述各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,得到所述各类重叠样本的测试结果,其中,所述标签包括正常日志以及异常日志;
输出所述测试结果。
2.根据权利要求1所述的方法,其特征在于,根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,包括:
对所述各类重叠样本,根据所述各训练样本以及所述类重叠样本对应的不一致性得分分别计算该类重叠样本对应的正常日志的第一P值以及对应的异常日志的第二P值;
将数值1减去所述第一P值以及所述第二P值中数值小者,得到的数值作为类重叠样本的置信度;
响应于确定出的置信度大于预设置信水平,将所述第一P值以及所述第二P值中数值大者对应的标签确定为类重叠样本的标签,响应于确定出的置信度不大于所述预设置信水平,将所述第一P值以及所述第二P值中数值小者对应的标签确定为类重叠样本的标签。
3.根据权利要求1所述的方法,其特征在于,提取所述测试集中的待测日志序列的特征向量,包括:
对所述待测日志序列中每条日志消息进行解析,得到日志事件模板以及日志事件参数;
根据所述日志事件参数提取所述待测日志序列的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本之前,以预设至少两种分类器对所述待测日志序列进行分类,确定出第一分类准确率,以及以不同模糊度对所述待测日志序列进行分类,得到各模糊度下的第二分类准确率;
确定在各模糊度下,各所述分类器对应的所述第二分类准确率与所述第一分类准确率之间的各差值;
将所述各差值之和最大时对应的模糊度确定为所述预设模糊度。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述特征向量中至少包括以下一种特征:
日志事件在所述待测日志序列中发生的次数以及日志事件发生的时刻。
6.一种异常日志检测装置,其特征在于,包括:
获取模块,被配置为获取日志数据,其中,所述日志数据包括测试集以及训练集;
提取模块,被配置为提取所述测试集中的待测日志序列的特征向量;
分离模块,被配置为使用模糊k最近邻分类KNN算法基于所述特征向量计算所述待测试日志序列与各预设类型之间的隶属度,利用预设模糊度根据所述隶属度将所述待测日志序列分类为类重叠样本以及非类重叠样本;
确定模块,被配置为分别利用训练完成的至少两种集成分类器确定训练集中的各训练样本以及所述测试集中的类重叠样本对应的不一致性得分,其中,所述至少两种集成分类器以所述训练集训练得到;
检测模块,被配置为根据所述各训练样本以及所述各类重叠样本对应的不一致性得分确定所述各类重叠样本对应的P值,根据所述P值计算所述各类重叠样本的置信度以及标签,得到所述各类重叠样本的测试结果,其中,所述标签包括正常日志以及异常日志;
输出模块,被配置为输出所述测试结果。
7.根据权利要求6所述的装置,其特征在于,所述检测模块具体被配置为:
对所述各类重叠样本,根据所述各训练样本以及所述各类重叠样本对应的不一致性得分分别计算该类重叠样本对应的正常日志的第一P值以及对应的异常日志的第二P值;
将数值1减去所述第一P值以及所述第二P值中数值小者,得到的数值作为类重叠样本的置信度;
响应于确定出的置信度大于预设置信水平,将所述第一P值以及所述第二P值中数值大者对应的标签确定为类重叠样本的标签,响应于确定出的置信度不大于预设置信水平,将所述第一P值以及所述第二P值中数值小者对应的标签确定为类重叠样本的标签。
8.根据权利要求6所述的装置,其特征在于,所述提取模块具体被配置为:
对所述待测日志序列中每条日志消息进行解析,得到日志事件模板以及日志事件参数;
根据所述日志事件参数提取所述待测日志序列的特征向量。
9.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为所述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行上述权利要求1至5中任一项所述的异常日志检测方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至5任一项所述的异常日志检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110531680.XA CN113420777A (zh) | 2021-05-14 | 2021-05-14 | 异常日志检测方法、装置存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110531680.XA CN113420777A (zh) | 2021-05-14 | 2021-05-14 | 异常日志检测方法、装置存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420777A true CN113420777A (zh) | 2021-09-21 |
Family
ID=77712419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110531680.XA Pending CN113420777A (zh) | 2021-05-14 | 2021-05-14 | 异常日志检测方法、装置存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420777A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114726749A (zh) * | 2022-03-02 | 2022-07-08 | 阿里巴巴(中国)有限公司 | 数据异常检测模型获取方法、装置、设备、介质及产品 |
CN117520801A (zh) * | 2023-12-01 | 2024-02-06 | 四川合佳科技有限公司 | 一种基于物联网的数据测试方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106878314A (zh) * | 2017-02-28 | 2017-06-20 | 南开大学 | 基于可信度的网络恶意行为检测方法 |
CN109155151A (zh) * | 2016-05-19 | 2019-01-04 | 皇家飞利浦有限公司 | 用于基于不一致性度量根据生物数据的亚群检测的方法、系统和装置 |
CN109754159A (zh) * | 2018-12-07 | 2019-05-14 | 国网江苏省电力有限公司南京供电分公司 | 一种电网运行日志的信息提取方法及系统 |
CN110011990A (zh) * | 2019-03-22 | 2019-07-12 | 南开大学 | 内网安全威胁智能分析方法 |
CN112235327A (zh) * | 2020-12-16 | 2021-01-15 | 中移(苏州)软件技术有限公司 | 异常日志检测方法、装置、设备和计算机可读存储介质 |
-
2021
- 2021-05-14 CN CN202110531680.XA patent/CN113420777A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109155151A (zh) * | 2016-05-19 | 2019-01-04 | 皇家飞利浦有限公司 | 用于基于不一致性度量根据生物数据的亚群检测的方法、系统和装置 |
CN106878314A (zh) * | 2017-02-28 | 2017-06-20 | 南开大学 | 基于可信度的网络恶意行为检测方法 |
CN109754159A (zh) * | 2018-12-07 | 2019-05-14 | 国网江苏省电力有限公司南京供电分公司 | 一种电网运行日志的信息提取方法及系统 |
CN110011990A (zh) * | 2019-03-22 | 2019-07-12 | 南开大学 | 内网安全威胁智能分析方法 |
CN112235327A (zh) * | 2020-12-16 | 2021-01-15 | 中移(苏州)软件技术有限公司 | 异常日志检测方法、装置、设备和计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
任怡彤: "系统日志的异常检测及分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张永生: "基于 Conformal Prediction 的威胁情报繁殖方法", 《理论研究》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114726749A (zh) * | 2022-03-02 | 2022-07-08 | 阿里巴巴(中国)有限公司 | 数据异常检测模型获取方法、装置、设备、介质及产品 |
CN114726749B (zh) * | 2022-03-02 | 2023-10-31 | 阿里巴巴(中国)有限公司 | 数据异常检测模型获取方法、装置、设备及介质 |
CN117520801A (zh) * | 2023-12-01 | 2024-02-06 | 四川合佳科技有限公司 | 一种基于物联网的数据测试方法及系统 |
CN117520801B (zh) * | 2023-12-01 | 2024-06-18 | 四川合佳科技有限公司 | 一种基于物联网的数据测试方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Sliding window-based fault detection from high-dimensional data streams | |
US10685044B2 (en) | Identification and management system for log entries | |
US8453027B2 (en) | Similarity detection for error reports | |
US10068176B2 (en) | Defect prediction method and apparatus | |
US8725663B1 (en) | System, method, and computer program product for data mining applications | |
CN110502677B (zh) | 一种设备识别方法、装置及设备、存储介质 | |
CN113420777A (zh) | 异常日志检测方法、装置存储介质及设备 | |
EP4053757A1 (en) | Degradation suppression program, degradation suppression method, and information processing device | |
CN105630656A (zh) | 基于日志模型的系统健壮性分析方法及装置 | |
CN115171125A (zh) | 数据异常的检测方法 | |
Halstead et al. | Combining diverse meta-features to accurately identify recurring concept drift in data streams | |
CN113987243A (zh) | 一种图像聚档方法、图像聚档装置和计算机可读存储介质 | |
Aguilera-Martos et al. | Multi-step histogram based outlier scores for unsupervised anomaly detection: ArcelorMittal engineering dataset case of study | |
CN111786999B (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
JP7470235B2 (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
CN112861127A (zh) | 基于机器学习的恶意软件检测方法、装置、存储介质 | |
CN112464297A (zh) | 硬件木马检测方法、装置及存储介质 | |
CN111694804B (zh) | 故障排查方法及装置 | |
Nowak et al. | Conversion of CVSS Base Score from 2.0 to 3.1 | |
CN116821903A (zh) | 检测规则确定及恶意二进制文件检测方法、设备及介质 | |
Kumar et al. | Software fault prediction using random forests | |
CN111539576B (zh) | 一种风险识别模型的优化方法及装置 | |
US11210605B1 (en) | Dataset suitability check for machine learning | |
CN114153881A (zh) | 基于时序运维大数据的高召回因果发现方法、装置及设备 | |
Garg et al. | Android malware classification using ensemble classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210921 |
|
WD01 | Invention patent application deemed withdrawn after publication |