CN116737681A - 一种实时异常日志检测方法、装置、计算机设备和存储介质 - Google Patents
一种实时异常日志检测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116737681A CN116737681A CN202310684384.2A CN202310684384A CN116737681A CN 116737681 A CN116737681 A CN 116737681A CN 202310684384 A CN202310684384 A CN 202310684384A CN 116737681 A CN116737681 A CN 116737681A
- Authority
- CN
- China
- Prior art keywords
- detection model
- log
- log data
- initial
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 252
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 23
- 230000005856 abnormality Effects 0.000 claims abstract description 58
- 238000013138 pruning Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请涉及大数据处理技术领域,特别是涉及一种实时异常日志检测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取日志数据;将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果;所述将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果之前,还包括:获取历史日志数据,基于所述历史日志数据训练得到初始异常检测模型,所述初始异常检测模型用于实现异常日志检测;按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型。采用本方法能够减少日志检测模型中的冗余的计算量,提高异常日志检测效率。
Description
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种实时异常日志检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
日志文件是用于记录系统操作事件的记录文件或文件集合,可分为事件日志和消息日志。日志文件具有处理历史数据、诊断问题的追踪以及理解系统的活动等重要作用。日志文件可以记录系统执行中发生的事件,以便提供可用于理解系统的活动和诊断问题的跟踪。
随着互联网技术的飞速发展,在网络系统的日常运行中,产生的日志文件的数量呈指数倍增长,在这些日志文件中某些信息或关联性数据能够折射出当前网络系统的运行状态。通过进行日志分析,能够对故障的产生进行有效的预测,从而避免造成业务端的额外损失。从数据量的维度来看,据统计,一个中等规模的企业每天即可产生超过100GB的日志文件,平均每秒约有1150条数据被记录,高峰期甚至可以达到每秒23000条数据。在传统的数据运维体系中,手工处理的方式显然无法应对如此大量的数据。
目前,为了解决对日志文件的检测工作量大的问题,通常采用训练人工智能模型的方式,并借助训练得到的模型来实现日志文件的自动化检测,从而替代人工的判别工作。
然而,目前的日志文件检测方式,存在如下的技术问题:
采用人工智能模型对日志文件进行检测的工作中,人工智能模型需要对每条日志文件进行特征提取等识别步骤,检测识别的效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够减少日志检测模型中的冗余的计算量,提高异常日志检测效率的异常日志检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种实时异常日志检测方法。所述方法包括:
获取日志数据;
将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果;
所述将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果之前,还包括:
获取历史日志数据,基于所述历史日志数据训练得到初始异常检测模型,所述初始异常检测模型用于实现异常日志检测;
按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型。
在其中一个实施例中,所述按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型之前,还包括:
按照预设的比例梯度随机移除所述初始异常检测模型中各卷积层中的特征通道;
获取随机移除所述特征通道后测试异常检测模型的鲁棒性验证参数;
当所述鲁棒性验证参数达到预设的鲁棒性阈值区间时,记录当前的所述特征通道的移除比例,将所述移除比例设定为当前隐藏层的所述剪枝比例。
在其中一个实施例中,所述按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型包括:
将所述历史日志数据输入所述初始异常检测模型,获取所述初始异常检测模型中目标卷积层输出的特征映射集,所述特征映射集包括所述目标卷积层中各个特征通道对应的特征分量;
对所述特征映射集进行下采样处理,得到与所述特征分量对应的特征标量;
基于所述特征标量确定所述特征通道的重要度排序,在目标卷积层中按照所述重要度排序倒序选取出数量满足所述剪枝比例的所述目标特征通道。
在其中一个实施例中,所述按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型包括:
逐层移除所述初始异常检测模型中的目标特征通道,得到所述第一日志检测模型;
基于所述历史日志数据构建微调训练集,利用所述微调训练集将所述第一日志检测模型训练至收敛,得到所述轻量日志检测模型。
在其中一个实施例中,所述基于所述历史日志数据构建微调训练集,利用所述微调训练集将所述第一日志检测模型训练至收敛,得到所述轻量日志检测模型包括:
将所述历史日志数据输入所述初始异常检测模型,以所述初始异常检测模型输出的概率分布作为所述历史日志数据的辅助标签;
获取所述历史日志数据的真实标签,所述真实标签为预先对所述历史日志数据进行的人工标注;
基于所述真实标签以及所述辅助标签计算所述第一日志检测模型的输出概率分布,直至损失函数收敛至全局最优解。
在其中一个实施例中,所述基于所述真实标签以及所述辅助标签计算所述第一日志检测模型的输出概率分布,直至损失函数收敛至全局最优解包括:
设置第一权重系数,以所述第一权重系统调节所述真实标签以及所述辅助标签对所述损失函数的影响程度。
第二方面,本申请还提供了一种实时异常日志检测装置。所述装置包括:
日志数据模块,用于获取日志数据;
异常检测模块,用于将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果;
所述异常检测模块之前,还包括:
初始模型模块,用于获取历史日志数据,基于所述历史日志数据训练得到初始异常检测模型,所述初始异常检测模型用于实现异常日志检测;
轻量模型模块,用于按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型。
在其中一个实施例中,所述轻量模型模块之前,还包括:
随机移除模块,用于按照预设的比例梯度随机移除所述初始异常检测模型中各卷积层中的特征通道;
鲁棒性验证模块,用于获取随机移除所述特征通道后的测试异常检测模型的鲁棒性验证参数;
剪枝比例确定模块,用于当所述鲁棒性验证参数达到预设的鲁棒性阈值区间时,记录当前的所述特征通道的移除比例,将所述移除比例设定为当前隐藏层的所述剪枝比例。
在其中一个实施例中,所述轻量模型模块包括:
特征映射模块,用于将所述历史日志数据输入所述初始异常检测模型,获取所述初始异常检测模型中目标卷积层输出的特征映射集,所述特征映射集包括所述目标卷积层中各个特征通道对应的特征分量;
特征标量模块,用于对所述特征映射集进行下采样处理,得到与所述特征分量对应的特征标量;
重要度排序模块,用于基于所述特征标量确定所述特征通道的重要度排序,在目标卷积层中按照所述重要度排序倒序选取出数量满足所述剪枝比例的所述目标特征通道。
在其中一个实施例中,所述轻量模型模块包括:
第一日志模型模块,用于逐层移除所述初始异常检测模型中的目标特征通道,得到所述第一日志检测模型;
模型微调模块,用于基于所述历史日志数据构建微调训练集,利用所述微调训练集将所述第一日志检测模型训练至收敛,得到所述轻量日志检测模型。
在其中一个实施例中,所述模型微调模块包括:
辅助标签模块,用于将所述历史日志数据输入所述初始异常检测模型,以所述初始异常检测模型输出的概率分布作为所述历史日志数据的辅助标签;
真实标签模块,用于获取所述历史日志数据的真实标签,所述真实标签为预先对所述历史日志数据进行的人工标注;
损失函数模块,用于基于所述真实标签以及所述辅助标签计算所述第一日志检测模型的输出概率分布,直至损失函数收敛至全局最优解。
在其中一个实施例中,所述损失函数模块包括:
权重系数模块,用于设置第一权重系数,以所述第一权重系统调节所述真实标签以及所述辅助标签对所述损失函数的影响程度。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项实施例所述的一种实时异常日志检测方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任意一项实施例所述的一种实时异常日志检测方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面中任意一项实施例所述的一种实时异常日志检测方法中的步骤。
上述异常日志检测方法、装置、计算机设备、存储介质和计算机程序产品,通过独权中的技术特征进行推导,能够达到对应背景技术中的如下的有益效果:
在获取日志数据后,采用轻量日志检测模型对日志数据是否异常进行自动判别,轻量日志检测模型为在利用历史日志数据训练得到的初始异常检测模型的基础上,通过移除初始异常检测模型中各个卷积层中的目标特征通道而得到的日志检测模型。在实施中,由于移除了目标特征通道,使得轻量日志检测模型在运行中得以以相对较少的浮点数运算量来实现最终的结果计算以及输出,从而有助于提高对大量日志数据检测的效率。另一方面,在由初始异常检测模型向轻量日志检测模型处理的过程中,移除的特征通道为被指定的目标特征通道,有助于使得技术人员保留对日志检测结果准确度影响过大的特征通道,从而有助于在提高模型输出效率的基础上保证模型输出结果的准确度。
附图说明
图1为一个实施例中一种实时异常日志检测方法的第一流程示意图;
图2为另一个实施例中一种实时异常日志检测方法的第二流程示意图;
图3为另一个实施例中一种实时异常日志检测方法的第三流程示意图;
图4为另一个实施例中一种实时异常日志检测方法的第四流程示意图;
图5为另一个实施例中一种实时异常日志检测方法的第五流程示意图;
图6为另一个实施例中一种实时异常日志检测方法的第六流程示意图;
图7为一个实施例中一种实时异常日志检测装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
目前,为了解决对日志文件的检测工作量大的问题,通常采用训练人工智能模型的方式,并借助训练得到的模型来实现日志文件的自动化检测,从而替代人工的判别工作。
然而,目前的日志文件检测方式,存在如下的技术问题:
采用人工智能模型对日志文件进行检测的工作中,人工智能模型需要对每条日志文件进行特征提取等识别步骤,检测识别的效率较低。
基于此,在一个实施例中,如图1所示,本申请提供了一种实时异常日志检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102:获取日志数据。
其中,日志数据可以指用于记录系统中发生的事件的文件中的数据,日志数据可以以事件为单位,日志数据可以包括业务信息、系统硬件信息以及性能指标等。
示例性地,终端可以在获取到系统后台充分授权的前提下,获取系统在运行中产生的日志数据。
步骤104:将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果。
其中,轻量日志检测模型可以指用于对日志数据中的信息进行提取、识别并输出判别结果的智能模型。
示例性地,终端可以在获取日志数据后,将日志数据输入到轻量日志检测模型中,最终由轻量日志检测模型输出的,即为异常检测结果。
所述步骤104之前,还包括:
步骤106:获取历史日志数据,基于所述历史日志数据训练得到初始异常检测模型,所述初始异常检测模型用于实现异常日志检测。
示例性地,常规的异常检测模型可以是基于历史日志数据训练得到的。在实施中,终端可以在获得充分授权的前提下获取历史日志数据,历史日志数据可以来源于本系统的历史运行过程中所采集得到的数据,也可以为从外部数据库中获取的数据。
这样,终端在获取历史日志数据后经过训练可以得到初始异常检测模型,此时的初始异常检测模型可以用于实现异常日志检测,即输入待检测的日志数据,输出对日志数据的判别结果。
步骤108:按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型。
其中,剪枝可以指通过一些判断方式,对模型中不必要的计算过程进行删减或忽略的处理。特征可以指从日志数据中提取出的、用于对日志数据中所包含的信息进行表达的数据,特征通道可以指日志数据中输入信息的特征分量。
示例性地,终端在通过训练得到初始异常检测模型后,此时的初始异常检测模型中包括了对日志数据进行特征处理的全部遍历计算的过程,其中一部分对异常日志的检测结果具有较强的关联性,而另一部分对异常日志的检测结果难以产生重要影响。为了提高日志数据的检测效率,终端可以选取出对异常日志的检测结果影响较小的部分目标特征通道,将目标特征通道移除出去,从而实现对初始异常检测模型的剪枝处理。此外,由于模型中通常以卷积层为模块单位对数据进行处理,因此对初始异常检测模型的剪枝处理可以针对初始异常检测模型中的各个卷积层实现。进一步地,为了使得模型在减少遍历计算的计算量后,输出的结果保持准确,终端可以渐进式地对模型进行剪枝处理,通过剪枝与微调交替开展,从而降低因一次性移除过多特征通道而导致最终的轻量日志检测模型退化的可能性。具体地,目标剪枝率可以预先由技术人员进行设定,也可以由终端通过预先进行的计算步骤确定,模型中各个卷积层的剪枝比例可以分别独立进行设定。
上述的一种实时异常日志检测方法,在实施中能够产生解决背景技术中所提出的技术问题的如下有益效果:
在获取日志数据后,采用轻量日志检测模型对日志数据是否存在异常进行自动判别,轻量日志检测模型为在利用历史日志数据训练得到的初始异常检测模型的基础上,通过移除初始异常检测模型中各个卷积层中的目标特征通道而得到的日志检测模型。在实施中,由于移除了目标特征通道,使得轻量日志检测模型在运行中得以以相对较少的计算量来实现模型的推理过程,从而有助于提高日志检测的实时性。另一方面,在由初始异常检测模型向轻量日志检测模型进化的过程中,移除的特征通道为被指定的目标特征通道,有助于使得技术人员保留对日志检测结果准确度影响过大的特征通道,从而有助于在提高模型推理效率的基础上保证模型输出结果的准确度。
在一个实施例中,如图2所示,步骤108之前,还包括:
步骤202:按照预设的比例梯度随机移除所述初始异常检测模型中各卷积层中的特征通道。
其中,卷积层可以指神经网络模型中用于提取输入数据的特征的运算模块。
示例性地,为了确定对初始异常检测模型的剪枝比例,终端可以对初始异常检测模型中各个卷积层中的特征通道,按照一定的比例随机进行移除。具体地,终端可以按照预设的比例梯度来对初始异常检测模型中各个卷积层中的特征通道进行移除,从而获取各个卷积层在不同的剪枝比例下的异常检测模型。
步骤204:获取随机移除所述特征通道后的测试异常检测模型的鲁棒性验证参数。
其中,鲁棒性可以指模型维持其输出的日志异常判别结果的准确度的性能的特征。
示例性地,终端在对初始异常检测模型的各层进行随机剪枝后,可以构建一组测试用的数据,以测试数据输入随机剪枝后的初始异常检测模型时输出的鲁棒性验证参数来确定随机剪枝后的初始异常检测模型的判别性能,也即初始异常检测模型的鲁棒性。具体地,终端可以获取随机剪枝后初始异常检测模型的损失值,以损失值作为一种鲁棒性验证参数,损失值的变化幅度越大,则可以表明该卷积层所包含的特征通道对模型做出正确判断的贡献度大,则该层的鲁棒性越小。需要注意的,损失值是鲁棒性验证参数的一种,但鲁棒性验证参数并不仅限于损失值。
步骤206:当所述鲁棒性验证参数达到预设的鲁棒性阈值区间时,记录当前的所述特征通道的移除比例,将所述移除比例设定为当前卷积层的所述剪枝比例。
示例性地,终端在获取鲁棒性验证参数后,可以根据鲁棒性验证参数确定初始异常检测模型中的特定卷积层在当前的剪枝比例下的鲁棒性,此时鲁棒性越强,即可表示当前的剪枝比例对模型的输出性能影响越小。此时,终端可以增大当前卷积层的剪枝比例,并再次获取对应的鲁棒性验证参数。这样,在迭代中,终端可以预先设定鲁棒性阈值区间,以鲁棒性阈值区间与模型的各个卷积层的鲁棒性验证参数进行对照,最终获取初始异常检测模型的各个卷积层中的剪枝比例的极限值,此时的极限值即可以作为实际对初始异常检测模型进行剪枝处理的剪枝比例。
本实施例中,通过对初始异常检测模型的各个卷积层进行一定比例的特征通道移除,并逐渐迭代,得到最终的剪枝比例。有助于使得最终对初始异常检测模型进行剪枝后,最终的轻量日志检测模型能够保持一定的鲁棒性,从而降低轻量日志检测模型由于剪枝处理导致的精度退化的可能性,最终有助于提高日志异常检测的结果的准确度。
在一个实施例中,为了确定出被移除的目标特征通道,如图3所示,所述步骤108包括:
步骤302:将所述历史日志数据输入所述初始异常检测模型,获取所述初始异常检测模型中目标卷积层输出的特征映射集,所述特征映射集包括所述目标卷积层中各个特征通道对应的特征分量。
其中,特征映射集可以指卷积层中各个特征通道对应的特征分量的集合。
示例性地,终端可以将历史日志数据输入初始异常检测模型。此时,输入的历史日志数据可以为历史日志数据可以为二维的或多维的向量。在模型的处理中,可以采用卷积层或其他特征抽象层/>层来对历史日志数据进行处理,从而终端可以得到将历史日志数据降维后的特征分量的集合,也即特征映射集/>其中/>表示数据的尺度,/>表示特征通道数。
步骤304:对所述特征映射集进行下采样处理,得到与所述特征分量对应的特征标量。
其中,下采样处理可以指减少矩阵空间采样点数,增大感受野的处理过程。
首先下采样操作被首先执行,下采样处理可以指减少矩阵空间采样点数,增大感受野的处理过程。
示例性地,为避免FMS中显著的运算成本,终端可以对特征映射集进行下采样处理,下采样函数DS(·)可以被用作将空间特征转换成一个标量 如下所示:
这里可以通过/>的方式将CTH的特征分量转换成一个标量,随后门控单元/>可以用于量化通道显著性:
其中作为权重矩阵可以通过奇异值分解算法(SVD)进一步分解从而降低运算量,为此/>通常被初始化为0。门控单元最终输出特征标量/>作为其对应特征分量的显著性指标。/>该量化指标可以通过点积作用在其对应的特征分量上,从而激发或抑制特征分量的活性,并借助反向传播来进行调整。
步骤306:基于所述特征标量确定所述特征通道的重要度排序,在目标卷积层中按照所述重要度排序倒序选取出数量满足所述剪枝比例的所述目标特征通道。
示例性地,终端在获取特征映射集中的特征分量对应的特征标量后,可以根据特征标量的值确定特征通道的重要度。终端可以通过门控单元来实现通道显著性的量化。在实施中,终端可以采用SVD算法对门控单元的权重矩阵进行分解,从而降低运算量,同时增加非线性。
这样,终端可以获取分别获取特征通道的重要度,并可以根据获取的重要度对特征通道进行排序,从而在移除特征通道的剪枝处理中,按照重要度由小到大的顺序,将初始异常检测模型的特征通道移除至满足剪枝比例的数量,被移除的特征通道即为目标特征通道。
本实施例中,通过对模型的特征通道的重要度进行量化,有助于在剪枝处理中优先移除对模型的重要度最小的一部分特征通道,从而有助于提高保留的特征通道的效用,最终有助于提高模型的输出结果的准确度。
在一个实施例中,可以如图4所示,所述步骤108包括:
步骤402:逐层移除所述初始异常检测模型中的目标特征通道,得到所述第一日志检测模型。
示例性地,终端在对初始异常检测模型进行剪枝处理得后,可以得到第一日志检测模型。
步骤404:基于所述历史日志数据构建微调训练集,利用所述微调训练集将所述第一日志检测模型训练至收敛,得到所述轻量日志检测模型。
其中,微调训练集可以包括终端收集的日志数据,还可以包括以与训练模型输出的概率分布作为标签的数据。
示例性地,经过剪枝处理后得到的第一日志检测模型,与初始异常检测模型相比,差别为去除了部分特征通道,其他的模型参数是相同的。此时,终端可以根据历史日志数据构建得到一个微调训练集,可以以微调训练集对第一日志检测模型进行训练,以此时训练收敛后的模型作为轻量日志检测模型。
本实施例中,通过对第一日志检测模型进行二次微调训练,有助于使得最终应用的轻量日志检测模型进一步满足日志异常检测的需求,从而有助于进一步提高轻量日志检测模型的输出结果的准确度。
在一个实施例中,可以如图5所示,所述步骤404包括:
步骤502:将所述历史日志数据输入所述初始异常检测模型,以所述初始异常检测模型的输出结果作为所述历史日志数据的辅助标签。
示例性地,在第一日志检测模型的微调过程中,为了对第一日志检测模型的微调结果进行验证,可以以第一日志检测模型在测试中的损失值作为验证指标。为了得到第一日志检测模型的损失值,终端可以获取以历史日志数据为输入,初始异常检测模型的输出信息,以其作为历史日志数据的辅助标签,辅助标签可以包括初始日志检测模型对历史日志数据进行特征处理以及识别等处理后得到的信息。
步骤504:获取所述历史日志数据的真实标签,所述真实标签为预先对所述历史日志数据进行的人工标注。
示例性地,终端还可以获取历史日志数据的真实标签,真实标签可以为技术人员预先对历史日志进行的人工标注。显而易见的,真实标签仅包括技术人员所需的信息,而辅助标签中除了包括技术人员设定的所需的信息之外,还包括由模型在特征提取、处理中所获取的其他先验信息。
步骤506:基于所述真实标签以及所述辅助标签计算所述第一日志检测模型的损失函数,直至所述第一日志检测模型的概率分布收敛至所述初始异常检测模型的概率分布。
其中,损失值可以指真实标签和辅助标签共同作用下产生的交叉熵损失。
示例性地,终端在获取真实标签以及辅助标签后,可以根据真实标签和辅助标签计算模型的损失值,损失值可以以当前模型输出的概率分布为变量,具体的损失函数可以如下所示:
其中,x表示输入日志数据,y表示标签,P(x)表示当前阶段模型输出的概率分布。
本实施例中,终端可以基于真实标签、辅助标签以及模型输出的概率分布计算模型的损失值,以模型的损失值作为第一日志检测模型收敛的验证标准,最终有助于提高轻量日志检测模型的输出的准确度。
在一个实施例中,所述步骤506包括:
步骤602:设置第一权重系数,以所述第一权重系统调节所述真实标签以及所述辅助标签对所述损失函数的影响程度。
示例性地,由于统一日志数据同时包括真实标签以及辅助标签,终端可以通过设定一个第一权重系数来调节真实标签与辅助标签对最终轻量日志检测模型的影响程度,此时损失函数可以如下所示:
其中,α∈[0,1]为权重系数,yt,ys分别为真实标签和辅助标签。
本实施例中,通过在损失函数中设置权重系数,有助于技术人员根据实际的需求调节真实标签和辅助标签对模型的影响程度,从而有助于提高模型应用的灵活度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的异常日志检测方法的异常日志检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个异常日志检测装置实施例中的具体限定可以参见上文中对于异常日志检测方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种实时异常日志检测装置,包括:日志数据模块、异常检测模块、初始模型模块和轻量模型模块,其中:
日志数据模块,用于获取日志数据;
异常检测模块,用于将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果;
所述异常检测模块之前,还包括:
初始模型模块,用于获取历史日志数据,基于所述历史日志数据训练得到初始异常检测模型,所述初始异常检测模型用于实现异常日志检测;
轻量模型模块,用于按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型。
在其中一个实施例中,所述轻量模型模块之前,还包括:
随机移除模块,用于按照预设的比例梯度随机移除所述初始异常检测模型中各卷积层中的特征通道;
鲁棒性验证模块,用于获取随机移除所述特征通道后的测试异常检测模型的鲁棒性验证参数;
剪枝比例确定模块,用于当所述鲁棒性验证参数达到预设的鲁棒性阈值区间时,记录当前的所述特征通道的移除比例,将所述移除比例设定为当前卷积层的所述剪枝比例。
在其中一个实施例中,所述轻量模型模块包括:
特征映射模块,用于将所述历史日志数据输入所述初始异常检测模型,获取所述初始异常检测模型中目标卷积层输出的特征映射集,所述特征映射集包括所述目标卷积层中各个特征通道对应的特征分量;
特征标量模块,用于对所述特征映射集进行下采样处理,得到与所述特征分量对应的特征标量;
重要度排序模块,用于基于所述特征标量确定所述特征通道的重要度排序,在目标卷积层中按照所述重要度排序倒序选取出数量满足所述剪枝比例的所述目标特征通道。
在其中一个实施例中,所述轻量模型模块包括:
第一日志模型模块,用于逐层移除所述初始异常检测模型中的目标特征通道,得到所述第一日志检测模型;
模型微调模块,用于基于所述历史日志数据构建微调训练集,利用所述微调训练集将所述第一日志检测模型训练至收敛,得到所述轻量日志检测模型。
在其中一个实施例中,所述模型微调模块包括:
辅助标签模块,用于将所述历史日志数据输入所述初始异常检测模型,以所述初始异常检测模型的输出结果作为所述历史日志数据的辅助标签;
真实标签模块,用于获取所述历史日志数据的真实标签,所述真实标签为预先对所述历史日志数据进行的人工标注;
损失函数模块,用于基于所述真实标签以及所述辅助标签计算所述第一日志检测模型的损失函数,直至所述第一日志检测模型的概率分布收敛至所述初始异常检测模型的概率分布。
在其中一个实施例中,所述损失函数模块包括:
权重系数模块,用于设置第一权重系数,以所述第一权重系统调节所述真实标签以及所述辅助标签对所述损失函数的影响程度。
上述异常日志检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种实时异常日志检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种实时异常日志检测方法,其特征在于,所述方法包括:
获取日志数据;
将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果;
所述将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果之前,还包括:
获取历史日志数据,基于所述历史日志数据训练得到初始异常检测模型,所述初始异常检测模型用于实现异常日志检测;
按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型。
2.根据权利要求1所述的方法,其特征在于,所述按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型之前,还包括:
按照预设的比例梯度随机移除所述初始异常检测模型中各卷积层中的特征通道;
获取随机移除所述特征通道后测试异常检测模型的鲁棒性验证参数;
当所述鲁棒性验证参数达到预设的鲁棒性阈值区间时,记录当前的所述特征通道的移除比例,将所述移除比例设定为当前隐藏层的所述剪枝比例。
3.根据权利要求2所述的方法,其特征在于,所述按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型包括:
将所述历史日志数据输入所述初始异常检测模型,获取所述初始异常检测模型中目标卷积层输出的特征映射集,所述特征映射集包括所述目标卷积层中各个特征通道对应的特征分量;
对所述特征映射集进行下采样处理,得到与所述特征分量对应的特征标量;
基于所述特征标量确定所述特征通道的重要度排序,在目标卷积层中按照所述重要度排序倒序选取出数量满足所述剪枝比例的所述目标特征通道。
4.根据权利要求1所述的方法,其特征在于,所述按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型包括:
逐层移除所述初始异常检测模型中的目标特征通道,得到所述第一日志检测模型;
基于所述历史日志数据构建微调训练集,利用所述微调训练集将所述第一日志检测模型训练至收敛,得到所述轻量日志检测模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述历史日志数据构建微调训练集,利用所述微调训练集将所述第一日志检测模型训练至收敛,得到所述轻量日志检测模型包括:
将所述历史日志数据输入所述初始异常检测模型,以所述初始异常检测模型输出的概率分布作为所述历史日志数据的辅助标签;
获取所述历史日志数据的真实标签,所述真实标签为预先对所述历史日志数据进行的人工标注;
基于所述真实标签以及所述辅助标签计算所述第一日志检测模型的输出概率分布,直至损失函数收敛至全局最优解。
6.根据权利要求5所述的方法,其特征在于,所述基于所述真实标签以及所述辅助标签计算所述第一日志检测模型的输出概率分布,直至损失函数陷入全局最优解包括:
设置第一权重系数,以所述第一权重系统调节所述真实标签以及所述辅助标签对所述损失函数的影响程度。
7.一种实时异常日志检测装置,其特征在于,所述装置包括:
日志数据模块,用于获取日志数据;
异常检测模块,用于将所述日志数据输入轻量日志检测模型,得到与所述日志数据对应的异常检测结果;
所述异常检测模块之前,还包括:
初始模型模块,用于获取历史日志数据,基于所述历史日志数据训练得到初始异常检测模型,所述初始异常检测模型用于实现异常日志检测;
轻量模型模块,用于按照预设的剪枝比例,逐层移除所述初始异常检测模型中的目标特征通道,得到所述轻量日志检测模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310684384.2A CN116737681A (zh) | 2023-06-09 | 2023-06-09 | 一种实时异常日志检测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310684384.2A CN116737681A (zh) | 2023-06-09 | 2023-06-09 | 一种实时异常日志检测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116737681A true CN116737681A (zh) | 2023-09-12 |
Family
ID=87902270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310684384.2A Pending CN116737681A (zh) | 2023-06-09 | 2023-06-09 | 一种实时异常日志检测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737681A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436496A (zh) * | 2023-11-22 | 2024-01-23 | 深圳市网安信科技有限公司 | 基于大数据日志的异常检测模型的训练方法及检测方法 |
-
2023
- 2023-06-09 CN CN202310684384.2A patent/CN116737681A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436496A (zh) * | 2023-11-22 | 2024-01-23 | 深圳市网安信科技有限公司 | 基于大数据日志的异常检测模型的训练方法及检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116737681A (zh) | 一种实时异常日志检测方法、装置、计算机设备和存储介质 | |
KR20220107118A (ko) | 제품 결함의 원인을 분석하는 시스템 및 방법, 컴퓨터 판독가능 매체 | |
CN116821646A (zh) | 数据处理链构建方法、数据缩减方法、装置、设备及介质 | |
CN114493052A (zh) | 多模型融合自适应新能源功率预测方法和系统 | |
CN115952724A (zh) | 航空发动机剩余寿命预测方法、系统、设备及介质 | |
CN117291575A (zh) | 设备检修方法、装置、计算机设备和存储介质 | |
CN117170915A (zh) | 数据中心设备故障预测方法、装置和计算机设备 | |
CN116861373A (zh) | 一种查询选择率估算方法、系统、终端设备及存储介质 | |
CN116401238A (zh) | 偏离度监测方法、装置、设备、存储介质和程序产品 | |
CN114518988B (zh) | 资源容量系统及其控制方法和计算机可读存储介质 | |
CN116149895A (zh) | 大数据集群性能预测方法、装置和计算机设备 | |
CN115204501A (zh) | 企业评估方法、装置、计算机设备和存储介质 | |
CN110738414B (zh) | 一种风险预测方法和装置及计算机可读存储介质 | |
CN114398235A (zh) | 基于融合学习和假设检验的内存回收趋势预警装置及方法 | |
CN116956174B (zh) | 用于进行冷头状态分类检测和寿命预测的分类模型和预测模型的生成方法 | |
CN117851953B (zh) | 用水异常检测方法、装置、电子设备及存储介质 | |
Xiao et al. | Prediction of Monthly Rainfall in Plateau Area Based on Convolutional Neural Network | |
CN115587292A (zh) | 换流站选相分合闸的异常识别方法、装置和计算机设备 | |
CN114352485A (zh) | 风力发电机风速的预测方法、装置、计算机设备 | |
CN117933486A (zh) | 水质参数预测方法、装置、设备、介质和计算机程序产品 | |
CN118193955A (zh) | 一种压气机气动噪声获取方法、装置、介质及产品 | |
CN116452308A (zh) | 风险评估方法、装置、计算机设备、存储介质和程序产品 | |
CN117973604A (zh) | 一种混合预测模型的负荷短期预测方法及系统 | |
CN115146823A (zh) | 刀具剩余寿命预测方法、装置、设备、介质和程序产品 | |
CN116739867A (zh) | 电力系统碳排放量测算方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |