CN117436496A - 基于大数据日志的异常检测模型的训练方法及检测方法 - Google Patents
基于大数据日志的异常检测模型的训练方法及检测方法 Download PDFInfo
- Publication number
- CN117436496A CN117436496A CN202311574445.6A CN202311574445A CN117436496A CN 117436496 A CN117436496 A CN 117436496A CN 202311574445 A CN202311574445 A CN 202311574445A CN 117436496 A CN117436496 A CN 117436496A
- Authority
- CN
- China
- Prior art keywords
- log
- data
- log information
- training
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 175
- 238000001514 detection method Methods 0.000 title claims abstract description 152
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000002372 labelling Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 28
- 230000008030 elimination Effects 0.000 claims abstract description 10
- 238000003379 elimination reaction Methods 0.000 claims abstract description 10
- 230000005856 abnormality Effects 0.000 claims description 36
- 230000002159 abnormal effect Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 238000004140 cleaning Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种基于大数据日志的异常检测模型的训练方法及检测方法,所述方法包括:对原始日志数据进行去冗余操作,以得到简化训练日志数据;将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量;将每条语义向量输入初始异常检测模型中的Transformer模型,通过Transformer模型确定每条日志信息对应的第一预测类别;基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练。本申请通过构建大数据日志的异常检测模型,使用简化训练日志数据对异常检测模型进行训练,能够提高对数以百万计甚至更多的日志数据中异常日志信息检测的准确性和效率。
Description
技术领域
本申请涉及网络安全技术领域,特别涉及一种基于大数据日志的异常检测模型的训练方法及检测方法。
背景技术
系统日志对于系统故障排查、数据分析、网络安全都具有重要的作用。目前,对于大规模信息系统,通常每天产生的日志数据都以百万计,日志数据中包含正常日志信息和异常日志信息,大量的日志数据导致对每条日志信息做正常类别和异常类别标注时标注效率很慢,且通常日志数据中大部分都为正常日志信息,异常日志信息很少,难以保证在大量的日志数据中检测异常日志信息的准确度,因此需提高对数以百万计甚至更多的日志数据中异常日志信息检测的准确性和效率。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于提高对数以百万计甚至更多的日志数据中异常日志信息检测的准确性和效率,针对现有技术的不足,提供一种基于大数据日志的异常检测模型的训练方法及检测方法。
为了解决上述技术问题,本申请实施例第一方面提供了一种基于大数据日志的异常检测模型的训练方法,其中,所述的基于大数据日志的异常检测模型的训练方法具体包括:
对原始日志数据进行去冗余操作,以得到简化训练日志数据;
将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量;
将每条语义向量输入所述初始异常检测模型中的Transformer模型,通过Transformer模型确定每条日志信息对应的第一预测类别;
基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型。
在本实施例的一个实现方式中,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:
将所述将简化训练日志数据中的每条日志信息输入异常检测模型,通过异常检测模型输出每条日志信息的第二预测类别;
基于所述每条日志信息的第二预测类别和标注类别,在简化训练日志数据中选取不匹配日志信息;
接收各不匹配日志信息对应的专家标注类别,采用专家标注类别替换各不匹配日志信息的标注类别,以得到更新简化训练日志数据;
基于更新简化训练日志数据对所述异常检测模型进行微调。
在本实施例的一个实现方式中,所述方法还包括:
将所述更新简化训练日志数据作为简化训练日志数据,并重新执行将所述将简化训练日志数据中的每条日志信息输入异常检测模型的步骤,依次循环预设次数的微调过程。
在本实施例的一个实现方式中,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据具体包括:
将原始日志数据排列为一个日志信息序列;
清洗位于第一位的日志信息中的重复数字,将清洗后的日志信息放入第一预设序列内,并将位于第一位的日志信息放入第二预设序列;
将所述位于第二位的日志信息作为目标日志信息,清洗目标日志信息中的重复数字,当清洗后的目标日志信息未包含于第一预设序列内时,将清洗后的目标信息放入第一预设序列,将目标日志信息放置于第二预设序列;
将所述目标日志信息的下一日志信息作为目标日志信息,并重复清洗日志信息序列中的重复数字的步骤,直至位于最后的日志信息被执行完;
将所述第二预设序列包括的目标日志信息作为简化训练日志数据。
在本实施例的一个实现方式中,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据之后,所述方法还包括:
获取所述简化训练日志数据所包含的日志信息的数据量;
若所述数据量小于或等于预设数据量,则保持简化训练日志数据不变;
若所述数据量大于预设数据量,则对简化训练日志数据进行数据平衡处理。
在本实施例的一个实现方式中,所述对所述简化训练日志数据进行数据平衡处理具体包括:
计算所述数据量与预设数据量的数据量差值;
在所述简化训练日志数据中随机选取数据量差值个日志信息,其中,选取的日志信息的标注类别为正常类别;
将选取得到的所有日志信息从所述简化训练日志数据中删除。
在本实施例的一个实现方式中,所述异常检测模型的训练过程中所采用的损失函数为加权交叉熵损失函数。
在本实施例的一个实现方式中,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:
将所述将简化训练日志数据中的每条日志信息输入异常检测模型,通过异常检测模型输出每条日志信息的第二预测类别;
基于所述每条日志信息的第二预测类别和标注类别,在简化训练日志数据中选取不匹配日志信息;
接收各不匹配日志信息对应的专家标注类别,采用专家标注类别替换各不匹配日志信息的标注类别,以得到更新简化训练日志数据;
基于更新简化训练日志数据对所述异常检测模型进行微调。
本申请实施例第二方面提供了一种基于大数据日志的网络安全异常检测方法,应用基于所述基于大数据日志的异常检测模型的训练方法训练得到的异常检测模型,所述方法包括:
获取待检测日志数据,并对所述待检测日志数据进行去冗余操作以得到简化日志数据;
将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息。
在本实施例的一个实现方式中,所述将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息之后,所述方法还包括:
获取异常日志信息中的预测错误日志信息,并接收各预测错误日志信息对应的专家标注类别;
将专家标注类别作为各预测错误日志信息的标注类别,将除预测错误日志信息外的各简化日志信息的预测类别作为其标注类别,以得到微调数据集;
基于所述微调数据集对所述异常检测模型进行微调。
在本实施例的一个实现方式中,所述基于所述微调数据集对所述异常检测模型进行微调之前,所述方法还包括:
若所述微调数据集的数据量大于预设数据量,则对所述微调数据集进行数据平衡处理。
本申请实施例第三方面提供了一种终端设备,其包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如上任一所述的基于大数据日志的异常检测模型的训练方法中的步骤。
有益效果:与现有技术相比,
1)本申请通过对原始日志数据进行去冗余操作,得到简化训练日志数据,通过删除原始日志数据中的重复日志信息,保留能提供最多信息内容的关键日志数据,把数以百万级的原始日志数据简化到了数以万级的简化日志信息,解决了日志信息数量过多的问题;
2)通过采用数据平衡处理简化后的日志信息,把数以万级的简化日志信息简化到了数以千级的平衡后的日志信息,进一步减少了日志信息数量,且保持了异常日志信息和正常日志信息的数据平衡;
3)通过采用预训练语言模型和Transformer模型构建异常检测模型,并使用简化后的日志信息对异常检测模型进行训练,以及对训练后的模型进行微调,可以提高对数以百万计甚至更多的日志异常检测的准确性和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的基于大数据日志的异常检测模型的训练方法的较佳实施例的流程图。
图2为本申请提供的基于大数据日志的异常检测模型的训练方法的较佳实施例中步骤S10的原理。
图3为本申请提供的基于大数据日志的异常检测模型的训练方法的较佳实施例中步骤S10的流程图。
图4为本申请提供的基于大数据日志的异常检测模型的训练方法的较佳实施例的模型训练原理图。
图5为本申请提供的基于大数据日志的异常检测模型的训练方法的较佳实施例的模型微调原理图。
图6为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种基于大数据日志的异常检测模型的训练方法及检测方法,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
发明人经过研究发现,针对系统日志在分析系统和解决问题中,尤其是在要求高可用性和质量保证的复杂软件密集型系统中基于日志的异常检测面临三个主要问题。第一,大量的日志数据,通常每天数量以百万计,给数据标记带来了重大困难。第二,日志数据具有严重的类别不平衡现象,即正常日志信息的数据量要远远大于异常日志信息的数据量。第三,在庞大的数据集中进行异常检测任务需要高准确度和高效率。
虽然目前已经提出了许多方法来解决这些问题,包括基于LSTM的算法和一些Transformer网络。从基于LSTM的算法,用于预测时间序列数据和拟合多变量高斯分布以进行预测误差的方法,到整合Transformer网络的方法,旨在以不同的方式捕获异常。然而,传统的基于LSTM的方法常常出现参数敏感性的问题,阻碍了它们在现实世界中的适用性。
PLELog和LogRobust已经采用了半监督学习和语义信息,但它们受限于日志解析方法的约束,LogBERT引入了一种自监督框架,但其准确性不足。NeuralLog在不进行日志解析的情况下拥有高准确性,但存在难以标记日志类别的问题。
基于大型语言模型如ChatGPT和LLaMa2,对日志数据进行异常检测时,其训练和推理效率受多种因素影响,包括硬件、具体实现、批处理大小和模型大小,对于数以百万计甚至更多的日志异常检测来说,对大型语言模型的日志数据进行异常检测存在效率太慢且成本太高的问题。
综上所述,在大规模信息系统进行基于数以百万计甚至更多的日志数据的异常检测的中现有技术存在异常检测准确率和效率不高的问题。
为了解决上述问题,在本申请实施例中通过对原始日志数据进行去冗余操作,以得到简化训练日志数据;将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量;将每条语义向量输入所述初始异常检测模型中的Transformer模型,通过Transformer模型确定每条日志信息对应的第一预测类别;基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型。本申请通过构建大数据日志的异常检测模型,使用简化训练日志数据对异常检测模型进行训练,能够提高对数以百万计甚至更多的日志数据中异常数据检测的准确性和效率。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种基于大数据日志的异常检测模型的训练方法,如图1所示,所述方法包括:
S10、对原始日志数据进行去冗余操作,以得到简化训练日志数据。
具体地,所述原始日志数据为从大规模信息系统中采集的数以百万计甚至更多的系统日志数据。例如,从大型语言模型ChatGPT系统采集的数以百万计甚至更多的日志数据。所述原始日志数据存储于日志文件中。
所述去冗余操作为去除所述原始日志数据中重复的日志数据。由于日志是系统或应用程序运行过程中产生的记录,例如事件类型、源、目标、状态代码、消息内容等等,那么在所收集到的日志数据中,就存在很多重复出现的日志数据,对于重复的日志数据,它们所保存的信息内容都是一样的,因此只需要保存一条该日志数据即可。也就是说,对所述原始日志数据中的重复数据进行删除。如图2所示,例如在原始数据中包含多个相同的数据错中断日志信息、多个相同的消息头错误日志信息、多个相同的由于信号异常退出日志信息等,通过去冗余操作,把相同的重复日志信息删除,只保留一个数据错中断日志信息、一个消息头错误日志信息、一个由于信号异常退出日志信息等。本申请通过去冗余操作,能够把所述原始日志数据中一些不重要的日志数据进行删除,保留能提供更多信息内容的关键日志数据。
所述简化训练日志数据为去除所述原始日志数据中重复的日志数据后获得的日志数据。也就是说,所述简化训练日志数据不包含重复的日志数据。所述简化训练日志数据包括正常日志信息和异常日志信息。
在本实施例的一个实现方式中,如图3所示,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据具体包括:
S11、将原始日志数据排列为一个日志信息序列;
S12、清洗位于第一位的日志信息中的重复数字,将清洗后的日志信息放入第一预设序列内,并将位于第一位的日志信息放入第二预设序列;
S13、将所述位于第二位的日志信息作为目标日志信息,清洗目标日志信息中的重复数字,当清洗后的目标日志信息未包含于第一预设序列内时,将清洗后的目标信息放入第一预设序列,将目标日志信息放置于第二预设序列;
S14、将所述目标日志信息的下一日志信息作为目标日志信息,并重复清洗日志信息序列中的重复数字的步骤,直至位于最后的日志信息被执行完;
S15、将所述第二预设序列包括的目标日志信息作为简化训练日志数据。
具体地,在步骤S11中,所述原始日志数据包含若干日志信息。所述日志信息序列用于存储日志信息。所述日志信息为系统或应用程序运行过程中某个运行线程的一项记录。例如,当用户登入系统时需要进行身份验证,此时客户端向Web服务器端请求数据,描述性的记录就会附加到日志文件中,就产生了日志信息。换而言之,所述日志信息为保存在日志文件中的其中一条日志数据。
在本实施例的一个实现方式中,所述日志信息序列采用队列的存储方式进行存储。其中,所述队列为用于存储数据的一种数据结构。通过遍历所述原始日志数据中的日志信息,将每条日志信息存储于日志信息序列中。
在步骤S12中,所述清洗是指将每一条日志信息中的重复数字进行删除。由于每一条日志信息中都存储有重复数字,通过删除这些重复数字,从而改善数据的质量,可以减少计算时间。在本实施例的一个实现方式中,通过设置clean()函数,将日志信息作为参数,调用clean()函数就可获得清洗后的日志信息。
所述第一预设序列用于判断是否有重复的日志信息。所述第一预设序列存储已删除重复日志信息的日志数据,且当中的每条日志信息已清洗。也就是说,把每条日志信息清洗后再进行判断,这样两条日志信息的内容在进行比较时,就可以减少计算时间。
所述第二预设序列中存储的数据用于对异常检测模型进行训练。所述第二预设序列存储已删除重复日志信息的日志数据,且当中的每条日志信息未清洗。
在本实施例的一个实现方式中,通过设置所述预设序列来达到删除重复日志信息的目的。由于所述日志信息序列中包含所有原始日志信息,那么就可以通过设置预设序列,预设序列起初是不包含任何的日志信息,按顺序读取所述日志序列中每条日志信息,当从所述日志序列中读取某条日志信息时,将该条日志信息与预设序列中的每条日志信息相比较,如果预设序列中有日志信息与该条日志信息相同,那么就说明该条日志信息是重复的日志信息,则不做处理,如果预设序列中没有日志信息与该条日志信息相同,那么就说明该条日志信息不是重复的日志信息,则将该条日志信息存储到预设序列中。重复上述步骤,直至读取完所述日志信息序列中最后一位日志信息,最终获得的预设序列中的日志信息就不含重复的日志信息了,达到了删除重复日志信息的目的。
具体地,在日志信息序列中,当读取存储在第一位的日志信息时,由于此时第一预设序列中不包含任何日志信息,即此时第一预设序列为空预设序列,不需要进行判断,直接将读取的第一位的日志信息存储于第二预设序列内,调用clean()函数清洗位于第一位的日志信息,将清洗后的日志信息放入第一预设序列内。也就是说,清洗位于第一位的日志信息中的重复数字,将清洗后的日志信息放入第一预设序列内,并将位于第一位的日志信息放入第二预设序列。
在所述日志信息序列中,从位于第二位的日志信息开始,直至位于最后的日志信息,都需要将其中的每一条日志信息进行判断,判断是否有重复的日志信息。
在步骤S13中,将所述位于第二位的日志信息作为目标日志信息,清洗目标日志信息中的重复数字,当清洗后的目标日志信息未包含于第一预设序列内时,将清洗后的目标信息放入第一预设序列,将目标日志信息放置于第二预设序列。所述目标日志信息为从日志信息序列中读取的某条日志信息,用于比较在第一预设序列中是否有与该日志信息重复的日志信息。具体地,当遍历到所述日志信息序列中第二位的日志信息时,此时读取位于第二位的日志信息作为目标日志信息,将该目标日志信息进行清洗后,与存储在第一预设序列内的各个位置的日志信息进行比较,判断是否有相同的日志信息,如果有相同的日志信息,就表明第二位的日志信息是重复日志信息,对于该目标日志信息则不需要进行处理;如果没有相同的日志信息,就表明第二位的日志信息不是重复日志信息,则将清洗后的目标信息放入第一预设序列,将未清洗的目标日志信息放置于第二预设序列。
在步骤S14中,继续读取所述日志信息序列中下一位日志信息,采用和步骤S13的判断方法判断该日志信息是否为重复的日志信息,采用相同的处理方式对该日志信息做对应的处理,重复上述操作,直至处理完位于所述日志信息序列中最后一位日志信息。即将所述目标日志信息的下一日志信息作为目标日志信息,并重复清洗日志信息序列中的重复数字的步骤,直至位于最后的日志信息被执行完。
在步骤S15中,当位于所述日志信息序列中最后的日志信息被执行完,所得到的第二预设序列中就不存在重复的日志信息了,第二预设序列中存储的日志信息相当于所述日志信息序列中删除了重复日志信息后的日志信息序列,此时就可以将所述第二预设序列包括的目标日志信息作为简化训练日志数据。
为了更好理解上述对所述日志信息序列中日志信息的处理过程,现举例说明:假设所述日志信息序列的表示方式为Loriginal={L1,L2,...,Lt},总共包含t条日志信息,所述第一预设序列的表示方式为Lclean={},所述第二预设序列的表示方式为Ldelect={},读取位于所述日志信息序列Loriginal中第一位日志信息L1,将清洗后的第一位日志信息Lclear1存储于第一预设序列中,将第一位日志信息L1存储于第二预设序列,此时第一预设序列表示为:Lclean={Lclear1},第二预设序列表示为:Ldelect={L1};读取所述日志信息序列Loriginal中位于第二位的日志信息L2,将第二位日志信息L2作为目标日志信息并将其清洗,然后与存储于第一预设序列中的所有日志信息做比较,此时就相当于与日志信息Lclear1相比较,如果与日志信息Lclear1相同,则不做数据处理,此时第一预设序列和第二预设序列保持不变,接着读取所述日志信息序列Loriginal中位于第三位的日志信息L3,如果与日志信息Lclear1不同,则将该目标日志信息清洗后Lclear2存储于第一预设序列中,将第二位日志信息L2存储于第二预设序列,此时第一预设序列表示为:Lclean=(Lclear1,Lclear2},第二预设序列表示为:Ldelect={L1,L2};接着读取所述日志信息序列Loriginal中下一位日志信息,重复上述操作步骤,直至执行完所述日志信息序列Loriginal中最后一位日志信息Lt;将最终获得的第二预设序列中的日志信息Ldelect={L1,L2,...,Lk}作为简化训练日志数据。
本申请通过对原始日志数据进行去冗余操作,得到简化训练日志数据,通过删除原始日志数据中的重复日志信息,保留能提供最多信息内容的关键日志,把数以百万级的原始日志数据简化到了数以万级的简化日志信息,解决了日志信息数量过多的问题。
在本实施例的一个实现方式中,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据之后,所述方法还包括:
获取所述简化训练日志数据所包含的日志信息的数据量;
若所述数据量小于或等于预设数据量,则保持简化训练日志数据不变;
若所述数据量大于预设数据量,则对简化训练日志数据进行数据平衡处理。
具体地,所述数据量为所述简化训练日志数据中所包含的日志信息的数量。所述预设数据量为预先设定的数据量大小,用于判断所述简化训练日志数据的数据量是否满足实际所需的数据量的大小。若所述数据量小于或等于预设数据量,表示所述简化训练日志数据的数据量满足实际所需的数据量的大小,则保持简化训练日志数据不变;若所述数据量大于预设数据量,表示所述简化训练日志数据的数据量不满足实际所需的数据量的大小,则对简化训练日志数据进行数据平衡处理,以进一步减少所述简化训练日志数据中的日志信息的数量。
所述数据平衡处理为将简化训练日志数据中的部分正常日志信息进行删除。在实际应用中,系统运行过程中产生的日志数据中,大部分日志数据都是正常日志信息,只有很少一部分日志数据是异常日志信息,这就导致了日志数据严重类别不平衡的问题。基于此,如果简化训练日志的数据量大于设定的数据量大小时,就可以通过对简化训练日志数据进行数据平衡处理,进一步减少所述简化训练日志数据中日志信息的数量,同时也可以保持所述简化训练日志数据中数据类别平衡。
在本实施例的一个实现方式中,所述对所述简化训练日志数据进行数据平衡处理具体包括:
计算所述数据量与预设数据量的数据量差值;
在所述简化训练日志数据中随机选取数据量差值个日志信息,其中,选取的日志信息的标注类别为正常类别;
将选取得到的所有日志信息从所述简化训练日志数据中删除。
具体地,所述数据量与预设数据量的数据量差值用于计算需要从所述简化训练日志数据中删除日志信息的个数,才能使所述数据量满足实际所需的数据量的大小。
所述日志信息的标注类别为正常类别或异常类别。其中,正常类别表示正常日志信息,异常类别表示异常日志信息。为了保持所述简化训练日志数据中正常日志信息和异常日志信息的数据类别平衡,在所述简化训练日志数据中随机选取数据量差值个日志信息时,只选取其中的正常日志信息进行删除。在本实施例的一个实现方式中,正常日志信息用1进行标注,异常日志信息用0进行标注,即数值1表示正常类别,数值0表示异常类别,通过所述简化训练日志数据中的所有日志信息的标注类别值为1还是0,就可判别该日志信息是正常类别还是异常类别,遍历所述简化训练日志数据中的所有日志信息,当日志信息的标注为1且该日志信息存储有日志内容时,随机选取数据量差值个正常类别的日志信息进行删除,即将选取得到的所有日志信息从所述简化训练日志数据中删除。
本申请通过采用数据平衡处理简化后的日志信息,把数以万级的简化日志信息简化到了数以千级的平衡后的日志信息,进一步减少了日志信息数量,且保持了异常日志信息和正常日志信息的数据平衡。
S20、将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量。
具体地,所述初始异常检测模型用于检测日志信息的信息类别,信息类别包括正常类别和异常类别,其中,初始异常检测模型包括预训练语言模型和Transformer模型,预训练语言模型用于将日志信息转换为语义向量,Transformer模型用于基于语义向量预测信息类别。此外,初始异常检测模型与异常检测模型的模型结构相同,仅是模型参数不同,其中,初始异常检测模型采用的初始模型参数,异常检测模型采用的经过训练的模型参数。
所述预训练语言模型可以采用预训练的BERT语言模型,BERT语言模型的作用是用于对日志信息进行编码,以得到日志信息对应的语义向量。也就是说,通过所述BERT语言模型,将简化训练日志数据中的每条日志信息进行编码以得到语义向量,这样可以捕捉到日志信息的语义信息,以便于获取不同日志信息间存在的复杂语义差异。本申请通过使用BERT语言模型,消除了引入日志解析方法产生的噪音和不准确,通过对每条日志信息进行编码,能够获得最能表征每条日志信息的参数,从而更加准确地提取对应的特征向量,使得语义向量能够包含更为准确的语义信息。
S30、将每条语义向量输入所述初始异常检测模型中的Transformer模型,通过Transformer模型确定每条日志信息对应的第一预测类别。
具体地,所述第一预测类别可以为正常类别或异常类别。也就是说,通过将每条语义向量输入Transformer模型中,采用多头自注意力机制和是softmax激活函数,就能够确定每条日志信息为正常类别日志信息还是异常类别日志信息。
所述Transformer模型采用多头自注意力机制。多头自注意力机制包括多重注意力头和可学习参数来捕获不同的元素之间关系的各个方面顺序。每个位置的最终输出都经过加权所有注意力头的输出的组合。其中,假设输入所述Transformer模型的语义向量序列为X=[x1,x2,...,xn],经过自注意力机制计算后获得新的语义向量序列为Y=[y1,y2,...,yn],通过采用softmax激活函数,对语义向量施以softmax激活函数,得到加权的每个语义向量的评分,每个语义向量的评分相加之后得到最终的输出结果,则序列中每个语义向量的加权和可以表示为 其中,xi和xj是位置i和j处的输入向量,Wv是值向量的权重矩阵,用于输入向量的线性变换,点积/>衡量xi和xj之间的相似度,softmax函数是将点积转换为序列中位置的概率分布,确定每个位置对yi的贡献程度,yi是位置i处的输出表示。
S40、基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型。
具体地,基于每条日志信息对应的第一预测类别和标注类别,选取第一预测类别和标注类别都为异常类别的日志信息作为训练集,对初始异常检测模型进行训练。本申请通过采用预训练语言模型和Transformer模型构建异常检测模型,并使用简化后的日志信息对异常检测模型进行训练,可以提高对数以百万计甚至更多的日志异常检测的准确性和效率。
在本实施例的一个实现方式中,所述异常检测模型的训练过程中所采用的损失函数为加权交叉熵损失函数。
具体地,所述加权交叉熵损失函数用于衡量所述异常检测模型的第一预测类别的预测概率与标注类别之间的差异。
其中,交叉熵损失函数的计算公式为: N表示批量大小,yij表示批次中数据点j的类别i的真实标签,pij表示分配给i类数据的预测概率批次中的j点。
为了解决日志数据中异常日志信息和正常日志信息之间的类不平衡问题,通过使用类权重来计算分类损失。因此,根据交叉熵损失函数的计算公式,加权交叉熵损失的公式可以表示为: 其中,wi表示分配给类别i的权重。通过分配类别权重,使得分类损失更加重视代表性不足的阶层的功能,而代表性过高的阶层表示不太重要,可以使得异常检测模型为少数群体学习有更好的表示。
在本实施例的一个实现方式中,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:
将所述将简化训练日志数据中的每条日志信息输入异常检测模型,通过异常检测模型输出每条日志信息的第二预测类别;
基于所述每条日志信息的第二预测类别和标注类别,在简化训练日志数据中选取不匹配日志信息;
接收各不匹配日志信息对应的专家标注类别,采用专家标注类别替换各不匹配日志信息的标注类别,以得到更新简化训练日志数据;
基于更新简化训练日志数据对所述异常检测模型进行微调。
具体地,所述第二预测类别为正常类别或异常类别。基于所述每条日志信息的第二预测类别和标注类别,在简化训练日志数据中选取不匹配日志信息,是指通过对所述每条日志信息的第二预测类别和标注类别进行比较,判断通过异常检测模型输出的第二预测类别和日志信息的实际的标注类别是否一致,例如,通过异常检测模型输出的第二预测类别为正常类别,日志信息的实际的标注类别为异常类别,那么该日志信息为不匹配日志信息。
接收各不匹配日志信息对应的专家标注类别,采用专家标注类别替换各不匹配日志信息的标注类别,以得到更新简化训练日志数据。具体地,对于不匹配日志信息,则需要通过专家进行判断该日志信息是正常类别日志信息还是异常类别日志信息,通常不匹配日志信息的数量级只有几十个,通过专家进行判断可在十分钟内完成,专家将不匹配的日志进行重新标注类别,采用日志信息中的标注类别对简化训练日志数据进行更新,得到新的简化训练日志数据。
基于更新简化训练日志数据对所述异常检测模型进行微调。所述对所述异常检测模型进行微调的微调方式为采用偏好学习人类反馈(PLHF)微调。偏好学习人类反馈微调的基本原理是保持需要人工专家处理的日志信息的数量在可控的小样本水平上进行。
具体地,如图4和图5所示,在异常检测模型的首次训练过程中,经过第一次训练后的异常检测模型通过准确性校验后,会生成与标注类别不匹配的预测结果,即不匹配日志消息,例如通过异常模型输出的预测结果为异常类别信息,但是该日志信息的标注类别为正常类别,通过专家标注类别对不匹配的日志信息中原始标注类别进行修改,减少在数据标注过程中的错误,根据专家标注类别更新所述简化训练日志数据中的日志信息,所要更新的日志信息的数量级有10个左右,经过得到新简化训练日志数据再次训练异常检测模型,获得微调后的异常检测模型。在之后对异常检测模型的训练过程中,循环以上微调过程,直至异常检测模型训练结束。本申请通过对所述异常检测模型进行微调,可以保持预测模型的精确程度始终维持在10的数量级别,进一步提高了异常检测模型的准确性。
进一步,在对异常检测模型进行微调之后,还可以将所述更新简化训练日志数据作为简化训练日志数据,并重新执行将所述将简化训练日志数据中的每条日志信息输入异常检测模型的步骤,依次循环预设次数的微调过程。也就是说,在异常检测模型的训练过程中,可以进行预设次数的微调过程,其中,预测次数可以为预先设置的等。
综上所述,本实施例提供了一种基于大数据日志的异常检测模型的训练方法,所述方法包括:对原始日志数据进行去冗余操作,以得到简化训练日志数据;将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量;将每条语义向量输入所述初始异常检测模型中的Transformer模型,通过Transformer模型确定每条日志信息对应的第一预测类别;基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型。本申请通过对原始日志数据进行去冗余操作,得到简化训练日志数据,通过删除原始日志数据中的重复日志信息,保留能提供最多信息内容的关键日志,把数以百万级的原始日志数据简化到了数以万级的简化日志信息,解决了日志信息数量过多的问题;通过采用数据平衡处理简化后的日志信息,把数以万级的简化日志信息简化到了数以千级的平衡后的日志信息,进一步减少了日志信息数量,且保持了异常日志信息和正常日志信息的数据平衡;通过采用预训练语言模型和Transformer模型构建异常检测模型,并使用简化后的日志信息对异常检测模型进行训练,以及对训练后的模型进行微调,可以提高对数以百万计甚至更多的日志异常检测的准确性和效率。
基于上述的基于大数据日志的异常检测模型的训练方法,本申请实施例还提供了一种基于大数据日志的网络安全异常检测方法,应用根据所述基于大数据日志的异常检测模型的训练方法训练得到的异常检测模型,所述方法包括:
获取待检测日志数据,并对所述待检测日志数据进行去冗余操作以得到简化日志数据;
将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息。
在本实施例的一个实现方式中,将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息之后,所述方法还包括:
获取异常日志信息中的预测错误日志信息,并接收各预测错误日志信息对应的专家标注类别;
将专家标注类别作为各预测错误日志信息的标注类别,将除预测错误日志信息外的各简化日志信息的预测类别作为其标注类别,以得到微调数据集;
基于所述微调数据集对所述异常检测模型进行微调。
具体地,本申请实施例中的异常检测模型在使用过程中,会进行在线微调,以保证异常检测模型可以与用户检测的日志数据一致。
在本实施例的一个实现方式中,所述基于所述微调数据集对所述异常检测模型进行微调之前,所述方法还包括:
若所述微调数据集的数据量大于预设数据量,则对所述微调数据集进行数据平衡处理。
基于上述基于大数据日志的异常检测模型的训练方法,本申请还提供了一种终端设备,如图6所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于大数据日志的异常检测模型的训练方法,其特征在于,所述的基于大数据日志的异常检测模型的训练方法具体包括:
对原始日志数据进行去冗余操作,以得到简化训练日志数据;
将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量;
将每条语义向量输入所述初始异常检测模型中的Transformer模型,通过Transformer模型确定每条日志信息对应的第一预测类别;
基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型。
2.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:
将所述将简化训练日志数据中的每条日志信息输入异常检测模型,通过异常检测模型输出每条日志信息的第二预测类别;
基于所述每条日志信息的第二预测类别和标注类别,在简化训练日志数据中选取不匹配日志信息;
接收各不匹配日志信息对应的专家标注类别,采用专家标注类别替换各不匹配日志信息的标注类别,以得到更新简化训练日志数据;
基于更新简化训练日志数据对所述异常检测模型进行微调。
3.根据权利要求2所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述基于更新简化训练日志数据对所述异常检测模型进行微调之后,所述方法还包括:
将所述更新简化训练日志数据作为简化训练日志数据,并重新执行将所述将简化训练日志数据中的每条日志信息输入异常检测模型的步骤,依次循环预设次数的微调过程。
4.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据具体包括:
将原始日志数据排列为一个日志信息序列;
清洗位于第一位的日志信息中的重复数字,将清洗后的日志信息放入第一预设序列内,并将位于第一位的日志信息放入第二预设序列;
将所述位于第二位的日志信息作为目标日志信息,清洗目标日志信息中的重复数字,当清洗后的目标日志信息未包含于第一预设序列内时,将清洗后的目标信息放入第一预设序列,将目标日志信息放置于第二预设序列;
将所述目标日志信息的下一日志信息作为目标日志信息,并重复清洗日志信息序列中的重复数字的步骤,直至位于最后的日志信息被执行完;
将所述第二预设序列包括的目标日志信息作为简化训练日志数据。
5.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据之后,所述方法还包括:
获取所述简化训练日志数据所包含的日志信息的数据量;
若所述数据量小于或等于预设数据量,则保持简化训练日志数据不变;
若所述数据量大于预设数据量,则对简化训练日志数据进行数据平衡处理。
6.根据权利要求5所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对所述简化训练日志数据进行数据平衡处理具体包括:
计算所述数据量与预设数据量的数据量差值;
在所述简化训练日志数据中随机选取数据量差值个日志信息,其中,选取的日志信息的标注类别为正常类别;
将选取得到的所有日志信息从所述简化训练日志数据中删除。
7.一种基于大数据日志的网络安全异常检测方法,其特征在于,应用基于如权利要求1-6任意一项所述的基于大数据日志的异常检测模型的训练方法训练得到的异常检测模型,所述方法包括:
获取待检测日志数据,并对所述待检测日志数据进行去冗余操作以得到简化日志数据;
将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息。
8.根据权利要求7所述的基于大数据日志的网络安全异常检测方法,其特征在于,将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息之后,所述方法还包括:
获取异常日志信息中的预测错误日志信息,并接收各预测错误日志信息对应的专家标注类别;
将专家标注类别作为各预测错误日志信息的标注类别,将除预测错误日志信息外的各简化日志信息的预测类别作为其标注类别,以得到微调数据集;
基于所述微调数据集对所述异常检测模型进行微调。
9.根据权利要求8所述的基于大数据日志的网络安全异常检测方法,其特征在于,所述基于所述微调数据集对所述异常检测模型进行微调之前,所述方法还包括:
若所述微调数据集的数据量大于预设数据量,则对所述微调数据集进行数据平衡处理。
10.一种终端设备,其特征在于,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的基于大数据日志的异常检测模型的训练方法中的步骤,和/或实现如权利要求7-9任意一项所述的基于大数据日志的网络安全异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311574445.6A CN117436496A (zh) | 2023-11-22 | 2023-11-22 | 基于大数据日志的异常检测模型的训练方法及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311574445.6A CN117436496A (zh) | 2023-11-22 | 2023-11-22 | 基于大数据日志的异常检测模型的训练方法及检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117436496A true CN117436496A (zh) | 2024-01-23 |
Family
ID=89558290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311574445.6A Pending CN117436496A (zh) | 2023-11-22 | 2023-11-22 | 基于大数据日志的异常检测模型的训练方法及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436496A (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831127A (zh) * | 2011-06-17 | 2012-12-19 | 阿里巴巴集团控股有限公司 | 重复数据处理方法、装置及系统 |
CN107291911A (zh) * | 2017-06-26 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种异常检测方法和装置 |
CN108616498A (zh) * | 2018-02-24 | 2018-10-02 | 国家计算机网络与信息安全管理中心 | 一种web访问异常检测方法和装置 |
CN109299081A (zh) * | 2018-08-21 | 2019-02-01 | 中国平安人寿保险股份有限公司 | 清洗房价数据的方法、装置、计算机设备和存储介质 |
CN111782484A (zh) * | 2020-09-07 | 2020-10-16 | 北京志翔科技股份有限公司 | 一种异常检测方法及装置 |
CN112000502A (zh) * | 2020-08-11 | 2020-11-27 | 杭州安恒信息技术股份有限公司 | 海量错误日志的处理方法、装置、电子装置及存储介质 |
WO2020237878A1 (zh) * | 2019-05-30 | 2020-12-03 | 平安科技(深圳)有限公司 | 数据去重方法、装置、计算机设备以及存储介质 |
CN113032226A (zh) * | 2021-05-28 | 2021-06-25 | 北京宝兰德软件股份有限公司 | 异常日志的检测方法、装置、电子设备及存储介质 |
CN114626553A (zh) * | 2022-03-31 | 2022-06-14 | 中国工商银行股份有限公司 | 财务数据监测模型的训练方法、装置和计算机设备 |
CN114785606A (zh) * | 2022-04-27 | 2022-07-22 | 哈尔滨工业大学 | 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质 |
CN115061924A (zh) * | 2022-06-25 | 2022-09-16 | 平安银行股份有限公司 | 自动化测试案例的生成方法、生成装置 |
CN115757695A (zh) * | 2022-11-10 | 2023-03-07 | 上海鼎茂信息技术有限公司 | 一种日志语言模型训练方法及系统 |
CN115766518A (zh) * | 2022-11-23 | 2023-03-07 | 中国船舶集团有限公司第七〇九研究所 | 云边端系统的异常检测模型训练、异常检测方法及系统 |
CN116361078A (zh) * | 2023-03-06 | 2023-06-30 | 中国工商银行股份有限公司 | 数据同步方法、装置、系统和介质 |
CN116361256A (zh) * | 2023-06-01 | 2023-06-30 | 济南阿拉易网络科技有限公司 | 基于日志解析的数据同步方法及系统 |
CN116737681A (zh) * | 2023-06-09 | 2023-09-12 | 兴业银行股份有限公司 | 一种实时异常日志检测方法、装置、计算机设备和存储介质 |
CN116881080A (zh) * | 2023-07-11 | 2023-10-13 | 桂明亮 | 日志检测方法、装置、电子设备及存储介质 |
-
2023
- 2023-11-22 CN CN202311574445.6A patent/CN117436496A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831127A (zh) * | 2011-06-17 | 2012-12-19 | 阿里巴巴集团控股有限公司 | 重复数据处理方法、装置及系统 |
CN107291911A (zh) * | 2017-06-26 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种异常检测方法和装置 |
CN108616498A (zh) * | 2018-02-24 | 2018-10-02 | 国家计算机网络与信息安全管理中心 | 一种web访问异常检测方法和装置 |
CN109299081A (zh) * | 2018-08-21 | 2019-02-01 | 中国平安人寿保险股份有限公司 | 清洗房价数据的方法、装置、计算机设备和存储介质 |
WO2020237878A1 (zh) * | 2019-05-30 | 2020-12-03 | 平安科技(深圳)有限公司 | 数据去重方法、装置、计算机设备以及存储介质 |
CN112000502A (zh) * | 2020-08-11 | 2020-11-27 | 杭州安恒信息技术股份有限公司 | 海量错误日志的处理方法、装置、电子装置及存储介质 |
CN111782484A (zh) * | 2020-09-07 | 2020-10-16 | 北京志翔科技股份有限公司 | 一种异常检测方法及装置 |
CN113032226A (zh) * | 2021-05-28 | 2021-06-25 | 北京宝兰德软件股份有限公司 | 异常日志的检测方法、装置、电子设备及存储介质 |
CN114626553A (zh) * | 2022-03-31 | 2022-06-14 | 中国工商银行股份有限公司 | 财务数据监测模型的训练方法、装置和计算机设备 |
CN114785606A (zh) * | 2022-04-27 | 2022-07-22 | 哈尔滨工业大学 | 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质 |
CN115061924A (zh) * | 2022-06-25 | 2022-09-16 | 平安银行股份有限公司 | 自动化测试案例的生成方法、生成装置 |
CN115757695A (zh) * | 2022-11-10 | 2023-03-07 | 上海鼎茂信息技术有限公司 | 一种日志语言模型训练方法及系统 |
CN115766518A (zh) * | 2022-11-23 | 2023-03-07 | 中国船舶集团有限公司第七〇九研究所 | 云边端系统的异常检测模型训练、异常检测方法及系统 |
CN116361078A (zh) * | 2023-03-06 | 2023-06-30 | 中国工商银行股份有限公司 | 数据同步方法、装置、系统和介质 |
CN116361256A (zh) * | 2023-06-01 | 2023-06-30 | 济南阿拉易网络科技有限公司 | 基于日志解析的数据同步方法及系统 |
CN116737681A (zh) * | 2023-06-09 | 2023-09-12 | 兴业银行股份有限公司 | 一种实时异常日志检测方法、装置、计算机设备和存储介质 |
CN116881080A (zh) * | 2023-07-11 | 2023-10-13 | 桂明亮 | 日志检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111124840B (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
US20240185130A1 (en) | Normalizing text attributes for machine learning models | |
US20200372342A1 (en) | Systems and methods for predictive early stopping in neural network training | |
CN113705092B (zh) | 基于机器学习的疾病预测方法及装置 | |
CN111198817A (zh) | 一种基于卷积神经网络的SaaS软件故障诊断方法及装置 | |
CN112686521B (zh) | 一种风控规则调优方法和系统 | |
CN114757432A (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
CN111343147A (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN110956278A (zh) | 重新训练机器学习模型的方法和系统 | |
CN114742122A (zh) | 设备故障诊断方法、装置、电子设备以及存储介质 | |
CN117763316A (zh) | 一种基于机器学习的高维数据降维方法及降维系统 | |
CN117312138A (zh) | 软件缺陷检测方法、装置、计算机设备、存储介质和产品 | |
CN117058451A (zh) | 基于二维卷积神经网络的结构加速度数据异常检测方法 | |
CN117436496A (zh) | 基于大数据日志的异常检测模型的训练方法及检测方法 | |
JP7532300B2 (ja) | 情報処理方法、プログラム及び情報処理装置 | |
CN109978038B (zh) | 一种集群异常判定方法及装置 | |
CN117792737B (zh) | 一种网络入侵检测方法、装置、电子设备及存储介质 | |
US20240346247A1 (en) | Artificial intelligence based log mask prediction for communications system testing | |
CN115729825B (zh) | 一种工业协议的模糊测试用例生成方法、装置和电子设备 | |
CN113886579B (zh) | 行业资讯正负面模型构建方法和系统、识别方法和系统 | |
CN109474445B (zh) | 一种分布式系统根源故障定位方法及装置 | |
CN117788134A (zh) | 一种评分卡模型的构建方法及装置 | |
CN118246738A (zh) | 资产风险确定方法、装置、电子设备和存储介质 | |
CN116129160A (zh) | 一种基于聚类空间去相关性的无监督图像表示学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |