CN114385468A - 一种日志分析方法、系统及相关组件 - Google Patents

一种日志分析方法、系统及相关组件 Download PDF

Info

Publication number
CN114385468A
CN114385468A CN202111594119.2A CN202111594119A CN114385468A CN 114385468 A CN114385468 A CN 114385468A CN 202111594119 A CN202111594119 A CN 202111594119A CN 114385468 A CN114385468 A CN 114385468A
Authority
CN
China
Prior art keywords
log
alarm
target
alarm log
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111594119.2A
Other languages
English (en)
Inventor
龙文洁
吴小珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Anheng Information Security Technology Co Ltd
Original Assignee
Hangzhou Anheng Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Anheng Information Security Technology Co Ltd filed Critical Hangzhou Anheng Information Security Technology Co Ltd
Priority to CN202111594119.2A priority Critical patent/CN114385468A/zh
Publication of CN114385468A publication Critical patent/CN114385468A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种日志分析方法、系统及相关组件,该方法包括:获取告警日志;将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;若是,则将所述告警日志标记为目标日志;若否,则将所述告警日志标记为非目标日志;其中,所述特征检测模型具体为聚类训练模型。本申请利用训练好的特征检验模型对告警日志进行分析,从而确定告警日志是否存在目标特征,以将其判定为目标日志或非目标日志,过程快捷简便,结果准确,不需要用户手动添加筛选,大幅节省了人力成本和时间成本,日志分析效率获得提升。

Description

一种日志分析方法、系统及相关组件
技术领域
本发明涉及日志监测领域,特别涉及一种日志分析方法、系统及相关组件。
背景技术
当前,大数据安全分析或其他行业内,大数据平台通常收集到海量的日志,并生成海量的告警信息,这些告警信息中存在大量告警误报,从而容易干扰真实告警,导致真实告警无法及时有效地发送给用户。为了解决误报问题,传统做法采用在发现误报后手动删除误报告警,或者手动添加告警过滤白名单的方式进行处理,这种方式费时费力,需要大量人工操作进行处理,处理的效率较低。
因此,如何提供一种解决上述技术问题的方案是目前本领域技术人员需要解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种高效智能的日志分析方法、系统及相关组件。其具体方案如下:
一种日志分析方法,包括:
获取告警日志;
将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;
若是,则将所述告警日志标记为目标日志;
若否,则将所述告警日志标记为非目标日志;
其中,所述特征检测模型具体为聚类训练模型。
优选的,所述获取告警日志之前,还包括:
利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练。
优选的,所述利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练的过程,包括:
步骤一:在所述特征检测模型中随机确定多个聚类中心;
步骤二:对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
步骤三:对于同一个所述聚类中心对应的所有所述告警日志样本求取中心值,利用其中心值更新该聚类中心的位置;
重复所述步骤二和所述步骤三,直至满足训练要求;
步骤四:根据所有所述聚类中心,确定非目标特征聚类范围和/或目标特征聚类范围,以用于判断所述告警日志是否存在所述目标特征。
优选的,所述对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心的过程,包括:
对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,根据每个所述告警日志样本的日志信息,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
所述日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。
优选的,所述训练要求具体为聚类准确度或重复次数。
优选的,所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。
优选的,所述获取告警日志的过程,包括:
获取被用户标记为所述目标日志或所述非目标日志的告警日志;
获取未被所述用户标记的所述告警日志。
相应的,本申请公开了一种日志分析系统,包括:
获取模块,用于获取告警日志;
检测模块,用于将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;
动作模块,用于若存在所述目标特征,则将所述告警日志标记为目标日志,还用于若不存在所述目标特征,则将所述告警日志标记为非目标日志;
其中,所述特征检测模型具体为聚类训练模型。
相应的,本申请公开了一种日志分析装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任一项所述日志分析方法的步骤。
相应的,本申请公开了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文任一项所述日志分析方法的步骤。
本申请公开了一种日志分析方法,包括:获取告警日志;将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;若是,则将所述告警日志标记为目标日志;若否,则将所述告警日志标记为非目标日志;其中,所述特征检测模型具体为聚类训练模型。本申请利用训练好的特征检验模型对告警日志进行分析,从而确定告警日志是否存在目标特征,以将其判定为目标日志或非目标日志,过程快捷简便,结果准确,不需要用户手动添加筛选,大幅节省了人力成本和时间成本,日志分析效率获得提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中一种日志分析方法的步骤流程图;
图2为本发明实施例中一种日志分析方法的子步骤流程图;
图3为本发明实施例中一种日志分析系统的结构分布图;
图4为本发明实施例中一种日志分析装置的结构分布图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决误报问题,传统做法采用在发现误报后手动删除误报告警,或者手动添加告警过滤白名单的方式进行处理,这种方式费时费力,需要大量人工操作进行处理,处理的效率较低。
本申请利用训练好的特征检验模型对告警日志进行分析,从而确定告警日志是否存在目标特征,以将其判定为目标日志或非目标日志,过程快捷简便,结果准确,不需要用户手动添加筛选,大幅节省了人力成本和时间成本,日志分析效率获得提升。
本发明实施例公开了一种日志分析方法,参见图1所示,包括:
S1:获取告警日志;
可以理解的是,获取告警日志的过程,包括:
获取被用户标记为目标日志或非目标日志的告警日志;
获取未被用户标记的告警日志。
可以理解的是,除了告警日志,其他具有大数据量、多维度信息的日志也可利用本实施例中的日志分析方法进行分析,此处不作限制。
S2:将告警日志通过聚类算法的特征检测模型,以确定告警日志是否存在目标特征;
具体的,该目标特征可以是误报特征,也即该告警日志属于系统误报日志,该目标特征也可以是用户终端检索需要的自定义特征,还可以根据其他应用场景进行实际选择。
S3:若是,则将告警日志标记为目标日志;
S4:若否,则将告警日志标记为非目标日志;
可以理解的是,如果目标特征为误报特征,则目标日志为误报日志,非目标日志为非误报的真实告警日志,可将其发送到用户终端或服务器的目的端口。
其中,特征检测模型具体为聚类训练模型。
可以理解的是,该聚类训练模型为利用有标记的日志样本进行训练后确定的训练模型,具体的训练算法可选k-means算法、CNN算法等,具体根据告警日志的信息形式和目标特征的特性进行选择,此处不做设定。
进一步的,步骤S1获取告警日志之前,还包括:
利用标记为目标日志的第一告警日志样本训练集、标记为非目标日志的第二告警日志样本训练集对特征检测模型进行k-means算法训练。
具体的,参见图2所示,对特征检测模型的训练过程包括:
S01:在特征检测模型中随机确定多个聚类中心;
S02:对第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个告警日志样本对应的聚类中心;
具体的,该步骤包括:
对第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本,根据每个告警日志样本的日志信息,按照距离最近原则确定每个告警日志样本对应的聚类中心;
日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。
S03:对于同一个聚类中心对应的所有告警日志样本求取中心值,利用其中心值更新该聚类中心的位置;
重复S02和S03,直至满足训练要求;通常,训练要求具体为聚类准确度或重复次数,除此外也可根据实际需求设置训练要求。
S04:根据所有聚类中心,确定非目标特征聚类范围和/或目标特征聚类范围,以用于判断告警日志是否存在目标特征。
非目标特征聚类范围或目标特征聚类范围具体根据对应的聚类中心与其对应的告警日志样本的平均距离确定。
可以理解的是,对于一个聚类中心K,其对应的所有告警日志样本的平均距离为Dk,可直接按照该平均距离确定该聚类中心的聚类范围为:聚类中心K为中心、半径为平均距离Dk的球形范围,或者,可以进一步根据该聚类中心K对应的所有告警日志样本的位置确定一个半径在[Dkmin,Dkmax]的环带作为聚类范围,进一步的,该环带的半径可以平均距离Dk和一个调控范围σ确定,具体为[Dk-σ,Dk+σ],也可以聚类中心K与对应的所有告警日志样本的距离的最大值、最小值分别作为Dkmax和Dkmin。具体的聚类范围的设置,根据实际训练时的日志样本的位置分布特点进行即可,此处不作限制。
本申请实施例公开了一种日志分析方法,包括:获取告警日志;将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;若是,则将所述告警日志标记为目标日志;若否,则将所述告警日志标记为非目标日志;其中,所述特征检测模型具体为聚类训练模型。本申请利用训练好的特征检验模型对告警日志进行分析,从而确定告警日志是否存在目标特征,以将其判定为目标日志或非目标日志,过程快捷简便,结果准确,不需要用户手动添加筛选,大幅节省了人力成本和时间成本,日志分析效率获得提升。
相应的,本申请实施例公开了一种日志分析系统,参见图3所示,包括:
获取模块1,用于获取告警日志;
检测模块2,用于将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;
动作模块3,用于若存在所述目标特征,则将所述告警日志标记为目标日志,还用于若不存在所述目标特征,则将所述告警日志标记为非目标日志;
其中,所述特征检测模型具体为聚类训练模型。
本申请实施例利用训练好的特征检验模型对告警日志进行分析,从而确定告警日志是否存在目标特征,以将其判定为目标日志或非目标日志,过程快捷简便,结果准确,不需要用户手动添加筛选,大幅节省了人力成本和时间成本,日志分析效率获得提升。
在一些具体的实施例中,日志分析系统还包括:
训练模块,用于利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练。
在一些具体的实施例中,训练模块具体用于:
步骤一:在所述特征检测模型中随机确定多个聚类中心;
步骤二:对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
步骤三:对于同一个所述聚类中心对应的所有所述告警日志样本求取中心值,利用其中心值更新该聚类中心的位置;
重复所述步骤二和所述步骤三,直至满足训练要求;
步骤四:根据所有所述聚类中心,确定非目标特征聚类范围和/或目标特征聚类范围,以用于判断所述告警日志是否存在所述目标特征。
在一些具体的实施例中,训练模块所述对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心的过程,包括:
对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,根据每个所述告警日志样本的日志信息,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
所述日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。
在一些具体的实施例中,所述训练要求具体为聚类准确度或重复次数。
在一些具体的实施例中,所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。
在一些具体的实施例中,获取模块1用于:
获取被用户标记为所述目标日志或所述非目标日志的告警日志;
获取未被所述用户标记的所述告警日志。
相应的,本申请公开了一种日志分析装置,参见图4所示,包括处理器11和存储器12;其中,所述处理器11执行所述存储器12中保存的计算机程序时实现以下步骤:
获取告警日志;
将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;
若是,则将所述告警日志标记为目标日志;
若否,则将所述告警日志标记为非目标日志;
其中,所述特征检测模型具体为聚类训练模型。
本申请实施例利用训练好的特征检验模型对告警日志进行分析,从而确定告警日志是否存在目标特征,以将其判定为目标日志或非目标日志,过程快捷简便,结果准确,不需要用户手动添加筛选,大幅节省了人力成本和时间成本,日志分析效率获得提升。
在一些具体的实施例中,所述处理器11执行所述存储器12中保存的计算机子程序时,具体可以实现以下步骤:
利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练。
在一些具体的实施例中,所述处理器11执行所述存储器12中保存的计算机子程序时,具体可以实现以下步骤:
步骤一:在所述特征检测模型中随机确定多个聚类中心;
步骤二:对所述第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
步骤三:对于同一个所述聚类中心对应的所有所述告警日志样本求取中心值,利用其中心值更新该聚类中心的位置;
重复所述步骤二和所述步骤三,直至满足训练要求;
步骤四:根据所有所述聚类中心,确定非目标特征聚类范围和/或目标特征聚类范围,以用于判断所述告警日志是否存在所述目标特征。
在一些具体的实施例中,所述处理器11执行所述存储器12中保存的计算机子程序时,具体可以实现以下步骤:
对所述第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本,根据每个所述告警日志样本的日志信息,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
所述日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。
在一些具体的实施例中,所述训练要求具体为聚类准确度或重复次数。
在一些具体的实施例中,所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。
在一些具体的实施例中,所述处理器11执行所述存储器12中保存的计算机子程序时,具体可以实现以下步骤:
获取被用户标记为所述目标日志或所述非目标日志的告警日志;
获取未被所述用户标记的所述告警日志。
进一步的,本实施例中的日志分析装置,还可以包括:
输入接口13,用于获取外界导入的计算机程序,并将获取到的计算机程序保存至所述存储器12中,还可以用于获取外界终端设备传输的各种指令和参数,并传输至处理器11中,以便处理器11利用上述各种指令和参数展开相应的处理。本实施例中,所述输入接口13具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。
输出接口14,用于将处理器11产生的各种数据输出至与其相连的终端设备,以便于与输出接口14相连的其他终端设备能够获取到处理器11产生的各种数据。本实施例中,所述输出接口14具体可以包括但不限于USB接口、串行接口等。
通讯单元15,用于在日志分析装置和外部服务器之间建立远程通讯连接,以便于日志分析装置能够将镜像文件挂载到外部服务器中。本实施例中,通讯单元15具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。
键盘16,用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。
显示器17,用于对日志分析过程的相关信息进行实时显示,以便于用户及时地了解当前日志分析情况。
鼠标18,可以用于协助用户输入数据并简化用户的操作。
进一步的,本申请实施例还公开了一种可读存储介质,这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取告警日志;
将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;
若是,则将所述告警日志标记为目标日志;
若否,则将所述告警日志标记为非目标日志;
其中,所述特征检测模型具体为聚类训练模型。
本申请实施例利用训练好的特征检验模型对告警日志进行分析,从而确定告警日志是否存在目标特征,以将其判定为目标日志或非目标日志,过程快捷简便,结果准确,不需要用户手动添加筛选,大幅节省了人力成本和时间成本,日志分析效率获得提升。
在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:
利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练。
在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:
步骤一:在所述特征检测模型中随机确定多个聚类中心;
步骤二:对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
步骤三:对于同一个所述聚类中心对应的所有所述告警日志样本求取中心值,利用其中心值更新该聚类中心的位置;
重复所述步骤二和所述步骤三,直至满足训练要求;
步骤四:根据所有所述聚类中心,确定非目标特征聚类范围和/或目标特征聚类范围,以用于判断所述告警日志是否存在所述目标特征。
在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:
对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,根据每个所述告警日志样本的日志信息,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
所述日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。
在一些具体的实施例中,所述训练要求具体为聚类准确度或重复次数。
在一些具体的实施例中,所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。
在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:
获取被用户标记为所述目标日志或所述非目标日志的告警日志;
获取未被所述用户标记的所述告警日志。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种日志分析方法、系统及相关组件进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种日志分析方法,其特征在于,包括:
获取告警日志;
将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;
若是,则将所述告警日志标记为目标日志;
若否,则将所述告警日志标记为非目标日志;
其中,所述特征检测模型具体为聚类训练模型。
2.根据权利要求1所述日志分析方法,其特征在于,所述获取告警日志之前,还包括:
利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练。
3.根据权利要求2所述日志分析方法,其特征在于,所述利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练的过程,包括:
步骤一:在所述特征检测模型中随机确定多个聚类中心;
步骤二:对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
步骤三:对于同一个所述聚类中心对应的所有所述告警日志样本求取中心值,利用其中心值更新该聚类中心的位置;
重复所述步骤二和所述步骤三,直至满足训练要求;
步骤四:根据所有所述聚类中心,确定非目标特征聚类范围和/或目标特征聚类范围,以用于判断所述告警日志是否存在所述目标特征。
4.根据权利要求3所述日志分析方法,其特征在于,所述对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心的过程,包括:
对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本,根据每个所述告警日志样本的日志信息,按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心;
所述日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。
5.根据权利要求3所述日志分析方法,其特征在于,所述训练要求具体为聚类准确度或重复次数。
6.根据权利要求3所述日志分析方法,其特征在于,所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。
7.根据权利要求1至6任一项所述日志分析方法,其特征在于,所述获取告警日志的过程,包括:
获取被用户标记为所述目标日志或所述非目标日志的告警日志;
获取未被所述用户标记的所述告警日志。
8.一种日志分析系统,其特征在于,包括:
获取模块,用于获取告警日志;
检测模块,用于将所述告警日志通过聚类算法的特征检测模型,以确定所述告警日志是否存在目标特征;
动作模块,用于若存在所述目标特征,则将所述告警日志标记为目标日志,还用于若不存在所述目标特征,则将所述告警日志标记为非目标日志;
其中,所述特征检测模型具体为聚类训练模型。
9.一种日志分析装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述日志分析方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述日志分析方法的步骤。
CN202111594119.2A 2021-12-23 2021-12-23 一种日志分析方法、系统及相关组件 Pending CN114385468A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111594119.2A CN114385468A (zh) 2021-12-23 2021-12-23 一种日志分析方法、系统及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111594119.2A CN114385468A (zh) 2021-12-23 2021-12-23 一种日志分析方法、系统及相关组件

Publications (1)

Publication Number Publication Date
CN114385468A true CN114385468A (zh) 2022-04-22

Family

ID=81197727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111594119.2A Pending CN114385468A (zh) 2021-12-23 2021-12-23 一种日志分析方法、系统及相关组件

Country Status (1)

Country Link
CN (1) CN114385468A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378738A (zh) * 2022-10-24 2022-11-22 中孚安全技术有限公司 一种基于分类算法的告警过滤方法、系统及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378738A (zh) * 2022-10-24 2022-11-22 中孚安全技术有限公司 一种基于分类算法的告警过滤方法、系统及设备

Similar Documents

Publication Publication Date Title
CN109086814B (zh) 一种数据处理方法、装置及网络设备
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN114070760B (zh) 一种网络空间资产的测绘方法及相关装置
CN114385468A (zh) 一种日志分析方法、系统及相关组件
CN114564345A (zh) 一种服务器异常检测方法、装置、设备及存储介质
CN114584377A (zh) 流量异常检测方法、模型的训练方法、装置、设备及介质
CN108734393A (zh) 房源信息的匹配方法、用户设备、存储介质及装置
CN116777692A (zh) 基于数据分析的在线学习方法、装置、设备及存储介质
CN108287890B (zh) 数据管理方法及装置
CN111092764A (zh) 一种实时动态亲密度关系分析方法及系统
CN115022049A (zh) 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
CN114998985A (zh) 一种智能实验台的预警控制方法及智能实验台
US11716350B2 (en) Systems and methods of detecting anomalous websites
CN112149743A (zh) 一种访问控制方法、装置、设备及介质
CN106997462A (zh) 一种量子线路图像识别方法
CN111261165A (zh) 车站名称识别方法、装置、设备及存储介质
CN112559589A (zh) 一种远程测绘数据处理方法及系统
CN105824871A (zh) 一种图片检测方法与设备
CN116033048B (zh) 物联网的多协议解析方法、电子设备和存储介质
CN115237739B (zh) 板卡运行环境的分析方法、装置、设备及可读存储介质
CN116501867B (zh) 基于互信息的变体知识掌握度检测方法、系统和存储介质
CN111538914A (zh) 地址信息的处理方法和装置
CN113572768B (zh) 一种僵尸网络家族传播源数量变化异常的分析方法
CN116450632B (zh) 地理样本数据质量评估方法、设备及存储介质
CN113298185B (zh) 模型训练方法、异常文件检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination