CN111159413A - 日志聚类方法、装置、设备及存储介质 - Google Patents

日志聚类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111159413A
CN111159413A CN201911423368.8A CN201911423368A CN111159413A CN 111159413 A CN111159413 A CN 111159413A CN 201911423368 A CN201911423368 A CN 201911423368A CN 111159413 A CN111159413 A CN 111159413A
Authority
CN
China
Prior art keywords
log
feature vector
feature
clustering
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911423368.8A
Other languages
English (en)
Inventor
黄磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201911423368.8A priority Critical patent/CN111159413A/zh
Publication of CN111159413A publication Critical patent/CN111159413A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种日志聚类方法、装置、设备及存储介质。其中,该方法包括:对于目标系统的日志进行特征提取;基于提取的特征确定日志的第一特征向量;基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。本发明实施例可以实现对动态生成的日志进行实时聚类;此外,由于聚类过程中,不用一次性加载所有的日志,且聚类状态采用第二特征向量表征,内存消耗量小,能有效降低对硬件设备的性能要求。

Description

日志聚类方法、装置、设备及存储介质
技术领域
本发明涉及日志处理领域,尤其涉及一种日志聚类方法、装置、设备及存储介质。
背景技术
日志作为网络设备、系统及服务程序等运行时生成的事件记录,往往记载着日期、时间、使用者及动作等相关操作的描述。比如,网络安全领域,往往通过对各类日志分析,进行异常发现、安全检测,进而保护网络安全。相关技术中,日志的聚类算法都基于批次日志,即一次性对于一个批次的静态日志进行聚类。然而,现实场景中,日志是源源不断的生成的,导致聚类算法无法满足动态的日志流的聚类需求。此外,基于批次日志的聚类算法要一次性加载该批次的所有日志到内存,内存消耗大,对硬件设备的性能要求高。
发明内容
有鉴于此,本发明实施例提供了一种日志聚类方法、装置、设备及存储介质,旨在满足动态日志流的聚类需求。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种日志聚类方法,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;
其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
上述方案中,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
上述方案中,基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类,包括:
基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度;
确定每个相似度均大于设定阈值,则基于所述第一特征向量新建一个类别;否则,将所述第一特征向量对应的日志加入相似度最近的类别中。
上述方案中,基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度,包括:
针对第一特征向量和第二特征向量中的同一特征,确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离;
对所述提取的特征中不同特征的第一距离基于加权计算,确定表征第一特征向量和第二特征向量间的相似度的第二距离。
上述方案中,目标系统的日志为攻击日志,所述确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第一距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第一距离;
对于攻击类型,基于相应的攻击类型是否相同确定第一距离。
上述方案中,所述方法还包括:
根据日志的分类结果,更新所述聚类状态。
本发明实施例还提供了一种日志聚类方法,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;
确定达到设定条件,基于所述预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态;
其中,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
上述方案中,所述方法还包括:
基于所述预分类结果中同一类别的各日志的第一特征向量,确定相应类别的第二特征向量。
上述方案中,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
上述方案中,所述基于所述第一特征向量中的目标特征进行预分类,包括:
基于各日志的第一特征向量中的攻击者IP地址,将攻击者IP地址之间的距离小于设定距离阈值的日志划分至同一类别中。
上述方案中,基于预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态,包括:
基于预分类中各类别的第二特征向量和聚类状态中各类别的第二特征向量,确定任意两类别间的相似度;
将类别之间的相似度小于或等于设定阈值的类别合并,直至各类别之间的相似度大于所述设定阈值。
上述方案中,所述基于预分类中各类别的第二特征向量和聚类状态中各类别的第二特征向量确定任意两类别间的相似度,包括:
针对第一类别的第二特征向量和第二类别的第二特征向量中的同一特征,确定表征第一类别和第二类别相应于所述同一特征的相似度的第三距离;
对提取的特征中不同特征的第三距离基于加权计算,确定表征第一类别和第二类别间的相似度的第四距离。
上述方案中,目标系统的日志为攻击日志,所述确定表征第一类别和第二类别相应于所述同一特征的相似度的第三距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第三距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第三距离;
对于攻击类型,基于相应的攻击类型是否相同确定第三距离。
本发明实施例又提供了一种日志聚类装置,包括:
第一特征提取模块,用于对于目标系统的日志,进行特征提取;
第一向量确定模块,用于基于提取的特征确定日志的第一特征向量;
第一聚类模块,用于基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度进行分类;
其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
本发明实施例还提供了一种日志聚类装置,包括:
第二特征提取模块,用于获取目标系统的日志;
第二向量确定模块,用于基于提取的特征确定日志的第一特征向量;
预分类模块,用于基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;
第二聚类模块,用于确定达到设定条件,基于预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态;
其中,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
本发明实施例还提供了一种日志聚类设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明任一实施例所述方法的步骤。
本发明实施例又提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明任一实施例所述方法的步骤。
本发明实施例提供的技术方案,对于目标系统的日志进行特征提取,基于日志的第一特征向量和聚类状态中的各类别的第二特征向量,对日志进行分类,或者,基于日志的第一特征向量中的目标特征进行预分类,得到预分类结果;基于预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新聚类状态,可以实现对动态生成的日志进行实时聚类;此外,由于聚类过程中,不用一次性加载所有的日志,且聚类状态采用第二特征向量表征,内存消耗量小,能有效降低对硬件设备的性能要求。
附图说明
图1为本发明一实施例日志聚类方法的流程示意图;
图2为本发明另一实施例日志聚类方法的流程示意图;
图3为本发明第一应用实施例日志聚类方法的流程示意图;
图4为本发明第二应用实施例日志聚类方法的流程示意图;
图5为本发明一实施例日志聚类装置的结构示意图;
图6为本发明另一实施例日志聚类装置的结构示意图;
图7为本发明实施例日志聚类设备的结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
相关技术中,由于系统生成的日志数量大,人工标记代价高,使用带标记的训练数据将失去实际操作意义,因此,无标记数据的聚类更适用于日志的审计工作。相关的日志的聚类算法都基于批次日志,即一次性对于一个批次的静态日志进行聚类。然而,现实场景中,日志是源源不断的生成的,某一时刻只能获取日志的一部分,导致聚类算法无法满足动态的日志流的聚类需求。
基于此,本发明实施例提供了一种日志聚类方法,应用于日志聚类设备,如图1所示,该方法包括:
步骤101,对于目标系统的日志进行特征提取;
这里,目标系统可以为数据库、网络设备、应用程序等能生成日志的系统,本发明实施例对此不做具体限定。实际应用中,日志聚类设备可以通过在线监听或者实时接收的方式获取目标系统生成的日志,从而可以对目标系统的日志进行聚类。
日志聚类设备可以对获取的日志,进行特征提取。这里,可以基于业务需求确定的预设特征,提取获取的日志的特征,即提取每条日志对应的所述预设特征。比如,可以针对网络安全检测需求、电商消费分析需求等分别设置对应的预设特征。因此,本领域技术人员可以理解,待提取的预设特征可以结合应用场景来进行相应设置。
在一应用示例中,当所述业务需求为网络安全检测,所述日志为攻击日志时,所述预设特征包括:基础特征,所述基础特征包括以下至少之一:攻击者互联网协议(IP)地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符(URL)。可选地,还可以基于基础特征确定出延伸特征,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息及基于被攻击URL确定的被攻击资源的扩展名。
步骤102,基于提取的特征确定日志的第一特征向量;
这里,可以对日志提取的特征进行组合,构成该日志的第一特征向量,该第一特征向量用于表征日志的属性。
步骤103,基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类。
这里,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。具体地,聚类状态可以为已分类日志的第一特征向量的集合,已分类日志根据各日志间的相似度进行了划分,得到至少一个类别,各类别的属性由第二特征向量表征,第二特征向量可以为该类别下所有日志的第一特征向量的各特征的并集。这样,聚类状态由至少一个第二特征向量表征。由于聚类状态采用第二特征向量表征,而不是原始日志信息,占用存储空间较少。
下面以攻击日志为例,对攻击日志的第一特征向量和类别的第二特征向量进行列举说明。假定攻击日志提取的特征包括:攻击者IP地址、攻击者地区、攻击者手法、攻击目标。攻击日志1的第一特征向量为:‘1.1.1.1’,‘美国’,‘SQL注入’,‘index1.html’,攻击日志2的第一特征向量为:‘1.1.1.2’,‘法国’,‘SQL注入’,‘index2.html’,假定攻击日志1和攻击日志2聚类构成一个类别,则该类别的第二特征向量为:[‘1.1.1.1’,‘1.1.1.2’],[‘美国’,‘法国’],[‘SQL注入’],[‘index1.html’,‘index2.html’]。
在一实施例中,基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类,包括:
基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度;
确定每个相似度均大于设定阈值,则基于所述第一特征向量新建一个类别;否则,将所述第一特征向量对应的日志加入相似度最近的类别中。
这里,对于获取的每个日志,可以基于该日志的第一特征向量与聚类状态中各类别的第二特征向量进行相似度计算,若各类别中存在与该日志的相似度小于或等于设定阈值的类别,则可以将该日志加入相似度最近的类别中,若各类别与该日志的相似度均大于设定阈值,则表明该日志不存在可以归入的类别,可以基于该日志的第一特征向量新建一个类别。这样,可以实现对单个日志进行分类,得到单个日志的分类结果,满足了动态日志流的聚类需求。
实际用用中,对于首个日志进行分类时,由于此时聚类状态为空,因此,可以直接对该首个日志新建类别,并更新聚类状态。
在一实施例中,所述方法还包括:根据日志的分类结果,更新所述聚类状态。
这里,可以是根据每个日志的分类结果,更新聚类状态,即对于获取的每个日志,确定该日志的分类结果后,更新该日志所属类别的第二特征向量,进而更新聚类状态。在一些实施例中,还可以设置设定条件,确定达到设定条件,更新聚类状态,比如,确定日志的条数达到设定数目,或者间隔的时长达到设定时长后,更新聚类状态。这样,可以减少运算量,降低日志聚类设备的内存消耗量。
在一实施例中,基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度,包括:
针对第一特征向量和第二特征向量中的同一特征,确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离;
对所述提取的特征中不同特征的第一距离基于加权计算,确定表征第一特征向量和第二特征向量间的相似度的第二距离。
实际应用中,对于提取的特征中的各特征,第一距离的度量方法可能不同。可以根据不同的特征选取相应的第一距离的度量方法。比如:
针对攻击者IP地址而言,攻击者IP地址之间的第一距离的度量方法如下:可以将IP地址转换成32位的二进制数,然后从高位开始比较相同位数的个数,记为n,则特征向量之间的距离为1-n/32。
针对被攻击URL而言,被攻击URL之间的第一距离的度量方法如下:对于URL的字符串,可以使用衡量字符串之间差异的Levenshtein Distance(编辑距离)进行计算。
针对攻击类而言,攻击类型之间的第一距离的度量方法如下:由于攻击类型属于离散值,如果相同则距离为0,不同则为1。
此外,还可以基于同一特征,确定特征向量之间的余弦距离、欧式距离等作为第一距离。
计算出第一特征向量与第二特征向量基于提取的特征中的各个特征的第一距离后,可以对不同特征的第一距离基于加权计算,比如,可以对各个特征根据重要程度设置相应的权重值,对各特征的第一距离基于相应的权重值进行加权平均,得到最终的表征日志与相应类别间相似度的第二距离。这里,重要程度大的特征对应的权重值大,重要程度小的特征对应的权重值小。
本发明实施例还提供了一种日志聚类方法,应用于日志聚类设备,如图2所示,该方法包括:
步骤201,对于目标系统的日志进行特征提取;
具体可以参照上述步骤101,在此不再赘述。
步骤202,基于提取的特征确定日志的第一特征向量;
具体可以参照上述步骤102,在此不再赘述。
步骤203,基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;
这里,日志聚类设备可以对获取的日志基于目标特征进行预分类,比如,以攻击日志为例,可以根据日志对应的攻击者IP地址进行预分类,将位于同一C段网络的日志归属为一类,从而可以将获取的日志不断地划分至相应类别中,得到预分类结果。其中,C段网络是指IP地址中前三个字节相同的地址范围。比如,对于获取的日志,可以提取各日志的攻击者IP地址,计算攻击者IP地址之间的距离,如果距离小于0.75,则可以预先划分至同一类别中。
步骤204,确定达到设定条件,基于所述预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态。
这里,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
实际应用中,设定条件可以日志的条数或者间隔的时长。可以根据应用场景来设置设定条件,比如,每10万条日志合并一次,更新聚类状态;或者每10分钟合并一次,更新聚类状态。
在一实施例中,基于预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态,包括:
基于预分类中各类别的第二特征向量和聚类状态中各类别的第二特征向量确定任意两类别间的相似度;
将类别之间的相似度小于或等于设定阈值的类别合并,直至各类别之间的相似度大于所述设定阈值。
这里,对于预分类结果中各类别的第二特征向量,可以基于相应类别中各日志的第一特征向量确定。各类别的第二特征向量的确定可以参照前述有关第二特征向量的描述,在此不再赘述。
实际应用中,各类别之间的相似度可以通过类别的第二特征向量间的距离来表征。具体地,基于预分类中各类别的第二特征向量和聚类状态中各类别的第二特征向量确定任意两类别间的相似度,包括:
针对第一类别的第二特征向量和第二类别的第二特征向量中的同一特征,确定表征第一类别和第二类别相应于所述同一特征的相似度的第三距离;
对所述提取的特征中不同特征的第三距离基于加权计算,确定表征第一类别和第二类别间的相似度的第四距离。
实际应用中,对于提取的特征中的各特征,第三距离的度量方法可能不同。具体可以参照前述第一距离的度量方法。
在一应用示例中,目标系统的日志为攻击日志,所述确定表征第一类别和第二类别相应于所述同一特征的相似度的第三距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第三距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第三距离;
对于攻击类型,基于相应的攻击类型是否相同确定第三距离。
计算出第一类别与第二类别基于提取的特征中的各个特征的第三距离后,可以对不同特征的第三距离基于加权计算,比如,可以对各个特征根据重要程度设置相应的权重值,对各特征的第三距离基于相应的权重值进行加权平均,得到最终的表征第一类别与第二类别间相似度的第四距离。这里,重要程度大的特征对应的权重值大,重要程度小的特征对应的权重值小。
实际应用中,更新聚类状态时,对原有聚类状态中的各类别和预分类结果中的各类别均进行两两间相似度的计算,若相似度小于或等于设定阈值,则合并,遍历所有类别,直至类别的数目不再发生变化,即此时所有的类别两两间的相似度均大于设定阈值,算法终止,完成聚类状态的更新。
这样,通过对获取的日志进行预分类,且确定达到设定条件,基于各类别的第二特征向量间的相似度,更新聚类状态,不会对聚类状态进行频繁更新,计算量大大减少,提高了算法性能,且可以对动态生成的日志根据相应的设定条件进行聚类,满足了日志动态分析的需求。
下面结合应用实施例对本发明再作进一步详细的描述。
应用实施例一
如图3所示,在本应用实施例中,日志以日志流的形式发送给日志聚类设备,这里,日志流是日志可以源源不断的生成并输出。日志聚类设备对接收的日志,进行特征提取,得到接收的日志的第一特征向量,日志聚类设备再根据该日志的第一特征向量和当前聚类状态中各类别的第二特征向量进行距离计算,当计算出来的距离与当前聚类状态中所有类的距离都大于设定阈值时,则说明该日志与所有类都不相似,此时要新建一个类别;如果距离小于或等于设定阈值,则选取一个与当前所有类别中距离最小的类别,将该日志加入到此类中。本应用实施例日志聚类方法,可以实现对每一条日志基于距离计算,以更新聚类状态。
应用实施例二
如图4所示,在本应用实施例中,日志以日志流的形式发送给日志聚类设备,日志聚类设备对接收的日志先基于访问IP地址进行预分类,从而将源源不断的日志划分至预分类对应的各类别中;确定达到合并条件,比如,接收的日志达到设定数目,或者间隔时长到达设定时长,则计算预分类中各类别和当前聚类状态中各类别中两两类别间的相似度,若两两类别间的相似度小于或等于设定阈值,则将两个类别合并成一个大的类别,直至类别的数目不再发生变化,完成聚类状态的更新。实际应用中,对于首次的日志聚类,当前聚类状态中的类别为空,可以只对预分类中的类别进行两两相似度的计算,直至类别的数目不再发生变化,得到新的聚类状态。
本应用实施例不需要对每条日志都进行距离计算并更新聚类状态,可以先对接收的日志进行预分类,并达到设定条件后,在对预分类的类别进行合并,不会对聚类状态进行频繁更新,计算量大大减少,提高了算法性能,且可以对动态生成的日志根据相应的设定条件进行聚类,满足了日志动态分析的需求。
为了实现本发明实施例的方法,本发明实施例还提供一种日志聚类装置,该日志聚类装置与上述图1所示的日志聚类方法对应,上述日志聚类方法实施例中的各步骤也完全适用于本日志聚类装置实施例。
如图5所示,该装置包括:第一特征提取模块501、第一向量确定模块502、第一聚类模块503。
其中,第一特征提取模块501,用于对于目标系统的日志,进行特征提取;第一向量确定模块502,用于基于提取的特征确定日志的第一特征向量;第一聚类模块503,用于基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度进行分类;这里,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
在一些实施例中,第一特征提取模块501具体用于:基于业务需求确定的预设特征,提取获取的日志的特征。
在一应用示例中,目标系统的日志为攻击日志,第一特征提取模块501具体用于:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
在一些实施例中,第一聚类模块503具体用于:基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度;确定每个相似度均大于设定阈值,则基于所述第一特征向量新建一个类别;否则,将所述第一特征向量对应的日志加入相似度最近的类别中。
在一些实施例中,第一聚类模块503具体用于:针对第一特征向量和第二特征向量中的同一特征,确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离;对所述提取的特征中不同特征的第一距离基于加权计算,确定表征第一特征向量和第二特征向量间的相似度的第二距离。
在一些实施例中,目标系统的日志为攻击日志,第一聚类模块503具体用于以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第一距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第一距离;
对于攻击类型,基于相应的攻击类型是否相同确定第一距离。
在一些实施例中,该日志聚类装置还包括:聚类更新模块504,用于根据日志的分类结果,更新所述聚类状态。
实际应用时,第一特征提取模块501、第一向量确定模块502、第一聚类模块503及聚类更新模块504,可以由日志聚类装置中的处理器来实现。当然,处理器需要运行存储器中的计算机程序来实现它的功能。
为了实现本发明实施例的方法,本发明实施例还提供一种日志聚类装置,该日志聚类装置与上述图2所示的日志聚类方法对应,上述日志聚类方法实施例中的各步骤也完全适用于本日志聚类装置实施例。
如图6所示,该日志聚类装置包括:第二特征提取模块601、第二向量确定模块602、预分类模块603、第二聚类模块604。其中,第二特征提取模块601,用于对于目标系统的日志进行特征提取;第二向量确定模块602,用于基于提取的特征确定日志的第一特征向量;预分类模块603,用于基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;第二聚类模块604,用于确定达到设定条件,基于预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新聚类状态;这里,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
在一些实施例中,第二向量确定模块602还用于:基于所述预分类结果中同一类别的各日志的第一特征向量,确定相应类别的第二特征向量。
在一些实施例中,日志系统的日志为攻击日志,第二特征提取模块601具体用于:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
在一些实施例中,预分类模块603具体用于:
基于各日志的第一特征向量中的攻击者IP地址,将攻击者IP地址之间的距离小于设定距离阈值的日志划分至同一类别中。
在一些实施例中,第二聚类模块604具体用于:
基于预分类中各类别的第二特征向量和聚类状态中各类别的第二特征向量,确定任意两类别间的相似度;
将类别之间的相似度小于或等于设定阈值的类别合并,直至各类别之间的相似度大于所述设定阈值。
在一些实施例中,第二聚类模块604具体用于:
针对第一类别的第二特征向量和第二类别的第二特征向量中的同一特征,确定表征第一类别和第二类别相应于所述同一特征的相似度的第三距离;
对提取的特征中不同特征的第三距离基于加权计算,确定表征第一类别和第二类别间的相似度的第四距离。
在一些实施例中,目标系统的日志为攻击日志,第二聚类模块604具体用于以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第三距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第三距离;
对于攻击类型,基于相应的攻击类型是否相同确定第三距离。
实际应用时,第二特征提取模块601、第二向量确定模块602、预分类模块603及第二聚类模块604,可以由日志聚类装置中的处理器来实现。当然,处理器需要运行存储器中的计算机程序来实现它的功能。
需要说明的是:上述实施例提供的日志聚类装置在进行日志聚类时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的日志聚类装置与日志聚类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供一种日志聚类设备。图7仅仅示出了该日志聚类设备的示例性结构而非全部结构,根据需要可以实施图7示出的部分结构或全部结构。
如图7所示,本发明实施例提供的日志聚类设备700包括:至少一个处理器701、存储器702、用户接口703和至少一个网络接口704。日志聚类设备700中的各个组件通过总线系统705耦合在一起。可以理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统705。
其中,用户接口703可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器702用于存储各种类型的数据以支持日志聚类设备的操作。这些数据的示例包括:用于在日志聚类设备上操作的任何计算机程序。
本发明实施例揭示的日志聚类方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,日志聚类方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成本发明实施例提供的日志聚类方法的步骤。
在示例性实施例中,日志聚类设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、FPGA、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器702可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体可以是计算机可读存储介质,例如包括存储计算机程序的存储器702,上述计算机程序可由日志聚类设备的处理器701执行,以完成本发明实施例方法所述的步骤。计算机可读存储介质可以是ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (17)

1.一种日志聚类方法,其特征在于,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;
其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
2.根据权利要求1所述的方法,其特征在于,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
3.根据权利要求1所述的方法,其特征在于,基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类,包括:
基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度;
确定每个相似度均大于设定阈值,则基于所述第一特征向量新建一个类别;否则,将所述第一特征向量对应的日志加入相似度最近的类别中。
4.根据权利要求3所述的方法,其特征在于,基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度,包括:
针对第一特征向量和第二特征向量中的同一特征,确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离;
对所述提取的特征中不同特征的第一距离基于加权计算,确定表征第一特征向量和第二特征向量间的相似度的第二距离。
5.根据权利要求4所述的方法,其特征在于,目标系统的日志为攻击日志,所述确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第一距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第一距离;
对于攻击类型,基于相应的攻击类型是否相同确定第一距离。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据日志的分类结果,更新所述聚类状态。
7.一种日志聚类方法,其特征在于,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;
确定达到设定条件,基于所述预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态;
其中,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述预分类结果中同一类别的各日志的第一特征向量,确定相应类别的第二特征向量。
9.根据权利要求7所述的方法,其特征在于,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第一特征向量中的目标特征进行预分类,包括:
基于各日志的第一特征向量中的攻击者IP地址,将攻击者IP地址之间的距离小于设定距离阈值的日志划分至同一类别中。
11.根据权利要求7所述的方法,其特征在于,基于预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态,包括:
基于预分类中各类别的第二特征向量和聚类状态中各类别的第二特征向量,确定任意两类别间的相似度;
将类别之间的相似度小于或等于设定阈值的类别合并,直至各类别之间的相似度大于所述设定阈值。
12.根据权利要求11所述的方法,其特征在于,所述基于预分类中各类别的第二特征向量和聚类状态中各类别的第二特征向量确定任意两类别间的相似度,包括:
针对第一类别的第二特征向量和第二类别的第二特征向量中的同一特征,确定表征第一类别和第二类别相应于所述同一特征的相似度的第三距离;
对提取的特征中不同特征的第三距离基于加权计算,确定表征第一类别和第二类别间的相似度的第四距离。
13.根据权利要求12所述的方法,其特征在于,目标系统的日志为攻击日志,所述确定表征第一类别和第二类别相应于所述同一特征的相似度的第三距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第三距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第三距离;
对于攻击类型,基于相应的攻击类型是否相同确定第三距离。
14.一种日志聚类装置,其特征在于,包括:
第一特征提取模块,用于对于目标系统的日志,进行特征提取;
第一向量确定模块,用于基于提取的特征确定日志的第一特征向量;
第一聚类模块,用于基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度进行分类;
其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
15.一种日志聚类装置,其特征在于,包括:
第二特征提取模块,用于获取目标系统的日志;
第二向量确定模块,用于基于提取的特征确定日志的第一特征向量;
预分类模块,用于基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;
第二聚类模块,用于确定达到设定条件,基于预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态;
其中,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。
16.一种日志聚类设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器,用于运行计算机程序时,执行权利要求1至6或者7至13任一项所述方法的步骤。
17.一种存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至6或者7至13任一项所述方法的步骤。
CN201911423368.8A 2019-12-31 2019-12-31 日志聚类方法、装置、设备及存储介质 Pending CN111159413A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911423368.8A CN111159413A (zh) 2019-12-31 2019-12-31 日志聚类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911423368.8A CN111159413A (zh) 2019-12-31 2019-12-31 日志聚类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111159413A true CN111159413A (zh) 2020-05-15

Family

ID=70560620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911423368.8A Pending CN111159413A (zh) 2019-12-31 2019-12-31 日志聚类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111159413A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087448A (zh) * 2020-09-08 2020-12-15 南方电网科学研究院有限责任公司 安全日志提取方法、装置和计算机设备
CN112131199A (zh) * 2020-09-25 2020-12-25 杭州安恒信息技术股份有限公司 一种日志处理方法、装置、设备及介质
CN112367222A (zh) * 2020-10-30 2021-02-12 中国联合网络通信集团有限公司 网络异常检测方法和装置
CN113282751A (zh) * 2021-05-28 2021-08-20 腾讯科技(深圳)有限公司 日志分类方法及装置
CN113553589A (zh) * 2021-07-30 2021-10-26 江苏易安联网络技术有限公司 恶意软件传播特征的提取方法、装置和应用
CN113821630A (zh) * 2020-06-19 2021-12-21 菜鸟智能物流控股有限公司 一种数据聚类的方法和装置
CN113836300A (zh) * 2021-09-24 2021-12-24 中国电信股份有限公司 日志分析方法、系统、设备及存储介质
CN114090850A (zh) * 2021-11-15 2022-02-25 马上消费金融股份有限公司 日志分类方法、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
US20160196174A1 (en) * 2015-01-02 2016-07-07 Tata Consultancy Services Limited Real-time categorization of log events
JP2018088182A (ja) * 2016-11-29 2018-06-07 日本電信電話株式会社 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム
CN110516034A (zh) * 2019-06-28 2019-11-29 中兴通讯股份有限公司 日志管理方法、装置、网络设备和可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196174A1 (en) * 2015-01-02 2016-07-07 Tata Consultancy Services Limited Real-time categorization of log events
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
JP2018088182A (ja) * 2016-11-29 2018-06-07 日本電信電話株式会社 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム
CN110516034A (zh) * 2019-06-28 2019-11-29 中兴通讯股份有限公司 日志管理方法、装置、网络设备和可读存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821630A (zh) * 2020-06-19 2021-12-21 菜鸟智能物流控股有限公司 一种数据聚类的方法和装置
CN113821630B (zh) * 2020-06-19 2023-10-17 菜鸟智能物流控股有限公司 一种数据聚类的方法和装置
CN112087448A (zh) * 2020-09-08 2020-12-15 南方电网科学研究院有限责任公司 安全日志提取方法、装置和计算机设备
CN112087448B (zh) * 2020-09-08 2023-04-14 南方电网科学研究院有限责任公司 安全日志提取方法、装置和计算机设备
CN112131199A (zh) * 2020-09-25 2020-12-25 杭州安恒信息技术股份有限公司 一种日志处理方法、装置、设备及介质
CN112367222A (zh) * 2020-10-30 2021-02-12 中国联合网络通信集团有限公司 网络异常检测方法和装置
CN113282751A (zh) * 2021-05-28 2021-08-20 腾讯科技(深圳)有限公司 日志分类方法及装置
CN113282751B (zh) * 2021-05-28 2023-12-15 腾讯科技(深圳)有限公司 日志分类方法及装置
CN113553589A (zh) * 2021-07-30 2021-10-26 江苏易安联网络技术有限公司 恶意软件传播特征的提取方法、装置和应用
CN113836300A (zh) * 2021-09-24 2021-12-24 中国电信股份有限公司 日志分析方法、系统、设备及存储介质
CN114090850A (zh) * 2021-11-15 2022-02-25 马上消费金融股份有限公司 日志分类方法、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111159413A (zh) 日志聚类方法、装置、设备及存储介质
CN110162695B (zh) 一种信息推送的方法及设备
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
US9525702B2 (en) Similarity search and malware prioritization
WO2017045443A1 (zh) 一种图像检索方法及系统
US10547618B2 (en) Method and apparatus for setting access privilege, server and storage medium
CN106874253A (zh) 识别敏感信息的方法及装置
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN111460153A (zh) 热点话题提取方法、装置、终端设备及存储介质
CN109933502B (zh) 电子装置、用户操作记录的处理方法和存储介质
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN113381963A (zh) 一种域名检测方法、装置和存储介质
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
CN105468972B (zh) 一种移动终端文件检测方法
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN114244795A (zh) 一种信息的推送方法、装置、设备及介质
CN104580109A (zh) 生成点选验证码的方法及装置
CN116597443A (zh) 素材标签处理方法、装置、电子设备及介质
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质
CN114363039A (zh) 一种诈骗网站的识别方法、装置、设备及存储介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN110197066B (zh) 一种云计算环境下的虚拟机监控方法及监控系统
CN112685799A (zh) 设备指纹生成方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination