CN114328674A

CN114328674A - 一种基于内网日志行为图的数据挖掘方法及系统

Info

Publication number: CN114328674A
Application number: CN202111674940.5A
Authority: CN
Inventors: 刘洋洋; 路冰; 王光波; 邹斯达
Original assignee: Zhongfu Information Co Ltd
Current assignee: Zhongfu Information Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本发明涉及一种基于内网日志行为图的数据挖掘方法及系统，涉及数据挖掘技术领域。所述方法包括以下步骤：获取内网日志信息并进行解析，提取其中的主体、客体以及主体对客体的行为；基于所述主体、客体以及主体对客体的行为，构建行为图；其中，所述行为图的节点表示主体或客体，连边表示主体对客体的行为，连边的方向为主体指向客体；基于所述行为图，对主体行为、不同主体之间关系、不同客体之间关系、行为与行为之间关系，或内网日志之间关系进行挖掘。本发明通过图对内网行为统一进行有效的刻画，能够有效地对不同日志和实体行为之间的关联进行挖掘。

Description

一种基于内网日志行为图的数据挖掘方法及系统

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种基于内网日志行为图的数据挖掘方法及系统。

背景技术

公司日常会产生大量的内网日志，而内网日志中存在大量的行为日志，其中包括流量日志、上班打卡日志等。这些日志大多反映了实体与实体之间的行为，比如流量日志反映了个人计算机对服务器的访问行为，打卡日志反映了员工对打卡机的刷卡行为。

目前基于日志的挖掘均是针对一类日志进行建模和数据挖掘，例如基于用户的上网日志进行建模，以分析用户的偏好；基于服务器的日志，对日志中攻击数据进行挖掘，以便于帮助管理员发现漏洞等。没有针对多种类型日志的综合建模，不能有效地挖掘不同日志和实体行为之间的关联。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于内网日志行为图的数据挖掘方法及系统，通过图对内网行为统一进行有效的刻画，能够有效地对不同日志和实体行为之间的关联进行挖掘。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于内网日志行为图的数据挖掘方法，包括以下步骤：

获取内网日志信息并进行解析，提取其中的主体、客体以及主体对客体的行为；

基于所述主体、客体以及主体对客体的行为，构建行为图；其中，所述行为图的节点表示主体或客体，连边表示主体对客体的行为，连边的方向为主体指向客体；

基于所述行为图，对主体行为、不同主体之间关系、不同客体之间关系、行为与行为之间关系，或内网日志之间关系进行挖掘。

进一步地，所述主体或客体包括人员、设备、应用、文件和漏洞；主体对客体的行为包括访问关系、操作关系、使用关系和服务关系；所述行为图包括多个以人员为核心的局部子图。

进一步地，对内网日志进行解析包括：预先构建行为语料库，基于所述行为语料库识别内网日志中的行为，以所述行为作为依据，向前或向后搜索主体或客体的标识信息。

进一步地，构建行为图包括：

根据主体或客体的类别建立对应类别的节点实例，并设置相应属性信息，初始状态为空；

根据主体对客体的行为类别，创建对应类别的连边实例，连边的方向为从主体节点指向客体节点，并设置相应属性信息，初始状态为空；

基于从内网日志解析得到的主体、客体以及主体对客体的行为，对节点和连边进行赋值；

结合预设主体或客体信息管理文件，对节点和连边属性信息进行关联。

进一步地，基于所述行为图，对主体行为进行挖掘包括：

对于某个人员，获取多天的历史局部子图；

基于频繁子图挖掘方法，从这些局部子图中挖掘出现次数达到预设次数的至少一个子图；

对所述至少一个子图进行筛选，得到对应的历史频繁子图；

对该人员某天的局部子图，根据所述历史频繁子图，判断是否存在异常行为。

进一步地，基于所述行为图，对内网日志之间关系进行挖掘包括：

基于所述行为图，生成实体时序行为链；

对日志之间的因果关系进行分析，实现特定行为的溯源。

一个或多个实施例提供了一种基于内网日志行为图的数据挖掘系统，包括：

日志解析模块，用于获取内网日志信息并进行解析，提取其中的主体、客体以及主体对客体的行为；

行为图构建模块，用于基于所述主体、客体以及主体对客体的行为，构建行为图；其中，所述行为图的节点表示主体或客体，连边表示主体对客体的行为，连边的方向为主体指向客体；

数据挖掘模块，用于基于所述行为图，对主体行为、不同主体之间关系、不同客体之间关系、行为与行为之间关系，或内网日志之间关系进行挖掘。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述基于内网日志行为图的数据挖掘方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述基于内网日志行为图的数据挖掘方法。

以上一个或多个技术方案存在以下有益效果：

通过将日志中主体和客体，以及主体对客体的行为进行抽象，将主体和客体抽象为节点，将行为抽象为连边，以图的形式实现了对内网行为的统一管理，能够实现主体行为、不同主体之间关系、不同客体之间关系、行为与行为之间关系，或内网日志之间关系等多维度的数据挖掘。

通过对个体的历史行为子图进行频繁子图挖掘，能够实现个体异常行为的识别。

通过对行为之间关系进行关联分析，能够挖掘日志间依赖关系，从而对攻击等特定行为进行溯源。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一个或多个实施例中主体和客体划分示意图；

图2为本发明一个或多个实施例中主体对客体关系划分示意图；

图3为行为图中以人员为核心的子图构建示例。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了一种基于内网日志行为图的数据挖掘方法，包括以下步骤：

步骤1:获取内网日志信息并进行解析，提取其中的主体、客体以及主体对客体的行为。

日志信息记录了行为事件，事件包括主体、客体以及主体对客体的行为。为了对事件中的主体或客体进行抽象，如图1所示，根据网络安全五要素中的人员、主机、应用、文件、网络，将事件中的主体或客体划分为五个类别，分别是人员、设备、应用、文件、漏洞。其中，某些类可以有子类，具体地，设备类可以进一步划分成主机、打卡器等设备；应用类可以进一步划分成服务器应用、本地应用；文件类可以进一步划分成敏感文件、普通文件、代码文件、病毒文件。

如图2所示，主体与客体之间的行为包括访问关系、操作关系、使用关系和服务关系。具体地，如表1所示，在各类主体和客体之间，包括10类行为：人员使用主机、主机访问主机、主机访问应用、主机操作文件、应用服务主机、应用访问应用、主机操作文件、应用操作文件、主机使用漏洞和应用使用漏洞。其中，访问关系可以进一步划分为访问、登录和攻击(例如个人主机对web应用的访问关系)；服务关系进一步划分为审计和防护(例如安全工具应用对主机对服务关系)；操作关系可以进一步划分成文件操作、系统操作(例如个人通过个人主机对文件的操作关系)；文件操作可以进一步划分为创建操作、打开操作、剪切操作、彻底删除操作、回收站删除操作、复制操作、重命名操作、普通web邮件发送操作、打印刻录操作、发送文件操作和接收文件操作；系统操作包括安装软件操作、卸载软件操作、更新软件操作、安装硬件操作和卸载硬件操作。

表1主体对客体的行为关系表

	人员	主机	应用	文件	漏洞
						人员	√
主机		√	√	√	√
						应用	√	√	√	√
文件		√
						漏洞

作为一种具体的实现方式，预先建立主体、客体和行为识别规则，具体地，对行为构建行为语料库(例如登陆、删除等等)，基于所述行为语料库识别内网日志中的行为，以所述行为作为依据，向前或向后搜索主体或客体的标识信息。具体地，所述主体或客体的标识信息包括人员IP、设备IP、应用IP等。

步骤2:基于所述主体、客体以及主体对客体的行为，构建行为图；其中，所述行为图的节点表示主体或客体，连边表示主体对客体的行为，连边的方向为主体指向客体。

图的基本单位是三元组(主体，客体，事件)，主体和客体分别对应图中的节点，事件对应节点与节点之间的连边。节点和连边都会有对应的属性，节点会有唯一的ID标识，事件一般会包括事件发生的时间，频次等。所述行为图的构建方法具体包括：

步骤2.1:根据主体或客体的类别建立对应类别的节点实例；

步骤2.2:提取日志中主体或客体的标识信息，基于预设主体或客体信息管理文件，对相应属性信息进行关联提取，并将主体或客体类别，以及相应属性信息关联至相应节点；具体地，所述主体或客体的标识信息包括人员IP、设备IP、应用IP等，所述主体或客体信息管理文件包括人员信息管理文件、设备信息管理文件等。

每个节点均设有属性，如表2所示。人员节点的属性包括用户名、所在部门、是否涉密、离职状态、工号和IP；设备节点的属性包括设备IP、设备类型和设备描述；应用节点的属性包括应用名、应用类型、应用IP、应用端口和应用描述；文件节点的属性包括文件名、文件类型、文件大小和文件MD5；漏洞节点的属性包括漏洞名、漏洞类型、漏洞ID、漏洞等级和漏洞描述。

表2主体或客体的属性信息列表

步骤2.3:根据主体对客体的行为类别，创建对应类别的连边实例，连边的方向为从主体节点指向客体节点。连边代表三元组中主体与客体之间发生的事件，连边包括四类关系，如图2所示，分别为：访问关系、操作关系、使用关系、服务关系。

步骤2.4:对主体节点和客体节点之间对连边进行属性关联。具体地，如表3所示，每条连边也设有属性。具体地，所述访问关系连边的属性包括访问类型、访问频次、访问协议、访问时间列表、检测来源和访问描述，对于攻击访问关系，还包括攻击ID、攻击类型和攻击等级；所述服务关系连边的属性包括服务类型、ID、等级、频次、时间列表、检测来源和服务描述；所述使用关系连边的属性包括使用类型；所述操作关系连边的属性包括操作类型、频次、操作结果、时间列表、检测来源和操作描述。

表3主体对客体的行为属性列表

至此，完成行为图的构建。如图3所示，设备、应用、文件、漏洞等实体通过各种连边关系形成了以人员为核心的局部子图。随着内网日志的增加，不断更新所述行为图。本实施例中，每隔设定时间间隔，获取新增内网日志，基于上述步骤1-步骤2的方法对行为图进行更新。

基于图，可以方便地分析实体与实体之间的关系，以及人员、主机等实体的行为。

步骤3:基于所述行为图，对主体行为、主体对客体行为、不同主体之间关系、不同客体之间关系、行为与行为之间关系，或内网日志之间关系进行挖掘。

企业员工每天会产生大量的行为数据，正常情况下，同一部门员工的各种行为存在很大的相似性，对应的服务器访问行为、上班打卡行为等应该相似。可以通过图的结构和子图结构分别建立群体行为基线和个人行为基线。

作为一种具体实现方式，对于某个人员，获取多个历史时刻的相应局部子图(本实施例中，获取多日的局部子图)；基于频繁子图挖掘方法(本实施例中采用gSpan子图挖掘算法)，从这些局部子图中挖掘出现次数达到预设次数的至少一个子图；其中，所述出现次数也可以称为支持度(Supp)，预设次数即最小支持度(minSupp)。对所述至少一个子图进行筛选，得到对应的历史频繁子图；对该人员某天的局部子图，根据所述历史频繁子图，判断是否存在异常行为。

作为另一种具体实现方式，行为图可以将各种内网日志信息汇总到具体实体，把与实体相关的全部信息关联到一起，进而挖掘各种告警、日志之间的依赖关系。行为图可以从图结构发现实体行为的相似性和相关性，输出实体时序行为链(包括实际行为和上网行为)。行为图可以同时从时序角度和日志依赖角度进行因果关联、攻击溯源。

以上实施方式仅作为示例，所述行为图方便地表达了实体与实体之间以及行为与行为之间的关系，可以借助知识图谱的相关方法，通过逻辑编程、强化学习、图神经网络等实现辅助推理出新的事实、新的行为、或者规律；可以通过频繁子图挖掘、图嵌入、统计性质等方法，挖掘与其它节点连接状态不同的节点，从而在多种行为尺度上发现个人行为的异常。

实施例二

本实施例的目的是提供一种基于内网日志行为图的数据挖掘系统，包括：

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一中所述于内网日志行为图的数据挖掘方法。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一中所述于内网日志行为图的数据挖掘方法。

以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于内网日志行为图的数据挖掘方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于内网日志行为图的数据挖掘方法，其特征在于，所述主体或客体包括人员、设备、应用、文件和漏洞；主体对客体的行为包括访问关系、操作关系、使用关系和服务关系；所述行为图包括多个以人员为核心的局部子图。

3.如权利要求1所述的一种基于内网日志行为图的数据挖掘方法，其特征在于，对内网日志进行解析包括：预先构建行为语料库，基于所述行为语料库识别内网日志中的行为，以所述行为作为依据，向前或向后搜索主体或客体的标识信息。

4.如权利要求1所述的一种基于内网日志行为图的数据挖掘方法，其特征在于，构建行为图包括：

5.如权利要求2所述的一种基于内网日志行为图的数据挖掘方法，其特征在于，基于所述行为图，对主体行为进行挖掘包括：

对于某个人员，获取多天的历史局部子图；

对所述至少一个子图进行筛选，得到对应的历史频繁子图；

6.如权利要求2所述的一种基于内网日志行为图的数据挖掘方法，其特征在于，基于所述行为图，对内网日志之间关系进行挖掘包括：

基于所述行为图，生成实体时序行为链；

对日志之间的因果关系进行分析，实现特定行为的溯源。

7.一种基于内网日志行为图的数据挖掘系统，其特征在于，包括：

8.如权利要求7所述的一种基于内网日志行为图的数据挖掘系统，其特征在于，所述主体或客体包括人员、设备、应用、文件和漏洞；主体对客体的行为包括访问关系、操作关系、使用关系和服务关系；所述行为图包括多个以人员为核心的局部子图。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述基于内网日志行为图的数据挖掘方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述基于内网日志行为图的数据挖掘方法。