CN109446816A

CN109446816A - 一种基于大数据平台审计日志的用户行为分析方法

Info

Publication number: CN109446816A
Application number: CN201811217469.5A
Authority: CN
Inventors: 梁玲玲; 阮钰; 普艳红; 杨义渊
Original assignee: Division Big Data Research Institute Co Ltd
Current assignee: Division Big Data Research Institute Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-03-08

Abstract

本发明提供了一种基于大数据平台审计日志的用户行为分析方法，包括以下步骤：日志收集‑预处理‑获取频繁项集‑建立关联规则。本发明从大数据平台审计日志中基于用户行为进行数据挖掘，比传统的基于关键字过滤更加准确，减少了安全事件的误报和漏报；是一种自动的、快速的用户行为分析方法，不需要人为干预，适合大数据平台海量日志的自动分析，可用于大数据平台安全运维管理的后台处理；通过该方法得到的行为模式，可被用于安全事件的事前预警、事中分析和事后追溯，充分发挥日志的功效，从而提高安全管理水平。

Description

一种基于大数据平台审计日志的用户行为分析方法

技术领域

本发明涉及一种基于大数据平台审计日志的用户行为分析方法，属于信息安全技术领域。

背景技术

现有的大数据应用中多采用开源的大数据管理平台和技术，如基于Hadoop生态架构的Hbase/Hive、Cassandra/Spark、MongoDB等。这些平台和技术在设计之初，大部分考虑是在可信的内部网络中使用，对大数据应用用户的身份鉴别对大数据应用用户的身份鉴别、授权访问以及安全审计等安全功能需求考虑较少。近年来，随着更新发展，这些软件通过调用外部安全组件、修补安全补丁的方式逐步增加了一些安全措施，如调用外部Kerberos身份鉴别组件、扩展访问控制管理能力、允许使用存储加密以及增加安全审计功能等。即便如此，大部分大数据软件仍然是围绕大容量、高速率的数据处理功能开发，而缺乏原生的安全特性，在整体安全规划方面考虑不足，甚至没有良好的安全实现。

发明内容

为解决上述技术问题，本发明提供了一种基于大数据平台审计日志的用户行为分析方法，该基于大数据平台审计日志的用户行为分析方法提高了大数据平台的安全性。

本发明通过以下技术方案得以实现。

本发明提供的一种基于大数据平台审计日志的用户行为分析方法，包括以下步骤：

①日志收集：从大数据平台中收集用于用户行为分析的服务组件日志；

②预处理：提取、分解服务组件日志中的数据，合并、去除服务组件日志中不需要的字段，填充缺失内容，对数据进行归约化表示，获取事务数据集；

③获取频繁项集：从事务数据集中，构建不小于设定阈值的最小支持度集合，获取频繁项集；

④建立关联规则：从频繁项集合中，构建不小于设定阈值的最小置信度规则，建立用户行为模式基。

所述步骤①中，服务组件日志包含HDFS Audit Log、Hive Query Log、HBASEAudit Log MapR FS Audit Log和Oozie Audit Log。

所述步骤③中，采用FP-Growth算法生成频繁项集。

所述步骤③中的最小支持度的最小阈值为0.43。

所述步骤③分为以下步骤：

(3.1)计算支持度：计算每条事务的支持度；

(3.2)排序：对支持度进行降序排列，获取排列表；

(3.3)构造FP-Tree：依据FP-Growth算法和排列表，构造FP-Tree；

(3.4)获取频繁项集：根据FP-Tree，获取频繁项集。

所述步骤(3.3)中，构造FP-Tree包括以下步骤：

(3.3.1)创建根节点；

(3.3.2)依次读取排列表中的每条事务，将每条事务顺着根节点路径，依次添加到根节点上；

(3.3.3)更新节点数的频数，建立项头表，其中每个项指向树中的相关项；

(3.3.4)构成FP-Tree。

所述步骤(3.4)分为以下步骤：

(3.4.1)获取FP-Tree的每一个节点的前缀路径；

(3.4.2)将前缀路径作为新的事务数据集，构造前缀路径的条件 FP-Tree；

(3.4.3)对条件FP-Tree中的每一个频繁项进行迭代，直到FP-Tree 中只包含一个频繁项为止。

所述步骤④中，最小置信度的最小阈值为0.43。

本发明的有益效果在于：

1.从大数据平台审计日志中基于用户行为进行数据挖掘，比传统的基于关键字过滤更加准确，减少了安全事件的误报和漏报；

2.本方法是一种自动的、快速的用户行为分析方法，不需要人为干预，适合大数据平台海量日志的自动分析，可用于大数据平台安全运维管理的后台处理；

3.通过该方法得到的行为模式，可被用于安全事件的事前预警、事中分析和事后追溯，充分发挥日志的功效，从而提高安全管理水平。

附图说明

图1是本发明的流程图；

图2是本发明FP-Tree的结构图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1所示，一种基于大数据平台审计日志的用户行为分析方法，包括以下步骤：

①日志收集：从大数据平台中收集用于用户行为分析的服务组件日志；其中，服务组件日志包含HDFS Audit Log、Hive Query Log、HBASE Audit Log MapR FS Audit Log和Oozie Audit Log，本方法选取HDFS Audit Log作为解释例进行说明，如表1所示，是HDFSAudit Log的示例。

②预处理：提取、分解服务组件日志中的数据，合并、去除服务组件日志中不需要的字段，填充缺失内容，对数据进行归约化表示，获取事务数据集，如表2所示，即负责对收集到的原始服务组件日志数中的数据，进行初步整理，完成数据分析前的准备工作，再将原始日志文件中的数据先进行解析，提取、分解、合并、删除不必要的字段，进行归约化表示，得到可以用于分析的事务数据集；

表1

选择HDFS Audit Log进行举例：

(1)首先提取、分解字段：表1列出了HDFS Audit Log包含的9个字段信息，分别是timestamp、info、ugi、ip、cmd、src、dst、perm和 proto，每个字段的含义见表所示。这里仅选取timestamp、info、ugi、 ip和cmd共五个字段进行数据分析，通过这几个字段表达了什么时候什么人进行了什么操作，导致了什么影响；

表2

(2)然后对日志进行归约化表示：用T₁、T₂、T₃表示三个不同的时间段，例如T₁表示时间9:00am—9:15am，T₂表示时间9:16am— 9:30am，T₃表示时间9:31am—9:45am；用I₁表示Debug、I₂表示Info、 I₃表示Warn、I₄表示Error、I₅表示Fatal；U₂、U₃代表两个操作用户； H₁、H₂代表两台请求主机；C₁表示open操作，C₂表示create操作；表 3列出了归约化处理后的日志，构成了一个简单的HDFS Audit Log事务数据集。

表3

所述步骤③中，采用FP-Growth算法生成频繁项集，还可采用 Apriori、FP-Growth、多层关联规则等数据挖掘算法获得数据频繁项集合。

所述步骤③中的最小支持度的最小阈值为0.43。

所述步骤③分为以下步骤：

(3.1)计算支持度：计算每条事务的支持度；

(3.2)排序：对支持度进行降序排列，获取排列表；

(3.3)构造FP-Tree：依据FP-Growth算法和排列表，构造FP-Tree；

(3.4)获取频繁项集：根据FP-Tree，获取频繁项集。

所述步骤(3.3)中，构造FP-Tree包括以下步骤：

(3.3.1)创建根节点；

(3.3.4)构成FP-Tree。

所述步骤(3.4)分为以下步骤：

(3.4.1)获取FP-Tree的每一个节点的前缀路径；

具体的：

(1)算出每个项的支持度：T₁＝0.14、T₂＝0.43、T₃＝0.43、 I₂＝0.57、I₃＝0.14、I₄＝0.14、U₂＝0.57、U₃＝0.43、C₁＝0.86、 C₂＝0.14、H₁＝0.57、H₂＝0.43；小于0.43的项排除，不在分析范围内，因此排除T₁、I₃、I₄、C₂四项；

(2)对每条事务依据支持度降序排列，排列结果如表4所示；

表4

ID	项集
		1	{C<sub>1</sub>、I<sub>2</sub>、H<sub>1</sub>、U<sub>2</sub>}
2	{C<sub>1</sub>、I<sub>2</sub>、T<sub>2</sub>、U<sub>3</sub>、H<sub>2</sub>}
		3	{C<sub>1</sub>、I<sub>2</sub>、H<sub>1</sub>、T<sub>3</sub>、U<sub>2</sub>}
4	{C<sub>1</sub>、T<sub>2</sub>、U<sub>3</sub>、H<sub>2</sub>}
		5	{C<sub>1</sub>、H<sub>1</sub>、T<sub>2</sub>、U<sub>2</sub>}
6	{C<sub>1</sub>、I<sub>2</sub>、H<sub>1</sub>、T<sub>3</sub>、U<sub>2</sub>}
		7	{T<sub>3</sub>、U<sub>3</sub>、H<sub>2</sub>}

(3)依据FP-Growth算法构造FP-Tree：创建根节点，用{}(空集) 表示；读取表4中的每条事务，依次挂到根节点上，依次读取后面的事务，并以同样的方式加入到FP-Tree中，顺着根节点路径添加，并更新节点数的频数；建立一个项头表，每个项指向树中的相关项，如图 2所示，是事务集对应的FP-Tree。

(4)依据FP-Tree发现频繁项集合：对每一个节点获取前缀路径，例如U₂的前缀表达式为{C₁：1，I₂：1，H₁：1}、{C₁：2，I₂：2，H₁：2，T₃：2}；将前缀路径作为新的事务数据集，以此构造前缀路径的条件 FP-Tree，然后对条件FP-Tree中的每一个频繁项再获取前缀路径和构造 FP-Tree，不断迭代，直到FP-Tree中只包含一个频繁项为止。依照这个步骤获取了本事务集的频繁项集，包括{C₁}、{H₁}、{H₁、I₂}、 {H₁、I₂、C₁}、{I₂}、{I₂、C₁}共六项。

所述步骤④中，最小置信度的最小阈值为0.43。

具体的：计算频繁项中所有潜在规则的置信度值：

(1)计算频繁项{H₁、I₂}潜在规则的置信度。

(2)计算频繁项{H₁、I₂、C₁}潜在规则的置信度。

(3)计算频繁项{I₂、C₁}潜在规则的置信度。

(4)根据计算得到了潜在规则的置信度，大于0.43的规则有7条，如表5所示是事务集对应的关联规则，反映了用户的行为模式。

表5

编号	规则	置信度
			1	{H<sub>1</sub>}→{I<sub>2</sub>}	0.75
2	{I<sub>2</sub>}→{H<sub>1</sub>}	0.75
			3	{H<sub>1</sub>，I<sub>2</sub>}→{C<sub>1</sub>}	1
4	{H<sub>1</sub>，C<sub>1</sub>}→{I<sub>2</sub>}	0.75
			5	{C<sub>1</sub>，I<sub>2</sub>}→{H<sub>1</sub>}	0.75
6	{C<sub>1</sub>}→{I<sub>2</sub>}	0.67
			7	{I<sub>2</sub>}→{C<sub>1</sub>}	1

Claims

1.一种基于大数据平台审计日志的用户行为分析方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法，其特征在于：所述步骤①中，服务组件日志包含HDFS Audit Log、Hive Query Log、HBASE Audit Log MapRFS Audit Log和Oozie Audit Log。

3.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法，其特征在于：所述步骤③中，采用FP-Growth算法生成频繁项集。

4.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法，其特征在于：所述步骤③中的最小支持度的最小阈值为0.43。

5.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法，其特征在于：所述步骤③分为以下步骤：

(3.1)计算支持度：计算每条事务的支持度；

(3.2)排序：对支持度进行降序排列，获取排列表；

(3.3)构造FP-Tree：依据FP-Growth算法和排列表，构造FP-Tree；

(3.4)获取频繁项集：根据FP-Tree，获取频繁项集。

6.如权利要求5所述的基于大数据平台审计日志的用户行为分析方法，其特征在于：所述步骤(3.3)中，构造FP-Tree包括以下步骤：

(3.3.1)创建根节点；

(3.3.4)构成FP-Tree。

7.如权利要求5所述的基于大数据平台审计日志的用户行为分析方法，其特征在于：所述步骤(3.4)分为以下步骤：

(3.4.1)获取FP-Tree的每一个节点的前缀路径；

(3.4.2)将前缀路径作为新的事务数据集，构造前缀路径的条件FP-Tree；

(3.4.3)对条件FP-Tree中的每一个频繁项进行迭代，直到FP-Tree中只包含一个频繁项为止。

8.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法，其特征在于：所述步骤④中，最小置信度的最小阈值为0.43。