CN109446816A - 一种基于大数据平台审计日志的用户行为分析方法 - Google Patents

一种基于大数据平台审计日志的用户行为分析方法 Download PDF

Info

Publication number
CN109446816A
CN109446816A CN201811217469.5A CN201811217469A CN109446816A CN 109446816 A CN109446816 A CN 109446816A CN 201811217469 A CN201811217469 A CN 201811217469A CN 109446816 A CN109446816 A CN 109446816A
Authority
CN
China
Prior art keywords
big data
log
user behavior
tree
audit log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811217469.5A
Other languages
English (en)
Inventor
梁玲玲
阮钰
普艳红
杨义渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201811217469.5A priority Critical patent/CN109446816A/zh
Publication of CN109446816A publication Critical patent/CN109446816A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据平台审计日志的用户行为分析方法,包括以下步骤:日志收集‑预处理‑获取频繁项集‑建立关联规则。本发明从大数据平台审计日志中基于用户行为进行数据挖掘,比传统的基于关键字过滤更加准确,减少了安全事件的误报和漏报;是一种自动的、快速的用户行为分析方法,不需要人为干预,适合大数据平台海量日志的自动分析,可用于大数据平台安全运维管理的后台处理;通过该方法得到的行为模式,可被用于安全事件的事前预警、事中分析和事后追溯,充分发挥日志的功效,从而提高安全管理水平。

Description

一种基于大数据平台审计日志的用户行为分析方法
技术领域
本发明涉及一种基于大数据平台审计日志的用户行为分析方法,属于信息安全技术领域。
背景技术
现有的大数据应用中多采用开源的大数据管理平台和技术,如基于Hadoop生态架构的Hbase/Hive、Cassandra/Spark、MongoDB等。这些平台和技术在设计之初,大部分考虑是在可信的内部网络中使用,对大数据应用用户的身份鉴别对大数据应用用户的身份鉴别、授权访问以及安全审计等安全功能需求考虑较少。近年来,随着更新发展,这些软件通过调用外部安全组件、修补安全补丁的方式逐步增加了一些安全措施,如调用外部Kerberos身份鉴别组件、扩展访问控制管理能力、允许使用存储加密以及增加安全审计功能等。即便如此,大部分大数据软件仍然是围绕大容量、高速率的数据处理功能开发,而缺乏原生的安全特性,在整体安全规划方面考虑不足,甚至没有良好的安全实现。
发明内容
为解决上述技术问题,本发明提供了一种基于大数据平台审计日志的用户行为分析方法,该基于大数据平台审计日志的用户行为分析方法提高了大数据平台的安全性。
本发明通过以下技术方案得以实现。
本发明提供的一种基于大数据平台审计日志的用户行为分析方法,包括以下步骤:
①日志收集:从大数据平台中收集用于用户行为分析的服务组件日志;
②预处理:提取、分解服务组件日志中的数据,合并、去除服务组件日志中不需要的字段,填充缺失内容,对数据进行归约化表示,获取事务数据集;
③获取频繁项集:从事务数据集中,构建不小于设定阈值的最小支持度集合,获取频繁项集;
④建立关联规则:从频繁项集合中,构建不小于设定阈值的最小置信度规则,建立用户行为模式基。
所述步骤①中,服务组件日志包含HDFS Audit Log、Hive Query Log、HBASEAudit Log MapR FS Audit Log和Oozie Audit Log。
所述步骤③中,采用FP-Growth算法生成频繁项集。
所述步骤③中的最小支持度的最小阈值为0.43。
所述步骤③分为以下步骤:
(3.1)计算支持度:计算每条事务的支持度;
(3.2)排序:对支持度进行降序排列,获取排列表;
(3.3)构造FP-Tree:依据FP-Growth算法和排列表,构造FP-Tree;
(3.4)获取频繁项集:根据FP-Tree,获取频繁项集。
所述步骤(3.3)中,构造FP-Tree包括以下步骤:
(3.3.1)创建根节点;
(3.3.2)依次读取排列表中的每条事务,将每条事务顺着根节点路径,依次添加到根节点上;
(3.3.3)更新节点数的频数,建立项头表,其中每个项指向树中的相关项;
(3.3.4)构成FP-Tree。
所述步骤(3.4)分为以下步骤:
(3.4.1)获取FP-Tree的每一个节点的前缀路径;
(3.4.2)将前缀路径作为新的事务数据集,构造前缀路径的条件 FP-Tree;
(3.4.3)对条件FP-Tree中的每一个频繁项进行迭代,直到FP-Tree 中只包含一个频繁项为止。
所述步骤④中,最小置信度的最小阈值为0.43。
本发明的有益效果在于:
1.从大数据平台审计日志中基于用户行为进行数据挖掘,比传统的基于关键字过滤更加准确,减少了安全事件的误报和漏报;
2.本方法是一种自动的、快速的用户行为分析方法,不需要人为干预,适合大数据平台海量日志的自动分析,可用于大数据平台安全运维管理的后台处理;
3.通过该方法得到的行为模式,可被用于安全事件的事前预警、事中分析和事后追溯,充分发挥日志的功效,从而提高安全管理水平。
附图说明
图1是本发明的流程图;
图2是本发明FP-Tree的结构图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1所示,一种基于大数据平台审计日志的用户行为分析方法,包括以下步骤:
①日志收集:从大数据平台中收集用于用户行为分析的服务组件日志;其中,服务组件日志包含HDFS Audit Log、Hive Query Log、HBASE Audit Log MapR FS Audit Log和Oozie Audit Log,本方法选取HDFS Audit Log作为解释例进行说明,如表1所示,是HDFSAudit Log的示例。
②预处理:提取、分解服务组件日志中的数据,合并、去除服务组件日志中不需要的字段,填充缺失内容,对数据进行归约化表示,获取事务数据集,如表2所示,即负责对收集到的原始服务组件日志数中的数据,进行初步整理,完成数据分析前的准备工作,再将原始日志文件中的数据先进行解析,提取、分解、合并、删除不必要的字段,进行归约化表示,得到可以用于分析的事务数据集;
表1
选择HDFS Audit Log进行举例:
(1)首先提取、分解字段:表1列出了HDFS Audit Log包含的9个字段信息,分别是timestamp、info、ugi、ip、cmd、src、dst、perm和 proto,每个字段的含义见表所示。这里仅选取timestamp、info、ugi、 ip和cmd共五个字段进行数据分析,通过这几个字段表达了什么时候什么人进行了什么操作,导致了什么影响;
表2
(2)然后对日志进行归约化表示:用T1、T2、T3表示三个不同的时间段,例如T1表示时间9:00am—9:15am,T2表示时间9:16am— 9:30am,T3表示时间9:31am—9:45am;用I1表示Debug、I2表示Info、 I3表示Warn、I4表示Error、I5表示Fatal;U2、U3代表两个操作用户; H1、H2代表两台请求主机;C1表示open操作,C2表示create操作;表 3列出了归约化处理后的日志,构成了一个简单的HDFS Audit Log事务数据集。
表3
③获取频繁项集:从事务数据集中,构建不小于设定阈值的最小支持度集合,获取频繁项集;
所述步骤③中,采用FP-Growth算法生成频繁项集,还可采用 Apriori、FP-Growth、多层关联规则等数据挖掘算法获得数据频繁项集合。
所述步骤③中的最小支持度的最小阈值为0.43。
所述步骤③分为以下步骤:
(3.1)计算支持度:计算每条事务的支持度;
(3.2)排序:对支持度进行降序排列,获取排列表;
(3.3)构造FP-Tree:依据FP-Growth算法和排列表,构造FP-Tree;
(3.4)获取频繁项集:根据FP-Tree,获取频繁项集。
所述步骤(3.3)中,构造FP-Tree包括以下步骤:
(3.3.1)创建根节点;
(3.3.2)依次读取排列表中的每条事务,将每条事务顺着根节点路径,依次添加到根节点上;
(3.3.3)更新节点数的频数,建立项头表,其中每个项指向树中的相关项;
(3.3.4)构成FP-Tree。
所述步骤(3.4)分为以下步骤:
(3.4.1)获取FP-Tree的每一个节点的前缀路径;
(3.4.2)将前缀路径作为新的事务数据集,构造前缀路径的条件 FP-Tree;
(3.4.3)对条件FP-Tree中的每一个频繁项进行迭代,直到FP-Tree 中只包含一个频繁项为止。
具体的:
(1)算出每个项的支持度:T1=0.14、T2=0.43、T3=0.43、 I2=0.57、I3=0.14、I4=0.14、U2=0.57、U3=0.43、C1=0.86、 C2=0.14、H1=0.57、H2=0.43;小于0.43的项排除,不在分析范围内,因此排除T1、I3、I4、C2四项;
(2)对每条事务依据支持度降序排列,排列结果如表4所示;
表4
ID 项集
1 {C<sub>1</sub>、I<sub>2</sub>、H<sub>1</sub>、U<sub>2</sub>}
2 {C<sub>1</sub>、I<sub>2</sub>、T<sub>2</sub>、U<sub>3</sub>、H<sub>2</sub>}
3 {C<sub>1</sub>、I<sub>2</sub>、H<sub>1</sub>、T<sub>3</sub>、U<sub>2</sub>}
4 {C<sub>1</sub>、T<sub>2</sub>、U<sub>3</sub>、H<sub>2</sub>}
5 {C<sub>1</sub>、H<sub>1</sub>、T<sub>2</sub>、U<sub>2</sub>}
6 {C<sub>1</sub>、I<sub>2</sub>、H<sub>1</sub>、T<sub>3</sub>、U<sub>2</sub>}
7 {T<sub>3</sub>、U<sub>3</sub>、H<sub>2</sub>}
(3)依据FP-Growth算法构造FP-Tree:创建根节点,用{}(空集) 表示;读取表4中的每条事务,依次挂到根节点上,依次读取后面的事务,并以同样的方式加入到FP-Tree中,顺着根节点路径添加,并更新节点数的频数;建立一个项头表,每个项指向树中的相关项,如图 2所示,是事务集对应的FP-Tree。
(4)依据FP-Tree发现频繁项集合:对每一个节点获取前缀路径,例如U2的前缀表达式为{C1:1,I2:1,H1:1}、{C1:2,I2:2,H1:2,T3:2};将前缀路径作为新的事务数据集,以此构造前缀路径的条件 FP-Tree,然后对条件FP-Tree中的每一个频繁项再获取前缀路径和构造 FP-Tree,不断迭代,直到FP-Tree中只包含一个频繁项为止。依照这个步骤获取了本事务集的频繁项集,包括{C1}、{H1}、{H1、I2}、 {H1、I2、C1}、{I2}、{I2、C1}共六项。
④建立关联规则:从频繁项集合中,构建不小于设定阈值的最小置信度规则,建立用户行为模式基。
所述步骤④中,最小置信度的最小阈值为0.43。
具体的:计算频繁项中所有潜在规则的置信度值:
(1)计算频繁项{H1、I2}潜在规则的置信度。
(2)计算频繁项{H1、I2、C1}潜在规则的置信度。
(3)计算频繁项{I2、C1}潜在规则的置信度。
(4)根据计算得到了潜在规则的置信度,大于0.43的规则有7条,如表5所示是事务集对应的关联规则,反映了用户的行为模式。
表5
编号 规则 置信度
1 {H<sub>1</sub>}→{I<sub>2</sub>} 0.75
2 {I<sub>2</sub>}→{H<sub>1</sub>} 0.75
3 {H<sub>1</sub>,I<sub>2</sub>}→{C<sub>1</sub>} 1
4 {H<sub>1</sub>,C<sub>1</sub>}→{I<sub>2</sub>} 0.75
5 {C<sub>1</sub>,I<sub>2</sub>}→{H<sub>1</sub>} 0.75
6 {C<sub>1</sub>}→{I<sub>2</sub>} 0.67
7 {I<sub>2</sub>}→{C<sub>1</sub>} 1

Claims (8)

1.一种基于大数据平台审计日志的用户行为分析方法,其特征在于:包括以下步骤:
①日志收集:从大数据平台中收集用于用户行为分析的服务组件日志;
②预处理:提取、分解服务组件日志中的数据,合并、去除服务组件日志中不需要的字段,填充缺失内容,对数据进行归约化表示,获取事务数据集;
③获取频繁项集:从事务数据集中,构建不小于设定阈值的最小支持度集合,获取频繁项集;
④建立关联规则:从频繁项集合中,构建不小于设定阈值的最小置信度规则,建立用户行为模式基。
2.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法,其特征在于:所述步骤①中,服务组件日志包含HDFS Audit Log、Hive Query Log、HBASE Audit Log MapRFS Audit Log和Oozie Audit Log。
3.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法,其特征在于:所述步骤③中,采用FP-Growth算法生成频繁项集。
4.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法,其特征在于:所述步骤③中的最小支持度的最小阈值为0.43。
5.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法,其特征在于:所述步骤③分为以下步骤:
(3.1)计算支持度:计算每条事务的支持度;
(3.2)排序:对支持度进行降序排列,获取排列表;
(3.3)构造FP-Tree:依据FP-Growth算法和排列表,构造FP-Tree;
(3.4)获取频繁项集:根据FP-Tree,获取频繁项集。
6.如权利要求5所述的基于大数据平台审计日志的用户行为分析方法,其特征在于:所述步骤(3.3)中,构造FP-Tree包括以下步骤:
(3.3.1)创建根节点;
(3.3.2)依次读取排列表中的每条事务,将每条事务顺着根节点路径,依次添加到根节点上;
(3.3.3)更新节点数的频数,建立项头表,其中每个项指向树中的相关项;
(3.3.4)构成FP-Tree。
7.如权利要求5所述的基于大数据平台审计日志的用户行为分析方法,其特征在于:所述步骤(3.4)分为以下步骤:
(3.4.1)获取FP-Tree的每一个节点的前缀路径;
(3.4.2)将前缀路径作为新的事务数据集,构造前缀路径的条件FP-Tree;
(3.4.3)对条件FP-Tree中的每一个频繁项进行迭代,直到FP-Tree中只包含一个频繁项为止。
8.如权利要求1所述的基于大数据平台审计日志的用户行为分析方法,其特征在于:所述步骤④中,最小置信度的最小阈值为0.43。
CN201811217469.5A 2018-10-18 2018-10-18 一种基于大数据平台审计日志的用户行为分析方法 Pending CN109446816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811217469.5A CN109446816A (zh) 2018-10-18 2018-10-18 一种基于大数据平台审计日志的用户行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811217469.5A CN109446816A (zh) 2018-10-18 2018-10-18 一种基于大数据平台审计日志的用户行为分析方法

Publications (1)

Publication Number Publication Date
CN109446816A true CN109446816A (zh) 2019-03-08

Family

ID=65546676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811217469.5A Pending CN109446816A (zh) 2018-10-18 2018-10-18 一种基于大数据平台审计日志的用户行为分析方法

Country Status (1)

Country Link
CN (1) CN109446816A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110113402A (zh) * 2019-04-28 2019-08-09 上海上湖信息技术有限公司 一种web服务通信的方法及装置
CN110489453A (zh) * 2019-07-02 2019-11-22 广东工业大学 基于大数据日志分析的用户游戏实时推荐方法及系统
CN110990487A (zh) * 2019-11-29 2020-04-10 中国银行股份有限公司 基于区块链的智能审计系统、设备以及方法
CN111209314A (zh) * 2020-01-13 2020-05-29 国网浙江省电力有限公司信息通信分公司 一种电力信息系统海量日志数据实时处理系统
CN112199344A (zh) * 2020-10-14 2021-01-08 杭州安恒信息技术股份有限公司 一种日志分类的方法和装置
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统
CN113221101A (zh) * 2021-04-06 2021-08-06 中标软件有限公司 基于安卓系统的安全审计功能的实现方法
CN113283920A (zh) * 2021-06-11 2021-08-20 广东新禾道信息科技有限公司 基于区块链的房屋租赁信息溯源方法、系统及云平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616092A (zh) * 2014-12-16 2015-05-13 国家电网公司 一种基于分布式日志分析的行为模式处理方法
US9661010B2 (en) * 2014-11-21 2017-05-23 Honeywell International Inc. Security log mining devices, methods, and systems
CN107481119A (zh) * 2017-08-21 2017-12-15 贵州西部生态链电子商务有限公司 一种基于大数据特征分析的云餐饮平台及分析方法
CN107835087A (zh) * 2017-09-14 2018-03-23 北京科东电力控制系统有限责任公司 一种基于频繁模式挖掘的安全设备告警规则自动提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9661010B2 (en) * 2014-11-21 2017-05-23 Honeywell International Inc. Security log mining devices, methods, and systems
CN104616092A (zh) * 2014-12-16 2015-05-13 国家电网公司 一种基于分布式日志分析的行为模式处理方法
CN107481119A (zh) * 2017-08-21 2017-12-15 贵州西部生态链电子商务有限公司 一种基于大数据特征分析的云餐饮平台及分析方法
CN107835087A (zh) * 2017-09-14 2018-03-23 北京科东电力控制系统有限责任公司 一种基于频繁模式挖掘的安全设备告警规则自动提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张志军: "《大数据技术在高校中的应用研究》", 30 September 2017, 北京邮电大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110113402A (zh) * 2019-04-28 2019-08-09 上海上湖信息技术有限公司 一种web服务通信的方法及装置
CN110113402B (zh) * 2019-04-28 2021-11-19 上海上湖信息技术有限公司 一种web服务通信的方法及装置
CN110489453A (zh) * 2019-07-02 2019-11-22 广东工业大学 基于大数据日志分析的用户游戏实时推荐方法及系统
CN110489453B (zh) * 2019-07-02 2023-04-14 广东工业大学 基于大数据日志分析的用户游戏实时推荐方法及系统
CN110990487A (zh) * 2019-11-29 2020-04-10 中国银行股份有限公司 基于区块链的智能审计系统、设备以及方法
CN111209314A (zh) * 2020-01-13 2020-05-29 国网浙江省电力有限公司信息通信分公司 一种电力信息系统海量日志数据实时处理系统
CN112199344A (zh) * 2020-10-14 2021-01-08 杭州安恒信息技术股份有限公司 一种日志分类的方法和装置
CN112199344B (zh) * 2020-10-14 2024-03-19 杭州安恒信息技术股份有限公司 一种日志分类的方法和装置
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统
CN113221101A (zh) * 2021-04-06 2021-08-06 中标软件有限公司 基于安卓系统的安全审计功能的实现方法
CN113283920A (zh) * 2021-06-11 2021-08-20 广东新禾道信息科技有限公司 基于区块链的房屋租赁信息溯源方法、系统及云平台

Similar Documents

Publication Publication Date Title
CN109446816A (zh) 一种基于大数据平台审计日志的用户行为分析方法
Liu et al. An integrated method for anomaly detection from massive system logs
CN105550583B (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
CN109889538B (zh) 用户异常行为检测方法及系统
Sala et al. Measurement-calibrated graph models for social network experiments
CN106101121B (zh) 一种全网络流量异常抽取方法
CN109818961B (zh) 一种网络入侵检测方法、装置和设备
CN111107072B (zh) 一种基于认证图嵌入的异常登录行为检测方法及系统
CN108964995A (zh) 基于时间轴事件的日志关联分析方法
CN110046297B (zh) 运维违规操作的识别方法、装置和存储介质
CN114090402A (zh) 一种基于孤立森林的用户异常访问行为检测方法
CN105488211A (zh) 基于特征分析的用户群确定方法
CN114915478B (zh) 基于多代理的分布式关联分析的智慧园区工控系统网络攻击场景识别方法、系统及存储介质
CN105630797B (zh) 数据处理方法及系统
CN105512301A (zh) 基于社交内容的用户分组方法
CN111967885A (zh) 智能外呼处理方法及装置
Min et al. K-means algorithm: fraud detection based on signaling data
CN110333990B (zh) 数据处理方法以及装置
CN116186759A (zh) 一种面向隐私计算的敏感数据识别与脱敏方法
CN114841789A (zh) 基于区块链的审计审价故障数据在线编辑方法及系统
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法
CN108897680B (zh) 一种基于soa的软件系统操作剖面构造方法
CN114511330A (zh) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统
CN115618361A (zh) 基于攻击大数据的应用程序薄弱点分析方法及系统
CN112202867A (zh) 一种应用于网络安全环境的工作流节点处置方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190308