CN110879771A - 一种基于关键词序列挖掘的用户异常检测的日志分析系统 - Google Patents

一种基于关键词序列挖掘的用户异常检测的日志分析系统 Download PDF

Info

Publication number
CN110879771A
CN110879771A CN201911069814.XA CN201911069814A CN110879771A CN 110879771 A CN110879771 A CN 110879771A CN 201911069814 A CN201911069814 A CN 201911069814A CN 110879771 A CN110879771 A CN 110879771A
Authority
CN
China
Prior art keywords
log
layer
logs
user
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911069814.XA
Other languages
English (en)
Inventor
李博
王骜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911069814.XA priority Critical patent/CN110879771A/zh
Publication of CN110879771A publication Critical patent/CN110879771A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于关键词序列挖掘的用户异常检测的日志分析系统,所述系统的结构包括采集层、流处理层、离线处理层和展示层,所述采集层采集系统日志信息,所述系统日志信息包括配置局域网环境下的目标主机记录用户会话信息、配置审计规则监控用户执行的系统调用信息;所述流处理层的服务端对所述采集层采集的系统日志信息进行监控和提取,并进行异常序列预警;所述离线处理层离线处理当天所有日志,以用户会话为单位,提取每个用户会话的日志特征。通过聚类分析确定异常用户会话;所述展示层实现Web前端页面和管理端后台,实现局域网状态仪表盘、日志查询和监控任务配置修改。

Description

一种基于关键词序列挖掘的用户异常检测的日志分析系统
技术领域
本发明涉及一种日志分析系统,尤其涉及一种基于关键词序列挖掘的用户异常检测的日志分析系统。
背景技术
随着计算机科学和互联网技术的不断进步,信息技术的发展迈入了一个新的高度。支撑社会运转的软、硬件系统,不管从规模大小或是复杂程度,都到达了前所未有的水平。但是随之也带来了如下问题:网络环境日趋复杂;主机边界、网络边界日益模糊;网络攻击频繁,严重威胁基础网络设备、域名系统、工业互联网等基础网络和关键基础设施;网络安全的经济损失巨大,大型全球性网络攻击可能会使得全球经济平均损失530亿美元,2015年我国网民因网络安全事件造成的经济损失达915亿人民币。
日志监控是安全事件追踪的有效手段。日志数据是理解系统状态和性能问题的重要资源。因此,各种系统日志是系统异常检测和恶意行为检测的极好的信息来源。通过对日志内容和日志序列的分析,可以判断当前系统的运行状态,并预测未来可能发生的异常。
但当前日志分析技术仍然面临着一些问题,主要表现在:
1)日志数量巨大:如今的大型网站和软件系统,其规模和复杂度都达到了前所未有的程度。这些系统每天可以产生TB数量级大小的日志,且利用率非常低;
2)数据格式非结构化:由于不同行业、不同领域使用的软件系统千差万别,产生的日志记录不管是从格式或者内容上都有巨大的差异。很多日志分析技术如传统的基于正则表达式的分析系统,只能针对特定软件产生的日志进行分析,可扩展性差。需要系统管理员具备编写正则表达式的能力;
3)难以实现自动化检测:目前的安全事件追踪主要通过专家手动查询文本获取相关信息。系统异常变化多样,难以确定攻击类型,需要具体情况具体分析,这对于不了解安全知识的系统管理员来说有很大挑战。
企业安全中的一个关键问题是要根据设备和网络状态分析异常,检测潜在的恶意行为。通过对日志流进行实时分析,帮助管理人员高效地监控和维护生产环境。
发明内容
针对现有日志分析系统存在的问题,本发明提出本发明提出一种基于关键词序列挖掘的用户异常检测的日志分析系统,所述系统的结构包括采集层、流处理层、离线处理层和展示层,所述采集层采集系统日志信息,所述系统日志信息包括配置局域网环境下的目标主机记录用户会话信息、配置审计规则监控用户执行的系统调用信息;所述流处理层的服务端对所述采集层采集的系统日志信息进行监控和提取,并进行异常序列预警;所述离线处理层离线处理当天所有日志,以用户会话为单位,提取每个用户会话的日志特征,通过聚类分析确定异常用户会话;所述展示层实现Web前端页面和管理端后台,实现局域网状态仪表盘、日志查询和监控任务配置修改。
本发明采用在线预警和离线学习相结合的方式,实现日志关键词提取、异常序列检测和用户行为分析。在线处理部分实现关键词提取和异常序列检测,提出并优化关键词提取时的模型序列化和反序列化的方法,构建基于Zookeeper的解析树结构存储,借助Zookeeper实现分布式一致性,在分布式集群的环境下实现节点的同步更新。构建解析树依赖Zookeeper天然的属性结构,通过Znode存储解析树节点的信息和子节点。通过Zookeeper的强一致性保证解析树状态更新同步正确。日志流应用于Spark流数据处理框架,在线处理数据,并实时更新基于Zookeeper的关键词提取模型。针对提出的关键词数据流,基于Spark框架和LSTM模型实现关键词序列的异常检测和在线预警。基于K-prototype的方法检测每个用户会话中是否存在异常行为。处理审计日志、登录日志、软件安装日志和网络日志,提取用户会话特征,离线训练并检测各个用户会话的是否存在异常状态。
本发明实现了不依赖安全专家知识,实现日志异常检测。综合利用在线处理和离线处理的优势,将在线预警和离线检测方式相结合,应用前沿的科技成果,实现基于关键词序列挖掘的用户异常检测的日志分析系统。相对于传统日志分析系统的异常检测服务,降低安全知识依赖和人力成本。
附图说明
图1为本发明的整体框架图;
图2为采集层网络环境图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提出一种基于关键词序列挖掘的用户异常检测的日志分析系统,所述系统包括数据采集层、流处理层、离线处理层和展示层。
如图2所示为采集层中采用Logstash+Elasticsearch架构,配置局域网环境下的目标主机记录用户会话信息、配置Auditd审计规则监控用户执行的系统调用和其它Syslog信息。根据业务和功能需求,划分局域网内为多个集群,每个集群的日志收集存储在同一个Elasticsearch索引中便于后续统一处理。每个索引名称格式为[功能集群名称]-yyyy.MM.dd,即以天为单位采集各个集群的日志。每个集群部署一个Logstash节点,各个节点配置rsyslog.conf将audit.log、auth.log、dpkg.log等日志以Syslog格式发送至Logstash节点,Logstash启动syslog插件解析日志存储进Elasticsearch。
流处理层中,服务端根据设定需要监控的功能集群名称,监控各个索引。用户设定时间窗口大小(以分钟为单位),根据时间窗口大小划分一天为若干时间窗口。每个监控集群设定一个任务逐个时间窗口拉取日志发送至分布式消息系统kafka。然后进行在线处理,消费来自kafka的原始日志,提关键词,并对关键词序列做异常检测。
在线处理过程中,给出一批数据实现对数据的划分,同组日志的关键词相同。在训练数据足够覆盖所有状态的情况下,同组的关键词不会因为组内成员变更而变化,呈现稳定状态。针对关键词提取模型定义了训练结果的序列化和反序列化方式,可以从上一次运行状态中直接加载算法的解析树,在线计算日志关键词,并更新隶属于同组的所有日志的关键词。算法基于解析树实现,效率非常高。可以快速实现算法训练、收敛和序列化用于后续计算。此外,系统通过Zookeeper构建解析树结构实现并发提取关键词时,更新解析树保持一致性。
算法计算好日志的关键词后,会传递给序列异常检测模块,预测当前关键词的一个概率分布和实际收到的关键词对比确定是否存在异常,从而实现日志预警。所述序列异常检测模块为基于神经网路的时间序列预测模型,通过关键词提取和序列异常越策可以挖掘集群的异常状态从而向管理员发出预警。对于字典攻击和DDos攻击检测效果良好。
关键词提取和时间序列预测不依赖安全专家知识,可以实现自动解析日志并做出异常预警。用户在展示层定义监控的索引名称,选择时间窗口大小。选择时间窗口后,每个时间窗口的起始点就固定了。每次至少等待一个时间窗口,再处理之前个时间窗口范围内的日志(例如时间窗口大小是5分钟,启动时间如果是10:03,则首次拉取会等到10:10拉取10:00-10:05的日志)。等待至少一个时间窗口是为了能够给系统一个缓冲时间,同时保证,拉取时时间窗口内的日志是完整的,而不会丢失一些处于边缘的日志。首次启动时,用户需要上传一批正常运行的历史日志(至少一天的数量)供关键词处理模块和异常检测模块训练。
离线处理层主要处理一个完整用户会话期间的所有日志。可能用户的会花时间超过一个时间窗口,因此不能随着日志流实时处理。需要有定时任务在00:00时统计前一天所有日志的行为。从登陆日志从提取会话ID、会话起始时间,从审计日志、网络日志、安装日志中提取用户执行的相关命令。以用户会话为单位提取特征,具体如下表1
表1
Figure BDA0002260604600000051
通过EM聚类算法预测实现类别个数,基于K-prototype实现混合属性聚类。聚类计算后筛选出小数量的明显与大部分(通常超70%)会话状态不同的数据。对于筛选出的可能是异常的状态,采用基于K-NearestNeighbor聚类,衡量根据异常候选点相对于局部和全局的孤立程度,进一步判断真正的异常数据。
通过两阶段聚类的异常检测尽可能减少误报。同时离线处理与在线处理相结合,实现预警和检测的互补。
展示层实现Web前端页面和管理端后台,实现局域网状态仪表盘、日志查询和监控任务配置修改。提供友好操作方便管理人员使用并监控局域网状态。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于关键词序列挖掘的用户异常检测的日志分析系统,其特征在于,所述系统的结构包括采集层、流处理层、离线处理层和展示层,所述采集层采集系统日志信息,所述系统日志信息包括配置局域网环境下的目标主机记录用户会话信息、配置审计规则监控用户执行的系统调用信息;所述流处理层根据时间窗口拉取日志,并对所述采集层采集的系统日志信息进行监控和提取,然后进行异常序列预警;所述离线处理层离线处理当天所有日志,以用户会话为单位,提取每个用户会话的日志特征,通过聚类分析确定异常用户会话;所述展示层实现Web前端页面和管理端后台,实现局域网状态仪表盘、日志查询和监控任务配置修改。
2.如权利要求1所述的系统,其特征在于,所述流处理层所述采集层采集的系统日志信息进行监控和提取的方式为,每个监控集群设定一个任务逐个时间窗口拉取系统日志信息发送至分布式消息系统,然后采用在线处理算法处理分布式消息系统的日志信息,提取其中的关键词,并对所述提取的关键词序列做异常检测。
3.如权利要求2所述的系统,其特征在于,在流处理层中所述在线处理算法基于解析树实现对数据的划分,在所述解析树中同组日志的关键词相同,并设定训练结果的序列化和反序列化方式,从上一次运行状态中直接加载解析树模型在线计算日志关键词,并更新隶属于同组的所有日志的关键词,所述日志关键词被计算出来后传递至序列异常检测模块,预测当前关键词的一个概率分布和实际收到的关键词对比确定是否存在异常,从而实现日志预警。
4.如权利要求3所述的系统,其特征在于,在所述流处理层中,所述解析树结构通过Zookeeper构建。
5.如权利要求3所述的系统,其特征在于,所述异常检测模块通过关键词提取和时间序列预测挖掘集群的异常状态自动解析后向管理员发出预警,具体方式为用户在展示层定义监控的索引名称,选择时间窗口大小,选择时间窗口后,每次至少等待一个时间窗口,再处理之前个时间窗口范围内的日志。
6.如权利要求1所述的系统,其特征在于,所述离线处理层进行离线处理的方式是从处理审计日志、登录日志、软件安装日志和网络日志提取用户会话特征,离线训练并检测各个用户会话的是否存在异常状态。
CN201911069814.XA 2019-11-05 2019-11-05 一种基于关键词序列挖掘的用户异常检测的日志分析系统 Pending CN110879771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911069814.XA CN110879771A (zh) 2019-11-05 2019-11-05 一种基于关键词序列挖掘的用户异常检测的日志分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911069814.XA CN110879771A (zh) 2019-11-05 2019-11-05 一种基于关键词序列挖掘的用户异常检测的日志分析系统

Publications (1)

Publication Number Publication Date
CN110879771A true CN110879771A (zh) 2020-03-13

Family

ID=69728995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911069814.XA Pending CN110879771A (zh) 2019-11-05 2019-11-05 一种基于关键词序列挖掘的用户异常检测的日志分析系统

Country Status (1)

Country Link
CN (1) CN110879771A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581056A (zh) * 2020-05-06 2020-08-25 厦门理工学院 基于人工智能的软件工程数据库维护与预警系统
CN112235638A (zh) * 2020-10-10 2021-01-15 深圳创维-Rgb电子有限公司 异常信息定位方法、系统、服务器及存储介质
CN114172881A (zh) * 2021-11-19 2022-03-11 上海纽盾科技股份有限公司 基于预测的网络安全验证方法、装置及系统
CN117971605A (zh) * 2024-03-29 2024-05-03 天津南大通用数据技术股份有限公司 基于数据库异常的自动化日志信息收集方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100522029B1 (ko) * 2005-07-27 2005-10-18 엔에이치엔(주) 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템
CN105207826A (zh) * 2015-10-26 2015-12-30 南京联成科技发展有限公司 一种基于Tachyou的Spark大数据平台的安全攻击告警定位系统
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
CN109214647A (zh) * 2018-07-24 2019-01-15 焦点科技股份有限公司 一种基于网络访问日志数据的在线访问渠道间的溢出效应分析方法
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100522029B1 (ko) * 2005-07-27 2005-10-18 엔에이치엔(주) 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템
CN105207826A (zh) * 2015-10-26 2015-12-30 南京联成科技发展有限公司 一种基于Tachyou的Spark大数据平台的安全攻击告警定位系统
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
CN109214647A (zh) * 2018-07-24 2019-01-15 焦点科技股份有限公司 一种基于网络访问日志数据的在线访问渠道间的溢出效应分析方法
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581056A (zh) * 2020-05-06 2020-08-25 厦门理工学院 基于人工智能的软件工程数据库维护与预警系统
CN112235638A (zh) * 2020-10-10 2021-01-15 深圳创维-Rgb电子有限公司 异常信息定位方法、系统、服务器及存储介质
CN114172881A (zh) * 2021-11-19 2022-03-11 上海纽盾科技股份有限公司 基于预测的网络安全验证方法、装置及系统
CN114172881B (zh) * 2021-11-19 2023-08-04 上海纽盾科技股份有限公司 基于预测的网络安全验证方法、装置及系统
CN117971605A (zh) * 2024-03-29 2024-05-03 天津南大通用数据技术股份有限公司 基于数据库异常的自动化日志信息收集方法及系统

Similar Documents

Publication Publication Date Title
US10678669B2 (en) Field content based pattern generation for heterogeneous logs
US10977271B2 (en) Adaptive parsing and normalizing of logs at MSSP
US10909241B2 (en) Event anomaly analysis and prediction
CN110879771A (zh) 一种基于关键词序列挖掘的用户异常检测的日志分析系统
EP2487860B1 (en) Method and system for improving security threats detection in communication networks
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
US10915626B2 (en) Graph model for alert interpretation in enterprise security system
US20110314138A1 (en) Method and apparatus for cause analysis configuration change
KR102068622B1 (ko) 이기종 네트워크 보안시스템을 위한 빅데이타 분석기반의 지능형 장애예측 시스템
CN112468347B (zh) 一种云平台的安全管理方法、装置、电子设备及存储介质
US11159564B2 (en) Detecting zero-day attacks with unknown signatures via mining correlation in behavioral change of entities over time
US20200334498A1 (en) User behavior risk analytic system with multiple time intervals and shared data extraction
CN114465874A (zh) 故障预测方法、装置、电子设备与存储介质
CN113986643A (zh) 分析日志文件的方法、电子设备和计算机程序产品
Zhuge et al. Efficient event log mining with LogClusterC
Li et al. Converting unstructured system logs into structured event list for anomaly detection
Laue et al. A SIEM architecture for multidimensional anomaly detection
CN112039907A (zh) 一种基于物联网终端评测平台的自动测试方法及系统
Li et al. Event block identification and analysis for effective anomaly detection to build reliable HPC systems
Naukudkar et al. Enhancing performance of security log analysis using correlation-prediction technique
US20230367668A1 (en) Proactive root cause analysis
Pithode et al. A Study on Log Anomaly Detection using Deep Learning Techniques
Chitnis et al. Finding Needle in a Haystack: An Algorithm for Real-Time Log Anomaly Detection with Real-Time Learning
Zou et al. Research on Situation Awareness of Universities’ Network Information Security in the Big Data Environment
Li et al. Network root fault location based on network topology and alarm

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200313

RJ01 Rejection of invention patent application after publication