CN109120592A

CN109120592A - 一种基于用户行为的Web异常检测系统

Info

Publication number: CN109120592A
Application number: CN201810744374.2A
Authority: CN
Inventors: 方勇; 黄诚; 刘亮; 宋创创; 杨悦
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2019-01-01

Abstract

本发明设计了一套基于用户行为的Web异常检测系统。此系统根据用户请求行为进行请求异常的检测，根据用户浏览行为进行用户身份异常的检测。对于请求异常的检测，在分析异常用户在入侵网站过程中产生的异常行为的基础上，将基于时间窗的请求速率突变异常检测算法与改进的HsMM算法结合后的RC‑HsMM（Rate Control‑HsMM，RC‑HsMM）算法用于用户请求异常检测。对于用户身份异常的检测，根据用户的浏览行为习惯和会话中的行为习惯，使用嵌套One‑class SVM算法来进行用户身份异常检测。

Description

一种基于用户行为的Web异常检测系统

技术领域

本发明属于信息安全领域。针对网站应用入侵异常和用户身份异常的检测问题，常规的入侵检测与安全防护技术已经不能满足现有的安全需求，设计了一种基于用户行为的Web异常检测模型。

背景技术

目前的网络入侵检测与防御设备如防火墙、IPS、IDS等大都使用的是基于规则的方式进行入侵检测和攻击防御的。但是随着网络技术的不断发展，攻击手段不断革新，当出现新的攻击方法时，基于规则的入侵检测系统无法及时更新检测规则，同时网络设备漏洞也不断出现，导致这些网络安全设备在进行入侵检测与防御时表现乏力，互联网攻击事件层出不穷。

近年来，通过对网络用户的行为进行分析来检测用户和其行为是否异常的方法逐渐成为了网络入侵防御方面的研究热点。网络入侵是异常行为的一种，通过对网络用户的行为进行分析并及时发现用户的异常之处对系统安全防御具有重要的意义。

网络用户在访问网站应用时有一定的规律和一些固有的行为模式，当用户的行为与正常规律和固有行为模式出现较大的差异时，可以认为该用户或其行为是异常的。当异常行为与某些入侵行为相同或相近时，可以认为该用户是攻击者或者该用户身份被盗用，其行为为攻击行为等。

在用户行为分析方面，国内外研究大部分集中在发现用户的关注点或兴趣点上，用于改善网站布局，使网站对用户更具有吸引力。只有很少一部分将用户行为分析应用于安全接入检测或拒绝服务攻击（DoS）检测中。

在众多的检测方法中，基于无监督机器学习的用户行为分析可以在海量的无标记的行为数据中发现异常行为。有效避免了其他方法需要大量标记样本的问题，同时也解决了基于规则的攻击检测系统无法发现新出现攻击的不足。

综上所述，本发明根据用户的请求行为与浏览网站行为来检测未知的行为异常和用户身份异常的研究，对检测网络入侵检测具有很大的实用价值和研究意义。

用户及其行为异常包括：网络请求速率异常、网站访问行为模式异常、网站用户身份异常等。

用户及其行为异常的检测，主要需要解决的难题在于。

（1）如何定义用户身份及其行为异常。

（2）如何发现用户未知行为异常。

（3）如何判定用户身份是否盗用。

（4）如何有效避免大量标记样本进行异常检测。

本系统重点对于以上四个问题进行解决，实现一个基于用户行为的Web异常检测系统。

发明内容

该发明根据用户请求行为进行请求异常的检测，根据用户浏览行为进行用户身份异常的检测，通过对用户及其行为进行检测，标记异常用户以便长期观察。

该发明旨在实现如下目标。

（1）透明性。使用JavaScript脚本收集用户浏览行为数据时，不影响网站性能和用户体验。

（2）实时性。检测系统可以实时的检测用户及其行为是否异常且出现异常可以实时告警。

（3）通用性。检测系统适用于Web通用入侵异常和用户身份异常的检测，并具有一定的发现未知异常的能力。

（4）稳定性。当负载较大时，检测系统可以自适应调控系统输入防止系统崩溃。

为实现上述目的，该发明采用了如下技术方案：系统实现是采用模块化的开发模式，分别设计用户行为数据收集模块、数据预处理模块、用户请求异常检测模块、用户身份异常检测模块和标记告警模块。在云端Web服务器上搭建正常Web服务的同时还部署有模型系统中的数据收集模块，为模型系统提取用户行为数据。数据预处理模块、编码模块以及异常检测和告警模块部署在数据分析服务器上。

数据收集模块分别收集用户请求行为数据和用户浏览行为数据。用户请求行为数据来源于Web应用日志，该部分是由Python编写；用户浏览行为数据来源于用户浏览器记录的行为信息是采用JavaScript脚本进行收集发送到服务器端的。

数据预处理模块是由Python编写的，其主要功能是将采集的数据进行数据清洗、用户识别、会话识别和编码等。

用户请求异常检测模块和用户身份异常检测模块是整个系统的核心模块，其功能是对用户及其行为进行异常检测。在用户请求异常检测模块中，本发明采用提出的速率异常检测与基于HsMM的模式异常检测相结合的RC-HsMM（Rate Control-HsMM，RC-HsMM）异常检测算法进行用户请求异常的检测。在用户身份异常检测模块中，本发明根据用户的浏览行为习惯和会话中的行为习惯，使用嵌套One-class SVM算法来进行用户身份异常检测。

附图说明

图1是本发明的主要系统架构图。

图2是本发明的模型系统部署图。

图3是本发明的用户请求异常检测流程图。

图4是本发明的用户身份异常检测流程图。

具体实施方式

基于用户行为的Web异常检测系统主要由用户行为数据收集模块、数据预处理模块、用户请求异常检测模块、用户身份异常检测模块和标记告警模块组成。

图1所示为系统的整体架构图，详细介绍了上述五个模块的相关设计，并说明了相关模块的工作流程和主要功能。数据收集模块的功能有用户访问数据的收集功能和用户浏览行为数据收集功能。用户访问数据的收集主要在服务器端提取Web应用日志，称为后台用户行为数据收集。用户浏览行为数据收集主要在客户端如浏览器上，使用JavaScript脚本语言进行收集用户浏览网站时的行为数据，称之为前台用户数据收集。

数据预处理模块主要包括数据清洗、用户识别、会话识别以及编码等功能，数据清洗主要清理对于模型无关的请求，如加载的JavaScript、CSS等资源文件以及由于系统错误导致的错误记录等。用户识别主要利用Cookie驻留技术与客户端追踪技术相结合的方法进行用户的区分。会话识别是将用户会话序列根据时间进行片段化。编码主要是将收集来的用户行为数据进行编码处理，处理成适合模型系统输入的格式。

两个异常检测模块主要功能是使用经过训练得到的算法模型进行用户异常行为检测。所以包括两个部分：模型训练部分和异常检测部分。模型训练部分主要是利用正常样本进行模型参数的训练，异常检测部分是使用训练得到的模型进行异常检测。

标记告警模块主要是将具有异常行为或异常身份的用户进行标记和告警，以便长期关注或阻止入侵等后续操作。

图2所示为模型系统的部署图，从系统部署图上来看包含Web用户、云端Web服务器、数据分析服务器等。其中，数据收集模块部署在Web服务器上用于收集用户行为数据并发送给数据分析服务器，数据预处理模块、编码模块以及异常检测和告警模块部署在数据分析服务器上，用于预处理用户行为数据和用户及其行为异常检测以及标记告警等。

图3所示为用户请求行为异常检测的流程图，用户请求序列首先进行速率的异常检测，一旦发现异常即可告警，进行用户标记。之后将通过速率异常检测算法输出的数据输入到基于改进HsMM算法构建的用户访问模式异常检测模块进行用户访问模式异常检测。同样，发现异常即可报警。

图4所示是用户身份异常检测的流程图，用户浏览行为数据集经过预处理后分为两个部分：训练集与测试集，利用用户浏览行为数据中的页面行为数据来训练One-classSVM算法得到页面One-class SVM算法模型，利用该算法模型检测页面行为的异常程度得到页面行为异常度。其次，将页面行为异常度与会话行为数据一起作为会话One-class SVM算法模型的输入，最后通过训练与检测得到最终的用户身份异常检测结果。

本发明的工作工程是：

用户操作访问网站产生的用户行为数据经过数据收集模块抓取后发送到分析服务器上，分析服务器上的数据预处理模块将用户行为数据进行清洗编码后输入到用户请求异常检测模块和用户身份异常检测模块进行异常检测，一旦发现任何异常即可通过告警模块进行标记告警。

其中，对于请求速率异常的检测，本发明提出了基于时间窗内的速率突变情况进行速率异常的检测。而对于HsMM的改进是根据HsMM在实际应用中出现的问题进行改进的，如驻留时间概率分布情况是根据实际用户页面停留时间序列进行离散序列概率分布拟合而来和自适应模型输入序列控制等。对于用户身份异常检测算法的创新在于提出了分层次嵌套One-class SVM异常检测方案。

本发明研究了现有的异常检测方法、用户行为异常的类型以及用户身份识别的相关技术，提出了基于用户行为的Web异常检测技术。根据用户行为的异常类型，使用了请求速率异常检测算法、改进的HsMM算法以及嵌套的One-class SVM算法进行Web用户行为异常的检测。速率异常检测算法与改进的HsMM算法相结合的RC-HsMM用于用户请求异常检测，嵌套One-class SVM算法用于用户身份异常检测。根据之前提出的理论算法基础，构建了一套基于用户行为的Web异常检测模型。

Claims

1.本发明公开了一种基于用户行为的Web异常检测模型，其特征在于以下步骤：

步骤一：将用户操作网站的正常的行为数据经过预处理后分别进行RC-HsMM算法和嵌套One-class SVM算法的训练；

步骤二：待两个检测器构建完成后，分别用户行为对样本进行用户请求行为异常的检测和用户身份异常的检测；

步骤三：将成功检测到的异常用户进行标记并向管理员进行告警处理以便管理员进行长期关注该异常用户。

2.根据权利要求1所述的基于用户行为的Web异常检测模型，其特征在于：提出基于时间窗的请求速率异常检测算法，该算法主要是通过两方面来检测速率异常，一方面是检测请求速率的突变过程，另一方面计算给定时间长度内的实时速率，通过与设定的速率阈值比较来初步确定速率异常请求。

3.根据权利要求1所述的基于用户行为的Web异常检测模型，其特征在于：提取用户请求行为数据，以访问页面作为观察序列，将网站的逻辑功能作为隐含状态，页面真正停留时间作为驻留时间，通过正常的用户请求行为训练无监督RC-HsMM算法用于用户请求异常检测。

4.根据权利要求1所述的基于用户行为的Web异常检测模型，用户无感收集和提取用户浏览行为数据，提出页面停留时间、页面点击次数、页面浏览速率、页面访问重复次数、页面关注点、页面文字选中情况、页面文字复制情况以及键击情况作为页面行为特征，会话访问深度、会话持续时间和会话流量大小作为会话特征，提出了分层次嵌套One-class SVM异常检测模型进行用户身份异常检测。