CN115834156A - 一种基于web访问日志的异常行为检测方法 - Google Patents
一种基于web访问日志的异常行为检测方法 Download PDFInfo
- Publication number
- CN115834156A CN115834156A CN202211384969.4A CN202211384969A CN115834156A CN 115834156 A CN115834156 A CN 115834156A CN 202211384969 A CN202211384969 A CN 202211384969A CN 115834156 A CN115834156 A CN 115834156A
- Authority
- CN
- China
- Prior art keywords
- behavior
- probability
- user
- calculating
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于web访问日志的异常行为检测方法,包括数据预处理,特征提取,初始概率提取,状态转移概率计算,窗口概率,模型保存与加载,阈值计算和异常判定。采用上述技术方案,提供了一种高效的,通用的特征提取和行为序列检测方法,支持不同异常行为类型的检测,能有效降低误报率和漏报率,具备很高的泛化能力。
Description
技术领域
本发明涉及日志异常行为检测技术领域,特别是一种基于web访问日志的异常行为检测方法。
背景技术
一、该领域目前存在如下方案:
1.基于统计学的异常行为检测。对指标数据进行数理统计,设定指标阈值,结合数据分布分析出异常行为。
2.误用检测方法。对已知的异常行为进行建模,形成规则库,将各种已知的行为进行模式匹配检测,匹配上即得到异常数据。
现有技术主要包括以下方案:
1.基于统计学的异常行为检测,通过使用特征字符匹配等技术从原始数据中提取特征参数,基于特征对访问频率统计分析,通过将统计结果和阈值进行比较,对异常数据进行检测。
2.误用检测方法,基于异常行为库,进行模式匹配。假设所有的异常行为都具有一定的模式或特征,把以往发现的所有异常行为的特征总结出来并建立一个规则库,然后将搜集到的信息与已知的异常行为和系统误用模式数据库进行比较,即可发现未知的异常行为。
上述现有技术存在以下缺点,
(1)基于统计学习的异常行为检测效率低下,检测模型描述能力不足,很难对各种类型的异常行为进行有效检测。
(2)基于规则库的异常行为检测存在规则库难以管理、需要经常更新规则库的缺点。此外,统计模型难以充分提取用户行为中重要特征等问题,导致误报率和漏报率高、泛化能力差、检测速度慢等。
基于上述情况,一种基于web访问日志的异常行为检测方法成为整个社会亟待解决的技术问题。
发明内容
鉴于此,本发明提出了一种基于web访问日志的异常行为检测方法,包括以下处理步骤,
(1)数据预处理,从web访问日志的非结构化数据中提取用户行为数据,首先提取用户唯一标识id,源ip,目标ip,目标url,访问时间,访问状态码;将结构化的日志访问信息进行可持久化操作,所述用户行为是指用户访问不同的目标ip的url;
(2)特征提取,按用户维度进行数据的特征提取,提取关键指标,该指标是指提取成每个用户每天通过目标url访问目标ip的次数;
(3)初始概率计算,初始概率是指不同行为的出现频次与所有行为出现的频次的比率;
(4)状态转移概率,不同状态之间发生改变的概率叫转移概率,根据状态转移的过程计算转移概率矩阵。假设用户访问行为服从马尔科夫性,行为的下一个状态的概率分布只能由前一个状态决定,在时间序列中它前面的事件均与之无关。首先计算出时间序列上的状态对(前后两个状态),根据状态对出现的频次统计,计算状态转移的概率值;
(5)窗口概率,设定单位窗口的长度为一个常量值,根据单位窗口的长度计算初始概率,转移概率之和,得到窗口概率;
(6)模型保存与加载,模型保存与加载是指对行为的初始概率计算结果和转移概率矩阵保存成参数存入二进制文件中,保存成模型,模型检测时,对该模型文件进行读取加载,得到模型的完整参数,对待检测的web行为数据进行检测;
(7)阈值计算,根据状态值的统计分布,计算状态值位于3sigma临界点的数值;
(8)异常判定,对用户的行为检测时,先计算行为的窗口概率值,与阈值进行比较,超过阈值的行为判定为异常行为。
进一步地,还包括基础数据,web访问日志的源数据,需要包含用户的关键信息,包括用户唯一标识id,源ip,目标ip,目标url,访问时间,访问状态码。
采用上述技术方案,具有如下有益效果:
本发明采用上述技术方案,提供了一种高效的,通用的特征提取和行为序列检测方法,支持不同异常行为类型的检测,能有效降低误报率和漏报率,具备很高的泛化能力。
附图说明
图1是本发明的模块示意图。
具体实施方式
下面对本发明作进一步的说明。
一种基于web访问日志的异常行为检测方法,包括以下处理步骤,
(1)数据预处理,从web访问日志的非结构化数据中提取用户行为数据,首先提取用户唯一标识id,源ip,目标ip,目标url,访问时间,访问状态码;将结构化的日志访问信息进行可持久化操作,所述用户行为是指用户访问不同的目标ip的url;
(2)特征提取,按用户维度进行数据的特征提取,提取关键指标,该指标是指提取成每个用户每天通过目标url访问目标ip的次数;
(3)初始概率计算,初始概率是指不同行为的出现频次与所有行为出现的频次的比率;
(4)状态转移概率,不同状态之间发生改变的概率叫转移概率,根据状态转移的过程计算转移概率矩阵。假设用户访问行为服从马尔科夫性,行为的下一个状态的概率分布只能由前一个状态决定,在时间序列中它前面的事件均与之无关。首先计算出时间序列上的状态对(前后两个状态),根据状态对出现的频次统计,计算状态转移的概率值;
(5)窗口概率,设定单位窗口的长度为一个常量值,根据单位窗口的长度计算初始概率,转移概率之和,得到窗口概率;
(6)模型保存与加载,模型保存与加载是指对行为的初始概率计算结果和转移概率矩阵保存成参数存入二进制文件中,保存成模型,模型检测时,对该模型文件进行读取加载,得到模型的完整参数,对待检测的web行为数据进行检测;
(7)阈值计算,根据状态值的统计分布,计算状态值位于3sigma临界点的数值;
(8)异常判定,对用户的行为检测时,先计算行为的窗口概率值,与阈值进行比较,超过阈值的行为判定为异常行为。
作为本发明的进一步阐述,还包括基础数据,web访问日志的源数据,需要包含用户的关键信息,包括用户唯一标识id,源ip,目标ip,目标url,访问时间,访问状态码。
本发明的具体实施方式如下;
1)数据预处理;
数据预处理包括数据的结构化整理和特征提取。首先从web访问日志的非结构化数据中提取关键信息,经过数据清洗后转换成结构化数据持久化存入MongoDB数据库。然后进行数据清洗,包括对噪声数据去噪,重复数据去重,空缺值填充。最后进行特征提取,对上述步骤所得的关键信息进行特征相关性分析,提取相关性强的特征。
2)窗口概率矩阵计算;
窗口概率矩阵计算首先初始概率的计算和转移概率的计算,然后统计窗口内的所有概率之和。
初始概率计算:统计用户web行为出现的频数,与总的行为频数的比率,得到不同行为出现的初始概率值。
转移概率计算:根据单位窗口将行为进行等长距离的窗口切分,对滑动窗口内的行为计算其初始概率值,和行为转移概率值,将计算完的参数结果保存在算法模型中;
3)阈值计算;
统计所有窗口概率的分布情况,根据3sigma原则计算并得到阈值点。
4)模型保存:
将初始概率参数,转移概率参数,阈值等参数保存成二进制numpy文本。
5)行为检测;
加载已经训练好的行为序列算法模型,对web行为数据按单位窗口大小切分,对每个窗口的概率值进行统计,将其与阈值进行比对。
以上描述了本发明的基本原理和主要特征,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (2)
1.一种基于web访问日志的异常行为检测方法,其特征在于,包括以下处理步骤,
(1)数据预处理,从web访问日志的非结构化数据中提取用户行为数据,首先提取用户唯一标识id,源ip,目标ip,目标url,访问时间,访问状态码;将结构化的日志访问信息进行可持久化操作,所述用户行为是指用户访问不同的目标ip的url;
(2)特征提取,按用户维度进行数据的特征提取,提取关键指标,该指标是指提取成每个用户每天通过目标url访问目标ip的次数;
(3)初始概率计算,初始概率是指不同行为的出现频次与所有行为出现的频次的比率;
(4)状态转移概率,不同状态之间发生改变的概率叫转移概率,根据状态转移的过程计算转移概率矩阵。假设用户访问行为服从马尔科夫性,行为的下一个状态的概率分布只能由前一个状态决定,在时间序列中它前面的事件均与之无关。首先计算出时间序列上的状态对(前后两个状态),根据状态对出现的频次统计,计算状态转移的概率值;
(5)窗口概率,设定单位窗口的长度为一个常量值,根据单位窗口的长度计算初始概率,转移概率之和,得到窗口概率;
(6)模型保存与加载,模型保存与加载是指对行为的初始概率计算结果和转移概率矩阵保存成参数存入二进制文件中,保存成模型,模型检测时,对该模型文件进行读取加载,得到模型的完整参数,对待检测的web行为数据进行检测;
(7)阈值计算,根据状态值的统计分布,计算状态值位于3sigma临界点的数值;
(8)异常判定,对用户的行为检测时,先计算行为的窗口概率值,与阈值进行比较,超过阈值的行为判定为异常行为。
2.根据权利要求1所述的一种基于web访问日志的异常行为检测方法,其特征在于,还包括基础数据,web访问日志的源数据,需要包含用户的关键信息,包括用户唯一标识id,源ip,目标ip,目标url,访问时间,访问状态码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211384969.4A CN115834156A (zh) | 2022-11-07 | 2022-11-07 | 一种基于web访问日志的异常行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211384969.4A CN115834156A (zh) | 2022-11-07 | 2022-11-07 | 一种基于web访问日志的异常行为检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115834156A true CN115834156A (zh) | 2023-03-21 |
Family
ID=85526874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211384969.4A Pending CN115834156A (zh) | 2022-11-07 | 2022-11-07 | 一种基于web访问日志的异常行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115834156A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116599861A (zh) * | 2023-07-18 | 2023-08-15 | 海马云(天津)信息技术有限公司 | 检测云服务异常的方法、服务器设备和存储介质 |
-
2022
- 2022-11-07 CN CN202211384969.4A patent/CN115834156A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116599861A (zh) * | 2023-07-18 | 2023-08-15 | 海马云(天津)信息技术有限公司 | 检测云服务异常的方法、服务器设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107294993B (zh) | 一种基于集成学习的web异常流量监测方法 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN112738088B (zh) | 一种基于无监督算法的行为序列异常检测方法及系统 | |
CN112732655B (zh) | 针对无格式日志的在线解析方法及系统 | |
CN116150191A (zh) | 一种用于云端数据架构的数据运算加速方法及系统 | |
CN115834156A (zh) | 一种基于web访问日志的异常行为检测方法 | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN112069307A (zh) | 一种法律法条引用信息抽取系统 | |
CN116865994A (zh) | 一种基于大数据的网络数据安全预测方法 | |
CN116610821B (zh) | 一种基于知识图谱的企业风险分析方法、系统和存储介质 | |
CN105808602B (zh) | 一种垃圾信息的检测方法及装置 | |
CN116662671B (zh) | 一种基于用户偏好的数字图书馆数据推送方法 | |
CN116781330A (zh) | 一种改进型贝叶斯理论的sql注入检测方法和电子设备 | |
CN109739840A (zh) | 数据空值处理方法、装置及终端设备 | |
CN114969738A (zh) | 一种接口异常行为监测方法、系统、装置及存储介质 | |
CN111651987B (zh) | 身份判别方法及装置、计算机可读存储介质、电子设备 | |
CN114827043A (zh) | 基于指纹动态更新及关键报文识别的流量特征匹配方法 | |
CN114528909A (zh) | 一种基于流量日志特征提取的无监督异常检测方法 | |
CN113691525A (zh) | 一种流量数据处理方法、装置、设备及存储介质 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN112270183A (zh) | 一种基于文本的新闻传播效果监测系统 | |
CN111833174A (zh) | 一种基于lof算法的互联网金融申请反欺诈识别方法 | |
CN113094703B (zh) | 针对web入侵检测的输出内容过滤方法及系统 | |
CN113449112A (zh) | 异常寄递行为识别方法、装置、计算机设备及存储介质 | |
CN117540038B (zh) | 智能检测虚假数据合成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |