CN113722445A - 一种基于被动流量分析的暴力破解检测方法及系统 - Google Patents
一种基于被动流量分析的暴力破解检测方法及系统 Download PDFInfo
- Publication number
- CN113722445A CN113722445A CN202111279377.1A CN202111279377A CN113722445A CN 113722445 A CN113722445 A CN 113722445A CN 202111279377 A CN202111279377 A CN 202111279377A CN 113722445 A CN113722445 A CN 113722445A
- Authority
- CN
- China
- Prior art keywords
- brute force
- flow
- flow data
- decision tree
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于被动流量分析的暴力破解检测方法及系统,方法包括:获取会话流量数据;专家对会话进行标记;提取会话流量数据特征并预处理;利用特征构建训练决策树模型;利用决策树模型对被动流量暴力破解攻击进行在线检测;通过专家验证在线检测结果更新校正决策树模型。本发明通过离线建立和训练决策树,对后续采集的流量数据进行在线分析,避免了验证用户身份匹配过程耗费的大量时间,提升了检测效率,基于被动流量分析判定,解决了当前主机级别检测过程中,因弱口令达不到登陆次数和尝试时间的预定阈值就被破解而无法被标记为暴力破解的漏报风险,检测结果验证后继续用于更新检测模型,实时有效发现新的暴力破解攻击模式。
Description
技术领域
本发明涉及一种基于被动流量分析的暴力破解检测方法及系统,属于网络安全技术领域。
背景技术
随着计算机互联网技术的发展以及大数据时代的到来,各种数据信息系统的应用也越来也广泛。在当今的互联网环境中,网络攻击已经成为网络安全的关键问题。暴力破解作为计算机网络中最常见的攻击类型之一,受到了广泛关注。
现有对暴力破解检测的研究通常集中在主机级别的检测上。通过检查访问日志,将终端发送的用户名和密码与数据库中预先注册的用户名密码进行匹配,如果在特定时间内失败的登录尝试次数超过预定义的阈值,则认为是暴力破解攻击。
然而,在此过程中,每次验证用户身份都需要花费大量时间将用户名密码和数据量较大的数据库进行匹配,大大降低了效率,并且当存在大量弱口令时,攻击者很容易在特定时间及阈值内就实现爆破攻击,导致大量的漏报问题。
发明内容
为了解决上述技术问题,本发明提供一种基于被动流量分析的暴力破解检测方法及系统,其具体技术方案如下:
一种基于被动流量分析的暴力破解检测方法,包括离线建立检测模型和在线检测暴力破解攻击,具体步骤为:
S1:离线建立检测模型:
S11:以三元组为单位,通过采样获取会话流量数据,每次会话包括多条请求数据包和多条响应数据包,所述三元组为源IP、目的IP和目的端口,所述会话流量数据包括正常流量数据和暴力破解流量数据;
S12:由安全专家将每次会话标记为爆破攻击会话和非爆破攻击会话;
S13:提取会话流量数据中的特征并进行预处理,得到:
a.源端口;
b.与暴力破解关键词字典匹配的请求数据包占比;
c.请求频率;
d.请求数据包大小波动;
e.响应数据包大小波动;
f.会话总时长;
g.初始请求包中的TCP标志位;
所述请求频率为一次会话中请求数据包的数量,所述会话总时长以秒为单位;
S14:利用S13中提取的特征和标记,构建并训练得到二分类决策树模型;
S2:在线检测暴力破解攻击。
进一步的,所述暴力破解关键词字典包含暴力破解请求常见关键词,且该字典在检测过程中不断更新累积。
进一步的,所述暴力破解请求常见关键词包括login,password和passwd。
进一步的,所述与暴力破解关键词字典匹配的请求数据包占比计算方式如下:
对条请求数据包,遍历每条请求数据包的payload,若该条数据包的payload中包含关键词字典中的一个或多个关键词,则匹配请求数据包数量加1,最后得到条匹配请求数据包数,则与暴力破解关键词字典匹配的请求数据包占比为:
进一步的,所述请求数据包和响应数据包大小波动计算方法如下:
进一步的,所述TCP标志位包括FIN,SYN,RST,PSH,ACK和URG,所述TCP标志位通过OneHot编码转换为独热向量进行训练。
进一步的,所述决策树模型为C4.5决策树,并在在线检测数据中提取新的数据进行训练更新。
进一步的,所述在线检测暴力破解攻击的具体步骤为:
S22:提取会话流量数据中的特征并进行预处理,所述提取的特征种类与S12相同;
S23:利用离线部分训练好的决策树模型,输入S22 中预处理的特征进行检测;
S24:输出检测结果并对检测到的暴力破解攻击会话进行告警。
进一步的,所述连续流量数据包的定义根据IPFIX标准确定,从接收到流量开始记录,当收到最后一个数据包后30秒内未收到流的数据时,流记录终止,或当流量抓取已达到30分钟时,一个连续流量记录终止并启动新的流量记录。
一种基于被动流量分析的暴力破解检测系统,包括:
流量数据采集模块,用于采集会话流量数据,所述会话包括请求数据包和响应数据包,所述会话流量数据包括正常流量数据和暴力破解流量数据;
暴力破解相关特征提取模块,用于从专家标记的正常流量数据和暴力破解流量数据中提取对应的判定特征;
决策树模型构建训练模块,用于构建和训练检测暴力破解流量数据的决策树模型,利用暴力破解相关特征提取模块中提取的流量数据的判定特征构建决策树模型,并利用流量数据采集模块获取的流量数据进行训练更新;
流量数据检测模块,利用决策树模型构建训练模块训练好的决策树模型对从流量数据采集模块采集传递的会话流量数据进行检测判定。
本发明的有益效果是:本发明通过采集专家标记的暴力破解和非暴力破解流量数据,得到判定暴力破解的流量数据特征,离线建立和训练决策树,并对后续采集的流量数据进行在线分析,避免了验证用户身份匹配过程耗费的大量时间,提升了检测效率,基于被动流量数据进行暴力破解的分析判定,解决了当前主机级别检测过程中,因弱口令达不到登陆次数和尝试时间的预定阈值就被破解而无法被标记为暴力破解的问题,有效降低漏报风险,并在在线检测过程中不断提取累积更新的攻击数据特征,用于更新检测模型,不局限于静态模型,能够不断发现新的暴力破解攻击模式。
附图说明
图1是本发明的实施例的方法流程图,
图2是本发明的系统层级示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图2所示,本发明的基于被动流量分析的暴力破解检测系统,包括流量数据采集模块、暴力破解相关特征提取模块、决策树模型构建训练模块和流量数据检测模块;
流量数据采集模块,用于采集会话流量数据,所述会话包括请求数据包和响应数据包,所述会话流量数据包括正常流量数据和暴力破解流量数据;
暴力破解相关特征提取模块,用于从专家标记的正常流量数据和暴力破解流量数据中提取对应的判定特征;
决策树模型构建训练模块,用于构建和训练检测暴力破解流量数据的决策树模型,利用暴力破解相关特征提取模块中提取的流量数据的判定特征构建决策树模型,并利用流量数据采集模块获取的流量数据进行训练更新;
流量数据检测模块,利用决策树模型构建训练模块训练好的决策树模型对从流量数据采集模块采集传递的会话流量数据进行检测判定。
如图1所示,本发明的基于被动流量分析的暴力破解检测方法,按以下步骤进行:
S11:以三元组源IP、目的IP和目的端口为单位,通过系统中的流量数据采集模块采样获取会话流量数据,每次会话包括多条请求数据包和多条响应数据包;
S12:由安全专家将每次会话标记为爆破攻击会话和非爆破攻击会话;
S13:提取会话流量数据中的特征并进行预处理,得到:
a.源端口;
b.与暴力破解关键词字典匹配的请求数据包占比;
对条请求数据包,遍历每条请求数据包的payload,若该条数据包的payload中包含关键词字典中的一个或多个关键词,则匹配请求数据包数量加1,最后得到条匹配请求数据包数,则与暴力破解关键词字典匹配的请求数据包占比为:
c.请求频率,即一次会话中请求数据包的数量;
d.请求数据包大小波动;
e.响应数据包大小波动;
f.以秒为单位的会话总时长;
g.初始请求包中的TCP标志位;
TCP标志位包括FIN,SYN,RST,PSH,ACK和URG,通过OneHot编码转换为独热向量进行训练;
S14:利用S13中提取的特征和标记,构建并训练得到二分类决策树模型,采用C4.5决策树;
C4.5决策树模型构建的伪代码为:
输入:
1:生成结点node;
2:if D中样本全属于同一类别C then
3:将node标记为C类叶节点;return
4:end if
5:if A= ∅ OR D中样本在A上取值相同 then
6:将node标记叶节点,其类别标记为D中样本数最多的类;return
7:end if
12:将分支结点标记为叶节点,其类别标记为D中样本最多的类;return
13:else
15:end if
16:end for
输出:以node为根节点的一颗决策树。
则信息增益为
信息增益率为
其中
S22:提取会话流量数据中的特征并进行预处理,所述提取的特征种类与S12相同;
S23:利用离线部分训练好的决策树模型,输入S22 中预处理的特征进行检测;
S24:输出检测结果并对检测到的暴力破解攻击会话进行告警;
连续流量数据包的定义根据IPFIX标准确定,从接收到流量开始记录,当收到最后一个数据包后30秒内未收到流的数据时,流记录终止,或当流量抓取已达到30分钟时,一个连续流量记录终止并启动新的流量记录。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (10)
1.一种基于被动流量分析的暴力破解检测方法,其特征在于:包括离线建立检测模型和在线检测暴力破解攻击,具体步骤为:
S1:离线建立检测模型:
S11:以三元组为单位,通过采样获取会话流量数据,每次会话包括多条请求数据包和多条响应数据包,所述三元组为源IP、目的IP和目的端口,所述会话流量数据包括正常流量数据和暴力破解流量数据;
S12:由安全专家将每次会话标记为爆破攻击会话和非爆破攻击会话;
S13:提取会话流量数据中的特征并进行预处理,得到:
a.源端口;
b.与暴力破解关键词字典匹配的请求数据包占比;
c.请求频率;
d.请求数据包大小波动;
e.响应数据包大小波动;
f.会话总时长;
g.初始请求包中的TCP标志位;
所述请求频率为一次会话中请求数据包的数量,所述会话总时长以秒为单位;
S14:利用S13中提取的特征和标记,构建并训练得到二分类决策树模型;
S2:在线检测暴力破解攻击。
2.根据权利要求1所述的基于被动流量分析的暴力破解检测方法,其特征在于:所述暴力破解关键词字典包含暴力破解请求常见关键词,且该字典在检测过程中不断更新累积。
3.根据权利要求2所述的基于被动流量分析的暴力破解检测方法,其特征在于:所述暴力破解请求常见关键词包括login,password和passwd。
6.根据权利要求1所述的基于被动流量分析的暴力破解检测方法,其特征在于:所述TCP标志位包括FIN,SYN,RST,PSH,ACK和URG,所述TCP标志位通过OneHot编码转换为独热向量进行训练。
7.根据权利要求1所述的基于被动流量分析的暴力破解检测方法,其特征在于:所述决策树模型为C4.5决策树,在线检测的特征及结果存入数据库,由专家进行验证后,将特征及标记结果加入训练集重新训练,更新决策树模型。
9.根据权利要求8所述的基于被动流量分析的暴力破解检测方法,其特征在于:所述连续流量数据包的定义根据IPFIX标准确定,从接收到流量开始记录,当收到最后一个数据包后30秒内未收到流的数据时,流记录终止,或当流量抓取已达到30分钟时,一个连续流量记录终止并启动新的流量记录。
10.一种基于被动流量分析的暴力破解检测系统,其特征在于:所述系统包括:
流量数据采集模块,用于采集会话流量数据,所述会话包括请求数据包和响应数据包,所述会话流量数据包括正常流量数据和暴力破解流量数据;
暴力破解相关特征提取模块,用于从专家标记的正常流量数据和暴力破解流量数据中提取对应的判定特征;
决策树模型构建训练模块,用于构建和训练检测暴力破解流量数据的决策树模型,利用暴力破解相关特征提取模块中提取的流量数据的判定特征构建决策树模型,并利用流量数据采集模块获取的流量数据进行训练更新;
流量数据检测模块,利用决策树模型构建训练模块训练好的决策树模型对从流量数据采集模块采集传递的会话流量数据进行检测判定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279377.1A CN113722445A (zh) | 2021-11-01 | 2021-11-01 | 一种基于被动流量分析的暴力破解检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279377.1A CN113722445A (zh) | 2021-11-01 | 2021-11-01 | 一种基于被动流量分析的暴力破解检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113722445A true CN113722445A (zh) | 2021-11-30 |
Family
ID=78686232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111279377.1A Pending CN113722445A (zh) | 2021-11-01 | 2021-11-01 | 一种基于被动流量分析的暴力破解检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722445A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114172723A (zh) * | 2021-12-07 | 2022-03-11 | 北京天融信网络安全技术有限公司 | 一种暴力破解检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635564A (zh) * | 2018-12-07 | 2019-04-16 | 深圳市联软科技股份有限公司 | 一种检测暴力破解行为的方法、装置、介质及设备 |
CN109831428A (zh) * | 2019-01-29 | 2019-05-31 | 内蒙古大学 | Sdn网络攻击检测及防御的方法和装置 |
US10341391B1 (en) * | 2016-05-16 | 2019-07-02 | EMC IP Holding Company LLC | Network session based user behavior pattern analysis and associated anomaly detection and verification |
CN110691073A (zh) * | 2019-09-19 | 2020-01-14 | 中国电子科技网络信息安全有限公司 | 一种基于随机森林的工控网络暴力破解流量检测方法 |
-
2021
- 2021-11-01 CN CN202111279377.1A patent/CN113722445A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10341391B1 (en) * | 2016-05-16 | 2019-07-02 | EMC IP Holding Company LLC | Network session based user behavior pattern analysis and associated anomaly detection and verification |
CN109635564A (zh) * | 2018-12-07 | 2019-04-16 | 深圳市联软科技股份有限公司 | 一种检测暴力破解行为的方法、装置、介质及设备 |
CN109831428A (zh) * | 2019-01-29 | 2019-05-31 | 内蒙古大学 | Sdn网络攻击检测及防御的方法和装置 |
CN110691073A (zh) * | 2019-09-19 | 2020-01-14 | 中国电子科技网络信息安全有限公司 | 一种基于随机森林的工控网络暴力破解流量检测方法 |
Non-Patent Citations (1)
Title |
---|
许鸿坡 等: "《基于决策树的远程控制协议字典攻击检测》", 《计算机技术与发展》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114172723A (zh) * | 2021-12-07 | 2022-03-11 | 北京天融信网络安全技术有限公司 | 一种暴力破解检测方法及装置 |
CN114172723B (zh) * | 2021-12-07 | 2023-07-18 | 北京天融信网络安全技术有限公司 | 一种暴力破解检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111277570A (zh) | 数据的安全监测方法和装置、电子设备、可读介质 | |
CN112738039B (zh) | 一种基于流量行为的恶意加密流量检测方法、系统及设备 | |
CN108282497B (zh) | 针对SDN控制平面的DDoS攻击检测方法 | |
EP2661049B1 (en) | System and method for malware detection | |
CN101686239B (zh) | 一种木马发现系统 | |
CN110958233B (zh) | 一种基于深度学习的加密型恶意流量检测系统和方法 | |
US20080263661A1 (en) | Detecting anomalies in signaling flows | |
CN107370752B (zh) | 一种高效的远控木马检测方法 | |
WO2011050545A1 (zh) | 一种未知应用层协议自动分析方法 | |
CN110611640A (zh) | 一种基于随机森林的dns协议隐蔽通道检测方法 | |
Letteri et al. | Feature selection strategies for http botnet traffic detection | |
CN110868404B (zh) | 一种基于tcp/ip指纹的工控设备自动识别方法 | |
RU2768567C1 (ru) | Способ и система предотвращения вредоносных автоматизированных атак | |
US20240064107A1 (en) | System for classifying encrypted traffic based on data packet | |
CN113079150B (zh) | 一种电力终端设备入侵检测方法 | |
CN111147394A (zh) | 一种远程桌面协议流量行为的多级分类检测方法 | |
CN114866485A (zh) | 一种基于聚合熵的网络流量分类方法及分类系统 | |
CN112003869A (zh) | 一种基于流量的漏洞识别方法 | |
CN105959321A (zh) | 网络远程主机操作系统被动识别方法及装置 | |
CN111835681A (zh) | 一种大规模流量异常主机检测方法和装置 | |
CN102801719B (zh) | 基于主机流量功率谱相似性度量的僵尸网络检测方法 | |
CN113938312B (zh) | 一种暴力破解流量的检测方法及装置 | |
CN113722445A (zh) | 一种基于被动流量分析的暴力破解检测方法及系统 | |
CN110290188B (zh) | 一种适用于大规模网络环境的https流服务在线标识方法 | |
CN111182002A (zh) | 基于http首个问答包聚类分析的僵尸网络检测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211130 |