CN113722445A

CN113722445A - 一种基于被动流量分析的暴力破解检测方法及系统

Info

Publication number: CN113722445A
Application number: CN202111279377.1A
Authority: CN
Inventors: 燕妮; 韦康; 董玉倩
Original assignee: Jiangsu Kaibo Technology Co ltd
Current assignee: Jiangsu Kaibo Technology Co ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2021-11-30

Abstract

本发明涉及一种基于被动流量分析的暴力破解检测方法及系统，方法包括：获取会话流量数据；专家对会话进行标记；提取会话流量数据特征并预处理；利用特征构建训练决策树模型；利用决策树模型对被动流量暴力破解攻击进行在线检测；通过专家验证在线检测结果更新校正决策树模型。本发明通过离线建立和训练决策树，对后续采集的流量数据进行在线分析，避免了验证用户身份匹配过程耗费的大量时间，提升了检测效率，基于被动流量分析判定，解决了当前主机级别检测过程中，因弱口令达不到登陆次数和尝试时间的预定阈值就被破解而无法被标记为暴力破解的漏报风险，检测结果验证后继续用于更新检测模型，实时有效发现新的暴力破解攻击模式。

Description

一种基于被动流量分析的暴力破解检测方法及系统

技术领域

本发明涉及一种基于被动流量分析的暴力破解检测方法及系统，属于网络安全技术领域。

背景技术

随着计算机互联网技术的发展以及大数据时代的到来，各种数据信息系统的应用也越来也广泛。在当今的互联网环境中，网络攻击已经成为网络安全的关键问题。暴力破解作为计算机网络中最常见的攻击类型之一，受到了广泛关注。

现有对暴力破解检测的研究通常集中在主机级别的检测上。通过检查访问日志，将终端发送的用户名和密码与数据库中预先注册的用户名密码进行匹配，如果在特定时间内失败的登录尝试次数超过预定义的阈值，则认为是暴力破解攻击。

然而，在此过程中，每次验证用户身份都需要花费大量时间将用户名密码和数据量较大的数据库进行匹配，大大降低了效率，并且当存在大量弱口令时，攻击者很容易在特定时间及阈值内就实现爆破攻击，导致大量的漏报问题。

发明内容

为了解决上述技术问题，本发明提供一种基于被动流量分析的暴力破解检测方法及系统，其具体技术方案如下：

一种基于被动流量分析的暴力破解检测方法，包括离线建立检测模型和在线检测暴力破解攻击，具体步骤为：

S1：离线建立检测模型：

S11：以三元组为单位，通过采样获取会话流量数据，每次会话包括多条请求数据包和多条响应数据包，所述三元组为源IP、目的IP和目的端口，所述会话流量数据包括正常流量数据和暴力破解流量数据；

S12：由安全专家将每次会话标记为爆破攻击会话和非爆破攻击会话；

S13：提取会话流量数据中的特征并进行预处理，得到：

a.源端口；

b.与暴力破解关键词字典匹配的请求数据包占比；

c.请求频率；

d.请求数据包大小波动；

e.响应数据包大小波动；

f.会话总时长；

g.初始请求包中的TCP标志位；

所述请求频率为一次会话中请求数据包的数量，所述会话总时长以秒为单位；

S14：利用S13中提取的特征和标记，构建并训练得到二分类决策树模型；

S2：在线检测暴力破解攻击。

进一步的，所述暴力破解关键词字典包含暴力破解请求常见关键词，且该字典在检测过程中不断更新累积。

进一步的，所述暴力破解请求常见关键词包括login，password和passwd。

进一步的，所述与暴力破解关键词字典匹配的请求数据包占比计算方式如下：

对

条请求数据包，遍历每条请求数据包的payload，若该条数据包的payload中包含关键词字典中的一个或多个关键词，则匹配请求数据包数量加1，最后得到

条匹配请求数据包数，则与暴力破解关键词字典匹配的请求数据包占比为：

（1）。

进一步的，所述请求数据包和响应数据包大小波动计算方法如下：

假设有

条请求数据包，l条响应数据包，其字节数分别为

和

，两组数据中位数分别为

和

，则请求数据包大小波动和响应数据包大小波动分别由式（2）和式（3）表示：

（2），

（3）。

进一步的，所述TCP标志位包括FIN，SYN，RST，PSH，ACK和URG，所述TCP标志位通过OneHot编码转换为独热向量进行训练。

进一步的，所述决策树模型为C4.5决策树，并在在线检测数据中提取新的数据进行训练更新。

进一步的，所述在线检测暴力破解攻击的具体步骤为：

S21：以三元组为单位抓取

个连续流量数据包，包括请求数据包和响应数据包；

S22：提取会话流量数据中的特征并进行预处理，所述提取的特征种类与S12相同；

S23：利用离线部分训练好的决策树模型，输入S22 中预处理的特征进行检测；

S24：输出检测结果并对检测到的暴力破解攻击会话进行告警。

进一步的，所述连续流量数据包的定义根据IPFIX标准确定，从接收到流量开始记录，当收到最后一个数据包后30秒内未收到流的数据时，流记录终止，或当流量抓取已达到30分钟时，一个连续流量记录终止并启动新的流量记录。

一种基于被动流量分析的暴力破解检测系统，包括：

流量数据采集模块，用于采集会话流量数据，所述会话包括请求数据包和响应数据包，所述会话流量数据包括正常流量数据和暴力破解流量数据；

暴力破解相关特征提取模块，用于从专家标记的正常流量数据和暴力破解流量数据中提取对应的判定特征；

决策树模型构建训练模块，用于构建和训练检测暴力破解流量数据的决策树模型，利用暴力破解相关特征提取模块中提取的流量数据的判定特征构建决策树模型，并利用流量数据采集模块获取的流量数据进行训练更新；

流量数据检测模块，利用决策树模型构建训练模块训练好的决策树模型对从流量数据采集模块采集传递的会话流量数据进行检测判定。

本发明的有益效果是：本发明通过采集专家标记的暴力破解和非暴力破解流量数据，得到判定暴力破解的流量数据特征，离线建立和训练决策树，并对后续采集的流量数据进行在线分析，避免了验证用户身份匹配过程耗费的大量时间，提升了检测效率，基于被动流量数据进行暴力破解的分析判定，解决了当前主机级别检测过程中，因弱口令达不到登陆次数和尝试时间的预定阈值就被破解而无法被标记为暴力破解的问题，有效降低漏报风险，并在在线检测过程中不断提取累积更新的攻击数据特征，用于更新检测模型，不局限于静态模型，能够不断发现新的暴力破解攻击模式。

附图说明

图1是本发明的实施例的方法流程图，

图2是本发明的系统层级示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图2所示，本发明的基于被动流量分析的暴力破解检测系统，包括流量数据采集模块、暴力破解相关特征提取模块、决策树模型构建训练模块和流量数据检测模块；

如图1所示，本发明的基于被动流量分析的暴力破解检测方法，按以下步骤进行：

S11：以三元组源IP、目的IP和目的端口为单位，通过系统中的流量数据采集模块采样获取会话流量数据，每次会话包括多条请求数据包和多条响应数据包；

S13：提取会话流量数据中的特征并进行预处理，得到：

a.源端口；

b.与暴力破解关键词字典匹配的请求数据包占比；

对

（1）；

c.请求频率，即一次会话中请求数据包的数量；

d.请求数据包大小波动；

e.响应数据包大小波动；

假设有

条请求数据包，l条响应数据包，其字节数分别为

和

，两组数据中位数分别为

和

（2），

（3）；

f.以秒为单位的会话总时长；

g.初始请求包中的TCP标志位；

TCP标志位包括FIN，SYN，RST，PSH，ACK和URG，通过OneHot编码转换为独热向量进行训练；

S14：利用S13中提取的特征和标记，构建并训练得到二分类决策树模型，采用C4.5决策树；

C4.5决策树模型构建的伪代码为：

输入：

样本特征训练集

；

属性集

，在本实施例中只有两个属性，暴力破解攻击和非暴力破解攻击，则属性集可用{1,-1}表示；

过程：函数

1：生成结点node；

2：if D中样本全属于同一类别C then

3：将node标记为C类叶节点；return

4：end if

5：if A= ∅ OR D中样本在A上取值相同 then

6：将node标记叶节点，其类别标记为D中样本数最多的类；return

7：end if

8：从A中选择最优划分属性

；

9：for

的每一个值

do

10：为node生成每一个分支；令

表示D中在上取值为

的样本子集；

11：if

为空 then

12：将分支结点标记为叶节点，其类别标记为D中样本最多的类；return

13：else

14：以

为分支结点；

15：end if

16：end for

输出：以node为根节点的一颗决策树。

在构建决策树的过程中，划分属性结合信息增益和信息增益率来进行判断，假定当前样本集合D中的第k类样本所占比例为

，则D的信息熵定义为

则信息增益为

信息增益率为

其中

称为特征

的固有值，确定划分准则时，先从候选划分特征中找到信息增益高于平均值的特征，再从中选择信息增益率最高的作为划分准则。

S21：以三元组源IP、目的IP和目的端口为单位抓取

个连续流量数据包，包括请求数据包和响应数据包；

S24：输出检测结果并对检测到的暴力破解攻击会话进行告警；

连续流量数据包的定义根据IPFIX标准确定，从接收到流量开始记录，当收到最后一个数据包后30秒内未收到流的数据时，流记录终止，或当流量抓取已达到30分钟时，一个连续流量记录终止并启动新的流量记录。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于被动流量分析的暴力破解检测方法，其特征在于：包括离线建立检测模型和在线检测暴力破解攻击，具体步骤为：

S1：离线建立检测模型：

S13：提取会话流量数据中的特征并进行预处理，得到：

a.源端口；

b.与暴力破解关键词字典匹配的请求数据包占比；

c.请求频率；

d.请求数据包大小波动；

e.响应数据包大小波动；

f.会话总时长；

g.初始请求包中的TCP标志位；

S2：在线检测暴力破解攻击。

2.根据权利要求1所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述暴力破解关键词字典包含暴力破解请求常见关键词，且该字典在检测过程中不断更新累积。

3.根据权利要求2所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述暴力破解请求常见关键词包括login，password和passwd。

4.根据权利要求1所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述与暴力破解关键词字典匹配的请求数据包占比计算方式如下：

对

（1）。

5.根据权利要求1所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述请求数据包和响应数据包大小波动计算方法如下：

假设有条请求数据包，l条响应数据包，其字节数分别为

和

，两组数据中位数分别为和，则请求数据包大小波动和响应数据包大小波动分别由式（2）和式（3）表示：

（2），

（3）。

6.根据权利要求1所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述TCP标志位包括FIN，SYN，RST，PSH，ACK和URG，所述TCP标志位通过OneHot编码转换为独热向量进行训练。

7.根据权利要求1所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述决策树模型为C4.5决策树，在线检测的特征及结果存入数据库，由专家进行验证后，将特征及标记结果加入训练集重新训练，更新决策树模型。

8.根据权利要求1所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述在线检测暴力破解攻击的具体步骤为：

S21：以三元组为单位抓取

个连续流量数据包，包括请求数据包和响应数据包；

9.根据权利要求8所述的基于被动流量分析的暴力破解检测方法，其特征在于：所述连续流量数据包的定义根据IPFIX标准确定，从接收到流量开始记录，当收到最后一个数据包后30秒内未收到流的数据时，流记录终止，或当流量抓取已达到30分钟时，一个连续流量记录终止并启动新的流量记录。

10.一种基于被动流量分析的暴力破解检测系统，其特征在于：所述系统包括：