CN101184097A

CN101184097A - 一种基于流量信息检测蠕虫活动的方法

Info

Publication number: CN101184097A
Application number: CNA2007101795256A
Authority: CN
Inventors: 龚晓锐; 陈昱; 郑礼雄; 朴爱花
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2007-12-14
Filing date: 2007-12-14
Publication date: 2008-05-21

Abstract

本发明涉及一种基于流量信息检测蠕虫活动的方法，属于计算机网络和数据通信技术领域。本方法通过流量信息提取出一些刻画蠕虫活动的特征向量，组成特征向量集，对这些特征向量集通过机器学习得到蠕虫检测分类器，利用蠕虫检测分类器检测实时的流量信息，从中判断蠕虫主机的活动情况。这种方法能够检测出未知蠕虫的活动，判断标准较为全面，并且可以根据实际环境进行调整，较为灵活。

Description

一种基于流量信息检测蠕虫活动的方法

技术领域

本发明涉及一种基于流量信息检测蠕虫活动的方法，属于计算机网络和数据通信技术领域。

背景技术

随着蠕虫传播越来越广，其对网络的危害日益增加，使得对蠕虫的检测工作越来越得到关注。蠕虫的一般传播过程为：1.扫描：由蠕虫的扫描功能模块负责探测存在漏洞的主机。当程序向某个主机发送探测漏洞的信息并收到成功的反馈信息后，就得到一个可传播的对象。2.攻击：攻击模块按漏洞攻击步骤自动攻击步骤1中找到的对象，取得该主机的权限(一般为管理员权限)，获得一个shell。3.复制：复制模块通过原主机和新主机的交互将蠕虫程序复制到新主机并启动。蠕虫传播过程中表现出来的特征主要是往外频繁扫描，具有高发散度性，同时具有很多未完成连接。

传统的蠕虫检测通常使用特征码匹配方法，该方法对已知蠕虫有较好的检测率，然而占用系统资源较多，而且对于未知蠕虫或者蠕虫的变体都无能为力。目前也有一些方法通过统计各个主机的连接数来检测蠕虫，这种方法能够检测未知蠕虫，但判断标准比较单一，具有一定的漏报率和误报率。

发明内容

本发明的目的在于提供一种基于流量信息检测蠕虫活动的方法。根据蠕虫的传播特性，本方法通过既往的流量信息统计出蠕虫详细的活动特征，并使用这些特征检测实时的流量信息，判断蠕虫的活动情况。

本发明提供的技术方案如下：

本发明的基于流量信息检测蠕虫活动的方法的具体步骤如下：

1)采集正常流量日志和有蠕虫活动的流量日志；

2)从流量日志中提取检测蠕虫的特征，至少包含连接的目的IP地址总数目，半开连接数目，总流量，总数据包个数，得到有标定类别的流量日志；

3)利用机器学习算法对上述有标定类别的流量日志进行学习，得到蠕虫检测分类器；

4)将蠕虫检测分类器部署到目的网络，接收网络的流量信息；

5)对目的网络的流量信息提取特征向量，利用蠕虫检测分类器检测目的网络的蠕虫活动。

进一步，上述步骤1)中所述流量日志从同一主机或同一局域网的不同主机或不同局域网的主机采集。

进一步，上述步骤2)中的检测蠕虫的特征包含以下一种或几种：发起连接速率、被发起连接速率、端口号、目的端口号的数值差、连接的目的IP之间的数值差、发送的流量、接收的流量、发送流量和接收流量比率、发送的数据包个数、接收的数据包个数、发送包的平均大小、接收包的平均大小、发送和接收数据包的平均大小。

进一步，上述步骤4)中的目的网络既可以是一个局域网，也可以仅是其中的一个或多个冲突域。

本发明在流量日志信息中提取出一些能很好的刻画蠕虫的活动特征的关键特征，通过机器学习算法对这些流量信息特征进行有监督学习，得到一个蠕虫检测分类器。利用该分类器再对实时流量日志信息进行检测，从中发现蠕虫活动。

本发明能够检测出未知蠕虫的活动，判断标准较为全面，并且可以根据实际环境进行调整，较为灵活。

附图说明

图1本发明方法的流程图；

图2蠕虫检测分类器的逻辑示意图。

具体实施方式

以下参照附图对本发明的基于流量信息检测蠕虫活动的方法进行详细说明，但本发明不局限于下面的实施方式。

本发明方法的流程如图1所示，其工作过程如下：

(1)流量日志采集。

采用防火墙等网关设施采集网络的流量日志信息。该步骤包括两方面的工作，一是采集正常的网络流量日志，二是采集感染蠕虫主机的流量日志(可以人为将主机感染上蠕虫以获得流量日志)。流量日志样例：2007-10-19 00:00:04 Local7.Debug 172.31.4.44 id＝firewall time＝″2007-10-19 00:01:17″fw＝FSG1000-test type＝session_flux pri＝6 duration＝30 proto＝17 src＝172.31.5.80dst＝221.5.250.169 src_port＝2393 dst_port＝g000 rcvd＝53 sent＝47 rcvd pkt＝1 sent_pkt＝1rule＝1 action＝ACCEPT

其中关键字段的解释如下：

time：日志产生时间

proto：协议

src：源地址

dst：目的地址

src_port：源端口

dst_port：目的端口

rcvd：接收流量

sent：发送流量

rcvd_pkt：接收数据包个数

sent_pkt：发送数据包个数

(2)特征提取/特征选取

蠕虫有发散度高、短连接多的特点，选取出来的特征需要很好地表征这些特点。候选特征集如下：

基准特征：

a)连接的目的IP地址总数目——1小时内，同一源IP地址发起的不同目的IP地址的总数目；

b)半开连接次数——1小时内，同一源IP地址半开连接次数；

c)总流量——1小时内，同一源IP地址发送流量和接收流量的总和；

d)总数据包个数——1小时内，同一源IP地址发送数据包个数和接收数据包个数的总和；

辅助候选特征：

e)发起连接速率——1小时内，同一源IP地址发起连接的总数与被发起连接总数的比值；

f)被发起连接速率——1小时内，外部IP地址向本局域网内某一IP地址发起的连接总数与被发起连接总数的比值；

g)端口号——源IP地址发起连接的端口号；

h)目的端口号“距离”——目标端口号的数值差；

i)目的IP地址“距离”——将IP a1.a2.a3.a4转化为数值a1*256*256*256+a2*256*256+a3*256+a4，然后计算同一源IP地址发起的所有目的IP的数值差。(同一局域网内的IP距离较小，不同局域网之间的IP距离较大)；

j)发送的流量——1小时内，同一源IP地址往外发送的总流量；

k)接收的流量——1小时内，同一源IP地址接收的总流量；

l)发送流量和接收流量比率——j)和k)的比值；

m)发送的数据包个数——1小时内，同一源IP地址往外发送的总数据包个数；

n)接收的数据包个数——1小时内，同一源IP地址接收的总数据包个数；

o)发送包的平均大小——j)与m)的比值；

p)接收包的平均大小——k)与n)的比值；

q)发送和接收数据包的平均大小——c)与d)的比值；

本步骤提取出的基准特征是检测必须的特征，根据实际网络情况，还可以选择部分或者全部辅助候选特征来提供检测准确率。

以每一台主机为单位，对时间长度为1小时的统计窗口内的流量信息进行特征统计(根据实际情况需要，可以改变统计窗口的时间长度)。每隔5分钟针对统计窗口进行一次滑动，则每隔5分钟就对每一台主机进行统计，统计的时间长度是1小时，得到一个特征向量。对流量日志里的所有主机IP进行持续的统计可以得到一个特征向量列表。

(3)机器学习过程

采集正常网络流量日志，对流量日志经过“特征提取/特征选取”的处理，得到一个特征向量列表A，对A标定类别为正常；采集感染蠕虫的主机流量日志，对其进行“特征提取/特征选取”的处理，得到一个特征向量列表B，对B标定类别为蠕虫。将A和B两个特征向量列表进行合并得到一个大的特征向量列表，这就是机器学习所需的训练集X。任意采用一种有监督的机器学习算法(如：决策树、神经网络等)就可以从训练集X中学习得到一个分类器。

1.本说明采用通用的C4.5决策树算法(参考文献：J.Ross Quinlan.C4.5：Programs forMachine Learning.Morgan Kaufman，1993.)对训练集X进行训练，得到蠕虫检测分类器X_tree。

使用过程(2)中描述的特征向量<a，b，c，d，e，f，g，h，i，j，k，l，m，n，o，p，q>，

特征向量列表A的示例表项为：<14，1，7323，193，53.1，0.03，80，59，10305214，6649，674，9.86，174，19，42.0，35.4，37.9>

特征向量列表B的示例表项为：<123，104，37823，1393，23.1，0.53，1029，0，214，30249，7574，3.99，1034，359，29.2，21.1，27.1>

得到的蠕虫检测分类器X_tree的逻辑示意图，如图2所示。分类器以决策树的形式表现出来，树的首节点(称为根节点)显示在最上端，节点向下有序地与其他节点相连，直至到达没有后续的终端节点(称为叶节点)。决策树分类过程：第一步要从根节点开始，首先对模式的某一属性的取值进行判断，与根节点相连的不同节点对应不同的属性取值。继续这一判断过程直到叶节点。每一个叶节点都标有一个相应的类别标记，测试样本就被标记为它所到达的叶节点的类别标记。其中图2中的A、B、C、D、E、F、G某一属性的取值，a₁、b₁、c₁、d₁、e₁、f₁、g₁表示实际中的判断标准。

(4)部署蠕虫检测分类器，对实时流量日志进行检测，检测蠕虫活动。

本实施例中，将蠕虫检测分类器X_tree部署到在局域网网关处，利用接收到的网络流量日志信息进行蠕虫检测。检测步骤包括：

1)定时接收网络的流量信息，针对局域网内各主机进行特征向量提取。

对局域网内各主机计算特征向量<a，b，c，d，e，f，g，h，i，j，k，l，m，n，o，p，q>，得到特征向量列表H。以下为H的示例表项：<123，104，37823，1393，23.1，0.53，1029，0，214，30249，7574，3.99，1034，359，29.2，21.1，27.1>。

2)利用蠕虫检测分类器判断局域网内各主机的蠕虫活动。

如上所述，本发明可以通过蠕虫检测分类器判断局域网内的各主机是否存在蠕虫活动。蠕虫检测分类器可以部署在一个或多个冲突域内，根据实际部署网络的大小和实际流量，计算特征向量时的统计窗口大小可以进行相应调整；根据实际蠕虫种类的扩充，使用的辅助候选特征也可以进行相应的增减。另外，用于机器学习的算法也并不局限于C4.5决策树算法。

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于流量信息检测蠕虫活动的方法，其步骤如下：

1)采集正常流量日志和有蠕虫活动的流量日志；

2.如权利要求1所述的一种方法，其特征在于步骤1)中所述流量日志从同一主机采集。

3.如权利要求1所述的一种方法，其特征在于步骤1)中所述流量日志从同一局域网的不同主机采集。

4.如权利要求1所述的一种方法，其特征在于步骤1)中所述流量日志从不同局域网的主机采集。

5.如权利要求1所述的一种方法，其特征在于步骤2)中的所述的检测蠕虫的特征还包含以下一种或几种：发起连接速率、被发起连接速率、端口号、目的端口号的数值差、连接的目的IP之间的数值差、发送的流量、接收的流量、发送流量和接收流量比率、发送的数据包个数、接收的数据包个数、发送包的平均大小、接收包的平均大小、发送和接收数据包的平均大小。

6.如权利要求1所述的一种方法，其特征在于步骤3)中所述的机器学习算法是决策树。

7.如权利要求1所述的一种方法，其特征在于步骤3)中所述的机器学习算法是神经网络。

8.如权利要求1所述的一种方法，其特征在于步骤4)中的所述的网络是冲突域。

9.如权利要求1所述的一种方法，其特征在于步骤5)中所述的提取特征向量，是以一定时间长度作为一个统计窗口，提取统计窗口内流量信息的特征。