CN101917732B

CN101917732B - 无线流量判别方法

Info

Publication number: CN101917732B
Application number: CN2010102327537A
Authority: CN
Inventors: 张弦; 谢高岗; 杨建华; 张广兴
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2010-07-16
Filing date: 2010-07-16
Publication date: 2012-10-31
Anticipated expiration: 2030-07-16
Also published as: CN101917732A

Abstract

本发明提供一种无线流量判别方法，包括：捕获网络中的数据包，将所捕获的数据包匹配到相应的数据流上；为所述数据流计算J-IAT归一化熵值，所述J-IAT归一化熵值用h(J)表示，所述其中J为所述数据流上相邻的两对非重发的数据包时间间隔Δ之差的绝对值，P＝{P₁，P₂...P_N}是J-IAT参数向量J＝{J₁，J₂...J_N}的概率向量，N是J-IAT参数向量基数；将计算得到的数据流的J-IAT归一化熵值与第一阈值加以比较，当所述数据流的J-IAT归一化熵值小于该第一阈值时，所述数据流为有线流量，否则为无线流量。本发明中的判定规则明确，复杂度低，易于实现，且具有良好的检测效果。

Description

无线流量判别方法

技术领域

本发明涉及网络安全领域，特别涉及无线流量判别方法。

背景技术

802.11无线局域网因其所具有的安装便捷、使用灵活、易于扩展等优点已经成为有线接入方式的重要扩展和补充。该类型网络中的终端节点既可以通过以太网方式接入网络(即有线接入方式)，也可以通过无线局域网方式接入网络(即无线接入方式)，在这种有线接入方式、无线接入方式并存的混合接入网中，无线媒介的开放特性给网络带来了潜在的安全威胁与性能威胁。通过无线接入方式接入网络的终端节点所发出的数据流为无线流量，在现有系统上最小化这种潜在危害首先要快速、准确地识别无线流量。近年来国内外针对无线流量识别展开了一系列的研究，所提出的方法大致可分为两类：无线端识别方法(Over-The-Air)和有线端识别方法(Over-The-Wire)。

无线端识别方法通常采用旁路监听的模式，通过设置无线监测点、利用无线网卡的特殊模式捕获接收范围内的无线信号，捕获无线数据帧，并解析MAC帧头信息，获取无线AP的SSID、MAC地址等。这种识别方法需要大量的硬件传感器，存在系统铺设复杂、维护困难、成本高昂等问题。

有线端识别方法通过在有线链路上设置一个网络监控点来检测无线流量。该方法一般利用网络数据流的某一统计特性来识别有线流和无线流，较无线端识别方法具有运行方式简单、移植性强的优点。现有技术中典型的无线流量特征指标包括：包间隔、ACK-pairs包对以及SegmentalTCP jitter等。在下面的参考文献中分别对如何利用上述指标检测无线流量的过程做了说明。

在参考文献1“Beyah R，Kangude S，Yu G，et al.Rogue access pointdetection using temporal traffic characteristics.In Proc.of GLOBECOM′04.Dallas.Texas USA，2004”中提出了数据包间隔特征指标(inter-packetspacing)的识别方法。所谓数据包间隔是指被监控主机连续发送的两个数据包之间的时间间隔。该方法对无线主机产生的数据流和有线主机产生的数据流分别进行了监控，从中提取包间隔大小，并绘制了无线流中和有线流中的包间隔大小的经验累积分布曲线。通过统计曲线的对比，证明了有线流量和无线流量的流统计特性存在差异性。

在参考文献2“Wei W，Suh K，Wang B，et al.Passive online rogue accesspoint detection using sequential hypothesis testing with TCP ACK-Pairs.InProc.of SIGCOMM′07.Kyoto，Japan，2007”中提出了基于TCP ACK-pairs的识别方法。该方法中所提到的ACK-pairs是指在一个TCP流中相继的两个TCP数据包所引起的两个TCP ACK包之间的时间间隔。该方法在检测无线流量时，该方法在一个企业级局域网网关处捕获的trace文件中提取了有线流和无线流中ACK-pairs值，通过ACK-pairs的经验累积分布函数曲线表明该指标在有线流量和无线流量上具有不同的统计概率分布，设计并实现了基于特征指标的有无训练集合的两种序贯假设检验的识别算法，从而以实现对无线流量的自动识别。

在参考文献3“Xie G，He T，Zhang G.Rogue access point detection usingsegmental TCP jitter.In Proc.of WWW′08.Beijing，China，2008”中提出了基于新特征参数segmental TCPjitte的改进的序贯假设检验识别算法。该方法将监控点部署在局域网出口网关处，将捕获的TCP数据流中的RTT时延分成了两部分：发送端到监控点的外网部分以及监控点到接收端的内网部分，通过实验说明了内网RTT时延的抖动在一定程度上表征了TCP数据包在不同MAC协议下排队时延的变化，从而反映了CSMA/CA和CSMA/CD协议对TCP数据流的不同影响。作者基于这一点，设计并实现了基于segmental TCP jitter的改进序贯假设检验算法，以实现无线流量的自动识别。

现有技术中虽然已经有了多种在有线端实现的无线流量识别方法，但这些方法都存在以下缺陷：

1、不能同时应用于TCP/UDP数据流。参考文献2和参考文献3中的方法均利用了TCP协议中的ACK确认机制，与具体的传输层的协议类型相关联，不具有通用性。在仅有UDP数据流，或者TCP数据流极少的网络场景中，这两种方法将难以适用。

2、指标的健壮性较差。参考文献1中的方法仅适用于监测点距离有线终端或无线终端只有一跳距离的情况。由于实际应用中，监测点一般部署在边界路由器上，所以当局域网的拓扑结构比较复杂，局域网网关距离终端系统的跳数较多时，该方法就难以适用了；对于参考文献2中的方法而言，当网络干扰负载增加或者终端的TCP协议栈没有启动延迟ACK机制的情况下，“合格ACK-pairs”不易获得，当一个终端产生的数据流中所包含的”合格ACK-pairs”的个数小于算法要求的最小”合格ACK-pairs”数时，该终端的接入类型就无法判定，从而极大限制了算法的适用场景。

3、无法应用于有NAT设备的网络场景。上文所述的三种方法均为基于IP识别粒度的识别方法。以IP为识别粒度方法假定一个源IP对应一个终端，认为源IP相同的数据包均来自于同一终端，因此将源IP作为判决单位，对源IP相同的数据流先汇聚再判定。实际局域网中普遍存在的NAT设备使以上假设难以成立。假设一个NAT设备后连接了一台无线AP和几台有线终端，无线AP与几台无线终端通信。以IP为识别粒度的监测系统会将AP和有线终端发出的数据包都汇聚成一个识别单位。在这种有线无线混合的数据流中，无线流的流量特性极易被有线流所掩盖，造成无线流的漏判。所以，以IP为识别粒度的方法无法应用于有NAT设备的网络场景中。

综上所述，如何减少对有效特征指标的限制，从而使识别方法也适用于干扰负载较大的场景中，以及如何定义一个与传输层协议类型无关的特征指标，使得识别方法对TCP、UDP数据流均可适用都是当前亟待解决的问题。

发明内容

本发明的目的是克服现有技术对有效特征指标的限制较为严重，不能适用于干扰负载较大的场景的缺陷，从而提供一种无线流量判别方法。

为了实现上述目的，本发明提供了一种无线流量判别方法，包括：

步骤1)、捕获网络中的数据包，将所捕获的数据包匹配到相应的数据流上；

步骤2)、为所述数据流计算J-IAT归一化熵值，所述J-IAT归一化熵值用h(J)表示，所述

其中J为所述数据流上相邻的两对非重发的数据包时间间隔Δ之差的绝对值，P＝{P₁，P₂...P_N}是J-IAT参数向量J＝{J₁，J₂...J_N}的概率向量，N是J-IAT参数向量基数；

步骤3)、将步骤2)计算得到的数据流的J-IAT归一化熵值与第一阈值加以比较，当所述数据流的J-IAT归一化熵值小于该第一阈值时，所述数据流为有线流量，否则为无线流量。

上述技术方案中，所述步骤2)包括：

步骤2-1)、记录所述数据流中相邻两个数据包之间的时间间隔；

步骤2-2)、将所述时间间隔与第二阈值进行比较，以判别该时间间隔的有效性；

步骤2-3)、求所述数据流中两个相继的有效的时间间隔的差的绝对值，所得到的结果为一个J-IAT样本点；

步骤2-4)、重复前一步骤，得到所述数据流的J-IAT序列；

步骤2-5)、按照时间间隔将所述数据流的J-IAT序列的序列值分成多个小区间，统计所述数据流的J-IAT参数在每个区间上的频率，从而计算所述数据流的J-IAT归一化熵值。

上述技术方案中，所述第一阈值通过一预计算操作得到，该预计算操作包括：

步骤a)、确定有线节点的IP集合EIP以及无线节点的IP集合WIP；

步骤b)、将从网络中捕获的数据包匹配到相应的数据流上；

步骤c)、在得到所述的EIP与WIP后，由所述数据流的源IP确定该数据流为有线流还是无线流；

步骤d)、计算所述数据流的J-IAT归一化熵值；

步骤e)、将属于有线流的数据流的J-IAT归一化熵值放入有线流的J-IAT归一化熵值集合E-JIAT中，将属于无线流的数据流的J-IAT归一化熵值放入无线流的J-IAT归一化熵值集合W-JIAT中；

步骤f)、以一定的步长遍历[0，1]阈值取值区间，在遍历过程中利用所述的E-JIAT、W-JIAT以及数据流的判定结果计算假阳率和真阳率，从而得到使得假阳率最低并且真阳率最高的阈值，该阈值为所述的第一阈值。

上述技术方案中，在所述的步骤1)中，所捕获的数据包根据{源IP、目的IP、源端口、目的端口、协议类型}匹配到相应的数据流上。

本发明的优点在于：

判定规则明确，复杂度低，易于实现，且具有良好的检测效果。

附图说明

图1(a)为有线流的实验场景；

图1(b)为无线流的实验场景；

图2(a)为有线流中的数据包到达间隔抖动散点图；

图2(b)为无线流中的数据包到达间隔抖动散点图；

图3为访问www.ict.ac.cn的有线、无线流量的J-IAT归一化熵值比较图；

图4为访问www.yahoo.com的有线、无线流量的J-IAT归一化熵值比较图；

图5为访问www.google.com的有线、无线流量的J-IAT归一化熵值比较图；

图6中为用于检测数据流的检测点在网络中的安放位置；

图7为本发明在训练阶段的流程图；

图8为本发明在检测阶段的流程图；

图9(a)为基本拓扑仿真实验场景的网络拓扑图；

图9(b)为NAT仿真实验场景的网络拓扑图；

图9(c)为交叉流量仿真实验场景的网络拓扑图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

在对本发明方法做详细说明前，首先对本发明中所涉及的相关概念做统一的描述。

无线流：数据流的通信双方分别是被监测区域中通过IEEE 802.11无线局域网接入的无线主机和监测区域外主机的网络流。

J-IAT(Jitter of Inter-Arrival Time，数据包到达间隔抖动)：特指在发送端为被监测区域内节点、接收端为被监测区域外节点的数据流上，相邻的两对非重发的数据包时间间隔Δ之差的绝对值J_i＝|Δ_i+1-Δ_i|。

归一化熵值：设离散有限状态的随机变量X＝{X₁，X₂...X_n}，其概率向量为P＝{P₁，P₂...P_N}，则X的信息熵定义为

在得到X的信息熵后，为该信息熵做归一化操作，令h(x)＝H(x)/log₂n，这一h(x)为X向量的归一化熵值，其中的n为X向量的基数。由信息熵的性质可知，h(x)为[0，1]区间上的无量纲的值。

J-IAT归一化熵值h(J)：令

J为被监测数据流上相邻的两对非重发的数据包时间间隔Δ之差的绝对值，即J_i＝|Δ_i+1-Δ_i|，P＝{P₁，P₂...P_N}是J-IAT参数向量J＝{J₁，J₂...J_N}的概率向量，N是J-IAT参数向量基数。h(J)的物理意义是表示随机变量J的随机性。

真阳率(True Positive Ratio，TPR)：正确识别的无线流个数/总的无线流个数。

假阳率(False Positive Ratio，FPR)：误识别为无线流的有线流个数/总的有线流个数。

以上是对本发明中所涉及到的相关概念的说明，其中的J-IAT归一化熵值为本发明新提出的概念。本发明通过为网络中的数据流计算其J-IAT归一化熵值来判别该数据流是有线流还是无线流。下面对J-IAT归一化熵值之所以能够判别有线流和无线流的原理加以说明。

J-IAT归一化熵值来源于对不同MAC协议所造成的流量特性差异性的分析。作为流量特性的一个重要衡量指标——数据包到达间隔(Inter-Arrival Time，简称IAT)在无线局域网下和以太网下存在显著的差异。无线局域网下的数据包到达间隔主要由三部分组成：平均传输时延、平均退避时延和平均碰撞时延；而以太网下的数据包到达间隔主要由平均传输时延和平均等待时延两部分构成。在本发明中将由相继数据包到达间隔差值的绝对值所形成的J-IAT作为特征指标，在各类帧长字节一定、网络传输速率一定的情况下，无线局域网和以太网下的平均传输时延为规定值。因此，无线局域网下的J-IAT指标由平均传输时延抖动和平均碰撞时延抖动组成，而以太网下的J-IAT指标由平均等待时延抖动组成。由于无线信号的不稳定性和无线频带的有限性，无线局域网中帧碰撞概率远大于以太网，其数据包间隔抖动的随机性远大于有线网络。因此本发明中用J-IAT归一化熵值来定量描述数据包间隔抖动的随机性大小，进而区分有线流和无线流。下面可从理论和实验两个方面验证J-IAT归一化熵值指标的有效性。

1、理论分析

通过理论分析，可证明有99.8％的无线流量下的J-IAT归一化熵值大于有线流量下的J-IAT归一化熵值，也就说明了J-IAT归一化熵值特征指标对于有线、无线流量是可区分的，并且存在一个能将两者区分开的阈值。具体推导如下：

为了简化理论推导，本文采用以下两个假设条件。

假设1无线局域网的信道状态是理想的：无包丢失、无碰撞。无线数据包时间间隔仅受数据包传输时间、MAC层的CSMA/CA协议影响。

假设2有线链路可以用M/M/1排队模型来描述。

推论1(无线局域网)：在检测点观测到的802.11无线流量下的J-IAT熵值大小满足：

H (J^{wlan}) &GreaterEqual; \log_{2} [\frac{N ρ_{w} {CW}_{\min} (1 - p - p {(2 p)}^{m})}{1 - 2 p}] - - - (1)

其中，

CW_min为最小退避窗口，CW_max为最大退避窗口。p为无线站点平均碰撞概率(p∈[0，1])，N为同时发送数据的站点个数，ρ_w为无线链路的利用率。

证明：根据现有技术中的相关文献，在二进制指数退避过程中无线站点平均退避窗口大小为：

\overset{&OverBar;}{W} = \frac{Nλ (1 - p - p {(2 p)}^{m}) {CW}_{\min}}{2 μ (1 - 2 p)} - - - (2)

其中，

CW_min为最小退避窗口，CW_max为最大退避窗口。p为无线站点平均碰撞概率(p∈[0，1])，N为同时发送数据的站点个数，λ为单位时间内无线帧的到达个数，μ为无线信道的传输速率，可记

则ρ_w为无线信道的利用率。

由下文中的公式(8)可知，无线局域网下的J-IAT参数主要由两部分组成：退避时延的抖动和碰撞时延的抖动。根据假设1，无线信道是理想状态，无数据包碰撞发生，因此可认为J-IAT参数大小即等于退避时延的抖动值，则J-IAT熵值也即退避时延抖动值的熵值。基于这一点，结合熵值的定义，下面给出在无碰撞情况下无线流量中J-IAT熵值的大小。

根据802.11协议标准可知，无线站点的退避窗口大小是随机选择的，因此可以假设平均退避窗口大小是服从均匀分布的，则平均退避窗口抖动的取值范围为根据信息熵的定义可知，若随机变量X服从[a b]区间上的均匀分布，即X□U[a，b]，则X的信息熵为：

H(X)＝log₂(b-a) (3)

将公式(2)代入公式(3)，可得：

H (J_{back - off}^{wlan}) = \log_{2} 2 \overset{&OverBar;}{W} = \log_{2} \frac{Nλ ρ_{w} {CW}_{\min} (1 - p - p {(2 p)}^{m})}{(1 - 2 p)} - - - (4)

以上推导是基于无线信道为理想状态、无数据帧碰撞的假设前提。事实上，任何数据包丢失、重传行为都会进一步增加包间隔变化的随机性，使得J-IAT的熵值变大，因此部署在网关处的监测点上所测量的无线流量中的J-IAT熵值必将大于或等于以上推导的无线帧间隔在二进制指数退避阶段所带来的熵值，也就是说：

H (J^{wlan}) &GreaterEqual; H (J_{back - off}^{wlan}) - - - (5)

将公式(4)带入公式(5)即得证。

推论2(以太网)在监测点观测到的有线流量下的J-IAT熵值大小满足：

H (J^{ethernet}) \leq \frac{1}{2} \ln [\frac{4 π}{μ_{e}^{2} {(1 - ρ_{e})}^{2}}] - - - (6)

其中ρ_e为有线链路利用率(ρ_e∈[0，1])，μ_e为有线链路的传输速率。

证明：已知ρ_e为有线链路利用率，根据排队论，M/M/1模型中的系统中等待时间T_wait的标准差为：

σ (T_{q}) = \frac{1}{{μ_{e}}^{2} {(1 - ρ_{e})}^{2}} - - - (7)

因为并且

可认为是独立同分布的随机变量，则有

E (J) = E (T_{{wait}_{i + 1}}) - E (T_{{wait}_{i}}) = 0 - - - (8)

Var (J) = 2 Var (T_{wait}) = \frac{2}{{μ_{e}}^{2} {(1 - ρ_{e})}^{2}} - - - (9)

根据最大信息熵原理，在均值和方差相同的条件下，当随机变量X服从正态分布时其信息熵最大，最大熵为

H (X) = \frac{\ln (2 π σ^{2})}{2} - - - (10)

其中σ为随机变量X的标准差。公式(9)带入公式(10)可得有线流量中的J-IAT熵值的最大值为：

\max {H (J^{ethernet})} = \frac{1}{2} \ln [\frac{4 π}{μ_{e}^{2} {(1 - ρ_{e})}^{2}}] - - - (11)

即得证。

推论3：(无线局域网vs.以太网)：802.11bWLAN流量中的J-IAT归一化熵值和以太网流量中的归一化熵值满足以下统计意义上的关系：

P{h(J^wlan)≥h(J^ethernet)}＝99.8％ (12)

证明：在常见的百兆以太网中，有线局域网的传输速率μ_e＝100Mps。在802.11b 无线局域网中，CW_min＝31，CW_max＝1024，则μ_w＝11Mbps。

记D(ρ_w，ρ_e)＝H(J^wlan)-H(J^ethernet)，将推论1、2带入式中，则有：

D (ρ_{w}, ρ_{e}) = \log_{2} \frac{31 N ρ_{w} (1 - p - p {(2 p)}^{5})}{1 - 2 p} - \frac{1}{2} \ln \frac{4 π}{μ^{2} {(1 - ρ_{e})}^{2}}

&GreaterEqual; \log_{2} \frac{31 ρ_{w} (1 - 2 p) (1 + p Σ_{i = 0}^{i = 4} {(2 p)}^{i})}{1 - 2 p} - \frac{1}{2} \ln \frac{4 π}{10^{12} {(1 - ρ_{e})}^{2}}

&GreaterEqual; \log_{2} 31 ρ_{w} - \frac{1}{2} \ln 4 π (1 \times 10^{6}) + \ln (1 - ρ_{e})

= \log_{2} ρ_{w} + \ln (1 - ρ_{e}) + 17.5

则无线流量中的J-IAT熵值大于有线流量中的J-IAT熵值的概率为：

P{D(ρ_w，ρ_e)≥0}＝P{ρ_w，ρ_e|D(ρ_w，ρ_e)≥0} (13)

通过简单计算易知，当ρ_w≥0.001 ρ_e≤0.999时，有D(ρ_w，ρ_e)≥0，并且ρ_w，ρ_e可认为是[01]区间上符合均匀分布的随机变量，则

P {ρ_{w}, ρ_{e} | D (ρ_{w}, ρ_{e}) &GreaterEqual; 0} \frac{0.999 \times 0.999}{1 \times 1} = 99.8 % - - - (14)

公式(14)说明了99.8％的802.11b流量的J-IAT归一化熵值大于以太网流量的J-IAT归一化熵值，即有

P {h (J^{wlan}) &GreaterEqual; h (J^{ethernet})} = P {\frac{1}{\log_{2} n} (H (J^{wlan}) &GreaterEqual; H (J^{ethernet}))} - - - (15)

= 99.8 %

其中n是J-IAT的最大取值个数，即得证。

从推论3中可看出在统计意义上J-IAT归一化熵值在无线流量和有线流量上的区分阈值是存在的。

2、实验分析

下面通过在实际网络中的离线trace分析说明特征指标J-IAT归一化熵值的可区分性以及阈值的存在性。

为进一步探讨有线流、无线流的包间隔抖动的统计差异性，在图1(a)和图1(b)中分别给出了有线流和无线流的实验场景。在该场景中，有线客户端、无线客户端、服务器均处于同一网段中，客户端向服务器发起一TCP文件传输连接，文件大小约41M，持续时间约2min。由于客户端和服务器处于同一网段，数据包拥塞、数据包丢失等情况基本不会发生，可以认为两种接入方式下的数据包间隔抖动仅受到MAC协议和交叉流量的影响。该场景中有线流和无线流中数据包到达间隔抖动的散点图如图2所示，其中的图2(a)为有线流中的数据包到达间隔抖动散点图，图2(b)为无线流中的数据包到达间隔抖动散点图。在实验中从trace样本trace_4_1中提取了6组数据流集合，构成了三组不同应用下的对比实验，以观察在不同的应用下，J-IAT归一化熵值对于有线流量和无线流量的区分情况。这三组对比实验分别是：(1)访问www.yahoo.com主页的无线和有线流量；(2)访问www.ict.ac.cn主页的无线和有线流量；(3)访问www.google.com主页的无线有线流量。

根据数据流的J-IAT归一化熵值的提取方法，分别从以上trace中计算出每条数据流的J-IAT归一化熵值。对于每组对比实验，分别得到了有线流量下的J-IAT归一化熵值集合E-JIAT和无线流量下的归一化熵值集合W-JIAT，其中的图3为访问www.ict.cn的有线、无线流量的J-IAT归一化熵值比较图，图4为访问www.yahoo.com的有线、无线流量的J-IAT归一化熵值比较图，图5为访问www.google.com的有线、无线流量的J-IAT归一化熵值比较图。在图3-图5中，每幅图的横坐标为数据流序号，纵坐标为该数据流的J-IAT归一化熵值。从这些图中可以看出，纵坐标的取值范围为[0，1]之间。图中的点代表有线流量的J-IAT归一化熵值，星号代表无线流量的J-IAT归一化熵值。显而易见，每幅图的有线流量的J-IAT归一化熵值集合和无线流量的J-IAT熵值集合之间均存在着明显的分界线。这说明存在一个J-IAT归一化熵值的分割阈值可将有线流量和无线流量区分开。

上面分别从理论与实验两个角度对J-IAT归一化熵值能够判别有线流和无线流的原因做了说明，下面将结合具体的实例就这一判别过程加以说明。

图6中给出了用于检测数据流的检测点在网络中的安放位置，从图中可以看出，这一检测点位于内网的出口网关处。该检测点包括有数据包捕获程序，该程序用于捕获源IP为内网IP的所有数据包。在捕获到数据包后，检测点根据{源IP、目的IP、源端口、目的端口、协议类型}的数据流的五元组定义计算哈希索引值，通过哈希函数将捕获到的数据包匹配到相应的数据流上，从而完成了由数据包到数据流的检测过程。在内网中，用户既可以通过有线端接入网络，也可以通过无线端接入网络。因此，检测点捕获到的数据包所对应的数据流既可能是通过有线端发送的也可能是通过无线端发送的，需要对数据流的来源加以识别。

对无线流量的识别可包括两个阶段，一个阶段是训练阶段，另一个阶段是检测阶段。训练阶段的目的在于找出用于区分无线流和有线流的最优阈值。因此，如果某一网络的最优阈值已知，则所述的训练阶段可以省略。另外，由于所述最优阈值的大小通常与网络的拓扑结构有关，因此一个网络的已知的最优阈值不能照搬到另一个不同拓扑结构的网络中，对于一新的网络，如果未知其最优阈值，需要通过训练阶段加以计算。

在训练阶段中，如图7所示，所要完成的操作包括以下步骤：

步骤11)、确定两个已知接入网类型的节点IP集合，分别是有线节点的IP集合EIP，如10.21.2.0/24网段，以及无线节点的IP集合WIP，如10.103.0.0/16网段。

步骤12)、将检测点所捕获的数据包匹配到相应的数据流上，得到多条检测点所接收到的数据流。数据包如何匹配到数据流在前文对检测点的说明中已经有详细描述，此处不再重复。

步骤13)、在步骤11)中得知所述的EIP和WIP后，就可以根据检测点所接收到的数据流的源IP知道该数据流属于有线流还是无线流。

步骤14)、计算各个数据流的J-IAT归一化熵值。在计算数据流的J-IAT归一化熵值时，首先要得到该数据流的J-IAT序列。

所述的J-IAT序列的生成过程包括：首先记录在检测点上所检测到的源站点所发送的相邻两个数据包之间的时间间隔，如果所得到的时间间隔小于阈值T_R，则这两个相邻数据包之间没有发生数据包丢失或数据包重传，该时间间隔有效，如果所得到的时间间隔大于所述的阈值T_R，则代表相邻数据包之间发生了数据包丢失或数据包重传，该时间间隔无效。求两个相继的有效的时间间隔的差的绝对值，所得到的结果为一个J-IAT样本点。重复这一操作，当数据流结束时，也就能够得到该数据流的J-IAT序列。

在得到数据流的J-IAT序列后，以一定的时间间隔将所述J-IAT序列的序列值分成若干个小区间，统计该数据流的J-IAT参数在每个区间上的频率，根据归一化熵值的定义，计算得到该数据流的J-IAT归一化熵值。

步骤15)、在步骤13)中已经知道检测点所接收到的数据流是有线流还是无线流，而且在步骤14)中也已经计算出数据流的J-IAT归一化熵值，因此可以将有线流的J-IAT归一化熵值放入有线流的J-IAT归一化熵值集合E-JIAT中，将无线流的J-IAT归一化熵值放入无线流的J-IAT归一化熵值集合W-JIAT中。

步骤16)、由于J-IAT归一化熵值是[0，1]区间内的一个无量纲的值，因此可以以一定的步长(如0.01)遍历[0，1]阈值取值区间，利用步骤15)中所得到的E-JIAT、W-JIAT以及数据流的判定结果计算假阳率和真阳率，从而得到使得假阳率最低并且真阳率最高的阈值(也就是ROC曲线上离(0，1)点最近的点所对应的阈值)，此阈值即为所求的训练阶段最优阈值。

通过训练阶段得到用于区分有线流和无线流的最优阈值后，就可以在检测阶段对检测点所接收到数据流是有线流还是无线流加以判别。

在检测阶段，如图8所示，所要完成的操作包括以下步骤：

步骤21)、检测点捕获数据包，将所捕获到的数据包匹配到相应的数据流上，得到多条检测点所接收到的数据流。

步骤22)、计算数据流的J-IAT归一化熵值。该步骤的具体实现方式与前述步骤14)并无不同，因此不在此处重复。

步骤23)、在计算出数据流的J-IAT归一化熵值以后，就可以将该值与训练阶段所得到的最优阈值加以比较，如果数据流的J-IAT序列的归一化熵值小于最优阈值，则将其判定为有线流量，否则判定为无线流量。

以上是对本发明利用J-IAT归一化熵值判别数据流是有线流还是无线流的说明，下面通过实验证明本发明方法较现有技术中的相关方法具有更好的效果。

图9给出了现有技术中最为常见的三种仿真实验场景的网络拓扑图，其中的图9(a)代表基本拓扑场景，图9(b)代表NAT场景，图9(c)代表交叉流量场景(包含10％交叉流量与70％交叉流量的场景)。在这三种场景中分别统计了J-IAT方法的判定结果，并且与参考文献2中利用Ack-Pair指标进行检测的方法进行对比，在下面的表1中给出了相关评价指标的定义。

指标名称	符号表示	指标定义
			无线检测率	true positive ratio，TPR	正确识别的无线流个数/总的无线流个数
有线检测率	true negative ratio，TNR	正确识别的有线流个数/总的有线流个数
			有线虚警率	false positive ratio，FPR	误识别为无线流的有线流个数/总的有线流个数
未识别率	non-detection ratio，NDR	判定为unknown的数据流/总的数据流个数
			平均判定时间	average detection time，ADT	判决阶段中一次判定所需的平均时间

表1

在下面的表2中给出了上述三种仿真实验环境的实验结果。

表2

基本场景的对比实验说明了在理想的网络环境中，本发明的J-IAT方案和参考文献2中的ACK-pairs方案的识别效果都很好，均能够正确识别出网络中的所有无线流量和有线流量。并且本发明的J-IAT方案由于判定规则明确，复杂度低，其平均判定时间远低于ACK-pairs方案。

NAT场景的实验结果说明了以ACK-pairs为代表的基于IP识别粒度的判定方案的不足：无法判定NAT后的有线、无线数据流。因为NAT设备后的数据流具有相同的源IP，在以IP为识别粒度的判定算法中将被聚合为同一识别对象，而此时可能包括有线数据流和无线数据流，所以其判定结果必定是不准确的，并且无线流的流量特征往往被有线流所掩盖，导致误判。而本发明的J-IAT方法以流为识别粒度，将<源IP、源端口、目的IP、目的端口、类型>五元组相同的数据包进行聚合，不会仅仅将源IP相同的数据包聚合，避免了上述问题，对NAT后的有线、无线数据流仍然可以正确判定。

在干扰负载实验场景(即交叉流量场景)中，随着干扰负载的比例增加，J-IAT方法的无线检测率降低幅度比ACK-pairs方法的无线检测率降低幅度要小，这说明了J-IAT的抗干扰性优于ACK-pairs方法，在干扰较大的网络场景中也适用。

在下面的表3中还给出了实际网络的测试结果。

训练trace名称	无线检测率	有线检测率	有线虚警率	最优阈值	平均判定时间
						data_1231	82.72％	89.81％	10.19％	0.42	0.7+/-3.5s
data_0104	80.38％	87.59％	12.41％	0.4310	0.7+/-3.3s
						data_0105	85.25％	84.21％	15.79％	0.3810	0.7+/-3.3s
data_0106	83.59％	87.92％	22.08％	0.4010	0.5+/2.8s

表3

这一实验结果表明：J-IAT方法的无线检测率高于80％，虚警率低于20％，平均判定时间不超过1s，可应用于实时监控场景。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种无线流量判别方法，包括：

步骤1）、捕获网络中的数据包，将所捕获的数据包匹配到相应的数据流上；

步骤2）、为所述数据流计算J-IAT归一化熵值，所述J-IAT归一化熵值用h(J)表示，所述

其中J为所述数据流上相邻的两对非重发的数据包时间间隔Δ之差的绝对值，P＝{P₁,P₂...P_N}是J-IAT参数向量J={J₁,J₂...J_N}的概率向量，N是J-IAT参数向量基数；

步骤3）、将步骤2）计算得到的数据流的J-IAT归一化熵值与第一阈值加以比较，当所述数据流的J-IAT归一化熵值小于该第一阈值时，所述数据流为有线流量，否则为无线流量。

2.根据权利要求1所述的无线流量判别方法，其特征在于，所述步骤2）包括：

步骤2-1）、记录所述数据流中相邻两个数据包之间的时间间隔；

步骤2-2）、将所述时间间隔与第二阈值进行比较，以判别该时间间隔的有效性；

步骤2-3）、求所述数据流中两个相继的有效的时间间隔的差的绝对值，所得到的结果为一个J-IAT样本点；

步骤2-4）、重复前一步骤，得到所述数据流的J-IAT序列；

步骤2-5）、按照时间间隔将所述数据流的J-IAT序列的序列值分成多个小区间，统计所述数据流的J-IAT参数在每个区间上的频率，从而计算所述数据流的J-IAT归一化熵值。

3.根据权利要求1或2所述的无线流量判别方法，其特征在于，所述第一阈值通过一预计算操作得到，该预计算操作包括：

步骤a）、确定有线节点的IP集合EIP以及无线节点的IP集合WIP；

步骤b）、将从网络中捕获的数据包匹配到相应的数据流上；

步骤c）、在得到所述的EIP与WIP后，由所述数据流的源IP确定该数据流为有线流还是无线流；

步骤d）、计算所述数据流的J-IAT归一化熵值；

步骤e）、将属于有线流的数据流的J-IAT归一化熵值放入有线流的J-IAT归一化熵值集合E-JIAT中，将属于无线流的数据流的J-IAT归一化熵值放入无线流的J-IAT归一化熵值集合W-JIAT中；

步骤f）、以一定的步长遍历[0，1]阈值取值区间，在遍历过程中利用所述的E-JIAT、W-JIAT以及数据流的判定结果计算假阳率和真阳率，从而得到使得假阳率最低并且真阳率最高的阈值，该阈值为所述的第一阈值。

4.根据权利要求1或2所述的无线流量判别方法，其特征在于，在所述的步骤1）中，所捕获的数据包根据{源IP、目的IP、源端口、目的端口、协议类型}匹配到相应的数据流上。