CN103546333A

CN103546333A - 加密网络流声纹特征向量提取方法

Info

Publication number: CN103546333A
Application number: CN201210246765.4A
Authority: CN
Inventors: 薛一波; 王大伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-07-16
Filing date: 2012-07-16
Publication date: 2014-01-29
Anticipated expiration: 2032-07-16
Also published as: CN103546333B

Abstract

本发明提供了一种加密网络流声纹特征向量提取方法，包括步骤：S2.为加密网络流建立一个声纹特征向量提取滑动窗口；S3.使用当前数据包更新声纹特征向量提取滑动窗口；S5.过滤声纹特征向量提取滑动窗口；S7.从滑动窗口中筛选出连续超过k个单元的单元组；S9.按顺序提取每个单元组的声纹特征。本发明提取的声纹特征能够有效地刻画网络流的动态特征。本发明的方法不仅继承了传统的网络流统计特征提取方法的优势，还能够提供更加丰富且可靠的知识，可以为高速网络中高性能流量分类系统的设计和实现提供技术支持。

Description

加密网络流声纹特征向量提取方法

技术领域

本发明属于网络技术中流量分类技术领域，尤其涉及加密网络流声纹特征向量提取方法。

背景技术

网络技术和网络带宽的迅速发展对网络安全提出了新的挑战：首先，网络中的数据流量成倍增加，网络数据高速无穷到达，且不间断，呈现海量数据特点，并且本地无法进行存储。因此，传统基于数据包载荷的流量分类技术的效率无法满足需要；其次，网络承载的业务也越来越丰富，越来越多的网络业务使用加密协议封装后传输，加密协议的广泛使用，使得传统基于数据包载荷的流量分类技术无法找到有效的关键字，已经严重失效。

针对上述问题，业界提出了基于网络流的流量分类技术。网络流是两个网络实体之间持续一段时间并属于相同流属性值集的数据包序列。作为一种数据交换方式，网络流从一个微观层面上反映了主机行为和主机之间相互通信的细节。通过收集IP协议流量信息，网络流能够为流量分类系统提供精确、高效、可靠的处理对象。网络流是目前流量分类技术领域的热点，它的应用能够提升流量分类系统在高速网络中的性能。

思科公司首先提出了网络流的概念，并引入了两个重要的参数：流规范（flow specification）和流超时（flow timeout）。

流规范的定义可以用一个五元组来表示：

1、源IP地址；

2、目的IP地址；

3、TCP/UDP协议的原始端口号（0代表其它协议）；

4、TCP/UDP协议的目的端口号（0代表其它协议）；

5、IP协议类型。

按照流规范的定义，对于一个新进的网络数据包，如果在Cache（高速缓冲存储器）中无法能够找到与之相对应的网络流信息，则在Cache中创建一个新的网络流。

流超时规定了4个规则来判定一个网络流是否终结：

1、TCP协议标志位是FIN或者RST；

2、收到一个数据包后15秒内没有另外的数据包到达；

3、网络流创建30分钟；

4、网络流的Cache已满。

基于网络流的流量分类技术从网络流中提取统计特征，然后利用机器学习等方法对提取的统计特征进行建模和分类。因此，该技术能够在不检测数据包载荷的前提下，实现流量的分类。基于网络流的流量分类技术已经成为业界热点。然而，随着加密协议的不断演化，利用加密协议的传播手段越来越灵活，基于网络流的流量分类技术的效果也受到越来越多的挑战。其中，影响该技术效果的主要原因在于统计特征向量的提取方法：

首先，许多私有加密协议模仿一些公开的加密协议进行业务传播，而私有协议和被模仿的加密协议在统计特征上极其相似，这就使得基于网络流的流量分类技术无法正确地将这些私有加密协议和被模仿的公开加密协议进行分类。

其次，越来越多的网络业务采用加密代理通道协议传输业务。加密代理通道协议以加密协议作为外部中介，利用加密协议所建立的加密通道传输特定协议封装后的信息。例如，利用SSH、VPN等加密代理通道协议封装HTTP协议进行传输。加密代理通道协议不仅具有加密协议的特性，还具有极强的隐秘性。一方面，加密代理通道协议将多种业务的流量混合在一起，增加了流量分类的难度；另一方面，加密代理通道协议利用一个加密网络流对多个网络流进行封装，不仅隐藏了载荷关键字，还掩盖了流量的统计特征。目前，加密代理通道协议已经成为许多非法业务的主要传播途径，许多不法分子利用加密代理通道协议在网上肆意传播盗版、黄色、反动等不良信息。利用现有的统计特征提取方法，基于网络流的流量分类技术虽然能够有效识别加密代理通道协议，却无法识别通道内的隐藏协议。

综上所述，由于目前分类技术采用的统计特征提取方法只能从网络流中提取静态的统计特征，导致流量分类系统无法正确分类私有加密协议流量，更不能有效识别隐藏在加密代理通道内的协议。针对这一问题本发明引入了网络流声纹特征的概念。区别于传统的网络流静态特征，声纹特征着眼于网络流的动态特性。网络流声纹特征能够突破私有加密协议以及代理通道协议的隐秘性带来的障碍，动态地反映真实协议的行为特征，为识别私有加密协议以及代理通道中隐藏协议提供知识基础。

发明内容

（一）要解决的技术问题

本发明所要解决的技术问题是：如何提供一种加密网络流声纹特征提取方法，为基于网络流的流量分类系统提供更加丰富的知识，以识别私有加密协议，以及隐藏在代理通道内的协议。

（二）技术方案

为了解决上述问题，本发明提供了一种加密网络流声纹特征向量提取方法，包括步骤：S2.为加密网络流建立一个声纹特征向量提取滑动窗口；S3.使用当前数据包更新声纹特征向量提取滑动窗口；S5.过滤声纹特征向量提取滑动窗口；S7.从滑动窗口中筛选出连续超过k个单元的单元组；S9.按顺序提取每个单元组的声纹特征。

优选地，步骤S2包括：判断该网络流是否已建立一个声纹特征向量提取滑动窗口，若否，则为该网络流建立一个声纹特征向量提取滑动窗口；步骤S3与S5之间包括：S4.判断网络流持续时间t2-t1是否超过i×j秒，若未超过，则返回执行步骤S1，若超过，则判断距离上次声纹特征提取时间间隔t3-t2是否超过i×j秒，若超过则执行步骤S5，若未超过，则返回执行步骤S1；步骤S5与S7之间包括：S6.判断剩余单元个数是否大于0，若是，则创建一个新的声纹特征向量提取滑动窗口，并返回执行步骤S1；步骤S7与S9之间包括：S8.判断单元组的个数是否大于0，若否，则返回执行步骤S1。

优选地，在步骤S2之前还包括步骤：S1.查找捕获到的新进网络包在网络流表中对应的网络流。

优选地，在步骤S1之前还包括步骤：S0.建立用于存储网络流信息的所述网络流表的步骤。

优选地，步骤S1包括：S1.1更新该网络流的基本信息。

优选地，网络流的基本信息包括：网络流的创建时间t1、新进数据包的到达时间t2。

优选地，滑动窗口包含i个单元，每个单元记录了网络流在j秒内传输的数据包个数和字节数。

优选地，步骤S3包括：S3.1计算声纹特征向量提取滑动窗口中需要更新的单元

S3.2该单元记录的数据包个数加上1；S3.3该单元记录的字节数加上当前数据包的载荷字节数。

优选地，步骤S5包括：S5.1更新声纹特征提取时间t3为当前数据包到达时间t2；S5.2按顺序读取声纹特征向量提取滑动窗口，直至最后一个处理单元；S5.3判断当前单元中数据包个数是否大于等于n，若是，则返回执行步骤S5.2；S5.4判断当前单元中的字节数是否大于等于m，若是，则返回执行步骤S5.2，若否，则删除当前处理单元。

优选地，步骤S9包括：S9.1提取单元组的持续时间作为声纹特征的第一维；S9.2提取单元组传输的数据包个数作为声纹特征的第二维；S9.3提取单元组传输的字节数作为声纹特征的第三维；S9.4计算单元组平均每个包传输的字节数作为声纹特征的第四维；S9.5计算单元组每个数据包所包含载荷字节数的标准差作为声纹特征的第五维；S9.6计算单元组中每个单元所包含载荷数的标准差作为声纹特征的第六维。

（三）有益效果

本发明的方法从加密网络流中提取声纹特征。区别于以往的网络流静态统计特征，本发明提取的声纹特征能够有效地刻画网络流的动态特征。本发明的方法不仅继承了传统的网络流统计特征提取方法的优势，还能够提供更加丰富且可靠的知识，可以为高速网络中高性能流量分类系统的设计和实现提供技术支持。

附图说明

下面参照附图并结合实例来进一步描述本发明。其中：

图1为根据本发明实施例的加密网络流声纹特征向量提取方法的主要步骤流程图。

图2为根据本发明实施例的加密网络流声纹特征向量提取方法的具体步骤流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

针对目前分类技术采用的统计特征提取方法只能从网络流中提取静态的统计特征，从而导致流量分类系统无法正确分类私有加密协议流量，更不能有效识别隐藏在加密代理通道内的协议的问题，本发明提出了一种加密网络流声纹特征向量提取方法。该方法首先利用一个滑动窗口记录一个连续时间段内加密网络流的时序统计特征，然后对滑动窗口内的处理单元进行过滤，得到加密网络流数据传输阶段，最后从数据传输阶段中提取声纹特征。该方法不仅继承了传统的网络流统计特征提取方法的优势，还能够提供更加丰富且可靠的知识，帮助流量分类系统识别私有加密协议和隐藏在加密代理通道内的协议。

如图1和图2所示，根据本发明提供的加密网络流声纹特征向量提取方法包括如下步骤：

S1.查找捕获到的新进网络包在网络流表中对应的网络流；

其中，步骤S1.1前还包括建立用于存储网络流信息的所述网络流表的步骤；

其中，步骤S1进一步包括：

S1.1更新该网络流的基本信息；

其中，在步骤S1.1中，

网络流的基本信息包括：网络流的创建时间t1、新进数据包的到达时间t2。

S2.判断该网络流是否已建立一个声纹特征向量提取滑动窗口，若否，则为该网络流建立一个声纹特征向量提取滑动窗口；

其中，在步骤S2中，

滑动窗口包含30个单元，每个单元记录了网络流在1秒内传输的数据包个数和字节数；

S3.使用当前数据包更新声纹特征向量提取滑动窗口；

其中，步骤S3进一步包括：

S3.1计算声纹特征向量提取滑动窗口中需要更新的单元t2-t1；

S3.2该单元记录的数据包个数加上1；

S3.3该单元记录的字节数加上当前数据包的载荷字节数；

S4.判断网络流持续时间t2-t1是否超过30秒，若未超过，则返回执行步骤S1，若超过，则判断距离上次声纹特征提取时间间隔t3-t2是否超过30秒，若超过则执行步骤S5，若未超过，则返回执行步骤S1；

S5.过滤声纹特征向量提取滑动窗口中数据包个数少于15个或字节数少于3000字节的单元；

其中，步骤S5进一步包括：

S5.1更新声纹特征提取时间t3为当前数据包到达时间t2；

S5.2按顺序读取声纹特征向量提取滑动窗口，直至最后一个处理单元；

S5.3判断当前单元中数据包个数是否大于等于15，若是，则返回执行步骤S5.2；

S5.4判断当前单元中的字节数是否大于等于3000，若是，则返回执行步骤S5.2，若否，则删除当前处理单元；

S6.判断剩余单元个数是否大于0，若是，则创建一个新的声纹特征向量提取滑动窗口，并返回执行步骤S1；

S7.从过滤后的声纹特征向量提取滑动窗口中选出连续超过2个单元的单元组；

S8.判断单元组的个数是否大于0，若否，则返回执行步骤S1；

S9.按顺序提取每个单元组的声纹特征；

其中，步骤S9进一步包括：

S9.1提取单元组的持续时间作为声纹特征的第一维；

S9.2提取单元组传输的数据包个数作为声纹特征的第二维；

S9.3提取单元组传输的字节数作为声纹特征的第三维；

S9.4计算单元组平均每个包传输的字节数作为声纹特征的第四维；

S9.5计算单元组每个数据包所包含载荷字节数的标准差作为声纹特征的第五维；

S9.6计算单元组中每个单元所包含载荷数的标准差作为声纹特征的第六维。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种加密网络流声纹特征向量提取方法，其特征在于，包括步骤：

S2.为加密网络流建立一个声纹特征向量提取滑动窗口；

S3.使用当前数据包更新声纹特征向量提取滑动窗口；

S5.过滤声纹特征向量提取滑动窗口；

S7.从滑动窗口中筛选出连续超过k个单元的单元组；

S9.按顺序提取每个单元组的声纹特征。

2.如权利要求1所述的方法，其特征在于：

步骤S2包括：判断该网络流是否已建立一个声纹特征向量提取滑动窗口，若否，则为该网络流建立一个声纹特征向量提取滑动窗口；

步骤S3与S5之间包括：S4.判断网络流持续时间t2-t1是否超过i×j秒，若未超过，则返回执行步骤S1，若超过，则判断距离上次声纹特征提取时间间隔t3-t2是否超过i×j秒，若超过则执行步骤S5，若未超过，则返回执行步骤S1；

步骤S5与S7之间包括：S6.判断剩余单元个数是否大于0，若是，则创建一个新的声纹特征向量提取滑动窗口，并返回执行步骤S1；

步骤S7与S9之间包括：S8.判断单元组的个数是否大于0，若否，则返回执行步骤S1。

3.如权利要求1或2所述的方法，其特征在于，在步骤S2之前还包括步骤：

S1.查找捕获到的新进网络包在网络流表中对应的网络流。

4.如权利要求3所述的方法，其特征在于，在步骤S1之前还包括步骤：

S0.建立用于存储网络流信息的所述网络流表的步骤。

5.如权利要求3所述的方法，其特征在于，步骤S1包括：

S1.1更新该网络流的基本信息。

6.如权利要求5所述的方法，其特征在于：

7.如权利要求1或2所述的方法，其特征在于：

滑动窗口包含i个单元，每个单元记录了网络流在j秒内传输的数据包个数和字节数。

8.如权利要求1或2所述的方法，其特征在于，步骤S3包括：

S3.1计算声纹特征向量提取滑动窗口中需要更新的单元

S3.2该单元记录的数据包个数加上1；

S3.3该单元记录的字节数加上当前数据包的载荷字节数。

9.如权利要求1或2所述的方法，其特征在于，步骤S5包括：

S5.1更新声纹特征提取时间t3为当前数据包到达时间t2；

S5.3判断当前单元中数据包个数是否大于等于n，若是，则返回执行步骤S5.2；

S5.4判断当前单元中的字节数是否大于等于m，若是，则返回执行步骤S5.2，若否，则删除当前处理单元。

10.如权利要求1或2所述的方法，其特征在于，步骤S9包括：

S9.1提取单元组的持续时间作为声纹特征的第一维；

S9.2提取单元组传输的数据包个数作为声纹特征的第二维；

S9.3提取单元组传输的字节数作为声纹特征的第三维；