CN103546333A - 加密网络流声纹特征向量提取方法 - Google Patents

加密网络流声纹特征向量提取方法 Download PDF

Info

Publication number
CN103546333A
CN103546333A CN201210246765.4A CN201210246765A CN103546333A CN 103546333 A CN103546333 A CN 103546333A CN 201210246765 A CN201210246765 A CN 201210246765A CN 103546333 A CN103546333 A CN 103546333A
Authority
CN
China
Prior art keywords
vocal print
network flow
sliding window
characteristic vector
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210246765.4A
Other languages
English (en)
Other versions
CN103546333B (zh
Inventor
薛一波
王大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210246765.4A priority Critical patent/CN103546333B/zh
Publication of CN103546333A publication Critical patent/CN103546333A/zh
Application granted granted Critical
Publication of CN103546333B publication Critical patent/CN103546333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种加密网络流声纹特征向量提取方法,包括步骤:S2.为加密网络流建立一个声纹特征向量提取滑动窗口;S3.使用当前数据包更新声纹特征向量提取滑动窗口;S5.过滤声纹特征向量提取滑动窗口;S7.从滑动窗口中筛选出连续超过k个单元的单元组;S9.按顺序提取每个单元组的声纹特征。本发明提取的声纹特征能够有效地刻画网络流的动态特征。本发明的方法不仅继承了传统的网络流统计特征提取方法的优势,还能够提供更加丰富且可靠的知识,可以为高速网络中高性能流量分类系统的设计和实现提供技术支持。

Description

加密网络流声纹特征向量提取方法
技术领域
本发明属于网络技术中流量分类技术领域,尤其涉及加密网络流声纹特征向量提取方法。
背景技术
网络技术和网络带宽的迅速发展对网络安全提出了新的挑战:首先,网络中的数据流量成倍增加,网络数据高速无穷到达,且不间断,呈现海量数据特点,并且本地无法进行存储。因此,传统基于数据包载荷的流量分类技术的效率无法满足需要;其次,网络承载的业务也越来越丰富,越来越多的网络业务使用加密协议封装后传输,加密协议的广泛使用,使得传统基于数据包载荷的流量分类技术无法找到有效的关键字,已经严重失效。
针对上述问题,业界提出了基于网络流的流量分类技术。网络流是两个网络实体之间持续一段时间并属于相同流属性值集的数据包序列。作为一种数据交换方式,网络流从一个微观层面上反映了主机行为和主机之间相互通信的细节。通过收集IP协议流量信息,网络流能够为流量分类系统提供精确、高效、可靠的处理对象。网络流是目前流量分类技术领域的热点,它的应用能够提升流量分类系统在高速网络中的性能。
思科公司首先提出了网络流的概念,并引入了两个重要的参数:流规范(flow specification)和流超时(flow timeout)。
流规范的定义可以用一个五元组来表示:
1、源IP地址;
2、目的IP地址;
3、TCP/UDP协议的原始端口号(0代表其它协议);
4、TCP/UDP协议的目的端口号(0代表其它协议);
5、IP协议类型。
按照流规范的定义,对于一个新进的网络数据包,如果在Cache(高速缓冲存储器)中无法能够找到与之相对应的网络流信息,则在Cache中创建一个新的网络流。
流超时规定了4个规则来判定一个网络流是否终结:
1、TCP协议标志位是FIN或者RST;
2、收到一个数据包后15秒内没有另外的数据包到达;
3、网络流创建30分钟;
4、网络流的Cache已满。
基于网络流的流量分类技术从网络流中提取统计特征,然后利用机器学习等方法对提取的统计特征进行建模和分类。因此,该技术能够在不检测数据包载荷的前提下,实现流量的分类。基于网络流的流量分类技术已经成为业界热点。然而,随着加密协议的不断演化,利用加密协议的传播手段越来越灵活,基于网络流的流量分类技术的效果也受到越来越多的挑战。其中,影响该技术效果的主要原因在于统计特征向量的提取方法:
首先,许多私有加密协议模仿一些公开的加密协议进行业务传播,而私有协议和被模仿的加密协议在统计特征上极其相似,这就使得基于网络流的流量分类技术无法正确地将这些私有加密协议和被模仿的公开加密协议进行分类。
其次,越来越多的网络业务采用加密代理通道协议传输业务。加密代理通道协议以加密协议作为外部中介,利用加密协议所建立的加密通道传输特定协议封装后的信息。例如,利用SSH、VPN等加密代理通道协议封装HTTP协议进行传输。加密代理通道协议不仅具有加密协议的特性,还具有极强的隐秘性。一方面,加密代理通道协议将多种业务的流量混合在一起,增加了流量分类的难度;另一方面,加密代理通道协议利用一个加密网络流对多个网络流进行封装,不仅隐藏了载荷关键字,还掩盖了流量的统计特征。目前,加密代理通道协议已经成为许多非法业务的主要传播途径,许多不法分子利用加密代理通道协议在网上肆意传播盗版、黄色、反动等不良信息。利用现有的统计特征提取方法,基于网络流的流量分类技术虽然能够有效识别加密代理通道协议,却无法识别通道内的隐藏协议。
综上所述,由于目前分类技术采用的统计特征提取方法只能从网络流中提取静态的统计特征,导致流量分类系统无法正确分类私有加密协议流量,更不能有效识别隐藏在加密代理通道内的协议。针对这一问题本发明引入了网络流声纹特征的概念。区别于传统的网络流静态特征,声纹特征着眼于网络流的动态特性。网络流声纹特征能够突破私有加密协议以及代理通道协议的隐秘性带来的障碍,动态地反映真实协议的行为特征,为识别私有加密协议以及代理通道中隐藏协议提供知识基础。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是:如何提供一种加密网络流声纹特征提取方法,为基于网络流的流量分类系统提供更加丰富的知识,以识别私有加密协议,以及隐藏在代理通道内的协议。
(二)技术方案
为了解决上述问题,本发明提供了一种加密网络流声纹特征向量提取方法,包括步骤:S2.为加密网络流建立一个声纹特征向量提取滑动窗口;S3.使用当前数据包更新声纹特征向量提取滑动窗口;S5.过滤声纹特征向量提取滑动窗口;S7.从滑动窗口中筛选出连续超过k个单元的单元组;S9.按顺序提取每个单元组的声纹特征。
优选地,步骤S2包括:判断该网络流是否已建立一个声纹特征向量提取滑动窗口,若否,则为该网络流建立一个声纹特征向量提取滑动窗口;步骤S3与S5之间包括:S4.判断网络流持续时间t2-t1是否超过i×j秒,若未超过,则返回执行步骤S1,若超过,则判断距离上次声纹特征提取时间间隔t3-t2是否超过i×j秒,若超过则执行步骤S5,若未超过,则返回执行步骤S1;步骤S5与S7之间包括:S6.判断剩余单元个数是否大于0,若是,则创建一个新的声纹特征向量提取滑动窗口,并返回执行步骤S1;步骤S7与S9之间包括:S8.判断单元组的个数是否大于0,若否,则返回执行步骤S1。
优选地,在步骤S2之前还包括步骤:S1.查找捕获到的新进网络包在网络流表中对应的网络流。
优选地,在步骤S1之前还包括步骤:S0.建立用于存储网络流信息的所述网络流表的步骤。
优选地,步骤S1包括:S1.1更新该网络流的基本信息。
优选地,网络流的基本信息包括:网络流的创建时间t1、新进数据包的到达时间t2。
优选地,滑动窗口包含i个单元,每个单元记录了网络流在j秒内传输的数据包个数和字节数。
优选地,步骤S3包括:S3.1计算声纹特征向量提取滑动窗口中需要更新的单元
Figure BDA00001894222100041
S3.2该单元记录的数据包个数加上1;S3.3该单元记录的字节数加上当前数据包的载荷字节数。
优选地,步骤S5包括:S5.1更新声纹特征提取时间t3为当前数据包到达时间t2;S5.2按顺序读取声纹特征向量提取滑动窗口,直至最后一个处理单元;S5.3判断当前单元中数据包个数是否大于等于n,若是,则返回执行步骤S5.2;S5.4判断当前单元中的字节数是否大于等于m,若是,则返回执行步骤S5.2,若否,则删除当前处理单元。
优选地,步骤S9包括:S9.1提取单元组的持续时间作为声纹特征的第一维;S9.2提取单元组传输的数据包个数作为声纹特征的第二维;S9.3提取单元组传输的字节数作为声纹特征的第三维;S9.4计算单元组平均每个包传输的字节数作为声纹特征的第四维;S9.5计算单元组每个数据包所包含载荷字节数的标准差作为声纹特征的第五维;S9.6计算单元组中每个单元所包含载荷数的标准差作为声纹特征的第六维。
(三)有益效果
本发明的方法从加密网络流中提取声纹特征。区别于以往的网络流静态统计特征,本发明提取的声纹特征能够有效地刻画网络流的动态特征。本发明的方法不仅继承了传统的网络流统计特征提取方法的优势,还能够提供更加丰富且可靠的知识,可以为高速网络中高性能流量分类系统的设计和实现提供技术支持。
附图说明
下面参照附图并结合实例来进一步描述本发明。其中:
图1为根据本发明实施例的加密网络流声纹特征向量提取方法的主要步骤流程图。
图2为根据本发明实施例的加密网络流声纹特征向量提取方法的具体步骤流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
针对目前分类技术采用的统计特征提取方法只能从网络流中提取静态的统计特征,从而导致流量分类系统无法正确分类私有加密协议流量,更不能有效识别隐藏在加密代理通道内的协议的问题,本发明提出了一种加密网络流声纹特征向量提取方法。该方法首先利用一个滑动窗口记录一个连续时间段内加密网络流的时序统计特征,然后对滑动窗口内的处理单元进行过滤,得到加密网络流数据传输阶段,最后从数据传输阶段中提取声纹特征。该方法不仅继承了传统的网络流统计特征提取方法的优势,还能够提供更加丰富且可靠的知识,帮助流量分类系统识别私有加密协议和隐藏在加密代理通道内的协议。
如图1和图2所示,根据本发明提供的加密网络流声纹特征向量提取方法包括如下步骤:
S1.查找捕获到的新进网络包在网络流表中对应的网络流;
其中,步骤S1.1前还包括建立用于存储网络流信息的所述网络流表的步骤;
其中,步骤S1进一步包括:
S1.1更新该网络流的基本信息;
其中,在步骤S1.1中,
网络流的基本信息包括:网络流的创建时间t1、新进数据包的到达时间t2。
S2.判断该网络流是否已建立一个声纹特征向量提取滑动窗口,若否,则为该网络流建立一个声纹特征向量提取滑动窗口;
其中,在步骤S2中,
滑动窗口包含30个单元,每个单元记录了网络流在1秒内传输的数据包个数和字节数;
S3.使用当前数据包更新声纹特征向量提取滑动窗口;
其中,步骤S3进一步包括:
S3.1计算声纹特征向量提取滑动窗口中需要更新的单元t2-t1;
S3.2该单元记录的数据包个数加上1;
S3.3该单元记录的字节数加上当前数据包的载荷字节数;
S4.判断网络流持续时间t2-t1是否超过30秒,若未超过,则返回执行步骤S1,若超过,则判断距离上次声纹特征提取时间间隔t3-t2是否超过30秒,若超过则执行步骤S5,若未超过,则返回执行步骤S1;
S5.过滤声纹特征向量提取滑动窗口中数据包个数少于15个或字节数少于3000字节的单元;
其中,步骤S5进一步包括:
S5.1更新声纹特征提取时间t3为当前数据包到达时间t2;
S5.2按顺序读取声纹特征向量提取滑动窗口,直至最后一个处理单元;
S5.3判断当前单元中数据包个数是否大于等于15,若是,则返回执行步骤S5.2;
S5.4判断当前单元中的字节数是否大于等于3000,若是,则返回执行步骤S5.2,若否,则删除当前处理单元;
S6.判断剩余单元个数是否大于0,若是,则创建一个新的声纹特征向量提取滑动窗口,并返回执行步骤S1;
S7.从过滤后的声纹特征向量提取滑动窗口中选出连续超过2个单元的单元组;
S8.判断单元组的个数是否大于0,若否,则返回执行步骤S1;
S9.按顺序提取每个单元组的声纹特征;
其中,步骤S9进一步包括:
S9.1提取单元组的持续时间作为声纹特征的第一维;
S9.2提取单元组传输的数据包个数作为声纹特征的第二维;
S9.3提取单元组传输的字节数作为声纹特征的第三维;
S9.4计算单元组平均每个包传输的字节数作为声纹特征的第四维;
S9.5计算单元组每个数据包所包含载荷字节数的标准差作为声纹特征的第五维;
S9.6计算单元组中每个单元所包含载荷数的标准差作为声纹特征的第六维。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种加密网络流声纹特征向量提取方法,其特征在于,包括步骤:
S2.为加密网络流建立一个声纹特征向量提取滑动窗口;
S3.使用当前数据包更新声纹特征向量提取滑动窗口;
S5.过滤声纹特征向量提取滑动窗口;
S7.从滑动窗口中筛选出连续超过k个单元的单元组;
S9.按顺序提取每个单元组的声纹特征。
2.如权利要求1所述的方法,其特征在于:
步骤S2包括:判断该网络流是否已建立一个声纹特征向量提取滑动窗口,若否,则为该网络流建立一个声纹特征向量提取滑动窗口;
步骤S3与S5之间包括:S4.判断网络流持续时间t2-t1是否超过i×j秒,若未超过,则返回执行步骤S1,若超过,则判断距离上次声纹特征提取时间间隔t3-t2是否超过i×j秒,若超过则执行步骤S5,若未超过,则返回执行步骤S1;
步骤S5与S7之间包括:S6.判断剩余单元个数是否大于0,若是,则创建一个新的声纹特征向量提取滑动窗口,并返回执行步骤S1;
步骤S7与S9之间包括:S8.判断单元组的个数是否大于0,若否,则返回执行步骤S1。
3.如权利要求1或2所述的方法,其特征在于,在步骤S2之前还包括步骤:
S1.查找捕获到的新进网络包在网络流表中对应的网络流。
4.如权利要求3所述的方法,其特征在于,在步骤S1之前还包括步骤:
S0.建立用于存储网络流信息的所述网络流表的步骤。
5.如权利要求3所述的方法,其特征在于,步骤S1包括:
S1.1更新该网络流的基本信息。
6.如权利要求5所述的方法,其特征在于:
网络流的基本信息包括:网络流的创建时间t1、新进数据包的到达时间t2。
7.如权利要求1或2所述的方法,其特征在于:
滑动窗口包含i个单元,每个单元记录了网络流在j秒内传输的数据包个数和字节数。
8.如权利要求1或2所述的方法,其特征在于,步骤S3包括:
S3.1计算声纹特征向量提取滑动窗口中需要更新的单元
S3.2该单元记录的数据包个数加上1;
S3.3该单元记录的字节数加上当前数据包的载荷字节数。
9.如权利要求1或2所述的方法,其特征在于,步骤S5包括:
S5.1更新声纹特征提取时间t3为当前数据包到达时间t2;
S5.2按顺序读取声纹特征向量提取滑动窗口,直至最后一个处理单元;
S5.3判断当前单元中数据包个数是否大于等于n,若是,则返回执行步骤S5.2;
S5.4判断当前单元中的字节数是否大于等于m,若是,则返回执行步骤S5.2,若否,则删除当前处理单元。
10.如权利要求1或2所述的方法,其特征在于,步骤S9包括:
S9.1提取单元组的持续时间作为声纹特征的第一维;
S9.2提取单元组传输的数据包个数作为声纹特征的第二维;
S9.3提取单元组传输的字节数作为声纹特征的第三维;
S9.4计算单元组平均每个包传输的字节数作为声纹特征的第四维;
S9.5计算单元组每个数据包所包含载荷字节数的标准差作为声纹特征的第五维;
S9.6计算单元组中每个单元所包含载荷数的标准差作为声纹特征的第六维。
CN201210246765.4A 2012-07-16 2012-07-16 加密网络流声纹特征向量提取方法 Active CN103546333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210246765.4A CN103546333B (zh) 2012-07-16 2012-07-16 加密网络流声纹特征向量提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210246765.4A CN103546333B (zh) 2012-07-16 2012-07-16 加密网络流声纹特征向量提取方法

Publications (2)

Publication Number Publication Date
CN103546333A true CN103546333A (zh) 2014-01-29
CN103546333B CN103546333B (zh) 2016-08-10

Family

ID=49969408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210246765.4A Active CN103546333B (zh) 2012-07-16 2012-07-16 加密网络流声纹特征向量提取方法

Country Status (1)

Country Link
CN (1) CN103546333B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256459A1 (en) * 2007-04-10 2008-10-16 Sharp Kabushiki Kaisha Control apparatus, program, computer-readable storage medium, imaging apparatus control system, and control method
CN101848160A (zh) * 2010-05-26 2010-09-29 钱叶魁 在线检测和分类全网络流量异常的方法
CN102468987A (zh) * 2010-11-08 2012-05-23 清华大学 网络流特征向量提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256459A1 (en) * 2007-04-10 2008-10-16 Sharp Kabushiki Kaisha Control apparatus, program, computer-readable storage medium, imaging apparatus control system, and control method
CN101848160A (zh) * 2010-05-26 2010-09-29 钱叶魁 在线检测和分类全网络流量异常的方法
CN102468987A (zh) * 2010-11-08 2012-05-23 清华大学 网络流特征向量提取方法

Also Published As

Publication number Publication date
CN103546333B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN102468987B (zh) 网络流特征向量提取方法
CN106101015B (zh) 一种移动互联网流量类别标记方法和系统
CN105871832A (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN102739457B (zh) 一种基于dpi和svm技术的网络流量识别方法
CN102724317A (zh) 一种网络数据流量分类方法和装置
CN106921637A (zh) 网络流量中的应用信息的识别方法和装置
CN107360145A (zh) 一种多节点蜜罐系统及其数据分析方法
CN105847078B (zh) 一种基于dpi自学习机制的http流量精细化识别方法
CN103647716A (zh) 一种数据包快速转发方法及装置
CN110519298A (zh) 一种基于机器学习的Tor流量识别方法及装置
CN103188042B (zh) 一种ip数据包的匹配方法和匹配加速器
CN104618377A (zh) 基于NetFlow的僵尸网络检测系统与检测方法
CN102710504A (zh) 应用识别方法和装置
CN103746914B (zh) 建立私网标签与原始vrf对应关系的方法、装置及系统
CN105099916B (zh) 开放流路由交换设备及其对数据报文的处理方法
CN104935570A (zh) 基于网络流连接图的网络流连接行为特征分析方法
CN102571946A (zh) 一种基于对等网络的协议识别与控制系统的实现方法
CN105812372A (zh) 基于标签交换的单包溯源方法
CN103973589A (zh) 网络流量分类方法及装置
CN106850547A (zh) 一种基于http协议的数据还原方法及系统
CN101360090A (zh) 应用层协议识别方法
Song et al. The correlation study for parameters in four tuples
CN114172731A (zh) IPv6地址的快速验证溯源方法、装置、设备及介质
CN106888115B (zh) 一种网络拓扑构建方法与系统
CN101984635B (zh) P2p协议流量识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant