CN102904822A

CN102904822A - VoIP网络流量的层次化识别方法

Info

Publication number: CN102904822A
Application number: CN2012104054571A
Authority: CN
Inventors: 秦涛; 杨柳静; 管晓宏; 李卫
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2012-10-22
Filing date: 2012-10-22
Publication date: 2013-01-30

Abstract

一种VoIP网络流量层次化识别方法，首先与特殊IP和端口模版库匹配，若存在特殊IP和端口，则能实现快速识别；若没有特殊IP和端口，再进行传输层特征序列的收集，收集过程中会根据数据报文长度阈值快速标记明显的非VoIP应用；收集到指定数目的数据包后，对该双向网络流的特征序列做相应处理并与VoIP统计特征模版库中各标准依次匹配，标记出其应用类型，匹配过程中用到了互雷尼信息熵作为其中的标准之一。本方法仅利用网络流的前若干数据包的特征信息，可以实现在VoIP网络流量建立初期快速高效识别的效果。同时由于仅仅用到传输层的特征信息，无需逐报文检测，无复杂的计算处理过程，高效简单，系统开销小，可以实时在线应用。

Description

VoIP网络流量的层次化识别方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种根据网络流量识别具体VoIP应用类型的方法。

背景技术

VoIP（Voice over Internet Protocol）是一种以IP电话为主，并推出相应的增值业务的技术。VoIP网络电话就是将模拟的声音讯号经过压缩与封包之后，以数据封包的形式在IP网络进行语音讯号的传输，通俗来说也就是互联网电话或IP电话。VoIP最大的优势是能广泛地采用Internet和全球IP互连的环境，提供比传统业务更多、更好的服务，它使你可以通过互联网免费或是资费很低地在IP网络上传送语音、传真、视频、和数据等业务，如统一消息、虚拟电话、虚拟语音/传真邮箱、查号业务、Internet呼叫中心、Internet呼叫管理、电视会议、电子商务、传真存储转发和各种信息的存储转发等。随着VOIP技术的迅猛发展，VoIP网络电话无论在通话质量还是语音功能上跟传统的通讯方式已经不相上下了，并且网络电话还在资费和增值业务上拥有巨大的优势。这都是VoIP网络电话能保持迅速发展、被越来越多的用户和运营商认可的重要原因。随着网络向100%IP化方向的发展，VoIP已经势不可挡，必将在下一代网络中成为最重要的应用之一。

目前IP网上的多媒体应用主要有：VoIP、IPTV、远程医疗和远程教育等，在上述多媒体应用中VoIP目前的业务较多，发展较快，也是网络运营商较为看好的经济增长点。市场研究公司Point Topic发布的报告称，2010年全球网络语音通话(VoIP)的营收达173亿美元，较2009年增长12.6%。Point Topic预计，全球网络电话市场规模在5年之内将超过去年的两倍，达到400亿美元。今年3月，美国联邦通讯委员会（FCC）称，使用VoIP的普通消费者和企业增长了21%，而传统电话线路的使用率则下滑了8%。约翰·波斯奈尔预计，截至到2015年年底，将有超过7.5亿的固定宽带用户。理论上讲，这些用户都将是VoIP的目标对象。从这些数据可以看出，VoIP的发展非常迅速，占据了越来越重要的市场份额，正在而且将被越来越多的人接受。相应地，随着VoIP网络电话的迅猛发展及其用户的迅速增多，其产生的流量也在逐年上升，在网络流量中占据了越来越多的份额，使得互联网的控制机制和行为特征也越来越复杂和难以理解。与此同时，从现有的应用情况看，VoIP应用培养了大量的虚拟运营商，分流了电信运营商的业务收入，主要表现在使得网络“增量不增收”，给宽带电信运营商可持续良性发展带来了较大的压力。于是如何实现VoIP网络应用流量的可管可控，实现网络价值最大化成为运营商最为关心的问题。但是在现有网络中，VoIP缺乏统一的运营标准，虽然有SIP，H323和MGCP等标准协议，但真正应用于网络中的通常是私有协议，如QQ，Skype，MSN和Gtalk等，给VoIP网络流量的识别和管理增加了难度。因此，寻找一种能高效识别与监控VoIP流量的方法，对网络流量的管理和规划具有非常大的意义。目前的识别方法主要有下面四类：

（1）基于协议特征的识别技术：VoIP目前常用的信令协议包括H.323、SIP、MEGACO和MGCP；语音媒体流数据通常采用RTP/RTCP协议。因此对于基于标准协议的VoIP流量，可以根据这些协议的特征很容易的识别。但是在现有网络中，VoIP应用缺乏统一的标准规范，虽然有SIP,H323,MGCP等标准协议，但真正应用于网络中的通常是私有协议，如QQ,Skype,MSN,Gtalk等，这些私有协议都是标准协议的变体，为了语音传输安全考虑，一般都会加密，给VoIP流量识别带来了困难，简单的基于协议的识别已经变得不可行了。

（2）基于特殊IP和端口的识别技术：VoIP应用在登录、在线、语音通话、退出过程中，有一部分数据流量会出现特殊的IP和端口特性，因此可根据这些特殊的IP和端口对VoIP网络流量进行识别。但是由于还有一部分流量，特别是语音通话流大多情况都不含有特殊IP和端口，这种情况下，基于特殊IP和端口的识别技术的识别效果就不会很好，因此只基于特殊IP和端口的识别技术并不能很好的适用，可以结合统计特征来综合识别VoIP网络流量，以达到更好的识别效果。

（3）基于静荷统计特征的识别技术：基于静荷统计特征的识别方法理论上实现简单，并且有明确的识别标准，但是这种方法不具有通用性，并不是所有的VoIP应用都能找到静荷特征，而对于能找到静荷特征的不同应用，静荷特征又各不相同，同一种应用不同状态时的静荷特征一般也不相同，这样就很难统一，要实现多种情况特征字符串的匹配，并且在非VoIP应用中也有可能出现相同的静荷特征，会严重影响识别效果。同时匹配静荷特征涉及到数据包内容，需要逐报文检测，系统开销大，影响识别效率。再者，语音通话过程短时间内会产生大量的数据报文较小的数据包。这种情况下，基于静荷统计特征的识别技术也是不适用的。目前在VoIP领域，这种方法只在Skype流量识别中出现过，只针对UDP数据包，且不涉及语音通话流量的识别，只是一些简单的操作过程产生的少量流量的识别。

（4）基于流统计特征的识别技术：基于流统计特性的识别方法具有通用性，适用于多种应用识别。语音流有区别于其它报文流的显著特性，报文长度短，而且短时间内会产生大量数据报文，因此根据统计特征能很好的识别语音传输数据流。如可根据数据流的数据报文长度、数据包间隔和突发带宽消耗等实时流特征识别VoIP流量。并且基于流统计特征的识别技术一般仅仅利用数据包的包头信息，高效简单，无需逐报文检测，系统开销小。但是这种识别技术目前在VoIP识别领域应用的并不多，并且多集中在对Skype流量的识别上，基于这种识别技术广泛的对各种VoIP应用流量的具体识别还没有出现。

发明内容

本发明的目的在于解决现有VoIP网络流量识别技术中效率和准确度较低并且不能更深层次的识别具体是何种VoIP应用类型的问题，提供一种新的层次化的VoIP网络流量识别方法。

本发明解决其技术问题所采用的技术方案是：

具有一个包括以下步骤的识别模块：

步骤1：对接收到的数据包的包头进行解析，获得此数据包的协议类型、源IP、源端口、目的IP、目的端口、数据报文长度和数据包间隔；

步骤2：判断接收到的数据包是否为UDP或TCP包，若不是，则转步骤1；若是，判断双向网络流表是否为空，若为空，则直接转步骤3；若不为空，则在双向网络流表中查询相同协议类型下是否存在双向网络流记录的源IP和目的IP与接收到数据包的源IP和目的IP相同，或者双向网络流记录的目的IP和源IP与接收到数据包的源IP和目的IP相同，若存在这样的双向网络流，转步骤4；若不存在这样的双向网络流，转步骤3；

步骤3：根据接收到数据包的源IP和目的IP创建新的双向网络流，在双向网络流中记录此数据包的数据报文长度和源、目的端口对，置数据包间隔为0，然后与VoIP特殊IP和端口模版匹配，如果不存在特殊IP和端口，转向步骤1；如果存在特殊IP和（或）端口，标记此双向网络流的VoIP应用类型，转向步骤1；

步骤4：判断此双向网络流的VoIP应用类型是否已经标定，如果没有标定，在此双向网络流中记录此数据包的数据报文长度、数据包间隔和源、目的端口对，转向步骤5；如果已经标定，转向步骤1；

步骤5：判断此数据包的数据报文长度是否在设定的数据报文长度阈值M内，若大于设定的数据报文长度阈值M，则为非VoIP数据包，此双向网络流标记为非VoIP数据流，转向步骤1；若在设定的数据报文长度阈值M内，转向步骤6；

步骤6：判断此双向网络数据流的数据包记录有没有达到设定的数据包数阈值N，如果没有，转向步骤1；如果已经达到设定的数据包数阈值N表示此双向网络流的统计特征已经收集完毕，统计最小报文值、最大报文值、平均数据包间隔、不同<源端口，目的端口>对的数目和报文值的概率分布，然后与VoIP统计特征模板库中相同协议类型下的统计特征模板依次进行匹配；前面几个统计特征只需直接与VoIP统计特征模板库中的对应项比较即可，报文值的概率分布是用来与VoIP统计特征模板库中的各VoIP应用的报文值概率分布模版计算互雷尼信息熵的，计算的熵值绝对值与设定的互雷尼信息熵阈值η进行比较，若小于设定的互雷尼信息熵阈值η则能匹配，否则匹配失败；若存在能够匹配的特征模版，由此可以识别标记出该双向网络流对应的VoIP应用类型，转向步骤7；如果不存在能够匹配的特征模板，则此双向网络流为被监控VoIP应用外的其他网络应用的数据流，标记此双向网络流记录为其他类型，转向步骤1；

步骤7：若该双向网络流所对应的两IP之间同时存在TCP和UDP两种协议的双向网络流，则直接把没有标记应用类型的那个双向网络流标记为与该双向网络流相同的应用类型，转向步骤1。

还具有一个与识别模块并行的定时更新模块，用于对双向网络流表进行定时更新，将超过规定双向网络流包间隔阈值T内无数据包出入的双向网络流按照源IP、目的IP、协议类型（TCP/UDP）和VoIP应用类型的格式输出到文本文件中，并将此双向网络流记录清除。

所述的数据包数阈值N，取值满足N>1000；对于数据报文长度阈值M，若为UDP数据包，取值需满足950≤M≤1000，若为TCP数据包则没有要求；对于互雷尼信息熵阈值η，取值为1.5；对于双向网络流包间隔阈值T，取值为60秒。

所述的双向网络流指的是基于主机层的双向网络流，其定义为：本地主机与远端主机在某种协议类型（TCP或UDP）下互相通信所产生的数据包集合，设定如果双向网络流包间隔阈值T内无相应的数据包，则认为该双向网络流已经结束。

本发明通过对大量VoIP应用的数据包在传输层上进行研究分析，提取不同VoIP应用传输层的特征信息，依据这些传输层的特征信息对VoIP网络流量进行识别。

各种VoIP应用在语音通话过程中会出现一些具有特殊IP和（或）端口的网络流，这些网络流一般都是数据包间隔较大的控制数据流，也有的是在某些特殊情况下的语音数据流，通过大量的实验分析发现这些特殊的IP和端口，作为识别依据之一。对于大量的不包含特殊IP和端口的语音数据流，可以利用传输层统计特征来识别。语音通信数据流有区别于其它报文流的显著特性，报文长度短，而且短时间内会产生大量数据报文。

在VoIP应用中，数据包大小主要由源主机端的编解码器决定，对VoIP应用来说，不同的编解码将会在网络上产生两种类型的流量，也就是可变比特率（VBR）和恒定比特率（CBR）的流量。在恒定比特率流量中，语音信息被固定的采样大小和采样速率编码成大小相同的帧，这导致了语音流具有相同的数据包大小，国内的VoIP软件很多都采用这种编码方式，如比较有名的KC、UUCall、阿里通、中华通、聊否等等；在可变比特率流量中，尽管采样速率是固定的，帧却被编码成不同的大小以获得最佳的压缩质量，经常是几个数据包值出现较高的概率，其他的数据包值出现的概率较低甚至为零，国内外使用较多的Skype、MSN、Gtalk和QQ都是采用这种编码方式的。使用CBR编码的语音流，具有固定的数据报文大小，而使用VBR编码的语音流，虽然不具有固定的数据报文大小，但不同大小的数据报文出现的概率具有一定的规律。因此数据报文大小及其概率分布特征可以用来作为识别的依据之一。

虽然语音流在短时间内会产生大量数据报文，但是数据包间隔并不是固定的，并且这里是按双向流统计的，有发送包，也有接收包，数据包间隔指的相继捕获的两个数据包之间的时间间隔。再考虑到通话双方所处的地理位置与网络环境，使得数据包间隔成了一个随机变量，但是由“短时间内会产生大量数据报文”可知，平均数据包间隔是在一定的范围内变化的。因此平均数据包间隔也可以作为识别依据之一。

由于语音通话过程中，伴随语音数据包的往往会有语音数据控制包，所以源、目的IP之间的端口对一般并不唯一，但各种VoIP应用都有其一定的阈值。这也可以作为识别依据之一。

结合前面提到的几个依据，本发明提出使用特殊IP和端口、数据报文值大小范围、平均数据包间隔、源目的端口对数和数据报文值的概率分布规律作为识别依据，分层次识别各种VoIP应用。在识别之前需要建立模版库，模版库建立在对大量VoIP应用的数据包在传输层上进行研究分析的基础上，包括VoIP特殊IP和端口模版库与VoIP统计特征模版库。识别时，首先进行特殊IP和端口的匹配，若存在特殊IP或端口，则能达到快速识别的效果；若没有特殊IP和端口，再进行传输层统计特征序列的收集、处理和匹配。并且在识别的过程中会添加一些简单的判断，如利用数据报文阈值快速排除非VoIP应用；对于通话中两IP间同时存在TCP和UDP双向流的情况，一旦确定其中一种协议双向流的VoIP应用类型，可以快速标记另一种协议双向流的VoIP应用类型。同时经过分析发现，只利用双向网络流的前若干数据包的传输层统计特征信息就能很好的代替整个双向网络流的传输层统计特征信息来进行识别，实现在VoIP网络流量建立初期快速高效识别的效果。

本发明所提出的VoIP网络流量的层次化识别方法，具有以下有益效果：

1、首先会判断接收到的数据包是否为UDP或TCP包，排除了其他的非UDP和TCP包，节省了时间和系统开销。

2、分层识别可以将具有特殊IP或端口的网络流首先识别出来，不涉及到后面传输层统计特征的积累、计算和匹配，可以达到快速识别的效果。

3、识别的过程中，会判断数据报文长度是否大于设定阈值M。若大于M，则直接标记对应的双向网络流为非VoIP应用，这一操作可以排除很多的非VoIP网络流，节省了大量的时间和系统开销，提高了识别效率。

4、识别只利用双向网络流的前若干个数据包，实现在VoIP网络流量建立初期快速高效识别的效果。

5、基于特殊IP和端口、数据报文值范围、平均数据包间隔和数据报文值的概率分布规律几个特征来实现，无需检测数据报文内容，系统开销小，识别准确度高，可以实时在线应用。

6、引入了互雷尼信息熵的方法，可以把数据报文值及其出现概率结合起来同时使用，克服了单独的信息熵只使用概率时引起的问题。

7、对于语音通话过程中在通话主机间同时出现TCP和UDP流量的情况，只判定其中一种协议流量的VoIP应用类型，就可以直接标记另一协议对应的网络流的VoIP应用类型。

附图说明

图1是本发明的系统结构框图；

图2是图1中分层识别的具体结构框图；

图3是图1中双向网络流表的一条双向网络流记录的数据结构图；

图4是本发明VoIP网络流量层次化识别方法的算法流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

参照图1，数据包获取模块用于对被监控网络数据包的获取，并对数据包按照本文双向网络流的定义将其传输层特征存储到双向网络流表中相应的双向网络流记录中。

双向网络流表用于记录源IP、目的IP、协议类型（TCP/UDP）、VoIP应用类型及其传输层统计特征序列。

定时更新模块用于对双向网络流表进行定时更新，将超过规定时间阈值T内无数据包出入的双向网络流按照源IP、目的IP、协议类型（TCP/UDP）和VoIP应用类型的格式输出到文本文件中，将此双向网络流记录清除。

VoIP特殊IP和端口模板库中存储各种被监控VoIP应用双向网络流的特殊IP和端口，向特殊IP和端口匹配模块提供特征模板。

特殊IP和端口匹配模块用于将双向网络流中的源、目的IP和源、目的端口与VoIP特殊IP和端口模板库中相同协议类型下的特殊IP和端口模板进行匹配，若存在可匹配的模版，则可直接标记相应的双向网络流的VoIP应用类型；若不能匹配，则转到下一层的匹配识别中。这个模版库主要用于识别在语音通话中出现的比较小的控制流，也能快速识别一些比较大的语音数据流。

VoIP统计特征模板库中存储各种被监控VoIP应用双向网络流传输层的统计特征信息，向统计特征匹配模块提供特征模板。参照图2可知，该模版库中的统计特征信息包括报文值大小范围、平均数据包间隔、不同<源端口，目的端口>对数目和报文值概率分布规律。

统计特征处理模块用于对收集到指定数目数据包的双向流计算最小报文值、最大报文值、平均数据包间隔、不同<源端口，目的端口>对数目和报文值的概率分布。

统计特征匹配模块用于将统计特征处理模块的处理结果与VoIP统计特征模板库中相同协议类型下的统计特征模板依次进行匹配。参照图2可知，前面几个统计特征只需直接与模版库中的对应项比较即可，报文值的概率分布用来与模版库中各VoIP应用的报文值概率分布模版计算互雷尼信息熵，计算的熵值绝对值与设定的阈值η进行比较，若小于设定的阈值η则能匹配，否则匹配失败。若存在能够匹配的特征模版，由此可以识别标记出该流对应的VoIP应用类型；如果不存在能够匹配的特征模板，则此双向网络流为被监控VoIP应用外的其他网络应用的数据流，标记此双向网络流记录为其他类型。这个模版库是用来识别比较大的语音流的。

参照图2，具体描述了分层识别的整个过程。对于捕获的网络流量，我们从主机层双向网络流的角度进行分析，建立双向网络流表以存储我们需要的信息。初步识别指的是通过特殊IP和端口来识别，若存在特殊IP和端口，则在这一步就可以识别；若不存在特殊IP和端口，则通过统计特征识别。统计特征的识别需要进行统计特征序列的收集、处理与匹配。

参照图3，VoIP应用类型记录此双向网络流的VoIP应用类型，由于本发明所提出的识别方法只利用双向网络流的前若干数据包，因此在双向网络流开始之初我们就可以判断此网络流的VoIP应用类型了。因此，当正在处理中的数据包查询到对应双向网络流记录中的VoIP应用类型已经断定时，就不需要再做任何处理了，直接转向下一个数据包的处理。

协议类型（TCP或UDP）记录此双向网络流的传输层协议类型。源IP和目的IP对应的记录此双向网络流第一个数据包的源IP和目的IP。

对于每一个数据包我们只记录数据报文长度、数据包间隔和<源端口，目的端口>对三个特征，以此收集长度为N的统计特征序列。

语音数据传输一般采用UDP数据包传输，TCP数据包一般作为语音通话过程中的语音数据控制包，同时出现在传输语音数据的两个IP之间，数据包间隔比较大，这种情况的TCP网络流可以在对应的UDP网络流标记以后直接标记相同的类型。传输语音数据的TCP网络流很少见，这里只统计到了TCP协议传输QQ语音的情况。另外，语音通话过程中除了语音数据流还会出现一些相关的TCP和UDP控制数据流，这些流的数据包间隔较大，数据包数目较少，一般可以通过特殊IP和端口识别。

VoIP特殊IP和端口模板库中主要包括目前国内外流行的VoIP软件，其中包括Skype、MSN、Gtalk、QQ和KC，其特殊IP和端口如下所示：

（1）Skype：UDP协议，特殊端口｛33033｝；TCP协议，特殊端口｛12350｝；

（2）MSN：UDP协议，特殊端口｛1863｝；TCP协议，特殊端口｛1863｝；

（3）Gtalk：TCP协议，特殊IP和端口｛74.125.71.125（5222），74.125.71.100（80），74.125.71.113（80）｝；

（4）QQ：UDP协议，特殊IP和端口｛183.60.48.76（8000），183.60.48.184（8000），183.60.49.203（8000），112.95.240.188（8000）｝；TCP协议，特殊IP和端口｛121.14.102.15（80）｝；

（5）KC：UDP协议，特殊IP和端口｛59.36.98.119（2119），118.194.2.115，211.154.135.55，122.11.53.23｝。

VoIP统计特征模板库中双向网络流的传输层统计特征如表1和表2所示：

表1UDP协议的双向网络流统计特征

表2TCP协议的双向网络流统计特征

VoIP应用类型	QQ
		数据报文值大小	[0,1448]
平均数据报文间隔	[0.01,0.06]
		源、目的端口对数目	1或2
数据报文值概率分布	表8和表9

表3Skype报文值概率分布

表4MSN报文值概率分布

表5Gtalk报文值概率分布

表6QQ报文值概率分布1

表7QQ报文值概率分布2

表8QQ报文值概率分布3

表9QQ报文值概率分布4

参照图4，VoIP网络流量的层次化识别方法的算法流程图，包括下面几个步骤：

步骤2：判断接收到的数据包是否为UDP或TCP包，若不是，则转步骤1；若是，判断双向网络流表是否为空，若为空，则直接转步骤3；若不为空，则在双向网络流表中查询相同协议类型下是否存在双向网络流记录的源IP和目的IP与接收到数据包的源IP和目的IP相同，或者双向网络流记录的目的IP和源IP与接收到数据包的源IP和目的IP相同。若存在这样的双向网络流，转步骤4；若不存在这样的双向网络流，转步骤3；

本发明还具有一个与识别模块并行的定时更新模块，用于对双向网络流表进行定时更新，将超过规定双向网络流包间隔阈值T内无数据包出入的双向网络流按照源IP、目的IP、协议类型（TCP/UDP）和VoIP应用类型的格式输出到文本文件中，并将此双向网络流记录清除。

其中数据包数阈值N，取值满足N>1000；对于数据报文长度阈值M，若为UDP数据包，取值需满足950≤M≤1000，若为TCP数据包则没有要求；对于互雷尼信息熵阈值η，取值为1.5；对于双向网络流包间隔阈值T，取值为60秒。

本发明的双向网络流指的是基于主机层的双向网络流，其定义为：本地主机与远端主机在某种协议类型（TCP或UDP）下互相通信所产生的数据包集合，设定如果双向网络流包间隔阈值T内无相应的数据包，则认为该双向网络流已经结束。

关于步骤6中提到的互雷尼信息熵，有如下定义：

α级的互雷尼信息熵为：

I_{α} (p, q) = \frac{1}{1 - α} \log_{2} Σ_{k = 1}^{n} \frac{p_{k}^{α}}{q_{k}^{α - 1}}

其中：p=(p₁,p₂,…,p_k,…,p_n)和q=(q₁,q₂,…,q_k,…,q_n)为2个离散的概率分布，0<α<1。

互雷尼信息熵的一个重要特性是：当p=q时，I_α=0。如果在上式中，令α=0.5，

I_{0.5} (p, q) = {2 \log}_{2} Σ_{k = 1}^{n} \sqrt{p_{k} q_{k}} = I_{0.5} (q, p)

则有

称为互雷尼信息熵的对称表达式，已有人把它用在网络异常行为检测中。这里对它稍做修改如下式所示，用来分类识别。

E_{RE nyiCross} = I_{0.5} (p, q) = {2 \log}_{2} Σ_{k = 1}^{n} \sqrt{p_{k} q_{k} (t)}

对各种VoIP应用，它们传输语音数据的报文值概率分布规律各自不同，但对每一种应用来说，数据报文值的概率分布大致是相同的，差别很小。所以可以对每一种应用选定一个典型的报文值概率分布模版

(\begin{matrix} x \\ p \end{matrix}) = (\begin{matrix} x_{1} & x_{2} & \cdot \cdot \cdot & x_{n} \\ p_{1} & p_{2} & \cdot \cdot \cdot & p_{n} \end{matrix}),

组成一个报文值概率分布模版库。在流量识别中，对于收集到指定数目数据包的网络流，对其数据报文值进行处理，求出报文值概率分布

(\begin{matrix} x \\ q (t) \end{matrix}) = (\begin{matrix} x_{1} & x_{2} & \cdot \cdot \cdot & x_{n} \\ q_{1} (t) & q_{2} (t) & \cdot \cdot \cdot & q_{n} (t) \end{matrix}),

然后与模版库中的报文值概率分布计算互雷尼信息熵，值越接近0，表示两者越相近，值越偏离0，表示两者差别越大，从而达到分类的效果。对计算的互雷尼信息熵可采用阈值法进行分类，其中熵值阈值η的选取可根据经验进行设定。

Claims

1.VoIP网络流量的层次化识别方法，其特征在于，具有一个包括以下步骤的识别模块：

2.根据权利要求1所述的VoIP网络流量的层次化识别方法，其特征在于：还具有一个与识别模块并行的定时更新模块，用于对双向网络流表进行定时更新，将超过规定双向网络流包间隔阈值T内无数据包出入的双向网络流按照源IP、目的IP、协议类型（TCP/UDP）和VoIP应用类型的格式输出到文本文件中，并将此双向网络流记录清除。

3.根据权利要求1或2所述的VoIP网络流量的层次化识别方法，其特征在于：所述的数据包数阈值N，取值满足N>1000；对于数据报文长度阈值M，若为UDP数据包，取值需满足950≤M≤1000，若为TCP数据包则没有要求；对于互雷尼信息熵阈值η，取值为1.5；对于双向网络流包间隔阈值T，取值为60秒。

4.根据权利要求1所述的VoIP网络流量的层次化识别方法，其特征在于：所述的双向网络流指的是基于主机层的双向网络流，其定义为：本地主机与远端主机在某种协议类型（TCP或UDP）下互相通信所产生的数据包集合，设定如果双向网络流包间隔阈值T内无相应的数据包，则认为该双向网络流已经结束。