CN101447995B - 一种识别p2p数据流的方法、装置和系统 - Google Patents

一种识别p2p数据流的方法、装置和系统 Download PDF

Info

Publication number
CN101447995B
CN101447995B CN2008101888607A CN200810188860A CN101447995B CN 101447995 B CN101447995 B CN 101447995B CN 2008101888607 A CN2008101888607 A CN 2008101888607A CN 200810188860 A CN200810188860 A CN 200810188860A CN 101447995 B CN101447995 B CN 101447995B
Authority
CN
China
Prior art keywords
data flow
data stream
msvm
testing data
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101888607A
Other languages
English (en)
Other versions
CN101447995A (zh
Inventor
孙知信
张玉峰
宫婧
刘震
喻勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Digital Technologies Chengdu Co Ltd
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University, Huawei Symantec Technologies Co Ltd filed Critical Nanjing Post and Telecommunication University
Priority to CN2008101888607A priority Critical patent/CN101447995B/zh
Publication of CN101447995A publication Critical patent/CN101447995A/zh
Application granted granted Critical
Publication of CN101447995B publication Critical patent/CN101447995B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种识别点对点P2P数据流的方法、装置和系统,该方法包括:获取待测数据流的原始流量特征值并进行预处理;将所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,如果匹配成功,则识别该待测数据流为P2P数据流。该装置包括:特征获取单元,用于从待测数据流中获取原始流量特征值;预处理单元,用于对所述原始流量特征值进行预处理;支持向量匹配单元,用于所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流。本发明实施例提供的方法、装置和系统能够提高P2P数据路的识别准确率和识别效率。

Description

一种识别P2P数据流的方法、装置和系统
技术领域
本发明涉及网络技术领域,尤其涉及一种识别P2P数据流的方法、装置和系统。
背景技术
P2P(Peer-to-Peer,点对点)技术自出现以来,便得到了快速的普及和发展,尤其是应用最为广泛的P2P文件共享技术。传统意义上人们下载文件是从服务器上下载,而P2P则是多个终端用户各下载一部分,然后互相下载共享。P2P以其独特的技术优势在这几年内迅速发展,其应用不断增长。据统计,P2P应用已占ISP业务总量的60%~80%,跃然成为网络带宽最大的消费者。
但是,P2P以其独特的技术优势占据了大部分带宽,只把仅有的部分带宽留给非P2P用户,于是致使其他业务难以展开,而随着P2P技术的不断发展和不断完善,将会有越来越多的人选择直接在线观看节目而没有足够的耐心等待数十分钟甚至数小时的下载时间再观看自己喜欢的节目。因此,为了确保其他正常网络用户的服务,同时为了更好地发挥P2P技术的优势,对P2P数据流进行分类、识别就成为目前业内研究的一个热点。为了加强ISP对P2P网络的监测并做出适当的处理,也方便研究人员更好的研究P2P技术,首先要识别P2P数据流。
现有技术中为了达到识别P2P数据流的目的提出一种解决方案:
基于应用层协议内容分析的P2P数据流识别:应用层协议内容的分析方法是通过监测网络中的数据流,获取该数据流中数据包的有效载荷,并将有效载荷中的协议特征字与预先建立好的由一些已知P2P数据流的协议特征字组成的协议特征字库进行匹配识别,以确定这些数据流是否为某个特定的P2P数据流。表1是一些主要P2P数据流的协议特征字。
表1
  P2P数据流类型   协议特征字
  BitTorrenteDonkey2000GnutellaFasttrackWinMx   0x13BitTorrent p rotocol0xe3190100000xc53f010000GNUT,GIV GNDGet/.hash 0x270000002980SEND,GET 0x200x22
基于应用层协议内容的分析方法是对数据流中的协议特征字进行匹配来确定是否采取下一步的动作。但是,发明人在实现本发明的过程中,发现现有技术至少存在以下缺点:若P2P开发者们将P2P协议进行加密,这样P2P协议的数据包有效载荷将呈现无规律状,将无法提炼出各种P2P协议的标识特征,这就使得协议分析与识别变得十分困难。
发明内容
有鉴于此,本发明实施例的目的在于提供一种识别P2P数据流的方法、装置和系统,能够更准确和快速地识别P2P数据流。
根据本发明的一方面,提供一种识别点对点P2P数据流的方法,包括:
a)获取待测数据流的原始流量特征值并进行预处理;
b)将所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,如果匹配成功,则识别该待测数据流为P2P数据流。
根据本发明的另一方面,还提供一种识别点对点P2P数据流的装置,包括:
特征获取单元,用于从待测数据流中获取原始流量特征值;
预处理单元,用于对所述原始流量特征值进行预处理;
支持向量匹配单元,用于所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流。
根据本发明的又一方面,还提供一种网络系统,包括:
数据采集单元,用于采集待测数据流;
识别点对点P2P数据流的装置,用于从待测数据流中获取原始流量特征值并进行预处理,将预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流。
由上述公开的技术方案可以看出,在本发明实施例中,利用MSVM对P2P数据流进行识别,可以有效地提高识别准确率,另外还预先建立了支持向量库,在计算判决函数的值之前,首先将待测数据流的流量特征值与支持向量库中的支持向量进行匹配,由于支持向量库中的支持向量都是对应P2P数据流,所以,如果能够匹配成功,则可直接认定该待测数据流为P2P数据流,对于没有与支持向量库匹配成功的待测数据流才去由MSVM利用判决函数判断是否为P2P数据流,这样可以提高识别的效率,达到快速识别P2P数据流的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的识别P2P数据流的方法流程图;
图2是本发明实施例二提供的识别P2P数据流的方法流程图;
图3是本发明实施例三提供的识别P2P数据流的方法流程图;
图4是本发明实施例四提供的识别P2P数据流的方法流程图;
图5是本发明实施例五提供的识别P2P数据流的装置示意图;
图6是本发明实施例六提供的网络系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明实施例进行详细描述。
SVM(Support Vector Machines,支持向量机)是20世纪90年代初由V.Vipnik等人根据统计学习理论(Statistical Learning Theory,SLT)提出的一种新的机器学习方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并且已经在模式识别、函数逼近和概率密度估计等方面取得了良好的效果。SVM从本质上讲是一种前向神经网络形式的分类器,根据结构风险最小化准则,在使训练样本分类误差极小化的前提下,尽量提高分类器的泛化推广能力。从实施的角度,训练SVM的核心思想等价于求解一个线性约束的二次规划问题,从而构造一个超平面作为决策平面,使得特征空间中两类模式之间的距离最大,而且它能保证得到的解为全局最优解。
SVM的是利用满足Mercer条件的核函数代替一个非线性映射,使得输入空间中的样本点能映射到一个高维的特征空间,并使得在该空间线性可分,然后构造一个最优超平面来逼近理想分类效果。由于SVM自身的特点,为了提高P2P数据流的识别准确率,本方案将对SVM进行采用多维支持向量机(MSVM)进行P2P数据流的识别。
需要说明的是,传统的SVM不适合直接用来识别P2P数据流,所以本发明采用改进的MSVM对P2P数据流进行识别。
下面对本发明各个实施例做进一步详细描述。
实施例一
参见图1,本发明实施例一提供一种识别P2P数据流的方法,该方法包括如下步骤:
步骤S101:获取待测数据流的原始流量特征值;
其中,所述获取的原始流量特征值可以包括:反映数据流的时间特性的特征值、数据流的速率、数据流的长度等。
另外,所述待测数据流可以从实际的网络环境中采集,也可以从预先存储的数据流中读取,或者采用其他获取方式获得。
步骤S102:对所述原始流量特征值进行预处理,得到机器能够识别的预处理后的流量特征值;
由于步骤S101中获取的流量特征值为的原始流量特征值数据,这些数据中存在连续特征和离散特征,即这些特征值数据时异构的,不能直接用于机器识别,所以需要进行预处理,得到机器可识别的预处理后的流量特征值。
步骤S102:将所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配;
本领域技术人员应该能够理解训练MSVM的过程就是利用已有的训练样本建立最优超平面,以使不同类别的样本点的距离最远。最优超平面对应着判决函数等于预先设定的标准值表示的超平面,如果待测数据流对应的点位于该最优超平面上,则可以识别该数据流为P2P数据流,所以在具体判断是否在最优超平面上时,可以借助相应的判决函数的输出结果来判断。在最优超平面上的样本点称为支持向量,所以通过对MSVM的训练可以得到支持向量并建立由支持向量组成的支持向量库。
步骤S103:判断所述匹配结果,如果匹配成功,则执行步骤S104:识别该待测数据流为P2P数据流。
通过本发明实施例,利用预先建立的支持向量库对待测数据流进行识别,可以更准确地识别出P2P数据流。
实施例二
本发明实施例二提供一种识别P2P数据流的方法,该方法在实施例一的基础上增加了对待测数据流与支持向量库匹配不成功时,进一步利用MSVM进行识别的步骤。如图2所示,该方法包括:
步骤S201:采集待测数据流;
需要说明的是,本发明实施例中待测数据流可以从实际网络中采集获得,也可以从预先存储的数据流中读取获得,或者可以采用其他的获取方式,而本实施例中特别地以待测数据流是采集获得的为例进行说明,本领域技术人员应该能够明白,步骤S201并不构成对本发明实施例实质内容的限制。
步骤S202:获取上述采集的待测数据流中的原始流量特征值;
其中,所述获取的原始流量特征值可以包括:反映数据流的时间特性的特征值、数据流的速率、数据流的长度等。
步骤S203:对所述获取的原始流量特征值进行预处理,得到机器能够识别的预处理后的流量特征值;
由于步骤S202中获取的流量特征值为的原始流量特征值数据,这些数据中存在连续特征和离散特征,即这些特征值数据时异构的,不能直接用于机器识别,所以需要进行预处理,得到机器可识别的预处理后的流量特征值。
步骤S204:将上述的预处理后的流量特征值与预先建立的MSVM的支持向量库进行匹配,如果匹配成功,则执行步骤S206:直接识别该待测数据流为P2P数据流;如果匹配不成功,则执行步骤S205;
步骤S205:预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流。
其中,根据判决函数的输出结果识别待测数据流是否为P2P数据流具体可以实现为:
如果判决函数的输出结果等于预先设定的标准值,则识别该待测数据流为P2P数据流,否则识别该待测数据流为非P2P数据流。在本发明实施例中,上述判决函数对应的标准值可以选为1或-1。
本领域技术人员应该能够理解训练MSVM的过程就是利用已有的训练样本建立最优超平面,以使不同类别的样本点的距离最远。最优超平面对应着判决函数等于预先设定的标准值表示的超平面,如果待测数据流对应的点位于该最优超平面上,则可以识别该数据流为P2P数据流,所以在具体判断是否在最优超平面上时,可以借助相应的判决函数的输出结果来判断。在最优超平面上的样本点称为支持向量,所以通过对MSVM的训练可以得到支持向量并建立由支持向量组成的支持向量库。
在本发明实施例中,判决函数(以下记为f(x))等于1或-1对应经过训练完成的MSVM的最优超平面,判决函数优选为
f ( x ) = sgn ( Σ i = 1 l ( a i K ( x i , x ) - s i d i ξ ) )
在上述判决函数中,xi为样本数据,ai为拉格朗日乘子,K(xi,x)为判决函数的核函数,si为各样本的加权系数,用于对每个样本数据赋权值,si可以是函数,如随样本到达的时间变化的函数(si∈(0,1));di为xi的重复因子(di≥1);ξi为非负松弛变量。在本实施例中,核函数K(xi,x)优选为径向基函数,即
K ( x i , x ) = exp { - | | x - x i | | 2 2 σ 2 }
在该判决函数中对各个样本引入了加权系数,即对各个样本进行了加权处理,这是因为不同的样本对判决结果的影响可能是不同的,因此对网络的数据流的流量特征进行加权处理得到的判决函数能够更有利于P2P数据流的准确识别。
本领域技术人员应该能够理解,MSVM的判决函数中的核函数是用来简化高维空间中构造最优超平面时引入的,如果直接求解高维空间的最优超平面问题和判决函数需要计算非线性函数,而引入了核函数后,只需要计算该核函数即可,从而避免特征空间维数灾难等问题的发生。
本发明实施例在计算判决函数的值之前,首先将待测数据流的流量特征值与支持向量库中的支持向量进行匹配,由于支持向量库中的支持向量都是对应P2P数据流,所以,如果能够匹配成功,则可直接认定该待测数据流为P2P数据流,对于没有与支持向量库匹配成功的待测数据流才去由MSVM利用判决函数判断是否为P2P数据流,即执行MSVM的识别过程,所以对于已知的P2P数据类型可以省去利用MSVM的识别过程,有利于节约识别过程,而对于没有与支持向量库匹配成功的待测数据流,本实施例又利用MSVM判决函数进行再次识别,从而相对于实施例二,本实施例提供的方法更有利于P2P数据流的准确识别。
实施例三
本实施例中提供一种识别P2P数据流的方法,该方法与实施例二的不同在于,在实际识别待测数据流的同时,对于支持向量库中没有与之匹配的情况,MSVM还会进行自学习的过程。
具体地,如图3所示,本实施例提供的方法包括:
步骤S301:采集待测数据流;
需要说明的是,本发明实施例中待测数据流可以从实际网络中采集获得,也可以从预先存储的数据流中读取获得,或者可以采用其他的获取方式,而本实施例中特别地以待测数据流是采集获得的为例进行说明,本领域技术人员应该能够明白,步骤S301并不构成对本发明实施例实质内容的限制。
步骤S302:获取上述采集的待测数据流中的原始流量特征值;
步骤S303:对所述获取的原始流量特征值进行预处理,得到机器能够识别的预处理后的流量特征值;
步骤S304:将上述的预处理后的流量特征值与预先建立的MSVM的支持向量库进行匹配,如果匹配成功,则执行步骤S307:直接识别该待测数据流为P2P数据流;如果匹配不成功,则执行步骤S305;
步骤S305:预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流。
步骤S306:判断所述步骤S305中对待测数据流是否识别为P2P数据流,如果是,则执行步骤S307,否则结束流程;
步骤S307:利用步骤S305中识别为P2P数据流的待测数据流的流量特征值组成训练样本数据对MSVM进行训练,并更新支持向量库;
其中,不难看出,在步骤S305中识别为P2P数据流的待测数据流满足条件:该待测数据流与支持向量库匹配没有成功,并且在步骤S305中利用判决函数被识别为P2P数据流。这种情况经常会发生在网络中出现了原来没有的新类型的P2P数据流,而之前在训练MSVM时,没有包含在训练样本数据中,当然在现有的支持向量库中没有与之对应的支持向量。为了使该类型的P2P数据流再次出现时不再需要进行计算判决函数来识别,本实施例中不仅给出了将该待测数据流识别为P2P数据流的识别结果,而且,还将该待测数据流组成训练样本数据对MSVM进行训练,并更新支持向量库。这样在识别待测数据流的过程中,MSVM也可以根据实际情况,将新的P2P数据流更新进支持向量库中,这样在该P2P数据流在后续的时间内再次出现的时候,利用该更新后的支持向量库就可以对该P2P数据流进行识别,上述过程可以称为MSVM的自学习过程。因此,通过本发明实施例,可以进一步提高对新类型的P2P数据流检测的效率和准确率。
实施例四
本实施例四提供一种识别P2P数据流的方法,该方法与前三个实施例的区别在于,在利用MSVM对待测数据流识别之前,首先借助应用层协议内容分析方法,对待测数据流进行识别,只有利用应用层协议内容分析方法识别该待测数据流为非P2P数据流时才利用MSVM对待测数据流进行识别。
如图4所示,本发明实施例中提供的识别P2P数据流的方法具体包括如下步骤:
步骤S401:采集待测数据流;
需要说明的是,本发明实施例中待测数据流可以从实际网络中采集获得,也可以从预先存储的数据流中读取获得,或者可以采用其他的获取方式,而本实施例中特别地以待测数据流是采集获得的为例进行说明,本领域技术人员应该能够明白,步骤S401并不构成对本发明实施例实质内容的限制。
步骤S402:从待测数据流中获取有效载荷的协议特征字;
步骤S403:将待测数据流中的协议特征字与预先建立由已知P2P数据流中的协议特征字组成协议特征字库进行匹配,如果匹配成功,则执行步骤S408:直接识别该待测数据流为P2P数据流;如果匹配不成功,则执行步骤S404;
步骤S404:获取所述待测数据流中的原始流量特征值;
步骤S405:对上述获取的原始流量特征值进行预处理,得到机器能够识别的预处理后的流量特征值;
步骤S406:将上述的预处理后的流量特征值与预先建立的MSVM的支持向量库进行匹配,如果匹配成功,则执行步骤S408:直接识别该待测数据流为P2P数据流;如果匹配不成功,则执行步骤S407;
步骤S407:预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流;
需要说明的是,本实施例中提供的方法还可以包括:
步骤S409:判断步骤S407中是否将待测数据流识别为P2P数据流,如果是,则执行步骤S410。
步骤S409:利用步骤S407中识别为P2P数据流的待测数据流的流量特征值组成训练样本数据对MSVM进行训练,并更新支持向量库;
由于数据流中有效载荷的协议特征字更能准确表达该数据流的类型,通过预先建立由已知P2P数据流的协议特征字组成的协议特征字库,并在利用MSVM进行识别之前,首先运用应用层协议内容分析方法,将待测数据流中有效载荷的协议特征字与上述协议特征字库进行匹配,如果匹配成功,则证明协议特征字库中已经预先建立了该类型数据流的协议特征字,因此可以直接识别该待测数据流为P2P数据流,这样就节省了再去利用MSVM并基于流量特征值识别的过程,而且基于协议特征字和基于流量特征值识别相比,前者对协议特征字库中已经存在的类型的P2P数据流的识别的比较准确,因此,本实施例中首先基于协议特征字进行识别,也可以进一步地提高识别正确率。
实施例五
本发明实施例五相应提供一种识别P2P数据流的装置,如图5所示,该装置500包括:
特征获取单元501,用于从待测数据流中获取原始流量特征值;
预处理单元502,用于对所述原始流量特征值进行预处理,得到机器能够识别的预处理后的流量特征值;
支持向量匹配单元503,用于所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流。
本发明实施例提供识别P2P数据流的装置还可以包括:
识别单元504,用于预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流;
其中,所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库匹配成功,则直接识别该待测数据流为P2P数据流,如果匹配不成功,则所述支持向量匹配单元503触发识别单元504工作。
另外,本实施例中的装置500还可以包括:
协议特征字获取单元505,用于从待测数据流中获取有效载荷的协议特征字;
协议特征字匹配单元506,用于将所述协议特征字与预先建立的由已知P2P数据流中的协议特征字组成协议特征字库进行匹配;
其中,如果匹配成功,则直接识别该待测数据流为P2P数据流,如果匹配不成功,则触发特征获取单元501工作。
本发明实施例提供的装置能够更准确地识别P2P数据流。
实施例六
本实施例六提供一种网络系统,如图6所示,该网络系统600包括:
数据采集单元601,用于采集待测数据流;
识别P2P数据流的装置602,用于从待测数据流中获取原始流量特征值并进行预处理,将预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流。
其中,所述识别P2P数据流的装置602可以包括:
特征获取单元6021,用于从待测数据流中获取原始流量特征值;
预处理单元6022,用于对所述原始流量特征值进行预处理;
支持向量匹配单元6023,用于所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流。
所述识别P2P数据流的装置602还可以包括:
识别单元6024,用于当匹配不成功时,通过预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流。
另外,所述识别P2P数据流的装置602还可以包括:
协议特征字获取单元6025,用于从待测数据流中获取有效载荷的协议特征字;
协议特征字匹配单元6026,用于将所述协议特征字与预先建立的由已知P2P数据流中的协议特征字组成协议特征字库进行匹配;
其中,如果匹配成功,则直接识别该待测数据流为P2P数据流,如果匹配不成功,则触发特征获取单元6021工作。
根据实际需要,对于识别P2P数据流的数据流经常需要对其进行后续的操作,因此本实施例提供的网络系统中还可以包括:
P2P数据流标记单元603,用于对识别为P2P数据流的数据流进行标记;和/或
P2P数据流限制单元604,用于对识别为P2P数据流的数据流的传输速度进行限制,或切断识别为P2P数据流的数据流。
本发明实施例提供的网络系统能够更准确地识别P2P数据流。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种识别点对点P2P数据流的方法,包括:
a)获取待测数据流的原始流量特征值并进行预处理;
b)将所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,如果匹配成功,则识别该待测数据流为P2P数据流;
c)当步骤b)中匹配不成功时,通过预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流;
利用步骤c)中识别为P2P数据流的待测数据流的流量特征值组成训练样本数据对MSVM进行训练,并更新支持向量库。
2.根据权利要求1所述的方法,其特征在于,所述根据判决函数的输出结果识别待测数据流是否为P2P数据流包括:
如果所述判决函数的输出结果等于预先设定的标准值,则识别该待测数据流为P2P数据流,否则,则识别该待测数据流为非P2P数据流。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:在所述步骤a)之前,从所述待测数据流中获取有效载荷的协议特征字,将所述协议特征字与预先建立的由已知P2P数据流中的协议特征字组成协议特征字库进行匹配,如果匹配不成功,执行步骤a)。
4.根据权利要求1或2所述的方法,其特征在于,在对MSVM进行训练的过程中,对所述训练样本数据中的各个训练样本进行加权处理。
5.一种识别点对点P2P数据流的装置,包括:
特征获取单元,用于从待测数据流中获取原始流量特征值;
预处理单元,用于对所述原始流量特征值进行预处理;
支持向量匹配单元,用于所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流;
识别单元,用于当匹配不成功时,通过预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
协议特征字获取单元,用于从待测数据流中获取有效载荷的协议特征字;
协议特征字匹配单元,用于将所述协议特征字与预先建立的由已知P2P数据流中的协议特征字组成协议特征字库进行匹配;
其中,如果匹配不成功,则直接识别该待测数据流为P2P数据流,如果匹配不成功,则触发所述特征获取单元工作。
7.一种网络系统,包括:
数据采集单元,用于采集待测数据流;
识别点对点P2P数据流的装置,用于从待测数据流中获取原始流量特征值并进行预处理,将预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流;
识别单元,用于当匹配不成功时,通过预先训练完成的MSVM将所述预处理后的流量特征值输入到训练MSVM过程中形成的判决函数中,根据判决函数的输出结果识别待测数据流是否为P2P数据流。
8.根据权利要求7所述的网络系统,其特征在于,识别点对点P2P数据流的装置包括:
特征获取单元,用于从待测数据流中获取原始流量特征值;
预处理单元,用于对所述原始流量特征值进行预处理;
支持向量匹配单元,用于所述预处理后的流量特征值与预先建立的多维支持向量机MSVM的支持向量库进行匹配,根据匹配结果识别待测数据流是否为P2P数据流。
9.根据权利要求7或8所述的网络系统,其特征在于,所述网络系统还包括:
P2P数据流标记单元,用于对识别为P2P数据流的数据流进行标记。
10.根据权利要求7或8所述的网络系统,其特征在于,所述网络系统还包括:
P2P数据流限制单元,用于对识别为P2P数据流的数据流的传输速度进行限制,或切断识别为P2P数据流的数据流。
CN2008101888607A 2008-12-30 2008-12-30 一种识别p2p数据流的方法、装置和系统 Expired - Fee Related CN101447995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101888607A CN101447995B (zh) 2008-12-30 2008-12-30 一种识别p2p数据流的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101888607A CN101447995B (zh) 2008-12-30 2008-12-30 一种识别p2p数据流的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN101447995A CN101447995A (zh) 2009-06-03
CN101447995B true CN101447995B (zh) 2012-05-23

Family

ID=40743392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101888607A Expired - Fee Related CN101447995B (zh) 2008-12-30 2008-12-30 一种识别p2p数据流的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN101447995B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902523B (zh) * 2010-07-09 2014-07-16 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN102098346B (zh) * 2011-02-23 2013-01-23 北京邮电大学 一种在未知流量中识别p2p流媒体流量的方法
CN102130974A (zh) * 2011-04-29 2011-07-20 北京网御星云信息技术有限公司 识别p2p数据的方法和装置
CN102857474A (zh) * 2011-06-29 2013-01-02 句容博通科技咨询服务有限公司 一种基于svm技术的p2p流量识别和分类方法
CN103546443A (zh) * 2012-07-16 2014-01-29 清华大学 结合网络流量分析和消息聚类的网络协议逆向分析方法
CN102984269B (zh) * 2012-12-10 2016-05-11 北京网御星云信息技术有限公司 一种点对点流量识别方法和装置
CN103297427B (zh) * 2013-05-21 2016-01-06 中国科学院信息工程研究所 一种未知网络协议识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242316A (zh) * 2008-02-03 2008-08-13 西安交大捷普网络科技有限公司 基于快速聚类算法的网络异常检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242316A (zh) * 2008-02-03 2008-08-13 西安交大捷普网络科技有限公司 基于快速聚类算法的网络异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘泱.支持向量机的多类识别及其在流量检测问题中的应用.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2007,第31-40页. *
段丹青等.基于SVM主动学习的入侵检测系统.《计算机工程》.2007,第33卷(第1期), *

Also Published As

Publication number Publication date
CN101447995A (zh) 2009-06-03

Similar Documents

Publication Publication Date Title
CN101447995B (zh) 一种识别p2p数据流的方法、装置和系统
CN109525595B (zh) 一种基于时间流特征的黑产账号识别方法及设备
CN110798417B (zh) 一种基于循环残差网络的信号调制识别方法及装置
CN110766080B (zh) 一种标注样本确定方法、装置、设备及存储介质
CN105468742A (zh) 恶意订单识别方法及装置
CN106203103B (zh) 文件的病毒检测方法及装置
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质
CN113378961A (zh) 网络流量识别方法、装置、设备以及计算机程序产品
CN112887329B (zh) 隐藏服务溯源方法、装置及电子设备
CN111460155A (zh) 一种基于知识图谱的信息可信度评估方法及装置
CN109698798B (zh) 一种应用的识别方法、装置、服务器和存储介质
CN110222795A (zh) 基于卷积神经网络的p2p流量的识别方法及相关装置
CN113935426A (zh) 一种电力物联网异常数据流量的检测方法及装置
CN112748941A (zh) 基于反馈信息的目标应用程序的更新方法和装置
CN113485931A (zh) 测试方法、装置、电子设备及计算机可读存储介质
CN110175655B (zh) 数据识别方法及装置、存储介质及电子设备
CN111404835A (zh) 流量控制方法、装置、设备及存储介质
US20240298193A1 (en) Training a machine learning model to identify a relationship between data items
CN102546105A (zh) 一种网络资源传输的方法和装置
CN108259096B (zh) 短信通道参数配置方法及装置
CN112486676B (zh) 一种基于边缘计算的数据共享分发装置
CN111368858B (zh) 用户满意度评估方法及装置
CN110784330B (zh) 一种应用识别模型的生成方法及装置
CN112464970A (zh) 区域价值评估模型处理方法、装置及计算设备
CN107517474B (zh) 一种网络分析优化方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: Huawei Symantec Technologies Co., Ltd.

Patentee after: Nanjing Post & Telecommunication Univ.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: Chengdu Huawei Symantec Technologies Co., Ltd.

Patentee before: Nanjing Post & Telecommunication Univ.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120523

Termination date: 20171230

CF01 Termination of patent right due to non-payment of annual fee