CN102984269B - 一种点对点流量识别方法和装置 - Google Patents

一种点对点流量识别方法和装置 Download PDF

Info

Publication number
CN102984269B
CN102984269B CN201210530661.6A CN201210530661A CN102984269B CN 102984269 B CN102984269 B CN 102984269B CN 201210530661 A CN201210530661 A CN 201210530661A CN 102984269 B CN102984269 B CN 102984269B
Authority
CN
China
Prior art keywords
default
unknown
attributive character
point
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210530661.6A
Other languages
English (en)
Other versions
CN102984269A (zh
Inventor
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LEADSEC TECHNOLOGY CO LTD
Original Assignee
BEIJING LEADSEC TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LEADSEC TECHNOLOGY CO LTD filed Critical BEIJING LEADSEC TECHNOLOGY CO LTD
Priority to CN201210530661.6A priority Critical patent/CN102984269B/zh
Publication of CN102984269A publication Critical patent/CN102984269A/zh
Application granted granted Critical
Publication of CN102984269B publication Critical patent/CN102984269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种点对点流量识别的方法和装置,所述方法包括:获取已知数据流样本文件;根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同;获取未知数据流;建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量,提高点对点流量识别的精度,还提供了与上述方法相适应的装置。

Description

一种点对点流量识别方法和装置
技术领域
本发明涉及互联网应用领域,特别是涉及一种点对点流量识别方法和装置。
背景技术
点对点(Peer-to-Peer,P2P)技术是一种网络新技术,用户无需连接到服务器,可以直接通过网络连接到其他用户的计算机进行共享和交互。因此,P2P技术主要依赖于网络中参与者的计算能力和带宽,而不是几台服务器。P2P技术将人们通过互联网直接联系起来,使得网络的沟通变得容易、更直接。
随着P2P技术的兴起,P2P流量超过了超文本传送协议(hypertexttransportprotocol,HTTP)和文件传输协议(FileTransferProtocol,FTP)占据了整个网络流量的一半以上,给网络带来了负担,同时也影响其他网络应用。因此,对P2P流量的识别和监控显得尤为重要。传统的P2P流量识别技术包括深度包检测技术(deeppacketinspection,DPI)和深度流检测技术(Deep/DynamicFlowInspection,DFI),两种P2P流量识别技术都是细粒度识别技术。
深度包检测技术(deeppacketinspection,DPI),是一种基于应用层的流量检测和控制技术,当P2P数据流通过基于DPI技术的带宽管理系统时,系统读取P2P流量的单个数据包的属性,并提取规则化特征,所述属性特征包括:协议类型、固定的数据包收发端口号、固定的数据包载荷长度和固定的数据包载荷关键字(串)信息等,将所提取的属性特征与后台数据库进行匹配对比,对P2P流量进行识别检测。
使用深度包检测技术识别P2P流量,需要工程师不断观察流量样本数据,比较并提取出流量样本中多个数据包中同时含有的属性特征,这是一个繁琐复杂的过程,即便是有经验的工程师也常需要花费较多的时间,而且分析过程对人员依赖较大,因此,其属性特征分析结果具有一定的随意性,不同人员可能分析出不同属性特征,导致P2P流量识别精度不高。
深度流检测技术(Deep/DynamicFlowInspection,DFI),一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。DFI挖掘P2P流量的数据流的整体属性特征,所述属性特征包括:五元组信息、数据包长度信息、发送时间(间隔、时长等)信息和连续包长特征等。
使用深度流检测技术识别P2P流量,需要同时比对大量数据流样本,才可能提取出对应的属性特征,并对该属性特征对应的P2P流量进行匹配识别。对任何未知流量或特征,如:新版本更新或者新的资源连接引入新的微小属性特征值变动,都会导致P2P流量无法识别。
发明内容
有鉴于此,本发明提供了一种点对点流量识别的方法和装置,建立知识库作为统一标准,提高点对点流量识别的精度。
一种点对点流量识别的方法,所述方法包括:
获取已知数据流样本文件;
根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同;
获取未知数据流;
建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;
判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量。
优选的,所述根据已知数据流样本文件建立知识库具体包括:
将已知数据流样本文件整理成多条已知数据流;
提取每条已知数据流中多个预设属性特征的已知特征值;
将多个已知特征值按照所属的点对点流量特征通过机器学习算法进行分类,将每个点对点流量特征所包含的多个预设属性特征和每个预设属性特征对应的多个已知特征值根据作为一个已知属性向量列表;
将多个已知属性向量列表输出作为知识库。
优选的,所述将已知数据流样本文件整理成多条已知数据流具体为:
将原IP地址、原端口、目的IP地址、目的端口和传输层协议号相同的数据流样本文件中的数据包划分到同一条已知数据流。
优选的,所述建立未知数据流中的未知属性向量列表具体为:
提取未知数据流中多个预设属性特征的未知特征值;
将所述多个预设属性特征和每个预设属性特征对应的一个未知特征值输出作为未知数据流中的未知属性向量列表。
优选的,所述判断未知属性向量列表与知识库是否匹配具体包括:
计算未知属性向量与知识库中每一个已知属性向量的匹配度;
判断是否有一个匹配度大于第一预设阈值,如果是,则未知属性向量列表与知识库匹配。
优选的,所述计算未知属性向量与知识库中每一个已知属性向量匹配度具体包括:
提取未知属性向量列表中每个预设属性特征对应的未知特征值;
提取已知属性向量列表中每个预设属性特征对应的已知特征值;
获取匹配的预设属性特征的个数,所述匹配的预设属性特征为所对应的未知特征值和已知特征值的方差小于第二预设阈值的预设属性特征;
计算匹配的预设属性特征个数与预设属性特征个数的比值即为匹配度。
一种点对点流量识别的装置,所述系统包括:
样本文件获取模块,用于获取已知数据流样本文件;
知识库建立模块,用于根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同;
未知数据流获取模块,用于获取未知数据流;
未知列表建立模块,用于建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;
识别模块,用于判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量。
优选的,所述知识库建立模块具体包括:
数据流整理单元,用于将已知数据流样本文件整理成多条已知数据流;
已知特征值提取单元,用于提取每条已知数据流中多个预设属性特征的已知特征值;
已知特征值分类单元,用于将多个已知特征值按照所属的点对点流量特征通过机器学习算法进行分类,将每个点对点流量特征所包含的多个预设属性特征和每个预设属性特征对应的多个已知特征值根据作为一个已知属性向量列表;
知识库输出单元,用于将多个已知属性向量列表输出作为知识库。
优选的,所述未知列表建立模块具体包括:
未知特征值提取单元,用于提取未知数据流中多个预设属性特征的未知特征值;
未知列表输出单元,用于将所述多个预设属性特征和每个属性特征对应的一个未知特征值输出作为未知数据流中的未知属性向量列表。
优选的,所述识别模块具体包括:
匹配度计算单元,用于计算未知属性向量与知识库中每一个已知属性向量的匹配度;
判断单元,用于判断是否有一个匹配度大于第一预设阈值,如果是,则未知属性向量列表与知识库是否匹配。
优选的,所述匹配度计算单元具体包括:
第一特征值提取单元,用于提取未知属性向量列表中每个预设属性特征对应的未知特征值;
第二特征值提取单元,用于提取已知属性向量列表中每个预设属性特征对应的已知特征值;
获取单元,获取匹配的预设属性特征的个数,所述匹配的预设属性特征为所对应的未知特征值和已知特征值的方差小于第二预设阈值的预设属性特征;
比较单元,用于计算匹配的预设属性特征个数与预设属性特征个数的比值即为匹配度。
由上述内容可知,本发明有如下有益效果:
首先,本发明提供了一种点对点流量识别的方法和装置,获取已知数据流样本文件;根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同;获取未知数据流;建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量,无需人工提取预设属性特征,根据已知数据流样本文件建立知识库作为标准,样本文件相同,抽象出的知识库中的多个预设属性特征和每个预设属性特征所对应的已知特征值相同,采用统一的标准自动识别P2P流量,提高识别的精度;
其次,根据知识库中至少一个已知属性向量列表对未知属性向量列表进行匹配识别,匹配的预设属性特征为所对应的未知特征值和已知特征值的方差小于第二预设阈值的预设属性特征,属于模糊识别,当预设属性特征引入的新的微小变化时,与现有技术中的精确识别相比,对识别的结果影响较小,P2P流量识别率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种点对点流量识别的方法实施例一流程图;
图2为本发明一种点对点流量识别的方法实施例二流程图;
图3为本发明一种点对点流量识别的装置实施例三结构示意图。
具体实施方式
本发明公开了一种点对点流量识别的方法和装置,建立知识库作为统一标准,提高点对点流量识别的精度。
本发明所提供的方法,包括:获取已知数据流样本文件;根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同;获取未知数据流;建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量。
本发明所提供的装置,包括:样本文件获取模块,用于获取已知数据流样本文件;知识库建立模块,用于根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同;未知数据流获取模块,用于获取未知数据流;未知列表建立模块,用于建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;识别模块,用于判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量。
下面结合附图对本发明实施例进行详细说明。
实施例一
图1为本发明一种点对点流量识别的方法实施例一流程图,具体包括:
步骤101:获取已知数据流样本文件。
当P2P流量进行大量访问时,使用抓包工具获取大量访问数据流中的数据包进行存储作为已知数据流样本文件。
常用的抓包工具包括:Sniffer,wireshark,WinNetCap.WinSockExpert和SpyNet等。可以获取所抓到的数据包的序号、时间、源目的MAC地址、源目的IP地址、协议类型和源目的端口号等属性特征的特征值。
步骤102:根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同。
已知数据流样本文件中所包含的若干个数据包属于不同的已知数据流,每一条已知数据流包括多个数据包,属于同一条已知数据流的多个数据包中有描述该已知数据流的多个预设属性特征的已知特征值。
将数据流样本文件中的若干个数据包进行分类,将原IP地址、原端口、目的IP地址、目的端口和传输层协议号相同的多个数据包分成一组,每一组中的多个数据包按照所抓取的时间顺序排列,组成一条已知数据流。因此,数据流样本文件中包含多条已知数据流。
点对点流量根据特征的不同可以分为电驴、HTTP、迅雷、快车等多个种类。数据流样本文件中的多条已知数据流属于不同的点对点流量特征。读取每一条已知数据流中按照时间顺序排列在前N的数据包中的数据,提取多个预设属性特征的已知特征值。将多个已知特征值按照已知数据流所属的点对点流量特征进行分类。不同类别的点对点流量特征所包含的多个预设属性特征所对应的多个已知特征值不完全相同。
将每个点对点流量特征所包含的多个预设属性特征和每个预设属性特征对应的多个已知特征值作为一个已知属性向量列表。将多个已知属性向量列表输出,作为知识库。
其中,N值选取的越大越好。本发明中,优选的,考虑到存储空间、识别精度的要求和流量数据实时处理特性,N的值为16。
可知,知识库包括至少一个已知属性向量列表,每个已知属性向量列表中所包含的多个预设属性特征的种类相同,每个预设属性特征所对应多个已知特征值不完全相同。其中,已知特征值可以是一个具体的值,也可以是一个数值区间,还可以是多个离散的数值。
预设属性特征包括:数据包的编号(id)、协议类型(protocol)、源端口值(sport)、目的端口值(dport)、发送数据包个数(sentnum)、接收数据包个数(recvnum)、最长数据包长度(maxlen)、最短数据包长度(minlen)、数据包平均长度(avelen)、为数据流中报文(1-Q)的数据段长度(len1-lenQ)、数据段为0的数据包个数(zeronum)、数据流(报文1-Q)总持续时长(duration)、最长时间间隔(maxinterval)、最短时间间隔(mininterval)、数据包时间间隔(t1-(Q-1))。
上述预设属性特征的选取,是根据特定的机器学习算法对数据流样本文件中的数据进行分类训练所的出来的,选取对P2P流量的识别影响较大的又较为均衡的预设属性特征,忽略对于P2P数据流识别影响太小的属性特征。如果某个预设属性特征对全局识别的影响相较其它预设属性特征太大,最终的识别结果可能会有很大的偏差,相当于只有该预设属性特征在起识别作用,而不是跟据多条预设属性特征来进行整体判断。所以应该继续细分该预设属性特征或者直接去除该预设属性特征。所述学习算法可以为:有监督学习算法、无监督学习算法和半监督学习算法。
步骤103:获取未知数据流。
通过抓包工具获取一条未知数据流中的数据包。
步骤104:建立未知数据流中的未知属性向量列表,所述未知属性向量列表与已知属性向量列表中包含的预设属性特征的个数和种类相同。
按照未知数据流中数据包抓取的时间先后读取前N个数据包中的内容,提取每一个预设属性特征所对应的未知特征值。
将多个预设属性特征和每个预设属性特征对应的未知特征值输出作为未知属性向量列表。
步骤105:判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量。
知识库包括至少一个已知属性向量列表,未知属性向量列表与每一个已知属性向量列表中的预设属性特征个数和种类相同。
已知属性向量列表中每个预设属性特征对应多个已知特征值,是已知数据流样本文件中大量访问数据统计的结果。未知属性向量列表中每个预设属性特征对应一个未知特征值,是未知数据流的未知特征值。
将未知属性向量列表与每一个已知属性向量列表匹配,计算匹配度,当有一个匹配度大于第一预设阈值时,未知属性向量列表与知识库匹配。优选的,本发明中,第一预设阈值为80%。
计算未知属性向量列表与一个已知属性向量列表的匹配度,提取未知属性向量列表多个预设属性特征所对应的未知特征值,提取已知属性向量列表多个预设属性特征所对应的已知特征值,计算每一个相同的预设属性特征所对应的已知特征值和未知特征值的方差,方差小于第二预设阈值时,表示此预设属性特征为匹配的预设属性特征。优选的,本发明第二预设阈值为0.5。
优选的,上述计算每一个相同的预设属性特征所对应的已知特征值和未知特征值的方差,可以按照预设的顺序逐一计算;也可以同时并行计算,这里不进行限定。
获取匹配的预设属性特征个数,匹配的预设属性特征个数与预设属性特征个数的比值即为匹配度。
识别为点对点流量后,未知属性向量列表最后一项为应用名(App),输出应用名,若未知数据流被识别为P2P流量,则应用名为P2P;若未知数据流未被识别为P2P流量,则应用名为其它数据流。
优选的,在输出应用名的同时,还可以输出预设属性特征匹配的个数和种类。
由上述内容可知,本发明有如下有益效果:
首先,本发明提供了一种点对点流量识别的方法和装置,获取已知数据流样本文件;根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同;获取未知数据流;建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量,无需人工提取预设属性特征,根据已知数据流样本文件建立知识库作为标准,样本文件相同,抽象出的知识库中的多个预设属性特征和每个预设属性特征所对应的已知特征值相同,采用统一的标准识别P2P流量,提高识别的精度;
其次,根据知识库中至少一个已知属性向量列表对未知属性向量列表进行匹配识别,匹配的预设属性特征为所对应的未知特征值和已知特征值的方差小于第二预设阈值的预设属性特征,属于模糊识别,当预设属性特征引入的新的微小变化时,与现有技术中的精确识别相比,对识别的结果影响较小,P2P流量识别率高。
实施例二
图2为本发明一种识别点对点流量的方法实施例二流程图,包括:
步骤201:获取已知数据流样本文件。
获取数据流样本文件的方法与实施例一相同,这里不再赘述。
步骤202:将已知数据流样本文件整理成多条已知数据流。
使用分流工具,将数据流样本文件中的大量的数据包进行分类,整体成多条已知数据流。
将原IP地址、原端口、目的IP地址、目的端口和传输层协议号相同的数据包分成一组,将每组数据包按照所抓取的时间顺序排列,作为一条已知的数据流。
步骤203:提取每条已知数据流中多个预设属性特征的已知特征值。
读取每个已知数据流的前16个数据包中的内容,提取预设属性特征的已知特征值。每个预设属性特征对应多个已知数据流所提取的已知特征值。
优选的,可以根据存储空间的大小和P2P流量识别的精度调整读取单条已知数据流的数据包的个数。
步骤204:将多个已知特征值按照所属的点对点流量特征通过机器学习算法进行分类,将每个点对点流量特征所包含的多个预设属性特征和每个预设属性特征对应的多个已知特征值根据作为一个已知属性向量列表。
数据流样本文件中的多条已知数据流所属的点对点流量特征不同,将从每条已知数据流中所提取的已知特征属性的已知特征值按照该数据流所属的点对点流量特征通过机器学习算法进行分类。
步骤205:将多个已知属性向量列表输出作为知识库。
每一个已知属性向量列表的多个预设特征属性的种类和个数相同,每个预设特征属性所对应的多个已知特征值不完全相同。
步骤206:获取未知数据流。
使用抓包工具抓取未知数据流中的多个数据包。
步骤207:提取未知数据流中多个预设属性特征的未知特征值。
读取未知数据流中数据包中所包含的每一个预设属性特征所对应的未知特征值。
步骤208:将所述多个预设属性特征和每个预设属性特征对应的一个未知特征值输出作为未知数据流中的未知属性向量列表。
未知属性向量列表中包括多个预设属性特征和每个预设属性特征对应的未知特征值。
所述未知属性向量列表与已知属性向量列表中的预设属性特征的个数和种类相同。
步骤209:计算未知属性向量列表与知识库中每一个已知属性向量列表的匹配度。
计算未知属性向量列表与知识库中一个已知属性向量列表的匹配度具体为:
(1)提取未知属性向量列表中每个预设属性特征对应的未知特征值;
(2)提取已知属性向量列表中每个预设属性特征对应的多个已知特征值;
步骤(1)和步骤(2)所执行的顺序并不限定,也可以先执行步骤(1)。
(3)计算每一个预设属性特征所对应的未知特征值和已知特征值的方差,方差小于第二预设阈值的预设属性特征为匹配的预设属性特征,获取匹配的预设属性特征的个数。
(4)计算匹配的预设属性特征个数与预设属性个数的比值,即匹配度。
优选的,本发明中,第一预设阈值为80%,第二预设阈值为0.5。可以根据实际识别情况,对第一预设阈值和第二预设阈值的实际值进行调整。
步骤210:判断是否有一个匹配度大于第一预设阈值,如果是,则未知属性向量列表与知识库匹配,未知属性向量列表为点对点流量。
将计算出多个匹配度与第一预设阈值相比较,只要有一个匹配度大于第一预设阈值,则未知属性向量列表与知识库匹配。当所有的匹配度都小于地域预设阈值时,则未知属性向量列表不与知识库匹配。
为了便于理解,下面举例说明:
若预设属性特征为目的端口值,目的端口值所对应的未知特征值和已知特征值的方差小于第二预设阈值,则表示目标端口值这个预设属性特征匹配。若有45个预设属性特征,未知属性特征向量列表与知识库中一个已知属性向量列表匹配,匹配的预设属性特征为36个,则匹配度为40/45=0.89=89%。未知属性向量列表与知识库中其它的已知属性向量列表的匹配度为5%、8%和10%。89%大于第一预设阈值80%,则表示未知属性向量列表与知识库匹配。
实施例三
图3为本发明一种点对点流量识别的装置实施例三结构示意图,实施例三是与方法对应的装置实施例,具体包括:
样本文件获取模块301,用于获取已知数据流样本文件。
知识库建立模块302,用于根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同。
优选的,所述知识库建立模块302具体包括:
数据流整理单元306,用于将已知数据流样本文件整理成多条已知数据流。
已知特征值提取单元307,用于提取每条已知数据流中多个预设属性特征的已知特征值。
已知特征值分类单元308,用于将多个已知特征值按照所属的点对点流量特征通过机器学习算法进行分类,将每个点对点流量特征所包含的多个预设属性特征和每个预设属性特征对应的多个已知特征值根据作为一个已知属性向量列表。
知识库输出单元309,用于将多个已知属性向量列表输出作为知识库。
未知数据流获取模块303,用于获取未知数据流。
未知列表建立模块304,用于建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同。
优选的,未知列表建立模块304具体包括:
未知特征值提取单元310,用于提取未知数据流中多个预设属性特征的未知特征值。
未知列表输出单元311,用于将所述多个预设属性特征和每个属性特征对应的一个未知特征值输出作为未知数据流中的未知属性向量列表。
识别模块305,用于判断已知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量。
优选的,识别模块305具体包括:
匹配度计算单元312,用于计算未知属性向量列表与知识库中每一个已知属性向量列表的匹配度。
优选的,所述匹配度计算单元312具体包括:
第一特征值提取单元314,用于提取未知属性向量列表中每个预设属性特征对应的未知特征值。
第二特征值提取单元315,用于提取已知属性向量列表中每个预设属性特征对应的已知特征值。
获取单元316,获取匹配的预设属性特征的个数,所述匹配的预设属性特征为所对应的未知特征值和已知特征值的方差小于第二预设阈值的预设属性特征。
比较单元317,用于计算匹配的预设属性特征个数与预设属性特征个数的比值即为匹配度。
判断单元313,用于判断是否有一个匹配度大于第一预设阈值,如果是,则未知属性向量列表与知识库匹配。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种点对点流量识别的方法,其特征在于,所述方法包括:
获取已知数据流样本文件;
根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同,所述预设属性特征是根据特定的机器学习算法对数据流样本文件中的数据进行分类训练选取的,选取对点对点流量的识别影响较大的又较为均衡的预设属性特征;
获取未知数据流;
建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;
判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量;
所述根据已知数据流样本文件建立知识库具体包括:
将已知数据流样本文件整理成多条已知数据流;
提取每条已知数据流中多个预设属性特征的已知特征值;
将多个已知特征值按照所属的点对点流量特征通过机器学习算法进行分类,将每个点对点流量特征所包含的多个预设属性特征和每个预设属性特征对应的多个已知特征值作为一个已知属性向量列表;
将多个已知属性向量列表输出作为知识库。
2.根据权利要求1所述的方法,其特征在于,所述将已知数据流样本文件整理成多条已知数据流具体为:
将原IP地址、原端口、目的IP地址、目的端口和传输层协议号相同的数据流样本文件中的数据包划分到同一条已知数据流。
3.根据权利要求1所述的方法,其特征在于,所述建立未知数据流中的未知属性向量列表具体为:
提取未知数据流中多个预设属性特征的未知特征值;
将所述多个预设属性特征和每个预设属性特征对应的一个未知特征值输出作为未知数据流中的未知属性向量列表。
4.根据权利要求1所述的方法,其特征在于,所述判断未知属性向量列表与知识库是否匹配具体包括:
计算未知属性向量列表与知识库中每一个已知属性向量列表的匹配度;
判断是否有一个匹配度大于第一预设阈值,如果是,则未知属性向量列表与知识库匹配。
5.根据权利要求4所述的方法,其特征在于,所述计算未知属性向量与知识库中每一个已知属性向量匹配度具体包括:
提取未知属性向量列表中每个预设属性特征对应的未知特征值;
提取已知属性向量列表中每个预设属性特征对应的已知特征值;
获取匹配的预设属性特征的个数,所述匹配的预设属性特征为所对应的未知特征值和已知特征值的方差小于第二预设阈值的预设属性特征;
计算匹配的预设属性特征个数与预设属性特征个数的比值即为匹配度。
6.一种点对点流量识别的装置,其特征在于,所述装置包括:
样本文件获取模块,用于获取已知数据流样本文件;
知识库建立模块,用于根据已知数据流样本文件建立知识库,所述知识库包括至少一个已知属性向量列表,每个已知属性向量列表中包含的预设属性特征的个数和种类相同,所述预设属性特征是根据特定的机器学习算法对数据流样本文件中的数据进行分类训练选取的,选取对点对点流量的识别影响较大的又较为均衡的预设属性特征;
未知数据流获取模块,用于获取未知数据流;
未知列表建立模块,用于建立未知数据流中的未知属性向量列表,所述未知属性向量列表与每个已知属性向量列表中包含的预设属性特征的个数和种类相同;
识别模块,用于判断未知属性向量列表与知识库是否匹配,如果是,则未知数据流为点对点流量;
所述知识库建立模块具体包括:
数据流整理单元,用于将已知数据流样本文件整理成多条已知数据流;
已知特征值提取单元,用于提取每条已知数据流中多个预设属性特征的已知特征值;
已知特征值分类单元,用于将多个已知特征值按照所属的点对点流量特征通过机器学习算法进行分类,将每个点对点流量特征所包含的多个预设属性特征和每个预设属性特征对应的多个已知特征值作为一个已知属性向量列表;
知识库输出单元,用于将多个已知属性向量列表输出作为知识库。
7.根据权利要求6所述的装置,其特征在于,所述未知列表建立模块具体包括:
未知特征值提取单元,用于提取未知数据流中多个预设属性特征的未知特征值;
未知列表输出单元,用于将所述多个预设属性特征和每个属性特征对应的一个未知特征值输出作为未知数据流中的未知属性向量列表。
8.根据权利要求6所述的装置,其特征在于,所述识别模块具体包括:
匹配度计算单元,用于计算未知属性向量列表与知识库中每一个已知属性向量列表的匹配度;
判断单元,用于判断是否有一个匹配度大于第一预设阈值,如果是,则未知属性向量列表与知识库匹配。
9.根据权利要求8所述的装置,其特征在于,所述匹配度计算单元具体包括:
第一特征值提取单元,用于提取未知属性向量列表中每个预设属性特征对应的未知特征值;
第二特征值提取单元,用于提取已知属性向量列表中每个预设属性特征对应的已知特征值;
获取单元,获取匹配的预设属性特征的个数,所述匹配的预设属性特征为所对应的未知特征值和已知特征值的方差小于第二预设阈值的预设属性特征;
比较单元,用于计算匹配的预设属性特征个数与预设属性特征个数的比值即为匹配度。
CN201210530661.6A 2012-12-10 2012-12-10 一种点对点流量识别方法和装置 Active CN102984269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210530661.6A CN102984269B (zh) 2012-12-10 2012-12-10 一种点对点流量识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210530661.6A CN102984269B (zh) 2012-12-10 2012-12-10 一种点对点流量识别方法和装置

Publications (2)

Publication Number Publication Date
CN102984269A CN102984269A (zh) 2013-03-20
CN102984269B true CN102984269B (zh) 2016-05-11

Family

ID=47858002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210530661.6A Active CN102984269B (zh) 2012-12-10 2012-12-10 一种点对点流量识别方法和装置

Country Status (1)

Country Link
CN (1) CN102984269B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103220226B (zh) * 2013-05-02 2016-04-20 百度在线网络技术(北京)有限公司 数据中心间透明实时流量压缩方法和系统
CN104243237B (zh) * 2014-09-17 2017-05-17 新华三技术有限公司 P2p流检测方法和设备
CN104796300B (zh) * 2015-03-23 2018-03-30 亚信科技(南京)有限公司 一种数据包特征提取方法及装置
CN105024993A (zh) * 2015-05-25 2015-11-04 上海南邮实业有限公司 一种基于向量运算的协议比对方法
CN105024862B (zh) * 2015-08-05 2018-04-13 福建师范大学 一种基于自主学习的网络业务识别方法
CN107045613B (zh) * 2016-02-05 2020-09-15 集奥聚合(北京)人工智能科技有限公司 一种信息监控的控制方法及装置
CN107508764B (zh) * 2017-07-03 2020-04-10 网宿科技股份有限公司 一种网络数据流量类型识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447995A (zh) * 2008-12-30 2009-06-03 成都市华为赛门铁克科技有限公司 一种识别p2p数据流的方法、装置和系统
CN101505314A (zh) * 2008-12-29 2009-08-12 成都市华为赛门铁克科技有限公司 一种p2p数据流的识别方法、装置和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814977B (zh) * 2010-04-22 2012-11-21 北京邮电大学 利用数据流头部特征的tcp流量在线识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101505314A (zh) * 2008-12-29 2009-08-12 成都市华为赛门铁克科技有限公司 一种p2p数据流的识别方法、装置和系统
CN101447995A (zh) * 2008-12-30 2009-06-03 成都市华为赛门铁克科技有限公司 一种识别p2p数据流的方法、装置和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于单因素方差分析的P2P 流特征向量优化方法;章鹏程;《计算机技术与发展》;20120430;第22卷(第4期);摘要,正文第1-3部分 *
基于多维支持向量机的P2P 网络流量识别模型;孙知信等;《吉林大学学报( 工学版)》;20100930;第40卷(第5期);正文摘要,第1-2部分 *

Also Published As

Publication number Publication date
CN102984269A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN102984269B (zh) 一种点对点流量识别方法和装置
CN105871832B (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN104270392B (zh) 一种基于三分类器协同训练学习的网络协议识别方法及系统
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN101741744B (zh) 一种网络流量识别方法
CN104244035B (zh) 基于多层聚类的网络视频流分类方法
CN104052639B (zh) 基于支持向量机的实时多应用网络流量识别方法
CN102739457B (zh) 一种基于dpi和svm技术的网络流量识别方法
CN102394827A (zh) 互联网流量分级分类方法
Alshammari et al. Investigating two different approaches for encrypted traffic classification
CN111953669A (zh) 适用于SDN的Tor流量溯源与应用类型识别方法和系统
CN107547290A (zh) 流量检测方法和装置
CN108289125A (zh) 基于流式处理的tcp会话重组与统计数据提取方法
CN104243237A (zh) P2p流检测方法和设备
CN104348741A (zh) 基于多尺度分析和决策树的p2p流量检测方法和系统
Min et al. Online Internet traffic identification algorithm based on multistage classifier
Altschaffel et al. Statistical pattern recognition based content analysis on encrypted network: Traffic for the teamviewer application
CN103532779B (zh) 一种快速定位分流设备丢包的方法及系统
CN101170496B (zh) 一种点对点媒体流确定方法和装置
CN101764754A (zh) 基于dpi和dfi的业务识别系统中的样本获取方法
Abdalla et al. Impact of packet inter-arrival time features for online peer-to-peer (P2P) classification
Hejun et al. Online and automatic identification and mining of encryption network behavior in big data environment
CN112929364B (zh) 一种基于icmp隧道分析的数据泄漏检测方法及系统
CN105279230A (zh) 通过主动学习方法构建互联网应用特征识别数据库的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Wei

Inventor after: Hu Xiaofeng

Inventor before: Wang Wei