CN107864168B - 一种网络数据流分类的方法及系统 - Google Patents

一种网络数据流分类的方法及系统 Download PDF

Info

Publication number
CN107864168B
CN107864168B CN201610842056.0A CN201610842056A CN107864168B CN 107864168 B CN107864168 B CN 107864168B CN 201610842056 A CN201610842056 A CN 201610842056A CN 107864168 B CN107864168 B CN 107864168B
Authority
CN
China
Prior art keywords
information
data stream
dimension
model
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610842056.0A
Other languages
English (en)
Other versions
CN107864168A (zh
Inventor
陈志堂
耿彦辉
简波尼亚斯·乔治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610842056.0A priority Critical patent/CN107864168B/zh
Priority to PCT/CN2017/102825 priority patent/WO2018054342A1/zh
Publication of CN107864168A publication Critical patent/CN107864168A/zh
Priority to US16/362,135 priority patent/US10999175B2/en
Application granted granted Critical
Publication of CN107864168B publication Critical patent/CN107864168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种网络数据流分类的方法及系统,方法包括:采集待处理的数据流的包含有多个维度信息的信息集合;建立信息集合中每个维度信息的静态行为模型及动态行为模型,静态行为模型表征维度信息的取值规律,动态行为模型表征维度信息在前后时刻之间的关联关系;利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离;基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。

Description

一种网络数据流分类的方法及系统
技术领域
本申请涉及数据处理技术领域,特别涉及一种网络数据流分类的方法及系统。
背景技术
随着互联网技术的日益普遍,特别是移动终端的普及,通信网络涌现出越来越多的应用类型的数据流,如交互类型、巨量数据传输类型、流应用的类型及异常流类型,等等。不同的应用类型的数据流对网络服务的要求不尽相同,因此,通常针对不同的应用类型的数据流需要提供不同的服务质量。例如,交互类型的数据,如远程登录等数据,对网络的延迟性要求较高,具有较高的实时性需求;巨量数据传输类型的数据,如文件、视频的下载等,虽然对实时性的需求不高,但需要足够的吞吐量保证;而流应用类型的数据,如在线视频观看、多媒体会议等,对实时性的需求较高,且对网络传输的抖动及丢包率等参数也有较高的要求;或者,异常的数据,而异常的数据可能属于恶意攻击并企图瘫痪网络,需要采取措施限制甚至禁止;等等。
为了实现对不同应用类型的数据流提供不同的服务质量,需要在提供服务之前准确的将网络中的数据流进行应用类型的准确分类。现有技术中通常采用以下两种方案实现:
一种方案中,根据数据流的服务器端口号或客户端端口号对数据流进行应用类型的分类。但是,这种方案需要预先基于IRNA(Internet Assigned Number Authority,网络分配数量权威)将端口号和数据流的应用类型进行关联,而IRNA无法定义所有应用类型的数据流,很多应用并不遵从IRNA的规则而是随机的分配端口号,因此,对应用类型的分类具有局限性;
另一种方案中,通过对数据流的报文内容进行深度的报文解析,以实现区分出异常数据流。但这种方案中,不能适用于对数据流报文加密的网络场景中,仍然存在局限性。
还有一种方案中,通过对数据流进行特征提取,然后利用机器学习根据特征学习出分类器,再对数据流进行应用类型的分类。但这种方案中需要预先进行特征工程,比如对数据流的数据包长度进行简单的统计,计算数据包长度的平均值、方差、最大值及最小值等作为特征,然而这些特征并不能完全的刻画整个数据流的行为,例如,两个不同应用类型的数据流可能具有相同的平均值和方差,因此,对数据流进行应用类型分类并不准确。
因此,亟需一种能够准确的将网络中的数据流进行应用类型分类的技术方案,以实现对不同应用类型的数据流提供不同的服务质量。
发明内容
有鉴于此,本申请的目的是提供一种网络数据流分类的方法及系统,用以解决现有技术中对数据流进行应用类型分类不准确的技术问题。
本发明的第一方面提供了一种网络数据流分类的方法,其中包括以下步骤:采集待处理的数据流的包含有多个维度信息的信息集合,并建立信息集合中每个维度信息的静态行为模型及动态行为模型,再利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,最后再基于这些静态模型距离及动态模型距离,确定待处理的数据流的应用类型。可见,在对数据流进行应用类型的分类时,基于数据流的信息集合中每个维度信息,建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型,以此更加准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较,实现数据流的分类,由此提高对数据流的应用类型进行分类的准确性。
本发明的第二方面提供了一种网络数据流分类的系统,其中包括以下结构:包含用于采集终端传输的待处理的数据流的信息集合的信息采集模块的从服务器,以及,包含用于获得信息采集模块采集到的信息集合的数据接口、存储应用程序及应用程序运行所产生的数据的存储器及处理器的主服务器,处理器通过运行应用程序,建立信息集合中每个维度信息的静态行为模型及动态行为模型,再利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,最后再基于这些静态模型距离及动态模型距离,确定待处理的数据流的应用类型。由此可知,系统在对数据流进行应用类型的分类时,首先由从服务器中的各个信息采集模块采集待处理的数据流的信息集合,再由主服务器基于数据流的信息集合中每个维度信息,建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型,以此准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较,实现数据流的分类,由此提高对数据流的应用类型进行分类的准确性。
在一个实现方式中,信息集合中包括流层面的第一信息集合及链接层面的第二信息集合,而第一信息集合中至少包括以下维度信息:报文长度、报文到达时间间隔,第二信息集合中至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。由此,基于报文长度、报文到达时间间隔,以及,数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔所建立的静态行为模型及动态行为模型能够更加准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较后,能够更加准确的对数据流的应用类型进行分类。
在一个实现方式中,处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型,包括:获得第一信息集合中每个维度信息的表征维度信息的取值规律的边缘概率分布,并基于第一信息集合中每个维度信息的边缘概率分布生成第一信息集合中每个维度信息的静态行为模型;获得第一信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布,并基于第一信息集合中每个维度信息的条件概率分布生成第一信息集合中每个维度信息的动态行为模型;获得第二信息集合中每个维度信息的表征维度信息的取值规律的边缘概率分布,并基于第二信息集合中每个维度信息的边缘概率分布生成第二信息集合中每个维度信息的静态行为模型;获得第二信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布,并基于第二信息集合中每个维度信息的条件概率分布,生成第二信息集合中每个维度信息的动态行为模型。可见,通过计算概率分布来对数据流的应用类型进行分类,使得刻画应用类型不同的行为模型准确性更高,进一步准确的对数据流的应用类型进行分类。
在一种实现方式中,处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型,具体为:利用
Figure BDA0001118793320000041
获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合
Figure BDA0001118793320000042
中的第i个维度信息,n为第一信息集合
Figure BDA0001118793320000043
中维度信息的个数,
Figure BDA0001118793320000044
为核函数k(x,y)的特征函数向量;利用
Figure BDA0001118793320000045
获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure BDA0001118793320000046
且[Ktt]为第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合
Figure BDA0001118793320000047
中的第i个维度信息,n为第一信息集合
Figure BDA0001118793320000048
中维度信息的个数,
Figure BDA0001118793320000049
为核函数k(x,y)的特征函数向量,λ为预设参数,I为单位矩阵;利用
Figure BDA00011187933200000410
获得第二信息集合
Figure BDA00011187933200000411
中每个维度信息的静态行为模型,其中,xi为第二信息集合
Figure BDA00011187933200000412
中的第i个维度信息,n为第二信息集合
Figure BDA00011187933200000413
中维度信息的个数;利用
Figure BDA00011187933200000414
获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure BDA00011187933200000415
且[Ktt]为所述第二信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第二信息集合
Figure BDA00011187933200000416
中的第i个维度信息,n为第二信息集合
Figure BDA00011187933200000417
中维度信息的个数,
Figure BDA00011187933200000418
为核函数k(x,y)的特征函数向量。可见,通过计算概率分布来对数据流的应用类型进行分类,使得刻画应用类型不同的行为模型准确性更高,进一步准确的对数据流的应用类型进行分类。
在一种实现方式中,处理器利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,具体为:利用
Figure BDA0001118793320000051
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离,其中,
Figure BDA0001118793320000052
为待处理的数据流A的第一信息集合
Figure BDA0001118793320000053
的静态行为模型,
Figure BDA0001118793320000054
为目标应用类型所属的数据流B的流层面的静态行为模型,
Figure BDA0001118793320000055
i表示信息集合中的第i个维度信息;利用
Figure BDA0001118793320000056
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离,其中,
Figure BDA0001118793320000057
为待处理的数据流A的第二信息集合
Figure BDA0001118793320000058
的静态行为模型,
Figure BDA0001118793320000059
为目标应用类型所属的数据流B的链接层面的静态行为模型;利用
Figure BDA00011187933200000510
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离,其中,
Figure BDA00011187933200000511
为待处理的数据流A的第一信息集合
Figure BDA00011187933200000512
的静态行为模型,
Figure BDA00011187933200000513
为目标应用类型所属的数据流B的流层面的静态行为模型;利用
Figure BDA00011187933200000514
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离,其中,
Figure BDA00011187933200000515
为待处理的数据流A的第二信息集合
Figure BDA00011187933200000516
的动态行为模型,
Figure BDA00011187933200000517
为目标应用类型所属的数据流B的链接层面的动态行为模型。可见,通过获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,进而基于距离来对数据流进行应用类型的分类,进一步的提高对数据流的应用类型进行分类的准确性。
在一种实现中,处理器基于待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定待处理的数据流的应用类型,具体为:对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到待处理的数据流与各个所述目标数据流之间的特征距离;再利用分类算法,基于特征距离,确定所述待处理的数据流的应用类型。可见,利用不同维度在数据流分类中的重要性不同,使得不同维度的权重不同,因此,将权重考虑到对数据流的应用类型的分类中,进一步的提高对数据流的应用类型进行分类的准确性。
在一个实现方式中,处理器对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离,具体为:基于各个目标应用类型的数据流的静态行为模型及动态行为模型,获得权重矩阵,权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大,再利用权重矩阵,对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到待处理的数据流与各个所述目标数据流之间的特征距离。可见,通过最大化不同应用类型的数据流的静态模型距离及动态模型距离,并最小化同一应用类型的数据流的静态模型距离及动态模型距离,从而得到每个维度信息的特征距离的权重,组成权重矩阵,由此,将得到的权重矩阵加入到对数据流的应用类型的分类中,进一步的提高对数据流的应用类型进行分类的准确性。
在一种实现中,分类算法包括:K近邻分类算法或Naive Bayesian分类算法,则处理器利用分类算法,基于所述特征距离,确定述待处理的数据流的应用类型,具体为:基于K近邻分类算法或Naive Bayesian分类算法,将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。由此,基于此处理器实现对数据流的应用类型的分类,更好的提高分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为通信网络中终端进行数据通信的示意图;
图2为本申请实施例的应用示例图;
图3为本申请实施例提供的一种网络数据流分类的方法的实现流程图;
图4a、图4b、图5a及图5b分别为本申请实施例的其他应用示例图;
图6为本申请实施例提供的一种网络数据流分类的系统的结构示意图。
具体实施方式
图1所示为通信网络中终端进行数据通信的示意图,终端可以为各种网络设备,如手机、电脑、服务器等能够进行网络数据通信的设备,终端之间可以通过有线或无线进行连接,进而进行数据通信,形成通信网络,如WiFi、蓝牙、GPS(Global Positioning System,全球移动通信)或卫星通信等。
本申请为实现对通信网络中终端进行数据通信的数据流进行应用类型的分类,可以通过以下方案实现:
图2所示为本实施例中利用服务器群对终端进行数据通信过程中的数据流进行采集并分类的示例图,服务器群中可以包括有从服务器及主服务器。图3为本申请实施例提供的一种网络数据流分类的方法的实现流程图,服务器群为实现对通信网络中的数据流的应用类型的分类,在各个终端的传输接口将数据流进行传输之后,服务器群可以执行如下步骤:
S301:从服务器对经过各个终端上的传输接口进行传输的数据流进行筛选,以筛去已经完成传输的数据流。
S302:从服务器将其余的未完成传输的数据流的信息集合进行采集。
S303:从服务器将这些采集到的信息集合传输给主服务器。
这里的已经完成传输的数据流是指,数据流中的所有的报文都到达目的地的数据流,数据流的目的地可以是传输接口所属的终端,或者与传输接口所属终端之间有数据链接进行数据传输的其他终端。
在终端进行传输数据流时,本实施例中,利用从服务器对各个终端进行传输且未传输到目的地的数据流进行应用类型的分类,进而根据分类结果对未传输到目的地的数据流提供相应服务性能或服务质量的传输服务,以将数据流传输到目的地。
例如,对交互类型的数据流提供快速的传输服务性能,以保证其实时性需求;对巨量数据传输类型的数据流提供足够的数据吞吐量,以保证文件或视频等数据的下载顺畅;对流应用类型的数据流提供较大的传输带宽及数据吞吐量,以保证其实时性的需求及对网络传输的抖动及丢包率等参数的要求;对异常类型的数据流采取措施限制甚至禁止,以保证网络安全及稳定,等等。
从服务器在筛去已经完成传输的数据流时,可以通过以下方式实现:
基于TCP数据流在传输完成时的最后一个报文为FIN报文,从服务器根据目前为止经过传输接口的最后一个报文是否为FIN报文,来确定这个报文所属的数据流是否已经传输完成;
或者,基于UDP数据流在传输完成时的最后一个报文的时间戳与当前系统时间的差值超过预设的阈值,从服务器根据最后传输的报文的时间戳与当前系统时间的差值是否超过预设的阈值,来确定这个报文所属的数据流是否已经老化,即是否传输完成。
从服务器通过对各个终端的传输接口进行监测,以监测到有数据流到来时,本实施例对数据流中的各个报文的报文信息进行采集并对各个数据流的数据流信息进行采集,并生成对应的信息集合,再将这些信息集合实时上传给主服务器。例如:
对于每个终端的传输接口,数据流中各个报文的到来可以看成一个时间序列,数据流中的报文依次经过传输接口,随着时间的推移,数据流中的第1个至第n个报文的到达,从服务器对这些报文的报文信息进行采集,并生成一个信息集合,如图4a中所示,以
Figure BDA0001118793320000081
表示,这个信息集合
Figure BDA0001118793320000082
中每个报文信息包括但不仅限于如下的信息:
报文长度(packet size)及与上一个报文之间到达时间的时间间隔(packetinter-arrival time)。
而对于每个终端的传输接口,串行传输的各个数据流的到来可以看成一个时间序列,各个数据流依次经过传输接口,而随着时间的推移,第1个数据流至第n个数据流的到达,从服务器对这些数据流的数据流信息进行采集,并生成一个信息集合,如图4b中所示,以
Figure BDA0001118793320000083
表示,这个信息集合
Figure BDA0001118793320000084
中每个数据流信息包括但不仅限于如下的信息:
数据流长度(flow length)、数据流中报文的数目(packet number)、数据流的传输持续时间(flow duration)及与上个数据流之间到达时间的时间间隔(flow inter-arrival time)。
其中,报文信息的信息集合
Figure BDA0001118793320000091
可以理解为数据流层面数据报文之间的时序信息集合,而数据流信息的信息集合
Figure BDA0001118793320000092
可以理解为在链接层面上数据流之间的时序信息集合,其中的P与C用以区分数据流层面packet与链接层面connection。
主服务器在接收到从服务器所上传的信息集合之后,对每个待处理的数据流的信息集合执行以下操作,以确定每个待处理的数据流的应用类型:
S304:基于待处理的数据流的信息集合中的各项维度信息,建立每个维度信息的静态行为模型及动态行为模型。
这里的维度信息可以理解为待处理的数据流的信息集合中每个报文信息或每个数据流信息中的信息项目的信息,如报文长度及与上一个报文到达时间的时间间隔,这两个项目信息即为报文信息的信息集合中的两个维度信息,而数据流长度、数据流中报文的数目、数据流的传输持续时间及与上个数据流之间到达时间的时间间隔,这些项目信息即为数据流信息的信息集合中的几个维度信息,等等。
在建立静态行为模型时,主服务器首先获得待处理的数据流的信息集合中每个维度信息的边缘概率分布,这里每个维度信息的边缘概率分布表征该维度信息的规律,也就是这个维度信息的取值规律(不同的应用类型的数据流在每个维度上的取值具有不同的规律),之后,将边缘概率分布映射到可再生核空间,成为一个向量,即为静态行为模型。
在建立动态行为模型时,主服务器首先获得待处理的数据流的前后两个时刻的信息集合中每个维度信息的条件概率分布,这里每个维度信息的条件概率分布表征待处理的数据流前后时刻的维度信息的关联关系(不同的应用类型的数据流中每个维度上在前后时刻之间的维度信息关联关系不同),之后,将条件概率分布映射到可再生核空间成为一个操作子,即为动态行为模型。
以下对待处理的数据流的信息集合中每个维度信息的静态行为模型及动态行为模型的建立进行详述:
对于待处理的数据流的信息集合,包括流层面的信息集合
Figure BDA0001118793320000101
和链接层面的信息集合
Figure BDA0001118793320000102
流层面的信息集合
Figure BDA0001118793320000103
包括但不仅限于如下的变量(维度信息):
数据报文长度(packet size):p;
数据报文到达时间间隔(packet inter-arrival time):Δtp
而链接层面的信息集合
Figure BDA0001118793320000104
包含但不仅限于如下的变量:
数据流长度(flow length):l;
数据流报文数目(packet number):n;
数据流持续时间(flow duration):d;
数据流到达时间间隔(flow inter-arrival time):Δtf
本实施例中,主服务器对数据流的静态行为模型的建模是通过对上述各个变量进行边缘概率分布的建模。这里可以采用可再生核希尔伯特空间嵌入(Reproducing KernelHilbert Space Embedding)的方案,也可以采用其他参数化或者非参数化的方案,比如基于K近邻的概率密度函数估计法(k nearest neighbor based probability densityestimation)。本实施例中,可再生核希尔伯特空间嵌入方案将每个变量(维度信息)的边缘概率分布映射到可再生核空间成为一个变量,即可得到每个变量的静态行为模型,也就是RKHS嵌入,如图5a中映射关系所示:
流层面的信息集合
Figure BDA0001118793320000105
每个维度的变量的静态行为模型如下:
Figure BDA0001118793320000106
其中,μp,i即为流层面(P)的信息集合
Figure BDA0001118793320000107
中每个维度信息i的静态行为模型。
链接层面的信息集合
Figure BDA0001118793320000108
中每个维度的变量的静态行为模型如下:
Figure BDA0001118793320000109
其中,μc,i即为流层面(C)的信息集合
Figure BDA00011187933200001010
中每个维度信息i的静态行为模型。
以数据流的流层面的信息集合的第i个维度的变量(维度信息)为例,以下为建模过程:
设采集到的数据流的流层面的信息集合的第i个维度信息为:
Figure BDA0001118793320000111
那么,该数据流关于报文长度这一维度信息的静态行为模型可以利用如下公式(1)计算获得:
Figure BDA0001118793320000112
其中,
Figure BDA0001118793320000113
为核函数k(x,y)的特征函数向量。
而数据流的动态行为模型是指数据流的信息集合的所有维度上的变量在前后两个时刻的条件概率分布。由于数据流可以看做是一个时间时序,而时间时序的动态行为反应在该时间序列前后时刻变量取值在统计上的相关性,因此,本实施例中通过刻画一个时间序列的动态行为,可以用前后两个时刻的每个维度的变量的条件概率分布。
这里可以采用可再生核希尔伯特空间嵌入(Reproducing Kernel Hilbert SpaceEmbedding)的方案,也可以采用其他参数化或者非参数话的方案。本实施例中,可再生核希尔伯特空间嵌入方案将每个变量(维度信息)的条件概率分布映射到可再生核空间成为一个操作子,也就是RKHS嵌入,如图5b中映射关系所示:
流层面的信息集合
Figure BDA0001118793320000114
每个维度的变量的动态行为模型如下:
Figure BDA0001118793320000115
其中,Up,i即为流层面(P)的信息集合
Figure BDA0001118793320000116
中前后两个时刻t与t+1每个维度信息i的动态行为模型。
链接层面的信息集合
Figure BDA0001118793320000117
中每个维度的变量的动态行为模型如下:
Figure BDA0001118793320000118
其中,Uc,i即为流层面(C)的信息集合
Figure BDA0001118793320000119
中前后两个时刻t与t+1每个维度信息i的动态行为模型。
以数据流的流层面的信息集合的第i个维度的变量(维度信息)为例,以下为建模过程:
设采集到的数据流的流层面的信息集合的t时刻第i个维度信息为:
Figure BDA00011187933200001110
t+1时刻第i个维度信息为:
Figure BDA0001118793320000121
那么,该数据流关于报文长度这一维度信息前后两个时刻的动态行为模型可以利用如下公式(2)计算获得:
Figure BDA0001118793320000122
其中,
Figure BDA0001118793320000123
且[Ktt]ij=k(xi,xj),
Figure BDA0001118793320000124
为核函数k(x,y)的特征函数向量,Ktt为流层面的信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,λ为规则化参数,可以由用户根据需求进行定义,I为单位矩阵,即为对角线上矩阵元素为1的对角矩阵。
S305:主服务器计算每个维度信息的静态行为模型分别与预设的各个应用类型相应维度上的目标静态行为模型之间的静态模型距离,并计算每个维度信息的动态行为模型分别与预设的各个应用类型相应维度上的目标动态行为模型之间的动态模型距离。
这里的目标静态行为模型及目标动态行为模型是由主服务器通过预先定期收集网络中不同的目标应用类型的数据流的信息集合,并进行建模所得到的,主服务器获得这些目标静态行为模型及目标动态行为模型的具体方案可以参考前文中主服务器获得待处理的数据流的每个维度信息的静态行为模型及动态行为模型的实现方案。
这里的目标应用类型的数据流的信息集合,是指已知应用类型的数据流的信息集合,这里的目标应用类型可以为根据业务需要进行定义的,如大象流(流量巨大的数据流)、老鼠流(流量小的数据流)、视频流,或者Skype、Edonkey、FTP、SSH等等类型。
静态模型距离为待处理的数据流每个维度信息的静态行为模型与各个目标应用相应维度上的目标静态行为模型之间的距离,也就是每个维度信息的边缘概率分布的距离,以下对静态模型距离的计算进行举例说明:
以待处理的数据流A及目标应用类型所属的数据流B为例,A具有信息集合
Figure BDA0001118793320000125
Figure BDA0001118793320000126
B具有信息集合
Figure BDA0001118793320000127
Figure BDA0001118793320000128
主服务器计算数据流A与B的静态行为模型
Figure BDA0001118793320000131
以及
Figure BDA0001118793320000132
之后,通过以下公式(3)及(4)计算两个数据流在静态行为模型上的静态模型距离:
Figure BDA0001118793320000133
Figure BDA0001118793320000134
这里,以数据流的流层面的信息集合的第i个维度的变量如报文长度为例,数据流A与B的静态行为模型分别为:
Figure BDA0001118793320000135
Figure BDA0001118793320000136
数据流A与B在报文长度的静态行为模型之间的静态模型距离为:
Figure BDA0001118793320000137
其中:
Figure BDA0001118793320000138
动态模型距离为待处理的数据流每个维度信息的动态行为模型与各个目标应用相应维度上的目标动态行为模型之间的距离,也就是每个维度信息前后两个时刻的条件概率分布的距离,以下对动态模型距离的计算进行举例说明:
以待处理的数据流A及目标应用类型所属的数据流B为例,A具有信息集合
Figure BDA0001118793320000139
Figure BDA00011187933200001310
B具有信息集合
Figure BDA00011187933200001311
Figure BDA00011187933200001312
主服务器计算数据流A与B的动态行为模型
Figure BDA00011187933200001313
以及
Figure BDA00011187933200001314
之后,通过以下公式(5)及(6)计算两个数据流在动态行为模型上的动态模型距离:
Figure BDA00011187933200001315
Figure BDA00011187933200001316
这里,以数据流的流层面的信息集合的第i个维度的变量如报文长度为例:数据流A与B的动态行为模型分别为:
Figure BDA00011187933200001317
Figure BDA00011187933200001318
数据流A与B在报文长度前后两个时刻的动态行为模型之间的动态模型距离为:
Figure BDA00011187933200001319
其中:
Figure BDA0001118793320000141
基于以上方案可知,以矩阵表示待处理的数据流A及目标应用类型所属的数据流B之间:
静态模型距离向量:
Figure BDA0001118793320000142
动态模型距离向量:
Figure BDA0001118793320000143
特征距离向量:
Figure BDA0001118793320000144
S306:主服务器对待处理的数据流与各个目标应用类型所属数据流之间的静态模型距离及动态模型距离进行加权处理,得到待处理的数据流与各个目标应用类型所属的数据流之间的特征距离。
主服务器预先通过训练学习,获得一个最佳距离权重矩阵,即能够使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大。
具体的,主服务器周期性的收集各个目标应用类型的数据流的静态行为模型及动态行为模型,并计算任意两个数据流之间的静态模型距离及动态模型距离,通过最小化同一应用类型的数据流的静态模型距离及动态模型距离,最大化不同应用类型的数据流的静态模型距离及动态模型距离,找到最佳的权重矩阵。
例如,将训练样本的数据流按照是否属于同一应用类型,分为如下两个数据流对集合:
S:(fi,fj)∈S,fi和fj从属于同一应用类型;
D:(fi,fj)∈D,fi和fj从属于不同应用类型。
由此,找到半正定矩阵X,使得以下目标函数最小化:
Figure BDA0001118793320000151
s.t.X>0
这里,
Figure BDA0001118793320000152
表示了任意两个数据流的特征距离的目标函数,目标函数最小化后所得到的权重矩阵X即为最佳矩阵,能够使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大。
基于以上方案所得到的最佳的权重矩阵X,与特征距离向量进行矩阵计算,得到最终的特征距离。
S307:利用分类算法,基于待处理的数据流与各个目标应用类型所属的数据流之间的特征距离,确定待处理的数据流的应用类型。
本实施例中可以利用KNN(K-Nearest Neighbor,K近邻)、Naive Bayesian(朴素贝页斯)等进行分类,将最小的特征距离所对应的目标应用类型确定为待处理的数据流的应用类型,实现对数据流的应用类型的分类。
由上述方案可知,本申请实施例提供的一种网络数据流分类的方法,通过计算概率分布来对数据流的应用类型进行分类,使得刻画应用类型不同的行为模式准确性更高,避免了复杂低效的特征设计。
进一步的,本申请通过应用类型在静态和动态的行为模式差异,提供更准确的信息用于应用类型的分类。
另外,本申请利用历史训练数据学习出每一个维度的特征距离的重要性,进一步的,周期性的学习可以实现方案的自适应性。
图6所示为图2中从服务器及主服务器所组成的网络数据流分类的系统的细节结构图,其中:
从服务器601,至少包括:信息采集模块611,用于采集各种终端传输的待处理的数据流的信息集合,信息集合包括有多个维度信息;
主服务器602,可以包括有:
数据接口621,用于获得信息采集模块611采集到的信息集合;
存储器622,用于存储应用程序及应用程序运行所产生的数据。
处理器623,与数据接口621相连接,用于运行应用程序,以建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

Claims (16)

1.一种网络数据流分类的方法,其特征在于,包括:
采集待处理的数据流的信息集合,所述信息集合包括有多个维度信息;
建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,所述静态行为模型表征所述维度信息的取值规律,所述动态行为模型表征所述维度信息在前后时刻之间的关联关系,所述信息集合中每个维度信息的静态行为模型,具体为:所述信息集合中每个维度信息的边缘概率分布映射到可再生核空间得到的每个维度信息对应的向量;所述信息集合中每个维度信息的动态行为模型,具体为:前后两个时刻的所述信息集合中每个维度信息的条件概率分布映射到可再生核空间得到所述前后时刻的每个维度信息的操作子;
利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离;
基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。
2.根据权利要求1所述的方法,其特征在于,所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合;
所述第一信息集合至少包括以下维度信息:报文长度和报文到达时间间隔;
所述第二信息集合至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间和数据流到达时间间隔。
3.根据权利要求2所述的方法,其特征在于,所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,包括:
获得所述第一信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第一信息集合中每个维度信息的边缘概率分布,生成所述第一信息集合中每个维度信息的静态行为模型;
获得所述第一信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第一信息集合中每个维度信息的条件概率分布,生成所述第一信息集合中每个维度信息的动态行为模型;
获得所述第二信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第二信息集合中每个维度信息的边缘概率分布,生成所述第二信息集合中每个维度信息的静态行为模型;
获得所述第二信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第二信息集合中每个维度信息的条件概率分布,生成所述第二信息集合中每个维度信息的动态行为模型。
4.根据权利要求2所述的方法,其特征在于,所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,包括:
利用
Figure FDA0002922298410000021
获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合
Figure FDA00029222984100000215
中的第i个维度信息,n为第一信息集合
Figure FDA00029222984100000216
中维度信息的个数,
Figure FDA0002922298410000022
为核函数k(x,y)的特征函数向量,x、y为核函数的变量;
利用
Figure FDA0002922298410000023
获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure FDA0002922298410000024
Figure FDA0002922298410000025
且Ktt为所述第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合
Figure FDA0002922298410000026
中的第i个维度信息,xj为第一信息集合
Figure FDA0002922298410000027
中的第j个维度信息,n为第一信息集合
Figure FDA00029222984100000217
中维度信息的个数,
Figure FDA0002922298410000028
为核函数k(x,y)的特征函数向量,x、y为核函数的变量,λ为预设参数,I为单位矩阵;
利用
Figure FDA0002922298410000029
获得第二信息集合
Figure FDA00029222984100000210
中每个维度信息的静态行为模型,其中,yi为第二信息集合
Figure FDA00029222984100000211
中的第i个维度信息,m为第二信息集合
Figure FDA00029222984100000212
中维度信息的个数;
利用
Figure FDA00029222984100000213
获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure FDA00029222984100000214
Figure FDA0002922298410000031
且Kss为所述第二信息集合中维度信息所组成的矩阵,[Kss]ij为矩阵中第i行第j个矩阵元素,[Kss]ij=k(yi,yj),yi为第二信息集合
Figure FDA0002922298410000032
中的第i个维度信息,yj为第二信息集合
Figure FDA0002922298410000033
中的第j个维度信息,m为第二信息集合
Figure FDA0002922298410000034
中维度信息的个数,
Figure FDA0002922298410000035
为核函数k(x,y)的特征函数向量,x、y为核函数的变量。
5.根据权利要求2所述的方法,其特征在于,利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,包括:
利用
Figure FDA0002922298410000036
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离,其中,
Figure FDA0002922298410000037
为待处理的数据流A的第一信息集合
Figure FDA00029222984100000337
的静态行为模型,
Figure FDA0002922298410000038
为目标应用类型所属的数据流B的流层面的静态行为模型,
Figure FDA0002922298410000039
i表示信息集合中的第i个维度信息,其中,
Figure FDA00029222984100000310
为数据流A对应的第一信息集合
Figure FDA00029222984100000311
关于流层面的静态模型,
Figure FDA00029222984100000312
为数据流B对应的第一信息集合
Figure FDA00029222984100000338
关于流层面的静态模型,n为第一信息集合
Figure FDA00029222984100000339
中维度信息的个数,
Figure FDA00029222984100000313
为数据流A对应的第一信息集合中维度信息所组成的矩阵,
Figure FDA00029222984100000314
为数据流A和数据流B对应的第一信息集合中维度信息所组成的矩阵,
Figure FDA00029222984100000315
为数据流B对应的第一信息集合中维度信息所组成的矩阵,
Figure FDA00029222984100000316
分别为矩阵
Figure FDA00029222984100000317
中第i行第j个矩阵元素,
Figure FDA00029222984100000318
为数据流A对应的第一信息集合
Figure FDA00029222984100000340
中的第i个维度信息,
Figure FDA00029222984100000319
为数据流A对应的第一信息集合
Figure FDA00029222984100000341
中的第j个维度信息,
Figure FDA00029222984100000320
为数据流A和数据流B对应的第一信息集合
Figure FDA00029222984100000342
中的第i个维度信息,
Figure FDA00029222984100000321
为数据流A和数据流B对应的第一信息集合
Figure FDA00029222984100000343
中的第j个维度信息,
Figure FDA00029222984100000322
为数据流B对应的第一信息集合
Figure FDA00029222984100000344
中的第i个维度信息,
Figure FDA00029222984100000323
为数据流B对应的第一信息集合
Figure FDA00029222984100000345
中的第j个维度信息,
Figure FDA00029222984100000324
为变量为
Figure FDA00029222984100000325
Figure FDA00029222984100000326
的核函数,
Figure FDA00029222984100000327
为变量为
Figure FDA00029222984100000328
Figure FDA00029222984100000329
的核函数,
Figure FDA00029222984100000330
为变量为
Figure FDA00029222984100000331
Figure FDA00029222984100000332
的核函数;
利用
Figure FDA00029222984100000333
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离,其中,
Figure FDA00029222984100000334
为待处理的数据流A的第二信息集合
Figure FDA00029222984100000335
的静态行为模型,
Figure FDA00029222984100000336
为目标应用类型所属的数据流B的链接层面的静态行为模型,其中,
Figure FDA0002922298410000041
为数据流A对应的第二信息集合
Figure FDA0002922298410000042
关于链接层面的静态模型,
Figure FDA0002922298410000043
为数据流B对应的第二信息集合
Figure FDA0002922298410000044
关于链接层面的静态模型,m为第二信息集合
Figure FDA0002922298410000045
中维度信息的个数,
Figure FDA0002922298410000046
为数据流A对应的第二信息集合中维度信息所组成的矩阵,
Figure FDA0002922298410000047
为数据流A和数据流B对应的第二信息集合中维度信息所组成的矩阵,
Figure FDA0002922298410000048
为数据流B对应的第二信息集合中维度信息所组成的矩阵;
利用
Figure FDA0002922298410000049
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离,其中,
Figure FDA00029222984100000410
为待处理的数据流A的第一信息集合
Figure FDA00029222984100000436
的动态行为模型,
Figure FDA00029222984100000411
为目标应用类型所属的数据流B的流层面的动态行为模型,其中,
Figure FDA00029222984100000412
为数据流A对应的第一信息集合
Figure FDA00029222984100000437
关于流层面的动态模型,
Figure FDA00029222984100000413
为数据流A对应的第一信息集合
Figure FDA00029222984100000414
关于流层面的静态模型,
Figure FDA00029222984100000415
为数据流A对应的第一信息集合
Figure FDA00029222984100000438
关于流层面的静态模型,
Figure FDA00029222984100000416
为数据流B对应的第一信息集合
Figure FDA00029222984100000439
关于流层面的动态模型,
Figure FDA00029222984100000417
为数据流B对应的第一信息集合
Figure FDA00029222984100000418
关于流层面的静态模型,
Figure FDA00029222984100000419
为数据流B对应的第一信息集合
Figure FDA00029222984100000440
关于流层面的静态模型;
利用
Figure FDA00029222984100000420
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离,其中,
Figure FDA00029222984100000421
为待处理的数据流A的第二信息集合
Figure FDA00029222984100000422
的动态行为模型,
Figure FDA00029222984100000423
为目标应用类型所属的数据流B的链接层面的动态行为模型,其中,
Figure FDA00029222984100000424
为数据流A对应的第二信息集合
Figure FDA00029222984100000425
关于链接层面的动态模型,
Figure FDA00029222984100000426
为数据流A对应的第二信息集合
Figure FDA00029222984100000427
关于链接层面的静态模型,
Figure FDA00029222984100000428
为数据流A对应的第二信息集合
Figure FDA00029222984100000429
关于链接层面的静态模型,
Figure FDA00029222984100000430
为数据流B对应的第二信息集合
Figure FDA00029222984100000431
关于链接层面的动态模型,
Figure FDA00029222984100000432
为数据流B对应的第二信息集合
Figure FDA00029222984100000433
关于链接层面的静态模型,
Figure FDA00029222984100000434
为数据流B对应的第二信息集合
Figure FDA00029222984100000435
关于链接层面的静态模型。
6.根据权利要求1至5任一项所述的方法,其特征在于,基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型,包括:
对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离;
利用分类算法,基于所述特征距离,确定所述待处理的数据流的应用类型。
7.根据权利要求6所述的方法,其特征在于,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离,包括:
基于各个目标应用类型的数据流的静态行为模型及动态行为模型,获得权重矩阵,所述权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大;
利用所述权重矩阵,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离。
8.根据权利要求6所述的方法,其特征在于,所述分类算法包括:K近邻分类算法或Naive Bayesian分类算法;
利用分类算法,基于所述特征距离,确定述待处理的数据流的应用类型,包括:
基于K近邻分类算法或Naive Bayesian分类算法,将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。
9.一种网络数据流分类的系统,其特征在于,包括:
从服务器及主服务器;
所述从服务器,包括信息采集模块,所述信息采集模块用于采集终端传输的待处理的数据流的信息集合,所述信息集合包括有多个维度信息;
所述主服务器,包括:
数据接口,用于获得所述信息采集模块采集到的信息集合;
存储器,用于存储应用程序及应用程序运行所产生的数据;
处理器,用于运行所述应用程序,以实现以下功能:建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,所述静态行为模型表征所述维度信息的取值规律,所述动态行为模型表征所述维度信息在前后时刻之间的关联关系,利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型,其中,所述信息集合中每个维度信息的静态行为模型,具体为:所述信息集合中每个维度信息的边缘概率分布映射到可再生核空间得到的每个维度信息对应的向量;所述信息集合中每个维度信息的动态行为模型,具体为:前后两个时刻的所述信息集合中每个维度信息的条件概率分布映射到可再生核空间得到所述前后时刻的每个维度信息的操作子。
10.根据权利要求9所述的系统,其特征在于,所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合;
所述第一信息集合至少包括以下维度信息:报文长度和报文到达时间间隔;
所述第二信息集合至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间和数据流到达时间间隔。
11.根据权利要求10所述的系统,其特征在于,所述处理器建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,具体为:
获得所述第一信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第一信息集合中每个维度信息的边缘概率分布,生成所述第一信息集合中每个维度信息的静态行为模型;
获得所述第一信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第一信息集合中每个维度信息的条件概率分布,生成所述第一信息集合中每个维度信息的动态行为模型;
获得所述第二信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第二信息集合中每个维度信息的边缘概率分布,生成所述第二信息集合中每个维度信息的静态行为模型;
获得所述第二信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第二信息集合中每个维度信息的条件概率分布,生成所述第二信息集合中每个维度信息的动态行为模型。
12.根据权利要求10所述的系统,其特征在于,所述处理器建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,具体为:
利用
Figure FDA0002922298410000071
获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合
Figure FDA00029222984100000718
中的第i个维度信息,n为第一信息集合
Figure FDA00029222984100000719
中维度信息的个数,
Figure FDA0002922298410000072
为核函数k(x,y)的特征函数向量,x、y为核函数的变量;
利用
Figure FDA0002922298410000073
获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure FDA0002922298410000074
Figure FDA0002922298410000075
且Ktt为所述第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合
Figure FDA00029222984100000720
中的第i个维度信息,xj为第一信息集合
Figure FDA00029222984100000721
中的第j个维度信息,n为第一信息集合
Figure FDA00029222984100000722
中维度信息的个数,
Figure FDA0002922298410000076
为核函数k(x,y)的特征函数向量,x、y为核函数的变量,λ为预设参数,I为单位矩阵;
利用
Figure FDA0002922298410000077
获得第二信息集合
Figure FDA0002922298410000078
中每个维度信息的静态行为模型,其中,yi为第二信息集合
Figure FDA0002922298410000079
中的第i个维度信息,m为第二信息集合
Figure FDA00029222984100000710
中维度信息的个数;
利用
Figure FDA00029222984100000711
获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure FDA00029222984100000712
Figure FDA00029222984100000713
且Kss为所述第二信息集合中维度信息所组成的矩阵,[Kss]ij为矩阵中第i行第j个矩阵元素,[Kss]ij=k(yi,yj),yi为第二信息集合
Figure FDA00029222984100000714
中的第i个维度信息,yj为第二信息集合
Figure FDA00029222984100000715
中的第j个维度信息,m为第二信息集合
Figure FDA00029222984100000716
中维度信息的个数,
Figure FDA00029222984100000717
为核函数k(x,y)的特征函数向量,x、y为核函数的变量。
13.根据权利要求10所述的系统,其特征在于,所述处理器利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,具体为:
利用
Figure FDA0002922298410000081
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离,其中,
Figure FDA0002922298410000082
为待处理的数据流A的第一信息集合
Figure FDA00029222984100000839
的静态行为模型,
Figure FDA0002922298410000083
为目标应用类型所属的数据流B的流层面的静态行为模型,
Figure FDA0002922298410000084
i表示信息集合中的第i个维度信息,其中,
Figure FDA0002922298410000085
为数据流A对应的第一信息集合It p关于流层面的静态模型,
Figure FDA0002922298410000086
为数据流B对应的第一信息集合
Figure FDA00029222984100000840
关于流层面的静态模型,n为第一信息集合
Figure FDA00029222984100000841
中维度信息的个数,
Figure FDA0002922298410000087
为数据流A对应的第一信息集合中维度信息所组成的矩阵,
Figure FDA0002922298410000088
为数据流A和数据流B对应的第一信息集合中维度信息所组成的矩阵,
Figure FDA0002922298410000089
为数据流B对应的第一信息集合中维度信息所组成的矩阵,
Figure FDA00029222984100000810
分别为矩阵
Figure FDA00029222984100000811
中第i行第j个矩阵元素,
Figure FDA00029222984100000812
为数据流A对应的第一信息集合
Figure FDA00029222984100000842
中的第i个维度信息,
Figure FDA00029222984100000813
为数据流A对应的第一信息集合
Figure FDA00029222984100000843
中的第j个维度信息,
Figure FDA00029222984100000814
为数据流A和数据流B对应的第一信息集合
Figure FDA00029222984100000844
中的第i个维度信息,
Figure FDA00029222984100000815
为数据流A和数据流B对应的第一信息集合
Figure FDA00029222984100000845
中的第j个维度信息,
Figure FDA00029222984100000816
为数据流B对应的第一信息集合
Figure FDA00029222984100000846
中的第i个维度信息,
Figure FDA00029222984100000817
为数据流B对应的第一信息集合
Figure FDA00029222984100000847
中的第j个维度信息,
Figure FDA00029222984100000818
为变量为
Figure FDA00029222984100000819
Figure FDA00029222984100000820
的核函数,
Figure FDA00029222984100000821
为变量为
Figure FDA00029222984100000822
Figure FDA00029222984100000823
的核函数,
Figure FDA00029222984100000824
为变量为
Figure FDA00029222984100000825
Figure FDA00029222984100000826
的核函数;
利用
Figure FDA00029222984100000827
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离,其中,
Figure FDA00029222984100000828
为待处理的数据流A的第二信息集合
Figure FDA00029222984100000829
的静态行为模型,
Figure FDA00029222984100000830
为目标应用类型所属的数据流B的链接层面的静态行为模型,其中,
Figure FDA00029222984100000831
为数据流A对应的第二信息集合
Figure FDA00029222984100000832
关于链接层面的静态模型,
Figure FDA00029222984100000833
为数据流B对应的第二信息集合
Figure FDA00029222984100000834
关于链接层面的静态模型,m为第二信息集合
Figure FDA00029222984100000835
中维度信息的个数,
Figure FDA00029222984100000836
为数据流A对应的第二信息集合中维度信息所组成的矩阵,
Figure FDA00029222984100000837
为数据流A和数据流B对应的第二信息集合中维度信息所组成的矩阵,
Figure FDA00029222984100000838
为数据流B对应的第二信息集合中维度信息所组成的矩阵;
利用
Figure FDA0002922298410000091
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离,其中,
Figure FDA0002922298410000092
为待处理的数据流A的第一信息集合
Figure FDA00029222984100000928
的动态行为模型,
Figure FDA0002922298410000093
为目标应用类型所属的数据流B的流层面的动态行为模型,其中,
Figure FDA0002922298410000094
为数据流A对应的第一信息集合
Figure FDA00029222984100000929
关于流层面的动态模型,
Figure FDA0002922298410000095
为数据流A对应的第一信息集合
Figure FDA0002922298410000096
关于流层面的静态模型,
Figure FDA0002922298410000097
为数据流A对应的第一信息集合
Figure FDA00029222984100000930
关于流层面的静态模型,
Figure FDA0002922298410000098
为数据流B对应的第一信息集合
Figure FDA00029222984100000931
关于流层面的动态模型,
Figure FDA0002922298410000099
为数据流B对应的第一信息集合
Figure FDA00029222984100000910
关于流层面的静态模型,
Figure FDA00029222984100000911
为数据流B对应的第一信息集合
Figure FDA00029222984100000932
关于流层面的静态模型;
利用
Figure FDA00029222984100000912
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离,其中,
Figure FDA00029222984100000913
为待处理的数据流A的第二信息集合
Figure FDA00029222984100000914
的动态行为模型,
Figure FDA00029222984100000915
为目标应用类型所属的数据流B的链接层面的动态行为模型,其中,
Figure FDA00029222984100000916
为数据流A对应的第二信息集合
Figure FDA00029222984100000917
关于链接层面的动态模型,
Figure FDA00029222984100000918
为数据流A对应的第二信息集合
Figure FDA00029222984100000919
关于链接层面的静态模型,
Figure FDA00029222984100000920
为数据流A对应的第二信息集合
Figure FDA00029222984100000921
关于链接层面的静态模型,
Figure FDA00029222984100000922
为数据流B对应的第二信息集合
Figure FDA00029222984100000923
关于链接层面的动态模型,
Figure FDA00029222984100000924
为数据流B对应的第二信息集合
Figure FDA00029222984100000925
关于链接层面的静态模型,
Figure FDA00029222984100000926
为数据流B对应的第二信息集合
Figure FDA00029222984100000927
关于链接层面的静态模型。
14.根据权利要求9~13任一项所述的系统,其特征在于,所述处理器基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型,具体为:
对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离;
利用分类算法,基于所述特征距离,确定所述待处理的数据流的应用类型。
15.根据权利要求14所述的系统,其特征在于,所述处理器对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离,具体为:
基于各个目标应用类型的数据流的静态行为模型及动态行为模型,获得权重矩阵,所述权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大;
利用所述权重矩阵,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离。
16.根据权利要求14所述的系统,其特征在于,所述分类算法包括:K近邻分类算法或Naive Bayesian分类算法;
所述处理器利用分类算法,基于所述特征距离,确定述待处理的数据流的应用类型,具体为:
基于K近邻分类算法或Naive Bayesian分类算法,将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。
CN201610842056.0A 2016-09-22 2016-09-22 一种网络数据流分类的方法及系统 Active CN107864168B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610842056.0A CN107864168B (zh) 2016-09-22 2016-09-22 一种网络数据流分类的方法及系统
PCT/CN2017/102825 WO2018054342A1 (zh) 2016-09-22 2017-09-22 一种网络数据流分类的方法及系统
US16/362,135 US10999175B2 (en) 2016-09-22 2019-03-22 Network data flow classification method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610842056.0A CN107864168B (zh) 2016-09-22 2016-09-22 一种网络数据流分类的方法及系统

Publications (2)

Publication Number Publication Date
CN107864168A CN107864168A (zh) 2018-03-30
CN107864168B true CN107864168B (zh) 2021-05-18

Family

ID=61690728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610842056.0A Active CN107864168B (zh) 2016-09-22 2016-09-22 一种网络数据流分类的方法及系统

Country Status (3)

Country Link
US (1) US10999175B2 (zh)
CN (1) CN107864168B (zh)
WO (1) WO2018054342A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180219765A1 (en) 2017-01-31 2018-08-02 Waltz Networks Method and Apparatus for Network Traffic Control Optimization
US10778528B2 (en) 2017-02-11 2020-09-15 Nicira, Inc. Method and system of connecting to a multipath hub in a cluster
US10546143B1 (en) * 2017-08-10 2020-01-28 Support Intelligence, Inc. System and method for clustering files and assigning a maliciousness property based on clustering
US10721134B2 (en) 2017-08-30 2020-07-21 Citrix Systems, Inc. Inferring radio type from clustering algorithms
US10686625B2 (en) 2017-10-02 2020-06-16 Vmware, Inc. Defining and distributing routes for a virtual network
US11115480B2 (en) 2017-10-02 2021-09-07 Vmware, Inc. Layer four optimization for a virtual network defined over public cloud
US10999100B2 (en) 2017-10-02 2021-05-04 Vmware, Inc. Identifying multiple nodes in a virtual network defined over a set of public clouds to connect to an external SAAS provider
US11223514B2 (en) 2017-11-09 2022-01-11 Nicira, Inc. Method and system of a dynamic high-availability mode based on current wide area network connectivity
AU2017439697B2 (en) * 2017-11-16 2023-08-31 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Network configuration method, apparatus, network element, and system
CN109905328B (zh) 2017-12-08 2021-06-01 华为技术有限公司 数据流的识别方法和装置
CN110008976A (zh) * 2018-12-05 2019-07-12 阿里巴巴集团控股有限公司 一种网络行为分类方法和装置
CN111953552B (zh) * 2019-05-14 2022-12-13 华为技术有限公司 数据流的分类方法和报文转发设备
CN112564991A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 应用识别方法、装置及存储介质
CN113079102A (zh) * 2020-01-03 2021-07-06 中国移动通信有限公司研究院 一种大象流多分级调度方法及装置、设备、存储介质
US11722925B2 (en) 2020-01-24 2023-08-08 Vmware, Inc. Performing service class aware load balancing to distribute packets of a flow among multiple network links
US20210357190A1 (en) * 2020-05-12 2021-11-18 Sap Se Aesthetic visualizations by auto-optimizing connectors in workflows
CN113837210A (zh) * 2020-06-23 2021-12-24 腾讯科技(深圳)有限公司 小程序分类方法、装置、设备及计算机可读存储介质
US11711307B2 (en) * 2020-07-03 2023-07-25 Vmware, Inc. Network resource selection for flows using flow classification
CN112532453A (zh) * 2020-11-30 2021-03-19 成都思酷智能科技有限公司 网络异常信息处理方法及装置
US11929903B2 (en) 2020-12-29 2024-03-12 VMware LLC Emulating packet flows to assess network links for SD-WAN
US11979325B2 (en) 2021-01-28 2024-05-07 VMware LLC Dynamic SD-WAN hub cluster scaling with machine learning
CN112799603B (zh) * 2021-03-02 2024-05-14 王希敏 多数据流驱动的信号处理系统的任务行为模型
US12009987B2 (en) 2021-05-03 2024-06-11 VMware LLC Methods to support dynamic transit paths through hub clustering across branches in SD-WAN
US12015536B2 (en) 2021-06-18 2024-06-18 VMware LLC Method and apparatus for deploying tenant deployable elements across public clouds based on harvested performance metrics of types of resource elements in the public clouds
US12047282B2 (en) * 2021-07-22 2024-07-23 VMware LLC Methods for smart bandwidth aggregation based dynamic overlay selection among preferred exits in SD-WAN
US11943146B2 (en) 2021-10-01 2024-03-26 VMware LLC Traffic prioritization in SD-WAN
US11909815B2 (en) 2022-06-06 2024-02-20 VMware LLC Routing based on geolocation costs
CN116260636B (zh) * 2023-02-15 2024-03-12 昆明学院 一种基于移动窗口的数据流安全动态监测方法
US12034587B1 (en) 2023-03-27 2024-07-09 VMware LLC Identifying and remediating anomalies in a self-healing network

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457241B2 (en) * 2004-02-05 2008-11-25 International Business Machines Corporation Structure for scheduler pipeline design for hierarchical link sharing
US20060239219A1 (en) 2005-04-22 2006-10-26 At&T Corporation Application signature based traffic classification
JP4717533B2 (ja) 2005-07-06 2011-07-06 株式会社 日立ディスプレイズ 表示装置
US7685115B2 (en) * 2006-07-21 2010-03-23 Mitsubishi Electronic Research Laboratories, Inc. Method for classifying private data using secure classifiers
US8051021B2 (en) * 2006-09-12 2011-11-01 International Business Machines Corporation System and method for resource adaptive classification of data streams
CN100595782C (zh) * 2008-04-17 2010-03-24 中国科学院地理科学与资源研究所 一种融合光谱信息和多点模拟空间信息的分类方法
CN101599895B (zh) * 2008-06-04 2012-07-04 华为技术有限公司 数据处理方法及宽带网络网关、策略控制器装置和接入节点设备
US20100203876A1 (en) * 2009-02-11 2010-08-12 Qualcomm Incorporated Inferring user profile properties based upon mobile device usage
CN101977146B (zh) * 2010-10-25 2013-04-17 成都飞鱼星科技开发有限公司 一种网络流量智能控制器及其实现方法
US8817655B2 (en) * 2011-10-20 2014-08-26 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
US20130148513A1 (en) * 2011-12-08 2013-06-13 Telefonaktiebolaget Lm Creating packet traffic clustering models for profiling packet flows
CN102724317B (zh) 2012-06-21 2016-05-25 华为技术有限公司 一种网络数据流量分类方法和装置
CN103235928A (zh) * 2013-01-08 2013-08-07 沈阳理工大学 一种具有监督机制的步态识别方法
CN103678512A (zh) * 2013-12-26 2014-03-26 大连民族学院 一种动态数据环境下的数据流混合分类方法
US10187297B2 (en) * 2014-10-27 2019-01-22 Hewlett Packard Enterprise Development Lp Classification with a switch
CN105809958A (zh) * 2016-03-29 2016-07-27 中国科学院深圳先进技术研究院 一种基于交叉口群的交通控制方法及系统

Also Published As

Publication number Publication date
US20190222499A1 (en) 2019-07-18
US10999175B2 (en) 2021-05-04
CN107864168A (zh) 2018-03-30
WO2018054342A1 (zh) 2018-03-29

Similar Documents

Publication Publication Date Title
CN107864168B (zh) 一种网络数据流分类的方法及系统
Dong et al. Novel feature selection and classification of Internet video traffic based on a hierarchical scheme
EP3407562B1 (en) Coflow recognition method and system, and server using method
CN107967488B (zh) 一种服务器的分类方法及分类系统
CN107360032B (zh) 一种网络流识别方法及电子设备
WO2022001918A1 (zh) 构建预测模型的方法、装置、计算设备和存储介质
Kader et al. Leveraging big data analytics for cache-enabled wireless networks
CN113206860B (zh) 一种基于机器学习和特征选择的DRDoS攻击检测方法
Wang et al. Internet multimedia traffic classification from QoS perspective using semi-supervised dictionary learning models
Khan et al. ISP can identify YouTube videos that you just watched
Zaki et al. GRAIN: Granular multi-label encrypted traffic classification using classifier chain
Graff et al. Efficient identification of cloud gaming traffic at the edge
Li Detection of ddos attacks based on dense neural networks, autoencoders and pearson correlation coefficient
CN113128626A (zh) 基于一维卷积神经网络模型的多媒体流细分类方法
CN102714652A (zh) 监测数据网络中包括多个数据流的通讯会话
Tang et al. Online traffic classification using granules
Zhang et al. Network traffic clustering with QoS-awareness
Chen et al. Multiclass live streaming video quality classification based on convolutional neural networks
CN116437127A (zh) 一种基于用户数据共享的视频卡顿优化方法
CN114697272B (zh) 流量分类方法、系统及计算机可读存储介质
CN114554521B (zh) 针对多路径传输协议的子流共享带宽瓶颈检测方法和装置
Abada et al. Traffic flow modeling for UAV-enabled wireless networks
CN113676341B (zh) 一种质差评估方法及相关设备
Hagos et al. Classification of delay-based TCP algorithms from passive traffic measurements
CN115002031A (zh) 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant