CN110009005A - 一种基于特征强相关的网络流量分类方法 - Google Patents
一种基于特征强相关的网络流量分类方法 Download PDFInfo
- Publication number
- CN110009005A CN110009005A CN201910198841.0A CN201910198841A CN110009005A CN 110009005 A CN110009005 A CN 110009005A CN 201910198841 A CN201910198841 A CN 201910198841A CN 110009005 A CN110009005 A CN 110009005A
- Authority
- CN
- China
- Prior art keywords
- feature
- correlation
- class
- strong correlation
- net flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于特征强相关的网络流量分类方法,包括以下4个步骤:输入需要训练的数据,对输入数据进行特征提取,形成一个多维特征向量集合;利用特征与响应变量之间的互信息计算特征之间的相关性;根据互信息计算特征之间的冗余度,并通过迭代计算选出得分最高的特征作为最终的特征向量;根据分类目标构建基于特征强相关的网络流量分类模型并得到分类结果。本发明能够充分利用特征之间的相关性,在学习器训练过程中提取出相关性最大冗余度最小的特征,在相同的分类模型下,能够在保证分类精度的前提下有效提升分类效率,解决现有基于启发式搜索的特征选择方法未考虑特征之间相关性导致的不足。
Description
技术领域
本发明涉及数据处理和机器学习,特别涉及基于特征强相关的网络流量分类方法。
背景技术
随着网络技术的发展,网络中的流量增长十分迅速。然而,在促进网络进一步深化发展的同时,也带来了很多的问题。不断扩大的数据规模以及日益增多的应用类型会导致网络资源的利用率下降。有些链路的吞吐量大,而有些链路几乎处于闲置状态,这将导致网络资源的利用率下降。
因此,在过去几年中,网络流量的分类技术已经引起越来越多的关注。从安全角度来看,快速识别恶意流量将有助于安全控制和隔离攻击者。从QoS的角度来看,不同流量的准确分类有助于利用网络资源识别应用程序。此外,网络运营商可以跟踪不同应用的增长情况相应的提供带宽,用来适应用户群的不同需求。
特征选择是“数据预处理”的一个重要的过程,在实际的机器学习任务中,在获得数据后通常先进行特征选择,然后再进行训练。我们经常在真实的任务中遇到维数灾难的问题,这是由于特征值的属性太多导致的,如果可以选择一些重要的特征,使得训练的过程中只需要一部分用来建模的特征,维数灾难的问题将会极大的减少。去掉相关的特征将会极大的减少学习器的难度,这会使学习器的训练时间和效率都会有所提升。
发明内容
发明目的:为解决上述技术问题,本发明提出一种基于特征强相关的网络流量分类方法。该方法利用特征强相关作为参数评估来源,利用降维的方法对特征进行了处理,因此可以对多分类场景下的网络流量进行快速识别。
技术方案:为实现上述技术效果,本发明提供的技术方案为:
一种基于特征强相关的网络流量分类方法,包括步骤:
步骤一:利用特征与响应变量之间的互信息获得预先提取的特征之间的相关性;
步骤二:确定特征之间的相关性,根据特征之间的相关性确定特征之间的冗余度,并根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征;按照预先设定的次数m次迭代确定m个得分最高的特征作为最终的特征向量;
步骤三:根据分类目标构建分类模型并得到特征强相关网络流量分类结果。
进一步地,所述步骤二中利用特征与响应变量之间的互信息获得特征之间的相关性,具体过程为:
假定X和Y表示两个随机变量,则特征与响应变量之间的互信息公式如下所示:
其中,ΩX和ΩY分别是随机变量X和Y的样本空间,p(x,y)是联合概率密度函数,p(x)和p(y)是边缘概率密度函数。
特征的相关性RS计算公式为:
其中,c∈C={+1,-1}表示类变量,S表示数据的特征向量集F的子集,fi为特征向量集F中的一个特征向量。
进一步地,所述步骤三中根据特征之间的相关性确定特征之间的冗余度的公式为:
其中,fi,fj分别为子集S中的特征。
进一步地,步骤二中根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征的公式如下:
按照预先设定的次数m次迭代确定m个得分最高的特征,表示如下:如下;
优选地,根据分类目标构建分类模型是采用支持向量机SVM模型。
进一步地,根据分类目标构建分类模型并得到特征强相关网络流量分类结果具体包括以下步骤:
首先对分类目标进行分类,并针对不同的分类目标分别训练分类模型;
将特征向量输入不同的训练模型得到最终的特征强相关网络流量分类结果。
与现有技术相比,本发明所取得的有益技术效果:
1、本发明利用利用随机变量之间的互信息,对网络流量特征进行了降维处理,不仅提升了学习器的训练效率,同时具备较好的推广能力和适应性。
2、支持向量机器可以处理非线性分类问题,因此可解决网络流量分类在特征空间线性不可分的问题,提升了判别的准确性。
3、本发明所提出的特征强相关分类方法,利用树形结构构建分类模型,可以有效提升网络流量分类过程中的效率。
附图说明
图1为本发明具体实施例的原理流程图;
图2为本发明具体实施例的分类器构成示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
图1为本发明的原理流程图,包括步骤:
(1)对输入的数据进行特征提取,形成一个多维的特征向量集合:对于数据提取其n个特征分别为f1,f2,…,fn,然后其所形成的特征向量的为F={f1,f2,…,fn}。
(2)计算特征之间的相关性:假定X和Y表示两个随机变量,则二者的互信息公式如下所示:
其中,ΩX和ΩY分别是随机变量X和Y的样本空间,p(x,y)是联合概率密度函数,p(x)和p(y)是边缘概率密度函数。
特征的相关性RS计算公式为:
其中,c∈C={+1,-1}表示类变量(正样本或负样本),S表示F的子集。
(3)计算出特征之间的冗余度,迭代计算出得分最高的特征,得到最终的特征向量:
特征的冗余度计算公式为:
其中,fi,fj分别为子集S中的特征。
所筛选出的得分最高的特征的表达式如下:
迭代m次最终得到的特征向量如下;
(4)根据分类目标构建特征强相关网络流量分类模型
在本实施例中采用SVM分类器模型实现网络流量分类模型,在其它实施例中也可以采用现有技术中的分类器模型实现本发明方法中基于特征强相关的网络流量分类模型,并得到分类结果:
首先对分类目标进行分类,并针对不同的分类目标分别训练分类模型;
将特征向量输入不同的训练模型得到最终的特征强相关网络流量分类结果。
需要说明的是,训练SVM分类器的方法为现有技术,此处不做详细阐述。
以下结合图2说明本实施例。
分类目标的类型分别为A、B、C和D。首先将特征向量通过可以分类A∪B和C∪D的分类模型SVM1中:
其中,ω1和b1是模型SVM1的参数。
如果f1(x)>0,则分类的结果是A∪B;如果f1(x)<0,则分类结果是C∪D。
分别特征向量通过可以分类A和B的分类模型SVM2以及分类C和D的分类模型SVM3中:
其中,ω2和b2是模型SVM2的参数;ω3和b3是模型SVM3的参数
如果f2(x)>0,则最终的分类结果为A;如果f2(x)<0,则最终的分类结果为B;如果f3(x)>0,则最终的分类结果为C;如果f3(x)>0,则最终的分类结果为D。
本实施例首先对特征向量的分类目标粗分类并投入到SVM,再根据分类结果将不同类的特征向量再次投入到相应的SVM分类模型中,实现了二分类的SVM分类模型完成多分类的效果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种基于特征强相关的网络流量分类方法,其特征在于:所述方法具体过程为:
步骤一:利用特征与响应变量之间的互信息获得预先提取的特征之间的相关性;
步骤二:确定特征之间的相关性,根据特征之间的相关性确定特征之间的冗余度,并根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征;按照预先设定的次数m次迭代确定m个得分最高的特征作为最终的特征向量;
步骤三:根据分类目标构建分类模型并得到特征强相关网络流量分类结果。
2.根据权利要求1所述的一种基于特征强相关的网络流量分类方法,其特征在于:所述步骤二中利用特征与响应变量之间的互信息获得特征之间的相关性,具体过程为:
假定X和Y表示两个随机变量,则特征与响应变量之间的互信息公式如下所示:
其中,ΩX和ΩY分别是随机变量X和Y的样本空间,p(x,y)是联合概率密度函数,p(x)和p(y)是边缘概率密度函数;
特征的相关性RS计算公式为:
其中,c∈C={+1,-1}表示类变量,S表示数据的特征向量集F的子集,fi为特征向量集F中的一个特征向量。
3.根据权利要求2所述的一种基于特征强相关的网络流量分类方法,其特征在于:所述步骤三中根据特征之间的相关性确定特征之间的冗余度的公式为:
其中,fi,fj分别为子集S中的特征。
4.根据权利要求3所述的一种基于特征强相关的网络流量分类方法,其特征在于:步骤二中根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征的公式如下:
按照预先设定的次数m次迭代确定m个得分最高的特征,表示如下:
5.根据权利要求1所述的一种基于特征强相关的网络流量分类方法,其特征在于:根据分类目标构建分类模型是采用支持向量机SVM模型。
6.根据权利要求1所述的一种基于特征强相关的网络流量分类方法,其特征在于:根据分类目标构建分类模型并得到特征强相关网络流量分类结果具体包括以下步骤:
首先对分类目标进行分类,并针对不同的分类目标分别训练分类模型;
将特征向量输入不同的训练模型得到最终的特征强相关网络流量分类结果。
7.根据权利要求6所述的一种基于特征强相关的网络流量分类方法,其特征在于:步骤三的具体方法包括以下步骤:
分类目标的类型分别为A、B、C和D,将分类目标的类型进行分类,分为A∪B、C∪D、A、B、C和D六类;
首先将特征向量分类模型SVM1中,所述分类模型SVM1用于分出A∪B和C∪D两类;
将分类结果为A∪B类的特征向量通过分类模型SVM2,将分类结果为C∪D的特征向量通过分类模型SVM3中,所述分类模型SVM2用于分出A类和B类,所述分类模型SVM3用于分出C类和D类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910198841.0A CN110009005A (zh) | 2019-03-15 | 2019-03-15 | 一种基于特征强相关的网络流量分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910198841.0A CN110009005A (zh) | 2019-03-15 | 2019-03-15 | 一种基于特征强相关的网络流量分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110009005A true CN110009005A (zh) | 2019-07-12 |
Family
ID=67167157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910198841.0A Withdrawn CN110009005A (zh) | 2019-03-15 | 2019-03-15 | 一种基于特征强相关的网络流量分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110009005A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110535728A (zh) * | 2019-09-05 | 2019-12-03 | 烽火通信科技股份有限公司 | 一种网络流量感知方法及系统 |
CN113132291A (zh) * | 2019-12-30 | 2021-07-16 | 中国科学院沈阳自动化研究所 | 一种边缘侧基于网络流量的异构终端特征生成及识别方法 |
CN113255137A (zh) * | 2021-05-31 | 2021-08-13 | 中铁第一勘察设计院集团有限公司 | 目标对象应变数据的处理方法、装置及存储介质 |
WO2021258961A1 (zh) * | 2020-06-22 | 2021-12-30 | 南京邮电大学 | 基于改进K-means算法的网络流量分类方法及系统 |
-
2019
- 2019-03-15 CN CN201910198841.0A patent/CN110009005A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110535728A (zh) * | 2019-09-05 | 2019-12-03 | 烽火通信科技股份有限公司 | 一种网络流量感知方法及系统 |
CN113132291A (zh) * | 2019-12-30 | 2021-07-16 | 中国科学院沈阳自动化研究所 | 一种边缘侧基于网络流量的异构终端特征生成及识别方法 |
CN113132291B (zh) * | 2019-12-30 | 2022-02-18 | 中国科学院沈阳自动化研究所 | 一种边缘侧基于网络流量的异构终端特征生成及识别方法 |
WO2021258961A1 (zh) * | 2020-06-22 | 2021-12-30 | 南京邮电大学 | 基于改进K-means算法的网络流量分类方法及系统 |
US11570069B2 (en) | 2020-06-22 | 2023-01-31 | Nanjing University Of Posts And Telecommunicatins | Network traffic classification method and system based on improved K-means algorithm |
CN113255137A (zh) * | 2021-05-31 | 2021-08-13 | 中铁第一勘察设计院集团有限公司 | 目标对象应变数据的处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009005A (zh) | 一种基于特征强相关的网络流量分类方法 | |
CN108090508A (zh) | 一种分类训练方法、装置及存储介质 | |
US7362892B2 (en) | Self-optimizing classifier | |
CN109344884A (zh) | 媒体信息分类方法、训练图片分类模型的方法及装置 | |
CN107992887A (zh) | 分类器生成方法、分类方法、装置、电子设备及存储介质 | |
CN107846392A (zh) | 一种基于改进协同训练‑adbn的入侵检测算法 | |
CN107871100A (zh) | 人脸模型的训练方法和装置、人脸认证方法和装置 | |
CN108052946A (zh) | 一种基于卷积神经网络的高压机柜开关自动识别方法 | |
CN107392241A (zh) | 一种基于加权列抽样XGBoost的图像目标分类方法 | |
CN104063876A (zh) | 一种交互式图像分割方法 | |
CN104463128A (zh) | 用于人脸识别的眼镜检测方法及系统 | |
CN106446931A (zh) | 基于支持向量数据描述的特征提取及分类方法及其系统 | |
CN109598307A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN113362299B (zh) | 一种基于改进YOLOv4的X光安检图像检测方法 | |
CN103679161B (zh) | 一种人脸识别方法和装置 | |
CN105184260A (zh) | 一种图像特征提取方法及行人检测方法及装置 | |
CN109960808A (zh) | 一种文本识别方法、装置、设备及计算机可读存储介质 | |
CN107067022B (zh) | 图像分类模型的建立方法、建立装置和设备 | |
CN108764302A (zh) | 一种基于颜色特征和词袋特征的票据图像分类方法 | |
CN106845358A (zh) | 一种手写体字符图像特征识别的方法及系统 | |
CN104809393A (zh) | 一种基于流行度分类特征的托攻击检测算法 | |
CN109840413A (zh) | 一种钓鱼网站检测方法及装置 | |
CN107368526A (zh) | 一种数据处理方法及装置 | |
CN110069959A (zh) | 一种人脸检测方法、装置及用户设备 | |
CN109389105A (zh) | 一种基于多任务的虹膜检测和视角分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190712 |
|
WW01 | Invention patent application withdrawn after publication |