CN114422450A - 基于多源网络流量数据的网络流量分析方法和装置 - Google Patents
基于多源网络流量数据的网络流量分析方法和装置 Download PDFInfo
- Publication number
- CN114422450A CN114422450A CN202210073213.1A CN202210073213A CN114422450A CN 114422450 A CN114422450 A CN 114422450A CN 202210073213 A CN202210073213 A CN 202210073213A CN 114422450 A CN114422450 A CN 114422450A
- Authority
- CN
- China
- Prior art keywords
- data
- network flow
- matrix
- feature
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005206 flow analysis Methods 0.000 title abstract description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 157
- 230000009466 transformation Effects 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000009467 reduction Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 46
- 238000013500 data storage Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/062—Generation of reports related to network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0888—Throughput
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
- H04L43/106—Active monitoring, e.g. heartbeat, ping or trace-route using time related information in packets, e.g. by adding timestamps
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请涉及一种基于多源网络流量数据的网络流量分析方法和装置。所述方法包括:在网络流数据源部署预训练分类器池,对于每一个数据源,接收当前时刻的多源网络流数据,通过在线分类器对多源网络流数据进行流量分类,每间隔预设时间,将每个网络流数据源收集的数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;流量漂移检测模块包含历史概念数据,以根据流量数据特征、特征变换矩阵以及历史概念数据,对概念漂移进行检测,若检测到概念漂移,则对多源部署的在线分类器进行重置。采用本方法能对多源网络流量数据进行持续实时准确的分析。
Description
技术领域
本申请涉及网络流量分析技术领域,特别是涉及一种基于多源网络流量数据的网络流量分析方法和装置。
背景技术
为了对网络空间流量进行分析和挖掘,充分理解网络空间中业务流转和信息传递,基于网络空间数据传输的基础手段,对网络空间中的目标流量进行识别。
现实的网络流量数据的往往通过部署在不同类型的终端设备上的网络探针采集,每一个网络探针作为一个采集信息的源头,采集到的网络流量数据以网络数据流的形式进行存储和利用。面对网络瞬息万变的复杂形势,传统的数据采集、汇集处理,标注训练、发布模型的处理方式需要耗费大量的时间进行数据和模型传输部署,具有较强的滞后性,难以做到对于网络流量实时的分析处理。另外,由于网络环境和网络行为的动态变化,从而引起数据特征和数据标签映射函数产生变化的概念漂移现象,影响流量分析的准确率。网络流量分析方法需要对概念漂移进行动态的检测和应对,提高流量分析能力。
发明内容
基于此,有必要针对上述技术问题,提供一种能够针对多源网络流量数据分析满足实时性的基于多源网络流量数据的网络流量分析方法和装置。
一种基于多源网络流量数据的网络流量分析方法,所述方法包括:
在网络流数据源部署分类器池;其中所述分类器池包括多个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
概念漂移检测:每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测;若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
在其中一个实施例中,所述方法还包括:分类器池中包含多个采用增量式更新的在线分类器,将所述分类器池中的在线分类器,分别部署在每个网络流数据源,通过网络流量采集器接收网络流数据源,对所述网络流数据源进行分类。
在其中一个实施例中,所述方法还包括:
采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;
计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];
根据所述数据样本和所述特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵。
在其中一个实施例中,所述方法还包括:
使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度;
当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
在其中一个实施例中,计算数据特征矩阵和数据均值的KL散度,包括:
其中,μk表示数据均值,zk(x)表示降维后的数据特征矩阵,KL(zk||μk)表示降维后的数据特征矩阵和数据均值的KL散度,数据特征数为d。
在其中一个实施例中,计算历史数据特征矩阵和数据均值的KL散度,包括:
其中,μk表示数据均值,pk(x)表示特征变换后的历史概念数据特征矩阵,KL(pk||μk)表示历史数据特征矩阵和数据均值的KL散度,数据特征数为d。
在其中一个实施例中,所述方法还包括:
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度为:
其中,JSD(pk||zk)表示所述数据特征矩阵和历史数据特征矩阵之间的JS散度。
一种基于多源网络流量数据的网络流量分析装置,所述装置包括:
分类器设置模块,用于在网络流数据源部署分类器池;其中所述分类器池包括多个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
流量分类模块,用于在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
概念漂移检测模块,用于每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测;若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
上述基于多源网络流量数据的网络流量分析方法和装置,首先在每个数据源部署网络流量数据,然后在进行在线流量分析时,从流量数据的概念出发,存储历史概念数据,通过实时获取的在线流量数据和历史概念数据,进行流量数据概念漂移的检测,在检测到漂移时,及时的对在线分类器进行重置,从而可以持续的准确对在线流量数据进行分析。
附图说明
图1为一个实施例中基于多源网络流量数据的网络流量分析方法的流程示意图;
图2为一个实施例中基于多源网络流量数据的网络流量分析装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于多源网络流量数据的网络流量分析方法,包括以下步骤:
步骤102,在网络流数据源部署预训练分类器池。
具体的,分类器池包括多个训练好的在线分类器,每个网络流数据源中部署一个训练好的在线分类器,构成一个多源流量数据的多源流量模型集合为:
Π={Ψ1,…,ΨL}
对于多源的网络流量数据,可以表示如下:
步骤104,在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类。
流量分析是根据在线部署的在线分类器进行分析的,而流量数据的类型不是一成不变的特征分布和类别都会有一定变化,会导致原先的流量分类模型精度下降。因此在进行流量分析时,应该时刻关注于网络流量数据的类型是否发生变化,从而进行了上述概念漂移检测。
步骤106,每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块。
流量漂移检测模块包含历史概念数据,以根据流量数据特征、特征变换矩阵以及历史概念数据,对概念漂移进行检测。
步骤108,若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
上述基于多源网络流量数据的网络流量分析方法中,首先在每个网络数据源部署网络流量采集器,通过网络流量采集器获取网络流量数据,然后在进行在线流量分析时,从流量数据的概念出发,存储历史概念数据,通过实时获取的在线流量数据和历史概念数据,进行流量数据概念漂移的检测,在检测到漂移时,及时的对在线分类器进行重置,从而可以持续的准确对在线流量数据进行分析。
在其中一个实施例中,分类器池中包含多个采用增量式更新的在线分类器,将所述分类器池中的在线分类器,分别部署在每个网络流数据源,通过网络流量采集器接收网络流数据样本,对所述网络流数据样本进行分类。
在其中一个实施例中,对样本特征的矩阵中的每个样本特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;计算更新后的数据特征矩阵的协方差矩阵计算协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];根据数据样本和特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵。
具体的,对所有样本特征值进行中心化处理求样本集的协方差矩阵:求解协方差的特征值和特征向量,选取最大d个特征值对应的数据特征向量{w1,…,wd},J小于特征数m,在本发明中一般设置为6。用特征向量组成特征向量矩阵U=[w1,…,wd],其中U为n×d维的矩阵,又称为特征变换矩阵。求解新的数据特征矩阵Z=S×U,求解后新的流量数据样本特征集Z为一个n×d维的矩阵,实现了从大规模数据到小样本数据的降维过程,并且尽可能地保留了流量数据原始的特征。
在其中一个实施例中,从初始化数据集中,不重复随机选择K次,每次选择B个数据作为每个在线分类器对应的历史概念数据,其中,K为在线分类器的数量。历史概念数据存储模块的主要功能是存储具有历史概念的网络流量数据样本,这些存储的样本保存着对应数据源的历史概念,定义为P={p1,…,pK},对于每一个数据源分别存储B个样本。
在其中一个实施例中,对数据特征矩阵和历史数据特征矩阵求均值,得到数据均值;根据数据特征矩阵和数据均值的KL散度,历史数据特征矩阵和所述数据均值的KL散度,得到数据特征矩阵和历史数据特征矩阵之间的JS散度;当JS散度大于预先设置的显著性参数时,确定在线分类器发生漂移。
在其中一个实施例中,计算数据特征矩阵和数据均值的KL散度为:
其中,μk表示数据均值,zk(x)表示数据特征矩阵,KL(zk||μk)表示数据特征矩阵和数据均值的KL散度,数据特征矩阵的特征数为d。
在其中一个实施例中,计算历史数据特征矩阵和数据均值的KL散度为:
其中,μk表示数据均值,pk(x)表示历史数据特征矩阵,KL(pk||μk)表示历史数据特征矩阵和数据均值的KL散度,历史数据特征矩阵的特征数为d。
在其中一个实施例中,根据数据特征矩阵和数据均值的KL散度,历史数据特征矩阵和所述数据均值的KL散度,得到数据特征矩阵和历史数据特征矩阵之间的JS散度为:
其中,JSD(pk||zk)表示数据特征矩阵和历史数据特征矩阵之间的JS散度。
具体的,对于每一个数据源k,传输到概念漂移检测模块的降维后数据特征zk,特征变换矩阵uk和其历史概念数据存储模块中的数据pk,依次执行以下步骤1)取v=min[count(pk),count(zk)]作为漂移检测集的样本个数,并从较多的数据中随机不重复的选择样本。
2)使用特征变化矩阵uk对pk进行转化
4)计算流量数据的分布之间的JS散度:
其中,KL为计算样本集之间的Kullback-Leibler散度:
一般这个地方就是KL的计算公式了,其具体计算步骤为:μk,pk和zk均样本数量为v,特征数量为d,其数据样本特征矩阵为v×d:
其中每一行为一个样本,每一列为一个特征,KL散度计算目的是衡量每个特征之间的差异程度,因此,计算过程中,对于每一列(每个特征),分别进行一次公式计算
得到的KL散度结果为一个一维的矩阵,包含d个元素,分别是每一个特征维度的KL散度的值。
若JSD大于预设的显著性参数α,通常取0.6-0.8,若大于则认为概念漂移发生。
结合上述实施例,以下以一个具体的实施例进行说明:
1.初始化阶段,基于已有的网络流量数据,初始化所有的多源部署的所有K个分类器Π=Ψ1,…,Ψk,在K数据源分别部署对应的分类器Ψk;并分别部署网络数据采集器。
2.初始化多源网络流量数据历史概念数据存储模块P={p1,…,pK},分别对应K个数据源,从p1到pK,从已有的网络流量数据中随机选择B个样本,输入进历史概念数据存储模块。
3.进入模型的部署使用阶段:t=0,初始化漂移检测时间间隔计数器t*=T
3.1如果t*==0,说明到达了设置好的漂移检测时间间隔T,将会对数据流中的概念漂移进行检测,跳转至步骤3.2,否则跳转至步骤3.3
3.2首先对漂移检测时间间隔进行重置t*=T,并进行概念漂移的检测步骤,跳转至3.2.1
3.2.1对于每一个数据源k(k=1,...,K),分别执行以下步骤:
1)收集间隔T时间内到达的网络流量数据样本定义为Sk
2)使用特征分析模块,计算降维后的样本数据特征矩阵zk与特征变换矩阵uk
3.2.2将所有数据源的降维后样本数据特征矩阵与特征变换矩阵传输至多源流量数据概念漂移检测模块
3.2.3对于每一个数据源k(k=1,...,K),分别执行以下步骤:
1)读取样本数据特征矩阵zk与特征变换矩阵uk,对历史概念数据存储模块中的数据pk进行特征转化操作
2)取v=min[count(pk),count(zk)]作为漂移检测集的样本个数,并从较多的数据中随机不重复的选择样本。
3)计算当前样本与历史概念样本之间的JSD指标
4)对比JSD显著性参数α,通常取0.6-0.8,若大于则认为数据源k发生概念漂移,否则认为没有发生概念漂移
5)若已经遍历了所有数据源,则跳转至步骤3.2.4
3.2.4对于每一个数据源k(k=1,...,K),分别执行以下步骤:
1)若数据源k发生了概念漂移,
a)向数据源发起样本获取请求,从数据源获得当前时间段内的网络流量数据样本Sk
b)用Sk更新对应的历史概念数据存储模块pk
c)对Sk进行数据标注,重新训练新的网络流量分类模型Ψ′k
d)将新的流量分类模型Ψ′k传输至数据源k,替换原模型
e)跳转至步骤3.3
2)若未发生概念漂移,跳转至步骤3.3
3.3多源部署分类器Π=Ψ1,…,Ψk对到达样本进行特征处理和分类,并输出分类结果,跳转至步骤44.t=t+1,t*=t*-1跳转至步骤3
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于多源网络流量数据的网络流量分析装置,包括:分类器设置模块202、流量分类模块204和概念漂移检测模块206,其中:
分类器设置模块202,用于在网络流数据源部署分类器池;其中所述分类器池包括多个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
流量分类模块204,用于在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
概念漂移检测模块206,用于每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测,若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
在其中一个实施例中,分类器设置模块202还用于分类器池中包含多个采用增量式更新的在线分类器,将所述分类器池中的在线分类器,分别部署在每个网络流数据源,通过网络流量采集器接收网络流数据源,对所述网络流数据源进行分类。
采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;
计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];
根据所述数据样本和所述特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵。
在其中一个实施例中,概念漂移检测模块206还用于使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度;
当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
在其中一个实施例中,计算数据特征矩阵和数据均值的KL散度,包括:
其中,μk表示数据均值,zk(x)表示数据特征矩阵,KL(zk||μk)表示数据特征矩阵和数据均值的KL散度,数据特征矩阵的特征数为d。
在其中一个实施例中,计算历史数据特征矩阵和数据均值的KL散度,包括
其中,μk表示数据均值,pk(x)表示历史数据特征矩阵,KL(pk||μk)表示历史数据特征矩阵和数据均值的KL散度,历史数据特征矩阵的特征数为d。
在其中一个实施例中,概念漂移检测模块206还用于根据所述数据特征矩阵和所述数据均值的KL散度,所述历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度为:
其中,JSD(pk||zk)表示所述数据特征矩阵和历史数据特征矩阵之间的JS散度。
关于基于多源网络流量数据的网络流量分析装置的具体限定可以参见上文中对于基于多源网络流量数据的网络流量分析方法的限定,在此不再赘述。上述基于多源网络流量数据的网络流量分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种无标注多源网络流量数据漂移检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于多源网络流量数据的网络流量分析方法,其特征在于,所述方法包括:
在网络流数据源部署分类器池;其中所述分类器池包括多个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
概念漂移检测:每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测;若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
2.根据权利要求1所述的方法,其特征在于,所述在网络流数据源部署预训练分类器池,包括:
分类器池中包含多个采用增量式更新的在线分类器,将所述分类器池中的在线分类器,分别部署在每个网络流数据源,通过网络流量采集器接收网络流数据样本,对所述网络流数据样本进行分类。
3.根据权利要求1所述的方法,其特征在于,将每个网络流数据源收集的数据进行特征处理和变换,处理得到流量数据特征和特征变换矩阵,包括:
采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;
计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];
根据所述数据样本和所述特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵。
4.根据权利要求3所述的方法,其特征在于,根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测,包括:
使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度;
当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
8.一种基于多源网络流量数据的网络流量分析装置,其特征在于,所述装置包括:
分类器设置模块,用于在网络流数据源部署分类器池;其中所述分类器池包括多个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
流量分类模块,用于在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
概念漂移检测模块,用于每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测;若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210073213.1A CN114422450B (zh) | 2022-01-21 | 2022-01-21 | 基于多源网络流量数据的网络流量分析方法和装置 |
US17/835,693 US11496379B1 (en) | 2022-01-21 | 2022-06-08 | Network traffic analysis method and device based on multi-source network traffic data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210073213.1A CN114422450B (zh) | 2022-01-21 | 2022-01-21 | 基于多源网络流量数据的网络流量分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114422450A true CN114422450A (zh) | 2022-04-29 |
CN114422450B CN114422450B (zh) | 2024-01-19 |
Family
ID=81275585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210073213.1A Active CN114422450B (zh) | 2022-01-21 | 2022-01-21 | 基于多源网络流量数据的网络流量分析方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11496379B1 (zh) |
CN (1) | CN114422450B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116308304A (zh) * | 2023-05-24 | 2023-06-23 | 山东建筑大学 | 基于元学习概念漂移检测的新能源智慧运维方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170695A (zh) * | 2016-12-07 | 2018-06-15 | 信阳师范学院 | 一个基于信息熵的数据流自适应集成分类方法 |
CN108764322A (zh) * | 2018-05-22 | 2018-11-06 | 齐鲁工业大学 | 一种基于概念漂移的流数据集成分类方法和装置 |
CN110717543A (zh) * | 2019-10-14 | 2020-01-21 | 北京工业大学 | 基于样本分布统计检验的双窗口概念漂移检测方法 |
CN111026846A (zh) * | 2019-12-09 | 2020-04-17 | 合肥工业大学 | 一种基于特征扩展的在线短文本数据流分类方法 |
CN111144459A (zh) * | 2019-12-16 | 2020-05-12 | 重庆邮电大学 | 一种类不平衡的网络流量分类方法、装置及计算机设备 |
US20200151619A1 (en) * | 2018-11-09 | 2020-05-14 | Hewlett Packard Enterprise Development Lp | Systems and methods for determining machine learning training approaches based on identified impacts of one or more types of concept drift |
CN111797122A (zh) * | 2020-05-28 | 2020-10-20 | 浙江大学 | 高维重现概念漂移流数据的变化趋势预测方法及装置 |
CN112765324A (zh) * | 2021-01-25 | 2021-05-07 | 四川虹微技术有限公司 | 一种概念漂移检测方法及装置 |
CN113033643A (zh) * | 2021-03-17 | 2021-06-25 | 上海交通大学 | 基于带权重采样的概念漂移检测方法、系统及电子设备 |
CN113344196A (zh) * | 2021-06-01 | 2021-09-03 | 京东城市(北京)数字科技有限公司 | 预测模型的训练方法、装置、计算机设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012154657A2 (en) * | 2011-05-06 | 2012-11-15 | The Penn State Research Foundation | Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows |
US10354199B2 (en) * | 2015-12-07 | 2019-07-16 | Xerox Corporation | Transductive adaptation of classifiers without source data |
US11438406B2 (en) * | 2020-05-04 | 2022-09-06 | Cisco Technology, Inc. | Adaptive training of machine learning models based on live performance metrics |
US11381640B2 (en) * | 2020-05-15 | 2022-07-05 | Cisco Technology, Inc. | Detection of isolated changes in network metrics using smart-peering |
US20220188410A1 (en) * | 2020-12-15 | 2022-06-16 | Oracle International Corporation | Coping with feature error suppression: a mechanism to handle the concept drift |
-
2022
- 2022-01-21 CN CN202210073213.1A patent/CN114422450B/zh active Active
- 2022-06-08 US US17/835,693 patent/US11496379B1/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170695A (zh) * | 2016-12-07 | 2018-06-15 | 信阳师范学院 | 一个基于信息熵的数据流自适应集成分类方法 |
CN108764322A (zh) * | 2018-05-22 | 2018-11-06 | 齐鲁工业大学 | 一种基于概念漂移的流数据集成分类方法和装置 |
US20200151619A1 (en) * | 2018-11-09 | 2020-05-14 | Hewlett Packard Enterprise Development Lp | Systems and methods for determining machine learning training approaches based on identified impacts of one or more types of concept drift |
CN110717543A (zh) * | 2019-10-14 | 2020-01-21 | 北京工业大学 | 基于样本分布统计检验的双窗口概念漂移检测方法 |
CN111026846A (zh) * | 2019-12-09 | 2020-04-17 | 合肥工业大学 | 一种基于特征扩展的在线短文本数据流分类方法 |
CN111144459A (zh) * | 2019-12-16 | 2020-05-12 | 重庆邮电大学 | 一种类不平衡的网络流量分类方法、装置及计算机设备 |
CN111797122A (zh) * | 2020-05-28 | 2020-10-20 | 浙江大学 | 高维重现概念漂移流数据的变化趋势预测方法及装置 |
CN112765324A (zh) * | 2021-01-25 | 2021-05-07 | 四川虹微技术有限公司 | 一种概念漂移检测方法及装置 |
CN113033643A (zh) * | 2021-03-17 | 2021-06-25 | 上海交通大学 | 基于带权重采样的概念漂移检测方法、系统及电子设备 |
CN113344196A (zh) * | 2021-06-01 | 2021-09-03 | 京东城市(北京)数字科技有限公司 | 预测模型的训练方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
李晔;刘胜利;张兆林;: "基于漂移检测和集成学习的木马检测模型", 信息工程大学学报, no. 06 * |
潘吴斌;程光;郭晓军;黄顺翔;: "基于信息熵的自适应网络流概念漂移分类方法", 计算机学报, no. 07 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116308304A (zh) * | 2023-05-24 | 2023-06-23 | 山东建筑大学 | 基于元学习概念漂移检测的新能源智慧运维方法及系统 |
CN116308304B (zh) * | 2023-05-24 | 2023-08-25 | 山东建筑大学 | 基于元学习概念漂移检测的新能源智慧运维方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114422450B (zh) | 2024-01-19 |
US11496379B1 (en) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7183471B2 (ja) | 将来の動作の予測分類 | |
CN108681746B (zh) | 一种图像识别方法、装置、电子设备和计算机可读介质 | |
US8886574B2 (en) | Generalized pattern recognition for fault diagnosis in machine condition monitoring | |
CN111178456A (zh) | 异常指标检测方法、装置、计算机设备和存储介质 | |
CN110807468B (zh) | 检测异常邮件的方法、装置、设备和存储介质 | |
JP2001502831A (ja) | 測定可能な時系列の統計的依存性の分類方法 | |
CN110705489B (zh) | 目标识别网络的训练方法、装置、计算机设备和存储介质 | |
CN113128550A (zh) | 用于数据有效的主动机器学习的设备和计算机实现的方法 | |
CN114422450A (zh) | 基于多源网络流量数据的网络流量分析方法和装置 | |
CN117789038B (zh) | 一种基于机器学习的数据处理与识别模型的训练方法 | |
CN110020674B (zh) | 一种提升局部类别区分度的跨领域自适应图像分类方法 | |
CN114401205B (zh) | 无标注多源网络流量数据漂移检测方法和装置 | |
CN110705971A (zh) | 基于深度学习的考勤管理系统及方法 | |
CN113255771B (zh) | 基于多维异构差异分析的故障诊断方法及系统 | |
CN112859034B (zh) | 自然环境雷达回波幅度模型分类方法和装置 | |
JP7028259B2 (ja) | 分析装置、分析方法、及び、プログラム | |
de Lima et al. | Evisclass: a new evaluation method for image data stream classifiers | |
CN111883226A (zh) | 一种信息处理和模型训练方法、装置、设备及存储介质 | |
CN117235270B (zh) | 基于信度混淆矩阵的文本分类方法、装置和计算机设备 | |
Yang et al. | Human action recognition on exceptional movement of worker operation | |
CN114548225B (zh) | 基于fcm的态势数据离群样本处理方法、装置和设备 | |
CN117236261B (zh) | Mos管参数模型的构建方法、装置、设备及存储介质 | |
CN115683504B (zh) | 基于多标签分类的桥梁加速度监测数据异常识别方法及系统 | |
JP7028260B2 (ja) | 分析システム、分析方法、及び、プログラム | |
US20210397902A1 (en) | Image analysis device and method, and method for generating image analysis model used for same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |