CN114401205B - 无标注多源网络流量数据漂移检测方法和装置 - Google Patents

无标注多源网络流量数据漂移检测方法和装置 Download PDF

Info

Publication number
CN114401205B
CN114401205B CN202210074651.XA CN202210074651A CN114401205B CN 114401205 B CN114401205 B CN 114401205B CN 202210074651 A CN202210074651 A CN 202210074651A CN 114401205 B CN114401205 B CN 114401205B
Authority
CN
China
Prior art keywords
data
matrix
feature
historical
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210074651.XA
Other languages
English (en)
Other versions
CN114401205A (zh
Inventor
黄松平
张航
梁伟
刘蔚柯
刘斌
朱承
朱先强
刘毅
周鋆
丁兆云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210074651.XA priority Critical patent/CN114401205B/zh
Publication of CN114401205A publication Critical patent/CN114401205A/zh
Application granted granted Critical
Publication of CN114401205B publication Critical patent/CN114401205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种无标注多源网络流量数据漂移检测方法和装置。所述方法包括:在多个网络流数据源分别部署网络流量采集器,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据,根据数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到降维数据特征矩阵和特征变换矩阵,将降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;根据的特征变换矩阵,将存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵,根据降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测。采用本方法能够进行无监督漂移检测。

Description

无标注多源网络流量数据漂移检测方法和装置
技术领域
本申请涉及流量数据分析技术领域,特别是涉及一种无标注多源网络流量数据漂移检测方法和装置。
背景技术
由于网络空间动态复杂的变化特征,网络流量数据特征会随之产生变化,从而引起数据特征和数据标签映射函数产生变化的概念漂移现象。目前,大多数针对此问题的研究都是在有监督环境下的因此,当模型误差显著增加时,系统会发出警报,从而触发一些适应机制(如重新训练模型)。然而,这种操作方法在现实世界的许多场景中并不适用,因为真实的标签并不容易获得,获取成本高昂并且时间缓慢。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决有监督环境下进行漂移检测无法适应于动态变化环境问题的无标注多源网络流量数据漂移检测方法和装置。
一种无标注多源网络流量数据漂移检测方法,所述方法包括:
在多个网络流数据源分别部署网络流量采集器;
对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据;所述网络流量数据中包括多个数据样本,对网络流量数据样本进行处理,得到数据样本对应的样本特征;
根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵;
将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在所述概念漂移检测模块中,根据所述的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵;
根据所述降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测。
在其中一个实施例中,还包括:
对所述样本特征的矩阵中的每个样本特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;
采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;
计算所述更新后的数据特征矩阵的协方差矩阵
计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];
根据所述数据样本和所述特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵。
在其中一个实施例中,所述方法还包括:对于每一个数据源,从历史概念存储模块中获取其对应的历史概念数据;其中,所述历史概念存储模块,存储了对应每个网络流数据源的历史概念的数据,当每个数据源部署的网络流量采集器首次向概念漂移检测模块传输降维数据特征矩阵和特征变换矩阵时,使用特征变换矩阵将降维数据特征矩阵还原,并分别存储进对应的历史概念存储模块,作为初始的历史概念数据。
在其中一个实施例中,所述方法还包括:
使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵。
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度;
当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
在其中一个实施例中,所述方法还包括:
其中,μk表示数据均值,zk(x)表示降维后的数据特征矩阵,KL(zk‖μk)表示降维后的数据特征矩阵和数据均值的KL散度,数据特征数为d。
在其中一个实施例中,所述方法还包括:
其中,μk表示数据均值,pk(x)表示特征变换后的历史概念数据特征矩阵,KL(pk‖μk)表示历史数据特征矩阵和数据均值的KL散度,数据特征数为d。
在其中一个实施例中,所述方法还包括:
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度为:
其中,JSD(pk‖zk)表示所述数据特征矩阵和历史数据特征矩阵之间的JS散度。
一种无标注多源网络流量数据漂移检测装置,所述装置包括:
数据采集模块,用于在多个网络流数据源分别部署网络流量采集器;对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据;所述网络流量数据中包括多个数据样本,对网络流量数据样本进行处理,得到数据样本对应的样本特征;
特征转化模块,用于根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵;将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在所述概念漂移检测模块中,根据所述的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵
漂移检测模块,用于根据所述降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现方法包括:
在多个网络流数据源分别部署网络流量采集器;
对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据;所述网络流量数据中包括多个数据样本,对网络流量数据样本进行处理,得到数据样本对应的样本特征;
根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵;
将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在所述概念漂移检测模块中,根据所述的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵;
根据所述降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现方法包括:
在多个网络流数据源分别部署网络流量采集器;
对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据;所述网络流量数据中包括多个数据样本,对网络流量数据样本进行处理,得到数据样本对应的样本特征;
根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵;
将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在所述概念漂移检测模块中,根据所述的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵;
根据所述降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测。
上述无标注多源网络流量数据漂移检测方法和装置,通过在线获取流量数据,然后通过历史存储的历史概念数据,历史概念数据可以体现过去一段时间数据源的数据概念类型,因此在进行偏移检测时,他通过提取网络流量数据和历史概念数据的特征信息,然后基于特征,计算二者的JS散度作为度量,设置漂移检测机制,在实时漂移检测时,根据漂移检测机制进行无标注多源网络流量数据发生渐变和突变的预警。从而无需要已知标签进行监督。
附图说明
图1为一个实施例中无标注多源网络流量数据漂移检测方法的流程示意图;
图2为一个实施例中无标注多源网络流量数据漂移检测装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种无标注多源网络流量数据漂移检测方法,包括以下步骤:
步骤102,在多个网络流数据源分别部署网络流量采集器,对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据。
网络流量数据中包括多个数据样本以及每个数据样本对应多个样本特征。漂移检测周期是根据需求设置的,网络流量数据是从数据源获取,当网络发生突变时,其数据对应的概念也会发生改变,从而导致网络流量采集器采集的网络流量概念发生改变。
步骤104,根据数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵。
本步骤从特征维度出发,构建出数据特征矩阵和特征变换矩阵,而特征变换矩阵是与网络流量数据相关,从而有利于对历史概念数据的特征提取。
步骤106,将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在概念漂移检测模块中,根据的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵。
步骤108,根据降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测。
本步骤中,由于网络流量数据具有快速变化的特性,并且流量数据中包含重复的漂移类型,因此,通过计算滑动时间窗口内的互信息度,来衡量流量数据的变化,具体的互信息度采用JS散度来度量。
上述无标注多源网络流量数据漂移检测方法中,通过在线获取流量数据,然后通过历史存储的历史概念数据,历史概念数据可以体现过去一段时间数据源的数据概念类型,因此在进行偏移检测时,他通过提取网络流量数据和历史概念数据的特征信息,然后基于特征,计算二者的JS散度作为度量,设置漂移检测机制,在实时漂移检测时,根据漂移检测机制进行无标注多源网络流量数据发生渐变和突变的预警。从而无需要已知标签进行监督。
在其中一个实施例中,对样本特征进行中心化处理,得到处理后的样本特征;采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵;计算更新后的数据特征矩阵的协方差矩阵,以及协方差矩阵对应的特征值和特征向量;选择排序靠前的多个特征值对应的特征向量,得到特征变换矩阵;根据数据样本和特征变换矩阵,得到数据特征矩阵。
具体的,对所有样本特征值进行中心化处理求样本集的协方差矩阵:/>求解协方差的特征值和特征向量,选取最大d个特征值对应的数据特征向量{w1,…,wd},d小于特征数m,在本发明中一般设置为6。用特征向量组成特征向量矩阵U=[w1,…,wd],其中U为n×d维的矩阵,又称为特征变换矩阵。求解新的数据特征矩阵Z=S×U,求解后新的流量数据样本特征集Z为一个n×d维的矩阵,实现了从大规模数据到小样本数据的降维过程,并且尽可能地保留了流量数据原始的特征。
在其中一个实施例中,对于每一个数据源,从历史概念存储模块中获取其对应的历史概念数据;其中,历史概念存储模块,存储了对应每个网络流数据源的历史概念的数据,当每个数据源部署的网络流量采集器首次向概念漂移检测模块传输降维数据特征矩阵和特征变换矩阵时,使用特征变换矩阵将降维数据特征矩阵还原,并分别存储进对应的历史概念存储模块,作为初始的历史概念数据。
在其中一个实施例中,使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;对降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;根据降维后的数据特征矩阵和数据均值的KL散度,变换后的历史数据特征矩阵和数据均值的KL散度,得到数据特征矩阵和历史数据特征矩阵之间的JS散度;当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
在其中一个实施例中,计算数据特征矩阵和数据均值的KL散度为:
其中,μk表示数据均值,zk(x)表示数据特征矩阵,KL(zk‖μk)表示数据特征矩阵和数据均值的KL散度,数据特征矩阵的特征数为d。
在其中一个实施例中,计算历史数据特征矩阵和数据均值的KL散度为:
其中,μk表示数据均值,pk(x)表示历史数据特征矩阵,KL(pk‖μk)表示历史数据特征矩阵和数据均值的KL散度,历史数据特征矩阵的特征数为d。
在其中一个实施例中,根据数据特征矩阵和数据均值的KL散度,历史数据特征矩阵和所述数据均值的KL散度,得到数据特征矩阵和历史数据特征矩阵之间的JS散度为:
其中,JSD(pk‖zk)表示数据特征矩阵和历史数据特征矩阵之间的JS散度。
具体的,对于每一个数据源k,传输到概念漂移检测模块的降维后数据特征zk,特征变换矩阵uk和其历史概念数据存储模块中的数据pk,依次执行以下步骤:
1)取v=min[count(pk),count(zk)]作为漂移检测集的样本个数,并从较多的数据中随机不重复的选择样本。
2)使用特征变化矩阵uk对pk进行转化
3)计算两组样本的均值
4)计算流量数据的分布之间的JS散度:
其中,KL为计算样本集之间的Kullback–Leibler散度:
KL散度的计算方法如下,其具体计算步骤为:μk,pk和zk均样本数量为v,特征数量为d,其数据样本特征矩阵为v×d:
其中每一行为一个样本,每一列为一个特征,KL散度计算目的是衡量每个特征之间的差异程度,因此,计算过程中,对于每一列(每个特征),分别进行一次公式计算
得到的KL散度结果为一个一维的矩阵,包含d个元素,分别是每一个特征维度的KL散度的值。
若JSD大于预设的显著性参数α,通常取0.6-0.8,若大于则认为概念漂移发生。
结合上述实施例,以下以一个具体的实施例进行说明:
1.初始化创建每个数据源部署的网络数据采集器。
2.初始化创建多源网络流量数据历史概念数据存储模块P={p1,…,pK},分别对应K个数据源,从p1到pK
3.进入模型的部署使用阶段:t=0,初始化漂移检测时间间隔计数器t*=T
3.1如果t*==0,说明到达了设置好的漂移检测时间间隔T,将会对数据流中的概念漂移进行检测,跳转至步骤3.2,否则跳转至步骤43.2首先对漂移检测时间间隔T进行重置,并进行概念漂移的检测步骤,跳转至3.2.1
3.2.1对于每一个数据源k(k=1,...,K),分别执行以下步骤:
1)收集间隔T时间内到达的网络流量数据样本定义为Sk
2)使用特征分析模块,计算降维后的样本数据特征矩阵zk与特征变换矩阵uk
3.2.2将所有数据源的降维后样本数据特征矩阵与特征变换矩阵传输至多源流量数据概念漂移检测模块
3.2.3对于每一个数据源k(k=1,...,K),分别执行以下步骤:
1)若为首次进行漂移检测,则将降维后的样本数据特征矩阵zk与存储进历史概念数据存储模块,并跳转至步骤4
2)读取样本数据特征矩阵zk与特征变换矩阵uk,对历史概念数据存储模块中的数据pk进行特征转化操作
3)取v=min[count(pk),count(zk)]作为漂移检测集的样本个数,并从较多的数据中随机不重复的选择样本。
4)计算当前样本与历史概念样本之间的JSD指标
5)对比JSD显著性参数α,通常取0.6-0.8,若大于则认为数据源k发生概念漂移,否则认为没有发生概念漂移
6)若已经遍历了所有数据源,则跳转至步骤4
4.t=t+1,t*=t*-1跳转至步骤3
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种无标注多源网络流量数据漂移检测装置,包括:数据采集模块202、特征转化模块204和漂移检测模块206,其中:
数据采集模块202,用于在多个网络流数据源分别部署网络流量采集器;对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据;所述网络流量数据中包括多个数据样本,对网络流量数据样本进行处理,得到数据样本对应的样本特征;
特征转化模块204,用于根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵;将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在所述概念漂移检测模块中,根据所述的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵;
漂移检测模块206,用于根据所述降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测。
在其中一个实施例中,特征转化模块204还用于对所述样本特征的矩阵中的每个特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;
采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;
计算所述更新后的数据特征矩阵的协方差矩阵
计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];
根据所述数据样本和所述特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵。
在其中一个实施例中,特征转化模块204还用于对于每一个数据源,从历史概念存储模块中获取其对应的历史概念数据;所述历史概念存储模块,存储了对应K个网络流数据源的历史概念的数据,当数据源部署的K个网络流量采集器分别首次向概念漂移检测模块传输降维后的数据特征矩阵和特征变换矩阵时,使用特征变换矩阵将降维后的数据特征矩阵还原,并分别存储进对应的历史概念存储模块。
在其中一个实施例中,漂移检测模块206还用于使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度;
当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
在其中一个实施例中,漂移检测模块206还用于计算数据特征矩阵和数据均值的KL散度为:
其中,μk表示数据均值,zk(x)表示数据特征矩阵,KL(zk‖μk)表示数据特征矩阵和数据均值的KL散度,数据特征矩阵的特征数为d。
在其中一个实施例中,漂移检测模块206还用于计算历史数据特征矩阵和数据均值的KL散度为:
在其中一个实施例中,漂移检测模块206还用于根据所述数据特征矩阵和所述数据均值的KL散度,所述历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度为:
其中,JSD(pk‖zk)表示所述数据特征矩阵和历史数据特征矩阵之间的JS散度。
关于无标注多源网络流量数据漂移检测装置的具体限定可以参见上文中对于无标注多源网络流量数据漂移检测方法的限定,在此不再赘述。上述无标注多源网络流量数据漂移检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种无标注多源网络流量数据漂移检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种无标注多源网络流量数据漂移检测方法,其特征在于,所述方法包括:
在多个网络流数据源分别部署网络流量采集器;
对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据;所述网络流量数据中包括多个数据样本,对网络流量数据样本进行处理,得到数据样本对应的样本特征;
根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵;
将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在所述概念漂移检测模块中,根据所述的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵;
根据所述降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测;
根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵,包括:
对所述样本特征的矩阵中的每个样本特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;
采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;
计算所述更新后的数据特征矩阵的协方差矩阵
计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];
根据所述数据样本和所述特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵;
获取历史概念数据的步骤,包括:
对于每一个数据源,从历史概念存储模块中获取其对应的历史概念数据;
其中,所述历史概念存储模块,存储了对应每个网络流数据源的历史概念的数据,当每个数据源部署的网络流量采集器首次向概念漂移检测模块传输降维数据特征矩阵和特征变换矩阵时,使用特征变换矩阵将降维数据特征矩阵还原,并分别存储进对应的历史概念存储模块,作为初始的历史概念数据;
根据所述数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测,包括:
使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度;
当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
2.根据权利要求1所述的方法,其特征在于,计算数据特征矩阵和数据均值的KL散度,包括:
其中,μk表示数据均值,zk(n)表示降维后的数据特征矩阵,KL(zk||μk)表示降维后的数据特征矩阵和数据均值的KL散度,数据特征数为d。
3.根据权利要求1所述的方法,其特征在于,计算特征变换后的历史概念数据特征矩阵和数据均值的KL散度,包括:
其中,μk表示数据均值,pk(x)表示特征变换后的历史概念数据特征矩阵,KL(pk||μk))表示历史数据特征矩阵和数据均值的KL散度,数据特征数为d。
4.根据权利要求1所述的方法,其特征在于,根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度,包括:
根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度为:
其中,JSD(pk||zk)表示所述数据特征矩阵和历史数据特征矩阵之间的JS散度。
5.一种无标注多源网络流量数据漂移检测装置,其特征在于,所述装置包括:
数据采集模块,用于在多个网络流数据源分别部署网络流量采集器;对于每一个网络流数据源,当到达漂移检测周期时,获取漂移检测周期内的网络流量采集器采集到的网络流量数据;所述网络流量数据中包括多个数据样本,对网络流量数据样本进行处理,得到数据样本对应的样本特征;
特征转化模块,用于根据所述数据样本的样本特征,得到网络流量数据的数据特征矩阵,进一步得到特征转换后的降维数据特征矩阵和特征变换矩阵;将多个网络流数据源获取的降维数据特征矩阵和特征变换矩阵传输至概念漂移检测模块;在所述概念漂移检测模块中,根据所述的特征变换矩阵,将当前概念漂移检测模块中存储的历史概念数据进行特征转换,得到历史概念数据特征矩阵;
漂移检测模块,用于根据所述降维数据特征矩阵和历史概念数据特征矩阵之间的JS散度,设置漂移检测机制,对实时无标注多源网络流量数据的概念漂移进行检测;
特征转化模块还用于对所述样本特征的矩阵中的每个样本特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵S;计算所述更新后的数据特征矩阵的协方差矩阵/>计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵U=[w1,…,wd];根据所述数据样本和所述特征变换矩阵,求解Z=S×U,得到降维后的数据特征矩阵;
特征转化模块还用于对于每一个数据源,从历史概念存储模块中获取其对应的历史概念数据;其中,所述历史概念存储模块,存储了对应每个网络流数据源的历史概念的数据,当每个数据源部署的网络流量采集器首次向概念漂移检测模块传输降维数据特征矩阵和特征变换矩阵时,使用特征变换矩阵将降维数据特征矩阵还原,并分别存储进对应的历史概念存储模块,作为初始的历史概念数据;
漂移检测模块还用于使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;根据所述降维后的数据特征矩阵和所述数据均值的KL散度,所述变换后的历史数据特征矩阵和所述数据均值的KL散度,得到所述数据特征矩阵和历史数据特征矩阵之间的JS散度;当JS散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202210074651.XA 2022-01-21 2022-01-21 无标注多源网络流量数据漂移检测方法和装置 Active CN114401205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210074651.XA CN114401205B (zh) 2022-01-21 2022-01-21 无标注多源网络流量数据漂移检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210074651.XA CN114401205B (zh) 2022-01-21 2022-01-21 无标注多源网络流量数据漂移检测方法和装置

Publications (2)

Publication Number Publication Date
CN114401205A CN114401205A (zh) 2022-04-26
CN114401205B true CN114401205B (zh) 2024-01-16

Family

ID=81232001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210074651.XA Active CN114401205B (zh) 2022-01-21 2022-01-21 无标注多源网络流量数据漂移检测方法和装置

Country Status (1)

Country Link
CN (1) CN114401205B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115225528B (zh) * 2022-06-10 2024-04-09 中国科学院计算技术研究所 网络流量数据分布式测量调度方法、系统和介质
CN117930813B (zh) * 2024-01-23 2024-09-24 中国人民解放军国防科技大学 Trt静叶控制系统故障检测方法、产品、介质及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN111130839A (zh) * 2019-11-04 2020-05-08 清华大学 一种流量需求矩阵预测方法及其系统
CN111626351A (zh) * 2020-05-26 2020-09-04 清华大学 一种用于获取数据分布的概念漂移量的方法和系统
CN111797122A (zh) * 2020-05-28 2020-10-20 浙江大学 高维重现概念漂移流数据的变化趋势预测方法及装置
CN112073441A (zh) * 2020-11-10 2020-12-11 中国人民解放军国防科技大学 基于本体推理的网络空间关键地形生成方法
CN112073255A (zh) * 2020-03-25 2020-12-11 长扬科技(北京)有限公司 基于深度学习的工控网络流量预测方法、装置
CN112731260A (zh) * 2021-03-30 2021-04-30 华中科技大学 基于概念漂移识别的电压互感器误差状态在线评估方法
CN113033643A (zh) * 2021-03-17 2021-06-25 上海交通大学 基于带权重采样的概念漂移检测方法、系统及电子设备
CN113657501A (zh) * 2021-08-17 2021-11-16 京东城市(北京)数字科技有限公司 模型自适应训练方法、装置、设备、介质及程序产品
CN113938292A (zh) * 2021-09-18 2022-01-14 西北工业大学 一种基于概念漂移的漏洞攻击流量检测方法及检测系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN111130839A (zh) * 2019-11-04 2020-05-08 清华大学 一种流量需求矩阵预测方法及其系统
CN112073255A (zh) * 2020-03-25 2020-12-11 长扬科技(北京)有限公司 基于深度学习的工控网络流量预测方法、装置
CN111626351A (zh) * 2020-05-26 2020-09-04 清华大学 一种用于获取数据分布的概念漂移量的方法和系统
CN111797122A (zh) * 2020-05-28 2020-10-20 浙江大学 高维重现概念漂移流数据的变化趋势预测方法及装置
CN112073441A (zh) * 2020-11-10 2020-12-11 中国人民解放军国防科技大学 基于本体推理的网络空间关键地形生成方法
CN113033643A (zh) * 2021-03-17 2021-06-25 上海交通大学 基于带权重采样的概念漂移检测方法、系统及电子设备
CN112731260A (zh) * 2021-03-30 2021-04-30 华中科技大学 基于概念漂移识别的电压互感器误差状态在线评估方法
CN113657501A (zh) * 2021-08-17 2021-11-16 京东城市(北京)数字科技有限公司 模型自适应训练方法、装置、设备、介质及程序产品
CN113938292A (zh) * 2021-09-18 2022-01-14 西北工业大学 一种基于概念漂移的漏洞攻击流量检测方法及检测系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
基于LSA的历史工作票问题分类异常检测;张航;徐建;;计算机与数字工程(05);全文 *
基于信息熵的自适应网络流概念漂移分类方法;潘吴斌;程光;郭晓军;黄顺翔;;计算机学报(07);全文 *
基于漂移检测和集成学习的木马检测模型;李晔;刘胜利;张兆林;;信息工程大学学报(06);全文 *
基于语义的文本数据流概念漂移检测算法;储光;胡学钢;张玉红;;计算机工程(02);全文 *
面向概念漂移的数据流分类研究分析;王军;刘三民;刘涛;;绵阳师范学院学报(05);全文 *

Also Published As

Publication number Publication date
CN114401205A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN110136103B (zh) 医学影像解释方法、装置、计算机设备及存储介质
CN114401205B (zh) 无标注多源网络流量数据漂移检测方法和装置
CN108681746B (zh) 一种图像识别方法、装置、电子设备和计算机可读介质
JP4953239B2 (ja) 観測対象の異常を検出する技術
JP7229308B2 (ja) 時系列データに対する普遍的敵対的攻撃から防御するための方法およびシステム
JP6950504B2 (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
CN110912908B (zh) 网络协议异常检测方法、装置、计算机设备和存储介质
CN109584267B (zh) 一种结合背景信息的尺度自适应相关滤波跟踪方法
JP6971514B1 (ja) 情報処理装置、情報処理方法及びプログラム
Soula et al. A novel incremental Kernel Nonparametric SVM model (iKN-SVM) for data classification: An application to face detection
CN114422450B (zh) 基于多源网络流量数据的网络流量分析方法和装置
CN113177110A (zh) 一种虚假新闻检测方法、装置、计算机设备和存储介质
US20200279148A1 (en) Material structure analysis method and material structure analyzer
CN117251813A (zh) 一种网络流量异常检测方法和系统
CN111507264A (zh) 基于视频的行为分析方法、装置、设备
CN108009586B (zh) 封顶概念分解方法及图像聚类方法
Verron et al. Fault detection with bayesian network
CN113139590B (zh) 时间序列数据的降维方法、装置、计算机设备和存储介质
Rambhatla et al. I-SEA: Importance Sampling and Expected Alignment-Based Deep Distance Metric Learning for Time Series Analysis and Embedding
Quazi et al. Image Classification and Semantic Segmentation with Deep Learning
CN111126425B (zh) 复杂工业过程工况监测和分类方法
JP5882259B2 (ja) 信号処理装置、方法、及びプログラム
Grundy On aspects of changepoint analysis motivated by industrial applications
CN117668719B (zh) 一种自适应阈值的隧道监测数据异常检测方法
Park et al. Multiclass Autoencoder-Based Active Learning for Sensor-Based Human Activity Recognition in Iot Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant