CN114070621A - 面向网络数据流分类的在线稀疏学习方法及系统 - Google Patents

面向网络数据流分类的在线稀疏学习方法及系统 Download PDF

Info

Publication number
CN114070621A
CN114070621A CN202111356908.2A CN202111356908A CN114070621A CN 114070621 A CN114070621 A CN 114070621A CN 202111356908 A CN202111356908 A CN 202111356908A CN 114070621 A CN114070621 A CN 114070621A
Authority
CN
China
Prior art keywords
data
buffer pool
stream
stream data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111356908.2A
Other languages
English (en)
Other versions
CN114070621B (zh
Inventor
张莉
苏畅之
赵雷
王邦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202111356908.2A priority Critical patent/CN114070621B/zh
Publication of CN114070621A publication Critical patent/CN114070621A/zh
Application granted granted Critical
Publication of CN114070621B publication Critical patent/CN114070621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • G06F18/21324Rendering the within-class scatter matrix non-singular involving projections, e.g. Fisherface techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:S1、构建数据缓冲池,向数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;S2、当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数;S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性;S5、采用更新后的模型对无标签流数据进行预测和分类。本发明的在线支持向量机在线学习效率高,模型更新效果好,能够产生稀疏模型。

Description

面向网络数据流分类的在线稀疏学习方法及系统
技术领域
本发明涉及机器学习技术领域,尤其是指一种面向网络数据流分类的在线稀疏学习方法及系统。
背景技术
随着互联网技术的不断发展,网络安全问题日益突出。因特网上频繁发生的大规模网络入侵事件使很多政府部门、商业和教育机构都受到了不同程度的侵害,甚至造成了极大的经济损失,对网络安全甚至国家安全构成了严重的威胁。如何从大规模的TCP/IP消息流中识别出潜在攻击行为成为研究热点。
近年来,基于计算智能的网络入侵检测技术取得了长足的发展。机器学习算法比如支持向量机(SVM,Support Vector Machine)的分类模型可以在小样本的情况下取得很好的效果,但是对于网络流量数据此类大规模且时效性较强的流式数据,且分类效果则不佳。究其原因,现有的在线支持向量机在线学习效率低,模型更新效果差,并且难以产生稀疏模型。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中在线支持向量机在线学习效率低,模型更新效果好,并且难以产生稀疏模型的技术问题。
为解决上述技术问题,本发明提供了一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:
S1、构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
S2、当数据缓冲池没有接收到新的带标签的流数据,则模型训练结束;当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,其中,所述目标函数基于初始模型函数构建;
S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;
S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性,转至S2并继续对模型进行训练,获得更新后的模型;
S5、采用更新后的模型对无标签流数据进行预测和分类。
作为优选的,所述S2与S3之间还包括:
剔除所述数据缓冲池中噪声流数据。
作为优选的,所述剔除所述数据缓冲池中的噪声流数据,包括:
当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
作为优选的,所述S1包括:
S11、构建数据缓冲池,清空所述数据缓冲池,用l表示所述数据缓冲池的容量大小;
S12、向所述数据缓冲池中输入预设数量的带标签数据流序列,令当前到达模型的流数据形式为
Figure BDA0003357806890000021
其中,yt为流数据xt的标签,d为流数据的特征数量;
S13、在数据缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
Figure BDA0003357806890000031
其中,K(xi,x)是核函数,α=[α1,α2,…,αk]T∈Rk为模型参数,其值被随机初始化,xi为数据缓冲池中的第i个流数据,αi为其对应的模型参数α中的第i维数据,x为无标签待预测流数据。
作为优选的,所述S2中,当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,包括:
当接收到带标签的流数据(xt,yt)(t>k),利用随机梯度下降法求解如下的目标函数:
Figure BDA0003357806890000032
其中,
Figure BDA0003357806890000033
表示取0和
Figure BDA0003357806890000034
之间的较大值,
Figure BDA0003357806890000035
表示当前流数据xt对应的缓冲池中异类最近邻流数据,
Figure BDA0003357806890000036
表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数;令更新后的模型参数为α=[α1,α2,...,αt]T∈Rt
作为优选的,所述S5包括:
当接收到无标签的数据流时,采用更新后的模型计算无标签的数据流的模型函数值;
基于无标签的数据流的模型函数值,使用预设规则对无标签的数据流进行预设并分类。
作为优选的,所述S5具体包括:
当模型接收到无标签流数据x时,根据无标签流数据x计算模型函数的值:
Figure BDA0003357806890000041
其中,xi为缓冲池中的流数据,K为核函数,xi为缓冲池中的流数据,αi
为其对应的模型参数α中的第i维数据;
按照如下规则对无标签的流数据进行预测并分类:
Figure BDA0003357806890000042
本发明公开了一种面向网络数据流分类的在线稀疏学习系统,包括:
预处理模块,所述预处理模块用于构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
训练模块,当数据缓冲池接收到带标签的流数据,训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,使用训练模块继续训练,否则,采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性;
预测模块,所述预测模块采用更新后的模型对无标签流数据进行预测和分类。
作为优选的,还包括:
噪声流数据剔除模块,所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据。
作为优选的,所述噪声流数据剔除的标准为:当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明提出了一种新的支持向量机模型,针对此模型,采用随机梯度下降方法进行在线优化,并利用内核匹配追踪算法保证了模型的稀疏性和抗噪能力,使得本发明在保证分类准确率的同时更好地适应了流式数据。
2、本发明在线支持向量机在线学习效率高,模型更新效果好,能够产生稀疏模型。
附图说明
图1为本发明面向网络数据流分类的在线稀疏学习方法的结构还示意图;
图2为本发明面向网络数据流分类的在线稀疏学习系统的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明公开了一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:
S1、构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数,包括:
S11、构建数据缓冲池,清空所述数据缓冲池,用l表示所述数据缓冲池的容量大小;
S12、向所述数据缓冲池中输入预设数量的带标签数据流序列,令当前到达模型的流数据形式为
Figure BDA0003357806890000051
其中,yt为流数据xt的标签,d为流数据的特征数量;
S13、在数据缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
Figure BDA0003357806890000052
其中,K(xi,x)是核函数,α=[α1,α2,…,αk]T∈Rk为模型参数,其值被随机初始化,xi为数据缓冲池中的第i个流数据,αi为其对应的模型参数α中的第i维数据,x为无标签待预测流数据。
S2、当数据缓冲池没有接收到新的带标签的流数据,则模型训练结束;当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,其中,所述目标函数基于初始模型函数构建;
其中,当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,包括:
当接收到带标签的流数据(xt,yt)(t>k),利用随机梯度下降法求解如下的目标函数:
Figure BDA0003357806890000061
其中,
Figure BDA0003357806890000062
表示取0和
Figure BDA0003357806890000063
之间的较大值,
Figure BDA0003357806890000064
表示当前流数据xt对应的缓冲池中异类最近邻流数据,
Figure BDA0003357806890000065
表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数;令更新后的模型参数为α=[α1,α2,...,αt]T∈Rt
S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;
S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性,转至S2并继续对模型进行训练,获得更新后的模型;
S5、采用更新后的模型对无标签流数据进行预测和分类,包括:当接收到无标签的数据流时,采用更新后的模型计算无标签的数据流的模型函数值;基于无标签的数据流的模型函数值,使用预设规则对无标签的数据流进行预设并分类。具体的,当模型接收到无标签流数据x时,根据无标签流数据x计算模型函数的值:
Figure BDA0003357806890000071
其中,K为核函数,xi为缓冲池中的流数据,αi为其对应的模型参数α中的第i维数据;
按照如下规则对无标签的流数据进行预测并分类:
Figure BDA0003357806890000072
在另一实施例中,所述S2与S3之间还包括:剔除所述数据缓冲池中噪声流数据,当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
本发明公开了一种面向网络数据流分类的在线稀疏学习系统,包括预处理模块、训练模块和预测模块。
所述预处理模块用于构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数。
当数据缓冲池接收到带标签的流数据,训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,使用训练模块继续训练,否则,采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性。
所述预测模块采用更新后的模型对无标签流数据进行预测和分类。
本发明还包括噪声流数据剔除模块,所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据,所述噪声流数据剔除的标准为:当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
下面,结合具体实施例,对本发明的技术方案做进一步说明与解释。
本发明提出了一种面向网络数据流分类的在线稀疏学习系统。该系统结合Fisher判别准则和大间隔正则,提出了一种新的支持向量机模型。针对此模型,采用随机梯度下降方法进行在线优化,并利用内核匹配追踪算法保证了模型的稀疏性和抗噪能力,使得本发明在保证分类准确率的同时更好地适应了流式数据。
参照图2所示,本系统主要包括三个模块:预处理模块、训练模块和预测模块。
一、预处理模块
(1)清空数据缓冲池,用l表示其容量大小。
(2)向数据缓冲池中输入带标签的数据流序列,假设当前到达模型的流数据形式为
Figure BDA0003357806890000081
其中yt为流数据xt的标签,d为流数据的特征数量。
(3)在缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
Figure BDA0003357806890000082
其中K(xi,x)是核函数,α=[α1,α2,...,αk]T∈Rk为模型参数,其值被随机初始化,xi为数据缓冲池中的第i个流数据,αi为其对应的模型参数α中的第i维数据,x为无标签待预测流数据。
二、训练模块
(1)如果没有接受到带标签的流数据,模型训练结束;如果接收到流数据(xt,yt)(t>k),利用随机梯度下降方法求解如下的目标函数:
Figure BDA0003357806890000083
其中
Figure BDA0003357806890000091
表示取0和
Figure BDA0003357806890000092
之间的较大值,
Figure BDA0003357806890000093
表示当前流数据xt对应的缓冲池中异类最近邻流数据,
Figure BDA0003357806890000094
表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数。令更新后的模型参数为α=[α1,α2,…,αt]T∈Rt
(2)如果t≤l,则将流数据(xt,yt)加入到缓冲池中,转到步骤(1);否则转到步骤(3)。
(3)考虑剔除缓冲池中的噪声流数据,遵循的原则为:如果一个流数据频繁地被异类流数据选为近邻且不被同类流数据选为近邻,那么可以认为该流数据是噪声。
(4)在剔除一个噪声流数据后,将流数据(xt,yt)加入到缓冲池中,采用核匹配追踪算法来重新分配模型参数,同时保证模型参数的稀疏性。转到步骤(1)。
三、预测模块
当模型接收到无标签流数据x时,首先根据x计算模型函数的值:
Figure BDA0003357806890000095
其中xi为缓冲池中的流数据,αi为其对应的模型参数α中的第i维数据,K为核函数。然后按照如下规则对流数据进行预测并分类:
Figure BDA0003357806890000096
下面,结合具体实验数据,对本发明的技术方案做进一步验证。
本发明使用KDD CUP99数据集中的一个修正子集进行测试。该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。该修正子集包含两类数据,分别是Normal正常记录和DOS拒绝服务攻击共103326个样本,其中正类Normal记录有44118条,负类DOS记录共有59108条。
一、数据预处理模块
(1)清空数据缓冲池,用l表示其容量大小,在本实例中设置l为50。
(2)将KDD CUP99数据集的修正子集以数据流的形式输入缓冲池中。假设当前到达模型的数据样本形式为
Figure BDA0003357806890000101
其中d为样本特征的数量,在本实例中d=实。
(3)在缓冲池中累积了10个数据后,进行模型预训练。令模型函数的形式为:
Figure BDA0003357806890000102
在本实例中K为高斯核函数
Figure BDA0003357806890000103
σ=1.0。α=[α1,α2,...,α10]T∈R10为模型参数。预训练为每个xi对应的αi随机赋值。
二、模型训练模块
(1)如果没有接受到带标签的流数据,模型训练结束;如果接收到流数据(xt,yt)(t>k),利用随机梯度下降方法求解如下的目标函数:
Figure BDA0003357806890000104
其中
Figure BDA0003357806890000105
表示取0和
Figure BDA0003357806890000106
之间的较大值,
Figure BDA0003357806890000107
表示当前流数据xt对应的缓冲池中异类最近邻流数据,
Figure BDA0003357806890000108
表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数,在本实例中取λ1=1.0,λ2=1.0。令更新后的模型参数为α=[α1,α2,...,αt]T∈Rt
(2)如果t≤l,则将流数据(xt,yt)加入到缓冲池中,转到步骤(1);否则转到步骤(3)。
(3)考虑剔除缓冲池中的噪声流数据,遵循的原则为:如果一个流数据频繁地被异类流数据选为近邻且不被同类流数据选为近邻,那么可以认为该流数据是噪声。
(4)在剔除一个噪声流数据后,将流数据(xt,yt)加入到缓冲池中,采用核匹配追踪算法来重新分配模型参数,同时保证模型参数的稀疏性。转到步骤(1)。
三、预测模块
当模型接收到数据(xt,yt)时,首先根据xt计算模型函数的值,模型函数的表达式如下:
Figure BDA0003357806890000111
其中xi∈X为缓冲池中的全体数据,αi为其对应的模型参数α中的第i维数据。在本实例中,K为高斯核函数
Figure BDA0003357806890000112
σ=1.0。然后按照如下规则对数据进行预测分类:
Figure BDA0003357806890000113
本发明的实验验证结果如下:
本发明在KDD CUP99的修正子集上进行了5次实验,取5次实验的平均值作为最终结果。使用本发明与经典在线学习方法Online LapSVM进行对比,并用四个指标衡量模型分类的效果与效率:平均准确率,平均精度,平均召回率和平均CPU时间,结果如表1所示。
表1为本发明与Online LapSVM各项指标对比,从表1中可以看出本发明所提出的基于在线稀疏局部Fisher矢量机算法的各项指标均高于Online LapSVM。
表1
本发明 Online LapSVM
Accuracy 0.9867 0.9843
Precision 0.9700 0.9688
Recall 1.0 0.9761
CPUTime(s) 27.17 41.91
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种面向网络数据流分类的在线稀疏学习方法,其特征在于,包括以下步骤:
S1、构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
S2、当数据缓冲池没有接收到新的带标签的流数据,则模型训练结束;当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,其中,所述目标函数基于初始模型函数构建;
S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;
S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性,转至S2并继续对模型进行训练,获得更新后的模型;
S5、采用更新后的模型对无标签流数据进行预测和分类。
2.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述S2与S3之间还包括:
剔除所述数据缓冲池中噪声流数据。
3.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述剔除所述数据缓冲池中的噪声流数据,包括:
当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
4.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述S1包括:
S11、构建数据缓冲池,清空所述数据缓冲池,用l表示所述数据缓冲池的容量大小;
S12、向所述数据缓冲池中输入预设数量的带标签数据流序列,令当前到达模型的流数据形式为
Figure FDA0003357806880000021
其中,yt为流数据xt的标签,d为流数据的特征数量;
S13、在数据缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
Figure FDA0003357806880000022
其中,K(xi,x)是核函数,α=[α1,α2,...,αk]T∈Rk为模型参数,其值被随机初始化,xi为数据缓冲池中的第i个流数据,αi为其对应的模型参数α中的第i维数据,x为无标签待预测流数据。
5.根据权利要求4所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述S2中,当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,包括:
当接收到带标签的流数据(xt,yt)(t>k),利用随机梯度下降法求解如下的目标函教:
Figure FDA0003357806880000023
其中,
Figure FDA0003357806880000024
表示取0和
Figure FDA0003357806880000025
之间的较大值,
Figure FDA0003357806880000026
表示当前流数据xt对应的缓冲池中异类最近邻流数据,
Figure FDA0003357806880000027
表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数;令更新后的模型参数为α=[α1,α2,...,αt]T∈Rt
6.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述S5包括:
当接收到无标签的数据流时,采用更新后的模型计算无标签的数据流的模型函数值;
基于无标签的数据流的模型函数值,使用预设规则对无标签的数据流进行预设并分类。
7.根据权利要求5所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述S5具体包括:
当模型接收到无标签流数据x时,根据无标签流数据x计算模型函数的值:
Figure FDA0003357806880000031
其中,xi为缓冲池中的流数据,K为核函数,αi为其对应的模型参数α中的第i维数据;
按照如下规则对无标签的流数据进行预测并分类:
Figure FDA0003357806880000032
8.一种面向网络数据流分类的在线稀疏学习系统,其特征在于,包括:
预处理模块,所述预处理模块用于构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
训练模块,当数据缓冲池接收到带标签的流数据,训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,使用训练模块继续训练,否则,采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性;
预测模块,所述预测模块采用更新后的模型对无标签流数据进行预测和分类。
9.根据权利要求8所述的面向网络数据流分类的在线稀疏学习系统,其特征在于,还包括:
噪声流数据剔除模块,所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据。
10.根据权利要求9所述的面向网络数据流分类的在线稀疏学习系统,其特征在于,所述噪声流数据剔除的标准为:当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
CN202111356908.2A 2021-11-16 2021-11-16 面向网络数据流分类的在线稀疏学习方法及系统 Active CN114070621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111356908.2A CN114070621B (zh) 2021-11-16 2021-11-16 面向网络数据流分类的在线稀疏学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111356908.2A CN114070621B (zh) 2021-11-16 2021-11-16 面向网络数据流分类的在线稀疏学习方法及系统

Publications (2)

Publication Number Publication Date
CN114070621A true CN114070621A (zh) 2022-02-18
CN114070621B CN114070621B (zh) 2023-01-17

Family

ID=80273055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111356908.2A Active CN114070621B (zh) 2021-11-16 2021-11-16 面向网络数据流分类的在线稀疏学习方法及系统

Country Status (1)

Country Link
CN (1) CN114070621B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477635A (zh) * 2008-12-12 2009-07-08 华南理工大学 一种基于轻量级ale的嵌入式rfid中间件
US20110213949A1 (en) * 2010-03-01 2011-09-01 Sonics, Inc. Methods and apparatus for optimizing concurrency in multiple core systems
CN110188774A (zh) * 2019-05-27 2019-08-30 昆明理工大学 一种基于深度学习的电涡流扫描图像分类识别方法
CN112511555A (zh) * 2020-12-15 2021-03-16 中国电子科技集团公司第三十研究所 基于稀疏表示和卷积神经网络的私有加密协议报文分类法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477635A (zh) * 2008-12-12 2009-07-08 华南理工大学 一种基于轻量级ale的嵌入式rfid中间件
US20110213949A1 (en) * 2010-03-01 2011-09-01 Sonics, Inc. Methods and apparatus for optimizing concurrency in multiple core systems
CN110188774A (zh) * 2019-05-27 2019-08-30 昆明理工大学 一种基于深度学习的电涡流扫描图像分类识别方法
CN112511555A (zh) * 2020-12-15 2021-03-16 中国电子科技集团公司第三十研究所 基于稀疏表示和卷积神经网络的私有加密协议报文分类法

Also Published As

Publication number Publication date
CN114070621B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
Bamakan et al. A new intrusion detection approach using PSO based multiple criteria linear programming
US11444876B2 (en) Method and apparatus for detecting abnormal traffic pattern
CN109977895B (zh) 一种基于多特征图融合的野生动物视频目标检测方法
CN108629358B (zh) 对象类别的预测方法及装置
Li et al. Intelligent anti-money laundering solution based upon novel community detection in massive transaction networks on spark
CN109753408A (zh) 一种基于机器学习的流程异常预测方法
CN106528705A (zh) 一种基于rbf神经网络的重复记录检测方法和系统
CN115811440B (zh) 一种基于网络态势感知的实时流量检测方法
CN115659966A (zh) 基于动态异构图和多级注意力的谣言检测方法及系统
CN110704616A (zh) 设备告警工单识别方法及装置
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN113179276A (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
CN116633601A (zh) 一种基于网络流量态势感知的检测方法
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
Xian et al. An EA-based pruning on improved YOLOv3 for rapid copper elbow surface defect detection
Gong et al. Erroneous pixel prediction for semantic image segmentation
Khor et al. The effectiveness of sampling methods for the imbalanced network intrusion detection data set
Kim et al. Do we really need a large number of visual prompts?
Huo et al. Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering
CN114070621B (zh) 面向网络数据流分类的在线稀疏学习方法及系统
Yu et al. Towards artificially intelligent recycling Improving image processing for waste classification
CN116545733A (zh) 一种电网入侵检测方法及系统
Anwer et al. Intrusion detection using deep learning
Assegie Evaluation of Supervised Learning Models for Automatic Spam Email Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant