CN114070621A - 面向网络数据流分类的在线稀疏学习方法及系统 - Google Patents
面向网络数据流分类的在线稀疏学习方法及系统 Download PDFInfo
- Publication number
- CN114070621A CN114070621A CN202111356908.2A CN202111356908A CN114070621A CN 114070621 A CN114070621 A CN 114070621A CN 202111356908 A CN202111356908 A CN 202111356908A CN 114070621 A CN114070621 A CN 114070621A
- Authority
- CN
- China
- Prior art keywords
- data
- buffer pool
- stream
- stream data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 57
- 238000011478 gradient descent method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
- G06F18/21324—Rendering the within-class scatter matrix non-singular involving projections, e.g. Fisherface techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:S1、构建数据缓冲池,向数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;S2、当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数;S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性;S5、采用更新后的模型对无标签流数据进行预测和分类。本发明的在线支持向量机在线学习效率高,模型更新效果好,能够产生稀疏模型。
Description
技术领域
本发明涉及机器学习技术领域,尤其是指一种面向网络数据流分类的在线稀疏学习方法及系统。
背景技术
随着互联网技术的不断发展,网络安全问题日益突出。因特网上频繁发生的大规模网络入侵事件使很多政府部门、商业和教育机构都受到了不同程度的侵害,甚至造成了极大的经济损失,对网络安全甚至国家安全构成了严重的威胁。如何从大规模的TCP/IP消息流中识别出潜在攻击行为成为研究热点。
近年来,基于计算智能的网络入侵检测技术取得了长足的发展。机器学习算法比如支持向量机(SVM,Support Vector Machine)的分类模型可以在小样本的情况下取得很好的效果,但是对于网络流量数据此类大规模且时效性较强的流式数据,且分类效果则不佳。究其原因,现有的在线支持向量机在线学习效率低,模型更新效果差,并且难以产生稀疏模型。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中在线支持向量机在线学习效率低,模型更新效果好,并且难以产生稀疏模型的技术问题。
为解决上述技术问题,本发明提供了一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:
S1、构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
S2、当数据缓冲池没有接收到新的带标签的流数据,则模型训练结束;当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,其中,所述目标函数基于初始模型函数构建;
S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;
S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性,转至S2并继续对模型进行训练,获得更新后的模型;
S5、采用更新后的模型对无标签流数据进行预测和分类。
作为优选的,所述S2与S3之间还包括:
剔除所述数据缓冲池中噪声流数据。
作为优选的,所述剔除所述数据缓冲池中的噪声流数据,包括:
当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
作为优选的,所述S1包括:
S11、构建数据缓冲池,清空所述数据缓冲池,用l表示所述数据缓冲池的容量大小;
S13、在数据缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
其中,K(xi,x)是核函数,α=[α1,α2,…,αk]T∈Rk为模型参数,其值被随机初始化,xi为数据缓冲池中的第i个流数据,αi为其对应的模型参数α中的第i维数据,x为无标签待预测流数据。
作为优选的,所述S2中,当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,包括:
当接收到带标签的流数据(xt,yt)(t>k),利用随机梯度下降法求解如下的目标函数:
其中,表示取0和之间的较大值,表示当前流数据xt对应的缓冲池中异类最近邻流数据,表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数;令更新后的模型参数为α=[α1,α2,...,αt]T∈Rt。
作为优选的,所述S5包括:
当接收到无标签的数据流时,采用更新后的模型计算无标签的数据流的模型函数值;
基于无标签的数据流的模型函数值,使用预设规则对无标签的数据流进行预设并分类。
作为优选的,所述S5具体包括:
当模型接收到无标签流数据x时,根据无标签流数据x计算模型函数的值:
其中,xi为缓冲池中的流数据,K为核函数,xi为缓冲池中的流数据,αi
为其对应的模型参数α中的第i维数据;
按照如下规则对无标签的流数据进行预测并分类:
本发明公开了一种面向网络数据流分类的在线稀疏学习系统,包括:
预处理模块,所述预处理模块用于构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
训练模块,当数据缓冲池接收到带标签的流数据,训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,使用训练模块继续训练,否则,采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性;
预测模块,所述预测模块采用更新后的模型对无标签流数据进行预测和分类。
作为优选的,还包括:
噪声流数据剔除模块,所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据。
作为优选的,所述噪声流数据剔除的标准为:当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明提出了一种新的支持向量机模型,针对此模型,采用随机梯度下降方法进行在线优化,并利用内核匹配追踪算法保证了模型的稀疏性和抗噪能力,使得本发明在保证分类准确率的同时更好地适应了流式数据。
2、本发明在线支持向量机在线学习效率高,模型更新效果好,能够产生稀疏模型。
附图说明
图1为本发明面向网络数据流分类的在线稀疏学习方法的结构还示意图;
图2为本发明面向网络数据流分类的在线稀疏学习系统的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明公开了一种面向网络数据流分类的在线稀疏学习方法,包括以下步骤:
S1、构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数,包括:
S11、构建数据缓冲池,清空所述数据缓冲池,用l表示所述数据缓冲池的容量大小;
S13、在数据缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
其中,K(xi,x)是核函数,α=[α1,α2,…,αk]T∈Rk为模型参数,其值被随机初始化,xi为数据缓冲池中的第i个流数据,αi为其对应的模型参数α中的第i维数据,x为无标签待预测流数据。
S2、当数据缓冲池没有接收到新的带标签的流数据,则模型训练结束;当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,其中,所述目标函数基于初始模型函数构建;
其中,当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,包括:
当接收到带标签的流数据(xt,yt)(t>k),利用随机梯度下降法求解如下的目标函数:
其中,表示取0和之间的较大值,表示当前流数据xt对应的缓冲池中异类最近邻流数据,表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数;令更新后的模型参数为α=[α1,α2,...,αt]T∈Rt。
S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;
S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性,转至S2并继续对模型进行训练,获得更新后的模型;
S5、采用更新后的模型对无标签流数据进行预测和分类,包括:当接收到无标签的数据流时,采用更新后的模型计算无标签的数据流的模型函数值;基于无标签的数据流的模型函数值,使用预设规则对无标签的数据流进行预设并分类。具体的,当模型接收到无标签流数据x时,根据无标签流数据x计算模型函数的值:
其中,K为核函数,xi为缓冲池中的流数据,αi为其对应的模型参数α中的第i维数据;
按照如下规则对无标签的流数据进行预测并分类:
在另一实施例中,所述S2与S3之间还包括:剔除所述数据缓冲池中噪声流数据,当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
本发明公开了一种面向网络数据流分类的在线稀疏学习系统,包括预处理模块、训练模块和预测模块。
所述预处理模块用于构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数。
当数据缓冲池接收到带标签的流数据,训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,使用训练模块继续训练,否则,采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性。
所述预测模块采用更新后的模型对无标签流数据进行预测和分类。
本发明还包括噪声流数据剔除模块,所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据,所述噪声流数据剔除的标准为:当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
下面,结合具体实施例,对本发明的技术方案做进一步说明与解释。
本发明提出了一种面向网络数据流分类的在线稀疏学习系统。该系统结合Fisher判别准则和大间隔正则,提出了一种新的支持向量机模型。针对此模型,采用随机梯度下降方法进行在线优化,并利用内核匹配追踪算法保证了模型的稀疏性和抗噪能力,使得本发明在保证分类准确率的同时更好地适应了流式数据。
参照图2所示,本系统主要包括三个模块:预处理模块、训练模块和预测模块。
一、预处理模块
(1)清空数据缓冲池,用l表示其容量大小。
(3)在缓冲池中累积了k(k≤l)个流数据后,令模型函数的形式为:
其中K(xi,x)是核函数,α=[α1,α2,...,αk]T∈Rk为模型参数,其值被随机初始化,xi为数据缓冲池中的第i个流数据,αi为其对应的模型参数α中的第i维数据,x为无标签待预测流数据。
二、训练模块
(1)如果没有接受到带标签的流数据,模型训练结束;如果接收到流数据(xt,yt)(t>k),利用随机梯度下降方法求解如下的目标函数:
其中表示取0和之间的较大值,表示当前流数据xt对应的缓冲池中异类最近邻流数据,表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数。令更新后的模型参数为α=[α1,α2,…,αt]T∈Rt。
(2)如果t≤l,则将流数据(xt,yt)加入到缓冲池中,转到步骤(1);否则转到步骤(3)。
(3)考虑剔除缓冲池中的噪声流数据,遵循的原则为:如果一个流数据频繁地被异类流数据选为近邻且不被同类流数据选为近邻,那么可以认为该流数据是噪声。
(4)在剔除一个噪声流数据后,将流数据(xt,yt)加入到缓冲池中,采用核匹配追踪算法来重新分配模型参数,同时保证模型参数的稀疏性。转到步骤(1)。
三、预测模块
当模型接收到无标签流数据x时,首先根据x计算模型函数的值:
其中xi为缓冲池中的流数据,αi为其对应的模型参数α中的第i维数据,K为核函数。然后按照如下规则对流数据进行预测并分类:
下面,结合具体实验数据,对本发明的技术方案做进一步验证。
本发明使用KDD CUP99数据集中的一个修正子集进行测试。该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。该修正子集包含两类数据,分别是Normal正常记录和DOS拒绝服务攻击共103326个样本,其中正类Normal记录有44118条,负类DOS记录共有59108条。
一、数据预处理模块
(1)清空数据缓冲池,用l表示其容量大小,在本实例中设置l为50。
(3)在缓冲池中累积了10个数据后,进行模型预训练。令模型函数的形式为:
二、模型训练模块
(1)如果没有接受到带标签的流数据,模型训练结束;如果接收到流数据(xt,yt)(t>k),利用随机梯度下降方法求解如下的目标函数:
其中表示取0和之间的较大值,表示当前流数据xt对应的缓冲池中异类最近邻流数据,表示当前流数据xt对应的缓冲池中同类最近邻流数据,λ1和λ2为正则项系数,在本实例中取λ1=1.0,λ2=1.0。令更新后的模型参数为α=[α1,α2,...,αt]T∈Rt。
(2)如果t≤l,则将流数据(xt,yt)加入到缓冲池中,转到步骤(1);否则转到步骤(3)。
(3)考虑剔除缓冲池中的噪声流数据,遵循的原则为:如果一个流数据频繁地被异类流数据选为近邻且不被同类流数据选为近邻,那么可以认为该流数据是噪声。
(4)在剔除一个噪声流数据后,将流数据(xt,yt)加入到缓冲池中,采用核匹配追踪算法来重新分配模型参数,同时保证模型参数的稀疏性。转到步骤(1)。
三、预测模块
当模型接收到数据(xt,yt)时,首先根据xt计算模型函数的值,模型函数的表达式如下:
本发明的实验验证结果如下:
本发明在KDD CUP99的修正子集上进行了5次实验,取5次实验的平均值作为最终结果。使用本发明与经典在线学习方法Online LapSVM进行对比,并用四个指标衡量模型分类的效果与效率:平均准确率,平均精度,平均召回率和平均CPU时间,结果如表1所示。
表1为本发明与Online LapSVM各项指标对比,从表1中可以看出本发明所提出的基于在线稀疏局部Fisher矢量机算法的各项指标均高于Online LapSVM。
表1
本发明 | Online LapSVM | |
Accuracy | 0.9867 | 0.9843 |
Precision | 0.9700 | 0.9688 |
Recall | 1.0 | 0.9761 |
CPUTime(s) | 27.17 | 41.91 |
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种面向网络数据流分类的在线稀疏学习方法,其特征在于,包括以下步骤:
S1、构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
S2、当数据缓冲池没有接收到新的带标签的流数据,则模型训练结束;当数据缓冲池接收到带标签的流数据,则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,其中,所述目标函数基于初始模型函数构建;
S3、当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,转至S2;否则,继续下一步;
S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性,转至S2并继续对模型进行训练,获得更新后的模型;
S5、采用更新后的模型对无标签流数据进行预测和分类。
2.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述S2与S3之间还包括:
剔除所述数据缓冲池中噪声流数据。
3.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述剔除所述数据缓冲池中的噪声流数据,包括:
当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
6.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法,其特征在于,所述S5包括:
当接收到无标签的数据流时,采用更新后的模型计算无标签的数据流的模型函数值;
基于无标签的数据流的模型函数值,使用预设规则对无标签的数据流进行预设并分类。
8.一种面向网络数据流分类的在线稀疏学习系统,其特征在于,包括:
预处理模块,所述预处理模块用于构建数据缓冲池,向所述数据缓冲池中输入预设数量的带标签数据流序列,获得初始模型函数;
训练模块,当数据缓冲池接收到带标签的流数据,训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数,当新的带标签的流数据小于数据缓冲池的容量,则将新的带标签的流数据加入到缓冲池中,使用训练模块继续训练,否则,采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性;
预测模块,所述预测模块采用更新后的模型对无标签流数据进行预测和分类。
9.根据权利要求8所述的面向网络数据流分类的在线稀疏学习系统,其特征在于,还包括:
噪声流数据剔除模块,所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据。
10.根据权利要求9所述的面向网络数据流分类的在线稀疏学习系统,其特征在于,所述噪声流数据剔除的标准为:当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻,则判定该流数据为噪声流数据,剔除所述数据缓冲池中的噪声流数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111356908.2A CN114070621B (zh) | 2021-11-16 | 2021-11-16 | 面向网络数据流分类的在线稀疏学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111356908.2A CN114070621B (zh) | 2021-11-16 | 2021-11-16 | 面向网络数据流分类的在线稀疏学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114070621A true CN114070621A (zh) | 2022-02-18 |
CN114070621B CN114070621B (zh) | 2023-01-17 |
Family
ID=80273055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111356908.2A Active CN114070621B (zh) | 2021-11-16 | 2021-11-16 | 面向网络数据流分类的在线稀疏学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114070621B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477635A (zh) * | 2008-12-12 | 2009-07-08 | 华南理工大学 | 一种基于轻量级ale的嵌入式rfid中间件 |
US20110213949A1 (en) * | 2010-03-01 | 2011-09-01 | Sonics, Inc. | Methods and apparatus for optimizing concurrency in multiple core systems |
CN110188774A (zh) * | 2019-05-27 | 2019-08-30 | 昆明理工大学 | 一种基于深度学习的电涡流扫描图像分类识别方法 |
CN112511555A (zh) * | 2020-12-15 | 2021-03-16 | 中国电子科技集团公司第三十研究所 | 基于稀疏表示和卷积神经网络的私有加密协议报文分类法 |
-
2021
- 2021-11-16 CN CN202111356908.2A patent/CN114070621B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477635A (zh) * | 2008-12-12 | 2009-07-08 | 华南理工大学 | 一种基于轻量级ale的嵌入式rfid中间件 |
US20110213949A1 (en) * | 2010-03-01 | 2011-09-01 | Sonics, Inc. | Methods and apparatus for optimizing concurrency in multiple core systems |
CN110188774A (zh) * | 2019-05-27 | 2019-08-30 | 昆明理工大学 | 一种基于深度学习的电涡流扫描图像分类识别方法 |
CN112511555A (zh) * | 2020-12-15 | 2021-03-16 | 中国电子科技集团公司第三十研究所 | 基于稀疏表示和卷积神经网络的私有加密协议报文分类法 |
Also Published As
Publication number | Publication date |
---|---|
CN114070621B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Automatic image filtering on social networks using deep learning and perceptual hashing during crises | |
Bamakan et al. | A new intrusion detection approach using PSO based multiple criteria linear programming | |
US11444876B2 (en) | Method and apparatus for detecting abnormal traffic pattern | |
CN109977895B (zh) | 一种基于多特征图融合的野生动物视频目标检测方法 | |
CN108629358B (zh) | 对象类别的预测方法及装置 | |
Li et al. | Intelligent anti-money laundering solution based upon novel community detection in massive transaction networks on spark | |
CN109753408A (zh) | 一种基于机器学习的流程异常预测方法 | |
CN106528705A (zh) | 一种基于rbf神经网络的重复记录检测方法和系统 | |
CN115811440B (zh) | 一种基于网络态势感知的实时流量检测方法 | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
CN110704616A (zh) | 设备告警工单识别方法及装置 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN113179276A (zh) | 基于显式和隐含特征学习的智能入侵检测方法和系统 | |
CN116633601A (zh) | 一种基于网络流量态势感知的检测方法 | |
CN115063664A (zh) | 用于工业视觉检测的模型学习方法、训练方法及系统 | |
Xian et al. | An EA-based pruning on improved YOLOv3 for rapid copper elbow surface defect detection | |
Gong et al. | Erroneous pixel prediction for semantic image segmentation | |
Khor et al. | The effectiveness of sampling methods for the imbalanced network intrusion detection data set | |
Kim et al. | Do we really need a large number of visual prompts? | |
Huo et al. | Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering | |
CN114070621B (zh) | 面向网络数据流分类的在线稀疏学习方法及系统 | |
Yu et al. | Towards artificially intelligent recycling Improving image processing for waste classification | |
CN116545733A (zh) | 一种电网入侵检测方法及系统 | |
Anwer et al. | Intrusion detection using deep learning | |
Assegie | Evaluation of Supervised Learning Models for Automatic Spam Email Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |