CN114070621A

CN114070621A - 面向网络数据流分类的在线稀疏学习方法及系统

Info

Publication number: CN114070621A
Application number: CN202111356908.2A
Authority: CN
Inventors: 张莉; 苏畅之; 赵雷; 王邦军
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-18
Anticipated expiration: 2041-11-16
Also published as: CN114070621B

Abstract

本发明涉及一种面向网络数据流分类的在线稀疏学习方法，包括以下步骤：S1、构建数据缓冲池，向数据缓冲池中输入预设数量的带标签数据流序列，获得初始模型函数；S2、当数据缓冲池接收到带标签的流数据，则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数；S3、当新的带标签的流数据小于数据缓冲池的容量，则将新的带标签的流数据加入到缓冲池中，转至S2；否则，继续下一步；S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性；S5、采用更新后的模型对无标签流数据进行预测和分类。本发明的在线支持向量机在线学习效率高，模型更新效果好，能够产生稀疏模型。

Description

面向网络数据流分类的在线稀疏学习方法及系统

技术领域

本发明涉及机器学习技术领域，尤其是指一种面向网络数据流分类的在线稀疏学习方法及系统。

背景技术

随着互联网技术的不断发展，网络安全问题日益突出。因特网上频繁发生的大规模网络入侵事件使很多政府部门、商业和教育机构都受到了不同程度的侵害，甚至造成了极大的经济损失，对网络安全甚至国家安全构成了严重的威胁。如何从大规模的TCP/IP消息流中识别出潜在攻击行为成为研究热点。

近年来，基于计算智能的网络入侵检测技术取得了长足的发展。机器学习算法比如支持向量机(SVM,Support Vector Machine)的分类模型可以在小样本的情况下取得很好的效果，但是对于网络流量数据此类大规模且时效性较强的流式数据，且分类效果则不佳。究其原因，现有的在线支持向量机在线学习效率低，模型更新效果差，并且难以产生稀疏模型。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中在线支持向量机在线学习效率低，模型更新效果好，并且难以产生稀疏模型的技术问题。

为解决上述技术问题，本发明提供了一种面向网络数据流分类的在线稀疏学习方法，包括以下步骤：

S1、构建数据缓冲池，向所述数据缓冲池中输入预设数量的带标签数据流序列，获得初始模型函数；

S2、当数据缓冲池没有接收到新的带标签的流数据，则模型训练结束；当数据缓冲池接收到带标签的流数据，则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数，其中，所述目标函数基于初始模型函数构建；

S3、当新的带标签的流数据小于数据缓冲池的容量，则将新的带标签的流数据加入到缓冲池中，转至S2；否则，继续下一步；

S4、采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性，转至S2并继续对模型进行训练，获得更新后的模型；

S5、采用更新后的模型对无标签流数据进行预测和分类。

作为优选的，所述S2与S3之间还包括：

剔除所述数据缓冲池中噪声流数据。

作为优选的，所述剔除所述数据缓冲池中的噪声流数据，包括：

当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻，则判定该流数据为噪声流数据，剔除所述数据缓冲池中的噪声流数据。

作为优选的，所述S1包括：

S11、构建数据缓冲池，清空所述数据缓冲池，用l表示所述数据缓冲池的容量大小；

S12、向所述数据缓冲池中输入预设数量的带标签数据流序列，令当前到达模型的流数据形式为

其中，y_t为流数据x_t的标签，d为流数据的特征数量；

S13、在数据缓冲池中累积了k(k≤l)个流数据后，令模型函数的形式为：

其中，K(x_i,x)是核函数，α＝[α₁，α₂，…，α_k]^T∈R^k为模型参数，其值被随机初始化，x_i为数据缓冲池中的第i个流数据，α_i为其对应的模型参数α中的第i维数据，x为无标签待预测流数据。

作为优选的，所述S2中，当数据缓冲池接收到带标签的流数据，则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数，包括：

当接收到带标签的流数据(x_t,y_t)(t＞k)，利用随机梯度下降法求解如下的目标函数：

其中，

表示取0和

之间的较大值，

表示当前流数据x_t对应的缓冲池中异类最近邻流数据，

表示当前流数据x_t对应的缓冲池中同类最近邻流数据，λ₁和λ₂为正则项系数；令更新后的模型参数为α＝[α₁，α₂，...，α_t]^T∈R^t。

作为优选的，所述S5包括：

当接收到无标签的数据流时，采用更新后的模型计算无标签的数据流的模型函数值；

基于无标签的数据流的模型函数值，使用预设规则对无标签的数据流进行预设并分类。

作为优选的，所述S5具体包括：

当模型接收到无标签流数据x时，根据无标签流数据x计算模型函数的值：

其中，x_i为缓冲池中的流数据，K为核函数，x_i为缓冲池中的流数据，α_i

为其对应的模型参数α中的第i维数据；

按照如下规则对无标签的流数据进行预测并分类：

本发明公开了一种面向网络数据流分类的在线稀疏学习系统，包括：

预处理模块，所述预处理模块用于构建数据缓冲池，向所述数据缓冲池中输入预设数量的带标签数据流序列，获得初始模型函数；

训练模块，当数据缓冲池接收到带标签的流数据，训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数，当新的带标签的流数据小于数据缓冲池的容量，则将新的带标签的流数据加入到缓冲池中，使用训练模块继续训练，否则，采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性；

预测模块，所述预测模块采用更新后的模型对无标签流数据进行预测和分类。

作为优选的，还包括：

噪声流数据剔除模块，所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据。

作为优选的，所述噪声流数据剔除的标准为：当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻，则判定该流数据为噪声流数据，剔除所述数据缓冲池中的噪声流数据。

本发明的上述技术方案相比现有技术具有以下优点：

1、本发明提出了一种新的支持向量机模型，针对此模型，采用随机梯度下降方法进行在线优化，并利用内核匹配追踪算法保证了模型的稀疏性和抗噪能力，使得本发明在保证分类准确率的同时更好地适应了流式数据。

2、本发明在线支持向量机在线学习效率高，模型更新效果好，能够产生稀疏模型。

附图说明

图1为本发明面向网络数据流分类的在线稀疏学习方法的结构还示意图；

图2为本发明面向网络数据流分类的在线稀疏学习系统的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，本发明公开了一种面向网络数据流分类的在线稀疏学习方法，包括以下步骤：

S1、构建数据缓冲池，向所述数据缓冲池中输入预设数量的带标签数据流序列，获得初始模型函数，包括：

其中，y_t为流数据x_t的标签，d为流数据的特征数量；

其中，当数据缓冲池接收到带标签的流数据，则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数，包括：

其中，

表示取0和

之间的较大值，

表示当前流数据x_t对应的缓冲池中异类最近邻流数据，

S5、采用更新后的模型对无标签流数据进行预测和分类，包括：当接收到无标签的数据流时，采用更新后的模型计算无标签的数据流的模型函数值；基于无标签的数据流的模型函数值，使用预设规则对无标签的数据流进行预设并分类。具体的，当模型接收到无标签流数据x时，根据无标签流数据x计算模型函数的值：

其中，K为核函数，x_i为缓冲池中的流数据，α_i为其对应的模型参数α中的第i维数据；

按照如下规则对无标签的流数据进行预测并分类：

在另一实施例中，所述S2与S3之间还包括：剔除所述数据缓冲池中噪声流数据，当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻，则判定该流数据为噪声流数据，剔除所述数据缓冲池中的噪声流数据。

本发明公开了一种面向网络数据流分类的在线稀疏学习系统，包括预处理模块、训练模块和预测模块。

所述预处理模块用于构建数据缓冲池，向所述数据缓冲池中输入预设数量的带标签数据流序列，获得初始模型函数。

当数据缓冲池接收到带标签的流数据，训练模块利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数，当新的带标签的流数据小于数据缓冲池的容量，则将新的带标签的流数据加入到缓冲池中，使用训练模块继续训练，否则，采用核匹配追踪算法重新分配模型参数以保证模型参数的系数性。

所述预测模块采用更新后的模型对无标签流数据进行预测和分类。

本发明还包括噪声流数据剔除模块，所述噪声流数据剔除模块用于剔除缓冲池中的噪声流数据，所述噪声流数据剔除的标准为：当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻，则判定该流数据为噪声流数据，剔除所述数据缓冲池中的噪声流数据。

下面，结合具体实施例，对本发明的技术方案做进一步说明与解释。

本发明提出了一种面向网络数据流分类的在线稀疏学习系统。该系统结合Fisher判别准则和大间隔正则，提出了一种新的支持向量机模型。针对此模型，采用随机梯度下降方法进行在线优化，并利用内核匹配追踪算法保证了模型的稀疏性和抗噪能力，使得本发明在保证分类准确率的同时更好地适应了流式数据。

参照图2所示，本系统主要包括三个模块：预处理模块、训练模块和预测模块。

一、预处理模块

(1)清空数据缓冲池，用l表示其容量大小。

(2)向数据缓冲池中输入带标签的数据流序列，假设当前到达模型的流数据形式为

其中y_t为流数据x_t的标签，d为流数据的特征数量。

(3)在缓冲池中累积了k(k≤l)个流数据后，令模型函数的形式为：

其中K(x_i,x)是核函数，α＝[α₁，α₂，...，α_k]^T∈R^k为模型参数，其值被随机初始化，x_i为数据缓冲池中的第i个流数据，α_i为其对应的模型参数α中的第i维数据，x为无标签待预测流数据。

二、训练模块

(1)如果没有接受到带标签的流数据，模型训练结束；如果接收到流数据(x_t,y_t)(t＞k)，利用随机梯度下降方法求解如下的目标函数：

其中

表示取0和

之间的较大值，

表示当前流数据x_t对应的缓冲池中异类最近邻流数据，

表示当前流数据x_t对应的缓冲池中同类最近邻流数据，λ₁和λ₂为正则项系数。令更新后的模型参数为α＝[α₁，α₂，…,α_t]^T∈R^t。

(2)如果t≤l,则将流数据(x_t,y_t)加入到缓冲池中，转到步骤(1)；否则转到步骤(3)。

(3)考虑剔除缓冲池中的噪声流数据，遵循的原则为：如果一个流数据频繁地被异类流数据选为近邻且不被同类流数据选为近邻，那么可以认为该流数据是噪声。

(4)在剔除一个噪声流数据后，将流数据(x_t,y_t)加入到缓冲池中,采用核匹配追踪算法来重新分配模型参数，同时保证模型参数的稀疏性。转到步骤(1)。

三、预测模块

当模型接收到无标签流数据x时，首先根据x计算模型函数的值：

其中x_i为缓冲池中的流数据，α_i为其对应的模型参数α中的第i维数据，K为核函数。然后按照如下规则对流数据进行预测并分类：

下面，结合具体实验数据，对本发明的技术方案做进一步验证。

本发明使用KDD CUP99数据集中的一个修正子集进行测试。该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。该修正子集包含两类数据，分别是Normal正常记录和DOS拒绝服务攻击共103326个样本，其中正类Normal记录有44118条，负类DOS记录共有59108条。

一、数据预处理模块

(1)清空数据缓冲池，用l表示其容量大小，在本实例中设置l为50。

(2)将KDD CUP99数据集的修正子集以数据流的形式输入缓冲池中。假设当前到达模型的数据样本形式为

其中d为样本特征的数量，在本实例中d＝实。

(3)在缓冲池中累积了10个数据后，进行模型预训练。令模型函数的形式为：

在本实例中K为高斯核函数

σ＝1.0。α＝[α₁，α₂，...，α₁₀]^T∈R¹⁰为模型参数。预训练为每个x_i对应的α_i随机赋值。

二、模型训练模块

其中

表示取0和

之间的较大值，

表示当前流数据x_t对应的缓冲池中异类最近邻流数据，

表示当前流数据x_t对应的缓冲池中同类最近邻流数据，λ₁和λ₂为正则项系数，在本实例中取λ₁＝1.0，λ₂＝1.0。令更新后的模型参数为α＝[α₁，α₂，...，α_t]^T∈R^t。

三、预测模块

当模型接收到数据(x_t，y_t)时，首先根据x_t计算模型函数的值，模型函数的表达式如下：

其中x_i∈X为缓冲池中的全体数据，α_i为其对应的模型参数α中的第i维数据。在本实例中，K为高斯核函数

σ＝1.0。然后按照如下规则对数据进行预测分类：

本发明的实验验证结果如下：

本发明在KDD CUP99的修正子集上进行了5次实验，取5次实验的平均值作为最终结果。使用本发明与经典在线学习方法Online LapSVM进行对比，并用四个指标衡量模型分类的效果与效率：平均准确率，平均精度，平均召回率和平均CPU时间，结果如表1所示。

表1为本发明与Online LapSVM各项指标对比，从表1中可以看出本发明所提出的基于在线稀疏局部Fisher矢量机算法的各项指标均高于Online LapSVM。

表1

	本发明	Online LapSVM
			Accuracy	0.9867	0.9843
Precision	0.9700	0.9688
			Recall	1.0	0.9761
CPUTime(s)	27.17	41.91

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种面向网络数据流分类的在线稀疏学习方法，其特征在于，包括以下步骤：

S5、采用更新后的模型对无标签流数据进行预测和分类。

2.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法，其特征在于，所述S2与S3之间还包括：

剔除所述数据缓冲池中噪声流数据。

3.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法，其特征在于，所述剔除所述数据缓冲池中的噪声流数据，包括：

4.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法，其特征在于，所述S1包括：

其中，y_t为流数据x_t的标签，d为流数据的特征数量；

其中，K(x_i，x)是核函数，α＝[α₁，α₂，...，α_k]^T∈R^k为模型参数，其值被随机初始化，x_i为数据缓冲池中的第i个流数据，α_i为其对应的模型参数α中的第i维数据，x为无标签待预测流数据。

5.根据权利要求4所述的面向网络数据流分类的在线稀疏学习方法，其特征在于，所述S2中，当数据缓冲池接收到带标签的流数据，则利用梯度下降法求解该带标签的流数据的目标函数并更新模型参数，包括：

当接收到带标签的流数据(x_t，y_t)(t＞k)，利用随机梯度下降法求解如下的目标函教：

其中，

表示取0和

之间的较大值，

表示当前流数据x_t对应的缓冲池中异类最近邻流数据，

6.根据权利要求1所述的面向网络数据流分类的在线稀疏学习方法，其特征在于，所述S5包括：

7.根据权利要求5所述的面向网络数据流分类的在线稀疏学习方法，其特征在于，所述S5具体包括：

其中，x_i为缓冲池中的流数据，K为核函数，α_i为其对应的模型参数α中的第i维数据；

按照如下规则对无标签的流数据进行预测并分类：

8.一种面向网络数据流分类的在线稀疏学习系统，其特征在于，包括：

9.根据权利要求8所述的面向网络数据流分类的在线稀疏学习系统，其特征在于，还包括：

10.根据权利要求9所述的面向网络数据流分类的在线稀疏学习系统，其特征在于，所述噪声流数据剔除的标准为：当一个流数据多次被异流数据选为近邻且不被同类流数据选为近邻，则判定该流数据为噪声流数据，剔除所述数据缓冲池中的噪声流数据。