CN113688385A

CN113688385A - 轻量级分布式入侵检测方法

Info

Publication number: CN113688385A
Application number: CN202110818450.1A
Authority: CN
Inventors: 李洪伟; 袁帅; 张瑞; 郝猛; 李毅然
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-11-23
Anticipated expiration: 2041-07-20
Also published as: CN113688385B

Abstract

本发明提出一种轻量级的分布式入侵检测方法，每个客户端准备本地数据，所述本地数据为非独立同分布non‑IID流量数据及其对应的入侵检测分类标签；在训练阶段，每个客户端使用本地数据训练其本地的轻量梯度提升机器LGBM在预测阶段，将测试数据输入至各训练完成的LGBM，得到各LGBM输出的入侵检测预测结果；服务器收集各LGBM输出的入侵检测预测结果后，通过投票方式得到最终的针对该测试数据的入侵检测结果。本发明在传统的决策树方法上引入轻量级梯度提升算法，通过结合用户训练的决策树，可以在非独立同分布的数据上有效处理大量样本。与目前的基于联邦学习的方法相比，该框架在独立同分布和非独立同分布的数据上都实现了更高的准确率和更低的开销。

Description

轻量级分布式入侵检测方法

技术领域

本发明涉及信息安全技术领域，具体涉及分布式入侵检测技术。

技术背景

如图1所示，在典型的客户端-服务器系统是由一个中心服务器cloud server和n个客户端设备device group 1，device group 2，…，device group n组成。在恶意场景Abnormal下，被控制的主机bot master可能通过控制器control server向客户端devicegroup i(i＝1，2，…，n)发送恶意的命令，从而破坏客户端甚至云服务器。入侵检测系统IDS是检测恶意入侵和保护系统免受恶意软件攻击的关键。IDS的主要思想是通过云实时监测来检测恶意流量(异常流量)，从而进行激活攻击预警和流量拦截。

深度学习DL在构建IDS方面已经取得了巨大的成功。但是，集中式DL需要将原始数据上传到中心服务器以进行神经网络的训练，因此在此过程中用户的隐私无法得到保证。这严重限制了它的应用范围，特别是在涉及隐私的场景中。

最近，联邦学习FL在工业界和学术界都引起了广泛的关注。与集中式的DL不同，联邦学习不需要将用户的原始数据上传到服务器，相反，只需要上传本地训练模型的梯度。由于这样的优势，FL已经逐渐被应用于入侵检测领域。

但是分布式检测框架的研究仍处于起步阶段，仍然面临着以下5个重大挑战：

(1)非独立同分布non-IID数据：在大数据时代，每个参与者拥有的数据可能是non-IID的。

(2)准确率：与传统集中式学习相比，在分布式场景下，IDS模型的准确性可能会大幅下降。

(3)假阳性率：假阳性率是衡量IDS的一个非常重要的指标。大量的错误会给IDS服务提供商带来负担，甚至导致其系统瘫痪。

(4)效率：分布式IDS的参与者通常是资源有限的移动设备或物联网设备。

(5)部署的多样化：随着技术的发展，服务器不再是中心，在最终预测时通常需要用户的参与。

发明内容

本发明所要解决的技术问题是，提供一种能高效、精确地处理IID数据和non-IID数据的入侵检测方法。

本发明为解决上述技术问题所采用的技术方案是，轻量级分布式入侵检测方法，包括以下步骤：

1)每个客户端准备本地数据，所述本地数据为独立同分布IID流量数据及其对应的入侵检测标签、非独立同分布non-IID流量数据及其对应的入侵检测分类标签；

2)在训练阶段，每个客户端使用本地数据训练其本地的轻量梯度提升机器LGBM；

3)在预测阶段，将测试数据输入至各训练完成的LGBM，得到各LGBM输出的入侵检测预测结果；

4)服务器收集各LGBM输出的入侵检测预测结果后，通过投票方式得到最终的针对该测试数据的入侵检测结果。

步骤3)可选的实现方式为：各客户端将本地训练完成的LGBM发送给服务器，服务器将测试集输入至接收到的各训练完成的LGBM得到LGBM输出的入侵检测预测结果。

步骤3)可选的实现方式为：服务器将测试集发送给各客户端，再由客户端将测试集输入训练完成的LGBM，得到LGBM输出的入侵检测预测结果后再发送至服务器。

本发明提出一种结合传统决策树和轻量梯度提升算法的分布式入侵检测方法，不直接传输数据，在训练和预测阶段都不同于现有的联邦学习方法。

LGBM(LightGBM)采用的是一种叶向生成树，具有预测速度快、所需特征工程少、多特征自动组合等特点，LGBM还使用了基于梯度的单侧采样GOSS和专属特征捆绑EFB来解决数据量和特征数量过多的问题，因此LGBM可以在分布式场景下以更低的时间开销获得更高的精度。此外，指定参数后可以快速构造树，且训练过程不需要任何数据传输，在预测阶段只传输LGBM或测试数据，比传统的联邦学习效率更高。

本发明的有益效果是：能够处理IID数据和non-IID数据的入侵检测问题；

无论采用IID数据还是non-IID数据进行训练，均不以牺牲精度为代价；具有非常低的假阳性率；不会给参与者造成过多的计算和通信开销；支持多种入侵检测服务，包括服务提供商辅助检测和本地化检测。

附图说明

图1为客户端-服务器系统环境示意图；

图2为本发明两种预测实现方式示意图。

具体实施方式

如图2所示，本发明方法中各个客户端使用自己的私人数据集进行训练，得到本地的LGBM；服务器再整合各个客户端LGBM的预测结果得到入侵检测结果。

1)客户端训练过程

在CoLGBM中，使用了梯度提升决策树GBDT变体LightGBM(LGBM)。LGBM公开了两种新的技术：单侧采样GOSS和专属特征捆绑EFB，分别用于处理大量的数据实例和大量的特征。我们将数据总量表示为T₀，非零数据总量表示为T₁，特征总量表示为S₀，特征数表示为S₁。由于通过扫描所有数据实例来估计所有分割的信息增益会花费较多的时间，因此我们利用GOSS和EFB算法将直方图构建的复杂度从O(T₀×S₀)降低到O(T₁×S₁))，s.t S1＜＜S₀；这显著提高了培训过程的效率。此外，LGBM使用叶向生成策略来构建树和额外参数(最大深度)来限制树的深度，避免过拟合，获得更好的精度。

在训练过程中，如图2所示，每个客户端User 1，User 2，…，User n都有其本地流量数据集Local dataset，本地流量数据集中为非独立同分布数据。每个客户端User i(i＝1，2，…，n)利用在本地流量数据集D_i训练LGBM。相对于现有的深度学习DL和联邦学习FL在数据预处理阶段都需要进行特征选择，联邦学习FL需要全局数据归一化或标准化，本发明方法不需要其他数据预处理操作。

2)服务器预测过程

本发明针对不同应用场景设计了两种预测方法：

a)串行预测

客户端通过本地数据训练后得到最终完成训练的LGBM。当需要对测试数据集进行预测时，服务器将收集所有完成训练的LGBM，并使用每个LGBM对测试数据进行预测，如图2(a)Training and Serial Prediction所示。最后，服务器通过投票产生预测结果。该算法的优点是不会公开客户端的私有原始数据，而且IDS服务提供者不能根据决策树的规则立即恢复用户的原始数据。此外，通过分析传输数据的大小，我们发现该方法的通信开销更低。在传统的FL方法中，总传输数据大小约等于O(2×n×r×d₁),但是我们的方法的数据大小是O(n×d₂),其中n表示客户的数量，r表示一轮迭代，d₁表示神经网络梯度的大小，d₂表示决策树的规模。但是该方案仍存在一些问题。当用户数量过多时，所有的树都会存储在服务器上，服务器的存储容量可能不足。此外，服务器只能按顺序计算每个树的结果，十分耗时，无法有效应对用户掉线问题。

b)并行进程

IDS服务提供者将其测试数据集发送给所有客户端。如图2(b)Training andParallel Prediction的过程所示，服务器先将测试数据Testing Data发送至每个客户端，每个客户端使用其本地的LGBM模型对测试数据集进行预测得到各个预测结果Result-1，Result-2，…，Result-n，通过该方法传输的信息仍然不会泄露用户的原始数据。服务器接只收到每个客户机的预测结果。此外，该方法可以并行运行，这也就是我们称之为并行进程的原因。另外，为了处理部分用户脱机和网络延迟的问题，服务器可以设置一个时间阈值T，一旦等待时间超过时间阈值T，服务器立即停止接收任何结果。尽管该方法优点显著，但是这种方法在暴露IDS服务提供商的隐私方面比发送用户的LGBM更危险。

Claims

1.轻量级分布式入侵检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述方法，其特征在于，步骤3)具体为：各客户端将本地训练完成的LGBM发送给服务器，服务器将测试集输入至接收到的各训练完成的LGBM得到LGBM输出的入侵检测预测结果。

3.如权利要求1所述方法，其特征在于，步骤3)具体为：服务器将测试集发送给各客户端，再由客户端将测试集输入训练完成的LGBM，得到LGBM输出的入侵检测预测结果后再发送至服务器。

4.如权利要求3所述方法，其特征在于，步骤3)中服务器将测试集发送给各客户端后设置时间阈值T，服务器在时间阈值T内各接收客户端发送的入侵检测预测结果。