CN113688385A - 轻量级分布式入侵检测方法 - Google Patents

轻量级分布式入侵检测方法 Download PDF

Info

Publication number
CN113688385A
CN113688385A CN202110818450.1A CN202110818450A CN113688385A CN 113688385 A CN113688385 A CN 113688385A CN 202110818450 A CN202110818450 A CN 202110818450A CN 113688385 A CN113688385 A CN 113688385A
Authority
CN
China
Prior art keywords
intrusion detection
data
lgbm
client
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110818450.1A
Other languages
English (en)
Other versions
CN113688385B (zh
Inventor
李洪伟
袁帅
张瑞
郝猛
李毅然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110818450.1A priority Critical patent/CN113688385B/zh
Publication of CN113688385A publication Critical patent/CN113688385A/zh
Application granted granted Critical
Publication of CN113688385B publication Critical patent/CN113688385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本发明提出一种轻量级的分布式入侵检测方法,每个客户端准备本地数据,所述本地数据为非独立同分布non‑IID流量数据及其对应的入侵检测分类标签;在训练阶段,每个客户端使用本地数据训练其本地的轻量梯度提升机器LGBM在预测阶段,将测试数据输入至各训练完成的LGBM,得到各LGBM输出的入侵检测预测结果;服务器收集各LGBM输出的入侵检测预测结果后,通过投票方式得到最终的针对该测试数据的入侵检测结果。本发明在传统的决策树方法上引入轻量级梯度提升算法,通过结合用户训练的决策树,可以在非独立同分布的数据上有效处理大量样本。与目前的基于联邦学习的方法相比,该框架在独立同分布和非独立同分布的数据上都实现了更高的准确率和更低的开销。

Description

轻量级分布式入侵检测方法
技术领域
本发明涉及信息安全技术领域,具体涉及分布式入侵检测技术。
技术背景
如图1所示,在典型的客户端-服务器系统是由一个中心服务器cloud server和n个客户端设备device group 1,device group 2,…,device group n组成。在恶意场景Abnormal下,被控制的主机bot master可能通过控制器control server向客户端devicegroup i(i=1,2,…,n)发送恶意的命令,从而破坏客户端甚至云服务器。入侵检测系统IDS是检测恶意入侵和保护系统免受恶意软件攻击的关键。IDS的主要思想是通过云实时监测来检测恶意流量(异常流量),从而进行激活攻击预警和流量拦截。
深度学习DL在构建IDS方面已经取得了巨大的成功。但是,集中式DL需要将原始数据上传到中心服务器以进行神经网络的训练,因此在此过程中用户的隐私无法得到保证。这严重限制了它的应用范围,特别是在涉及隐私的场景中。
最近,联邦学习FL在工业界和学术界都引起了广泛的关注。与集中式的DL不同,联邦学习不需要将用户的原始数据上传到服务器,相反,只需要上传本地训练模型的梯度。由于这样的优势,FL已经逐渐被应用于入侵检测领域。
但是分布式检测框架的研究仍处于起步阶段,仍然面临着以下5个重大挑战:
(1)非独立同分布non-IID数据:在大数据时代,每个参与者拥有的数据可能是non-IID的。
(2)准确率:与传统集中式学习相比,在分布式场景下,IDS模型的准确性可能会大幅下降。
(3)假阳性率:假阳性率是衡量IDS的一个非常重要的指标。大量的错误会给IDS服务提供商带来负担,甚至导致其系统瘫痪。
(4)效率:分布式IDS的参与者通常是资源有限的移动设备或物联网设备。
(5)部署的多样化:随着技术的发展,服务器不再是中心,在最终预测时通常需要用户的参与。
发明内容
本发明所要解决的技术问题是,提供一种能高效、精确地处理IID数据和non-IID数据的入侵检测方法。
本发明为解决上述技术问题所采用的技术方案是,轻量级分布式入侵检测方法,包括以下步骤:
1)每个客户端准备本地数据,所述本地数据为独立同分布IID流量数据及其对应的入侵检测标签、非独立同分布non-IID流量数据及其对应的入侵检测分类标签;
2)在训练阶段,每个客户端使用本地数据训练其本地的轻量梯度提升机器LGBM;
3)在预测阶段,将测试数据输入至各训练完成的LGBM,得到各LGBM输出的入侵检测预测结果;
4)服务器收集各LGBM输出的入侵检测预测结果后,通过投票方式得到最终的针对该测试数据的入侵检测结果。
步骤3)可选的实现方式为:各客户端将本地训练完成的LGBM发送给服务器,服务器将测试集输入至接收到的各训练完成的LGBM得到LGBM输出的入侵检测预测结果。
步骤3)可选的实现方式为:服务器将测试集发送给各客户端,再由客户端将测试集输入训练完成的LGBM,得到LGBM输出的入侵检测预测结果后再发送至服务器。
本发明提出一种结合传统决策树和轻量梯度提升算法的分布式入侵检测方法,不直接传输数据,在训练和预测阶段都不同于现有的联邦学习方法。
LGBM(LightGBM)采用的是一种叶向生成树,具有预测速度快、所需特征工程少、多特征自动组合等特点,LGBM还使用了基于梯度的单侧采样GOSS和专属特征捆绑EFB来解决数据量和特征数量过多的问题,因此LGBM可以在分布式场景下以更低的时间开销获得更高的精度。此外,指定参数后可以快速构造树,且训练过程不需要任何数据传输,在预测阶段只传输LGBM或测试数据,比传统的联邦学习效率更高。
本发明的有益效果是:能够处理IID数据和non-IID数据的入侵检测问题;
无论采用IID数据还是non-IID数据进行训练,均不以牺牲精度为代价;具有非常低的假阳性率;不会给参与者造成过多的计算和通信开销;支持多种入侵检测服务,包括服务提供商辅助检测和本地化检测。
附图说明
图1为客户端-服务器系统环境示意图;
图2为本发明两种预测实现方式示意图。
具体实施方式
如图2所示,本发明方法中各个客户端使用自己的私人数据集进行训练,得到本地的LGBM;服务器再整合各个客户端LGBM的预测结果得到入侵检测结果。
1)客户端训练过程
在CoLGBM中,使用了梯度提升决策树GBDT变体LightGBM(LGBM)。LGBM公开了两种新的技术:单侧采样GOSS和专属特征捆绑EFB,分别用于处理大量的数据实例和大量的特征。我们将数据总量表示为T0,非零数据总量表示为T1,特征总量表示为S0,特征数表示为S1。由于通过扫描所有数据实例来估计所有分割的信息增益会花费较多的时间,因此我们利用GOSS和EFB算法将直方图构建的复杂度从O(T0×S0)降低到O(T1×S1)),s.t S1<<S0;这显著提高了培训过程的效率。此外,LGBM使用叶向生成策略来构建树和额外参数(最大深度)来限制树的深度,避免过拟合,获得更好的精度。
在训练过程中,如图2所示,每个客户端User 1,User 2,…,User n都有其本地流量数据集Local dataset,本地流量数据集中为非独立同分布数据。每个客户端User i(i=1,2,…,n)利用在本地流量数据集Di训练LGBM。相对于现有的深度学习DL和联邦学习FL在数据预处理阶段都需要进行特征选择,联邦学习FL需要全局数据归一化或标准化,本发明方法不需要其他数据预处理操作。
2)服务器预测过程
本发明针对不同应用场景设计了两种预测方法:
a)串行预测
客户端通过本地数据训练后得到最终完成训练的LGBM。当需要对测试数据集进行预测时,服务器将收集所有完成训练的LGBM,并使用每个LGBM对测试数据进行预测,如图2(a)Training and Serial Prediction所示。最后,服务器通过投票产生预测结果。该算法的优点是不会公开客户端的私有原始数据,而且IDS服务提供者不能根据决策树的规则立即恢复用户的原始数据。此外,通过分析传输数据的大小,我们发现该方法的通信开销更低。在传统的FL方法中,总传输数据大小约等于O(2×n×r×d1),但是我们的方法的数据大小是O(n×d2),其中n表示客户的数量,r表示一轮迭代,d1表示神经网络梯度的大小,d2表示决策树的规模。但是该方案仍存在一些问题。当用户数量过多时,所有的树都会存储在服务器上,服务器的存储容量可能不足。此外,服务器只能按顺序计算每个树的结果,十分耗时,无法有效应对用户掉线问题。
b)并行进程
IDS服务提供者将其测试数据集发送给所有客户端。如图2(b)Training andParallel Prediction的过程所示,服务器先将测试数据Testing Data发送至每个客户端,每个客户端使用其本地的LGBM模型对测试数据集进行预测得到各个预测结果Result-1,Result-2,…,Result-n,通过该方法传输的信息仍然不会泄露用户的原始数据。服务器接只收到每个客户机的预测结果。此外,该方法可以并行运行,这也就是我们称之为并行进程的原因。另外,为了处理部分用户脱机和网络延迟的问题,服务器可以设置一个时间阈值T,一旦等待时间超过时间阈值T,服务器立即停止接收任何结果。尽管该方法优点显著,但是这种方法在暴露IDS服务提供商的隐私方面比发送用户的LGBM更危险。

Claims (4)

1.轻量级分布式入侵检测方法,其特征在于,包括以下步骤:
1)每个客户端准备本地数据,所述本地数据为独立同分布IID流量数据及其对应的入侵检测标签、非独立同分布non-IID流量数据及其对应的入侵检测分类标签;
2)在训练阶段,每个客户端使用本地数据训练其本地的轻量梯度提升机器LGBM;
3)在预测阶段,将测试数据输入至各训练完成的LGBM,得到各LGBM输出的入侵检测预测结果;
4)服务器收集各LGBM输出的入侵检测预测结果后,通过投票方式得到最终的针对该测试数据的入侵检测结果。
2.如权利要求1所述方法,其特征在于,步骤3)具体为:各客户端将本地训练完成的LGBM发送给服务器,服务器将测试集输入至接收到的各训练完成的LGBM得到LGBM输出的入侵检测预测结果。
3.如权利要求1所述方法,其特征在于,步骤3)具体为:服务器将测试集发送给各客户端,再由客户端将测试集输入训练完成的LGBM,得到LGBM输出的入侵检测预测结果后再发送至服务器。
4.如权利要求3所述方法,其特征在于,步骤3)中服务器将测试集发送给各客户端后设置时间阈值T,服务器在时间阈值T内各接收客户端发送的入侵检测预测结果。
CN202110818450.1A 2021-07-20 2021-07-20 轻量级分布式入侵检测方法 Active CN113688385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110818450.1A CN113688385B (zh) 2021-07-20 2021-07-20 轻量级分布式入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110818450.1A CN113688385B (zh) 2021-07-20 2021-07-20 轻量级分布式入侵检测方法

Publications (2)

Publication Number Publication Date
CN113688385A true CN113688385A (zh) 2021-11-23
CN113688385B CN113688385B (zh) 2023-04-07

Family

ID=78577443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110818450.1A Active CN113688385B (zh) 2021-07-20 2021-07-20 轻量级分布式入侵检测方法

Country Status (1)

Country Link
CN (1) CN113688385B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115987689A (zh) * 2023-03-20 2023-04-18 北京邮电大学 一种网络入侵检测方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN107395590A (zh) * 2017-07-19 2017-11-24 福州大学 一种基于pca和随机森林分类的入侵检测方法
WO2019232773A1 (en) * 2018-06-08 2019-12-12 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for abnormality detection in data storage
CN111652303A (zh) * 2020-05-28 2020-09-11 辽宁工程技术大学 基于非独立同分布下谱聚类的离群值检测方法
CN112131479A (zh) * 2020-09-30 2020-12-25 深圳前海微众银行股份有限公司 数据的处理方法、装置、设备和存储介质
CN112202782A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于网络流量的暗网用户行为检测方法和系统
US20210174899A1 (en) * 2019-12-05 2021-06-10 Bostongene Corporation Machine learning techniques for gene expression analysis
WO2021177879A1 (en) * 2020-03-02 2021-09-10 Telefonaktiebolaget Lm Ericsson (Publ) Synthetic data generation in federated learning systems
CN114548222A (zh) * 2022-01-18 2022-05-27 电子科技大学长三角研究院(湖州) 一种分布式物联网入侵检测方法及系统
US20220215273A1 (en) * 2021-01-05 2022-07-07 Dell Products, L.P. Using prediction uncertainty quantifier with machine leaning classifier to predict the survival of a storage device

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN107395590A (zh) * 2017-07-19 2017-11-24 福州大学 一种基于pca和随机森林分类的入侵检测方法
WO2019232773A1 (en) * 2018-06-08 2019-12-12 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for abnormality detection in data storage
US20210174899A1 (en) * 2019-12-05 2021-06-10 Bostongene Corporation Machine learning techniques for gene expression analysis
WO2021177879A1 (en) * 2020-03-02 2021-09-10 Telefonaktiebolaget Lm Ericsson (Publ) Synthetic data generation in federated learning systems
CN111652303A (zh) * 2020-05-28 2020-09-11 辽宁工程技术大学 基于非独立同分布下谱聚类的离群值检测方法
CN112131479A (zh) * 2020-09-30 2020-12-25 深圳前海微众银行股份有限公司 数据的处理方法、装置、设备和存储介质
CN112202782A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于网络流量的暗网用户行为检测方法和系统
US20220215273A1 (en) * 2021-01-05 2022-07-07 Dell Products, L.P. Using prediction uncertainty quantifier with machine leaning classifier to predict the survival of a storage device
CN114548222A (zh) * 2022-01-18 2022-05-27 电子科技大学长三角研究院(湖州) 一种分布式物联网入侵检测方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BAYU ADHI TAMA 等: "Ensemble learning for intrusion detection systems: A systematic mapping study and cross-benchmark evaluation", 《COMPUTER SCIENCE REVIEW 39 (2021)》 *
STARSPIRIT: "强大的轻量级网络入侵检测系统SNORT", 《HTTPS://BLOG.CSDN.NET/STARSPIRIT/ARTICLE/DETAILS/5837229》 *
吴浩明 等: "一种基于特征选择的网络流量异常检测方法", 《一种基于特征选择的网络流量异常检测方法 *
封化民等: "基于SMOTE和GBDT的网络入侵检测方法研究", 《计算机应用研究》 *
骆子铭等: "基于机器学习的TLS恶意加密流量检测方案", 《网络与信息安全学报》 *
魏志强等: "一种采用SmoteTomek和LightGBM算法的Web异常检测模型", 《小型微型计算机系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115987689A (zh) * 2023-03-20 2023-04-18 北京邮电大学 一种网络入侵检测方法及装置
CN115987689B (zh) * 2023-03-20 2023-06-27 北京邮电大学 一种网络入侵检测方法及装置

Also Published As

Publication number Publication date
CN113688385B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Zhu et al. Mobile edge assisted literal multi-dimensional anomaly detection of in-vehicle network using LSTM
US8483056B2 (en) Analysis apparatus and method for abnormal network traffic
CN107770132B (zh) 一种对算法生成域名进行检测的方法及装置
WO2019200944A1 (zh) 基于串行通信总线信号分析的工控系统物理入侵攻击检测方法
CN109347853B (zh) 基于深度包解析的面向综合电子系统的异常检测方法
CN110868404B (zh) 一种基于tcp/ip指纹的工控设备自动识别方法
CN116680459B (zh) 基于ai技术的外贸内容数据处理系统
WO2022078353A1 (zh) 车辆行使状态判断方法、装置、计算机设备及存储介质
CN113688385B (zh) 轻量级分布式入侵检测方法
CN102655509A (zh) 一种网络攻击识别方法及装置
CN107437088B (zh) 文件识别方法和装置
CN116346418A (zh) 基于联邦学习的DDoS检测方法及装置
CN115941322A (zh) 基于人工智能的攻击检测方法、装置、设备及存储介质
US10921792B2 (en) Edge cloud-based resin material drying system and method
CN116723058B (zh) 网络攻击检测和防护方法和装置
CN104113510A (zh) 虚拟桌面系统及其消息数据的传输方法
CN111444364B (zh) 一种图像检测方法和装置
KR102083028B1 (ko) 네트워크 침입탐지 시스템
CN110351273B (zh) 一种网络追踪长链条攻击的方法、装置和系统
CN111294318B (zh) 一种网络攻击的ip地址分析方法、装置和存储介质
CN112733170B (zh) 一种基于证据序列提取的主动信任评估方法
CN112261009B (zh) 一种针对铁路调度集中系统的网络入侵检测方法
CN111586052B (zh) 一种基于多层级的群智合约异常交易识别方法及识别系统
CN103200193A (zh) 网络设备中的会话创建方法及会话创建装置
CN113328986A (zh) 基于卷积神经网络与lstm结合的网络流量异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant