CN111464510B - 基于快速梯度提升树分类模型的网络实时入侵检测方法 - Google Patents
基于快速梯度提升树分类模型的网络实时入侵检测方法 Download PDFInfo
- Publication number
- CN111464510B CN111464510B CN202010191536.1A CN202010191536A CN111464510B CN 111464510 B CN111464510 B CN 111464510B CN 202010191536 A CN202010191536 A CN 202010191536A CN 111464510 B CN111464510 B CN 111464510B
- Authority
- CN
- China
- Prior art keywords
- network
- data
- model
- classification model
- intrusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 230000006399 behavior Effects 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000007619 statistical method Methods 0.000 claims abstract description 4
- 238000003066 decision tree Methods 0.000 claims description 30
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于快速梯度提升树模型的网络实时入侵检测方法,该方法包括下述步骤:使用训练数据训练快速梯度提升树分类模型;在连续的时间窗口抓取网络流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;对数据块进行统计分析,生成多个特征向量;采用快速梯度提升树分类模型对特征向量进行分类,区分正常行为和网络入侵行为;若判定为网络入侵行为,输出网络入侵告警信号。本发明能够克服分类性能的类别偏向性问题和降低误报率,同时模型建立阶段和决策阶段的匹配过程满足实时性的要求。
Description
技术领域
本发明涉及网络安全领域,具体涉及一种基于快速梯度提升树分类模型的网络实时入侵检测方法。
背景技术
常见的网络安全防护技术有防火墙,数据加密,认证和数字签名等,这些静态的被动防守式网络安全工具服务方式单一,难以应对当今复杂多变的网络入侵。
网络流量是入侵检测的一个重要数据来源,常见的网络入侵检测方法可以根据原理分为基于误用的网络入侵检测和基于异常的网络入侵检测,但现实网络环境中得到的训练数据为不平衡数据,因此基于误用的入侵检测方法通常在分类性能上存在类别偏向性,即对于一些数据量少的入侵行为检测性能较差,此外,基于误用的入侵检测方法常常比较复杂,因而难以满足实时性的要求;另一方面,界定正常行为和入侵行为本就是具有挑战性的任务,况且当前环境中正常用户的行为并非静态不变的,基于异常的网络入侵检测可能会把正常行为误判为入侵行为,因而常具有较高的误报率。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法,能够克服分类性能的类别偏向性问题和降低误报率,同时模型建立阶段和决策阶段的匹配过程满足实时性的要求。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法,包括下述步骤:
使用训练数据训练快速梯度提升树分类模型;
在连续的时间窗口抓取网络流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;
对所述数据块进行统计分析,生成多个特征向量;
采用所述快速梯度提升树分类模型对所述特征向量进行分类,区分正常行为和网络入侵行为;
若判定为网络入侵行为,输出网络入侵告警信号。
作为优选的技术方案,所述训练数据的具体构建步骤包括:
对原始数据采用GOSS进行采样,采用EFB对互斥的稀疏特征绑定后得到训练数据,表示为特征向量集:
其中,N表示特征向量的个数,xi表示特征属性,yi表示标签。
作为优选的技术方案,所述快速梯度提升树分类模型的具体训练步骤包括:
所述快速梯度提升树分类模型由M棵决策树构成,初始化第一棵决策树为常数,表示为:
训练下一棵决策树,使用按叶子的生长策略,通过最小化损失函数得到第t次迭代中得到的决策树模型,表示为:
将上一次迭代中的决策树模型与当前次迭代中得到的决策树模型相加,得到新的模型:
完成M次模型迭代后,得到并返回最终的训练模型:
作为优选的技术方案,所述在连续的时间窗口抓取网络流量数据,具体采用Tcpdump在连续的时间窗口内对主机网卡进行监听,抓取网络中的原始流量数据。
作为优选的技术方案,所述生成多个特征向量,具体步骤包括:
根据源IP和目的IP将所述数据块中的数据划分成双向流;
采用CICFlowMeter对数据块进行基于双向流的特征提取,生成特征向量。
作为优选的技术方案,所述区分正常行为和网络入侵行为,具体步骤包括:
作为优选的技术方案,所述网络入侵告警信号包括网络入侵行为发生时间、网络入侵行为类别信息和网络入侵行为的网络来源。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于快速梯度提升树模型进行网络入侵检测,在模型训练前先采用GOSS对样本数据采样以减低数据量,通过EFB对互斥的稀疏特征进行绑定以降低特征维度,进而到达到提升模型建立阶段实时性的目的。
(2)本发明的快速梯度提升树模型在生成每个决策树时,采用按叶生长的策略,在增长一个叶子节点的情况下,比按层生长的策略能够降低更多的误差;为了防止模型过拟合,快速梯度提升树模型限制每个决策树的深度,在最终得到的模型中由较少的决策树和叶子节点构成,这一特点使得快速梯度提升树模型在决策阶段的匹配过程具有良好的时间高效性。
(3)本发明在每次训练新的决策树时对原始样本数据采用GOSS方法进行采样,再将决策树加起来得到最终的预测结果,一定程度上能够克服训练数据的不平衡,并且起到改善检测性能,特别是降低误报率的效果。
附图说明
图1为本实施例基于快速梯度提升树分类模型的网络实时入侵检测方法的流程示意图;
图2为本实施例建立基于快速梯度提升树的分类模型的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法,包括下述步骤:
S1、模型建立阶段,使用训练数据训练快速梯度提升树分类模型;
如图2所示,建立基于快速梯度提升树的分类模型具体步骤包括:
对原始数据采用GOSS(Gradient-based One-Side Sampling)进行采样从而降低数据量,同时通过EFB(Exclusive Feature Bundling)对互斥的稀疏特征绑定从而降低特征维度,之后得到的数据作为训练数据;
训练数据集来源于入侵检测系统所部署的网络环境,表示为特征向量集:
其中,N代表特征向量的个数,xi为特征属性,yi为标签;
快速梯度提升树模型由M棵决策树构成,将第一棵决策树初始化为常数,其表示形式如下所示:
训练下一棵决策树,使用按叶子的生长策略,通过最小化损失函数得到,其表示形式如下:
迭代得到新的模型,将上一次迭代中的模型与本次迭代中得到的决策树相加,得到本次迭代的模型,其表示形式如下:
之后继续迭代,通过最小化损失函数生成新的决策树,并通过加法方式得到新一轮迭代中的模型;
判定是否达到停止条件,迭代的停止条件为完成第M次迭代,其中M为预先确定的迭代次数,完成M次模型迭代后,得到并返回最终的训练模型,其表示形式如下:
至此完成基于快速梯度提升树的分类模型的建立;
S2、数据获取阶段,在连续的时间窗口从网络中抓取流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;
具体步骤为:采用Tcpdump在连续的时间窗口内对主机网卡进行监听,抓取网络中的原始流量数据;
单个时间窗口的长度取为2s,每个时间窗口中抓取的数据被存储为一个数据块,文件格式为.pcap;
S3、数据预处理阶段,通过对每一个数据块进行统计分析,生成若干个特征向量;
具体步骤为:将数据块中的数据,根据源IP和目的IP将数据包划分成双向流;
采用CICFlowMeter对数据块进行基于双向流的特征提取,生成由84个特征表示的特征向量;
S4、决策阶段,通过已经建立的快速梯度提升树模型对特征向量进行分类,分为正常行为和若干具体的入侵行为;
S5、响应阶段,若决策阶段发现入侵行为,入侵检测系统向系统管理员发送告警信号;
具体步骤包括:对检测到的入侵行为,向系统管理员发送告警信号,该信号内容包括入侵行为发生时间、入侵行为的具体类别信息和入侵行为的网络来源。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,包括下述步骤:
使用训练数据训练快速梯度提升树分类模型;
所述快速梯度提升树分类模型的具体训练步骤包括:
所述快速梯度提升树分类模型由M棵决策树构成,初始化第一棵决策树为常数,表示为:
训练下一棵决策树,使用按叶子的生长策略,通过最小化损失函数得到第t次迭代中得到的决策树模型,表示为:
将上一次迭代中的决策树模型与当前次迭代中得到的决策树模型相加,得到新的模型:
完成M次模型迭代后,得到并返回最终的训练模型:
所述训练数据的具体构建步骤包括:
对原始数据采用GOSS进行采样,采用EFB对互斥的稀疏特征绑定后得到训练数据,表示为特征向量集:
其中,N表示特征向量的个数,xi表示特征属性,yi表示标签;
在连续的时间窗口抓取网络流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;
对所述数据块进行统计分析,生成多个特征向量;
采用所述快速梯度提升树分类模型对所述特征向量进行分类,区分正常行为和网络入侵行为;
若判定为网络入侵行为,输出网络入侵告警信号。
2.根据权利要求1所述的基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,所述在连续的时间窗口抓取网络流量数据,具体采用Tcpdump在连续的时间窗口内对主机网卡进行监听,抓取网络中的原始流量数据。
3.根据权利要求1所述的基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,所述生成多个特征向量,具体步骤包括:
根据源IP和目的IP将所述数据块中的数据划分成双向流;
采用CICFlowMeter对数据块进行基于双向流的特征提取,生成特征向量。
5.根据权利要求1所述的基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,所述网络入侵告警信号包括网络入侵行为发生时间、网络入侵行为类别信息和网络入侵行为的网络来源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191536.1A CN111464510B (zh) | 2020-03-18 | 2020-03-18 | 基于快速梯度提升树分类模型的网络实时入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191536.1A CN111464510B (zh) | 2020-03-18 | 2020-03-18 | 基于快速梯度提升树分类模型的网络实时入侵检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111464510A CN111464510A (zh) | 2020-07-28 |
CN111464510B true CN111464510B (zh) | 2021-06-08 |
Family
ID=71685608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010191536.1A Active CN111464510B (zh) | 2020-03-18 | 2020-03-18 | 基于快速梯度提升树分类模型的网络实时入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111464510B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112003869B (zh) * | 2020-08-28 | 2022-10-04 | 国网重庆市电力公司电力科学研究院 | 一种基于流量的漏洞识别方法 |
CN112118259B (zh) * | 2020-09-17 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种基于提升树的分类模型的越权漏洞检测方法 |
CN112555084B (zh) * | 2020-12-04 | 2023-01-10 | 湖南五凌电力科技有限公司 | 一种实时状态预警方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110138786A (zh) * | 2019-05-20 | 2019-08-16 | 福州大学 | 基于SMOTETomek和LightGBM的Web异常检测方法及系统 |
CN110378430A (zh) * | 2019-07-23 | 2019-10-25 | 广东工业大学 | 一种基于多模型融合的网络入侵检测的方法及系统 |
CN110868409A (zh) * | 2019-11-08 | 2020-03-06 | 中国科学院信息工程研究所 | 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232448A (zh) * | 2019-04-08 | 2019-09-13 | 华南理工大学 | 提高梯度提升树模型的特征值作用和防止过拟合的方法 |
CN110222708A (zh) * | 2019-04-29 | 2019-09-10 | 中国科学院计算技术研究所 | 一种基于集成决策树的跌倒检测方法和系统 |
-
2020
- 2020-03-18 CN CN202010191536.1A patent/CN111464510B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110138786A (zh) * | 2019-05-20 | 2019-08-16 | 福州大学 | 基于SMOTETomek和LightGBM的Web异常检测方法及系统 |
CN110378430A (zh) * | 2019-07-23 | 2019-10-25 | 广东工业大学 | 一种基于多模型融合的网络入侵检测的方法及系统 |
CN110868409A (zh) * | 2019-11-08 | 2020-03-06 | 中国科学院信息工程研究所 | 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
AN EFFICIENT INTRUSION DETECTION APPROACH USING LIGHT GRADIENT BOOSTING;HAYEL KHAFAJEH;《Journal of Theoretical and Applied Information Technology》;20200315;第98卷(第05期);第3节第1段至第5节最后一段 * |
Also Published As
Publication number | Publication date |
---|---|
CN111464510A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107154950B (zh) | 一种日志流异常检测的方法及系统 | |
CN112398779B (zh) | 一种网络流量数据分析方法及系统 | |
CN109063745B (zh) | 一种基于决策树的网络设备类型识别方法及系统 | |
CN111464510B (zh) | 基于快速梯度提升树分类模型的网络实时入侵检测方法 | |
US10187401B2 (en) | Hierarchical feature extraction for malware classification in network traffic | |
CN111277587A (zh) | 基于行为分析的恶意加密流量检测方法及系统 | |
CN111107102A (zh) | 基于大数据实时网络流量异常检测方法 | |
US20180150635A1 (en) | Apparatus and Method for Using a Support Vector Machine and Flow-Based Features to Detect Peer-to-Peer Botnet Traffic | |
CN111917740A (zh) | 一种异常流量告警日志检测方法、装置、设备及介质 | |
CN112367334A (zh) | 网络流量识别方法、装置、电子设备和存储介质 | |
CN113821793B (zh) | 基于图卷积神经网络的多阶段攻击场景构建方法及系统 | |
CN112769623A (zh) | 边缘环境下的物联网设备识别方法 | |
Rupa Devi et al. | A review on network intrusion detection system using machine learning | |
Beaver et al. | A learning system for discriminating variants of malicious network traffic | |
CN111245784A (zh) | 多维度检测恶意域名的方法 | |
Juvonen et al. | An efficient network log anomaly detection system using random projection dimensionality reduction | |
CN114021135A (zh) | 一种基于R-SAX的LDoS攻击检测与防御方法 | |
Sun et al. | Detection and classification of network events in LAN using CNN | |
CN113746780B (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
CN114972827A (zh) | 资产识别方法、装置、设备及计算机可读存储介质 | |
CN109376531B (zh) | 基于语义重编码与特征空间分离的Web入侵检测方法 | |
CN116915450A (zh) | 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法 | |
Ikhwan et al. | Intrusion detection using deep neural network algorithm on the internet of things | |
CN112073362B (zh) | 一种基于流量特征的apt组织流量识别方法 | |
CN113162904B (zh) | 一种基于概率图模型的电力监控系统网络安全告警评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |