CN111464510B - 基于快速梯度提升树分类模型的网络实时入侵检测方法 - Google Patents

基于快速梯度提升树分类模型的网络实时入侵检测方法 Download PDF

Info

Publication number
CN111464510B
CN111464510B CN202010191536.1A CN202010191536A CN111464510B CN 111464510 B CN111464510 B CN 111464510B CN 202010191536 A CN202010191536 A CN 202010191536A CN 111464510 B CN111464510 B CN 111464510B
Authority
CN
China
Prior art keywords
network
data
model
classification model
intrusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010191536.1A
Other languages
English (en)
Other versions
CN111464510A (zh
Inventor
金冬子
陆以勤
覃健诚
王君君
毛中书
李佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010191536.1A priority Critical patent/CN111464510B/zh
Publication of CN111464510A publication Critical patent/CN111464510A/zh
Application granted granted Critical
Publication of CN111464510B publication Critical patent/CN111464510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于快速梯度提升树模型的网络实时入侵检测方法,该方法包括下述步骤:使用训练数据训练快速梯度提升树分类模型;在连续的时间窗口抓取网络流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;对数据块进行统计分析,生成多个特征向量;采用快速梯度提升树分类模型对特征向量进行分类,区分正常行为和网络入侵行为;若判定为网络入侵行为,输出网络入侵告警信号。本发明能够克服分类性能的类别偏向性问题和降低误报率,同时模型建立阶段和决策阶段的匹配过程满足实时性的要求。

Description

基于快速梯度提升树分类模型的网络实时入侵检测方法
技术领域
本发明涉及网络安全领域,具体涉及一种基于快速梯度提升树分类模型的网络实时入侵检测方法。
背景技术
常见的网络安全防护技术有防火墙,数据加密,认证和数字签名等,这些静态的被动防守式网络安全工具服务方式单一,难以应对当今复杂多变的网络入侵。
网络流量是入侵检测的一个重要数据来源,常见的网络入侵检测方法可以根据原理分为基于误用的网络入侵检测和基于异常的网络入侵检测,但现实网络环境中得到的训练数据为不平衡数据,因此基于误用的入侵检测方法通常在分类性能上存在类别偏向性,即对于一些数据量少的入侵行为检测性能较差,此外,基于误用的入侵检测方法常常比较复杂,因而难以满足实时性的要求;另一方面,界定正常行为和入侵行为本就是具有挑战性的任务,况且当前环境中正常用户的行为并非静态不变的,基于异常的网络入侵检测可能会把正常行为误判为入侵行为,因而常具有较高的误报率。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法,能够克服分类性能的类别偏向性问题和降低误报率,同时模型建立阶段和决策阶段的匹配过程满足实时性的要求。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法,包括下述步骤:
使用训练数据训练快速梯度提升树分类模型;
在连续的时间窗口抓取网络流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;
对所述数据块进行统计分析,生成多个特征向量;
采用所述快速梯度提升树分类模型对所述特征向量进行分类,区分正常行为和网络入侵行为;
若判定为网络入侵行为,输出网络入侵告警信号。
作为优选的技术方案,所述训练数据的具体构建步骤包括:
对原始数据采用GOSS进行采样,采用EFB对互斥的稀疏特征绑定后得到训练数据,表示为特征向量集:
Figure GDA0003007213750000021
其中,N表示特征向量的个数,xi表示特征属性,yi表示标签。
作为优选的技术方案,所述快速梯度提升树分类模型的具体训练步骤包括:
所述快速梯度提升树分类模型由M棵决策树构成,初始化第一棵决策树为常数,表示为:
Figure GDA0003007213750000022
其中,f0代表初始化的决策树,
Figure GDA0003007213750000023
代表初始化的预测值;
训练下一棵决策树,使用按叶子的生长策略,通过最小化损失函数得到第t次迭代中得到的决策树模型,表示为:
Figure GDA0003007213750000024
其中,ft(xi)表示在第t次迭代中得到的决策树模型,L(t)表示损失函数,yi表示第i个实例的标签值,
Figure GDA0003007213750000025
表示在第t次迭代中对第i个实例的预测值;
将上一次迭代中的决策树模型与当前次迭代中得到的决策树模型相加,得到新的模型:
Figure GDA0003007213750000026
完成M次模型迭代后,得到并返回最终的训练模型:
Figure GDA0003007213750000031
作为优选的技术方案,所述在连续的时间窗口抓取网络流量数据,具体采用Tcpdump在连续的时间窗口内对主机网卡进行监听,抓取网络中的原始流量数据。
作为优选的技术方案,所述生成多个特征向量,具体步骤包括:
根据源IP和目的IP将所述数据块中的数据划分成双向流;
采用CICFlowMeter对数据块进行基于双向流的特征提取,生成特征向量。
作为优选的技术方案,所述区分正常行为和网络入侵行为,具体步骤包括:
将特征向量代入快速梯度提升树分类模型进行判别,得到预测值
Figure GDA0003007213750000032
若预测值
Figure GDA0003007213750000033
与正常行为的标签相同,则判定当前流属于正常行为;若与入侵类别标签相同,则判定当前流属于入侵行为。
作为优选的技术方案,所述网络入侵告警信号包括网络入侵行为发生时间、网络入侵行为类别信息和网络入侵行为的网络来源。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于快速梯度提升树模型进行网络入侵检测,在模型训练前先采用GOSS对样本数据采样以减低数据量,通过EFB对互斥的稀疏特征进行绑定以降低特征维度,进而到达到提升模型建立阶段实时性的目的。
(2)本发明的快速梯度提升树模型在生成每个决策树时,采用按叶生长的策略,在增长一个叶子节点的情况下,比按层生长的策略能够降低更多的误差;为了防止模型过拟合,快速梯度提升树模型限制每个决策树的深度,在最终得到的模型中由较少的决策树和叶子节点构成,这一特点使得快速梯度提升树模型在决策阶段的匹配过程具有良好的时间高效性。
(3)本发明在每次训练新的决策树时对原始样本数据采用GOSS方法进行采样,再将决策树加起来得到最终的预测结果,一定程度上能够克服训练数据的不平衡,并且起到改善检测性能,特别是降低误报率的效果。
附图说明
图1为本实施例基于快速梯度提升树分类模型的网络实时入侵检测方法的流程示意图;
图2为本实施例建立基于快速梯度提升树的分类模型的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法,包括下述步骤:
S1、模型建立阶段,使用训练数据训练快速梯度提升树分类模型;
如图2所示,建立基于快速梯度提升树的分类模型具体步骤包括:
对原始数据采用GOSS(Gradient-based One-Side Sampling)进行采样从而降低数据量,同时通过EFB(Exclusive Feature Bundling)对互斥的稀疏特征绑定从而降低特征维度,之后得到的数据作为训练数据;
训练数据集来源于入侵检测系统所部署的网络环境,表示为特征向量集:
Figure GDA0003007213750000041
其中,N代表特征向量的个数,xi为特征属性,yi为标签;
快速梯度提升树模型由M棵决策树构成,将第一棵决策树初始化为常数,其表示形式如下所示:
Figure GDA0003007213750000051
其中,f0代表初始化的决策树,
Figure GDA0003007213750000052
代表初始化的预测值;
训练下一棵决策树,使用按叶子的生长策略,通过最小化损失函数得到,其表示形式如下:
Figure GDA0003007213750000053
其中yi是第i个实例的标签值,
Figure GDA0003007213750000054
是在第t次迭代中对第i个实例的预测值,ft(xi)代表在第t次迭代中得到的决策树模型,L(t)是损失函数,用来衡量预测值
Figure GDA0003007213750000055
和目标值yi的误差;
迭代得到新的模型,将上一次迭代中的模型与本次迭代中得到的决策树相加,得到本次迭代的模型,其表示形式如下:
Figure GDA0003007213750000056
之后继续迭代,通过最小化损失函数生成新的决策树,并通过加法方式得到新一轮迭代中的模型;
判定是否达到停止条件,迭代的停止条件为完成第M次迭代,其中M为预先确定的迭代次数,完成M次模型迭代后,得到并返回最终的训练模型,其表示形式如下:
Figure GDA0003007213750000057
至此完成基于快速梯度提升树的分类模型的建立;
S2、数据获取阶段,在连续的时间窗口从网络中抓取流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;
具体步骤为:采用Tcpdump在连续的时间窗口内对主机网卡进行监听,抓取网络中的原始流量数据;
单个时间窗口的长度取为2s,每个时间窗口中抓取的数据被存储为一个数据块,文件格式为.pcap;
S3、数据预处理阶段,通过对每一个数据块进行统计分析,生成若干个特征向量;
具体步骤为:将数据块中的数据,根据源IP和目的IP将数据包划分成双向流;
采用CICFlowMeter对数据块进行基于双向流的特征提取,生成由84个特征表示的特征向量;
S4、决策阶段,通过已经建立的快速梯度提升树模型对特征向量进行分类,分为正常行为和若干具体的入侵行为;
具体步骤为:将特征向量代入基于快速梯度提升树的分类模型进行判别,得到预测值
Figure GDA0003007213750000061
Figure GDA0003007213750000062
与正常行为的标签相同,则认为该流为正常行为,否则若与具体的入侵类别标签相同,认为该流属于这类入侵行为;
S5、响应阶段,若决策阶段发现入侵行为,入侵检测系统向系统管理员发送告警信号;
具体步骤包括:对检测到的入侵行为,向系统管理员发送告警信号,该信号内容包括入侵行为发生时间、入侵行为的具体类别信息和入侵行为的网络来源。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,包括下述步骤:
使用训练数据训练快速梯度提升树分类模型;
所述快速梯度提升树分类模型的具体训练步骤包括:
所述快速梯度提升树分类模型由M棵决策树构成,初始化第一棵决策树为常数,表示为:
Figure FDA0003007213740000011
其中,f0代表初始化的决策树,
Figure FDA0003007213740000012
代表初始化的预测值;
训练下一棵决策树,使用按叶子的生长策略,通过最小化损失函数得到第t次迭代中得到的决策树模型,表示为:
Figure FDA0003007213740000013
其中,ft(xi)表示在第t次迭代中得到的决策树模型,L(t)表示损失函数,yi表示第i个实例的标签值,
Figure FDA0003007213740000014
表示在第t次迭代中对第i个实例的预测值;
将上一次迭代中的决策树模型与当前次迭代中得到的决策树模型相加,得到新的模型:
Figure FDA0003007213740000015
完成M次模型迭代后,得到并返回最终的训练模型:
Figure FDA0003007213740000016
所述训练数据的具体构建步骤包括:
对原始数据采用GOSS进行采样,采用EFB对互斥的稀疏特征绑定后得到训练数据,表示为特征向量集:
Figure FDA0003007213740000017
其中,N表示特征向量的个数,xi表示特征属性,yi表示标签;
在连续的时间窗口抓取网络流量数据,每个时间窗口中抓取的原始流量数据作为一个数据块;
对所述数据块进行统计分析,生成多个特征向量;
采用所述快速梯度提升树分类模型对所述特征向量进行分类,区分正常行为和网络入侵行为;
若判定为网络入侵行为,输出网络入侵告警信号。
2.根据权利要求1所述的基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,所述在连续的时间窗口抓取网络流量数据,具体采用Tcpdump在连续的时间窗口内对主机网卡进行监听,抓取网络中的原始流量数据。
3.根据权利要求1所述的基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,所述生成多个特征向量,具体步骤包括:
根据源IP和目的IP将所述数据块中的数据划分成双向流;
采用CICFlowMeter对数据块进行基于双向流的特征提取,生成特征向量。
4.根据权利要求1所述的基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,所述区分正常行为和网络入侵行为,具体步骤包括:
将特征向量代入快速梯度提升树分类模型进行判别,得到预测值
Figure FDA0003007213740000021
若预测值
Figure FDA0003007213740000022
与正常行为的标签相同,则判定当前流属于正常行为;若与入侵类别标签相同,则判定当前流属于入侵行为。
5.根据权利要求1所述的基于快速梯度提升树分类模型的网络实时入侵检测方法,其特征在于,所述网络入侵告警信号包括网络入侵行为发生时间、网络入侵行为类别信息和网络入侵行为的网络来源。
CN202010191536.1A 2020-03-18 2020-03-18 基于快速梯度提升树分类模型的网络实时入侵检测方法 Active CN111464510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010191536.1A CN111464510B (zh) 2020-03-18 2020-03-18 基于快速梯度提升树分类模型的网络实时入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010191536.1A CN111464510B (zh) 2020-03-18 2020-03-18 基于快速梯度提升树分类模型的网络实时入侵检测方法

Publications (2)

Publication Number Publication Date
CN111464510A CN111464510A (zh) 2020-07-28
CN111464510B true CN111464510B (zh) 2021-06-08

Family

ID=71685608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010191536.1A Active CN111464510B (zh) 2020-03-18 2020-03-18 基于快速梯度提升树分类模型的网络实时入侵检测方法

Country Status (1)

Country Link
CN (1) CN111464510B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112003869B (zh) * 2020-08-28 2022-10-04 国网重庆市电力公司电力科学研究院 一种基于流量的漏洞识别方法
CN112118259B (zh) * 2020-09-17 2022-04-15 四川长虹电器股份有限公司 一种基于提升树的分类模型的越权漏洞检测方法
CN112555084B (zh) * 2020-12-04 2023-01-10 湖南五凌电力科技有限公司 一种实时状态预警方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110138786A (zh) * 2019-05-20 2019-08-16 福州大学 基于SMOTETomek和LightGBM的Web异常检测方法及系统
CN110378430A (zh) * 2019-07-23 2019-10-25 广东工业大学 一种基于多模型融合的网络入侵检测的方法及系统
CN110868409A (zh) * 2019-11-08 2020-03-06 中国科学院信息工程研究所 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232448A (zh) * 2019-04-08 2019-09-13 华南理工大学 提高梯度提升树模型的特征值作用和防止过拟合的方法
CN110222708A (zh) * 2019-04-29 2019-09-10 中国科学院计算技术研究所 一种基于集成决策树的跌倒检测方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110138786A (zh) * 2019-05-20 2019-08-16 福州大学 基于SMOTETomek和LightGBM的Web异常检测方法及系统
CN110378430A (zh) * 2019-07-23 2019-10-25 广东工业大学 一种基于多模型融合的网络入侵检测的方法及系统
CN110868409A (zh) * 2019-11-08 2020-03-06 中国科学院信息工程研究所 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AN EFFICIENT INTRUSION DETECTION APPROACH USING LIGHT GRADIENT BOOSTING;HAYEL KHAFAJEH;《Journal of Theoretical and Applied Information Technology》;20200315;第98卷(第05期);第3节第1段至第5节最后一段 *

Also Published As

Publication number Publication date
CN111464510A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN107154950B (zh) 一种日志流异常检测的方法及系统
CN112398779B (zh) 一种网络流量数据分析方法及系统
CN109063745B (zh) 一种基于决策树的网络设备类型识别方法及系统
CN111464510B (zh) 基于快速梯度提升树分类模型的网络实时入侵检测方法
US10187401B2 (en) Hierarchical feature extraction for malware classification in network traffic
CN111277587A (zh) 基于行为分析的恶意加密流量检测方法及系统
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
US20180150635A1 (en) Apparatus and Method for Using a Support Vector Machine and Flow-Based Features to Detect Peer-to-Peer Botnet Traffic
CN111917740A (zh) 一种异常流量告警日志检测方法、装置、设备及介质
CN112367334A (zh) 网络流量识别方法、装置、电子设备和存储介质
CN113821793B (zh) 基于图卷积神经网络的多阶段攻击场景构建方法及系统
CN112769623A (zh) 边缘环境下的物联网设备识别方法
Rupa Devi et al. A review on network intrusion detection system using machine learning
Beaver et al. A learning system for discriminating variants of malicious network traffic
CN111245784A (zh) 多维度检测恶意域名的方法
Juvonen et al. An efficient network log anomaly detection system using random projection dimensionality reduction
CN114021135A (zh) 一种基于R-SAX的LDoS攻击检测与防御方法
Sun et al. Detection and classification of network events in LAN using CNN
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
CN114972827A (zh) 资产识别方法、装置、设备及计算机可读存储介质
CN109376531B (zh) 基于语义重编码与特征空间分离的Web入侵检测方法
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
Ikhwan et al. Intrusion detection using deep neural network algorithm on the internet of things
CN112073362B (zh) 一种基于流量特征的apt组织流量识别方法
CN113162904B (zh) 一种基于概率图模型的电力监控系统网络安全告警评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared