CN113283586B - 一种基于决策机和特征选择的快速入侵检测方法 - Google Patents

一种基于决策机和特征选择的快速入侵检测方法 Download PDF

Info

Publication number
CN113283586B
CN113283586B CN202110576400.7A CN202110576400A CN113283586B CN 113283586 B CN113283586 B CN 113283586B CN 202110576400 A CN202110576400 A CN 202110576400A CN 113283586 B CN113283586 B CN 113283586B
Authority
CN
China
Prior art keywords
matrix
decision
layer
vector
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110576400.7A
Other languages
English (en)
Other versions
CN113283586A (zh
Inventor
樊永显
徐文枫
李昌永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110576400.7A priority Critical patent/CN113283586B/zh
Publication of CN113283586A publication Critical patent/CN113283586A/zh
Application granted granted Critical
Publication of CN113283586B publication Critical patent/CN113283586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于决策机和特征选择的快速入侵检测方法,包括如下步骤:1)预处理;2)特征选择;3)构建决策机,并对决策机模型进行训练;4)根据决策机获得重构决策树模型的参数,并重构决策树。这种方法不仅入侵检测识别率高以及训练检测模型时间短,而且提高了入侵检测系统的可解释能力。

Description

一种基于决策机和特征选择的快速入侵检测方法
技术领域
本发明涉及信息安全领域,具体是一种基于决策机和特征选择的快速入侵检测方法。
背景技术
网络技术快速发展的今天,人们越来越依赖网络进行信息处理。网络给人们带来便捷的同时,也存在这许多安全问题,因此网络安全技术显得尤为重要。其中,入侵检测技术就是一个有效的方式。入侵检测技术可以主动地收集各种网络数据以及用户活动状态等多方面的信息,进行安全性分析,从而及时的发现各种网络入侵行为并做出响应。目前的大多数的入侵检测技术尽管在预测性能上非常的高,但是他们的无论对检测模型还是对检测结果的可解释性能力十分的有限。
发明内容
本发明的目的是针对现有技术中存在的不足,而提供一种基于决策机和特征选择的快速入侵检测方法。这种方法不仅入侵检测识别率高以及训练检测模型时间短,而且提高了入侵检测系统的可解释能力。
实现本发明目的的技术方案是:
一种基于决策机和特征选择的快速入侵检测方法,包括如下步骤:
1)对数据集UNSW-NB15进行预处理,预处理的过程为:
1.1)删除数据集中列名为”id”和”attack_cat”的列;
1.2)对列名为”proto”、”service”和”state”的列进行编码;
1.3)使用最小最大规范化方法对数据进行规范化,最小最大规范化方法定义为
Figure GDA0003549439250000011
2)使用信息增益方法对数据集进行特征选择,对数据集进行特征选择的过程为:
2.1)使用信息增益对数据集中的数据进行计算,信息增益方法定义为InfoGain=H(D)-H(D|A),其中
Figure GDA0003549439250000012
Figure GDA0003549439250000013
2.2)依据计算结果进行排序,选择信息增益值排前11的特征;
3)构建决策机,并对决策机模型进行训练:
3.1)定义决策机的总体架构,其定义的数学公式为
Figure GDA0003549439250000021
其中,S为特征矩阵,t为阈值向量,m为决策矩阵,h为第二层的输出,B为模板矩阵;
3.2)根据公式,决策机由4层全连接网络组成:第一层为输入层;第二层定义激活函数为tanh(.),偏置做最大最小范式限制,最大最小范式限制定义为
Figure GDA0003549439250000022
其中clip(.)为剪裁函数,主要作用是将输入限制在[0,1]区间内;desired=1×clip(norms,0,1);
Figure GDA0003549439250000023
第三层根据模板矩阵计算增广模板矩阵,计算公式定义为
Figure GDA0003549439250000024
并以softmax(.)为激活函数计算;第四层为输出层,激活函数为sigmoid(.);
4)根据决策机获得重构决策树模型的参数,并重构决策树:
4.1)一棵决策二叉树从数学层面可以定义为
Figure GDA0003549439250000025
其中diag(.)将向量映射到对角矩阵;向量x和t是
Figure GDA0003549439250000026
中的实向量;矩阵S为
Figure GDA0003549439250000027
中决策树的特征矩阵;sgn(.)是sign或signum函数;矩阵B是(±1,0)L×(L-1)中决策树的模板矩阵;对于i=1,2,···,L,向量Bi是矩阵B的第i行;‖·‖1是实向量的l1范数;v是节点向量;
4.2)由决策机模型的第二层可以得到特征矩阵S和阈值向量t;由第三层可以得到模板矩阵B;由第四层可以得到决策矩阵m;
4.3)根据特征矩阵S,阈值向量t,模板矩阵B和决策矩阵m,重建决策树模型。
本技术方案方法针对目前入侵检测的检测性能和可解释性说明的要求,用全连接网络训练决策树的相关参数,然后根据训练后的参数重建决策树。不同于传统的基于信息增益,信息增益率和基尼系数的决策树模型,本技术方案提出的模型是基于全连接网络的决策树模型,运用后向传播算法以获得重构决策树的参数。与其他的基于神经网络的模型相比,本技术方案提出的模型不仅在譬如准确率和F1分数等评价指标上排名较高,而且具有较高的可解释性。
这种方法不仅入侵检测识别率高以及训练检测模型时间短,而且提高了入侵检测系统的可解释能力。
附图说明
图1为实施例的流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
参照图1,一种基于决策机和特征选择的快速入侵检测方法,包括如下步骤:
1)对数据集UNSW-NB15进行预处理,预处理的过程为:
1.1)删除数据集中列名为”id”和”attack_cat”的列;
1.2)对列名为”proto”、”service”和”state”的列进行编码;
1.3)使用最小最大规范化方法对数据进行规范化,最小最大规范化方法定义为
Figure GDA0003549439250000031
2)使用信息增益方法对数据集进行特征选择,对数据集进行特征选择的过程为:
2.1)使用信息增益对数据集中的数据进行计算,信息增益方法定义为InfoGain=H(D)-H(D|A),其中
Figure GDA0003549439250000032
Figure GDA0003549439250000033
2.2)依据计算结果进行排序,选择信息增益值排前11的特征;
3)构建决策机,并对决策机模型进行训练:
3.1)定义决策机的总体架构,其定义的数学公式为
Figure GDA0003549439250000034
其中,S为特征矩阵,t为阈值向量,m为决策矩阵,h为第二层的输出,B为模板矩阵;
3.2)根据公式,首先定义决策机模型的模板矩阵B,决策机由4层全连接网络组成:第一层为输入层;第二层定义激活函数为tanh(.),本例第二层数学定义为tanh(S×x-t),为了模型计算方便,把tanh(S×x-t)转换为tanh(-(-x×S+MinMaxNorm(t))),其中S为该层的特征矩阵,t为该层的阈值向量,阈值向量做最大最小范式限制,最大最小范式限制定义为
Figure GDA0003549439250000041
其中clip(.)为剪裁函数,主要作用是将输入限制在[0,1]区间内;desired=1×clip(norms,0,1);
Figure GDA0003549439250000042
第三层根据模板矩阵计算增广模板矩阵,计算公式定义为
Figure GDA0003549439250000043
并以softmax(.)为激活函数计算,本例
Figure GDA0003549439250000044
h为第二层的输出;第四层为输出层,激活函数为sigmoid(.),本例sigmoid(K×m),K为第三层的输出;
4)根据决策机获得重构决策树模型的参数,并重构决策树:
4.1)一棵决策二叉树从数学层面可以定义为
Figure GDA0003549439250000045
其中diag(.)将向量映射到对角矩阵;向量x和t是
Figure GDA0003549439250000046
中的实向量;矩阵S为
Figure GDA0003549439250000047
中决策树的特征矩阵;sgn(.)是sign或signum函数;矩阵B是(±1,0)L×(L-1)中决策树的模板矩阵;对于i=1,2,···,L,向量Bi是矩阵B的第i行;‖·‖1是实向量的l1范数;v是节点向量;
4.2)由决策机模型的第二层可以得到特征矩阵S和阈值向量t;由第三层可以得到模板矩阵B;由第四层可以得到决策矩阵m;
4.3)根据特征矩阵S,阈值向量t,模板矩阵B和决策矩阵m,重建决策树模型。
采用本例与其他基于神经网络的模型相比,本例提出的模型在运行时间方面表现最好,是排名第二的HYBRID-CNN模型的1/64倍,对比结果如表1;
表1
Figure GDA0003549439250000048
Figure GDA0003549439250000051

Claims (1)

1.一种基于决策机和特征选择的快速入侵检测方法,其特征在于,包括如下步骤:
1)预处理:对数据集UNSW-NB15进行预处理,预处理的过程为:
1.1)删除数据集中列名为”id”和”attack_cat”的列;
1.2)对列名为”proto”、”service”和”state”的列进行编码;
1.3)使用最小最大规范化方法对数据进行规范化,最小最大规范化方法定义为
Figure FDA0003530054910000011
2)特征选择:使用信息增益方法对数据集进行特征选择,对数据集进行特征选择的过程为:
2.1)使用信息增益对数据集中的数据进行计算,信息增益方法定义为InfoGain=H(D)-H(D|A),其中
Figure FDA0003530054910000012
Figure FDA0003530054910000013
2.2)依据计算结果进行排序,选择信息增益值排前11的特征;
3)构建决策机,并对决策机模型进行训练:
3.1)定义决策机的总体架构,其定义的数学公式为
Figure FDA0003530054910000014
其中,S为特征矩阵,t为阈值向量,m为决策矩阵,h为第二层的输出,B为模板矩阵;
3.2)根据公式,决策机由4层全连接网络组成:第一层为输入层;第二层定义激活函数为tanh(.),偏置做最大最小范式限制,最大最小范式限制定义为
Figure FDA0003530054910000015
其中clip(.)为剪裁函数,主要作用是将输入限制在[0,1]区间内;desired=1×clip(norms,0,1);
Figure FDA0003530054910000016
第三层根据模板矩阵计算增广模板矩阵,计算公式定义为
Figure FDA0003530054910000017
并以softmax(.)为激活函数计算;第四层为输出层,激活函数为sigmoid(.);
4)根据决策机获得重构决策树模型的参数,并重构决策树:
4.1)一棵决策二叉树从数学层面可以定义为
Figure FDA0003530054910000021
其中diag(.)将向量映射到对角矩阵;向量x和t是
Figure FDA0003530054910000022
中的实向量;矩阵S为
Figure FDA0003530054910000023
中决策树的特征矩阵;sgn(.)是sign或signum函数;矩阵B是(±1,0)L×(L-1)中决策树的模板矩阵;对于i=1,2,···,L,向量Bi是矩阵B的第i行;||·||1是实向量的l1范数;v是节点向量;
4.2)由决策机模型的第二层可以得到特征矩阵S和阈值向量t;由第三层可以得到模板矩阵B;由第四层可以得到决策矩阵m;
4.3)根据特征矩阵S,阈值向量t,模板矩阵B和决策矩阵m,重建决策树模型。
CN202110576400.7A 2021-05-26 2021-05-26 一种基于决策机和特征选择的快速入侵检测方法 Active CN113283586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110576400.7A CN113283586B (zh) 2021-05-26 2021-05-26 一种基于决策机和特征选择的快速入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110576400.7A CN113283586B (zh) 2021-05-26 2021-05-26 一种基于决策机和特征选择的快速入侵检测方法

Publications (2)

Publication Number Publication Date
CN113283586A CN113283586A (zh) 2021-08-20
CN113283586B true CN113283586B (zh) 2022-05-13

Family

ID=77281763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110576400.7A Active CN113283586B (zh) 2021-05-26 2021-05-26 一种基于决策机和特征选择的快速入侵检测方法

Country Status (1)

Country Link
CN (1) CN113283586B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405562A (zh) * 2020-03-11 2020-07-10 中国科学院信息工程研究所 一种基于通信行为规律的移动恶意用户识别方法及系统
CN111489787A (zh) * 2020-04-21 2020-08-04 桂林电子科技大学 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法
CN112200316A (zh) * 2020-10-30 2021-01-08 福州大学 一种针对在线预测任务的gbdt学习方法
CN112491796A (zh) * 2020-10-28 2021-03-12 北京工业大学 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN112738015A (zh) * 2020-10-28 2021-04-30 北京工业大学 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201216106A (en) * 2010-10-13 2012-04-16 Univ Nat Taiwan Science Tech Intrusion detecting system and method to establish classifying rules thereof
US10230747B2 (en) * 2014-07-15 2019-03-12 Cisco Technology, Inc. Explaining network anomalies using decision trees
GB2587355B (en) * 2019-09-24 2022-11-16 Withsecure Corp Method of data-efficient threat detection in a computer network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405562A (zh) * 2020-03-11 2020-07-10 中国科学院信息工程研究所 一种基于通信行为规律的移动恶意用户识别方法及系统
CN111489787A (zh) * 2020-04-21 2020-08-04 桂林电子科技大学 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法
CN112491796A (zh) * 2020-10-28 2021-03-12 北京工业大学 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN112738015A (zh) * 2020-10-28 2021-04-30 北京工业大学 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN112200316A (zh) * 2020-10-30 2021-01-08 福州大学 一种针对在线预测任务的gbdt学习方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Fault Diagnosis of Transformer Windings Based on Decision Tree and Fully Connected Neural Network;ZhenHua Li等;《Energies》;20210310;第14卷(第6期);第1-14页 *
I2DS: Interpretable Intrusion Detection System Using Autoencoder and Additive Tree;Wenfeng Xu等;《Security and Communication Networks》;20210312;第5564354:1-5564354:9页 *
Intrusion Detection System Based on Decision Tree over Big Data in Fog Environment;Kai Peng等;《Wireless Communications and Mobile Computing》;20180306;第1-10页 *
Using Data Mining Methods to Detect Simulated Intrusions on a Modbus Network;Szu-Chuang Li等;《2017 IEEE 7th International Symposium on Cloud and Service Computing (SC2)》;20180315;第143-148页 *
基于深度学习的数据链路入侵检测;张一凡;《电子制作》;20210115(第02期);第29-30+37页 *
随机森林入侵检测算法研究;丁龙斌;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20201115(第(2020)11期);第I139-3页 *

Also Published As

Publication number Publication date
CN113283586A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110084610B (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
CN107506822B (zh) 一种基于空间融合池化的深度神经网络方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110309343B (zh) 一种基于深度哈希的声纹检索方法
CN113435509B (zh) 基于元学习的小样本场景分类识别方法及系统
CN111460956A (zh) 一种基于数据增强与损失加权的不平衡心电样本分类方法
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN111723874A (zh) 一种基于宽度和深度神经网络的声场景分类方法
CN114330541A (zh) 道路交通事故风险预测深度学习算法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN111695611A (zh) 一种蜂群优化核极限学习和稀疏表示机械故障识别方法
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
CN114006411A (zh) 一种基于lstm-cnn联合模型的风电功率预测方法和系统
CN113283586B (zh) 一种基于决策机和特征选择的快速入侵检测方法
CN115906959A (zh) 基于de-bp算法的神经网络模型的参数训练方法
Jiajia et al. Intrusion detection model based on sae and balstm
CN115587616A (zh) 网络模型训练方法、装置、存储介质及计算机设备
CN115694985A (zh) 基于tmb的混合网络流量攻击预测方法
Yan et al. Unsupervised feature selection through fitness proportionate sharing clustering
CN113869238A (zh) 一种认知车联网智能频谱感知方法及系统
CN113610229A (zh) 一种基于范数不确定性指标的主动学习方法
JP7230324B2 (ja) ニューラルネットワークの学習方法、コンピュータプログラム及びコンピュータ装置
CN113032612A (zh) 一种多目标图像检索模型的构建方法及检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant