CN113949530A - 基于dfs和关联规则算法的入侵检测方法及系统 - Google Patents

基于dfs和关联规则算法的入侵检测方法及系统 Download PDF

Info

Publication number
CN113949530A
CN113949530A CN202111060972.6A CN202111060972A CN113949530A CN 113949530 A CN113949530 A CN 113949530A CN 202111060972 A CN202111060972 A CN 202111060972A CN 113949530 A CN113949530 A CN 113949530A
Authority
CN
China
Prior art keywords
entity
feature
association rule
entities
backward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111060972.6A
Other languages
English (en)
Inventor
李麒鑫
田秀霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Electric Power
Original Assignee
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Electric Power filed Critical Shanghai University of Electric Power
Priority to CN202111060972.6A priority Critical patent/CN113949530A/zh
Publication of CN113949530A publication Critical patent/CN113949530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于DFS和关联规则算法的网络入侵检测方法及系统,所述方法包括以下步骤:S1:构建数据集;S2:基于深度特征合成算法对数据集的基本特征进行合成,获取包含新特征的特征集合;S3:基于关联规则算法对特征集合进行训练,获取强关联规则,构建基于强关联规则的分类器;S4:获取当前网络数据,输入到分类器中进行网络入侵检测。与现有技术相比,本发明能有效提高网络入侵检测的准确性和检测效率。

Description

基于DFS和关联规则算法的入侵检测方法及系统
技术领域
本发明涉及网络入侵检测领域,尤其是涉及一种基于DFS和关联规则算法的网络入侵检测方法及系统。
背景技术
随着网络技术的日益发展,网络安全问题也变得日益严峻。网络入侵检测作为一种积极主动的安全防护技术,在网络系统受到危害之前拦截和响应入侵,对网络主体进行纵深、多层次的防御,受到了研究者的高度重视。
传统的网络入侵检测方法存在着误报率高、漏报率高等缺陷,网络安全管理员每天要面对浩如烟海的入侵检测报警,很难从大量的误报信息中准确定位出真正的攻击行为,从而使得情报获取、威胁感知、防御开展等环节呈现出较为被动的态势。同时由于传统的网络入侵产生的数据文件数量巨大,数据维数多并且包含大量冗余信息,检测分类的时间较长,导致入侵检测的效率较低,传统异常检测技术已经无法满足当今更加复杂的网络环境。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于DFS和关联规则算法的入侵检测方法及系统。
本发明的目的可以通过以下技术方案来实现:
一种基于DFS和关联规则算法的网络入侵检测方法,包括以下步骤:
S1:构建数据集;
S2:基于深度特征合成算法对数据集的基本特征进行合成,获取包含新特征的特征集合;
S3:基于关联规则算法对特征集合进行训练,获取强关联规则,构建基于强关联规则的分类器;
S4:获取当前网络数据,输入到分类器中进行网络入侵检测。
所述的步骤S2的具体步骤包括:
S21:初始化数据集的实体集合、属性集合和已访问实体集合;
S22:构造后向关系实体集合、前向关系实体集合;
S23:遍历数据库中的全部实体,连接相关联的实体,当当前所遍历的实体包含在后向关系实体集合中时,对该实体进行后向特征构造并将构造的特征导入特征集合;
S24:再次遍历数据库中的全部实体,判断各实体是否属于已访问实体集合,若是则跳过该实体,否则对该实体进行前向特征构造、实体特征构造,并将构造的特征导入特征集合。
所述的后向关系实体集合为:
EB=Backward(ES,E1,2,...M)
其中,EB为后向关系实体集合,ES为实体集合,E1,2,...M为属性集合,Backward()为后向关系函数。
所述的前向关系实体集合为:
EF=Forward(ES,E1,2,...M)
其中,EF为后向关系实体集合,ES为实体集合,E1,2,...M为属性集合,Forward()为前关系函数。
所述的步骤S3的具体步骤包括:
S31:通过Apriori算法对特征集合中各项的属性特征进行挖掘,获取频繁项集;
S32:从频繁项集中根据预设最小支持度生成频繁项集中各个属性特征之间的强关联规则;
S33:基于强关联规则构造分类器。
所述的步骤S1所述的数据集为NSL KDD数据集。
一种基于DFS和关联规则算法的网络入侵检测系统,包括数据集模块、深度特征合成模块、关联规则获取模块和分类器模块,所述数据集模块用于存储网络数据,
所述的深度特征合成模块用于基于深度特征合成算法对数据集的基本特征进行合成,获取包含新特征的特征集合;
所述的关联规则获取模块用于基于关联规则算法对特征集合进行训练,获取强关联规则,构建基于强关联规则的分类器模块;
所述的分类器模块用于获取当前网络数据,对输入的当前网络数据进行网络入侵检测。
优选地,所述的深度特征合成模块获取特征集合的具体步骤包括:
初始化数据集的实体集合、属性集合和已访问实体集合;
构造后向关系实体集合、前向关系实体集合;
遍历数据库中的全部实体,连接相关联的实体,当当前所遍历的实体包含在后向关系实体集合中时,对该实体进行后向特征构造并将构造的特征导入特征集合;
再次遍历数据库中的全部实体,判断各实体是否属于已访问实体集合,若是则跳过该实体,否则对该实体进行前向特征构造、实体特征构造,并将构造的特征导入特征集合。
优选地,所述的关联规则获取模块的具体步骤包括:
通过Apriori算法对特征集合进行挖掘,获取频繁项集;
从频繁项集中根据预设最小支持度生成频繁项集的强关联规则;
基于强关联规则构造分类器。
优选地,所述的数据集模块中的数据集为NSL KDD数据集。
与现有技术相比,本发明具有如下优点:
一、本发明基于深度特征合成算法对数据集的特征进行有效特征合成,能够获取包含大量新特征的特征集合,精确地为结构化数据构造大量特征,降低了数据属性特征的冗余度,有效提高了入侵检测分类器的构建效率,并基于关联规则算法对特征合集进行强关联规则获取,构建分类器,提高网络入侵检测的准确性和检测效率;
二、本发明运用关联规则算法构造入侵检测分类器用于网络入侵检测,基于强关联规则能更加精确的对网络入侵行为的检测分类器进行构建,检测入侵所消耗的时间更短,检测的准确率也更高,能够更加高效的保护网络安全。
附图说明
图1为本发明的流程图;
图2为本发明与其他方法的检测时间对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于DFS和关联规则算法的网络入侵检测方法,如图1所述,包括以下步骤:
S1:构建数据集,本实施例中采用公开数据集NSL KDD数据集作为数据源。
S2:基于深度特征合成算法对数据集的基本特征进行合成,获取包含新特征的特征集合。
步骤S2的具体步骤包括:
S21:初始化数据集的实体集合ES、属性集合E1,2,...M和已访问实体集合EV
S22:构造后向关系实体集合:
EB=Backward(ES,E1,2,...M);
并构造前向关系实体集合:
EF=Forward(ES,E1,2,...M)。
S23:遍历数据库中的全部实体Ej,j∈s,s为实体集合中的实体总数,连接相关联的实体,当当前所遍历的实体Ej包含在后向关系实体集合EB中时,对该实体Ej进行rfeat特征构造并将构造的特征导入特征集合;
本实施例中El、Ek为相关的两个实体,i为实体Ek中的实例,rfeat用于表示关系列表中的后向关系,rfeat特征构造指后向关系构造,代表从实体Ek中的实例i到El中的实例具有前向关系的所有实例m={1,2,...,M}的关系。
S24:再次遍历数据库中的全部实体Ej,判断各实体Ej是否属于已访问实体集合EV,若是则跳过该实体,否则对该实体进行dfeat特征构造、efeat特征构造,并将构造的特征导入特征集合F。
本实施例中,dfeat指关系列表中的前向关系。前向关系指的是实体El中的实例m和实体Ek中另一个实例i的单个属性之间的关系,相关实例i∈Ek中的特征可以被直接转移为m∈Ek的特征。Efeat指实体特征,是通过计算每一个属性值来获得特征,这些特征可以通过对实体的特征值逐元运用计算函数获取。
S3:基于关联规则算法对特征集合进行训练,获取强关联规则,构建基于强关联规则的分类器;
步骤S3的具体步骤包括:
S31:通过Apriori算法对特征集合F进行挖掘,获取频繁项集。
对于新合成的特征集合F,从中找出所有满足项集支持度大于给定最小支持度的频繁项集。支持度(support)和置信度(confidence)是最基本的两个指标。支持度代表的是规则的有用性,置信度代表的是规则的可信程度。有效的关联规则是同时满足最小支持度阈值和最小置信度阈值的规则。本实施例中,设定特征集合F的一组事务集I为{I1,I2,...,Im},代表事务数据库,而J是一组n个不同的项或属性{J1,J2,...,Jn}。项目集
Figure BDA0003256536800000051
的支持度指的是包含项目集X的事务频数与总事务数的比值。如果项目集X的支持度大于或等于设定的支持度阈值,则称项集X为频繁项集
S32:从频繁项集中根据预设最小支持度生成频繁项集的强关联规则。
关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support),记为supmin,它用于衡量规则需要满足的最低重要性。关联规则的最小置信度(MinimumConfidence)记为confmin,它表示关联规则需要满足的最低可靠性。当关联规则支持度大于等于最小支持度且置信度大于等于最小置信度,则该关联规则为强关联规则,否则为弱关联规则。
S33:基于强关联规则构造分类器。
S4:获取当前网络数据,输入到分类器中进行网络入侵检测。
与上述方法对应,本发明还提供了一种基于DFS和关联规则算法的网络入侵检测系统,包括数据集模块、深度特征合成模块、关联规则获取模块和分类器模块,所述数据集模块用于存储网络数据,所述网络数据为NSL KDD数据集。
深度特征合成模块用于基于深度特征合成算法对数据集的基本特征进行合成,获取包含新特征的特征集合;关联规则获取模块用于基于关联规则算法对特征集合进行训练,获取强关联规则,构建基于强关联规则的分类器模块;分类器模块用于获取当前网络数据,对输入的当前网络数据进行网络入侵检测。
深度特征合成模块获取特征集合的具体步骤包括:初始化数据集的实体集合、属性集合和已访问实体集合;构造后向关系实体集合、前向关系实体集合;遍历数据库中的全部实体,连接相关联的实体,当当前所遍历的实体包含在后向关系实体集合中时,对该实体进行后向特征构造并将构造的特征导入特征集合;再次遍历数据库中的全部实体,判断各实体是否属于已访问实体集合,若是则跳过该实体,否则对该实体进行前向特征构造、实体特征构造,并将构造的特征导入特征集合。
关联规则获取模块的具体步骤包括:通过Apriori算法对特征集合进行挖掘,获取频繁项集;从频繁项集中根据预设最小支持度生成频繁项集的强关联规则;基于强关联规则构造分类器。
为分析本发明方法的检测效果,映入反向传播神经网络、随机森林和C4.5决策树算法三种分类算法进行对比分析。
表一为不同算法检测精确率、召回率和F1分数对比见下表:
模型 Precision/% Recall/% F1_Score/%
反向传播神经网络 0.94 0.85 0.89
C4.5决策树 0.97 0.86 0.91
随机森林 0.97 0.90 0.94
DFS-AP(本文模型) 0.98 0.93 0.96
不同分类方法检测结果的评估指标对比如表所列。可以看出,DFS-AP算法的准确率、精确率、召回率、F1分数和误报率分别为96%、98%、93%、96%。优于C4.5决策树、反向传播算法和随机森林算法,因此采用的方法能精确的对用户行为模式进行构建,可以达到与传统用户行为异常检测算法相同的检测效果。
由图2可以看出在用户行为异常检测耗时方面,反向传播算法所用时间最长,其中训练阶段模耗时20s。C4.5决策树和随机森林算法所用时间大致相同,本发明提出的DFS-AP方法所消耗时间最短。因为深度特征综合算法能够在从输入网络数据中合成出更优特征,降低了数据属性特征冗余度,提高了分类的速度,能够在保持高检测率的前提下,进一步缩短检测时间。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种基于DFS和关联规则算法的网络入侵检测方法,其特征在于,包括以下步骤:
S1:构建数据集;
S2:基于深度特征合成算法对数据集的基本特征进行合成,获取包含新特征的特征集合;
S3:基于关联规则算法对特征集合进行训练,获取强关联规则,构建基于强关联规则的分类器;
S4:获取当前网络数据,输入到分类器中进行网络入侵检测。
2.根据权利要求1所述的一种基于DFS和关联规则算法的网络入侵检测方法,其特征在于,所述的步骤S2的具体步骤包括:
S21:初始化数据集的实体集合、属性集合和已访问实体集合;
S22:构造后向关系实体集合、前向关系实体集合;
S23:遍历数据库中的全部实体,连接相关联的实体,当当前所遍历的实体包含在后向关系实体集合中时,对该实体进行后向特征构造并将构造的特征导入特征集合;
S24:再次遍历数据库中的全部实体,判断各实体是否属于已访问实体集合,若是则跳过该实体,否则对该实体进行前向特征构造、实体特征构造,并将构造的特征导入特征集合。
3.根据权利要求2所述的一种基于DFS和关联规则算法的网络入侵检测方法,其特征在于,所述的后向关系实体集合为:
EB=Backward(ES,E1,2,...M)
其中,EB为后向关系实体集合,ES为实体集合,E1,2,...M为属性集合,Backward()为后向关系函数。
4.根据权利要求2所述的一种基于DFS和关联规则算法的网络入侵检测方法,其特征在于,所述的前向关系实体集合为:
EF=Forward(ES,E1,2,...M)
其中,EF为后向关系实体集合,ES为实体集合,E1,2,...M为属性集合,Forward()为前关系函数。
5.根据权利要求1所述的一种基于DFS和关联规则算法的网络入侵检测方法,其特征在于,所述的步骤S3的具体步骤包括:
S31:通过Apriori算法对特征集合中各项的属性特征进行挖掘,获取频繁项集;
S32:从频繁项集中根据预设最小支持度生成频繁项集中各个属性特征之间的强关联规则;
S33:基于强关联规则构造分类器。
6.根据权利要求1所述的一种基于DFS和关联规则算法的网络入侵检测方法,其特征在于,所述的步骤S1所述的数据集为NSL KDD数据集。
7.一种基于DFS和关联规则算法的网络入侵检测系统,其特征在于,包括数据集模块、深度特征合成模块、关联规则获取模块和分类器模块,所述数据集模块用于存储网络数据,
所述的深度特征合成模块用于基于深度特征合成算法对数据集的基本特征进行合成,获取包含新特征的特征集合;
所述的关联规则获取模块用于基于关联规则算法对特征集合进行训练,获取强关联规则,构建基于强关联规则的分类器模块;
所述的分类器模块用于获取当前网络数据,对输入的当前网络数据进行网络入侵检测。
8.根据权利要求7所述的一种基于DFS和关联规则算法的网络入侵检测系统,其特征在于,所述的深度特征合成模块获取特征集合的具体步骤包括:
初始化数据集的实体集合、属性集合和已访问实体集合;
构造后向关系实体集合、前向关系实体集合;
遍历数据库中的全部实体,连接相关联的实体,当当前所遍历的实体包含在后向关系实体集合中时,对该实体进行后向特征构造并将构造的特征导入特征集合;
再次遍历数据库中的全部实体,判断各实体是否属于已访问实体集合,若是则跳过该实体,否则对该实体进行前向特征构造、实体特征构造,并将构造的特征导入特征集合。
9.根据权利要求7所述的一种基于DFS和关联规则算法的网络入侵检测系统,其特征在于,所述的关联规则获取模块的具体步骤包括:
通过Apriori算法对特征集合进行挖掘,获取频繁项集;
从频繁项集中根据预设最小支持度生成频繁项集的强关联规则;
基于强关联规则构造分类器。
10.根据权利要求7所述的一种基于DFS和关联规则算法的网络入侵检测系统,其特征在于,所述的数据集模块中的数据集为NSL KDD数据集。
CN202111060972.6A 2021-09-10 2021-09-10 基于dfs和关联规则算法的入侵检测方法及系统 Pending CN113949530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111060972.6A CN113949530A (zh) 2021-09-10 2021-09-10 基于dfs和关联规则算法的入侵检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111060972.6A CN113949530A (zh) 2021-09-10 2021-09-10 基于dfs和关联规则算法的入侵检测方法及系统

Publications (1)

Publication Number Publication Date
CN113949530A true CN113949530A (zh) 2022-01-18

Family

ID=79327988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111060972.6A Pending CN113949530A (zh) 2021-09-10 2021-09-10 基于dfs和关联规则算法的入侵检测方法及系统

Country Status (1)

Country Link
CN (1) CN113949530A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105306475A (zh) * 2015-11-05 2016-02-03 天津理工大学 一种基于关联规则分类的网络入侵检测方法
CN110213287A (zh) * 2019-06-12 2019-09-06 北京理工大学 一种基于集成机器学习算法的双模式入侵检测装置
CN111309770A (zh) * 2020-02-24 2020-06-19 电子科技大学 一种基于无监督机器学习的自动生成规则系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105306475A (zh) * 2015-11-05 2016-02-03 天津理工大学 一种基于关联规则分类的网络入侵检测方法
CN110213287A (zh) * 2019-06-12 2019-09-06 北京理工大学 一种基于集成机器学习算法的双模式入侵检测装置
CN111309770A (zh) * 2020-02-24 2020-06-19 电子科技大学 一种基于无监督机器学习的自动生成规则系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALTURAIKI ISRA: "A convolutional neural network for improved anomaly-based network intrusion detection", BIG DATA *
JM KANTER: "Deep feature synthesis:Towards automating data science endeavors", IEEE *
余红星;申国伟;郭春;: "一种基于自动特征工程与压缩感知的网络隧道检测方法", 计算机与现代化, no. 06 *
林志兴;王立可;: "基于深度特征和Seq2Seq模型的网络态势预测方法", 计算机应用, no. 08, pages 0 - 3 *
陶然;: "数据挖掘技术在网络信息安全中的应用", 长沙通信职业技术学院学报, no. 03, pages 2 - 4 *

Similar Documents

Publication Publication Date Title
US20230073695A1 (en) Systems and methods for synthetic database query generation
CN114303147A (zh) 用于查询敏感数据集的方法或系统
Larik et al. Clustering based anomalous transaction reporting
CN109754258B (zh) 一种基于个体行为建模的面向线上交易欺诈检测方法
CN103955542B (zh) 文本词间完全加权正负关联模式挖掘方法及其挖掘系统
US11538044B2 (en) System and method for generation of case-based data for training machine learning classifiers
CN110378148B (zh) 一种面向云平台的多域数据隐私保护方法
Xiong et al. Frequent itemsets mining with differential privacy over large-scale data
Gkountouna et al. Anonymizing collections of tree-structured data
CN114092729A (zh) 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
Wang et al. T-closeness slicing: A new privacy-preserving approach for transactional data publishing
CN112241420A (zh) 一种基于关联规则算法的政务服务事项推荐方法
Liu et al. Federated personalized random forest for human activity recognition
Luo et al. Enhancing frequent location privacy-preserving strategy based on geo-Indistinguishability
Li et al. PPDP-PCAO: an efficient high-dimensional data releasing method with differential privacy protection
CN113949530A (zh) 基于dfs和关联规则算法的入侵检测方法及系统
Xiao et al. Research on improvement of apriori algorithm based on marked transaction compression
Fang et al. Splash: ad-hoc querying of data and statistical models
Dharavath et al. Entity resolution based EM for integrating heterogeneous distributed probabilistic data
Sheikhan et al. Application of fuzzy association rules-based feature selection and fuzzy artmap to intrusion detection
Liu et al. A semantic information loss metric for privacy preserving publication
Chao et al. Privacy-preserving classification of data streams
Rajalakshmi et al. Anonymization based on nested clustering for privacy preservation in data mining
Kalita et al. Privacy preserving clustering-a hybrid approach
He et al. Enterprise human resources information mining based on improved Apriori algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination