CN114091026A - 一种基于集成学习的网络异常入侵检测方法和系统 - Google Patents
一种基于集成学习的网络异常入侵检测方法和系统 Download PDFInfo
- Publication number
- CN114091026A CN114091026A CN202111417583.4A CN202111417583A CN114091026A CN 114091026 A CN114091026 A CN 114091026A CN 202111417583 A CN202111417583 A CN 202111417583A CN 114091026 A CN114091026 A CN 114091026A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- steps
- processor
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明涉及一种基于集成学习的网络异常入侵检测方法和系统,方法包括如下步骤:数据预处理、模型构建、模型训练和模型验证。本发明基于树模型的预测准确性不足的缺陷,本发明结合集成学习的思想,利用基于bagging的随机森林算法进行多棵树的集成,给出一个较为稳定的预测分类算法。
Description
技术领域
本发明属于网络异常检测领域,具体涉及一种基于集成学习的网络异常入侵检测方法和系统。
背景技术
随着信息技术的发展,传统电力行业在信息技术的催动下也带来了生产效率的提高。但是在带来便利的同时,也带入了很多安全隐患。电力系统作为国之重器,民生保障,极其需要安全稳定。网络异常检测在电力系统的安全运行中具有很重要的地位。
现有网络异常检测方法中,主要分为无监督学习和有监督网络异常检测。无监督学习具有无需标记数据的优点,但是在模型效果上是不如有监督学习的。有监督学习是一个非常庞大的方法论集合,例如深度学习算是有监督学习方法的一员。有监督学习近些年取得了长足的发展,效果也取得了很好的成果,但是在可解释性方面存在很多不足。
发明内容
为了解决上述问题,本发明提出一种基于集成学习的网络异常入侵检测方法和系统。本发明方法的集成学习可以将现有的多种模型组合成一个更强的模型。
本发明的技术方案具体如下:
一种基于集成学习的网络异常入侵检测方法,包括如下步骤:
S1:数据预处理;
入侵检测流程中,将文本进行编码,输入最长文本串的填充,将数据集切分为训练集和测试集;
S2:模型构建,建立决策树模型;
S3:模型训练,使用贪心算法求解参数的次优解
进一步地,S1:数据预处理包括以下步骤:
S11:网络访问数据文本编码,将网络访问数据中的每个字符,按照码表,映射为对应的数字格式,设置模型所需的输入长度,对不足输入长度的进行补全,对超过长度的进行截断;数据集记为D={(X,Y)},其中X=(x1,x2,...,xn)代表映射后网络访问数据,Y=(y1,y2,...,yn)代表网络访问数据对应的类别标签,0代表正常访问,1代表恶意攻击。
S12:数据集的切分,为切实检验模型效果,按照一定比例切分为训练集,测试集;训练集用于模型训练,测试集用于模型选取。
进一步地,S2:模型构建包括如下步骤:
S21:建立决策树模型,在每一个节点i,输入向量x的特征维度di和一个阈值ti比较,根据比较结果,x被划分到左、右分支的某一个中,所述决策树的叶节点,即为模型的预测结果。
进一步地,S21中,具体过程如下:
判断第一个节点判断x1是否小于阈值t1;
如果小于,继续判断x2是否小于阈值t2,如果小于,就进入到左边的叶节点。叶节点对应的空间区域为:
R1={x:x1≤t1,x2≤t2};
回归树的定义如下:
其中,Rj是第j个叶节点对应的区域,wj是叶节点的预测输出,θ={(Rj,wj):j=1:J},J是叶节点的个数。
进一步地,S3:模型训练包括如下步骤:
S31:最小化损失函数;
S32:减少模型偏差,利用M棵决策树的结果进行平均,如下:
fm(y|x)是第m棵树。
进一步地,S4:模型验证具体为:
在S1中得到的验证集上对S3中得到的集成学习模型进行验证,评价集成学习的结果。
本发明涉及的一种基于集成学习的网络异常入侵检测系统,包括采集器和处理器,采集器采集相关数据,处理器基于采集的数据,按上述的方法进行处理。
本发明还涉及的一种电子设备,包括存储器、处理器以及在存储器上,并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1至6中任一所述方法的步骤。
本发明还涉及的一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于:该计算机程序被处理器执行时,实现如上述方法的步骤。
与现有技术相比,本发明的有益效果具体如下:
本发明首先基于单棵分类与回归决策树(CART),构建基本分类器。决策树递归的切分输入空间,并且在每一个切分空间上定义一个局部模型。基于树模型的预测准确性不足的缺陷,本发明结合集成学习的思想,利用基于bagging的随机森林算法进行多棵树的集成,给出一个较为稳定的预测分类算法。
附图说明
图1为本发明的基于集成学习的网络异常入侵检测方法流程图;
图2为本发明的决策树的构建过程。
具体实施方式
下面将结合本申请实施例中的附图,对实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另外定义,本申请实施例中使用的技术术语或者科学术语应当为所属领域内具有一般技能的人士所理解的通常意义。本实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。“上”、“下”、“左”、“右”、“横”以及“竖”等仅用于相对于附图中的部件的方位而言的,这些方向性术语是相对的概念,它们用于相对于的描述和澄清,其可以根据附图中的部件所放置的方位的变化而相应地发生变化。
本实施例的基于集成学习的网络异常入侵检测方法。集成学习可以将现有的多种模型组合成一个更强的模型。基于集成学习的网络异常入侵检测方法的流程如图1所示。
本实施例首先是基于单棵分类与回归决策树(CART),构建基本分类器。决策树递归的切分输入空间,并且在每一个切分空间上定义了一个局部模型。整个模型可以表示为一棵树。决策树的构建过程如图2所示。
相较于其他模型,树模型的预测没有那么准确。这是树模型求解的贪心算法所导致的。结合集成学习的思想,本实施例利用基于bagging的随机森林算法进行多棵树的集成,给出一个较为稳定的预测分类算法。
本实施例的方法具体包括如下步骤:
S1:数据预处理。
网络访问数据是文本串,在入侵检测流程中,需要将文本进行编码,以及输入最长文本串的填充。同时将数据集切分为训练集和测试集。
S11:网络访问数据文本编码,将网络访问数据中的每个字符,按照码表,映射为对应的数字格式。同时设置模型所需的输入长度,对不足输入长度的进行补全,对超过长度的进行截断;数据集记为D={(X,Y)},其中X=(x1,x2,…,xn)代表映射后网络访问数据,Y=(y1,y2,…,yn)代表网络访问数据对应的类别标签,0代表正常访问,1代表恶意攻击。
S12:数据集的切分,为切实检验模型效果,按照一定比例切分为训练集,测试集。训练集用于模型训练,测试集用于模型选取。
S2:模型构建,建立决策树模型。
S21:建立决策树模型,在每一个节点i,输入向量x的特征维度di和一个阈值ti比较,根据比较结果,x被划分到左,右分支的某一个中。这棵树的叶节点,就是模型的预测结果。
如图1所示,第一个节点判断x1是否小于阈值t1。如果小于,继续判断x2是否小于阈值t2,如果小于,就进入到左边的叶节点。
叶节点对应的空间区域为:
R1={x:x1≤t1,x2≤t2};
将这个区域与预测输出通过坐标轴切分联系起来。我们可以用一个平均响应与这些区域联系起来。
回归树的定义如下:
其中,Rj是第j个叶节点对应的区域,wj是叶节点的预测输出,θ={(Rj,wj):j=1:J},J是叶节点的个数。
区域是由对应特征维度和切分阈值决定,
R1=[(d1≤t1),(d2≤t2)];
R2=[(d1≤t1),(d2>t2),(d3≤t3)];
对于种类型的输入,比如男,女。与可能的值做对比,而不是这种数值阈值。对于分类问题,每个叶节点包含类别标签的分布,而不仅仅是平均响应。
S3:模型训练,因为决策树模型的目标函数不可微,使用贪心算法求解参数的次优解;
S31:模型训练的过程就是最小化损失函数的过程,损失函数如下:
但这个函数不可微,因为需要学习这颗离散树结构,这是一个NP-C问题。
常见的做法是利用贪心算法,我们迭代式地增加数的一个节点。
CART,C4.5,ID3是最常见的三种方法。
是将这些样本归到左子树或右子树的划分。
选出最好的特征ji,这个特征的最优值ti;
损失函数c()定义如下:
例如:对于第一个特征可能有{4.5,-12,72,-12},
回归任务,可以用均方误差:
分类任务,首先计算经验分布函数在每个类别:
基于经验分布函数,可以计算Gini系数:
或者熵函数:
都可以作为c()的备选。
S32:为了减少模型的偏差,利用多棵决策树的结果进行平均。
fm(y|x)是第m棵树。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
所述计算机指令可以存储在可读存储介质中,或者从一个可读存储介质向另一个可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,本申请实施例还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述所示实施例的方法。
可选的,本申请实施例还提供一种运行指令的芯片,所述芯片用于执行上述所示实施例的方法。
本申请实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述实施例的方法。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
可以理解的是,在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
Claims (9)
1.一种基于集成学习的网络异常入侵检测方法,其特征在于:包括如下步骤:
S1:数据预处理;
入侵检测流程中,将文本进行编码,输入最长文本串的填充,将数据集切分为训练集和测试集;
S2:模型构建,建立决策树模型;
S3:模型训练,使用贪心算法求解参数的次优解。
2.根据权利要求1所述的方法,其特征在于:S1:数据预处理包括以下步骤:
S11:网络访问数据文本编码,将网络访问数据中的每个字符,按照码表,映射为对应的数字格式,设置模型所需的输入长度,对不足输入长度的进行补全,对超过长度的进行截断;数据集记为D={(X,Y)},其中X=(x1,x2,...,xn)代表映射后网络访问数据,Y=(y1,y2,...,yn)代表网络访问数据对应的类别标签,0代表正常访问,1代表恶意攻击。
S12:数据集的切分,为切实检验模型效果,按照一定比例切分为训练集,测试集;训练集用于模型训练,测试集用于模型选取。
3.根据权利要求1所述的方法,其特征在于:S2:模型构建包括如下步骤:
S21:建立决策树模型,在每一个节点i,输入向量x的特征维度di和一个阈值ti比较,根据比较结果,x被划分到左、右分支的某一个中,所述决策树的叶节点,即为模型的预测结果。
6.根据权利要求1所述的方法,其特征在于:S4:模型验证具体为:
在S1中得到的验证集上对S3中得到的集成学习模型进行验证,评价集成学习的结果。
7.一种基于集成学习的网络异常入侵检测系统,其特征在于:包括采集器和处理器,采集器采集相关数据,处理器基于采集的数据,按权利要求1-6任一项所述的方法进行处理。
8.一种电子设备,包括存储器、处理器以及在存储器上,并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现上述权利要求1至6中任一所述方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于:该计算机程序被处理器执行时,实现如权利要求1至6中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111417583.4A CN114091026A (zh) | 2021-11-25 | 2021-11-25 | 一种基于集成学习的网络异常入侵检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111417583.4A CN114091026A (zh) | 2021-11-25 | 2021-11-25 | 一种基于集成学习的网络异常入侵检测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114091026A true CN114091026A (zh) | 2022-02-25 |
Family
ID=80304753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111417583.4A Pending CN114091026A (zh) | 2021-11-25 | 2021-11-25 | 一种基于集成学习的网络异常入侵检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114091026A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100257089A1 (en) * | 2009-04-05 | 2010-10-07 | Johnson Apperson H | Intellectual Property Pre-Market Engine (IPPME) |
US8984022B1 (en) * | 2012-04-20 | 2015-03-17 | Fair Isaac Corporation | Automating growth and evaluation of segmentation trees |
CN105447490A (zh) * | 2015-11-19 | 2016-03-30 | 浙江宇视科技有限公司 | 基于梯度回归树的车辆关键点检测方法及装置 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN109740756A (zh) * | 2018-12-29 | 2019-05-10 | 阳光财产保险股份有限公司 | 数据离散化方法、装置和服务器 |
CN109768985A (zh) * | 2019-01-30 | 2019-05-17 | 电子科技大学 | 一种基于流量可视化与机器学习算法的入侵检测方法 |
CN110858326A (zh) * | 2018-08-15 | 2020-03-03 | 第四范式(北京)技术有限公司 | 模型训练及获取附加特征数据的方法、装置、设备及介质 |
CN112951413A (zh) * | 2021-03-22 | 2021-06-11 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
CN113094697A (zh) * | 2021-04-20 | 2021-07-09 | 云南电网有限责任公司信息中心 | 基于黑白名单的安全防护控制方法 |
CN113159364A (zh) * | 2020-12-30 | 2021-07-23 | 中国移动通信集团广东有限公司珠海分公司 | 一种大型交通场站的客流预测方法及系统 |
-
2021
- 2021-11-25 CN CN202111417583.4A patent/CN114091026A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100257089A1 (en) * | 2009-04-05 | 2010-10-07 | Johnson Apperson H | Intellectual Property Pre-Market Engine (IPPME) |
US8984022B1 (en) * | 2012-04-20 | 2015-03-17 | Fair Isaac Corporation | Automating growth and evaluation of segmentation trees |
CN105447490A (zh) * | 2015-11-19 | 2016-03-30 | 浙江宇视科技有限公司 | 基于梯度回归树的车辆关键点检测方法及装置 |
CN110858326A (zh) * | 2018-08-15 | 2020-03-03 | 第四范式(北京)技术有限公司 | 模型训练及获取附加特征数据的方法、装置、设备及介质 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN109740756A (zh) * | 2018-12-29 | 2019-05-10 | 阳光财产保险股份有限公司 | 数据离散化方法、装置和服务器 |
CN109768985A (zh) * | 2019-01-30 | 2019-05-17 | 电子科技大学 | 一种基于流量可视化与机器学习算法的入侵检测方法 |
CN113159364A (zh) * | 2020-12-30 | 2021-07-23 | 中国移动通信集团广东有限公司珠海分公司 | 一种大型交通场站的客流预测方法及系统 |
CN112951413A (zh) * | 2021-03-22 | 2021-06-11 | 江苏大学 | 一种基于决策树和改进smote算法的哮喘病诊断系统 |
CN113094697A (zh) * | 2021-04-20 | 2021-07-09 | 云南电网有限责任公司信息中心 | 基于黑白名单的安全防护控制方法 |
Non-Patent Citations (8)
Title |
---|
AURAROS: "《机器学习(四):CART回归树(基础篇)》", 《HTTPS://BLOG.CSDN.NET/QQ_43634001/ARTICLE/DETAILS/95315992》 * |
ZHENFEI QI等: "《A Secure Real-time Internal and External Network Data Exchange Method Based on Web Service Protocol》", 《2020 INTERNATIONAL SYMPOSIUM ON COMPUTER ENGINEERING AND INTELLIGENT COMMUNICATIONS (ISCEIC)》 * |
刘宝锺: "《大数据分类模型和算法研究》", 31 January 2019, 《云南大学出版社》 * |
刘玉: "《大数据背景下基于多决策树集成学习的入侵检测研究》", 《白城师范学院学报》 * |
杨震乾等: "《自动化运维工具在电力企业信息系统管理中的作用》", 《电子技术与软件工程》 * |
罗震宇: "《一种基于流量的业务交互全路径性能评估技术研究》", 《信息网络安全》 * |
谢林江等: "《大数据背景下数据治理的网络安全策略》", 《科技资讯》 * |
谢林江等: "《改进的卷积神经网络在行人检测中的应用》", 《计算机科学与探索》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019238109A1 (zh) | 一种故障根因分析的方法及装置 | |
Bostani et al. | Modification of supervised OPF-based intrusion detection systems using unsupervised learning and social network concept | |
US11431578B2 (en) | Method, apparatus, and device for determining network anomaly behavior, and readable storage medium | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
US10992675B2 (en) | Anomaly detection using tripoint arbitration | |
CN111222976B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN111199474B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN109981625B (zh) | 一种基于在线层次聚类的日志模板抽取方法 | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN111444956B (zh) | 低负载信息预测方法、装置、计算机系统及可读存储介质 | |
JP2020126604A (ja) | データモデルを構築する方法、装置、デバイス及び媒体 | |
CN113656373A (zh) | 构建检索数据库的方法、装置、设备以及存储介质 | |
CN114553591A (zh) | 随机森林模型的训练方法、异常流量检测方法及装置 | |
CN114584377A (zh) | 流量异常检测方法、模型的训练方法、装置、设备及介质 | |
CN114781688A (zh) | 业扩项目的异常数据的识别方法、装置、设备及存储介质 | |
US11048730B2 (en) | Data clustering apparatus and method based on range query using CF tree | |
CN112100617B (zh) | 一种异常sql检测方法及装置 | |
CN116662817B (zh) | 物联网设备的资产识别方法及系统 | |
CN116628554B (zh) | 一种工业互联网数据异常的检测方法、系统和设备 | |
US11625438B2 (en) | Monitoring information processing systems utilizing co-clustering of strings in different sets of data records | |
CN111491300A (zh) | 风险检测方法、装置、设备及存储介质 | |
CN114091026A (zh) | 一种基于集成学习的网络异常入侵检测方法和系统 | |
CN116319033A (zh) | 网络入侵攻击检测方法、装置、设备及存储介质 | |
CN108121912B (zh) | 一种基于神经网络的恶意云租户识别方法和装置 | |
CN111222136A (zh) | 恶意应用归类方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220225 |
|
RJ01 | Rejection of invention patent application after publication |