CN114095268A - 用于网络入侵检测的方法、终端及存储介质 - Google Patents
用于网络入侵检测的方法、终端及存储介质 Download PDFInfo
- Publication number
- CN114095268A CN114095268A CN202111425682.7A CN202111425682A CN114095268A CN 114095268 A CN114095268 A CN 114095268A CN 202111425682 A CN202111425682 A CN 202111425682A CN 114095268 A CN114095268 A CN 114095268A
- Authority
- CN
- China
- Prior art keywords
- sample data
- intrusion detection
- data set
- network intrusion
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 238000010606 normalization Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 4
- 230000006399 behavior Effects 0.000 description 33
- 238000012545 processing Methods 0.000 description 16
- 230000002159 abnormal effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013107 unsupervised machine learning method Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种用于网络入侵检测的方法、终端及存储介质。该方法包括:对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集;其中,预处理包括:one‑hot编码、标准化和数据归一化;样本数据集中包括多条样本数据;根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权;根据各样本数据及对应的权重计算样本数据集的加权平均值;以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过网络入侵检测模型实现对网络入侵检测。本发明区分不同样本数据对于聚类结果的影响,提高了聚类的有效性,改善对于网络入侵检测的精确度。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种用于网络入侵检测的方法、终端及存储介质。
背景技术
入侵检测作为网络安全的一个重要领域,在及时发现异常数据,维护网络安全方面具有重要的作用。传统的入侵检测算法主要分为误用入侵检测和异常入侵检测。误用入侵检测首先利用已知入侵行为构建入侵行为数据库,接着通过将网络中的数据流量与数据库中特征行为进行模式匹配,来判断数据流量异常与否。若匹配成功,则将其断定为入侵行为,若未匹配成功,则将其断定为正常行为。由于该方法需要使用已知的入侵行为提前构建入侵行为数据库,因此无法检测出未知的入侵行为,将导致大量的未知入侵行为被判断为正常行为,提高了漏检率。异常入侵检测反其道而行之,利用正常行为构造特征行为库。通过将网络中的数据流量与数据库中特征行为进行模式匹配。若匹配成功,则断定为正常数据,若匹配失败,则断定为异常数据。该方法虽然能有效地找到未知的入侵行为,但大量正常行为被误判为入侵行为导致该方法的误检率提高。
目前,无监督聚类算法常用来分析未加类别标识的入侵检测样本数据,然后根据聚类结果判断被检测数据是正常行为还是异常行为。然而,无监督聚类算法对样本重要性同等看待或者基于人工经验加权,导致聚类效果不理想,网络入侵检测方案的精确度低。
发明内容
本发明实施例提供了一种用于网络入侵检测的方法、终端及存储介质,以解决现有网络入侵检测方案的精确度低的问题。
第一方面,本发明实施例提供了一种用于网络入侵检测的方法,包括:
对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集;其中,所述预处理包括:one-hot编码、标准化和数据归一化;所述样本数据集中包括多条样本数据;
根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权;
根据各样本数据及对应的权重计算样本数据集的加权平均值;
以所述加权平均值作为模糊C均值(Fuzzy C-means,FCM)聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过所述网络入侵检测模型实现对网络入侵检测。
在一种可能的实现方式中,所述样本数据集中各样本数据包括多个特征;
在所述获得对网络入侵检测模型进行训练的样本数据集之后,还包括:
根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,获得更新后的样本数据集。
在一种可能的实现方式中,在所述剔除小于设定权重的特征之后,还包括:
将各个特征的特征权重进行归一化;
将样本数据的各个特征值与对应的特征权重相乘作为更新后的特征值。
在一种可能的实现方式中,以所述加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集确定网络入侵检测模型,包括:
初始化隶属度矩阵;
以所述加权平均值作为FCM聚类算法的模糊聚类中心,并进行迭代更新隶属值;
在所述隶属值在最新的两次迭代中改变量小于设定阈值时,输出目标隶属度矩阵,并以所述目标隶属度矩阵进行去模糊化确定网络入侵检测模型。
在一种可能的实现方式中,所述模糊聚类中心为:
在一种可能的实现方式中,以所述加权平均值作为FCM聚类算法的模糊聚类中心,并进行迭代更新隶属值,包括:
更新拉格朗日乘子:
其中,λj为拉格朗日乘子;Mij为模糊聚类中心,i=1,…,c;j=1,…,n,c为类别数;m为模糊参数;
更新隶属值:
其中,μij为隶属值;λj为拉格朗日乘子;Mij为模糊聚类中心,i=1,…,c,j=1,…,n,c为类别数;m为模糊参数。
在一种可能的实现方式中,所述预处理还包括:在one-hot编码之前,若存在字符型数据,则将字符型数据转换为数值型数据。
在一种可能的实现方式中,所述预处理还包括:在数据归一化之后,若存在缺失值,则对缺失值进行填充。
第二方面,本发明实施例提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
本发明实施例提供一种用于网络入侵检测的方法、终端及存储介质,通过对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集,其中,预处理包括:one-hot编码、标准化和数据归一化,样本数据集中包括多条样本数据,对基础数据集进行预处理,提高网络入侵检测模型的训练的效率及精确度。根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权,根据各样本数据及对应的权重计算样本数据集的加权平均值,以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过网络入侵检测模型实现对网络入侵检测。本方案基于样本数据之间距离的倒数对样本数据集中各样本数据进行加权,以体现出各样本数据的不同重要程度,区分不同样本数据对于聚类结果的影响,提高了聚类的有效性,改善对于网络入侵检测的精确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用于网络入侵检测的方法的实现流程图;
图2是本发明实施例提供的用于网络入侵检测的方法的实现流程图;
图3是本发明实施例提供的用于网络入侵检测的方法的实现流程图;
图4是本发明实施例提供的终端的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
随着互联网迅速发展,人们在享受着网络带来便利的同时,也慢慢开始认识到网络安全的重要性。在战略层面,国家也出台了大量网络安全相关的政策文件,吸引了众多网络安全、人工智能、数据挖掘等相关领域学者的研究。而入侵检测作为网络安全的一个重要领域,在及时发现异常数据,维护网络安全方面具有重要的作用。
传统的入侵检测算法主要分为两种:误用入侵检测和异常入侵检测。
误用入侵检测首先利用已知入侵行为构建入侵行为数据库,接着通过将网络中的数据流量与数据库中特征行为进行模式匹配,来判断数据流量异常与否。若匹配成功,则将其断定为入侵行为,若未匹配成功,则将其断定为正常行为。由于该方法需要使用已知的入侵行为提前构建入侵行为特征库,因此无法检测出未知的入侵行为,将导致大量的未知行为被判断为正常行为,提高了漏检率。
异常入侵检测为解决这一问题,反其道而行之,利用正常行为构造特征行为库。通过将网络中的数据流量与数据库中特征行为进行模式匹配。若匹配成功,则断定为正常数据,若匹配失败,则断定为异常数据。该方法虽然能有效地找到未知的入侵行为,但大量正常行为被误判为入侵行为导致该方法的误检率提高。
有监督的入侵检测方法对于数据集的要求较高,需要大量的带有标签的数据进行模型训练,但带标签的网络入侵数据集存在获取难度较高和已有公开数据集较少的问题,给模型学习带来新的挑战。而无监督的机器学习方法由于其所用数据集有无标签均可,大大的提高了模型训练的泛化性和实用性。本发明主要是为解决传统有监督入侵检测算法,由于数据收集难、公开数据集较少导致模型训练困难,且实用性和泛化能力低的问题。本发明在基线模型的选取上对比了对数据进行硬划分的K-means聚类算法和对数据进行软划分的FCM聚类算法。虽然K-means聚类算法效率高速度快,但是FCM聚类算法融合了模糊理论的精髓,相较于K-Means算法的硬聚类,FCM聚类算法提供了更灵活的聚类结果。大部分情况下,数据集中的对象不能划分成为明显分离的簇,生硬指派一个对象到某一个簇中可能会出错。因此,最终选择FCM聚类算法作为基线模型。
FCM聚类算法是一种经典的聚类分析算法,已应用于人工智能、模式识别、数据聚合及其在软件工程、图像处理、物联网等领域,但标准的FCM聚类算法由于对样本重要性和特征重要性同等看待,导致聚类效果不理想,严重限制了其应用。因此,本发明以FCM作为基线模型,提出了一种模糊加权的无监督入侵检测算法。由于每个样本对于整个的聚类结果贡献不同,同一样本的每个特征对于聚类结果的贡献也不同。通过对样本和样本特征进行合理的加权,在模糊聚类结果上取得了更好的效果。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
图1为本发明实施例提供的用于网络入侵检测的方法的实现流程图。如图1所示,包括如下步骤:
S101,对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集。其中,预处理包括:one-hot编码、标准化和数据归一化;样本数据集中包括多条样本数据。
FCM聚类算法适用于连续数据的聚类分析,而入侵检测数据集中既有连续型特征也有离散型特征,如果将FCM聚类算法用于入侵检测而不加改进会降低聚类的准确率。其中,对样本数据集进行预处理,对字符型离散的数据进行one-hot编码,并将数据的范围控制在0-1之间,可以提高聚类的准确率。
S102,根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权。其中,距离的倒数越大,权重越大。
本发明实施例中引入了加权平均的概念来改进标准FCM聚类算法中模糊聚类中心的求解方法,基于样本数据之间距离的倒数对样本数据进行加权,以体现出各样本数据的不同重要程度。
在不同实施例中,步骤S102的具体实施方式不同。
在一种可能的实现方式中,确定样本数据与样本数据集中其他各条样本数据之间距离的倒数,并基于距离的倒数对应的数据范围确定对应的权重值进行加权处理,降低加权过程中的运算量。
在一种可能的实现方式中,基于样本数据与样本数据集中其他各条样本数据之间距离的倒数的具体数值进行加权处理。其中,样本数据与样本数据集中其他各条样本数据之间距离为零值时,距离的倒数无意义,因此,对样本数据与样本数据集中其他各条样本数据之间距离进行修正并确定距离的倒数,以基于修正后的倒数的具体数值进行加权处理。
S103,根据各样本数据及对应的权重计算样本数据集的加权平均值。
S104,以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过网络入侵检测模型实现对网络入侵检测。
在标准的FCM聚类算法中假设所有的样本数据对聚类的贡献都是相同的,而在实际中并非如此,并且如果对每个样本数据的贡献度指定不合理,同样会导致聚类结果的偏差非常大。其中,根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权。距离聚类中心近的样本对聚类结果有更高的贡献度,则样本的权重应该更大,距离聚类中心远的样本对聚类结果有较低的贡献度,则样本的权重应该更小。
在本实施例中,通过对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集,其中,预处理包括:one-hot编码、标准化和数据归一化,样本数据集中包括多条样本数据,对基础数据集进行预处理,提高网络入侵检测模型的训练的效率及精确度。根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权,根据各样本数据及对应的权重计算样本数据集的加权平均值,以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过网络入侵检测模型实现对网络入侵检测。本方案基于样本数据之间距离的倒数对样本数据集中各样本数据进行加权,以体现出各样本数据的不同重要程度,区分不同样本数据对于聚类结果的影响,提高了聚类的有效性,改善对于网络入侵检测的精确度。
图2为本发明实施例提供的用于网络入侵检测的方法的实现流程图。如图2所示,包括如下步骤:
S201,对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集。其中,预处理包括:one-hot编码、标准化和数据归一化;样本数据集中包括多条样本数据。
S202,根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,获得更新后的样本数据集。其中,样本数据集中各样本数据包括多个特征。
其中,由于基础数据集在预处理阶段已经被归一化处理,而本次特征评价分数不在0到1之间,该权重与预处理过的数据相比相差很大,直接赋权会忽略数据本身的重要性。利用XGBoost算法对每一个特征进行评价,使对聚类结果有较好影响的特征权重变大,使对聚类结果有较差影响的特征权重变小,有利于提高聚类的有效性,将评价得分较小的特征剔除,可以达到降维的目的。
在标准的FCM聚类算法中假设所有特征对聚类的贡献都是相同的,而实际应用中并非如此。并且如果特征贡献度指定不合理,会导致聚类结果的偏差非常大。另外,标准的FCM聚类算法在特征数量较少的低维数据中有较好的效果,但是在特征数量较高的高维数据中的聚类效果就大打折扣,会出现“维度灾难”问题。而如今的网络入侵数据维度都相对较高。因此,对数据处理的过程中在保证聚类效果的同时进行合理的特征降维尤为重要。
XGBoost算法是GBDT算法的改进,采用基尼指数作为评价标准,通过训练多棵决策树综合考量得到最终评价分数的集成学习方法。XGBoost算法同时支持并行计算,大大提高了针对大数据集的处理效率。
在一种可能的实现方式中,在步骤202剔除小于设定权重的特征之后,还包括:将各个特征的特征权重进行归一化;将样本数据的各特征值与对应的特征权重相乘作为更新后的特征值。
其中,在利用XGBoost算法对每一个特征作出评价之后,为统一权重和数据之间的量纲,将权重分数也进行归一化,归一化后的值作为最终的特征权重。使用XGBoost算法对特征赋权后不仅能使权重赋值更合理,引入了并行计算提高计算效率。同时,加快了传统FCM聚类算法的迭代收敛速度,提高了聚类有效性。
S203,根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权。
S204,根据各样本数据及对应的权重计算样本数据集的加权平均值。
S205,以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过网络入侵检测模型实现对网络入侵检测。
在本实施例中,通过对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集,其中,预处理包括:one-hot编码、标准化和数据归一化,样本数据集中包括多条样本数据,对基础数据集进行预处理,提高网络入侵检测模型的训练的效率及精确度。根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,获得更新后的样本数据集,可以使对聚类结果有较好影响的特征权重变大,使对聚类结果有较差影响的特征权重变小,剔除小于设定权重的特征,实现降维处理。然后,根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权,根据各样本数据及对应的权重计算样本数据集的加权平均值,以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过网络入侵检测模型实现对网络入侵检测。本方案根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,实现样本数据降维处理,并基于样本数据之间距离的倒数对样本数据集中各样本数据进行加权,以体现出各样本数据的不同重要程度,区分不同样本数据对于聚类结果的影响,提高了聚类的有效性,改善对于网络入侵检测的精确度。
在前述实施例基础上,在一种可能的实现方式中,以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集确定网络入侵检测模型,包括:
初始化隶属度矩阵;
以加权平均值作为FCM聚类算法的模糊聚类中心,并进行迭代更新隶属值;
在隶属值在最新的两次迭代中改变量小于设定阈值时,即隶属值在最新的两次迭代中没有变化或者变化很小时,输出目标隶属度矩阵,并以目标隶属度矩阵进行去模糊化确定网络入侵检测模型。
在一种可能的实现方式中,模糊聚类中心为:
其中,Mij为模糊聚类中心;n为样本数据集中样本数据的数量;x为样本数据集中样本数据;μ为隶属值,||xj-xk||为样本数据xj与样本数据xk之间的距离。其中,在确定距离的倒数之前,对距离进行修正,目的是防止样本数据集中出现重复的样本数据,导致分母为零,公式无法使用的情况。
假设样本数据xj属于第i类,样本数据xj附近的样本数据最后会和样本数据xj聚为同一类,因此,这些样本数据的权重应该更大。因此我们用距离的倒数作为权重。我们将样本数据xk和样本数据xj距离的倒数和隶属度μik相乘,来解决如果存在样本数据xk距离样本数据xj很近,但是xk不属于第i类的问题。同时,为避免数据集中因包含重复样本造成的分母为零公式不可用的情况,我们在确定距离的倒数之前,对距离进行修正,即分母处进行了加一处理。因此,传统的聚类中心被重新定义为Mij。Mij比标准的模糊聚类中心ci更接近xj。
在一种可能的实现方式中,以加权平均值作为FCM聚类算法的模糊聚类中心,并进行迭代更新隶属值,包括:
更新拉格朗日乘子:
其中,λj为拉格朗日乘子;Mij为模糊聚类中心,i=1,…,c,j=1,…,n,c为类别数;m为模糊参数;
更新隶属值:
其中,μij为隶属值;λj为拉格朗日乘子;Mij为模糊聚类中心,i=1,…,c;j=1,…,n,c为类别数;m为模糊参数。可选的,m为人为设定值。
在前述实施例基础上,在一种可能的实现方式中,预处理还包括:在one-hot编码之前,若存在字符型数据,则将字符型数据转换为数值型数据。
在前述实施例基础上,在一种可能的实现方式中,预处理还包括:在数据归一化之后,若存在缺失值,则对缺失值进行填充。
图3为本发明实施例提供的用于网络入侵检测的方法的实现流程图。如图3所示,包括如下步骤:
S301,对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集。其中,预处理包括:数据类型转换、one-hot编码、标准化、数据归一化和缺失值填充。
S302,根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,获得更新后的样本数据集。其中,样本数据集中各样本数据包括多个特征。
S303,根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权。
S304,根据各样本数据及对应的权重计算样本数据集的加权平均值。
S305,初始化隶属度矩阵,具体如下:
U=[μij]1≤i≤c,1≤j≤n
S306,以加权平均值作为FCM聚类算法的模糊聚类中心,并进行迭代更新隶属值。
S307,判断隶属值在最新的两次迭代中改变量是否小于设定阈值,在满足条件时执行步骤S308,否则,执行步骤S306。
S308,输出目标隶属度矩阵,并以目标隶属度矩阵进行去模糊化确定网络入侵检测模型。其中,在隶属度矩阵中每一个样本属于所有类别程度之和为1,取属于每种类别程度最大的类别判定为该样本的最终类别。
在一种可能的实现方式中,该方法还包括异常簇的判定。由于在入侵检测中,异常样本数量远远小于正常样本数量,因此,将较小簇定义为异常簇。异常簇中包含的均为异常样本。将较大簇定义为正常样本,正常簇中包含的均为正常样本。
在本实施例中,通过对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集,其中,预处理包括:one-hot编码、标准化和数据归一化,样本数据集中包括多条样本数据,对基础数据集进行预处理,提高网络入侵检测模型的训练的效率及精确度。根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,获得更新后的样本数据集,可以使对聚类结果有较好影响的特征权重变大,使对聚类结果有较差影响的特征权重变小,剔除小于设定权重的特征,实现降维处理。然后,根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权,根据各样本数据及对应的权重计算样本数据集的加权平均值,以加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过网络入侵检测模型实现对网络入侵检测。本方案根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,实现样本数据降维处理,并基于样本数据之间距离的倒数对样本数据集中各样本数据进行加权,以体现出各样本数据的不同重要程度,区分不同样本数据对于聚类结果的影响,提高了聚类的有效性,改善对于网络入侵检测的精确度。
本发明在NSL-KDD数据集上实验表明该方法提高了聚类的有效性。以NSL-KDD数据集为例对数据预处理过程进行说明。该数据集共包含41个特征,其中第2个特征,第3个特征和第4个特征是字符型的特征。对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集,具体如下:
首先,将NSL-KDD数据集中字符型数据转化为数值型特征,第2个特征为离散型的字符特征,包括TCP、UDP、ICMP三种字符值。将三种字符值分别用0、1、2三个数值表示。第3个特征包括aol、auth、bgp等70种字符值,将其分别用0到69的70个数值表示。第4个特征包括OTH、REJ、RSTO等11种字符值,将其分别用0到10的11个数值来表示。
然后,再对这三个特征进行one-hot编码。第2个特征用[0,0,1]、[0,1,0]、[1,0,0]的one-hot编码代替三个数值,第3个特征、第4个特征同理。one-hot编码解决了分类器不好处理字符型数据的问题,在一定程度上也起到了扩充特征的作用,它的值只有0和1,不同的类型存储在垂直的空间,因此进行过one-hot编码的特征在数据归一化阶段不再进行归一化。经过one-hot编码后,此时41个特征维度扩展到122个特征维度。若将本发明应用到其他数据集,针对其数据集中的字符特征采用同样的处理方法即可。
然后,采用零中心化进行数据标准化。标准化后的数据是均值为0,方差为1的正态分布。进行标准化处理的公式如下所示:
其中,x为原始数据;x′为标准化后的数据;mean为原始数据集的均值;std为原始数据集的标准差。
数据标准化主要是应对特征向量中数据比较分散的情况,防止小数据被大数据吞并的情况。同时可以加速训练防止梯度爆炸。本文采用零中心化进行标准化处理,经过标准化的数据更容易迭代到最优点,而且收敛更快。最终的实验表明零中心化削弱了对度量单位选择的依赖,消除由于属性度量的差异对聚类的影响,提高了聚类的有效性。
然后,对数据进行数值归一化,消除不同特征之间受不同量纲的影响。对其中的连续性数据进行了归一化处理,从而让数据之间具有可比性。例如在NSL-KDD数据集中第5个特征src_bytes(从源主机到目标主机的数据的字节数)是一个连续类型的特征,取值范围是[0,1379963888],第6个特征dst_bytes(从目标主机到源主机的数据的字节数)是一个连续类型的特征,取值范围是[0,1379963888]。但是大多数的特征在[0,1]之间。
由于量纲不同,导致不同特征之间相差太大,在真正数据处理的时候,取值范围较小的特征会被忽略。为了消除这种影响,将每个样本的每个特征值采用最小最大归一化方法,将特征值映射到[0,1]之间。公式如下:
其中,max为样本数据的最大值,min为样本数据的最小值。
最后,基于XGBoost算法对扩展后的122个特征进行打分剔除权重较小的特征进行降维,将剩余分值归一化作为剩余每个特征的权重。将每个样本的特征值和其对应的特征权重相乘得到加权后的特征。
利用支持并行处理数据的XGBoost算法对数据的特征进行评分,根据评分效果剔除不重要的特征。然后将评价分数进行归一化给剩余特征加权。在样本重要性的处理上,利用距离加大与聚类中心距离近的样本的重要程度。减小与聚类中心距离远的样本的重要程度。在NSL-KDD数据集上实验证明,不仅提高了迭代速度,还提高了入侵检测的准确率,降低了入侵检测的误检率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图4是本发明实施例提供的终端的示意图。如图4所示,该实施例的终端4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个用于网络入侵检测的方法实施例中的步骤,例如图1所示的步骤S101至步骤S104,图2所示的步骤S201至步骤S205,或者,图3所示的步骤S301至步骤S308。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端4中的执行过程。例如,所述计算机程序42可以被分割成图4所示的模块/单元41至43。
所述终端4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端4的示例,并不构成对终端4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端4的内部存储单元,例如终端4的硬盘或内存。所述存储器41也可以是所述终端4的外部存储设备,例如所述终端4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个用于网络入侵检测的方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于网络入侵检测的方法,其特征在于,包括:
对基础数据集进行预处理,获得对网络入侵检测模型进行训练的样本数据集;其中,所述预处理包括:one-hot编码、标准化和数据归一化;所述样本数据集中包括多条样本数据;
根据样本数据与样本数据集中其他各条样本数据之间距离的倒数对各样本数据进行加权;
根据各样本数据及对应的权重计算样本数据集的加权平均值;
以所述加权平均值作为模糊C均值FCM聚类算法的模糊聚类中心,并结合样本数据集训练网络入侵检测模型,以通过所述网络入侵检测模型实现对网络入侵检测。
2.根据权利要求1所述的方法,其特征在于,所述样本数据集中各样本数据包括多个特征;
在所述获得对网络入侵检测模型进行训练的样本数据集之后,还包括:
根据XGBoost算法对样本数据的各个特征进行加权,并剔除小于设定权重的特征,获得更新后的样本数据集。
3.根据权利要求2所述的方法,其特征在于,在所述剔除小于设定权重的特征之后,还包括:
将各个特征的特征权重进行归一化;
将样本数据的各特征值与对应的特征权重相乘作为更新后的特征值。
4.根据权利要求1至3任一项所述的方法,其特征在于,以所述加权平均值作为FCM聚类算法的模糊聚类中心,并结合样本数据集确定网络入侵检测模型,包括:
初始化隶属度矩阵;
以所述加权平均值作为FCM聚类算法的模糊聚类中心,并进行迭代更新隶属值;
在所述隶属值在最新的两次迭代中改变量小于设定阈值时,输出目标隶属度矩阵,并以所述目标隶属度矩阵进行去模糊化确定网络入侵检测模型。
7.根据权利要求1所述的方法,其特征在于,所述预处理还包括:
在one-hot编码之前,若存在字符型数据,则将字符型数据转换为数值型数据。
8.根据权利要求1所述的方法,其特征在于,所述预处理还包括:
在数据归一化之后,若存在缺失值,则对缺失值进行填充。
9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111425682.7A CN114095268A (zh) | 2021-11-26 | 2021-11-26 | 用于网络入侵检测的方法、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111425682.7A CN114095268A (zh) | 2021-11-26 | 2021-11-26 | 用于网络入侵检测的方法、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114095268A true CN114095268A (zh) | 2022-02-25 |
Family
ID=80305099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111425682.7A Pending CN114095268A (zh) | 2021-11-26 | 2021-11-26 | 用于网络入侵检测的方法、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114095268A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028838A (zh) * | 2023-01-09 | 2023-04-28 | 广东电网有限责任公司 | 一种基于聚类算法的能源数据处理方法、装置及终端设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110661818A (zh) * | 2019-10-30 | 2020-01-07 | 腾讯云计算(北京)有限责任公司 | 事件异常检测方法、装置、可读存储介质和计算机设备 |
CN110881037A (zh) * | 2019-11-19 | 2020-03-13 | 北京工业大学 | 网络入侵检测方法及其模型的训练方法、装置和服务器 |
CN110991474A (zh) * | 2019-10-12 | 2020-04-10 | 未鲲(上海)科技服务有限公司 | 一种机器学习建模平台 |
CN112288455A (zh) * | 2020-01-09 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 标签生成方法及装置、计算机可读存储介质、电子设备 |
CN112422546A (zh) * | 2020-11-10 | 2021-02-26 | 昆明理工大学 | 一种基于变邻域算法和模糊聚类的网络异常检测方法 |
CN112565177A (zh) * | 2020-10-19 | 2021-03-26 | 东南大学 | 一种源网荷系统安全防护方法 |
CN113221112A (zh) * | 2021-05-28 | 2021-08-06 | 广州大学 | 基于弱相关集成策略的恶意行为识别方法、系统和介质 |
CN113364751A (zh) * | 2021-05-26 | 2021-09-07 | 北京电子科技职业学院 | 网络攻击预测方法、计算机可读存储介质及电子设备 |
-
2021
- 2021-11-26 CN CN202111425682.7A patent/CN114095268A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991474A (zh) * | 2019-10-12 | 2020-04-10 | 未鲲(上海)科技服务有限公司 | 一种机器学习建模平台 |
CN110661818A (zh) * | 2019-10-30 | 2020-01-07 | 腾讯云计算(北京)有限责任公司 | 事件异常检测方法、装置、可读存储介质和计算机设备 |
CN110881037A (zh) * | 2019-11-19 | 2020-03-13 | 北京工业大学 | 网络入侵检测方法及其模型的训练方法、装置和服务器 |
CN112288455A (zh) * | 2020-01-09 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 标签生成方法及装置、计算机可读存储介质、电子设备 |
CN112565177A (zh) * | 2020-10-19 | 2021-03-26 | 东南大学 | 一种源网荷系统安全防护方法 |
CN112422546A (zh) * | 2020-11-10 | 2021-02-26 | 昆明理工大学 | 一种基于变邻域算法和模糊聚类的网络异常检测方法 |
CN113364751A (zh) * | 2021-05-26 | 2021-09-07 | 北京电子科技职业学院 | 网络攻击预测方法、计算机可读存储介质及电子设备 |
CN113221112A (zh) * | 2021-05-28 | 2021-08-06 | 广州大学 | 基于弱相关集成策略的恶意行为识别方法、系统和介质 |
Non-Patent Citations (3)
Title |
---|
CHENG-HSUAN LI等: "A Novel Fuzzy Weighted C-Means Method for Image Classification", A NOVEL FUZZY WEIGHTED C-MEANS METHOD FOR IMAGE CLASSIFICATION, pages 168 - 172 * |
陈颖悦: "一种基于聚类算法的网络入侵检测应用", 《厦门理工学院学报》, pages 70 - 74 * |
高华玲: "《推荐算法及应用》", 31 January 2021, 北京邮电大学出版社, pages: 87 - 88 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028838A (zh) * | 2023-01-09 | 2023-04-28 | 广东电网有限责任公司 | 一种基于聚类算法的能源数据处理方法、装置及终端设备 |
CN116028838B (zh) * | 2023-01-09 | 2023-09-19 | 广东电网有限责任公司 | 一种基于聚类算法的能源数据处理方法、装置及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070141B (zh) | 一种网络入侵检测方法 | |
Jiang et al. | Network intrusion detection combined hybrid sampling with deep hierarchical network | |
CN110135157B (zh) | 恶意软件同源性分析方法、系统、电子设备及存储介质 | |
JP7414901B2 (ja) | 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN113297572B (zh) | 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置 | |
CN111915437A (zh) | 基于rnn的反洗钱模型的训练方法、装置、设备及介质 | |
Mohammadi et al. | Improving linear discriminant analysis with artificial immune system-based evolutionary algorithms | |
CN113535964B (zh) | 企业分类模型智能构建方法、装置、设备及介质 | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN113839926B (zh) | 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN115801374A (zh) | 网络入侵数据分类方法、装置、电子设备及存储介质 | |
CN112668482A (zh) | 人脸识别训练方法、装置、计算机设备及存储介质 | |
CN111694954A (zh) | 图像分类方法、装置和电子设备 | |
CN114095268A (zh) | 用于网络入侵检测的方法、终端及存储介质 | |
CN111401440B (zh) | 目标分类识别方法、装置、计算机设备及存储介质 | |
CN111639688A (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
Karimi Zandian et al. | MEFUASN: a helpful method to extract features using analyzing social network for fraud detection | |
CN116541792A (zh) | 一种基于图神经网络节点分类进行团伙识别的方法 | |
Lim et al. | More powerful selective kernel tests for feature selection | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
EP4002230A1 (en) | Information processing apparatus and information processing method | |
Li et al. | Feature proposal model on multidimensional data clustering and its application | |
CN113988878A (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
Patil et al. | Pattern recognition using genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |