CN113839916B

CN113839916B - 一种信息分类模糊模型的网络入侵检测分类方法

Info

Publication number: CN113839916B
Application number: CN202010602175.5A
Authority: CN
Inventors: 王丹; 熊聪聪; 张贤坤
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2024-03-01
Anticipated expiration: 2040-06-23
Also published as: CN113839916A

Abstract

一种信息分类模糊模型的网络入侵检测分类方法。该方法通过构造的模糊规则库来进行入侵检测分类。模糊规则的构造包括前提和结论两部分，其中前提部分的构造基于硬聚类算法(Hard Clustering Method，简称HCM)，结论部分的构造则基于最小二乘法(Ordinary Least Square，简称OLS)。信息分类模糊模型在一定程度上解决了传统入侵检测方法耗时长、检测率低等问题。该方法在国际标准数据上进行模拟测试，并同其它两种入侵检测方法进行比较，实验结果显示本发明提供的方法优于其它两种入侵检测方法。

Description

一种信息分类模糊模型的网络入侵检测分类方法

技术领域

本发明属于入侵检测技术领域，特别涉及一种信息分类模糊模型的网络入侵检测分类方法。

背景技术

入侵检测是对潜在的有预谋的未经授权的访问信息、操作信息以及致使系统不可靠、不稳定或无法使用的企图的检测和监视。它能够从计算机网络系统中的若干关键点收集信息，并进行相应的分析，以检查网络中是否有违反安全策略的行为和操作袭击的迹象。

根据入侵检测模型，入侵检测原理可以分为两种：异常检测原理和误用检测原理。目前入侵检测有很多种方法：如基于概率统计的检测、基于神经网络的检测。但是，目前基于入侵检测模型存在检测率低、经常出现过拟合问题。

发明内容

本发明的目的是为克服上述现有技术存在的缺点和不足，提供一种信息分类模糊模型的网络入侵检测分类方法。通过在国际标准数据集(10％KDDCup99实验数据集)上测试，和其他两种入侵检测算法进行对比，该算法的整体检测效果较优于其它两种入侵检测算法。

本发明技术方案：

一种信息分类模糊模型的网络入侵检测分类方法，包括以下步骤：

第1步、设计多项式模糊模型的表示形式；

第2步、对国际标准数据集10％KDDCup99进行预处理，将预处理后的数据集分为训练集和测试集两部分；

第3步、将训练集中的数据输入硬聚类算法(Hard Clustering Method，简称HCM)得到模糊规则库中所有模糊规则的前提；

第4步、通过最小二乘法(Ordinary Least Square，简称OLS)估计多项式系数获得模糊规则库中所有模糊规则的结论；

第5步、对于测试集中的数据，根据构造出的模糊规则库，对数据进行识别，并输出结果。

第1步中所述的设计多项式模糊模型的表示形式具体过程：

给定一个多项式模糊模型包含n条模糊规则，则它的模糊规则库的表示形式如下：

R¹：if x₁ is A₁then z₁＝f₁(x₁)

R²：if x₂ is A₂ then z₂＝f₂(x₂)

……

Rⁿ：if x_n is A_n then z_n＝f_n(x_n)

其中，Rⁱ(i＝1，2，...，n)表示第i条模糊规则，n表示模糊规则的总数；数据集X＝{x₁，x₂，...，x_m}，x_i表示第i行输入数据；A_i(i＝1，2，...，n)为第i个模糊集(或输入变量的分类中心点)，f_i(x_i)第i行输入数据，第i条模型规则的输出多项式，z_i是第i条模型规则的输出多项式；

模型的最终输出多项式表达式z＝f(x₁，x₂，...，x_n)(i＝1，2，...，n)的类型如下：

f＝a_j0+a_j1(x₁-v_1j)+…+a_ji(x_i-v_ij)+a_j(i+1)(x₁-v_1j)²+…+a_j(2i)(x_i-v_ij)²

其中f(x₁，x₂，...，x_n)表示所有输入数据的模型规则的输出多项式，a_ji表示第j行第i列输入数据的系数。v_ij表示第i个聚类中心第j个输入变量的中心点，它的具体值是通过第3.2步硬聚类算法(Hard Clustering Method，简称HCM)获得的。

第2步中所述的数据预处理包含以下步骤：

第2.1步、文本数值化：由于10％KDDCup99原始数据集中，protocol(协议)、service(服务)、flag(连接状态)三个属性是符号型变量，因此，在实验中需要将符号类型的数据换成数值类型的数据，以满足硬聚类算法(Hard Clustering Method，简称HCM)的数据要求；

第2.2步、随机选择80％的数据作为训练集，其余20％的数据作为测试集；

第3步中所述的硬聚类算法(Hard Clustering Method，简称HCM)得到模糊规则库中所有模糊规则的前提包含以下步骤：

第3.1步、选择模糊模型的输入变量x_i(i＝1，2，...，m，m＜＝N)，其中N是系统输入变量的最大个数(数据集中输入变量的总个数)，x_i表示第i行输入数据；

第3.2步、利用硬聚类算法(Hard Clustering Method，简称HCM)对数据集中每个选出的输入变量x_i进行聚类，获得第i个聚类中心A_i；

第3.2.1步、初始化聚类中心点的个数c(2≤c＜m)，m是数据点的个数；

第3.2.2步、初始化硬聚类算法(Hard Clustering Method，简称HCM)划分矩阵U⁽⁰⁾∈M_C

其中，U⁽⁰⁾表示给定的初始值，集合u_gi(1≤g≤c，1≤i≤m)被映射成c×m的矩阵U＝[u_gi]，u_gi表示第g个聚类中心点第i个数据点的值；

第3.2.3步、计算每个子类的中心点向量v_g：

其中，r表示迭代次数，表示第r次迭代第g个子类的中心点向量，v_gk表示第g个聚类中心第k个输入变量的中心点向量，k＝1，2，...，l，l表示模糊模型输入变量个数，/>表示第r次迭代第g个聚类中心第k个输入变量的中心点向量，/>表示第r次迭代第g个聚类中心点第i个数据点的值，数据集X＝{x₁，x₂，…，x_m}，x_i＝[x_i1，…，x_il]，x_ik表示第i行第k列的数据；

第3.2.4步、计算欧几里德距离，并更新矩阵U^(r)，计算公式如下：

d_gi表示第g个聚类中心第i个数据点距离聚类中心的距离，x_i表示第i个输入变量，v_g表示第g个子类的中心点向量，表示第r+1次迭代第g个聚类中心点第i个数据点的值，表示第r次迭代第g个聚类中心第i个数据点距离聚类中心的距离，/>表示第r次迭代第k个聚类中心第i个数据点距离聚类中心的距离；

第3.2.5步、判断终止条件。如果||U^(r+1)-U^(r)||足够小，则算法结束；否则令r＝r+1并返回第3.2.2步。

其中，U^(r+1)表示第r+1次迭代矩阵U的值，U^(r)表示第r次迭代矩阵U的值，指定最大迭代次数MaxIter＝50；

第3.3步、获得模糊规则的前提部分。对每个输入变量获得模糊规则进行总结，就可以获得整个模糊模型的所有模糊规则前提部分。

第4步中所述的最小二乘法(Ordinary Least Square，简称OLS)估计多项式系数获得模糊规则库中所有模糊规则的结论具体过程：

估算多项式表达式的系数。此时，对于多项式表达式的系数可以采用最小二乘法(Ordinary Least Square，简称OLS)来估算。SA模糊模型的输出和实验数据之间系数的优化值是通过如下公式来决定：

a＝(X^TX)^-1X^TY

其中X表示输入数据矩阵，X^T表示矩阵X的转置，(X^TX)^-1是X^TX的逆矩阵，Y表示输出的分类，a表示多项式的系数；

根据信息分类模糊模型的网络入侵检测分类方法进行分类，并将最终的分类结果作为最终的识别结果。所述的方法是：根据构造出的模糊规则库，输入测试集中的数据，对数据进行识别，并输出最终的识别结果。

本发明的优点和有益效果：

本发明首先将构造的模糊规则库来进行入侵检测分类。模糊规则的构造包括前提和结论两部分，其中前提部分的构造基于硬聚类算法(Hard Clustering Method，简称HCM)，结论部分的构造则基于最小二乘法(Ordinary Least Square，简称OLS)。在测试集上进行分类并识别出最终结果。该发明能有效避免过拟合和维数灾难等问题，具有较强的鲁棒性和检测效果。

附图说明

图1是本发明信息分类模糊模型的网络入侵检测分类方法的算法流程图；

图2是10％KDDCup99数据集预处理流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

下面用模糊规则的构造包括前提和结论两部分对本发明的方法做具体说明。其中前提部分的构造基于硬聚类算法(Hard Clustering Method，简称HCM)，结论部分的构造则基于最小二乘法(Ordinary Least Square，简称OLS)。

图1对本发明提供的信息分类模糊模型的网络入侵检测分类方法进行了详细步骤说明，本发明提供的方法包括以下步骤：

第1步、设计多项式模糊模型的表示形式；

R¹：if x₁ is A₁ then z₁＝f₁(x₁)

R²：if x₂ is A₂ then z₂＝f₂(x₂)

……

Rⁿ：if x_n is A_n then z_n＝f_n(x_n)

如图2所示，本发明中10％KDDCup99数据集预处理主要包括以下步骤：

第2.1步、文本数值化：将符号类型数据变换为数值类型。在10％KDDCup99数据集中，protocol(协议)、service(服务)、flag(连接状态)三个属性是符号型变量，为了满足本发明分类算法的数据要求，需要对这些符号型变量进行数值化，变换为数值类型数据；

每条10％KDDCup99数据的符号类型数据，都有相应的数值类型数据进行数值化替换，对于协议类型(protocal_type)数据，共有3种：icmp，tcp，udp。分别赋值：1-icmp，2-tcp，3-udp。其它协议类型赋值4-others；

对于目标主机网络服务(service)数据，共有70种，如下所示：aol，auth，bgp，courier，csnet_ns，ctf，daytime，discard，domain，domain_u，echo，eco_i，ecr_i，efs，exec，finger，ftp，ftp_data，gopher，harvest，hostnames，http，http_2784，http_443，http_8001，imap4，IRC，iso_tsap，klogin，kshell，ldap，link，login，mtp，name，netbios_dgm，netbios_ns，netbios_ssn，netstat，nnsp，nntp，ntp_u，other，pm_dump，pop_2，pop_3，printer，private，red_i，remote_job，rje，shell，smtp，sql_net，ssh，sunrpc，supdup，systat，telnet，tftp_u，tim_i，time，urh_i，urp_i，uucp，uucp_path，vmnet，whois，X11，Z39_50。

对于其中的19种数据，分别赋值：domain-u 1，ecr_i 2，eco-i 3，finger 4，ftp-data 5，ftp 6，http 7，hostnames 8，imap4 9，login 10，mtp 11，netstat 12，other 13，private 14，smtp 15，systat 16，telnet 17，time 18，uucp 19。对于其它的51种数据，统一赋值：others 20；

对于连接状态(flag)数据，共有11种，如下所示：OTH，REJ，RSTO，RSTOS0，RSTR，S0，S1，S2，S3，SF，SH；

对于其中的7种数据分别进行赋值：1-REJ，2-RSTO，3-RSTR，4-S0，5-S3，6-SF，7-SH。其余4种数据统一赋值：8-OTHERS。

第2.2步、将10％KDDCup99数据集随机选择其中的80％的数据作为训练集，其余20％的数据作为测试集；

如图1所示，图1为本发明提供信息分类模糊模型的网络入侵检测分类方法的算法流程图。通过训练集，构造模糊规则库的前提部分和结论部分；

模糊规则的前提的构造主要包含以下步骤：

第3.2.3步、计算每个子类的中心点向量v_g：

第3.2.5步、判断终止条件。如果||U^(r+1)-U^(r)||足够小，则算法结束；否则令r＝r+1并返回第3.2.2步；

模糊规则的结论的构造过程是：

估算多项式表达式的系数，此时，对于多项式表达式的系数可以采用最小二乘法(Ordinary Least Square，简称OLS)来估算，SA模糊模型的输出和实验数据之间系数的优化值是通过如下公式来决定：

a＝(X^TX)^-1X^TY

其中X表示输入数据矩阵，X^T表示矩阵X的转置，(X^TX)^-1是X^TX的逆矩阵，Y表示输出的分类，a表示多项式的系数。

第5步、根据构造出的模糊规则库，输入测试集中的数据，对数据进行识别，并输出最终的识别结果。

其中，信息分类模糊模型的参数设置如下：模糊规则的数量设定为10，模糊隶属度函数个数设定为2；

我们将本发明所提供的方法的入侵检测准确率与C-支持向量机分类器(C-SVM)、K-means+C-SVM两种方法进行对比，实验结果如表1所示。本实验中，我们采取随机取样的方法采样，作为训练数据，SAMPLE_NUM(X)表示：

NUM：第NUM次随机抽样；

X％：抽样比例。

实验结果表明，本发明的入侵检测准确率在多数情况下优于其他两种入侵检测方法。

表1.在国际标准数据集10％KDDCup99上正确检测率的比较

测试样本	C-SVM	K-means+C-SVM	HCM+OLS
				SAMPLE_1(20％)	0.999089	0.999008	0.999410
SAMPLE_2(20％)	0.999200	0.999008	0.999668
				SAMPLE_3(20％)	0.999281	0.999180	0.999688

Claims

1.一种信息分类模糊模型的网络入侵检测分类方法，其特征包括以下步骤：

第1步、设计多项式模糊模型的表示形式；

多项式模糊模型的表示形式具体过程如下：

R¹：if x₁is A₁then z₁＝f₁(x₁)

R²：if x₂is A₂then z₂＝f₂(x₂)

……

Rⁿ：if x_nis A_nthen z_n＝f_n(x_n)

其中，Rⁱ表示第i条模糊规则，n表示模糊规则的总数；数据集X′＝{x₁，x₂，…，x_n}，x_i表示第i行输入数据；A_i为第i个模糊集或输入数据的聚类中心点，f_i(x_i)为第i行输入数据，第i条模型规则的输出多项式，z_i是第i条模型规则的输出多项式，i＝1，2，…，n；

模型的最终输出多项式表达式z＝f(x₁，x₂，...，x_n)的类型如下：

f＝a_j0+a_j1(x₁-v_1j)+...+a_ji(x_i-v_ij)+a_j(i+1)(x₁-v_1j)²+...+a_j(2i)(x_i-v_ij)²

其中f(x₁，x₂，...，x_n)表示所有输入数据的模型规则的输出多项式，a_ji表示第j行第i列输入数据的系数；v_ji表示第i个聚类中心第j个输入数据的中心点，它的具体值是通过第3.2步硬聚类算法HCM获得的；

第3步、将训练集中的数据输入硬聚类算法HCM得到模糊规则库中所有模糊规则的前提；

硬聚类算法HCM得到模糊规则库中所有模糊规则的前提具体过程如下：

第3.1步、选择模糊模型的输入数据x_j，j＝1，2，...，m，m＜＝N，其中N是数据集中输入数据的总个数，x_j表示第j行输入数据；

第3.2步、利用硬聚类算法HCM对数据集中每个选出的输入数据x_j进行聚类，获得第j个聚类中心A_j；

第3.2.1步、初始化聚类中心点的个数c，2≤c＜m；

第3.2.2步、初始化硬聚类算法HCM，划分矩阵U⁽⁰⁾∈M_C

其中，U⁽⁰⁾表示给定的初始值，集合u_gj，1≤g≤c，1≤j≤m，被映射成c×m的矩阵U＝[u_gj]，u_gj表示第g个聚类中心第j个数据点的值；

第3.2.3步、计算每个子类的中心点向量v_g：

其中，r表示迭代次数，表示第r次迭代第g个聚类的中心点向量，v_gk表示第g个聚类中心第k个输入数据的中心点值，k＝1，2，…，l，l表示模糊模型输入数据个数，/>表示第r次迭代第g个聚类中心第k个输入数据的中心点值，/>表示第r次迭代第g个聚类中心第j个数据的值，数据集X＝{x₁，x₂，…，x_m}，x_j＝[x_j1，…，x_j1]，x_jk表示第j行第k列的输入数据；

d_gj表示第g个聚类中心第j个数据点距离聚类中心的距离，x_j表示第j个输入数据，v_g表示第g个聚类的中心点向量，表示第r+1次迭代第g个聚类中心第j个输入数据的中心点值，/>表示第r次迭代第g个聚类中心第j个数据点距离聚类中心的距离，/>表示第r次迭代第k个聚类中心第j个数据点距离聚类中心的距离；

第3.2.5步、判断终止条件；如果||U^(r+1)-U^(r)||足够小，则算法结束；否则令r＝r+1并返回第3.2.2步；

第3.3步、获得模糊规则的前提部分；对每个输入数据获得模糊规则进行总结，就可以获得整个模糊模型的所有模糊规则的前提部分；

第4步、通过最小二乘法OLS估计多项式系数获得模糊规则库中所有模糊规则的结论；

最小二乘法OLS估计多项式系数获得模糊规则库中所有模糊规则的结论的具体过程如下：

估算多项式表达式的系数，对于多项式表达式的系数采用最小二乘法OLS来估算，SA模糊模型的输出和实验数据之间系数的优化值是通过如下公式来决定：

a＝(X^TX)^-1X^TY

其中X表示输入数据矩阵，X^T表示矩阵X的转置，(X^TX)^-1是X^TX的逆矩阵，Y表示输出的聚类，a表示多项式的系数；

2.根据权利要求1所述的信息分类模糊模型的网络入侵检测分类方法，其特征在于：第2步中所述的对国际标准数据集10％KDDCup99进行预处理的方法是：

第2.1步、数值标准化：将10％KDDCup99原始数据集中的每条记录中的文本类型，转换成数值类型；

第2.2步、将标准化后的数据集，按8∶2比例进行划分：随机选择80％的数据作为训练集，剩下的20％作为测试集。

3.根据权利要求1所述的信息分类模糊模型的网络入侵检测分类方法，其特征在于：所述第5步的具体过程是：根据构造出的模糊规则库，输入测试集中的数据，对数据进行识别，并输出最终的结果。