CN106789149B

CN106789149B - 采用改进型自组织特征神经网络聚类算法的入侵检测方法

Info

Publication number: CN106789149B
Application number: CN201611028230.4A
Authority: CN
Inventors: 王丹; 魏卓君; 赵文兵; 付利华; 杜晓林
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2020-08-14
Anticipated expiration: 2036-11-18
Also published as: CN106789149A

Abstract

本发明提供一种采用改进型自组织特征神经网络聚类算法的入侵检测方法，对云存储系统环境下日志文件数据进行数据清洗，利用基于双层聚类算法的一种自组织特征映射神经网络聚类方法对清洗后的日志数据进行训练，产生数据分类的结果，基于PCA算法进行异常分析从而达到入侵检测的目的。

Description

采用改进型自组织特征神经网络聚类算法的入侵检测方法

技术领域

本发明属于机器学习和入侵检测领域，尤其涉及一种采用自组织特征映射神经网络聚类算法实现云存储环境下的入侵检测方法。

背景技术

信息时代的迅速发展，各产业界正在往互联网+方向转型，随着网络化服务趋于大众化，网络安全问题成为众人关注的焦点。因此，入侵检测系统也进入人们的视野，它可以通过实时分析获取计算机系统、网络和用户的行为信息，以此来评估计算机系统和网络的安全性。另外，随着各产业界的数据量以爆炸式方式增长，云存储成为各界的翘楚，云存储作为新的存储模式，改变了传统计算机存储方式，但是其虚拟化、分布式、以及透过任何可连网的装置连接到云上方便地存取数据的特点给计算机系统，网络以及用户带来巨大的安全挑战。为了能有效的应对这些新的挑战，研究云存储环境下的入侵检测具有非常重要的意义。

自组织特征映射神经网络方法具有自组织的，无导师学习特性，同时还具有类似人类大脑思考问题的方式的特点，在很多领域都取得显著的效果，尤其是在异常检测方面，因此，将自组织特征神经网络算法(SOFM)应用于入侵检测领域已经引起了国内外相关学者的高度关注。但是针对目前SOFM算法的研究还不是很充足，传统SOFM算法初始阶段神经元的个数以及对应的权向量的确定影响算法执行过程中的准确率。另外，在训练阶段，神经元之间的邻域关系被不断地固化，已有的拓扑保持映射限制了训练过程中网络结构的生长，这在很大程度上取决于神经元的初始权向量随机产生以及待训练数据的输入顺序，若输入的权值向量太远以至于从未从竞争中获胜，因而也从未得到学习，容易形成“死神经元”。为了解决这个问题，学者们先后提出了一些自动创建更新的神经元模型：1)自创建组织神经网络(BCL)：采用基于几何测量方式的一种特殊节点分裂准则决定是否新生长新节点2)增长式自组织神经网络(GSOM)基于启发式边界值设置决定是否要生长新的节点。这些聚类技术结合先验知识动态调整簇结构，以达到最佳。通过局部最优调节或增加神经元，可改善上述提到的部分问题，但从现有神经元生长出新神经元会导致当前神经元存在位置偏离的可能性，同时“新神经元”与已存在神经元之间的耦合性也是需要考虑的地方。因此，需要研究一种新颖的SOFM算法来避免在神经元个数以及权向量选择上的盲目性，削减在训练样本数据集中容易“死神经元”的产生的可能。通过克服目前SOFM算法存在的不足以此对于提高该算法在云存储系统环境下的入侵检测具有非常重要的应用意义。

发明内容

本发明要解决的技术问题是，提供一种采用基于双层聚类的自组织特征映射神经网络聚类算法的云存储系统环境下的入侵检测方法。

为实现上述目的，本发明采用如下的技术方案：

一种采用改进型自组织特征神经网络聚类算法的入侵检测方法包括以下步骤：

步骤1、对云存储系统下的日志文件数据进行基于正则规则下的日志清洗工作得到样本训练集；

步骤2、基于双层聚类的自组织特征神经网络聚类算法对所述样本训练集进行数据分类，

步骤3、对每个分类数据集采用主成分分析算法(PCA)进行异常检测分析，实现入侵检测的目的。

作为优选，步骤1具体为：对云存储系统环境下的日志文件，采用基于时间序列下对日志文件进行基于正则表达式的特征属性提取工作，然后把这个时间序列下的特征属性对应的值构成一个特征向量存储到临时存储区，完成对数据的清洗工作。

作为优选，步骤2中首先采用双层聚类算法(Canopy)基于无监督学习的方式预测产生初始阶段的神经元的个数以及对应的权向量，用这个值作为改进的SOFM算法的初始神经元输入值；然后采用改进的自组织特征映射神经网络聚类方法SOFM算法通过簇内数据细化分来动态添加神经元阶段、偏离神经元调节阶段、相似神经元合并阶段，完成对输入样本数据的分类。

作为优选，步骤3中抽取云存储系统日志数据中正常的样本数据，利用采用主成分分析算法(PCA)建立主元模型确定主元个数，以及定义异常的控制限Q，其次分别求聚类算法分类出来的待测数据集的主元，得到待测数据集的统计量SPE，基于SPE以及Q实现异常入侵检测。

综上所述，本方法实现对云存储系统环境下异常的入侵检测，涉及到的主要方法是用基于双层聚类算法下改进的自组织特征神经网络算法来训练云存储系统中的日志数据，根据PCA算法进行异常分析，从而达到入侵检测的目的。整个方法在实施的过程中添加更多的自主学习的特性，减少人为控制的可能。另外，算法的实现过程采用Python语言编写开发，Python中提供大量的与数据处理有关的库numpy、pandas，以及图表库matplotlib用于可视化显示训练数据的被分到不同的簇的分布情况，可以简单直观的判断算法执行的效果，另外，Python具有可移植、快速的特点，对双层聚类下一种自组织特征映射神经网络聚类方法(SOFM)、主成分分析算法(PCA)的实现以及实际应用具有重要的意义。

附图说明

图1本发明采用改进型自组织特征神经网络聚类算法的入侵检测方法的流程图；

图2数据清洗的流程图；

图3改进的自组织特征映射神经网络聚类方法流程图；

图4调整偏离神经元特征描述图；

图5相似神经元合并特征描述图；

图6主成分分析算法(PCA)异常入侵检测的流程描述图。

具体实施方式

如图1所示，本发明提供一种采用改进型自组织特征神经网络聚类算法的入侵检测方法包括：由数据清洗、双层次聚类算法(Canopy)以及改进的自组织特征映射神经网络聚类方法(SOFM)以及异常入侵检测，具体如下：

1.1数据清洗

如图2所示，待检测数据来自于云存储系统环境下的日志文件，针对非结构化的日志文件这里需要进行数据的结构化初始化处理，以使得待检测数据满足输入格式。该算法描述如算法1所示。

算法1.数据清洗算法描述

输入：云存储系统下的日志文件log_file.txt,提取特征属性的正则表达式reg

输出：结构化的训练数据dataSet

1.遍历log_file.txt文件中的每一行记录record，如果遍历到最后一行则执行步骤4；:

2.如果record满足正则表达式reg，执行第3步，否则，执行第1步；

3.把满足条件的特征属性对应的值以列表的形式放到数组dataSet中，执行第1步；

4.返回dataSet,结束算法；

1.2Canopy算法

通过Canopy算法模糊确定神经元的个数以及对应的权向量来避免在运行SOFM算法初始阶段对神经元个数的盲目选择。该算法描述如算法2所示。

算法2.Canopy算法描述

输入：训练数据集dataSet,存放所有聚类中心的集合cano_center

输出：中心点的个数center_K以及对应的权向量center_W

1.dataSet集合为空；执行10否则，执行步骤2；

2.取dataSet[0]作为聚类中心center；

3.如果dataSet全部遍历结束；执行1否则，执行步骤4；

4.遍历dataSet[next]下一元素，当前设为x,计算distance(x,center)；

5.if distance<t1；执行步骤6；

6.center_arr.add(x)；//属于单个中心点的数据集

7.if distance<t2；执行步骤8；

8.dataSet.remove(x)；

9.cano_center.add(center_arr)；执行步骤3

10.center_K＝len(cano_center)//中心点的个数

11.center_W＝getCenter(cano_center)//中心点的权重

1.3改进的SOFM算法

改进的SOFM算法主要分为簇内数据细化分动态添加神经元、偏离神经元动态调整、相似神经元合并这三个阶段完成整个算法的实现，设计方案如图3所示；

(1)簇内数据细化分动态添加神经元

采用Canopy算法可以初步确定神经元的个数以及对应的神经元的权值向量，但由于Canopy算法是不太准确的聚类算法，执行Canopy算法得到的属于同一个簇内数据分布的情况，存在簇内数据局部密集，部分数据稀疏的可能，因此这里采用动态增长或不增长的方式细粒度的增长神经元的个数以及对应的权值向量。该算法的具体描述如算法3所示

算法3.簇内数据“细”化分动态添加神经元算法描述

输入：簇内满足待细分的数据范围域值thres,

待细划分的数据量大于域值thres2,

属于不同神经元对于的簇数据集clus_data,

神经元的个数count、权向量w[]

输出：神经元数据

1.初始化从第1个神经元对应得簇进行细化分index＝1

2.如果index>count；结束，否则执行步骤3；

3.count_1＝length(属于神经元index的训练样本clus_data)

4.初始化j＝0

5.如果j>count_1；执行步骤11，否则执行步骤4；

6.如果标准差(clus_data[index][j],w[index])>thres；执行步骤7，否则执行步骤8；

7.temp_data[]＝clus_data[index][j]

8.如果(count(temp_data)>thres2；执行步骤9否则执行步骤10；

9.运用Canopy距离算法确定当前Temp_data中的神经元个数，以及对应的权向量同时加入w中

10.j++；

11.index++；

(2)偏离神经元动态调节

在经过增长阶段的训练，会出现部分神经元偏离，另外神经元的更新是基于输入数据的顺序，输入数据的顺序不同最后神经元的更新也不一样，为了避免出现‘死神经元’的情况，需要对当前的神经元进行调整，这里基于同维度上最近最远原则，块内调整神经元，提出对簇内所有向量在同维度上取最近点、最远点、同时包含当前神经元三点构成的三角形然后把神经元调整为三角形的重心如图4所示。具体算法过程如算法4所示。

算法4.偏离神经元动态调节算法描述

输入：第i个神经对应的权向量w[i]，

神经元对应的簇数组clu_data[i][]

输出：w[i]

1.初始化j＝0；

2.计算clus_data[i]的维度是count；

3.如果j<count；执行步骤3；否则，结束；

4.min,max＝clus_data[i]中的数据在地j维度上的最大最小值对应的两个权向量

5.根据w[i]、min、max更新当前神经元w[i]＝(w[i]+min+max)/3

6.j++；执行步骤3；

(3)相似神经元的合并

增长阶段、神经元调整阶段是从局部最优原则出发，当前是以保证簇内以是不可再分状态，但是可能会出现如图5所示簇B与簇A足够融合的情况即d足够小的情况下，因此这时候要从全局最优角度对可能存在相对紧密的簇进行合并。具体过程如算法5所示。

算法5.相似神经元的合并算法描述

输入：神经元对应的权向量w、规定临近神经元可以合并的域值thres

神经元对应的簇数组clu_data[i][]

输出：w

1.初始化域值thres、i＝0；

2.计算神经元的个数count_1；

3.如果i<count_1-1；执行步骤3，否则执行步骤；

4.j＝i+1；

5.如果j<count_1；执行步骤6；否则，执行步骤9；

6.dist＝第i,j个神经元之间的距离；

7.dev＝thres*max(STD(clus_data[i],w[i]),STD(clus_data[j],w[j]))；

8.选择dev-dist最大的时候对应的j；

9.合并i，j神经元,同时更新为新的权向量；

10.i++；

1.4入侵检测

在经历过对云存储系统环境下的日志数据进行清洗、以及对清洗后的数据集应用基于双层次聚类算法一种改进的自组织特征神经网络算法以此达到对数据进行分类的目的，最后，为了能够识别异常情况，这里采用主成分分析算法(PCA)，这里验证规则是，取云存储系统日志数据中正常的一段样本数据，利用PCA算法建立主元模型确定主元个数，以及定义异常的控制限Q，其次分别求聚类算法分类出来的待测数据集的主元，得到待测数据集的统计量SPE，基于SPE以及Q达到异常入侵检测的目的，详细的PCA异常入侵检测的流程如图6所示。

本发明提供一种基于双层聚类算法下一种自组织特征映射神经网络聚类方法，通过采用双层聚类(Canopy)算法模糊确定初始化神经元的个数，并结合自适应调节的优点动态添加神经元、合并神经元，同时考虑同维度数据点距离神经元上最近最远原则自适应调整“偏离”神经元。传统的自组织特征映射神经网络聚类方法(SOFM)对于不同的样本输入次序以及神经元的初始权向量决定着SOFM方法的学习效率，还有“死神经元”的产生。相比传统SOFM方法，在自适应学习模式下，Canopy算法结合改进的SOFM聚类算法能够提高传统SOFM算法的学习率、避免“死神经元”的产生。通过对传统的SOFM方法的改进同时结合主成分分析算法(PCA)实现对云存储系统环境下的入侵检测，以此提高云存储系统环境下入侵检测的效果。此外，该方法采用python语言开发实现，python语言在数据分析及统计计算方面占有绝对优势，对双层聚类算法下的自组织特征映射神经网络聚类方法的实现以及主成分分析算法的实现有非常重要的实用意义。

Claims

1.一种采用改进型自组织特征神经网络聚类算法的入侵检测方法，其特征在于，包括以下步骤：

步骤1、对云存储系统下的日志文件数据进行基于正则规则下的日志清洗工作得到样本训练集,应用算法1实现：

算法1.数据清洗算法描述

输出：结构化的训练数据dataSet

1.遍历log_file.txt文件中的每一行记录record，如果遍历到最后一行则执行步骤4；

4.返回dataSet,结束算法；

所述步骤2中首先采用双层聚类中的Canopy算法基于无监督学习的方式预测产生初始阶段的神经元的个数以及对应的权向量，用这个值作为改进的SOFM算法的初始神经元输入值；应用算法2来实现，具体描述如下：

Canopy算法描述

输入：训练数据集dataSet,存放所有聚类中心的集合cano_center

输出：中心点的个数center_K以及对应的权向量center_W

1.dataSet集合为空；执行10否则，执行步骤2；

2.取dataSet[0]作为聚类中心center；

3.如果dataSet全部遍历结束；执行1否则，执行步骤4；

4.遍历dataSet[next]下一元素，当前设为x,计算distance(x,center)；

5.如果元素x与聚类中心center之间的距离小于t1；执行步骤6；

6.把元素x插入属于单个中心点的数据集合center_arr中；

7.如果元素x与聚类中心center之间的距离小于t2；执行步骤8；

8.从训练数据集dataSet中删除元素x；

9.把属于单个中心点的数据集合center_arr中的元素加入到聚类中心的集合cano_center中；执行步骤3

10.计算聚类中心的集合cano_center的长度以得到聚类中心点的个数center_K

11.将聚类中心的集合cano_center中的各个元素的权重存入权重向量集合center_W中，然后采用改进的自组织特征映射神经网络聚类方法SOFM算法通过簇内数据细化分来动态添加神经元阶段、偏离神经元调节阶段、相似神经元合并阶段，完成对输入样本数据的分类；簇内数据细化分来动态添加神经元阶段、偏离神经元调节阶段、相似神经元合并阶段由算法3,4,5来实现，具体描述如下：

算法3.簇内数据“细”化分动态添加神经元算法描述

输入：簇内满足待细分的数据范围域值thres,

待细划分的数据量大于域值thres2,

属于不同神经元对于的簇数据集clus_data,

神经元的个数count、权向量w[]

输出：神经元数据

1.初始化从第1个神经元对应得簇进行细化分index＝1

2.如果index>count；结束，否则执行步骤3；

3.count_1＝length(属于神经元index的训练样本clus_data)

4.初始化j＝0

5.如果j>count_1；执行步骤11，否则执行步骤4；

7.temp_data[]＝clus_data[index][j]

8.如果(count(temp_data)>thres2；执行步骤9否则执行步骤10；

10.j++；

11.index++；

算法4.偏离神经元动态调节算法描述

输入：第i个神经对应的权向量w[i]，

神经元对应的簇数组clu_data[i][]

输出：w[i]

1.初始化j＝0；

2.计算clus_data[i]的维度是count；

3.如果j<count；执行步骤3；否则，结束；

5.根据w[i]、min、max更新当前神经元w[i]＝(w[i]+min+max)/3

6.j++；执行步骤3；

算法5.相似神经元的合并算法描述

神经元对应的簇数组clu_data[i][]

输出：w

1.初始化域值thres、i＝0；

2.计算神经元的个数count_1；

3.如果i<count_1-1；执行步骤3，否则执行步骤；

4.j＝i+1；

5.如果j<count_1；执行步骤6；否则，执行步骤9；

6.dist＝第i,j个神经元之间的距离；

7.dev＝thres*max(STD(clus_data[i],w[i]),STD(clus_data[j],w[j]))；

8.选择dev-dist最大的时候对应的j；

9.合并i，j神经元,同时更新为新的权向量；

10.i++；

2.如权利要求1所述的采用改进型自组织特征神经网络聚类算法的入侵检测方法，其特征在于，步骤1具体为：对云存储系统环境下的日志文件，采用基于时间序列下对日志文件进行基于正则表达式的特征属性提取工作，然后把这个时间序列下的特征属性对应的值构成一个特征向量存储到临时存储区，完成对数据的清洗工作。

3.如权利要求1所述的采用改进型自组织特征神经网络聚类算法的入侵检测方法，其特征在于，步骤3中抽取云存储系统日志数据中正常的样本数据，利用采用主成分分析算法(PCA)建立主元模型确定主元个数，以及定义异常的控制限Q，其次分别求聚类算法分类出来的待测数据集的主元，得到待测数据集的统计量SPE，基于SPE以及Q实现异常入侵检测。