CN116192510B

CN116192510B - 一种基于大数据的校园网络公共安全管理方法及系统

Info

Publication number: CN116192510B
Application number: CN202310181108.4A
Authority: CN
Inventors: 郭尚志; 谢曦和; 童峰; 宋亮军; 徐时红
Original assignee: Hunan Qiangzhi Technology Development Co ltd
Current assignee: Hunan Qiangzhi Technology Development Co ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-09-26
Anticipated expiration: 2043-02-16
Also published as: CN116192510A

Abstract

本发明公开了一种基于大数据的校园网络公共安全管理方法及系统，所述方法包括大数据获取以及预处理，采用分类识别和分类挖掘结合的方法进行数据挖掘和数据分析，采用基于支持向量机的分类分析算法将网络异常数据进行分类识别，基于LSTM神经网络建立安全性预测模型，将挖掘的数据输入安全性预测模型进行安全性预测，根据安全性预测结果采取不同的应对方案。本发明基于分类识别和分类挖掘结合的方法进行校园网络大数据挖掘，提高了数据挖掘的精准性以及提高了数据挖掘的效率。采用结合改进狼群算法的LSTM神经网络模型进行安全性预测，实现了网络安全的有效性预测，提高了预测精度。

Description

一种基于大数据的校园网络公共安全管理方法及系统

技术领域

本发明涉及大数据网络安全领域，尤其是一种基于大数据的校园网络公共安全管理方法及系统。

背景技术

高校是一个特殊场所，教学与科研并存，且师生对校园网络的使用频率高，在5G融入校园网后，高速率、低时延、大带宽、大接入的5G化校园网更能满足师生教与学的需求，随着各种智能设备及智能终端的接入与访问，入侵、窃取、攻击等风险也给校园网络安全管理带来了更大的挑战。

现有技术中，对于校园网安全管理方法较为简单，通常都是对常见的病毒、入侵方式建立防火墙或者是漏洞扫描等方式，但是随着高校校园网络规模的不断扩大，校园网络面临的网络安全威胁和安全风险在不断增加，网络病毒、木马和各种网络攻击行为造成的损失越来越大，网络攻击行为向着分布式、规模化、复杂化等趋势发展，传统的网络防火墙、IDS、访问控制技术等网络安全防护技术，已经不能满足网络安全的需求。

发明内容

(一)解决的技术问题

为了解决上述技术问题，本发明提供一种基于大数据的校园网络公共安全管理方法及系统。该方法通过获取校园网络中大数据信息，并采用分类识别和分类挖掘结合的方法进行数据挖掘，并采用结合改进狼群算法的LSTM神经网络模型进行安全性预测，基于预测结果选择应对方案。

(二)技术方案

为了解决上述存在的技术问题，实现发明目的，本发明是通过以下技术方案实现的：

一种基于大数据的校园网络公共安全管理方法，包括如下步骤：

S1：大数据获取以及预处理，包括获取校园网络数据以及对数据进行预处理操作，将数据集中的特征属性转变为一致的格式；

S2：数据挖掘，具体为采用分类识别和分类挖掘结合的方法进行数据挖掘和数据分析，采用基于支持向量机的分类分析算法将网络异常数据进行分类识别；

S3：安全性预测模型建立，具体为基于LSTM神经网络建立安全性预测模型；

S4：将挖掘的数据输入安全性预测模型进行安全性预测，包括：

S41：进行数据清洗，并将清洗好的数据进行归一化处理，并将数据划分为训练集和测试集。

S42：初始化LSTM神经网络的参数以及网络结构，选择待优化参数，包括神经网络的两层隐含层神经元个数、学习率；

S43：基于改进的狼群算法得到隐含层神经元个数、学习率的最优值；

S44：结合训练集数据对神经网络模型进行神经网络模型训练，确定神经网络模型的参数；

S45：将挖掘得到的数据输入已确定参数的神经网络模型，得到安全性预测结果；

所述安全性预测结果包括正常、低风险、中风险以及高风险。

S5：基于预测结果选择应对方案，根据步骤S4得到的安全性预测结果采取不同的应对方案，对于正常情况不进行响应，对于低风险情况，进行弹窗警示，对于中风险情况进行隔离可疑危险数据源操作，对于高风险情况直接进行危险源数据删除操作。

进一步的，所述步骤S1中预处理操作包括符号特征数字化和规范化。

进一步的，所述步骤S2包括：

S21：自适应阈值的网络异常检测；

S22：对步骤S21检测到异常的数据进行数据分类识别；

S23：对不同种类的入侵攻击采用不同的数据挖掘方法。

进一步的，所述步骤S21包括:

S211：读取网络流量数据，提取数据特征；

S212：根据收集的流量数据特征，通过异常检测模型进行量化分析得到异常分数集D＝{S_i,i＝1,2,…,n}；

S213：根据步骤S212所得的异常得分集D以及设定好的置信区间判定异常得分是否超出置信区间范围之外，若超出了置信区间范围，则判定含有异常数据，反之全部是正常数据；

S214：如果判定为含有异常数据，根据步骤S212的异常得分集D，利用粒子群算法更新粒子群位置(即异常率)和速度，并且通过计算目标函数的适应度来求得最优异常率，所述目标函数的适应度计算方法如下：

其中，A为正常数据集、B为预测的正常数据集、C为异常数据集，VAR为方差。

S215：根据步骤S214计算获得的异常率，进而计算出最优阈值λ。

S216：通过步骤S212所得的异常得分与阈值进行比较，若S_i<λ，则判断当前网络情况正常；否则判断当前网络发生异常。

进一步的，所述步骤S22基于支持向量机的方法对异常数据进行分类，得到不同类型的入侵攻击，包括：

数据预处理，获得数据异常类型特征；进一步将数据异常类型特征输入支持向量机模型进行分类，得到分类结果；

所述数据异常类型特征包括信息增益，链路传输时间，协议类型、端口、传输数据包总大小、最大值、最小值、平均值、标准差，数据包之间时间间隔。

进一步的，所述步骤S23包括：

S231：对分布式拒绝服务攻击采用改进的Apriori关联分析挖掘算法进行数据挖掘；

S232：对僵尸网络、木马和蠕虫的攻击采用面向对象分析方法进行数据挖掘；

S233：对高级可持续性威胁采用沙箱技术进行数据挖掘。

进一步的，所述S231具体步骤如下：

(1)通过数据采集模块收集当前网络中的数据包同时获取网络流量；

(2)把获得的流量传送至流量检测模块，并与正常情况下的流量阈值相比，如果超出则数据挖掘模块对数据包进行检测，如果未超出，则正常并继续监测；

(3)在检测数据包时，采用Apriori挖掘数据的流量特征，再使用如下算法来对其进行判别：

设定一个阈值并通过正常行为模式和在含有网络入侵的数据集中挖掘出的模式对比后得出阈值距离，进行发生网络入侵行为模式判定，采用MEOM函数求解两种模式距离，具体如下述公式所示：

向量X和向量Y的距离，如下式所示：

其中：n为属性数量，b为向量属性,θ为各属性的权值。用Dis(X,Y)描述向量间距离，其值越小表示两个向量间距离越大，向量X为正常向量，向量Y为异常向量。

通过将计算得到的Dis(X,Y)值与设定阈值相比较，判定是否存在网络入侵的数据。

进一步判别异常流量的产生是否来源于DDoS攻击。

进一步的，所述步骤S3包括：

(1)通过改进的狼群算法计算模型初始化参数；

(2)数据输入输入层，将原始数据进行清洗，进行数据归一化、标准化处理；

(3)数据输入隐藏层，可选的，模型包含两个隐藏层；

(4)输出层输出结果，将隐藏层输出的数据进行迭代预测，反归一化，得到安全性预测结果。

本发明还提供一种基于大数据的校园网络公共安全管理系统，其包括：

大数据获取及预处理模块，其用于获取校园网络数据以及数据预处理，将数据集中的特征属性转变为一致的格式；

数据挖掘模块，其用于采用分类识别和分类挖掘结合的方法

安全性预测模型建立模块，其用于建立结结合改进狼群算法的LSTM神经网络模型

安全性预测模块，其用于获取安全性预测结果；

应对模块，其用于根据安全性预测模块得到的安全性预测结果采取不同的应对方案，对于正常情况不进行响应，对于低风险情况，进行弹窗警示，对于中风险情况进行隔离可疑危险数据源操作，对于高风险情况直接进行危险源数据删除操作。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于大数据的校园网络公共安全管理方法的数据加密程序指令，所述基于大数据的校园网络公共安全管理的数据保护程序指令可被一个或者多个处理器执行，以实现如上所述的基于大数据的校园网络公共安全管理方法的步骤。

(三)有益效果

与现有技术相比，本发明的有益效果为：

(1)基于分类识别和分类挖掘结合的方法进行校园网络大数据挖掘，实现了分类挖掘，提高了数据挖掘的精准性以及提高了数据挖掘的效率。

(2)采用结合改进狼群算法的LSTM神经网络模型进行安全性预测，实现了网络安全的有效性预测，提高了预测精度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种基于大数据的校园网络公共安全管理方法流程示意图。

图2是是根据本申请实施例的数据挖掘方法示意图。

图3是根据本申请实施例的安全性预测模型建立示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

参见图1，一种基于大数据的校园网络公共安全管理方法包括以下步骤：

S1：大数据获取以及预处理

S11：获取校园网络数据，包括校园网各个应用系统，例如图书借阅系统、教务系统、考试系统等、包括路由器、交换机、防火墙的网络设备、上网行为系统、校园网监控的网络数据。

校园网络安全因素包括多个方面，有来自校园网内部与外部的攻击、服务器操作系统自身的安全、恶意攻击、病毒、漏洞等。因此需要多方面分析数据：一方面各应用系统产生更多的数据，需要不断的存储，另一方面需要对历史数据进行保存，以便和当前数据进行对比。同时，各系统产生的数据标准不一致，类型多样，对数据挖掘提出了巨大的挑战。

S12：数据预处理。对数据进行预处理操作，将数据集中的特征属性转变为一致的格式，便于后续对其进行处理。具体的预处理操作包括符号特征数字化和规范化。

S2：数据挖掘

校园网络主要通过网络传输业务数据和大量实时监控信息的传输，所以需要对网络进行实时安全关联分析，以保证网络系统安全稳定的运行。针对校园网络中的各类业务数据和海量的信息，本发明数据挖掘采用分类识别和分类挖掘结合的方法，通过监测异常流量数据进行数据挖掘和数据分析，采用基于支持向量机的分类分析算法将网络异常数据进行分类挖掘，并结合相关规则挖掘算法，从中获得隐藏的信息，从而实现校园网络大数据的数据挖掘。

S21：自适应阈值的网络异常检测

自适应阈值的网络异常检测算法相关步骤具体如下：

S211：读取网络流量数据，提取数据特征；

S22：对步骤S21检测到异常的数据进行数据分类识别。

基于支持向量机的方法对异常数据进行分类，得到不同类型的入侵攻击。包括：

数据预处理，获得数据异常类型特征；进一步将数据异常类型特征输入支持向量机模型进行分类，得到分类结果。

S23：对不同种类的入侵攻击采用不同的数据挖掘方法。包括：

S231：对分布式拒绝服务攻击采用改进的Apriori关联分析挖掘算法进行数据挖掘。

具体步骤如下：

向量X和向量Y的距离，如下式所示：

进一步判别异常流量的产生是否来源于DDoS攻击。

(4)依据数据挖掘模块检测得到的判别结果，如果异常流量来源于DDoS攻击立即报警。

S232：对僵尸网络、木马和蠕虫的攻击采用面向对象分析方法进行数据挖掘。

具体步骤如下：

(1)对压缩过或经过加壳操作后的可疑PE文件进行解压或脱壳操作并对文件进行剖析；

(2)将API函数导出，导出的函数经过API数据库查询获取一个特定的序列号；

(3)采用面向对象分析的数据挖掘算法学习特征数据库并形成相应的规则生成器，再挖掘出针对该目标的关联规则，形成规则库；

(4)规则库内的规则用于与导出的API调用序列号相比进行检测，如果检测出与某一条规则契合，则该文件为病毒。

S233：对高级可持续性威胁采用沙箱技术进行数据挖掘。

具体步骤如下：

(1)利用虚拟化技术构建一个和本地系统内的进程对象等相互分隔的模拟环境；

(2)在模拟环境中可以对文件等行为进行测试，并利用重定向技术把测试产生以及更改过的文件定向到相应文件夹内；

(3)把当前流量引入沙箱中，测试并观察沙箱内的文件、进程、注册表等情况，判别当前流量中是否含有恶意代码；

(4)对于不信任的文件，沙箱会记录下其可疑行为，并及时制止文件的恶意操作后，系统恢复原状；若发现了攻击，沙箱技术能够立即对其进行分析，获得其特征码，从而预防其攻击。

S3：安全性预测模型建立

基于LSTM神经网络具有较强的自适应学习能力，易处理复杂样本且效果较优，且有细胞记忆功能，可避免梯度随着时间增加而消失，拥有更好的泛化能力的优点。本发明基于LSTM神经网络建立安全性预测模型，具体包括：

(1)通过改进的狼群算法计算模型初始化参数；

(3)数据输入隐藏层，可选的，模型包含两个隐藏层；

其中，所述改进的狼群算法包括：

(1)狼群初始化：假设狼群的猎物分布范围是一个N×D的欧几里得空间，其中N是狼群中狼的数量，D是变量数。初始狼群是在解空间内随机的分布的，采用下式在D维解空间内随机分布N匹狼：

其中：第d维解空间的上界是对应着的下界是/>rand是(0,1)内的随机数。

(2)头狼产生规则：第i匹狼的适应度函数表示为下式：

Y_i＝f(X_i)

根据目标函数值的大小来确定距离猎物的远近程度，狼群初始化后，选取适应度函数值最优的，记为Y_lead。

(3)探狼游走行为：探狼i向第p(P＝1,2,…,h)个方向前进后，在第d维空间中的位置：

其中：step_a是探狼游走步长，γ∈[-1,1]是探狼搜索因子。

(4)头狼召唤行为：在狼群的探狼将侦查结束之后，根据头狼所在位置，设定M_num匹猛狼向头狼位置快速靠拢；

猛狼以step_b的奔袭步长奔向头狼所在位置，猛狼i的位置更新如下式：

其中：表示第k次迭代、第d维空间中头狼中的位置。

(5)猛狼围攻行为：猛狼以step_c的围攻步长向头狼靠近，其中狼i在第k+1次迭代中，在第d维空间中的位置为：

其中：为[-1,1]分布的随机数。若实施围攻后，狼i的适应度函数值优原位置的适应度值，则更新狼的位置；否则，狼位置不变。

(6)种群更新策略：每一代狼群求出最优解之后，随机按照一定的比例更新狼群位置，将R只狼的位置按照下式重新更新，随机淘汰[n/(2β),n/β]只狼，R的取值如下：

其中：rand∈(0,1)内的随机数，β是比例更新因子。

S42：初始化LSTM神经网络的参数以及网络结构，选择待优化参数，包括神经网络的两层隐含层神经元个数、学习率。

S43：基于改进的狼群算法得到隐含层神经元个数、学习率的最优值。

S44：结合训练集数据对神经网络模型进行神经网络模型训练，确定神经网络模型的参数。

S45：将挖掘得到的数据输入已确定参数的神经网络模型，得到安全性预测结果。

S5：基于预测结果选择应对方案

根据步骤S4得到的安全性预测结果采取不同的应对方案，对于正常情况不进行响应，对于低风险情况，进行弹窗警示，对于中风险情况进行隔离可疑危险数据源操作，对于高风险情况直接进行危险源数据删除操作。

在本实施方式中，通过基于分类识别和分类挖掘结合的方法进行校园网络大数据挖掘，实现了分类挖掘，提高了数据挖掘的精准性以及提高了数据挖掘的效率。采用结合改进狼群算法的LSTM神经网络模型进行安全性预测，实现了网络安全的有效性预测，提高了预测精度。

本发明实施例还提出一种基于大数据的校园网络公共安全管理系统，包括：

数据挖掘模块，其用于采用分类识别和分类挖掘结合的方法进行数据挖掘；

安全性预测模型建立模块，其用于建立结结合改进狼群算法的LSTM神经网络模型；

安全性预测模块，其用于获取安全性预测结果；

此外，本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于大数据的校园网络公共安全管理方法的数据加密程序指令，所述基于大数据的校园网络公共安全管理程序指令可被一个或者多个处理器执行，以实现如上所述的基于大数据的校园网络公共安全管理方法的步骤。

以上所述的实施例仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于大数据的校园网络公共安全管理方法，其特征在于，包括如下步骤：

S41：进行数据清洗，并将清洗好的数据进行归一化处理，并将数据划分为训练集和测试集；

所述安全性预测结果包括正常、低风险、中风险以及高风险；

2.根据权利要求1所述的基于大数据的校园网络公共安全管理方法，其特征在于，所述步骤S1中预处理操作包括符号特征数字化和规范化。

3.根据权利要求1所述的基于大数据的校园网络公共安全管理方法，其特征在于，所述步骤S2包括：

S21：自适应阈值的网络异常检测；

S22：对步骤S21检测到异常的数据进行数据分类识别；

S23：对不同种类的入侵攻击采用不同的数据挖掘方法。

4.根据权利要求3所述的基于大数据的校园网络公共安全管理方法，其特征在于，所述步骤S21包括:

S211：读取网络流量数据，提取数据特征；

S212：根据收集的流量数据特征，通过异常检测模型进行量化分析得到异常分数集；

S213：根据步骤S212所得的异常得分集以及设定好的置信区间判定异常得分是否超出置信区间范围之外，若超出了置信区间范围，则判定含有异常数据，反之全部是正常数据；

S214：如果判定为含有异常数据，根据步骤S212的异常得分集，利用粒子群算法更新粒子群位置和速度，所述粒子群位置对应异常率，并且通过计算目标函数的适应度来求得最优异常率，所述目标函数的适应度计算方法如下：

；

其中，A为正常数据集、B为预测的正常数据集、C为异常数据集，VAR为方差；

S215：根据步骤S214计算获得的异常率，进而计算出最优阈值；

S216：通过步骤S212所得的异常得分与阈值进行比较，若，则判断当前网络情况正常；否则判断当前网络发生异常。

5.根据权利要求3所述的基于大数据的校园网络公共安全管理方法，其特征在于，所述步骤S22基于支持向量机的方法对异常数据进行分类，得到不同类型的入侵攻击，包括：

6.根据权利要求5所述的基于大数据的校园网络公共安全管理方法，其特征在于，所述步骤S23包括：

S233：对高级可持续性威胁采用沙箱技术进行数据挖掘。

7.根据权利要求6所述的基于大数据的校园网络公共安全管理方法，其特征在于，所述S231具体步骤如下：

（1）通过数据采集模块收集当前网络中的数据包同时获取网络流量；

（2）把获得的流量传送至流量检测模块，并与正常情况下的流量阈值相比，如果超出则数据挖掘模块对数据包进行检测，如果未超出，则正常并继续监测；

（3）在检测数据包时，采用Apriori挖掘数据的流量特征，再使用如下算法来对其进行判别：

；

向量和向量/>的距离，如下式所示：

；

其中：n为属性数量，b为向量属性, 为各属性的权值，用/>描述向量间距离，其值越小表示两个向量间距离越大，向量X为正常向量，向量Y为异常向量；

通过将计算得到的值与设定阈值相比较，判定是否存在网络入侵的数据；

进一步判别异常流量的产生是否来源于分布式拒绝服务攻击。

8.根据权利要求1所述的基于大数据的校园网络公共安全管理方法，其特征在于，所述步骤S3包括：

（1）通过改进的狼群算法计算模型初始化参数；

（2）数据输入输入层，将原始数据进行清洗，进行数据归一化、标准化处理；

（3）数据输入隐藏层，模型包含两个隐藏层；

（4）输出层输出结果，将隐藏层输出的数据进行迭代预测，反归一化，得到安全性预测结果。

9.一种基于如权利要求1-8任一项所述的基于大数据的校园网络公共安全管理方法的系统，其包括：

数据挖掘模块，其用于采用分类识别和分类挖掘结合的方法；

安全性预测模块，其用于获取安全性预测结果；