CN114037145B

CN114037145B - 一种网络安全态势预测方法及系统

Info

Publication number: CN114037145B
Application number: CN202111306520.1A
Authority: CN
Inventors: 赵冬梅; 吴亚星; 张依然; 孙明伟; 宿梦月
Original assignee: Hebei Normal University
Current assignee: Hebei Normal University
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-10-28
Anticipated expiration: 2041-11-05
Also published as: CN114037145A

Abstract

本发明涉及了一种网络安全态势预测方法及系统，所述预测方法包括如下步骤：计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列；根据BiLSTM模型的输入层的神经元的个数设置滑动窗口，利用滑动窗口对所述态势值时间序列进行划分，获得多个态势值时间子序列；以每个态势值时间子序列前m个态势值为输入样本，以态势值时间子序列的最后一个态势值作为输出结果，构建样本数据集；利用样本数据集和粒子群算法，确定BiLSTM模型的网络参数，得到训练后的BiLSTM模型；利用训练后的BiLSTM模型对未来预设时段的攻击样本的态势值进行预测。本发明基于粒子群算法和BiLSTM模型实现了未来时段的网络态势的预测。

Description

一种网络安全态势预测方法及系统

技术领域

本发明涉及网络安全技术领域，特别是涉及一种网络安全态势预测方法及系统。

背景技术

根据中国的国家计算机网络应急技术处理协调中心(CNCERT/CC)发布了《2021年上半年我国互联网网络安全监测数据分析报告》，报告中显示我国上半年捕获恶意程序样本数量约2,307万个，日均传播次数达582万余次，涉及恶意程序家族约20.8万个。中国境内感染计算机恶意程序的主机数量约446万台，同比增长46.8％。中国的国家信息安全漏洞共享平台(CNVD)收录通用型安全漏洞13,083个，同比增长18.2％。中国境内网站仿冒页面约1.3万余个，同比增加31.2％。报告中一串串的数字表明当下网络安全问题极为严峻，而传统的网络安全设施如反病毒软件、漏洞扫描等被动防护体系已经遭遇了瓶颈。能够及时地评估当前网络安全状况，并且能够以当前和过去的安全状况为基础，对接下来一段时间的网络安全态势变化趋势进行预测对保护资源安全尤为关键，因此网络安全态势预测的研究具有迫切的需求。

发明内容

本发明的目的是提供一种网络安全态势预测方法及系统，以实现根据过去和当前时刻的态势状况之间存在的规律预测未来的一段时间的网络态势变化趋势，采用这种主动的防护技术使相关人员能够对网络安全态势进行更高层次的了解，为做出合理的决策提供依据。

为实现上述目的，本发明提供了如下方案：

本发明提供一种网络安全态势预测方法，所述预测方法包括如下步骤：

计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列；

根据BiLSTM模型的输入层的神经元的个数设置滑动窗口，利用所述滑动窗口对所述态势值时间序列进行划分，获得多个态势值时间子序列；其中，态势值时间子序列中态势值的数量为m+1，m为BiLSTM模型的输入层的神经元的个数；

以每个所述态势值时间子序列前m个态势值为输入样本，以所述态势值时间子序列的最后一个态势值作为输出结果，构建样本数据集；

利用所述样本数据集和粒子群算法，确定所述BiLSTM模型的网络参数，得到训练后的BiLSTM模型；

利用训练后的BiLSTM模型对未来预设时段的攻击样本的态势值进行预测。

可选的，所述计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列，具体包括：

利用公式

计算每个历史预设时段内的攻击样本的态势值；

其中，x_j表示第j个历史预设时段内的攻击样本的态势值，N_j表示第j个历史预设时段内的攻击样本数量，X_i为第j个历史预设时段内的第i个攻击样本对网络安全的威胁值；

将每个历史预设时段内的攻击样本的态势值组成态势值时间序列(x₁,x₂,...,x_j,...,x_n)；

其中，n表示历史预设时段的数量。

可选的，所述粒子群算法的速度和位置更新公式为：

其中，

和

分别表示第k+1次和第k次迭代过程中的第l个粒子的速度向量，

和

分别表示第k+1次和第k次迭代过程中的第l个粒子的位置向量，r₁和r₂分别表示[0，1]之间的第一随机数和第二随机数，

和

分别表示第l个粒子在第k次迭代的个体最优位置和全局最优位置；

w表示惯性权重因子：

w＝-π*arcsin(0.01*(k-max_iter))，max_iter表示最大迭代次数；

c₁和c₂分别表示第一加速因子和第二加速因子：

c₁＝c_1max-(c_1max-c_1min)*((k)/(max_iter))*2；

c₂＝c_2max-(c_2max-c_2min)*((k)/(max_iter))*2；

其中，c_1max和c_1min分别表示第一加速因子的最大值和最小值，c_2max和c_2min分别表示第二加速因子的最大值和最小值。

可选的，所述粒子群算法的适应度函数为：将粒子的位置向量设置为BiLSTM模型的网络参数时，所述BiLSTM模型的损失值。

可选的，BiLSTM模型的网络参数包括BiLSTM模型的学习率、模型迭代次数、第一层隐含层单元数、第二层隐含层单元数和随机种子。

一种网络安全态势预测系统，所述预测系统包括：

态势值计算模块，用于计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列；

态势值时间序列划分模块，用于根据BiLSTM模型的输入层的神经元的个数设置滑动窗口，利用所述滑动窗口对所述态势值时间序列进行划分，获得多个态势值时间子序列；其中，态势值时间子序列中态势值的数量为m+1，m为BiLSTM模型的输入层的神经元的个数；

样本数据集构建模块，用于以每个所述态势值时间子序列前m个态势值为输入样本，以所述态势值时间子序列的最后一个态势值作为输出结果，构建样本数据集；

BiLSTM模型的网络参数确定模块，用于利用所述样本数据集和粒子群算法，确定所述BiLSTM模型的网络参数，得到训练后的BiLSTM模型；

态势值预测模块，用于利用训练后的BiLSTM模型对未来预设时段的攻击样本的态势值进行预测。

可选的，所述态势值计算模块，具体包括：

态势值计算子模块，用于利用公式

计算每个历史预设时段内的攻击样本的态势值；

态势值时间序列构建子模块，用于将每个历史预设时段内的攻击样本的态势值组成态势值时间序列(x₁,x₂,...,x_j,...,x_n)；

其中，n表示历史预设时段的数量。

可选的，所述粒子群算法的速度和位置更新公式为：

其中，

和

和

和

w表示惯性权重因子：

w＝-π*arcsin(0.01*(k-max_iter))，max_iter表示最大迭代次数；

c₁和c₂分别表示第一加速因子和第二加速因子：

c₁＝c_1max-(c_1max-c_1min)*((k)/(max_iter))*2；

c₂＝c_2max-(c_2max-c_2min)*((k)/(max_iter))*2；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种网络安全态势预测方法及系统，所述预测方法包括如下步骤：计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列；根据BiLSTM模型的输入层的神经元的个数设置滑动窗口，利用所述滑动窗口对所述态势值时间序列进行划分，获得多个态势值时间子序列；其中，态势值时间子序列中态势值的数量为m+1，m为BiLSTM模型的输入层的神经元的个数；以每个所述态势值时间子序列前m个态势值为输入样本，以所述态势值时间子序列的最后一个态势值作为输出结果，构建样本数据集；利用所述样本数据集和粒子群算法，确定所述BiLSTM模型的网络参数，得到训练后的BiLSTM模型；利用训练后的BiLSTM模型对未来预设时段的攻击样本的态势值进行预测。本发明基于粒子群算法和BiLSTM模型实现了未来时段的网络态势的预测。

本发明还对粒子群算法的惯性权重因子和加速因子进行改进，以使速度的变化变为非线性，避免粒子群算法陷入局部最优解，提高粒子群算法的计算速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种网络安全态势预测方法的流程图；

图2为本发明提供的一种网络安全态势预测方法的原理图；

图3为本发明提供的IPSO-LSTM和PSO-LSTM的预测结果对比图；

图4为本发明提供的窗口大小为2时不同算法的预测结果对比图；

图5为本发明提供的窗口大小为3时不同算法的预测结果对比图；

图6为本发明提供的不同算法的拟合度对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

目前的研究当中，在网络安全态势预测方面并没有考虑到数据之间的前后信息关联性，而恰恰网络攻击存在逻辑上的关联性，这一不足抑制了其预测效果。本发明针对复杂的网络安全态势预测问题，为了提高预测的收敛速度和预测精度，提出了一种基于改进粒子群优化双向长短期记忆(Improved Particle Swarm Optimization BidirectionalLong Short Term Memory，IPSO-BiLSTM)网络的网络安全态势预测模型。首先，针对所用数据集没有真实态势值，本发明提出了一种基于攻击影响的态势值计算方法用于态势预测。其次，针对粒子群(PSO)算法易陷入局部最优值，搜索能力不均衡等问题，本发明对惯性权重和加速因子进行改进，改进后的粒子群(IPSO)算法全局和局部搜索能力平衡，收敛速度更快。最后，使用IPSO优化双向长短期记忆(BiLSTM)网络参数，提升预测能力。通过实验结果表明，本发明提出的方法比粒子群优化双向长短期记忆(Particle Swarm OptimizationBidirectional Long Short Term Memory，PSO-BiLSTM)网络、粒子群优化长短期记忆(Particle Swarm Optimization Long Short Term Memory，PSO-LSTM)网络、传统的双向长短期记忆网络(Bidirectional Long Short Term Memory，BiLSTM)等模型预测拟合效果更好、收敛速度更快，对网络安全态势预测技术的发展具有一定意义。

具体的，如图1和2所示，本发明提供一种网络安全态势预测方法，所述预测方法包括如下步骤：

步骤101，计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列。

步骤101，所述计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列，具体包括：利用公式

计算每个历史预设时段内的攻击样本的态势值；其中，x_j表示第j个历史预设时段内的攻击样本的态势值，N_j表示第j个历史预设时段内的攻击样本数量，X_i为第j个历史预设时段内的第i个攻击样本对网络安全的威胁值；将每个历史预设时段内的攻击样本的态势值组成态势值时间序列(x₁,x₂,...,x_j,...,x_n)；其中，n表示历史预设时段的数量。

具体的，在本发明中的实验采用网络安全领域的UNSW-NB15数据集，该数据集的原始网络数据包是由新南威尔士大学网络实验室在2015年的1月22日和2月17日利用IXIA工具收集，其所采集的数据包含了49个特征，其中攻击行为有9种。选取UNSW_NB15_training-set.csv和UNSW_NB15_testing-set.csv作为训练集和测试集，训练集包含175341条数据，测试集包含82232条数据。

针对当前大多数数据集中并没有直接反应网络安全程度的真实态势值这一问题，本发明将通过网络攻击影响对网络态势进行分析，基于网络攻击因子的态势评估指标包括：

(1)攻击数量因子：攻击数量因子为一个时间段内的攻击样本数量，用N表示。

(2)攻击威胁因子。攻击威胁因子为不同攻击类型对网络安全威胁值用X_i表示。

网络中t时间段的态势值SA为：

根据攻击样本的时序，将每3000个样本划分为一个时间段，根据式(1)计算完成后，将所有时间段的SA映射到[0，1]之间，最终训练集由58个时间段构成，测试集由27个时间段构成。由于数据集的采集本身就具有时序性，且根据攻击影响生成态势值具有很强的代表性，故本发明所用数据集的真实态势值计算方法具有一定的可行性。其中，态势值SA在构建态势值时间序列用x表示。

步骤102，根据BiLSTM模型的输入层的神经元的个数设置滑动窗口，利用所述滑动窗口对所述态势值时间序列进行划分，获得多个态势值时间子序列。

根据步骤101计算得到真实态势值，然后根据滑动窗口思想和BiLSTM中输入层步数(time_step)参数异曲同工的特点，本发明将用于预测的态势值数据集根据其时间顺序进行划分，划分后的数据集结构如表1所示。

表1 用于预测的数据集结构

表中：n代表样本数，m+1代表滑动窗口大小，在预测时LSTM中输入层神经元个数等于m，因本发明为单变量预测问题，所以输出层LSTM神经元个数设置为1。

步骤103，以每个所述态势值时间子序列前m个态势值为输入样本，以所述态势值时间子序列的最后一个态势值作为输出结果，构建样本数据集。

步骤104，利用所述样本数据集和粒子群算法，确定所述BiLSTM模型的网络参数，得到训练后的BiLSTM模型。

步骤104所述利用所述样本数据集和粒子群算法，确定所述BiLSTM模型的网络参数，得到训练后的BiLSTM模型，具体包括：

步骤1：初始化IPSO中的相关参数：搜索维度D，粒子数pN，加速因子c₁和c₂的最大最小值，最大迭代次数max_iter，粒子的初始位置

和初始速度

惯性权重因子w和加速因子c₁和c₂在迭代中按照公式(4)-(6)自动生成，学习因子r₁和r₂在迭代中自动生成为[0,1]之间的数值。

在传统粒子群算法中，每一次迭代群体中的粒子通过速度来决定其搜寻的方向和距离，基本粒子群速度和位置更新公式如下：

其中，k表示当前迭代数，w代表惯性权重因子，即粒子继承上一次迭代速度的能力，c₁和c₂代表加速因子，加速因子用于调节每次迭代个体最优解和全局最优解对速度的影响，r₁和r₂是[0，1]之间的随机数。

和

分别代表第l个粒子的第d维空间在第k次迭代的速度和位置，

和

分别代表第l个粒子的第d维空间在第k次迭代的个体最优位置和全局最优位置。

在传统粒子群算法中，其惯性权重因子和加速因子都是预先设定的固定值，这可能会使算法陷入局部最优值，同时算法的全局搜索能力和局部搜索能力也会不平衡。为此，本发明对惯性权重因子和加速因子进行改进，使速度的变化由线性变为非线性。

对惯性权重因子w的改进如下：

w＝-π*arcsin(0.01*(k-max_iter)) (4)

对加速因子和c2的值如下：

c₁＝c_1max-(c_1max-c_1min)*((k)/(max_iter))**2 (5)

c₂＝c_2max-(c_2max-c_2min)*((k)/(max_iter))**2 (6)

式中：k代表当前迭代次数，max_iter代表最大迭代次数，c_1max和c_1min分别代表c₁的最大值和最小值，c_2max和c_2min分别代表c₂的最大值和最小值。

对本发明中改进粒子群的效果进行了相关实验，实验中将BiLSTM中的训练迭代次数、学习率、第一层神经元个数、第二层神经元个数、随机种子作为粒子群中的目标优化参数，其中适应度函数为损失函数损失值，在窗口大小为2时，对IPSO-LSTM和普遍用到的PSO-LSTM模型进行了对比，对比结果如附图3所示。

通过观察对比结果，可以证明IPSO算法在前期全局搜索能力较好，后期局部搜索能力较好，平衡了全局搜索能力和局部搜索能力，可以更快的找到最优解，效果优于PSO算法。

步骤2：设定待优化的粒子中每个维度的取值范围，粒子维度：(α，iterator，n₁，n₂，s)，分别代表BiLSTM模型中的学习率，模型迭代次数，第一层隐含层单元数，第二层隐含层单元数，随机种子。

步骤3：设定粒子群算法的适应度函数，随机生成粒子群的初始位置，计算每个粒子的初始适应度值得到初始时的个体最优解

和全局最优解

步骤4：计算每个粒子适应度值，更新个体最优解

和全局最优解

根据公式(2)-(6)计算粒子的速度，更新粒子的位置。

步骤5：若达到最大迭代次数，进行步骤7。否则，则返回步骤继续迭代。

步骤105，利用训练后的BiLSTM模型对未来预设时段的攻击样本的态势值进行预测。即，将获得的最优参数赋给BiLSTM模型，将样本集放入模型当中，进行未来一段时间的态势值预测。

实施例2

本发明还提供一种网络安全态势预测系统，所述预测系统包括：

态势值计算模块，用于计算每个历史预设时段内的攻击样本的态势值，获得态势值时间序列。

所述态势值计算模块，具体包括：态势值计算子模块，用于利用公式

计算每个历史预设时段内的攻击样本的态势值；其中，x_j表示第j个历史预设时段内的攻击样本的态势值，N_j表示第j个历史预设时段内的攻击样本数量，X_i为第j个历史预设时段内的第i个攻击样本对网络安全的威胁值；态势值时间序列构建子模块，用于将每个历史预设时段内的攻击样本的态势值组成态势值时间序列(x₁,x₂,...,x_j,...,x_n)；其中，n表示历史预设时段的数量。

所述粒子群算法的速度和位置更新公式为：

其中，

和

和

和

w表示惯性权重因子：

w＝-π*arcsin(0.01*(k-max_iter))，max_iter表示最大迭代次数；

c₁和c₂分别表示第一加速因子和第二加速因子：

c₁＝c_1max-(c_1max-c_1min)*((k)/(max_iter))*2；

c₂＝c_2max-(c_2max-c_2min)*((k)/(max_iter))*2。

所述粒子群算法的适应度函数为：将粒子的位置向量设置为BiLSTM模型的网络参数时，所述BiLSTM模型的损失值。

BiLSTM模型的网络参数包括BiLSTM模型的学习率、模型迭代次数、第一层隐含层单元数、第二层隐含层单元数和随机种子。

实施例3

为了验证本发明中所构建模型的预测能力，选取两个典型的回归评价指标对多个模型进行评价对比，分别为平均绝对百分比误差(Mean Absolute Percentage Error，MAPE)和拟合优度决定系数(the coefficient of determination，R2)。

两个评价指标的计算公式如下：

式子中，y_i表示真实态势值，

表示预测态势值，N表示样本数，

表示真实态势值的平均值，平均百分比误差越小，模型性能越好，拟合优度决定系数取值在[0，1]之间，越接近1，表明模型拟合程度越好。

本发明中的预测模型与PSO-LSTM模型、PSO-BiLSTM模型及传统的BiLSTM模型相比的预测结果图如附图4-6所示，各模型的评价指标值如表2所示。

表2 各模型评价指标对比

通过预测结果图和评价指标值可知，窗口大小对预测的结果会产生一定的影响，窗口值越小，拟合程度越高。本发明中的IPSO-BiLSTM模型在窗口值为3时，其MAPE值相比其他三种模型分别低了0.0644、0.0768、0.0565，拟合程度相较其他三种模型分别高了0.2149、0.0486、0.0484。在窗口值为2时，其MAPE值相比其他三种模型分别低了0.0989、0.0736、0.1766。拟合程度相较其他三种模型分别高了0.0506、0.0484、0.205。值得一提的是本发明的预测模型拟合程度为0.9946，接近于完美拟合。综上可知，本发明中构建的IPSO-BiLSTM模型相较本发明中提到的其他模型在网络安全态势预测中收敛速度更快、拟合程度更高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。