CN116996272A

CN116996272A - 一种基于改进的麻雀搜索算法的网络安全态势预测方法

Info

Publication number: CN116996272A
Application number: CN202310871385.8A
Authority: CN
Inventors: 赵新建; 夏飞; 徐晨维; 袁国泉; 窦昊翔; 张颂; 陈石; 张明明; 宋浒; 王鹏飞; 单新文; 杜元翰; 奚梦婷; 陈欣
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-11-03

Abstract

本发明公开了一种基于改进的麻雀搜索算法的网络安全态势预测方法，包括：构建得到态势数据集；构建得到CNN‑SBiLSTM序列预测模型；通过Cubic混沌映射初始化麻雀种群的个体位置，输出混沌序列得到CNN‑SBiLSTM序列预测模型的超参数初始值，并根据目标函数，计算初始种群个体的适应度值；通过个体适应度确定最优麻雀的位置，获得各层BiLSTM对应的最优隐藏单元个数和网络训练次数；根据全局适应度的变化对步长控制参数进行动态调整；构建得到网络安全态势预测模型。本发明可以实现对网络安全态势的有效预测，同时克服现有的预测方法的精度低、收敛速度慢且容易陷入局部最优等缺陷。

Description

一种基于改进的麻雀搜索算法的网络安全态势预测方法

技术领域

本发明涉及网络安全态势感知技术领域，具体涉及一种基于改进的麻雀搜索算法优化CNN-SBiLSTM的网络安全态势预测方法。

背景技术

网络安全态势预测是指通过对网络数据流量、攻击行为、漏洞利用等方面的分析，预测未来网络安全事件的发生趋势和可能的风险，以及进行风险评估和安全防御规划。通过预测网络安全威胁，可以及时采取相应的应对措施，最大程度上减少网络安全威胁对组织造成的影响，同时可以发现安全漏洞的位置和容易受到攻击的业务或系统，从而针对性地增强安全防护能力，对于保障网络安全、提高安全防护能力、优化安全预算、改进安全管理等方面都具有重要性。

目前，网络安全态势预测技术虽然已经发展多年，但是仍存在预测精度低、预警能力不足的问题。因此，建立一个网络安全态势预测模型，实现对网络系统进行多方位、全覆盖的监控，及时发现并预警网络中存在的非法行为，进而实现网络安全的预警，成为目前网络系统安全的重要需求。

网络安全涉及多个因素和数据源，如网络流量、系统日志、用户行为等，需要考虑多个维度的数据来准确预测网络安全态势；网络安全事件通常以离散的形式发生，如网络入侵、恶意软件感染等，这些事件大多是独立的发生实例，需要对这些离散事件进行分析和预测；同时，网络安全的威胁和攻击的特点是其非周期性，攻击者的策略和技术不断演变，网络漏洞的利用方式也在不断变化，网络安全态势的预测需要考虑非周期的变化和趋势；最后，网络安全还具有高度敏感性，微小的变化或异常可能预示着潜在的安全威胁。因此，网络安全态势预测是一个高维、离散、非周期和敏感的问题，对于网络安全态势预测应用场景，初始化得到的种群个体是否满足上述特性对算法的搜索性能具有很大的影响。

常见的初始化智能种群优化算法的方法主要有随机初始化、均匀分布初始化、混沌映射初始化等。对于随机初始化和均匀分布初始化，即随机或均匀采样生成种群中每个个体的参数或位置，容易实现但是没有考虑到网络安全态势预测高维、离散、非周期和敏感的特性。混沌映射是一类非线性动力系统，具有高度敏感依赖于初始条件的特性，产生的序列具有随机性和复杂性。

现有技术中已经存在一些混沌映射和麻雀搜索算法的结合应用方式，例如，专利号为CN1 16340023A的发明中公开了一种基于麻雀算法的Web服务组合优化方法，专利号为CN112880688B的发明中一种基于混沌自适应麻雀搜索算法的无人机三维航迹规划方法；专利号为CN113344828B的发明中公开了一种基于混沌麻雀搜索算法的煤岩分界图像增强方法等等。然而，受限于网络安全态势预测领域的前述特性，这些发明中的混沌映射和麻雀搜索算法的结合方式并不能应用在网络安全态势预测领域，例如，对于Logistic映射初始化，其动态范围是有限的，通常在[0，1]之间，意味着生成的混沌序列在数值上受到一定的限制，无法覆盖较大的范围，缺乏多样性；对于Henon映射初始化，其生成的混沌序列具有较强的局部性，这意味着在相邻的状态之间存在较强的相关性，而不同区域之间的探索能力相对较弱。

发明内容

本发明的目的是为了提出一种基于改进的麻雀搜索算法的网络安全态势预测方法，可以实现对网络安全态势的有效预测，同时克服现有的预测方法的精度低、收敛速度慢且容易陷入局部最优等缺陷。

为实现上述技术目的，本发明采取的技术方案为：

一种基于改进的麻雀搜索算法的网络安全态势预测方法，所述网络安全态势预测方法包括以下步骤：

S1，获取网络安全态势要素并计算态势值，得到初始数据集；利用滑动窗口法对初始数据集进行重构，将序列预测任务转化为监督学习任务，构建得到态势数据集，对态势数据集进行归一化操作，并将归一化后的态势数据集划分为训练集和测试集；

S2，将CNN卷积神经网络与堆叠双向长短期记忆网络相结合，并引入注意力机制，构建得到CNN-SBiLSTM序列预测模型；将CNN-SBiLSTM序列预测模型的预测误差作为目标函数，确定各层BiLSTM对应的隐藏单元的个数和网络训练次数的上下限；

S3，通过Cubic混沌映射初始化麻雀种群的个体位置，输出混沌序列得到CNN-SBiLSTM序列预测模型的超参数初始值，并根据目标函数，计算初始种群个体的适应度值；

S4，迭代更新麻雀种群中的发现者位置、加入者位置和意识到危险的麻雀的位置，直至迭代次数达到设置的最大迭代次数，通过个体适应度确定最优麻雀的位置，获得各层BiLSTM对应的最优隐藏单元个数和网络训练次数；其中，在迭代过程中，根据全局适应度的变化对步长控制参数进行动态调整；

S5，将各层BiLSTM对应的最优隐藏单元的个数和网络训练次数作为CNN-SBiLSTM序列预测模型的参数，构建得到网络安全态势预测模型；将训练集输入到网络安全态势预测模型进行训练；

S6，将待预测的网络态势数据输入到训练好后的网络安全态势预测模型，对网络安全态势进行预测。

进一步地，步骤S2中，构建得到CNN-SBiLSTM序列预测模型的过程包括以下步骤：

S21，将数据集输入到CNN卷积神经网络编码层，利用CNN在时间维度上提取局部特征的能力，对输入的网络安全态势要素数据进行特征提取；

S22，将提取得到的网络安全态势要素数据的特征输入到SBiLSTM编码预测层，SBiLSTM编码预测层由多个双向长短期记忆网络堆叠组成；

S23，引入注意力层，对SBiLSTM编码预测层中不同时刻输出的向量权重进行计算，提取并突出对网络安全态势影响较大的特征；

S24，将注意力层输出的数据经由全连接层处理以输出态势预测值。

进一步地，步骤S3中，通过Cubic混沌映射初始化麻雀种群的个体位置的过程包括以下步骤：

S31，设置搜索空间的上Lb和下界Ub、以及种群个数n_pop；

S32，随机生成一个种群个体向量x_i，通过Cubic映射生成n_pop个种群个体向量：

x_i(t+1)＝ρx_i(t)(1-x_i(t)²)

式中，t为迭代时间步，对于任意t，x_i(t)∈[0，1]，ρ为可调参数；

S33，根据变换公式pop_i＝Lb+(Ub-Lb)*x_i将种群个体向量映射到搜索空间内。

进一步地，步骤S4中，在迭代过程中，根据全局适应度的变化对步长控制参数进行动态调整的过程包括以下步骤：

S41，以待优化的CNN-SBiLSTM序列预测模型的超参数作为种群的初始位置，网络输出的态势预测值与真实值之间的差值的平方作为种群的适应度值：

式中，fitness是种群的适应度函数值，y是网络输出的态势预测值，pred是网络输出的态势真实值；

S42，更新发现者位置

式中，表示第i只麻雀在第t次迭代中的第j维的位置信息，α和R₂是[0，1]的随机数，其中R₂表示预警值，iter_max是最大迭代次数，ST是[0.5，1]的常数，Q是服从正态分布的随机数，L是全1矩阵；

S43，更新加入者位置：

式中，是第t次迭代中最差的个体，A是由-1或1随机组成的矩阵，x_p是当前最优发现者的位置；

S44，更新意识到危险的麻雀的位置：

式中，是第t次迭代中最优的个体，f_i是当前个体的适应度值，f_g是当前最大适应度值，f_w是当前最小适应度值，β是服从均值为0方差为1的正态分布随机数，k是[-1，1]的随机数，ε是极小的正数以防止分母为0；

S45，对步长控制参数β和k进行动态调整：

式中，fitness_best和fitness_worst分别是最优和最差的适应度值，T为最大迭代次数，t为当前迭代次数。

与现有技术相比，本发明的有益效果如下：

第一，本发明的基于改进的麻雀搜索算法的网络安全态势预测方法，通过引入Cubic映射对麻雀种群个体位置进行初始化，可以提升种群位置分布的均匀性和多样性，增强算法的全局搜索能力。

第二，本发明的基于改进的麻雀搜索算法的网络安全态势预测方法，通过动态调整步长控制参数，克服了传统固定步长控制参数导致的算法容易陷入局部最优、收敛速度慢等问题。通过动态调整步长因子不仅能够平衡麻雀搜索算法全局与局部搜索与局部能力，也能够在提高寻优精度的同时避免出现局部最优。

第三，本发明的基于改进的麻雀搜索算法的网络安全态势预测方法，基于CNN-SBiLSTM网络构建的网络安全态势预测模型能够很好地提取序列信息，提高预测精度。

附图说明

图1为本发明实施例的基于改进的麻雀搜索算法的网络安全态势预测方法流程图；

图2为本发明实施例的网络安全态势预测模型结构图；

图3为本发明实施例的改进的麻雀搜索算法优化适应度曲线变化图；

图4为本发明实施例的改进的麻雀搜索算法优化CNN-SBiLSTM各超参数的收敛情况；

图5为本发明实施例的预测值与真实值对比图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明公开了一种基于改进的麻雀搜索算法的网络安全态势预测方法，所述网络安全态势预测方法包括以下步骤：

本发明的基于改进的麻雀搜索算法的网络安全态势预测方法，针对SOTA存在的问题，提出基于CNN-SBiLSTM序列预测模型构建网络安全态势预测模型，并提出改进的麻雀搜索算法用于优化网络安全态势预测模型的超参数。本发明的基于改进的麻雀搜索算法的网络安全态势预测方法的流程如图1所示，具体的步骤如下：

步骤1：获取网络安全态势要素并计算态势值，得到初始数据集。表1是发布的部分安全态势周报。

表1

根据下列公式计算对应的网络安全态势值：

式中，NT_i代表第i个态势因素值，NT_imax代表第i个态势因素值的最大值，w_i代表第i个态势因素对应的权重。其中，各安全态势要素的权重如表2所示。

表2

各态势因素	权重
		境内感染网络病毒主机数(万)	0.30
境内被篡改的网站数	0.25
		境内被植入后门网站总数	0.15
针对境内网站的仿冒页面数	0.15
		新增信息安全漏洞数	0.15

计算得到的安全态势值如表3所示：

表3

步骤2：利用滑动窗口法实现对数据集的重构，将序列预测任务转化为监督学习任务，构建好数据集，对数据集进行归一化操作，并将所述数据集划分为训练集和测试集。

表3作为初始数据集，需要对数据集进行重构，将序列预测任务转化为监督学习任务。具体地，将t+1时刻的网络安全态势值作为t时刻网络安全态势要素及其态势值所对应的标签，重构后的数据集如表4所示。

表4

	特征1	特征2	特征3	特征4	特征5	特征6	标签
								序列1	57.4	1158	1871	7431	295	0.23659957	0.26282302
序列2	67	3208	1484	4185	268	0.26282302	0.29462710
								序列3	54.5	3657	772	1742	566	0.29462710	0.21602565
序列4	23.5	3681	855	987	378	0.21602565	0.22127152
								序列5	22.9	4218	1110	303	355	0.22127152	...

步骤3：构建CNN-SBiLSTM序列预测模型的目标函数，在本发明中，将预测值与实际值的误差作为目标函数，并确定各层BiLSTM对应的隐藏单元的个数Z1、Z2、Z3和网络训练次数Z4的上下限。在本实施例中，将下限设置为10，上限设置为20。

在本实施例中，构建得到CNN-SBiLSTM序列预测模型的过程包括以下步骤：

步骤4：设置相关参数，麻雀搜索算法的种群大小，最大迭代次数，麻雀在生产者中的比例。这里，设置迭代次数为20，种群数为10，麻雀在生产者中的比例为0.2。

步骤5：通过Cubic混沌映射初始化麻雀种群的个体位置，包括以下步骤：

步骤51：设置搜索空间的上Lb和下界Ub、以及种群个数n_pop；

步骤52：随机生成一个种群个体向量x_i，然后通过Cubic映射生成n_pop个种群个体向量：

x(t+1)＝ρx(t)(1-x(t)²)

式中，t为迭代时间步，对于任意t，x(t)∈[0，1]，ρ为可调参数。

步骤53：根据变换pop_i＝Lb+(Ub-Lb)*x_i将种群个体向量映射到搜索空间内。

对于Cubic混沌映射，Cubic混沌映射展示出混沌行为，输出序列表现出高度的不确定性和敏感性，微小的初始条件变化都会导致输出序列的显著差异；其次，Cubic混沌映射是一个非线性映射函数，同时是一个离散时间系统，通过离散的时间步骤来更新状态，每次更新，系统状态从一个离散值跳跃到另一个离散值，形成离散的输出序列；Cubic混沌映射由于状态变量数量较多，通常具有高维状态空间；最后，Cubic混沌映射的输出序列通常是非周期的，不存在重复的模式或周期行为。总之，Cubic混沌映射由于其非线性、离散、高维、敏感、不确定性以及非周期性等特点，可以很好地应用于网络安全态势预测场景，因此，本发明选取Cubic混沌映射初始化种群个体。

步骤6：计算各麻雀种群个体的适应度值：

式中，fitness是种群的适应度函数值，y是网络输出的态势预测值，pred是真实值。

步骤7：依次更新发现者位置、加入者位置和意识到危险的麻雀的位置：

式中，表示第i只麻雀在第t次迭代中的第j维的位置信息，α和R₂是[0，1]的随机数，其中R₂表示预警值，iter_max是最大迭代次数，ST是[0.5，1]的常数，Q是服从正态分布的随机数，L是全1矩阵：

式中，是第t次迭代中最差的个体，A是由-1或1随机组成的矩阵，x_p是当前最优发现者的位置：

式中，是第t次迭代中最优的个体，f_i是当前个体的适应度值，f_g是当前最大适应度值，f_w是当前最小适应度值，β是服从均值为0方差为1的正态分布随机数，k是[-1，1]的随机数，ε是极小的正数以防止分母为0。

步骤8：动态调整步长控制参数：

式中，fitness_best和fitness_worst分别是最优和最差的适应度值，T为最大迭代次数，t为当前迭代次数。Cubic混沌映射具有敏感、不确定性以及非周期性等特点，输出的序列往往存在较大的差异，具体地，在本实施例中，由于Cubic混沌映射初始化的种群个体在迭代前期具有多样性，搜索空间较大，而在迭代后期，随着种群向全局最优收敛，个体搜索空间不足，算法容易陷入局部最优。因此，搜索的步长控制参数β和k控制着种群个体的搜索范围，通常设置为随机数，不能适应随着不断迭代搜索空间发生的变化。因此，需要根据搜索空间的变化实现对步长控制参数β和k的动态调整。在SSA寻优前期，种群具有较高的多样性，因此，SSA在前期有较强的全局搜索能力，为了提高其局部搜索能力，需要将β设置为随着迭代次数t的增加而逐渐减小，此时式中“±”选择“+”；在SSA寻优后期，种群逐渐向全局最优收敛，个体之间的差异性及搜索空间逐渐缩小，当没有足够的搜索空间进行搜索时，SSA可能过早收敛，因此，需要将β设置为随着迭代次数t的增加而逐渐增大，此时式中“±”选择“-”。对于k的设置，随着迭代次数增加，k值从较大值逐渐减少，后期则会快速减小，既能够保证充分搜索空间，也能够提高收敛速度。通过动态调整步长因子不仅能够充分利用Cubic初始化种群个体带来的种群多样性等优点，还能平衡SSA全局与局部搜索与局部能力，也能够在提高寻优精度的同时避免出现局部最优。

步骤9：判断是否达到最大迭代次数，满足则确定最优麻雀位置，即得到CNN-SBiLSTM序列预测模型的最优超参数；不满足则重复执行步骤5～步骤7。图3是随着迭代次数的增加，目标函数逐渐收敛的过程图。图4是待优化参数随着迭代次数的增加逐渐收敛的过程。

步骤10：根据设置的最大迭代次数更新麻雀的位置，并通过个体适应度确定最优麻雀的位置，即获得BiLSTM各层对应的最优隐藏单元个数Z1，Z2，Z3和网络训练次数Z4；将各层BiLSTM对应的隐藏单元的个数Z1、Z2、Z3和网络训练次数Z4作为CNN-SBiLSTM序列预测模型的参数构建网络安全态势预测模型；，并将测试集输入模型中，可以得到对应的预测结果，部分预测结果与实际结果对比如图5所示

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器运行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上运行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上运行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于改进的麻雀搜索算法的网络安全态势预测方法，其特征在于，所述网络安全态势预测方法包括以下步骤：

2.根据权利要求1所述的基于改进的麻雀搜索算法的网络安全态势预测方法，其特征在于，步骤S2中，构建得到CNN-SBiLSTM序列预测模型的过程包括以下步骤：

3.根据权利要求1所述的基于改进的麻雀搜索算法的网络安全态势预测方法，其特征在于，步骤S3中，通过Cubic混沌映射初始化麻雀种群的个体位置的过程包括以下步骤：