CN115051827B

CN115051827B - 一种结合孪生架构和多源信息融合的网络安全态势预测方法

Info

Publication number: CN115051827B
Application number: CN202210400737.7A
Authority: CN
Inventors: 张云伟; 史飞洪
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-04-17
Filing date: 2022-04-17
Publication date: 2024-03-05
Anticipated expiration: 2042-04-17
Also published as: CN115051827A

Abstract

本发明涉及一种结合孪生架构和多源信息融合的网络安全态势预测方法，属于深度学习技术领域。首先，对影响网络安全态势的特征进行处理形成蕴含上一时刻状态和序列信息的数据；然后输入到以孪生架构和多源信息融合理念构建网络安全态势预测模型进行训练，模型的孪生架构部分采用的是具有相同网络结构的DNN1和DNN2，时间序列处理部分采用的是DNN3；模型会利用孪生架构获取当前时刻和上一时刻的状态信息，利用多源信息融合对提取到的时间序列信息以及孪生架构提取到的信息进行融合，进而使得模型能够获取到上一时刻的状态信息和数据的时间序列信息；最后使用模型对网络安全态势进行预测。本发明预测网络安全态势更加准确。

Description

一种结合孪生架构和多源信息融合的网络安全态势预测方法

技术领域

本发明涉及一种结合孪生架构(SiameseArchitect)和多源信息融合(Multi-source Information Fusion)的网络安全态势预测方法，属于深度学习技术领域。

背景技术

网络安全态势感知分为三个部分：态势要素提取，态势理解、态势预测。网络安全态势预测是其最为重要的一步，其能根据现有的信息对网络安全进行预测。网络安全态势预测主要目的是为网络安全管理人员提供决策支持，在发生危险网络安全事件时，提前给出告警，防止网络安全事件的产生或者降低网络安全事件的危害。

现有的防御技术，要么是基于当前信息进行预测，忽略了网络安全事件是一个序列事件，也就是忽略了时序信息。要么是注意到了时序信息，而采用的方法过于单一，无法应对深度学习技术的变迁。

因此，为了更加准确的来预测网络安全态势，不仅需要利用时序信息，而且有必要使得我们的方法能够适应深度学习技术的变迁，这是现有的技术无法满足的。

发明内容

本发明要解决的技术问题是提供一种结合孪生架构和多源信息融合的网络安全态势预测方法，用以解决现有技术精度不高，且无法适应深度学习技术的变迁问题。

本发明的技术方案是：一种结合孪生架构和多源信息融合的网络安全态势预测方法，首先，对影响网络安全态势的特征进行处理形成蕴含上一时刻状态和序列信息的数据；然后输入到以孪生架构和多源信息融合理念构建网络安全态势预测模型(SIA_MULTI-S模型)进行训练，模型的孪生架构部分采用的是具有相同网络结构的DNN1和DNN2，时间序列处理部分采用的是DNN3；模型会利用孪生架构获取当前时刻和上一时刻的状态信息，利用多源信息融合对提取到的时间序列信息以及孪生架构提取到的信息进行融合，进而使得模型能够获取到上一时刻的状态信息和数据的时间序列信息；最后使用模型对网络安全态势进行预测。在真实的告警日志数据集上实验表明，本发明的SIA_MULTI-S模型方法相比不采用多源信息融合、不采用孪生架构的方法，预测网络安全态势更加准确。

具体步骤为：

Step1：对影响网络安全态势的特征进行处理，形成蕴含上一时刻状态和序列信息的数据；

Step2：将序列信息数据划分为训练集和测试集，所述训练集中包括验证集。

Step3：将训练集数据输入到SIA_MULTI-S模型进行训练；

Step4：使用SIA_MULTI-S模型进行测试与评估。

所述Step1具体为：

Step1.1：影响网络安全态势的特征通常为序列特征、关键特征(例如请求头字段特征)。需要对无用的特征进行删除，非结构化特征进行矢量化；

Step1.2：将上述处理后的数据结合关键字段(例如，源IP和目的IP)进行分组，根据分组构造为每个数据构造时间序列特征，同样根据组内时间先后为每条数据构造上一时刻的关键特征，最后形成蕴含上一时刻状态和序列信息的数据。

所述Step2具体为：根据数据确定样本量samples以及样本维度features，构建训练集(包括验证集)Train＝(X_train，Y_train)和测试集Test＝(X_test，Y_test)。

所述Step3具体为：

Step3.1：首先搭建SIA_MULTI-S模型，所述模型使用Keras库的函数式API进行搭建；

Step3.2：SIA_MULTI-S模型主要包括三部分：一是采用孪生架构的方式构建的深度神经网络DNN1和DNN2，DNN1和DNN2具有相同的网络结构，他们的参数可以设置为共享或者不共享，用来获取当前时刻和上一时刻的状态信息；二是用于处理时间序列信息的DNN3，用来获取时间序列信息；三是对上述的DNN1、DNN2以及DNN3提取出的特征进行融合，用于获取包含有当前时刻状态、上一时刻状态和时间序列信息的特征。SIA_MULTI-S模型通过一个全连接层将第三部分融合的特征进行最后的输出。

Step3.3：将训练集数据Train＝(X_train，Y_train)中的当前时刻特征和上一时刻特征输入到孪生架构的DNN1和DNN2中，将时间序列特征输入到DNN3中，SIA_MULTI-S模型模型将这三个网络的输出的特征进行融合后通过全连接层进行输出，基于验证集，模型采用反向传播算法进行训练更新网络权重。

本发明的有益效果是：

1、本发明提出一种网络安全态势预测方法，设计了一种SIA_MULTI-S模型，该模型采用孪生架构获取当前时刻和上一时刻的网络安全状态信息；同时，采用多源信息融合的方式来获取时间序列信息。SIA_MULTI-S模型通过孪生架构和多源信息融合，较为全面的获取到了状态信息和时间序列信息，提高了预测的准确性。

2、提出的SIA_MULTI-S模型预测网络安全态势，其中DNN1、DNN2和DNN3神经网络不是具体指某一种网络，而是对深度神经网络这一类的统称，也就是说这三种网络可以替换为任何一种特定的深度神经网络，例如CNN、LSTM、Transformer等。这样一种模型可以在随着深度技术变迁的过程中，具有一定的适应性。

3、本文基于某网络安全公司提供的真实网络安全告警日志数据，经过去敏处理后形成的网络安全告警日志数据集。DNN1和DNN2采用的是Transformer，DNN2采用的则是MLP模型。实验表明，SIA_MULTI-S模型在MicroF1，Recall，Precision评价指标中均优于其他两种基准模型，模型预测的准确性更好。

附图说明

图1是本发明的步骤流程图；

图2是本发明SIA_MULTI-S模型的架构图；

图3是本发明各模型在测试集上测试的各个的Loss变化图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种结合孪生架构和多源信息融合的网络安全态势预测方法，具体步骤为：

Step3：将训练集数据输入到SIA_MULTI-S模型进行训练；

Step4：使用SIA_MULTI-S模型进行测试与评估。

2、根据权利要求1所述的结合孪生架构和多源信息融合的网络安全态势预测方法，其特征在于，所述Step1具体为：

Step1.2：将上述处理后的数据结合关键字段(例如，源IP和目的IP)进行分组，根据分组构造为每个数据构造时间序列特征，同样根据组内时间先后为每条数据构造上一时刻的关键特征，最后形成蕴含上一时刻状态和序列信息的数据，如表1所示。

表1：影响网络安全态势的特征属性

所述Step2具体为：根据数据确定样本量samples以及样本维度features，构建训练集Train＝(X_train，Y_train)和测试集Test＝(X_test，Y_test)。

如图2所示，所述Step3具体为：

Step3.2：所述SIA_MULTI-S模型包括采用孪生架构的方式构建的深度神经网络DNN1和DNN2，DNN1和DNN2具有相同的网络结构，还包括用于处理时间序列信息的DNN3；

对所述的DNN1、DNN2以及DNN3提取出的特征进行融合，用于获取包含有当前时刻状态、上一时刻状态和时间序列信息的特征；

所述SIA_MULTI-S模型通过一个全连接层将第三部分融合的特征进行最后的输出；

图3为SIA_MULTI-S模型和其他两种模型在测试集上BCELoss的变化图，其他两种模型分别为不具有孪生架构，和只具有孪生架构的两种模型。不具有孪生架构的实例为TransEncoder_TransDecoder，具有孪生架构的实例为SiameseNN，SIA_MULTI-S模型的实例为MultipleSource。由图可知，各个算法均有较快的收敛速度，大约到60代时，基本已经趋于稳定。其中MultipleSource的损失最低，其次是SiameseNN，最后是SiameseNN。

表2中列出了3种不同的模型和3种不同的评价指标，这些指标均为在测试集上预测后得到的总体平均指标。

表2

从表2中各评价指标对比可以看出，本发明提出的SIA_MULTI-S模型相对来说各项评价指标均是最优的，其次是SiameseNN模型，相对较差的是TransEncoder_TransDecoder模型。

SIA_MULTI-S模型充分考虑影响网络安全态势预测的各种因素，同时采用孪生架构来获取当前时刻和上一时刻的状态信息，因此比TransEncoder_TransDecoder模型不考虑上一时刻的状态信息具有更好的效果。同时，采用多源信息融合，获取了历史时序信息和当前时刻和上一时刻的状态信息，因此比SiameseNN只考虑当前状态和上一时刻状态具有更好的效果。实验结果表明SIA_MULTI-S模型相对较好，模型具有更好地预测性能。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种结合孪生架构和多源信息融合的网络安全态势预测方法，其特征在于：

Step2：将序列信息数据划分为训练集和测试集；

Step3：将训练集数据输入到SIA_MULTI-S模型进行训练；

Step4：使用SIA_MULTI-S模型进行测试与评估；

所述Step3具体为：

Step3.3：将训练集数据Train＝(X_train,Y_train)中的当前时刻特征和上一时刻特征输入到孪生架构的DNN1和DNN2中，将时间序列特征输入到DNN3中，SIA_MULTI-S模型将这三个网络的输出的特征进行融合后通过全连接层进行输出，基于验证集，模型采用反向传播算法进行训练更新网络权重。

2.根据权利要求1所述的结合孪生架构和多源信息融合的网络安全态势预测方法，其特征在于，所述Step1具体为：

Step1.1：对无用的特征进行删除，非结构化特征进行矢量化；

Step1.2：将上述处理后的数据结合关键字段进行分组，根据分组构造为每个数据构造时间序列特征，同样根据组内时间先后为每条数据构造上一时刻的关键特征，最后形成蕴含上一时刻状态和序列信息的数据。

3.根据权利要求1所述的结合孪生架构和多源信息融合的网络安全态势预测方法，其特征在于，所述Step2具体为：根据数据确定样本量samples以及样本维度features，构建训练集Train＝(X_train,Y_train)和测试集Test＝(X_test,Y_test)。

4.根据权利要求1所述的结合孪生架构和多源信息融合的网络安全态势预测方法，其特征在于：所述训练集中包括验证集。