CN114553520B

CN114553520B - 网络攻击数据流合成方法、装置、电子设备及存储介质

Info

Publication number: CN114553520B
Application number: CN202210155955.9A
Authority: CN
Inventors: 杨欢; 许春雷; 吴涛; 陈嘉怡; 陈学琛; 翁炜华; 陈汝昊
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2023-11-21
Anticipated expiration: 2042-02-21
Also published as: CN114553520A

Abstract

本发明涉及一种网络攻击数据流合成方法、装置、电子设备及存储介质。本发明所述的一种网络攻击数据流合成方法包括：获取网络攻击数据包；对所述网络攻击数据包进行预处理，得到预设长度和格式的归一化数据；将所述归一化数据输入生成对抗网络模型进行训练，至所述生成对抗网络模型收敛，得到训练好的生成对抗网络模型；使用所述训练好的生成对抗网络模型的生成器生成攻击数据；将所述攻击数据恢复成网络流量格式，得到人工合成的网络攻击数据流。本发明所述的一种网络攻击数据流合成方法，生成具有对话特征的数据流，生成的数据可以保留住序列特征。

Description

网络攻击数据流合成方法、装置、电子设备及存储介质

技术领域

本发明涉及网络安全技术领域，特别是涉及一种网络攻击数据流合成方法、装置、电子设备及存储介质。

背景技术

随着信息技术的发展，人类社会对网络服务也愈发的依赖。通信网络技术在带给人便利的同时，也存在着许许多多的安全隐患，时时刻刻的威胁着人们的财产安全和社会稳定。随着互联网技术的发展，网络攻击的数量显著增加，面对各式各样的网络攻击，安全人员需要分析网络数据包来判断和定位网络攻击。

网络数据包可以通过使用特殊网络抓取工具(例如wireshark等)在真实网络环境下抓取。网络安全人员通过抓取网络数据包来实现查看网络通讯的真实内容、进行网络故障分析、定位网络攻击行为等行为。由于网络攻击的危害性，安全研究人员无法在现实网络中进行实验和研究。这就要求研究人员在独立的网络环境中进行探索和研究。这时网络流量生成技术就显得尤为重要。通过各种网络流量模型或者流量生成手段来生成和模拟真实的流量。

现有的网络流量生成领域的算法有多种，传统的方式为基于攻击行为对攻击进行建模，使用建模来生成网络攻击。此方式的缺点无法快速准确的对模型进行建模。而现有使用深度学习技术的算法，是在对网络攻击进行特征提取后来进行生成，生成的数据也为特征，这就会受到人为特征选择的影响，而且特征并不能准确代表网络攻击行为。

现有的网络协议中，对于大部分网络协议单个无序列的数据包无法完整表示一个会话的意图，以该数据包为基础进行数据生成，只能是简单的扩充无效的流量样本。

发明内容

基于此，本发明的目的在于，提供一种网络攻击数据流合成方法、装置、电子设备及存储介质，可生成具有序列属性的数据流，定向的生成会话，扩充有效的流量样本。

第一方面，本发明提供一种网络攻击数据流合成方法，包括以下步骤：

获取网络攻击数据包；

对所述网络攻击数据包进行预处理，得到预设长度和格式的归一化数据；

将所述归一化数据输入生成对抗网络模型进行训练，至所述生成对抗网络模型收敛，得到训练好的生成对抗网络模型；

使用所述训练好的生成对抗网络模型的生成器生成攻击数据；

将所述攻击数据恢复成网络流量格式，得到人工合成的网络攻击数据流。

进一步地，所述生成对抗网络模型包括生成器和判别器；

所述生成器包括Embedding层、LSTM层、Linear层和softmax层；所述生成器用于生成具有对话特征的数据流；

所述Embedding层用于对所述归一化数据进行Embedding处理，所述LSTM模型用于对所述经过Embedding处理的数据进行训练；

所述判别器包括FSM块和CNN块，所述FSM块和所述CNN块用于对所述生成器生成的数据进行评分。

进一步地，将所述归一化数据输入生成对抗网络模型进行训练之前，还包括：

根据所述网络攻击数据包所使用的网络协议，选取所述网络协议对应的有限状态机作为判别器的FSM块，构建所述生成对抗网络模型。

进一步地，所述生成对抗网络模型的训练流程包括：

对所述生成器进行预训练，获得预训练后的生成器；

根据所述预训练后的生成器对所述判别器进行预训练，获得预训练后的判别器；

在预训练完成后，迭代执行对抗训练流程，直至所述生成对抗网络收敛。

进一步地，所述对抗训练流程包括：

获取所述网络攻击数据包的归一化数据；

使用所述预训练后的生成器对所述归一化数据进行生成运算，获得假数据序列；

获取真数据序列，并使用所述预训练后的判别器对所述假数据序列和所述真数据序列进行判别运算，获得判别结果数据；

使用所述判别结果数据和所述真数据序列对所述预训练后的生成器和所述预训练后的判别器进行迭代训练。

进一步地，对所述生成器进行预训练，包括：

随机初始化所述生成器和所述判别器的参数；

以所述归一化数据为训练数据，使用最大似然估计算法对所述生成器进行预训练，获得所述预训练后的生成器。

进一步地，对所述网络攻击数据包进行预处理，包括：

对所述网络攻击数据包进行切割转换处理，对于数据包中属于介绍和payload字段的数据进行切割丢弃；

将切割转换处理后的数据由十六进制转换为十进制格式。

第二方面，本发明还提供一种网络攻击数据流合成装置，包括：

数据获取模块，用于获取网络攻击数据包；

预处理模块，用于对所述网络攻击数据包进行预处理，得到预设长度和格式的归一化数据；

模型训练模块，用于将所述归一化数据输入生成对抗网络模型进行训练，至所述生成对抗网络模型收敛，得到训练好的生成对抗网络模型；

数据生成模块，用于使用所述训练好的生成对抗网络模型的生成器生成攻击数据；

数据流合成模块，用于将所述攻击数据恢复成网络流量格式，得到人工合成的网络攻击数据流。

第三方面，本发明还提供一种电子设备，其特征在于，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如本发明第一方面任一所述的一种网络攻击数据流合成方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种网络攻击数据流合成方法的步骤。

本发明提供的一种网络攻击数据流合成方法、装置、电子设备及存储介质，在真实环境中获取到少量网络攻击数据后，生成大量人工合成的网络攻击数据，生成的攻击数据集被作为训练数据提供给入侵检测模型，入侵检测模型通过训练能够对此种网络攻击行为有更好的检测效果。可生成具有序列属性的数据流，定向的生成会话，扩充有效的流量样本(例如定向扩充某种网络攻击的流量样本，使用此流量样本来训练入侵检测系统)。

本发明提供的一种网络攻击数据流合成方法、装置、电子设备及存储介质，使用的是深度学习模型：生成对抗网络，相比于传统的人工对攻击行为进建模的优势在于：(1)生成对抗网络模型训练只需要将数据丢入网络中，模型在相互对抗的过程中，自动学会如何生成网络攻击数据，且生成的效果不亚于人工建模。(2)深度学习的模型一旦训练好，就能快速的合成网络攻击数据包。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的一种网络攻击数据流合成方法的流程示意图；

图2为本发明在一个实施例中对数据包进行预处理前后的对比示意图；

图3为本发明在一个实施例中使用的SeqGAN网络结构示意图；

图4为本发明提供的一种网络攻击数据流合成装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对背景技术中的问题，本申请实施例提供一种网络攻击数据流合成方法，如图1所示，该方法包括以下步骤：

S01：获取网络攻击数据包。

流经网络的一切数据都可以被归类为数据包中所包含数据的一部分。一个网络数据包或IP包可以被称为一个数据单元(约1KBS至1.5KBS)，在互联网或分组交换网络内从原点流向目标地址(从发送方到接收方)。网络数据包是网络上信息传输的基本单位，因为发件人发出的每条信息都被分解成小的片段，以便能够在网络链接上轻松快速地传输。

网络数据包可以通过使用特殊网络抓取工具(例如wireshark等)在真实网络环境下抓取。网络安全人员通过抓取网络数据包来实现查看网络通讯的真实内容、进行网络故障分析、定位网络攻击行为等行为。由于网络攻击的危害性，安全研究人员无法在现实网络中进行实验和研究，而是要在获取网络攻击数据包后，在独立的网络环境中进行探索和研究。

S02：对所述网络攻击数据包进行预处理，得到预设长度和格式的归一化数据。

在一个优选的实施例中，预处理步骤包括：

S021：对所述网络攻击数据包进行切割转换处理，对于数据包中属于介绍和payload字段的数据进行切割丢弃。

如图2所示，由于真实网络环境中的payload字段为加密数据，网络入侵检测算法并不会对这一部分进行检测，因此在预处理阶段，会对该部分数据切割丢弃。

S022：将切割转换处理后的数据由十六进制转换为十进制格式。

S03：将所述归一化数据输入生成对抗网络模型进行训练，至所述生成对抗网络模型收敛，得到训练好的生成对抗网络模型。

生成对抗网络(Generative Adversarial Network，GAN)，又被称为生成对抗式网络，是机器学习中的一种学习范式，通过让两个神经网络相互博弈的方式进行学习；生成对抗网络由一个生成器(generator)与一个鉴别器(discriminator)组成，生成器从潜在空间(latent space)中随机取样作为输入数据，生成器的输出结果需要尽量模仿训练集中的真实样本；鉴别器的输入数据则为真实样本或生成器的输出数据(即生成器的输出结果)，其目的是将生成器的输出数据从真实样本中尽可能分别出来；而生成器要尽可能地欺骗鉴别器(即尽可能让鉴别器分辨不出生成器的输出数据和真实样本)，生成器和鉴别器相互对抗从而不断调整参数，最终目的是使鉴别器无法判断生成器的输出结果是否真实。

然而，GAN无法直接生成文本数据，因为文本数据是离散的，而序列对抗网络(Sequence Generative Adversarial Network，SeqGAN)就是利用GAN+RL(生成对抗网络结合强化学习)的方法来实现序列数据的生成。所谓序列数据就是一组数据中的数据元素其前后顺序是有意义的，文本数据只是序列数据的一种。

S04：使用所述训练好的生成对抗网络模型的生成器生成攻击数据。

对于已经训练好的生成对抗网络，其中的生成器所生成的序列数据，判别器已经无法分辨出与真实数据的差异。

S05：将所述攻击数据恢复成网络流量格式，得到人工合成的网络攻击数据流。

在一个优选的实施例中，本发明使用的序列生成对抗网络模型的结构如图3所示，包括生成器和判别器。

生成器包括Embedding层、LSTM层、Linear层和softmax层；所述生成器用于生成具有对话特征的数据流；Embedding层用于对所述归一化数据进行Embedding处理，所述LSTM模型用于对所述经过Embedding处理的数据进行训练；

判别器包括FSM块和CNN块，所述FSM块和所述CNN块用于对所述生成器生成的数据进行评分。

更为优选的，将所述归一化数据输入生成对抗网络模型进行训练之前，还包括：

在判别器加入网络协议的规则，使用有限状态机来实现此功能。此功能添加在了判别器中，在训练模型过程中对生成数据进行评判，以此来引导生成器生成符合网络协议的网络数据流，且生成的为数据流拥有对话特征。

在另一个优选的实施例中，生成对抗网络模型的训练流程包括：

S11：对所述生成器进行预训练，获得预训练后的生成器。

优选的，对生成器的预训练包括以下子步骤：

S111：随机初始化所述生成器和所述判别器的参数。

对于生成器G_θ，随机初始化对应的生成器参数θ。

S112：以所述归一化数据为训练数据，使用最大似然估计算法对所述生成器进行预训练，获得所述预训练后的生成器。

并且，赋值β＝θ，其中，β是roll-out生成器的参数。

S12：根据所述预训练后的生成器对所述判别器进行预训练，获得预训练后的判别器。

S121：对于判别器随机初始化对应的判别器参数/>

S122：通过生成器G_θ生成的负面样本与真实世界的序列数据来训练判别器

S13：在预训练完成后，迭代执行对抗训练流程，直至所述生成对抗网络收敛。

优选的，对抗训练流程包括：

S131：获取所述网络攻击数据包的归一化数据。

S132：使用所述预训练后的生成器对所述归一化数据进行生成运算，获得假数据序列Y_1:T＝(y₁,…,y_T)。

S133：获取真数据序列，并使用所述预训练后的判别器对所述假数据序列和所述真数据序列进行判别运算，获得判别结果数据。

S134：使用所述判别结果数据和所述真数据序列对所述预训练后的生成器和所述预训练后的判别器进行迭代训练。

迭代过程中，对于生成器来说，执行以下步骤：

(1):输入数据通过生成模型G_θ生成序列Y_1:T＝(y₁,…,y_T)。y表示第n时刻生成的字节,完整生成一个序列需要T个时刻。

(2):计算1到T时刻的各个时刻t的奖励s表示当前状态，a表示下一个动作，Q为奖励值。

具体的，使用以下公式：

其中，β是roll-out生成器的参数，MC是指蒙特卡洛方法，t为当前时刻；当解码到t时，即对后面T-t个timestep采用蒙特卡洛搜索搜索出N条路径，将这N条路径分别和已经decode的结果组成N条完整输出，然后将D网络对应奖励的平均值作为reward。

(3):基于更新参数，其中α_h表示在第h步的学习速率，/>为策略梯度。

迭代过程中，对于判别器来说，执行以下步骤：

(1):获取生成器生成的负样本和真实数据对应的正样本。

(2):把负样本和正样本输入判别器，对判别器进行训练。

最后更新演算策略参数β＝θ。

本申请实施例还提供一种网络攻击数据流合成装置，如图4所示，该网络攻击数据流合成装置400包括：

数据获取模块401，用于获取网络攻击数据包；

预处理模块402，用于对所述网络攻击数据包进行预处理，得到预设长度和格式的归一化数据；

模型训练模块403，用于将所述归一化数据输入生成对抗网络模型进行训练，至所述生成对抗网络模型收敛，得到训练好的生成对抗网络模型；

数据生成模块404，用于使用所述训练好的生成对抗网络模型的生成器生成攻击数据；

数据流合成模块405，用于将所述攻击数据恢复成网络流量格式，得到人工合成的网络攻击数据流。

优选的，所述生成对抗网络模型包括生成器和判别器；

优选的，还包括模型构建模块，用于将所述归一化数据输入生成对抗网络模型进行训练之前，根据所述网络攻击数据包所使用的网络协议，选取所述网络协议对应的有限状态机作为判别器的FSM块，构建所述生成对抗网络模型。

优选的，所述生成对抗网络模型的训练流程包括：

对所述生成器进行预训练，获得预训练后的生成器；

优选的，所述对抗训练流程包括：

获取所述网络攻击数据包的归一化数据；

优选的，对所述生成器进行预训练，包括：

随机初始化所述生成器和所述判别器的参数；

优选的，预处理模块包括：

切割单元，用于对所述网络攻击数据包进行切割转换处理，对于数据包中属于介绍和payload字段的数据进行切割丢弃；

格式转换单元，用于将切割转换处理后的数据由十六进制转换为十进制格式。

本申请实施例还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如前所述的一种网络攻击数据流合成方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的一种网络攻击数据流合成方法的步骤。

本发明提供的一种网络攻击数据流合成方法、装置、电子设备及存储介质，在真实环境中获取到少量网络攻击数据后，生成大量人工合成的网络攻击数据。生成的攻击数据集被作为训练数据提供给入侵检测模型，入侵检测模型通过训练能够对此种网络攻击行为有更好的检测效果。人工合成的数据可被用于人工智能模型的训练中，通过使用合成数据来快速提高网络入侵检测模型的效果。

对于网络流的生成任务，所生成的数据需要存在对话的特征，存在对话特征的数据流才能更好的表现出网络的特征。普通的生成对抗网络无法生成离散的数据，对于网络数据流这种具有序列特征的数据，序列生成对抗网络更适合本项目的任务，使用此网络生成的数据可以保留住序列特征。因此本设计的提出均为考虑如何生成拥有对话特征的数据流。

本发明的目的是使用深度学习的方法，在样本较少的情况下，快速合成网络攻击数据，并可以将合成数据用于网络入侵检测系统的训练中，且能有较好的效果。本发明使用的是深度学习模型：生成对抗网络，相比于传统的人工对攻击行为进建模的优势在于：(1)生成对抗网络模型训练只需要将数据丢入网络中，模型在相互对抗的过程中，自动学会如何生成网络攻击数据，且生成的效果不亚于人工建模。(2)深度学习的模型一旦训练好，就能快速的合成网络攻击数据包。

本设计还提出了在生成对抗网络的判别器加入了网络协议的规则，使用有限状态机来实现此功能。此功能添加在了判别器中，在训练模型过程中对生成数据进行评判，以此来引导生成器生成符合网络协议的网络数据流，且生成的为数据流，拥有对话特征。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种网络攻击数据流合成方法，其特征在于，包括以下步骤：

获取网络攻击数据包；

将所述攻击数据恢复成网络流量格式，得到人工合成的网络攻击数据流；

所述生成对抗网络模型包括生成器和判别器；

所述判别器包括FSM块和CNN块，所述FSM块和所述CNN块用于对所述生成器生成的数据进行评分；

将所述归一化数据输入生成对抗网络模型进行训练之前，还包括：

2.根据权利要求1所述的一种网络攻击数据流合成方法，其特征在于，所述生成对抗网络模型的训练流程包括：

对所述生成器进行预训练，获得预训练后的生成器；

在预训练完成后，迭代执行对抗训练流程，直至所述生成对抗网络模型收敛。

3.根据权利要求2所述的一种网络攻击数据流合成方法，其特征在于，所述对抗训练流程包括：

获取所述网络攻击数据包的归一化数据；

4.根据权利要求2所述的一种网络攻击数据流合成方法，其特征在于，对所述生成器进行预训练，包括：

随机初始化所述生成器和所述判别器的参数；

5.根据权利要求1所述的一种网络攻击数据流合成方法，其特征在于，对所述网络攻击数据包进行预处理，包括：

将切割转换处理后的数据由十六进制转换为十进制格式。

6.一种网络攻击数据流合成装置，其特征在于，包括：

数据获取模块，用于获取网络攻击数据包；

数据流合成模块，用于将所述攻击数据恢复成网络流量格式，得到人工合成的网络攻击数据流；

所述生成对抗网络模型包括生成器和判别器；

还包括模型构建模块，用于将所述归一化数据输入生成对抗网络模型进行训练之前，根据所述网络攻击数据包所使用的网络协议，选取所述网络协议对应的有限状态机作为判别器的FSM块，构建所述生成对抗网络模型。

7.一种电子设备，其特征在于，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5任一所述的一种网络攻击数据流合成方法的步骤。

8.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5任一所述的一种网络攻击数据流合成方法的步骤。