CN116015932A

CN116015932A - 入侵检测网络模型生成方法以及数据流量入侵检测方法

Info

Publication number: CN116015932A
Application number: CN202211726131.9A
Authority: CN
Inventors: 李肯立; 袁理想; 蔡宇辉; 杨圣洪; 周旭; 余思洋; 段明星; 吴帆; 秦云川
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-25

Abstract

本申请涉及一种数据流量入侵检测网络模型生成方法、装置、计算机设备和存储介质。方法包括：获取历史训练集以及初代入侵检测网络模型；对历史训练集进行一次数据增强，生成一次增强后的数据集；基于一次增强后的数据集以及历史训练集，得到一次训练后的入侵检测网络模型，并获取实时流量样本；根据一次训练后的入侵检测网络模型对实时流量样本进行入侵检测，得到正常数据集、已知异常数据集与未知异常数据集；生成二次增强的流量样本；基于二次增强的流量样本以及实时流量样本，得到目标入侵检测网络模型。采用本方法能够对数据流量进行准确的入侵检测。另外，本申请还提供了一种数据流量入侵检测方法、装置、计算机设备和存储介质。

Description

入侵检测网络模型生成方法以及数据流量入侵检测方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种入侵检测网络模型生成方法、装置、计算机设备、存储介质和计算机程序产品、以及一种以及数据流量入侵检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着科学技术的快速发展，在工业控制网络中，对数据流量进行入侵检测已经成为了一个热门技术，它可以采集大规模数据流量，并检测出数据流量中具有攻击行为的流量，从而实现对攻击行为进行拦截与响应。

目前，对数据流量进行入侵检测是通过生成入侵检测网络模型来实现的，首先，采集数据流量，通过提取数据流量样本中的特征，来训练入侵检测网络模型，再利用生成的训练后的入侵检测网络模型来对数据流量进行识别，判断是否为具有攻击行为的流量；然而，由于数据流量样本中存在严重的数据倾斜，即数据流量样本中异常样本的数量要远低于正常样本的数量，因此，目前的入侵检测网络模型生成方法仍然存在不足，无法对数据流量中的攻击行为进行准确识别，也就是说无法对数据流量进行准确的入侵检测。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对数据流量进行准确的入侵检测的入侵检测网络模型生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品以及一种数据流量入侵检测方法、装置、计算机设备、存储介质和计算机程序产品。

第一方面，本申请提供了一种数据流量入侵检测网络模型生成方法。所述方法包括：

获取历史训练集以及初代入侵检测网络模型，所述历史训练集包括正常训练集和异常训练集；

对所述历史训练集进行一次数据增强，生成一次增强后的数据集；

基于所述一次增强后的数据集以及所述历史训练集，对所述初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本；

根据所述一次训练后的入侵检测网络模型对所述实时流量样本进行入侵检测，得到正常数据集、已知异常数据集与未知异常数据集；

对所述历史训练集、所述正常数据集、所述已知异常数据集与所述未知异常数据集进行二次数据增强，生成二次增强的流量样本；

基于所述二次增强的流量样本以及所述实时流量样本，对所述一次训练后的入侵检测网络模型进行二次训练，得到目标入侵检测网络模型。

第二方面，本申请还提供了一种数据流量入侵检测网络模型生成装置。所述装置包括：

初始数据获取模块，用于获取历史训练集以及初代入侵检测网络模型，所述历史训练集包括正常训练集和异常训练集；

一次数据增强模块，用于对所述历史训练集进行一次数据增强，生成一次增强后的数据集；

模型一次训练模块，用于基于所述一次增强后的数据集以及所述历史训练集，对所述初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本；

一次入侵检测模块，用于根据所述一次训练后的入侵检测网络模型对所述实时流量样本进行入侵检测，得到正常数据集、已知异常数据集与未知异常数据集；

二次数据增强模块，用于对所述历史训练集、所述正常数据集、所述已知异常数据集与所述未知异常数据集进行二次数据增强，生成二次增强的流量样本；

目标模型生成模块，用于基于所述二次增强的流量样本以及所述实时流量样本，对所述一次训练后的入侵检测网络模型进行二次训练，得到目标入侵检测网络模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述数据流量入侵检测网络模型生成方法、装置、计算机设备、存储介质和计算机程序产品，获取历史训练集以及初代入侵检测网络模型，历史训练集包括正常训练集和异常训练集；对历史训练集进行一次数据增强，生成一次增强后的数据集；基于一次增强后的数据集以及历史训练集，对初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本；根据一次训练后的入侵检测网络模型对实时流量样本进行入侵检测，得到正常数据集、已知异常数据集与未知异常数据集；对历史训练集、正常数据集、已知异常数据集与未知异常数据集进行二次数据增强，生成二次增强的流量样本；基于二次增强的流量样本以及实时流量样本，对一次训练后的入侵检测网络模型进行二次训练，得到目标入侵检测网络模型。这个过程中，通过对历史训练集进行一次数据增强，对历史训练集以及利用实时流量样本进行二次数据增强，能够生成一次增强后的数据集以及二次增强的流量样本，且历史训练集包括正常训练集和异常训练集，所以可以保证对初代入侵检测网络模型进行一次训练以及二次训练的样本全面且异常样本与正常样本分布均衡，不会产生数据倾斜的情况，使得生成的目标入侵检测网络模型能够对数据流量进行更准确的入侵检测。

第六方面，本申请提供了一种数据流量入侵检测方法。所述方法包括：

获取待测数据流量；

采用目标入侵检测网络模型对所述待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量；

其中，所述目标入侵检测网络模型采用如上述数据流量入侵检测网络模型生成方法建立。

第七方面，本申请提供了一种数据流量入侵检测装置。所述装置包括：

待测数据获取模块，用于获取待测数据流量；

流量入侵检测模块，用于采用目标入侵检测网络模型对所述待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量；

当所述异常数据流量达到预设数量阈值时，对所述正常数据流量以及所述异常数据流量进行数据增强，得到增强的流量样本；

根据所述增强的流量样本、所述正常数据流量以及所述异常数据流量，更新所述目标入侵检测网络模型；

返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤；其中，所述目标入侵检测网络模型采用如上述数据流量入侵检测网络模型生成方法建立。

第八方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待测数据流量；

返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤；

第九方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待测数据流量；

第十方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待测数据流量；

上述数据流量入侵检测方法、装置、计算机设备、存储介质和计算机程序产品，获取待测数据流量；采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量；当异常数据流量达到预设数量阈值时，对正常数据流量以及异常数据流量进行数据增强，得到增强的流量样本；根据增强的流量样本、正常数据流量以及异常数据流量，更新目标入侵检测网络模型；返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤；其中，目标入侵检测网络模型采用如上述数据流量入侵检测网络模型生成方法建立。在这一过程中，采用目标入侵检测网络模型，且目标入侵检测网络模型能够不停进行实时更新，实现对待测数据流量进行更准确的入侵检测。

附图说明

图1为一个实施例中数据流量入侵检测网络模型生成方法的应用环境图；

图2为一个实施例中数据流量入侵检测网络模型生成方法的流程示意图；

图3为另一个实施例中数据流量入侵检测网络模型生成方法的流程示意图；

图4为一个具体应用实施例中初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型的结构示意图；

图5为一个实施例中数据流量入侵检测网络模型生成装置的结构框图；

图6为一个实施例中数据流量入侵检测方法的流程示意图；

图7为一个实施例中数据流量入侵检测装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的数据流量入侵检测网络模型生成方法以及数据流量入侵检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102发送数据流量入侵检测网络模型生成请求至服务器104，数据流量入侵检测网络模型生成请求携带历史训练集以及初代入侵检测网络模型，服务器104接收数据流量入侵检测网络模型生成请求，获取数据流量入侵检测网络模型生成请求中的历史训练集以及初代入侵检测网络模型，历史训练集包括正常训练集和异常训练集；对历史训练集进行一次数据增强，生成一次增强后的数据集；基于一次增强后的数据集以及历史训练集，对初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本；根据一次训练后的入侵检测网络模型对实时流量样本进行入侵检测，得到正常数据集、已知异常数据集与未知异常数据集；对历史训练集、正常数据集、已知异常数据集与未知异常数据集进行二次数据增强，生成二次增强的流量样本；基于二次增强的流量样本以及实时流量样本，对一次训练后的入侵检测网络模型进行二次训练，得到目标入侵检测网络模型。进一步的，服务器104在接收到数据流量入侵检测请求时，提取数据流量入侵检测请求中携带的待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量；当异常数据流量达到预设数量阈值时，对正常数据流量以及异常数据流量进行数据增强，得到增强的流量样本；根据增强的流量样本、正常数据流量以及异常数据流量，更新目标入侵检测网络模型；返回接收数据流量入侵检测请求，提取数据流量入侵检测请求中携带的待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104为超算高性能计算云服务器，可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据流量入侵检测网络模型生成方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

S100，获取历史训练集以及初代入侵检测网络模型，历史训练集包括正常训练集和异常训练集。

其中，历史训练集是指从历史流量样本中划分出来的用于训练模型的集合；初代入侵检测网络模型是指最初的还未经历过更新的入侵检测网络模型，能够对流量样本进行入侵检测。

具体地，终端发送数据流量入侵检测网络模型生成请求至服务器，数据流量入侵检测网络模型生成请求携带历史训练集以及初代入侵检测网络模型，服务器接收数据流量入侵检测网络模型生成请求，获取数据流量入侵检测网络模型生成请求中的历史训练集以及初代入侵检测网络模型，历史训练集包括正常训练集和异常训练集。

更进一步地，本申请的服务器是超算高性能计算云服务器，使用基于spark的模型并行和数据并行技术对云服务器上部署的模型进行加速，高性能云计算服务器上的海量节点以及spark并行技术不仅能够支撑入侵检测网络模型在短时间内完成自更新，也能支持高效对短时间内产生的大规模流量进行异常检测；另外，本申请的初代入侵检测网络模型可以是卷积神经网络结构、残差网络结构、深度卷积网络等现有的任何入侵检测网络模型。

S200，对历史训练集进行一次数据增强，生成一次增强后的数据集。

其中，本申请的数据增强是指对原有数据集进行强化，根据原有数据集的分布特征生成更多接近原有数据集的分布特征的伪样本数据集，使原有数据集得到丰富。

具体地，由于历史训练集中包含的流量样本不够丰富，且在真实的历史训练集中，异常训练集的数量往往会远小于正常训练集的数量，因此，首先需要对历史训练集进行一次数据增强，使得一次增强后的数据集能够学习到历史训练集的特征，并生成与接近历史训练集分布特征的伪数据集，即一次增强后的数据集。

S300，基于一次增强后的数据集以及历史训练集，对初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本。

其中，训练是指有计划有步骤地通过学习和辅导掌握某种技能，本申请中，训练是指按照一定准则，从大量已知模式中提取表示该模式特征的模型参数，来得到训练后的模型。

具体地，基于一次增强后的数据集以及历史训练集，对初代入侵检测网络模型进行一次训练，使得初代入侵检测网络模型能够学习到一次增强后的数据集以及历史训练集中的分布特征，从而得到一次训练后的入侵检测网络模型，一次训练后的入侵检测网络模型能对具备一次增强后的数据集以及历史训练集中的分布特征的数据流量进行检测；另外，在得到一次训练后的入侵检测网络模型的同时，会获取实时流量样本。

S400，根据一次训练后的入侵检测网络模型对实时流量样本进行入侵检测，得到正常数据集、已知异常数据集与未知异常数据集。

其中，已知异常数据集是指类别已知且为异常数据集中类别的数据集；未知异常数据集是指类别未知的数据集，由于类别未知，所以均看作异常数据集。

具体地，高性能计算云服务器首先会生成RSA公私钥，并将公钥发送至终端，终端使用公钥对实时流量样本进行加密，并实时发送至服务器，服务器使用私钥对实时流量样本进行解密，得到解密后的实时流量样本数据集；对解密后的实时流量样本数据集进行标签添加处理，标签添加处理手段为：去除实时流量样本数据集的部分无效属性，对实时流量样本数据集中字符型特征进行独热编码，得到携带类别标签的实时流量样本集；由于一次训练后的入侵检测网络模型已经学习到了历史流量样本中的已知类别信息，所以可以对携带类别标签的实时流量样本集进行检测，即根据一次训练后的入侵检测网络模型对实时流量样本中的每一条样本进行入侵检测，判断实时流量样本中的每一条样本是为正常样本还是异常样本，并确定样本的类型，最后对判断后的每一条样本进行后续处理来得到正常数据集、已知异常数据集与未知异常数据集，后续处理的步骤为：

1、对于已知正常类型的样本，需要随机选取一些已知正常类型的样本添加到正常数据集Dnormal中，并继续对其它未检测的实时流量样本进行实时入侵检测；

2、对于已知异常类型的样本，需要添加已知异常类型的样本到已知异常数据集Dka中，并继续对其它未检测的实时流量样本进行实时入侵检测；

3、对于未知类型的样本，一律看作未知异常类型的样本，需要经过人工审核，才能确定未知异常类型的样本是否可用，并确定该未知异常类型的样本的类型，继续对其它未检测的实时流量样本进行实时入侵检测；如果未知异常类型的样本可用，将该样本加入未知异常数据集Dunk a。

4、将已知异常数据集Dka与未知异常数据集Dunk a里的样本返回至终端并进行报警，当已知异常数据集Dka与未知异常数据集Dunk a里的样本数目达到一定值时，后续处理完成，得到最终的正常数据集、已知异常数据集与未知异常数据集。

S500，对历史训练集、正常数据集、已知异常数据集与未知异常数据集进行二次数据增强，生成二次增强的流量样本。

具体地，从历史训练集中选取代表性的部分样本构成数据集Dp，由于数据集Dp、正常数据集Dnormal、已知异常数据集Dka与未知异常数据集Dunk a分别是历史流量样本与实时流量样本得到的，根据历史训练集得到的数据集Dp类别标签已知，正常数据集Dnormal、已知异常数据集Dka与未知异常数据集Dunk a是一次训练后的入侵检测网络模型对实时流量样本进行入侵检测后得到的，所以正常数据集Dnormal、已知异常数据集Dka与未知异常数据集Dunk a的类别标签也已知；所以可以对数据集Dp、正常数据集Dnormal、已知异常数据集Dka与未知异常数据集Dunk a进行二次数据增强，学习数据集Dp、正常数据集Dnormal、已知异常数据集Dka与未知异常数据集Dunk a中的分布特征，并生成与分布特征接近的伪数据集，即二次增强后的数据集。

S600，基于二次增强的流量样本以及实时流量样本，对一次训练后的入侵检测网络模型进行二次训练，得到目标入侵检测网络模型。

具体地，基于二次增强的流量样本以及实时流量样本，对一次训练后的入侵检测网络模型进行二次训练，使得一次训练后的入侵检测网络模型能够学习到二次增强的流量样本以及实时流量样本中的特征，得到目标入侵检测网络模型，目标入侵检测网络模型能对具备二次增强的流量样本以及实时流量样本中的特征的数据流量进行检测，确定待测数据流量的类别标签，从而确定待测数据流量是否正常。

在一个实施例中，还包括：

获取历史流量样本；对历史流量样本进行标签添加处理，得到携带已知类别标签的历史样本集。

其中，样本是观测或调查的一部分个体，是总体中的部分元素；历史流量样本是指历史流量中的部分流量作为样本；标签一般是指标志产品目标和分类或内容，在本申请中是指表征历史流量样本类别的标签；已知类别标签是指历史样本集的类别已知，比如可以是正常类别、攻击类别1、攻击类别2、攻击类别3…攻击类别n。

具体地，终端获取大规模已知类别的历史流量样本集，使用服务器的公钥将历史流量样本集加密并上传至服务器中，服务器使用私钥对加密的历史流量样本集进行解密，得到解密后的历史流量样本集；对解密后的历史流量样本集进行标签添加处理，标签添加处理的手段是：1、由于历史流量样本集中的每一条样本存在多个属性，所以需要去除多个属性中的部分无效属性，其中，无效属性是指某个属性对于每一条样本都一样，比如都是1，则该属性对样本分类没有帮助，即无效属性；2、由于样本属性中的字符型特征需要经过独热编码处理才能作为神经网络的输入，所以需要对样本属性中的字符型特征进行独热编码；最终才能得到携带已知类别标签的历史样本集，已知类别标签可以是正常类别、攻击类别1、攻击类别2、攻击类别3…攻击类别n。

对历史样本集进行划分，得到历史训练集以及历史测试集。

示例性地，将历史样本集按照7:3的比例随机划分为历史训练集Dtrain和历史测试集Dtest两部分；其中，历史训练集Dtrain和历史测试集Dtest都是已知类别的样本集合。

更进一步地，历史训练集Dtrain由两部分构成：train_x和train_y；train_x中包含流量包样本集，Feature＝{f1，f2，f3，…，fn}；train_y包含train_x的类别标签，type＝{y}；train_x和train_y一一对应，即train_y[1]就是样本train_x[1]的类别；历史测试集Dtest同理历史训练集Dtrain。

本实施例中，通过对历史流量样本进行标签添加处理，得到携带已知类别标签的历史样本集，并划分历史样本集得到历史训练集以及历史测试集，能为后续利用历史训练集以及历史测试集来得到一次训练后的入侵检测网络模型提供数据来源，且由于历史样本集携带已知类别标签，所以得到的一次训练后的入侵检测网络模型能够判断数据流量的类别标签，因此能更准确地对数据流量进行入侵检测。

在一个实施例中，如图3所示，S200包括：

S220，获取初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型。

其中，LSTM(Long Short-Term Memory，长短期记忆神经网络)，是一种时间循环神经网络，它适合于处理和预测时间序列中间隔和延迟非常长的重要事件，在提取时序性样本的特征中展现出良好的性能；生成对抗网络是指生成对抗网络包含一个生成器和一个判别器，生成器负责捕捉样本数据的分布，而判别器一般情况下是一个二分类器，判别输入是真实数据还是生成的样本，训练生成对抗网络时固定生成器与判别器的其中一方，更新另一个模型的参数，交替迭代，最终，生成器能够估测出样本数据的分布；条件生成对抗网络数据平衡模型是生成对抗网络的一个扩展，它的生成器和判别器都基于一定的条件信息y，使得生成器生成出来的样本分布尽可能比较均衡，在本申请中，条件信息y是类别标签。

具体地，获取初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型，也就获取了条件生成对抗网络数据平衡模型中的生成模型和判别模型。

S240，根据初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对历史训练集进行一次数据增强，生成一次增强后的数据集以及一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型。

具体地，根据初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对历史训练集进行一次数据增强，即利用历史训练集来对初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型进行一次训练，得到一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型；训练完成后，执行生成器网络可以生成一次增强后的数据集。

更进一步地，初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型如图4所示，在生成对抗网络的基础上条件生成对抗网络新增了额外信息y，在本申请中y是类别标签，利用历史训练集来对初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型进行一次训练的步骤为：

(2)训练生成器，锁定判别器模型参数不变，生成器的目标是生成接近真实样本分布特征的伪样本，生成器基于噪声数据z和类别y生成的伪样本G(z|y)输入到判别器中，计算生成器的损失，Gloss＝E_z～Pz(z)[-logD(G(z|y))]，通过最小化生成器的损失结果对生成器的参数进行了优化。

(3)重复上述步骤(1)、(2)，让判别器和生成器继续通过不断的博弈迭代训练相互优化，直到它们达到纳什均衡。总的损失优化函数可以看作为：

；实质上判别器的优化原理就是给真实样本高分，给生成器的生成样本低分；生成器的优化原理就是让判别器给生成器的生成样本高分，分数在区间[0,1]。

本实施例中，利用初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型来对历史训练集进行一次增强，能够生成接近真实样本，即历史训练集分布特征的伪样本，使得对入侵检测网络模型进行训练的样本数据更加丰富。

在一个实施例中，基于一次增强后的数据集以及历史训练集，对初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本包括：

根据一次增强后的数据集以及历史训练集，得到平衡数据集。

具体地，一次增强后的数据集Dcgan是根据初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对历史训练集进行一次数据增强得到的，一次增强后的数据集为接近历史训练集分布特征的伪样本，根据一次增强后的数据集以及在历史训练集中选取的具有代表性的样本，可以构成平衡数据集Dbalance。

基于平衡数据集对初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型。

具体地，使用平衡数据集Dbalance对初代入侵检测网络模型进行一次训练，使初代入侵检测网络模型能够学习到平衡数据集的特征，比如类别标签，得到一次训练后的入侵检测网络模型，一次训练后的入侵检测网络模型能够凭借学习到的类别标签对之后进行入侵检测的流量样本进行检测，判断检测的流量样本所属的类别。

基于历史测试集对一次训练后的入侵检测网络模型进行校验，得到校验结果。

具体地，历史测试集是历史样本集按比例随机划分得到，当基于平衡数据集对初代入侵检测网络模型进行一次训练时，为了实现训练效果的优化，需要一个测试组来对训练效果进行检验，即基于历史测试集对一次训练后的入侵检测网络模型进行校验，也就是说利用一次训练后的入侵检测网络模型对历史测试集进行入侵检测，得到进行入侵检测的校验结果，一次训练后的入侵检测网络模型对历史测试集的类别判断的准确率体现了一次训练后的入侵检测网络模型性能的好坏。

根据校验结果，对一次训练后的入侵检测网络模型进行优化，更新一次训练后的入侵检测网络模型，并获取实时流量样本。

具体地，根据历史测试集进行入侵检测的校验结果，可以判断一次训练后的入侵检测网络模型的训练效果，包括一次训练后的入侵检测网络模型的状态与收敛情况，并对一次训练后的入侵检测网络模型调整超参数来优化，更新一次训练后的入侵检测网络模型，得到彻底一次训练好的入侵检测网络模型。

本实施例中，利用历史测试集对一次训练后的入侵检测网络模型进行校验，可以实现训练效果的优化，使得一次训练后的入侵检测网络模型能够更加准确的进行入侵检测。

在一个实施例中，对历史训练集、正常数据集、已知异常数据集与未知异常数据集进行二次数据增强，生成二次增强的流量样本包括：

根据历史训练集、正常数据集、已知异常数据集与未知异常数据集，得到二次训练数据集。

具体地，从历史训练集中选取代表性的样本构成数据集Dp，与正常数据集Dnormal、已知异常数据集Dka与未知异常数据集Dunka共同构建得到用来对一次训练后的入侵检测网络模型进行二次训练的二次训练数据集Dnew＝{Dka,Dunka,Dnormal,Dp}。

根据一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对二次训练数据集进行二次数据增强，生成二次增强的流量样本。

具体地，使用二次训练数据集对一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型进行训练，训练完成后，得到二次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型；执行二次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型中的生成器网络，对二次训练数据集进行二次数据增强，生成接近二次训练数据集分布特征的伪样本，即二次增强的流量样本。

本实施例中，通过对历史训练集、正常数据集、已知异常数据集与未知异常数据集这些真实样本进行二次数据增强，能够生成与真实样本分布特征接近的伪样本，从而使入侵检测网络模型更新的输入样本更加丰富和平衡。

在一个实施例中，如图4所示，条件生成对抗网络数据平衡模型中的生成器输入是随机噪声z和类别标签y，字符型特征即类别标签进行one-hot编码转换，然后将随机噪声z和类别标签y分别与不同的全连接层连接，全连接层之后紧接着批量正则化层，激活函数采用的是ReLU；将两个全连接层串联起来，然后是长短期记忆神经网络LSTM层，暂退dropout层，批量正则化层以及全连接层和批量正则化层；紧接着是带泄漏的ReLU激活层，批量正则化，接着是一个全连接层和批量正则化层，激活函数采用的是ReLU。

在一个实施例中，如图4所示，条件生成对抗网络数据平衡模型中的判别器模型的输入是真实样本x、类别标签y和生成样本G(x|y)，字符型特征即类别标签y进行one-hot编码转换，将真实样本x和类别标签分别与不同的全连接层间接，激活函数采用的是ReLU；将两个全连接层串联起来，然后是两个全连接层，将输出结果连接到一个只包含1个神经元的全连接层，该全连接层采用sigmoid作为激活函数。

在一个实施例中，条件生成对抗网络数据平衡模型中的网络结构，可以根据实际应用场景，调整生成器模型和判别器模型的网络结构；条件生成对抗网络数据平衡模型中的网络模型各层网络的大小可以根据数据集的不同和预处理方式的不同，进行自行调整。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据流量入侵检测网络模型生成方法的数据流量入侵检测网络模型生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据流量入侵检测网络模型生成装置实施例中的具体限定可以参见上文中对于数据流量入侵检测网络模型生成方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种数据流量入侵检测网络模型生成装置，包括：初始数据获取模块100、一次数据增强模块200、模型一次训练模块300、一次入侵检测模块400、二次数据增强模块500和目标模型生成模块600，其中：

初始数据获取模块100，用于获取历史训练集以及初代入侵检测网络模型，历史训练集包括正常训练集和异常训练集。

一次数据增强模块200，用于对历史训练集进行一次数据增强，生成一次增强后的数据集。

模型一次训练模块300，用于基于一次增强后的数据集以及历史训练集，对初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本。

一次入侵检测模块400，用于根据一次训练后的入侵检测网络模型对实时流量样本进行入侵检测，得到正常数据集、已知异常数据集与未知异常数据集。

二次数据增强模块500，用于对历史训练集、正常数据集、已知异常数据集与未知异常数据集进行二次数据增强，生成二次增强的流量样本。

目标模型生成模块600，用于基于二次增强的流量样本以及实时流量样本，对一次训练后的入侵检测网络模型进行二次训练，得到目标入侵检测网络模型。

在一个实施例中，还包括标签处理模块，标签处理模块用于获取历史流量样本；对历史流量样本进行标签添加处理，得到携带已知类别标签的历史样本集；对历史样本集进行划分，得到历史训练集以及历史测试集。

在一个实施例中，一次数据增强模块200还用于获取初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型；根据初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对历史训练集进行一次数据增强，生成一次增强后的数据集以及一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型。

在一个实施例中，模型一次训练模块300还用于根据一次增强后的数据集以及历史训练集，得到平衡数据集；基于平衡数据集对初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型；基于历史测试集对一次训练后的入侵检测网络模型进行校验，得到校验结果；根据校验结果，对一次训练后的入侵检测网络模型进行优化，更新一次训练后的入侵检测网络模型，并获取实时流量样本。

在一个实施例中，二次数据增强模块500还用于根据历史训练集、正常数据集、已知异常数据集与未知异常数据集，得到二次训练数据集；根据一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对二次训练数据集进行二次数据增强，生成二次增强的流量样本。

上述数据流量入侵检测网络模型生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图6所示，还提供了一种数据流量入侵检测方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

S700，获取待测数据流量。

S750，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量。其中，目标入侵检测网络模型采用如上述数据流量入侵检测网络模型生成方法建立。

具体地，建立的目标入侵检测网络模型可以对待测数据流量进行入侵检测，能够输出数据流量的所属类别标签，根据数据流量的所属类别标签能够判断待测数据流量中哪些流量是正常数据流量，哪些流量是异常数据流量。

S800，当异常数据流量达到预设数量阈值时，对正常数据流量以及异常数据流量进行数据增强，得到增强的流量样本。

具体地，首先设定一个数量阈值，当对待测数据流量进行入侵检测时得到的异常数据流量的数量达到预设数量阈值时，就会对此时所检测完成的正常数据流量以及异常数据流量进行数据增强，得到增强的流量样本。

S850，根据增强的流量样本、正常数据流量以及异常数据流量，更新目标入侵检测网络模型。

具体地，根据增强的流量样本、异常数据流量达到预设数量阈值时的正常数据流量以及异常数据流量，即再次根据真实样本与伪样本来训练目标入侵检测网络模型，完成目标入侵检测网络模型的更新。

S900，返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤。

具体地，返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤，来实现对目标入侵检测网络模型的实时更新。

上述数据流量入侵检测方法、装置、计算机设备、存储介质和计算机程序产品，获取待测数据流量样本；采用目标入侵检测网络模型对待测数据流量样本进行入侵检测，得到正常数据流量样本以及异常数据流量样本；当异常数据流量达到预设数量阈值时，对正常数据流量以及异常数据流量进行数据增强，得到增强的流量样本；根据增强的流量样本、正常数据流量以及异常数据流量，更新目标入侵检测网络模型；返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤；其中，目标入侵检测网络模型采用如上述数据流量入侵检测网络模型生成方法建立。在这一过程中，采用目标入侵检测网络模型，且目标入侵检测网络模型能够不停进行实时更新，实现对待测数据流量进行更准确的入侵检测。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据流量入侵检测方法的数据流量入侵检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据流量入侵检测装置实施例中的具体限定可以参见上文中对于数据流量入侵检测方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种数据流量入侵检测装置，包括待测数据获取模块700、流量入侵检测模块750、数据实时增强模块800、模型实时更新模块850和实时入侵检测模块900，其中：

待测数据获取模块700，用于获取待测数据流量数据；

流量入侵检测模块750，用于采用目标入侵检测网络模型对待测数据流量数据进行入侵检测，得到正常数据流量数据以及异常数据流量数据；

数据实时增强模块800，用于当异常数据流量达到预设数量阈值时，对正常数据流量以及异常数据流量进行数据增强，得到增强的流量样本；

模型实时更新模块850，用于根据增强的流量样本、正常数据流量以及异常数据流量，更新目标入侵检测网络模型；

实时入侵检测模块900，用于返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤；其中，目标入侵检测网络模型采用如上述数据流量入侵检测网络模型生成方法建立。

上述数据流量入侵检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史训练集以及初代入侵检测网络模型。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据流量入侵检测网络模型生成方法以及数据流量入侵检测方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据流量入侵检测网络模型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

获取历史流量样本；

对所述历史流量样本进行标签添加处理，得到携带已知类别标签的历史样本集；

对所述历史样本集进行划分，得到历史训练集以及历史测试集。

3.根据权利要求1所述的方法，其特征在于，所述对所述历史训练集进行一次数据增强，生成一次增强后的数据集包括：

获取初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型；

根据所述初代基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对所述历史训练集进行一次数据增强，生成一次增强后的数据集以及一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型。

4.根据权利要求2所述的方法，其特征在于，所述基于所述一次增强后的数据集以及所述历史训练集，对所述初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型，并获取实时流量样本包括：

根据所述一次增强后的数据集以及所述历史训练集，得到平衡数据集；

基于所述平衡数据集对所述初代入侵检测网络模型进行一次训练，得到一次训练后的入侵检测网络模型；

基于所述历史测试集对所述一次训练后的入侵检测网络模型进行校验，得到校验结果；

根据所述校验结果，对一次训练后的入侵检测网络模型进行优化，更新一次训练后的入侵检测网络模型，并获取实时流量样本。

5.根据权利要求3所述的方法，其特征在于，所述对所述历史训练集、所述正常数据集、所述已知异常数据集与所述未知异常数据集进行二次数据增强，生成二次增强的流量样本包括：

根据所述历史训练集、所述正常数据集、所述已知异常数据集与所述未知异常数据集，得到二次训练数据集；

根据所述一次训练后的基于长短期记忆神经网络的条件生成对抗网络数据平衡模型对所述二次训练数据集进行二次数据增强，生成二次增强的流量样本。

6.一种数据流量入侵检测方法，其特征在于，所述方法包括：

获取待测数据流量；

返回获取待测数据流量，采用目标入侵检测网络模型对待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤；其中，所述目标入侵检测网络模型采用如权利要求1-5任意一项所述方法建立。

7.一种数据流量入侵检测网络模型生成装置，其特征在于，所述装置包括：

8.一种数据流量入侵检测装置，其特征在于，所述装置包括：

待测数据获取模块，用于获取待测数据流量数据；

流量入侵检测模块，用于采用目标入侵检测网络模型对所述待测数据流量数据进行入侵检测，得到正常数据流量数据以及异常数据流量数据；

数据实时增强模块，用于当所述异常数据流量达到预设数量阈值时，对所述正常数据流量以及所述异常数据流量进行数据增强，得到增强的流量样本；

模型实时更新模块，用于根据所述增强的流量样本、所述正常数据流量以及所述异常数据流量，更新所述目标入侵检测网络模型；

实时入侵检测模块，用于返回获取待测数据流量，采用目标入侵检测网络模型对所述待测数据流量进行入侵检测，得到正常数据流量以及异常数据流量的步骤；

其中，所述目标入侵检测网络模型采用如权利要求1-5任意一项所述方法建立。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。