CN115643104A

CN115643104A - 一种基于深度监督离散哈希的网络入侵检测方法

Info

Publication number: CN115643104A
Application number: CN202211406624.4A
Authority: CN
Inventors: 魏松杰; 薛胤; 刘代东; 李成豪
Original assignee: Nanjing Aokefu Information Technology Co ltd
Current assignee: Nanjing Silihua Information Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-01-24

Abstract

本发明公开了一种基于深度监督离散哈希的网络入侵检测方法，包括：对原始网络流量数据集进行数据清洗以及标准化缩放；构建训练数据集和测试数据集；使用处理之后的训练数据集通过神经网络训练后得到网络入侵检测模型；采用交替最小化损失函数的方式优化模型权重，通过离散循环坐标下降的方式求解哈希码；将测试数据集的数据输入到训练后且优化的网络入侵检测模型，得到检测结果；当检测结果满足预设条件时，采用对应的网络入侵检测模型，对未知的网络流量数据进行网络入侵检测。该方法可提供更高效、更快速的网络入侵检测能力，训练得到的离散二进制码能够可以有效减小空间开销，且能较为全面地反映实际网络流量数据间的特征差异。

Description

一种基于深度监督离散哈希的网络入侵检测方法

技术领域

本发明涉及网络空间安全技术领域，特别涉及一种基于深度监督离散哈希的网络入侵检测方法。

背景技术

基于误用的检测方法和基于异常的检测方法是两种主要的传统入侵检测方法。前者通过人为描述每一种攻击样本的特征和模式并以此作为规则来检测，应用较为广泛。该方法的查验准确率较高，但成本也较大，需要建立大型的攻击模式库且只能检测已知类型的攻击。

针对误用检测方法面临的问题，一些基于马尔可夫随机过程模型、基于阈值、基于机器学习以及神经网络的异常检测方法相继被提出。

目前入侵检测一个重要的研究方向是采用机器学习或深度学习的相关方法，利用已知数据集建立有效的检测模型以寻求对未知数据的异常判定。目前一些深度神经网络方法例如卷积神经网络、长短期记忆网络以及自编码器相关的入侵检测模型研究是较为有代表性的。

众多研究表明，这些方法取得了不错的成效，但也有可扩展性较差、查准率不高以及开销较大等问题。

发明内容

本发明的目的在于提供一种至少部分解决上述技术问题的基于深度监督离散哈希的网络入侵检测方法，该方法所构建的模型具有收敛速度快、可扩展性强等优点，该方法对网络流量数据网络入侵检测准确率高。

为实现上述目的，本发明采取的技术方案为：

本发明提供一种基于深度监督离散哈希的网络入侵检测方法，包括以下步骤：

步骤1、数据预处理：对原始网络流量数据集进行数据清洗以及标准化缩放，将其转化为处于同一数量级的数值型数据；

步骤2、数据划分：基于预处理后的数据，构建训练数据集和测试数据集，控制分组数据集的正常与异常流量比例；

步骤3、构建模型：依据线性分类器建模学习到的哈希码和网络流量数据标签之间的关系，选择负对数似然函数作为神经网络的损失函数训练得到哈希码，构建神经网络模型，使用处理之后的训练数据集通过神经网络训练后得到网络入侵检测模型；

步骤4、模型离散优化：采用交替最小化损失函数的方式优化模型权重，通过离散循环坐标下降的方式求解哈希码；

步骤5、数据测试：将测试数据集的数据输入到训练后且优化的网络入侵检测模型，得到检测结果；

步骤6、当检测结果满足预设条件时，采用对应的网络入侵检测模型，对未知的网络流量数据进行网络入侵检测。

进一步地，所述步骤1的数据预处理，包括：

删除原始网络流量数据集中非数和无穷大的脏数据；

根据预设公式进行标准化处理；

再剔除所述原始网络流量数据集中的非必要特征列；

对于与数据集中非数字的特征符合，采用独热编码方式编码为一组多维向量。

进一步地，所述预设公式如下：

式中，ε为原始网络流量数据集中的数据，α取值为100，β取值为10。

进一步地，所述步骤2的数据划分，包括：

将预处理后的原始网络流量数据集进行整合，将其中数据数量较多的攻击类型数据采取过采样方式，减少其数据量；

将其中数据数量较少的攻击类型数据采取欠采样方式，增加其数据量；

基于采样数据，构建训练数据集和测试数据集，每个数据集中的攻击类型数据与正常流量数据的比例相同。

进一步地，所述步骤3的构建模型过程包括：

所构建的深度哈希神经网络模型的输入、输出以及隐藏层数分别为1、1、3，各层之间全连接，中间层采用sigmoid激活函数，最后一层采用tanh激活函数；

模型的损失函数有两部分组成，第一部分为通过由所得哈希码和网络流量标签之间关系建模的线性分类器的l₂损失；第二部分为神经网络学习得到哈希码的负对数似然损失函数；

最后将经过处理的训练集通过神经网络训练得到网络入侵检测模型。

进一步地，所述步骤4的模型离散优化，包括：

采用交替最小化线性分类器的l₂损失函数和神经网络的负对数似然损失函数的方式进行神经网络权重优化；

通过离散循环坐标下降的方式求解哈希码。

进一步地，所述步骤5的数据测试，包括：

将测试数据集以及所有训练数据集中的数据通过训练后且优化的网络入侵检测模型计算得到相应的哈希编码；

对于每一条测试数据，从输出的所有训练数据集数据的哈希编码中匹配汉明距离最小的网络流量数据；

对比测试数据与匹配网络流量数据的标签是否相同,得到检测结果。

与现有技术相比，本发明具有如下有益效果：

(1)该方法所构建的检测模型利用神经网络可以通过持续训练来更新权重的优势，提升入侵检测模型对于新型攻击的应对能力。

(2)不同于一般神经网络的收敛方法，本发明采用交替最小化的方法更新神经网络权重以优化目标哈希函数，并将神经网络最后一层的输出直接映射为一组二进制码。受益于二进制码的离散特性，此模型的收敛速度快于一般模型。

(3)训练得到的离散二进制码能够可以有效减小空间开销，且能较为全面地反映实际网络流量数据间的特征差异。

附图说明

图1是本发明基于深度监督离散哈希的网络入侵检测方法的流程图。

图2是本发明基于深度监督离散哈希的网络入侵检测方法的原理图。

图3是本发明所构建的网络结构图。

图4a是本发明实施例1中不同位数哈希码训练损失数据的示意图。

图4b是本发明实施例1中不同位数哈希码训练准确率数据的示意图。

图4c是本发明实施例1中不同位数哈希码训练召回率数据的示意图。

图5是本发明实施例2中的测试结果图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照图1-2所示，本发明提供的一种基于深度监督离散哈希的网络入侵检测方法，包括：

下面分别对上述各个步骤进行详细的说明：

在步骤1中，针对网络数据流量，首先剔除数据集中的非数Nan和无穷大Infinity脏数据，将处理后的数据进行标准化缩放，将其转化为处于同一数量级的数值型数据，标准化方式实现的具体方法为：

对于原始数据ε，依据下式进行标准化，其中α、β分别为100、10：

之后剔除原始网络流量数据集中的非必要特征列，对于与数据集中非数字的特征符号，采用One-hot编码方式(独热编码)，将其编码为一组多维向量；

在步骤2中，将预处理后的原始网络流量数据集进行整合，将其中数据数量较多的攻击类型数据采取过采样方式，减少其数据量；将其中数据量较少的攻击类型数据采取欠采样方式，增加其数据量，构建训练数据集和测试数据集，控制攻击类型数据与正常流量数据的比例控制在1:1左右；

在步骤3中，构建模型，参照图3所示，所构建的深度哈希神经网络模型的输入、输出以及隐藏层数分别为1、1、3，各层之间全连接，中间层采用sigmoid激活函数，最后一层采用tanh激活函数；模型的损失函数有两部分组成，第一部分是通过由所得哈希码和网络流量标签之间关系建模的线性分类器的l₂损失，第二部分是神经网络学习得到哈希码的负对数似然损失函数；最后将经过处理的训练集通过神经网络训练得到网络入侵检测模型；

在步骤4中，模型离散优化，采用交替最小化线性分类器的l₂损失函数和神经网络的负对数似然损失函数的方式进行神经网络权重优化，通过离散循环坐标下降的方式求解哈希码；该模型具有准确率高、收敛速度快、可扩展性强等优点；可提供更高效、更快速的网络入侵检测能力。

在步骤5中，将测试数据集以及所有训练数据集中的数据通过训练后且优化的网络入侵检测模型计算得到相应的哈希编码；

对比测试数据与匹配网络流量数据的标签是否相同,得到检测结果；当二者的标签相同时，说明检测准确；否则检测有误。

在步骤6中，当检测结果满足预设条件时，比如对测试数据的检测结果准确度达95％以上时，或根据实际情况进行适当调整阈值，则认定此时的模型为最优的检测模型。然后采用此时对应的网络入侵检测模型，对未知的网络流量数据进行网络入侵检测，得到是否为网络入侵的检测结果。

未知的网络流量数据在进行检测前，先进行预处理，预处理的方式和对训练数据预处理的过程相同。

即得到该未知网络流量数据对应的哈希编码，以及所有训练数据集数据的哈希编码。对于未知网络流量数据，从输出的所有训练数据集数据的哈希编码中匹配汉明距离最小的网络流量数据，对比未知网络流量数量与匹配网络流量数据的标签是否相同，最终实现对未知网络流量数据的类型进行判断，要么是正常流量，要么是网络入侵流量。

下面将预处理后的网络流量数据集作为哈希神经网络的输入，通过这两个实施例对本发明作进一步详细描述。

实施例1

从预处理后的数据集中随机选取5000条网络流量数据作为训练数据，1000条网络流量数据作为测试数据。调整batch_size和epoch的大小，将预处理好的网络流量数据作为输入通过图3中哈希神经网络进行训练，设定学习的目标哈希码位数，调整学习率和超参数使网络更好地收敛，并保存训练好的模型。将测试数据以及所有数据集中的数据通过训练好的模型计算得到相应的哈希编码，对于每一条测试数据，从输出的所有数据的哈希编码中匹配汉明距离最小的网络流量数据，对比测试数据与匹配数据的标签是否相同，并以此计算准确率和召回率。参照图4a、4b、4c是实施例1中不同位数哈希码(12、24、32、48)训练损失、准确率和召回率数据的测试结果，

实施例2

从预处理后的数据集中随机选取5000条网络流量数据作为训练数据，1000条网络流量数据作为测试数据。调整batch_size和epoch的大小，将预处理好的网络流量数据作为输入通过图3哈希神经网络进行训练，设定学习的目标哈希码位数，调整学习率和超参数使网络更好地收敛，并保存训练好的模型，再用该模型的训练结果与常见的网络模型的训练结果比较。

图5是实例2中本发明模型与其他常见的神经网络模型训练过程对比的测试结果。常见的网络模型CNN1D+LSTM、CNN+LSTM、CNN等；DSDH表示本发明的网络入侵检测模型。可见在5轮训练后，本发明的DSDH的准确率就远远高于其他网络模型。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度监督离散哈希的网络入侵检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法，其特征在于，所述步骤1的数据预处理，包括：

删除原始网络流量数据集中非数和无穷大的脏数据；

根据预设公式进行标准化处理；

再剔除所述原始网络流量数据集中的非必要特征列；

3.根据权利要求2所述的一种基于深度监督离散哈希的网络入侵检测方法，其特征在于，所述预设公式如下：

4.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法，其特征在于，所述步骤2的数据划分，包括：

5.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法，其特征在于，所述步骤3的构建模型过程包括：

6.根据权利要求5所述的一种基于深度监督离散哈希的网络入侵检测方法，其特征在于，所述步骤4的模型离散优化，包括：

通过离散循环坐标下降的方式求解哈希码。

7.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法，其特征在于，所述步骤5的数据测试，包括：