CN115643104A - 一种基于深度监督离散哈希的网络入侵检测方法 - Google Patents

一种基于深度监督离散哈希的网络入侵检测方法 Download PDF

Info

Publication number
CN115643104A
CN115643104A CN202211406624.4A CN202211406624A CN115643104A CN 115643104 A CN115643104 A CN 115643104A CN 202211406624 A CN202211406624 A CN 202211406624A CN 115643104 A CN115643104 A CN 115643104A
Authority
CN
China
Prior art keywords
data
network
data set
model
intrusion detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211406624.4A
Other languages
English (en)
Inventor
魏松杰
薛胤
刘代东
李成豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Silihua Information Technology Co ltd
Original Assignee
Nanjing Aokefu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aokefu Information Technology Co ltd filed Critical Nanjing Aokefu Information Technology Co ltd
Priority to CN202211406624.4A priority Critical patent/CN115643104A/zh
Publication of CN115643104A publication Critical patent/CN115643104A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度监督离散哈希的网络入侵检测方法,包括:对原始网络流量数据集进行数据清洗以及标准化缩放;构建训练数据集和测试数据集;使用处理之后的训练数据集通过神经网络训练后得到网络入侵检测模型;采用交替最小化损失函数的方式优化模型权重,通过离散循环坐标下降的方式求解哈希码;将测试数据集的数据输入到训练后且优化的网络入侵检测模型,得到检测结果;当检测结果满足预设条件时,采用对应的网络入侵检测模型,对未知的网络流量数据进行网络入侵检测。该方法可提供更高效、更快速的网络入侵检测能力,训练得到的离散二进制码能够可以有效减小空间开销,且能较为全面地反映实际网络流量数据间的特征差异。

Description

一种基于深度监督离散哈希的网络入侵检测方法
技术领域
本发明涉及网络空间安全技术领域,特别涉及一种基于深度监督离散哈希的网络入侵检测方法。
背景技术
基于误用的检测方法和基于异常的检测方法是两种主要的传统入侵检测方法。前者通过人为描述每一种攻击样本的特征和模式并以此作为规则来检测,应用较为广泛。该方法的查验准确率较高,但成本也较大,需要建立大型的攻击模式库且只能检测已知类型的攻击。
针对误用检测方法面临的问题,一些基于马尔可夫随机过程模型、基于阈值、基于机器学习以及神经网络的异常检测方法相继被提出。
目前入侵检测一个重要的研究方向是采用机器学习或深度学习的相关方法,利用已知数据集建立有效的检测模型以寻求对未知数据的异常判定。目前一些深度神经网络方法例如卷积神经网络、长短期记忆网络以及自编码器相关的入侵检测模型研究是较为有代表性的。
众多研究表明,这些方法取得了不错的成效,但也有可扩展性较差、查准率不高以及开销较大等问题。
发明内容
本发明的目的在于提供一种至少部分解决上述技术问题的基于深度监督离散哈希的网络入侵检测方法,该方法所构建的模型具有收敛速度快、可扩展性强等优点,该方法对网络流量数据网络入侵检测准确率高。
为实现上述目的,本发明采取的技术方案为:
本发明提供一种基于深度监督离散哈希的网络入侵检测方法,包括以下步骤:
步骤1、数据预处理:对原始网络流量数据集进行数据清洗以及标准化缩放,将其转化为处于同一数量级的数值型数据;
步骤2、数据划分:基于预处理后的数据,构建训练数据集和测试数据集,控制分组数据集的正常与异常流量比例;
步骤3、构建模型:依据线性分类器建模学习到的哈希码和网络流量数据标签之间的关系,选择负对数似然函数作为神经网络的损失函数训练得到哈希码,构建神经网络模型,使用处理之后的训练数据集通过神经网络训练后得到网络入侵检测模型;
步骤4、模型离散优化:采用交替最小化损失函数的方式优化模型权重,通过离散循环坐标下降的方式求解哈希码;
步骤5、数据测试:将测试数据集的数据输入到训练后且优化的网络入侵检测模型,得到检测结果;
步骤6、当检测结果满足预设条件时,采用对应的网络入侵检测模型,对未知的网络流量数据进行网络入侵检测。
进一步地,所述步骤1的数据预处理,包括:
删除原始网络流量数据集中非数和无穷大的脏数据;
根据预设公式进行标准化处理;
再剔除所述原始网络流量数据集中的非必要特征列;
对于与数据集中非数字的特征符合,采用独热编码方式编码为一组多维向量。
进一步地,所述预设公式如下:
Figure BDA0003936854940000021
式中,ε为原始网络流量数据集中的数据,α取值为100,β取值为10。
进一步地,所述步骤2的数据划分,包括:
将预处理后的原始网络流量数据集进行整合,将其中数据数量较多的攻击类型数据采取过采样方式,减少其数据量;
将其中数据数量较少的攻击类型数据采取欠采样方式,增加其数据量;
基于采样数据,构建训练数据集和测试数据集,每个数据集中的攻击类型数据与正常流量数据的比例相同。
进一步地,所述步骤3的构建模型过程包括:
所构建的深度哈希神经网络模型的输入、输出以及隐藏层数分别为1、1、3,各层之间全连接,中间层采用sigmoid激活函数,最后一层采用tanh激活函数;
模型的损失函数有两部分组成,第一部分为通过由所得哈希码和网络流量标签之间关系建模的线性分类器的l2损失;第二部分为神经网络学习得到哈希码的负对数似然损失函数;
最后将经过处理的训练集通过神经网络训练得到网络入侵检测模型。
进一步地,所述步骤4的模型离散优化,包括:
采用交替最小化线性分类器的l2损失函数和神经网络的负对数似然损失函数的方式进行神经网络权重优化;
通过离散循环坐标下降的方式求解哈希码。
进一步地,所述步骤5的数据测试,包括:
将测试数据集以及所有训练数据集中的数据通过训练后且优化的网络入侵检测模型计算得到相应的哈希编码;
对于每一条测试数据,从输出的所有训练数据集数据的哈希编码中匹配汉明距离最小的网络流量数据;
对比测试数据与匹配网络流量数据的标签是否相同,得到检测结果。
与现有技术相比,本发明具有如下有益效果:
(1)该方法所构建的检测模型利用神经网络可以通过持续训练来更新权重的优势,提升入侵检测模型对于新型攻击的应对能力。
(2)不同于一般神经网络的收敛方法,本发明采用交替最小化的方法更新神经网络权重以优化目标哈希函数,并将神经网络最后一层的输出直接映射为一组二进制码。受益于二进制码的离散特性,此模型的收敛速度快于一般模型。
(3)训练得到的离散二进制码能够可以有效减小空间开销,且能较为全面地反映实际网络流量数据间的特征差异。
附图说明
图1是本发明基于深度监督离散哈希的网络入侵检测方法的流程图。
图2是本发明基于深度监督离散哈希的网络入侵检测方法的原理图。
图3是本发明所构建的网络结构图。
图4a是本发明实施例1中不同位数哈希码训练损失数据的示意图。
图4b是本发明实施例1中不同位数哈希码训练准确率数据的示意图。
图4c是本发明实施例1中不同位数哈希码训练召回率数据的示意图。
图5是本发明实施例2中的测试结果图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参照图1-2所示,本发明提供的一种基于深度监督离散哈希的网络入侵检测方法,包括:
步骤1、数据预处理:对原始网络流量数据集进行数据清洗以及标准化缩放,将其转化为处于同一数量级的数值型数据;
步骤2、数据划分:基于预处理后的数据,构建训练数据集和测试数据集,控制分组数据集的正常与异常流量比例;
步骤3、构建模型:依据线性分类器建模学习到的哈希码和网络流量数据标签之间的关系,选择负对数似然函数作为神经网络的损失函数训练得到哈希码,构建神经网络模型,使用处理之后的训练数据集通过神经网络训练后得到网络入侵检测模型;
步骤4、模型离散优化:采用交替最小化损失函数的方式优化模型权重,通过离散循环坐标下降的方式求解哈希码;
步骤5、数据测试:将测试数据集的数据输入到训练后且优化的网络入侵检测模型,得到检测结果;
步骤6、当检测结果满足预设条件时,采用对应的网络入侵检测模型,对未知的网络流量数据进行网络入侵检测。
下面分别对上述各个步骤进行详细的说明:
在步骤1中,针对网络数据流量,首先剔除数据集中的非数Nan和无穷大Infinity脏数据,将处理后的数据进行标准化缩放,将其转化为处于同一数量级的数值型数据,标准化方式实现的具体方法为:
对于原始数据ε,依据下式进行标准化,其中α、β分别为100、10:
Figure BDA0003936854940000061
之后剔除原始网络流量数据集中的非必要特征列,对于与数据集中非数字的特征符号,采用One-hot编码方式(独热编码),将其编码为一组多维向量;
在步骤2中,将预处理后的原始网络流量数据集进行整合,将其中数据数量较多的攻击类型数据采取过采样方式,减少其数据量;将其中数据量较少的攻击类型数据采取欠采样方式,增加其数据量,构建训练数据集和测试数据集,控制攻击类型数据与正常流量数据的比例控制在1:1左右;
在步骤3中,构建模型,参照图3所示,所构建的深度哈希神经网络模型的输入、输出以及隐藏层数分别为1、1、3,各层之间全连接,中间层采用sigmoid激活函数,最后一层采用tanh激活函数;模型的损失函数有两部分组成,第一部分是通过由所得哈希码和网络流量标签之间关系建模的线性分类器的l2损失,第二部分是神经网络学习得到哈希码的负对数似然损失函数;最后将经过处理的训练集通过神经网络训练得到网络入侵检测模型;
在步骤4中,模型离散优化,采用交替最小化线性分类器的l2损失函数和神经网络的负对数似然损失函数的方式进行神经网络权重优化,通过离散循环坐标下降的方式求解哈希码;该模型具有准确率高、收敛速度快、可扩展性强等优点;可提供更高效、更快速的网络入侵检测能力。
在步骤5中,将测试数据集以及所有训练数据集中的数据通过训练后且优化的网络入侵检测模型计算得到相应的哈希编码;
对于每一条测试数据,从输出的所有训练数据集数据的哈希编码中匹配汉明距离最小的网络流量数据;
对比测试数据与匹配网络流量数据的标签是否相同,得到检测结果;当二者的标签相同时,说明检测准确;否则检测有误。
在步骤6中,当检测结果满足预设条件时,比如对测试数据的检测结果准确度达95%以上时,或根据实际情况进行适当调整阈值,则认定此时的模型为最优的检测模型。然后采用此时对应的网络入侵检测模型,对未知的网络流量数据进行网络入侵检测,得到是否为网络入侵的检测结果。
未知的网络流量数据在进行检测前,先进行预处理,预处理的方式和对训练数据预处理的过程相同。
即得到该未知网络流量数据对应的哈希编码,以及所有训练数据集数据的哈希编码。对于未知网络流量数据,从输出的所有训练数据集数据的哈希编码中匹配汉明距离最小的网络流量数据,对比未知网络流量数量与匹配网络流量数据的标签是否相同,最终实现对未知网络流量数据的类型进行判断,要么是正常流量,要么是网络入侵流量。
下面将预处理后的网络流量数据集作为哈希神经网络的输入,通过这两个实施例对本发明作进一步详细描述。
实施例1
从预处理后的数据集中随机选取5000条网络流量数据作为训练数据,1000条网络流量数据作为测试数据。调整batch_size和epoch的大小,将预处理好的网络流量数据作为输入通过图3中哈希神经网络进行训练,设定学习的目标哈希码位数,调整学习率和超参数使网络更好地收敛,并保存训练好的模型。将测试数据以及所有数据集中的数据通过训练好的模型计算得到相应的哈希编码,对于每一条测试数据,从输出的所有数据的哈希编码中匹配汉明距离最小的网络流量数据,对比测试数据与匹配数据的标签是否相同,并以此计算准确率和召回率。参照图4a、4b、4c是实施例1中不同位数哈希码(12、24、32、48)训练损失、准确率和召回率数据的测试结果,
实施例2
从预处理后的数据集中随机选取5000条网络流量数据作为训练数据,1000条网络流量数据作为测试数据。调整batch_size和epoch的大小,将预处理好的网络流量数据作为输入通过图3哈希神经网络进行训练,设定学习的目标哈希码位数,调整学习率和超参数使网络更好地收敛,并保存训练好的模型,再用该模型的训练结果与常见的网络模型的训练结果比较。
图5是实例2中本发明模型与其他常见的神经网络模型训练过程对比的测试结果。常见的网络模型CNN1D+LSTM、CNN+LSTM、CNN等;DSDH表示本发明的网络入侵检测模型。可见在5轮训练后,本发明的DSDH的准确率就远远高于其他网络模型。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于深度监督离散哈希的网络入侵检测方法,其特征在于,包括以下步骤:
步骤1、数据预处理:对原始网络流量数据集进行数据清洗以及标准化缩放,将其转化为处于同一数量级的数值型数据;
步骤2、数据划分:基于预处理后的数据,构建训练数据集和测试数据集,控制分组数据集的正常与异常流量比例;
步骤3、构建模型:依据线性分类器建模学习到的哈希码和网络流量数据标签之间的关系,选择负对数似然函数作为神经网络的损失函数训练得到哈希码,构建神经网络模型,使用处理之后的训练数据集通过神经网络训练后得到网络入侵检测模型;
步骤4、模型离散优化:采用交替最小化损失函数的方式优化模型权重,通过离散循环坐标下降的方式求解哈希码;
步骤5、数据测试:将测试数据集的数据输入到训练后且优化的网络入侵检测模型,得到检测结果;
步骤6、当检测结果满足预设条件时,采用对应的网络入侵检测模型,对未知的网络流量数据进行网络入侵检测。
2.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法,其特征在于,所述步骤1的数据预处理,包括:
删除原始网络流量数据集中非数和无穷大的脏数据;
根据预设公式进行标准化处理;
再剔除所述原始网络流量数据集中的非必要特征列;
对于与数据集中非数字的特征符合,采用独热编码方式编码为一组多维向量。
3.根据权利要求2所述的一种基于深度监督离散哈希的网络入侵检测方法,其特征在于,所述预设公式如下:
Figure FDA0003936854930000021
式中,ε为原始网络流量数据集中的数据,α取值为100,β取值为10。
4.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法,其特征在于,所述步骤2的数据划分,包括:
将预处理后的原始网络流量数据集进行整合,将其中数据数量较多的攻击类型数据采取过采样方式,减少其数据量;
将其中数据数量较少的攻击类型数据采取欠采样方式,增加其数据量;
基于采样数据,构建训练数据集和测试数据集,每个数据集中的攻击类型数据与正常流量数据的比例相同。
5.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法,其特征在于,所述步骤3的构建模型过程包括:
所构建的深度哈希神经网络模型的输入、输出以及隐藏层数分别为1、1、3,各层之间全连接,中间层采用sigmoid激活函数,最后一层采用tanh激活函数;
模型的损失函数有两部分组成,第一部分为通过由所得哈希码和网络流量标签之间关系建模的线性分类器的l2损失;第二部分为神经网络学习得到哈希码的负对数似然损失函数;
最后将经过处理的训练集通过神经网络训练得到网络入侵检测模型。
6.根据权利要求5所述的一种基于深度监督离散哈希的网络入侵检测方法,其特征在于,所述步骤4的模型离散优化,包括:
采用交替最小化线性分类器的l2损失函数和神经网络的负对数似然损失函数的方式进行神经网络权重优化;
通过离散循环坐标下降的方式求解哈希码。
7.根据权利要求1所述的一种基于深度监督离散哈希的网络入侵检测方法,其特征在于,所述步骤5的数据测试,包括:
将测试数据集以及所有训练数据集中的数据通过训练后且优化的网络入侵检测模型计算得到相应的哈希编码;
对于每一条测试数据,从输出的所有训练数据集数据的哈希编码中匹配汉明距离最小的网络流量数据;
对比测试数据与匹配网络流量数据的标签是否相同,得到检测结果。
CN202211406624.4A 2022-11-10 2022-11-10 一种基于深度监督离散哈希的网络入侵检测方法 Pending CN115643104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211406624.4A CN115643104A (zh) 2022-11-10 2022-11-10 一种基于深度监督离散哈希的网络入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211406624.4A CN115643104A (zh) 2022-11-10 2022-11-10 一种基于深度监督离散哈希的网络入侵检测方法

Publications (1)

Publication Number Publication Date
CN115643104A true CN115643104A (zh) 2023-01-24

Family

ID=84948736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211406624.4A Pending CN115643104A (zh) 2022-11-10 2022-11-10 一种基于深度监督离散哈希的网络入侵检测方法

Country Status (1)

Country Link
CN (1) CN115643104A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117692207A (zh) * 2023-12-12 2024-03-12 国网湖北省电力有限公司鄂州供电公司 一种基于加权相似度匹配的指令级电力系统业务防护方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117692207A (zh) * 2023-12-12 2024-03-12 国网湖北省电力有限公司鄂州供电公司 一种基于加权相似度匹配的指令级电力系统业务防护方法
CN117692207B (zh) * 2023-12-12 2024-05-03 国网湖北省电力有限公司鄂州供电公司 一种基于加权相似度匹配的指令级电力系统业务防护方法

Similar Documents

Publication Publication Date Title
CN112987675B (zh) 一种异常检测的方法、装置、计算机设备和介质
CN109729091A (zh) 一种基于多特征融合和CNN算法的LDoS攻击检测方法
CN111562108A (zh) 一种基于cnn和fcmc的滚动轴承智能故障诊断方法
CN111756719B (zh) SDN网络架构下一种结合SVM和优化LSTM模型的DDoS攻击检测方法
CN110082136B (zh) 基于云遗传算法优化支持向量机的旋转机械故障诊断方法
CN113987033B (zh) 主变在线监测数据群体偏差识别与校准方法
CN115018021A (zh) 基于图结构与异常注意力机制的机房异常检测方法及装置
CN113723010A (zh) 一种基于lstm温度-位移相关模型的桥梁损伤预警方法
CN108446714B (zh) 一种多工况下的非马尔科夫退化系统剩余寿命预测方法
CN113378990A (zh) 基于深度学习的流量数据异常检测方法
CN113315781B (zh) 基于hmm模型的异常数据检测方法
CN115643104A (zh) 一种基于深度监督离散哈希的网络入侵检测方法
CN112149750A (zh) 一种供水管网爆管识别数据驱动方法
CN112464996A (zh) 基于LSTM-XGBoost的智能电网入侵检测方法
CN114842371B (zh) 一种无监督视频异常检测方法
CN113949549A (zh) 一种面向入侵和攻击防御的实时流量异常检测方法
CN114036992A (zh) 基于自编码器和遗传算法的高维数据异常子空间检测方法
CN113486569B (zh) 一种离心泵剩余寿命预测方法
CN113780432B (zh) 基于增强学习的网络信息系统运维异常智能检测方法
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN113762591A (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN110061986B (zh) 一种基于遗传算法和anfis相结合的网络入侵异常检测方法
CN117009903A (zh) 一种数据异常检测方法、装置、设备及存储介质
CN113837096B (zh) 一种基于ga随机森林的滚动轴承故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230904

Address after: Room 411-1, 4th Floor, Building 6, Design Industrial Park, No.1 Zidan Road, Qinhuai District, Nanjing City, Jiangsu Province, 210000

Applicant after: NANJING SILIHUA INFORMATION TECHNOLOGY CO.,LTD.

Address before: 210010 310, Floor 3, Science Park, Nanjing University of Technology, No.127 Guanghua Road, Qinhuai District, Nanjing, Jiangsu Province

Applicant before: Nanjing Aokefu Information Technology Co.,Ltd.

TA01 Transfer of patent application right