CN111355725A - 一种网络入侵数据的检测方法及装置 - Google Patents
一种网络入侵数据的检测方法及装置 Download PDFInfo
- Publication number
- CN111355725A CN111355725A CN202010120695.2A CN202010120695A CN111355725A CN 111355725 A CN111355725 A CN 111355725A CN 202010120695 A CN202010120695 A CN 202010120695A CN 111355725 A CN111355725 A CN 111355725A
- Authority
- CN
- China
- Prior art keywords
- data
- intrusion detection
- network intrusion
- detection model
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例提供的一种网络入侵数据的检测方法及装置,其中方法包括:获取各个网段内的数据,将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果。本发明实施例使用预先训练好的网络入侵检测模型检测各个网段的数据,预先训练好的网络入侵检测模型中低于预设权重阈值的权重的值为零,并且预先训练好的网络入侵检测模型是在低于预设权重阈值的权重置零后的网络入侵检测模型中,成本值最小的网络入侵检测模型,该网络入侵检测模型仅保留权重不低于权重阈值的通道的连接,从而降低了网络入侵检测模型的复杂性和冗余度,减少了网络入侵检测模型过拟合的风险,提高了网络入侵检测模型的识别网络入侵数据的准确率。
Description
技术领域
本发明涉及网络技术领域,特别是涉及一种网络入侵数据的检测方法及装置。
背景技术
随着网络技术的不断发展,网络安全也成为了用户关注的重点,现有的数据识别方案是将NIDS(Network Intrusion Detection System,网络入侵检测)系统部署在网口,通过网口检测各个网段内的数据,将所检测网段内的所有数据作为训练样本,训练得到DNN(Deep Neural Networks,深度神经网络)模型,DNN模型架构包括输入层,隐藏层和输出层,每一层由多个神经元组成,然后使用DNN模型识别数据是否是异常数据。
当DNN模型中每层层数以及每层神经元个数的增加时,DNN模型所学习的训练样本的特征会随之增加,DNN模型容易学习到训练样本多余的特征,从而导致DNN模型的冗余度越来越高,造成DNN模型过度拟合,DNN模型的准确性会降低,因此现有技术识别网络入侵数据的准确性不高。
发明内容
本发明实施例的目的在于提供一种网络入侵数据的检测方法及装置,提高识别网络入侵数据的准确性。具体技术方案如下:
第一方面,本发明实施例提供的一种网络入侵数据的检测方法,包括:
获取各个网段内的数据。
将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果,其中,网络入侵检测模型是利用预先获取的数据集迭代训练后得到的,数据集是通过部署在网口的网络入侵检测系统NIDS检测网口中预设各个网段的数据得到的,网络入侵检测模型的训练过程为:将数据集输入待训练的网络入侵检测模型,以及,将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数,计算每次权重置零后的待训练网络入侵检测模型的成本值,将成本值最小的待训练的网络入侵检测模型作为训练好的网络入侵检测模型;待训练的网络入侵检测模型为深度神经网络DNN模型,预设权重阈值与待训练的网络入侵检测模型的剪枝率成正比,成本值表示权重置零后的待训练的网络入侵检测模型的准确程度,检测结果包括:数据为异常或非异常。
可选的,数据集包括多个数据,每个数据包括多个特征,每个特征对应一个维度,则将数据集输入待训练的网络入侵检测模型的步骤之前,本发明第一方面实施例提供的一种网络入侵数据的检测方法还包括:
将数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集。
将数据集输入待训练的网络入侵检测模型的步骤包括:
将扩充维度后的数据集输入待训练的网络入侵检测模型。
可选的,在将数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集的步骤之前,本发明第一方面实施例提供的一种网络入侵数据的检测方法还包括:
对数据集中的每个数据进行复制直至数据集中的数据个数达到预设的目标值。
可选的,将数据集输入待训练的网络入侵检测模型,以及将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数的步骤包括:
将数据集输入待训练的网络入侵检测模型。
更新待训练的网络入侵检测模型中每个神经元与下一层神经元的权重,以使更新权重后的待训练的网络入侵检测模型的损失函数小于更新权重前的待训练的网络入侵检测模型的损失函数;
重复执行将更新权重后的待训练的网络入侵检测模型中低于预设权重阈值的权重置零,将数据集输入权重置零后的待训练的网络入侵检测模型的步骤,直至达到迭代训练次数。
可选的,获取各个网段内的数据之前,本发明第一方面实施例提供的一种网络入侵数据的检测方法还包括:
利用网络入侵检测系统检测网口,得到网口中预设各个网段的数据,数据包括多个特征,每个特征对应一个维度,特征为字符型特征或者数字型特征。
当数据的特征是字符型特征时,将数据的字符型特征转化为数字型特征。
将各个数据的特征进行归一化。
将特征归一化后的各个数据组成数据集。
第二方面,本发明实施例提供的一种网络入侵数据的检测装置包括:
获取模块,用于获取各个网段内的数据。
检测模块,用于将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果。
其中,网络入侵检测模型是利用预先获取的数据集迭代训练后得到的,数据集是通过部署在网口的网络入侵检测系统NIDS检测网口中预设各个网段的数据得到的,网络入侵检测模型的训练过程为:将数据集输入待训练的网络入侵检测模型,以及,将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数,计算每次权重置零后的待训练网络入侵检测模型的成本值,将成本值最小的待训练的网络入侵检测模型作为训练好的网络入侵检测模型;待训练的网络入侵检测模型为深度神经网络DNN模型,预设权重阈值与待训练的网络入侵检测模型的剪枝率成正比,成本值表示权重置零后的待训练的网络入侵检测模型的准确程度,检测结果包括:数据为异常或非异常。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:
特征扩充模块,用于将数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集。
将扩充维度后的数据集输入待训练的网络入侵检测模型。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:
数据扩充模块,用于对数据集中的每个数据进行复制直至数据集中的数据个数达到预设的目标值。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:训练模块,用于
将数据集输入待训练的网络入侵检测模型。
更新待训练的网络入侵检测模型中每个神经元与下一层神经元的权重,以使更新权重后的待训练的网络入侵检测模型的损失函数小于更新权重前的待训练的网络入侵检测模型的损失函数。
重复执行将更新权重后的待训练的网络入侵检测模型中低于预设权重阈值的权重置零,将数据集输入权重置零后的待训练的网络入侵检测模型的步骤,直至达到迭代训练次数。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:归一化模块,用于
利用网络入侵检测系统检测网口,得到网口中预设各个网段的数据,数据包括多个特征,每个特征对应一个维度,特征为字符型特征或者数字型特征。
当数据的特征是字符型特征时,将数据的字符型特征转化为数字型特征。
将各个数据的特征进行归一化。
将特征归一化后的各个数据组成数据集。
本发明实施例使用预先训练好的网络入侵检测模型检测各个网段的数据,预先训练好的网络入侵检测模型中低于预设权重阈值的权重的值为零,并且预先训练好的网络入侵检测模型是在低于预设权重阈值的权重置零后的网络入侵检测模型中,成本值最小的网络入侵检测模型,该网络入侵检测模型仅保留权重不低于权重阈值的通道的连接,从而降低了网络入侵检测模型的复杂性和冗余度,减少了网络入侵检测模型过拟合的风险,提高了网络入侵检测模型的识别网络入侵数据的准确率。
第三方面,本发明实施例提供了一种服务器,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现本发明实施例第一方面提供的一种网络入侵数据的检测方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行本发明实施例第一方面提供的一种网络入侵数据的检测方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本发明实施例第一方面提供的一种网络入侵数据的检测方法步骤。
本发明实施例提供的一种网络入侵数据的检测方法及装置,通过获取各个网段内的数据;将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果,相比于现有技术,本发明实施例使用预先训练好的网络入侵检测模型检测各个网段的数据,预先训练好的网络入侵检测模型中低于预设权重阈值的权重的值为零,并且预先训练好的网络入侵检测模型是在低于预设权重阈值的权重置零后的网络入侵检测模型中,成本值最小的网络入侵检测模型,该网络入侵检测模型仅保留权重不低于权重阈值的通道的连接,从而降低了网络入侵检测模型的复杂性和冗余度,减少了网络入侵检测模型过拟合的风险,因此可以提高识别网络入侵数据的准确性。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网络入侵数据的检测方法的流程图;
图2为本发明实施例提供的对数据集进行归一化的流程图;
图3为本发明实施例提供的扩充数据的特征维度过程的流程图;
图4为本发明实施例提供的扩充数据的特征维度过程的效果示意图;
图5为本发明实施例提供的训练待训练的网络入侵检测模型过程的流程图;
图6为本发明实施例提供的一种网络入侵数据的检测装置的结构图;
图7为本发明实施例提供的一种服务器的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种网络入侵数据的检测方法,包括:
S101,获取各个网段内的数据。
其中,每个数据包括多个特征,每个特征对应一个维度,数据是指用户端连接网络而产生的连接记录。
示例性的,一个数据可以包括3个特征,分别是:当前时间前的预设时间内与当前连接有着相同的目的地址的连接;建立相同服务的连接次数以及建立不同服务的连接次数。当前时间前的预设时间内与当前连接有着相同的目的地址的连接的维度为第1个维度,建立相同服务的连接次数的维度为第2个维度;建立不同服务的连接次数的维度为第3个维度。
可以理解,NIDS(Network Intrusion Detection System,网络入侵检测)系统部署在网口,网口包括子网,每个子网包含有多个主机IP地址,将一个子网包含的主机IP地址划分为预设数量段,每段包含多个主机IP地址,则该段为一个网段。
示例性的,子网的网络地址是:192.168.8.0,子网掩码是:255.255.255.192,子网包含的主机IP地址的范围为:192.168.8.1~192.168.8.62,将192.168.8.1~192.168.8.62分为两段,分别是192.168.8.1~192.168.8.31,192.168.8.31~192.168.8.62,则192.168.8.1~192.168.8.31是一个网段。
S102,将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果。
其中,网络入侵检测模型是利用预先获取的数据集迭代训练后得到的,数据集是通过部署在网口的NIDS(Network Intrusion Detection System,网络入侵检测系统)检测网口中预设各个网段的数据得到的,网络入侵检测模型的训练过程为:将数据集输入待训练的网络入侵检测模型,以及,将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数,计算每次权重置零后的待训练网络入侵检测模型的成本值,将成本值最小的待训练的网络入侵检测模型作为训练好的网络入侵检测模型;待训练的网络入侵检测模型为DNN(Deep Neural Networks,深度神经网络)模型,预设权重阈值与待训练的网络入侵检测模型的剪枝率成正比,成本值表示权重置零后的待训练的网络入侵检测模型的准确程度,检测结果包括:数据为异常或非异常。
其中,DNN模型的结构由输入层、隐藏层以及输出层构成,输入层、隐藏层以及输出层都包括多个神经元,每层的神经元与下一层的神经元之间是全连接,隐藏层以及输出层都包含各自的激活函数,DNN模型中每层的神经元与下一层的神经元之间是全连接。
可以理解,用户端都是通过网口访问网络,网络服务器通过网口将数据传输给客户端,将NIDS部署在网口,用于获取当前时间前各个网段的数据,组成数据集,使用该数据集迭代训练待训练的网络入侵检测模型,而迭代训练过程是一个循环过程,训练待训练的网络入侵检测模型中需要更新权重,使得网络入侵检测模型的检测结果趋向于更准确的方向,在每次更新权重后,需要对网络入侵检测模型中低于权重阈值的权重置零,权重为零表示神经元到下个神经元通道中断,数据集中的数据特征无法被该通道传输,在得到权重置零之后的网络入侵检测模型后,将数据集再次输入至权重置零之后的网络入侵检测模型,再次更新网络入侵检测模型的权重,再次对低于权重阈值的权重置零,循环执行将数据集输入至权重置零之后的网络入侵检测模型中,直至达到迭代训练次数,同时在每次重新练过程中需要计算权重置零后的网络入侵检测模型的成本值,而模型的成本值表示模型的准确程度,成本值越小表示该模型的准确程度越高,因此可以通过成本值确定准确性最高的网络入侵检测模型,使用该网络入侵检测模型对网段内的数据进行检测。
其中,剪枝率可以是预先设定的大于0小于1的实数。
可以理解,网络入侵检测结构确定后,网络入侵检测包含的神经元总数是确定的,在网络入侵检测各层是全连接时,网络入侵检测中神经元与神经元之间的通道的总数也是固定值,在剪枝率确定之后,将剪枝率与通道的总数相乘得到需要权重置零通道的个数,设置权重阈值,使得网络入侵检测模型中小于权重阈值的权重个数等于剪枝率与通道的总数之积。
示例性的,假设剪枝率为30%,当前层神经元与下一层神经元之间通道的总个数是100,则剪枝的通道个数为30个,将各个神经元之间通道的权重的绝对值按照从大到小排序,设置权重阈值,使得权重的绝对值小于该权重阈值的通道个数为30个。当然,技术人员可以根据实际情况合理设定上述剪枝率。
可以理解,数据集包括多个数据,每个数据包括多个特征,每个特征对应一个维度,数据为异常表示网络受到攻击,数据为非异常表示网络未受到攻击,异常数据的特征会与非异常数据的特征存在差异。
其中,当数据集中包括多类数据时,检测结果包括:数据所属的类。
示例性的,数据集中包括5类数据,分别是服务器未受攻击应用程序攻击的访问数据,用Normal数据表示;攻击应用程序尝试收集有关计算机网络的信息以规避服务器上安全保护程序的数据,用Probe数据表示;攻击应用程序攻击服务器,造成服务器内存不足无法处理请求的数据,用DoS数据表示;攻击应用程序获取服务器的预设权限后,尝试利用服务器漏洞获得对服务器的root(用于表示最高权限)访问权限的数据,用U2R数据表示;以及攻击应用程序利用服务器漏洞通过远程连接获取作为该服务器本地用户的访问权限的数据用R2L数据表示。非异常数据为数据Normal,异常数据是数据集中除数据Normal外的其余数据,识别结果为Normal,Probe,DoS,U2R或者R2L,通过数据所属类可以获知该数据时异常数据还是非异常数据。
本发明实施例预先训练好的网络入侵检测模型检测各个网段的数据,预先训练好的网络入侵检测模型中低于预设权重阈值的权重的值为零,并且预先训练好的网络入侵检测模型是在低于预设权重阈值的权重置零后的网络入侵检测模型中,成本值最小的网络入侵检测模型。该网络入侵检测模型仅保留权重不低于权重阈值的通道的连接,从而降低了网络入侵检测模型的复杂性和冗余度,减少了网络入侵检测模型过拟合的风险,提高了网络入侵检测模型的识别网络入侵数据的准确率。
作为本发明实施例可选的一种实施方式,将已获取的数据集中的数据进行去重,保留不重复的数据,降低重复的数据对待训练的网络入侵检测模型的影响并为构建平衡的数据集提供参考。
作为本发明可选的一种方式,如图2所示,在S101的步骤之前,本发明实施例提供的一种网络入侵数据的检测方法还包括:
S201,利用网络入侵检测系统检测网口,得到网口中预设各个网段的数据。
其中,数据包括多个特征,每个特征对应一个维度,特征为字符型特征或者数字型特征。
S202,当数据的特征是字符型特征时,将数据的字符型特征转化为数字型特征。
示例性的,假设一个数据包含3个特征,分别是特征Protocal,表示协议类型,特征Protocal共有三种类型,特征Service,表示目标主机的网络服务类型,特征Service共有70种类型;以及特征Connection,表示目标主机的连接类型,特征Connection共有11种类型。特征Protocal的字符是tcp,转化为0-2之内的数值,特征Service的字符为domain,将字符domain转化为0-69之内的数值,特征Connection的字符为OTH,将字符OTH转化为0-10之内的数值。
S203,将各个数据的特征进行归一化。
可以理解,归一化可以将每个特征的数值缩放到均匀范围,消除数值较大的特征带来的偏差。
本实施例可以使用归一化表达式对各个数据的特征进行归一化。
其中,归一化表达式为:
其中,xi表示数据x第i个特征的原始值,xi′表示数据x第i个特征归一化后的值,i的取值从1到n。
S204,将特征归一化后的各个数据组成数据集。
作为本发明实施例可选的一种实施方式,如图3所示,在步骤S103之前,本发明实施提供的一种网络入侵数据的检测方法还包括:
S301,将数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集。
其中,可以设置复制次数,用于限制数据集的大小。
示例性的,如图4所示,数据的特征在扩充前可以称为原始的特征,假设一个数据包括41个特征,分别特征为F1至F41,将F1-F41特征按照顺序排序复制20次,即数据的特征维度扩充了20倍,扩充维度后的特征如图4所示。
S302,将扩充维度后的数据集输入待训练的网络入侵检测模型。
可以理解,训练一个结构庞大且复杂度较高的神经网络模型,再对该DNN模型逐步剪枝得到复杂度低的DNN模型,相比于直接使用训练集训练复杂度低的DNN模型,得到训练好的DNN模型的准确度高。
作为本发明实施例可选的一种实施方式,在步骤S301之前,本发明实施例提供的一种网络入侵数据的检测方法还包括:对数据集中的每个数据进行复制直至数据集中的数据个数达到预设的目标值。
其中,预设的目标值是数据集中数据DoS的个数。
可以理解,数据集中的数据如果分布不均匀,使用该数据集训练出的网络入侵检测模型的准确性会降低,对数据集中的数据进行去重后,在对去重后的数据集中的数据进行复制,实现对数据集中的数据进行过采样,使得数据集中的数据保持均衡。
作为本发明实施例可选的一种实施方式,对数据集中个数小于预设的目标值的数据进行复制。
示例性的,假设数据集中Normal、Probe、DoS、U2R和R2L的数据个数分别是:87832,2130,54572,52和999,设置目标值为54572,Probe、U2R以及R2L数据的个数都需要扩充至54572,则Probe数据需要扩充25倍,U2R数据需要扩充1049倍,以及R2L数据需要扩充54倍。
作为本发明实施例可选的一种实施方式,结合图1,如图5所示,本发明实施提供的一种网络入侵数据的检测方法中将数据集输入待训练的网络入侵检测模型,以及将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数的步骤包括:
S501,将数据集输入待训练的网络入侵检测模型。
作为本发明实施例可选的一种实施方式,在步骤S501之后,本发明实施提供的一种网络入侵数据的检测方法包括:利用现有的Dropout方法服从预设的第一概率使得待训练的网络入侵检测模型中的神经元失效。
可以理解,Dropout方法的原理是:在训练待训练的网络入侵检测模型时,由于待训练的网络入侵检测模型中神经元在前向传播影响后一个神经元时,服从第三概率使得后一个神经元停止工作,如此网络入侵检测模型中的神经元不会太依赖数据的局部特征,使得训练好的网络入侵检测模型的泛化能力更强。
S502,更新待训练的网络入侵检测模型中每个神经元与下一层神经元的权重,以使更新权重后的待训练的网络入侵检测模型的损失函数小于更新权重前的待训练的网络入侵检测模型的损失函数。
其中,待训练的网络入侵检测模型的损失函数为:
其中,x表示输入样本的特征向量,ed(x)表示在网络入侵检测模型中,输入样本所属的类型对应的概率分布,pd(x)表示待训练的网络入侵检测模识别输入样本结果的概率分布,特征向量是输入样本所有特征的组合,输入样本是数据集中的一条数据。
作为本发明实施例可选的一种方式,可以使用反向传播算法更新待训练的网络入侵检测模型中每个神经元与下一层神经元的权重,以使更新权重后的待训练的网络入侵检测模型的损失函数小于更新权重前的待训练的网络入侵检测模型的损失函数。
可以理解,反向传播算法通过网络入侵检测模型的输出对比理论输出产生的误差,反向更新各层连接的权重和偏向,从而优化网络入侵检测模型,整使得网络入侵检测模型更加准确。
作为本发明实施例可选的一种方式,使用Adam(Adaptive momentum,自适应动量)算法,计算待训练的网络入侵检测模型中每个神经元与下一层神经元的权重的学习率,使用反向传播算法,根据各个权重的学习率更新权重,以使更新权重后的待训练的网络入侵检测模型的损失函数小于更新权重前的待训练的网络入侵检测模型的损失函数。
其中,学习率的大小与权重的稀疏程度呈反比关系,权重之间越稀疏权重的学习率越高。
可以理解,如果权重之间的差距较大,权重之间是稀疏的,学习率就越高,学习率越高,权重更新的幅度越大,以此更新权重,加快待训练的网络入侵检测模型的学习效率,同时使得待训练的网络入侵检测模型不依赖局部的权重,提高待训练的网络入侵检测模型的准确性。
S503,重复执行将更新权重后的待训练的网络入侵检测模型中低于预设权重阈值的权重置零,将数据集输入权重置零后的待训练的网络入侵检测模型的步骤,直至达到迭代训练次数。
其中,迭代训练次数是预先设置的数值,该数值是根据行业经验设定的。
作为本发明实施例可选的一种实施方式,可以使用成本表达式计算每次权重置零后的网络入侵检测模型的成本值。
其中,成本表达式为:
其中,COST表示成本值,N表示数据集中数据的总数。CM表示混淆矩阵,CM(i,j)表示属于i类被网络入侵检测模型识别为j类的数据个数,C表示成本矩阵,C(i,j)表示原属于i类被网络入侵检测模型识别为j类的成本。
示例性的,如果数据的真实类是Normal,被网络入侵检测模型识别为Probe,则在成本矩阵中取第1行第2列的值1;如果被网络入侵检测模型被识别为DoS,则在成本矩阵中取第1行第3列的值2。
表1
示例性的,在仿真实验中,待训练的网络入侵检测模型的结构包括:1个输入层,5个隐藏层以及1个输出层,输入层包括820个神经元,5个隐藏层的神经元个数分别是512、256、128、64、32个,输出层包括5个神经元,神经元之间是全连接,隐藏层激活函数为:ReLU,输出层激活函数是Softmax,待训练的网络入侵检测模型的损失函数为:
数据集为:KDD Cup 99,数据集中包括:Normal、Probe、DoS、U2R和R2L的数据个数分别是97288、4107、391458、52、1126,在对数据集进行去重后,Normal、Probe、DoS、U2R和R2L的数据个数分别降至87832,2130,54572,52和999,对数据集中的数据扩充之后,数据集中Normal、Probe、DoS、U2R和R2L的数据个数分别增至87832、54572、54572、54572、54572。其中,KDD Cup 99是从一个模拟的局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据,标识用来表示该条数据是正常的,或是具体的攻击类型。通过数据集训练待训练的网络入侵检测模型,得到训练好的网络入侵检测模型,检测结果表明本发明实施例的提供的网络入侵数据的检测方法的准确率为0.9317,网络入侵检测模型的成本为0.1875。相比于现有技术,本发明实施例提供的网络入侵数据的检测方法的准确率有明显提升。
如图6所示,本发明实施例提供的一种网络入侵数据的检测装置包括:
获取模块601,用于获取各个网段内的数据。
检测模块602,用于将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果。
其中,网络入侵检测模型是利用预先获取的数据集迭代训练后得到的,数据集是通过部署在网口的网络入侵检测系统NIDS检测网口中预设各个网段的数据得到的,网络入侵检测模型的训练过程为:将数据集输入待训练的网络入侵检测模型,以及,将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数,计算每次权重置零后的待训练网络入侵检测模型的成本值,将成本值最小的待训练的网络入侵检测模型作为训练好的网络入侵检测模型;待训练的网络入侵检测模型为深度神经网络DNN模型,预设权重阈值与待训练的网络入侵检测模型的剪枝率成正比,成本值表示权重置零后的待训练的网络入侵检测模型的准确程度,检测结果包括:数据为异常或非异常。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:
特征扩充模块,用于将数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集。
将扩充维度后的数据集输入待训练的网络入侵检测模型。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:
数据扩充模块,用于对数据集中的每个数据进行复制直至数据集中的数据个数达到预设的目标值。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:训练模块,用于
将数据集输入待训练的网络入侵检测模型。
更新待训练的网络入侵检测模型中每个神经元与下一层神经元的权重,以使更新权重后的待训练的网络入侵检测模型的损失函数小于更新权重前的待训练的网络入侵检测模型的损失函数。
重复执行将更新权重后的待训练的网络入侵检测模型中低于预设权重阈值的权重置零,将数据集输入权重置零后的待训练的网络入侵检测模型的步骤,直至达到迭代训练次数。
可选的,本发明实施例提供的一种网络入侵数据的检测装置还包括:归一化模块,用于
利用网络入侵检测系统检测网口,得到网口中预设各个网段的数据,数据包括多个特征,每个特征对应一个维度,特征为字符型特征或者数字型特征。
当数据的特征是字符型特征时,将数据的字符型特征转化为数字型特征。
将各个数据的特征进行归一化。
将特征归一化后的各个数据组成数据集。
本发明实施例使用预先训练好的网络入侵检测模型检测各个网段的数据,预先训练好的网络入侵检测模型中低于预设权重阈值的权重的值为零,并且预先训练好的网络入侵检测模型是在低于预设权重阈值的权重置零后的网络入侵检测模型中,成本值最小的网络入侵检测模型,该网络入侵检测模型仅保留权重不低于权重阈值的通道的连接,从而降低了网络入侵检测模型的复杂性和冗余度,减少了网络入侵检测模型过拟合的风险,提高了网络入侵检测模型的识别网络入侵数据的准确率。
本发明实施例还提供了一种服务器,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获取各个网段内的数据。
将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果,其中,网络入侵检测模型是利用预先获取的数据集迭代训练后得到的,数据集是通过部署在网口的网络入侵检测系统NIDS检测网口中预设各个网段的数据得到的,网络入侵检测模型的训练过程为:将数据集输入待训练的网络入侵检测模型,以及,将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数,计算每次权重置零后的待训练网络入侵检测模型的成本值,将成本值最小的待训练的网络入侵检测模型作为训练好的网络入侵检测模型;待训练的网络入侵检测模型为深度神经网络DNN模型,预设权重阈值与待训练的网络入侵检测模型的剪枝率成正比,成本值表示权重置零后的待训练的网络入侵检测模型的准确程度,检测结果包括:数据为异常或非异常。
本发明实施例使用预先训练好的网络入侵检测模型检测各个网段的数据,预先训练好的网络入侵检测模型中低于预设权重阈值的权重的值为零,并且预先训练好的网络入侵检测模型是在低于预设权重阈值的权重置零后的网络入侵检测模型中,成本值最小的网络入侵检测模型,该网络入侵检测模型仅保留权重不低于权重阈值的通道的连接,从而降低了网络入侵检测模型的复杂性和冗余度,减少了网络入侵检测模型过拟合的风险,提高了网络入侵检测模型的识别网络入侵数据的准确率。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一一种网络入侵数据的检测方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一一种网络入侵数据的检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置/服务器/存储介质/计算机程序实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种网络入侵数据的检测方法,其特征在于,所述方法包括:
获取各个网段内的数据;
将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果,其中,所述网络入侵检测模型是利用预先获取的数据集迭代训练后得到的,所述数据集是通过部署在网口的网络入侵检测系统NIDS检测网口中预设各个网段的数据得到的,所述网络入侵检测模型的训练过程为:将所述数据集输入待训练的网络入侵检测模型,以及,将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数,计算每次权重置零后的待训练网络入侵检测模型的成本值,将成本值最小的待训练的网络入侵检测模型作为训练好的网络入侵检测模型;所述待训练的网络入侵检测模型为深度神经网络DNN模型,所述预设权重阈值与待训练的网络入侵检测模型的剪枝率成正比,所述成本值表示权重置零后的待训练的网络入侵检测模型的准确程度,所述检测结果包括:所述数据为异常或非异常。
2.根据权利要求1所述的方法,其特征在于,所述数据集包括多个数据,每个数据包括多个特征,每个特征对应一个维度,则所述将所述数据集输入待训练的网络入侵检测模型的步骤之前,所述方法还包括:
将数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集;
所述将所述数据集输入待训练的网络入侵检测模型的步骤包括:
将所述扩充维度后的数据集输入待训练的网络入侵检测模型。
3.根据权利要求2所述的方法,其特征在于,在所述将所述数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集的步骤之前,所述方法还包括:
对所述数据集中的每个数据进行复制直至所述数据集中的数据个数达到预设的目标值。
4.根据权利要求1所述的方法,其特征在于,所述将所述数据集输入待训练的网络入侵检测模型,以及将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数的步骤包括:
将数据集输入待训练的网络入侵检测模型;
更新所述待训练的网络入侵检测模型中每个神经元与下一层神经元的权重,以使所述更新权重后的所述待训练的网络入侵检测模型的损失函数小于更新权重前的所述待训练的网络入侵检测模型的损失函数;
重复执行将所述更新权重后的所述待训练的网络入侵检测模型中低于预设权重阈值的权重置零,将所述数据集输入权重置零后的待训练的网络入侵检测模型的步骤,直至达到迭代训练次数。
5.根据权利要求1所述的方法,其特征在于,所述获取各个网段内的数据之前,所述方法还包括:
利用所述网络入侵检测系统检测网口,得到所述网口中预设各个网段的数据,所述数据包括多个特征,每个特征对应一个维度,所述特征为字符型特征或者数字型特征;
当所述数据的特征是字符型特征时,将所述数据的字符型特征转化为数字型特征;
将各个数据的特征进行归一化;
将特征归一化后的各个数据组成数据集。
6.一种网络入侵数据的检测装置,其特征在于,所述装置包括:
获取模块,用于获取各个网段内的数据;
检测模块,用于将各个网段内的数据输入预先训练好的网络入侵检测模型,得到各个数据对应的检测结果,其中,所述网络入侵检测模型是利用预先获取的数据集迭代训练后得到的,所述数据集是通过部署在网口的网络入侵检测系统NIDS检测网口中预设各个网段的数据得到的,所述网络入侵检测模型的训练过程为:将所述数据集输入待训练的网络入侵检测模型,以及,将待训练的网络入侵检测模型中低于预设权重阈值的权重置零直至达到迭代训练次数,计算每次权重置零后的待训练网络入侵检测模型的成本值,将成本值最小的待训练的网络入侵检测模型作为训练好的网络入侵检测模型;所述待训练的网络入侵检测模型为深度神经网络DNN模型,所述预设权重阈值与待训练的网络入侵检测模型的剪枝率成正比,所述成本值表示权重置零后的待训练的网络入侵检测模型的准确程度,所述检测结果包括:所述数据为异常或非异常。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:特征扩充模块,用于
将数据集中每个数据的各个特征进行复制,得到扩充维度后的数据集;
将所述扩充维度后的数据集输入待训练的网络入侵检测模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
数据扩充模块,用于对所述数据集中的每个数据进行复制直至所述数据集中的数据个数达到预设的目标值。
9.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010120695.2A CN111355725B (zh) | 2020-02-26 | 2020-02-26 | 一种网络入侵数据的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010120695.2A CN111355725B (zh) | 2020-02-26 | 2020-02-26 | 一种网络入侵数据的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111355725A true CN111355725A (zh) | 2020-06-30 |
CN111355725B CN111355725B (zh) | 2021-02-23 |
Family
ID=71194020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010120695.2A Active CN111355725B (zh) | 2020-02-26 | 2020-02-26 | 一种网络入侵数据的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111355725B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085281A (zh) * | 2020-09-11 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 检测业务预测模型安全性的方法及装置 |
CN112115236A (zh) * | 2020-10-09 | 2020-12-22 | 湖北中烟工业有限责任公司 | 烟草科技文献数据去重模型的构建方法及装置 |
CN113794682A (zh) * | 2021-08-06 | 2021-12-14 | 成都墨甲信息科技有限公司 | 一种工业物联网入侵检测智能体训练方法、装置及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101399672A (zh) * | 2008-10-17 | 2009-04-01 | 章毅 | 一种多神经网络融合的入侵检测方法 |
CN101588358A (zh) * | 2009-07-02 | 2009-11-25 | 西安电子科技大学 | 基于危险理论和nsa的主机入侵检测系统及检测方法 |
US8554703B1 (en) * | 2011-08-05 | 2013-10-08 | Google Inc. | Anomaly detection |
CN106453404A (zh) * | 2016-11-23 | 2017-02-22 | 北京邮电大学 | 一种网络入侵检测方法及装置 |
US20180307986A1 (en) * | 2017-04-20 | 2018-10-25 | Sas Institute Inc. | Two-phase distributed neural network training system |
CN109635936A (zh) * | 2018-12-29 | 2019-04-16 | 杭州国芯科技股份有限公司 | 一种基于重训练的神经网络剪枝量化方法 |
CN110162968A (zh) * | 2019-05-20 | 2019-08-23 | 西安募格网络科技有限公司 | 一种基于机器学习的网络入侵检测系统 |
US20190370684A1 (en) * | 2018-06-01 | 2019-12-05 | Sas Institute Inc. | System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model |
-
2020
- 2020-02-26 CN CN202010120695.2A patent/CN111355725B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101399672A (zh) * | 2008-10-17 | 2009-04-01 | 章毅 | 一种多神经网络融合的入侵检测方法 |
CN101588358A (zh) * | 2009-07-02 | 2009-11-25 | 西安电子科技大学 | 基于危险理论和nsa的主机入侵检测系统及检测方法 |
US8554703B1 (en) * | 2011-08-05 | 2013-10-08 | Google Inc. | Anomaly detection |
CN106453404A (zh) * | 2016-11-23 | 2017-02-22 | 北京邮电大学 | 一种网络入侵检测方法及装置 |
US20180307986A1 (en) * | 2017-04-20 | 2018-10-25 | Sas Institute Inc. | Two-phase distributed neural network training system |
US20190370684A1 (en) * | 2018-06-01 | 2019-12-05 | Sas Institute Inc. | System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model |
CN109635936A (zh) * | 2018-12-29 | 2019-04-16 | 杭州国芯科技股份有限公司 | 一种基于重训练的神经网络剪枝量化方法 |
CN110162968A (zh) * | 2019-05-20 | 2019-08-23 | 西安募格网络科技有限公司 | 一种基于机器学习的网络入侵检测系统 |
Non-Patent Citations (1)
Title |
---|
戴远飞 等: "基于特征选择的网络入侵检测方法", 《电子技术及信息科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085281A (zh) * | 2020-09-11 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 检测业务预测模型安全性的方法及装置 |
CN112085281B (zh) * | 2020-09-11 | 2023-03-10 | 支付宝(杭州)信息技术有限公司 | 检测业务预测模型安全性的方法及装置 |
CN112115236A (zh) * | 2020-10-09 | 2020-12-22 | 湖北中烟工业有限责任公司 | 烟草科技文献数据去重模型的构建方法及装置 |
CN112115236B (zh) * | 2020-10-09 | 2024-02-02 | 湖北中烟工业有限责任公司 | 烟草科技文献数据去重模型的构建方法及装置 |
CN113794682A (zh) * | 2021-08-06 | 2021-12-14 | 成都墨甲信息科技有限公司 | 一种工业物联网入侵检测智能体训练方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111355725B (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111355725B (zh) | 一种网络入侵数据的检测方法及装置 | |
CN111371806B (zh) | 一种Web攻击检测方法及装置 | |
US10505973B2 (en) | System and methods of detecting malicious elements of web pages | |
CN111027069B (zh) | 恶意软件家族检测方法、存储介质和计算设备 | |
CN106899440B (zh) | 一种面向云计算的网络入侵检测方法及系统 | |
CN112242984B (zh) | 检测异常网络请求的方法、电子设备和计算机程序产品 | |
CN111224941B (zh) | 一种威胁类型识别方法及装置 | |
CN104869126B (zh) | 一种网络入侵异常检测方法 | |
CN112866023B (zh) | 网络检测、模型训练方法、装置、设备及存储介质 | |
WO2022227388A1 (zh) | 日志异常检测模型训练方法、装置及设备 | |
KR102432600B1 (ko) | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 | |
CN111526136A (zh) | 基于云waf的恶意攻击检测方法、系统、设备和介质 | |
CN114706992B (zh) | 一种基于知识图谱的事件信息处理系统 | |
CN113591077B (zh) | 一种网络攻击行为预测方法、装置、电子设备及存储介质 | |
CN110162958B (zh) | 用于计算设备的综合信用分的方法、装置和记录介质 | |
CN116232694A (zh) | 轻量级网络入侵检测方法、装置、电子设备及存储介质 | |
CN117061254B (zh) | 异常流量检测方法、装置和计算机设备 | |
WO2020170911A1 (ja) | 推定装置、推定方法及びプログラム | |
CN112348041B (zh) | 日志分类、日志分类训练方法及装置、设备、存储介质 | |
CN114091016A (zh) | 异常性检测的方法、设备和计算机程序产品 | |
US20210174199A1 (en) | Classifying domain names based on character embedding and deep learning | |
CN107241342A (zh) | 一种网络攻击串检测方法及装置 | |
CN114095176B (zh) | 一种恶意域名检测方法及装置 | |
CN115001763A (zh) | 钓鱼网站攻击检测方法、装置、电子设备及存储介质 | |
Santoso et al. | Malware Detection using Hybrid Autoencoder Approach for Better Security in Educational Institutions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |