CN113259332A - 一种基于端到端的多类型网络流量异常检测方法及系统 - Google Patents
一种基于端到端的多类型网络流量异常检测方法及系统 Download PDFInfo
- Publication number
- CN113259332A CN113259332A CN202110472822.XA CN202110472822A CN113259332A CN 113259332 A CN113259332 A CN 113259332A CN 202110472822 A CN202110472822 A CN 202110472822A CN 113259332 A CN113259332 A CN 113259332A
- Authority
- CN
- China
- Prior art keywords
- module
- abnormal
- network
- anomaly
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 230000002159 abnormal effect Effects 0.000 claims abstract description 85
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims 2
- 239000002994 raw material Substances 0.000 claims 2
- 230000005856 abnormality Effects 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于端到端的多类型网络流量异常检测方法及系统,其中一种基于端到端的多类型网络流量异常检测方法包括,预处理网络流量数据,通过特征提取模块提取网络流量数据的特征向量,并压缩特征向量的维度空间;通过异常流量学习模块对特征进行异常分数学习,进而将网络流量数据映射为标量异常分数;利用多类型异常检测模块对异常流量学习模块进行训练,完成对网络流量异常类型的分类,并将分类结果返回到参考分数生成器,以指导异常评分网络模块进行异常分数学习;本发明整体以端到端的方式运行,直接对异常分数进行优化,改善了检测结果为次优的情况,实现了对多类型异常的快速、准确检测。
Description
技术领域
本发明涉及机器学习网络异常检测的技术领域,尤其涉及一种基于端到端的多类型网络流量异常检测方法及系统。
背景技术
网络流量异常检测问题是网络安全研究工作中的一个重要课题,对保障网络平稳运行和维护网络安全具有重要意义。随着网络规模的扩大和网络用户数量的快速增加,网络流量数据呈爆炸式增长,也大大增加了网络异常或故障的可能性。在网络空间中,信息的传输和交互以网络流量为载体,网络流量数据包含具有大量重要价值的信息。流量是否正常是衡量网络空间是否安全的重要标准之一。异常流量与大多数流量数据存在明显差异,网络流量异常可能会影响网络的正常运行,导致网络性能下降甚至不可用;因此,对网络流量异常行为的分析成为保证网络服务质量、防止网络入侵的关键因素。
传统的机器学习检测算法存在误报率高、人为干预多、不能处理高维非线性数据等缺点,无法满足现代网络的需求。近年来,深度学习凭借着优异的特征学习能力,成为网络流量异常检测的一种新技术。然而基于深度学习的异常流量检测方法虽可以有效处理高维数据,但是需要大量的计算资源与时间来训练模型,而且网络流量异常通常包含多种类型。因此,如何处理高维的非线性流量数据、区分异常流量的多种类型以及加快异常检测的速度是现代网络流量异常检测面临的三个重要难点。本专利基于深度学习技术开展网络流量异常研究,实现对多类型异常流量的快速检测。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于端到端的多类型网络流量异常检测方法,能够解决现有的网络流量异常检测算法对于多类型的异常流量检测效果次优、训练时间复杂度高的问题,满足现代网络环境对于高准确度与高速度的需求。
为解决上述技术问题,本发明提供如下技术方案:包括,预处理网络流量数据,通过特征提取模块提取网络流量数据的特征向量,并压缩特征向量的维度空间;通过异常流量学习模块对所述特征进行异常分数学习,进而将网络流量数据映射为标量异常分数;利用多类型异常检测模块对异常流量学习模块进行训练,完成对网络流量异常类型的分类,并将分类结果返回到参考分数生成器,以指导异常评分网络模块进行异常分数学习。
作为本发明所述的基于端到端的多类型网络流量异常检测方法的一种优选方案,其中:所述预处理网络流量数据包括,通过机器学习模块Sklearn中的LabelEncoder函数对所述网络流量数据进行数值化处理,将网络流量数据中非数值型的数据处理成数值型的形式;然后利用reshape函数将数值化处理后的网络流量数据转化成张量形式,并使用MinMaxScaler函数对张量形式化的数据进行归一化处理。
作为本发明所述的基于端到端的多类型网络流量异常检测方法的一种优选方案,其中:所述特征提取模块包括,利用32个长短期记忆人工神经网络单元和20个长短期记忆人工神经网络单元组成的编码器叠加构建所述特征提取模块,通过所述特征提取模块从所述网络流量数据x中提取特征向量X′。
作为本发明所述的基于端到端的多类型网络流量异常检测方法的一种优选方案,其中:所述异常流量学习模块包括异常评分网络模块和参考分数生成器;通过所述异常评分网络模块从所述特征向量X′中学习特征,并根据参考分数生成器对每个网络流量数据进行异常分数评分;将评分结果φ(x;Θ)与先验参考分数μR、标准差σR输入到所述多类型异常检测模块中,以进行所述异常分数的学习。
作为本发明所述的基于端到端的多类型网络流量异常检测方法的一种优选方案,其中:所述异常评分网络模块包括,所述异常评分网络模块由异常评分网络φ(x;Θ)构成,异常评分网络φ(x;Θ)的数学表达式如下:
φ(x;Θ)=f(η(ψ(x;Θt);Θs);Θc)
其中,φ(x;Θ)为评分结果,Θ=(Θt,Θs,Θc)为参数向量,ψ(·;Θt)为特征学习器,η(·;Θs)为异常分数学习器,f(·;Θc)为Softmax分类器。
作为本发明所述的基于端到端的多类型网络流量异常检测方法的一种优选方案,其中:指导所述异常评分网络模块学习包括,所述参考分数生成器基于高斯先验的方法生成参考分数μR,即从输入序列中随机选取的一组标记对象R={r1,r2,…,rk}的异常分数的平均值作为所述参考分数μR;根据所述参考分数μR指导所述异常评分网络模块进行异常分数学习。
作为本发明所述的基于端到端的多类型网络流量异常检测方法的一种优选方案,其中:训练所述异常流量学习模块包括,多类型异常检测模块利用多分类偏差损失函数训练异常流量学习模块;多分类的偏差损失函数的定义如下式所示:
L(φ(x;Θ),μR,σR)=(1-Y)|dev(x)|+Ymax(0,a-dev(x))
其中,φ(x;Θ)为输入x的异常分数;σR是基于先验的异常分数集r1,r2,…,rk的标准差;Y是训练数据对象的标签,a等价于dev(x)函数的置信区间参数。
作为本发明所述的基于端到端的多类型网络流量异常检测方法的一种优选方案,其中:所述训练数据对象的标签Y包括,当x为正常数据,Y=0;当x为异常数据,Y=1;当Y=1时,Y={Y1,Y2,…,Y10}。
作为本发明所述的基于端到端的多类型网络流量异常检测系统的一种优选方案,其中:其特征在于:包括,数据处理模块,用于对网络流量数据进行预处理;特征提取模块与所述数据处理模块连接,其异常评分网络模块和参考分数生成器,用于提取预处理后的网络流量数据的特征;异常流量学习模块与所述特征提取模块连接,用于学习所述特征提取模块提取的特征;多类型异常检测模块与所述异常流量学习模块连接,用于识别网络流量数据中的异常。
本发明的有益效果:本发明基于深度学习,通过LSTM提取特征和压缩特征空间,加快模型的检测速度;然后基于多分类偏差损失函数对提取后的特征进行异常分数学习,指导模型的训练;同时,在模型训练过程中利用少量的标记异常数据作为先验值来生成参考分数以指导异常分数的学习;本发明整体以端到端的方式运行,直接对异常分数进行优化,改善了检测结果为次优的情况,实现了对多类型异常的快速、准确检测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的一种基于端到端的多类型网络流量异常检测方法的流程示意图;
图2为本发明第一个实施例所述的一种基于端到端的多类型网络流量异常检测方法的异常流量学习模块200和多类型异常检测模块300运行示意图;
图3为本发明第一个实施例所述的一种基于端到端的多类型网络流量异常检测方法的训练阶段各对比方法损失值变化示意图;
图4为本发明第一个实施例所述的一种基于端到端的多类型网络流量异常检测方法的训练阶段各对比方法的准确度值变化示意图;
图5为本发明第二个实施例所述的一种基于端到端的多类型网络流量异常检测系统的模块结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~图4,为本发明的第一个实施例,该实施例提供了一种基于端到端的多类型网络流量异常检测方法,包括:
S1:预处理网络流量数据,通过特征提取模块100提取网络流量数据的特征向量,并压缩特征向量的维度空间。
其中需要说明的是,本实施例的网络流量数据采用UNSW-NB15数据集和,正常数据;UNSW-NB15数据集包含九种类型的攻击,分别是Fuzzers,Analysis,Backdoor,DoS,exploit,Generic,Reconnaissance,Shellcode和Worms;将正常数据标记为0,九种类型依次标为1~9。
预处理的步骤如下:
(1)通过机器学习模块Sklearn中的LabelEncoder函数对网络流量数据进行数值化处理,将网络流量数据中非数值型的数据处理成数值型的形式;
由于UNSW-NB15数据集中有些字段是非数值的形式,如协议类型字段(TCP,UDP,ICMP)、目标主机的网络服务类型(http,Telnet,ftp等),长短期记忆人工神经网络的输入只接受数值型的输入,因此需要对所有的网络流量数据进行数值化处理,以满足长短期记忆人工神经网络(Long Short-Term Memory,LSTM)的输入格式要求。
具体的,通过Python提供的机器学习库sklearn中LabelEncoder()函数将非数值型的数据处理成数值型的形式。
(2)利用reshape函数将数值化处理后的网络流量数据转化成张量形式,并使用Python中的MinMaxScaler函数对张量形式化的数据进行归一化处理。
reshape函数是MATLAB中将指定的矩阵变换成特定维数矩阵一种函数,且矩阵中元素个数不变,该函数可以重新调整矩阵的行数、列数、维数。
进一步的,通过特征提取模块100提取预处理后的网络流量数据的特征向量X′。
具体的,利用32个长短期记忆人工神经网络单元和20个长短期记忆人工神经网络单元组成的编码器叠加构建特征提取模块100,通过特征提取模块100从网络流量数据x中提取特征向量X′。
S2:通过异常流量学习模块200对特征进行异常分数学习,进而将网络流量数据映射为标量异常分数。
参照图2,异常流量学习模块200包括异常评分网络模块201和参考分数生成器202。
通过异常评分网络模块201从特征向量X′中学习特征,并根据参考分数生成器202对每个网络流量数据进行异常分数评分;将评分结果φ(x;Θ)与先验参考分数μR、标准差σR输入到多类型异常检测模块300中,以进行异常分数的学习。
其中,异常评分网络模块201由异常评分网络φ(x;Θ)构成,异常评分网络φ(x;Θ)由特征学习器ψ(·;Θt)、异常分数学习器η(·;Θs)和Softmax分类器f(·;Θc)三部分组成,其中,Θ=(Θt,Θs,Θc)为参数向量。
由于LSTM擅长处理时间序列或时间相关数据,且可以避免循环神经网络的长期依赖问题,因此特征学习器ψ(·;Θt)采用LSTM的结构学习数据的特征表示;然后异常评分器利用线性神经网络计算基于异常表示的异常分数,最后通过Softmax分类器计算每个类别的异常分数,用于区分不同异常特征的类别。
φ(x;Θ)=f(η(ψ(x;Θt);Θs);Θc)
其中,φ(x;Θ)为评分结果。
进一步的,根据参考分数生成器202对每个网络流量数据进行异常分数评分;具体的,基于高斯先验的方法生成参考分数μR,即从输入序列中随机选取的一组标记对象R={r1,r2,…,rk}的异常分数的平均值作为参考分数μR;根据参考分数μR指导异常评分网络模块201进行异常分数学习。
较佳的是,根据中心极限定理,拟合由高斯或非高斯变量导出的值的最普遍分布是高斯分布,本实施例通过高斯分布,在一定范围的数据集中可以很好地拟合异常分数。
S3:利用多类型异常检测模块300对异常流量学习模块200进行训练,完成对网络流量异常类型的分类,并将分类结果返回到参考分数生成器202,以指导异常评分网络模块201进行异常分数学习。
多类型异常检测模块300利用多分类偏差损失函数训练异常流量学习模块200;
多分类的偏差损失函数的定义如下式所示:
L(φ(x;Θ),μR,σR)=(1-Y)|dev(x)|+Ymax(0,a-dev(x))
其中,φ(x;Θ)为输入x的异常分数;σR是基于先验的异常分数集r1,r2,…,rk的标准差;Y是训练数据对象的标签,a等价于dev(x)函数的置信区间参数,本实施例设置a=5,实现了所有标记异常的高显著性水平参考。
当x为正常数据,Y=0;当x为异常数据,Y=1;当Y=1时,Y={Y1,Y2,…,Y10}。
为了对本方法中采用的技术效果加以验证说明,本实施例选择的CNN网络异常流量检测方法、CNN-LSTM网络异常流量检测方法和采用本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
每次训练过程中,先验参考分数不断得到更新,对更新后的参考分数进行排序,本实施例选出top-5000个作为新的参考分数,以指导异常分数的学习。
本实施例实验模拟了CNN网络异常流量检测方法、CNN-LSTM网络异常流量检测方法和本方法训练阶段损失值和准确度值变化情况,如图3所示;利用准确度(Accuracy)、AUC-ROC、AUC-PR和运行时间等指标,将本方法与现流行的网络异常流量检测方法CNN和CNN-LSTM进行对比实验,为了避免实验结果的偶然性,对上述指标取10次独立运行的平均结果。
本实验将UNSW-NB 15数据集中的异常和正常对象拆分为两个子集,其中80%的数据作为训练数据,另外20%的数据作为测试数据,在每个训练数据集中随机添加/删除异常,构成未标记的训练数据集;并从异常类中随机抽样30个异常作为异常的先验知识;实验设置epoch=10,batchsize=256,使用Adam作为优化器来执行梯度下降,并设置早停,避免出现过拟合的现象;实验结果如表1所示。
表1:对比实验结果。
模型 | Accuracy | AUC-ROC | AUC-PR | 运行时间/秒 |
CNN | 0.5424 | 0.8961 | 0.6261 | 93.5604 |
CNN-LSTM | 0.7865 | 0.9814 | 0.8954 | 175.2996 |
本方法 | 0.8052 | 0.9866 | 0.8745 | 45.8108 |
由表1、图3和图4可知,本方法在UNSW-NB 15数据集上获得了优于现有异常流量检测方法的效果,特别是在Accuracy和运行时间指标上有较大提高;由此,可以证明本发明方法可有效提高多类型网络流量异常检测的准确度和速度。
实施例2
参照图5,为本发明的第二个实施例,该实施例不同于第一个实施例,提供了一种基于端到端的多类型网络流量异常检测系统,包括:
数据处理模块400,用于对网络流量数据进行预处理,以满足LSTM的输入格式要求;
特征提取模块100与数据处理模块400连接,其包括异常评分网络模块201和参考分数生成器202,用于提取经数据处理模块400预处理后的网络流量数据的特征;
异常流量学习模块200与特征提取模块100连接,其包括异常评分网络模块201和参考分数生成器202,用于学习特征提取模块100提取的特征;具体的,异常评分网络201用于提取的特征向量X'中特征,并在参考分数生成器202的指导下为每个输入数据打异常分数。
多类型异常检测模块300与异常流量学习模块200连接,用于识别网络流量数据中异常;具体的,多类型异常检测模块300利用多分类偏差损失函数指导异常流量学习模块200的训练,实现对多种异常类型的分类,并将分类结果返回到参考分数生成器,以指导异常评分网络的学习。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种基于端到端的多类型网络流量异常检测方法,其特征在于:包括,
预处理网络流量数据,通过特征提取模块(100)提取网络流量数据的特征向量,并压缩特征向量的维度空间;
通过异常流量学习模块(200)对所述特征进行异常分数学习,进而将网络流量数据映射为标量异常分数;
利用多类型异常检测模块(300)对异常流量学习模块(200)进行训练,完成对网络流量异常类型的分类,并将分类结果返回到参考分数生成器(202),以指导异常评分网络模块(201)进行异常分数学习。
2.如权利要求1所述的基于端到端的多类型网络流量异常检测方法,其特征在于:所述预处理网络流量数据包括,
通过机器学习模块Sklearn中的LabelEncoder函数对所述网络流量数据进行数值化处理,将网络流量数据中非数值型的数据处理成数值型的形式;
利用reshape函数将数值化处理后的网络流量数据转化成张量形式,并使用MinMaxScaler函数对张量形式化的数据进行归一化处理。
3.如权利要求2所述的基于端到端的多类型网络流量异常检测方法,其特征在于:所述特征提取模块(100)包括,
利用32个长短期记忆人工神经网络单元和20个长短期记忆人工神经网络单元组成的编码器叠加构建所述特征提取模块(100),通过所述特征提取模块(100)从所述网络流量数据x中提取特征向量X′。
4.如权利要求1或2所述的基于端到端的多类型网络流量异常检测方法,其特征在于:所述异常流量学习模块(200)包括异常评分网络模块(201)和参考分数生成器(202);
通过所述异常评分网络模块(201)从所述特征向量X′中学习特征,并根据参考分数生成器(202)对每个网络流量数据进行异常分数评分;
将评分结果φ(x;Θ)与先验参考分数μR、标准差σR输入到所述多类型异常检测模块(300)中,以进行所述异常分数的学习。
5.如权利要求4所述的基于端到端的多类型网络流量异常检测方法,其特征在于:所述异常评分网络模块(201)包括,
所述异常评分网络模块(201)由异常评分网络φ(x;Θ)构成,异常评分网络φ(x;Θ)的数学表达式如下:
φ(x;Θ)=f(η(ψ(x;Θt);Θs);Θc)
其中,φ(x;Θ)为评分结果,Θ=(Θt,Θs,Θc)为参数向量,ψ(·;Θt)为特征学习器,η(·;Θs)为异常分数学习器,f(·;Θc)为Softmax分类器。
6.如权利要求5所述的基于端到端的多类型网络流量异常检测方法,其特征在于:指导所述异常评分网络模块(201)学习包括,
所述参考分数生成器(202)基于高斯先验的方法生成参考分数μR,即从输入序列中随机选取的一组标记对象R={r1,r2,…,rk}的异常分数的平均值作为所述参考分数μR;
根据所述参考分数μR指导所述异常评分网络模块(201)进行异常分数学习。
8.如权利要求7所述的基于端到端的多类型网络流量异常检测方法,其特征在于:所述训练数据对象的标签Y包括,
当x为正常数据,Y=0;
当x为异常数据,Y=1;
当Y=1时,Y={Y1,Y2,…,Y10}。
9.一种基于端到端的多类型网络流量异常检测系统,其特征在于:包括,
数据处理模块(400),用于对网络流量数据进行预处理;
特征提取模块(100)与所述数据处理模块(400)连接,其包括异常评分网络模块(201)和参考分数生成器(202),用于提取预处理后的网络流量数据的特征;
异常流量学习模块(200)与所述特征提取模块(100)连接,用于学习所述特征提取模块(100)提取的特征;
多类型异常检测模块(300)与所述异常流量学习模块(200)连接,用于识别网络流量数据中的异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110472822.XA CN113259332B (zh) | 2021-04-29 | 2021-04-29 | 一种基于端到端的多类型网络流量异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110472822.XA CN113259332B (zh) | 2021-04-29 | 2021-04-29 | 一种基于端到端的多类型网络流量异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113259332A true CN113259332A (zh) | 2021-08-13 |
CN113259332B CN113259332B (zh) | 2022-12-27 |
Family
ID=77223420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110472822.XA Active CN113259332B (zh) | 2021-04-29 | 2021-04-29 | 一种基于端到端的多类型网络流量异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113259332B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114189368A (zh) * | 2021-11-30 | 2022-03-15 | 华中科技大学 | 一种多推理引擎兼容的实时流量检测系统和方法 |
CN114386521A (zh) * | 2022-01-14 | 2022-04-22 | 湖南师范大学 | 时间序列数据的异常检测方法、系统、设备和存储介质 |
CN114915447A (zh) * | 2022-03-31 | 2022-08-16 | 广东电网有限责任公司 | 一种电力监控系统主站的网络安全监控方法及系统 |
CN115016433A (zh) * | 2022-06-01 | 2022-09-06 | 哈尔滨工业大学(威海) | 一种车载can总线流量异常检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111181939A (zh) * | 2019-12-20 | 2020-05-19 | 广东工业大学 | 一种基于集成学习的网络入侵检测方法及装置 |
WO2020159439A1 (en) * | 2019-01-29 | 2020-08-06 | Singapore Telecommunications Limited | System and method for network anomaly detection and analysis |
CN111553381A (zh) * | 2020-03-23 | 2020-08-18 | 北京邮电大学 | 基于多网络模型的网络入侵检测方法、装置及电子设备 |
US10778705B1 (en) * | 2019-04-05 | 2020-09-15 | Hoseo University Academic Cooperation Foundation | Deep-learning-based intrusion detection method, system and computer program for web applications |
CN111740998A (zh) * | 2020-03-06 | 2020-10-02 | 广东技术师范大学 | 一种基于堆叠自编码器的网络入侵检测方法 |
CN111988277A (zh) * | 2020-07-18 | 2020-11-24 | 郑州轻工业大学 | 一种基于双向生成对抗网络的攻击检测方法 |
CN112100614A (zh) * | 2020-09-11 | 2020-12-18 | 南京邮电大学 | 一种基于cnn_lstm的网络流量异常检测方法 |
-
2021
- 2021-04-29 CN CN202110472822.XA patent/CN113259332B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020159439A1 (en) * | 2019-01-29 | 2020-08-06 | Singapore Telecommunications Limited | System and method for network anomaly detection and analysis |
US10778705B1 (en) * | 2019-04-05 | 2020-09-15 | Hoseo University Academic Cooperation Foundation | Deep-learning-based intrusion detection method, system and computer program for web applications |
CN111181939A (zh) * | 2019-12-20 | 2020-05-19 | 广东工业大学 | 一种基于集成学习的网络入侵检测方法及装置 |
CN111740998A (zh) * | 2020-03-06 | 2020-10-02 | 广东技术师范大学 | 一种基于堆叠自编码器的网络入侵检测方法 |
CN111553381A (zh) * | 2020-03-23 | 2020-08-18 | 北京邮电大学 | 基于多网络模型的网络入侵检测方法、装置及电子设备 |
CN111988277A (zh) * | 2020-07-18 | 2020-11-24 | 郑州轻工业大学 | 一种基于双向生成对抗网络的攻击检测方法 |
CN112100614A (zh) * | 2020-09-11 | 2020-12-18 | 南京邮电大学 | 一种基于cnn_lstm的网络流量异常检测方法 |
Non-Patent Citations (2)
Title |
---|
樊卫昌: "基于数据挖掘的识别社交网站Sybil攻击的算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 * |
樊卫昌: "基于数据挖掘的识别社交网站Sybil攻击的算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》, 15 February 2021 (2021-02-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114189368A (zh) * | 2021-11-30 | 2022-03-15 | 华中科技大学 | 一种多推理引擎兼容的实时流量检测系统和方法 |
CN114189368B (zh) * | 2021-11-30 | 2023-02-14 | 华中科技大学 | 一种多推理引擎兼容的实时流量检测系统和方法 |
CN114386521A (zh) * | 2022-01-14 | 2022-04-22 | 湖南师范大学 | 时间序列数据的异常检测方法、系统、设备和存储介质 |
CN114386521B (zh) * | 2022-01-14 | 2024-10-15 | 湖南师范大学 | 时间序列数据的异常检测方法、系统、设备和存储介质 |
CN114915447A (zh) * | 2022-03-31 | 2022-08-16 | 广东电网有限责任公司 | 一种电力监控系统主站的网络安全监控方法及系统 |
CN115016433A (zh) * | 2022-06-01 | 2022-09-06 | 哈尔滨工业大学(威海) | 一种车载can总线流量异常检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113259332B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113259332B (zh) | 一种基于端到端的多类型网络流量异常检测方法及系统 | |
Eberle et al. | Building and interpreting deep similarity models | |
CN113259331B (zh) | 一种基于增量学习的未知异常流量在线检测方法及系统 | |
EP3047475B1 (en) | System and method for evaluating a cognitive load on a user corresponding to a stimulus | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN109981583A (zh) | 一种工控网络态势评估方法 | |
Zhang | Application of artificial intelligence recognition technology in digital image processing | |
Aboah Boateng et al. | Unsupervised machine learning techniques for detecting PLC process control anomalies | |
CN114448657B (zh) | 一种配电通信网络安全态势感知与异常入侵检测方法 | |
Liao et al. | Traffic anomaly detection model using k-means and active learning method | |
CN114913378A (zh) | 一种基于综合类激活映射的图像分类可解释方法 | |
Golshanrad et al. | DeepCover: Advancing RNN test coverage and online error prediction using state machine extraction | |
CN115129896B (zh) | 基于对比学习的网络安全应急响应知识图谱关系提取方法 | |
Song et al. | Unsupervised learning of stationary and switching dynamical system models from Poisson observations | |
EP4002230A1 (en) | Information processing apparatus and information processing method | |
CN114969761A (zh) | 一种基于lda主题特征的日志异常检测方法 | |
CN112966732B (zh) | 具有周期属性的多因素交互行为异常检测方法 | |
KR20230050908A (ko) | 설명 가능한 인공지능을 이용한 학습 피드백 제공 시스템 | |
Wei et al. | Big Data Analysis and Forecast of Employment Position Requirements for College Students. | |
Mohamad et al. | An analysis on deep learning approach performance in classifying big data set | |
Görnitz | One-class Classification in the presence of Point, Collective, and Contextual Anomalies | |
CN116863481B (zh) | 一种基于深度学习的业务会话风险处理方法 | |
Priyadharsini et al. | Performance Investigation of Handwritten Equation Solver using CNN for Betterment | |
CN117932073B (zh) | 一种基于提示工程的弱监督文本分类方法及系统 | |
CN113378881B (zh) | 基于信息熵增益svm模型的指令集识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |