CN113378990B - 基于深度学习的流量数据异常检测方法 - Google Patents

基于深度学习的流量数据异常检测方法 Download PDF

Info

Publication number
CN113378990B
CN113378990B CN202110766895.XA CN202110766895A CN113378990B CN 113378990 B CN113378990 B CN 113378990B CN 202110766895 A CN202110766895 A CN 202110766895A CN 113378990 B CN113378990 B CN 113378990B
Authority
CN
China
Prior art keywords
data
data point
function
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110766895.XA
Other languages
English (en)
Other versions
CN113378990A (zh
Inventor
张琳杰
朱笑岩
马建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110766895.XA priority Critical patent/CN113378990B/zh
Publication of CN113378990A publication Critical patent/CN113378990A/zh
Application granted granted Critical
Publication of CN113378990B publication Critical patent/CN113378990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度学习的流量数据异常检测方法,主要解决现有流量数据异常检测方法检测精度低、误报率高和聚类时间长的问题。其方案包括:1)获取流量数据,并对其进行数据预处理;2)构建密度聚类模型,将预处理后流量数据输入到其中得到密度聚类数据集;3)根据密度聚类数据集生成训练样本集、测试样本集和验证样本集;4)搭建神经网络,并设置网络模型的参数;5)利用训练样本集和测试样本集对神经网络进行训练;6)将验证样本集输入到训练好的神经网络模型中,获得流量数据异常检测结果。本发明充分利用了流量数据的聚类特征,提高了检测精度,降低了误报率和聚类时间,可用于访问控制、安全防护、故障管理、流量路由。

Description

基于深度学习的流量数据异常检测方法
技术领域
本发明属于网络安全技术领域,更进一步涉及一种流量数据异常检测方法,可用于访问控制、安全防护、故障管理、流量路由、拥塞控制、资源管理和服务质量管理。
背景技术
随着第五代移动通信网络、云计算、大数据和机器学习等技术的飞速发展,流量数据呈指数级地增长。而流量数据异常能较全面地反映网络的实时异常状况,检测流量数据的异常已经成为有效的网络安全防护手段。但是传统的依靠网络安全专家人工进行流量数据异常检测的方法因效率低下变得几乎不可用。由于复杂的网络拓扑结构和繁多的网络应用背景,流量数据异常的发生的原因日趋多元化。流量数据异常检测的处理流程与技术的复杂度也相应地提升。现有的流量数据异常检测技术普遍存在检测层面单一、信息获取不够全面、需要人工协助、数据样本不平衡、检测速度较慢效率低下的问题,使得防护范围具有局限性,同时异常现象的处理也会产生延迟性。流量数据异常检测是可以通过检测流量的异常变化,帮助在复杂和大规模的网络中突发事件而进行的信息处理技术。流量数据异常检测可以找到与正常数据分布不同的异常数据,比如从信用卡交易中找出诈骗案例,从正常的网络数据流中找出入侵数据流,在正常案例中找到罕见病患者,有非常广泛的商业应用价值。一是可用于访问控制,实现对网络访问中不安全访问行为的实时预警。通过管理人员预设好的安全防护规则,相应地对产生异常的用户与设备进行安全验证并采取相对应的安全策略,包括但不限于限流、短信验证、设备的标识号与密码的验证。二是可用于安全防护,根据历史流量信息设定相应的正常数据量化范围,从网络内部检测异常流量行为,对恶意流量和代码的内部传播进行动态预防,弥补了防火墙的在网络内部防护不足的缺陷。三是可用于故障管理,对网络和设备中的恶意代码进行相应的检测和清除,突破未收录的故障的检测盲区,对异常现象的及时预警。
福州大学在申请号为202010835255.5的专利申请文献公开了一种“基于多维特征融合和堆栈集成学习的异常流量检测方法”。该方法的实施步骤是:第一步,从网络数据流中采集相关维度数据,预处理后构成若干个基础特征数据集;第二步,将得到的若干个基础特征数据集进行排列组合,构成若干个综合特征数据集;第三步,利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练,生成初级模型;第四步,将所有初级模型的预测概率输出作为次级学习算法的输入,得到次级检测识别模型;第五步,根据初级模型和次级检测识别模型,构建两级堆栈式集成学习模型;第六步,将待检测数据输入两级堆栈式集成学习模型,得到分类结果。该方法由于初级学习算法没有考虑到数据聚类中心的随机性,会出现局部最优的情况,次级检测识别模型参数不能共享,导致提取流量数据特征的聚类时间增加,误报率高。
广东技术师范大学在申请号为202010220448.X的专利申请文献中公开了“一种基于深度学习的网络流量异常检测方法”。该方法的实施步骤是:第一步,利用卷积神经网络对图像处理在空间特征提取上的优势,将网络流量数据图像化处理后进行空间特征训练,形成流量空间分类模型;第二步,把经过卷积神经网络处理后的流量向量再进行时间序列处理,通过长期短期记忆网络来学习流量的时间特征,形成流量时间特征识别模型;第三步,结合空间分类模型和时间特征识别模型,对当前网络流量进行分类判别和攻击预测。该方法由于空间特征训练模型对流量数据的隐含特征的提取不够精确,时间序列处理模型对流量数据之间的关联关系表征不够明显,难以发现针对较长时序数据的长期依赖,导致检测精度降低,阻碍其大规模使用。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于深度学习的多维流量数据异常检测方法,以通过高效提取多维流量数据隐含特征,实现对流量数据进行智能异常检测分类,减少多维流量数据特征的聚类时间,提高对流量数据的检测精度,降低误报率。
为实现上述目的,本发明的技术方案包括如下:
A)从流量网络的日志中获取流量数据,并对其依次进行数据清洗、标准变换,向量编码的数据预处理;
B)构建由数据采集模块、距离计算模块、领域计算模块、阈值比较模块、聚类修正模块、聚类统计模块依次级联组成的密度聚类模型,并将数据预处理后的流量数据输入该模型中得到密度聚类数据集;
C)将密度聚类数据集按照70%,20%,10%划分为训练样本集,测试样本集,验证样本集;
D)构建依次由输入层,长短时记忆单元层,全连接层,分类器层和输出层级联组成的神经网络,选择长短时记忆单元层作为神经网络的隐藏层,选择双曲正切函数作为输出层的激活函数,选择交叉熵作为损失函数;
E)训练神经网络:
设置最大迭代轮次数为500,初始学习率为0.01,将训练样本集和测试样本集输入到神经网络中,利用损失比较方法对其进行训练,直到神经网络达到最大迭代轮次数,得到训练好的神经网络;
F)将验证样本集中的密度聚类数据输入到已经训练好的神经网络中,得到流量数据异常检测结果。
本发明与现有技术相比,具有以下优点:
第一,本发明由于构建了密度聚类模型,并用该模型对数据点进行有效类别划分,同时对野值数据点进行聚类修正,所以能够减少冗余信息所造成的误差,从而提高对大批量数据的处理能力,降低聚类时间开销;
第二,本发明由于选择双曲正切函数作为输出层的激活函数,实现了对特征的定量刻画,从而增强了数据特征的代表性和适应性,降低异常检测的误报率;
第三,本发明由于选择选择交叉熵作为损失函数,加快了神经网络的收敛速度和权重的更新速度,从而实现了对特征的自动提取,大大减少神经网络训练所需的参数,提高异常检测的精度;
第四,本发明由于选择长短时记忆单元层作为神经网络的隐藏层,使得神经网络的输入和输出具有时序可变性和参数共享性,从而能够更加细化的处理单元门限,解决数据之间的长时间依赖的问题,提高异常检测的精度。
附图说明
图1为本发明的实现流程图;
图2为用本发明和现有5种方法分别在2个数据集上进行异常检测精度的仿真图;
图3为用本发明和现有5种方法分别在2个数据集上进行异常检测误报率的仿真图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细的描述。
参照图1,本实例的实现包括如下步骤:
步骤1,获取流量数据,并对其进行预处理。
1.1)从流量网络的日志中获取流量数据;
本实例采取但不限于网络爬虫来获取流量数据,即按照接口抓取规则,自动地抓取流量网络日志信息;
1.2)设置无效值和缺失值为0xoo,对获取流量数据进行数据清洗;
1.3)将数据清洗后的流量数据添加空格进行分割,利用变换函数将其按照784节进行统一长度处理,完成标准变换;
本实例采取但不限于用线性变换函数作为变换函数,即从一个向量空间到另一个向量空间的线性映射;
1.4)将标准变换后的流量数据映射到整数值,将其表示为二进制向量,完成向量编码,得到预处理后的流量数据;
本实例采取但不限于用整数转换法来映射到整数值,即利用阶乘进制建立整数表,通过整数表进行转换。
步骤2,构建密度聚类模型,并将流量数据输入该模型中得到密度聚类数据集。
2.1)建立数据采集模块:用以采集流量数据中的数据点{x1i,x2i,xpi,…,xVi}和数据点值对{(x1i,y1i),(x2i,y2i),(xpi,ypi)…,(xVi,yVi)},其中xpi为列属性为i的第p个数据点,p的取值范围为[1,V],其中V为列属性为i的数据点的个数,ypi为列属性为i的第p个数据点对应的函数数据点;
本实例采取但不限于埋点分析法来采集流量数据中的数据点,即在流量数据关键点植入统计埋点,确保数据点采集不重复;
2.2)建立距离计算模块:用于计算流量数据中每个数据点xpi到其他数据点xqi的距离di
Figure BDA0003152080820000041
其中,xpi为列属性为i的第q个数据点,q的取值范围为[1,V],p≠q;
2.3)建立邻域计算模块:用于计算邻域半径:
Figure BDA0003152080820000042
其中,mean()为平均值函数,std()为方差函数,κ为领域常数,本实例对领域常数采取但不限于0.11;
2.4)建立阈值比较模块:用以完成选取数据点xpi邻域半径内的数据点xk,计算密度阈值h和领域阈值m,确定数据点xpi的类别,其中:
选取数据点xpi邻域半径内的数据点xk,是将数据点xpi到其他数据点xqi的距离di和领域半径ε进行比较,将数据点xpi到其他数据点xqi的距离di小于领域半径ε时的其他数据点xqi选取为数据点xpi邻域半径内的数据点xk,否则,不选取当前的其他数据点xqi为数据点xpi邻域半径内的数据点xk
计算密度阈值h和领域阈值m,通过如下进行:
Figure BDA0003152080820000051
m=count(xk),其中U为数据点xpi邻域半径内的数据点的个数,count()为数量函数;
确定数据点xpi的类别:是通过将邻域阈值m与密度阈值h进行比较来确定数据点xpi的类别:
如果m≥h,则数据点xpi为正常数据点xia
如果0<m<h且邻域半径内有正常数据点,则数据点xpi为边界数据点xib
如果0≤m<h且邻域内无正常数据点,则数据点xpi为野值数据点xic
2.5)建立聚类修正模块:用以修正野值数据点xic为正常数据点,其实现如下:
判断当前数据点xpi是否为野值数据点xic
若是,则从数据点值对(xpi,ypi)中获得该野值数据点对应的函数数据点ypi,并对其利用最小二乘法多项式进行拟合修正,用野值数据点的估计函数数据点y′对野值数据点对应的函数数据点ypi进行替代,得到替代后的估计函数数据点:
y′=ξo1y12y2+...+ξnyn
再将野值数据点xic的数据类型从野值数据点修改为正常数据点,得到修正后的正常数据点,其中,ξ为修正系数,ξn为修正系数的n阶分量,yn为野值数据点的对应的函数数据点ypi的n阶分量;
若不是,则继续判断下一个数据点是否为野值数据点,直到所有的数据点被判断完;
2.6)建立聚类统计模块:用以将聚类修正模块得到的修正后的正常数据点、阈值比较模块中得到的正常数据点、阈值比较模块中得到的边界数据点进行组合;
本实例采取但不限于集合法来将数据点进行组合,即运用集合运算将数据点组合;
2.7)将数据采集模块、距离计算模块、领域计算模块、阈值比较模块、聚类修正模块、聚类统计模块依次级联组成的密度聚类模型;
2.8)将数据预处理后的流量数据输入密度聚类模型中得到密度聚类数据集。
步骤3,生成训练样本集,测试样本集和验证样本集。
将密度聚类数据集按照70%,20%,10%划分为训练样本集,测试样本集,验证样本集。
步骤4,构建神经网络。
4.1)建立输入层:其采用512个输入神经单元级联组成;
4.2)建立长短时记忆单元层:其采用从上至下的2个长短时记忆单元层级联组成,并设置第一层长短时记忆单元节点个数为512,第二层长短时记忆单元节点个数为512,每个长短时记忆单元节点的遗忘门函数值ft和记忆单元函数值gt通过如下公式计算:
ft=σ(wgt-1+wht-1+wxt+r),
Figure BDA0003152080820000061
其中,σ(·)表示激活函数,w表示遗忘门权值,r表示遗忘门偏置,gt-1表示t-1时刻长短时记忆单元选择放弃的信息,ht-1表示t-1时刻长短时记忆单元层的输出,xt表示t时刻输入的密度聚类数据,
Figure BDA0003152080820000062
表示元素乘积符号,lt为记忆系数,tanh表示双曲正切激活函数;
4.3)建立全连接层:其采用从上至下的2个全连接层级联组成,并设置第一个全连接层和第二个全连接层的节点个数分别为512和128;
4.4)建立分类器层:其采用从上至下的2个分类器层级联组成,设置分类器层之间的激活函数为Softmax函数,设置全连接层与分类器层之间的激活函数为线性修正单元激活函数;
4.5)建立输出层:其采用从上至下的2个输出层级联组成,设置输出层之间的激活函数为双曲正切激活函数,期望标签值p(x)为:
Figure BDA0003152080820000063
其中,w0表示遗忘门输出权值,r0表示遗忘门输出偏置;
4.6)将输入层,长短时记忆单元层,全连接层,分类器层和输出层依次级联组成的神经网络,并选择长短时记忆单元层作为神经网络的隐藏层,选择双曲正切函数作为输出层的激活函数,选择交叉熵作为损失函数。
步骤5,训练神经网络。
5.1)设置最大迭代轮次数为500,初始学习率为0.01;
5.2)将训练样本集和测试样本集输入到神经网络中,利用损失比较方法对其进行训练:
5.2.1)将训练样本集和测试样本集输入到神经网络中,得到神经网络的期望标签值p(x);
5.2.2)根据期望标签和实际标签值利用交叉熵方法计算训练误差:
Figure BDA0003152080820000071
其中,q(x)表示实际标签值;
5.2.3)根据当前的训练误差s和学习率η计算梯度值,根据得到的梯度值更新遗忘门权值和遗忘门偏置,完成一次训练;
本实例取且不限于梯度下降法更新遗忘门权重和遗忘门偏置,即指沿着梯度方向对遗忘门权重和遗忘门偏置进行更新以求解神经网络收敛的最优解。
5.2.4)判断训练轮次数是否达到最大训练轮次数:
若是,停止对该网络的训练,得到训练好的神经网络;
否则,将训练轮次数增加1,返回5.2.1)。
步骤6,将验证样本集中的密度聚类数据输入到已经训练好的神经网络中,得到流量数据异常检测结果。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的运行环境是:处理器为Intel(R)Core(TM)i3-9100 CPU@3.60GHz,内存为8.00GB,硬盘为929G,操作系统为Windows 10,编程环境为Python,编程软件为PyCharm Community Edition 2020.2.3x64。
仿真所使用的数据集为DARPA数据集和ISCX数据集。
DARPA数据集是l998年林肯实验室在DARPA资助下模拟各类入侵行为的流量数据集。它包含7周训练流量和2周测试流量,41种人工设计的特征。数据集的流量种类列表正常流量、Dos攻击流量、Probe攻击流量、U2R攻击流量、R2L攻击流量。
ISCX数据集是在2012年由加拿大新不伦瑞克大学的信息安全中心发布的一个入侵检测数据集。它包含7天的流量数据。数据集的流量种类列表为正常流量、Brute ForceSSH恶意流量、DoS恶意流量、Infiltrating恶意流量。
2.仿真内容及其结果分析:
仿真使用的现有方法有以下5种:
1、根据合适的参数分布的概率密度和概率分布模型,计算后验分布以更新对参数分布的认知的贝叶斯模型方法。
2、根据在高维数据中寻找正样本和负样本之间的最大化分隔平面来划分数据的支持向量机模型方法。
3、根据K个与待判别数据距离最近的数据的类别,确定待判别数据所属的类别的最近邻模型方法。
4、根据历史数据的表现对未来结果发生的概率进行预测的逻辑回归模型方法。
5、根据已知的各种情况发生概率,通过构成决策树来求取净现值的期望值的决策树模型方法。
仿真实验1:比较本发明与现有5种方法的检测精度。
仿真过程如下:
首先,从DARPA数据集和ISCX数据集中获取流量数据,并分别使用本发明方法和现有5种方法对流量数据进行异常检测,得到本发明方法和现有5种方法的流量数据异常检测结果;
其次,根据本发明方法和现有5种方法流量数据异常检测结果分别统计各方法被正确识别出的目标流量数目TP、被正确识别出的其它流量数目TN、被错误识别出的目标流量数目FP、被遗漏识别的目标流量数目FN,再分别计算各方法准确率
Figure BDA0003152080820000081
和召回率
Figure BDA0003152080820000082
根据准确率和召回率的计算结果,计算各方法F1得分
Figure BDA0003152080820000083
F1得分的高低可表示流量数据异常检测的检测精度的高低;
最后,比较各方法的F1得分,结果如图2所示,其中横轴表示数据集名称,不同柱状图案代表不同方法,纵轴表示F1得分。
由图2可以看出,本发明标示的柱状图对应的F1得分位于现有5种方法标示的柱状图对应的F1得分的上方,即本发明的F1得分是这6种方法中最高的,表明本发明的异常检测的检测精度高于现有的5种方法。
仿真实验2:比较本发明与现有5种方法的异常检测的误报率。
仿真过程如下:
首先,从DARPA数据集和ISCX数据集中获取流量数据,并分别使用本发明方法和现有5种方法对流量数据进行异常检测,得到本发明方法和现有5种方法的流量数据异常检测结果;
其次,根据本发明方法和现有5种方法流量数据异常检测结果分别统计各方法被正确识别出的目标流量数目TP,被正确识别出的其它流量数目TN,被错误识别出的目标流量数目FP,被遗漏识别的目标流量数目FN,再分别计算各方法误报率
Figure BDA0003152080820000091
最后,比较各方法的误报率,结果如图3所示,其中横轴表示数据集名称,不同柱状图案代表不同方法,纵轴表示误报率。
由图3可以看出,本发明标示的柱状图对应的误报率位于现有5种方法标示的柱状图对应的误报率的下方,即本发明的误报率是这6种方法中最低的,表明本发明的异常检测的误报率低于现有的5种方法。
仿真实验3:比较本发明与现有5种方法的聚类时间。
用本发明和5种现有方法,分别计算仿真实验1中本发明的方法与5种现有方法的聚类时间,并将这6种方法聚类时间进行比较,结果如表1。
表1各方法的聚类时间
方法名称 聚类时间(s) 聚类时间由短至长排序
贝叶斯模型方法 143 5
支持向量机模型方法 35 2
最近邻模型方法 240 6
逻辑回归模型方法 104 4
决策树模型方法 46 3
本发明方法 17 1
由表1可以看出,现有5种方法进行聚类的时间均较长,本发明进行聚类的时间较短,表明本发明的聚类时间快于现有的5种方法的聚类时间。

Claims (4)

1.一种基于深度学习的流量数据异常检测方法,其特征在于,包括:
A)从流量网络的日志中获取流量数据,并对其依次进行数据清洗、标准变换,向量编码的数据预处理;
B)构建由数据采集模块、距离计算模块、领域计算模块、阈值比较模块、聚类修正模块、聚类统计模块依次级联组成的密度聚类模型,并将数据预处理后的流量数据输入该模型中得到密度聚类数据集;
其中构成密度聚类模型的数据采集模块、距离计算模块、邻域计算模块的功能与参数设置如下:
所述数据采集模块:用于采集流量数据中的数据点{x1i,x2i,xpi,…,xVi}和数据点值对{(x1i,y1i),(x2i,y2i),(xpi,ypi)…,(xVi,yVi)},其中xpi为列属性为i的第p个数据点,p的取值范围为[1,V],其中V为列属性为i的数据点的个数,ypi为列属性为i的第p个数据点对应的函数数据点;
所述距离计算模块:用于计算流量数据中每个数据点xpi到其他数据点xqi的距离di
Figure FDA0004073007950000011
其中,xpi为列属性为i的第q个数据点,q的取值范围为[1,V],p≠q;
所述邻域计算模块:用于计算邻域半径:
Figure FDA0004073007950000012
其中,mean()为平均值函数,κ为领域常数,std()为方差函数;
其中的构成密度聚类模型中的阈值比较模块:用以完成选取数据点xpi邻域半径内的数据点xk,计算密度阈值h和领域阈值m,确定数据点xpi的类别,其实现如下:
所述选取数据点xpi邻域半径内的数据点xk,是将数据点xpi到其他数据点xqi的距离di和领域半径ε进行比较,将数据点xpi到其他数据点xqi的距离di小于领域半径ε时的其他数据点xqi选取为数据点xpi邻域半径内的数据点xk,否则,不选取当前的其他数据点xqi为数据点xpi邻域半径内的数据点xk
所述计算密度阈值h和领域阈值m,通过如下进行:
Figure FDA0004073007950000021
m=count(xk),其中U为数据点xpi邻域半径内的数据点的个数,count()为数量函数;
所述确定数据点xpi的类别:是通过将邻域阈值m与密度阈值h进行比较来确定数据点xpi的类别:
如果m≥h,则数据点xpi为正常数据点xia
如果0<m<h且邻域半径内有正常数据点,则数据点xpi为边界数据点xib
如果0≤m<h且邻域内无正常数据点,则数据点xpi为野值数据点xic
其中构成密度聚类模型中的聚类修正模块,用以修正野值数据点xic为正常数据点,实现如下:
判断当前数据点xpi是否为野值数据点xic
若是,则从数据点值对(xpi,ypi)中获得该野值数据点对应的函数数据点ypi,并对其利用最小二乘法多项式进行拟合修正,用野值数据点的估计函数数据点y′对野值数据点对应的函数数据点ypi进行替代,得到替代后的估计函数数据点:y′=ξo1y12y2+...+ξnyn,再将野值数据点xic的数据类型从野值数据点修改为正常数据点,得到修正后的正常数据点,其中,ξ为修正系数,ξn为修正系数的n阶分量,yn为野值数据点的对应的函数数据点ypi的n阶分量;
若不是,则继续判断下一个数据点是否为野值数据点,直到所有的数据点被判断完;
其中构成密度聚类模型中的聚类统计模块:用以将聚类修正模块得到的修正后的正常数据点、阈值比较模块中得到的正常数据点、阈值比较模块中得到的边界数据点组合;
C)将密度聚类数据集按照70%,20%,10%划分为训练样本集,测试样本集,验证样本集;
D)构建依次由输入层,长短时记忆单元层,全连接层,分类器层和输出层级联组成的神经网络,选择长短时记忆单元层作为神经网络的隐藏层,选择双曲正切函数作为输出层的激活函数,选择交叉熵作为损失函数;
E)训练神经网络:
设置最大迭代轮次数为500,初始学习率为0.01,将训练样本集和测试样本集输入到神经网络中,利用损失比较方法对其进行训练,直到神经网络达到最大迭代轮次数,得到训练好的神经网络;
F)将验证样本集中的密度聚类数据输入到已经训练好的神经网络中,得到流量数据异常检测结果。
2.根据权利要求1所述的方法,其特征在于,A)中对获取的流量数据依次进行数据清洗、标准变换,向量编码,是先对获取的流量数据的无效值和缺失值设置为0xoo的数据清洗处理,再添加空格进行分割,利用变换函数将其按照784节进行统一长度处理的标准变换处理,再映射到整数值,将其表示为二进制向量的向量编码处理,得到预处理后的流量数据。
3.根据权利要求1所述的方法,其特征在于,D)构建的神经网络,其各层结构、功能与参数设置如下:
所述输入层:采用512个输入神经单元级联组成;
所述长短时记忆单元层:采用从上至下的2个长短时记忆单元层级联组成,设置第一层长短时记忆单元节点个数为512,第二层长短时记忆单元节点个数为512,每个长短时记忆单元节点的遗忘门函数值ft和记忆单元函数值gt通过如下公式计算:
ft=σ(wgt-1+wht-1+wxt+r),
Figure FDA0004073007950000031
其中,σ(·)表示激活函数,w表示遗忘门权值,r表示遗忘门偏置,gt-1表示t-1时刻长短时记忆单元选择放弃的信息,ht-1表示t-1时刻长短时记忆单元层的输出,xt表示t时刻输入的密度聚类数据,
Figure FDA0004073007950000032
表示元素乘积符号,lt为记忆系数,tanh表示双曲正切激活函数;
所述全连接层:采用从上至下的2个全连接层级联组成,设置第一个全连接层和第二个全连接层的节点个数分别为512和128;
所述分类器层:采用从上至下的2个分类器层级联组成,设置分类器层之间的激活函数为Softmax函数,设置全连接层与分类器层之间的激活函数为线性修正单元激活函数;
所述输出层:采用从上至下的2个输出层级联组成,设置输出层之间的激活函数为双曲正切激活函数,期望标签值为:
Figure FDA0004073007950000033
其中,w0表示遗忘门输出权值,r0表示遗忘门输出偏置。
4.根据权利要求1所述的方法,其特征在于,E)中将训练样本集和测试样本集输入到神经网络中,利用损失优化方法对其进行训练,实现如下:
E1)将训练样本集和测试样本集输入到D)中设计的神经网络中,得到神经网络的期望标签值p(x);
E2)根据期望标签值和实际标签值利用交叉熵方法计算训练误差:
Figure FDA0004073007950000041
其中,q(x)表示实际标签值;
E3)根据当前的训练误差s和学习率η计算梯度值,根据得到的梯度值更新遗忘门权值和遗忘门偏置,完成一次训练;
E4)判断训练轮次数是否达到最大训练轮次数:
若是,停止对该网络的训练,得到训练好的神经网络;
否则,将训练轮次数增加1,返回E1)。
CN202110766895.XA 2021-07-07 2021-07-07 基于深度学习的流量数据异常检测方法 Active CN113378990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110766895.XA CN113378990B (zh) 2021-07-07 2021-07-07 基于深度学习的流量数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110766895.XA CN113378990B (zh) 2021-07-07 2021-07-07 基于深度学习的流量数据异常检测方法

Publications (2)

Publication Number Publication Date
CN113378990A CN113378990A (zh) 2021-09-10
CN113378990B true CN113378990B (zh) 2023-05-05

Family

ID=77581240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110766895.XA Active CN113378990B (zh) 2021-07-07 2021-07-07 基于深度学习的流量数据异常检测方法

Country Status (1)

Country Link
CN (1) CN113378990B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124437B (zh) * 2021-09-28 2022-09-23 西安电子科技大学 基于原型卷积网络的加密流量识别方法
CN114785548B (zh) * 2022-03-23 2024-04-30 中国人民解放军战略支援部队信息工程大学 流量智能监测平台
CN115797071A (zh) * 2023-02-03 2023-03-14 上海特高信息技术有限公司 一种基于卷积神经的宏观和微观层面的交易异常检测方法
CN116366319A (zh) * 2023-03-22 2023-06-30 安庆吕阁妮网络科技有限公司 一种检测网络安全的方法及系统
CN117294643B (zh) * 2023-11-24 2024-03-12 南京邮电大学 一种基于SDN架构的网络QoS保障路由方法
CN117421684B (zh) * 2023-12-14 2024-03-12 易知谷科技集团有限公司 基于数据挖掘和神经网络的异常数据监测与分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126984A2 (zh) * 2017-01-06 2018-07-12 江南大学 一种基于mea-bp神经网络wsn异常检测方法
WO2019144521A1 (zh) * 2018-01-23 2019-08-01 杭州电子科技大学 信息物理交通系统中基于深度学习的恶意攻击检测方法
CN110133599A (zh) * 2019-01-08 2019-08-16 西安电子科技大学 基于长短时记忆模型的智能雷达辐射源信号分类方法
CN111145042A (zh) * 2019-12-31 2020-05-12 国网北京市电力公司 一种采用全连接神经网络的配电网电压异常诊断方法
CN112765415A (zh) * 2021-01-22 2021-05-07 西安电子科技大学 基于关系内容联合嵌入卷积神经网络的链路预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126984A2 (zh) * 2017-01-06 2018-07-12 江南大学 一种基于mea-bp神经网络wsn异常检测方法
WO2019144521A1 (zh) * 2018-01-23 2019-08-01 杭州电子科技大学 信息物理交通系统中基于深度学习的恶意攻击检测方法
CN110133599A (zh) * 2019-01-08 2019-08-16 西安电子科技大学 基于长短时记忆模型的智能雷达辐射源信号分类方法
CN111145042A (zh) * 2019-12-31 2020-05-12 国网北京市电力公司 一种采用全连接神经网络的配电网电压异常诊断方法
CN112765415A (zh) * 2021-01-22 2021-05-07 西安电子科技大学 基于关系内容联合嵌入卷积神经网络的链路预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种数据增强与混合神经网络的异常流量检测;连鸿飞等;《小型微型计算机系统》;20200409(第04期);全文 *
基于深度学习的网络流量异常预测方法;黎佳玥等;《计算机工程与应用》;20201231(第06期);全文 *
网络流量异常检测方法:SSAE-IWELM-AdaBoost;李小剑等;《武汉大学学报(理学版)》;20201231(第02期);全文 *

Also Published As

Publication number Publication date
CN113378990A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN111585948B (zh) 一种基于电网大数据的网络安全态势智能预测方法
CN110460605B (zh) 一种基于自动编码的异常网络流量检测方法
CN108346293B (zh) 一种实时交通流短时预测方法
CN112910859B (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN104636449A (zh) 基于lsa-gcc的分布式大数据系统风险识别方法
CN113762329A (zh) 一种大型轧机状态预测模型的构建方法及构建系统
CN111126820B (zh) 反窃电方法及系统
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
Adhikary et al. Edge assisted crime prediction and evaluation framework for machine learning algorithms
CN114513367B (zh) 基于图神经网络的蜂窝网络异常检测方法
CN113884807B (zh) 基于随机森林和多层架构聚类的配电网故障预测方法
Zhang et al. Automatic Traffic Anomaly Detection on the Road Network with Spatial‐Temporal Graph Neural Network Representation Learning
CN116668083A (zh) 一种网络流量异常检测方法及系统
CN113780432B (zh) 基于增强学习的网络信息系统运维异常智能检测方法
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN114219228A (zh) 一种基于em聚类算法的体育场疏散评价方法
CN112528554A (zh) 一种适于多发多源火箭试验数据的数据融合方法及系统
CN117216713A (zh) 故障定界方法、装置、电子设备和存储介质
CN116545679A (zh) 一种工业情境安全基础框架及网络攻击行为特征分析方法
CN115277159B (zh) 一种基于改进随机森林的工业互联网安全态势评估方法
CN116452335A (zh) 一种基于时序神经网络的金融大数据管理系统
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法
CN115033893A (zh) 一种改进型聚类算法的信息漏洞数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant