CN114048829A - 一种基于模版构建的网络流信道化时序筛分方法和装置 - Google Patents

一种基于模版构建的网络流信道化时序筛分方法和装置 Download PDF

Info

Publication number
CN114048829A
CN114048829A CN202210040469.2A CN202210040469A CN114048829A CN 114048829 A CN114048829 A CN 114048829A CN 202210040469 A CN202210040469 A CN 202210040469A CN 114048829 A CN114048829 A CN 114048829A
Authority
CN
China
Prior art keywords
lstm
network
template
network attack
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210040469.2A
Other languages
English (en)
Other versions
CN114048829B (zh
Inventor
郭世泽
张帆
宋卓学
赵子鸣
赵新杰
王小娟
任传伦
俞赛赛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210040469.2A priority Critical patent/CN114048829B/zh
Publication of CN114048829A publication Critical patent/CN114048829A/zh
Application granted granted Critical
Publication of CN114048829B publication Critical patent/CN114048829B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Abstract

本发明公开了一种基于模版构建的网络流信道化时序筛分方法和装置,首先通过捕获流量得到流量数据包,再对流量数据包进行数据预处理,并对数据包进行特征向量提取,然后根据得到的特征向量进行势变基底变换提取,最后构建信道化时序筛分模版,输出流量筛分结果、特征向量重要性排名图与不同类型流量的距离拓扑图。本发明以LSTM作为变换算子,考虑了网络流的时序关系,能够捕获网络流的时序上下文信息;其次本发明通过提取势变基底变换矩阵,构建信道化时序筛分模版,将网络空间中的复杂原始网络流通过势变映射形成可分离、可观测、可增量的势变谱,实现对网络流的高效筛分。

Description

一种基于模版构建的网络流信道化时序筛分方法和装置
技术领域
本发明涉及计算机网络安全技术领域,属于入侵检测(IDS),尤其涉及一种基于模版构建的网络流信道化时序筛分方法和装置。
背景技术
互联网在日常工作生活中得到了广泛应用,而网络流量数据则为互联网中数据传输的载体。以往在网络中的网络流量数据大多以明文形式存在,例如HTTP协议。随着网络技术的更新,现在网络中的网络流量数据都采用TLS/SSL加密协议进行加密,大大增加了流量分类的难度,以往的一些基于网络流量数据包字段的网络入侵检测方法不再有效。结合机器学习与深度学习方法,设计加密流量背景下高效且准确的入侵检测方法具有广泛的前景与研究意义。
当前基于机器学习和深度学习的入侵检测方法主要在网络流原始时空域空间中进行分析。如果在原始时空域空间中网络流的分离性有限,那么在原始空间上训练的模型就难以达到满意的流量检测效果。当前基于机器学习和深度学习的入侵检测方法对于网络攻击行为的检测是黑盒推理过程,缺乏可解释性与可观测性。针对网络攻击行为日益增多的特点,当前基于机器学习和深度学习的入侵检测方法需要重新训练模型,缺乏增量训练的能力,存在训练时间长、效率低等缺点。
发明内容
本发明的目的在于针对现有技术的不足,提出了一种基于模版构建的网络流信道化时序筛分方法和装置。本发明以LSTM作为变换算子,考虑了网络流的时序关系,能够捕获网络流的时序上下文信息;其次本发明通过提取势变基底变换矩阵,构建信道化时序筛分模版,将网络空间中的复杂原始网络流通过势变映射形成可分离、可观测、可增量的势变谱,实现对网络流的高效筛分。
本发明的目的是通过以下技术方案来实现的:一种基于模版构建的网络流信道化时序筛分方法,包括以下步骤:
(1)流量捕获:对网络防火墙节点入口的流量数据包进行捕获,并保存;所述捕获保存的流量数据包中包含不同类别网络攻击行为;
(2)数据预处理:对于捕获的流量数据包按五元组进行划分,同一五元组的双向网络流量数据包构成一个会话;所述五元组为源IP、目的IP、源端口、目的端口和传输层协议类型;
(3)特征提取:对于步骤(2)得到的每一个会话中的每一个数据包进行特征向量提取,取每个会话的前T个数据包作为特征向量序列;
(4)势变基底变换提取:对于每一类别的网络攻击行为,以将步骤(3)得到的每一个会话对应的数据包特征向量序列作为输入,训练LSTM变换算子,当损失函数值变化小于0.01或迭代次数大于1万次时完成训练,得到LSTM变换算子权重系数,即提取得到的势变基底变换矩阵;
(5)信道化时序筛分模版构建:对于每一类别的网络攻击行为,将步骤(3)得到的每一个会话对应的数据包特征向量序列输入到步骤(4)训练得到的对应类别的LSTM变换算子中,特征向量序列中每一个特征向量经LSTM变换算子运算后得到第一输出向量,将输出向量拼接成第一拼接矩阵,对同一类网络攻击行为得到的所有拼接矩阵求平均,完成信道化时序筛分模版的构建;
(6)将经步骤(1)~(3)处理后的流量数据包输入步骤(4)训练得到的K个LSTM变换算子中,特征向量序列中每一个特征向量经LSTM变换算子运算后的第二输出向量拼接成第二拼接矩阵,利用距离计算函数计算该第二拼接矩阵与步骤(5)不同网络攻击行为对应的信道化时序筛分模版间的距离,取距离最近的模版对应的网络攻击行为类别作为待筛分流量的筛分结果,同时得到不同网络攻击行为的特征向量的重要性排名和不同网络攻击行为类别间的距离。
进一步地,所述网络攻击行为包括暴力破解、拒绝服务攻击、僵尸网络攻击、端口扫描攻击、渗透攻击或Web攻击。
进一步地,所述特征向量包括数据包方向特征、数据包大小特征、数据包间隔时间特征、传输层协议类型特征、IPTTL特征、TCP窗口大小特征、TCP标志特征。
进一步地,所述LSTM变换算子训练包括以下子步骤:
(a)选取一种类别网络攻击行为对应的会话组成集合
Figure 644886DEST_PATH_IMAGE001
(b)将集合
Figure 191405DEST_PATH_IMAGE002
分成
Figure 833739DEST_PATH_IMAGE003
份,每一份选
Figure 313262DEST_PATH_IMAGE004
个样本组成支持集
Figure 750060DEST_PATH_IMAGE005
,剩余
Figure 315033DEST_PATH_IMAGE006
个样本组成查询集
Figure 229900DEST_PATH_IMAGE007
(c)将支持集
Figure 829508DEST_PATH_IMAGE005
中的每一个会话的数据包特征向量序列输入对应类别的LSTM变换算子,计算LSTM变换算子输出的平均值作为对应类别的候选信道化时序筛分模版
Figure 437207DEST_PATH_IMAGE008
(d)初始化损失函数值
Figure 223898DEST_PATH_IMAGE009
,将查询集
Figure 939525DEST_PATH_IMAGE007
中的每一个会话的数据包特征向量序列输入对应类别的LSTM变换算子中,利用距离计算函数计算LSTM变换算子输出与对应类别的候选信道化时序筛分模版
Figure 393640DEST_PATH_IMAGE010
间的距离,将所得距离取平均值作为损失函数值;
(e)根据损失函数值
Figure 172240DEST_PATH_IMAGE011
,利用梯度下降法更新LSTM变换算子的权重系数;
(f)重复步骤(b)~(e),遍历
Figure 711806DEST_PATH_IMAGE003
份会话;
(g)重复步骤(a)~(f) ,直至完成每个类别的网络攻击行为的训练,得到
Figure 234054DEST_PATH_IMAGE012
个训练完成的LSTM变换算子,LSTM变换算子的权重系数即为所述势变基底变换矩阵。
进一步地,所述距离计算函数为对两个大小相同的矩阵,计算矩阵每一个对应位置元素的差值的平方和。
进一步地,通过特征向量重要性排名图表征不同网络攻击行为的特征向量重要性排名;所述特征向量重要性排名图为二维平面上的水平柱状图,横坐标为特征向量重要性,纵坐标为特征向量。
进一步地,所述特征向量重要性计算过程为:对于每一类别的网络攻击行为,将会话的数据包特征向量序列输入到所有LSTM变换算子中,将其他类别LSTM变换算子的输出与该类别LSTM变换算子的输出按向量元素相减并求和;所述特征向量重要性的值越大,则对应的特征向量越重要。
进一步地,通过距离拓扑图表征所述不同网络攻击行为类别的距离;所述距离拓扑图为二维平面上的邻接图,包含点与线段;每一个点代表一种网络攻击行为类别,每一条线段连接两个点,线段长度为所连接的两种网络攻击行为类别的距离;所述两种网络攻击行为类别的距离计算的过程为:对于两种网络攻击行为,利用距离计算函数计算两种网络攻击行为的信道化时序筛分模版间的距离,所得结果为所述两种网络攻击行为类别的距离。
本发明提出了一种基于模版构建的网络流信道化时序筛分装置,包括一个或多个处理器,一个或多个计算机可读存储介质,用于实现上述的一种基于模版构建的网络流信道化时序筛分方法。
本发明提出了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的一种基于模版构建的网络流信道化时序筛分方法。
本发明的有益效果是:本发明提出了一种基于模版构建的网络流信道化时序筛分方法。本发明方法以LSTM作为变换算子,考虑了网络流的时序关系,能够捕获网络流的时序上下文信息;本发明通过提取势变基底变换矩阵,构建信道化时序筛分模版,将网络空间中的复杂原始网络流通过势变映射形成可分离、可观测、可增量的势变谱,实现对网络流的高效筛分;本发明采用信道化方式构建信道化时序筛分模版,可以应对网络攻击行为日益增多的特点,具备可增量性与可扩展性;本发明可以在得到网络流筛分结果的同时得到不同网络攻击行为的特征向量重要性排名图与不同网络攻击行为类别的距离拓扑图,具备可解释性与可观测性。
附图说明
图1是基于模版构建的网络流信道化时序筛分方法流程图;
图2为本发明LSTM变换算子训练流程图;
图3为不同网络攻击行为的特征向量重要性排名示意图;
图4为不同网络攻击行为类别的距离拓扑示意图;
图5为不同网络攻击行为流量筛分的实验结果图;
图6为基于模版构建的网络流信道化时序筛分装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面结合附图,对本发明的基于模版构建的网络流信道化时序筛分方法和装置进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
图1为本发明一种基于模版构建的网络流信道化时序筛分方法流程图,包括以下步骤:
(1)流量捕获:对网络防火墙节点入口的流量数据包进行捕获,保存至本地文件;所述本地文件中包含不同类别网络攻击行为的流量数据包;所述不同类别网络攻击行为包括暴力破解、拒绝服务攻击、僵尸网络攻击、端口扫描、渗透攻击或Web攻击。将该流量数据包划分为已知类别编号的流量数据包和待筛分流量数据包;本发明实施例中,将已知类别编号的流量数据包作为训练集,用于LSTM变换算子训练;将待筛分流量数据包作为测试集,用于得到流量筛分结果。所述类别编号k对应不同类别网络攻击行为,本发明实施例中取0~5。
(2)数据预处理:对于捕获的流量数据包按五元组进行划分,同一五元组的双向网络流量数据包构成一个会话;所述五元组由源IP、目的IP、源端口、目的端口和传输层协议类型组成。
(3)特征提取:对于步骤(2)得到的每一个会话中的每一个数据包进行特征向量提取;所述特征向量包括数据包方向特征、数据包大小特征、数据包间隔时间特征、传输层协议类型特征、IPTTL特征、TCP窗口大小特征和TCP标志特征;取每个会话的前T个数据包作为特征向量序列;所述T为自定义取值。
(4)势变基底变换提取:对于每一类别的网络攻击行为,以步骤(3)得到的每一个会话对应的数据包特征向量序列作为输入,训练LSTM变换算子,当损失函数值变化小于0.01或迭代次数大于1万次时完成对LSTM变换算子的训练,得到LSTM变换算子权重系数即提取得到的势变基底变换矩阵;所述LSTM变换算子为长短时记忆单元(Long Short-TermMemory, LSTM)。
图2为本发明LSTM变换算子训练流程图,所述LSTM变换算子训练具体包括以下子步骤:
(a)选取一种类别网络攻击行为对应的会话组成集合
Figure 277097DEST_PATH_IMAGE001
;其中k为网络攻击行为对应的类别编号;
(b) 将集合
Figure 226598DEST_PATH_IMAGE002
分成
Figure 987881DEST_PATH_IMAGE003
份,每一份选
Figure 313820DEST_PATH_IMAGE004
个样本组成支持集
Figure 211369DEST_PATH_IMAGE005
,剩余
Figure 331771DEST_PATH_IMAGE006
个样本组成查询集
Figure 845929DEST_PATH_IMAGE007
;所述
Figure 709980DEST_PATH_IMAGE003
Figure 727615DEST_PATH_IMAGE013
Figure 284498DEST_PATH_IMAGE006
为自定义取值;
(c)将支持集
Figure 17443DEST_PATH_IMAGE005
中的每一个会话的数据包特征向量序列输入对应类别的LSTM变换算子,计算LSTM变换算子输出的平均值作为对应类别的候选信道化时序筛分模版
Figure 154027DEST_PATH_IMAGE008
,具体地,对于支持集
Figure 26168DEST_PATH_IMAGE005
中的样本
Figure 753952DEST_PATH_IMAGE014
,其中,
Figure 711544DEST_PATH_IMAGE015
为样本的特征向量,
Figure 182976DEST_PATH_IMAGE016
为样本的类别编号,计算
Figure 909624DEST_PATH_IMAGE017
,其中
Figure 542731DEST_PATH_IMAGE018
为候选信道化时序筛分模版,
Figure 253198DEST_PATH_IMAGE019
为候选势变基底变换矩阵,
Figure 528321DEST_PATH_IMAGE020
表示将候选势变基底变换矩阵与样本的特征向量进行LSTM变换算子操作并得到输出;
(d)初始化损失函数值
Figure 109475DEST_PATH_IMAGE009
,将查询集
Figure 179062DEST_PATH_IMAGE007
中的每一个会话的数据包特征向量序列输入对应类别的LSTM变换算子中,利用距离计算函数计算LSTM变换算子输出与对应类别的候选信道化时序筛分模版
Figure 376826DEST_PATH_IMAGE021
间的距离,将所得距离取平均值作为损失函数值,具体地,对于查询集
Figure 190061DEST_PATH_IMAGE007
中的样本
Figure 156880DEST_PATH_IMAGE022
,计算
Figure 128859DEST_PATH_IMAGE023
,其中
Figure 813919DEST_PATH_IMAGE024
为距离计算函数;
(e)根据损失函数值
Figure 165266DEST_PATH_IMAGE011
,利用梯度下降法更新LSTM变换算子的权重系数;
(f)对于集合
Figure 252170DEST_PATH_IMAGE001
划分后的每一份样本集重复执行步骤(b)~(e),遍历
Figure 397981DEST_PATH_IMAGE003
份会话;
(g)让变量k’=k+1,重复执行步骤(a)~(f),直至完成每个类别的网络攻击行为的训练, 直到k’=K,
Figure 304757DEST_PATH_IMAGE012
为网络攻击行为的类别总数,则可以得到
Figure 725374DEST_PATH_IMAGE012
个训练完成的LSTM变换算子,LSTM变换算子的权重系数即为所述势变基底变换矩阵。
(5)信道化时序筛分模版构建:对于每一类别的网络攻击行为,将步骤(3)得到的每一个会话对应的数据包特征向量序列输入到步骤(4)训练得到的对应类别的LSTM变换算子中,特征向量序列中每一个特征向量经LSTM变换算子运算后得到第一输出向量,将第一输出向量拼接成第一拼接矩阵,对同一类别网络行为得到的所有第一拼接矩阵求平均,完成信道化时序筛分模版构建;所述矩阵求平均操作为对所有矩阵中每个位置的所有元素求平均,所述矩阵求平均操作为对所有矩阵中每个位置的所有元素求平均;所述信道化时序筛分模版具备可增量性,所述可增量性为增加新的网络攻击行为时,只需要针对新增网络攻击行为类别重复步骤(2)~(4),构建新增网络攻击行为类别对应的信道化时序筛分模版。
(6)待筛分流量数据包经步骤(1)~(3)处理后输入步骤(4)训练得到的K个LSTM变换算子中,特征向量序列中每一个特征向量经LSTM变换算子运算后的第二输出向量拼接成第二拼接矩阵矩阵,利用距离计算函数计算该第二拼接矩阵与步骤(5)得到各个不同网络攻击行为对应的信道化时序筛分模版间的距离,取距离最近的信道化时序筛分模版对应的网络攻击行为类别作为待筛分流量的筛分结果,同时可以得到不同网络攻击行为的特征向量的重要性排名图,不同网络攻击行为类别间的距离拓扑图。
所述距离计算函数为对两个大小相同的矩阵,计算矩阵每一个对应位置元素的差值的平方和,具体地,距离计算函数
Figure 401206DEST_PATH_IMAGE025
为:
Figure 983497DEST_PATH_IMAGE026
其中
Figure 377569DEST_PATH_IMAGE027
均为
Figure 70719DEST_PATH_IMAGE028
大小的矩阵,
Figure 132216DEST_PATH_IMAGE029
为特征向量维数,
Figure 885408DEST_PATH_IMAGE030
为特征向量序列长度,所述特征向量维数取固定值12,所述特征向量序列长度
Figure 501197DEST_PATH_IMAGE031
为自定义取值,
Figure 998038DEST_PATH_IMAGE032
为矩阵
Figure 914041DEST_PATH_IMAGE033
Figure 838135DEST_PATH_IMAGE034
行第
Figure 206799DEST_PATH_IMAGE035
列的元素,
Figure 507330DEST_PATH_IMAGE036
为矩阵
Figure 9331DEST_PATH_IMAGE037
Figure 104326DEST_PATH_IMAGE034
行第
Figure 694708DEST_PATH_IMAGE038
列的元素。
所述不同网络攻击行为的特征向量重要性排名图为二维平面上的水平柱状图,横坐标为特征向量重要性,纵坐标为特征向量按重要性从大到小排列;所述特征向量重要性计算过程为:对于所述不同类别网络攻击行为中某一类别的网络攻击行为,将会话的数据包特征向量序列输入到所有LSTM变换算子中,并逐元素计算LSTM变换算子输出与信道化时序筛分模版的欧式距离,将使用其他类别LSTM变换算子与其他类别信道化时序筛分模版计算得到的欧式距离减去该类别LSTM变换算子与该类别信道化时序筛分模版计算得到的欧式距离并求和,所得结果为所述特征向量重要性,值越大说明特征向量越重要。具体地,特征向量重要性
Figure 798930DEST_PATH_IMAGE039
的计算为:
Figure 423946DEST_PATH_IMAGE040
其中,
Figure 689843DEST_PATH_IMAGE041
为所述不同类别网络攻击行为中某一类别网络攻击行为的类别编号,
Figure 767520DEST_PATH_IMAGE042
为所述不同类别网络攻击行为中其他类别网络攻击行为的类别编号,
Figure 144275DEST_PATH_IMAGE043
为类别
Figure 889377DEST_PATH_IMAGE041
的LSTM变换算子输出,
Figure 326174DEST_PATH_IMAGE044
为类别
Figure 891148DEST_PATH_IMAGE041
的信道化时序筛分模版,
Figure 337173DEST_PATH_IMAGE045
为类别
Figure 936781DEST_PATH_IMAGE042
的LSTM变换算子输出,
Figure 544480DEST_PATH_IMAGE046
为类别
Figure 331171DEST_PATH_IMAGE042
的信道化时序筛分模版,
Figure 580886DEST_PATH_IMAGE047
为距离计算函数。
图3展示了在公开数据集上得到的不同网络攻击行为的特征向量重要性排名示意图,其中,图3的(a)为拒绝服务攻击的特征向量重要性排名示意图,图3的(b)为端口扫描攻击的特征向量重要性排名示意图。对于拒绝服务攻击,特征向量重要性排名依次为数据包方向特征、数据包间隔时间特征、传输层协议特征、TCP标志特征、数据包大小特征、IPTTL特征与TCP窗口大小特征;对于端口扫描攻击,特征向量重要性排名依次为数据包方向特征、数据包间隔时间特征、数据包大小特征、TCP窗口大小特征、传输层协议特征、TCP标志特征与IPTTL特征。两种网络攻击行为的特征向量重要性排名图有显著区别,反映了两种网络攻击行为各自的特点。
所述不同网络攻击行为类别的距离拓扑图为二维平面上的邻接图,包含点与线段,每一个点代表一种网络攻击行为类别,每一条线段连接两个点,线段长度为所连接的两种网络攻击行为类别的距离;所述两种网络攻击行为类别的距离计算过程为:对于两种网络攻击行为,利用距离计算函数计算两种网络攻击行为的信道化时序筛分模版间的距离,所得结果为所述两种网络攻击行为类别的距离。具体地,两种网络攻击行为类别的距离计算公式如下:
Figure 35001DEST_PATH_IMAGE048
,其中
Figure 813602DEST_PATH_IMAGE049
为所述不同网络攻击行为类别中任意一种网络攻击行为的信道化时序筛分模版,
Figure 84658DEST_PATH_IMAGE050
为所述不同网络攻击行为类别中不同于
Figure 872486DEST_PATH_IMAGE051
对应类别的网络攻击行为的信道化时序筛分模版。
图4展示了在公开数据集上得到的不同网络攻击行为类别的距离拓扑示意图。端口扫描攻击、暴力破解攻击、拒绝服务攻击这三种网络攻击行为类别在距离拓扑图上较近,与僵尸网络攻击、渗透攻击与Web攻击距离较远,僵尸网络攻击、渗透攻击、Web攻击这三种网络攻击行为在距离拓扑图上较近,这些是不同网络攻击行为的特点在距离拓扑图上的反映。
图5展示了所述不同网络攻击行为流量筛分的实验结果。在公开数据集上的实验结果证明,本发明对于不同网络攻击行为流量的筛分优于直接使用原始LSTM。在公开数据集上对于不同网络攻击行为流量的筛分总体平均准确率达到97.98%,总体平均精确率达到97.98%,总体平均召回率达到97.98%,总体平均F1 Score达到97.98%,相比于直接使用原始LSTM,总体平均准确率提升了8.69%,总体平均精确率提升了8.67%,总体平均召回率提升了8.69%,总体平均F1 Score提升了8.60%。
与前述网络流信道化时序筛分模版构建方法的实施例相对应,本发明还提供了基于模版构建的网络流信道化时序筛分装置的实施例。
参见图6,本发明实施例提供的一种基于模版构建的网络流信道化时序筛分装置,包括一个或多个处理器,用于实现上述实施例中的基于模版构建的网络流信道化时序筛分方法。
本发明的基于模版构建的网络流信道化时序筛分装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明网络流信道化时序筛分模版构建装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于模版构建的网络流信道化时序筛分方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
综上所述,本发明方法通过以LSTM作为变换算子,考虑了网络流的时序关系,能够捕获网络流的时序上下文信息;通过提取势变基底变换矩阵,构建信道化时序筛分模版,将网络空间中的复杂原始网络流通过势变映射形成可分离、可观测、可增量的势变谱,实现对网络流的高效筛分,测试准确率、精确率、召回率与F1 Score全部保证在96%以上;通过信道化方式构建信道化时序筛分模版,可以应对网络攻击行为日益增多的特点,具备可增量性与可扩展性,更适合现实网络场景;本发明可以在得到网络流筛分结果的同时得到不同网络攻击行为的特征向量重要性排名图与不同网络攻击行为类别的距离拓扑图,具备可解释性与可观测性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种基于模版构建的网络流信道化时序筛分方法,其特征在于,包括以下步骤:
(1)流量捕获:对网络防火墙节点入口的流量数据包进行捕获,并保存;所述捕获保存的流量数据包中包含不同类别网络攻击行为;
(2)数据预处理:对于捕获的流量数据包按五元组进行划分,同一五元组的双向网络流量数据包构成一个会话;所述五元组为源IP、目的IP、源端口、目的端口和传输层协议类型;
(3)特征提取:对于步骤(2)得到的每一个会话中的每一个数据包进行特征向量提取,取每个会话的前T个数据包作为特征向量序列;
(4)势变基底变换提取:对于每一类别的网络攻击行为,以将步骤(3)得到的每一个会话对应的数据包特征向量序列作为输入,训练LSTM变换算子,当损失函数值变化小于0.01或迭代次数大于1万次时完成训练,得到LSTM变换算子权重系数,即提取得到的势变基底变换矩阵;
(5)信道化时序筛分模版构建:对于每一类别的网络攻击行为,将步骤(3)得到的每一个会话对应的数据包特征向量序列输入到步骤(4)训练得到的对应类别的LSTM变换算子中,特征向量序列中每一个特征向量经LSTM变换算子运算后得到第一输出向量,将输出向量拼接成第一拼接矩阵,对同一类网络攻击行为得到的所有拼接矩阵求平均,完成信道化时序筛分模版的构建;
(6)将经步骤(1)~(3)处理后的流量数据包输入步骤(4)训练得到的K个LSTM变换算子中,特征向量序列中每一个特征向量经LSTM变换算子运算后的第二输出向量拼接成第二拼接矩阵,利用距离计算函数计算该第二拼接矩阵与步骤(5)不同网络攻击行为对应的信道化时序筛分模版间的距离,取距离最近的模版对应的网络攻击行为类别作为待筛分流量的筛分结果,同时得到不同网络攻击行为的特征向量的重要性排名和不同网络攻击行为类别间的距离。
2.根据权利要求1所述的基于模版构建的网络流信道化时序筛分方法,其特征在于,所述网络攻击行为包括暴力破解、拒绝服务攻击、僵尸网络攻击、端口扫描攻击、渗透攻击或Web攻击。
3.根据权利要求1所述的基于模版构建的网络流信道化时序筛分方法,其特征在于,所述特征向量包括数据包方向特征、数据包大小特征、数据包间隔时间特征、传输层协议类型特征、IPTTL特征、TCP窗口大小特征、TCP标志特征。
4.根据权利要求1所述的基于模版构建的网络流信道化时序筛分方法,其特征在于,所述LSTM变换算子训练包括以下子步骤:
(a)选取一种类别网络攻击行为对应的会话组成集合
Figure 991762DEST_PATH_IMAGE001
(b)将集合
Figure 684912DEST_PATH_IMAGE002
分成
Figure 480829DEST_PATH_IMAGE003
份,每一份选
Figure 499601DEST_PATH_IMAGE004
个样本组成支持集
Figure 378040DEST_PATH_IMAGE005
,剩余
Figure 609301DEST_PATH_IMAGE006
个样本组成查询集
Figure 259725DEST_PATH_IMAGE007
(c)将支持集
Figure 183819DEST_PATH_IMAGE005
中的每一个会话的数据包特征向量序列输入对应类别的LSTM变换算子,计算LSTM变换算子输出的平均值作为对应类别的候选信道化时序筛分模版
Figure 552483DEST_PATH_IMAGE008
(d)初始化损失函数值
Figure 853014DEST_PATH_IMAGE009
,将查询集
Figure 357945DEST_PATH_IMAGE007
中的每一个会话的数据包特征向量序列输入对应类别的LSTM变换算子中,利用距离计算函数计算LSTM变换算子输出与对应类别的候选信道化时序筛分模版
Figure 452940DEST_PATH_IMAGE010
间的距离,将所得距离取平均值作为损失函数值;
(e)根据损失函数值
Figure 308901DEST_PATH_IMAGE011
,利用梯度下降法更新LSTM变换算子的权重系数;
(f)重复步骤(b)~(e),遍历
Figure 881964DEST_PATH_IMAGE003
份会话;
(g)重复步骤(a)~(f) ,直至完成每个类别的网络攻击行为的训练,得到
Figure 772560DEST_PATH_IMAGE012
个训练完成的LSTM变换算子,LSTM变换算子的权重系数即为所述势变基底变换矩阵。
5.根据权利要求1所述的基于模版构建的网络流信道化时序筛分方法,其特征在于,所述距离计算函数为对两个大小相同的矩阵,计算矩阵每一个对应位置元素的差值的平方和。
6.根据权利要求1所述的基于模版构建的网络流信道化时序筛分方法,其特征在于,通过特征向量重要性排名图表征不同网络攻击行为的特征向量重要性排名;所述特征向量重要性排名图为二维平面上的水平柱状图,横坐标为特征向量重要性,纵坐标为特征向量。
7.根据权利要求6所述的基于模版构建的网络流信道化时序筛分方法,其特征在于,所述特征向量重要性计算过程为:对于每一类别的网络攻击行为,将会话的数据包特征向量序列输入到所有LSTM变换算子中,将其他类别LSTM变换算子的输出与该类别LSTM变换算子的输出按向量元素相减并求和;所述特征向量重要性的值越大,则对应的特征向量越重要。
8.根据权利要求1所述的基于模版构建的网络流信道化时序筛分方法,其特征在于,通过距离拓扑图表征所述不同网络攻击行为类别的距离;所述距离拓扑图为二维平面上的邻接图,包含点与线段;每一个点代表一种网络攻击行为类别,每一条线段连接两个点,线段长度为所连接的两种网络攻击行为类别的距离;所述两种网络攻击行为类别的距离计算的过程为:对于两种网络攻击行为,利用距离计算函数计算两种网络攻击行为的信道化时序筛分模版间的距离,所得结果为所述两种网络攻击行为类别的距离。
9.一种基于模版构建的网络流信道化时序筛分装置,其特征在于,包括一个或多个处理器,一个或多个计算机可读存储介质,用于实现权利要求1-8中任一项所述的一种基于模版构建的网络流信道化时序筛分方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求1-8中任一项所述的一种基于模版构建的网络流信道化时序筛分方法。
CN202210040469.2A 2022-01-14 2022-01-14 一种基于模版构建的网络流信道化时序筛分方法和装置 Expired - Fee Related CN114048829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210040469.2A CN114048829B (zh) 2022-01-14 2022-01-14 一种基于模版构建的网络流信道化时序筛分方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210040469.2A CN114048829B (zh) 2022-01-14 2022-01-14 一种基于模版构建的网络流信道化时序筛分方法和装置

Publications (2)

Publication Number Publication Date
CN114048829A true CN114048829A (zh) 2022-02-15
CN114048829B CN114048829B (zh) 2022-06-24

Family

ID=80196556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210040469.2A Expired - Fee Related CN114048829B (zh) 2022-01-14 2022-01-14 一种基于模版构建的网络流信道化时序筛分方法和装置

Country Status (1)

Country Link
CN (1) CN114048829B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494535A (zh) * 2009-03-05 2009-07-29 范九伦 基于隐马尔可夫模型的网络入侵场景构建方法
CN106453417A (zh) * 2016-12-05 2017-02-22 国网浙江省电力公司电力科学研究院 一种基于近邻相似性的网络攻击目标预测方法
CN109522716A (zh) * 2018-11-15 2019-03-26 中国人民解放军战略支援部队信息工程大学 一种基于时序神经网络的网络入侵检测方法及装置
CN110011999A (zh) * 2019-03-29 2019-07-12 东北大学 基于深度学习的IPv6网络DDoS攻击检测系统及方法
CN110381523A (zh) * 2019-06-17 2019-10-25 盐城吉大智能终端产业研究院有限公司 一种基于tvf-emd-lstm模型的蜂窝基站网络流量预测方法
CN110505241A (zh) * 2019-09-17 2019-11-26 武汉思普崚技术有限公司 一种网络攻击面检测方法及系统
CN111818052A (zh) * 2020-07-09 2020-10-23 国网山西省电力公司信息通信分公司 基于cnn-lstm的工控协议同源攻击检测方法
CN111935069A (zh) * 2020-06-17 2020-11-13 西安理工大学 一种基于时序的流量攻击可视化表征方法
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
US20210211438A1 (en) * 2020-01-07 2021-07-08 International Business Machines Corporation Providing network security through autonomous simulated environments
CN113158181A (zh) * 2021-04-15 2021-07-23 上海交通大学 使用神经网络对原始侧信道数据进行端到端攻击的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494535A (zh) * 2009-03-05 2009-07-29 范九伦 基于隐马尔可夫模型的网络入侵场景构建方法
CN106453417A (zh) * 2016-12-05 2017-02-22 国网浙江省电力公司电力科学研究院 一种基于近邻相似性的网络攻击目标预测方法
CN109522716A (zh) * 2018-11-15 2019-03-26 中国人民解放军战略支援部队信息工程大学 一种基于时序神经网络的网络入侵检测方法及装置
CN110011999A (zh) * 2019-03-29 2019-07-12 东北大学 基于深度学习的IPv6网络DDoS攻击检测系统及方法
CN110381523A (zh) * 2019-06-17 2019-10-25 盐城吉大智能终端产业研究院有限公司 一种基于tvf-emd-lstm模型的蜂窝基站网络流量预测方法
CN110505241A (zh) * 2019-09-17 2019-11-26 武汉思普崚技术有限公司 一种网络攻击面检测方法及系统
US20210211438A1 (en) * 2020-01-07 2021-07-08 International Business Machines Corporation Providing network security through autonomous simulated environments
CN111935069A (zh) * 2020-06-17 2020-11-13 西安理工大学 一种基于时序的流量攻击可视化表征方法
CN111818052A (zh) * 2020-07-09 2020-10-23 国网山西省电力公司信息通信分公司 基于cnn-lstm的工控协议同源攻击检测方法
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
CN113158181A (zh) * 2021-04-15 2021-07-23 上海交通大学 使用神经网络对原始侧信道数据进行端到端攻击的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YINAN KONG 等: "The investigation of neural networks performance in side-channel attacks", 《ARTIFICIAL INTELLIGENCE REVIEW》 *
张蕾 等: "机器学习在网络空间安全研究中的应用", 《计算机学报》 *
王俊年 等: "基于深度学习LSTM的侧信道分析", 《计算机工程》 *

Also Published As

Publication number Publication date
CN114048829B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
Chen et al. Seq2img: A sequence-to-image based approach towards ip traffic classification using convolutional neural networks
Zeng et al. DeepVCM: A deep learning based intrusion detection method in VANET
CN110391958B (zh) 一种对网络加密流量自动进行特征提取和识别的方法
CN115277102B (zh) 网络攻击检测方法、装置、电子设备及存储介质
Hejun et al. Encrypted network behaviors identification based on dynamic time warping and k-nearest neighbor
Vinayakumar et al. Evaluating shallow and deep networks for secure shell (ssh) traffic analysis
CN114172688A (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN112835995A (zh) 一种基于解析关系的域名图嵌入表示分析方法及装置
Millar et al. Using convolutional neural networks for classifying malicious network traffic
Chen et al. Using adversarial examples to bypass deep learning based url detection system
CN114048829B (zh) 一种基于模版构建的网络流信道化时序筛分方法和装置
Jung et al. Deep neural network-based automatic unknown protocol classification system using histogram feature
CN110912933B (zh) 一种基于被动测量的设备识别方法
CN112134847A (zh) 基于用户流量行为基线的攻击检测方法
CN116760569A (zh) 一种基于图神经网络模型的物联网入侵检测方法
CN115225310B (zh) 基于优化元学习的轻量恶意软件流量检测方法及装置
Dener et al. Rfse-gru: Data balanced classification model for mobile encrypted traffic in big data environment
CN113726809B (zh) 基于流量数据的物联网设备识别方法
Yin et al. Tor Traffic’s Representation and Classification Based on Packet Timing Characteristics
Kumar et al. Deep Learning Based Optimal Traffic Classification Model for Modern Wireless Networks
Yang et al. Few-shot encrypted traffic classification via multi-task representation enhanced meta-learning
Liu An abnormal network traffic detection method on MAWILab dataset based on convolutional neural network
Du et al. Fenet: Roles classification of ip addresses using connection patterns
CN114362988A (zh) 网络流量的识别方法及装置
Li et al. Malicious encrypted traffic identification based on four-tuple feature and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220624

CF01 Termination of patent right due to non-payment of annual fee