CN113395276B - 基于自编码器能量检测的网络入侵检测方法 - Google Patents

基于自编码器能量检测的网络入侵检测方法 Download PDF

Info

Publication number
CN113395276B
CN113395276B CN202110650246.3A CN202110650246A CN113395276B CN 113395276 B CN113395276 B CN 113395276B CN 202110650246 A CN202110650246 A CN 202110650246A CN 113395276 B CN113395276 B CN 113395276B
Authority
CN
China
Prior art keywords
network
data stream
self
model
network intrusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110650246.3A
Other languages
English (en)
Other versions
CN113395276A (zh
Inventor
李瑞坤
李允�
陈丽蓉
赵焕宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Weichen Information Technology Co ltd
Guangdong Weichen Information Technology Co ltd
Original Assignee
Chengdu Weichen Information Technology Co ltd
Guangdong Weichen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Weichen Information Technology Co ltd, Guangdong Weichen Information Technology Co ltd filed Critical Chengdu Weichen Information Technology Co ltd
Priority to CN202110650246.3A priority Critical patent/CN113395276B/zh
Publication of CN113395276A publication Critical patent/CN113395276A/zh
Application granted granted Critical
Publication of CN113395276B publication Critical patent/CN113395276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于自编码器能量检测的网络入侵检测方法,从网络中抓取正常数据流,提取时间相关特征构成数据流特征向量,构建包括自编码网络、相关系数计算模块、重构误差计算模块、特征融合模块、密度检测网络、高斯混合模型和能量计算模块的网络入侵检测模型,融合自编码网络的隐藏层输出特征、重构前后数据流特征向量的相关系数以及重构误差得到融合特征向量并计算其能量,根据正常数据流的数据流特征向量对网络入侵检测模型进行训练并得到异常检测阈值,当需要进行网络入侵检测时,获取数据流的数据流特征向量,输入网络入侵检测模型得到对应的能量并判定是否出现网络入侵。采用本发明可以提高网络入侵的效率和准确性。

Description

基于自编码器能量检测的网络入侵检测方法
技术领域
本发明属于网络入侵检测技术领域,更为具体地讲,涉及一种基于自编码器能量检测的网络入侵检测方法。
背景技术
近年来随着互联网的普及,人们对于网络的应用更加频繁,这也暴露了许多的安全问题。针对网络的攻击方式层出不穷,攻击手段呈现多样化,因此需要针对网络攻击设计识别更多未知的攻击类型为管理员做决策。作为网络安全的第二道屏障,异常检测系统则在识别这些威胁上显得至关重要。
目前主流的异常检测方法都是基于无监督模型的,因为它无需标签就可以建立正常行为的规则,通过选取合适的阈值作为判断异常的标准。因为监督学习有很多缺点:首先,监督学习需要人工标注,因此非常耗费精力,代价过高;其次,人工标注的数据有可能存在误分类,会影响训练的效果;另外,监督模型分类所需训练数据无法涵盖巨大的攻击种类,有新类型的攻击方法难以识别。
无监督模型虽然能检测未知的攻击行为,但是作为判断异常的阈值选取较为困难,并且准确率偏低,误报率较高,无法获得很好的测试效果。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于自编码器能量检测的网络入侵检测方法,构建基于自编码网络的网络入侵检测模型,融合自编码网络的隐藏层输出特征、相关系数以及重构误差作为融合特征向量,通过计算融合特征向量的能量来实现网络入侵检测,提高网络入侵的效率和准确性。
为实现上述发明目的,本发明基于自编码器能量检测的网络入侵检测方法包括以下步骤:
S1:从网络中抓取M个正常数据流,然后对于每个数据流分别统计时间相关特征,将时间相关特征构成数据流特征向量;
S2:构建网络入侵检测模型,包括自编码网络、相关系数计算模块、重构误差计算模块、特征融合模块、密度检测网络、高斯混合模型和能量计算模块,其中:
自编码网络包括输入层、L-2层隐藏层和输出层,构成编码器和解码器,L 表示自编码网络的层数,编码器用于对输入的数据流特征向量x进行编码得到压缩特征,解码器用于对压缩特征进行映射得到重构的数据流特征向量x′;
相关系数计算模块用于计算数据流特征向量x和自编码网络重构的数据流特征向量x′之间的相关系数ρ;
重构误差计算模块用于计算自编码网络中解码层与对应编码层之间的重构误差,得到长度为(L-1)/2的重构误差向量MRE,具体计算方法如下:
对于自编码网络中的第i层,
Figure BDA0003110928750000021
则对应的重构误差ei的计算公式如下:
Figure BDA0003110928750000022
其中,i′=L-i+1,Di表示第i层输出特征的维数,yi,d表示第i层输出特征中第d维特征值,xi′,d表示第i′层输入特征中第d维特征值,d=1,2,…,Di
根据(L-1)/2个重构误差ei构建得到重构误差向量
Figure BDA0003110928750000023
特征融合模块用于将自编码网络每层隐藏层的输出特征向量、相关系数ρ、重构误差向量MRE组成融合特征向量c=[h1,…,hL-2,ρ,MRE]T,其中hj表示自编码网络第j个隐藏层的输出特征向量,j=1,2,…,L-2,上标T表示转置,记融合特征向量c的维度为G;
密度检测网络包括神经网络和softmax层,用于对融合特征向量c进行密度检测,输出K个softmax值;
高斯混合模型包括K个高斯模型,第k个高斯模型对应密度检测网络输出的第k个softmax值,k=1,2,…,K;高斯混合模型采用以下公式表示:
Figure BDA0003110928750000024
其中,P(c)表示特征向量c的预测分布函数,
Figure BDA0003110928750000025
表示高斯混合模型中第k个高斯模型,
Figure BDA0003110928750000026
是第k个高斯模型对应的混合系数,满足
Figure BDA0003110928750000027
表示第k个softmax值对应的均值,
Figure BDA0003110928750000031
表示第k个softmax值对应的协方差矩阵;
能量计算模块用于根据高斯混合模型的参数计算得到融合特征向量c的能量E(c),计算公式如下:
Figure BDA0003110928750000032
其中,exp表示自然常数e为底的指数函数,上标T表示转置,上标-1表示求逆;
S3:采用以下方法训练网络入侵检测模型:
S3.1:对网络入侵模型中的自编码网络和密度检测网络的参数分别进行初始化;
S3.2:初始化迭代次数t=1,初始化阈值参数ω=-∞;
S3.3:将步骤S1得到的每个数据流特征向量依次输入网络入侵检测模型,由网络入侵检测模型中的自编码网络、相关系数计算模块、重构误差计算模块和密度检测网络处理得到该数据流特征向量对应的融合特征向量cm,以及K个 softmax值πm,k,m=1,2,…,M;
S3.4:对于每个维度的softmax值分别计算其高斯模型中的混合 系数
Figure BDA0003110928750000033
均值
Figure BDA0003110928750000034
协方差矩阵
Figure BDA0003110928750000035
Figure BDA0003110928750000036
Figure BDA0003110928750000037
Figure BDA0003110928750000038
S3.5:能量计算模块根据高斯混合模型的参数计算得到每个数据流特征向量对应的融合特征向量cm的能量E(cm);
S3.6:采用以下公式计算损失函数L:
Figure BDA0003110928750000041
其中,L1表示自编码网络的损失,λ1、λ2为预设的权重参数,
Figure BDA0003110928750000042
表示基于协方差矩阵的损失,其计算公式如下:
Figure BDA0003110928750000043
其中,
Figure BDA0003110928750000044
表示协方差矩阵
Figure BDA0003110928750000045
的逆矩阵
Figure BDA0003110928750000046
中坐标为(g,g)的协方差值;
S3.7:根据步骤S3.6计算得到的损失函数对网络入侵模型中自编码网络和密度检测网络的参数进行更新;
S3.8:判断是否迭代次数t<tmax,tmax表示预设的最大迭代次数,如果是,进入步骤S3.9,否则进入步骤S3.11;
S3.9:从重构误差计算模块计算得到的每个数据流特征向量对应的重构误差向量
Figure BDA0003110928750000047
中,提取输出层对应的重构误差em,L,然后计算得到输出层重构误差均值
Figure BDA0003110928750000048
如果
Figure BDA0003110928750000049
则令
Figure BDA00031109287500000410
否则不作任何操作;
S3.10:令t=t+1,返回步骤S3.3;
S3.11:固定自编码网络、密度检测网络以及高斯模型参数,令异常检测阈值W=εω,ε为预设的阈值调节参数,其取值范围为ε>0,从而得到训练好的网络入侵模型;
S4:当需要进行网络入侵检测时,从网络中抓取数据流,采用步骤S1中相同方法得到数据流特征向量,将其输入网络入侵检测模型,得到对应的能量,当能量大于异常检测阈值W时,则判定出现网络入侵,否则判定未出现网络入侵。
本发明基于自编码器能量检测的网络入侵检测方法,从网络中抓取正常数据流,提取时间相关特征构成数据流特征向量,构建包括自编码网络、相关系数计算模块、重构误差计算模块、特征融合模块、密度检测网络、高斯混合模型和能量计算模块的网络入侵检测模型,融合自编码网络的隐藏层输出特征、重构前后数据流特征向量的相关系数以及重构误差得到融合特征向量并计算其能量,根据正常数据流的数据流特征向量对网络入侵检测模型进行训练并得到异常检测阈值,当需要进行网络入侵检测时,获取数据流的数据流特征向量,输入网络入侵检测模型得到对应的能量并判定是否出现网络入侵。
本发明具有以下有益效果:
1)本发明融合自编码网络的隐藏层输出特征、重构前后数据流特征向量的相关系数以及重构误差得到融合特征向量,该融合特征向量能够充分表征数据流的特征,可以很好地区分正常和异常数据流,提高网络入侵检测的效率和准确性;
2)本发明中网络入侵检测模型采用无监督学习,避免了样本标注不充分造成的训练效果较差的问题。
附图说明
图1是本发明基于自编码器能量检测的网络入侵检测方法的具体实施方式流程图;
图2是本发明中网络入侵检测模型的结构图;
图3是NSL-KDD数据集中正常数据流和异常数据流的重构误差向量对比图;
图4是KDD99数据集中正常数据流和异常数据流的重构误差向量对比图;
图5是本实施例中正常数据和DDOS攻击数据流的能量对比图;
图6是本发明中训练网络入侵检测模型的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于自编码器能量检测的网络入侵检测方法的具体实施方式流程图。如图1所示,本发明基于自编码器能量检测的网络入侵检测方法的具体步骤包括:
S101:获取训练数据样本:
对于网络而言,其数据包能够反映用户来源、用户目的等信息,可以通过数据包来分析是否存在异常。如对异常数据来说,攻击者想用拒绝服务攻击 (DOS)或者分布式拒绝服务攻击(DDOS)攻击服务器,会制造虚假IP地址,然后向服务器发送TCP SYN包,服务器发送SYN作为回应却无法收到后续的确认包,致使服务器等待,消耗资源,以达到拒绝服务的目的。
因此,为了获取训练数据样本,从网络中抓取M个正常数据流,然后对于每个数据流分别统计时间相关特征,将时间相关特征构成数据流特征向量,每个数据流特征向量即为一个训练数据样本。
需要统计的时间相关特征可以根据实际需要进行设置,本实施例中时间相关特征从以下特征中选择:包括数据流持续时间,数据流中源到目的时间的平均值、最大值、最小值和标准差,数据流中目的到源时间的平均值、最大值、最小值和标准差,从活跃到空闲包数量的平均值、最大值、最小值和标准差,从空闲到活跃包数量的平均值、最大值、最小值和标准差,TCP标志位的位数,数据包包头长度的平均值、最大值、最小值和标准差,流内包数据大小的平均值、最大值、最小值和标准差,流内包尺寸的平均值、最大值、最小值和标准差,活跃到空闲时间的平均值、最大值、最小值和标准差,源到目的序列号的平均值、最大值、最小值和标准差,目的到源序列号的平均值、最大值、最小值和标准差,流内包速度(个/秒),流内字节速度(字节/秒)。
在本实施例中,抓取数据包时采用libpcap抓取原始二进制数据包,然后 tcpdump将二进制格式转换为标准协议的包格式,存储在文件流中,文件格式为”.pcap”。设置100k作为pcap文件的存储最大值,超过100k则重新创建文件继续抓包。为了提高内存管理效率,本实施例中通过改写tcpdump源码,以便管理获取的pcap文件,即及时删除旧的pcap文件,创建新的文件持续抓包。
S102:构建网络入侵检测模型:
图2是本发明中网络入侵检测模型的结构图。如图2所示,本发明中网络入侵检测模型包括自编码网络、相关系数计算模块、重构误差计算模块、特征融合模块、密度检测网络、高斯混合模型和能量计算模块,其中:
自编码网络为3层及以上的神经网络,包括输入层、隐藏层和输出层。记自编码网络的层数为L,则自编码网络包括输入层、L-2层隐藏层和输出层,构成编码器(encoder)和解码器(decoder),编码器用于对输入的数据流特征向量x进行编码得到压缩特征,解码器用于对压缩特征进行映射得到重构的数据流特征向量x′。如图2所示,本实施例中自编码网络采用5层结构,即包括输入层,3层隐藏层和输出层。
相关系数计算模块用于计算数据流特征向量x和自编码网络重构的数据流特征向量x′之间的相关系数ρ。相关系数可以反映重构前后数据流特征向量在统计上的线性关系,本实施例中相关系数采用皮尔森相关系数。
重构误差计算模块用于计算自编码网络中解码层与对应编码层之间的重构误差,得到长度为(L-1)/2的重构误差向量MRE,具体计算方法如下:
对于自编码网络中的第i层,
Figure BDA0003110928750000071
其对应的重构误差ei的计算公式如下:
Figure BDA0003110928750000072
其中,i′=L-i+1,Di表示第i层输出特征的维数(由于自编码网络的对称性,Di也是第i′层输入特征的维数),yi,d表示第i层输出特征中第d维特征值,xi′,d表示第i′层输入特征中第d维特征值,d=1,2,…,Di
根据(L-1)/2个重构误差ei构建得到重构误差向量
Figure BDA0003110928750000073
为了说明重构误差向量的有效性,以5层自编码为例,获取NSL-KDD数据集和KDD99数据集中各数据流的重构误差向量。图3是NSL-KDD数据集中正常数据流和异常数据流的重构误差向量对比图。图4是KDD99数据集中正常数据流和异常数据流的重构误差向量对比图。如图3和图4所示,灰色点为正常数据流的重构误差向量,黑色点为异常数据流的重构误差向量,可见二者具有较为明显的聚集特性,采用重构误差向量可以很好地区分正常数据流和异常数据流。
特征融合模块用于将自编码网络每层隐藏层的输出特征向量、相关系数ρ、重构误差向量MRE组成融合特征向量c=[h1,…,hL-2,ρ,MRE]T,其中hj表示自编码网络第j个隐藏层的输出特征向量,j=1,2,…,L-2,上标T表示转置,即融合特征向量c为列向量,记融合特征向量c的维度为G。
密度检测网络包括神经网络和softmax层,用于对特征向量c进行密度检测,输出K个softmax值。密度检测网络将特征向量c转换成了一个K维的数据,以便后续进行能量检测。
本实施例中,自编码网络和密度检测网络中的激活函数均采用GELU函数,采用该函数不仅保留了概率性,同时也保留了对输入的依赖性。
高斯混合模型包括K个高斯模型,第k个高斯模型对应密度检测网络输出的第k个softmax值,k=1,2,…,K。高斯混合模型采用以下公式表示:
Figure BDA0003110928750000081
其中,P(c)表示特征向量c的预测分布函数,
Figure BDA0003110928750000082
表示高斯混合模型中第k个高斯模型,
Figure BDA0003110928750000083
是第k个高斯模型对应的混合系数,满足
Figure BDA0003110928750000084
表示第k个softmax值对应的均值,
Figure BDA0003110928750000085
表示第k个softmax值对应的协方差矩阵。
能量计算模块用于根据高斯混合模型的参数计算得到融合特征向量c的能量E(c),计算公式如下:
Figure BDA0003110928750000086
其中,exp表示自然常数e为底的指数函数,上标T表示转置,上标-1表示求逆,即
Figure BDA0003110928750000087
表示协方差矩阵
Figure BDA0003110928750000088
的逆矩阵。
以DDOS攻击为例,计算正常数据流和DDOS攻击数据流的能量。图5是本实施例中正常数据和DDOS攻击数据流的能量对比图。如图5所示,灰色点为正常数据流的能量,黑色点为DDOS攻击数据流的能量,可见二者存在明显的区别,采用能量可以很好地区分正常数据流和异常数据流,说明该融合特征向量能够充分表征数据流的特征。
S103:训练网络入侵检测模型:
图6是本发明中训练网络入侵检测模型的流程图。如图6所示,本发明中训练网络入侵检测模型的具体步骤包括:
S601:初始化参数:
对网络入侵模型中的自编码网络和密度检测网络的参数分别进行初始化。
S602:初始化迭代次数t=1,初始化阈值参数ω=-∞。
S603:获取softmax值:
将步骤S101得到的每个数据流特征向量依次输入网络入侵检测模型,由网络入侵检测模型中的自编码网络、相关系数计算模块、重构误差计算模块和密度检测网络处理得到该数据流特征向量对应的融合特征向量cm,以及K个 softmax值πm,k,m=1,2,…,M。
S604:计算高斯模型参数:
对于每个维度的softmax值分别计算其高斯模型中的混合 系数
Figure BDA0003110928750000091
均值
Figure BDA0003110928750000092
协方差矩阵
Figure BDA0003110928750000093
Figure BDA0003110928750000094
Figure BDA0003110928750000095
Figure BDA0003110928750000096
显然,协方差矩阵
Figure BDA0003110928750000097
的大小为G×G。
S605:计算融合特征向量能量:
能量计算模块根据高斯混合模型的参数计算得到每个数据流特征向量对应的融合特征向量cm的能量E(cm)。
S606:计算损失函数:
为了综合考虑各方面的因素,本发明中设计了以下损失函数L:
Figure BDA0003110928750000098
其中,L1表示自编码网络的损失,本实施例中采用以下公式计算:
Figure BDA0003110928750000099
其中,xm表示步骤S101得到的第m个数据流的数据流特征向量,x′m表示自编码网络对数据流特征向量xm进行重构得到的数据流特征向量,||||表示求取范数。
λ1、λ2为预设的权重参数,本实施例中λ1=0.1,λ2=0.0001。
Figure BDA0003110928750000101
表示基于协方差矩阵的损失,其计算公式如下:
Figure BDA0003110928750000102
其中,
Figure BDA0003110928750000103
表示协方差矩阵
Figure BDA0003110928750000104
的逆矩阵
Figure BDA0003110928750000105
中坐标为(g,g)的协方差值。
S607:更新网络入侵模型参数:
根据步骤S606计算得到的损失函数对网络入侵模型中自编码网络和密度检测网络的参数进行更新。本实施例中采用常用的梯度下降法(SGD)进行参数更新。
S608:判断是否迭代次数t<tmax,tmax表示预设的最大迭代次数,如果是,进入步骤S609,否则进入步骤S611。
S609:更新阈值参数:
从重构误差计算模块计算得到的每个数据流特征向量对应的重构误差向量
Figure BDA0003110928750000106
中,提取输出层对应的重构误差em,L,然后计算得到输出层重构误差均值
Figure BDA0003110928750000107
如果
Figure BDA0003110928750000108
则令
Figure BDA0003110928750000109
否则不作任何操作。
S610:令t=t+1,返回步骤S603。
S611:确定网络入侵模型参数:
固定自编码网络、密度检测网络以及高斯模型参数,令异常检测阈值 W=εω,ε为预设的阈值调节参数,其取值范围为ε>0,从而得到训练好的网络入侵模型。
S104:网络入侵检测:
当需要进行网络入侵检测时,从网络中抓取数据流,采用步骤S101中相同方法得到数据流特征向量,将其输入网络入侵模型,得到对应的能量,当能量大于异常检测阈值W时,则判定出现网络入侵,否则判定未出现网络入侵。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于自编码器能量检测的网络入侵检测方法,其特征在于,包括以下步骤:
S1:从网络中抓取M个正常数据流,然后对于每个数据流分别统计时间相关特征,将时间相关特征构成数据流特征向量;
S2:构建网络入侵检测模型,包括自编码网络、相关系数计算模块、重构误差计算模块、特征融合模块、密度检测网络、高斯混合模型和能量计算模块,其中:
自编码网络包括输入层、L-2层隐藏层和输出层,构成编码器和解码器,L表示自编码网络的层数,编码器用于对输入的数据流特征向量x进行编码得到压缩特征,解码器用于对压缩特征进行映射得到重构的数据流特征向量x′;
相关系数计算模块用于计算数据流特征向量x和自编码网络重构的数据流特征向量x′之间的相关系数ρ;
重构误差计算模块用于计算自编码网络中解码层与对应编码层之间的重构误差,得到长度为(L-1)/2的重构误差向量MRE,具体计算方法如下:
对于自编码网络中的第i层,
Figure FDA0003110928740000011
则对应的重构误差ei的计算公式如下:
Figure FDA0003110928740000012
其中,i′=L-i+1,Di表示第i层输出特征的维数,yi,d表示第i层输出特征中第d维特征值,xi′,d表示第i′层输入特征中第d维特征值,d=1,2,…,Di
根据(L-1)/2个重构误差ei构建得到重构误差向量
Figure FDA0003110928740000013
特征融合模块用于将自编码网络每层隐藏层的输出特征向量、相关系数ρ、重构误差向量MRE组成融合特征向量c=[h1,…,hL-2,ρ,MRE]T,其中hj表示自编码网络第j个隐藏层的输出特征向量,j=1,2,…,L-2,上标T表示转置,记融合特征向量c的维度为G;
密度检测网络包括神经网络和softmax层,用于对融合特征向量c进行密度检测,输出K个softmax值;
高斯混合模型包括K个高斯模型,第k个高斯模型对应密度检测网络输出的第k个softmax值,k=1,2,…,K;高斯混合模型采用以下公式表示:
Figure FDA0003110928740000021
其中,P(c)表示特征向量c的预测分布函数,
Figure FDA0003110928740000022
表示高斯混合模型中第k个高斯模型,
Figure FDA0003110928740000023
是第k个高斯模型对应的混合系数,满足
Figure FDA0003110928740000024
Figure FDA0003110928740000025
表示第k个softmax值对应的均值,
Figure FDA0003110928740000026
表示第k个softmax值对应的协方差矩阵;
能量计算模块用于根据高斯混合模型的参数计算得到融合特征向量c的能量E(c),计算公式如下:
Figure FDA0003110928740000027
其中,exp表示自然常数e为底的指数函数,上标T表示转置,上标-1表示求逆;
S3:采用以下方法训练网络入侵检测模型:
S3.1:对网络入侵模型中的自编码网络和密度检测网络的参数分别进行初始化;
S3.2:初始化迭代次数t=1,初始化阈值参数ω=-∞;
S3.3:将步骤S1得到的每个数据流特征向量依次输入网络入侵检测模型,由网络入侵检测模型中的自编码网络、相关系数计算模块、重构误差计算模块和密度检测网络处理得到该数据流特征向量对应的融合特征向量cm,以及K个softmax值πm,k,m=1,2,…,M;
S3.4:对于每个维度的softmax值分别计算其高斯模型中的混合 系数
Figure FDA0003110928740000028
均值
Figure FDA0003110928740000029
协方差矩阵
Figure FDA00031109287400000210
Figure FDA00031109287400000211
Figure FDA00031109287400000212
Figure FDA0003110928740000031
S3.5:能量计算模块根据高斯混合模型的参数计算得到每个数据流特征向量对应的融合特征向量cm的能量E(cm);
S3.6:采用以下公式计算损失函数L:
Figure FDA0003110928740000032
其中,L1表示自编码网络的损失,λ1、λ2为预设的权重参数,
Figure FDA0003110928740000033
表示基于协方差矩阵的损失,其计算公式如下:
Figure FDA0003110928740000034
其中,
Figure FDA0003110928740000035
表示协方差矩阵
Figure FDA0003110928740000036
的逆矩阵
Figure FDA0003110928740000037
中坐标为(g,g)的协方差值;
S3.7:根据步骤S3.6计算得到的损失函数对网络入侵模型中自编码网络和密度检测网络的参数进行更新;
S3.8:判断是否迭代次数t<tmax,tmax表示预设的最大迭代次数,如果是,进入步骤S3.9,否则进入步骤S3.11;
S3.9:从重构误差计算模块计算得到的每个数据流特征向量对应的重构误差向量
Figure FDA0003110928740000038
中,提取输出层对应的重构误差em,L,然后计算得到输出层重构误差均值
Figure FDA0003110928740000039
如果
Figure FDA00031109287400000310
则令
Figure FDA00031109287400000311
否则不作任何操作;
S3.10:令t=t+1,返回步骤S3.3;
S3.11:固定自编码网络、密度检测网络以及高斯模型参数,令异常检测阈值W=εω,ε为预设的阈值调节参数,其取值范围为ε>0,从而得到训练好的网络入侵模型;
S4:当需要进行网络入侵检测时,从网络中抓取数据流,采用步骤S1中相同方法得到数据流特征向量,将其输入网络入侵检测模型,得到对应的能量,当能量大于异常检测阈值W时,则判定出现网络入侵,否则判定未出现网络入侵。
2.根据权利要求1所述的网络入侵检测方法,其特征在于,所述步骤S1中数据流的时间相关特征从以下特征中选择:数据流持续时间,数据流中源到目的时间的平均值、最大值、最小值和标准差,数据流中目的到源时间的平均值、最大值、最小值和标准差,从活跃到空闲包数量的平均值、最大值、最小值和标准差,从空闲到活跃包数量的平均值、最大值、最小值和标准差,TCP标志位的位数,数据包包头长度的平均值、最大值、最小值和标准差,流内包数据大小的平均值、最大值、最小值和标准差,流内包尺寸的平均值、最大值、最小值和标准差,活跃到空闲时间的平均值、最大值、最小值和标准差,源到目的序列号的平均值、最大值、最小值和标准差,目的到源序列号的平均值、最大值、最小值和标准差,流内包速度,流内字节速度。
3.根据权利要求1所述的网络入侵检测方法,其特征在于,所述步骤S2的 相关系数计算模块中相关系数采用皮尔森相关系数。
4.根据权利要求1所述的网络入侵检测方法,其特征在于,所述步骤S3.6中自编码网络的损失L1采用以下公式计算:
Figure FDA0003110928740000041
其中,xm表示步骤S1得到的第m个数据流的数据流特征向量,x′m表示自编码网络对数据流特征向量xm进行重构得到的数据流特征向量,|| ||表示求取范数。
CN202110650246.3A 2021-06-10 2021-06-10 基于自编码器能量检测的网络入侵检测方法 Active CN113395276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110650246.3A CN113395276B (zh) 2021-06-10 2021-06-10 基于自编码器能量检测的网络入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110650246.3A CN113395276B (zh) 2021-06-10 2021-06-10 基于自编码器能量检测的网络入侵检测方法

Publications (2)

Publication Number Publication Date
CN113395276A CN113395276A (zh) 2021-09-14
CN113395276B true CN113395276B (zh) 2022-07-26

Family

ID=77620371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110650246.3A Active CN113395276B (zh) 2021-06-10 2021-06-10 基于自编码器能量检测的网络入侵检测方法

Country Status (1)

Country Link
CN (1) CN113395276B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113973010B (zh) * 2021-10-11 2022-07-19 中国工商银行股份有限公司 网络监控方法、装置、计算机设备和存储介质
CN113779045B (zh) * 2021-11-12 2022-02-22 航天宏康智能科技(北京)有限公司 工控协议数据异常检测模型的训练方法和训练装置
CN114301629A (zh) * 2021-11-26 2022-04-08 北京六方云信息技术有限公司 Ip检测方法、装置、终端设备以及存储介质
CN114265882A (zh) * 2021-12-24 2022-04-01 中冶赛迪重庆信息技术有限公司 时序信号点异常检测方法、系统、设备及介质
CN114785623A (zh) * 2022-06-21 2022-07-22 南京信息工程大学 基于离散化特征能量体系的网络入侵检测方法与装置
CN115250199B (zh) * 2022-07-15 2023-04-07 北京六方云信息技术有限公司 数据流检测方法、装置、终端设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN109120610A (zh) * 2018-08-03 2019-01-01 上海海事大学 一种融合改进智能蜂群算法和bp神经网络的入侵检测方法
CN110691100A (zh) * 2019-10-28 2020-01-14 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN111222133A (zh) * 2019-11-14 2020-06-02 辽宁工程技术大学 一种工控网络入侵检测的多级自适应耦合方法
CN111314331A (zh) * 2020-02-05 2020-06-19 北京中科研究院 一种基于条件变分自编码器的未知网络攻击检测方法
CN111556017A (zh) * 2020-03-25 2020-08-18 中国科学院信息工程研究所 一种基于自编码机的网络入侵检测方法及电子装置
CN111740998A (zh) * 2020-03-06 2020-10-02 广东技术师范大学 一种基于堆叠自编码器的网络入侵检测方法
CN111967502A (zh) * 2020-07-23 2020-11-20 电子科技大学 一种基于条件变分自编码器的网络入侵检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN109120610A (zh) * 2018-08-03 2019-01-01 上海海事大学 一种融合改进智能蜂群算法和bp神经网络的入侵检测方法
CN110691100A (zh) * 2019-10-28 2020-01-14 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN111222133A (zh) * 2019-11-14 2020-06-02 辽宁工程技术大学 一种工控网络入侵检测的多级自适应耦合方法
CN111314331A (zh) * 2020-02-05 2020-06-19 北京中科研究院 一种基于条件变分自编码器的未知网络攻击检测方法
CN111740998A (zh) * 2020-03-06 2020-10-02 广东技术师范大学 一种基于堆叠自编码器的网络入侵检测方法
CN111556017A (zh) * 2020-03-25 2020-08-18 中国科学院信息工程研究所 一种基于自编码机的网络入侵检测方法及电子装置
CN111967502A (zh) * 2020-07-23 2020-11-20 电子科技大学 一种基于条件变分自编码器的网络入侵检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《基于入侵检测技术的校园网安全的设计与研究》;王殿利;《中国硕士学位论文全文数据库 信息技术辑》;20210601;全文 *
《基于网络流量异常分析的物联网入侵检测算法研究》;刘兴春;《中国硕士学位论文全文数据库 信息技术辑》;20210601;全文 *
《基于随机森林和深度自编码高斯混合模型的无监督入侵检测方法》;胡宁,方兰婷,秦中元;《网络空间安全》;20200831;全文 *
《面向智能汽车的网络安全解决方案》;李允,罗建超,赵焕宇,肖堃,陈丽蓉;《信息技术与标准化》;20181010;全文 *

Also Published As

Publication number Publication date
CN113395276A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113395276B (zh) 基于自编码器能量检测的网络入侵检测方法
CN112398779B (zh) 一种网络流量数据分析方法及系统
US10412105B2 (en) Automatic detection of network threats based on modeling sequential behavior in network traffic
US10848508B2 (en) Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend
CN112235264B (zh) 一种基于深度迁移学习的网络流量识别方法及装置
CN109831392B (zh) 半监督网络流量分类方法
CN111585997A (zh) 一种基于少量标注数据的网络流量异常检测方法
CN111314331A (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
CN113469234A (zh) 一种基于免模型联邦元学习的网络流量异常检测方法
CN111245848B (zh) 一种分层依赖关系建模的工控入侵检测方法
CN111565156B (zh) 一种对网络流量识别分类的方法
CN110855632B (zh) 报文检测方法、装置、网络设备和计算机可读存储介质
CN112418361A (zh) 一种基于深度学习的工控系统异常检测方法、装置
Xie et al. Neural tensor completion for accurate network monitoring
CN115277587A (zh) 网络流量识别方法、装置、设备及介质
Anande et al. Generative adversarial networks (gans): a survey of network traffic generation
Gao et al. The prediction role of hidden markov model in intrusion detection
CN117318980A (zh) 一种面向小样本场景的自监督学习恶意流量检测方法
Liu et al. LDoS attack detection method based on traffic classification prediction
CN108055149A (zh) 一种时频同步应用中端到端流量异常特征提取方法
Hu et al. Predicting intrusions with local linear models
CN114866310A (zh) 一种恶意加密流量检测方法、终端设备及存储介质
CN110766165A (zh) 用于恶意url检测的在线主动机器学习方法
CN117768343A (zh) 一种针对隧道流量的关联方法和装置
CN115455258B (zh) 一种网络空间语言描述与分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant