CN115022049B - 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 - Google Patents
一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115022049B CN115022049B CN202210634083.4A CN202210634083A CN115022049B CN 115022049 B CN115022049 B CN 115022049B CN 202210634083 A CN202210634083 A CN 202210634083A CN 115022049 B CN115022049 B CN 115022049B
- Authority
- CN
- China
- Prior art keywords
- data
- distribution
- mahalanobis distance
- new sample
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title abstract description 17
- 238000009826 distribution Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S40/00—Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
- Y04S40/20—Information technology specific aspects, e.g. CAD, simulation, modelling, system security
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Mathematical Optimization (AREA)
- Medical Informatics (AREA)
- Mathematical Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出一种基于计算马氏距离的分布外网络流量数据检测方法,属于数据检测技术领域。包括以下步骤:S1.原始网络流量的预处理和分类模型的预训练;S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;S3.计算新样本x与最相似类别实例的马氏距离;S4.设定分布外数据阈值,分布外数据阈值采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。判断是否属于分布外数据。本发明提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。
Description
技术领域
本申请涉及数据检测方法,尤其涉及一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质,属于数据检测技术领域。
背景技术
随着网络私有协议的增多,网络流量的种类也越来越多同时其相似度也逐渐提高。现如今的许多网络安全问题都需要落脚于网络流量的识别和检测,传统识别和检测技术大都基于机器学习算法或深度学习算法训练分类模型。但有研究表明深度学习模型的分类结果在测试数据中含有分布外数据的情况下置信度很低,在许多网络安全问题中分类错误将导致严重的后果。
基于机器学习或深度学习算法的分类模型,在分类网络流量任务中,得到的分类结果并不是可信的,原因有两个,其一,当训练模型被投入到实际应用中,不能保证测试数据中的数据全部为分布内数据;其二,若出现分布外数据与分布内数据较为相似的情况时,大部分深度学习模型会将分布外数据以高置信度划分为分布内数据类型。对于网络安全问题来说,分类错误将会导致更加严重的问题。
为解决上述问题,有研究人员对此提出以下方案解决:
基于计算样本间距离的检测方法,通过定义不同样本间距离判断两个样本是否属于同一类别进行检测。
上述技术仍存在以下问题:
对于基于计算相似度的检测方法,本质上是通过提取两个类别数据的特征从而计算二者之间的距离来表征相似度。但由于如何提取特征以及提取到的特征会有很大的随意性,并没有一个标准,对于不同类型的数据有大的差距,因此计算出的距离并不具有唯一性。同时,不同特征之间的度量尺度也不相同,计算距离或相似度是一件主观性很强且困难的事情。此外,判断是否为分布外数据的尺度也不容易设置,设置过大或过小都容易造成很高的误报率。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题,本发明提供一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质。目前大部分检测方法中用于表征相似度的距离计算采用欧氏距离计算,即欧几里得度量。欧氏距离可以表示多维空间中两点时间的距离,虽然计算简单,但是欧氏距离易受到不同量纲以及数据分布的影响,因此欧式距离并不适用于高维数据。因此为了通过度量样本之间距离检测分布外数据,本发明将使用马氏距离作为计算样本间距离的方法。
方案一、一种基于计算马氏距离的分布外网络流量数据检测方法,包括以下步骤:
S1.原始网络流量的预处理和分类模型的预训练;
S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;
S3.计算新样本x与最相似类别实例的马氏距离;
S4.设定分布外数据阈值,判断是否属于分布外数据。
优选的,原始网络流量的预处理方法是:
S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;
S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;
S13.为每个数据流构建Flow-ID标志,Flow-ID标志包括源IP地址、目的IP地址和协议号。
优选的,分类模型的预训练方法是:
S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;
S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,计算损失函数的方法是:
优选的,获取新样本X与已知类别中最相似类别方法是:
S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:
其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;
S22.计算新样本x在两个类别概率分布下的概率:
P(A1x)=P(x|A)×(1-P(A))
P(B|x)=P(x|B)×(1-P(B))
S23.比较P(A|x)和P(B|x)大小,概率大的类别为新样本x最为相似类别。
优选的,计算新样本x与最相似类别实例的马氏距离方法是:
其中,μ=(μ1,μ2,μ3…,μp)T表示均值,μ=(μ1,μ2,μ3…,μp)T,S表示协方差矩阵为S的多变量x=(x1,x2,x3…,xp)T。
优选的,设定分布外数据阈值的方法是,采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。
优选的,判断是否属于分布外数据方法是:将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较,若新样本x与最相似类别实例的马氏距离大于阈值,则判断该新样本x属于分布外数据,若若新样本x与最相似类别实例的马氏距离小于阈值,则判断该新样本x属于分布内数据。
方案二、电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法的步骤。
方案三、计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法。
本发明的有益效果如下:本发明使用马氏距离作为计算样本间距离的方法,首先对分类模型进行预训练,得到一个预训练分类器,再使用高斯判别方法找出最为相似的类别,计算马氏距离并与阈值进行比较,若计算出的距离大于阈值则判断为分布外数据。提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为方法流程图;
图2为模型训练流程示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1-2说明本实施方式,一种基于计算马氏距离的分布外网络流量数据检测方法,包括以下步骤:
S1.原始网络流量的预处理和分类模型的预训练;
原始网络流量的预处理方法是:
S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;
S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;
S13.为每个数据流构建Flow-ID标志,Flow-ID标志包括源IP地址、目的IP地址和协议号。
原始网络流量数据存在形式为pcap文件,包含了应用层和传输层信息,因此执行对网络流量数据进行特征提取,本实施例采用开源特征提取工具Cicflowmeter完成,Cicflowmeter工具提取多维特征,例如,传输层的一些统计信息,且以一个TCP流或UDP流为一个单位。TCP流以FIN标志为结束,UDP以设置的flowtimeout为限制,超时则判为结束。在一个TCP流中存在很多数据包。特征提取后得到的数据形式为CSV。
分类模型的预训练方法是:
S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;
S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,方法是:
在基于softmax函数的CNN,其中X:={x1,x2…xn}为输入数据,X为样本空间,Y:={y1,y2…yj}为数据标签集合,那么基于softmax分类器的输出结果可以表示为:
其中,W和b矩阵分别表示类别yi的权重和偏差,f(x)表示卷积神经网络输出层的输出结果,其损失函数计算公式为:
预训练模型实深度学习框架的一种,预训练模型可以完成分类问题和聚类问题。
S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;分布外数据具有分布外数据与已知类别数据的某一类非常相似的特征,该特征导致传统机器学习和深度学习模型分类结果置信度低。
因此,本实施例采用高斯判别分析再预训练的分类器分类基础上判断新样本与已知类别中最相似的类别。获取新样本X与已知类别中最相似类别方法是:
S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:
其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;
S22.计算新样本x在两个类别概率分布下的概率:
P(A|x)=P(x|A)×(1-P(A))
P(B|x)=P(x|B)×(1-P(B))
S23.比较P(A|x)和P(B|x)大小,概率大的类别为新样本x最为相似类别。
S3.计算新样本x与最相似类别实例的马氏距离,方法是:
其中,μ=(μ1,μ2,μ3…,μp)T表示均值,μ=(μ1,μ2,μ3…,μp)T,S表示协方差矩阵为S的多变量x=(x1,x2,x3…,xp)T。
S4.设定分布外数据阈值,判断是否属于分布外数据。
设定分布外数据阈值的方法是,采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。
判断是否属于分布外数据方法是:将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较,若新样本x与最相似类别实例的马氏距离大于阈值,则判断该新样本x属于分布外数据,若若新样本x与最相似类别实例的马氏距离小于阈值,则判断该新样本x属于分布内数据。
对本实施例进行测试:
原始模型的训练使用的训练数据采用公开流量数据集Moore数据集。Moore数据集中包含了邮件,恶意流量,数据库等12种类别流量。将原始Moore数据集在S3中加入高斯白噪声后生成扰动数据。并使用生成的扰动数据训练扰动模型。测试数据使用Moore数据集和自行收集的流量数据的混合数据集。其中自行收集的流量数据集包含与Moore数据集相同类别的流量,但由于数据流量形式和网络协议的更新,自行收集的流量虽然类别与Moore数据集中相同但较与Moore数据集中的流量来说,自行收集的流量属于分布外数据,因此测试的目的在于检测出混合数据集当中的自行收集的流量。根据实验结果显示,本发明识别分布外数据的准确率可以达到92%以上。此外,识别出的分布外数据作为新类别数据,将其贴上新的标签作为新的分布内数据并加入到原始模型中,增强原始模型的鲁棒性。
本发明的关键术语定义:
分布外数据:是指假设存在一个数据集S,S由数据(X,Y)构成,其中X表示提取的特征集合,Y表示数据的标签集合。若存在样本s(x,y)其中y不属于Y,那么样本s称为分布外数据。
马氏距离:马氏距离是一种有效的计算两个未知样本集合相似度的方法。通过计算数据空间的协方差距离来表示各个数据空间的特性之间的联系,并且不受不同量纲的影响。除此之外,马氏距离还可以排除变量之间相关性的干扰。马氏距离的应用目的在于将方差归一化,使得特征之间的关系更加符合实际情况。
高斯判别分析:高斯判别分析的基本思想是分别使用两个多元高斯分布来描述不同类别数据的概率分布,在已知类别的情况下,寻找样本的多元高斯分布,在得到各个类别的概率分布后,对于新的样本,分别计算在这些概率分布下的概率,概率最大所对应的类别即是新样本的类别。
实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例3、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (4)
1.一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,包括以下步骤:
S1.原始网络流量的预处理和分类模型的预训练;
S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别,方法是:
S21.现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本X分别在类别A和B的概率分布:
其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;
S22.计算新样本X在两个类别概率分布下的概率:
P(A|X)=P(X|A)×(1-P(A))
P(B|X)=P(X|B)×(1-P(B))
S23.比较P(A|X)和P(B|X)大小,概率大的类别为新样本X最为相似类别;
S3.计算新样本X与最相似类别实例的马氏距离,方法是:
其中,μ表示均值,μ=(μ1,μ2,μ3,...,μp)T;
S4.设定分布外数据阈值,判断是否属于分布外数据;
设定分布外数据阈值的方法是,采用实验的方式确定,对原网络流量数据加入扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值;
判断是否属于分布外数据方法是:将新样本X与最相似类别实例的马氏距离与分布外数据阈值进行比较,若新样本X与最相似类别实例的马氏距离大于阈值,则判断该新样本X属于分布外数据,若新样本X与最相似类别实例的马氏距离小于阈值,则判断该新样本X属于分布内数据。
2.根据权利要求1所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,原始网络流量的预处理方法是:
S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;
S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;
S13.为每个数据流构建Flow-ID标志,Flow-ID标志包括源IP地址、目的IP地址和协议号。
3.电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1或2所述的一种基于计算马氏距离的分布外网络流量数据检测方法的步骤。
4.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述的一种基于计算马氏距离的分布外网络流量数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210634083.4A CN115022049B (zh) | 2022-06-06 | 2022-06-06 | 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210634083.4A CN115022049B (zh) | 2022-06-06 | 2022-06-06 | 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115022049A CN115022049A (zh) | 2022-09-06 |
CN115022049B true CN115022049B (zh) | 2024-05-14 |
Family
ID=83072719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210634083.4A Active CN115022049B (zh) | 2022-06-06 | 2022-06-06 | 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115022049B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776248A (zh) * | 2023-06-21 | 2023-09-19 | 哈尔滨工业大学 | 一种基于虚拟对数的分布外检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018126984A2 (zh) * | 2017-01-06 | 2018-07-12 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
CN110011932A (zh) * | 2019-04-18 | 2019-07-12 | 清华大学深圳研究生院 | 一种可识别未知流量的网络流量分类方法和终端设备 |
CN110619059A (zh) * | 2019-08-13 | 2019-12-27 | 浙江工业大学 | 一种基于迁移学习的建筑物标定方法 |
CN111539444A (zh) * | 2020-02-12 | 2020-08-14 | 南阳理工学院 | 一种修正式模式识别及统计建模的高斯混合模型方法 |
CN112235264A (zh) * | 2020-09-28 | 2021-01-15 | 国家计算机网络与信息安全管理中心 | 一种基于深度迁移学习的网络流量识别方法及装置 |
CN112668105A (zh) * | 2021-01-14 | 2021-04-16 | 北京航空航天大学 | 一种基于sae与马氏距离的直升机传动轴异常判定方法 |
CN112953924A (zh) * | 2021-02-04 | 2021-06-11 | 西安电子科技大学 | 网络异常流量检测方法、系统、存储介质、终端及应用 |
CN113591728A (zh) * | 2021-08-03 | 2021-11-02 | 天津大学 | 基于集成深度学习的电能质量扰动分类方法 |
CN114127747A (zh) * | 2019-06-05 | 2022-03-01 | 谷歌有限责任公司 | 用于分布外检测的似然比 |
CN114207675A (zh) * | 2019-05-28 | 2022-03-18 | 佩治人工智能公司 | 用于数字病理学的用于处理图像以针对所处理的图像制备载片的系统和方法 |
-
2022
- 2022-06-06 CN CN202210634083.4A patent/CN115022049B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018126984A2 (zh) * | 2017-01-06 | 2018-07-12 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
CN110011932A (zh) * | 2019-04-18 | 2019-07-12 | 清华大学深圳研究生院 | 一种可识别未知流量的网络流量分类方法和终端设备 |
CN114207675A (zh) * | 2019-05-28 | 2022-03-18 | 佩治人工智能公司 | 用于数字病理学的用于处理图像以针对所处理的图像制备载片的系统和方法 |
CN114127747A (zh) * | 2019-06-05 | 2022-03-01 | 谷歌有限责任公司 | 用于分布外检测的似然比 |
CN110619059A (zh) * | 2019-08-13 | 2019-12-27 | 浙江工业大学 | 一种基于迁移学习的建筑物标定方法 |
CN111539444A (zh) * | 2020-02-12 | 2020-08-14 | 南阳理工学院 | 一种修正式模式识别及统计建模的高斯混合模型方法 |
CN112235264A (zh) * | 2020-09-28 | 2021-01-15 | 国家计算机网络与信息安全管理中心 | 一种基于深度迁移学习的网络流量识别方法及装置 |
CN112668105A (zh) * | 2021-01-14 | 2021-04-16 | 北京航空航天大学 | 一种基于sae与马氏距离的直升机传动轴异常判定方法 |
CN112953924A (zh) * | 2021-02-04 | 2021-06-11 | 西安电子科技大学 | 网络异常流量检测方法、系统、存储介质、终端及应用 |
CN113591728A (zh) * | 2021-08-03 | 2021-11-02 | 天津大学 | 基于集成深度学习的电能质量扰动分类方法 |
Non-Patent Citations (2)
Title |
---|
改进的支持向量机算法及其在入侵检测中的应用;李明;;科技资讯;20090503(13);全文 * |
马立玲 ; 徐发富 ; 王军政 ; .一种基于改进核Fisher的故障诊断方法.化工学报.(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115022049A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112953924B (zh) | 网络异常流量检测方法、系统、存储介质、终端及应用 | |
Liang et al. | On the sampling strategy for evaluation of spectral-spatial methods in hyperspectral image classification | |
WO2017124942A1 (zh) | 一种异常访问检测方法及设备 | |
US8006157B2 (en) | Resource-light method and apparatus for outlier detection | |
CN104601565B (zh) | 一种智能优化规则的网络入侵检测分类方法 | |
CN111191695A (zh) | 一种基于深度学习的网站图片篡改检测方法 | |
US11658989B1 (en) | Method and device for identifying unknown traffic data based dynamic network environment | |
CN111818198A (zh) | 域名检测方法、域名检测装置和设备以及介质 | |
CN114844840B (zh) | 一种基于计算似然比的分布外网络流量数据检测方法 | |
CN115022049B (zh) | 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 | |
CN114584522B (zh) | 一种物联网设备的识别方法、系统、介质及终端 | |
CN116541698A (zh) | 一种基于XGBoost的网络异常入侵检测方法和系统 | |
Hosseini et al. | Unsupervised image manipulation localization with non-binary label attribution | |
CN110995713A (zh) | 一种基于卷积神经网络的僵尸网络检测系统及方法 | |
CN114285587B (zh) | 域名鉴别方法和装置、域名分类模型的获取方法和装置 | |
CN114548678B (zh) | 分阶段的设备细粒度类型识别方法及系统 | |
CN113569934B (zh) | Logo分类模型构建方法、系统、电子设备及存储介质 | |
CN114492653A (zh) | 分类器的训练方法、装置和电子设备 | |
CN109145298B (zh) | 一种非合法外发邮箱的识别系统、方法、设备及存储介质 | |
CN116743473B (zh) | 一种基于并行度量学习的入侵检测方法、电子设备及存储介质 | |
CN113723508B (zh) | 票据图像分类方法、装置、计算设备和存储介质 | |
CN116821907B (zh) | 一种基于Drop-MAML的小样本学习入侵检测方法 | |
CN116208506B (zh) | 一种基于时空关联网站指纹的加密流量网站识别方法 | |
CN117473308B (zh) | 一种物联网边缘计算数据污染检测方法、系统及介质 | |
CN118097171A (zh) | 图像识别方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |