CN115022049A - 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 - Google Patents

一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115022049A
CN115022049A CN202210634083.4A CN202210634083A CN115022049A CN 115022049 A CN115022049 A CN 115022049A CN 202210634083 A CN202210634083 A CN 202210634083A CN 115022049 A CN115022049 A CN 115022049A
Authority
CN
China
Prior art keywords
data
mahalanobis distance
distribution
new sample
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210634083.4A
Other languages
English (en)
Other versions
CN115022049B (zh
Inventor
刘立坤
余翔湛
史建焘
车佳臻
张晓慧
葛蒙蒙
苗钧重
刘凡
李精卫
韦贤葵
石开宇
郭明昊
冯帅
赵跃
宋赟祖
王久金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202210634083.4A priority Critical patent/CN115022049B/zh
Publication of CN115022049A publication Critical patent/CN115022049A/zh
Application granted granted Critical
Publication of CN115022049B publication Critical patent/CN115022049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
    • Y04S40/20Information technology specific aspects, e.g. CAD, simulation, modelling, system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于计算马氏距离的分布外网络流量数据检测方法,属于数据检测技术领域。包括以下步骤:S1.原始网络流量的预处理和分类模型的预训练;S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;S3.计算新样本x与最相似类别实例的马氏距离;S4.设定分布外数据阈值,分布外数据阈值采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。判断是否属于分布外数据。本发明提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。

Description

一种基于计算马氏距离的分布外网络流量数据检测方法、电 子设备及存储介质
技术领域
本申请涉及数据检测方法,尤其涉及一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质,属于数据检测技术领域。
背景技术
随着网络私有协议的增多,网络流量的种类也越来越多同时其相似度也逐渐提高。现如今的许多网络安全问题都需要落脚于网络流量的识别和检测,传统识别和检测技术大都基于机器学习算法或深度学习算法训练分类模型。但有研究表明深度学习模型的分类结果在测试数据中含有分布外数据的情况下置信度很低,在许多网络安全问题中分类错误将导致严重的后果。
基于机器学习或深度学习算法的分类模型,在分类网络流量任务中,得到的分类结果并不是可信的,原因有两个,其一,当训练模型被投入到实际应用中,不能保证测试数据中的数据全部为分布内数据;其二,若出现分布外数据与分布内数据较为相似的情况时,大部分深度学习模型会将分布外数据以高置信度划分为分布内数据类型。对于网络安全问题来说,分类错误将会导致更加严重的问题。
为解决上述问题,有研究人员对此提出以下方案解决:
基于计算样本间距离的检测方法,通过定义不同样本间距离判断两个样本是否属于同一类别进行检测。
上述技术仍存在以下问题:
对于基于计算相似度的检测方法,本质上是通过提取两个类别数据的特征从而计算二者之间的距离来表征相似度。但由于如何提取特征以及提取到的特征会有很大的随意性,并没有一个标准,对于不同类型的数据有大的差距,因此计算出的距离并不具有唯一性。同时,不同特征之间的度量尺度也不相同,计算距离或相似度是一件主观性很强且困难的事情。此外,判断是否为分布外数据的尺度也不容易设置,设置过大或过小都容易造成很高的误报率。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题,本发明提供一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质。目前大部分检测方法中用于表征相似度的距离计算采用欧氏距离计算,即欧几里得度量。欧氏距离可以表示多维空间中两点时间的距离,虽然计算简单,但是欧氏距离易受到不同量纲以及数据分布的影响,因此欧式距离并不适用于高维数据。因此为了通过度量样本之间距离检测分布外数据,本发明将使用马氏距离作为计算样本间距离的方法。
方案一、一种基于计算马氏距离的分布外网络流量数据检测方法,包括以下步骤:
S1.原始网络流量的预处理和分类模型的预训练;
S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;
S3.计算新样本x与最相似类别实例的马氏距离;
S4.设定分布外数据阈值,判断是否属于分布外数据。
优选的,原始网络流量的预处理方法是:
S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;
S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;
S13.为每个数据流构建Flow-ID标志,Flow-ID标志包括源IP地址、目的IP地址和协议号。
优选的,分类模型的预训练方法是:
S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;
S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,计算损失函数的方法是:
Figure BDA0003679830680000021
优选的,获取新样本X与已知类别中最相似类别方法是:
S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:
Figure BDA0003679830680000022
Figure BDA0003679830680000031
其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;
S22.计算新样本x在两个类别概率分布下的概率:
P(A1x)=P(x|A)×(1-P(A))
P(B|x)=P(x|B)×(1-P(B))
S23.比较P(A|x)和P(B|x)大小,概率大的类别为新样本x最为相似类别。
优选的,计算新样本x与最相似类别实例的马氏距离方法是:
Figure BDA0003679830680000032
其中,μ=(μ123…,μp)T表示均值,μ=(μ123…,μp)T,S表示协方差矩阵为S的多变量x=(x1,x2,x3…,xp)T
优选的,设定分布外数据阈值的方法是,采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。
优选的,判断是否属于分布外数据方法是:将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较,若新样本x与最相似类别实例的马氏距离大于阈值,则判断该新样本x属于分布外数据,若若新样本x与最相似类别实例的马氏距离小于阈值,则判断该新样本x属于分布内数据。
方案二、电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法的步骤。
方案三、计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法。
本发明的有益效果如下:本发明使用马氏距离作为计算样本间距离的方法,首先对分类模型进行预训练,得到一个预训练分类器,再使用高斯判别方法找出最为相似的类别,计算马氏距离并与阈值进行比较,若计算出的距离大于阈值则判断为分布外数据。提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为方法流程图;
图2为模型训练流程示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1-2说明本实施方式,一种基于计算马氏距离的分布外网络流量数据检测方法,包括以下步骤:
S1.原始网络流量的预处理和分类模型的预训练;
原始网络流量的预处理方法是:
S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;
S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;
S13.为每个数据流构建Flow-ID标志,Flow-ID标志包括源IP地址、目的IP地址和协议号。
原始网络流量数据存在形式为pcap文件,包含了应用层和传输层信息,因此执行对网络流量数据进行特征提取,本实施例采用开源特征提取工具Cicflowmeter完成,Cicflowmeter工具提取多维特征,例如,传输层的一些统计信息,且以一个TCP流或UDP流为一个单位。TCP流以FIN标志为结束,UDP以设置的flowtimeout为限制,超时则判为结束。在一个TCP流中存在很多数据包。特征提取后得到的数据形式为CSV。
分类模型的预训练方法是:
S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;
S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,方法是:
在基于softmax函数的CNN,其中X:={x1,x2…xn}为输入数据,X为样本空间,Y:={y1,y2…yj}为数据标签集合,那么基于softmax分类器的输出结果可以表示为:
Figure BDA0003679830680000051
其中,W和b矩阵分别表示类别yi的权重和偏差,f(x)表示卷积神经网络输出层的输出结果,其损失函数计算公式为:
Figure BDA0003679830680000052
预训练模型实深度学习框架的一种,预训练模型可以完成分类问题和聚类问题。
S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;分布外数据具有分布外数据与已知类别数据的某一类非常相似的特征,该特征导致传统机器学习和深度学习模型分类结果置信度低。
因此,本实施例采用高斯判别分析再预训练的分类器分类基础上判断新样本与已知类别中最相似的类别。获取新样本X与已知类别中最相似类别方法是:
S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:
Figure BDA0003679830680000053
Figure BDA0003679830680000054
其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;
S22.计算新样本x在两个类别概率分布下的概率:
P(A|x)=P(x|A)×(1-P(A))
P(B|x)=P(x|B)×(1-P(B))
S23.比较P(A|x)和P(B|x)大小,概率大的类别为新样本x最为相似类别。
S3.计算新样本x与最相似类别实例的马氏距离,方法是:
Figure BDA0003679830680000055
其中,μ=(μ123…,μp)T表示均值,μ=(μ123…,μp)T,S表示协方差矩阵为S的多变量x=(x1,x2,x3…,xp)T
S4.设定分布外数据阈值,判断是否属于分布外数据。
设定分布外数据阈值的方法是,采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。
判断是否属于分布外数据方法是:将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较,若新样本x与最相似类别实例的马氏距离大于阈值,则判断该新样本x属于分布外数据,若若新样本x与最相似类别实例的马氏距离小于阈值,则判断该新样本x属于分布内数据。
对本实施例进行测试:
原始模型的训练使用的训练数据采用公开流量数据集Moore数据集。Moore数据集中包含了邮件,恶意流量,数据库等12种类别流量。将原始Moore数据集在S3中加入高斯白噪声后生成扰动数据。并使用生成的扰动数据训练扰动模型。测试数据使用Moore数据集和自行收集的流量数据的混合数据集。其中自行收集的流量数据集包含与Moore数据集相同类别的流量,但由于数据流量形式和网络协议的更新,自行收集的流量虽然类别与Moore数据集中相同但较与Moore数据集中的流量来说,自行收集的流量属于分布外数据,因此测试的目的在于检测出混合数据集当中的自行收集的流量。根据实验结果显示,本发明识别分布外数据的准确率可以达到92%以上。此外,识别出的分布外数据作为新类别数据,将其贴上新的标签作为新的分布内数据并加入到原始模型中,增强原始模型的鲁棒性。
本发明的关键术语定义:
分布外数据:是指假设存在一个数据集S,S由数据(X,Y)构成,其中X表示提取的特征集合,Y表示数据的标签集合。若存在样本s(x,y)其中y不属于Y,那么样本s称为分布外数据。
马氏距离:马氏距离是一种有效的计算两个未知样本集合相似度的方法。通过计算数据空间的协方差距离来表示各个数据空间的特性之间的联系,并且不受不同量纲的影响。除此之外,马氏距离还可以排除变量之间相关性的干扰。马氏距离的应用目的在于将方差归一化,使得特征之间的关系更加符合实际情况。
高斯判别分析:高斯判别分析的基本思想是分别使用两个多元高斯分布来描述不同类别数据的概率分布,在已知类别的情况下,寻找样本的多元高斯分布,在得到各个类别的概率分布后,对于新的样本,分别计算在这些概率分布下的概率,概率最大所对应的类别即是新样本的类别。
实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例3、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (9)

1.一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,包括以下步骤:
S1.原始网络流量的预处理和分类模型的预训练;
S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;
S3.计算新样本x与最相似类别实例的马氏距离;
S4.设定分布外数据阈值,判断是否属于分布外数据。
2.根据权利要求1所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,原始网络流量的预处理方法是:
S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;
S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;
S13.为每个数据流构建Flow-ID标志,Flow-ID标志包括源IP地址、目的IP地址和协议号。
3.根据权利要求2所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,分类模型的预训练方法是:
S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;
S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,计算损失函数的方法是:
Figure FDA0003679830670000011
4.根据权利要求3所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,获取新样本X与已知类别中最相似类别方法是:
S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:
Figure FDA0003679830670000012
Figure FDA0003679830670000013
其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;
S22.计算新样本x在两个类别概率分布下的概率:
P(A|x)=P(x|A)×(1-P(A))
P(B|x)=P(x|B)×(1-P(B))
S23.比较P(A|x)和P(B|x)大小,概率大的类别为新样本x最为相似类别。
5.根据权利要求4所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,计算新样本x与最相似类别实例的马氏距离方法是:
Figure FDA0003679830670000021
其中,μ表示均值,μ=(μ1,μ2,μ3...,μp)T,S表示协方差矩阵为S的多变量
x=(x1,x2,x3...,xp)T
6.根据权利要求5所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,设定分布外数据阈值的方法是,采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。
7.根据权利要求6所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,判断是否属于分布外数据方法是:将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较,若新样本x与最相似类别实例的马氏距离大于阈值,则判断该新样本x属于分布外数据,若若新样本x与最相似类别实例的马氏距离小于阈值,则判断该新样本x属于分布内数据。
8.电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-7任一项所述的一种基于计算马氏距离的分布外网络流量数据检测方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的一种基于计算马氏距离的分布外网络流量数据检测方法。
CN202210634083.4A 2022-06-06 2022-06-06 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质 Active CN115022049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210634083.4A CN115022049B (zh) 2022-06-06 2022-06-06 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210634083.4A CN115022049B (zh) 2022-06-06 2022-06-06 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115022049A true CN115022049A (zh) 2022-09-06
CN115022049B CN115022049B (zh) 2024-05-14

Family

ID=83072719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210634083.4A Active CN115022049B (zh) 2022-06-06 2022-06-06 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115022049B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776248A (zh) * 2023-06-21 2023-09-19 哈尔滨工业大学 一种基于虚拟对数的分布外检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126984A2 (zh) * 2017-01-06 2018-07-12 江南大学 一种基于mea-bp神经网络wsn异常检测方法
CN110011932A (zh) * 2019-04-18 2019-07-12 清华大学深圳研究生院 一种可识别未知流量的网络流量分类方法和终端设备
CN110619059A (zh) * 2019-08-13 2019-12-27 浙江工业大学 一种基于迁移学习的建筑物标定方法
CN111539444A (zh) * 2020-02-12 2020-08-14 南阳理工学院 一种修正式模式识别及统计建模的高斯混合模型方法
CN112235264A (zh) * 2020-09-28 2021-01-15 国家计算机网络与信息安全管理中心 一种基于深度迁移学习的网络流量识别方法及装置
CN112668105A (zh) * 2021-01-14 2021-04-16 北京航空航天大学 一种基于sae与马氏距离的直升机传动轴异常判定方法
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
CN113591728A (zh) * 2021-08-03 2021-11-02 天津大学 基于集成深度学习的电能质量扰动分类方法
CN114127747A (zh) * 2019-06-05 2022-03-01 谷歌有限责任公司 用于分布外检测的似然比
CN114207675A (zh) * 2019-05-28 2022-03-18 佩治人工智能公司 用于数字病理学的用于处理图像以针对所处理的图像制备载片的系统和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126984A2 (zh) * 2017-01-06 2018-07-12 江南大学 一种基于mea-bp神经网络wsn异常检测方法
CN110011932A (zh) * 2019-04-18 2019-07-12 清华大学深圳研究生院 一种可识别未知流量的网络流量分类方法和终端设备
CN114207675A (zh) * 2019-05-28 2022-03-18 佩治人工智能公司 用于数字病理学的用于处理图像以针对所处理的图像制备载片的系统和方法
CN114127747A (zh) * 2019-06-05 2022-03-01 谷歌有限责任公司 用于分布外检测的似然比
CN110619059A (zh) * 2019-08-13 2019-12-27 浙江工业大学 一种基于迁移学习的建筑物标定方法
CN111539444A (zh) * 2020-02-12 2020-08-14 南阳理工学院 一种修正式模式识别及统计建模的高斯混合模型方法
CN112235264A (zh) * 2020-09-28 2021-01-15 国家计算机网络与信息安全管理中心 一种基于深度迁移学习的网络流量识别方法及装置
CN112668105A (zh) * 2021-01-14 2021-04-16 北京航空航天大学 一种基于sae与马氏距离的直升机传动轴异常判定方法
CN112953924A (zh) * 2021-02-04 2021-06-11 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
CN113591728A (zh) * 2021-08-03 2021-11-02 天津大学 基于集成深度学习的电能质量扰动分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明;: "改进的支持向量机算法及其在入侵检测中的应用", 科技资讯, no. 13, 3 May 2009 (2009-05-03) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776248A (zh) * 2023-06-21 2023-09-19 哈尔滨工业大学 一种基于虚拟对数的分布外检测方法

Also Published As

Publication number Publication date
CN115022049B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN109086654B (zh) 手写模型训练方法、文本识别方法、装置、设备及介质
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN112953924A (zh) 网络异常流量检测方法、系统、存储介质、终端及应用
CN112862093B (zh) 一种图神经网络训练方法及装置
CN113435545A (zh) 图像处理模型的训练方法及装置
CN114844840B (zh) 一种基于计算似然比的分布外网络流量数据检测方法
CN116541698A (zh) 一种基于XGBoost的网络异常入侵检测方法和系统
CN115022049B (zh) 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
CN110995713A (zh) 一种基于卷积神经网络的僵尸网络检测系统及方法
CN114821051A (zh) 一种遥感图像的农用地语义分割方法
CN114285587B (zh) 域名鉴别方法和装置、域名分类模型的获取方法和装置
CN111091194B (zh) 一种基于cavwnb_kl算法的操作系统识别方法
CN109886151B (zh) 一种虚假身份属性检测方法
CN116451081A (zh) 数据漂移的检测方法、装置、终端及存储介质
CN114462510A (zh) 一种用于物联网精准防护的设备分类方法及系统
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN114492653A (zh) 分类器的训练方法、装置和电子设备
CN114385468A (zh) 一种日志分析方法、系统及相关组件
CN114095268A (zh) 用于网络入侵检测的方法、终端及存储介质
CN113515771A (zh) 数据敏感度判定方法、电子设备及计算机可读存储介质
CN116383771B (zh) 基于变分自编码模型的网络异常入侵检测方法和系统
CN117421244B (zh) 多源跨项目软件缺陷预测方法、装置及存储介质
CN110728615B (zh) 基于序贯假设检验的隐写分析方法、终端设备及存储介质
CN116501867B (zh) 基于互信息的变体知识掌握度检测方法、系统和存储介质
CN113723508B (zh) 票据图像分类方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant