CN111144470A - 一种基于深度自编码器的未知网络流量识别方法及系统 - Google Patents

一种基于深度自编码器的未知网络流量识别方法及系统 Download PDF

Info

Publication number
CN111144470A
CN111144470A CN201911321413.9A CN201911321413A CN111144470A CN 111144470 A CN111144470 A CN 111144470A CN 201911321413 A CN201911321413 A CN 201911321413A CN 111144470 A CN111144470 A CN 111144470A
Authority
CN
China
Prior art keywords
data packet
encoder
feature
network
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911321413.9A
Other languages
English (en)
Other versions
CN111144470B (zh
Inventor
张永铮
赵树园
桑亚飞
常鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201911321413.9A priority Critical patent/CN111144470B/zh
Publication of CN111144470A publication Critical patent/CN111144470A/zh
Application granted granted Critical
Publication of CN111144470B publication Critical patent/CN111144470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于深度自编码器的未知网络流量识别方法及系统,以原始网络数据流为输入,首先利用n‑gram嵌入对网络数据包中负载的前m个字节进行向量化处理,得到不同维度的数据包向量;然后利用深度自编码器算法对不同维度的数据包向量进行训练并得到特征提取模型,利用该模型完成对网络数据包向量的特征提取,得到优化的网络数据包特征,并将不同维度的特征进行连接,得到网络数据包的最终特征向量;最后基于k‑means聚类算法对未知网络流量进行聚类分析,得到未知流量聚类模型,实现对于实时网络中未知流量的识别。

Description

一种基于深度自编码器的未知网络流量识别方法及系统
技术领域
本发明属于网络安全技术领域,涉及流量识别技术,特别涉及一种基于深度自编码器的未知网络流量识别方法及系统。
背景技术
网络流量识别技术的目的是通过分析网络流量识别出哪些网络协议或应用运行在网络中,并建立网络数据流与产生其应用的映射关系。如何正确理解网络流量中的应用程序和协议是网络安全领域关注的核心问题之一,同时也是其他网络管理任务的工作基础,其典型应用场景包括网络监控、服务质量保证、入侵与防范系统(IDS/IPS)等。
但是随着网络的不断发展,网络中协议和应用的种类不断增加,流量识别正面临着一个新的挑战,即未知流量的识别问题。未知流量的概念是相对于现已构建好的流量识别系统而言的,是指未知应用程序(即零日应用程序)产出的网络流量,这部分流量未被现已构建好的识别系统所建模和识别。未知流量作为不可控制的数据,给网络管理带来了潜在的危险。Internet2组织对北美主干网的网络流量统计表明,近50%的流量属于未知流量。然而,现有的未知流量识别技术不能有效的解决该问题,其局限性如下:
特征构建依赖专家经验,扩展性差。在构建未知流量识别系统时,输入数据为无标记网络流量,特征构建一般依赖专家经验,直接使用专家推荐特征表示数据,无法对特征进行有效的选择,得到低冗余和高相关的样本特征。
发明内容
本发明技术解决问题:针对未知网络流量识别的问题,提供一种基于深度自编码器的未知网络流量识别方法及系统,能够对混合网络流量进行聚类分析,形成纯净的未知网络流量簇,有效解决了未知网络流量识别问题;同时实现网络流量的特征提取无需依赖特征工程,即能够在无监督的条件下自动完成特征提取。
本发明技术解决方案:一种基于深度自编码器的未知网络流量识别方法,包括以下步骤:
步骤1,特征提取:输入网络中现有方法无法识别的数据包,首先采用N元模型n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,得到m-n+1个长度为n个字节的载荷字符串,通过设置n-gram模型中参数n,构建不同长度的载荷字符串,得到同一数据包的多个维度的特征集合,然后使用m-n+1个载荷字符串构建数据包特征集,最后将数据包特征集的载荷字符串嵌入(embedding)到数值向量空间,完成载荷字符串数据到数值型数据转换,将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量;
步骤2,特征构建:基于步骤1得到的不同维度的数据包特征向量,实现数据包特征向量的降维和关键特征提取,采用深度自编码器算法训练数据包特征向量,生成基于深度自编码器算法的数据包特征向量的降维和关键特征提取模型,使用该模型实现对于不同维度特征向量的无监督特征提取,得到数据包不同维度特征向量,然后将得到的数据包不同维度特征向量进行拼接,得到优化的网络数据包特征向量;
步骤3,未知流量识别:根据步骤2得到的优化的网络数据包特征向量,基于k-means算法对未知网络流量进行聚类分析,构建未知网络流量识别模型,并采用该模型对实时的网络流量进行监测,当训练数据中的未知流量在实时的网络中再次出现时,该模型对实时网络中的未知流量进行识别,最终得到未知流量识别结果。
所述步骤1特征构建,具体步骤为:
(11)以网络中数据包为最小单元,提取数据包中前m个字节的负载信息作为原始数据;
(12)使用n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,设置n-gram模型的参数n∈{1,2};
(13)针对每个参数n,为每个数据包构造m-n+1个特征字符串;
(14)针对每个参数n构造的m-n+1个特征字符串,通过自然语言处理中字典查找的方法将特征向量化,得到特征字符串的特征向量;
(15)将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量。
所述步骤2特征提取,具体步骤为:
(21)以特征向量为输入数据,基于自动编码器算法,训练一个自动编码器,以x表示自编码器输入,r表示自编码器输出,自编码器通过内部表示或编码,将输入x映射到r,自编码器有一个隐藏层h、一个由函数h=f(x)表示的编码器f,和一个由函数r=g(h)表示的解码器g组成,编码器f将输入x映射到h,解码器g将h映射到r;
(22)保存步骤(1)训练获得的自动编码器的隐藏层h数据,以该数据作为输入,迭代训练下一个自动编码器;
(23)重复步骤(2),以第T个自动编码器的隐藏层数据hT训练T+1个自动编码器,得到多个自动编码器;
(24)最后训练获得一个隐藏层单元数为2的自动编码器;
(25)在获得一个隐藏层单元数为2的自动编码之后,将所有自动编码器的编码层f按照训练顺序串联,将隐藏层单元数为2的自动编码器放在最后,并按照逆向训练顺序连接解码层,形成一个深度自动编码器;
(26)最后放弃连接的解码层部分,使用连接的编码层作为在原始特征空间和目的特征空间之间的映射,提取每个数据包基于不同参数n的特征向量;
(27)将提取到的基于不同参数n的特征向量拼接,得到优化的网络数据包特征向量。
本发明的一种基于深度自编码器的未知网络流量识别系统,如图2所示,包括特征构建模块、特征提取模块以及未知流量聚类模块;
特征构建模块:以网络中现有方法无法识别的数据包作为原始输入,使用n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,得到m-n+1个长度为n个字节的载荷字符串,通过设置n-gram模型中参数n,构建不同长度的载荷字符串,得到同一数据包的多个维度的特征集合,然后使用m-n+1个载荷字符串构建数据包特征集,最后将数据包特征集的载荷字符串嵌入(embedding)到数值向量空间,完成载荷字符串数据到数值型数据转换,将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量;
特征提取模块:以特征构建模块构建的不同维度的数据包特征向量作为输入,采用深度自编码器算法训练数据包特征向量,生成基于深度自编码器算法的数据包特征向量的降维和关键特征提取模型,使用该模型实现对于不同维度特征向量的无监督特征提取,得到数据包不同维度特征向量,然后将得到的数据包不同维度特征向量进行拼接,得到优化的网络数据包特征向量;
未知流量识别模块:以特征提取模块获得的优化的网络数据包特征向量作为输入,基于k-means算法,构建流量聚类模型,并采用该模型对实时的网络流量进行监测,当训练数据中的未知流量在实时的网络中再次出现时,该模型对实时网络中的未知流量进行识别,最终得到未知流量识别结果。
本发明与现有技术相比,
(1)本发明的方法,在无监督的条件下,完成对网络流量特征的特征提取,实现以网络数据包为最小单位的网络未知流量的识别,且具有较高的识别效率和识别准确率。
(2)本发明以原始网络数据流为输入,首先利用n-gram嵌入对数据负载进行向量化处理,然后利用深度自编码器对特征向量进行提取和选择,最后通过聚类方法,从混合流量中得到未知流量的簇。该方法只需要使用数据包中前m个字节的负载信息,在实现识别功能的前提下尽量保证用户隐私,且该方法不需要依赖任何的先验知识,不需要人工提取特征,节省人力物力。除此之外,该方法可以处理面向连接(TCP)和无连接(UDP)的协议或应用,同时也支持文本协议和二进制协议。
附图说明
图1为本发明的深度自编码器的网络未知流量识别方法的实现流程图;
图2为本发明的深度自编码器的网络未知流量识别系统架构图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明基于深度自编码器的未知网络流量识别方法主要有三个核心阶段:未知网络流量特征构建、特征提取和未知流量识别。
一、未知网络流量特征构建包含以下步骤:
(1)以网络中数据包为最小单元,提取数据包中前m个字节的负载信息作为原始数据;
(2)使用n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,设置n-gram模型的参数n∈{1,2};
(3)针对每个参数n,为每个数据包构造m-n+1个特征字符串;
(4)针对每个参数n构造的m-n+1个特征字符串,通过自然语言处理中字典查找的方法将特征向量化,得到特征字符串的特征向量;
(5)将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量。
二、特征提取包含以下步骤:
(1)以特征向量为输入数据,基于自动编码器算法,训练一个自动编码器,以x表示自编码器输入,r表示自编码器输出,自编码器通过内部表示或编码,将输入x映射到r,自编码器有一个隐藏层h、一个由函数h=f(x)表示的编码器f,和一个由函数r=g(h)表示的解码器g组成,编码器f将输入x映射到h,解码器g将h映射到r;
(2)保存步骤(1)训练获得的自动编码器的隐藏层h数据,以该数据作为输入,迭代训练下一个自动编码器;
(3)重复步骤(2),以第T个自动编码器的隐藏层数据hT训练T+1个自动编码器,得到多个自动编码器;
(4)最后训练获得一个隐藏层单元数为2的自动编码器;
(5)在获得一个隐藏层单元数为2的自动编码之后,将所有自动编码器的编码层f按照训练顺序串联,将隐藏层单元数为2的自动编码器放在最后,并按照逆向训练顺序连接解码层,形成一个深度自动编码器;
(6)最后放弃连接的解码层部分,使用连接的编码层作为在原始特征空间和目的特征空间之间的映射,提取每个数据包基于不同参数n的特征向量。
(7)将提取到的基于不同参数n的特征向量拼接,得到优化的网络数据包特征向量。
三、未知流量识别包含以下步骤:
(1)以优化的网络数据包特征向量为输入数据,基于k-means算法,对未知网络流量进行聚类分析,构建未知网络流量识别模型;
(2)采用未知网络流量识别模型对实时的网络流量进行监测,当训练数据中的未知流量在实时的网络中再次出现时,该模型可对实时网络中的未知流量进行识别,最终得到未知流量识别结果。
结合上述基于深度自编码器的未知网络流量识别方法,本发明同时公开了一种基于深度自编码器的未知网络流量识别系统,主要由特征构建模块、特征提取模块以及未知流量聚类和识别模块三部分构成,其框架图如图2所示:
特征构建模块:以网络中现有方法无法识别的数据包作为原始输入,使用n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,得到m-n+1个长度为n个字节的载荷字符串,通过设置n-gram模型中参数n,构建不同长度的载荷字符串,得到同一数据包的多个维度的特征集合,然后使用m-n+1个载荷字符串构建数据包特征集,最后将数据包特征集的载荷字符串嵌入(embedding)到数值向量空间,完成载荷字符串数据到数值型数据转换,将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量;
特征提取模块:以特征构建模块构建的不同维度的数据包特征向量作为输入,采用深度自编码器算法训练数据包特征向量,生成基于深度自编码器算法的数据包特征向量的降维和关键特征提取模型,使用该模型实现对于不同维度特征向量的无监督特征提取,得到数据包不同维度特征向量,然后将得到的数据包不同维度特征向量进行拼接,得到优化的网络数据包特征向量;
未知流量识别模块:以特征提取模块获得的优化的网络数据包特征向量作为输入,基于k-means算法,构建流量聚类模型,并采用该模型对实时的网络流量进行监测,当训练数据中的未知流量在实时的网络中再次出现时,该模型可对实时网络中的未知流量进行识别,最终得到未知流量识别结果。
实验验证
为了证明方法的有效性,本发明在大量的真实数据上进行了反复的实验。在实验中,本发明首先抓取骨干网的数据流并使用ndpi工具对数据进行标定,并选取其中的八个典型的应用层协议,包括dns、dhcp、bittorrent、ssh、http、imap、mysql和github,模拟网络未知流量来评估本发明的方法。实验的实施步骤包括数据集的构建和标注、实验评估指标和实验结果评估三个模块。
(1)数据集的构建和标注:本发明基于零拷贝方法,于2015年8月17日上午1点至下午12点,在中国大陆某校园网络的路由器捕获20GB网络流量数据。为了保证用户隐私,在数据集中,每个数据包仅包含30个字节的应用层负载。在这项工作中,通过使用开源ndpi工具和基于端口的方法,构建包含多个协议的标记样本。实验数据集中包含八个典型的应用层协议,包括dns、dhcp、bittorrent、ssh、http、imap、mysql和github。注意,这些目标协议包括无连接协议(UDP)和面向连接的协议(TCP)。同时,数据集中的协议包含文本协议和二进制协议。在实验中,使用八类协议的网络数据模拟混合的未知流量数据,对实验方法进行测试。
(2)实验评估指标:
为了评估方法的有效性,本发明将聚类纯度作为评价指标。聚类纯度定义为每个簇中优势类标签的平均百分比。聚类纯度的定义如下所示:
Figure BDA0002327250220000061
(3)实验结果评估:在实践过程中,不同的参数组合都可以产生较好的实验效果。因此,在实验中通过控制不同的变量,例如每层的单元数,隐藏层数和聚类簇数等,得到不同的实验结果。
表1网络未知流量聚类结果
Figure BDA0002327250220000071
表1为未知网络流量的聚类结果。该表显示了在选择不同包有效载荷长度、嵌入尺寸的实验结果,实验样本约为105000个数据包,batch为64,迭代次数为1600次。深度自编码器的拓扑结构共有9层,结构为:((m-n+1)×e)-100-100-200-8-200-100-100-((m-n+1)×e),其中m表示数据包中前m个字节的负载信息,n为N-gram模型参数,e表示词嵌入的目标向量的维数。该深度神经网络所有的连接数超过100000个。此外,采用0.01的学习率,并采用100次重复实验的平均结果,以确保结果的可靠性。此外,由于该方法对聚类簇值敏感,所以选择的参数k在10到100之间,k={10,20,…,50,60,…,100}。从表中可以观察到,该方法在聚类纯度上可以达到97.35%以上。此外,当聚类数(k=10)接近未知协议数(实验数据中协议类别数为8种)时,该方法依然可以获得较高的聚类纯度。
本发明能够对混合网络流量进行聚类分析,形成纯净的未知网络流量簇,有效解决了未知网络流量识别问题;实现网络流量的特征提取无需依赖特征工程,即能够在无监督的条件下自动完成特征提取。
以上虽然描述了本发明的具体实施方法,但是本领域的技术人员应当理解,这些仅是举例说明,在不背离本发明原理和实现的前提下,可以对这些实施方案做出多种变更或修改,因此,本发明的保护范围由所附权利要求书限定。

Claims (4)

1.一种基于深度自编码器的未知网络流量识别方法,其特征在于,包括以下步骤:
步骤1,特征提取:输入网络中现有方法无法识别的数据包,首先采用N元模型n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,得到m-n+1个长度为n个字节的载荷字符串,通过设置n-gram模型中参数n,构建不同长度的载荷字符串,得到同一数据包的多个维度的特征集合,然后使用m-n+1个载荷字符串构建数据包特征集,最后将数据包特征集的载荷字符串嵌入(embedding)到数值向量空间,完成载荷字符串数据到数值型数据转换,将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量;
步骤2,特征构建:基于步骤1得到的不同维度的数据包特征向量,实现数据包特征向量的降维和关键特征提取,采用深度自编码器算法训练数据包特征向量,生成基于深度自编码器算法的数据包特征向量的降维和关键特征提取模型,使用该模型实现对于不同维度特征向量的无监督特征提取,得到数据包不同维度特征向量,然后将得到的数据包不同维度特征向量进行拼接,得到优化的网络数据包特征向量;
步骤3,未知流量识别:根据步骤2得到的优化的网络数据包特征向量,基于k-means算法对未知网络流量进行聚类分析,构建未知网络流量识别模型,并采用该模型对实时的网络流量进行监测,当训练数据中的未知流量在实时的网络中再次出现时,该模型对实时网络中的未知流量进行识别,最终得到未知流量识别结果。
2.根据权利要求1所述的基于深度自编码器的未知网络流量识别方法,其特征在于,所述步骤1特征构建,具体步骤为:
(11)以网络中数据包为最小单元,提取数据包中前m个字节的负载信息作为原始数据;
(12)使用n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,设置n-gram模型的参数n∈{1,2};
(13)针对每个参数n,为每个数据包构造m-n+1个特征字符串;
(14)针对每个参数n构造的m-n+1个特征字符串,通过自然语言处理中字典查找的方法将特征向量化,得到特征字符串的特征向量;
(15)将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量。
3.根据权利要求1所述的基于深度自编码器的未知网络流量识别方法,其特征在于,所述步骤2特征提取,具体步骤为:
(21)以特征向量为输入数据,基于自动编码器算法,训练一个自动编码器,以x表示自编码器输入,r表示自编码器输出,自编码器通过内部表示或编码,将输入x映射到r,自编码器有一个隐藏层h、一个由函数h=f(x)表示的编码器f,和一个由函数r=g(h)表示的解码器g组成,编码器f将输入x映射到h,解码器g将h映射到r;
(22)保存步骤(1)训练获得的自动编码器的隐藏层h数据,以该数据作为输入,迭代训练下一个自动编码器;
(23)重复步骤(2),以第T个自动编码器的隐藏层数据hT训练T+1个自动编码器,得到多个自动编码器;
(24)最后训练获得一个隐藏层单元数为2的自动编码器;
(25)在获得一个隐藏层单元数为2的自动编码之后,将所有自动编码器的编码层f按照训练顺序串联,将隐藏层单元数为2的自动编码器放在最后,并按照逆向训练顺序连接解码层,形成一个深度自动编码器;
(26)最后放弃连接的解码层部分,使用连接的编码层作为在原始特征空间和目的特征空间之间的映射,提取每个数据包基于不同参数n的特征向量;
(27)将提取到的基于不同参数n的特征向量拼接,得到优化的网络数据包特征向量。
4.一种基于深度自编码器的未知网络流量识别系统,其特征在于:包括特征构建模块、特征提取模块以及未知流量聚类模块;
特征构建模块:以网络中现有方法无法识别的数据包作为原始输入,使用n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,得到m-n+1个长度为n个字节的载荷字符串,通过设置n-gram模型中参数n,构建不同长度的载荷字符串,得到同一数据包的多个维度的特征集合,然后使用m-n+1个载荷字符串构建数据包特征集,最后将数据包特征集的载荷字符串嵌入(embedding)到数值向量空间,完成载荷字符串数据到数值型数据转换,将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量;
特征提取模块:以特征构建模块构建的不同维度的数据包特征向量作为输入,采用深度自编码器算法训练数据包特征向量,生成基于深度自编码器算法的数据包特征向量的降维和关键特征提取模型,使用该模型实现对于不同维度特征向量的无监督特征提取,得到数据包不同维度特征向量,然后将得到的数据包不同维度特征向量进行拼接,得到优化的网络数据包特征向量;
未知流量识别模块:以特征提取模块获得的优化的网络数据包特征向量作为输入,基于k-means算法,构建流量聚类模型,并采用该模型对实时的网络流量进行监测,当训练数据中的未知流量在实时的网络中再次出现时,该模型对实时网络中的未知流量进行识别,最终得到未知流量识别结果。
CN201911321413.9A 2019-12-20 2019-12-20 一种基于深度自编码器的未知网络流量识别方法及系统 Active CN111144470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321413.9A CN111144470B (zh) 2019-12-20 2019-12-20 一种基于深度自编码器的未知网络流量识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321413.9A CN111144470B (zh) 2019-12-20 2019-12-20 一种基于深度自编码器的未知网络流量识别方法及系统

Publications (2)

Publication Number Publication Date
CN111144470A true CN111144470A (zh) 2020-05-12
CN111144470B CN111144470B (zh) 2022-12-16

Family

ID=70519042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321413.9A Active CN111144470B (zh) 2019-12-20 2019-12-20 一种基于深度自编码器的未知网络流量识别方法及系统

Country Status (1)

Country Link
CN (1) CN111144470B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111669396A (zh) * 2020-06-15 2020-09-15 绍兴文理学院 一种软件定义物联网自学习安全防御方法及系统
CN111817971A (zh) * 2020-06-12 2020-10-23 东南大学 一种基于深度学习的数据中心网络流量拼接方法
CN112367292A (zh) * 2020-10-10 2021-02-12 浙江大学 一种基于深度字典学习的加密流量异常检测方法
CN112381121A (zh) * 2020-10-28 2021-02-19 中国科学院信息工程研究所 一种基于孪生网络的未知类别网络流量的检测与识别方法
CN112968968A (zh) * 2021-02-26 2021-06-15 清华大学 基于无监督聚类的物联网设备流量指纹识别方法和装置
CN113282552A (zh) * 2021-06-04 2021-08-20 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
CN113569930A (zh) * 2021-07-15 2021-10-29 南京逸智网络空间技术创新研究院有限公司 一种基于磁场数据侧信道分析的智能设备应用识别方法
CN114679308A (zh) * 2022-03-21 2022-06-28 山东大学 一种基于双路自编码的未知流量识别方法及系统
CN115913971A (zh) * 2022-03-09 2023-04-04 中国人民解放军63891部队 一种网络dna特征表示与提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及系统
CN105871619A (zh) * 2016-04-18 2016-08-17 中国科学院信息工程研究所 一种基于n-gram多特征的流量载荷类型检测方法
WO2019144521A1 (zh) * 2018-01-23 2019-08-01 杭州电子科技大学 信息物理交通系统中基于深度学习的恶意攻击检测方法
CN110225001A (zh) * 2019-05-21 2019-09-10 清华大学深圳研究生院 一种基于主题模型的动态自更新网络流量分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297427A (zh) * 2013-05-21 2013-09-11 中国科学院信息工程研究所 一种未知网络协议识别方法及系统
CN105871619A (zh) * 2016-04-18 2016-08-17 中国科学院信息工程研究所 一种基于n-gram多特征的流量载荷类型检测方法
WO2019144521A1 (zh) * 2018-01-23 2019-08-01 杭州电子科技大学 信息物理交通系统中基于深度学习的恶意攻击检测方法
CN110225001A (zh) * 2019-05-21 2019-09-10 清华大学深圳研究生院 一种基于主题模型的动态自更新网络流量分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁杰等: "基于n-gram多特征的流量载荷类型分类方法", 《计算机应用与软件》 *
张路煜等: "基于卷积神经网络的未知协议识别方法", 《微电子学与计算机》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111817971A (zh) * 2020-06-12 2020-10-23 东南大学 一种基于深度学习的数据中心网络流量拼接方法
CN111817971B (zh) * 2020-06-12 2023-03-24 华为技术有限公司 一种基于深度学习的数据中心网络流量拼接方法
CN111669396A (zh) * 2020-06-15 2020-09-15 绍兴文理学院 一种软件定义物联网自学习安全防御方法及系统
CN112367292B (zh) * 2020-10-10 2021-09-03 浙江大学 一种基于深度字典学习的加密流量异常检测方法
CN112367292A (zh) * 2020-10-10 2021-02-12 浙江大学 一种基于深度字典学习的加密流量异常检测方法
CN112381121A (zh) * 2020-10-28 2021-02-19 中国科学院信息工程研究所 一种基于孪生网络的未知类别网络流量的检测与识别方法
CN112968968B (zh) * 2021-02-26 2022-08-19 清华大学 基于无监督聚类的物联网设备流量指纹识别方法和装置
CN112968968A (zh) * 2021-02-26 2021-06-15 清华大学 基于无监督聚类的物联网设备流量指纹识别方法和装置
CN113282552A (zh) * 2021-06-04 2021-08-20 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
CN113282552B (zh) * 2021-06-04 2022-11-22 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
CN113569930A (zh) * 2021-07-15 2021-10-29 南京逸智网络空间技术创新研究院有限公司 一种基于磁场数据侧信道分析的智能设备应用识别方法
CN115913971A (zh) * 2022-03-09 2023-04-04 中国人民解放军63891部队 一种网络dna特征表示与提取方法
CN115913971B (zh) * 2022-03-09 2024-05-03 中国人民解放军63891部队 一种网络dna特征表示与提取方法
CN114679308A (zh) * 2022-03-21 2022-06-28 山东大学 一种基于双路自编码的未知流量识别方法及系统

Also Published As

Publication number Publication date
CN111144470B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN111144470B (zh) 一种基于深度自编码器的未知网络流量识别方法及系统
CN110247930B (zh) 一种基于深度神经网络的加密网络流量识别方法
CN113489751B (zh) 一种基于深度学习的网络流量过滤规则转化方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN112104570B (zh) 流量分类方法、装置、计算机设备和存储介质
CN109525508B (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
CN111191767A (zh) 一种基于向量化的恶意流量攻击类型的判断方法
CN105516027B (zh) 应用识别模型建立方法、流量数据的识别方法及装置
CN112491917B (zh) 一种物联网设备未知漏洞识别方法及装置
CN113452672A (zh) 基于协议逆向分析的电力物联网终端流量异常分析方法
CN110704649A (zh) 一种用于构建流量图像数据集的方法及系统
CN114338437B (zh) 网络流量分类方法、装置、电子设备及存储介质
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN116915720B (zh) 物联网设备流量识别方法、系统、电子设备及存储介质
CN113489606A (zh) 一种基于图神经网络的网络应用识别方法及装置
CN115622810A (zh) 一种基于机器学习算法的业务应用识别系统及方法
CN114205151B (zh) 基于多特征融合学习的http/2页面访问流量识别方法
CN113542271B (zh) 基于生成对抗网络gan的网络背景流量生成方法
CN115473734A (zh) 基于单分类和联邦学习的远程代码执行攻击检测方法
CN113904961A (zh) 一种用户行为识别方法、系统、设备及存储介质
CN111401067B (zh) 一种蜜罐仿真数据的生成方法及装置
Bienvenu et al. The Moran forest
CN112968906A (zh) 一种基于多元组的Modbus TCP异常通讯检测方法和系统
CN109246095B (zh) 一种适用于深度学习的通信数据编码方法
CN117041360A (zh) 一种基于自监督学习的网络流独立编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant