CN115378850B - 一种基于Sketch的加密流量在线分析方法及系统 - Google Patents
一种基于Sketch的加密流量在线分析方法及系统 Download PDFInfo
- Publication number
- CN115378850B CN115378850B CN202211053892.2A CN202211053892A CN115378850B CN 115378850 B CN115378850 B CN 115378850B CN 202211053892 A CN202211053892 A CN 202211053892A CN 115378850 B CN115378850 B CN 115378850B
- Authority
- CN
- China
- Prior art keywords
- flow
- stream
- information
- sketch
- streams
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 230000002688 persistence Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 238000005259 measurement Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 238000005206 flow analysis Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 11
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于Sketch的加密流量在线分析方法及系统,属于网络安全技术领域。包括采集原始网络流量数据;提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间,过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息。能够低内存占用和高处理速度的前提下实现对加密流量较为可靠的在线识别分析,解决了现有技术中存在“算力占用高、内存占用大、处理速度慢和难以在线识别”的问题。
Description
技术领域
本申请涉及网络安全技术领域,特别是涉及一种基于Sketch的加密流量在线分析方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
流量分析与识别是改善网络服务质量和维护网络空间安全的基础之一,但是随着网络中加密通信流量占比的不断升高,原有的基于内容检测的方法不再奏效,实现快速准确的加密流量分析识别愈发困难。研究表明,2020年以来,网络中加密流量的占比已经达到80%以上。为了维持绿色健康的网络空间,加密流量分析识别成为近年来学术界和工业界的研究热点。
由于动态端口和端口伪装等技术的使用,传统基于端口的识别方法失效,现有流量分析识别方法大致可分为两种,分别是:基于内容的识别方法和不基于内容的识别方法。
基于内容的识别方法(如深度包检测技术)需要检测每个数据包中的内容,并将其与提前建好的指纹库做匹配,以完成识别。这种方式效率较低,且不适用于加密流量识别。
不基于内容的识别方法(如利用流统计信息)虽然在加密流量识别准确率上有不错的效果,但是机器学习模型的训练需要使用大量数据样本,其中深度学习模型的训练更是需要大量算力。此外,模型内存占用较大,很难用于在线分析与识别。
综上所述,当前对于流量分析识别的研究仍存在以下不足:随着加密技术的普及,传统方法逐渐失效;而新兴方法也存在着算力占用高、内存占用大、处理速度慢和难以在线识别等缺陷。
发明内容
为了解决现有技术的不足,本申请提供了一种基于Sketch的加密流量在线分析方法及系统,首先对网络流量进行采集并提取数据包的统计特征,然后利用Sketch对流进行周期性度量并按照流的持续时间和频数划分重要程度,最后保留重要程度较高的流中前K个包的统计信息并剔除重要程度较低的流,能够在低内存占用和高处理速度的前提下实现对加密流量较为可靠的在线识别分析。
第一方面,本申请提供了一种基于Sketch的加密流量在线分析方法;
一种基于Sketch的加密流量在线分析方法,,包括:
采集原始网络流量数据;
提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间,过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;
根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息。
第二方面,本申请提供了一种基于Sketch的加密流量在线分析系统;
一种基于Sketch的加密流量在线分析系统,包括:
流量采集模块,用于采集原始网络流量数据;
流量清洗模块,用于提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间,过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;
流量分析模块,根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息。
第三方面,本申请提供了一种电子设备;
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述基于Sketch的加密流量在线分析方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质;
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述基于Sketch的加密流量在线分析方法的步骤。
与现有技术相比,本申请的有益效果是:
本申请提供了一种基于Sketch的加密流量在线分析方法及系统。首先,本申请实现了对网络流量的在线捕获与分析;其次,本申请根据网络流量的统计特征进行压缩存储避免了保存网络流量的大量原始数据,极大地降低了内存占用;另外,由于仅使用流的统计特征,本申请同样适用于加密流量;并且,本申请利用Sketch数据结构,既能够满足在线测量的需求,也能够对网络流量进行周期性测量;最后,本申请按照流的频度和持久度对其进行重要程度划分,并保存重要的流前K个包的信息,减少内存占用,提高处理速度。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本申请实施例提供的基于Sketch的加密流量在线分析方法的流程示意图;
图2为本申请实施例提供的基于Sketch的加密流量在线分析系统的系统框架示意图;
图3为本申请实施例提供的Sketch数据结构的结构示意图;
图4为本申请实施例提供的Sketch数据结构更新操作的流程示意图;
图5为本申请实施例提供的Sketch数据结构中时钟扫描模块的操作流程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
现有技术中,随着加密技术的普及,传统方法逐渐失效;而新兴方法也存在着算力占用高、内存占用大、处理速度慢和难以在线识别等缺陷;Sketch是一种高效且具有稳定误差边界的数据结构,利用哈希策略以远少于原始数据的空间开销和极低的时间开销存储尽可能多且正确的原始数据统计信息。通过设计使用Sketch的方法,实现低开销、高效和可靠的加密流量在线识别。因此,本申请提供了一种基于Sketch的加密流量在线分析方法。
一种基于Sketch的加密流量在线分析方法,包括:
采集原始网络流量数据;
提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间,过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;
根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息。
进一步的,计算流ID之后还包括:
根据流ID,判断该流是否为新流;
若为新流,保存该流ID、五元组信息和到达时间。
进一步的,根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度包括:
对流进行周期性度量;
根据流的流频度和流持久度对流进行重要程度划分。
进一步的,流频度为一个流在其所有出现过的周期中,周期内频数符合给定区间的程度;
流持久度为一个流的持续程度。
进一步的,Sketch数据结构包括位数组、二维数组桶、时钟扫描模块、重要性度量函数和超参数;位数组用于判断是否满流,二维数组桶用于存储流内数据包的负载大小和到达时间以及流的ID、负载大小、频度和持久度,时钟扫描模块用于对流进行周期性度量,重要性度量函数用于根据流频度和流持久度获取流的重要程度,超参数用于维持对流进行周期性度量。
进一步的,根据采集流量的需求,设置是否使用捕获过滤器和/或远程捕获。
进一步的,负载大小为数据包传输层有效负载的大小,到达时间为数据包被网络设备记录在其存储介质上时网络设备的内核时间,五元组信息包括数据包的源IP地址、源端口、目的IP地址、目的端口和协议类型信息。
接下来,结合图1-5对本实施例公开的一种基于Sketch的加密流量在线分析方法进行详细说明。
本实施例提供了一种基于Sketch的加密流量在线分析方法。
一种基于Sketch的加密流量在线分析方法,包括:
S1、采集原始网络流量数据;具体步骤包括:
S101、根据采集原始网络流量的需求,对捕获过滤器进行合理设置以实现对流量的精准捕获,基于类型、传输方向、协议和数据等方式进行流量过滤;其中,捕获过滤器的语法表达式为:{<协议><方向><主机><值><逻辑运算><其他表达式>},各字段作用及可选值如表1所示。
表1:过滤器表达式字段介绍
S102、使用远程捕获,捕获远程网络设备的流量,将流量采集端与分析端分离,减少系统负载。具体的,建立需要捕获设备和被捕获设备的网络连接并保持,在被捕获网络设备运行rpcapd.exe应用程序(WinPcap远程捕获服务端程序)以实现向捕获设备传输捕获流量数据;建立连接后,在捕获设备设置被捕获设备的IP地址、用户名及对应密码以实现远程捕获。
S103、根据目标网卡的标识符,列出并选择捕获主机网卡,完成对目标网卡的绑定;其中,网卡由标识符唯一确定,不同网卡标识符不同,标识符格式为:{FFFFFFFF-FFFF-FFFF-FFFF-FFFFFFFFFFFF}。
S104、开始采集流量,原始网络流量数据首先到达WinPcap的NPF(NetgroupPacket Filter,网络组包过滤器)的内核缓冲区,当缓冲区满时,以回调函数的形式被传入用户态缓冲区异步处理。
S2、提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间;过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;其中,负载大小为数据包传输层有效负载的大小,到达时间为数据包被网络设备记录在其存储介质上时网络设备的内核时间,五元组信息包括数据包的源IP地址、源端口、目的IP地址、目的端口和协议类型信息;第一阈值根据任务需求和经验设置;具体步骤包括:
S201、获取数据包的到达时间及数据包总长度信息;按照以太网数据帧格式解析数据包的数据链路层头部信息,解析数据包的网络层信息,获取数据包的源IP地址、目的IP地址和传输层协议类型信息,并获取IP数据报首部长度及包括其有效负载在内的总长度以计算负载大小;若网卡开启了GRO(Generic Receive Offload,通用接收卸载)功能,则会将多个对端发送时分片的TCP数据包在网卡中提前聚合后再传入NPF内核缓冲区,此时IP数据报总长度字段为0,使用数据包总长度信息代替其计算负载大小。
S202、解析数据包的传输层信息,获取源端口、目的端口和传输层首部长度信息,过滤负载大小小于第一阈值的数据包,五元组信息相同的数据包即为一个流,使用散列函数算法XXhash对数据包五元组信息进行散列,以生成六十四位长的无符号整型作为流ID;其中,第一阈值根据任务需求和经验设置。
S203、将流ID映射到大小为N1的位数组,若其对应比特位为0,则证明其之前未出现过,将五元组信息和到达时间存入结构化日志文件,并将其对应比特位置为1;若其对应比特位为1,则不记录。
S3、根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息;其中,流的信息包括流ID、五元组信息、流重要程度和统计特征信息,统计特征信息包括但不限于负载大小和到达时间;第二阈值根据任务需求和经验设置;
具体的,Sketch数据结构包括一个大小为N1的位数组、一个大小为N2行d列的二维数组桶、一个时钟扫描模块、一个重要性度量函数以及一系列用于维持对流进行周期性度量的超参数(周期大小、周期内频数下限、周期内频数上限);其中,二维数组桶中包含两个大小为K的数组和6个计数器,数组用于存储流中前K个包的负载大小和到达时间信息,计数器分别用于存储一个流的ID、大小、频度、持久度、在当前周期内出现的频数以及是否在当前周期出现过的标志位,流频度和持久度初始值为100,其余计数器和数组初始值为0;位数组用于判断到达流是否为满流,初始值同样为0;时钟扫描模块用于维持对流的周期性度量,在一个周期内扫描二维数组中所有桶,并对当前周期内未出现过的流持久度降低;重要性度量函数是关于流频度和持久度的函数,函数公式为:重要程度=α×流频度+β×流持久度,其中α和β可以根据测量任务的需要在区间[-1,1]内作相应调整;Sketch数据结构如图3所示,Sketch更新操作流程如图4所示,各字段作用及含义如表2所示;
表2:Sketch二维数组桶内元素介绍
元素名称 | 作用及含义 |
流ID | 唯一标识一条网络数据流 |
流大小 | 记录流中数据包的个数 |
频度 | 表示此流的出现频率与预定目标区间的符合程度 |
持久度 | 表示此流出现的持久程度 |
周期内频数 | 记录此流在一个周期内出现的次数 |
标志位 | 标记此流是否在当前周期出现过 |
负载大小数组 | 记录此流前K个包的负载大小信息 |
到达时间数组 | 记录此流前K个包的到达时间信息 |
具体步骤包括:
S301、使用时钟扫描模块以恒定速率对二维数组桶中所有桶进行逐个扫描,并保证一个周期内刚好扫描完所有桶。当指针指向一个桶时,若桶内存在流且标志位为0,则对流持久度进行衰减;若桶内存在流且标志位为1,则对流持久度进行递增,后令标志位为0,意味着当前桶在当前周期的结束与新周期的开始;时钟扫描操作如图5所示,在周期性度量的同时执行步骤S302-S306。
S302、当流到达时,首先将流ID通过哈希函数H1(ID)=ID%N1映射到位数组的某一位置,若对应比特位为1,则证明该流为满流,不执行任何操作,否则,执行步骤S303。
S303、将流ID通过哈希函数H2(ID)=ID%N2映射到二维数组桶的某一行,若二维数组桶的对应行中存在该流,则执行步骤S304,更新桶中该流的信息;若二维数组桶的对应行中不存在该流,且该行存在空桶,则将该流插入空桶;若二维数组桶的对应行中不存在该流,且该行不存在空桶,则将该行中重要程度最小且小于初始值的流剔除,并将新流插入对应位置;否则,则将流丢弃,执行步骤S305。
S304、当插入的对应桶中存在该流时,首先将该流的到达时间和负载大小记录入桶中的数组内;其次,桶中的流大小计数器加1;最后,若标志位为0,则检查周期内频数计数器,若频数在下限与上限的区间内,则令流频度计数器递增;若频数小于下限,则令流频度计数器递减,并将周期内频数和标志位置为1;若标志位为1,则令周期内频数加1,若周期内频数大于上限,则令流频度计数器递减,插入完成。
S305、若插入后流满,则将位数组对应比特位置为1,并执行步骤S306;
S306、计算满流的重要程度,若满流的重要程度大于第二阈值,则将流信息记录入结构化日志文件;其中,根据重要性度量函数:重要程度=α×流频度+β×流持久度,计算重要程度;流频度指的是一个流在其所有出现过的周期中,周期内频数符合给定区间(下限≤流频度<上限)的程度,频度越大表示此流在其所有周期中出现的频数越符合预定目标流;流持久度指的是一个流的持续程度,持久度越大表示此流出现过的周期数越多,即越持久。
实施例二
本实施例公开了一种基于Sketch的加密流量在线分析系统,包括:
流量采集模块,用于采集原始网络流量数据;
流量清洗模块,用于提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间;过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;
流量分析模块,用于根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息。
此处需要说明的是,上述流量采集模块、流量清洗模块和流量分析模块对应于实施例一中的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本发明实施例三提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,计算机指令被处理器运行时,完成上述基于Sketch的加密流量在线分析方法的步骤。
实施例四
本发明实施例四提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述基于Sketch的加密流量在线分析方法的步骤。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (7)
1.一种基于Sketch的加密流量在线分析方法,其特征是,包括:
采集原始网络流量数据;
提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间;根据负载大小,过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;
根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息;具体包括:
对流进行周期性度量;
根据流的流频度和流持久度对流进行重要程度划分;
其中,所述流频度为一个流在其所有出现过的周期中,周期内频数符合给定区间的程度;
所述流持久度为一个流的持续程度;
所述Sketch数据结构包括位数组、二维数组桶、时钟扫描模块、重要性度量函数和超参数;所述位数组用于判断是否满流,所述二维数组桶用于存储流内数据包的负载大小和到达时间以及流的ID、负载大小、频度和持久度,所述时钟扫描模块用于对流进行周期性度量,所述重要性度量函数用于根据流频度和流持久度获取流的重要程度,所述超参数用于维持对流进行周期性度量。
2.如权利要求1所述的基于Sketch的加密流量在线分析方法,其特征是,计算流ID之后还包括:根据流ID,判断该流是否为新流;
若为新流,保存该流ID、五元组信息和到达时间。
3.如权利要求1所述的基于Sketch的加密流量在线分析方法,其特征是,根据采集流量的需求,设置是否使用捕获过滤器和/或远程捕获。
4.如权利要求1所述的基于Sketch的加密流量在线分析方法,其特征是,所述负载大小为数据包传输层有效负载的大小,所述到达时间为数据包被网络设备记录在其存储介质上时网络设备的内核时间,所述五元组信息包括数据包的源IP地址、源端口、目的IP地址、目的端口和协议类型信息。
5.一种基于Sketch的加密流量在线分析系统,其特征是,包括:
流量采集模块,用于采集原始网络流量数据;
流量清洗模块,用于提取原始网络流量数据的五元组信息及统计特征信息,统计特征信息包括负载大小和到达时间;过滤负载大小小于第一阈值的数据包;根据五元组信息,获取流,计算流ID;
流量分析模块,用于根据流的统计特征信息,利用Sketch数据结构对流进行粗粒度识别,划分流的重要程度,保留重要程度超过第二阈值的流的信息;
其中,所述流频度为一个流在其所有出现过的周期中,周期内频数符合给定区间的程度;
所述流持久度为一个流的持续程度;
所述Sketch数据结构包括位数组、二维数组桶、时钟扫描模块、重要性度量函数和超参数;所述位数组用于判断是否满流,所述二维数组桶用于存储流内数据包的负载大小和到达时间以及流的ID、负载大小、频度和持久度,所述时钟扫描模块用于对流进行周期性度量,所述重要性度量函数用于根据流频度和流持久度获取流的重要程度,所述超参数用于维持对流进行周期性度量。
6.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211053892.2A CN115378850B (zh) | 2022-08-31 | 2022-08-31 | 一种基于Sketch的加密流量在线分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211053892.2A CN115378850B (zh) | 2022-08-31 | 2022-08-31 | 一种基于Sketch的加密流量在线分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115378850A CN115378850A (zh) | 2022-11-22 |
CN115378850B true CN115378850B (zh) | 2023-10-31 |
Family
ID=84070579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211053892.2A Active CN115378850B (zh) | 2022-08-31 | 2022-08-31 | 一种基于Sketch的加密流量在线分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115378850B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110049061A (zh) * | 2019-04-29 | 2019-07-23 | 南京邮电大学 | 高速网络上轻量级DDoS攻击检测装置及检测方法 |
CN113079176A (zh) * | 2021-04-14 | 2021-07-06 | 西安交通大学 | 一种适用于海量数据的高速网络流量异常检测系统 |
CN113542195A (zh) * | 2020-04-16 | 2021-10-22 | 北京观成科技有限公司 | 一种恶意加密流量的检测方法、系统和设备 |
CN113965492A (zh) * | 2020-07-03 | 2022-01-21 | 华为技术有限公司 | 一种数据流统计方法及装置 |
CN114037009A (zh) * | 2021-11-05 | 2022-02-11 | 国网江苏省电力有限公司常州供电分公司 | 一种基于时空统计的ip地址画像方法 |
CN114205253A (zh) * | 2021-12-15 | 2022-03-18 | 长沙理工大学 | 一种基于小流过滤的活跃大流精确检测架构及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7929534B2 (en) * | 2004-06-28 | 2011-04-19 | Riverbed Technology, Inc. | Flow logging for connection-based anomaly detection |
-
2022
- 2022-08-31 CN CN202211053892.2A patent/CN115378850B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110049061A (zh) * | 2019-04-29 | 2019-07-23 | 南京邮电大学 | 高速网络上轻量级DDoS攻击检测装置及检测方法 |
CN113542195A (zh) * | 2020-04-16 | 2021-10-22 | 北京观成科技有限公司 | 一种恶意加密流量的检测方法、系统和设备 |
CN113965492A (zh) * | 2020-07-03 | 2022-01-21 | 华为技术有限公司 | 一种数据流统计方法及装置 |
CN113079176A (zh) * | 2021-04-14 | 2021-07-06 | 西安交通大学 | 一种适用于海量数据的高速网络流量异常检测系统 |
CN114037009A (zh) * | 2021-11-05 | 2022-02-11 | 国网江苏省电力有限公司常州供电分公司 | 一种基于时空统计的ip地址画像方法 |
CN114205253A (zh) * | 2021-12-15 | 2022-03-18 | 长沙理工大学 | 一种基于小流过滤的活跃大流精确检测架构及方法 |
Non-Patent Citations (1)
Title |
---|
互联网流采样技术综述;赵小欢;小型微型计算机系统(第08期);第41-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115378850A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10652265B2 (en) | Method and apparatus for network forensics compression and storage | |
US8510830B2 (en) | Method and apparatus for efficient netflow data analysis | |
CN111385297B (zh) | 无线设备指纹识别方法、系统、设备及可读存储介质 | |
KR102476126B1 (ko) | 고속 분석을 위한 네트워크 트래픽 준비 시스템 | |
EP3282643B1 (en) | Method and apparatus of estimating conversation in a distributed netflow environment | |
CN112804123B (zh) | 一种用于调度数据网的网络协议识别方法及系统 | |
CN112434039A (zh) | 数据的存储方法、装置、存储介质以及电子装置 | |
CN109275045B (zh) | 基于dfi的移动端加密视频广告流量识别方法 | |
US8782092B2 (en) | Method and apparatus for streaming netflow data analysis | |
CN107393308A (zh) | 一种识别车牌的方法、装置及停车场管理系统 | |
CN110149247B (zh) | 一种网络状态的检测方法及装置 | |
CN104657747A (zh) | 一种基于统计特征的网络游戏流分类方法 | |
CN115378850B (zh) | 一种基于Sketch的加密流量在线分析方法及系统 | |
CN110995770B (zh) | 一种模糊测试应用效果对比方法 | |
CN103532779A (zh) | 一种快速定位分流设备丢包的方法及系统 | |
CN109842511B (zh) | 一种tcp性能参数的确定方法及系统 | |
CN111211939A (zh) | 一种基于网络处理器实现流表高效计数的装置和方法 | |
CN113079176B (zh) | 一种适用于海量数据的高速网络流量异常检测系统 | |
CN110620766B (zh) | 一种提取加密网络流量中tls数据块的方法 | |
CN111680286B (zh) | 物联网设备指纹库的精细化方法 | |
CN110493368B (zh) | 设备标识的匹配方法及装置 | |
CN112468608A (zh) | 一种基于mac地址识别设备型号的方法及系统 | |
CN117729054B (zh) | 一种基于全流量存储的vpn流量识别方法和系统 | |
CN112565821B (zh) | 数据处理方法、装置、安全网关及存储设备 | |
CN113421592B (zh) | 篡改音频的检测方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |