CN113326867B - 一种流量检测方法、装置、设备及介质 - Google Patents
一种流量检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113326867B CN113326867B CN202110465153.3A CN202110465153A CN113326867B CN 113326867 B CN113326867 B CN 113326867B CN 202110465153 A CN202110465153 A CN 202110465153A CN 113326867 B CN113326867 B CN 113326867B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- flow
- communication
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000004891 communication Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000013145 classification model Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000011897 real-time detection Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000004065 semiconductor Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 208000008918 voyeurism Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开涉及一种流量检测方法、装置、介质及设备,其中,所述方法包括:对网络流量进行实时抓取,将每个抓取到的流量包输入至流量管道;对从所述流量管道中提取抓获的流量包进行分段,将分段后的通信流输入至通信流管道;对所述通信流管道中的通信流进行特征提取得到特征数据;对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型。与现有方法相比,本公开的方法相比于需要大量标注数据才可以训练完备模型的监督学习不同,降低了训练初期对已标注数据的需求,减少了前期利用专家经验进行标注的时间;本公开的方法提取了更多的加密流量特征,并使用了模型融合的方式,提高了分类器对加密流量的识别率。
Description
技术领域
本公开涉及互联网技术领域,更为具体来说,本公开涉及一种流量检测方法、装置、设备及介质。
背景技术
随着互联网技术的发展和网络应用技术的革新,用户对于网络质量以及安全性等的要求也越来越高。为了保护用户的个人隐私,确保数据传递的目标可以信任、数据传递过程中减少泄漏和被篡改的风险,互联网SP不断引入了HTTPS协议。
根据W3Techs(World Wide Web Technology Surveys)的调查显示,全球已有67.7%的网站选择HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)作为默认协议,且该比率仍然呈上升趋势。根据Google透明度报告“Chrome中的HTTPS加密情况”来看,Chrome加载网页中启用加密通信协议的比例已经达到了95%。虽然HTTPS保护了敏感信息的机密性和完整性,但同时也为恶意加密流量提供了庇护。因而对于加密流量进行检测显得愈发重要。
由于应用层数据被加密,许多网络安全厂商选择了先解密流量再使用基于规则判断的传统方法进行流量检测。这些网络安全检测设备作为通信代理,与通信双方协商密钥,从而拥有解密所有流量的能力。这种方式违背了HTTPS保护信息机密性的初衷,也增加了黑客窥视到流量内容的风险。一种可行且合理的方式是进行网络流量分析。早期的流量分析方法(DPI)依赖于数据包的端口号和内容,一些其他形式的分析方法利用了TLS指纹信息和URL。而这些信息对于检测恶意加密流量显然是不充分的。因此需要提取更多的流量特征帮助进行加密流量的检测。
一些现有的专利提供了使用机器学习进行加密流量检测的方法,此类方法虽然理论上可以实现对加密流量的检测,但是在实际部署的过程中,模型的训练效果会受到已标记数据量的制约。这是因为,流量加密导致对流量内容进行识别变得困难,从而增大了获取标记流量数据的难度。另外,大多数专利仅使用单个模型或者同类型的多个模型进行分类,由于单个模型或者同类型模型对于数据集的视角大多相近,这会导致模型无法尽可能的识别数据集内不同特征间的内在关联,从而丢失了检测准确度。
发明内容
为解决现有技术的分类模型不能满足用户对于流量检测的实际需求的技术问题。
为实现上述技术目的,本公开提供了一种流量检测方法,所述方法包括:
对网络流量进行实时抓取,将每个抓取到的流量包输入至流量管道;
对从所述流量管道中提取抓获的流量包进行分段,将分段后的通信流输入至通信流管道;
对所述通信流管道中的通信流进行特征提取得到特征数据;
对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型;
利用所述流量检测分类模型进行流量检测。
进一步,所述特征提取的过程具体包括:
对每一段通信流,对其在整个通信周期内的TCP层特征、TLS握手阶段的加密套件特征以及TLS证书特征共计三类特征进行特征提取。
进一步,所述TCP层特征具体包括:
标识符特征、TCP通信特征、流量包特征、通信流特征。
进一步,对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型具体包括:
对所述特征数据结合动态更新进行流量检测分类模型训练;
得到最终的流量检测分类模型。
进一步,所述动态更新的过程具体为:
对更新数据集进行数据采样获得未标注数据集;
利用未更新的上一模型进行预测,得到预测标签和置信度数据;
选择其他模型的预测结果置信度大于预设阈值的样本与未更新的上一模型进行训练数据结合;
对数据结合后的模型进行模型训练并获取新得到的模型的置信度数据;
对所述新得到的模型的置信度数据与未更新的上一模型的置信度数据进行比较,选取较优的模型为动态更新后的模型。
进一步,还包括:
对分类模型进行初始化处理得到最初的分类模型。
进一步,所述对分类模型进行初始化处理得到最初的分类模型具体包括:
对所有已标记流量,根据通信双方IP地址、端口号以及通信标识符进行分段,对于单次通信中没有FIN标识符或者RST标识符等通信结束标识符的流量,保留至其他流量处理完毕后进行提取;
对每一段通信流,通过特征提取模块提取TCP层特征、TLS握手阶段的加密套件特征以及TLS证书特征等共计三类特征;
对每一类特征,结合对应标签通过模型训练模块训练得到初始化的融合分类器。
为实现上述技术目的,本公开还能够提供一种流量检测装置,包括:
特征提取模块,用于对所述通信流管道中的通信流进行特征提取得到特征数据;
模型训练模块,用于对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型;
实时检测模块,用于对网络流量进行实时抓取,将每个抓取到的流量包输入至流量管道,以及,
对从所述流量管道中提取抓获的流量包进行分段,将分段后的通信流输入至通信流管道。
为实现上述技术目的,本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的流量检测方法的步骤。
为实现上述技术目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的流量检测方法的步骤。
本公开的有益效果为:
与现有方法相比,本公开的方法有以下优点。第一,相比于需要大量标注数据才可以训练完备模型的监督学习,本公开的方法降低了训练初期对已标注数据的需求,减少了前期利用专家经验进行标注的时间。第二,该系统不断添加新的自标签数据用于动态更新,由于自标签数据的产生遵循各分类器的标记置信度,减少了误标签的概率,因此使用该方法对模型进行优化和更新,能够使模型适应不断出现的新的攻击变种,并且具有较强的鲁棒性。第三,本公开的方法提取了更多的加密流量特征,并使用了模型融合的方式,提高了分类器对加密流量的识别率。
附图说明
图1示出了本公开的实施例1的流程示意图;
图2示出了本公开的实施例1的方法各步骤结构框图;
图3示出了本公开的实施例1的模型训练流程示意图;
图4示出了本公开的实施例1的动态更新过程示意图;
图5示出了本公开的实施例2的结构示意图;
图6示出了本公开的实施例4的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例一:
如图1和图2所示:
一种流量检测方法,所述方法包括:
S101:对网络流量进行实时抓取,将每个抓取到的流量包输入至流量管道;
S102:对从所述流量管道中提取抓获的流量包进行分段,将分段后的通信流输入至通信流管道;
S103:对所述通信流管道中的通信流进行特征提取得到特征数据;
具体地,所述特征提取的过程具体包括:
对每一段通信流,对其在整个通信周期内的TCP层特征、TLS握手阶段的加密套件特征以及TLS证书特征共计三类特征进行特征提取。
所述TCP层特征具体包括:
标识符特征、TCP通信特征、流量包特征、通信流特征。
其中,标识符特征包括FIN标识符数量、STN标识符数量、RST标识符数量、PSH标识符数量、ACK标识符数量、URG标识符数量、ECN标识符数量、正向PSH标识符数量、反向PSH标识符数量、正向URG标识符数量、反向URG标识符数量等共计12个特征。
TCP通信特征包括目标端口号以及通信流持续时长2个特征。
流量包特征包括正向流量包的总数、总长度、最大长度、最小长度、长度均值、长度方差、包头总长度,反向流量包的总数、总长度、最大长度、最小长度、长度均值、长度方差、包头总长度,正向流量包传输速率,反向流量包传输速率,全部流量包长度最小值、最大值、均值、方差、标准差等共计21个特征。
通信流特征包括流量间隔时间均值、方差、最大值、最小值,正向常流量总长度、最大值、最小值、均值、方差,反向流量总长度、最大值、最小值、均值、方差,上传/下载率,流量包传输速率,流量包传输量速率,正常初始化窗口发送字节数,反向初始化窗口发送字节数,正向含有至少1字节有效负载的TCP数据包个数等共计20个特征。
TLS握手阶段的加密套件特征收录了SSLv1.0、SSLv2.0、SSLv3.0、TLS1.0、TLS1.1、TLS1.2所支持的常见加密套件(共计369种加密套件),对于每段通信流里客户端提供的所有加密套件,使用独热编码再整合的方式获取加密套件特征。另外,对于客户端提供的不常见的加密套件,统一定义为other特征进行计数。
假设样本有
TLS_RSA_WITH_CAMELLIA_256_CBC_SHA,TLS_RSA_WITH_NULL_SHA,TLS_RSA_WITH_IDEA_CBC_SHA,TLS_GOSTR341112_256_WITH_MAGMA_MGM_S和TLS_ECDHE_PSK_WITH_AES_128_CCM_SHA256这五个加密套件,前三个加密套件经过独热编码分别得到[0,1,0,…,0],[0,…,0,1,0,…,0],[0,…,0,1,0,0]的特征,由于最后两个加密套件不在常见的加密套件内,则都会被编码为[0,…,0,1]。然后,将这五个加密套件经过编码得到的特征整合,最终得到该样本的加密套件特征[0,1,0,…,0,1,0,…,0,1,0,2]。
TLS证书特征提取了通信流内包含的证书相关特征,包括证书主体(即服务器)的用户名称、组织名称、机构名称、国家、省份、地市,证书签发方(即CA)的用户名称、组织名称、机构名称、国家、省份、地市,证书内提到的服务器公钥长度,证书主体的别名个数,服务器在TLS握手过程中选择的加密套件,证书使用的数字签名算法,加密协议的附加信息和证书有效期(月)等共计18个特征。对于所有的字符型特征,提取不到的则计为None,在提取过后会根据独热编码进行向量化。特别的,None值特征将会被编码为对应维度数量的全0特征;加密协议的附加信息这一特征会对独热编码的结果进行整合获取最终特征。
S104:对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型;
S105:利用所述流量检测分类模型进行流量检测。
如图3所示:
训练融合分类器所需要用到的基础分类器算法和元分类器算法可以选取任意机器学习算法,包括但不限于K-近邻,支持向量机,决策树,多层感知机,随机森林,XGBoost,LGBM,CatBoost等常见机器学习算法。具体的融合分类器的训练过程如下:
输入:
标注数据集L=((xi,li)|1≤i≤m},其中
基础分类器算法集A=(a1,…,an|n≥3},其中a1,…,an为基础分类器算法
元分类器算法M
输出:
融合分类器C
过程:
a)for t=1,2,…,n:
i.利用监督学习方法train训练得到基础分类器ct,ct=train(at,L)
ii.利用分类模型预测方法predict得到Pt,
b)获取新数据集L′={x′i,li)|1≤i≤m},
其中
c)训练得到基融合分类器C,C=train(M,L′)
进一步,对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型具体包括:
对所述特征数据结合动态更新进行流量检测分类模型训练;
得到最终的流量检测分类模型。
进一步,所述动态更新的过程具体为:
对更新数据集进行数据采样获得未标注数据集;
利用未更新的上一模型进行预测,得到预测标签和置信度数据;
选择其他模型的预测结果置信度大于预设阈值的样本与未更新的上一模型进行训练数据结合;
对数据结合后的模型进行模型训练并获取新得到的模型的置信度数据;
对所述新得到的模型的置信度数据与未更新的上一模型的置信度数据进行比较,选取较优的模型为动态更新后的模型。
具体动态更新的过程如图4所示:
在每一个更新周期Tupdate内,利用实时检测模块采集到的未标记数据集U,结合协同训练方法,更新所有的分类器。本发明涉及的协同训练方法,与标准协同训练方法有所不同,在于使用了三视图进行协同训练,因此在数据标注的时候需要使用另外两个视图的共同结果并将标记置信度加入考量。具体更新方式如下:
输入:
·未标注数据集
其中/>
·标记置信度阈值Threshold
·初始化或上一轮更新使用的标记数据集
·分类模型算法A1,A2,A3
·初始化或上一轮更新得到的模型
·初始化或上一轮模型的评价指标
输出:
·训练得到的模型
过程:
a)for a=1,2,3:
i.利用分类模型预测方法predict得到预测结果
ii.利用分类模型预测方法predict_prob得到标记置信度
b)for a=1,2,3:
i.从集合中提取符合条件/>的序号得到样本序列Index,从而得到标注数据集
ii.
iii.利用监督学习方法train训练得到本轮分类器并获得该模型的评价指标/>
iv.
进一步,本公开的实施例一还可以做如下改进:
所述方法还包括:
对分类模型进行初始化处理得到最初的分类模型。
进一步,所述对分类模型进行初始化处理得到最初的分类模型具体包括:
对所有已标记流量,根据通信双方IP地址、端口号以及通信标识符进行分段,对于单次通信中没有FIN标识符或者RST标识符等通信结束标识符的流量,保留至其他流量处理完毕后进行提取;
对每一段通信流,通过特征提取模块提取TCP层特征、TLS握手阶段的加密套件特征以及TLS证书特征等共计三类特征;
对每一类特征,结合对应标签通过模型训练模块训练得到初始化的融合分类器。
本公开的方法与现有方法相比,本公开的方法有以下优点。第一,相比于需要大量标注数据才可以训练完备模型的监督学习不同,本公开的方法降低了训练初期对已标注数据的需求,减少了前期利用专家经验进行标注的时间。第二,该系统不断添加新的自标签数据用于动态更新,由于自标签数据的产生遵循各分类器的标记置信度,减少了误标签的概率,因此使用该方法对模型进行优化和更新,能够使模型适应不断出现的新的攻击变种,并且具有较强的鲁棒性。第三,本公开的方法提取了更多的加密流量特征,并使用了模型融合的方式,提高了分类器对加密流量的识别率。
实施例二:
如图5所示,
本公开还能够提供一种流量检测装置,包括:
特征提取模块201,用于对所述通信流管道中的通信流进行特征提取得到特征数据;
模型训练模块202,用于对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型;
实时检测模块203,用于对网络流量进行实时抓取,将每个抓取到的流量包输入至流量管道,以及,
对从所述流量管道中提取抓获的流量包进行分段,将分段后的通信流输入至通信流管道。
其中,本公开所述特征提取模块201依次与所述模型训练模块202以及所述实时检测模块203相连接。
实施例三:
本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的流量检测方法的步骤。
本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。
半导体存储器,主要用于计算机的半导体存储元件主要有Mos和双极型两种。Mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。NMos和CMos问世后,使Mos存储器在半导体存储器中开始占主要地位。NMos速度快,如英特尔公司的1K位静态随机存储器的存取时间为45ns。而CMos耗电省,4K位的CMos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(RAM),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(ROM)在工作过程中可随机读出但不能写入,它用来存放已固化好的程序和数据。ROM又分为不可改写的熔断丝式只读存储器──PROM和可改写的只读存储器EPROM两种。
磁芯存储器,具有成本低,可靠性高的特点,且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上,存取时间最快为300ns。国际上典型的磁芯存储器容量为4MS~8MB,存取周期为1.0~1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后,磁芯存储器仍然可以作为大容量扩充存储器而得到应用。
磁鼓存储器,一种磁记录的外存储器。由于其信息存取速度快,工作稳定可靠,虽然其容量较小,正逐渐被磁盘存储器所取代,但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要,出现了超小型磁鼓,其体积小、重量轻、可靠性高、使用方便。
磁盘存储器,一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点,即其存储容量较磁鼓容量大,而存取速度则较磁带存储器快,又可脱机贮存,因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。
硬磁盘存储器的品种很多。从结构上,分可换式和固定式两种。可换式磁盘盘片可调换,固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种,又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小,记录密度低存取速度高,但造价高。活动磁头型磁盘记录密度高(可达1000~6250位/英寸),因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节,位密度为每英寸6 250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料,在联机情报检索系统、数据库管理系统中得到广泛应用。
实施例四:
本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的流量检测方法的步骤。
图6为一个实施例中电子设备的内部结构示意图。如图6所示,该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种流量检测方法。该电设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种流量检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (8)
1.一种流量检测方法,其特征在于,所述方法包括:
对网络流量进行实时抓取,将每个抓取到的流量包输入至流量管道;
对从所述流量管道中提取抓获的流量包进行分段,将分段后的通信流输入至通信流管道;
对所述通信流管道中的通信流进行特征提取得到特征数据;
对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型;
对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型具体包括:
对所述特征数据结合动态更新进行流量检测分类模型训练;
得到最终的流量检测分类模型;
所述动态更新的过程具体为:
对更新数据集进行数据采样获得未标注数据集;
利用未更新的上一模型进行预测,得到预测标签和置信度数据;
选择其他模型预测结果相同并且置信度大于预设阈值的样本与上一模型的训练数据结合获得当前模型的训练数据;
对数据结合后的模型进行模型训练并获取新得到的模型的置信度数据;
对所述新得到的模型的置信度数据与未更新的上一模型的置信度数据进行比较,选取较优的模型为动态更新后的模型;
利用所述流量检测分类模型进行流量检测。
2.根据权利要求1所述的方法,其特征在于,所述特征提取的过程具体包括:
对每一段通信流,对其在整个通信周期内的TCP层特征、TLS握手阶段的加密套件特征以及TLS证书特征共计三类特征进行特征提取。
3.根据权利要求2所述的方法,其特征在于,所述TCP层特征具体包括:
标识符特征、TCP通信特征、流量包特征、通信流特征。
4.根据权利要求1所述的方法,其特征在于,还包括:
对分类模型进行初始化处理得到最初的分类模型。
5.根据权利要求4所述的方法,其特征在于,所述对分类模型进行初始化处理得到最初的分类模型具体包括:
对所有已标记流量,根据通信双方IP地址、端口号以及通信标识符进行分段,对于单次通信中没有FIN标识符或者RST标识符通信结束标识符的流量,保留至其他流量处理完毕后进行提取;
对每一段通信流,通过特征提取模块提取TCP层特征、TLS握手阶段的加密套件特征以及TLS证书特征共计三类特征;
对每一类特征,结合对应标签通过模型初始化模块训练得到初始化的融合分类器。
6.一种流量检测装置,其特征在于,包括:
特征提取模块,用于对通信流管道中的通信流进行特征提取得到特征数据;
模型训练模块,用于对所述特征数据进行流量检测分类模型训练得到最终的流量检测分类模型;
模型训练模块具体用于:
对所述特征数据结合动态更新进行流量检测分类模型训练;
得到最终的流量检测分类模型;
所述动态更新的过程具体为:
对更新数据集进行数据采样获得未标注数据集;
利用未更新的上一模型进行预测,得到预测标签和置信度数据;
选择其他模型预测结果相同并且置信度大于预设阈值的样本与上一模型的训练数据结合获得当前模型的训练数据;
对数据结合后的模型进行模型训练并获取新得到的模型的置信度数据;
对所述新得到的模型的置信度数据与未更新的上一模型的置信度数据进行比较,选取较优的模型为动态更新后的模型;
实时检测模块,用于对网络流量进行实时抓取,将每个抓取到的流量包输入至流量管道,以及,
对从所述流量管道中提取抓获的流量包进行分段,将分段后的通信流输入至通信流管道。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现权利要求1~5任一项中所述的流量检测方法对应的步骤。
8.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时用于实现权利要求1~5任一项中所述的流量检测方法对应的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465153.3A CN113326867B (zh) | 2021-04-23 | 2021-04-23 | 一种流量检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465153.3A CN113326867B (zh) | 2021-04-23 | 2021-04-23 | 一种流量检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326867A CN113326867A (zh) | 2021-08-31 |
CN113326867B true CN113326867B (zh) | 2023-09-22 |
Family
ID=77413854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110465153.3A Active CN113326867B (zh) | 2021-04-23 | 2021-04-23 | 一种流量检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326867B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143037B (zh) * | 2021-11-05 | 2022-10-11 | 山东省计算中心(国家超级计算济南中心) | 一种基于进程行为分析的恶意加密信道检测方法 |
CN114095446B (zh) * | 2021-11-10 | 2023-10-13 | 北京天融信网络安全技术有限公司 | 一种加密流量分类模型训练方法、检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
CN109936578A (zh) * | 2019-03-21 | 2019-06-25 | 西安电子科技大学 | 一种面向网络中https隧道流量的检测方法 |
CN111310658A (zh) * | 2020-02-14 | 2020-06-19 | 北京海益同展信息科技有限公司 | 一种动作模式识别模型的更新方法和装置 |
CN112347769A (zh) * | 2020-10-30 | 2021-02-09 | 北京百度网讯科技有限公司 | 实体识别模型的生成方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460599B2 (en) * | 2015-04-08 | 2019-10-29 | Here Global B.V. | Method and apparatus for providing model selection for traffic prediction |
-
2021
- 2021-04-23 CN CN202110465153.3A patent/CN113326867B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
CN109936578A (zh) * | 2019-03-21 | 2019-06-25 | 西安电子科技大学 | 一种面向网络中https隧道流量的检测方法 |
CN111310658A (zh) * | 2020-02-14 | 2020-06-19 | 北京海益同展信息科技有限公司 | 一种动作模式识别模型的更新方法和装置 |
CN112347769A (zh) * | 2020-10-30 | 2021-02-09 | 北京百度网讯科技有限公司 | 实体识别模型的生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113326867A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326867B (zh) | 一种流量检测方法、装置、设备及介质 | |
TW201926106A (zh) | 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備 | |
Dai et al. | SMASH: A malware detection method based on multi-feature ensemble learning | |
CN110855648B (zh) | 一种网络攻击的预警控制方法及装置 | |
CN114973351B (zh) | 人脸识别方法、装置、设备及存储介质 | |
WO2023061304A1 (zh) | 一种基于大数据的威胁情报预警文本分析方法及系统 | |
CN116010947A (zh) | 一种基于异质网络的Android恶意软件检测方法 | |
Hu et al. | A deep subdomain adaptation network with attention mechanism for malware variant traffic identification at an iot edge gateway | |
Han et al. | CloudDLP: Transparent and scalable data sanitization for browser-based cloud storage | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN113609479A (zh) | 一种文件检测的方法、装置、电子设备及可读存储介质 | |
Chen et al. | Client-aware cloud storage | |
CN115001768A (zh) | 基于区块链的数据交互方法、装置、设备及存储介质 | |
CN114513355A (zh) | 恶意域名检测方法、装置、设备及存储介质 | |
Wang et al. | My brother helps me: node injection based adversarial attack on social bot detection | |
CN112995222B (zh) | 一种网络检测方法、装置、设备及介质 | |
CN108009233B (zh) | 一种图像还原方法、装置、计算机设备及存储介质 | |
Kayabaş et al. | Cyber wars and cyber threats against mobile devices: Analysis of mobile devices | |
CN112995063B (zh) | 一种流量监测方法、装置、设备及介质 | |
Chen et al. | Detection Method of Hardware Trojan Based on Attention Mechanism and Residual-Dense-Block under the Markov Transition Field | |
KR102400767B1 (ko) | 다크웹 문서 분류를 수행하기 위한 인공지능 모델의 학습 데이터 수집 및 전처리 방법 | |
Kumari | An overview on advanced multimedia forensic techniques and future direction | |
CN115118491B (zh) | 僵尸网络检测的方法、装置、电子设备及可读存储介质 | |
CN112711768B (zh) | 一种基于人工智能的核心数据轨迹画像生成方法及系统 | |
CN116318985B (zh) | 一种基于大数据的计算机网络安全预警系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |