CN114866301B - 基于直推图的加密流量识别与分类方法及系统 - Google Patents

基于直推图的加密流量识别与分类方法及系统 Download PDF

Info

Publication number
CN114866301B
CN114866301B CN202210440703.0A CN202210440703A CN114866301B CN 114866301 B CN114866301 B CN 114866301B CN 202210440703 A CN202210440703 A CN 202210440703A CN 114866301 B CN114866301 B CN 114866301B
Authority
CN
China
Prior art keywords
nodes
direct
graph
network
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210440703.0A
Other languages
English (en)
Other versions
CN114866301A (zh
Inventor
张晓宇
李文灏
刘峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202210440703.0A priority Critical patent/CN114866301B/zh
Publication of CN114866301A publication Critical patent/CN114866301A/zh
Application granted granted Critical
Publication of CN114866301B publication Critical patent/CN114866301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于直推图的加密流量识别与分类方法及系统。本方法包括:首先,收集已知网络环境下已知类别的加密流量数据与跨网环境下未知标签信息的加密流量数据;然后,收集到的网络流量数据分割为单个网络会话;聚合具有相同地址信息的会话,形成会话簇集合;然后,以会话簇集合中的会话簇为结点单位,计算结点之间的特征相似度,构建结点之间的关系边;以结点信息与结点之间的关系边构建直推图;然后,通过迭代的“聚合扩散”的图推理算法预测未知结点的类别信息。本发明可以在网络流量训练样本多样性不足的情况下,高效稳定地识别与分类通用网络下收集的网络应用流量,并识别出训练集合中未包含的新类网络应用流量数据。

Description

基于直推图的加密流量识别与分类方法及系统
技术领域
本发明属于网络流量管理领域,涉及加密网络流量识别和分类技术,具体涉及一种基于直推图的加密流量识别与分类方法及系统。
背景技术
加密流量识别和分类技术是网络流量管理技术的主要分支之一。该技术通过收集不同网络应用产生的流量数据,建立对不同类别网络应用流量的识别模型,以识别和分类待测流量归属的网络应用。随着对称加密与非对称加密体系的逐渐成熟,网络流量普遍采用标准的TLS/SSL加密技术进行数据加密,这使得原本以明文传输的数据变得不透明,传统的基于深度包检测的网络流量检测与分类方法不再适用于当前的应用场景。新型的加密流量分类技术借鉴机器学习与深度学习强大的表征能力,使用加密流量的侧信道特征作为训练样本建立加密网络流量的识别与分类模型。这类新型的加密流量分类技术提取加密网络会话的统计特征或时序特征等,包括会话包大小,频率分布,时间序列等侧信道信息,作为会话的表征向量,学习不同网络应用流量的特征分布,以识别和分类不同应用的加密流量。
由于侧信道信息与学习模型的局限性,目前主流的智能加密流量识别分类技术并不能很好地应用于实际部署。目前的加密流量识别与分类技术的训练用料是加密流量的侧信道信息,在不同网络环境下的侧信道信息是不稳定的,这导致了模型学习到的单一分布无法适应收到扰动的侧信道特征分布。目前的加密流量识别与分类模型的训练和测试方法是——在已知的单一网络环境下初始化模型,初始化后的模型在不同的网络环境下部署测试,这同样导致了模型学习到的单一分布无法适应收到扰动的侧信道特征分布。因此,新型智能加密流量识别和分类技术存在着以下难以解决的挑战:由于网络拓扑架构的复杂性与不确定性,目前的加密流量识别与分类技术无法保证稳定的普适性。不同网络环境下,由于存在不可预知的网络波动,网络延迟,网络带宽与拓扑结构,来自同一网络应用的加密流量在同组特征向量下的特征分布容易受到干扰,不稳定的特征分布使得目前的在单一网络下初始化的加密流量识别与分类模型无法达到稳定的识别和分类效果。
发明内容
本发明的目的在于提供一种基于直推图的加密流量识别与分类方法,重点利用设计的直推图推理算法,将已知标签的加密流量簇结点的标签信息扩散到未知标签的加密流量簇结点,从而分类待测加密流量所属的网络应用。
本发明采用的技术方案如下:
一种基于直推图的加密流量识别与分类方法,包括以下步骤:
对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;
通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;
对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
进一步地,上述基于直推图的加密流量识别与分类方法,包括加密流量直推图的构建算法和基于直推图的迭代“聚合扩散”图推理算法。通过加密流量直推图的构建算法构建加密流量直推图,通过基于直推图的迭代“聚合扩散”图推理算法将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
进一步地,所述加密流量直推图的构建算法包括以下步骤:
首先,将网络流量捕获器在不同的网络环境下部署,收集来自不同网络环境下不同网络应用产生的加密流量数据;然后,使用预定义的五元组作为键值分别将不同网络环境下的流量数据以会话为单位分割;对于不同网络环境下的网络会话集合,将具有相同地址特征的网络会话聚合,形成多个网络会话簇结点集合;将已知类别标签的结点集合与其他未知类别标签的结点集合合并,得到完整的结点集合;计算结点之间的特征相似度,构建结点之间的关系边,形成初始化的加密流量直推图;对于直推图中的跨域结点,修正其真实的类别信息,更新初始化的直推图。
进一步地,所述基于直推图的迭代“聚合扩散”图推理算法包括以下步骤:
在每一轮推理中,对直推图中已知标签的加密流量簇结点使用“聚合”算法,所述“聚合”算法包括:对于已知类别标签的结点的具有相同类别标签的邻接结点,以关系边为权重系数,向中心结点聚合特征信息,遍历所有已知标签的结点后,更新已知类别标签与邻接结点的关系边权重,以强化具有同类别标签结点之间的关系边权重,并弱化具有不同类别标签结点之间的关系边权重;
对直推图中未知类别标签的加密流量簇结点使用“扩散”算法,所述“扩散”算法包括:对于未知类别标签的待测结点,使用其邻接的具有已知类别标签的结点以关系边权重加权,计算每一个类别对该待测结点的影响置信度;选取高于判别阈值的最高影响置信度代表的类别标签,作为该待测结点的预测类别,然后将该已预测类别的结点加入到已知类别标签的结点集合中;对于最高影响置信度低于判别阈值的结点,不作预测;直到直推图中所有未知类别标签的结点完成类别标签预测,或者两轮迭代后直推图保持稳定后,基于直推图的迭代“聚合扩散”图推理算法停止;
获得预测的类别标签的待测结点中的网络会话被分类为该结点获得的类别标签,实现加密流量的识别分类任务;直推图中未获得预测的类别标签的待测结点,其包含的网络会话被判定为新类,即未在训练集中出现的网络应用所产生的加密流量会话。
进一步地,在加密流量直推图的构建算法中采用的流量收集技术包括:将网络流量收集器部署在不同的网络环境下的路由结点,其中训练样本通过在可控网络下监控已知网络应用获得,待测的测试样本在未知网络下部署收集。
进一步地,在加密流量直推图的构建算法中采用的流量分片技术包括:对于收集到的加密流量集合,以会话或流等流量计量单位为基本单位进行流量分片。
进一步地,在加密流量直推图的构建算法中采用的网络会话聚合技术包括:对于每一个分片后的会话,提取其会话的网络层目的地址作为地址特征,对于在已知网络下与未知网络下收集的加密流量数据,分别聚合具有相同地址的特征。
以下是网络会话聚合技术的形式化表示:
Figure BDA0003613871820000031
Figure BDA0003613871820000032
Figure BDA0003613871820000033
Figure BDA0003613871820000034
C=Ctrain∪Ctest
其中,
Figure BDA0003613871820000035
是已知的可控网络下聚合的流量会话簇结点集合,其会话标签是已知的;
Figure BDA0003613871820000036
是未知网络下聚合的流量会话簇结点集合,其中会话的标签需要预测。对于已知网络与未知网络下的流量会话,分别通过地址特征提取函数fip提取地址特征,并聚合具有相同地址特征的网络会话;然后,将将两类结点集合合并到总体的结点集合C中。其中,
Figure BDA0003613871820000037
是已知的可控网络中任意一个网络会话,
Figure BDA0003613871820000038
是已知的可控网络中任意两个不同的网络会话;
Figure BDA0003613871820000041
是未知网络中任意一个网络会话,
Figure BDA0003613871820000042
是未知网络中任意两个不同的网络会话;Ctrain是已知的可控网络下聚合的所有簇;Ctest是未知网络中聚合的所有簇。
进一步地,在加密流量直推图的构建算法中采用的关系边构建技术包括:对于总体的结点集合中的每一个结点,计算其与剩余的所有结点之间的特征相似度。其中,对于每一个结点,提取其地址特征、握手特征与域名特征作为其表征向量。通过计算结点之间的多维特征相似度,构建结点之间的关系边。
以下是结点特征的形式化表示:
Figure BDA0003613871820000043
其中,地址特征
Figure BDA0003613871820000044
握手特征
Figure BDA0003613871820000045
与域名特征
Figure BDA0003613871820000046
共同构成结点的特征向量ζi,其中握手特征是指在标准加密的加密流量会话中,加密协商握手时明文的握手信息中的证书特征,域名特征是指在网络会话中包含在流量包之中的域名信息,其中,对于未加密的网络会话,域名特征指在流量包载荷中出现的域名信息,对于加密网络会话,域名特征指在握手信息中证书信息中包含的域名信息。
以下是结点之间关系边构建技术的形式化表示:
Figure BDA0003613871820000047
其中,
Figure BDA0003613871820000048
是计算两个节点之前相似度的函数,γ是结点i与结点j的共同特征,
Figure BDA0003613871820000049
是结点i中,共同特征对应的特征系数,γn是两个结点之间的共同特征的键值,[γn]是键值对应的数量值,n是对应键值序号的下标,key(·)是键值提取函数,提取特征集合中的键值。分别计算两个结点之间每一维特征的相似性,加权求和后构建两个结点之间的关系边。
进一步地,在加密流量直推图的构建算法中,所述初始化的直推图的构建技术包括:得到的结点集合与结点之间关系边的集合,共同构建初始化的直推图。
进一步地,在加密流量直推图的构建算法中采用的跨域结点修正技术包括:已知类别标签信息训练集合中存在跨域请求的结点,其中,所述的跨域请求结点指的是在由跨域流量会话聚合而成的结点,在某些网络应用中捕获的流量会话请求了该网络应用服务器外的资源,从而导致了跨域流量的出现;对于跨域结点,将其原有的错误标签修正为实际请求的网络应用服务器对应的类别标签。
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用图推理迭代算法:该算法是迭代式算法,每一轮迭代包含“聚合”算法与“扩散”算法的两种图推理算法;在每一轮迭代中,首先对直推图使用“聚合”算法,然后对直推图使用“扩散”算法。
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中所述的“聚合”算法:对于已知类别标签的结点的具有相同类别标签的邻接结点,以关系边为权重系数,向中心结点聚合特征信息,遍历所有已知标签的结点后,更新已知类别标签与邻接结点的关系边权重,以强化具有同类别标签结点之间的关系边权重,并弱化具有不同类别标签结点之间的关系边权重。
以下是“聚合”算法的形式化表达:
Figure BDA0003613871820000051
Figure BDA0003613871820000052
Figure BDA0003613871820000053
其中,
Figure BDA0003613871820000054
是第n轮直推图中结点i到结点j的关系边,通过加权求和结点i与相邻结点中的同类结点的关系边,求得结点i与结点j之间的权重系数
Figure BDA0003613871820000055
对于每一个已知类别标签的结点i,在第n轮迭代中,聚合其邻接的同类的K个结点的特征向量,并更新第n轮结点i的特征向量
Figure BDA0003613871820000056
得到第n+1轮结点i的特征向量
Figure BDA0003613871820000057
然后,通过重新计算结点i的特征向量在n+1轮的特征向量与邻接结点的特征向量的关系,更新n+1轮的关系边
Figure BDA0003613871820000058
其中a是相邻结点的下标,σ(·)是计算两个结点相似度的函数。
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中所述的“扩散”算法:对于未知类别标签的待测结点,使用其邻接的具有已知类别标签的结点以关系边权重加权,计算每一个类别对该待测结点的影响置信度,选取高于判别阈值的最高影响置信度代表的类别标签,作为该待测结点的预测类别,然后将该已预测类别的结点加入到已知类别标签的结点集合中,对于最高影响置信度低于判别阈值的结点,不作预测。
以下是“扩散”算法的形式化表达:
Figure BDA0003613871820000059
Figure BDA0003613871820000061
其中,ConVeci是未知类别标签的待测结点的影响置信度向量,长度为训练集中包含的网络应用类别数量N;对于未知类别标签的待测结点i,遍历其邻接的已知类别标签的结点,获取之间的关系边,加权求和对应的每一个类别的影响置信度;然后,选取影响置信度向量ConVeci中最高置信度max(ConVeci);如果最高置信度max(ConVeci)大于判别阈值τ,则对应的下标k所对应的类别标签作为该未知类别标签的结点的预测类别yi;反之,则跳过该未知类别标签的待测结点,不作预测。其中yi是预测类别标签,n是邻接的已知类别标签的结点的数量,
Figure BDA0003613871820000062
是邻接的已知类别标签的结点的关系边权重。
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用的图推理算法迭代终止技术包括:直推图中所有未知类别标签的结点完成类别标签预测,或者两轮迭代后直推图保持稳定后,基于直推图的迭代“聚合扩散”图推理算法停止。
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用的网络会话分类技术包括:对于已被预测的,未知网络下的加密流量簇结点,簇中聚合的待测网络会话被预测为该结点获得的预测类别标签,以实现加密流量的识别与预测。
进一步地,在基于直推图的迭代“聚合扩散”图推理算法中采用的新类识别分类技术包括:直推图中未获得预测类别标签的待测结点,其包含的网络会话被判定为新类,即未在训练集中出现的网络应用所产生的加密流量会话。
一种采用上述方法的基于直推图的加密流量识别与分类系统,包括:
加密流量直推图构建模块,用于采用加密流量直推图的构建算法构建加密流量直推图,包括:对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
图推理模块,用于采用基于直推图的迭代“聚合扩散”图推理算法,将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
利用本发明的方法可以在网络流量训练样本多样性不足的情况下,使用单一网络收集的流量数据作为训练集,高效稳定地识别与分类通用网络下收集的网络应用流量,并识别出训练集合中未包含的新类网络应用流量数据:
1、本发明提出了一种加密网络流量直推图的构建方法,将训练集与测试集网络流量数据以地址特征聚合,构建包含了训练集与测试集结点的直推图。
2、本发明提出了一种基于直推图的加密流量识别与分类算法,配合构建的加密网络流量直推图,迭代的“聚合扩散”图推理算法将训练集中的结点类别标签扩散到测试集中未知类别标签的结点,以实现加密流量的识别和分类。
3、本发明使用了提出的基于直推图的加密流量识别与分类算法,具备识别训练集中未包含的网络应用产生的新类流量的能力。
附图说明
图1是提出的基于直推图的加密流量识别与分类方法的流程图。
图2是提出的基于直推图的迭代“聚合扩散”图推理算法中所述的“聚合扩散”图推理算法的示意图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提供的基于直推图的加密流量识别与分类算法,适用于准确稳定地识别和分类不同网络应用产生的加密流量,即使这些加密流量产生于不同的网络环境下。本发明的流程图与示意图如图1、2所示。图1是本发明提供的基于直推图的加密流量识别与分类算法的流程图,图2是本发明提供的基于直推图的迭代“聚合扩散”图推理算法中所述的“聚合扩散”图推理算法的示意图。本发明中,“直推图”是指将已知网络与未知网络下的网络流量共同构建关系图,在同一个关系图中直接推理未知网络下的流量标签信息。
本发明分类多个网络应用在不同网络下收集的加密流量数据,以网络会话为基本单位构建直推图,将已知类别的会话结点的标签信息通过强连接边扩散到待分类预测的会话结点,实现未知标签结点的网络应用类别预测。
实例1使用基于直推图的加密流量识别与分类算法识别分类未知网络下的加密流量
以独立收集的数据集CrossNet2022作为数据集,CrossNet2022数据集包含了两个网络环境下收集的加密流量数据,对于每个网络环境下收集相同网络应用产生的加密流量数据,这些流量产生于20种常用的网络应用:
1)首先,对于其中一个网络环境下收集的20种网络应用的加密流量数据,以{目的IP,目的端口,源IP,源端口,传输层协议}的五元组为键值进行网络会话分割。将收集的原始数据包集合分割为单个网络会话;
2)提取1)中得到网络会话集合中每一个网络会话的网络层的目的IP地址,即服务器地址,作为其地址特征;
3)对于2)中提取了地址特征的网络会话集合,聚合具有相同地址特征的网络会话,形成网络会话簇结点集合;
4)对于CrossNet2022的A,B两个网络下的数据集,通过1)-3)的操作获得两组结点集合,将其中A中的结点作为训练集,具有类别标签信息,B中的结点作为测试集,为没有类别标签的待测结点,将A,B两组结点集合合并;
5)对于4)中得到的合并的结点集合,提取每个结点的三维特征向量{地址特征,握手特征,域名特征};
6)计算结点之间的特征相似度,构建结点之间的关系边,形成初始化的直推图;
7)对于6)获得的直推图中的跨域结点,识别并修正其正确真实的类别标签信息;
8)对于7)中获得的修正后的直推图,使用迭代的“聚合扩散”图推理算法,在每一轮迭代中,迭代每一个已知类别标签的结点,聚合同类别的邻接结点信息到该结点,并重新计算该结点与邻接结点的关系边,然后对于未知类别标签的待测结点,使用其邻接的具有已知类别标签的结点以关系边权重加权,计算每一个类别对该待测结点的影响置信度,选取高于判别阈值的最高影响置信度代表的类别标签,作为该待测结点的预测类别,然后将该已预测类别的结点加入到已知类别标签的结点集合中,对于最高影响置信度低于判别阈值的结点,不作预测;
9)直推图中所有未知类别标签的结点完成类别标签预测,或者两轮迭代后直推图保持稳定后,基于直推图的迭代“聚合扩散”图推理算法停止;
10)对于已被预测的,未知网络下的加密流量簇结点,簇中聚合的待测网络会话被预测为该结点获得的预测类别标签,以实现加密流量的识别与预测。
比较本发明提出的基于直推图的加密流量识别与分类算法与其他方法的结果,对比结果如表1所示。表1是在CrossNet2022数据集中,A网络的数据作为训练集,B网络作为测试集,使用的度量参数分类准确率(Accuracy)。
表1
数据集 本发明方法 Flowprint XGboost RBRN FC-Net
CrossNet2022 90.46 66.38 20.42 34.29 35.08
实例2使用基于直推图的加密流量识别与分类算法识别与分类训练集中未包括的网络应用的新类加密流量
使用CrossNet2022的两个子数据集作为实例样本,其中CrossNet2022_A中的15个类作为训练集,其标签是已知的;CrossNet2022_B中的数据作为测试集,包含所有的20个类别,需要识别CrossNet2022_A中不包含的5个类别。
1)重复实例1中的1)-9);
2)直推图中未获得预测类别标签的待测结点,其包含的网络会话被判定为新类,即未在训练集中出现的网络应用所产生的加密流量会话。
比较本发明方法与其他方法的结果,所有方法在CrossNet2022_A中初始化和训练,在CrossNet2022_B中进行新类识别测试,表2是加密流量新类识别的准确率。具体的,表2是在CrossNet2022数据集中,A网络的数据作为训练集,B网络作为测试集,使用的度量参数分类准确率(Accuracy)。
表2
数据集 本发明方法 Flowprint XGboost RBRN FC-Net
CrossNet2022 95.11 78.48 67.45 59.68 61.17
根据表1和表2的结果,分别体现了本发明方法提出的基于直推图的加密流量识别与分类算法的优越性。
基于同一发明构思,本发明的另一实施例提供一种采用本发明方法的基于直推图的加密流量识别与分类系统,包括:
加密流量直推图构建模块,用于采用加密流量直推图的构建算法构建加密流量直推图,包括:对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
图推理模块,用于采用基于直推图的迭代“聚合扩散”图推理算法,将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (6)

1.一种基于直推图的加密流量识别与分类方法,其步骤包括:
对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;
通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;
对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
所述跨域结点指的是由跨域流量会话聚合而成的结点;
将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类;
所述对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合,包括:首先,将网络流量捕获器在不同的网络环境下部署,收集来自不同网络环境下不同网络应用产生的加密流量数据;然后,使用预定义的五元组作为键值分别将不同网络环境下的流量数据以会话为单位进行流量分片;对于不同网络环境下的网络会话集合,将具有相同地址特征的网络会话聚合,形成多个网络会话簇结点集合;将已知类别标签的结点集合与其他未知类别标签的结点集合合并,得到完整的结点集合;
所述通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,包括:对于总体的结点集合中的每一个结点,计算其与剩余的所有结点之间的特征相似度;其中,对于每一个结点,提取其地址特征、握手特征与域名特征作为其表征向量,通过计算结点之间的多维特征相似度,构建结点之间的关系边;根据得到的结点集合与结点之间关系边的集合,共同构建所述初始化的直推图;
采用基于直推图的迭代“聚合扩散”图推理算法,将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类;所述基于直推图的迭代“聚合扩散”图推理算法包括:
在每一轮推理中,对直推图中已知标签的加密流量簇结点使用“聚合”算法,对于已知类别标签的结点的具有相同类别标签的邻接结点,以关系边为权重系数,向中心结点聚合特征信息,遍历所有已知标签的结点后,更新已知类别标签与邻接结点的关系边权重,以强化具有同类别标签结点之间的关系边权重,并弱化具有不同类别标签结点之间的关系边权重;
对直推图中未知类别标签的加密流量簇结点使用“扩散”算法,对于未知类别标签的待测结点,使用其邻接的具有已知类别标签的结点以关系边权重加权,计算每一个类别对该待测结点的影响置信度,选取高于判别阈值的最高影响置信度代表的类别标签,作为该待测结点的预测类别,然后将该已预测类别的结点加入到已知类别标签的结点集合中,对于最高影响置信度低于判别阈值的结点,不作预测;直到直推图中所有未知类别标签的结点完成类别标签预测,或者两轮迭代后直推图保持稳定后,基于直推图的迭代“聚合扩散”图推理算法停止;
获得预测类别标签的待测结点中的网络会话被分类为该结点获得的类别标签,实现加密流量的识别分类任务;直推图中未获得预测类别标签的待测结点,其包含的网络会话被判定为新类,即未在训练集中出现的网络应用所产生的加密流量会话。
2.如权利要求1所述的方法,其特征在于,所述将网络流量捕获器在不同的网络环境下部署,收集来自不同网络环境下不同网络应用产生的加密流量数据,包括:将网络流量收集器部署在不同的网络环境下的路由结点,其中训练样本通过在可控网络下监控已知网络应用获得,待测的测试样本在未知网络下部署收集。
3.如权利要求1所述的方法,其特征在于,所述将具有相同地址特征的网络会话聚合,包括:
对于每一个分片后的会话,提取其会话的网络层目的地址作为地址特征,对于在已知网络下与未知网络下收集的加密流量数据,分别聚合具有相同地址特征。
4.如权利要求1所述的方法,其特征在于,所述对于初始化的直推图中的跨域结点,修正其真实的类别信息,包括:已知类别标签信息训练集合中存在跨域结点;对于跨域结点,将其原有的错误标签修正为实际请求的网络应用服务器对应的类别标签。
5.如权利要求1所述的方法,其特征在于,所述基于直推图的迭代“聚合扩散”图推理算法是迭代式算法,每一轮迭代包含“聚合”算法与“扩散”算法的两种图推理算法;在每一轮迭代中,首先对直推图使用“聚合”算法,然后对直推图使用“扩散”算法。
6.一种采用权利要求1~5中任一项所述方法的基于直推图的加密流量识别与分类系统,其特征在于,包括:
加密流量直推图构建模块,用于对于不同网络环境下的加密流量,分别使用地址特征进行聚合,形成加密流量会话簇结点集合;通过计算加密流量会话簇结点集合中的结点之间的特征相似度构建结点之间的关系边,形成初始化的直推图;对于初始化的直推图中的跨域结点,修正其真实的类别信息,以更新初始化的直推图;
图推理模块,用于采用基于直推图的迭代“聚合扩散”图推理算法,将直推图中已知标签的结点标签扩散到未知标签的结点标签中,从而实现待测加密流量的识别与分类。
CN202210440703.0A 2022-04-25 2022-04-25 基于直推图的加密流量识别与分类方法及系统 Active CN114866301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210440703.0A CN114866301B (zh) 2022-04-25 2022-04-25 基于直推图的加密流量识别与分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210440703.0A CN114866301B (zh) 2022-04-25 2022-04-25 基于直推图的加密流量识别与分类方法及系统

Publications (2)

Publication Number Publication Date
CN114866301A CN114866301A (zh) 2022-08-05
CN114866301B true CN114866301B (zh) 2023-05-02

Family

ID=82632998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210440703.0A Active CN114866301B (zh) 2022-04-25 2022-04-25 基于直推图的加密流量识别与分类方法及系统

Country Status (1)

Country Link
CN (1) CN114866301B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116112256A (zh) * 2023-02-08 2023-05-12 电子科技大学 一种面向应用加密流量识别的数据处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113179223A (zh) * 2021-04-23 2021-07-27 中山大学 一种基于深度学习和序列化特征的网络应用识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360159B (zh) * 2017-07-11 2019-12-03 中国科学院信息工程研究所 一种识别异常加密流量的方法及装置
ES2909555T3 (es) * 2018-03-21 2022-05-09 Telefonica Sa Procedimiento y sistema para entrenar y validar algoritmos de aprendizaje automático en entornos de redes de datos
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN112381121A (zh) * 2020-10-28 2021-02-19 中国科学院信息工程研究所 一种基于孪生网络的未知类别网络流量的检测与识别方法
CN113949531B (zh) * 2021-09-14 2022-06-17 北京邮电大学 一种恶意加密流量检测方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113179223A (zh) * 2021-04-23 2021-07-27 中山大学 一种基于深度学习和序列化特征的网络应用识别方法及系统

Also Published As

Publication number Publication date
CN114866301A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
US9729571B1 (en) System, method, and computer program for detecting and measuring changes in network behavior of communication networks utilizing real-time clustering algorithms
CN107181724B (zh) 一种协同流的识别方法、系统以及使用该方法的服务器
Auld et al. Bayesian neural networks for internet traffic classification
Singh Performance analysis of unsupervised machine learning techniques for network traffic classification
US10924418B1 (en) Systems and methods for fast detection of elephant flows in network traffic
WO2015154484A1 (zh) 流量数据分类方法及装置
CN109951462B (zh) 一种基于全息建模的应用软件流量异常检测系统及方法
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN111526101A (zh) 一种基于机器学习的物联网动态流量分类方法
CN114866301B (zh) 基于直推图的加密流量识别与分类方法及系统
Zhang et al. Topology inference with network tomography based on t-test
Patcha et al. Network anomaly detection with incomplete audit data
CN115600128A (zh) 一种半监督加密流量分类方法、装置及存储介质
Wang et al. Botnet detection using social graph analysis
CN115277102A (zh) 网络攻击检测方法、装置、电子设备及存储介质
CN109952743B (zh) 用于低内存和低流量开销大流量对象检测的系统和方法
Raveendran et al. A novel aggregated statistical feature based accurate classification for internet traffic
CN114978593B (zh) 基于图匹配的不同网络环境的加密流量分类方法及系统
CN112633353B (zh) 基于包长概率分布与k近邻算法的物联网设备识别方法
Takyi et al. Clustering techniques for traffic classification: A comprehensive review
Chowdhury et al. Device identification using optimized digital footprints
WO2016177146A1 (zh) 一种网络流量数据的分类方法及装置
CN113794653B (zh) 一种基于抽样数据流的高速网络流量分类方法
Wang et al. Ensemble classifier for traffic in presence of changing distributions
Gudibanda et al. Fast detection of elephant flows with Dirichlet-categorical inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant