CN116055201B - 基于协同训练的多视图加密恶意流量检测方法 - Google Patents

基于协同训练的多视图加密恶意流量检测方法 Download PDF

Info

Publication number
CN116055201B
CN116055201B CN202310069213.9A CN202310069213A CN116055201B CN 116055201 B CN116055201 B CN 116055201B CN 202310069213 A CN202310069213 A CN 202310069213A CN 116055201 B CN116055201 B CN 116055201B
Authority
CN
China
Prior art keywords
view
training
classifier
samples
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310069213.9A
Other languages
English (en)
Other versions
CN116055201A (zh
Inventor
霍跃华
吴文昊
赵法起
范伟强
任吉凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology Beijing CUMTB
Original Assignee
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology Beijing CUMTB filed Critical China University of Mining and Technology Beijing CUMTB
Priority to CN202310069213.9A priority Critical patent/CN116055201B/zh
Publication of CN116055201A publication Critical patent/CN116055201A/zh
Application granted granted Critical
Publication of CN116055201B publication Critical patent/CN116055201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于协同训练的多视图加密恶意流量检测模型,属于数据识别中的加密恶意流量检测领域,包括:利用Wireshark工具捕获原始pcap流量包;采用Zeek工具解析原始pcap流量包,得到流特征、连接特征和TLS证书特征;将流特征与连接特征融合并进行标准化,经特征重要性评估后构建视图1;对TLS证书特征采用词频‑逆文本频率指数方法进行编码,采用主成分分析法降维后构建视图2,进而构建对视图样本集;将多视图样本集分为训练集和测试集;协同XGBoost分类器和随机森林分类器构造检测模型;利用训练集训练检测模型;利用测试集检验检测模型性能;采用协同训练的方式结合网络流量不同类别的特征进行加密恶意流量检测,具有较强的检测能力。

Description

基于协同训练的多视图加密恶意流量检测方法
技术领域
本发明属于数据识别中的加密恶意流量检测领域,具体涉及基于协同训练的多视图加密恶意流量检测方法。
背景技术
近年来,数字化转型的浪潮席卷各行各业,网络攻击也愈发频繁和多样,钓鱼攻击、数据泄露等层出不穷。为了保护数据传输的安全性,许多网站已经采取了加密传输协议。谷歌透明度报告指出,Chrome加载网页中启用加密的比例从2014年的40%增至2022年的99%。除了合法加密流量之外,恶意流量也采用TLS加密技术来逃避检测,2021年的报告表明46%的恶意软件在Internet中采用TLS加密,相较于2020年,这个比例增长了一倍。
解密技术物理资源消耗多、时间开销大且不能有效保个人隐私。随着近年来计算机物理性能的快速提升和云计算的出现,计算能力得到大幅提高,因此利用基于机器学习和深度学习的方法进行加密恶意流量检测的研究得到更多学者的关注。其中,基于机器学习方法的恶意流量检测总体思路是:提取恶意流量和良性流量的特征,构建模型训练的样本集并进行特征工程处理,利用大量带标签样本集进行机器学习模型的训练,并将训练好的模型用于加密恶意流量检测。基于深度学习的方法与基于机器学习的方法类似,区别在于采用的训练模型由多层网络组合而成,能够自动学习重要特征。
基于机器学习的加密恶意流量检测方法相较于基于深度学习的方法具有更少的运算代价和时间开销,如今已成为加密恶意流量检测的主流方法。但是相关基于机器学习的TLS加密流量检测方法存在以下技术缺陷:
(1)需要大量的标签数据进行模型训练,对标签样本依赖性高;
(2)样本标注的代价高,制约着机器学习方法的应用;
(3)大量无标签样本缺乏有效的利用。
因此需要本发明基于协同训练的多视图加密恶意流量检测方法,本发明采用基于半监督学习的方法,利用大量无标签样本减少机器学习方法对标签样本的依赖,以解决上述所存在的技术缺陷。
发明内容
针对现有技术存在的不足和缺陷,本发明提供了基于协同训练的多视图加密恶意流量检测方法,旨在检测过程中考虑流特征、连接特征和TLS证书特征,构建视图,利用标签样本和无标签样本,采用协同训练策略以解决上述技术缺陷。
本发明的技术路线是在非解密的情况下,提取流特征、连接特征和TLS证书特征来检测混合流量中的加密恶意流量。技术思路是获取完整的原始pcap流量包,将原始pcap流量包解析为流特征、连接特征、TLS证书特征,将流特征和连接特征进行融合得到融合特征,并对融合特征和TLS证书特征进行特征工程处理,构成视图1和视图2,进而构建多视图样本集;将多视图样本集划分为训练集X和测试集T,并将训练集分为标签样本集XL和无标签样本集XU;对两个视图分别设计分类器;采用协同策略组合两个分类器,构成检测模型;使用标签样本集XL和无标签样本集XU训练检测模型;利用测试集T检验训练之后的检测模型的性能。
本发明基于协同训练的多视图加密恶意流量检测方法具体包括以下步骤:
步骤S1,进行原始pcap流量包捕获;
步骤S2,对步骤S1中捕获的原始pcap流量包进行解析,得到连接特征、流特征、TLS证书特征;
步骤S3,将步骤S2中的连接特征与流特征进行融合,得到融合特征,再对融合特征进行标准化处理,得到融合标准特征,对融合标准特征进行特征重要性评估,根据特征重要性评估的结果设置阈值一,根据设置的阈值一选择融合标准特征,构成视图1;
将步骤S2中的TLS证书特征进行编码,得到TLS证书编码特征,再对TLS证书编码特征进行降维,得到TLS证书编码降维特征,对TLS证书编码降维特征进行特征贡献率评估,根据特征贡献率评估的结果设置阈值二,根据设置的阈值二选择TLS证书编码特征,构成视图2;
将视图1和视图2进行融合,得到多视图样本集;
步骤S4,将步骤S3中的多视图样本集划分为训练集X和测试集T;
对训练集X的一部分样本进行标注,利用标注后的训练集X中的样本构成标签样本集XL
将另一部分未标注的训练集X中的样本构成无标签样本集XU
将测试集T中样本全部进行标注;
步骤S5,对视图1和视图2分别构建视图1分类器和视图2分类器,通过协同策略将视图1分类器和视图2分类器进行组合,构建检测模型;
步骤S6,利用步骤S4中的标签样本集XL和无标签样本集XU训练步骤S5中的检测模型;
步骤S7,利用步骤S4中的测试集T检验步骤S6中训练之后的检测模型的性能。
所述步骤S1中进行原始pcap流量包捕获时采用的工具为Wireshark工具;
所述原始pcap流量包包括恶意流量包和良性流量包。
所述步骤S2中解析时利用的工具为Zeek工具。
所述步骤S3中,进行编码的所述TLS证书特征至少包括‘issuer’,‘subject’,‘cipher’,其中:
‘issuer’表示服务器提供的X.509证书签名者的颁发者;
‘subject’表示服务器提供的X.509证书主体;
‘cipher’表示服务器选择的TLS加密算法套件;
所述编码的方法为词频-逆文本频率指数方法;
所述降维的方法为主成分分析法。
所述步骤S4中标签样本集XL包含加密恶意样本和加密良性样本,且加密恶意样本和加密良性样本的比例为1:1。
所述步骤S5中,视图1分类器为XGBoost分类器;
视图2分类器为随机森林分类器;
视图1分类器和视图2分类器进行组合时采用的协同策略为协同训练策略。
所述步骤S5中的检测模型包括如下三种模式:
训练模式:利用标签样本集XL训练检测模型,由标签样本集XL的视图1训练视图1分类器,标签样本集XL的视图2训练视图2分类器;
预测模式:利用检测模型对无标签样本集XU进行预测,使用视图1分类器预测无标签样本集XU的视图1,使用视图2分类器预测无标签样本集XU的视图2,计算预测为恶意流量和良性流量的概率,从两个分类器的预测结果中挑选预测概率高的样本进行标注;
更新模式:将已标注样本添加进标签样本集XL中,从无标签样本集XU中删去已标注样本。
所述步骤S6中检测模型的训练过程为:
步骤S601,利用标签样本集XL的视图1训练视图1分类器,利用标签样本集XL的视图2训练视图2分类器;
步骤S602,从无标签样本集XU中取出u条样本,构成样本池,进而将样本池中视图1输入步骤S601中训练之后的视图1分类器进行预测,将样本池中视图2输入步骤S601中训练之后的视图2分类器进行预测,计算预测为恶意流量和良性流量的概率;
步骤S603,分别选取预测概率最高的p条预测为恶意流量的样本和n条预测为良性流量的样本进行标注,进而添加到标签样本集XL中,并从无标签样本集XU中删去已标注的样本;
步骤S604,利用新的标签样本集训练检测模型;
步骤S605,返回步骤S602并迭代K次。
所述步骤S603中p、n、u满足的条件为:
2p+2n ≤u。
本发明相比现有技术的有益效果为:
1.能够在缺乏标签样本训练的情况下,准确地检测出TLS加密恶意流量,减少对标签样本的依赖。
2.能够有效利用大量无标签样本进行模型训练,增强模型的性能和减小泛化误差。
3.检测模型的视图采用的是独立性强的两种统计特征,能够在只采用统计特征的前提下,高效的检测TLS加密恶意流量,有效减少了检测开销。
附图说明
为了更清楚的表述本发明的技术方案,下面对本发明需要使用的附图进行简要介绍,如下所述附图仅为展示本发明的实施方式,而并不是对本发明的限制。
图1为本发明实施例的流程图;
图2为本发明实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实例中的技术方案进行更加全面、完整的分析和表达,显然,所描述的实施例仅作为本发明的一部分实施例,为了对本发明做进一步解释,使本领域技术人员能够清晰、透彻的理解本发明,并不用于限定本发明。
如图1-2所示,本发明实施例提供的基于协同训练的多视图加密恶意流量检测方法的具体包括:捕获原始pcap流量包,进行原始pcap流量包解析,视图构建,多视图样本集构建,对视图分别建立分类器,通过协同训练策略组合分类器,构建检测模型,训练检测模型,检验检测模型性能。
如图1所示,本发明实施例提供的加密恶意流量检测方法包括以下步骤:
步骤S1,进行原始pcap流量包捕获,其中,进行原始pcap流量包捕获是采用的工具为Wireshark工具,捕获过程包括:
(1)利用Wireshark工具捕获在网络通信环境下运行多种恶意软件所产生的流量,合并后,得到恶意流量包;
(2)利用Wireshark工具捕获在网络通信环境下运行多种良性软件所产生的流量,合并后,得到良性流量包。
步骤S2,对步骤S1中捕获的原始pcap流量包进行解析,得到连接特征、流特征、TLS证书特征,其中,解析原始pcap流量包时采用的工具是Zeek工具。
步骤S3,将步骤S2中的连接特征与流特征进行融合,其中,融合过程通过流指纹标识将同一条流量的连接特征和流特征进行融合,流指纹标识是Zeek软件为每条流量分配的唯一标识,得到融合特征,再对融合特征进行标准化处理,得到融合标准特征,其中,融合标准特征的维数为80维,对融合标准特征进行特征重要性评估,其中,特征重要性评估采用的是XGBoost特征重要性评估,通过XGBoost分类器对特征进行评估,得到融合标准特征中各特征的特征重要性值θ i,根据特征重要性评估的结果设置阈值一,其中,阈值一是对特征重要性值θ i设立的,且阈值一的值为0.01,根据设置的阈值一选择融合标准特征,其中,选择的融合标准特征维数为6维,构成视图1。
将步骤S2中的TLS证书特征进行编码,其中,进行编码的TLS证书特征至少包含‘issuer’,‘subject’,‘cipher’;其中‘issuer’表示服务器提供的X.509证书签名者的颁发者,‘subject’表示服务器提供的X.509证书主体,‘cipher’表示服务器选择的TLS加密算法套件,编码的方法采用的是词频-逆文本频率指数方法,得到TLS证书编码特征,其中,TLS证书编码特征的维数为611维,再对TLS证书编码特征进行降维,其中,降维的方法采用的是主成分分析法,得到TLS证书编码降维特征,对TLS证书编码降维特征进行特征贡献率评估,其中,特征贡献率评估根据降维后的特征相较于降维前特征的信息保留度进行评估,得到降维后特征相较于降维前特征的特征贡献率,特征贡献率取值在0到1之间,根据特征贡献率评估的结果设置阈值二,其中,阈值二取值为0.9,根据设置的阈值二选择TLS证书编码特征,得到58为特征,构成视图2。
将视图1和视图2进行融合,其中,融合过程通过流指纹标识将同一流量的视图1与视图2进行融合,得到多视图样本集,其中,多视图指的是样本集中具有同一条流量的多个视图特征,且采用的视图1和视图2均为流量的统计特征,能够有效减少检测开销。
步骤S4,将步骤S3中的多视图样本集划分为训练集X和测试集T,其中训练集X样本数量与测试集T样本数量间的比值为7:3。
对训练集X的一部分样本进行标注,其中,进行标注的训练集X样本占全体训练集样本的0.25%,利用标注后的训练集X中的样本构成标签样本集XL,其中,标签样本集XL中包含加密恶意样本和加密良性样本,且加密恶意样本和加密良性样本的比例为1:1。
将另一部分未标注的训练集X中的样本构成无标签样本集XU
将测试集T中样本全部进行标注。
步骤S5,对视图1和视图2分别构建视图1分类器和视图2分类器,其中,视图1分类器为XGBoost分类器,视图2分类器为随机森林分类器,通过协同策略将视图1分类器和视图2分类器进行组合,其中,采用的协同策略为协同训练策略,协同训练策略是协同策略的一种,构建检测模型,其中,检测模型包括如下三种模式:
训练模式:利用标签样本集XL训练检测模型,由标签样本集XL的视图1训练视图1分类器,标签样本集XL的视图2训练视图2分类器。
预测模式:利用检测模型对无标签样本集XU进行预测,使用视图1分类器预测无标签样本集XU的视图1,使用视图2分类器预测无标签样本集XU的视图2,计算预测为恶意流量和良性流量的概率,从两个分类器的预测结果中挑选预测概率高的样本进行标注。
更新模式:将已标注样本添加进标签样本集XL中,从无标签样本集XU中删去已标注样本。
步骤S6,利用步骤S4中的标签样本集XL和无标签样本集XU训练步骤S5中的检测模型,能够有效利用大量无标签样本进行训练,提升检测模型的性能并减少泛化误差,其中,检测模型的训练过程为:
步骤S601,利用标签样本集XL的视图1训练视图1分类器,利用标签样本集XL的视图2训练视图2分类器。
步骤S602,从无标签样本集XU中取出u条样本,构成样本池,进而将样本池的视图1输入步骤S601中训练之后的视图1分类器进行预测,将样本池的视图2输入步骤S601中训练之后的视图2分类器进行预测,计算预测为恶意流量和良性流量的概率。
步骤S603,分别选取预测概率最高的p条预测为恶意流量的样本和n条预测为良性流量的样本进行标注,进而添加到标签样本集XL中,并从无标签样本集XU中删去已标注的样本,其中,p、n、u满足的条件为:2p+2n≤u。
步骤S604,利用新的标签样本集训练检测模型。
步骤S605,返回步骤S602并迭代K次。
步骤S7,利用步骤S4中的测试集T检验步骤S6中训练之后的检测模型的性能,能够在缺乏标签样本的情况下,准确检测出TLS加密恶意流量,减少对标签样本的依赖。
本发明提出的基于协同训练的多视图加密恶意流量检测方法,具体技术效果为:
1.能够在缺乏标签样本训练的情况下,准确地检测出TLS加密恶意流量,减少对标签样本的依赖。
2.能够有效利用大量无标签样本进行模型训练,增强模型的性能和减小泛化误差。
3.检测模型的视图采用的是独立性强的两种统计特征,能够在只采用统计特征的前提下,高效的检测TLS加密恶意流量,有效减少了检测开销。
此外,基于本发明中的检测模型,本发明的基于协同训练的多视图加密恶意流量检测方法包括如下步骤:
第一步:将待检测流量利用Wireshark工具捕获为pcap流量包格式。
第二步:将pcap流量包格式的待检测流量待检测流量利用Zeek工具进行解析,得到流特征、连接特征、TLS证书特征。
第三步:按照本发明提出的检测模型中的视图构建方式,构建待检测流量的视图1和视图2,进而构建待检测流量的样本集。
第四步:将待检测流量的样本集输入到本发明提出的并训练好的检测模型中进行检测。
第五步:得到检测模型的输出结果,确定待检测流量是否为恶意流量。
本检测方法的相比相关技术的技术效果为:
1.利用训练好的检测模型检测混合流量中的加密流量,能够有效提高检测模型的检出率,降低检测的误报率。
2.采用半监督方法进行模型训练,能够有效提升模型泛化能力和检测性能,减少对标签样本的依赖。
3.采用协同训练策略构建检测模型,相对于其他半监督方法,所需的特征更少,能够减少检测开销。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (9)

1.基于协同训练的多视图加密恶意流量检测方法,其特征在于,检测方法包括以下步骤:
步骤S1,进行原始pcap流量包捕获;
步骤S2,对步骤S1中捕获的原始pcap流量包进行解析,得到连接特征、流特征、TLS证书特征;
步骤S3,将步骤S2中的连接特征与流特征进行融合,得到融合特征,再对融合特征进行标准化处理,得到融合标准特征,对融合标准特征进行特征重要性评估,根据特征重要性评估的结果设置阈值一,根据设置的阈值一选择融合标准特征,构成视图1;
将步骤S2中的TLS证书特征进行编码,得到TLS证书编码特征,再对TLS证书编码特征进行降维,得到TLS证书编码降维特征,对TLS证书编码降维特征进行特征贡献率评估,根据特征贡献率评估的结果设置阈值二,根据设置的阈值二选择TLS证书编码特征,构成视图2;
将视图1和视图2进行融合,得到多视图样本集;
步骤S4,将步骤S3中的多视图样本集划分为训练集X和测试集T;
对训练集X的一部分样本进行标注,利用标注后的训练集X中的样本构成标签样本集XL
将另一部分未标注的训练集X中的样本构成无标签样本集XU
将测试集T中样本全部进行标注;
步骤S5,对视图1和视图2分别构建视图1分类器和视图2分类器,通过协同策略将视图1分类器和视图2分类器进行组合,构建检测模型;
步骤S6,利用步骤S4中的标签样本集XL和无标签样本集XU训练步骤S5中的检测模型;
步骤S7,利用步骤S4中的测试集T检验步骤S6中训练之后的检测模型的性能。
2.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S1中进行原始pcap流量包捕获时采用的工具为Wireshark工具;
所述原始pcap流量包包括恶意流量包和良性流量包。
3.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S2中解析时利用的工具为Zeek工具。
4.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S3中,进行编码的所述TLS证书特征至少包括‘issuer’,‘subject’,‘cipher’,其中:
‘issuer’表示服务器提供的X.509证书签名者的颁发者;
‘subject’表示服务器提供的X.509证书主体;
‘cipher’表示服务器选择的TLS加密算法套件;
所述编码的方法为词频-逆文本频率指数方法;
所述降维的方法为主成分分析法。
5.如权利要求1所述的基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S4中标签样本集XL包含加密恶意样本和加密良性样本,且加密恶意样本和加密良性样本的比例为1:1。
6.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S5中,视图1分类器为XGBoost分类器;
视图2分类器为随机森林分类器;
视图1分类器和视图2分类器进行组合时采用的协同策略为协同训练策略。
7.如权利要求1所述基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S5中的检测模型包括如下三种模式:
训练模式:利用标签样本集XL训练检测模型,由标签样本集XL的视图1训练视图1分类器,标签样本集XL的视图2训练视图2分类器;
预测模式:利用检测模型对无标签样本集XU进行预测,使用视图1分类器预测无标签样本集XU的视图1,使用视图2分类器预测无标签样本集XU的视图2,计算预测为恶意流量和良性流量的概率,从两个分类器的预测结果中挑选预测概率高的样本进行标注;
更新模式:将已标注样本添加进标签样本集XL中,从无标签样本集XU中删去已标注样本。
8.如权利要求1所述的基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S6中检测模型的训练过程为:
步骤S601,利用标签样本集XL的视图1训练视图1分类器,利用标签样本集XL的视图2训练视图2分类器;
步骤S602,从无标签样本集XU中取出u条样本,构成样本池,进而将样本池的视图1输入步骤S601中训练之后的视图1分类器进行预测,将样本池的视图2输入步骤S601中训练之后的视图2分类器进行预测,计算预测为恶意流量和良性流量的概率;
步骤S603,分别选取预测概率最高的p条预测为恶意流量的样本和n条预测为良性流量的样本进行标注,进而添加到标签样本集XL中,并从无标签样本集XU中删去已标注的样本;
步骤S604,利用新的标签样本集训练检测模型;
步骤S605,返回步骤S602并迭代K次。
9.如权利要求8所述的基于协同训练的多视图加密恶意流量检测方法,其特征在于,所述步骤S603中p、n、u满足的条件为:
2p+2n≤u。
CN202310069213.9A 2023-01-16 2023-01-16 基于协同训练的多视图加密恶意流量检测方法 Active CN116055201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310069213.9A CN116055201B (zh) 2023-01-16 2023-01-16 基于协同训练的多视图加密恶意流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310069213.9A CN116055201B (zh) 2023-01-16 2023-01-16 基于协同训练的多视图加密恶意流量检测方法

Publications (2)

Publication Number Publication Date
CN116055201A CN116055201A (zh) 2023-05-02
CN116055201B true CN116055201B (zh) 2023-09-01

Family

ID=86132941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310069213.9A Active CN116055201B (zh) 2023-01-16 2023-01-16 基于协同训练的多视图加密恶意流量检测方法

Country Status (1)

Country Link
CN (1) CN116055201B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117634A (zh) * 2018-09-05 2019-01-01 济南大学 基于网络流量多视图融合的恶意软件检测方法及系统
CN113704762A (zh) * 2021-09-02 2021-11-26 广州大学 基于集成学习的恶意软件加密流量检测方法
CN113949531A (zh) * 2021-09-14 2022-01-18 北京邮电大学 一种恶意加密流量检测方法及装置
CN114172748A (zh) * 2022-02-10 2022-03-11 中国矿业大学(北京) 一种加密恶意流量检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11616798B2 (en) * 2020-08-21 2023-03-28 Palo Alto Networks, Inc. Malicious traffic detection with anomaly detection modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117634A (zh) * 2018-09-05 2019-01-01 济南大学 基于网络流量多视图融合的恶意软件检测方法及系统
CN113704762A (zh) * 2021-09-02 2021-11-26 广州大学 基于集成学习的恶意软件加密流量检测方法
CN113949531A (zh) * 2021-09-14 2022-01-18 北京邮电大学 一种恶意加密流量检测方法及装置
CN114172748A (zh) * 2022-02-10 2022-03-11 中国矿业大学(北京) 一种加密恶意流量检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于半监督多视图特征协同训练的网络恶意流量识别方法.;卢宛芝, 丁要军.;《通信技术》;第55卷(第04期);全文 *

Also Published As

Publication number Publication date
CN116055201A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
Shen et al. Webpage fingerprinting using only packet length information
CN114785563B (zh) 一种软投票策略的加密恶意流量检测方法
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
Dong et al. BotDetector: An extreme learning machine‐based Internet of Things botnet detection model
CN113923026A (zh) 一种基于TextCNN的加密恶意流量检测模型及其构建方法
CN115080756A (zh) 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
Shen et al. Secure semantic communications: Challenges, approaches, and opportunities
CN116055201B (zh) 基于协同训练的多视图加密恶意流量检测方法
Zhang et al. Multisource Heterogeneous Specific Emitter Identification Using Attention Mechanism-Based RFF Fusion Method
CN113902052A (zh) 一种基于ae-svm模型的分布式拒绝服务攻击网络异常检测方法
CN117478403A (zh) 一种全场景网络安全威胁关联分析方法及系统
Zhou et al. Malicious encrypted traffic features extraction model based on unsupervised feature adaptive learning
CN117081810A (zh) 开源威胁情报的可靠性评估方法及系统
CN116909788A (zh) 一种任务导向和视角不变的多模态故障诊断方法及系统
CN116614251A (zh) 一种数据安全监控系统
Meng et al. IEEE access special section editorial: internet-of-things attacks and defenses: Recent advances and challenges
An et al. An HTTP anomaly detection architecture based on the internet of intelligence
Wang A collaborative detection method of wireless mobile network intrusion based on cloud computing
Shi et al. Privacy protection and intrusion detection system of wireless sensor network based on artificial neural network
Kleber et al. Poster: Network message field type recognition
Zhang et al. Building undetectable covert channels over mobile networks with machine learning
CN111401067A (zh) 一种蜜罐仿真数据的生成方法及装置
Wang et al. CPWF: Cross-platform website fingerprinting based on multi-similarity loss
Zhang et al. A Hierarchical Authentication System for Access Equipment in Internet of Things
CN116049877B (zh) 一种隐私数据识别和脱敏的方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant