CN116418558A - 一种恶意加密流量识别方法、装置、电子设备及存储介质 - Google Patents
一种恶意加密流量识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116418558A CN116418558A CN202310181260.2A CN202310181260A CN116418558A CN 116418558 A CN116418558 A CN 116418558A CN 202310181260 A CN202310181260 A CN 202310181260A CN 116418558 A CN116418558 A CN 116418558A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- sequence
- encrypted traffic
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 127
- 238000001514 detection method Methods 0.000 claims abstract description 60
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 34
- 238000012512 characterization method Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 9
- 238000010801 machine learning Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000009471 action Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000005641 tunneling Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种恶意加密流量识别方法、装置、电子设备及存储介质,涉及网络安全技术领域。该方法包括获取加密流量;对所述加密流量进行预处理,以获得预处理数据;将所述预处理数据输入经过预训练和微调的检测模型,获得检测结果。该方法采用预训练和微调获得检测模型,利用大量无标签加密流量进行预训练,并通过少量有标签加密流量进行微调,能够在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率,实现对恶意加密流量的检测,解决了现有的基于机器学习或深度学习的流量识别方法的识别率不高的问题。
Description
技术领域
本申请涉及网络安全技术领域,具体而言,涉及一种恶意加密流量识别方法、装置、电子设备及存储介质。
背景技术
随着安全套接字层(SSL)和传输层安全性协议(TLS)等加密技术广泛应用于网络通信中,越来越多的恶意软件利用加密或隧道技术,将其恶意行为隐藏在加密内容之下。这些基于加密流量通信的恶意软件通常窃取用户信息或进行勒索恐吓等恶意行为,危害着用户的隐私、财产安全。
基于人工提取特征的机器学习方法主要关注在不解密的基础上对加密流量进行分类,往往基于统计特征或时间序列特征,依靠专家知识进行特征提取并采用机器学习算法进行建模与检测。此方法往往针对特定应用类型,识别效果通常与根据领域专家知识所提取的特征有关,分类效果有很大的不确定性,同时特征很容易失效需要不断更新。基于原始数据的深度学习能够在无人工干预的情况下,从原始字节流中提取更本质、更有效的数据特征,学习到更复杂的模式。但此方法的识别效果依赖于样本数量和质量。
在当前恶意加密流量识别领域,标注数据集过少,而自行标注数据集的难度大、成本高,也缺少普遍接受的数据收集和数据标记方法。这种情况导致了基于机器学习或深度学习的流量识别方法的识别率不高的问题。
发明内容
本申请实施例的目的在于提供一种恶意加密流量识别方法、装置、电子设备及存储介质,采用预训练和微调获得检测模型,利用大量无标签加密流量进行预训练,并通过少量有标签加密流量进行微调,能够在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率,实现对恶意加密流量的检测,解决了现有的基于机器学习或深度学习的流量识别方法的识别率不高的问题。
本申请实施例提供了一种恶意加密流量识别方法,所述方法包括:
获取加密流量;
对所述加密流量进行预处理,以获得预处理数据;
将所述预处理数据输入经过预训练和微调的检测模型,获得检测结果。
在上述实现过程中,采用预训练和微调相结合的方式获得检测模型,利用大量无标签加密流量进行预训练,学习通用特征;通过少量有标签加密流量进行微调,学习恶意加密流量特性,能够在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率,实现对恶意加密流量的检测,解决了现有的基于机器学习或深度学习的流量识别方法的识别率不高的问题。
进一步地,所述对所述加密流量进行预处理,以获得预处理数据,包括:
对所述加密流量按照五元组进行会话切分,获得载荷数据;
提取所述加密流量的序列特征,所述序列特征包括包长序列、到达时间间隔序列和方向序列。
在上述实现过程中,对加密流量进行特征提取,从而获得载荷数据和序列特征数据,便于通过检测模型进行检测和识别。
进一步地,在所述将所述预处理数据输入经过预训练和微调的检测模型的步骤之前,所述方法还包括:
对训练数据进行预处理,获得无标签流量的载荷数据、序列特征数据和伪标签,所述伪标签是根据训练数据的数据包长度和方向确定的;
将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练;
基于所述预训练模型构建训练模型;
将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型。
在上述实现过程中,利用预训练和微调相结合的方式获得检测模型,在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率。
进一步地,所述将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练,包括:
复制训练数据的载荷数据进行数据增强,获得两个不同的数据增强样本;
将所述数据增强样本分别通过在线网络编码器和目标网络编码器进行特征提取,获得初步表征;
利用投射器对所述初步表征进行提取和压缩获得在线表征;
所述在线表征经过预测器进行预测,获得输出结果;
利用所述输出结果和目标表征计算对比学习损失函数;
所述对比学习损失函数表示为:
其中,θ表示在线网络编码器参数;ε表示目标网络编码器参数;zθ表示投射器的在线表征;qθ表示预测器;qθ(zθ)表示预测器的输出结果;z′ε表示数据增强样本的目标表征;
将训练数据的序列数据经过序列编码器进行特征提取,获得序列表征;
将所述序列表征和所述在线表征输入到终预测器中,以利用预测结果与伪标签计算监督学习损失函数;
所述监督学习损失函数表示为:
其中,pred为终预测器的预测结果,label为对应的伪标签;
基于所述对比学习损失函数和所述监督学习损失函数,最小化损失函数;
其中,所述损失函数表示为:L=Lss+Lsup。
在上述实现过程中,基于对比学习进行载荷特征提取,并在此基础上,结合时序特征设计伪标签进行自监督学习。
进一步地,所述将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型,包括:
将训练模型加载预训练之后的权重参数,所述训练模型包括序列编码器、载荷编码器和分类器;
将所述有标签加密流量的载荷数据和序列特征数据分别输入到序列编码器、载荷编码器进行特征提取,获得序列特征和载荷特征;
将所述序列特征和载荷特征合并后输入到所述分类器中,得到所述有标签加密流量为恶意加密流量的概率;
基于所述概率计算交叉熵损失函数,并最小化所述交叉熵损失函数,以将获得的最优训练模型作为检测模型。
在上述实现过程中,在预训练基于上构建训练模型,利用有标签数据进行模型微调,得到检测模型,通过预训练和微调相结合的方式得到检测模型,提高了检测模型的准确率。
本申请实施例还提供一种恶意加密流量识别装置,所述装置包括:
流量采集模块,用于获取加密流量;
预处理模块,用于对所述加密流量进行预处理,以获得预处理数据;
检测模块,用于将所述预处理数据输入经过预训练和微调的检测模型,获得检测结果。
在上述实现过程中,采用预训练和微调相结合的方式获得检测模型,利用大量无标签加密流量进行预训练,学习通用特征;通过少量有标签加密流量进行微调,学习恶意加密流量特性,能够在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率,实现对恶意加密流量的检测,解决了现有的基于机器学习或深度学习的流量识别方法的识别率不高的问题。
进一步地,所述预处理模块包括:
载荷数据获取模块,用于对所述加密流量按照五元组进行会话切分,获得载荷数据;
序列特征提取模块,用于提取所述加密流量的序列特征,所述序列特征包括包长序列、到达时间间隔序列和方向序列。
在上述实现过程中,对加密流量进行特征提取,从而获得载荷数据和序列特征数据,便于通过检测模型进行检测和识别。
进一步地,所述装置还包括:
训练数据处理模块,用于对训练数据进行预处理,获得无标签流量的载荷数据、序列特征数据和伪标签,所述伪标签是根据训练数据的数据包长度和方向确定的;
预训练模块,用于将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练;
训练模型构建模块,用于基于所述预训练模型构建训练模型;
模型训练模块,用于将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型。
在上述实现过程中,利用预训练和微调相结合的方式获得检测模型,在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使所述电子设备执行上述中任一项所述的恶意加密流量识别方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述中任一项所述的恶意加密流量识别方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种恶意加密流量识别方法的流程图;
图2为本申请实施例提供的恶意加密流量识别的具体流程图;
图3为本申请实施例提供的预处理流程图;
图4为本申请实施例提供的训练数据的具体预处理流程图;
图5为本申请实施例提供的检测模型生成流程图;
图6为本申请实施例提供的预训练的特征提取器的结构框图;
图7为本申请实施例提供的预训练流程图;
图8为本申请实施例提供的检测模型训练流程图;
图9为本申请实施例提供的一种恶意加密流量识别装置的结构框图;
图10为本申请实施例提供的恶意加密流量识别装置的组成示意图;
图11为本申请实施例提供的另一种恶意加密流量识别装置的结构框图。
图标:
100-流量采集模块;200-预处理模块;201-载荷数据获取模块;202-序列特征提取模块;300-检测模块;410-训练数据处理模块;420-预训练模块;430-训练模型构建模块;440-模型训练模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供的一种恶意加密流量识别方法的流程图。该方法基于自监督学习进行特征提取,具体地,基于对比学习进行载荷特征提取,并在此基础上,结合时序特征设计伪标签进行自监督学习,采用预训练-微调的方式构建检测模型,无需大量有标签数据即可实现较高识别率。
该方法具体包括以下步骤:
步骤S100:获取加密流量;
具体地,进行SSL/TLS协议加密流量的获取与解析,包括网络流量的实时采集,该模块获的流量以pcap文件格式进行存储。
步骤S200:对所述加密流量进行预处理,以获得预处理数据;
对获取的流量进行会话切分与重组,并获取相应的载荷数据和时序数据等。
步骤S300:将所述预处理数据输入经过预训练和微调的检测模型,获得检测结果。
利用检测模型对预处理数据进行检测,输出正常或恶意的概率。选取最大概率对应的类别作为未知加密流量的类型。
从海量无标签加密流量中学习通用的特征表示获得特征提取器。再基于预训练的特征提取器构建训练模型,并进行微调学习,获得最终的检测模型。利用训练好的检测模型对未知加密流量进行检测,获得识别结果,可将最大概率及对应的类别作为检测结果,如图2所示,为恶意加密流量识别的具体流程图。
其中,如图3所示,为预处理流程图,步骤S200具体包括以下步骤:
步骤S201:对所述加密流量按照五元组进行会话切分,获得载荷数据;
对加密流量按照五元组(即源IP地址、目的IP地址、源端口号、目的端口号和协议)进行会话切分;提取TCP层载荷前784字节,超出部分丢弃,不足部分以ASCII码0填充,并将数据映射为ASCII码数字,进行归一化处理,获得载荷数据。
步骤S202:提取所述加密流量的序列特征,所述序列特征包括包长序列、到达时间间隔序列和方向序列。
提取前32个数据包的包长序列、到达时间间隔序列和方向序列,方向用+1和-1分别表示数据包由客户端传向服务端和由服务端传向客户端,不足32个数据包的用0填充。
需要说明的是,对于训练数据同样需要经过预处理,不同的是,训练数据包含海量无标签加密流量和少量有标签加密流量。如图4所示,为训练数据的具体预处理流程图,对于训练数据,在预训练阶段,需要获得加密流量的伪标签,具体地,提取加密流量数据包对应的包长序列的统计特征,该统计特征包括但不限于最大值、最小值、平均值和方差;在训练阶段,根据加密流量标注方式提取流量标签。
如图5所示,为检测模型生成流程图,在所述将所述预处理数据输入经过预训练和微调的检测模型的步骤之前,所述方法还包括:
步骤S410:对训练数据进行预处理,获得无标签流量的载荷数据、序列特征数据和伪标签,所述伪标签是根据训练数据的数据包长度和方向确定的;
步骤S420:将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练;
通过预训练获得特征提取器,具体地,基于对比学习设计载荷数据特征提取器,并结合时序数据根据伪标签进行自监督学习,如图6所示,为预训练的特征提取器的结构框图。
步骤S430:基于所述预训练模型构建训练模型;
构建的训练模型包括序列编码器、载荷编码器和分类器,各编码器加载预训练好的权重参数。
步骤S440:将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型。
其中,如图7所示,为预训练流程图,步骤S420具体包括以下步骤:
步骤S421:复制训练数据的载荷数据进行数据增强,获得两个不同的数据增强样本;
步骤S422:将所述数据增强样本分别通过在线网络编码器和目标网络编码器进行特征提取,获得初步表征;
步骤S423:利用投射器对所述初步表征进行提取和压缩获得在线表征;
步骤S424:将所述在线表征经过预测器进行预测,获得输出结果;
步骤S425:利用所述输出结果和目标表征计算对比学习损失函数;
所述对比学习损失函数表示为:
其中,θ表示在线网络编码器参数;ε表示目标网络编码器参数;zθ表示投射器的在线表征;qθ表示预测器;qθ(zθ)表示预测器的输出结果;z′ε表示数据增强样本的目标表征;
步骤S426:将训练数据的序列数据经过序列编码器进行特征提取,获得序列表征;
步骤S427:将所述序列表征和所述在线表征输入到终预测器中,以利用预测结果与伪标签计算监督学习损失函数;
所述监督学习损失函数表示为:
其中,pred为终预测器的预测结果,label为对应的伪标签;
步骤S428:基于所述对比学习损失函数和所述监督学习损失函数,最小化损失函数;
其中,所述损失函数表示为:L=Lss+Lsup。
如图8所示,为检测模型训练流程图,步骤S440具体包括以下步骤:
步骤S441:将训练模型加载预训练之后的权重参数,所述训练模型包括序列编码器、载荷编码器和分类器;
步骤S442:将所述有标签加密流量的载荷数据和序列特征数据分别输入到序列编码器、载荷编码器进行特征提取,获得序列特征和载荷特征;
步骤S443:将所述序列特征和载荷特征合并后输入到所述分类器中,得到所述有标签加密流量为恶意加密流量的概率;
步骤S444:基于所述概率计算交叉熵损失函数,并最小化所述交叉熵损失函数,以将获得的最优训练模型作为检测模型。
该方法采用预训练和微调相结合的方式,从海量无标签加密流量数据中学习通用特征表示,并利用少量标签数据学习恶意加密流量特性,经少许迭代轮次,在预训练模型的基础上进行微调学习,能够在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率,实现对恶意加密流量的检测。
实施例2
本申请实施例提供一种恶意加密流量识别装置,如图9所示,为一种恶意加密流量识别装置的结构框图,所述装置包括但不限于:
流量采集模块100,用于获取加密流量;
预处理模块200,用于对所述加密流量进行预处理,以获得预处理数据;
检测模块300,用于将所述预处理数据输入经过预训练和微调的检测模型,获得检测结果。
具体地,如图10所示,为恶意加密流量识别装置的组成示意图,可将加密流量及对应的识别结果进行存储,具体可存储包括加密流量采集时间、源IP地址、目的IP地址、源端口号、目的端口号、协议等相关信息。
如图11所示,为另一种恶意加密流量识别装置的结构框图,所述预处理模块200包括但不限于:
载荷数据获取模块201,用于对所述加密流量按照五元组进行会话切分,获得载荷数据;
序列特征提取模块202,用于提取所述加密流量的序列特征,所述序列特征包括包长序列、到达时间间隔序列和方向序列。
所述装置还包括:
训练数据处理模块410,用于对训练数据进行预处理,获得无标签流量的载荷数据、序列特征数据和伪标签,所述伪标签是根据训练数据的数据包长度和方向确定的;
预训练模块420,用于将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练;
预训练模块420的具体实现过程在实施例1中的步骤S421-步骤S428已经具体说明,在此不再赘述。
训练模型构建模块430,用于基于所述预训练模型构建训练模型;
模型训练模块440,用于将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型。
模型训练模块440的具体实现过程在实施例1中的步骤S441-步骤S444已经具体说明,在此不再赘述。
该方法采用预训练和微调相结合的方式,从海量无标签加密流量数据中学习通用特征表示,并利用少量标签数据学习恶意加密流量特性,经少许迭代轮次,在预训练模型的基础上进行微调学习,能够在恶意加密流量标注数据集规模较小的情况下,获得较高的识别准确率,实现对恶意加密流量的检测。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使所述电子设备执行实施例1所述的恶意加密流量识别方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行实施例1所述的恶意加密流量识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种恶意加密流量识别方法,其特征在于,所述方法包括:
获取加密流量;
对所述加密流量进行预处理,以获得预处理数据;
将所述预处理数据输入经过预训练和微调的检测模型,获得检测结果。
2.根据权利要求1所述的恶意加密流量识别方法,其特征在于,所述对所述加密流量进行预处理,以获得预处理数据,包括:
对所述加密流量按照五元组进行会话切分,获得载荷数据;
提取所述加密流量的序列特征,所述序列特征包括包长序列、到达时间间隔序列和方向序列。
3.根据权利要求1所述的恶意加密流量识别方法,其特征在于,在所述将所述预处理数据输入经过预训练和微调的检测模型的步骤之前,所述方法还包括:
对训练数据进行预处理,获得无标签流量的载荷数据、序列特征数据和伪标签,所述伪标签是根据训练数据的数据包长度和方向确定的;
将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练;
基于所述预训练模型构建训练模型;
将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型。
4.根据权利要求3所述的恶意加密流量识别方法,其特征在于,所述将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练,包括:
复制训练数据的载荷数据进行数据增强,获得两个不同的数据增强样本;
将所述数据增强样本分别通过在线网络编码器和目标网络编码器进行特征提取,获得初步表征;
利用投射器对所述初步表征进行提取和压缩获得在线表征;
所述在线表征经过预测器进行预测,获得输出结果;
利用所述输出结果和目标表征计算对比学习损失函数;
所述对比学习损失函数表示为:
其中,θ表示在线网络编码器参数;ε表示目标网络编码器参数;zθ表示投射器的在线表征;qθ表示预测器;qθ(zθ)表示预测器的输出结果;z′ε表示数据增强样本的目标表征;
将训练数据的序列数据经过序列编码器进行特征提取,获得序列表征;
将所述序列表征和所述在线表征输入到终预测器中,以利用预测结果与伪标签计算监督学习损失函数;
所述监督学习损失函数表示为:
其中,pred为终预测器的预测结果,label为对应的伪标签;
基于所述对比学习损失函数和所述监督学习损失函数,最小化损失函数;
其中,所述损失函数表示为:L=Lss+Lsup。
5.根据权利要求3所述的恶意加密流量识别方法,其特征在于,所述将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型,包括:
将训练模型加载预训练之后的权重参数,所述训练模型包括序列编码器、载荷编码器和分类器;
将所述有标签加密流量的载荷数据和序列特征数据分别输入到序列编码器、载荷编码器进行特征提取,获得序列特征和载荷特征;
将所述序列特征和载荷特征合并后输入到所述分类器中,得到所述有标签加密流量为恶意加密流量的概率;
基于所述概率计算交叉熵损失函数,并最小化所述交叉熵损失函数,以将获得的最优训练模型作为检测模型。
6.一种恶意加密流量识别装置,其特征在于,所述装置包括:
流量采集模块,用于获取加密流量;
预处理模块,用于对所述加密流量进行预处理,以获得预处理数据;
检测模块,用于将所述预处理数据输入经过预训练和微调的检测模型,获得检测结果。
7.根据权利要求6所述的恶意加密流量识别装置,其特征在于,所述预处理模块包括:
载荷数据获取模块,用于对所述加密流量按照五元组进行会话切分,获得载荷数据;
序列特征提取模块,用于提取所述加密流量的序列特征,所述序列特征包括包长序列、到达时间间隔序列和方向序列。
8.根据权利要求6所述的恶意加密流量识别装置,其特征在于,所述装置还包括:
训练数据处理模块,用于对训练数据进行预处理,获得无标签流量的载荷数据、序列特征数据和伪标签,所述伪标签是根据训练数据的数据包长度和方向确定的;
预训练模块,用于将所述载荷数据、序列特征数据和伪标签输入预训练模型进行预训练;
训练模型构建模块,用于基于所述预训练模型构建训练模型;
模型训练模块,用于将有标签加密流量的载荷数据和序列特征数据输入至训练模型中进行训练,得到检测模型。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行计算机程序以使所述电子设备执行根据权利要求1至5中任一项所述的恶意加密流量识别方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至5任一项所述的恶意加密流量识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310181260.2A CN116418558A (zh) | 2023-02-24 | 2023-02-24 | 一种恶意加密流量识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310181260.2A CN116418558A (zh) | 2023-02-24 | 2023-02-24 | 一种恶意加密流量识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116418558A true CN116418558A (zh) | 2023-07-11 |
Family
ID=87054019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310181260.2A Pending CN116418558A (zh) | 2023-02-24 | 2023-02-24 | 一种恶意加密流量识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116418558A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116886433A (zh) * | 2023-08-18 | 2023-10-13 | 内蒙古工业大学 | 一种基于深度对比学习的加密异常流量检测方法 |
CN118337533A (zh) * | 2024-06-13 | 2024-07-12 | 中国信息通信研究院 | 一种基于数据包表征学习的恶意加密流量检测方法和系统 |
CN118555155A (zh) * | 2024-08-01 | 2024-08-27 | 北京长亭科技有限公司 | 基于对比学习预训练的加密流量检测方法及装置 |
-
2023
- 2023-02-24 CN CN202310181260.2A patent/CN116418558A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116886433A (zh) * | 2023-08-18 | 2023-10-13 | 内蒙古工业大学 | 一种基于深度对比学习的加密异常流量检测方法 |
CN118337533A (zh) * | 2024-06-13 | 2024-07-12 | 中国信息通信研究院 | 一种基于数据包表征学习的恶意加密流量检测方法和系统 |
CN118555155A (zh) * | 2024-08-01 | 2024-08-27 | 北京长亭科技有限公司 | 基于对比学习预训练的加密流量检测方法及装置 |
CN118555155B (zh) * | 2024-08-01 | 2024-10-01 | 北京长亭科技有限公司 | 基于对比学习预训练的加密流量检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116418558A (zh) | 一种恶意加密流量识别方法、装置、电子设备及存储介质 | |
CN112163594B (zh) | 一种网络加密流量识别方法及装置 | |
CN109510815B (zh) | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 | |
US11334764B2 (en) | Real-time detection method and apparatus for DGA domain name | |
US20190273510A1 (en) | Classification of source data by neural network processing | |
US20190273509A1 (en) | Classification of source data by neural network processing | |
CN110012029B (zh) | 一种区分加密和非加密压缩流量的方法和系统 | |
CN110046297B (zh) | 运维违规操作的识别方法、装置和存储介质 | |
CN108710797B (zh) | 一种基于熵信息分布的恶意文档检测方法 | |
CN112052451A (zh) | 一种webshell检测方法和装置 | |
Sun et al. | Image steganalysis based on convolutional neural network and feature selection | |
CN114821401A (zh) | 视频审核方法、装置、设备、存储介质及程序产品 | |
CN113746804B (zh) | Dns隐蔽信道检测方法、装置、设备及存储介质 | |
CN112465003B (zh) | 一种加密离散序列报文的识别方法及系统 | |
Altuncu et al. | Deep learning based DNS tunneling detection and blocking system | |
CN116828087B (zh) | 基于区块链连接的信息安全系统 | |
CN111444364B (zh) | 一种图像检测方法和装置 | |
CN106982147B (zh) | 一种Web通讯应用的通讯监控方法和装置 | |
CN115622810A (zh) | 一种基于机器学习算法的业务应用识别系统及方法 | |
CN113378156B (zh) | 一种基于api的恶意文件检测方法和系统 | |
CN115426162A (zh) | 一种网络加密流量识别方法、装置、电子设备及存储介质 | |
CN116414976A (zh) | 文档检测方法、装置及电子设备 | |
CN115392238A (zh) | 一种设备识别方法、装置、设备及可读存储介质 | |
CN113452810A (zh) | 一种流量分类方法、装置、设备和介质 | |
CN112597498A (zh) | 一种webshell的检测方法、系统、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |