CN114826776A - 一种用于加密恶意流量的弱监督检测方法及系统 - Google Patents
一种用于加密恶意流量的弱监督检测方法及系统 Download PDFInfo
- Publication number
- CN114826776A CN114826776A CN202210628110.7A CN202210628110A CN114826776A CN 114826776 A CN114826776 A CN 114826776A CN 202210628110 A CN202210628110 A CN 202210628110A CN 114826776 A CN114826776 A CN 114826776A
- Authority
- CN
- China
- Prior art keywords
- sample
- labeled
- module
- unlabeled
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种用于加密恶意流量的弱监督检测方法及系统,其方法包括:S1:将采集的数据流包转化成图片,构建训练集Xi,对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled;S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G基于随机噪声n得到生成样本Xgenerated=G(n);将生成样本Xgenerated、标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到Xi的包级分类结果;S3:将带有包级分类标签的Xi进行多示例分割,并输入基于多示例学习的卷积神经网络,预测得到Xi的示例级分类结果。本发明提供的方法可有效地进行加密恶意流量的细粒度检测。
Description
技术领域
本发明涉及信息安全技术领域,具体涉及一种用于加密恶意流量的弱监督检测方法及系统。
背景技术
当前世界网络安全形势复杂多变,恶意流量的检测在抵御和防范攻击行为,在保障网络空间安全方面起着重要作用。流量加密传输方式的广泛应用,在保护通信安全和隐私的同时许多恶意软件也借此技术隐藏攻击信息,使得传统的基于端口和基于DPI的恶意流量检测方法失效。为了应对加密恶意流量检测,研究者们提出了基于机器学习的检测方法。基于机器学习的加密恶意流量检测方法通常构建统计特征,训练加密流量分类模型进行恶意流量识别,一方面,特征选择建立在丰富的经验、专业知识的基础上,需要耗费大量时间和人力。另一方面,大部分流量分类方案都采用有监督的学习方法训练模型,然而,获取大型细粒度标记流量训练集同样是一项繁琐的工作。
因此,如何利用少量粗标记样本和大量未标记样本实现加密恶意流量的细粒度分类成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种用于加密恶意流量的弱监督检测方法及系统。
本发明技术解决方案为:一种用于加密恶意流量的弱监督检测方法,包括:
步骤S1:采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled;
步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果;
步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过所述多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予所述得分不同的权重,最后通过Ladder Network模块,预测得到细分类的Xi的示例级分类结果。
本发明与现有技术相比,具有以下优点:
1、本发明公开了一种用于加密恶意流量的弱监督检测方法,采用深度学习方法,运用图像分类技术解决流量分类问题,能够直接从原始数据中学习特征,有效地进行加密恶意流量的细粒度检测。
2、本发明针对弱标记样本问题,提出了一种新的基于生成对抗网络和多示例的弱监督学习框架,可用少量粗标记样本和大量未标记样本进行模型训练,减少了样本标记的工作量。
3、本发明利用Ladder Network作为分类网络,提高了在少量标记样本情况下加密恶意流量检测的准确率。
附图说明
图1为本发明实施例中一种用于加密恶意流量的弱监督检测方法的流程图;
图2为本发明实施例中从原始流量数据转换为单通道灰度图的流程示意图;
图3为本发明实施例中半监督生成对抗网络的结构示意图;
图4为本发明实施例中基于多示例学习的卷积神经网络的结构示意图;
图5为本发明实施例中一种用于加密恶意流量的弱监督检测系统的结构框图。
具体实施方式
本发明提供了一种用于加密恶意流量的弱监督检测方法,采用深度学习方法,运用图像分类技术解决流量分类问题,能够直接从原始数据中学习特征,有效地进行加密恶意流量的细粒度检测。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种用于加密恶意流量的弱监督检测方法,包括下述步骤:
步骤S1:采集网络数据流,对数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled;
步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将生成样本Xgenerated、训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到粗分类的Xi的包级分类结果;
步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和LadderNetwork模块;将带有粗分类标签的Xi经过多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果。
在一个实施例中,上述步骤S1:采集网络数据流,对数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,具体包括:
步骤S11:对采集到的网络数据流进行分割,得到小型pcap数据包;对pcap数据包进行数据清洗,删除冗余数据,得到清洗后的pcap数据包;
首先,采集网络上的会话,包括双向流中的所有数据包,将所有具有相同五元组(源IP、目标IP、源端口、目标端口、传输协议)的一组数据包定义为属于同一数据流。利用开源工具SplitCap根据TCP和UDP会话分割原始数据流,拆分出多个小型pcap数据包。
其次,进行数据清洗。为获得pcap数据包中的有效负载,需要删除较小的会话,剔除pcap文件中的Global Header和Packet Header等非数据内容的字段,并对重复的数据包进行删除合并减少冗余。
步骤S12:对清洗后的pcap数据包进行裁剪,转化成单通道灰度图片Xi,其中,i∈[1,M],M为数据包个数;对Xi中部分样本进行标注,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,其中,Y为标记样本的标签,具体包括:
对数据清洗后的每个pcap数据包进行裁剪,本发明实施例以784(28*28)字节为一组,长度不够时在末尾填充0x00。以每个字节表示为一个像素,从而将每个数据包转化成大小为28*28的单通道灰度图片。将得到的所有图片构建训练集Xi,i∈[1,M],M为数据包个数,并选择Xi中部分样本进行标记,得到标记样本(Xlabeled,Y),Xi中其余样本作为未标记样本Xunlabeled。例如,按照数据包的类别,将数据包标记为FTP或者木马程序。
图2展示了从原始的流量数据转换为单通道灰度图的流程示意图。
在一个实施例中,步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将生成样本Xgenerated、训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到粗分类的Xi的包级分类结果,具体包括:
步骤S21:生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);
本步骤中,生成器的目标是使得生成样本尽可能接近真实样本,使得判别器无法区分生成样本和真实样本;
步骤S22:将生成样本Xgenerated、标记样本(Xlabeled,Y)和未标记样本Xunlabeled输入判别器D,利用判别器D得到每类样本的分布概率,再经过分类器C,得到每个Xi对应的包级标签Yi,其中Yi包括N+1个类别,其中前N类为标记样本(Xlabeled,Y)中Y所包含的类别,第N+1类为生成样本;
本步骤中,将生成样本Xgenerated、真实样本中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器,判别器能够学习每标签类别的分布概率;联合训练生成器G和判别器/分类器D/C,利用下述损失函数作为优化目标函数,不断迭代更新和优化半监督生成对抗网络的参数,直到达到纳什均衡则网络收敛;
步骤S23:分别构建有标签样本损失函数Llabeled、无标签样本损失函数Lunlabeled和生成样本损失函数Lgenerated,如公式(1)~(3)所示,用于优化半监督生成对抗网络的参数:
其中,pdata为真实样本分布,pG为生成样本分布,pmodel为预测分类的概率;
步骤S24:半监督生成对抗网络的优化目标函数,如公式(4)所示:
其中,G为生成器,D为判别器。
如图3所示,为半监督生成对抗网络的结构示意图。
本发明实施例改进了半监督生成对抗网络,通过极大极小博弈来寻找生成器和判别器的纳什均衡。生成器根据输入的随机噪声训练网络,产生尽可能接近真实数据的样本。判别器联合带标签的少量真实样本、不带标签的大量真实样本以及不带标签的生成样本训练网络,生成粗粒度的分类标签。
由于训练集中只对少量pcap数据包标注了标签,且该标签是粗粒度的,经过半监督生成对抗网络基于pcap数据包进行分类,得到的包级分类标签也是粗粒度的,即标记为正常的pcap包均为正常流量,而标记为恶意的pcap包中可能也包含部分正常流量,故需要进行细粒度检测,对于pcap包中恶意流量的具体位置进行标注。为了实现此目的,本发明实施例引入了多示例学习的方法,以示例instance作为最小训练单位,定义一个pcap包为一组示例的集合,利用步骤S2得到pcap数据包的包级粗粒度标签进行下述步骤S3的示例级细粒度标签的预测。
在一个实施例中,上述步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果,具体包括:
令图片其中,m为Xi中示例个数;如果Xi对应的pcap数据包中包含至少一条恶意流量,表明Xi中包含至少一个正示例,则即Xi被标记为1,表示Xi为可疑数据包;如果Xi对应的pcap数据包中全部为正常流量,则即Xi被标记为0,表示Xi正常数据包,标签域与示例级标签间的关系表示如公式(5)所示:
步骤S32:将被标记为可疑的Xi中的每个示例输入卷积神经网络的卷积层进行特征提取,并使用池化层将提取的特征转换为N维特征向量计算特征向量在每个维度的得分其中,k=1,2,...,N;如公式(6)所示;基于所有示例的得分,共同构成score map:
在本步骤中,只将步骤S31中Xi被标记为1,即可疑的数据包输入卷积神经网络的卷积层进行特征提取,并转换为N维特征向量,其中N对应于前述标记样本(Xlabeled,Y)中Y所包含的类别数,计算Xi中各个示例被分为对应类别的得分,构建score map。
其中,W是基于多示例学习的卷积神经网络的参数;b是多示例池化模块的参数,ωi是卷积层的中间特征向量;
本步骤中多示例池化模块(MILPooling)中通过加入注意力机制将score map中的得分赋予不同权重进行聚合,赋予关键示例更高的权重,以便更好地关注关键示例。
分类器输出预测类别的概率分布如公式(9)所示:
其中,为Ladder Network第l层与的第l-1层之间的权值,为非加噪编码器第l层的隐变量,T为转置;为的无噪声标签;其中,i∈[1,M],j∈[1,m],i∈[1,M],L是Ladder network的层数;
如图4展示的基于多示例学习的卷积神经网络的结构示意图,其中,LadderNetwork是一个L层的编码器-解码器结构,由一个加噪编码器、一个非加噪编码器以及一个解码器构成。加噪编码器添加高斯噪声N(0,σ2)到得到有噪声的输出标签用于计算损失函数。解码器对加噪编码器的每层输出进行重构,提高分类器的抗噪性能。非加噪编码器的输出标签用于得到分类结果;
步骤S35:构建总损失函数Ltotal:
构建监督损失函数Lsupervised卷积神经网络产生的交叉熵损失,如公式(10)所示:
构建非监督损失Lunsupervised由LadderNetwork每层的重构误差产生,如公式(11)所示:
构建总损失函数,如公式(12)所示:
Ltotal=Lsupervised+Lunsupervised(12)
根据总体损失函数更新基于多示例学习的卷积神经网络参数如公式(13)所示:
其中,超参数λ为常数。
本发明公开了一种用于加密恶意流量的弱监督检测方法,采用深度学习方法,运用图像分类技术解决流量分类问题,能够直接从原始数据中学习特征,有效地进行加密恶意流量的细粒度检测。本发明针对弱标记样本问题,提出了一种新的基于生成对抗网络和多示例学习的弱监督学习框架,可用少量粗标记样本和大量未标记样本进行模型训练,减少了样本标记的工作量。本发明利用Ladder Network作为分类网络,提高了在少量标记样本情况下加密恶意流量检测的准确率。
实施例二
如图5所示,本发明实施例提供了一种用于加密恶意流量的弱监督检测系统,包括下述模块:
构建样本集模块41,用于采集网络数据流,对数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled;
粗粒度分类模块42,用于构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将生成样本Xgenerated、训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入判别器D,预测每类样本的分布概率,经过分类器C得到粗分类的Xi的包级分类结果;
细粒度分类模块43,用于构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (5)
1.一种用于加密恶意流量的弱监督检测方法,其特征在于,包括:
步骤S1:采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled;
步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果;
步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和LadderNetwork模块;将带有粗分类标签的Xi经过所述多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予所述得分不同的权重,最后通过Ladder Network模块,预测得到细分类的Xi的示例级分类结果。
2.根据权利要求1所述的用于加密恶意流量的弱监督检测方法,其特征在于,所述步骤S1:采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,具体包括:
步骤S11:对采集到的网络数据流进行分割,得到M个pcap数据包;对所述pcap数据包进行数据清洗,删除冗余数据,得到清洗后pcap数据包;
步骤S12:对所述清洗后的pcap数据包进行裁剪,转化成单通道灰度图片,以此构建训练集Xi,其中,i∈[1,M],M为数据包个数;对Xi中部分样本进行标注,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled,其中,Y为所述标记样本的标签。
3.根据权利要求2所述的用于加密恶意流量的弱监督检测方法,其特征在于,所述步骤S2:构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果,具体包括:
步骤S21:生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);
步骤S22:将所述生成样本Xgenerated、所述标记样本(Xlabeled,Y)和所述未标记样本Xunlabeled输入判别器D,利用所述判别器D得到每类样本的分布概率,再经过分类器C,得到每个Xi对应的包级标签Yi,其中Yi包括N+1个类别,其中前N类为所述标记样本(Xlabeled,Y)中Y所包含的类别,第N+1类为生成样本;
步骤S23:分别构建有标签样本损失函数Llabeled、无标签样本损失函数Lunlabeled和生成样本损失函数Lgenerated,如公式(1)~(3)所示,用于优化所述半监督生成对抗网络的参数:
其中,pdata为真实样本分布,pG为生成样本分布,pmodel为预测分类的概率;
步骤S24:所述半监督生成对抗网络的优化目标函数,如公式(4)所示:
其中,G为生成器,D为判别器。
4.根据权利要求3所述的用于加密恶意流量的弱监督检测方法,其特征在于,所述步骤S3:构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过所述多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予所述得分不同的权重,最后通过Ladder Network模块,预测得到细分类的Xi的示例级分类结果,具体包括:
令图片其中,m为Xi中示例个数;如果Xi对应的pcap数据包中包含至少一条恶意流量,表明Xi中包含至少一个正示例,则即Xi被标记为1,表示Xi为可疑数据包;如果Xi对应的pcap数据包中全部为正常流量,则即Xi被标记为0,表示Xi正常数据包,标签域与示例级标签间的关系表示如公式(5)所示:
步骤S32:将被标记为可疑的Xi中的每个示例输入所述卷积神经网络的卷积层进行特征提取,并使用池化层将提取的特征转换为N维特征向量计算所述特征向量在每个维度的得分其中,k=1,2,...,N;如公式(6)所示;基于所有示例的得分,共同构成score map:
其中,W是基于多示例学习的卷积神经网络的参数;b是所述多示例池化模块的参数,ωi是所述卷积层的中间特征向量;
分类器输出预测类别的概率分布如公式(9)所示:
其中,为Ladder Network第l层与的第l-1层之间的权值,为非加噪编码器第l层的隐变量,T为转置;为的无噪声标签;其中,i∈[1,M],j∈[1,m],i∈[1,M],L为Laddernetwork的层数;
步骤S35:构建总损失函数Ltotal:
构建监督损失函数Lsupervised所述卷积神经网络产生的交叉熵损失,如公式(10)所示:
构建非监督损失Lunsupervised由LadderNetwork每层的重构误差产生,如公式(11)所示:
构建总损失函数,如公式(12)所示:
Ltotal=Lsupervised+Lunsupervised(12)
根据所述总体损失函数更新所述基于多示例学习的卷积神经网络参数如公式(13)所示:
其中,超参数λ为常数。
5.一种用于加密恶意流量的弱监督检测系统,其特征在于,包括下述模块:
构建样本集模块,用于采集网络数据流,对所述数据流分割成数据包并进行预处理后,转化成单通道灰度图片,以此构建训练集Xi,i∈[1,M],M为数据包个数,并对Xi中部分样本进行标记,得到标记样本(Xlabeled,Y)和未标记样本Xunlabeled;
粗粒度分类模块,用于构建和训练半监督生成对抗网络,包括:生成器G、判别器D和分类器C;其中,所述生成器G接收随机噪声矢量n,得到生成样本Xgenerated=G(n);将所述生成样本Xgenerated、所述训练集中的标记样本(Xlabeled,Y)和未标记样本Xunlabeled一起输入所述判别器D,预测每类样本的分布概率,经过所述分类器C得到粗分类的Xi的包级分类结果;
细粒度分类模块,用于构建基于多示例学习的卷积神经网络,包括:多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块;将带有粗分类标签的Xi经过所述多示例学习标注模块,得到Xi的示例分割以及包级标签,再经过卷积神经网络模块,计算Xi中示例的得分,通过多示例池化模块赋予所述得分不同的权重,最后通过LadderNetwork模块,预测得到细分类的Xi的示例级分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628110.7A CN114826776B (zh) | 2022-06-06 | 2022-06-06 | 一种用于加密恶意流量的弱监督检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628110.7A CN114826776B (zh) | 2022-06-06 | 2022-06-06 | 一种用于加密恶意流量的弱监督检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114826776A true CN114826776A (zh) | 2022-07-29 |
CN114826776B CN114826776B (zh) | 2023-05-02 |
Family
ID=82521329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210628110.7A Active CN114826776B (zh) | 2022-06-06 | 2022-06-06 | 一种用于加密恶意流量的弱监督检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114826776B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101817A (zh) * | 2018-08-13 | 2018-12-28 | 亚信科技(成都)有限公司 | 一种识别恶意文件类别的方法及计算设备 |
CN116915512A (zh) * | 2023-09-14 | 2023-10-20 | 国网江苏省电力有限公司常州供电分公司 | 电网中通信流量的检测方法、检测装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180024968A1 (en) * | 2016-07-22 | 2018-01-25 | Xerox Corporation | System and method for domain adaptation using marginalized stacked denoising autoencoders with domain prediction regularization |
CA2948499A1 (en) * | 2016-11-16 | 2018-05-16 | The Governing Council Of The University Of Toronto | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
CN108510000A (zh) * | 2018-03-30 | 2018-09-07 | 北京工商大学 | 复杂场景下行人细粒度属性的检测与识别方法 |
US20190046068A1 (en) * | 2017-08-10 | 2019-02-14 | Siemens Healthcare Gmbh | Protocol independent image processing with adversarial networks |
CN110832499A (zh) * | 2017-11-14 | 2020-02-21 | 谷歌有限责任公司 | 通过稀疏时间池化网络的弱监督动作定位 |
US20200160177A1 (en) * | 2018-11-16 | 2020-05-21 | Royal Bank Of Canada | System and method for a convolutional neural network for multi-label classification with partial annotations |
CN112598024A (zh) * | 2020-12-03 | 2021-04-02 | 天津理工大学 | 一种基于深度多示例学习和自注意力的医学图像分类方法 |
US11081219B1 (en) * | 2020-01-15 | 2021-08-03 | Ledgerdomain Inc. | Secure messaging in a machine learning blockchain network |
US11182691B1 (en) * | 2014-08-14 | 2021-11-23 | Amazon Technologies, Inc. | Category-based sampling of machine learning data |
CN114124551A (zh) * | 2021-11-29 | 2022-03-01 | 中国电子科技集团公司第三十研究所 | 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法 |
US20220129735A1 (en) * | 2019-05-20 | 2022-04-28 | Institute of intelligent manufacturing, Guangdong Academy of Sciences | Semi-supervised Hyperspectral Data Quantitative Analysis Method Based on Generative Adversarial Network |
-
2022
- 2022-06-06 CN CN202210628110.7A patent/CN114826776B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11182691B1 (en) * | 2014-08-14 | 2021-11-23 | Amazon Technologies, Inc. | Category-based sampling of machine learning data |
US20180024968A1 (en) * | 2016-07-22 | 2018-01-25 | Xerox Corporation | System and method for domain adaptation using marginalized stacked denoising autoencoders with domain prediction regularization |
CA2948499A1 (en) * | 2016-11-16 | 2018-05-16 | The Governing Council Of The University Of Toronto | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
US20190046068A1 (en) * | 2017-08-10 | 2019-02-14 | Siemens Healthcare Gmbh | Protocol independent image processing with adversarial networks |
CN110832499A (zh) * | 2017-11-14 | 2020-02-21 | 谷歌有限责任公司 | 通过稀疏时间池化网络的弱监督动作定位 |
CN108510000A (zh) * | 2018-03-30 | 2018-09-07 | 北京工商大学 | 复杂场景下行人细粒度属性的检测与识别方法 |
US20200160177A1 (en) * | 2018-11-16 | 2020-05-21 | Royal Bank Of Canada | System and method for a convolutional neural network for multi-label classification with partial annotations |
US20220129735A1 (en) * | 2019-05-20 | 2022-04-28 | Institute of intelligent manufacturing, Guangdong Academy of Sciences | Semi-supervised Hyperspectral Data Quantitative Analysis Method Based on Generative Adversarial Network |
US11081219B1 (en) * | 2020-01-15 | 2021-08-03 | Ledgerdomain Inc. | Secure messaging in a machine learning blockchain network |
CN112598024A (zh) * | 2020-12-03 | 2021-04-02 | 天津理工大学 | 一种基于深度多示例学习和自注意力的医学图像分类方法 |
CN114124551A (zh) * | 2021-11-29 | 2022-03-01 | 中国电子科技集团公司第三十研究所 | 一种WireGuard协议下基于多粒度特征提取的恶意加密流量识别的方法 |
Non-Patent Citations (3)
Title |
---|
WANZHI LU等: "《A Network Malicious Traffic Detection Method Based on Semi-Supervised Deep Learning》", 《2021 IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING, COMMUNICATIONS AND COMPUTING (ICSPCC)》 * |
曹辉煌: "《基于深度学习的半监督网络流量分类系统研究》", 《中国优秀硕士论文库全文库 信息科技辑》 * |
王恺鹏: "《基于深度学习的网络加密流量识别技术研究》", 《中国优秀硕士论文库全文库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101817A (zh) * | 2018-08-13 | 2018-12-28 | 亚信科技(成都)有限公司 | 一种识别恶意文件类别的方法及计算设备 |
CN109101817B (zh) * | 2018-08-13 | 2023-09-01 | 亚信科技(成都)有限公司 | 一种识别恶意文件类别的方法及计算设备 |
CN116915512A (zh) * | 2023-09-14 | 2023-10-20 | 国网江苏省电力有限公司常州供电分公司 | 电网中通信流量的检测方法、检测装置 |
CN116915512B (zh) * | 2023-09-14 | 2023-12-01 | 国网江苏省电力有限公司常州供电分公司 | 电网中通信流量的检测方法、检测装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114826776B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109617909B (zh) | 一种基于smote和bi-lstm网络的恶意域名检测方法 | |
CN111585997B (zh) | 一种基于少量标注数据的网络流量异常检测方法 | |
CN108900432B (zh) | 一种基于网络流行为的内容感知方法 | |
CN112671757B (zh) | 一种基于自动机器学习的加密流量协议识别方法及装置 | |
CN114826776A (zh) | 一种用于加密恶意流量的弱监督检测方法及系统 | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN110225030B (zh) | 基于rcnn-spp网络的恶意域名检测方法及系统 | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
CN113489751B (zh) | 一种基于深度学习的网络流量过滤规则转化方法 | |
CN114816909A (zh) | 一种基于机器学习的实时日志检测预警方法及系统 | |
CN110751222A (zh) | 基于cnn和lstm的在线加密流量分类方法 | |
Idrissi et al. | An unsupervised generative adversarial network based-host intrusion detection system for internet of things devices | |
CN115277587B (zh) | 网络流量识别方法、装置、设备及介质 | |
CN111367908A (zh) | 一种基于安全评估机制的增量式入侵检测方法及系统 | |
Chen et al. | Ride: Real-time intrusion detection via explainable machine learning implemented in a memristor hardware architecture | |
CN117527391A (zh) | 基于注意力机制和一维卷积神经网络的加密流量分类方法 | |
CN116405419A (zh) | 一种基于小样本学习的未知网络协议分类方法 | |
CN112686287A (zh) | 一种基于非因果时间卷积神经网络的加密流量分类方法 | |
CN116684133A (zh) | 基于双层注意力和时空特征并行融合的sdn网络异常流量分类装置及方法 | |
CN117349748A (zh) | 一种基于云边协同的主动学习故障诊断方法 | |
CN115952343A (zh) | 一种基于多关系图卷积网络的社交机器人检测方法 | |
CN117557843B (zh) | 一种基于半监督学习的流量识别方法及系统 | |
CN117633657A (zh) | 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质 | |
CN116628524A (zh) | 一种基于自适应图注意力编码器的社区发现方法 | |
CN115664970A (zh) | 基于双曲空间的网络异常点检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |