CN115529159B - 加密流量检测模型的训练方法、装置、设备及存储介质 - Google Patents
加密流量检测模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115529159B CN115529159B CN202210980514.2A CN202210980514A CN115529159B CN 115529159 B CN115529159 B CN 115529159B CN 202210980514 A CN202210980514 A CN 202210980514A CN 115529159 B CN115529159 B CN 115529159B
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- data packets
- image
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 9
- 238000007429 general method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102100026278 Cysteine sulfinic acid decarboxylase Human genes 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 108010064775 protein C activator peptide Proteins 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了加密流量检测模型的训练方法、装置、设备及存储介质,该方法包括:获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签;对所述流量数据进行预处理,获得第一样本集合以及第二样本集合;将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像;将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像;将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果;根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数。本发明避免加密流量检测任务中样本不平衡造成的应用效果不佳。
Description
技术领域
本发明涉及流量检测领域,具体地说,涉及加密流量检测模型的训练方法、装置、设备及存储介质。
背景技术
人工智能(AI)算法在网络安全领域中极具前景,应用广泛,其中有监督学习的算法占据了绝大部分。而无论是传统的机器学习算法,如逻辑回归、SVM(支持向量机)、NN(神经网络),还是近年所流行的深度学习算法,如CNN(卷积神经网络)、RNN(循环神经网络)等,这些有监督学习算法的实际表现都依赖于训练样本的质量,包括不同类别样本的平衡性、训练样本和实际应用场景的匹配性等。
加密流量的检测包括加密/非加密流量的分类、加密流量种类的分类等,加密流量的检测对于网络安全的相关任务具有一定的基础性作用。而在加密流量检测的实际应用场景中,容易出现训练样本不平衡的情况,这种训练样本不平衡的情况,极大制约了AI类算法在网络安全领域的实际应用效果。
由此,如何避免加密流量检测任务中样本不平衡造成的应用效果不佳,是本领域技术人员亟待解决的技术问题。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
针对现有技术中的问题,本发明的目的在于提供加密流量检测模型的训练方法、装置、设备及存储介质,克服了现有技术的困难,避免加密流量检测任务中样本不平衡造成的应用效果不佳。
本发明的实施例提供一种加密流量检测模型的训练方法,包括:
获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签;
对所述流量数据进行预处理,获得第一样本集合以及第二样本集合,其中,所述第一样本集合包括多个第一样本数据包,所述第二样本集合包括多个第二样本数据包,所述第一样本集合中的第一样本数据包的数量大于所述第二样本集合的所述第二样本数据包的数量;
将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像;
将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像,所述生成对抗网络模型的判别器用于识别所述第二图像与对应的所述第一图像的差异;
将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果;
根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数。
在本申请的一些实施例中,所述生成对抗网络模型的生成器以所述生成对抗网络模型的判别器将所述第二图像识别为对应的第一图像的概率大于设定阈值为目标进行训练。
在本申请的一些实施例中,所述生成器用于向所述第二样本集合中的多个第二样本数据包增加随机噪声,以生成第二图像。
在本申请的一些实施例中,所述对所述流量数据进行预处理包括:
将第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包;
将多个第一样本数据包和多个第二样本数据包分别按由大至小的顺序进行排序;
根据多个第一样本数据包中排序顺序中前N个第一样本数据包,生成第一样本集合,N为大于2的整数;
根据多个第二样本数据包中排序顺序中前N/2个第二样本数据包,生成第二样本集合。
在本申请的一些实施例中,所述将第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包之后包括:
使用零地址替换所述第一样本数据包和第二样本数据包中的地址信息。
在本申请的一些实施例中,所述将第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包之后包括:
将各所述第一样本数据包和所述第二样本数据包统一为同一数据长度。
根据本申请的又一方面,还提供一种加密流量检测方法,包括:
获取待检测流量数据;
对所述待检测流量数据进行预处理;
将预处理后的所述待检测流量数据转换为第三图像;
将所述第三图像输入至由所述的加密流量检测模型的训练方法训练获得的分类器中,获得分类器输出的分类结果。
根据本申请的又一方面,还提供一种加密流量检测模型的训练装置,包括:
第一获取模块,配置成获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签;
第二获取模块,配置成对所述流量数据进行预处理,获得第一样本集合以及第二样本集合,其中,所述第一样本集合包括多个第一样本数据包,所述第二样本集合包括多个第二样本数据包,所述第一样本集合中的第一样本数据包的数量大于所述第二样本集合的所述第二样本数据包的数量;
第一转换模块,配置成将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像;
第一输入模块,配置成将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像,所述生成对抗网络模型的判别器用于识别所述第二图像与对应的所述第一图像的差异;
第二输入模块,配置成将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果;
调整模块,配置成根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数。
根据本申请的又一方面,还提供一种加密流量检测装置,包括:
第三获取模块,配置成获取待检测流量数据;
预处理模块,配置成对所述待检测流量数据进行预处理;
第二转换模块,配置成将预处理后的所述待检测流量数据转换为第三图像;
第三输入模块,配置成将所述第三图像输入至由所述的加密流量检测模型的训练方法训练获得的分类器中,获得分类器输出的分类结果。
根据本发明的又一方面,还提供一种加密流量检测模型的训练处理设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行如上所述加密流量检测模型的训练方法的步骤。
本发明的实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述加密流量检测模型的训练方法的步骤。
相比现有技术,本发明的目的在于:
将生成对抗网络引入加密流量检测模型中,生成第二样本集合的第二图像,和第一样本集合及第二样本集合的第一图像合并作为分类器的输入,解决了加密流量检测任务中样本不平衡造成的应用效果不佳的问题,并且生成对抗网络和分类器可以联合训练,优化流量检测的效果,为加密流量的检测提供了通用的方法。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明的加密流量检测模型的训练方法的一种实施例的流程图。
图2是本发明的加密流量检测模型的训练方法的一种具体实施例的流程图。
图3是本发明的加密流量检测模型的示意图。
图4是本发明的加密流量检测方法的一种实施例的流程图。
图5是本发明的加密流量检测模型的训练装置的一种实施例的模块图。
图6是本发明的加密流量检测模装置的一种实施例的模块图。
图7是本发明的加密流量检测模型的训练设备的结构示意图。
图8是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
下面参见图1,图1是本发明的加密流量检测模型的训练方法的一种实施例的流程图。本发明的实施例提供一种加密流量检测模型的训练方法,包括以下步骤:
步骤S110:获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签。
具体而言,流量样本数据包括加密流量样本数据和非加密流量样本数据。流量样本数据还可以包括各种不同种类的流量。流量的种类可以按需设置为分类标签。在一些具体实现汇总,可以利用加拿大网络安全研究所提供的USTC-TK2016数据集获取一共14类流量,分别是7类非加密流量及7类其对应的加密流量,把存在歧义的类别去掉,剩下一共12类流量,包括6类非加密流量及6类对应的加密流量。该数据集可以分别用来进行2分类(加密流量和非加密流量的识别)、6分类(加密流量的种类识别及非加密流量的种类识别)、12分类(加密和非加密流量的种类识别)。本申请可以实现更多的变化方式,在此不予赘述。
步骤S120:对所述流量数据进行预处理,获得第一样本集合以及第二样本集合,其中,所述第一样本集合包括多个第一样本数据包,所述第二样本集合包括多个第二样本数据包,所述第一样本集合中的第一样本数据包的数量大于所述第二样本集合的所述第二样本数据包的数量。
具体而言,第二样本数据包的数量小于第一样本数据包的数量,从而本申请通过下述的生成对抗网络模型,来对第二样本数据包进行样本补充。进一步地,在一些具体实现中,第一样本数据包利于可以是非加密样本数据包,第二样本数据包可以是加密样本数据包。由于加密样本数据包的数量较少,从而可以通过下述的生成对抗网络模型进行扩充。在一些变化例中,还可以根据其它类别实现第一样本数据包和第二样本数据包的划分,例如,第一样本数据包为正常流量数据包,第二样本数据包为非正常流量数据包(如攻击流量数据包),本申请可以实现更多的变化方式,在此不予赘述。
步骤S130:将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像。
具体而言,第一图像可以是灰度图像。进一步地,可以为每个样本数据包转换获得一个第一图像。
步骤S140:将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像,所述生成对抗网络模型的判别器用于识别所述第二图像与对应的所述第一图像的差异。
具体而言,所述生成器用于向所述第二样本集合中的多个第二样本数据包增加随机噪声,以生成第二图像。所述生成对抗网络模型的生成器可以以所述生成对抗网络模型的判别器将所述第二图像识别为对应的第一图像的概率大于设定阈值为目标进行训练。由此,使得生成器生成的第二图像可以逃过判别器的判别,以增加第二样本集合的第二样本数据包的样本图像的数量。具体而言,在步骤S140中,通过生成器在第二样本集合的第二样本数据包对应的第一图像上增加随机噪声,以获得第二图像。
步骤S150:将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果。
步骤S160:根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数。
具体而言,可以根据所述分类器输出的分类结果与所述分类标签计算分类器的损失函数,从而能够基于损失函数对分类器进行训练。
由此,将生成对抗网络引入加密流量检测模型中,生成第二样本集合的第二图像,和第一样本集合及第二样本集合的第一图像合并作为分类器的输入,解决了加密流量检测任务中样本不平衡造成的应用效果不佳的问题,并且生成对抗网络和分类器可以联合训练,优化流量检测的效果,为加密流量的检测提供了通用的方法。
下面参见图2,图2是本发明的加密流量检测模型的训练方法的一种具体实施例的流程图。
步骤S201:获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签;
步骤S202:将第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包。
具体而言,第二流量数据的数量小于第一流量数据包的数量,从而本申请通过下述的生成对抗网络模型,来对第二流量数据对应的第二样本数据包进行样本补充。第一样本数据包和第二样本数据包可以为pcap格式(一种数据流格式)。
步骤S203:使用零地址替换所述第一样本数据包和第二样本数据包中的地址信息。
具体而言,步骤S203可以进行匿名化处理,使用零地址替换原有数据包中的MAC地址,IP地址和端口号,且不对格式进行修改。
步骤S204:将多个第一样本数据包和多个第二样本数据包分别按由大至小的顺序进行排序。
步骤S205:根据多个第一样本数据包中排序顺序中前N个第一样本数据包,生成第一样本集合,N为大于2的整数。
步骤S206:根据多个第二样本数据包中排序顺序中前N/2个第二样本数据包,生成第二样本集合。
具体而言,当N为偶数时,步骤S205可以直接获取N/2个第二样本数据包;当N为奇数时,步骤S205可以直接获取(N+1)/2或者(N-1)/2个第二样本数据包,本申请并非以此为限制。
步骤S207:将各所述第一样本数据包和所述第二样本数据包统一为同一数据长度。
在一些具体实现中,可以将所述第一样本数据包和所述第二样本数据包(PCAP文件)统一修剪为784字节(28x28),如果PCAP文件短于784字节,则追加0x00。
步骤S208:将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像。
具体而言,可以将统一长度的所述第一样本数据包和所述第二样本数据包按照二进制形式转为灰度图片(例如可以为png格式),得到原始图像。
步骤S209:将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像,所述生成对抗网络模型的判别器用于识别所述第二图像与对应的所述第一图像的差异。
步骤S210:将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果。
具体而言,步骤S210中可以对所述第二图像和所述第一图像进行格式转换,即将图片转为numpy库中的array格式,然后统一存储为npy格式,以作为分类器的输入。
步骤S211:根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数。
图3是本发明的加密流量检测模型的示意图。
如图3所示,生成对抗网络由生成器和鉴别器组成,生成器可以由3层感知器组成,输入大小可以为100的一维随机噪声,其网络参数依次是196、392、784。鉴别器由3层感知器组成,其输入大小为784的一维数据,网络参数依次可以为392、196,输出0或者1,即生成的图片和对应的第一图像是否相近。分类器可以选用卷积神经网络,由输入层、卷积层、池化层、输出层组成。
由此,第一样本数据包和第二样本数据包生成的第一图像中,第二样本数据包生成的第一图像可以输入到生成对抗网络中,以生成对应的第二图像,将第一图像和第二图像输入到分类器中,以获得分类结果。生成对抗网络中的生成器被训练使得鉴别器能够将生成器输出的第二图像误认为用于进行训练的图像。
进一步地,分类器和生成对抗网络模型可以联合训练。
下面参见图4,图4是本发明的加密流量检测方法的一种实施例的流程图。
步骤S410:获取待检测流量数据。
步骤S420:对所述待检测流量数据进行预处理。
具体而言,待检测流量数据的预处理的方式可以与样本数据的预处理方式类似。进一步地,可以将待检测流量数据划分为多个数据包,并进行地址替换、长度统一,本申请可以实现更多的变化方式,再次不予赘述。
步骤S430:将预处理后的所述待检测流量数据转换为第三图像。
具体而言,可以将统一长度的待检测流量数据的数据包按照二进制形式转为灰度图片(例如可以为png格式)。
步骤S440:将所述第三图像输入至由所述的加密流量检测模型的训练方法训练获得的分类器中,获得分类器输出的分类结果。
分类结果可以指示待检测流量数据为加密流量、非加密流量、流量类别等,本申请可以实现更多的变化方式,在此不予赘述。
以上仅仅是示意性地描述本发明的具体实现方式,本发明并非也以此为限制,步骤的拆分、合并、执行顺序的变化、模块的拆分、合并、信息传输的变化皆在本发明的保护范围之内。
图5是本发明的加密流量检测模型的训练装置的一种实施例的模块图。本发明的加密流量检测模型的训练装置500,如图5所示,包括但不限于:第一获取模块510、第二获取模块520、第一转换模块530、第一输入模块540、第二输入模块550以及调整模块560
第一获取模块510配置成获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签;
第二获取模块520配置成对所述流量数据进行预处理,获得第一样本集合以及第二样本集合,其中,所述第一样本集合包括多个第一样本数据包,所述第二样本集合包括多个第二样本数据包,所述第一样本集合中的第一样本数据包的数量大于所述第二样本集合的所述第二样本数据包的数量;
第一转换模块530配置成将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像;
第一输入模块540配置成将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像,所述生成对抗网络模型的判别器用于识别所述第二图像与对应的所述第一图像的差异;
第二输入模块550配置成将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果;
调整模块560配置成根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数。
图6是本发明的加密流量检测模型的训练装置的另一种实施例的模块示意图。本发明的加密流量检测模型的训练装600包括但不限于:第三获取模块610、预处理模块620、第二转换模块630以及第三输入模块640:
第三获取模块610配置成获取待检测流量数据;
预处理模块620配置成对所述待检测流量数据进行预处理;
第二转换模块630配置成将预处理后的所述待检测流量数据转换为第三图像;
第三输入模块640配置成将所述第三图像输入至由所述的加密流量检测模型的训练方法训练获得的分类器中,获得分类器输出的分类结果。
上述模块的实现原理参见加密流量检测模型的训练方法中的相关介绍,此处不再赘述。
本发明的加密流量检测模型的训练装置以及加密流量检测装置,将生成对抗网络引入加密流量检测模型中,生成第二样本集合的第二图像,和第一样本集合及第二样本集合的第一图像合并作为分类器的输入,解决了加密流量检测任务中样本不平衡造成的应用效果不佳的问题,并且生成对抗网络和分类器可以联合训练,优化流量检测的效果,为加密流量的检测提供了通用的方法。
图5和图6仅仅是示意性的分别示出本发明提供的加密流量检测模型的训练装置500和600,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的加密流量检测模型的训练装置500和600可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
本发明实施例还提供一种加密流量检测模型的训练和/或加密流量检测处理设备,包括处理器。存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行的加密流量检测模型的训练和/或加密流量检测方法的步骤。
如上所示,该实施例本发明的加密流量检测模型的训练和/或加密流量检测处理设备将生成对抗网络引入加密流量检测模型中,生成第二样本集合的第二图像,和第一样本集合及第二样本集合的第一图像合并作为分类器的输入,解决了加密流量检测任务中样本不平衡造成的应用效果不佳的问题,并且生成对抗网络和分类器可以联合训练,优化流量检测的效果,为加密流量的检测提供了通用的方法。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图7是本发明的加密流量检测模型的训练和/或加密流量检测处理设备的结构示意图。下面参照图7来描述根据本发明的这种实施方式的电子设备800。图7显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:至少一个处理单元810、至少一个存储单元820、连接不同平台组件(包括存储单元820和处理单元810)的总线830、显示单元840等。
其中,存储单元存储有程序代码,程序代码可以被处理单元810执行,使得处理单元810执行本说明书上述加密流量检测模型的训练和/或加密流量检测方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元810可以执行如图1中所示的步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备8001(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器860可以通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的加密流量检测模型的训练和/或加密流量检测方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述加密流量检测模型的训练和/或加密流量检测方法部分中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的用以执行加密流量检测模型的训练和/或加密流量检测的计算机可读存储介质将生成对抗网络引入加密流量检测模型中,生成第二样本集合的第二图像,和第一样本集合及第二样本集合的第一图像合并作为分类器的输入,解决了加密流量检测任务中样本不平衡造成的应用效果不佳的问题,并且生成对抗网络和分类器可以联合训练,优化流量检测的效果,为加密流量的检测提供了通用的方法。
图8是本发明的计算机可读存储介质的结构示意图。参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上,将生成对抗网络引入加密流量检测模型中,生成第二样本集合的第二图像,和第一样本集合及第二样本集合的第一图像合并作为分类器的输入,解决了加密流量检测任务中样本不平衡造成的应用效果不佳的问题,并且生成对抗网络和分类器可以联合训练,优化流量检测的效果,为加密流量的检测提供了通用的方法。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (11)
1.一种加密流量检测模型的训练方法,其特征在于,包括:
获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签;
对所述流量数据进行预处理,获得第一样本集合以及第二样本集合,其中,所述第一样本集合包括多个第一样本数据包,所述第二样本集合包括多个第二样本数据包,所述第一样本集合中的第一样本数据包的数量大于所述第二样本集合的所述第二样本数据包的数量;
将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像;
将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像,所述生成对抗网络模型的判别器用于识别所述第二图像与对应的所述第一图像的差异;
将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果;
根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数;
所述对所述流量数据进行预处理,包括:
将所述流量数据中的第一流量数据和第二流量数据分别按会话层切分为包括所述多个第一样本数据包的所述第一样本集合和包括所述多个第二样本数据包的所述第二样本集合,其中,所述第二流量数据的数量小于所述第一流量数据的数量。
2.根据权利要求1所述的加密流量检测模型的训练方法,其特征在于,所述生成对抗网络模型的生成器以所述生成对抗网络模型的判别器将所述第二图像识别为对应的第一图像的概率大于设定阈值为目标进行训练。
3.根据权利要求2所述的加密流量检测模型的训练方法,其特征在于,所述生成器用于向所述第二样本集合中的多个第二样本数据包增加随机噪声,以生成第二图像。
4.根据权利要求1所述的加密流量检测模型的训练方法,其特征在于,所述对所述流量数据进行预处理还包括:
将多个第一样本数据包和多个第二样本数据包分别按由大至小的顺序进行排序;
根据多个第一样本数据包中排序顺序中前N个第一样本数据包,生成第一样本集合,N为大于2的整数;
根据多个第二样本数据包中排序顺序中前N/2个第二样本数据包,生成第二样本集合。
5.根据权利要求4所述的加密流量检测模型的训练方法,其特征在于,所述将第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包之后包括:
使用零地址替换所述第一样本数据包和第二样本数据包中的地址信息。
6.根据权利要求4所述的加密流量检测模型的训练方法,其特征在于,所述将第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包之后包括:
将各所述第一样本数据包和所述第二样本数据包统一为同一数据长度。
7.一种加密流量检测方法,其特征在于,包括:
获取待检测流量数据;
对所述待检测流量数据进行预处理;
将预处理后的所述待检测流量数据转换为第三图像;
将所述第三图像输入至由权利要求1至6任一项所述的加密流量检测模型的训练方法训练获得的分类器中,获得分类器输出的分类结果;
所述对所述待检测流量数据进行预处理,包括:
将所述待检测流量数据中的第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包,所述预处理后的所述待检测流量数据包括所述多个第一样本数据包和多个第二样本数据包,其中,所述第二流量数据的数量小于所述第一流量数据的数量。
8.一种加密流量检测模型的训练装置,其特征在于,包括:
第一获取模块,配置成获取流量样本数据,所述流量样本数据包括流量数据以及流量数据的分类标签;
第二获取模块,配置成对所述流量数据进行预处理,获得第一样本集合以及第二样本集合,其中,所述第一样本集合包括多个第一样本数据包,所述第二样本集合包括多个第二样本数据包,所述第一样本集合中的第一样本数据包的数量大于所述第二样本集合的所述第二样本数据包的数量;
第一转换模块,配置成将所述第一样本集合和所述第二样本集合中的多个样本数据包转换为第一图像;
第一输入模块,配置成将所述第二样本集合输入生成对抗网络模型中,所述生成对抗网络模型的生成器基于所述第二样本集合生成第二图像,所述生成对抗网络模型的判别器用于识别所述第二图像与对应的所述第一图像的差异;
第二输入模块,配置成将所述第二图像和所述第一图像,输入至分类器中,获得分类器输出的分类结果;
调整模块,配置成根据所述分类器输出的分类结果与所述分类标签的比较,调整所述分类器的参数;
所述第二获取模块具体配置成:
将所述流量数据中的第一流量数据和第二流量数据分别按会话层切分为包括所述多个第一样本数据包的所述第一样本集合和包括所述多个第二样本数据包的所述第二样本集合,其中,所述第二流量数据的数量小于所述第一流量数据的数量。
9.一种加密流量检测装置,其特征在于,包括:
第三获取模块,配置成获取待检测流量数据;
预处理模块,配置成对所述待检测流量数据进行预处理;
第二转换模块,配置成将预处理后的所述待检测流量数据转换为第三图像;
第三输入模块,配置成将所述第三图像输入至由权利要求1至6任一项所述的加密流量检测模型的训练方法训练获得的分类器中,获得分类器输出的分类结果;
所述预处理模块具体配置成:
将所述待检测流量数据中的第一流量数据和第二流量数据分别按会话层切分为多个第一样本数据包和多个第二样本数据包,所述预处理后的所述待检测流量数据包括所述多个第一样本数据包和多个第二样本数据包。
10.一种加密流量检测模型的训练处理设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行:
权利要求1至6任意一项所述加密流量检测模型的训练方法;和/或
权利要求7所述的加密流量检测方法。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现:
权利要求1至6任意一项所述加密流量检测模型的训练方法;和/或
权利要求7所述的加密流量检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980514.2A CN115529159B (zh) | 2022-08-16 | 2022-08-16 | 加密流量检测模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980514.2A CN115529159B (zh) | 2022-08-16 | 2022-08-16 | 加密流量检测模型的训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115529159A CN115529159A (zh) | 2022-12-27 |
CN115529159B true CN115529159B (zh) | 2024-03-08 |
Family
ID=84696642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210980514.2A Active CN115529159B (zh) | 2022-08-16 | 2022-08-16 | 加密流量检测模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115529159B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476290A (zh) * | 2020-04-03 | 2020-07-31 | 北京推想科技有限公司 | 检测模型训练方法、淋巴结检测方法、装置、设备及介质 |
WO2021087985A1 (zh) * | 2019-11-08 | 2021-05-14 | 深圳市欢太科技有限公司 | 模型训练方法、装置、存储介质及电子设备 |
CN113887447A (zh) * | 2021-10-08 | 2022-01-04 | 中国科学院半导体研究所 | 对象分类模型的训练方法、对象分类预测方法及装置 |
CN114118345A (zh) * | 2020-08-31 | 2022-03-01 | 北京三星通信技术研究有限公司 | 生成对抗网络的训练方法、数据分类方法及相关设备 |
-
2022
- 2022-08-16 CN CN202210980514.2A patent/CN115529159B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021087985A1 (zh) * | 2019-11-08 | 2021-05-14 | 深圳市欢太科技有限公司 | 模型训练方法、装置、存储介质及电子设备 |
CN111476290A (zh) * | 2020-04-03 | 2020-07-31 | 北京推想科技有限公司 | 检测模型训练方法、淋巴结检测方法、装置、设备及介质 |
CN114118345A (zh) * | 2020-08-31 | 2022-03-01 | 北京三星通信技术研究有限公司 | 生成对抗网络的训练方法、数据分类方法及相关设备 |
CN113887447A (zh) * | 2021-10-08 | 2022-01-04 | 中国科学院半导体研究所 | 对象分类模型的训练方法、对象分类预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115529159A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9973521B2 (en) | System and method for field extraction of data contained within a log stream | |
KR102093275B1 (ko) | 악성코드 감염 유도정보 판별 시스템, 프로그램이 기록된 저장매체 및 방법 | |
US20150127925A1 (en) | Computing Architecture for Operating on Sequential Data | |
Zhao et al. | CAN bus intrusion detection based on auxiliary classifier GAN and out-of-distribution detection | |
CN111435461B (zh) | 使用降低精度的深度神经网络的对抗性输入识别 | |
Panigrahi et al. | Big data and cyber foraging: future scope and challenges | |
CN115412370B (zh) | 车辆通信数据检测方法、装置、电子设备和可读介质 | |
US20240333508A1 (en) | Systems and methods for intelligently constructing, transmitting, and validating spoofing-conscious digitally signed web tokens using microservice components of a cybersecurity threat mitigation platform | |
US20170147391A1 (en) | Context Switching for Computing Architecture Operating on Sequential Data | |
Kamran et al. | Semi-supervised conditional GAN for simultaneous generation and detection of phishing URLs: A game theoretic perspective | |
CN114866310A (zh) | 一种恶意加密流量检测方法、终端设备及存储介质 | |
KR20200133644A (ko) | 악성 멀티미디어 파일을 분류하는 인공지능 기반 장치, 방법 및 그 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록매체 | |
Tasyurek et al. | Rt-droid: a novel approach for real-time android application analysis with transfer learning-based cnn models | |
CN115529159B (zh) | 加密流量检测模型的训练方法、装置、设备及存储介质 | |
Ahanger et al. | Securing Consumer Internet of Things for Botnet Attacks: Deep Learning Approach. | |
CN114978585B (zh) | 基于流量特征的深度学习对称加密协议识别方法 | |
CN116938536A (zh) | 网络攻击对象检测方法、系统、装置、设备和介质 | |
KR20220099749A (ko) | 하이브리드 인공지능 기반의 악성코드 탐지 장치 및 방법 | |
CN113452810A (zh) | 一种流量分类方法、装置、设备和介质 | |
Luo et al. | High-Speed Network Attack Detection Framework Based on Optimized Feature Selection | |
CN118157998B (zh) | 电力网络流量异常检测方法、装置、设备及介质 | |
US11048477B2 (en) | Entropy server for random number generation | |
CN117834184A (zh) | 一种互联网恶意实体的检测方法与存储介质 | |
Ge et al. | EMTD-SSC: An Enhanced Malicious Traffic Detection Model Using Transfer Learning Under Small Sample Conditions In IoT | |
CN117743906A (zh) | 有监督学习识别方法、装置、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |