CN112465003B - 一种加密离散序列报文的识别方法及系统 - Google Patents
一种加密离散序列报文的识别方法及系统 Download PDFInfo
- Publication number
- CN112465003B CN112465003B CN202011322427.5A CN202011322427A CN112465003B CN 112465003 B CN112465003 B CN 112465003B CN 202011322427 A CN202011322427 A CN 202011322427A CN 112465003 B CN112465003 B CN 112465003B
- Authority
- CN
- China
- Prior art keywords
- data
- labeled
- screening
- plaintext
- pieces
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种加密离散序列报文的识别方法及系统,该方法为:获取多条待测数据、预设的带标签数据集和多条无标签数据;将多条无标签数据和带标签数据集输入预设的筛选模型进行数据分布筛选,从多条无标签数据中筛选与带标签明文数据分布相同的半标记明文数据;将半标记明文数据、带标签数据集、预设的加密数据和多条待测数据输入预设的半监督分类识别模型进行分类识别,从多条待测数据中筛选出最终的加密数据和最终的明文数据。在识别加密流量的过程中不限定待测数据的长度,并通过无标签数据辅助对待测数据的分类识别,提高识别加密流量的准确率和效果。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种加密离散序列报文的识别方法及系统。
背景技术
由于离散序列报文数据的应用领域的特殊性,此类数据的安全问题尤为突出,黑客可利用远程干扰、拦截或修改无线网络系统配置等手段,攻击和控制飞行设备,因此加密离散序列报文的分类识别在网络安全和管理中尤为重要。
目前识别加密流量的方式为负载随机性检测方式,即对数据有效负载进行频数检测、游程检测和信息熵计算等随机性检测。但是,负载随机性检测方式要求所检测的数据的长度较长,需要检测的数据的长度通常在千字节量级,而离散序列报文的长度通常在百字节以内,因此负载随机性检测方式无法对加密离散序列报文进行准确的识别,即负载随机性检测方式识别加密流量的准确率较低和效果较差。
发明内容
有鉴于此,本发明实施例提供一种加密离散序列报文的识别方法及系统,以解决负载随机性检测方式识别加密流量存在的准确率较低和效果较差等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种加密离散序列报文的识别方法,所述方法包括:
获取多条待测数据、预设的带标签数据集和多条无标签数据,每条所述待测数据的类型为离散序列报文数据,所述带标签数据集包含多种协议类型的带标签加密数据和带标签明文数据;
将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据,所述筛选模型基于样本数据训练生成式对抗网络GAN得到,所述筛选模型包括第一生成器和判别器;
将所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入预设的半监督分类识别模型进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据,所述半监督分类识别模型基于样本数据和所述筛选模型训练GAN得到,所述半监督分类识别模型包括第二生成器和分类器。
优选的,所述将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据,包括:
将随机噪声输入预设的筛选模型的第一生成器,得到相应的第一假数据;
将所述第一假数据、所述多条无标签数据和所述带标签数据集输入所述筛选模型的判别器进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据。
优选的,所述将所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入预设的半监督分类识别模型进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据,包括:
将随机噪声输入预设的半监督分类识别模型的第二生成器,得到相应的第二假数据;
将所述第二假数据、所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入所述半监督分类识别模型的分类器进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据。
优选的,基于样本数据和所述筛选模型训练得到所述半监督分类识别模型的过程包括:
将无标签样本数据和带标签样本数据集输入所述筛选模型进行分布筛选,从所述无标签样本数据中筛选与带标签明文样本数据分布相同的半标记明文样本数据,所述带标签样本数据集包含多种协议类型的带标签加密样本数据和带标签明文样本数据;
利用所述半标记明文样本数据、所述带标签样本数据集、加密样本数据和待测样本数据,训练GAN直至收敛,得到半监督分类识别模型。
优选的,所述将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选之前,还包括:
对所述无标签数据、所述带标签加密数据和所述带标签明文数据按固定的数据长度进行截短处理或填充处理,得到数据长度一致的所述无标签数据、所述带标签加密数据和所述带标签明文数据。
本发明实施例第二方面公开一种加密离散序列报文的识别系统,所述系统包括:
获取单元,用于获取多条待测数据、预设的带标签数据集和多条无标签数据,每条所述待测数据的类型为离散序列报文数据,所述带标签数据集包含多种协议类型的带标签加密数据和带标签明文数据;
筛选单元,用于将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据,所述筛选模型基于样本数据训练生成式对抗网络GAN得到,所述筛选模型包括第一生成器和判别器;
分类单元,用于将所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入预设的半监督分类识别模型进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据,所述半监督分类识别模型基于样本数据和所述筛选模型训练GAN得到,所述半监督分类识别模型包括第二生成器和分类器。
优选的,所述筛选单元具体用于:将随机噪声输入预设的筛选模型的第一生成器,得到相应的第一假数据,将所述第一假数据、所述多条无标签数据和所述带标签数据集输入所述筛选模型的判别器进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据。
优选的,所述分类单元具体用于:将随机噪声输入预设的半监督分类识别模型的第二生成器,得到相应的第二假数据,将所述第二假数据、所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入所述半监督分类识别模型的分类器进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据。
优选的,用于训练得到所述半监督分类识别模型的分类单元,包括:
处理模块,用于将无标签样本数据和带标签样本数据集输入所述筛选模型进行分布筛选,从所述无标签样本数据中筛选与带标签明文样本数据分布相同的半标记明文样本数据,所述带标签样本数据集包含多种协议类型的带标签加密样本数据和带标签明文样本数据;
训练模块,用于利用所述半标记明文样本数据、所述带标签样本数据集、加密样本数据和待测样本数据,训练GAN直至收敛,得到半监督分类识别模型。
优选的,所述系统还包括:
预处理单元,用于对所述无标签数据、所述带标签加密数据和所述带标签明文数据按固定的数据长度进行截短处理或填充处理,得到数据长度一致的所述无标签数据、所述带标签加密数据和所述带标签明文数据。
基于上述本发明实施例提供的一种加密离散序列报文的识别方法及系统,该方法为:获取多条待测数据、预设的带标签数据集和多条无标签数据;将多条无标签数据和带标签数据集输入预设的筛选模型进行数据分布筛选,从多条无标签数据中筛选与带标签明文数据分布相同的半标记明文数据;将半标记明文数据、带标签数据集、预设的加密数据和多条待测数据输入预设的半监督分类识别模型进行分类识别,从多条待测数据中筛选出最终的加密数据和最终的明文数据。本方案中,利用筛选模型从无标签数据中筛选出与带标签明文数据分布相同的半标记明文数据,结合半标记明文数据、带标签数据集和预设的加密数据,结合半监督分类识别模型对待测数据进行分类识别,筛选出多条待测数据中最终的加密数据和最终的明文数据,不限定待测数据的长度在一定长度以上,利用无标签数据辅助对待测数据的分类识别,提高识别加密流量的准确率和效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种加密离散序列报文的识别方法的流程图;
图2为本发明实施例提供的GAN的结构示意图;
图3为本发明实施例提供的利用筛选模型和半监督分类识别模型进行分类识别的示意图;
图4为本发明实施例提供的一种加密离散序列报文的识别系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前通常使用负载随机性检测方式识别加密流量,但是对于加密离散序列报文,离散序列报文的长度通常在百字节以内,而负载随机性检测方式要求所检测的数据的长度在千字节量级,因此负载随机性检测方式无法对加密离散序列报文进行准确的识别,即负载随机性检测方式识别加密流量的准确率较低和效果较差。
故,本发明实施例提供一种加密离散序列报文的识别方法及系统,利用筛选模型从无标签数据中筛选出与带标签明文数据分布相同的半标记明文数据,结合半标记明文数据、带标签数据集和预设的加密数据,结合半监督分类识别模型对待测数据进行分类识别,筛选出多条待测数据中最终的加密数据和最终的明文数据,不限定待测数据的长度在一定长度以上,利用无标签数据辅助对待测数据的分类识别,以提高识别加密流量的准确率和效果。
需要说明的是,离散序列报文数据是指在数据特征层面上具备数据离散和长度短等特殊性的数据。
参见图1,示出了本发明实施例提供的一种加密离散序列报文的识别方法,
步骤S101:获取多条待测数据、预设的带标签数据集和多条无标签数据(记为DUnlabel)。
优选的,在获取带标签数据集和多条无标签数据之后,提取带标签数据集和多条无标签数据的公开协议数据有效载荷后,将原始01比特序列转换为字节向量并进行归一化,再对归一化后的带标签数据集和多条无标签数据按固定的数据长度进行截短处理或填充处理,得到数据长度一致的所述无标签数据、带标签加密数据和带标签明文数据。
需要说明的是,在本发明实施例中,明文数据即为非加密数据。
需要说明的是,筛选模型基于样本数据训练生成式对抗网络(GenerativeAdversarialNetworks,GAN)得到,筛选模型包括第一生成器和判别器。
可以理解的是,GAN主要由生成器和判别器构成,GAN中引入了对抗学习并通过竞争训练后,生成器能表征真实样本的数据分布,判别器也具备分辨真假的能力,为更好解释说明GAN的结构,通过图2示出的GAN的结构示意图进行举例说明,图2中示出的GAN的结构仅仅用于举例。
在图2中,GAN主要包含生成器和判别器,将噪声输入生成器可生成相应的假数据,再将该假数据输入判别器中的输入层进行后续处理。
在具体实现步骤S102的过程中,将多条无标签数据和带标签数据集输入筛选模型进行数据分布筛选,从多条无标签数据中筛选与带标签明文数据分布相同的半标记明文数据,即利用筛选模型从多条无标签数据中筛选与带标签明文数据相似的半标记明文数据。
具体如何利用筛选模型筛选得到半标记明文数据的具体过程为:将随机噪声输入筛选模型的第一生成器,得到相应的第一假数据。将第一假数据、多条无标签数据和带标签数据集输入筛选模型的判别器进行数据分布筛选,从多条无标签数据中筛选与带标签明文数据分布相同的半标记明文数据。
可以理解的是,根据上述提及的内容,训练得到的筛选模型用于筛选分别相同的数据(即筛选相似的数据),只需一个能区分无标签数据中与目标数据(比如上述的带标签明文数据)分布相同和分布不相同的二分类器,发明人经研究发现,GAN中的判别器可满足前述二分类器的要求。
也就是说,GAN的生成器以随机噪声作为输入生成假数据,判别器再对输入的真数据和假数据进行判别,因此基于样本数据训练GAN得到筛选模型,利用筛选模型中的判别器筛选多条无标签数据中与带标签明文数据分布相同的半标记明文数据。
具体训练GAN得到筛选模型的过程主要分为两步,具体内容如下:
第二步:固定判别器的参数,输入随机噪声训练第一生成器,使判别器的输出最大。
不断重复上述第一步和第二步的内容,直至第一生成器所生成的数据质量和判别器的判别效果符合预设要求,从而得到筛选模型,此外,筛选模型的判别器的输出为0到1之间的标量,该标量可用来刻画数据之间的相似度。
训练得到的筛选模型的具体参数如表1。
表1:
需要说明的是,上述表1示出的内容仅仅用于举例说明,筛选模型的具体参数可根据实际情况确定,在此不做具体限定。
需要说明的是,半监督分类识别模型基于样本数据和筛选模型训练GAN得到,半监督分类识别模型包括第二生成器和分类器。
可以理解的是,上述步骤S102中利用筛选模型筛选得到的半标记明文数据并不是纯净的非加密数据,因此在利用半标记明文数据对待测数据进行分类识别时,需要结合利用预设加密算法加密的加密数据进共同作为无标签数据辅助分类识别。
在具体实现步骤S103的过程中,将半标记明文数据、带标签数据集、预设的加密数据和多条待测数据输入半监督分类识别模型进行分类识别,从该多条待测数据中筛选出最终的加密数据和最终的明文数据。
具体分类识别多条待测数据中最终的加密数据和最终的明文数据的过程为:将随机噪声输入半监督分类识别模型的第二生成器,得到相应的第二假数据,将第二假数据、半标记明文数据、带标签数据集、预设的加密数据和多条待测数据输入半监督分类识别模型的分类器进行分类识别,从多条待测数据中筛选出最终的加密数据和最终的明文数据。
为更好解释说明上述本发明实施例步骤S101至步骤S103的内容,通过图3示出的利用筛选模型和半监督分类识别模型进行分类识别的示意图进行举例说明,需要说明的是,图3仅用于举例说明。
根据图3示出的内容可知,筛选模型包含第一生成器(图3中的生成器1)和判别器,该第一生成器中包含隐藏层1、隐藏层2和隐藏层3,筛选模型的判别器包含输入层、隐藏层1、隐藏层2、隐藏层3和输出层。半监督分类识别模型包含第二生成器(图3中的生成器2)和分类器,该第二生成器包含隐藏层1、隐藏层2和隐藏层3,该半监督分类识别模型的分类器包含输入层、隐藏层、长短期记忆网络(Long Short-TermMemory,LSTM)层和输出层。
可以理解的是,筛选模型可识别输入自身的数据为“真”数据或“假”数据,半监督分类识别模型可识别输入自身的数据为加密数据、非加密数据或“假”数据。
根据图3示出的内容可知,输入半监督分类识别模型的半标记明文数据为由筛选模型获取的,因此在训练GAN得到半监督分类识别模型的过程中,需要结合样本数据和筛选模型对GAN进行训练。
训练GAN得到半监督分类识别模型的具体过程为:将无标签样本数据和带标签样本数据集输入筛选模型进行分布筛选,从无标签样本数据中筛选与带标签明文样本数据分布相同的半标记明文样本数据,带标签样本数据集包含多种协议类型的带标签加密样本数据和带标签明文样本数据。利用半标记明文样本数据、带标签样本数据集、加密样本数据和待测样本数据,训练GAN直至收敛,得到半监督分类识别模型。
半监督分类模型的具体结构可参见上述图1或图3示出的内容,半监督分类模型的参数如表2示出的内容,需要说明的是,表2示出的内容仅用于举例说明。
表2:
需要说明的是,发明人经研究发现,传统的分类器在训练过程中所需要的样本为带标签的样本,无标签数据无法参与分类器的训练,但引入GAN之后,无标签数据相对于生成器生成的样本,该无标签数据具有“真”的标签,因此无标签数据可与生成器生成的样本作为带标签数据一起训练GAN,同时GAN所生成的样本也能对数据分布的低密度区域进行填充,从而能提高GAN的分类性能。
在传统的有监督的K分类方式中,训练分类器时通常选择样本实际标签和模型预测标签pmodel(y|x)之间的交叉熵作为损失函数,通过最小化损失得到符合要求的分类器。
相对于上述“传统的有监督的K分类方式”的内容,在本发明实施例中所涉及的半监督分类识别模型中的判别器不仅限于输出“真”和“假”这两种类别,还输出了输入数据的真实类别,故本发明实施例中所涉及的半监督分类识别模型中的判别器即为一个多分类器。
可以理解的是,半监督分类识别模型的分类器输出K+1维估计前K维对应输入数据真实的K个类,第K+1维对应“假数据”类,也就是说,当输入数据被归为第K+1类时,代表该输入数据为假数据,当输入数据被归为前K个类别中的任意类别时,代表该输入数据为真数据。
此时半监督分类识别模型主要包含三种损失,具体内容如下。
第一种损失:对于带标签的数据(相当于上述步骤S101中的DLabel),需确定利用半监督分类识别模型对该带标签的数据进行识别得到的加密标签和非加密标签是否正确,即确定该带标签的数据的真实标签与半监督分类识别模型所识别(也可认为是预测)得到的标签之间的交叉熵损失Llabel,该交叉熵损失如公式(2)。
在公式(2)中,E为期望函数。
第二种损失:对于无标签的数据(相当于上述步骤S102中的)和预设的加密数据(相当于上述步骤S103中的/>),需确定估计该无标签的数据和预设的加密数据为“真”,即将该无标签的数据和预设的加密数据不估计为第K+1类的损失Lunlabel如公式(3)。
第三种损失:对于半监督分类识别模型的第二生成器所生成的第二假数据,需确定是否将该第二假数据估计为“假”,即将第二假数据估计为第K+1类的损失Lfake如公式(4)。
可以理解的是,对于半监督分类识别模型的分类器而言,希望上述三种损失(Llabel、Lunlabel和Lfake)尽可能的小,故半监督分类识别模型的分类器的优化目标如公式(5)。
LD=Llabel+Lunlabel+Lfake (5)
需要说明的是,在训练得到半监督分类识别模型的过程中,由于用于训练得到半监督分类识别模型的训练集中无标签的样本数据多于带标签的样本数据,为防止训练过程中出现各类损失失衡导致算法偏重于数据生成的情况,需要引入权重系数α来控制损失Lunlabel和损失Lfake,即将公式(5)变换为如下公式(6)。
LD=Llabel+α(Lunlabel+Lfake) (6)
同时,为区分带标签的样本数据和无标签的样本数据的损失在训练过程中的反向传播,在公式(6)中引入控制标志flag,故公式(6)转换为如下公式(7)。
LD=flagLlabel+α(1-flag)(Lunlabel+Lfake) (7)
在应用公式(7)的过程中,当将带标签的样本数据输入半监督分类识别模型的分类器时,flag=1,而当无标签的样本数据输入该分类器时,flag=0。
可以理解的是,对于半监督分类识别模型的第二生成器而言,希望该第二生成器所生成的数据能尽可能被半监督分类识别模型的分类器分辨为“真”,即希望该分类器不将第二生成器所生成的数据分类K+1类,第二生成器的优化目标如公式(8)。
LG=-Lfake (8)
需要说明的是,softmax函数具备以下公式(9)示出的性质。
可以理解的是,根据上述公式(9)至公式(12)示出的内容可推导得到,若去掉中的/>项,半监督分类识别模型的分类器依旧可以输出K维估计/>即确定半监督分类识别模型的分类器的输出依旧是K类,即输出“加密”和“非加密”。
在本发明实施例中,利用筛选模型从无标签数据中筛选出与带标签明文数据分布相同的半标记明文数据,结合半标记明文数据、带标签数据集和预设的加密数据,结合半监督分类识别模型对待测数据进行分类识别,筛选出多条待测数据中最终的加密数据和最终的明文数据,不限定待测数据的长度在一定长度以上,利用无标签数据辅助对待测数据的分类识别,以提高识别加密流量的准确率和效果。
为更好解释说明上述本发明实施例图1示出的内容,通过以下内容进行举例说明如何识别加密离散序列报文,需要说明的是,以下内容仅用于举例说明。
数据集处理:从MACCDC2012公开数据集中筛选安全外壳协议(SSH)数据、超文本协议(HTTP)数据、域名系统(DNS)数据、简单邮件传输协议(SMTP)数据、文件传输协议(FTP)数据、飞机通信寻址与报告系统(ACARS)中的真实数据和船舶自动识别系统(AIS)中的真实数据。
其中,ACARS数据属于字符型协议,该ACARS数据只有报文,在本发明实施例中,利用AES、DES、3DES、Blowfish和RC4等加密算法对ACARS数据的载荷部分进行加密。AIS数据属于二进制协议,在本发明实施例中选择AIS数据中的AIS消息1和AIS消息4数据,并通过多种加密算法对AIS消息1和AIS消息4数据的数据部分进行加密。
为了验证本发明实施例中确定对待测数据进行分类识别的效果,设置以下多种评价指标。
可以理解的是,在评价利用上述筛选模型进行筛选的效果时,对筛选的效果主要考察筛选得到的数据是否为同分布以及占所有同分布数据的比重,故通过查准率(pre)、召回率(rec)和准确率(acc)作为评价指标。
其中,查准率(pre)的具体内容如公式(13),召回率(rec)的具体内容如公式(14),准确率(acc)的具体内容如公式(15)。
在公式(13)至公式(15)中,TP1表示所有无标签数据中被筛选出与带标签明文数据分布相同的数据的数量,TN1表示所有无标签数据中未被筛选出与带标签明文数据分布不同的数据的数量,FP1表示所有无标签数据中未被筛选出与带标签明文数据分布相同的数据的数量,FN1表示所有无标签数据中被筛选出与带标签数据分布不同的数据的数量。
在利用半监督分类识别模型对待测数据进行分类识别(识别待测数据中最终的明文数据和最终的加密数据)时,对分类识别结果需考察识别出多少最终的加密数据,以及考察所识别得到的最终的加密数据中有多少数据是真实加密的,故通过分类准确率(Accuracy)和F1值作为评价指标。
分类准确率(Accuracy)的具体内容如公式(16),F1值的具体内容如公式(17)。
在公式(16)和公式(17)中,TP2表示最终的加密数据中被正确标记的数据的数量(即最终的加密数据是真实加密的数据),TN2表示最终的明文数据中被正确标记的数据的数量(即最终的明文数据是真实未加密的数据),FP2表示最终的明文数据中被错误标记的数据的数量,FN2表示最终的加密数据中被错误标记的数据的数量,recall的具体内容参见公式(18),precision的具体内容参见公式(19)。
应用筛选模型和半监督分类识别模型的过程为:从ACARS、AIS1、AIS4、HTTP、DNS、SMTP和FTP等7种非加密数据中各选择5000条数据,结合35000条SSH加密数据构成混合数据集,该混合数据集即为无标签数据。
从ACARS、AIS和HTTP中选择少量数据进行标记,得到相应的带标签数据集,该带标签数据集包含带标签加密数据和带标签明文数据。
可以理解的是,在应用筛选模型的过程中,通过上述公式(13)至公式(15)的评价指标,对筛选模型的筛选效果进行评价。
将上述的半标记明文数据带标签数据集、预设的加密数据/>和待测数据输入半监督分类识别模型进行分类识别,识别待测数据(由ACARS、AIS和HTTP三种协议数据混合的数据)中最终的加密数据和最终的明文数据。
可以理解的是,在应用半监督分类识别模型的过程中,通过上述公式(16)至公式(19)对半监督分类识别模型的分类识别结果进行评价。
与上述本发明实施例提供的一种加密离散序列报文的识别方法相对应,参见图4,本发明实施例还提供了一种加密离散序列报文的识别系统的结构框图,该识别系统包括:获取单元401、筛选单元402和分类单元403;
获取单元401,用于获取多条待测数据、预设的带标签数据集和多条无标签数据,每条待测数据的类型为离散序列报文数据,带标签数据集包含多种协议类型的带标签加密数据和带标签明文数据。
筛选单元402,用于将多条无标签数据和带标签数据集输入预设的筛选模型进行数据分布筛选,从多条无标签数据中筛选与带标签明文数据分布相同的半标记明文数据,筛选模型基于样本数据训练GAN得到,筛选模型包括第一生成器和判别器。
在具体实现中,筛选单元402具体用于:将随机噪声输入预设的筛选模型的第一生成器,得到相应的第一假数据,将第一假数据、多条无标签数据和带标签数据集输入筛选模型的判别器进行数据分布筛选,从多条无标签数据中筛选与带标签明文数据分布相同的半标记明文数据。
分类单元403,用于将半标记明文数据、带标签数据集、预设的加密数据和多条待测数据输入预设的半监督分类识别模型进行分类识别,从多条待测数据中筛选出最终的加密数据和最终的明文数据,半监督分类识别模型基于样本数据和筛选模型训练GAN得到,半监督分类识别模型包括第二生成器和分类器。
在具体实现中,分类单元403具体用于:将随机噪声输入预设的半监督分类识别模型的第二生成器,得到相应的第二假数据,将第二假数据、半标记明文数据、带标签数据集、预设的加密数据和多条待测数据输入半监督分类识别模型的分类器进行分类识别,从多条待测数据中筛选出最终的加密数据和最终的明文数据。
在本发明实施例中,利用筛选模型从无标签数据中筛选出与带标签明文数据分布相同的半标记明文数据,结合半标记明文数据、带标签数据集和预设的加密数据,结合半监督分类识别模型对待测数据进行分类识别,筛选出多条待测数据中最终的加密数据和最终的明文数据,不限定待测数据的长度在一定长度以上,利用无标签数据辅助对待测数据的分类识别,以提高识别加密流量的准确率和效果。
优选的,结合上述图4示出的内容,用于训练得到所述半监督分类识别模型的分类单元403,包括处理模块和训练模块,各个模块的执行原理如下:
处理模块,用于将无标签样本数据和带标签样本数据集输入筛选模型进行分布筛选,从无标签样本数据中筛选与带标签明文样本数据分布相同的半标记明文样本数据,带标签样本数据集包含多种协议类型的带标签加密样本数据和带标签明文样本数据。
训练模块,用于利用半标记明文样本数据、带标签样本数据集、加密样本数据和待测样本数据,训练GAN直至收敛,得到半监督分类识别模型。
优选的,结合上述图4示出的内容,该识别系统还包括:
预处理单元,用于对无标签数据、带标签加密数据和带标签明文数据按固定的数据长度进行截短处理或填充处理,得到数据长度一致的无标签数据、带标签加密数据和带标签明文数据。
综上所述,本发明实施例提供一种加密离散序列报文的识别方法及系统,利用筛选模型从无标签数据中筛选出与带标签明文数据分布相同的半标记明文数据,结合半标记明文数据、带标签数据集和预设的加密数据,结合半监督分类识别模型对待测数据进行分类识别,筛选出多条待测数据中最终的加密数据和最终的明文数据,不限定待测数据的长度在一定长度以上,利用无标签数据辅助对待测数据的分类识别,提高识别加密流量的准确率和效果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种加密离散序列报文的识别方法,其特征在于,所述方法包括:
获取多条待测数据、预设的带标签数据集和多条无标签数据,每条所述待测数据的类型为离散序列报文数据,所述带标签数据集包含多种协议类型的带标签加密数据和带标签明文数据;
将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据,所述筛选模型基于样本数据训练生成式对抗网络GAN得到,所述筛选模型包括第一生成器和判别器;
将所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入预设的半监督分类识别模型进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据,所述半监督分类识别模型基于样本数据和所述筛选模型训练GAN得到,所述半监督分类识别模型包括第二生成器和分类器;
所述将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据,包括:
将随机噪声输入预设的筛选模型的第一生成器,得到相应的第一假数据;
将所述第一假数据、所述多条无标签数据和所述带标签数据集输入所述筛选模型的判别器进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入预设的半监督分类识别模型进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据,包括:
将随机噪声输入预设的半监督分类识别模型的第二生成器,得到相应的第二假数据;
将所述第二假数据、所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入所述半监督分类识别模型的分类器进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据。
3.根据权利要求1所述的方法,其特征在于,基于样本数据和所述筛选模型训练得到所述半监督分类识别模型的过程包括:
将无标签样本数据和带标签样本数据集输入所述筛选模型进行分布筛选,从所述无标签样本数据中筛选与带标签明文样本数据分布相同的半标记明文样本数据,所述带标签样本数据集包含多种协议类型的带标签加密样本数据和带标签明文样本数据;
利用所述半标记明文样本数据、所述带标签样本数据集、加密样本数据和待测样本数据,训练GAN直至收敛,得到半监督分类识别模型。
4.根据权利要求1所述的方法,其特征在于,所述将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选之前,还包括:
对所述无标签数据、所述带标签加密数据和所述带标签明文数据按固定的数据长度进行截短处理或填充处理,得到数据长度一致的所述无标签数据、所述带标签加密数据和所述带标签明文数据。
5.一种加密离散序列报文的识别系统,其特征在于,所述系统包括:
获取单元,用于获取多条待测数据、预设的带标签数据集和多条无标签数据,每条所述待测数据的类型为离散序列报文数据,所述带标签数据集包含多种协议类型的带标签加密数据和带标签明文数据;
筛选单元,用于将所述多条无标签数据和所述带标签数据集输入预设的筛选模型进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据,所述筛选模型基于样本数据训练生成式对抗网络GAN得到,所述筛选模型包括第一生成器和判别器;
所述筛选单元具体用于:将随机噪声输入预设的筛选模型的第一生成器,得到相应的第一假数据,将所述第一假数据、所述多条无标签数据和所述带标签数据集输入所述筛选模型的判别器进行数据分布筛选,从所述多条无标签数据中筛选与所述带标签明文数据分布相同的半标记明文数据;
分类单元,用于将所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入预设的半监督分类识别模型进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据,所述半监督分类识别模型基于样本数据和所述筛选模型训练GAN得到,所述半监督分类识别模型包括第二生成器和分类器。
6.根据权利要求5所述的系统,其特征在于,所述分类单元具体用于:将随机噪声输入预设的半监督分类识别模型的第二生成器,得到相应的第二假数据,将所述第二假数据、所述半标记明文数据、所述带标签数据集、预设的加密数据和所述多条待测数据输入所述半监督分类识别模型的分类器进行分类识别,从所述多条待测数据中筛选出最终的加密数据和最终的明文数据。
7.根据权利要求5所述的系统,其特征在于,用于训练得到所述半监督分类识别模型的分类单元,包括:
处理模块,用于将无标签样本数据和带标签样本数据集输入所述筛选模型进行分布筛选,从所述无标签样本数据中筛选与带标签明文样本数据分布相同的半标记明文样本数据,所述带标签样本数据集包含多种协议类型的带标签加密样本数据和带标签明文样本数据;
训练模块,用于利用所述半标记明文样本数据、所述带标签样本数据集、加密样本数据和待测样本数据,训练GAN直至收敛,得到半监督分类识别模型。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括:
预处理单元,用于对所述无标签数据、所述带标签加密数据和所述带标签明文数据按固定的数据长度进行截短处理或填充处理,得到数据长度一致的所述无标签数据、所述带标签加密数据和所述带标签明文数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011322427.5A CN112465003B (zh) | 2020-11-23 | 2020-11-23 | 一种加密离散序列报文的识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011322427.5A CN112465003B (zh) | 2020-11-23 | 2020-11-23 | 一种加密离散序列报文的识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465003A CN112465003A (zh) | 2021-03-09 |
CN112465003B true CN112465003B (zh) | 2023-05-23 |
Family
ID=74799625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011322427.5A Active CN112465003B (zh) | 2020-11-23 | 2020-11-23 | 一种加密离散序列报文的识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465003B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113612767B (zh) * | 2021-07-31 | 2022-09-20 | 中山大学 | 基于多任务学习增强的加密恶意流量检测方法及系统 |
CN114050972B (zh) * | 2022-01-13 | 2022-04-22 | 广东电网有限责任公司广州供电局 | 一种ota升级的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960307A (zh) * | 2018-06-22 | 2018-12-07 | 中国人民解放军战略支援部队信息工程大学 | 一种私有协议字段格式提取方法、装置及服务器 |
CN110135185A (zh) * | 2018-02-08 | 2019-08-16 | 苹果公司 | 使用生成式对抗网络进行私有化的机器学习 |
CN110324147A (zh) * | 2019-08-08 | 2019-10-11 | 黑龙江大学 | 基于混沌模型的gan博弈对抗加密系统(方法) |
CN111625697A (zh) * | 2020-05-12 | 2020-09-04 | 深圳赋乐科技有限公司 | 一种基于条件生成对抗网络的网络数据标识过滤方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10536268B2 (en) * | 2017-08-31 | 2020-01-14 | Cisco Technology, Inc. | Passive decryption on encrypted traffic to generate more accurate machine learning training data |
US11699080B2 (en) * | 2018-09-14 | 2023-07-11 | Cisco Technology, Inc. | Communication efficient machine learning of data across multiple sites |
-
2020
- 2020-11-23 CN CN202011322427.5A patent/CN112465003B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135185A (zh) * | 2018-02-08 | 2019-08-16 | 苹果公司 | 使用生成式对抗网络进行私有化的机器学习 |
CN108960307A (zh) * | 2018-06-22 | 2018-12-07 | 中国人民解放军战略支援部队信息工程大学 | 一种私有协议字段格式提取方法、装置及服务器 |
CN110324147A (zh) * | 2019-08-08 | 2019-10-11 | 黑龙江大学 | 基于混沌模型的gan博弈对抗加密系统(方法) |
CN111625697A (zh) * | 2020-05-12 | 2020-09-04 | 深圳赋乐科技有限公司 | 一种基于条件生成对抗网络的网络数据标识过滤方法 |
Non-Patent Citations (2)
Title |
---|
Secure deep neural networks using adversarial image generation and training with Noise-GAN;Atiye SadatHashemi等;《Computers & Security》;20190930;全文 * |
机器学习隐私保护研究综述;谭作文 等;《软件学报》;20200731;第31卷(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112465003A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109104441A (zh) | 一种基于深度学习的加密恶意流量的检测系统和方法 | |
Wang et al. | A survey of techniques for mobile service encrypted traffic classification using deep learning | |
US11303652B2 (en) | System and method for generating data sets for learning to identify user actions | |
CN112465003B (zh) | 一种加密离散序列报文的识别方法及系统 | |
Rostami et al. | Detection and continual learning of novel face presentation attacks | |
CN111031071A (zh) | 恶意流量的识别方法、装置、计算机设备及存储介质 | |
Wang et al. | FLOWGAN: Unbalanced network encrypted traffic identification method based on GAN | |
CN111224946A (zh) | 一种基于监督式学习的tls加密恶意流量检测方法及装置 | |
CN114257428B (zh) | 一种基于深度学习的加密网络流量识别及分类方法 | |
Atli | Anomaly-based intrusion detection by modeling probability distributions of flow characteristics | |
Thom et al. | Smart recon: Network traffic fingerprinting for IoT device identification | |
Ye et al. | FLAG: few-shot latent dirichlet generative learning for semantic-aware traffic detection | |
Mane et al. | Anomaly based ids using backpropagation neural network | |
Wu et al. | Tdae: Autoencoder-based automatic feature learning method for the detection of dns tunnel | |
Zhao et al. | A few-shot learning based approach to IoT traffic classification | |
CN114036264A (zh) | 一种基于小样本学习的电子邮件作者身份归属识别方法 | |
Chen et al. | Using adversarial examples to bypass deep learning based url detection system | |
CN110414594B (zh) | 一种基于双阶段判定的加密流量分类方法 | |
US9398040B2 (en) | Intrusion detection system false positive detection apparatus and method | |
CN114358177B (zh) | 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 | |
Samadzadeh et al. | Evaluating Security Anomalies by Classifying Traffic Using Deep Learning | |
Schmidt et al. | Artificial immune system inspired algorithm for flow-based internet traffic classification | |
Lin et al. | Domain adaptation in steganalysis for the spatial domain | |
CN114499980A (zh) | 一种钓鱼邮件检测方法、装置、设备及存储介质 | |
Jin et al. | Zero-day traffic identification using one-dimension convolutional neural networks and auto encoder machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |