CN114124437B - 基于原型卷积网络的加密流量识别方法 - Google Patents

基于原型卷积网络的加密流量识别方法 Download PDF

Info

Publication number
CN114124437B
CN114124437B CN202111140560.3A CN202111140560A CN114124437B CN 114124437 B CN114124437 B CN 114124437B CN 202111140560 A CN202111140560 A CN 202111140560A CN 114124437 B CN114124437 B CN 114124437B
Authority
CN
China
Prior art keywords
data
prototype
flow
traffic
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111140560.3A
Other languages
English (en)
Other versions
CN114124437A (zh
Inventor
朱笑岩
张琳杰
冯鹏斌
马建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202111140560.3A priority Critical patent/CN114124437B/zh
Publication of CN114124437A publication Critical patent/CN114124437A/zh
Application granted granted Critical
Publication of CN114124437B publication Critical patent/CN114124437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0823Network architectures or network communication protocols for network security for authentication of entities using certificates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/166Implementing security features at a particular protocol layer at the transport layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于原型卷积网络的加密流量识别方法,主要解决现有加密流量识别方法精度低、识别速度慢的问题。其方案是:获取流量原始数据,并对其进行数据预处理得到加密流量数据;构建原型生成模型,并将加密流量数据输入到该模型,得到流量原型数据及类别;对流量原型数据进行聚类获得特征生成向量,并对其按比例抽取组成训练样本集、测试样本集和验证样本集;搭建一个原型卷积网络,设置其参数,利用训练样本集和测试样本集对该网络进行训练;将验证样本集输入到训练好的原型卷积网络模型中,获得加密流量数据识别结果。本发明能够高效提取加密流量数据特征,提高了识别精度和识别速度,可用于改善网络管理,监控应用安全,流量异常检测。

Description

基于原型卷积网络的加密流量识别方法
技术领域
本发明属于网络安全技术领域,更进一步涉及一种加密流量识别方法,可用于改善网络管理、监控应用安全及对加密流量数据进行异常检测。
背景技术
移动设备和互联网的迅速普及极大地改变了各种网络服务的接入方式,导致了网络 流量的爆炸式增长。针对网络流量的网络攻击严重影响到网络的正常安全运行,甚至危害到公民的信息安全。随着越来越多的移动服务采用加密技术,数据包中的许多信息将 变得不可见,加密方法的规则也层出不穷,加密流量识别技术成为研究学者关注的重点。 虽然经典方法可以解决基于端口和有效载荷方法不能解决的许多问题,但它仍然存在一 些局限性,如复杂的特征需要手工提取十分耗时耗力、特征更新频繁等。流量数据的不 平衡性会导致小样本识别率偏低的问题。在进行模型训练时,如何高效提取特征,减少 标记数据的需求,提高识别率是一个非常关键的研究课题。加密流量识别由于可以分析 用户操作习惯和使用的应用类别,所以有非常广泛的数据挖掘和商业应用价值。加密流 量识别可以应用于改善网络管理,网络管理者可以根据不同流量在带宽中的比例动态控 制接入,合理控制流量的变化趋势。加密流量识别可以应用于监控应用安全,安全监管 机构需要实时识别恶意流量,以避免严重的损失。加密流量识别可以应用于异常检测, 根据用户的操作习惯针对性的优化应用,以提供更好的用户体验。
北京工业大学在申请号为202110081372.1的专利申请文献公开了一种“基于卷积神经网络的加密流量实时分类方法及装置”。其实施步骤是:首先,将采样得到的数据 包作为字节流,任意相连两个字节作为一个字节对;其次,确定所有字节对的频率特征; 然后,将所有字节对的频率特征,输入预训练的卷积神经网络模型,输出每一条加密流 量的数据流类型。该方法由于提取到的特征仅仅是可分离的,并不能体现出深层特征的 内部关系,故导致识别精度不够高。
北京理工大学在申请号为201911164936.7的专利申请文献公开了一种“一种基于深度学习策略的异常加密流量检测与分类方法”。其实施步骤是:首先,利用相邻做差 法对原始数据进行特征加强;其次,利用加强后的数据集中带有协议标签的数据训练一 维卷积神经网络模型来对已知类型异常加密流量进行检测与分类;然后,利用k-均值 算法对加强后的数据集中没有协议标签的未知类型异常加密流量进行分类。该方法由于 一维卷积神经网络模型收敛速度很慢,缺乏鲁棒性,导致识别速度不快。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于原型卷积网络的加密流 量识别方法,以提高识别精度,加快识别速度。
实现本发明目的的技术方案是:通过高效提取加密流量数据特征,实现对加密流量 数据进行智能识别,其实现方案包括如下:
1.一种基于原型卷积网络的加密流量识别方法,其特征在于:
A)从加密流量网络中采集网络数据包获取流量原始数据,再对其依次进行数据清洗、数据变换、数据编码、数据增强的预处理,得到加密流量数据,并计算其对应的 类别;
B)构建由采集模块、嵌入模块、筛查模块、距离模块依次级联组成的原型生成模型,并将加密流量数据输入到该模型中,得到流量原型数据及其对应的类别;
C)对流量原型数据进行聚类,并计算聚类的原型密度,得到流量原型数据中的特征生成向量;
D)对特征生成向量分别按照70%,20%,10%进行抽取,组成训练样本集,测试 样本集,验证样本集;
E)构建依次由输入层,卷积层,池化层,全连接层和输出层级联组成的原型卷积网络;
F)设置最大迭代轮次数为100,将训练样本集和测试样本集输入到原型卷积网络中,利用原型学习方法进行原型卷积网络的训练,直到原型卷积网络达到最大迭代轮 次数,得到训练好的原型卷积网络;
G)将验证样本集中的特征向量输入到已经训练好的原型卷积网络中,得到加密流量识别结果。
本发明与现有技术相比,具有以下优点:
第一,本发明由于将加密流量数据输入到原型生成模型中,得到流量原型数据及其对应的类别,能够提升对流量数据的嵌入粒度,且对其特征能进行更精确的表示, 增大了识别不同类流量所需的聚类间的离散性,提升了识别精度;
第二,本发明由于对流量原型数据进行聚类,并计算聚类的原型密度,得到流量原型数据中的特征生成向量,因而能够提取结构化的深层特征,更加贴近流量数据的 分布特点,增加识别不同类流量所需的聚类内之间的聚合,进一步提升了识别精度;
第三,本发明将原型学习和神经网络相结合,构建了原型卷积网络,并在基于期望最大化的框架中执行迭代,避免了有监督学习所带来无法对庞大的加密流量类别进 行完全快速分类的问题,加快了识别速度。
附图说明
图1为本发明的实现流程图;
图2为用本发明和现有5种方法分别在2个数据集上的得到加密流量识别精度仿真图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细的描述。
参照图1,本实例的实现包括如下步骤:
步骤1,获取流量原始数据,并对其进行预处理。
1.1)从加密流量网络中采集网络数据包获取流量原始数据;
本实例采取但不限于通过Wireshark工具对经由OpenVPN传输的网络数据包进 行依次采集源IP地址、目的IP地址、源端口、目的端口、网络协议、用户数据信息, 组成流量原始数据;
1.2)将获取的流量原始数据中的无效值和缺失值设置为0,完成数据清洗;
本实例采取但不限于一致性检查来发现无效值,即根据每个变量的合理取值范围和相互关系检查数据是否合乎要求,并将不符合要求的数据标记为无效值;
1.3)将数据清洗后的流量数据利用变换函数将其变换为正态分布完成数据变换;
本实例采取但不限于平方根函数作为变换函数,即将变换前数据分布偏前的数据利用平方根公式变换为正态分布;
1.4)将数据变换后的流量数据表示为二进制向量完成数据编码;
本实例采取但不限于独热编码进行数据编码,即采用位状态寄存器来对数据进行编码;
1.5)将数据编码后的流量数据根据数据增强因子将其进行倍数变换,完成数据增强,得到加密流量数据;
1.6)计算加密流量数据对应的类别:
Figure BDA0003283736090000041
其中,q表示加密流量数据对应的类别编码值,即为选择加密流量数据对应的所有类别中第q个类别,q取值为[1,2,…,N],N为加密流量数据类别总数,本实例采取 但不限于12,f表示流量类别函数,δ表示流量类别参数,
Figure BDA0003283736090000042
表示流量类别原型参数, z是加密流量数据。
步骤2,构建原型生成模型。
2.1)建立采集模块:用以从步骤1中所述加密流量数据中依次选取W个加密流量数据样本作为支持集,选取U个加密流量数据样本作为查询集;
2.2)建立嵌入模块:用以从支持集中获得加密流量数据样本ζ,从查询集中获得加密流量数据样本ξ,并根据该查询集中加密流量数据样本ξ计算查询集特征向量: sk=α(ξ,θ),其中,α表示嵌入函数,θ表示嵌入参数,k表示类别原型数,k取值为 [1,2,…,E],E为类别原型总数;
2.3)建立筛查模块:用以根据查询集特征向量计算类别原型:
Figure BDA0003283736090000043
其中,|sk|表示查询集的特征向量数量,β为原型函数;
2.4)建立距离模块:用以计算流量原型数据μ和流量原型数据μ对应的流量原型数据类别w,其实现如下:
根据支持集中加密流量数据样本ζ计算支持集特征向量:rk=α(ζ,θ),其中,α 表示嵌入函数,θ表示嵌入参数;
根据支持集的特征向量rk计算原型距离:
Figure BDA0003283736090000051
并计算原型标签值:
Figure BDA0003283736090000052
其中,|rk|表示支持集的特征向量数量,ck表示类别原 型;
将支持集中加密流量数据样本ζ作为流量原型数据μ,再根据支持集中加密流量数据样本ζ计算流量原型数据μ对应的流量原型数据类别:
Figure BDA0003283736090000053
其中,w表示流量原型数据对应的类别编码值, 即为选择流量原型数据对应的所有类别中是第w个类别,取值为[1,2,…,M],M为流 量原型数据类别总数;
2.5)将采集模块、嵌入模块、筛查模块、距离模块依次级联组成的原型生成模型。
步骤3,将加密流量数据输入原型生成模型中,得到流量原型数据及该流量原型数据对应的类别。
步骤4,将流量原型数据进行聚类,根据聚类结果计算特征生成向量。
4.1)对流量原型数据进行聚类得到聚类结果,根据聚类结果计算流量原型数据聚类簇:
Figure BDA0003283736090000054
其中μ表示流量原型数据;
现有的聚类的方法有均值漂移聚类、密度聚类、最大期望聚类、凝聚层次聚类, 本实例采取但不限于均值漂移聚类方法进行聚类,即基于质心通过将中心点的候选点 更新为滑动窗口内点的均值来完成聚类;
4.2)根据流量原型数据聚类簇
Figure BDA0003283736090000055
计算流量原型数据聚类原型密度:
Figure BDA0003283736090000056
其中,|sk|表示查询集的特征向量数量,β为原型函数;
4.3)根据流量原型数据聚类原型密度bk计算特征生成向量:
Figure BDA0003283736090000057
其中,ck表示特征生成向量的类别原型,k表示类别原型数,k取值为[1,2,…,E],E为类别原型总数,λ是平滑参数。
步骤5,生成训练样本集,测试样本集和验证样本集。
对特征生成向量分别按照70%,20%,10%进行抽取,组成训练样本集,测试样 本集,验证样本集;
本实例采取但不限于回溯法抽取特征生成向量组成训练样本集,测试样本集,验证样本集,即以深度优先的方式来抽取特征生成向量。
步骤6,构建原型卷积网络。
6.1)建立输入层:其采用从上至下的3个输入子层级联组成,用以对步骤4中特 征生成向量γ利用双线性插值法进行采样运算,得到采样向量φ;
6.2)建立卷积层:其采用从上至下的96个卷积子层级联组成,每个卷积子层包 含一个64位滤波器与5×5卷积核,用以对采样向量φ进行卷积运算,得到卷积向量
Figure BDA0003283736090000061
每个卷积子层的卷积核大小为5,步长为1,修正参数为0.2;
本实例采取但不限于扩张卷积法进行卷积运算,即在卷积核内扩充空格进行卷积运算;
6.3)建立池化层:其采用从上至下的256个池化子层级联组成,用以对卷积向量
Figure BDA0003283736090000062
进行最大池化运算,得到池化向量ψ;
本实例采取但不限于序位池化法进行最大池化运算,即在池化域内按照激活值序位进行最大池化运算;
6.4)建立隐藏层:其采用从上至下的256个隐藏子层级联组成,用以对池化向量ψ,进行映射计算,得到隐藏向量χ,设置隐藏子层之间的激活函数为Softmax函数;
6.5)建立输出层:其采用从上至下的2个输出子层级联组成,这两个输出子层之间的激活函数为双曲正切激活函数,在每个输出子层先计算其期望编码为:v=g(χ), 再根据该期望编码v计算期望标签值h:
Figure BDA0003283736090000063
其中,g为期望函数,σ表示输出函数,v′表示期望动态编码,ck表示类别原型, c′k表示类别原型动态编码,L表示聚类原型采集次数,w表示动态密流量数据类别, w′表示动态密流量数据类别,τ是期望系数;
6.6)将输入层,卷积层,池化层,隐藏层及输出层依次级联组成的原型卷积网络。
步骤7,训练原型卷积网络。
7.1)设置最大迭代轮次数为100;
7.2)将训练样本集和测试样本集输入到上述设计的原型卷积网络中,得到训练样本集和测试样本集的期望标签值h;
7.3)根据期望标签值h和原型标签值y计算训练误差:ε=-∑hlogy;
7.4)根据当前批次的训练误差ε计算当前轮次梯度值:
Figure BDA0003283736090000071
其中,t 表示轮次序数,πt-1表示上一轮次的梯度值,初始轮次的梯度值为0,η表示学习率;
7.5)根据当前轮次梯度值更新当前轮次梯度卷积核参数,完成当前轮次训练;
本实例采用但不限于梯度下降法更新卷积核参数,即指沿着梯度方向对卷积核参数进行更新,以求解原型卷积网络收敛的最优解;
7.6)判断当前训练轮次数是否达到设置的最大训练轮次数:
若是,则停止训练,得到训练好的原型卷积网络;
否则,将训练轮次数t增加1,返回7.1)。
步骤8,获得加密流量数据识别结果。
将验证样本集中的特征生成向量输入到已经训练好的原型卷积网络中,得到验证样本集的期望标签值h;
将验证样本集的期望标签值h与验证样本集中的真实标签值u进行比较,得到加密流量数据识别结果:
若h=u,则认为加密流量被正确识别;
若h≠u,则认为加密流量未被正确识别。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的运行环境是:处理器为Intel(R)Core(TM)i3-9100 CPU@3.60GHz,内存为8.00GB,硬盘为929G,操作系统为Windows 10,编程环境为Python 3.8,编程软件为PyCharm Community Edition 2020.2.3x64。
仿真所使用的数据集为JOY数据集和SSL数据集,其中:
JOY数据集是Cisco开源的加密流量分析系统的数据集,用于从实时网络流量中提取数据特征,使用Netflow的面向流的模型,然后用JSON表示这些数据特征,数据集 包括数据包长度和时间序列,表示一个特定字节值出现在流中数据包的有效负载中的 概率的字节分布,TLS特有的特征和初始数据包。
SSL数据集使用TLS证书的内容识别合法证书和恶意证书。SSL数据集的网络钓鱼证书来自Vaderetro,恶意软件证书来自mach.ch项目和censys.io,合法证书来自 Alexatop。
仿真使用的现有对比方法为以下5种:
1、根据合适的参数分布的概率密度和概率分布模型,计算后验分布以求取类别期望值的贝叶斯模型方法。
2、根据在高维数据中寻找正样本和负样本之间的最大化分隔平面来划分数据求取 类别期望值的支持向量机模型方法。
3、根据用与待判别数据距离最近的数据的类别求取类别期望值的最近邻模型方法。
4、根据通过历史数据的表现对未来结果发生的概率求取期望值的逻辑回归模型方法。
5、根据已知各种情况发生概率,通过构成决策树来求取类别期望值的决策树模型方法。
仿真实验1:比较本发明与现有5种方法的加密流量识别精度。
仿真过程如下:
首先,分别从JOY数据集和SSL数据集中获取流量原始数据,并对其进行数据预 处理得到加密流量数据,使用本发明和上述现有5种加密流量识别方法,得到加密流 量数据识别结果;
其次,根据加密流量数据识别结果统计被正确识别出的目标加密流量数目TP,被正确识别出的其它加密流量数目TN,被错误识别出的目标加密流量数目FP,被遗漏识 别的目标加密流量数目FN,再分别计算准确率
Figure BDA0003283736090000091
和召回率
Figure BDA0003283736090000092
根据准确 率和召回率的计算结果,计算F1得分
Figure BDA0003283736090000093
F1得分的高低可表示加密流量识别 精度的高低;
最后,比较各方法的F1得分,结果如图2所示,其中横轴表示不同方法,纵轴表 示F1得分。
由图2可以看出,本发明标示的柱状图对应的F1得分位于现有5种方法标示的柱状图对应的F1得分的上方,即本发明的F1得分是6种方法中最高的,表明本发明的 加密流量识别精度高于现有的5种方法。
仿真实验2:比较本发明与上述现有5种方法进行加密流量识别速度。
用本发明和上述5种现有方法对JOY数据集的加密流量进行识别,分别计算仿真实验1中本发明的方法与上述5种现有方法的收敛参数,并将这6种方法收敛参数进 行比较,收敛参数的大小可以表示加密流量识别速度的快慢,结果如表1。
表1各方法的收敛参数
方法名称 收敛参数 收敛参数由小至大排序
贝叶斯模型方法 0.86 6
支持向量机模型方法 0.58 4
最近邻模型方法 0.82 5
逻辑回归模型方法 0.54 3
决策树模型方法 0.41 2
本发明方法 0.30 1
由表1可以看出,现有5种方法进行识别的收敛参数均较大,本发明进行识别的收敛参数较小,表明本发明的收敛参数小于现有的5种方法的收敛参数,本发明的识别 速度快于现有的5种方法的加密流量识别速度。

Claims (4)

1.一种基于原型卷积网络的加密流量识别方法,其特征在于,包括:
A)从加密流量网络中采集网络数据包获取流量原始数据,再对其依次进行数据清洗、数据变换、数据编码、数据增强的预处理,得到加密流量数据,并计算其对应的类别;
B)构建由采集模块、嵌入模块、筛查模块、距离模块依次级联组成的原型生成模型,并将加密流量数据输入到该模型中,得到流量原型数据及其对应的类别;其中构成原型生成模型的各模块的功能与参数设置如下:
所述采集模块:用于从A)中所述加密流量数据中依次选取W个加密流量数据样本作为支持集,选取U个加密流量数据样本作为查询集;
所述嵌入模块:用于从支持集中获得加密流量数据样本ζ,从查询集中获得加密流量数据样本ξ,并根据该查询集中加密流量数据样本ξ计算查询集特征向量:sk=α(ξ,θ),其中,α表示嵌入函数,θ表示嵌入参数,k表示类别原型数,k取值为[1,2,…,E],E为类别原型总数;
所述筛查模块:用于根据查询集特征向量计算类别原型:
Figure FDA0003779243790000011
其中,|sk|表示查询集的特征向量数量,β为原型函数;
所述距离模块:用于计算流量原型数据μ和流量原型数据μ对应的流量原型数据类别w,其实现如下:
首先,根据支持集中加密流量数据样本ζ计算支持集特征向量:rk=α(ζ,θ),其中,α表示嵌入函数,θ表示嵌入参数;
其次,根据支持集的特征向量rk计算原型距离:
Figure FDA0003779243790000012
并计算原型标签值:
Figure FDA0003779243790000013
其中,|rk|表示支持集的特征向量数量,ck表示类别原型;
然后,将支持集中加密流量数据样本ζ作为流量原型数据μ,再根据支持集中加密流量数据样本ζ计算流量原型数据μ对应的流量原型数据类别:
Figure FDA0003779243790000021
其中,w表示流量原型数据对应的类别编码值,即为选择流量原型数据对应的所有类别中是第w个类别,取值为[1,2,…,M],M为流量原型数据类别总数,f表示流量类别函数,δ表示流量类别参数,
Figure FDA0003779243790000028
表示流量类别原型参数;
C)对流量原型数据进行聚类,并计算聚类的原型密度,得到流量原型数据中的特征生成向量;实现如下:
C1)计算流量原型数据聚类簇:
Figure FDA0003779243790000022
C2)根据流量原型数据聚类簇
Figure FDA0003779243790000023
计算流量原型数据聚类原型密度:
Figure FDA0003779243790000024
其中,|sk|表示查询集的特征向量数量,β为原型函数;
C3)根据流量原型数据聚类原型密度bk计算特征生成向量:
Figure FDA0003779243790000025
其中,ck表示特征生成向量的类别原型,k表示类别原型数,k取值为[1,2,…,E],E为类别原型总数,λ是平滑参数;
D)对特征生成向量分别按照70%,20%,10%进行抽取,组成训练样本集,测试样本集,验证样本集;构建的原型卷积网络,其各层结构、功能与参数设置如下:
输入层:采用从上至下的3个输入子层级联组成,用以对C)中特征生成向量γ利用双线性插值法进行采样运算,得到采样向量φ;
卷积层:采用从上至下的96个卷积子层级联组成,每个卷积子层包含一个64位滤波器与5×5卷积核,用以对采样向量φ进行卷积运算,得到卷积向量
Figure FDA0003779243790000026
每个卷积子层的卷积核大小为5,步长为1,修正参数为0.2;
池化层:采用从上至下的256个池化子层级联组成,用以对卷积向量
Figure FDA0003779243790000027
进行最大池化运算,得到池化向量ψ;
隐藏层:采用从上至下的256个隐藏子层级联组成,用以对池化向量ψ,进行映射计算,得到隐藏向量χ,设置隐藏子层之间的激活函数为Softmax函数;
输出层:采用从上至下的2个输出子层级联组成,这两个输出子层之间的激活函数为双曲正切激活函数,在每个输出子层先计算其期望编码为:v=g(χ),再根据该期望编码v计算期望标签值h:
Figure FDA0003779243790000031
其中,g为期望函数,σ表示输出函数,v′表示期望动态编码,ck表示类别原型,c′k表示类别原型动态编码,L表示聚类原型采集次数,w表示动态密流量数据类别,w′表示动态密流量数据类别,τ是期望系数;
E)构建依次由输入层,卷积层,池化层,全连接层和输出层级联组成的原型卷积网络;
F)设置最大迭代轮次数为100,将训练样本集和测试样本集输入到原型卷积网络中,利用原型学习方法进行原型卷积网络的训练,直到原型卷积网络达到最大迭代轮次数,得到训练好的原型卷积网络;
G)将验证样本集中的特征向量输入到已经训练好的原型卷积网络中,得到加密流量识别结果。
2.根据权利要求1所述的方法,其特征在于,A)中对获取的流量原始数据依次进行数据清洗、数据变换、数据编码、数据增强的预处理,实现如下:
将获取的流量原始数据中的无效值和缺失值设置为0完成数据清洗;
将数据清洗后的流量数据利用变换函数将其变换为正态分布完成数据变换;
将数据变换后的流量数据表示为二进制向量完成数据编码;
将数据编码后的流量数据根据数据大小增加的因子将其进行倍数变换,得到加密流量数据。
3.根据权利要求1所述的方法,其特征在于,A)中加密流量数据对应的类别,通过下式进行:
Figure FDA0003779243790000041
其中,q表示加密流量数据对应的类别编码值,即为选择加密流量数据对应的所有类别中第q个类别,q取值为[1,2,…,N],N为加密流量数据类别总数,f表示流量类别函数,δ表示流量类别参数,
Figure FDA0003779243790000043
表示流量类别原型参数,z是加密流量数据。
4.根据权利要求1所述的方法,其特征在于,F)中利用原型学习方法对原型卷积网络进行训练,实现如下:
F1)将训练样本集和测试样本集输入到D)中设计的原型卷积网络中,得到原型卷积网络的期望标签值h;
F2)根据期望标签值h和原型标签值y计算训练误差:ε=-∑h log y;
F3)根据当前批次的训练误差ε计算当前轮次梯度值:
Figure FDA0003779243790000042
其中,t表示轮次序数,πt-1表示上一轮次的梯度值,初始轮次的梯度值为0,η表示学习率;
F4)根据得到的当前轮次梯度值更新当前轮次梯度卷积核参数,完成当前轮次训练;
F5)判断当前训练轮次数是否达到设置的最大训练轮次数:
若是,则停止训练,得到训练好的原型卷积网络;
否则,将训练轮次数增加1,返回F1)。
CN202111140560.3A 2021-09-28 2021-09-28 基于原型卷积网络的加密流量识别方法 Active CN114124437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111140560.3A CN114124437B (zh) 2021-09-28 2021-09-28 基于原型卷积网络的加密流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111140560.3A CN114124437B (zh) 2021-09-28 2021-09-28 基于原型卷积网络的加密流量识别方法

Publications (2)

Publication Number Publication Date
CN114124437A CN114124437A (zh) 2022-03-01
CN114124437B true CN114124437B (zh) 2022-09-23

Family

ID=80441532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111140560.3A Active CN114124437B (zh) 2021-09-28 2021-09-28 基于原型卷积网络的加密流量识别方法

Country Status (1)

Country Link
CN (1) CN114124437B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723998B (zh) * 2022-05-05 2023-06-20 兰州理工大学 基于大边界贝叶斯原型学习的小样本图像分类方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110247930B (zh) * 2019-07-01 2020-05-12 北京理工大学 一种基于深度神经网络的加密网络流量识别方法
CN111131069B (zh) * 2019-11-25 2021-06-08 北京理工大学 一种基于深度学习策略的异常加密流量检测与分类方法
CN112839051B (zh) * 2021-01-21 2023-11-03 北京工业大学 基于卷积神经网络的加密流量实时分类方法及装置
CN113422761B (zh) * 2021-06-11 2023-02-10 西安电子科技大学 基于对抗学习的恶意社交用户检测方法
CN113378990B (zh) * 2021-07-07 2023-05-05 西安电子科技大学 基于深度学习的流量数据异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于ResNet的网络流量识别方法;代志康等;《北京信息科技大学学报(自然科学版)》;20200215(第01期);全文 *

Also Published As

Publication number Publication date
CN114124437A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN111211994B (zh) 一种基于SOM与K-means融合算法的网络流量分类方法
CN104601565B (zh) 一种智能优化规则的网络入侵检测分类方法
CN109962909B (zh) 一种基于机器学习的网络入侵异常检测方法
CN109299741B (zh) 一种基于多层检测的网络攻击类型识别方法
CN107292350A (zh) 大规模数据的异常检测方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN104468262B (zh) 一种基于语义敏感的网络协议识别方法及系统
CN112087447B (zh) 面向稀有攻击的网络入侵检测方法
Ling et al. Intrusion detection using normalized mutual information feature selection and parallel quantum genetic algorithm
CN109639734B (zh) 一种具有计算资源自适应性的异常流量检测方法
CN115580445A (zh) 一种未知攻击入侵检测方法、装置和计算机可读存储介质
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法
Hu et al. A novel SDN-based application-awareness mechanism by using deep learning
CN113225346A (zh) 一种基于机器学习的网络运维态势评估方法
Zhang et al. Network intrusion detection based on active semi-supervised learning
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN117278314A (zh) 一种DDoS攻击检测方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN115277888B (zh) 一种移动应用加密协议报文类型解析方法及系统
Sharipuddin et al. Intrusion detection with deep learning on internet of things heterogeneous network
CN116015708A (zh) 基于深度学习预测不确定性的恶意流量开集识别方法及装置
Hsieh et al. On the classification of mobile broadband applications
Manokaran et al. An empirical comparison of machine learning algorithms for attack detection in internet of things edge
Wang et al. Intrusion detection algorithms based on correlation information entropy and binary particle swarm optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant