CN110796196B - 一种基于深度判别特征的网络流量分类系统及方法 - Google Patents

一种基于深度判别特征的网络流量分类系统及方法 Download PDF

Info

Publication number
CN110796196B
CN110796196B CN201911040768.0A CN201911040768A CN110796196B CN 110796196 B CN110796196 B CN 110796196B CN 201911040768 A CN201911040768 A CN 201911040768A CN 110796196 B CN110796196 B CN 110796196B
Authority
CN
China
Prior art keywords
network
network flow
samples
flow
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911040768.0A
Other languages
English (en)
Other versions
CN110796196A (zh
Inventor
于爱民
赵力欣
蔡利君
马建刚
孟丹
徐震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201911040768.0A priority Critical patent/CN110796196B/zh
Publication of CN110796196A publication Critical patent/CN110796196A/zh
Application granted granted Critical
Publication of CN110796196B publication Critical patent/CN110796196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于深度判别特征的网络流量分类系统及方法,包括:预处理模块和模型学习模块,预处理模块:将不同应用产生的长度不一的网络流作为输入,将每条网络流表示为固定大小的流矩阵,以满足卷积神经网络(CNN)的输入格式要求;模型学习模块:以预处理模块得到的流矩阵作为输入,在度量学习正则化项和交叉熵损失项共同构成的目标函数的监督下,对深度卷积神经网络进行训练,使得神经网络可以对输入的流矩阵学习得到更具判别性的特征表示,从而使得分类结果更加准确。

Description

一种基于深度判别特征的网络流量分类系统及方法
技术领域
本发明涉及一种基于深度判别特征的网络流量分类系统及方法,属于计算机网络,网络流量分类技术领域。
背景技术
网络流量分类作为增强网络可控性的基础技术之一,在网络监管和网络安全中发挥着至关重要的作用。例如,网络服务提供商通过对网络流量进行分类来分析网络流量分布,进而进行更好的QoS(Quality of Service)控制;企业网络通过流量识别技术来控制应用访问;一些国家政府对非法或敏感流量的合法拦截需要首先了解通过其网络传输的内容类型。在网络安全方面,网络流量分类是入侵检测系统的核心部分,其可发现网络中的异常流量,以便于及时采取有效的防御措施。鉴于以上各种需求,实现准确高效的流量分类与识别具有极其重要的意义。
当前,网络流量分类方法主要可以被归纳为四个类别:基于端口的方法、基于包负载内容的方法、基于统计学习的方法和基于深度学习的方法。
基于端口的方法通过检查网络数据包的传输层端口号,然后根据互联网数字分配机构(IANA)定制的端口号与应用的对应关系来对网络流量进行分类。虽然基于端口的分类方法简单、快速,但是随着端口混淆、网络地址转换(NAT)、端口转发、协议嵌入和随机端口分配等技术的出现,使得其分类性能显著下降。
考虑到基于端口的分类方法的不足,相关研究人员提出了基于包负载内容的分类方法。该类方法以深度包检测(DPI)技术为代表,其通过分析数据包应用层载荷内容来对已知的应用签名进行匹配。DPI技术具有识别准确率高的优点,但是与此同时其面临着以下不足:(1)当加密技术被应用于载荷数据时,DPI技术将失去作用;(2)DPI技术无法识别未知特征值,当网络应用的特征值发生变化时,相应的特征值库必须及时更新;(3)由于需要对每个数据包的负载内容进行检查,DPI技术的时间和空间开销巨大;(4)对数据包负载内容进行检查面临着隐私保护的问题。
在过去的十多年中,人们对有关机器学习技术在流量分类方面的应用进行了广泛研究。其中,机器学习算法与流统计特征相结合的方法受到了极大的关注。这种方法假定每个应用的流统计特性(例如:最大包长度、最小包长度、包到达时间间隔和流持续时间)是不同的,因此可以通过使用各种机器学习算法训练分类器来对网络流量进行分类与识别。虽然基于流统计特征的方法在协议或者应用族等粗粒度的分类上取得的不错的效果,但是在面向具体网络应用的分类中效果并不理想。这是由于在面向具体的网络应用进行流量分类时,简单的流统计特征不能有效地区分来自不同应用的流量。
近年来,随着深度学习技术在计算机视觉、语音和自然语言处理等方面的成功应用,相关研究人员开始将深度学习技术应用于网络流量分类。借助于深度学习技术强大的特征学习和表征能力,其在网络流量分类任务上取得了良好的效果。与传统基于统计的方法相比,这种方法使用深层结构的神经网络(如堆叠式自动编码器或CNN)自动从原始输入数据中学习特征,从而不需要繁琐的特征工程或专家知识的参与。虽然基于深度学习的方法已经在网络流量分类领域取得了很大的成功,但是网络流量分类任务中存在的类内数据多样性和类间数据相似性问题仍然没有被很好地解决。这是由于大部分已有的方法仅仅是将深度网络模型作为特征提取器来使用,而没有考虑设计新的更有效的目标函数。
已有的基于深度学习技术的网络流量分类方法往往仅将深度网络模型作为特征提取器来使用,不能有效地解决网络流量分类任务中存在的类内数据多样性和类间数据相似性问题,从而很难达到更加准确地对网络流量进行分类。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于深度判别特征的网络流量分类系统及方法,能够更加准确地对网络流量进行分类。
本发明技术解决方案:
一种基于深度判别特征的网络流量分类系统,包括:预处理模块和模型学习模块;
预处理模块:以不同应用产生的长度不一的网络流作为输入,将每条网络流表示为固定大小的流矩阵,以满足卷积神经网络(CNN)的输入格式要求;将经过预处理的满足CNN输入格式要求的流矩阵称为网络流样本,其中,每个应用产生的网络流对应一个类别,不同应用产生的网络流属于不同的类别;
模型学习模块:将已收集的所有应用产生的网络流样本作为训练集,以训练集中的网络流样本作为输入,在度量学习正则化项和交叉熵损失项共同构成的目标函数的监督下,对CNN进行训练,使得CNN对输入的网络流样本学习得到更具判别性的特征表示,从而使得分类结果更加准确。
所述预处理模块具体处理流程如下:
(1)网络流为具有相同IP五元组<源IP,源端口,目的IP,目的端口,传输层协议>的一组连续的数据包;对于基于tcp连接的网络流来说,前3个数据包是相同的用来建立tcp连接的握手数据包,若网络流长度,即包含的数据包个数小于4,则丢弃,否则跳转至步骤(2);
(2)截取每条网络流前n个数据包和每个数据包的前m个字节,将每条网络流表示为特征向量;优选截取网络流的前32个数据包,并且对于每个数据包,截取从传输层头开始的512个字节,若网络流长度小于32或者IP包长度小于512,则用0填充,将网络流表示成大小为32*512的矩阵;
(3)将步骤(2)中所得矩阵的每个元素除以255来对该矩阵进行归一化处理;
(4)将步骤(3)中所得矩阵大小重新调整为128*128;
经过以上预处理过程,每条网络流被表示为了大小为128*128的流矩阵。
所述模型学习模块中,目标函数如下:
J=min(J1(X,Y,θce)+λJ2(X,θml)) (1)
其中,J1和J2分别为交叉熵损失项和度量学习正则化项,所述交叉熵损失项指在最小化给定训练样本上的经验风险;λ是一个用来控制J1和J2相对重要性的权衡系数;X={xi|i=1,2,...,N}是训练样本集,Y={yi|i=1,2,...,N}是训练样本集对应的标签集合,N是训练样本集中包含的样本个数;
Figure BDA0002252766210000031
是一个只有一个元素为1,其余元素都为0的标签向量;k是类别个数;θce和θml分别是交叉熵损失项和度量学习正则化项需要学习的参数。
所述交叉熵损失项如下:
Figure BDA0002252766210000032
其中,
Figure BDA0002252766210000033
表示标签向量yn的第i个元素,f(·)是一个由CNN建模表示的非线性映射函数,
Figure BDA0002252766210000034
是CNN为样本xn提取到的特征向量,Wj是softmax层权重
Figure BDA0002252766210000035
的第j列,
Figure BDA0002252766210000036
是相应的偏置项。
所述模型学习模块中,度量学习正则化项的目标是寻找一个合适的保持输入数据对之间距离结构的相似性度量,采用对比嵌入(contrastive embedding)函数作为正则化项,度量学习正则化项的输入是样本对,具体如下:
Figure BDA0002252766210000041
对比嵌入以成对样本对(xi,xj)作为输入,其中,
Figure BDA0002252766210000042
是样本对指示器,表示样本对(xi,xj)是否来自同一类别,h(x)=max(0,1-x)是铰链(hinge)损失函数,D(xi,xj)是特征向量f(xi)和f(xj)之间的欧式距离,定义如下:
D(xi,xj)=||f(xi)-f(xj)||2 (4)
其中,||·||2是L2正则操作;
式(3)中的第一项用来最小化来自同一类别的样本对之间的距离,对于来自不同类别的样本对,它们之间的距离大于一个预定义的边距m,因此式(3)中的第二项用来惩罚那些来自不同类别且距离小于m的样本对。
所述样本对生成过程如下:
(1)初始化样本对集合pairs为空:pairs←{};
(2)从训练集中得到训练样本的标签集合:label_set←set(Y);
(3)对于label_set中的每个类别标签l,分别计算所有标签为l的样本的类别中心:
Figure BDA0002252766210000043
其中M为标签为l的样本数量;
(4)对于训练集中的每个样本xi,随机从{0,1}中选择一个值赋值给样本对指示器
Figure BDA0002252766210000044
(5)若样本对指示器
Figure BDA0002252766210000045
等于1,则将(xi,center[yi],
Figure BDA0002252766210000046
)加入到pairs,跳转步骤(4)执行;
(6)若样本对指示器
Figure BDA0002252766210000047
等于0,跳转步骤(7)执行;
(7)随机从label_set中选择一个不等于yi的标签y′;
(8)随机选择一个标签为y′的样本x′;
(9)将(x′,center[yi],
Figure BDA0002252766210000048
)加入到pairs,跳转步骤(4)执行;
最终,给定训练数据集、权衡系数λ和边距m,使用标准的随机梯度下降算法对式(1)进行优化。
所述模型学习模块中,神经网络模型采用2维深度卷积神经网络结构。
本发明的一种基于深度判别特征的网络流量分类方法,包括以下步骤:
步骤1:网络流数据预处理。将不同应用产生的长度不一的网络流作为输入,对于每条网络流,截取其前32个数据包,并且对于每个数据包,截取从传输层头开始的512个字节,若网络流长度小于32或者IP包长度小于512,则用0填充,将每条网络流表示成大小为32*512的矩阵;再将该矩阵中的每个元素除以255来对其进行归一化处理;最后将所得矩阵大小重新调整为128*128,即每条网络流被表示为了大小为128*128的流矩阵,此流矩阵称为网络流样本;
步骤2:将已收集的所有应用产生的网络流样本作为训练集,以训练集中的网络流样本作为输入,在自定义的目标函数的监督下,对深度卷积神经网络进行训练,该自定义的目标函数是交叉熵损失项和度量学习正则化项的加权和,其中交叉熵项保证不同类别网络流样本之间的差异性,度量学习正则化项通过寻找一个合适的保持输入网络流样本对之间距离结构的相似性度量,来使得在特征空间下同类样本分布更加聚合即,欧式距离更小,不同类样本分布更加离散即,欧式距离更大;训练完成后的神经网络对输入的流矩阵学习得到更具判别性的特征表示,从而使得分类结果更加准确。
本发明与现有技术相比的优点在于:
(1)不同应用由于使用相同的网络协议或使用相同的服务等原因,其产生的网络流具有相似性;与此同时,同一应用可能使用多种网络协议完成不同的业务功能,其产生的网络流具有多样性。基于以上原因,在使用深度学习技术进行网络流量分类时,需要设计新的能够对网络流提取更具判别性特征的目标函数。本发明通过将度量学习与传统的深度学习技术相结合,对深度网络模型提出了新的目标函数。在该目标函数中,对比嵌入正则化项的引入使得在对输入数据提取的特征向量所在的特征空间中,来自同一类别的数据距离更小,来自不同类别的数据距离更大。这种更具判别性的特征有助于更加准确地进行分类。
(2)通过将度量学习正则化项与传统的交叉熵损失相结合,提出了新的目标函数。在该目标函数的作用下,提取到的特征更加具有判别性,即在特征空间下,数据具有更小的类内距离和更大的类间距离。
(3)本发明针对已有的基于深度学习的网络流量分类方法没有充分考虑网络流量数据中存在的类内数据多样性和类间数据相似性的问题,提出了一种基于深度判别特征的网络流量分类系统,能够更加准确地对网络流量进行分类。
附图说明
图1为本发明系统的总体框图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明具体实施如下:
总体框架见图1,包括两个模块:预处理和模型学习。
(1)预处理模块:预处理模块将长度不一的网络流(即,具有相同IP五元组<源IP,源端口,目的IP,目的端口,传输层协议>的一组连续的数据包)表示为固定大小的流矩阵,以满足卷积神经网络(CNN)的输入格式要求。
(2)模型学习模块:在度量学习正则化项和交叉熵损失的共同监督下,对深度卷积神经网络进行训练。
具体实施如下:
步骤1:预处理模块
预处理模块以原始的网络流作为输入,将每条网络流表示为固定大小的流矩阵。具体处理流程如下:
(1)若网络流长度(即,包含的数据包个数)小于4,则丢弃,否则跳转至(2);
(2)截取网络流的前32个数据包,并且对于每个数据包,截取从传输层头开始的512个字节,若网络流长度小于32或者IP包长度小于512,则用0填充,将网络流表示成大小为32*512的矩阵;
(3)将(2)中所得矩阵的每个元素除以255来对该矩阵进行归一化处理;
(4)将(3)中所得矩阵大小重新调整为128*128。
经过以上预处理过程,每条网络流被表示为了大小为128*128的流矩阵。
步骤2:模型学习
模型学习模块以步骤1中所得到的流矩阵作为输入,在目标函数的监督下对深度卷积神经网络进行训练。其主要包含目标函数定义和样本对生成两个关键步骤。
1.1.目标函数定义.
提出的目标函数定义如下:
J=min(J1(X,Y,θce)+λJ2(X,θml)) (1)
其中,J1和J2分别为交叉熵损失项和度量学习正则化项。λ是一个用来控制J1和J2相对重要性的权衡系数,取值λ∈(0,1。X={xi|i=1,2,...,N}是训练样本集,Y={yi|i=1,2,...,N}是训练样本集对应的标签集合,N是训练样本集中包含的样本个数。
Figure BDA0002252766210000071
是一个只有一个元素为1,其余元素都为0的标签向量。k是类别个数。θce和θml分别是交叉熵损失项和度量学习正则化项需要学习的参数。
①交叉熵损失项
该交叉熵损失项旨在最小化给定训练样本上的经验风险,定义如下:
Figure BDA0002252766210000072
其中,
Figure BDA0002252766210000073
表示标签向量yn的第i个元素。f(·)是一个由CNN建模表示的非线性映射函数。
Figure BDA0002252766210000074
是CNN为样本xn提取到的特征向量。Wj是softmax层权重
Figure BDA0002252766210000075
的第j列,
Figure BDA0002252766210000076
是相应的偏置项。
②度量学习正则化项
度量学习的目标是寻找一个合适的可以保持输入数据对之间距离结构的相似性度量。这里使用对比嵌入(contrastive embedding)函数作为目标函数中的正则化项,其定义如下:
Figure BDA0002252766210000077
与传统的经验风险函数不同,对比嵌入以成对数据(xi,xj)作为输入。其中,
Figure BDA0002252766210000078
是样本对指示器,表示样本对(xi,xj)是否来自同一类别,h(x)=max(0,1-x)是铰链(hinge)损失函数。D(xi,xj)是特征向量f(xi)和f(xj)之间的欧式距离,其定义如下:
D(xi,xj)=||f(xi)-f(xj)||2 (4)
其中,||·||2是L2正则操作。
式(3)中的第一项用来最小化来自同一类别的样本对之间的距离。对于来自不同类别的样本对,希望它们之间的距离大于一个预定义的边距m,因此式(3)中的第二项用来惩罚那些来自不同类别且距离小于m的样本对。
将式(2)和式(3)代入式(1),最终的目标函数定义如下:
Figure BDA0002252766210000079
2.样本对生成
在本发明的模型中,度量学习正则化项的输入是样本对。考虑到当训练集中包含大量训练样本时,会产生一个巨大的样本对空间。具体来说,给定一个包含N个样本的训练集,共存在
Figure BDA0002252766210000081
个可能的样本对。若使用所有可能的样本对进行训练,会导致训练时间长且训练效率低下。为了降低训练代价和提升训练效率,提出一种新的样本对生成策略,其过程如下:
(1)初始化样本对集合pairs为空:pairs←{};
(2)从训练集中得到训练样本的标签集合:label_set←set(Y);
(3)对于label_set中的每个类别标签l,分别计算其类别中心:
Figure BDA0002252766210000082
其中M为标签为l的样本数量;
(4)对于训练集中的每个样本xi,随机从{0,1}中选择一个值赋值给样本对指示器
Figure BDA0002252766210000083
(5)若样本对指示器
Figure BDA0002252766210000084
等于1,则将(xi,center[yi],
Figure BDA0002252766210000085
)加入到pairs,跳转(4)执行;
(6)若样本对指示器
Figure BDA0002252766210000086
等于0,跳转(7)执行;
(7)随机从label_set中选择一个不等于yi的标签y′;
(8)随机选择一个标签为y′的样本x′;
(9)将(x′,center[yi],
Figure BDA0002252766210000087
)加入到pairs,跳转(4)执行。
最终,给定训练数据集、权衡系数λ和边距m,使用标准的随机梯度下降算法对式(5)中的目标函数进行优化。
以上虽然描述了本发明的具体实施方法,但是本领域的技术人员应当理解,这些仅是举例说明,在不背离本发明原理和实现的前提下,可以对这些实施方案做出多种变更或修改,因此,本发明的保护范围由所附权利要求书限定。

Claims (5)

1.一种基于深度判别特征的网络流量分类系统,其特征在于,包括:预处理模块和模型学习模块;
预处理模块:以不同应用产生的长度不一的网络流作为输入,将每条网络流表示为固定大小的流矩阵,以满足卷积神经网络CNN的输入格式要求;将经过预处理的满足CNN输入格式要求的流矩阵称为网络流样本,其中,每个应用产生的网络流对应一个类别,不同应用产生的网络流属于不同的类别;
模型学习模块:将已收集的所有应用产生的网络流样本作为训练集,以训练集中的网络流样本作为输入,在度量学习正则化项和交叉熵损失项共同构成的目标函数的监督下,对CNN进行训练,使得CNN对输入的网络流样本学习得到更具判别性的特征表示,从而使得分类结果更加准确;
所述模型学习模块中,目标函数如下:
J=min(J1(X,Y,θce)+λJ2(X,θml)) (1)
其中,J1和J2分别为交叉熵损失项和度量学习正则化项,所述交叉熵损失项指在最小化给定训练样本上的经验风险;λ是一个用来控制J1和J2相对重要性的权衡系数;X={xi|i=1,2,...,N}是训练样本集,Y={yi|i=1,2,...,N}是训练样本集对应的标签集合,N是训练样本集中包含的样本个数;
Figure FDA0003525362230000011
是一个只有一个元素为1,其余元素都为0的标签向量;k是类别个数;θce和θml分别是交叉熵损失项和度量学习正则化项需要学习的参数;
所述交叉熵损失项如下:
Figure FDA0003525362230000012
其中,
Figure FDA0003525362230000013
表示标签向量yn的第i个元素,f(·)是一个由CNN建模表示的非线性映射函数,
Figure FDA0003525362230000014
是CNN为样本xn提取到的特征向量,Wj是softmax层权重
Figure FDA0003525362230000015
的第j列,
Figure FDA0003525362230000016
是相应的偏置项;
所述模型学习模块中,度量学习正则化项的目标是寻找一个合适的保持输入数据对之间距离结构的相似性度量,采用对比嵌入(contrastive embedding)函数作为正则化项,度量学习正则化项的输入是样本对,具体如下:
Figure FDA0003525362230000021
对比嵌入以成对样本对(xi,xj)作为输入,其中,
Figure FDA0003525362230000022
是样本对指示器,表示样本对(xi,xj)是否来自同一类别,h(x)=max(0,1-x)是铰链(hinge)损失函数,D(xi,xj)是特征向量f(xi)和f(xj)之间的欧式距离,定义如下:
D(xi,xj)=||f(xi)-f(xj)||2 (4)
其中,||·||2是L2正则操作;
式(3)中的第一项用来最小化来自同一类别的样本对之间的距离,对于来自不同类别的样本对,它们之间的距离大于一个预定义的边距m,因此式(3)中的第二项用来惩罚那些来自不同类别且距离小于m的样本对。
2.根据权利要求1所述的基于深度判别特征的网络流量分类系统,其特征在于:所述预处理模块具体处理流程如下:
(1)网络流为具有相同IP五元组<源IP,源端口,目的IP,目的端口,传输层协议>的一组连续的数据包;对于基于tcp连接的网络流来说,前3个数据包是相同的用来建立tcp连接的握手数据包,若网络流长度,即包含的数据包个数小于4,则丢弃,否则跳转至步骤(2);
(2)截取每条网络流前n个数据包和每个数据包的前m个字节,将每条网络流表示为特征向量;截取网络流的前32个数据包,并且对于每个数据包,截取从传输层头开始的512个字节,若网络流长度小于32或者IP包长度小于512,则用0填充,将网络流表示成大小为32*512的矩阵;
(3)将步骤(2)中所得矩阵的每个元素除以255来对该矩阵进行归一化处理;
(4)将步骤(3)中所得矩阵大小重新调整为128*128;
经过以上预处理过程,每条网络流被表示为了大小为128*128的流矩阵。
3.根据权利要求1所述的基于深度判别特征的网络流量分类系统,其特征在于:所述样本对生成过程如下:
(1)初始化样本对集合pairs为空:pairs←{};
(2)从训练集中得到训练样本的标签集合:label_set←set(Y);
(3)对于label_set中的每个类别标签l,分别计算所有标签为l的样本的类别中心:
Figure FDA0003525362230000023
其中M为标签为l的样本数量;
(4)对于训练集中的每个样本xi,随机从{0,1}中选择一个值赋值给样本对指示器
Figure FDA0003525362230000031
(5)若样本对指示器
Figure FDA0003525362230000032
等于1,则将
Figure FDA0003525362230000033
加入到pairs,跳转步骤(4)执行;
(6)若样本对指示器
Figure FDA0003525362230000034
等于0,跳转步骤(7)执行;
(7)随机从label_set中选择一个不等于yi的标签y′;
(8)随机选择一个标签为y′的样本x′;
(9)将
Figure FDA0003525362230000035
加入到pairs,跳转步骤(4)执行;
最终,给定训练数据集、权衡系数λ和边距m,使用标准的随机梯度下降算法对式(1)进行优化。
4.根据权利要求1所述的基于深度判别特征的网络流量分类系统,其特征在于:所述模型学习模块中,所述神经网络模型采用2维深度卷积神经网络结构。
5.一种基于权利要求1-4任意之一所述的系统实现的基于深度判别特征的网络流量分类方法,其特征在于,包括以下步骤:
步骤1:网络流数据预处理,将不同应用产生的长度不一的网络流作为输入,对于每条网络流,截取其前32个数据包,并且对于每个数据包,截取从传输层头开始的512个字节,若网络流长度小于32或者IP包长度小于512,则用0填充,将每条网络流表示成大小为32*512的矩阵;再将该矩阵中的每个元素除以255来对其进行归一化处理;最后将所得矩阵大小重新调整为128*128,即每条网络流被表示为了大小为128*128的流矩阵,此流矩阵称为网络流样本;
步骤2:将已收集的所有应用产生的网络流样本作为训练集,以训练集中的网络流样本作为输入,在自定义的目标函数的监督下,对深度卷积神经网络进行训练,该自定义的目标函数是交叉熵损失项和度量学习正则化项的加权和,其中交叉熵项保证不同类别网络流样本之间的差异性,度量学习正则化项通过寻找一个合适的保持输入网络流样本对之间距离结构的相似性度量,来使得在特征空间下同类样本分布更加聚合即,欧式距离更小,不同类样本分布更加离散即,欧式距离更大;训练完成后的神经网络对输入的流矩阵学习得到更具判别性的特征表示,从而使得分类结果更加准确。
CN201911040768.0A 2019-10-30 2019-10-30 一种基于深度判别特征的网络流量分类系统及方法 Active CN110796196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911040768.0A CN110796196B (zh) 2019-10-30 2019-10-30 一种基于深度判别特征的网络流量分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911040768.0A CN110796196B (zh) 2019-10-30 2019-10-30 一种基于深度判别特征的网络流量分类系统及方法

Publications (2)

Publication Number Publication Date
CN110796196A CN110796196A (zh) 2020-02-14
CN110796196B true CN110796196B (zh) 2022-05-10

Family

ID=69441906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911040768.0A Active CN110796196B (zh) 2019-10-30 2019-10-30 一种基于深度判别特征的网络流量分类系统及方法

Country Status (1)

Country Link
CN (1) CN110796196B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111817971B (zh) * 2020-06-12 2023-03-24 华为技术有限公司 一种基于深度学习的数据中心网络流量拼接方法
CN111817981A (zh) * 2020-07-01 2020-10-23 黄东 一种基于深度学习的网络流量分类方法
CN112653675A (zh) * 2020-12-12 2021-04-13 海南师范大学 一种基于深度学习的智能入侵检测方法及其装置
CN112953924B (zh) * 2021-02-04 2022-10-21 西安电子科技大学 网络异常流量检测方法、系统、存储介质、终端及应用
CN112598091B (zh) * 2021-03-08 2021-09-07 北京三快在线科技有限公司 一种训练模型和小样本分类的方法及装置
CN113194068A (zh) * 2021-03-30 2021-07-30 北京六方云信息技术有限公司 基于卷积神经网络的恶意加密流量检测方法及装置
CN113128626A (zh) * 2021-05-28 2021-07-16 安徽师范大学 基于一维卷积神经网络模型的多媒体流细分类方法
CN113887642A (zh) * 2021-10-11 2022-01-04 中国科学院信息工程研究所 一种基于开放世界的网络流量分类方法及系统
CN117640794A (zh) * 2023-02-21 2024-03-01 兴容(上海)信息技术股份有限公司 一种网络流划分方法和系统
CN116743473B (zh) * 2023-06-29 2024-02-06 哈尔滨工业大学 一种基于并行度量学习的入侵检测方法、电子设备及存储介质
CN116996206B (zh) * 2023-09-26 2023-12-26 河北翎贺计算机信息技术有限公司 一种网络通讯信息加密传输方法及系统
CN117313004B (zh) * 2023-11-29 2024-03-12 南京邮电大学 一种在物联网中基于深度学习的QoS流分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981474A (zh) * 2019-03-26 2019-07-05 中国科学院信息工程研究所 一种面向应用软件的网络流量细粒度分类系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311956B2 (en) * 2009-08-11 2012-11-13 At&T Intellectual Property I, L.P. Scalable traffic classifier and classifier training system
US10630709B2 (en) * 2018-02-13 2020-04-21 Cisco Technology, Inc. Assessing detectability of malware related traffic

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981474A (zh) * 2019-03-26 2019-07-05 中国科学院信息工程研究所 一种面向应用软件的网络流量细粒度分类系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dimensionality Reduction by Learning an Invariant Mapping;Raia Hadsell 等;《2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR"06)》;20061009;第1-8页 *
Malware Traffic Classification Using Convolutional Neural Network for Representation Learning;Wei Wang 等;《2017 International Conference on Information Networking (ICOIN)》;20170417;第712-717页 *
使用交叉熵检测和分类网络异常流量;颜若愚 等;《西安交通大学学报》;20100630;第10-15页 *

Also Published As

Publication number Publication date
CN110796196A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110796196B (zh) 一种基于深度判别特征的网络流量分类系统及方法
CN111340191B (zh) 基于集成学习的僵尸网络恶意流量分类方法及系统
CN108985361B (zh) 一种基于深度学习的恶意流量检测实现方法和装置
CN110391958B (zh) 一种对网络加密流量自动进行特征提取和识别的方法
CN110808971B (zh) 一种基于深度嵌入的未知恶意流量主动检测系统及方法
CN113179223B (zh) 一种基于深度学习和序列化特征的网络应用识别方法及系统
Ring et al. Ip2vec: Learning similarities between ip addresses
CN110311829B (zh) 一种基于机器学习加速的网络流量分类方法
CN113037730B (zh) 基于多特征学习的网络加密流量分类方法及系统
CN109117634B (zh) 基于网络流量多视图融合的恶意软件检测方法及系统
CN107483451B (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
Liu et al. A distance-based method for building an encrypted malware traffic identification framework
CN112491894A (zh) 一种基于时空特征学习的物联网网络攻击流量监测系统
Kong et al. Identification of abnormal network traffic using support vector machine
CN112910853A (zh) 基于混合特征的加密流量分类方法
CN114091020A (zh) 基于特征分组和多模型融合的对抗攻击防御方法及系统
Zhao et al. A novel network traffic classification approach via discriminative feature learning
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
McCarthy et al. Feature vulnerability and robustness assessment against adversarial machine learning attacks
Han et al. Network intrusion detection based on n-gram frequency and time-aware transformer
Kong et al. Comparison of internet traffic identification on machine learning methods
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
CN114338437A (zh) 网络流量分类方法、装置、电子设备及存储介质
CN111447169A (zh) 一种在网关上的实时恶意网页识别方法及系统
CN110061869B (zh) 一种基于关键词的网络轨迹分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant