CN111817971A - 一种基于深度学习的数据中心网络流量拼接方法 - Google Patents

一种基于深度学习的数据中心网络流量拼接方法 Download PDF

Info

Publication number
CN111817971A
CN111817971A CN202010534449.1A CN202010534449A CN111817971A CN 111817971 A CN111817971 A CN 111817971A CN 202010534449 A CN202010534449 A CN 202010534449A CN 111817971 A CN111817971 A CN 111817971A
Authority
CN
China
Prior art keywords
flow
feature
traffic
splicing
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010534449.1A
Other languages
English (en)
Other versions
CN111817971B (zh
Inventor
东方
夏鸣轩
王士琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010534449.1A priority Critical patent/CN111817971B/zh
Publication of CN111817971A publication Critical patent/CN111817971A/zh
Application granted granted Critical
Publication of CN111817971B publication Critical patent/CN111817971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度学习的数据中心网络流量拼接方法,步骤:初始化网络流量拼接的孪生神经网络模型;根据一段时间内采集到的流量信息,选择具有代表性的流量特征,形成样本,利用该样本训练孪生神经网络模型;对需要拼接的流量提取流量特征并输入训练好的孪生神经网络模型,确定能够拼接在一起的流量,并完成流量拼接。本发明优化了数据中心网络流量特征选择方法,提升了被选特征的代表性和鲁棒性,并使用深度学习算法构建网络流量拼接模型,提升了流量拼接的精度。

Description

一种基于深度学习的数据中心网络流量拼接方法
技术领域
本发明属于数据中心网络领域,特别涉及了一种数据中心网络流量拼接方法。
背景技术
随着云计算的兴起,数据中心在近年来飞速发展,其数目和规模都在快速增加,预计到2021年,全球超大规模数据中心数量将达到628个,相比于2016年增长53%。数据中心是拥有完善设备(如接入带宽、网络、机房环境等)、专业化管理、众多应用的服务平台,其拥有海量的计算资源和存储资源,为用户提供按需服务。作为数据中心的重要组成部分,数据中心网络将所有计算、存储资源连接起来,使得数据中心可以为用户提供所需要的服务,并提供相应的QoS,保障服务质量,因而数据中心网络的可靠性是数据中心可以正常运行的重要一环。网络可靠性是表示网络是否容易出现故障的指标,网络可靠性越高,网络出现故障的概率也就越低,而数据中心网络出现一次故障就会造成数以万计的损失,据UptimeInstitute统计,有大约27%的数据中心故障是由于网络问题导致的,是除了电气故障外最大的数据中心故障原因,且随着电气技术的发展和数据中心规模的增大,网络故障将会成为最大原因,所以排除网络故障,维护网络稳定性是数据中心正常运行的关键。为了快速排除网络故障,恢复网络正常运行,需要快速的网络故障定界,其中首要的就是要对网络流量进行监控,确定流量的路径,但数据中心网络流量众多,预计到2021年,数据中心网络流量将达到20.6ZB,面对海量的流量,如何确定流量的路径,以便快速故障恢复是当前研究的重点。
为此,研究者们提出了流量拼接技术,也即流量关联,其旨在根据网络流量相关信息,如五元组(源宿端口,源宿IP地址,协议)、数据包数据信息、流量特征等,将进出网络节点的流量对进行相关,以得到完整的流路径信息。流量拼接对维护数据中心网络可靠性,对网络故障快速定位有着重要作用。流量拼接旨在获得网络中流量间的关联性,从而获得流量在网络中的路径,而根据这些路径信息,就可以快速推断流量在网络中哪个位置出现问题,从而可以定位网络故障的位置,进而快速实现网络恢复,保障数据中心网络的可靠性。流量拼接是网络故障定位以及恢复的第一步,同时也是最重要的一步,所以进行快速有效的流量拼接对保障数据中心网络可靠性至关重要。
传统上网络流量拼接主要分为两种方法:基于端口的流量拼接和基于数据信息的流量拼接。基于端口的流量拼接通过匹配网络流量的端口号,如FTP协议用21端口通信,对网络流量进行拼接,只有拥有同样的源宿端口号的流量才会被拼接在一起。基于数据信息的流量拼接则通过解析报文内的数据信息,如深度报文检测解析数据中的应用层信息来对流量进行识别和拼接。然而,由于当前数据中心网络大多使用动态端口技术来解决端口数目不足的问题,这使得即使是同一用户,在发送不同类型的信息时所使用的端口号也不相同,导致端口号不再适合作为流量的标识符。同时,由于数据中心是多租户的环境,为了保护不同租户的隐私,大多数网络流量都是经过数据加密的,这使得无法利用深度报文解析等技术对网络流量的数据内容进行分析,从而也无法正确的拼接流量。
由于传统的方法不够高效且拼接准确度不高,很多研究者开始考虑使用流量特征进行流量拼接,即根据流量特征匹配流量,判断流量是否属于同一条流。常见的流量特征包括数据包大小、数据包到达间隔时间、流量持续时间、流量中数据包数目等,根据这些流量特征,近年来,研究者们提出了很多流量拼接方法,具体可以分为两类,基于分类的拼接方法和基于相关性的拼接方法:基于分类的拼接方法根据流量的特征,利用一些分类器,如C4.5决策树、贝叶斯网络、支持向量机等,将流量分成特定的类别(如Web流量、FTP流量等),并以此为基础进行匹配流量。基于相关性的拼接方法也可以分为两类,第一类为主动流量关联方法,其主动修改网络流量的相关特征,比如数据包大小、到达间隔时间,使得同一条流量拥有相同的特征分布,不同的流量拥有不同的特征分布,第二类就是被动流量关联的方法,也即监听并获取网络中的流量相关的特征信息,一般主要以数据包大小和到达间隔时间为主,这主要是由于这样的特征容易获取且具有一定的分布特性,根据这些采集到的特征信息通过一定方法(如深度神经网络)对流量进行相似度分析,把相似度高的流量进行拼接。然而,由于数据中心网络大量网络功能节点(NAT网关、负载均衡器、防火墙等)的存在以及多租户的特性,上述方法有着很多新的问题:
(1)网络功能设备对流量特征的改变会降低拼接精度。当前数据中心网络存在大量网络功能设备,这些网络功能设备旨在对网络中的流量进行调控,以优化网络整体性能,比如负载均衡设备会对网络流量进行整流和分流,调整数据包大小以及将数据包发往不同链路,从而调节链路的负载,防止网络拥塞,这些网络功能设备不仅会改变流量的五元组信息,而且会影响数据包的特征分布,比如流量经过隧道节点时会对数据包进行封装,从而数据包大小会产生改变,又比如负载均衡设备在调节链路负载时对数据包进行整形,导致数据包大小和数目都发生改变,当这些特征改变时,主动关联方法使同一流量的特征分布相似,但在经过网络功能节点后,这些特征分布会被改变,从而无法识别。同时,因为网络功能节点的存在,使得不同的流量也拥有相似的特征分布或者特征分布产生极大改变,导致被动的关联方法也无法准确拼接。
(2)现有流量拼接方法较粗粒度。数据中心网络是多租户环境,不同租户也会产生大量相同类型的流量。基于分类的流量拼接方法主要是通过分类器将流量分为不同的类别,常见的类别由Web应用流量、音视频流量、FTP文件传输流量、Email流量、网络聊天流量等,也就是说,基于分类的方法一般只将网络流量根据特征分在不同的应用类别中,而同一应用类别中依旧存在大量不同用户的流量,这些流量很难再次加以区分,即无法判断同一类别中的流量属于哪一个租户,也就无法有效进行流量拼接,并获得流量在网络中的路径。
故现有的流量拼接方法应用于数据中心网络流量拼接还存在较大的局限性,在网络功能节点对于特征的改变与粗粒度的方法无法满足数据中心网络流量拼接高精度、细粒度的需求。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于深度学习的数据中心网络流量拼接方法。
为了实现上述技术目的,本发明的技术方案为:
一种基于深度学习的数据中心网络流量拼接方法,包括以下步骤:
(1)初始化网络流量拼接的孪生神经网络模型;
(2)根据一段时间内采集到的流量信息,选择具有代表性的流量特征网络流量,形成样本,利用该样本训练步骤(1)中初始化的孪生神经网络模型;
(3)在进行流量拼接时,对需要拼接的流量提取步骤(2)选择的流量特征并输入训练好的孪生神经网络模型,确定能够拼接在一起的流量,并完成流量拼接。
进一步地,步骤(1)的具体过程如下:
(11)使用数据中心网络流量的流量信息构成流量特征向量,用以表征数据中心网络流量,所述流量信息包括IP地址、端口号、数据包大小和流量持续时间;
(12)初始化孪生神经网络模型的参数,包括每批输入的样本对数目、学习率、正反样本对比例和各层神经网络参数;
(13)设置模型判定阈值η,作为最终流量拼接判定标准。
进一步地,步骤(2)的具体过程如下:
(21)采集数据中心网络中的流量信息,构成流量特征向量;
(22)使用多准则的特征选择算法从流量特征向量中选择具有全局代表性和鲁棒性的流量特征;
(23)对步骤(22)选择出的流量特征进行注入注意力处理;
(24)将步骤(23)处理之后的流量特征输入孪生神经网络进行训练;
(25)重复步骤(23)-(24),直至模型收敛。
进一步地,步骤(22)的具体步骤如下:
(221)计算流量特征的三个准则:相关性、前后不变性和一致性;
两个特征之间的相关性的计算式如下:
Figure BDA0002536548850000051
上式中,fi和fj为第i个流量特征和第j个流量特征,var(fi)和var(fj)为特征fi和fj的方差函数,cov(fi,fj)为协方差函数,R(fi,fj)表示特征fi和fj之间的相关程度;则有特征子集S,其相关性R(S)的计算式如下:
Figure BDA0002536548850000052
上式中,k为特征子集S的维数;
特征的前后不变性的计算式如下:
Figure BDA0002536548850000053
上式中,U(fi)表示第i个特征fi的前后不变性,fij表示第i个特征的第j个样本值,N为数据集的样本数目,diff(fij)为距离函数,diff(fij)=||fin-fout||2,fin表示第j条流量的第i个特征进入节点时流量特征值,fout表示第j条流量的第i个特征离开节点时流量特征值;则有特征子集S,其前后不变性U(S):
Figure BDA0002536548850000061
特征子集S的一致性C(S)的计算式如下:
Figure BDA0002536548850000062
上式中,M(fi=K)为数据样本中第i个特征fi为K的样本数目,K为数据样本中第i个特征相同值最多的特征值;
(222)根据步骤(221)的三个准则,对特征子集进行综合评分,根据评分选出最优的特征子集:
Figure BDA0002536548850000063
Figure BDA0002536548850000064
上式中,G(S)为综合评分,softmax(x)为使x归一化到[0,1]之间的函数;
(223)根据步骤(222)的结果从原始流量特征向量中提取出特征子集。
进一步地,在步骤(23)中,计算第i个特征的注意力权重αi
Figure BDA0002536548850000065
上式中,softmax(x)为使x归一化到[0,1]之间的函数,s(fi,Q)为点积打分函数,
Figure BDA0002536548850000066
Q为查询向量,W为注意力网络权值,上标T表示转置,k为特征向量的维数;
通过αi对第i个特征fi进行注入注意力处理:
fi'=αifi
上式中,fi'为进行注入注意力处理后的第i个特征。
进一步地,步骤(3)的具体过程如下:
(31)按照步骤(2)对需要拼接的流量提取相应的流量特征;
(32)将提取的流量特征输入流量拼接模型,计算流量是否拼接在一起的概率P(Fin,Fout):
Figure BDA0002536548850000071
上式中,Fin为进入节点的流量特征向量,Fout为离开节点的流量特征向量,Fi in为进入节点流量的第i个特征值,Fi out为离开节点流量的第i个特征值,k为特征向量维数,softmax(x)为使x归一化到[0,1]之间的函数;
(33)根据步骤(13)设定的模型判定阈值η,将概率P(Fin,Fout)大于等于η的相应流量进行拼接。
采用上述技术方案带来的有益效果:
(1)本发明利用孪生神经网络模型来处理流量拼接问题,可以进行细粒度的流量拼接,解决了其他方法粗粒度的问题;
(2)本发明使用了多准则的特征选择方法,利用多个特征选择准则选择出具有全局代表性和鲁棒性的流量特征,有效提升了流量拼接的精确度;
(3)本发明对使用的孪生神经网络模型引入了注意力机制,有效反映了不同网络功能节点对网络流量特征的关注程度,有效提升了拼接的精确度;
(4)本发明采用轻量化的深度神经网络模型,有效减少了模型参数,降低了流量拼接上的时间开销。
附图说明
图1是本发明应用于数据中心网络故障恢复的示例图;
图2是本发明实施例中采用的模块示意图;
图3是本发明实施例中网络模型的结构图;
图4是本发明实施例中网络训练和测试的流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明可以应用于数据中心网络故障恢复,如图1所示,用户A和用户B访问数据中心内部服务器,用户A收到了服务器的反馈,但用户B却一直没有收到服务器相应,此时通过流量拼接技术获得用户A以及用户B所发送流量在网络中的具体路径,发现用户B的流量并没有转发到服务器,而是在前一跳丢失,即流量F3没有匹配到任何网络流量,此时可以确定前一跳路由器存在一定问题,此时就可以通过调试该路由器进行快速网络故障恢复。流量拼接是网络故障定位以及恢复的第一步,同时也是最重要的一步,所以进行快速有效的流量拼接对保障数据中心网络可靠性至关重要。
为了实现数据中心网络环境下的流量拼接,本实施例结合深度神经网络中的孪生网络模型,并在模型中引入了注意力机制以反映不同节点对不同特征的关注程度,同时优化了特征选择算法以选择更具全局代表性和鲁棒性的流量特征,具体包含了三个子模块,分别为通信模块、特征选择模块和流量拼接模块,如图2所示,其中通信模块负责接收各个网络功能节点采集到的流量信息,并提取相应特征形成原始特征向量。特征选择模块负责处理原始特征向量,按照一致性,前后不变性和相关性给各维流量特征进行评分,从原始特征向量提取适用的特征用于流量拼接。流量拼接模块则负责根据特征选择模块的特征选择向量提取流量特征对流量进行拼接,在引入注意力之后通过孪生网络模型得到不同流量在网络中的路径。具体模块功能如下:
(1)通信模块:该模块负责接收从信息采集节点发送的流量信息,并对这些流量信息进行特征提取,提取出初始流量特征向量,如下所示:
F={f1,f2,f3,...,fn}T
(2)特征选择模块:该模块负责针对初始特征向量按照相关性、前后不变性、一致性这三个评价指标进行评分,同时考虑不同网络功能节点(如NAT网关、负载均衡器等)对于流量特征不同影响,选择得分超过阈值的特征置其特征选择位为1,其余特征选择位置为0,形成特征选择矩阵C,如下所示:
C={c1,c2,c3,...,cn}T
其中,ci∈{0,1},当特征被选中时ci=1,否则ci=0,得分阈值在特征选择前需初始化。
(3)流量拼接模块:该模块接收特征选择模块的选择结果和初始特征向量,提取出被选择的流量特征并对特征向量进行整形,然后添加注意力并送入孪生网络计算匹配程度,最终获得流量拼接结果:
Figure BDA0002536548850000091
如图3所示,本实施例设计的基于深度学习的数据中心网络流量拼接模型网络结构主要分为三层,分别为特征提取层,注意力网络层和孪生网络层,其中特征提取层提取流量特征并对向量进行整形,注意力网络层负责引入注意力机制修改特征值,而孪生网络层负责对流量进行匹配计算,模型整体结构具体如下:
(1)解码器:解码器是模型最外层,负责处理从通信模块接收到的流量信息,形成原始特征向量,并输入到特征提取层中。
(2)特征提取层:特征提取层的功能主要是提取有效的流量特征,其接收从特征选择模块形成的特征选择向量,按照特征选择向量提取流量特征,公式如下:
F'=CTF={c1,c2,c3,...,cn}{f1,f2,f3,...,fn}T
其中,ci∈{0,1},当特征被选中时ci=1,否则ci=0。
(3)注意力网络层:注意力网络层负责对特征向量引入注意力,以表达不同网络功能节点对不同流量特征的关注程度。为了在模型中引入注意力机制,假设输入到网络的特征向量为F={f1,f2,f3,...,fn},查询向量为Q,则对任意输入的特征向量Fi,可以得到每个特征的学习权重αi,为了更好的表达对不同特征的关注程度,注意力机制采用softmax函数对得到的相似度打分进行归一化,使得最终得到的权重αi∈[0,1],如下所示:
Figure BDA0002536548850000101
其中,s(fi,Q)为点积打分函数,得到每个特征权重之后,就可以通过fi′=αifi更新每一个特征值,并输入后面的孪生网络模型进行训练。
(4)孪生网络层:孪生网络层采用轻量化的孪生神经网络根据流量特征向量进行训练,孪生神经网络包括两个共享所有参数的卷积神经网络组成,输入的流量对分别输入到两个卷积神经网络中,在训练过程中,流量对经网络处理后计算对比损失值,并循环优化该损失使得模型收敛,表示如下:
Figure BDA0002536548850000102
其中,di表示向量间欧式距离,N为样本数目,y为判断标识,若y=1则流量对相关,y≠1则流量对不相关,margin为边界阈值,防止由于向量间距离过大而导致损失值较大,使得很难收敛。
而在测试和使用过程中,流量对经网络处理后直接计算其欧式距离,并输入到阈值判断器中,以判断该流量对是否是同一条流量。
(5)阈值判断器:阈值判断器主要用于测试和实际使用阶段,判断阈值在模型初始化时设定好,在测试或使用时,同一条输入节点的流量会与多条输出节点的流量进行匹配,每一对流量都会有一个匹配概率值来表示其为同一条流量的可能性,公式如下:
Figure BDA0002536548850000103
其中,Fin为进入节点的流量特征向量,Fout为离开节点的流量特征向量,Fi in为进入节点流量的第i个特征值,Fi out为离开节点流量的第i个特征值,k为特征向量维数,softmax函数将概率值归一化到[0,1]之间,计算出的概率P(Fin,Fout)若超过阈值,则认为是同一条流,若低于阈值,则不是同一条流,判断方式如下:
Figure BDA0002536548850000111
如图4中的(a)所示,在训练过程中,主要包含以下步骤:
步骤1,通信模块采集数据中心网络流量信息,并提取特征形成初始特征向量;
步骤2,特征选择模块根据初始特征向量执行多准则特征选择算法,生成特征选择向量
步骤3,根据特征选择向量与初始特征向量提取得到特征向量;
步骤4,特征向量输入注意力网络层添加注意力,修改特征向量的特征值;
步骤5,修改后的特征向量输入到孪生网络层进行训练,并计算对比损失函数;
步骤6,若模型收敛或达到设定的迭代次数,则模型训练完成,否则重复步骤4和步骤5的操作。
如图4中的(b)所示,在测试以及使用过程中,主要包含以下步骤:
步骤1,通信模块采集数据中心网络流量信息,并提取特征形成初始特征向量;
步骤2,根据训练形成的特征选择向量与初始特征向量提取得到特征向量;
步骤3,特征向量输入注意力网络层添加注意力,修改特征向量的特征值;
步骤4,修改后的特征向量输入到孪生网络层,并计算欧氏距离;
步骤5,阈值判断器判断流量对是否是同一条流量,若是,则进行拼接,否则不进行拼接。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于深度学习的数据中心网络流量拼接方法,其特征在于,包括以下步骤:
(1)初始化网络流量拼接的孪生神经网络模型;
(2)根据一段时间内采集到的流量信息,选择具有代表性的流量特征表征网络流量,形成样本,利用该样本训练步骤(1)中初始化的孪生神经网络模型;
(3)在进行流量拼接时,对需要拼接的流量提取步骤(2)选择的流量特征并输入训练好的孪生神经网络模型,确定能够拼接在一起的流量,并完成流量拼接。
2.根据权利要求1所述基于深度学习的数据中心网络流量拼接方法,其特征在于,步骤(1)的具体过程如下:
(11)使用数据中心网络流量的流量信息构成流量特征向量,用以表征数据中心网络流量,所述流量信息包括IP地址、端口号、数据包大小和流量持续时间;
(12)初始化孪生神经网络模型的参数,包括每批输入的样本对数目、学习率、正反样本对比例和各层神经网络参数;
(13)设置模型判定阈值η,作为最终流量拼接判定标准。
3.根据权利要求1所述基于深度学习的数据中心网络流量拼接方法,其特征在于,步骤(2)的具体过程如下:
(21)采集数据中心网络中的流量信息,构成流量特征向量;
(22)使用多准则的特征选择算法从流量特征向量中选择具有全局代表性和鲁棒性的流量特征;
(23)对步骤(22)选择出的流量特征进行注入注意力处理;
(24)将步骤(23)处理之后的流量特征输入孪生神经网络进行训练;
(25)重复步骤(23)-(24),直至模型收敛。
4.根据权利要求3所述基于深度学习的数据中心网络流量拼接方法,其特征在于,步骤(22)的具体步骤如下:
(221)计算流量特征的三个准则:相关性、前后不变性和一致性;
两个特征之间的相关性的计算式如下:
Figure FDA0002536548840000021
上式中,fi和fj为第i个流量特征和第j个流量特征,var(fi)和var(fj)为特征fi和fj的方差函数,cov(fi,fj)为协方差函数,R(fi,fj)表示特征fi和fj之间的相关程度;则有特征子集S,其相关性R(S)的计算式如下:
Figure FDA0002536548840000022
上式中,k为特征子集S的维数;
特征的前后不变性的计算式如下:
Figure FDA0002536548840000023
上式中,U(fi)表示第i个特征fi的前后不变性,fij表示第i个特征的第j个样本值,N为数据集的样本数目,diff(fij)为距离函数,diff(fij)=||fin-fout||2,fin表示第j条流量的第i个特征进入节点时流量特征值,fout表示第j条流量的第i个特征离开节点时流量特征值;则有特征子集S,其前后不变性U(S):
Figure FDA0002536548840000024
特征子集S的一致性C(S)的计算式如下:
Figure FDA0002536548840000025
上式中,M(fi=K)为数据样本中第i个特征fi为K的样本数目,K为数据样本中第i个特征相同值最多的特征值;
(222)根据步骤(221)的三个准则,对特征子集进行综合评分,根据评分选出最优的特征子集:
Figure FDA0002536548840000031
Figure FDA0002536548840000032
上式中,G(S)为综合评分,softmax(x)为使x归一化到[0,1]之间的函数;
(223)根据步骤(222)的结果从原始流量特征向量中提取出特征子集。
5.根据权利要求3所述基于深度学习的数据中心网络流量拼接方法,其特征在于,在步骤(23)中,计算第i个特征的注意力权重αi
Figure FDA0002536548840000033
上式中,softmax(x)为使x归一化到[0,1]之间的函数,s(fi,Q)为点积打分函数,s(fi,Q)=Wfi TQ,Q为查询向量,W为注意力网络权值,上标T表示转置,k为特征向量的维数;
通过αi对第i个特征fi进行注入注意力处理:
fi'=αifi
上式中,fi'为进行注入注意力处理后的第i个特征。
6.根据权利要求2述基于深度学习的数据中心网络流量拼接方法,其特征在于,步骤(3)的具体过程如下:
(31)按照步骤(2)对需要拼接的流量提取相应的流量特征;
(32)将提取的流量特征输入流量拼接模型,计算流量是否拼接在一起的概率P(Fin,Fout):
Figure FDA0002536548840000034
上式中,Fin为进入节点的流量特征向量,Fout为离开节点的流量特征向量,Fi in为进入节点流量的第i个特征值,Fi out为离开节点流量的第i个特征值,k为特征向量维数,softmax(x)为使x归一化到[0,1]之间的函数;
(33)根据步骤(13)设定的模型判定阈值η,将概率P(Fin,Fout)大于等于η的流量进行拼接。
CN202010534449.1A 2020-06-12 2020-06-12 一种基于深度学习的数据中心网络流量拼接方法 Active CN111817971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010534449.1A CN111817971B (zh) 2020-06-12 2020-06-12 一种基于深度学习的数据中心网络流量拼接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010534449.1A CN111817971B (zh) 2020-06-12 2020-06-12 一种基于深度学习的数据中心网络流量拼接方法

Publications (2)

Publication Number Publication Date
CN111817971A true CN111817971A (zh) 2020-10-23
CN111817971B CN111817971B (zh) 2023-03-24

Family

ID=72846093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534449.1A Active CN111817971B (zh) 2020-06-12 2020-06-12 一种基于深度学习的数据中心网络流量拼接方法

Country Status (1)

Country Link
CN (1) CN111817971B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112737891A (zh) * 2020-12-30 2021-04-30 北京浩瀚深度信息技术股份有限公司 一种网络流量模拟测试方法、装置及存储介质
CN113365298A (zh) * 2021-04-22 2021-09-07 山东师范大学 基于高阶模糊认知图的mr网络信号强度预测方法及系统
CN115396212A (zh) * 2022-08-26 2022-11-25 国科华盾(北京)科技有限公司 检测模型的训练方法、装置、计算机设备和存储介质
CN116032845A (zh) * 2023-02-13 2023-04-28 杭银消费金融股份有限公司 数据中心网络开销管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189677A1 (en) * 2017-01-05 2018-07-05 Cisco Technology, Inc. Training a machine learning-based traffic analyzer using a prototype dataset
CN109063777A (zh) * 2018-08-07 2018-12-21 北京邮电大学 网络流量分类方法、装置及实现装置
CN109167680A (zh) * 2018-08-06 2019-01-08 浙江工商大学 一种基于深度学习的流量分类方法
CN110796196A (zh) * 2019-10-30 2020-02-14 中国科学院信息工程研究所 一种基于深度判别特征的网络流量分类系统及方法
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189677A1 (en) * 2017-01-05 2018-07-05 Cisco Technology, Inc. Training a machine learning-based traffic analyzer using a prototype dataset
CN109167680A (zh) * 2018-08-06 2019-01-08 浙江工商大学 一种基于深度学习的流量分类方法
CN109063777A (zh) * 2018-08-07 2018-12-21 北京邮电大学 网络流量分类方法、装置及实现装置
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN110796196A (zh) * 2019-10-30 2020-02-14 中国科学院信息工程研究所 一种基于深度判别特征的网络流量分类系统及方法
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112737891A (zh) * 2020-12-30 2021-04-30 北京浩瀚深度信息技术股份有限公司 一种网络流量模拟测试方法、装置及存储介质
CN113365298A (zh) * 2021-04-22 2021-09-07 山东师范大学 基于高阶模糊认知图的mr网络信号强度预测方法及系统
CN115396212A (zh) * 2022-08-26 2022-11-25 国科华盾(北京)科技有限公司 检测模型的训练方法、装置、计算机设备和存储介质
CN116032845A (zh) * 2023-02-13 2023-04-28 杭银消费金融股份有限公司 数据中心网络开销管理方法及系统
CN116032845B (zh) * 2023-02-13 2024-07-19 杭银消费金融股份有限公司 数据中心网络开销管理方法及系统

Also Published As

Publication number Publication date
CN111817971B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111817971B (zh) 一种基于深度学习的数据中心网络流量拼接方法
Zhang et al. Autonomous unknown-application filtering and labeling for dl-based traffic classifier update
CN109951444B (zh) 一种加密匿名网络流量识别方法
Hu et al. [Retracted] CLD‐Net: A Network Combining CNN and LSTM for Internet Encrypted Traffic Classification
Soleymanpour et al. An efficient deep learning method for encrypted traffic classification on the web
CN114401516B (zh) 一种基于虚拟网络流量分析的5g切片网络异常检测方法
Islam et al. Network anomaly detection using lightgbm: A gradient boosting classifier
Zhao et al. A few-shot learning based approach to IoT traffic classification
Zhao et al. Flow transformer: A novel anonymity network traffic classifier with attention mechanism
CN114142923A (zh) 光缆故障定位方法、装置、设备及可读介质
CN110351303B (zh) 一种DDoS特征提取方法及装置
CN116170208A (zh) 一种基于半监督isodata算法的网络入侵实时检测方法
Wang et al. Internet traffic classification using machine learning: a token-based approach
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
Yang et al. Achieving robust performance for traffic classification using ensemble learning in SDN networks
CN115348198B (zh) 基于特征检索的未知加密协议识别分类方法、设备及介质
Sun et al. Deep learning-based anomaly detection in LAN from raw network traffic measurement
CN113726809B (zh) 基于流量数据的物联网设备识别方法
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法
Arifuzzaman et al. Towards generalizable network anomaly detection models
CN115334005A (zh) 基于剪枝卷积神经网络和机器学习的加密流量识别方法
Li et al. Identifying Skype traffic by random forest
CN114666282A (zh) 一种基于机器学习的5g流量识别方法及装置
Uymin Application of machine learning in the classification of traffic in telecommunication networks: working with network modeling systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210805

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 210096, No. four archway, Xuanwu District, Jiangsu, Nanjing 2

Applicant before: SOUTHEAST University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: DongFang

Inventor after: Xia Mingxuan

Inventor after: Wang Shiqi

Inventor after: Wang Zhongyu

Inventor before: DongFang

Inventor before: Xia Mingxuan

Inventor before: Wang Shiqi

CB03 Change of inventor or designer information