CN111817971A

CN111817971A - 一种基于深度学习的数据中心网络流量拼接方法

Info

Publication number: CN111817971A
Application number: CN202010534449.1A
Authority: CN
Inventors: 东方; 夏鸣轩; 王士琦
Original assignee: Southeast University
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-23
Anticipated expiration: 2040-06-12
Also published as: CN111817971B

Abstract

本发明公开了一种基于深度学习的数据中心网络流量拼接方法，步骤：初始化网络流量拼接的孪生神经网络模型；根据一段时间内采集到的流量信息，选择具有代表性的流量特征，形成样本，利用该样本训练孪生神经网络模型；对需要拼接的流量提取流量特征并输入训练好的孪生神经网络模型，确定能够拼接在一起的流量，并完成流量拼接。本发明优化了数据中心网络流量特征选择方法，提升了被选特征的代表性和鲁棒性，并使用深度学习算法构建网络流量拼接模型，提升了流量拼接的精度。

Description

一种基于深度学习的数据中心网络流量拼接方法

技术领域

本发明属于数据中心网络领域，特别涉及了一种数据中心网络流量拼接方法。

背景技术

随着云计算的兴起，数据中心在近年来飞速发展，其数目和规模都在快速增加，预计到2021年，全球超大规模数据中心数量将达到628个，相比于2016年增长53％。数据中心是拥有完善设备(如接入带宽、网络、机房环境等)、专业化管理、众多应用的服务平台，其拥有海量的计算资源和存储资源，为用户提供按需服务。作为数据中心的重要组成部分，数据中心网络将所有计算、存储资源连接起来，使得数据中心可以为用户提供所需要的服务，并提供相应的QoS，保障服务质量，因而数据中心网络的可靠性是数据中心可以正常运行的重要一环。网络可靠性是表示网络是否容易出现故障的指标，网络可靠性越高，网络出现故障的概率也就越低，而数据中心网络出现一次故障就会造成数以万计的损失，据UptimeInstitute统计，有大约27％的数据中心故障是由于网络问题导致的，是除了电气故障外最大的数据中心故障原因，且随着电气技术的发展和数据中心规模的增大，网络故障将会成为最大原因，所以排除网络故障，维护网络稳定性是数据中心正常运行的关键。为了快速排除网络故障，恢复网络正常运行，需要快速的网络故障定界，其中首要的就是要对网络流量进行监控，确定流量的路径，但数据中心网络流量众多，预计到2021年，数据中心网络流量将达到20.6ZB，面对海量的流量，如何确定流量的路径，以便快速故障恢复是当前研究的重点。

为此，研究者们提出了流量拼接技术，也即流量关联，其旨在根据网络流量相关信息，如五元组(源宿端口，源宿IP地址，协议)、数据包数据信息、流量特征等，将进出网络节点的流量对进行相关，以得到完整的流路径信息。流量拼接对维护数据中心网络可靠性，对网络故障快速定位有着重要作用。流量拼接旨在获得网络中流量间的关联性，从而获得流量在网络中的路径，而根据这些路径信息，就可以快速推断流量在网络中哪个位置出现问题，从而可以定位网络故障的位置，进而快速实现网络恢复，保障数据中心网络的可靠性。流量拼接是网络故障定位以及恢复的第一步，同时也是最重要的一步，所以进行快速有效的流量拼接对保障数据中心网络可靠性至关重要。

传统上网络流量拼接主要分为两种方法：基于端口的流量拼接和基于数据信息的流量拼接。基于端口的流量拼接通过匹配网络流量的端口号，如FTP协议用21端口通信，对网络流量进行拼接，只有拥有同样的源宿端口号的流量才会被拼接在一起。基于数据信息的流量拼接则通过解析报文内的数据信息，如深度报文检测解析数据中的应用层信息来对流量进行识别和拼接。然而，由于当前数据中心网络大多使用动态端口技术来解决端口数目不足的问题，这使得即使是同一用户，在发送不同类型的信息时所使用的端口号也不相同，导致端口号不再适合作为流量的标识符。同时，由于数据中心是多租户的环境，为了保护不同租户的隐私，大多数网络流量都是经过数据加密的，这使得无法利用深度报文解析等技术对网络流量的数据内容进行分析，从而也无法正确的拼接流量。

由于传统的方法不够高效且拼接准确度不高，很多研究者开始考虑使用流量特征进行流量拼接，即根据流量特征匹配流量，判断流量是否属于同一条流。常见的流量特征包括数据包大小、数据包到达间隔时间、流量持续时间、流量中数据包数目等，根据这些流量特征，近年来，研究者们提出了很多流量拼接方法，具体可以分为两类，基于分类的拼接方法和基于相关性的拼接方法：基于分类的拼接方法根据流量的特征，利用一些分类器，如C4.5决策树、贝叶斯网络、支持向量机等，将流量分成特定的类别(如Web流量、FTP流量等)，并以此为基础进行匹配流量。基于相关性的拼接方法也可以分为两类，第一类为主动流量关联方法，其主动修改网络流量的相关特征，比如数据包大小、到达间隔时间，使得同一条流量拥有相同的特征分布，不同的流量拥有不同的特征分布，第二类就是被动流量关联的方法，也即监听并获取网络中的流量相关的特征信息，一般主要以数据包大小和到达间隔时间为主，这主要是由于这样的特征容易获取且具有一定的分布特性，根据这些采集到的特征信息通过一定方法(如深度神经网络)对流量进行相似度分析，把相似度高的流量进行拼接。然而，由于数据中心网络大量网络功能节点(NAT网关、负载均衡器、防火墙等)的存在以及多租户的特性，上述方法有着很多新的问题：

(1)网络功能设备对流量特征的改变会降低拼接精度。当前数据中心网络存在大量网络功能设备，这些网络功能设备旨在对网络中的流量进行调控，以优化网络整体性能，比如负载均衡设备会对网络流量进行整流和分流，调整数据包大小以及将数据包发往不同链路，从而调节链路的负载，防止网络拥塞，这些网络功能设备不仅会改变流量的五元组信息，而且会影响数据包的特征分布，比如流量经过隧道节点时会对数据包进行封装，从而数据包大小会产生改变，又比如负载均衡设备在调节链路负载时对数据包进行整形，导致数据包大小和数目都发生改变，当这些特征改变时，主动关联方法使同一流量的特征分布相似，但在经过网络功能节点后，这些特征分布会被改变，从而无法识别。同时，因为网络功能节点的存在，使得不同的流量也拥有相似的特征分布或者特征分布产生极大改变，导致被动的关联方法也无法准确拼接。

(2)现有流量拼接方法较粗粒度。数据中心网络是多租户环境，不同租户也会产生大量相同类型的流量。基于分类的流量拼接方法主要是通过分类器将流量分为不同的类别，常见的类别由Web应用流量、音视频流量、FTP文件传输流量、Email流量、网络聊天流量等，也就是说，基于分类的方法一般只将网络流量根据特征分在不同的应用类别中，而同一应用类别中依旧存在大量不同用户的流量，这些流量很难再次加以区分，即无法判断同一类别中的流量属于哪一个租户，也就无法有效进行流量拼接，并获得流量在网络中的路径。

故现有的流量拼接方法应用于数据中心网络流量拼接还存在较大的局限性，在网络功能节点对于特征的改变与粗粒度的方法无法满足数据中心网络流量拼接高精度、细粒度的需求。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种基于深度学习的数据中心网络流量拼接方法。

为了实现上述技术目的，本发明的技术方案为：

一种基于深度学习的数据中心网络流量拼接方法，包括以下步骤：

(1)初始化网络流量拼接的孪生神经网络模型；

(2)根据一段时间内采集到的流量信息，选择具有代表性的流量特征网络流量，形成样本，利用该样本训练步骤(1)中初始化的孪生神经网络模型；

(3)在进行流量拼接时，对需要拼接的流量提取步骤(2)选择的流量特征并输入训练好的孪生神经网络模型，确定能够拼接在一起的流量，并完成流量拼接。

进一步地，步骤(1)的具体过程如下：

(11)使用数据中心网络流量的流量信息构成流量特征向量，用以表征数据中心网络流量，所述流量信息包括IP地址、端口号、数据包大小和流量持续时间；

(12)初始化孪生神经网络模型的参数，包括每批输入的样本对数目、学习率、正反样本对比例和各层神经网络参数；

(13)设置模型判定阈值η，作为最终流量拼接判定标准。

进一步地，步骤(2)的具体过程如下：

(21)采集数据中心网络中的流量信息，构成流量特征向量；

(22)使用多准则的特征选择算法从流量特征向量中选择具有全局代表性和鲁棒性的流量特征；

(23)对步骤(22)选择出的流量特征进行注入注意力处理；

(24)将步骤(23)处理之后的流量特征输入孪生神经网络进行训练；

(25)重复步骤(23)-(24)，直至模型收敛。

进一步地，步骤(22)的具体步骤如下：

(221)计算流量特征的三个准则：相关性、前后不变性和一致性；

两个特征之间的相关性的计算式如下：

上式中，f_i和f_j为第i个流量特征和第j个流量特征，var(f_i)和var(f_j)为特征f_i和f_j的方差函数，cov(f_i,f_j)为协方差函数，R(f_i,f_j)表示特征f_i和f_j之间的相关程度；则有特征子集S，其相关性R(S)的计算式如下：

上式中，k为特征子集S的维数；

特征的前后不变性的计算式如下：

上式中，U(f_i)表示第i个特征f_i的前后不变性，f_ij表示第i个特征的第j个样本值，N为数据集的样本数目，diff(f_ij)为距离函数，diff(f_ij)＝||f_in-f_out||₂，f_in表示第j条流量的第i个特征进入节点时流量特征值，f_out表示第j条流量的第i个特征离开节点时流量特征值；则有特征子集S，其前后不变性U(S)：

特征子集S的一致性C(S)的计算式如下：

上式中，M(f_i＝K)为数据样本中第i个特征f_i为K的样本数目，K为数据样本中第i个特征相同值最多的特征值；

(222)根据步骤(221)的三个准则，对特征子集进行综合评分，根据评分选出最优的特征子集：

上式中，G(S)为综合评分，softmax(x)为使x归一化到[0,1]之间的函数；

(223)根据步骤(222)的结果从原始流量特征向量中提取出特征子集。

进一步地，在步骤(23)中，计算第i个特征的注意力权重α_i：

上式中，softmax(x)为使x归一化到[0,1]之间的函数，s(f_i,Q)为点积打分函数，

Q为查询向量，W为注意力网络权值，上标T表示转置，k为特征向量的维数；

通过α_i对第i个特征f_i进行注入注意力处理：

f_i'＝α_if_i

上式中，f_i'为进行注入注意力处理后的第i个特征。

进一步地，步骤(3)的具体过程如下：

(31)按照步骤(2)对需要拼接的流量提取相应的流量特征；

(32)将提取的流量特征输入流量拼接模型，计算流量是否拼接在一起的概率P(F_in,F_out)：

上式中，F_in为进入节点的流量特征向量，F_out为离开节点的流量特征向量，Fⁱ _in为进入节点流量的第i个特征值，Fⁱ _out为离开节点流量的第i个特征值，k为特征向量维数，softmax(x)为使x归一化到[0,1]之间的函数；

(33)根据步骤(13)设定的模型判定阈值η，将概率P(F_in,F_out)大于等于η的相应流量进行拼接。

采用上述技术方案带来的有益效果：

(1)本发明利用孪生神经网络模型来处理流量拼接问题，可以进行细粒度的流量拼接，解决了其他方法粗粒度的问题；

(2)本发明使用了多准则的特征选择方法，利用多个特征选择准则选择出具有全局代表性和鲁棒性的流量特征，有效提升了流量拼接的精确度；

(3)本发明对使用的孪生神经网络模型引入了注意力机制，有效反映了不同网络功能节点对网络流量特征的关注程度，有效提升了拼接的精确度；

(4)本发明采用轻量化的深度神经网络模型，有效减少了模型参数，降低了流量拼接上的时间开销。

附图说明

图1是本发明应用于数据中心网络故障恢复的示例图；

图2是本发明实施例中采用的模块示意图；

图3是本发明实施例中网络模型的结构图；

图4是本发明实施例中网络训练和测试的流程图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明可以应用于数据中心网络故障恢复，如图1所示，用户A和用户B访问数据中心内部服务器，用户A收到了服务器的反馈，但用户B却一直没有收到服务器相应，此时通过流量拼接技术获得用户A以及用户B所发送流量在网络中的具体路径，发现用户B的流量并没有转发到服务器，而是在前一跳丢失，即流量F₃没有匹配到任何网络流量，此时可以确定前一跳路由器存在一定问题，此时就可以通过调试该路由器进行快速网络故障恢复。流量拼接是网络故障定位以及恢复的第一步，同时也是最重要的一步，所以进行快速有效的流量拼接对保障数据中心网络可靠性至关重要。

为了实现数据中心网络环境下的流量拼接，本实施例结合深度神经网络中的孪生网络模型，并在模型中引入了注意力机制以反映不同节点对不同特征的关注程度，同时优化了特征选择算法以选择更具全局代表性和鲁棒性的流量特征，具体包含了三个子模块，分别为通信模块、特征选择模块和流量拼接模块，如图2所示，其中通信模块负责接收各个网络功能节点采集到的流量信息，并提取相应特征形成原始特征向量。特征选择模块负责处理原始特征向量，按照一致性，前后不变性和相关性给各维流量特征进行评分，从原始特征向量提取适用的特征用于流量拼接。流量拼接模块则负责根据特征选择模块的特征选择向量提取流量特征对流量进行拼接，在引入注意力之后通过孪生网络模型得到不同流量在网络中的路径。具体模块功能如下：

(1)通信模块：该模块负责接收从信息采集节点发送的流量信息，并对这些流量信息进行特征提取，提取出初始流量特征向量，如下所示：

F＝{f₁,f₂,f₃,...,f_n}^T

(2)特征选择模块：该模块负责针对初始特征向量按照相关性、前后不变性、一致性这三个评价指标进行评分，同时考虑不同网络功能节点(如NAT网关、负载均衡器等)对于流量特征不同影响，选择得分超过阈值的特征置其特征选择位为1，其余特征选择位置为0，形成特征选择矩阵C，如下所示：

C＝{c₁,c₂,c₃,...,c_n}^T

其中，c_i∈{0,1}，当特征被选中时c_i＝1，否则c_i＝0，得分阈值在特征选择前需初始化。

(3)流量拼接模块：该模块接收特征选择模块的选择结果和初始特征向量，提取出被选择的流量特征并对特征向量进行整形，然后添加注意力并送入孪生网络计算匹配程度，最终获得流量拼接结果：

如图3所示，本实施例设计的基于深度学习的数据中心网络流量拼接模型网络结构主要分为三层，分别为特征提取层，注意力网络层和孪生网络层，其中特征提取层提取流量特征并对向量进行整形，注意力网络层负责引入注意力机制修改特征值，而孪生网络层负责对流量进行匹配计算，模型整体结构具体如下：

(1)解码器：解码器是模型最外层，负责处理从通信模块接收到的流量信息，形成原始特征向量，并输入到特征提取层中。

(2)特征提取层：特征提取层的功能主要是提取有效的流量特征，其接收从特征选择模块形成的特征选择向量，按照特征选择向量提取流量特征，公式如下：

F'＝C^TF＝{c₁,c₂,c₃,...,c_n}{f₁,f₂,f₃,...,f_n}^T

其中，c_i∈{0,1}，当特征被选中时c_i＝1，否则c_i＝0。

(3)注意力网络层：注意力网络层负责对特征向量引入注意力，以表达不同网络功能节点对不同流量特征的关注程度。为了在模型中引入注意力机制，假设输入到网络的特征向量为F＝{f₁,f₂,f₃,...,f_n}，查询向量为Q，则对任意输入的特征向量F_i，可以得到每个特征的学习权重α_i，为了更好的表达对不同特征的关注程度，注意力机制采用softmax函数对得到的相似度打分进行归一化，使得最终得到的权重α_i∈[0,1]，如下所示：

其中，s(f_i,Q)为点积打分函数，得到每个特征权重之后，就可以通过f_i′＝α_if_i更新每一个特征值，并输入后面的孪生网络模型进行训练。

(4)孪生网络层：孪生网络层采用轻量化的孪生神经网络根据流量特征向量进行训练，孪生神经网络包括两个共享所有参数的卷积神经网络组成，输入的流量对分别输入到两个卷积神经网络中，在训练过程中，流量对经网络处理后计算对比损失值，并循环优化该损失使得模型收敛，表示如下：

其中，d_i表示向量间欧式距离，N为样本数目，y为判断标识，若y＝1则流量对相关，y≠1则流量对不相关，margin为边界阈值，防止由于向量间距离过大而导致损失值较大，使得很难收敛。

而在测试和使用过程中，流量对经网络处理后直接计算其欧式距离，并输入到阈值判断器中，以判断该流量对是否是同一条流量。

(5)阈值判断器：阈值判断器主要用于测试和实际使用阶段，判断阈值在模型初始化时设定好，在测试或使用时，同一条输入节点的流量会与多条输出节点的流量进行匹配，每一对流量都会有一个匹配概率值来表示其为同一条流量的可能性，公式如下：

其中，F_in为进入节点的流量特征向量，F_out为离开节点的流量特征向量，Fⁱ _in为进入节点流量的第i个特征值，Fⁱ _out为离开节点流量的第i个特征值，k为特征向量维数，softmax函数将概率值归一化到[0,1]之间，计算出的概率P(F_in,F_out)若超过阈值，则认为是同一条流，若低于阈值，则不是同一条流，判断方式如下：

如图4中的(a)所示，在训练过程中，主要包含以下步骤：

步骤1，通信模块采集数据中心网络流量信息，并提取特征形成初始特征向量；

步骤2，特征选择模块根据初始特征向量执行多准则特征选择算法，生成特征选择向量

步骤3，根据特征选择向量与初始特征向量提取得到特征向量；

步骤4，特征向量输入注意力网络层添加注意力，修改特征向量的特征值；

步骤5，修改后的特征向量输入到孪生网络层进行训练，并计算对比损失函数；

步骤6，若模型收敛或达到设定的迭代次数，则模型训练完成，否则重复步骤4和步骤5的操作。

如图4中的(b)所示，在测试以及使用过程中，主要包含以下步骤：

步骤2，根据训练形成的特征选择向量与初始特征向量提取得到特征向量；

步骤3，特征向量输入注意力网络层添加注意力，修改特征向量的特征值；

步骤4，修改后的特征向量输入到孪生网络层，并计算欧氏距离；

步骤5，阈值判断器判断流量对是否是同一条流量，若是，则进行拼接，否则不进行拼接。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。