CN113098791A - 一种多业务网络流的成分占比分析方法 - Google Patents

一种多业务网络流的成分占比分析方法 Download PDF

Info

Publication number
CN113098791A
CN113098791A CN202110339415.1A CN202110339415A CN113098791A CN 113098791 A CN113098791 A CN 113098791A CN 202110339415 A CN202110339415 A CN 202110339415A CN 113098791 A CN113098791 A CN 113098791A
Authority
CN
China
Prior art keywords
analysis
node
flow
traffic
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110339415.1A
Other languages
English (en)
Other versions
CN113098791B (zh
Inventor
吴梓汇
谢逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110339415.1A priority Critical patent/CN113098791B/zh
Publication of CN113098791A publication Critical patent/CN113098791A/zh
Application granted granted Critical
Publication of CN113098791B publication Critical patent/CN113098791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种多业务网络流的成分占比分析方法及其分析装置,所述分析装置包括数据采集模块、流量预处理模块、流量分析模块、占比分析模块。所述成分占比分析方法包括采集目标链路中的混合网络流量样本;利用本发明设计的方法把分析样本转换为流量拓扑图;通过流量分析模块将预处理后的流量拓扑图进一步转化为流量画像;将所述流量画像输入至占比分析模块,获得所述分析样本中不同类型网络流的最终占比分析结果。与现有技术相比,本发明针对链路流量的实时管理和资源调度而设计,综合利用数据流的属性信息与通信结构信息,本发明适用于各种类型的分布式网络管理,包括企业网、接入网、数据中心网络、骨干网等。

Description

一种多业务网络流的成分占比分析方法
技术领域
本发明属于网络技术领域,特别涉及一种多业务网络流的成分占比分析方法及其分析装置。
背景技术
现代互联网业务的高速发展使流量管理的重要性日益显著,同时也给传统的TCP/IP通信体系带来了新的挑战,这些挑战主要来自三个方面:第一,IoT的发展带动海量的异构终端和设备通过不同途径接入互联网,这些终端和设备给互联网带来结构复杂、种类繁多、规模庞大的数据流。设计高效的流量管理策略,使互联网在不影响传统网络业务运营的情况下充分发挥有限资源的潜力,满足新型异构数据流的传输需求,是亟待解决的重要问题之一。第二,基于虚拟化的5G网络切片技术使单一物理网络能够分割为多个虚拟的端到端网络,为具有不同需求的网络应用提供通信服务。由于虚拟切片的数据最终仍然依赖物理网络的传输,基于TCP/IP的通信基础设施面临着前所未有的严峻挑战,设计高效快速的流量管理、负载均衡、以及动态资源调配方法不仅关系到局部通信性能,而且影响众多上层虚拟切片业务的性能。第三,为了满足用户日益增长的需求,服务提供商不断推出新型网络业务与应用,这些业务不仅消耗了大量的通信资源,且它们固有的突发性、QoS/QoE需求的多样性使基于目的地址传输的TCP/IP网络面临越来越大的通信压力与不稳定性。根据链路上业务流量的成分结构合理地调配网络资源、动态优化数据流走向、最大化网络的整体传输性能是流量管理迫切需要解决的另一个问题。
互联网流量管理问题的根源来自TCP/IP网络与生俱来的局限性,主要包括两个方面:一方面是TCP/IP仅根据目的地址采用尽力而为的转发方式,这导致目的地相同的数据流往往被转发到相同的路径,容易造成网络拥塞。另一方面是TCP/IP缺乏对传输数据的监管机制,加密协议的广泛应用导致网络转发设备难以区分数据的来源、种类与性质,从而无法实施有效的传输策略来优化网络的性能。
为了解决TCP/IP体系下的流量管理问题,学术界与工业界提出了大量面向流量分类的方案。这些方案通过识别产生网络流的应用与传输网络流所使用的协议,为流量管理提供依据。已有的流量分类方法的类型包括基于端口识别的方法、基于深度分组检测的方法、基于统计特征和机器学习的方法。这些方法广泛应用在网络流量分析、设备负载均衡、以及SDN流表管理等场景。但是,面对规模庞大、业务复杂的高速网络,已有的流量分类管理方法面临着新的挑战:首先,在大规模的流量转发任务中,现有的协议分析与应用识别方法因为计算复杂度高,难以对海量的传输数据进行实时流量分类;其次,尽管常规的协议分析与应用识别等细粒度方法能够提供详细的流量信息,但是这些信息并非针对实时资源调配与流量管理所设计的,从而导致在实际应用中效率低下,性能难以达到预期效果。
发明内容
本发明为解决上述背景技术中存在的至少一种缺陷,提出了一种多业务网络流的成分占比分析方法,该方法根据不同业务成分占比条件下网络流的结构特征和属性特征,估计出混合网络流中各种类型流量的占比,进而自动且快速地对网络中业务成分结构不平衡的通信流量与链路资源进行合理调度,实时保证网络的稳定性与鲁棒性。
为达到上述目的,本发明的技术方案为:
一种多业务网络流的成分占比分析方法,包括以下步骤:
A1,数据采集模块采集目标链路中的混合网络流量数据,构成分析样本,且在所述分析样本中用于模型训练的样本上建立成分占比标签;
A2,数据预处理模块对所述分析样本进行预处理,生成流量拓扑图;
A3,将所述预处理生成的流量拓扑图输入至流量分析模块进行分析,生成流量画像;
A4,将所述流量画像输入至占比分析模块,获得所述分析样本中不同类型网络流的最终占比分析结果。
进一步地,A2步骤具体包括以下步骤:
A21,提取所述分析样本的单IP特征
Figure BDA0002998677670000021
和双IP特征
Figure BDA0002998677670000022
A22,初始化流量拓扑图,将分析样本中出现的IP作为流量拓扑图中的节点,将每一个IP的单IP特征映射为流量拓扑图中对应节点的属性值
Figure BDA0002998677670000023
而将双IP特征
Figure BDA0002998677670000024
映射到流量拓扑图中对应节点之间的边
Figure BDA0002998677670000025
的权重
Figure BDA0002998677670000026
进一步地,A3步骤具体包括以下步骤:
A31,对所述流量拓扑图中的节点进行编码;
A32,利用所述经过编码的流量拓扑图训练结构信息化向量模型;
A33,利用结构信息向量化模型将经过编码的、待分析的流量拓扑图的节点转换为向量表示,得到每一个节点在结构信息空间中的坐标;
A34,根据所述结构信息空间中的坐标将节点映射到多维图像中,生成流量画像。
进一步地,A4步骤具体包括以下步骤:
A41,利用占比标签已知的流量画像样本训练占比分析模型;
A42,将所述待分析的流量画像输入到占比分析模型中,进而获得分析样本中不同类型网络流的最终占比分析结果。
进一步地,A31步骤中节点进行编码时每个节点vi的编码长度由表示邻居阶数的参数D定义,所采用的编码格式为:(vi的度,vi的一阶邻居的平均度,…,vi的D阶邻居的平均度)。
进一步地,A32步骤具体包括以下步骤:
A321,对每个已编码流量拓扑图根据其边权重和超参数p、q进行节点有偏游走,获取多个节点游走序列,并将其加入到游走序列集合
Figure BDA0002998677670000031
A322,对节点游走序列集合
Figure BDA0002998677670000032
中的每个节点游走序列样本,按照算法获取节点上下文预测模型的节点上下文片段,并将其加入到节点上下文片段集合
Figure BDA0002998677670000033
中;
A323,基于skip-gram模型,输入包含D+1个神经元表示节点上下文片段中的输入节点的编码输出包含D+1个神经元,表示节点上下文片段中的上下文节点的编码,使用节点上下文片段集合
Figure BDA0002998677670000034
训练得到节点上下文预测模型;
A324,抽取节点上下文预测模型的输入层和隐藏层形成结构信息向量化模型;
进一步地,A33步骤具体包括以下步骤:
A331,将所述待分析的流量拓扑图节点的编码输入至结构信息向量化模型,得到每一个节点的向量化表示;
A332,根据节点的向量化表示,由该向量确定结构信息空间中的一个坐标点,把该节点映射该坐标点的像素。
进一步地,A34步骤具体包括以下步骤:
A341,按照图像灰度的规格,对节点vi的特征向量
Figure BDA0002998677670000035
进行归一化处理;
A342,把该归一化后的特征向量作为灰度赋值给节点vi在结构信息空间中相应的像素点。灰度的图层数量由特征向量
Figure BDA0002998677670000036
的维度决定,一个灰度图层对应
Figure BDA0002998677670000037
的一个维度。
进一步地,A41步骤采用CNN模型作为成分占比分析模型,输入为流量画像,输出为流量画像表示的分析样本中的各种类型流量的占比,使用带占比标签的流量画像集合训练该模型。
训练完成后,该模型可用于流量成分占比分析,流量画像被输入到CNN模型后,通过多个卷积-池化层的计算后获得流量画像的高维特征表示,这个高维特征表示再通过全连接层前向传播,最后使用softmax层对输出的多个流量占比进行归一化获得最终的流量分析结果。
本发明还提供一种多业务网络流的成分占比分析装置,包括:
数据采集模块,用于采集目标链路中的流量数据以构成至少包含两种类型的分析样本,对用于训练的分析样本建立成分占比标签;
数据预处理模块,用于提取所述分析样本的特征,并将该特征表示在与单个分析样本对应的流量拓扑图中;所述流量拓扑图由节点和无向边构成;
流量分析模块,对所述流量拓扑图中的节点根据其邻居信息进行编码;利用经过编码的样本训练向量化模型;基于向量化模型将所述节点的编码转换为结构信息空间的多维坐标,并根据所述多维坐标将节点映射到流量画像中;把节点的属性特征作为灰度赋值给流量画像中该节点相应的像素点。
占比分析模块,利用带占比标签的流量画像训练成分占比分析模型,所述占比分析模型根据流量画像获得分析样本中不同类型网络流量的最终占比分析结果。
占比分析模块,用于将流量画像输入到占比分析模型中,获得分析样本中不同类型网络流的最终占比分析结果。
与现有技术相比,本发明具有的优点和有益效果是:
本发明首次提出综合利用数据流固有的结构特征和属性特征的方法,把流量中的成分占比分析转化为图像识别问题,基于成熟的CNN实现高效的流量成分占比分析。且根据不同网络业务(不同类型的网络流)在分析样本中呈现的结构特征与属性特征,估计混合网络流中各种业务流量的占比。通过分析网络流中业务成分的占比信息,可以自动且快速地对网络中业务成分结构不平衡的通信流量与链路资源进行合理调度,实时保证网络的稳定性与鲁棒性。此外,本发明的流量占比分析装置针对大规模高速网络的实时流量管理而设计,无需对所测量的流量进行逐一识别,从而避免大量复杂度高的细粒度分析计算,提升大规模复杂网络的实时流量管理能力。流量占比分析装置与应用场景无关、数据流的加密及协议无关,适用于包括数据中心、局域网、骨干网等不同的网络环境,为实现网络管理的自动化与智能化提供一种可行的参考方案。
附图说明
图1为本发明一种多业务网络流的成分占比分析装置示意图;
图2为图1所示的多业务网络流的成分占比分析装置的流量分析模块流程图;
图3为本发明的一种多业务网络流的成分占比分析方法流程图。
图4为图3所示的多业务网络流的成分占比分析方法的数据采集示意图;
图5为图3所示的多业务网络流的成分占比分析方法的构造流量拓扑图示意图;
图6为图3所示的多业务网络流的成分占比分析方法的流量拓扑图节点转移概率中αpq参数的计算示意图;
图7为图3所示的多业务网络流的成分占比分析方法的节点上下文预测模型样本构造示意图;
图8为图3所示的多业务网络流的成分占比分析方法的节点上下文预测模型示意图;
图9为图3所示的多业务网络流的成分占比分析方法的占比分析模型的框架示意图;
图10为图3所示的多业务网络流的成分占比分析方法的占比分析模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。下面结合附图和实例对本发明的技术方案做进一步说明。
本实施例以三种常见的网络流量为例说明方案的实施技术细节,分别为网页浏览类、P2P下载类、直播类。
如图1,一种多业务网络流的成分占比分析装置,包括数据采集模块、流量预处理模块、流量分析模块和占比分析模块。其中,流量分析模块的流程图如图2所示。
图3为本实施例的多业务网络流的成分占比分析方法流程图。包括以下步骤:
第一步,采集目标链路的混合网络流量数据,构成分析样本,且对分析样本上建立成分占比标签。
数据采集的过程如图4所示,给定采集起始时间和采集结束时间,采集工具在这段时间中采集到的混合数据流构成一个分析样本,并建立成分占比标签。其中,分析样本由相同的源IP分组、相同的目的IP分组、相同的源端口分组、相同的目的端口分组、相同的传输层协议分组构成。此外,本实施例使用u∈{1,2,...,U,U+1}表示流量的类型,{1,2,...,U}表示本发明关注的U种不同的流量类型,U+1表示所有可识别之外的流量类型。为分析样本中的每条网络流标记流量类型(如HTTP、P2P),并将样本中网络流的总数量记为N,然后计算样本中类型为u的流量占比Lu,计算方式如下:
Figure BDA0002998677670000051
其中Nu表示样本中类型为u的网络流的数量,剩余的可识别之外的流量的占比LU+1为:
Figure BDA0002998677670000061
因此,单个流量样本的成分占比标签记为L={L1,L2,...,Lu,...,LU,LU+1}。
在本实施例中,数据采集模块采集数据的过程更具体为:以三种常见的网络流量为例,分别为网页浏览类、P2P下载类、直播类。部署抓包工具采集汇聚链路上一段时间的流量,每次采集的时长为30s,进行2000次采集,每次采集到的数据作为一份分析样本。计算每个流量样本中网页流量、P2P流量、直播流量以及其他不关注流量的比例作为标签,并将4/5的样本共1600个样本作为训练集、1/5的样本共400个样本作为测试集。
第二步,提取所述流量样本的特征,并将特征表示在流量拓扑图中。
分析样本的特征包括单个IP的特征、两个存在通信行为的IP之间的特征;所述单个IP的特征为对应IP的特征向量,表示为
Figure BDA0002998677670000062
所述存在通信行为的IP之间的特征为对应的IP的特征向量,表示为
Figure BDA0002998677670000063
另外,每个分析样本提取上述的特征,并将提取到的特征映射在构造出流量拓扑图中。图5为其映射方法,分析样本中的ip1被映射为流量拓扑图Gtopo中的1号节点v1,且1号节点的属性值
Figure BDA0002998677670000064
即为
Figure BDA0002998677670000065
同时,由于ip1和ip3(映射到Gtopo中3号节点v3)进行通信,所以图Gtopo中的节点v1和节点v3之间存在无向边
Figure BDA0002998677670000066
Figure BDA0002998677670000067
的权重向量
Figure BDA0002998677670000068
为ip1和ip3两个IP之间的结构特征向量
Figure BDA0002998677670000069
其中,IP的特征作为流量拓扑图中的节点属性,IP之间的特征则作为边的权重。
在本实施例中,IP的特征为:
·与该IP通信的IP数量
·该IP与其他IP通信使用的不同的端口数量
·其他IP与该IP通信使用的不同的端口数量
·该IP与其他IP通信建立的流数量
·该IP与其他IP通信建立的流的平均持续时间
而对于IP与IP之间的特征,本发明实施例中只提取了一个特征:
·两个IP之间建立的流的数量
第三步,根据流量拓扑图的节点及其邻居的性质对节点进行编码。
流量拓扑图中的节点根据其性质对其进行编码,使不同的流量拓扑图中具有相似性质的节点具有相同的编码。对于Gtopo中的每个节点vi,本方案使用节点的度描述节点的性质。但是,如果仅仅考虑节点自身的度,那么节点的编码空间很小,编码包含的信息量很少。因此,本发明不仅考虑节点自身的度,同时考虑节点的邻居的度。
节点的邻居通过参数D定义,表示参考的邻居的阶数。当D为1时,表示仅考虑节点的一阶邻居,通过使用二元组
Figure BDA0002998677670000071
作为节点vi的编码;而当D为2时,则多考虑节点的二阶邻居,使用三元组
Figure BDA0002998677670000072
Figure BDA0002998677670000073
作为节点vi的编码。通过调整参数D,可以调整编码的空间,也能使编码包含不同阶数的节点邻居信息。
第四步,将节点的编码输入结构信息向量化模型,进而输出节点在结构信息空间的向量化的二维坐标。
将流量拓扑图中的节点的编码输入到结构信息向量化模型中,获取到节点在结构信息空间中的表示(也即节点在该空间中的坐标)。
此外,结构信息向量化模型通过以下步骤获得:
第一,将每个已编码流量拓扑图进行节点游走,获取多个节点游走序列,并将其加入到游走序列集合
Figure BDA0002998677670000074
获取游走序列集合
Figure BDA0002998677670000075
的具体步骤如下:
S11,设定每个分析样本生成的已编码流量拓扑图的节点游走长度l,游走的轮数r,初始化游走序列sseq为空;
S12,设定游走参数p、q,并根据p、q计算流量拓扑图中进行随机游走时节点之间的转移概率:
Figure BDA0002998677670000076
x表示当前节点,y表示下一跳节点,t表示当前节点x的上一跳节点。Z是归一化系数,ωyx是边(y,x)上的权重,α(t,y)是根据t,y之间的跳数dty确定的转移概率系数,图6展示了节点x关联到的三条边的α值的计算,具体的公式如下:
Figure BDA0002998677670000077
S13,随机选择一个节点作为起始节点,将该节点的编码加入到sseq中;
S14,根据节点之间的转移概率选择下一个节点,将该节点的编码加入到sseq中;
S15,如果sseq的长度不等于l,返回步骤S14;sseq的长度等于l,将sseq添加到
Figure BDA0002998677670000081
中,清空sseq,递减游走轮数r;
S16,若r为0,返回步骤S13;若r为0,则得到游走序列集合
Figure BDA0002998677670000082
第二,对游走序列集合
Figure BDA0002998677670000083
中的每个序列,提取用于训练节点上下文预测模型的节点上下文片段,并将其加入到节点上下文片段集合
Figure BDA0002998677670000084
中,并使用
Figure BDA0002998677670000085
训练节点上下文预测模型;
Figure BDA0002998677670000086
获取节点上下文片段构造节点上下文片段集合
Figure BDA0002998677670000087
具体步骤为:
S21,设定序列下标参数J并初始化为1,表示游走序列集合sseq的中的第一个节点,记sseq的长度为l;
S22,将当前遍历到的节点sseq[J]作为中心点,构造以中心点为样本scont的输入;若中心点的前一个节点sseq[J-1]存在,则该节点作为样本的标签的训练样本scont=(sseq[J]:sseq[J-1]);若中心点后一个节点sseq[J+1]存在,则该节点构造另一个训练样本scont'=(sseq[J]:sseq[J+1]),并将训练样本加入节点上下文预测模型的节点上下文片段集合
Figure BDA0002998677670000088
中,构造的具体流程如图7所示;
S23,递增J;
S24,若J<l,返回步骤S22;若J=l,则获得的节点上下文片段集合
Figure BDA0002998677670000089
图8为节点上下文预测模型的样本构造示意图及模型示意图。该模型共三层,分别为输入层,投影层和输出层。其中,输入层输入节点的编码,维度为编码的长度D+1;投影层的维度2,表示将节点根据其输入的编码投影到二维的空间中,投影层的神经元不设置激活函数;输出层的输出是节点的编码,表示根据输入的节点预测的上下文节点,其维度为D+1。使用节点的上下文片段集合
Figure BDA00029986776700000810
作为节点上下文预测模型的训练数据集,并通过BP算法训练该模型,训练完成后即可获得节点上下文预测模型.
第三,抽取节点上下文预测模型的结构参数以形成结构信息向量化模型。
抽取出模型的输入层和投影层以及权重参数即为需要的结构信息向量化模型。结构信息向量化模型可以将输入层节点的编码投影到其对应的向量表示,该向量表示节点在映射到的二维空间中的坐标。
在本实施例中,游走参数p、q的设置会影响游走的倾向性,为了使模型在游走时不会陷入局部少数节点,更好地学习流量拓扑图的整体结构信息,将p、q分别设置为0.2和4。同时,将每个流量拓扑图游走的轮数设置为1000,游走序列的长度设置为30。本实施例中训练完成后获取到的是输入层为2维,隐藏层为2维,输出层为2维的节点上下文预测模型,抽取出该模型的输入层和隐藏层即为结构信息向量化模型。将流量拓扑图中的每个节点的编码输入到结构信息向量化模型中,获取到每个节点对应的向量表示,也就是节点在结构信息空间中的坐标。
第五步,将节点根据二维坐标映射到流量画像中。
获取到节点在结构信息空间中的坐标后,初始化二维图像,并依次将流量拓扑图中每个节点根据其坐标映射到二维图像中的对应像素,同时,像素的取值即为节点对应的属性值。在本实施例中,流量画像的大小为32×32,通道数为5,因此,每个流量拓扑图都可以根据其节点的坐标和节点的特征向量映射为一个32×32×5的流量画像。
第六步,将流量画像输入到占比分析模型中,进而获得流量样本中不同类型网络流的最终占比分析结果。
由于生成的流量画像比较简单,故选取的CNN模型的结构也比较简单,使用LeNet作为CNN模型结构,同时,只在CNN之后拼接单层全连接网络,其框架如图9所示。占比分析模型将流量画像作为输入,占比标签作为ground truth,使用均方根误差作为损失函数,SGD作为优化器,训练完成后即可获得占比分析模型。对于测试集中的样本,只需要将样本处理为流量画像后输入占比分析模块,即可获得占比分析结果。
其中,每个样本的预测结果与ground truth的损失的计算方式如下:
Figure BDA0002998677670000091
其中,Li表示样本中类型为i的流量的真实占比,而
Figure BDA0002998677670000092
表示类型为i的流量的预测占比,U表示受关注的流量类型的数量。
具体的CNN模型结构如图10所示,模型以32×32的流量画像为例,流量画像首先经过6张5×5卷积核的卷积核的处理生成6张28×28的特征图片,再使用2×2大小的最大池化层进行下采样,将特征图片降维为14×14,再通过包含24个5×5卷积核的卷积层,处理后得到24张10×10的特征图片,同理,使用2×2池化层进行降维将特征图片降维为5×5,最后的卷积层使用120个5×5卷积核将24张特征图片展开为120维的高维特征表示,高维特征表示再通过全连接网络前向传播到输出层,输出层的维度为U+1,并使用softmax函数作为激活函数,归一化后获得最终的占比分析结果。
综上,本发明提出一种新的轻量级多业务流量成分占比分析方案。大大提升了大规模复杂网络的实时流量管理能力,本发明根据流量在不同网络业务占比条件下呈现的结构特征与属性特征,估计混合网络流中各种业务流量的占比。通过分析网络流中业务成分的占比信息,自动且快速地对网络中业务成分结构不平衡的通信流量与链路资源进行合理调度,实时保证网络的稳定性与鲁棒性。

Claims (10)

1.一种多业务网络流的成分占比分析方法,其特征在于:包括以下步骤:
A1,数据采集模块采集目标链路中的混合网络流量数据,构成分析样本,且在所述分析样本中用于模型训练的样本上建立成分占比标签;
A2,数据预处理模块对所述分析样本进行预处理,生成流量拓扑图;
A3,将所述预处理生成的流量拓扑图输入至流量分析模块进行分析,生成流量画像;
A4,将所述流量画像输入至占比分析模块,获得所述分析样本中不同类型网络流的最终占比分析结果。
2.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A2步骤具体包括以下步骤:
A21,提取所述分析样本的单IP特征
Figure FDA0002998677660000011
和双IP特征
Figure FDA0002998677660000012
A22,初始化流量拓扑图,将分析样本中出现的IP作为流量拓扑图中的节点,将每一个IP的单IP特征映射为流量拓扑图中对应节点的属性值
Figure FDA0002998677660000013
而将双IP特征
Figure FDA0002998677660000014
映射到流量拓扑图中对应节点之间的边
Figure FDA0002998677660000015
的权重
Figure FDA0002998677660000016
3.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A3步骤具体包括以下步骤:
A31,对所述流量拓扑图的节点进行编码;
A32,利用所述经过编码的流量拓扑图训练结构信息化向量模型;
A33,利用结构信息向量化模型将经过编码的、待分析的流量拓扑图的节点转换为多维向量表示,得到每一个节点在结构信息空间中的坐标;
A34,根据所述结构信息空间中的坐标将节点映射到多维图像中,生成流量画像。
4.根据权利要求1所述的多业务网络流的成分占比分析方法,其特征在于:A4步骤具体包括以下步骤:
A41,利用占比标签已知的流量画像样本训练占比分析模型;
A42,将所述待分析的流量画像输入到占比分析模型中,进而获得分析样本中不同类型网络流的最终占比分析结果。
5.根据权利要求3所述的多业务网络流的成分占比分析方法,其特征在于:A31步骤中节点进行编码时每个节点vi的编码长度由表示邻居阶数的参数D定义,所采用的编码格式为:(vi的度,vi的一阶邻居的平均度,…,vi的D阶邻居的平均度)。
6.根据权利要求3所述的多业务网络流的成分占比分析方法,其特征在于:A32步骤具体包括以下步骤:
A321,对每个已编码流量拓扑图根据其边权重和超参数p、q进行节点有偏游走,获取多个节点游走序列,并将其加入到游走序列集合
Figure FDA0002998677660000021
A322,对节点游走序列集合
Figure FDA0002998677660000022
中的每个节点游走序列样本,按照算法获取节点上下文预测模型的节点上下文片段,并将其加入到节点上下文片段集合
Figure FDA0002998677660000023
中;
A323,基于skip-gram模型,输入包含D+1个神经元表示节点上下文片段中的输入节点的编码输出包含D+1个神经元,表示节点上下文片段中的上下文节点的编码,使用节点上下文片段集合
Figure FDA0002998677660000024
训练得到节点上下文预测模型;
A324,抽取节点上下文预测模型的输入层和隐藏层形成结构信息向量化模型。
7.根据权利要求3所述的多业务网络流的成分占比分析方法,其特征在于:A33步骤具体包括以下步骤:
A331,将所述待分析的流量拓扑图节点的编码输入至结构信息向量化模型,得到每一个节点的向量化表示;
A332,根据节点的向量化表示,由该向量确定结构信息空间中的一个坐标点,把该节点映射为该坐标点的像素。
8.根据权利要求3所述的多业务网络流的成分占比分析方法,其特征在于:A34步骤具体包括以下步骤:
A341,按照图像灰度的规格,对节点vi的特征向量
Figure FDA0002998677660000025
进行归一化处理;
A342,把该归一化后的特征向量作为灰度赋值给节点vi在结构信息空间中相应的像素点。
9.根据权利要求4所述的多业务网络流的成分占比分析方法,其特征在于:A41步骤采用CNN模型作为成分占比分析模型,输入为流量画像,输出为流量画像表示的分析样本中的各种流量类型的占比,使用带占比标签的流量画像集合训练该模型。
10.一种多业务网络流的成分占比分析装置,其特征在于:所述成分占比分析装置包括:
数据采集模块,用于采集目标链路中的流量数据以构成至少包含两种类型的分析样本,对用于训练的分析样本建立成分占比标签;
数据预处理模块,用于提取所述分析样本的特征,并将该特征表示在与单个分析样本对应的流量拓扑图中;所述流量拓扑图由节点和无向边构成;
流量分析模块,对所述流量拓扑图中的节点根据其邻居信息进行编码;利用经过编码的样本训练向量化模型;基于向量化模型将所述节点的编码转换为结构信息空间的多维坐标,并根据所述多维坐标将节点映射到流量画像中;把节点的属性特征作为灰度赋值给流量画像中该节点相应的像素点;
占比分析模块,利用带占比标签的流量画像训练成分占比分析模型,所述占比分析模型根据流量画像获得分析样本中不同类型网络流量的最终占比分析结果。
CN202110339415.1A 2021-03-30 2021-03-30 一种多业务网络流的成分占比分析方法 Active CN113098791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110339415.1A CN113098791B (zh) 2021-03-30 2021-03-30 一种多业务网络流的成分占比分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110339415.1A CN113098791B (zh) 2021-03-30 2021-03-30 一种多业务网络流的成分占比分析方法

Publications (2)

Publication Number Publication Date
CN113098791A true CN113098791A (zh) 2021-07-09
CN113098791B CN113098791B (zh) 2022-05-06

Family

ID=76671069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110339415.1A Active CN113098791B (zh) 2021-03-30 2021-03-30 一种多业务网络流的成分占比分析方法

Country Status (1)

Country Link
CN (1) CN113098791B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113904921A (zh) * 2021-10-21 2022-01-07 上海观安信息技术股份有限公司 基于日志和图的动态网络拓扑图生成方法、系统、处理设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323099A (zh) * 2014-07-31 2016-02-10 中国移动通信集团公司 业务网络流量建模方法、网络资源调度方法及网元
US20180307924A1 (en) * 2016-09-13 2018-10-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for acquiring traffic sign information
CN109327356A (zh) * 2018-11-20 2019-02-12 中国联合网络通信集团有限公司 一种用户画像的生成方法和装置
CN109982366A (zh) * 2017-12-28 2019-07-05 中国移动通信集团河北有限公司 基于大数据的目标价值区域分析方法、装置、设备及介质
CN111131332A (zh) * 2020-01-16 2020-05-08 沈阳铁道科学技术研究所有限公司 一种网络业务互联与流量采集分析记录系统
CN111988285A (zh) * 2020-08-03 2020-11-24 中国电子科技集团公司第二十八研究所 一种基于行为画像的网络攻击溯源方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323099A (zh) * 2014-07-31 2016-02-10 中国移动通信集团公司 业务网络流量建模方法、网络资源调度方法及网元
US20180307924A1 (en) * 2016-09-13 2018-10-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for acquiring traffic sign information
CN109982366A (zh) * 2017-12-28 2019-07-05 中国移动通信集团河北有限公司 基于大数据的目标价值区域分析方法、装置、设备及介质
CN109327356A (zh) * 2018-11-20 2019-02-12 中国联合网络通信集团有限公司 一种用户画像的生成方法和装置
CN111131332A (zh) * 2020-01-16 2020-05-08 沈阳铁道科学技术研究所有限公司 一种网络业务互联与流量采集分析记录系统
CN111988285A (zh) * 2020-08-03 2020-11-24 中国电子科技集团公司第二十八研究所 一种基于行为画像的网络攻击溯源方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘吴斌等: "网络加密流量识别研究综述及展望", 《通信学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113904921A (zh) * 2021-10-21 2022-01-07 上海观安信息技术股份有限公司 基于日志和图的动态网络拓扑图生成方法、系统、处理设备、存储介质
CN113904921B (zh) * 2021-10-21 2024-04-30 上海观安信息技术股份有限公司 基于日志和图的动态网络拓扑图生成方法、系统、处理设备、存储介质

Also Published As

Publication number Publication date
CN113098791B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
WO2017152883A1 (zh) 一种协同流的识别方法、系统以及使用该方法的服务器
Nie et al. Network traffic prediction based on deep belief network and spatiotemporal compressive sensing in wireless mesh backbone networks
CN109831386A (zh) 一种sdn下基于机器学习的最优路径选择算法
CN113989583A (zh) 一种互联网恶意流量检测方法及系统
CN112311608B (zh) 一种多层异质网络空间节点表征方法
CN107846371B (zh) 一种多媒体业务QoE资源分配方法
CN113098791B (zh) 一种多业务网络流的成分占比分析方法
Soleymanpour et al. An efficient deep learning method for encrypted traffic classification on the web
CN108462707A (zh) 一种基于深度学习序列分析的移动应用识别方法
WO2024188157A1 (zh) 一种WIFI Mesh组网传播优化方法、系统及存储介质
CN111010341A (zh) 一种基于深度学习的覆盖网络路由决策方法
CN115828143A (zh) 基于图卷积和自注意力机制实现异构图元路径聚合的节点分类方法
Wang et al. Evolutionary algorithm-based and network architecture search-enabled multiobjective traffic classification
CN110365659B (zh) 一种小样本场景下的网络入侵检测数据集的构造方法
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
CN105812280A (zh) 一种分类方法及电子设备
CN112260953A (zh) 一种基于强化学习的多通道数据转发决策方法
CN115002031B (zh) 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法
CN116451138A (zh) 基于多模态学习的加密流量分类方法、装置及存储介质
Al-Saadi et al. Unsupervised machine learning-based elephant and mice flow identification
Kusetogullari et al. Meta-heuristic algorithms for optimized network flow wavelet-based image coding
CN110061869B (zh) 一种基于关键词的网络轨迹分类方法及装置
CN113163387A (zh) 一种应急通信业务感知方法
CN111752707A (zh) 一种基于映射关系的电力通信网资源分配方法
CN103118078A (zh) P2p流量的识别方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant