CN115086186B - 数据中心网络流量需求数据的生成方法和装置 - Google Patents

数据中心网络流量需求数据的生成方法和装置 Download PDF

Info

Publication number
CN115086186B
CN115086186B CN202210742776.5A CN202210742776A CN115086186B CN 115086186 B CN115086186 B CN 115086186B CN 202210742776 A CN202210742776 A CN 202210742776A CN 115086186 B CN115086186 B CN 115086186B
Authority
CN
China
Prior art keywords
flow
interval
sample
parameter matrix
demand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210742776.5A
Other languages
English (en)
Other versions
CN115086186A (zh
Inventor
崔勇
刘志文
王莫为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210742776.5A priority Critical patent/CN115086186B/zh
Publication of CN115086186A publication Critical patent/CN115086186A/zh
Priority to US18/309,222 priority patent/US12105774B2/en
Application granted granted Critical
Publication of CN115086186B publication Critical patent/CN115086186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0882Utilisation of link capacity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种数据中心网络流量需求数据的生成方法和装置,其中,该方法包括:获取流量需求样本,其中,流量需求样本包括源地址、目的地址、流间隔和流大小;基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号;基于源地址和目的地址划分流量需求子集,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵;基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据。本申请能够生成真实数据中心业务场景下的流量需求数据。

Description

数据中心网络流量需求数据的生成方法和装置
技术领域
本申请涉及数据中心网络流量建模技术领域,尤其涉及一种数据中心网络流量需求数据的生成方法和装置。
背景技术
数据中心及数据中心网络是当代社会的网络基础设施,数据中心网络承载了越来越多的上层应用。在需求端,上层业务的流量需求快速增长,对数据中心网络的时延、带宽等性能要求也越来越高;在供给端,为了更好地满足业务需求,数据中心网络也在不断进行着硬件升级、拓扑优化和传输机制优化。准确地建模流量需求特征是网络架构和传输机制优化、评估的基础。在设计层面,以负载均衡策略的设计为例,不同的流量需求矩阵和流级别的特征对负载均衡策略的设计有重要的影响。另外,在评估层面,通过流量模型生成不同业务的流量需求,将生成的流量作为仿真环境的输入,可以对比不同网络架构或传输机制在不同流量条件下的性能。
数据中心网络中的流量需求分布存在异质、多维的局部性特征,这些局部性特征与数据中心承载的上层业务有关。统计意义上,不同源-目的地址间的总流量需求存在显著差异;不同服务器节点的连接度数也存在显著差异。逐流级别分析,不同源-目的地址间的流到达行为模式存在明显的异质性。总结来说,数据中心网络中的流量需求分布特征主要体现在源地址、目的地址、流间隔、流大小四个维度的属性上。
现有技术中,数据中心网络流量模型都是基于很强的假设——假设全部对全部或多对一模式的空间分布,然后假设流间隔服从泊松分布,最后从全局流间隔累积分布函数中独立采样流大小。上述流量模型虽然有一定的合理性,譬如全部对全部模式的空间分布代表了数据中心网络拓扑设计的最差情况,但是此类流量模型不能用于模拟生成真实数据中心业务场景下的流量需求数据。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的目的在于解决真实数据中心业务场景下的流量需求数据生成问题,提出了一种数据中心网络流量需求数据的生成方法。
本申请的另一个目的在于提出一种数据中心网络流量需求数据的生成装置。
为达上述目的,本申请一方面提出了数据中心网络流量需求数据的生成方法,包括以下步骤:
获取流量需求样本,其中,所述流量需求样本包括源地址、目的地址、流间隔和流大小;
基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号;
基于所述源地址和所述目的地址划分流量需求子集,并基于所述流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,其中,所述第一参数矩阵是所述源地址至所述目的地址的高维特征概率分布矩阵,所述第二参数矩阵是所述高维特征到所述流间隔和所述流大小的联合概率分布矩阵;
基于所述第一区间编号、所述第二区间编号、所述第一参数矩阵和所述第二参数矩阵生成流量需求数据。
在一种可能的实施例中,所述获取流量需求样本,包括:
获取包级别流量数据;
根据所述源地址、所述目的地址和被动超时间隔处理所述包级别流量数据,获得所述流量需求样本。
在一种可能的实施例中,所述基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,包括:
根据所述流间隔对所述流量需求样本进行排序,获得对应的第一流量需求样本队列;
基于所述第一流量需求样本队列进行等频划分,获得预设数量的第一样本区间;
根据所述流间隔所属的所述第一样本区间,将所述流间隔转换为所述第一样本区间对应的所述第一区间编号。
在一种可能的实施例中,所述基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,包括:
根据所述流大小对所述流量需求样本进行排序,获得对应的第二流量需求样本队列;
基于所述第二流量需求样本队列进行等频划分,获得预设数量的第二样本区间;
根据所述流大小所属的所述第二样本区间,将所述流大小转换为所述第二样本区间对应的所述第二区间编号。
在一种可能的实施例中,所述基于所述源地址和所述目的地址划分流量需求子集,包括:
在所述源地址相同且所述目的地址相同的情况下,将所述流量需求样本划归同一所述流量需求子集;
在所述流量需求子集仅包括单条所述流量需求样本的情况下,删除所述流量需求子集。
在一种可能的实施例中,所述并基于所述流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,包括:
获取所述流间隔和所述流大小的联合取值;
基于所述联合取值构建LDA概率主题模型;
训练所述LDA概率主题模型,获得所述第一参数矩阵和第二参数矩阵。
在一种可能的实施例中,所述基于所述第一区间编号、所述第二区间编号、所述第一参数矩阵和所述第二参数矩阵生成流量需求数据,包括:
基于所述第一参数矩阵、所述源地址和所述目的地址获取高维特征类型;
基于所述高维特征类型和所述第二参数矩阵获取所述流间隔和所述流大小的联合区间编号;
基于所述联合区间编号、所述第一区间编号和所述第二区间编号获取所述流间隔和所述流大小对应的实数值;
基于所述实数值生成所述流量需求数据。
在一种可能的实施例中,所述基于所述第一参数矩阵、所述源地址和所述目的地址获取高维特征类型,包括:
基于所述第一参数矩阵,根据所述源地址和所述目的地址获取第一参数向量;
基于第一多项式分布模型,根据所述第一参数向量获取所述高维特征类型。
在一种可能的实施例中,所述基于所述高维特征类型和所述第二参数矩阵获取所述流间隔和所述流大小的联合区间编号,包括:
基于所述第二参数矩阵,根据所述高维特征类型获取第二参数向量;
基于第二多项式分布模型,根据所述第二参数向量获取所述流间隔和所述流大小的所述联合区间编号。
为达到上述目的,本申请另一方面提出了一种数据中心网络流量需求数据的生成装置,包括:
获取模块,用于获取流量需求样本,其中,所述流量需求样本包括源地址、目的地址、流间隔和流大小;
执行模块,用于基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号;
训练模块,用于基于所述源地址和所述目的地址划分流量需求子集,并基于所述流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,其中,所述第一参数矩阵是所述源地址至所述目的地址的高维特征概率分布矩阵,所述第二参数矩阵是所述高维特征到所述流间隔和所述流大小的联合概率分布矩阵;
生成模块,用于基于所述第一区间编号、所述第二区间编号、所述第一参数矩阵和所述第二参数矩阵生成流量需求数据。
在一种可能的实施例中,所述获取模块,包括:
第一获取单元,用于获取包级别流量数据;
处理单元,用于根据所述源地址、所述目的地址和被动超时间隔处理所述包级别流量数据,获得所述流量需求样本。
在一种可能的实施例中,所述执行模块,包括:
第一排序单元,用于根据所述流间隔对所述流量需求样本进行排序,获得对应的第一流量需求样本队列;
第一划分单元,用于基于第一流量需求样本队列进行等频划分,获得预设数量的第一样本区间;
第一转换单元,用于根据所述流间隔所属的所述第一样本区间,将所述流间隔转换为所述第一样本区间对应的所述第一区间编号。
在一种可能的实施例中,所述执行模块,包括:
第二排序单元,用于根据所述流大小对所述流量需求样本进行排序,获得对应的第二流量需求样本队列;
第二划分单元,用于基于所述第二流量需求样本队列进行等频划分,获得预设数量的第二样本区间;
第二转换单元,用于根据所述流大小所属的所述第二样本区间,将所述流大小转换为所述第二样本区间对应的所述第二区间编号。
在一种可能的实施例中,所述训练模块,包括:
划归单元,用于在所述源地址相同且目的地址相同的情况下,将所述流量需求样本划归同一所述流量需求子集;
删除单元,用于在所述流量需求子集仅包括单条所述流量需求样本的情况下,删除所述流量需求子集。
在一种可能的实施例中,所述训练模块,包括:
第二获取单元,用于获取所述流间隔和所述流大小的联合取值;
构建单元,用于基于所述联合取值构建LDA概率主题模型;
训练单元,用于训练所述LDA概率主题模型,获得所述第一参数矩阵和所述第二参数矩阵。
在一种可能的实施例中,所述生成模块,包括:
第三获取单元,用于基于所述第一参数矩阵、所述源地址和所述目的地址获取高维特征类型;
第四获取单元,用于基于所述高维特征类型和所述第二参数矩阵获取所述流间隔和所述流大小的联合区间编号;
第五获取单元,用于基于所述联合区间编号、所述第一区间编号和所述第二区间编号获取所述流间隔和所述流大小对应的实数值;
生成单元,用于基于所述实数值生成所述流量需求数据。
在一种可能的实施例中,所述第三获取单元,包括:
第一获取子单元,用于基于所述第一参数矩阵,根据所述源地址和所述目的地址获取第一参数向量;
第二获取子单元,用于基于第一多项式分布模型,根据所述第一参数向量获取所述高维特征类型。
在一种可能的实施例中,所述第四获取单元,包括:
第三获取子单元,用于基于所述第二参数矩阵,根据所述高维特征类型获取第二参数向量;
第四获取子单元,用于基于第二多项式分布模型,根据所述第二参数向量获取所述流间隔和所述流大小的所述联合区间编号
本申请的有益效果:
在本申请实施例中,通过获取流量需求样本,其中,流量需求样本包括源地址、目的地址、流间隔和流大小,然后基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,再基于源地址和目的地址划分流量需求子集,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,最后基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据。本申请能够生成真实数据中心业务场景下的流量需求数据。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例的数据中心网络流量需求数据的生成方法的流程图;
图2为根据本申请实施例的数据中心网络流量需求数据的生成装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
下面参照附图描述根据本申请实施例提出的数据中心网络流量需求数据的生成方法及装置,首先将参照附图描述根据本申请实施例提出的数据中心网络流量需求数据的生成方法。
图1是本申请一个实施例的数据中心网络流量需求数据的生成方法的流程图。
如图1所示,该数据中心网络流量需求数据的生成方法包括以下步骤:
步骤S110,获取流量需求样本。
其中,流量需求样本包括源地址、目的地址、流间隔和流大小。
在本申请实施例中,首先可以获取流量需求样本,流量需求样本包括源地址、目的地址、流间隔和流大小,获取到的每条流量需求样本可以用如下的多维向量表示:
A=(src,dst,interarrival time,flow size)
其中,A表示流量需求样本,src表示源地址,dst表示目的地址,interarrivaltime表示流间隔,flow size表示流大小。
步骤S120,基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号。
其中,等频分箱离散化处理可以是基于流间隔和流大小分别对流量需求样本进行等频区间划分,保证每个区间内的流量需求样本数据相同。第一区间编号可以是基于流间隔对流量需求样本进行等频区间划分获得的区间编号,第二区间编号可以是基于流大小对流量需求样本进行等频区间划分获得的区间编号。
在本申请实施例中,获取流量需求样本之后,可以基于流量需求样本的流间隔和流大小执行等频分箱离散化处理,从而获得第一区间编号和第二区间编号。示例性的,可以基于流量需求样本的流间隔和流大小执行等频分箱离散化处理,分别获得100个区间,则第一区间编号的取值范围可以是0至99,第二区间编号的取值范围也可以是0至99。
步骤S130,基于源地址和目的地址划分流量需求子集,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵。
其中,LDA概率主题模型是隐含狄利克雷分布(Latent Dirichlet Allocation)概率主题模型,第一参数矩阵是源地址至目的地址的高维特征概率分布矩阵,第二参数矩阵是高维特征到流间隔和流大小的联合概率分布矩阵。
在本申请实施例中,可以基于源地址和目的地址划分流量需求子集,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵。也就是说,流量需求子集中的流量需求样本的源地址相同和目的地址相同,是从相同源地址发送到相同目的地址的流量需求样本,而基于流量需求子集训练LDA概率主题模型可以获得源地址至目的地址的高维特征概率分布矩阵和高维特征到流间隔和流大小的联合概率分布矩阵。
步骤S140,基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据。
在本申请实施例中,获得第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵后,可以基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据。
在本申请实施例中,通过获取流量需求样本,其中,流量需求样本包括源地址、目的地址、流间隔和流大小,然后基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,再基于源地址和目的地址划分流量需求子集,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,最后基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据。本申请能够生成真实数据中心业务场景下的流量需求数据。
在一种可能的实施例中,获取流量需求样本,包括:
获取包级别流量数据;
根据源地址、目的地址和被动超时间隔处理包级别流量数据,获得流量需求样本。
在本申请实施例中,获取流量需求样本的方式可以是先获取包级别流量数据,然后根据源地址、目的地址和被动超时间隔处理包级别流量数据,获得流量需求样本。
需要说明的是,被动超时间隔可以直接设置为60秒,也可以设置相对于包级别流量数据中包间隔分布而言较大的时间。
在一种可能的实施例中,基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,包括:
根据流间隔对流量需求样本进行排序,获得对应的第一流量需求样本队列;
基于第一流量需求样本队列进行等频划分,获得预设数量的第一样本区间;
根据流间隔所属的第一样本区间,将流间隔转换为第一样本区间对应的第一区间编号。
其中,第一流量需求样本队列可以是根据流间隔对流量需求样本进行排序获得的队列,排序的顺序可以是升序或者降序。第一样本区间可以是对第一流量需求样本队列进行等频划分获得的区间。
在本申请实施例中,可以根据流间隔对流量需求样本进行排序,获得对应的第一流量需求样本队列,然后基于第一流量需求样本队列进行等频划分,从而获得预设数量的第一样本区间,例如,100个第一样本区间,最后根据流间隔所属的第一样本区间,可以将流间隔转换为第一样本区间对应的第一区间编号。也就是说,第一区间编号是基于流间隔对流量需求样本处理获得的区间编号。
在一种可能的实施例中,基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,包括:
根据流大小对流量需求样本进行排序,获得对应的第二流量需求样本队列;
基于第二流量需求样本队列进行等频划分,获得预设数量的第二样本区间;
根据流大小所属的第二样本区间,将流大小转换为第二样本区间对应的第二区间编号。
其中,第二流量需求样本队列可以是根据流大小对流量需求样本进行排序获得的队列,排序的顺序可以是升序或者降序。第二样本区间可以是对第二流量需求样本队列进行等频划分获得的区间。
在本申请实施例中,可以根据流大小对流量需求样本进行排序,获得对应的第二流量需求样本队列,然后基于第二流量需求样本队列进行等频划分,从而获得预设数量的第二样本区间,例如,也可以是100个第二样本区间,最后根据流大小所属的第二样本区间,可以将流大小转换为第二样本区间对应的第二区间编号。也就是说,第二区间编号是基于流大小对流量需求样本处理获得的区间编号。
在一种可能的实施例中,基于源地址和目的地址划分流量需求子集,包括:
在源地址相同且目的地址相同的情况下,将流量需求样本划归同一流量需求子集;
在流量需求子集仅包括单条流量需求样本的情况下,删除流量需求子集。
在本申请实施例中,在源地址相同且目的地址相同的情况下,可以将流量需求样本划归同一流量需求子集,在完成流量需求子集的划归后,可以累计各流量需求子集包括的流量需求样本的数量,在流量需求子集仅包括单条流量需求样本的情况下,可以删除该流量需求子集。也就是说,流量需求子集包括的流量需求样本的源地址相同且目的地址相同,而且至少包括两条流量需求样本。
在一种可能的实施例中,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,包括:
获取流间隔和流大小的联合取值;
基于联合取值构建LDA概率主题模型;
训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵。
在本申请实施例中,可以将流量需求子集作为LDA概率主题模型的文档,流量需求样本可以作为对应文档的单词,接着可以获取流间隔和流大小的联合取值,将该联合取值作为流量需求样本在文档中的单词表示,然后可以基于用作单词表示的联合取值构建LDA概率主题模型,进而可以训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵。
在一种可能的实施例中,基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据,包括:
基于第一参数矩阵、源地址和目的地址获取高维特征类型;
基于高维特征类型和第二参数矩阵获取流间隔和流大小的联合区间编号;
基于联合区间编号、第一区间编号和第二区间编号获取流间隔和流大小对应的实数值;
基于实数值生成流量需求数据。
在本申请实施例中,可以基于第一参数矩阵、源地址和目的地址获取高维特征类型,然后可以基于高维特征类型和第二参数矩阵获取获取流间隔和流大小的联合区间编号,接着可以基于联合区间编号、第一区间编号和第二区间编号获取流间隔和流大小对应的实数值,例如,可以将联合区间编号根据第一区间编号和第二区间编号映射回实数值,最后可以基于实数值生成流量需求数据。这样,可以获得真实数据中心业务场景下的流量需求数据,真实数据中心业务场景是基于获取的包级别流量数据构建的。
需要说明的是,流量需求数据的生成步骤可以重复执行,从而实现流量需求数据的迭代生成,直到生成满足要求的数据量。
在一种可能的实施例中,基于第一参数矩阵、源地址和目的地址获取高维特征类型,包括:
基于第一参数矩阵,根据源地址和目的地址获取第一参数向量;
基于第一多项式分布模型,根据第一参数向量获取高维特征类型。
其中,第一参数向量可以是从第一参数矩阵中根据源地址和目的地址提取的参数向量。
在本申请实施例中,可以基于第一参数矩阵,根据源地址和目的地址获取第一参数向量,再基于第一多项式分布模型,根据第一参数向量获取高维特征类型。
需要说明的是,源地址和目的地址可以是通过遍历源地址和目的地址随机确定的源地址和目的地址,第一多项式分布模型的形式如下:
z~Multinominal(θr)
其中,z表示高维特征类型,θr表示第一参数向量。
在一种可能的实施例中,基于高维特征类型和第二参数矩阵获取流间隔和流大小的联合区间编号,包括:
基于第二参数矩阵,根据高维特征类型获取第二参数向量;
基于第二多项式分布模型,根据第二参数向量获取流间隔和流大小的联合区间编号。
其中,第二参数向量可以是从第二参数矩阵中根据高维特征类型提取的参数向量。
在本申请实施例中,可以基于第二参数矩阵,根据高维特征类型获取第二参数向量,再基于第二多项式分布模型,根据第二参数向量获取流间隔和流大小的联合区间编号。
需要说明的是,第二多项式分布模型的形式如下:
a~Multinominal(βz)
其中,a表示联合区间编号,βz表示第二参数向量。
为了实现上述实施例,如图2所示,本实施例中还提供了一种数据中心网络流量需求数据的生成装置200,该装置200包括:获取模块210,执行模块220,训练模块230,生成模块240。
获取模块210,用于获取流量需求样本,其中,流量需求样本包括源地址、目的地址、流间隔和流大小;
执行模块220,用于基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号;
训练模块230,用于基于源地址和目的地址划分流量需求子集,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,其中,第一参数矩阵是源地址至目的地址的高维特征概率分布矩阵,第二参数矩阵是高维特征到流间隔和流大小的联合概率分布矩阵;
生成模块240,用于基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据。
在一种可能的实施例中,获取模块210,包括:
第一获取单元,用于获取包级别流量数据;
处理单元,用于根据源地址、目的地址和被动超时间隔处理包级别流量数据,获得流量需求样本。
在一种可能的实施例中,执行模块220,包括:
第一排序单元,用于根据流间隔对流量需求样本进行排序,获得对应的第一流量需求样本队列;
第一划分单元,用于基于第一流量需求样本队列进行等频划分,获得预设数量的第一样本区间;
第一转换单元,用于根据流间隔所属的第一样本区间,将流间隔转换为第一样本区间对应的第一区间编号。
在一种可能的实施例中,执行模块220,包括:
第二排序单元,用于根据流大小对流量需求样本进行排序,获得对应的第二流量需求样本队列;
第二划分单元,用于基于第二流量需求样本队列进行等频划分,获得预设数量的第二样本区间;
第二转换单元,用于根据流大小所属的第二样本区间,将流大小转换为第二样本区间对应的第二区间编号。
在一种可能的实施例中,训练模块230,包括:
划归单元,用于在源地址相同且目的地址相同的情况下,将流量需求样本划归同一流量需求子集;
删除单元,用于在流量需求子集仅包括单条流量需求样本的情况下,删除流量需求子集。
在一种可能的实施例中,训练模块230,包括:
第二获取单元,用于获取流间隔和流大小的联合取值;
构建单元,用于基于联合取值构建LDA概率主题模型;
训练单元,用于训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵。
在一种可能的实施例中,生成模块240,包括:
第三获取单元,用于基于第一参数矩阵、源地址和目的地址获取高维特征类型;
第四获取单元,用于基于高维特征类型和第二参数矩阵获取流间隔和流大小的联合区间编号;
第五获取单元,用于基于联合区间编号、第一区间编号和第二区间编号获取流间隔和流大小对应的实数值;
生成单元,用于基于实数值生成流量需求数据。
在一种可能的实施例中,第三获取单元,包括:
第一获取子单元,用于基于第一参数矩阵,根据源地址和目的地址获取第一参数向量;
第二获取子单元,用于基于第一多项式分布模型,根据第一参数向量获取高维特征类型。
在一种可能的实施例中,第四获取单元,包括:
第三获取子单元,用于基于第二参数矩阵,根据高维特征类型获取第二参数向量;
第四获取子单元,用于基于第二多项式分布模型,根据第二参数向量获取流间隔和流大小的联合区间编号。
根据本申请实施例的数据中心网络流量需求数据的生成装置,通过获取流量需求样本,其中,流量需求样本包括源地址、目的地址、流间隔和流大小,然后基于流间隔和流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,再基于源地址和目的地址划分流量需求子集,并基于流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,最后基于第一区间编号、第二区间编号、第一参数矩阵和第二参数矩阵生成流量需求数据。本申请能够生成真实数据中心业务场景下的流量需求数据。
需要说明的是,前述对数据中心网络流量需求数据的生成方法实施例的解释说明也适用于该实施例的数据中心网络流量需求数据的生成装置,此处不再赘述。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种数据中心网络流量需求数据的生成方法,其特征在于,包括:
获取流量需求样本,其中,所述流量需求样本包括源地址、目的地址、流间隔和流大小;
基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号;
基于所述源地址和所述目的地址划分流量需求子集,并基于所述流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,其中,所述第一参数矩阵是所述源地址至所述目的地址的高维特征概率分布矩阵,所述第二参数矩阵是所述高维特征到所述流间隔和所述流大小的联合概率分布矩阵;
基于所述第一区间编号、所述第二区间编号、所述第一参数矩阵和所述第二参数矩阵生成流量需求数据;
其中,所述基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,包括:
根据所述流间隔对所述流量需求样本进行排序,获得对应的第一流量需求样本队列;
基于所述第一流量需求样本队列进行等频划分,获得预设数量的第一样本区间;
根据所述流间隔所属的所述第一样本区间,将所述流间隔转换为所述第一样本区间对应的所述第一区间编号;
其中,所述基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,还包括:
根据所述流大小对所述流量需求样本进行排序,获得对应的第二流量需求样本队列;
基于所述第二流量需求样本队列进行等频划分,获得预设数量的第二样本区间;
根据所述流大小所属的所述第二样本区间,将所述流大小转换为所述第二样本区间对应的所述第二区间编号。
2.根据权利要求1所述的方法,其特征在于,所述获取流量需求样本,包括:
获取包级别流量数据;
根据所述源地址、所述目的地址和被动超时间隔处理所述包级别流量数据,获得流量需求样本。
3.根据权利要求1所述的方法,其特征在于,所述基于所述源地址和所述目的地址划分流量需求子集,包括:
在所述源地址相同且所述目的地址相同的情况下,将所述流量需求样本划归同一所述流量需求子集;
在所述流量需求子集仅包括单条所述流量需求样本的情况下,删除所述流量需求子集。
4.根据权利要求1所述的方法,其特征在于,所述并基于所述流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,包括:
获取所述流间隔和所述流大小的联合取值;
基于所述联合取值构建LDA概率主题模型;
训练所述LDA概率主题模型,获得所述第一参数矩阵和第二参数矩阵。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一区间编号、所述第二区间编号、所述第一参数矩阵和所述第二参数矩阵生成流量需求数据,包括:
基于所述第一参数矩阵、所述源地址和所述目的地址获取高维特征类型;
基于所述高维特征类型和所述第二参数矩阵获取所述流间隔和所述流大小的联合区间编号;
基于所述联合区间编号、所述第一区间编号和所述第二区间编号获取所述流间隔和所述流大小对应的实数值;
基于所述实数值生成所述流量需求数据。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一参数矩阵、所述源地址和所述目的地址获取高维特征类型,包括:
基于所述第一参数矩阵,根据所述源地址和所述目的地址获取第一参数向量;
基于第一多项式分布模型,根据所述第一参数向量获取所述高维特征类型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述高维特征类型和所述第二参数矩阵获取所述流间隔和所述流大小的联合区间编号,包括:
基于所述第二参数矩阵,根据所述高维特征类型获取第二参数向量;
基于第二多项式分布模型,根据所述第二参数向量获取所述流间隔和所述流大小的所述联合区间编号。
8.一种数据中心网络流量需求数据的生成装置,其特征在于,包括:
获取模块,用于获取流量需求样本,其中,所述流量需求样本包括源地址、目的地址、流间隔和流大小;
执行模块,用于基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号;
训练模块,用于基于所述源地址和所述目的地址划分流量需求子集,并基于所述流量需求子集训练LDA概率主题模型,获得第一参数矩阵和第二参数矩阵,其中,所述第一参数矩阵是所述源地址至所述目的地址的高维特征概率分布矩阵,所述第二参数矩阵是所述高维特征到所述流间隔和所述流大小的联合概率分布矩阵;
生成模块,用于基于所述第一区间编号、所述第二区间编号、所述第一参数矩阵和所述第二参数矩阵生成流量需求数据;
其中,所述基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,包括:
根据所述流间隔对所述流量需求样本进行排序,获得对应的第一流量需求样本队列;
基于所述第一流量需求样本队列进行等频划分,获得预设数量的第一样本区间;
根据所述流间隔所属的所述第一样本区间,将所述流间隔转换为所述第一样本区间对应的所述第一区间编号;
其中,所述基于所述流间隔和所述流大小执行等频分箱离散化处理,获得第一区间编号和第二区间编号,还包括:
根据所述流大小对所述流量需求样本进行排序,获得对应的第二流量需求样本队列;
基于所述第二流量需求样本队列进行等频划分,获得预设数量的第二样本区间;
根据所述流大小所属的所述第二样本区间,将所述流大小转换为所述第二样本区间对应的所述第二区间编号。
CN202210742776.5A 2022-06-28 2022-06-28 数据中心网络流量需求数据的生成方法和装置 Active CN115086186B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210742776.5A CN115086186B (zh) 2022-06-28 2022-06-28 数据中心网络流量需求数据的生成方法和装置
US18/309,222 US12105774B2 (en) 2022-06-28 2023-04-28 Method for generating traffic demand data of data center network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210742776.5A CN115086186B (zh) 2022-06-28 2022-06-28 数据中心网络流量需求数据的生成方法和装置

Publications (2)

Publication Number Publication Date
CN115086186A CN115086186A (zh) 2022-09-20
CN115086186B true CN115086186B (zh) 2024-06-04

Family

ID=83255989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210742776.5A Active CN115086186B (zh) 2022-06-28 2022-06-28 数据中心网络流量需求数据的生成方法和装置

Country Status (2)

Country Link
US (1) US12105774B2 (zh)
CN (1) CN115086186B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682377A (zh) * 2017-11-22 2018-02-09 周燕红 一种在线流量异常检测方法及装置
CN111130839A (zh) * 2019-11-04 2020-05-08 清华大学 一种流量需求矩阵预测方法及其系统
CN111683011A (zh) * 2019-03-11 2020-09-18 华为技术有限公司 报文处理方法、装置、设备及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140058763A1 (en) * 2012-07-24 2014-02-27 Deloitte Development Llc Fraud detection methods and systems
US20140334304A1 (en) * 2013-05-13 2014-11-13 Hui Zang Content classification of internet traffic
CN108874768B (zh) * 2018-05-16 2019-04-16 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
KR102202842B1 (ko) * 2019-08-13 2021-01-14 서울대학교산학협력단 크리스토펠 함수의 과다한 연산량을 커널화 와서스타인 오토인코더를 이용하여 개선한 고차원 비지도 이상 탐지 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
US20220114593A1 (en) * 2020-10-14 2022-04-14 Paypal, Inc. Probabilistic anomaly detection in streaming device data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682377A (zh) * 2017-11-22 2018-02-09 周燕红 一种在线流量异常检测方法及装置
CN111683011A (zh) * 2019-03-11 2020-09-18 华为技术有限公司 报文处理方法、装置、设备及系统
CN111130839A (zh) * 2019-11-04 2020-05-08 清华大学 一种流量需求矩阵预测方法及其系统

Also Published As

Publication number Publication date
US20230421468A1 (en) 2023-12-28
US12105774B2 (en) 2024-10-01
CN115086186A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN113141317B (zh) 流媒体服务器负载均衡方法、系统、计算机设备、终端
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN103179052B (zh) 一种基于接近度中心性的虚拟资源分配方法及系统
CN102281290B (zh) 一种PaaS云平台的仿真系统及方法
CN109947574B (zh) 一种基于雾网络的车辆大数据计算卸载方法
CN112637883A (zh) 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法
CN113553160A (zh) 用于人工智能物联网的边缘计算节点任务调度方法及系统
CN116700920A (zh) 云原生混合部署集群资源调度方法及装置
CN115129463A (zh) 算力调度方法及装置、系统及存储介质
WO2021184367A1 (zh) 基于度分布生成模型的社交网络图生成方法
CN118017564B (zh) 一种基于开源鸿蒙系统的储能方法
CN115801896A (zh) 算力网络节点分配方法、装置、电子设备及存储介质
CN110191382B (zh) 一种基于路径排序的虚链路优先映射方法
CN114513816A (zh) 一种sdn网络资源分配方法、系统及存储介质
CN114629769A (zh) 自组织网络的流量图谱生成方法
CN115086186B (zh) 数据中心网络流量需求数据的生成方法和装置
Chen Design of computer big data processing system based on genetic algorithm
CN109194545A (zh) 一种网络试验平台流量生成系统、方法、装置及电子设备
CN114401195A (zh) 服务器的容量调整方法及装置、存储介质及电子设备
CN110138670B (zh) 一种基于动态路径的负载迁移方法
Teshabayev et al. The formation of the structure of a multiservice network based on communication equipment from different manufacturers
CN108337112B (zh) 一种基于信息流模型的网络动态业务建模方法
Nasser et al. An efficient data scheduling scheme for cloud-based big data framework for smart city
CN114884833B (zh) 基于鞅理论实现统计时延QoS保障的SFC逐跳带宽分配和部署方法
CN113395580B (zh) 一种基于视频通信的音视频同步方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant